Centralidad de vector propio

una medida de la influencia de un nodo en una red

En análisis de redes sociales, la centralidad de vector propio (en inglés, eigenvector centrality), también llamado prestigio de rango o prestigio de estatus, es una medida de centralidad utilizada para cuantificar el nivel de influencia, prestigio o estatus de un nodo o actor en un grafo o red social.[1]​ Corresponde al principal vector propio de la matriz de adyacencia del grafo analizado.[2]

Ejemplo de un mismo grafo donde se visualizan distintas medidas de centralidad:
A) intermediación
B) cercanía
C) vector propio
D) grado
E) centralidad armónica
F) centralidad de Katz
Las tonalidades van del rojo (más centrales) al azul (más periféricos).

Intuitivamente, los nodos o actores que poseen un valor alto de esta medida de centralidad están conectados a otros nodos que a su vez son muy relevantes, en el sentido de la misma medida, o bien a muchos otros nodos, quizás menos relevantes. Por el contrario, los nodos conectados a otros nodos periféricos o poco relevantes, tendrán una baja centralidad de vector propio.[1]​ Por lo tanto, los actores con un alto valor para esta medida son buenos candidatos para difundir información, divulgar rumores o enfermedades, etc. Los nodos más centrales en este sentido corresponden a centros de grandes grupos cohesivos.

En general habrá varios valores propios para los cuales existe una solución de vector propio. Sin embargo, debido al teorema de Perron-Frobenius, el requerimiento adicional de que las entradas de los vectores propios sean positivos implica que sólo los mayores valores propios conduzcan a la medida de centralidad deseada.[3]​ El método de las potencias es uno de los muchos algoritmos existentes para calcular el valor propio que puede ser utilizado para encontrar el vector propio dominante.[4]​ Además, este puede generalizarse tal que las entradas en la matriz de adyacencia puedan ser números reales representrando fuerzas de conexión, como en una matriz estocástica.

Esta medida es, junto a la centralidad de grado, de cercanía y de intermediación, una de las cuatro medidas de centralidad tradicionales. La centralidad de vector propio es una medida radial de volumen, por lo que algunos autores la consideran una generalización de la centralidad de grado.[2]​ En realidad, mientras que en la centralidad de grado cada nodo contribuye lo mismo al grado de un nodo de la red, en este caso los nodos y sus conexiones contribuyen de forma diferente. A su vez, al considerar también de alguna manera los caminos dentro de la red, otros autores la consideran un tipo de índices de prestigio, variantes de la centralidad de cercanía.[1]

Historia editar

El estudio de la centralidad en los sociogramas y las redes sociales se inició a fines de los años 1940.[5][6]​ Ya desde entonces, surgió el problema de qué ocurría si el rango o estatus de un actor dependía del rango de otros actores, pero el rango de dichos actores también dependían a su vez del actor inicial.Seeley (1949) fue el primero en utilizar los vectores propios del álgebra lineal para proponer una solución a este problema.[7]​ Estas ideas fueron luego retomadas por Katz (1953),[8]Hubbell (1965),[9]Taylor (1969),[10]Bonacich (1972b)[11]​ y trabajos posteriores,[12][13]Coleman (1973),[14]Burt (1982),[15]Mizruchi et al. (1986)[16]​ y Tam (1989).[17]

En particular, la motivación de Hubbell y Bonacich para generalizar la medida de centralidad original de Seeley fue la creación de métodos para identificar subgrupos cohesivos de actores.[1]

Definición formal editar

En lo que sigue, se define formalmente un grafo como un par ordenado  , donde   es su conjunto de nodos o vértices y   su conjunto de aristas. El número de vértices se denota como  . Sea   la matriz de adyacencia de   y   su matriz transpuesta.

Formalmente, la centralidad de vector propio   de un nodo   se define como:[1]

(1) 

Considerando el vector   con las centralidades de todos los nodos de la red, se obtiene el siguiente sistema de ecuaciones lineales de   ecuaciones y   incógnitas:

 , o equivalentemente,  

donde   es la matriz identidad de dimensión  .

Esta última es una ecuación característica donde   es un autovector de   que corresponde a un autovalor de  . Este sistema de ecuaciones no tiene una solución finita,[8]​ por lo que de ella derivan distintas variaciones de esta medida de centralidad, dependiendo de cómo restringen   o los índices de  .[1]

Variaciones de centralidad de vector propio editar

La mayoría de variaciones de la centralidad de vector propio buscan establecer ajustes de parámetros que permitan encontrar soluciones finitas al sistema de ecuaciones lineales de la definición original de la medida.[1]​ Hay algunas variaciones adicionales que se inspiran en la medida original para aplicaciones en dominios específicos, como es el caso de PageRank, creado originalmente para mejorar el motor de búsqueda del buscador de Google.

Centralidad de Katz editar

Katz (1953) propone estandarizar (o normalizar) la matriz de adyacencia de la red, de modo que la suma de las columnas siempre den como resultado la unidad. Esto permite que el sistema de ecuaciones lineales de la centralidad de vector propio tenga una solución conocida, a saber, el autovector asociado con el autovalor más alto de la matriz   normalizada, que es la unidad. Adicionalmente, el mismo Katz (1953) añade un «parámetro de atenuación»  , de modo que para un nodo dado, se cuentan todos los otros nodos conectados con él a través de un camino, pero penalizando las conexiones con los nodos más distantes.[1]

Formalmente, la centralidad de Katz   de un nodo   se define como:[1]

 

donde   es el parámetro o factor de atenuación a una distancia   entre los nodos, y   es la matriz que representa las conexiones entre nodos de la red a una distancia  .[1]​ Como definición análoga,  ,   es un vector fila cuyo  -ésimo elemento es 1 y el resto son 0, y   es un vector de puros unos.[2]

Note que el parámetro de atenuación   es un valor desconocido que debe ser estimado para cada red considerada. La solución de este nuevo sistema corresponde al vector   que resuelva la siguiente ecuación:

 

donde   es el vector de los grados de entrada de la matriz de adyacencia   no estandarizada.

Sea   el mayor autovalor de esta matriz  , Katz recomienda las siguientes cotas para el recíproco del parámetro de atenuación:  . También se sugiere para la facilidad de los cálculos que   sea un número entero.[1]​ La centralidad de vector propio es el límite de la centralidad de Katz cuando el factor   se aproxima a   por debajo.[2][18]

Centralidad de Hubbell editar

La centralidad de Hubbell parte de la ecuación (1), pero agrega una constante a cada actor para representar su «contribución exógena» a su propio prestigio. Esto lleva a una ecuación matricial, que puede solucionarse asumiendo ciertas restricciones, tales como que los valores de las columnas sumen  .[1]​ La medida se puede definir formalmente como:[9]

 

donde   es una matriz e   un vector.

Centralidad de Bonacich editar

Una pequeña variación de la centralidad de Katz está dada por la centralidad de Bonacich.[13]​ Aquí el «parámetro de atenuación»   es denotado como   y se denomina «parámetro de dependencia»; su magnitud representa el grado en que la centralidad de un actor depende de la centralidad de sus vecinos. Esta relación es monótona. Por su parte,   es aquí un «parámetro de escala» para la resolución del sistema de ecuaciones, cuya elección depende del parámetro  .[1]

 

La idea es, a partir de la ecuación (1), normalizar el vector   multiplicándolo por un parámetro único, cuya mejor opción es el mayor autovalor.[11]

El parámetro   puede ser tanto positivo como negativo.[1]​ Los valores negativos permiten restar los caminos de número par de los de número impar, lo cual es interpretable en redes de intercambio.[2][18]

Si  , estamos en presencia de la medida de centralidad de Kast.[1]​ Note también que la centralidad de Hubbell actúa como una generalización de las centralidades de Katz y Bonacich.[9]​ En efecto, si   y   se obtiene la centralidad de Katz, y si   y  , se obtiene la centralidad de Bonacich.[2]

Para esta medida, una parte de la centralidad de un actor es «obtenida» (prestigio que consigue de otros actores) y otra parte es «reflejada» (prestigio que le retorna otros actores a los que previamente les dio prestigio). Los actores que actúan como «polos» o hubs (es decir, actores conectados con muchos actores periféricos) tienen altos índices de prestigio reflejado, mientras que los actores que actúan como «puentes» o bridges (es decir, actores conectados con pocos actores centrales o prestigiosos) tienen altos índices de prestigio obtenido.[19]

Centralidad alfa editar

La centralidad alfa es una variante en que los nodos están sujetos a distinta importancia dependiendo de factores externos. Esta medida fue definida por Bonacich y Lloyd en 2001.[20]

PageRank editar

El cálculo del PageRank de Google, utilizado para medir la relevancia de páginas web en Internet, es una variante de esta medida.[4]

Implementaciones de medidas editar

Para fines de los años 1980 y principios de los 1990, existían muy pocos paquetes informáticos para calcular medidas de centralidad de vector propio. Uno de ellos era GRADAP,[21]​ si bien también estaba la posibilidad de implementarlas usando GAUSS o la biblioteca IMSL de Fortran.[1]

Actualmente, la centralidad de vector propio está implementada en librerías de diversos lenguajes de programación, tales como R o Python, así como en aplicaciones de análisis de redes sociales como Gephi. La centralidad alfa está implementada en la biblioteca de un software de análisis de redes sociales denominado igraph, y se utiliza para especificar la importancia relativa de factores endógenos vs. exógenos en una determinación de centralidad al momento de analizar o visualizar una red.[22]

Véase también editar

Referencias editar

  1. a b c d e f g h i j k l m n ñ o Wasserman y Faust, 2013, «Centralidad y prestigio», pp. 191-240.
  2. a b c d e f Sun, J.; Tang, J. (2011). «A survey of models and algorithms for social influence analysis». En Charu C. Aggarwal, ed. Social network data analytics (Nueva York: Springer): 177-214. doi:10.1007/978-1-4419-8462-3. 
  3. Newman, M.E.J. The mathematics of networks (PDF). Consultado el 2 de enero de 2012. 
  4. a b Austin, D. «How Google Finds Your Needle in the Web's Haystack» (en inglés). Consultado el 2 de enero de 2013. 
  5. Bavelas, A. (1950). «Communication Patterns in Task-Oriented Groups». Journal of the Acoustical Society of America 22: 271-282. 
  6. Leavitt, H. J. (1951). «Some Effects of Communication Patterns on Group Performance». Journal of Abnormal and Social Psychology 46: 38-50. 
  7. Seeley, J. R. (1949). «The net of reciprocal influence: A problem in treating sociometric data». Canadian Journal of Psychology 3 (4): 234-240. doi:10.1037/h0084096. 
  8. a b Katz, L. (1953). «A new status index derived from sociometric analysis». Psychometrika 18: 39-43. doi:10.1007/BF02289026. 
  9. a b c Hubbell, C. H. (1965). «An input-output approach to clique detection». Sociometry 28 (4): 277-299. doi:10.2307/2785990. 
  10. Taylor, M. (1969). «Influence structures». Sociometry 32 (4): 491-502. doi:10.2307/2786549. 
  11. a b Bonacich, P. (1972b). «Technique for analyzing overlapping memberships». Sociological Methodology 4: 176-185. doi:10.2307/270732. 
  12. Bonacich, P. (1972). «Factoring and weighting approaches to clique identification». Journal of Mathematical Sociology 2 (1): 113-120. doi:10.1080/0022250X.1972.9989806. 
  13. a b Bonacich, P. (1987). «Power and centrality: A family of measures». American Journal of Sociology 92 (5): 1170-1182. JSTOR 2780000. doi:10.1086/228631. 
  14. Coleman, J. S. (1973). The mathematics of collective action. Chicago: Aldine. 
  15. Burt, R. S. (1982). Towards a structural theory of action: Network models of social structure, perceptions, and action. Nueva York: Academic Press. 
  16. Mizruchi, M. S.; Mariolis, P.; Schwartz, M.; Mintz, B. (1986). «Techniques for disaggregating centrality scores in social networks». Sociological Methodology 16: 26-48. doi:10.2307/270918. 
  17. Tam, T. (1989). «Demarcating the boundaries between self and the social: The anatomy of centrality in social networks». Social Networks 11 (4): 387-401. doi:10.1016/0378-8733(89)90013-0. 
  18. a b Borgatti, S.P.; Everett, M.G. (2006). «A graph-theoretic perspective on centrality». Social networks 28 (4): 466-484. doi:10.1016/j.socnet.2005.11.005. 
  19. Mizruchi, M. S.; Mariolis, P.; Schwartz, M.; Mintz, B. (1986). «Techniques for disaggregating centrality scores in social networks». Sociological Methodology 16: 26-48. doi:10.2307/270918. 
  20. Bonacich, Phillip; Lloyd, Paulette (2001). «Eigenvector-like measures of centrality for asymmetric relations». Social Networks 23 (3): 191-201. doi:10.1016/S0378-8733(01)00038-7. 
  21. Sprenger, C. J. A.; Stokman, F. N. (1989). GRADAP: Graph definition and analysis package. Groningen: iec ProGAMMA. 
  22. Package igraph version 0.6. «Find Bonacich alpha centrality scores of network positions». Archivado desde el original el 20 de marzo de 2012. Consultado el 4 de enero de 2013. 

Bibliografía editar

  • Wasserman, Stanley; Faust, Katherine (2013) [1994]. Análisis de redes sociales: Métodos y aplicaciones. Madrid: Centro de Investigaciones Sociológicas. ISBN 978-84-7476-631-8. OCLC 871814053.