Razón de correlación

En Estadística, la razón de correlación es una medida de la relación entre la dispersión estadística entre categorías individuales y la dispersión entre la muestra o la población completa.

Suponga que cada observación es y_xi donde 'x' indica la categoría a la que pertenece la observación, 'i' es la etiqueta de la observación en particular. Digamos que n_x es el número de observaciones en la categoría 'x'

{\overline {y}}_{x}={\frac {\sum _{i}y_{xi}}{n_{x}}}

y

{\overline {y}}={\frac {\sum _{x}n_{x}{\overline {y}}_{x}}{\sum _{x}n_{x}}},

Donde ${\overline {y}}_{x}$ es la media de la categoría x y ${\overline {y}}$ es la media de la población. La razón de correlación η (eta) está definida para satisfacer

\eta ^{2}={\frac {\sum _{x}n_{x}({\overline {y}}_{x}-{\overline {y}})^{2}}{\sum _{x,i}(y_{xi}-{\overline {y}})^{2}}}

el cual puede ser escrita como

\eta ^{2}={\frac {{\sigma _{\overline {y}}}^{2}}{{\sigma _{y}}^{2}}},{\text{ donde }}{\sigma _{\overline {y}}}^{2}={\frac {\sum _{x}n_{x}({\overline {y}}_{x}-{\overline {y}})^{2}}{\sum _{x}n_{x}}}{\text{ y }}{\sigma _{y}}^{2}={\frac {\sum _{x,i}(y_{xi}-{\overline {y}})^{2}}{n}},

es decir la varianza ponderada de las medias categóricas dividida por la varianza de todas la muestras .

Vale la pena señalar que si la relación entre los valores de $x\;\$ y los valores de ${\overline {y}}_{x}$ es lineal (lo cual es sin duda cierto cuando solo hay 2 posibilidades para x) esto dará el mismo resultado que el cuadrado del coeficiente de correlación, de otro modo la razón de correlación puede ser mayor en magnitud. Por lo tanto, se puede utilizar para juzgar las relaciones no lineales.

Rango editar

La razón de correlación $\eta$ toma valores entre 0 y 1. El límite $\eta =0$ representa el caso especial de la no dispersión entre la medias de las diferentes categorías, mientras $\eta =1$ se refiere a la no dispersión dentro de las respectivas categorías. Tenga en cuenta además, que $\eta$ es indefinido cuando todos los puntos de datos de la población completa toman el mismo valor.

Ejemplo editar

Suponga que hay una distribución de puntuaciones de examen en tres tópicos (categorías):

Álgebra: 45, 70, 29, 15, 21 (5 puntuaciones)
Geometría: 40, 20, 30, 42 (4 puntuaciones)
Estadística: 65, 95, 80, 70, 85 ,73 (6 puntuaciones).

Entonces los promedios por categoría son 36, 33 y 78 respectivamente:

{\overline {X}}_{algebra}={\frac {(45+70+29+15+21)}{5}}={\frac {180}{5}}=36

{\overline {X}}_{geometria}={\frac {(40+20+30+42)}{4}}={\frac {132}{4}}=33

{\overline {X}}_{estadistica}={\frac {(65+95+80+70+85+73)}{6}}={\frac {468}{6}}=78

Con un promedio general de 52.

{\overline {X}}={\frac {(45+70+29+15+21)+(40+20+30+42)+(65+95+80+70+85+73)}{5+4+6}}={\frac {180+132+468}{5+4+6}}={\frac {780}{15}}=52

Las sumas de cuadrados para las diferencia con respecto de la media por categoría son:

Álgebra : $(45-36)^{2}+(70-36)^{2}+(29-36)^{2}+(15-36)^{2}+(21-36)^{2}=1952$

Geometría : $(40-33)^{2}+(20-33)^{2}+(30-33)^{2}+(42-33)^{2}=308$

Estadística : $(65-78)^{2}+(95-78)^{2}+(80-78)^{2}+(70-78)^{2}+(85-78)^{2}+(73-78)^{2}=600$

Sumatoria : $1952+308+600=2860$

La suma de cuadrados de la diferencia con respecto de la media global es:

(45-52)^{2}+(70-52)^{2}+(29-52)^{2}+(15-52)^{2}+(21-52)^{2}+(40-52)^{2}+(20-52)^{2}+(30-52)^{2}+(42-52)^{2}+(65-52)^{2}+(95-52)^{2}+(80-52)^{2}+(70-52)^{2}+(85-52)^{2}+(73-52)^{2}=9640

Las sumas de los cuadrados de las diferencias con respecto de la media de las categorías son 1952 para Álgebra, 308 para Geometría y 600 para Estadística, Sumando $1952+308+600=2860$ , mientras que la suma de cuadrados para la diferencia con respecto de la media general es de 9640. La diferencia entre estos es de $9640-2860=6780$ que es también la suma ponderada del cuadrado de las diferencias entre los promedios de categorías y el promedio global:

5(36-52)^{2}+4(33-52)^{2}+6(78-52)^{2}=6780

Esto nos da

\eta ^{2}={\frac {6780}{9640}}=0.7033\ldots

Lo que sugiere que la mayoría de la dispersión global es el resultado de las diferencias entre los tópicos, y no dentro de los tópicos. Tomando la raíz cuadrada

\eta ={\sqrt {\frac {6780}{9640}}}=0.8386\ldots

Observe que para $\eta =1$ la dispersión de la muestra global se debe únicamente a la dispersión entre las categorías y en absoluto debido a la dispersión dentro de las categorías individuales. Para una comprensión rápida, simplemente imagine que los resultados de Álgebra, Geometría y Estadísticas son los mismos, respectivamente, por ejemplo, 5 veces 36, 4 veces 33, 6 veces 78.

El límite $\eta =0$ se refiere al caso sin dispersión en las categorías que contribuyen a la dispersión global. El requisito trivial para este extremo es que todas las medias por categoría sean las mismas.

Pearson v. Fisher editar

La razón de correlación fue introducida por Karl Pearson como parte de analysis of variance. En Statistical Methods for Research Workers, Ronald Fisher comento:

Como un estadístico descriptivo la utilidad de la razón de correlación es extremamente limitada.. Se notara que el número de grados de libertad en el numerador de $\eta ^{2}$ depende del número de los arreglos^[1]

al cual Egon Pearson (hijo de Karl) respondió en una revisión al libro de Fisher diciendo

Una vez más, un método largamente establecido como la utilización del coeficiente de correlación [§ 45 La "Razón de Correlación" η] se pasa por encima en pocas palabras, sin una descripción adecuada, lo cual es quizás difícilmente justo para el estudiante a quien no se le da oportunidad de juzgar su ámbito de aplicación por sí mismo. ^[2]

Referencias editar

Datos: Q5172857

[1] ttp://psychclassics.yorku.ca/Fisher/Methods/chap8.htm

[2] ttp://www.economics.soton.ac.uk/staff/aldrich/fisherguide/esp.htm#esp1

[1]

[2]