Distribución χ²
En teoría de la probabilidad y en estadística, la distribución ji al cuadrado (también llamada distribución de Pearson o distribución ) con grados de libertad es la distribución de la suma del cuadrado de variables aleatorias independientes con distribución normal estándar. La distribución chi cuadrada es un caso especial de la distribución gamma y es una de las distribuciones de probabilidad más usadas en Inferencia Estadística, principalmente en pruebas de hipótesis y en la construcción de intervalos de confianza.
Distribución χ² (ji al cuadrado) | ||
---|---|---|
![]() Función de densidad de probabilidad | ||
![]() Función de distribución de probabilidad | ||
Parámetros | grados de libertad | |
Dominio | ||
Función de densidad (pdf) | ||
Función de distribución (cdf) | ||
Media | ||
Mediana | aproximadamente | |
Moda | si | |
Varianza | ||
Coeficiente de simetría | ||
Curtosis | ||
Entropía | ||
Función generadora de momentos (mgf) | para | |
Función característica | ||
DefiniciónEditar
Como la suma de normales estándarEditar
Sean variables aleatorias independientes tales que para entonces la variable aleatoria definida por
tiene una distribución chi cuadrada con grados de libertad.
NotaciónEditar
Si la variable aleatoria continua tiene una distribución Chi Cuadrada con grados de libertad entonces escribiremos o .
Función de DensidadEditar
Si entonces la función de densidad de la variable aleatoria es
para donde es la función gamma.
Función de Distribución AcumuladaEditar
Si entonces su función de distribución está dada por
donde es la función gamma incompleta.
En particular cuando entonces esta función toma la forma
PropiedadesEditar
Si entonces la variable aleatoria satisface algunas propiedades.
MediaEditar
La media de la variable aleatoria es
VarianzaEditar
La varianza de la variable aleatoria es
Función generadora de momentosEditar
La función generadora de momentos de es
para .
TeoremaEditar
Sea una muestra aleatoria proveniente de una población con distribución entonces
- y el vector son independientes.
- y son independientes.
- .
- y .
donde
y
son la media y varianza de la muestra aleatoria respectivamente.
Intervalos de confianza para muestras de la distribución normalEditar
Intervalo para la varianzaEditar
Sean una muestra aleatoria proveniente de una población con distribución donde y son desconocidos.
Se tiene que
Sean tales que
siendo entonces
por lo tanto un intervalo de de confianza para está dado por
Distribuciones relacionadasEditar
- La distribución con grados de libertad es un caso particular de la distribución gamma pues si
- entonces .
- Cuando k es suficientemente grande, como consecuencia del teorema del límite central, puede aproximarse por una distribución normal:
AplicacionesEditar
La distribución χ² tiene muchas aplicaciones en inferencia estadística. La más conocida es la denominada prueba χ², utilizada como prueba de independencia y como prueba de buen ajuste y en la estimación de varianzas. Pero también está involucrada en el problema de estimar la media de una población normalmente distribuida y en el problema de estimar la pendiente de una recta de regresión lineal, a través de su papel en la distribución t de Student.
Aparece también en todos los problemas de análisis de varianza por su relación con la distribución F de Snedecor, que es la distribución del cociente de dos variables aleatorias independientes con distribución χ².
Véase esto también
Métodos computacionalesEditar
Tabla de valores χ2 vs valores pEditar
El valor p es la probabilidad de observar un estadístico de prueba "al menos" como extremo en una distribución de ji-cuadrado. Por lo tanto, dado que la función de distribución acumulativa (CDF) para los grados de libertad apropiados (df, del inglés degree of freedom) da la probabilidad de haber obtenido un valor menos extremo que este punto, restando el valor de CDF de 1 da el valor p. Un valor p bajo, por debajo del nivel de significación elegido, indica significación estadística, es decir, evidencia suficiente para rechazar la hipótesis nula. Un nivel de significancia de 0.05 se usa a menudo como el punto de corte entre resultados significativos y no significativos.
La siguiente tabla da un número de valores p que coinciden con para los primeros 10 grados de libertad.
Grados de libertad (df) | valor [1] | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
1 | 0.004 | 0.02 | 0.06 | 0.15 | 0.46 | 1.07 | 1.64 | 2.71 | 3.84 | 6.63 | 10.83 |
2 | 0.10 | 0.21 | 0.45 | 0.71 | 1.39 | 2.41 | 3.22 | 4.61 | 5.99 | 9.21 | 13.82 |
3 | 0.35 | 0.58 | 1.01 | 1.42 | 2.37 | 3.66 | 4.64 | 6.25 | 7.81 | 11.34 | 16.27 |
4 | 0.71 | 1.06 | 1.65 | 2.20 | 3.36 | 4.88 | 5.99 | 7.78 | 9.49 | 13.28 | 18.47 |
5 | 1.14 | 1.61 | 2.34 | 3.00 | 4.35 | 6.06 | 7.29 | 9.24 | 11.07 | 15.09 | 20.52 |
6 | 1.63 | 2.20 | 3.07 | 3.83 | 5.35 | 7.23 | 8.56 | 10.64 | 12.59 | 16.81 | 22.46 |
7 | 2.17 | 2.83 | 3.82 | 4.67 | 6.35 | 8.38 | 9.80 | 12.02 | 14.07 | 18.48 | 24.32 |
8 | 2.73 | 3.49 | 4.59 | 5.53 | 7.34 | 9.52 | 11.03 | 13.36 | 15.51 | 20.09 | 26.12 |
9 | 3.32 | 4.17 | 5.38 | 6.39 | 8.34 | 10.66 | 12.24 | 14.68 | 16.92 | 21.67 | 27.88 |
10 | 3.94 | 4.87 | 6.18 | 7.27 | 9.34 | 11.78 | 13.44 | 15.99 | 18.31 | 23.21 | 29.59 |
Valor p (probabilidad) | 0.95 | 0.90 | 0.80 | 0.70 | 0.50 | 0.30 | 0.20 | 0.10 | 0.05 | 0.01 | 0.001 |
Estos valores se pueden calcular evaluando la función cuantil (también conocida como "FDC inversa" o "ICDF") de la distribución ji-cuadrado;[2] por ejemplo, el χ2 ICDF de p = 0.05 y df = 7 rinde 2.1673 ≈ 2.17 como en la tabla anterior, observando que 1 – p es el valor p de la tabla.
HistoriaEditar
Esta distribución fue descrita por primera vez por el geodésico y estadístico alemán Friedrich Robert Helmert en artículos de 1875–6,[3][4] donde calculó la distribución muestral de la varianza muestral de una población normal. Así, en alemán, esto se conocía tradicionalmente como Helmert'sche ("Helmertiano") o "distribución de Helmert".
La distribución fue redescubierta de forma independiente por el matemático inglés Karl Pearson en el contexto de la bondad de ajuste, para lo cual desarrolló su prueba de ji-cuadrado de Pearson, publicada en 1900, con una tabla calculada de valores publicados en (Elderton, 1902), recogida en (Pearson, 1914, Table XII). El nombre "ji-cuadrado" deriva en última instancia de la abreviatura de Pearson para el exponente en una distribución normal multivariada con la letra griega ji, escribiendo −½χ2 por lo que aparecería en la notación moderna como −½xTΣ−1x (Σ siendo la matriz de covarianza).[5] Sin embargo, la idea de una familia de "distribuciones de ji-cuadrado" no se debe a Pearson, sino que surgió como un desarrollo posterior debido a Fisher en la década de 1920.[3]
Véase tambiénEditar
ReferenciasEditar
- ↑ Chi-Squared Test Table B.2. Dr. Jacqueline S. McLaughlin at The Pennsylvania State University. In turn citing: R. A. Fisher and F. Yates, Statistical Tables for Biological Agricultural and Medical Research, 6th ed., Table IV. Two values have been corrected, 7.82 with 7.81 and 4.60 with 4.61
- ↑ R Tutorial: Chi-squared Distribution
- ↑ a b Hald, 1998, 27. Sampling Distributions under Normality.
- ↑ F. R. Helmert, "Ueber die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und über einige damit im Zusammenhange stehende Fragen", Zeitschrift für Mathematik und Physik 21, 1876, pp. 192–219
- ↑ R. L. Plackett, Karl Pearson and the Chi-Squared Test, International Statistical Review, 1983, 61f. See also Jeff Miller, Earliest Known Uses of Some of the Words of Mathematics.
Para más informaciónEditar
- Hald, Anders (1998). A history of mathematical statistics from 1750 to 1930. New York: Wiley. ISBN 978-0-471-17912-2.
- Elderton, William Palin (1902). «Tables for Testing the Goodness of Fit of Theory to Observation». Biometrika 1 (2): 155-163. doi:10.1093/biomet/1.2.155.
- Hazewinkel, Michiel, ed. (2001), «Chi-squared distribution», Encyclopaedia of Mathematics (en inglés), Springer, ISBN 978-1556080104.
- Pearson, Karl (1914). «On the probability that two independent distributions of frequency are really samples of the same population, with special reference to recent work on the identity of Trypanosome strains». Biometrika 10: 85-154. doi:10.1093/biomet/10.1.85.
Enlaces externosEditar
- Calculadora e la probabilidad de una distribución de Pearson con R (lenguaje de programación)
- DynStats Archivado el 30 de marzo de 2018 en Wayback Machine.: Laboratorio estadístico en línea con calculadora de funciones de distribución