Estadístico de contraste

Un estadístico de contraste es un estadístico utilizado en contrastes de hipótesis^[1]. Un contraste de hipótesis se construye habitualmente a partir de un estadístico muestral que resume la información de los datos observados en un valor que permite decidir si rechazar la hipótesis nula.

La propiedad más importante de un estadístico de contraste es que su distribución muestral bajo la hipótesis nula debe ser calculable, ya sea de forma exacta o aproximada. Se decide rechazar la hipótesis nula en cuando el valor que toma el estadístico es un valor que sería muy raro observar si la hipótesis nula fuese cierta. Esto suele ser expresado como que el valor supere un cierto umbral fijado a priori gracias al conocimiento de la distribución del estadístico.

Un estadístico de contraste comparte propiedades con los estadísticos que se usan en estadística descriptiva, y muchos estadísticos se pueden usar como estadísticos de contraste y estadísticos descriptivos. Sin embargo, algunas algunos estadísticos usados en estadística descriptiva, como el rango, no sirven para realizar contrastes ya que es difícil determinar su distribución en el muestreo.

Dos estadísticas de prueba muy utilizadas son la prueba t de Student y la del estadístico F.

Ejemplo

Supongamos que queremos determinar si una moneda está trucada (es decir, tiene las mismas probabilidades de caer cara o cruz). Se lanza la moneda 100 veces y se registran los resultados. Basta registrar el número $X$ de los 100 lanzamientos que produjeron cruz. A continuación, este valor se puede usar como estadístico de contraste:

la distribución muestral exacta de $X$ bajo la hipótesis nula es la distribución binomial con parámetros $p={\frac {1}{2}}$ y $n=100$ ;
el número de cruces esperado suponiendo cierta la hipótesis nula es la esperanza de una binomial, $\mathbb {E} [X]=np=50$ cruces
dado que el tamaño de la muestra es grande, se puede usar una aproximación normal, ${\sqrt {n}}({\bar {X}}-\mathbb {E} [X]){\text{var}}(X)^{-1/2}\ {\overset {aprox}{\sim }}{\mathcal {N}}(0,1)$ .

Usando bien la distribución exacta o la normal aproximada, es posible calcular un p-valor para la hipótesis nula de que la moneda es justa. El estadístico de prueba reduce un conjunto de 100 observaciones a un solo número $X$ .

Tipos de estadísticos habituales

Un primer tipo de estadísticos son aquellos que se usan para contrastar el valor de un parámetro poblacional como, por ejemplo, la media de la distribución o su desviación típica. Distinguimos entre los siguientes:

Estadísticos basados en una sola muestra para contrastar a través de ella el valor de la característica poblacional.
Estadísticos basados en dos muestras para comparar dos poblaciones independientes; no importando el valor de los parámetros poblacionales sino si estos son iguales.
Estadísticos basados en muestras pareadas usados con muestras bivariantes, i.e. cada observación consta de dos variables en general correladas; es importante distinguir estos contrastes de los anteriores, pues el efecto de la correlación es significativo.

La prueba t de Student es el nombre general que reciben los contrastes que utilizas un estadístico que se distribuye (asintóticamente) como una T de student y hay versiones del mismo para cada uno de los casos anteriores.

Un segundo tipo de estadísticos son los destinados a contrastar otros aspectos distintos al valor concreto de una característica de la distribución, por ejemplo:

Estadísticos para contrastar la independencia de dos variables, como la prueba χ² de Pearson.
Estadísticos para contrastar la distribución, es decir, si una variable se distribuye de acuerdo a una distribución dada, o si dos variables comparten misma distribución aunque no se sepa cuál es, como la prueba de Kolmogórov-Smirnov.

Por último, en el contexto de los modelos estadísticos, se recurre continuamente a

Estadísticos para contrastar la significación de las estimaciones de parámetros, que se basan a menudo en las propiedades asintóticas de los estimadores, por ejemplo, el test de Wald.
Estadísticos para contrastar la bondad de ajuste del modelo, como por ejemplo el estadístico de desviación (medida de bondad de ajuste).
Estadísticos para comparar dos modelos, a menudo encajados, como el estadístico razón de verosimilitudes.

Tabla de estadísticos habituales

Estadísticos de contraste para poblaciones normales

Nombre	Fórmula	Comentarios
Test para contrastar la media con varianza conocida	$z={\frac {{\overline {x}}-\mu _{0}}{({\sigma }/{\sqrt {n}})}}$	Se debe conocer la desviación típica. Cuando la población es normal el test tiene distribución normal estándar exacta. Si no, se necesita un tamaño de muestra grande para que aplique el teorema central de límite (TCL). El valor del estadístico es la distancia (medida en unidades tipificadas) desde la media muestral a la media poblacional.
Test para contrastar la media con varianza desconocida	$t={\frac {{\overline {x}}-\mu _{0}}{(s/{\sqrt {n}})}}$	Se sustituye la desviación típica por la cuasi-desviación típica. Si la población es normal, el estadístico tiene una distribución $t_{n-1}$ exacta. Si no, se necesita un tamaño de muestra grande para que aplique el TCL
Test para igualdad de medias de dos poblaciones independientes con varianzas conocidas (posiblemente distintas)	$z={\frac {({\overline {x}}_{1}-{\overline {x}}_{2})-(\mu _{10}-\mu _{20})}{\sqrt {{\frac {\sigma _{1}^{2}}{n_{1}}}+{\frac {\sigma _{2}^{2}}{n_{2}}}}}}$	Cuando las poblaciones son normales e independientes la distribución es una normal estándar. Si no, se necesita un tamaño de muestra grande para que aplique el teorema central de límite.
Test para igualdad de medias de dos poblaciones no independientes (muestra pareada)	$t={\frac {{\overline {d}}-d_{0}}{(s_{d}/{\sqrt {n}})}}$	$(x_{1i},x_{2i})$ son las observaciones de la muestra, y se definen las $d_{i}=x_{1i}-x_{2i}$ , con $d_{0}$ el valor a contrastar para la diferencia de medias. $s_{d}$ es la cuasi-desviación típica las $d_{i}$ . Si la población es normal, el estadístico tiene una distribución $t_{n-1}$ exacta. Si no, se necesita un tamaño de muestra grande para que aplique el TCL.
Test para contrastar igualdad de medias en poblaciones independientes con igual varianza desconocida	$t={\frac {({\overline {x}}_{1}-{\overline {x}}_{2})-d_{0}}{s_{p}{\sqrt {{\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}}}}}$ $s_{p}^{2}={\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}},$	Se tienen muestras de tamaños $n_{1},\ n_{2}$ respectivamente. Si la población es normal, el estadístico tiene una distribución $t_{n_{1}+n_{2}-2}$ exacta. Si no, se necesita un tamaño de muestra grande para que aplique el TCL.
Test para contrastar igualdad de medias en poblaciones independientes con varianzas desiguales y desconocidas.	$t={\frac {({\overline {x}}_{1}-{\overline {x}}_{2})-d_{0}}{\sqrt {{\frac {s_{1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}}}}$	Se tienen muestras de tamaños $n_{1},\ n_{2}$ respectivamente. Si la población es normal, el estadístico tiene una distribución t de Student con grados de libertad ${\dfrac {(n_{1}-1)(n_{2}-1)}{(n_{2}-1)C^{2}+(1-C)^{2}(n_{1}-1)}}$ siendo $C={\dfrac {\frac {s_{1}^{2}}{n_{1}}}{{\frac {s_{1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}}}$ . Si no, se necesita un tamaño de muestra grande para que aplique el TCL.
Test para comparar las varianzas de dos poblaciones independientes^[2]	$F={\frac {s_{1}^{2}}{s_{2}^{2}}}$	La fracción se arregla para que $s_{1}^{2}\geq s_{2}^{2}$ . Con poblaciones normales independientes el estadístico tiene distribución $F_{n_{1}-1,n_{2}-1}$ .
Test para contrastar el valor de la varianza	$J=(n-1){\frac {s^{2}}{\sigma _{0}^{2}}}$	Si la población es normal, el estadístico se distribuye como una χ² con $n-1$ grados de libertad.

Véase también

Referencias

↑ Berger, R. L.; Casella, G. (2001). Statistical Inference, Duxbury Press, Second Edition (p.374)
↑ NIST handbook: F-Test for Equality of Two Standard Deviations (Testing standard deviations the same as testing variances)

[CasellaBerger2-1] Berger, R. L.; Casella, G. (2001). Statistical Inference, Duxbury Press, Second Edition (p.374)

[2] NIST handbook: F-Test for Equality of Two Standard Deviations (Testing standard deviations the same as testing variances)

[1]

[2]