Usuario:Keko2294/Taller

Contraste de hipótesis

editar

El contraste de hipótesis es la última técnica de inferencia. Ya hemos visto en clases anteriores que la inferencia era intentar saber algo sobre la población objetivo a partir de los valores de la muestra, teniendo en cuenta el error aleatorio, el error de tipo I (cuya probabilidad es α) y el error de tipo II (cuya probabilidad se denomina β). Contraste: comparación. Hipótesis: afirmaciones que podemos hacer sobre el valor de los parámetros en la población objetivo. Una hipótesis es, por ejemplo: La hipótesis que hagamos puede ser cierta o falsa. Para saber si es cierta o falsa, podemos hacer un contraste de hipótesis. Así, podremos saber con qué quedarnos, si con la hipótesis o con la hipótesis alternativa (que será la contraria; la media de peso en la población es mayor de 70kg). En este ejemplo, la población objetivo es la población que atiende el hospital.

Las hipótesis las podemos hacer sobre las prevalencias, proporción de curaciones, proporción de satisfechos…  

Otra hipótesis puede ser: la media de tensión arterial en la población que asiste al hospital es de 220 mmHg. Las tensiones consideradas normales son: Sistólica: hasta 140 Diastólica: hasta 90-95. Volvemos al primer ejemplo: “la media de peso en la población que asiste a mi centro de salud es de 70kg” El parámetro de la hipótesis es la media µx  siendo X el peso. ¿Cómo contrastamos esta media? Tenemos una población objetivo con N individuos, que es la población que asiste al centro de salud. N es desconocida. Hay una variable X que es el peso. La población consideramos que sigue una distribución normal. Hay una serie de parámetros para esta variable X: por ejemplo la desviación estándar (σx) y la media, que en este caso es desconocida. Esta es una situación artificial, ya que si no se conoce la media tampoco se puede conocer la desviación. Pero vamos a considerar que sí que conocemos la desviación (que tiene valor 12).

Formulamos la hipótesis: “µx=70kg”. Realizamos el contraste: seleccionamos una muestra de n individuos (tamaño muestral), cada individuo tiene una variable que es el peso, y de esa variable cada individuo solo tendrá una observación. Nuestro estadístico de contraste en este caso será la media muestral (suma de todas las observaciones dividida entre n).

En la muestra, al sumar todas las observaciones y dividirlas entre n, nos da 110kg. Si comparamos 70 con 110 son muy diferentes. La media muestral no es la media de la población objetivo. Si fuera cierta mi hipótesis, la media muestral debería estar centrada en 70; la media muestral debería ser igual a la de la población objetivo.

Como en este caso el valor de la media muestral se separa mucho de 70, rechazo la hipótesis.

Luego veremos cómo saber si la media muestral se separa mucho de la media de la población objetivo y si tenemos que rechazar o aceptar la hipótesis. Otro ejemplo: para una proporción Tenemos N individuos X es el número de individuos satisfechos. P es la proporción de satisfechos de la población (número de satisfechos dividido entre N).


Hago la hipótesis: “la proporción de satisfechos es del 0,73”. Para contrastar, cogemos una muestra y realizamos el contraste haciendo inferencia. Cojo n individuos, que cada uno tiene una variable de Bernoulli. Si sumamos las observaciones, obtenemos el número de individuos satisfechos en la muestra. Si dividido entre el tamaño de la muestra, nos da la proporción muestral p̂ (que es nuestro estadístico de contraste, en este caso).

Si fuera cierta la hipótesis, la proporción muestral se distribuiría de acuerdo a una normal de media p (la verdadera proporción en la población objetivo) y desviación estándar de raíz cuadrada de p • (1-p), dividido entre n:


Yo he observado una p̂ de 0,75, que está muy cerca de 0,73 (que es el valor de la proporción objetivo). Por tanto, el valor de la proporción muestral no es muy diferente al de la población objetivo; no hay diferencia significativa. No rechazamos la hipótesis nula. Porque lo que ha salido en la muestra está muy cerca de 0,73. Pero, ¿a partir de qué limite rechazamos o aceptamos la hipótesis? ¿Cuánto se tiene que diferenciar la media muestral para decir que rechazo? Luego lo veremos. En conclusión, los pasos a seguir para hacer un contraste de hipótesis son: Formular hipótesis: Sobre el valor de los parámetros en la población objetivo. H0: hipótesis nula, la afirmación que queremos contrastar. H1: hipótesis alternativa. Escoger el estadístico de contraste: que tenga una distribución conocida. Si quiero estimar la media, cojo como estadístico la media muestral. Si quiero estimar la desviación estándar, cojo como estadístico la desviación estándar muestral. Si quiero estimar la p (proporción de individuos que tienen determinada enfermedad en la población objetivo), cojo la proporción muestral. Si quiero estimar la tasa (lambda), cojo la tasa de incidencia de la enfermedad.

Fijar los límites a partir de los que consideramos grandes diferencias: lo primero que hay que hacer es seleccionar el nivel de significación del contraste (α).

Escoger la muestra y el estadístico de contraste: el tamaño muestral debe ser lo suficientemente grande como para tener errores pequeños.

Calcular el nivel de significación de los datos (valor p): utilizar la distribución adecuada en cada caso.

Concluir con la regla automática de decisión:

Si p < α  rechazo H0. Si p > α  mis datos no contienen suficiente evidencia como para rechazar H0. El nivel de significación del contraste lo fijamos nosotros o la persona que lee el artículo, porque ese nivel α es la máxima probabilidad que estamos dispuestos a admitir para cometer un error de tipo I. Los valores más significativos de alfa son los complementarios del nivel de significación que hemos estudiado en los intervalos de confianza. Se pueden fijar más, cualquiera que queramos pero estos son los más utilizados. Intervalo de Confianza Nivel de significación (α) 0.95 0.05 0.99 0.01 En el caso de p, puede tomar cualquier valor entre 0 y 1 y es una probabilidad también. Formulación de Hipótesis Se realizan afirmaciones sobre el valor de los parámetros de la población objetivo, se pueden hacer sobre la media, proporciones, odds ratio, riesgos relativos, tasas de incidencia, es decir, cualquier parámetro que queramos Para poder compararlas hay que realizarlas en leguaje estadístico Siempre se hacen en parejas: H_0: Hipótesis Nula Se trata de la Hipótesis preexistente y generalizada(más utilizada o considerada correcta) La consideramos errónea H_1: Hipótesis Alternativa La consideramos la alternativa correcta a la nula. Pretendemos demostrarla Puede ser de tres tipos De una cola (Superior) indica que la media no puede ser inferior al límite que marquemos. De una cola (Inferior) indica que la media no puede ser superior al límite establecido. De dos colas (diferente) indica que la media puede tomar cualquier valor que no sea el establecido. El que sea de un lado u otro depende de la naturaleza de la hipótesis alternativa que fijemos La alternativa más utilizada es la de dos colas ya que rara vez sabemos si es más probable que la nueva hipótesis esté por encima o por debajo, si tenemos más datos podemos directamente hacer una de una cola. Nivel de Significación del Contraste (α)

Si supiéramos la realidad de todas las situaciones no necesitaríamos hacer contrastes pero como no podemos hemos de fijar hipótesis y validarlas rechazando o no la hipótesis nula.

Error de Tipo I (α): Se produce al rechazar H0 cuando esta es correcta. Si hacemos lo contrario y no rechazamos H0 cuando sea cierta estaremos acertando y su probabilidad será 1-β.

El error de tipo I (α) lo fijamos nosotros a la hora de hacer el test y es la máxima probabilidad que estamos dispuestos a admitir para producir un error de tipo I. Los más comunes son de 0.05

Error de tipo II (β): No rechazar H0 cuando es incorrecta y H1 correcta. SI rechazamos H0 siendo H1 cierta estaremos acertando y su probabilidad será 1-β, a esto último se denomina