Estimador de Horvitz–Thompson

En estadística, el estimador de Horvitz-Thompson, llamado así por Daniel G. Horvitz y Donovan J. Thompson,^[1] es un método para estimar el total^[2] y la media de una pseudopoblación en una muestra estratificada. La ponderación de probabilidad inversa se aplica para tener en cuenta las diferentes proporciones de observaciones dentro de los estratos de una población objetivo. El estimador de Horvitz-Thompson se aplica con frecuencia en análisis de encuestas y se puede utilizar para dar cuenta de los datos faltantes.

El método editar

Formalmente, deja $Y_{i},i=1,2,\ldots ,n$ ser una muestra independiente de n de N ≥ n estratos distintos con una media común μ. Supongamos además que $\pi _{i}$ es la probabilidad de inclusión de que un individuo muestreado al azar en una superpoblación pertenezca al i- ésimo estrato. La estimación de Horvitz-Thompson del total viene dada por:

{\hat {Y}}_{HT}=\sum _{i=1}^{n}\pi _{i}^{-1}Y_{i},

y la estimación de la media viene dada por:

{\hat {\mu }}_{HT}=N^{-1}{\hat {Y}}_{HT}=N^{-1}\sum _{i=1}^{n}\pi _{i}^{-1}Y_{i}.

En un marco probabilístico bayesiano $\pi _{i}$ se considera la proporción de individuos de una población objetivo pertenecientes al i-ésimo estrato. Por lo tanto, $\pi _{i}^{-1}Y_{i}$ podría pensarse como una estimación de la muestra completa de personas dentro del i-ésimo estrato. El estimador de Horvitz-Thompson también se puede expresar como el límite de una estimación de remuestreo bootstrap ponderada de la media. También puede verse como un caso especial de enfoques de imputación múltiple.^[3]

Para diseños de los estudios post estratificados, la estimación de $\pi$ y $\mu$ se realizan en distintos pasos. En tales casos, calcular la varianza de ${\hat {\mu }}_{HT}$ no es sencillo. Se pueden aplicar técnicas de remuestreo como el bootstrap o el jackknife para obtener estimaciones consistentes de la varianza del estimador de Horvitz-Thompson.^[4] El paquete "encuesta" para R realiza análisis para datos posestratificados utilizando el estimador de Horvitz-Thompson.^[5]

Prueba de la estimación no sesgada de la media de Horvitz-Thompson editar

Se puede demostrar que el estimador de Horvitz-Thompson es insesgado al evaluar la expectativa del estimador de Horvitz-Thompson, $\mathbf {E} {\bar {X}}_{n}^{HT}$ , como sigue:

\mathbf {E} {\bar {X}}_{n}^{HT}=\mathbf {E} {\frac {1}{N}}\sum _{i=1}^{n}{\frac {\mathbf {X} _{I_{i}}}{\pi _{I_{i}}}}

=\mathbf {E} {\frac {1}{N}}\sum _{i=1}^{N}{\frac {X_{i}}{\pi _{i}}}1_{i\in D_{n}}

=\sum _{b=1}^{B}P(D_{n}^{(b)})\left[{\frac {1}{N}}\sum _{i=1}^{N}{\frac {X_{i}}{\pi _{i}}}1_{i\in D_{n}^{(b)}}\right]

={\frac {1}{N}}\sum _{i=1}^{N}{\frac {X_{i}}{\pi _{i}}}\sum _{b=1}^{B}1_{i\in D_{n}^{(b)}}P(D_{n}^{(b)})

={\frac {1}{N}}\sum _{i=1}^{N}\left({\frac {X_{i}}{\pi _{i}}}\right)\pi _{i}

={\frac {1}{N}}\sum _{i=1}^{N}X_{i}

{\text{donde}}~D_{n}=\{x_{1},x_{2},...,x_{n}\}

Referencias editar

↑ Horvitz, D. G.; Thompson, D. J. (1952) "A generalization of sampling without replacement from a finite universe", Journal of the American Statistical Association, 47, 663–685, . JSTOR 2280784
↑ William G. Cochran (1977), Sampling Techniques, 3rd Edition, Wiley. ISBN 0-471-16240-X
↑ Roderick J.A. Little, Donald B. Rubin (2002) Statistical Analysis With Missing Data, 2nd ed., Wiley. ISBN 0-471-18386-5
↑ Quatember, A. (2014). «The Finite Population Bootstrap - from the Maximum Likelihood to the Horvitz-Thompson Approach». Austrian Journal of Statistics 43: 93-102.
↑ Lumley, Thomas (3 de abril de 2020), survey: Analysis of Complex Survey Samples, consultado el 23 de enero de 2021 .

Enlaces externos editar

Sitio web del paquete de encuestas para R

Datos: Q17027597

[1] Horvitz, D. G.; Thompson, D. J. (1952) "A generalization of sampling without replacement from a finite universe", Journal of the American Statistical Association, 47, 663–685, . JSTOR 2280784

[2] William G. Cochran (1977), Sampling Techniques, 3rd Edition, Wiley. ISBN 0-471-16240-X

[3] Roderick J.A. Little, Donald B. Rubin (2002) Statistical Analysis With Missing Data, 2nd ed., Wiley. ISBN 0-471-18386-5

[4] Quatember, A. (2014). «The Finite Population Bootstrap - from the Maximum Likelihood to the Horvitz-Thompson Approach». Austrian Journal of Statistics 43: 93-102.

[5] Lumley, Thomas (3 de abril de 2020), survey: Analysis of Complex Survey Samples, consultado el 23 de enero de 2021 .

[1]

[2]

[3]

[4]

[5]