Estimación de la desviación estándar no sesgada

En estadística, y en particular en estadística teórica, la estimación de la desviación estándar no sesgada es el cálculo de un valor estimado de la desviación estándar de una población de valores obtenida a partir de una muestra estadística (una medida de dispersión), de tal manera que la esperanza matemática obtenida del cálculo sea igual a su valor verdadero. Excepto en algunas situaciones importantes, que se describen más adelante, la tarea tiene poca relevancia para las aplicaciones estadísticas, ya que su necesidad se evita mediante procedimientos estándar, como el uso del contraste de hipótesis y de intervalos de confianza, o mediante el uso de inferencia bayesiana.

Sin embargo, para la teoría estadística, proporciona un problema que sirve de ejemplo en el contexto de la estimación estadística .

Trasfondo editar

En estadística, la desviación típica de una población de números a menudo se estima a partir de una muestra extraída de la población. Entonces se habla de la desviación estándar de la muestra, que se define por

s={\sqrt {\frac {\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}{n-1}}},

donde $\{x_{1},x_{2},\ldots ,x_{n}\}$ es la muestra (formalmente, las realizaciones de una variable aleatoria X) y ${\overline {x}}$ es su media muestral.

Una forma de ver que se produce un sesgo estadístico de la desviación estándar de la población es suponer que el resultado de s² posee un sesgo estadístico subyacente de la varianza σ² de la población, si existe esa varianza y se extraen los valores de la muestra, independientemente de que se haga con reemplazo. La raíz cuadrada es una función no lineal, y solo las funciones lineales son conmutativas al evaluar la expectativa de un suceso. Como la raíz cuadrada es una función estrictamente cóncava, según la desigualdad de Jensen se deduce que la raíz cuadrada de la varianza de la muestra es una subestimación de su valor.

El uso de n & minus; 1 en lugar de n en la fórmula para la varianza de la muestra se conoce como corrección de Bessel, que permite corregir el sesgo en la estimación de la varianza de la población, y algunos (pero no todos) sesgos en la estimación de la desviación estándar de la muestra.

No es posible encontrar una estimación de la desviación estándar que sea imparcial para todas las distribuciones de la población, ya que el sesgo depende de cada distribución en particular. Gran parte de los apartados siguientes se relacionan con la estimación no sesgada suponiendo una distribución normal.

Corrección del sesgo editar

Resultados para la distribución normal editar

Factor de corrección c₄ frente al tamaño de la muestra n

Cuando la variable aleatoria está normalmente distribuida, existe una corrección menor para eliminar el sesgo. Para deducir esta corrección, ha de tenerse en cuenta que una variable X normalmente distribuida, según el teorema de Cochran, implica que $(n-1)s^{2}/\sigma ^{2}$ tiene una distribución χ² con n − 1 grados de libertad, y por lo tanto, su raíz cuadrada ${\sqrt {n-1}}s/\sigma$ tiene una distribución χ con n − 1 grados de libertad. En consecuencia, calculando el valor esperado de esta última expresión y reorganizando las constantes,

\operatorname {E} [s]=c_{4}(n)\sigma

donde el factor de corrección c₄ (n) es la media de la escala de la distribución chi con n − 1 grados de libertad, $\mu _{1}(n-1)/{\sqrt {n-1}}.$ El resultado depende del tamaño de la muestra n y se obtiene de la siguiente manera:^[1]

c_{4}(n)={\sqrt {\frac {2}{n-1}}}{\frac {\Gamma \left({\frac {n}{2}}\right)}{\Gamma \left({\frac {n-1}{2}}\right)}}=1-{\frac {1}{4n}}-{\frac {7}{32n^{2}}}-{\frac {19}{128n^{3}}}+O(n^{-4})

donde Γ (·) es la función gamma. Se puede obtener un estimador sin sesgo de σ al dividir s por c₄ (n). A medida que n crece, se acerca a 1, e incluso para valores más pequeños, la corrección es menor. La figura muestra una gráfica de c₄ (n) con respecto al tamaño de muestra. La siguiente tabla muestra valores numéricos de c₄ y expresiones algebraicas para algunos valores de n. Se pueden encontrar tablas más completas en la mayoría de los libros de texto sobre control estadístico de procesos.

Tamaño de la muestra	Expresión de c₄	Valor numérico
2	${\sqrt {\frac {2}{\pi }}}$	0.7978845608
3	${\frac {\sqrt {\pi }}{2}}$	0.8862269255
4	$2{\sqrt {\frac {2}{3\pi }}}$	0.9213177319
5	${\frac {3}{4}}{\sqrt {\frac {\pi }{2}}}$	0.9399856030
6	${\frac {8}{3}}{\sqrt {\frac {2}{5\pi }}}$	0.9515328619
7	${\frac {5{\sqrt {3\pi }}}{16}}$	0.9593687891
8	${\frac {16}{5}}{\sqrt {\frac {2}{7\pi }}}$	0.9650304561
9	${\frac {35{\sqrt {\pi }}}{64}}$	0.9693106998
10	${\frac {128}{105}}{\sqrt {\frac {2}{\pi }}}$	0.9726592741
100		0.9974779761
1000		0.9997497811
10000		0.9999749978
2k	${\sqrt {\frac {2}{\pi (2k-1)}}}{\frac {2^{2k-2}(k-1)!^{2}}{(2k-2)!}}$
2k+1	${\sqrt {\frac {\pi }{k}}}{\frac {(2k-1)!}{2^{2k-1}(k-1)!^{2}}}$

Es importante tener en cuenta que esta corrección solo produce un estimador imparcial para la "X" distribuida de manera normal e independiente. Cuando se cumple esta condición, otro resultado de s que involucra a c₄ (n) es que el error estándar de s es^[2]^[3] $\sigma {\sqrt {1-c_{4}^{2}}}$ , mientras que el error estándar del estimador no sesgado es $\sigma {\sqrt {c_{4}^{-2}-1}}$ .

Regla aproximada para estimar el sesgo de la distribución normal editar

Si el cálculo de la función c₄ (n) puede parecer demasiado difícil, existe una simple regla del pulgar^[4] para estimarla:

{\hat {\sigma }}={\sqrt {{\frac {1}{n-1.5}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}

La fórmula difiere de la expresión habitual de s² solo por tener (n − 1.5) en lugar de (n − 1) en el denominador. Esta expresión es solo aproximada, de hecho, la fórmula exacta es:

\operatorname {E} \left[{\hat {\sigma }}\right]=\sigma \cdot \left(1+{\frac {1}{16n^{2}}}+{\frac {3}{16n^{3}}}+O(n^{-4})\right).

Sin embargo, la diferencia en el sesgo obtenido con la regla aproximada es relativamente pequeña: por ejemplo, para n = 3 es igual al 1.3%, y para n = 9 la diferencia ya es menor del 0.1%.

Otras distribuciones editar

En los casos en que los datos estadísticamente independientes son modelados por una familia paramétrica de distribuciones diferentes de una distribución normal, la desviación estándar de la población, si existe, será una función de los parámetros del modelo. Un enfoque general para la estimación sería determinar la máxima verosimilitud. Alternativamente, puede ser posible usar el teorema de Rao-Blackwell como un método para encontrar una buena estimación de la desviación estándar. En ningún caso las estimaciones obtenidas generalmente serán no sesgadas. Básicamente, podrían obtenerse ajustes teóricos para obtener estimaciones no sesgadas, pero, a diferencia del caso de la distribución normal, casi siempre dependerían de los parámetros estimados.

Si el requisito es simplemente reducir el sesgo de una desviación estándar estimada, en lugar de eliminarlo por completo, entonces hay dos enfoques prácticos disponibles, ambos dentro del contexto del remuestreo, que se denominan jackknife y bootstrapping. Ambas técnicas se pueden aplicar a estimaciones basadas en parámetros de la desviación estándar o a la propia desviación estándar de la muestra.

Para distribuciones no normales, una fórmula aproximada (hasta O (n⁻¹)) para el estimador no sesgado de la desviación estándar es:

{\hat {\sigma }}={\sqrt {{\frac {1}{n-1.5-{\tfrac {1}{4}}\gamma _{2}}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}},

donde γ₂ denota la curtosis de la población. El exceso de curtosis se puede conocer de antemano para ciertas distribuciones o se puede estimar a partir de los datos.

Efecto de la autocorrelación (correlación serial) editar

Como ya se ha señalado, los principios anteriores solo se aplican a datos estadísticamente independientes. Sin embargo, los datos del mundo real a menudo no cumplen con este requisito; y pueden estar autocorrelacionados (característica también conocida como correlación serial). Por ejemplo, las lecturas sucesivas de un instrumento de medición que incorpora algún tipo de proceso de "suavizado" (más correctamente, filtrado de paso bajo) se autocorrelacionarán, ya que cualquier valor en particular se calcula a partir de una combinación de las lecturas anteriores y posteriores.

Las estimaciones de la varianza y la desviación estándar de los datos autocorrelacionados estarán sesgadas. El valor esperado de la varianza de la muestra es:^[5]

{\rm {E}}\left[s^{2}\right]=\sigma ^{2}\left[1-{\frac {2}{n-1}}\sum _{k=1}^{n-1}\left(1-{\frac {k}{n}}\right)\rho _{k}\right]

donde "n" es el tamaño de la muestra (número de mediciones) y " $\rho _{k}$ " es la función de autocorrelación de los datos (téngase en cuenta que la expresión entre corchetes es simplemente uno menos la autocorrelación promedio esperada para las lecturas). Si la función de autocorrelación consta de valores positivos, entonces la estimación de la varianza (y su raíz cuadrada, la desviación estándar) se sesgará a un nivel bajo. Es decir, la variabilidad real de los datos será mayor que la indicada por una varianza no corregida o un cálculo de desviación estándar. Es esencial reconocer que, si esta expresión se va a usar para corregir el sesgo, al dividir la estimación $s^{2}$ por la cantidad entre paréntesis de arriba, entonces la función de autocorrelación debe ser conocida "analíticamente", no a través de la estimación de los datos. Esto se debe a que la citada función de autocorrelacion estimada siempre estará sesgada.^[6]

Ejemplo de sesgo en la desviación estándar editar

Para ilustrar la magnitud del sesgo en la desviación estándar, considérese un conjunto de datos que consiste en lecturas secuenciales de un instrumento que usa un filtro digital específico, cuya función de autocorrelación se sabe que está dada por

\rho _{k}=(1-\alpha )^{k}

donde α es el parámetro del filtro, y toma valores de cero a la unidad. Así, la función es positiva y disminuye geométricamente.

Sesgo en la desviación estándar para datos autocorrelacionados

La figura muestra la relación entre la desviación estándar estimada y su valor conocido (que puede calcularse analíticamente para este filtro digital), para varias configuraciones de α en función del tamaño de la muestra n. Cambiar α altera la relación de reducción de varianza del filtro, que se sabe que es

{\rm {VRR}}={\frac {\alpha }{2-\alpha }}

de modo que los valores más pequeños de α den como resultado una mayor reducción de la varianza o "suavizado". El sesgo se indica mediante valores en el eje vertical diferentes de la unidad; es decir, si no hubiera sesgo, la proporción entre la desviación estándar estimada y la conocida sería la unidad. Claramente, para tamaños de muestra modestos puede haber un sesgo significativo (un factor de dos o más).

Varianza de la media editar

A menudo es interesante estimar la varianza o desviación estándar de una "media" estimada en lugar de la varianza de una población. Cuando los datos están autocorrelacionados, esto tiene un efecto directo en la varianza teórica de la media de la muestra, que es:^[7]

{\rm {Var}}\left[{\overline {x}}\right]={\frac {\sigma ^{2}}{n}}\left[1+2\sum _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)\rho _{k}}\right].

La varianza de la media muestral puede entonces estimarse sustituyendo una estimación de σ². Una estimación de este tipo se puede obtener de la ecuación para E [s²] dada anteriormente. Primero deben definirse las siguientes constantes, asumiendo, una vez más, una función de autocorrelación conocida:

\gamma _{1}\equiv 1-{\frac {2}{n-1}}\sum _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)}\rho _{k}

\gamma _{2}\equiv 1+2\sum _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)}\rho _{k}

de lo que se sigue

{\rm {E}}\left[s^{2}\right]=\sigma ^{2}\gamma _{1}\Rightarrow {\rm {E}}\left[{\frac {s^{2}}{\gamma _{1}}}\right]=\sigma ^{2}

Esto dice que el valor esperado de la cantidad obtenida al dividir la varianza de la muestra observada por el factor de corrección $\gamma _{1}$ proporciona una estimación no sesgada de la varianza. Del mismo modo, reescribiendo la expresión anterior para la varianza de la media,

{\rm {Var}}\left[{\overline {x}}\right]={\frac {\sigma ^{2}}{n}}\gamma _{2}

y sustituyendo la estimación por $\sigma ^{2}$ resulta:^[8]

{\rm {Var}}\left[{\overline {x}}\right]={\rm {E}}\left[{\frac {s^{2}}{\gamma _{1}}}\left({\frac {\gamma _{2}}{n}}\right)\right]={\rm {E}}\left[{\frac {s^{2}}{n}}\left\{{\frac {n-1}{{\frac {n}{\gamma _{2}}}-1}}\right\}\right]

que es un estimador no sesgado de la varianza de la media en términos de la varianza de la muestra observada y de las cantidades conocidas. Téngase en cuenta que, si las autocorrelaciones $\rho _{k}$ son idénticamente cero, esta expresión se reduce al resultado conocido de la varianza de la media para los datos independientes. El efecto del operador del valor esperado en estas expresiones es que la igualdad se mantiene en la media (es decir, en el promedio).

Estimación de la desviación estándar de la población editar

Al tener las expresiones anteriores que involucran la varianza de la población, y una estimación de la media de esa población, parece lógico simplemente tomar la raíz cuadrada de estas expresiones para obtener estimaciones no sesgadas de las respectivas desviaciones estándar. Sin embargo, es el caso de que los valores esperados sean integrales,

{\rm {E}}[s]\neq {\sqrt {{\rm {E}}\left[s^{2}\right]}}\neq \sigma {\sqrt {\gamma _{1}}}

En su lugar, supóngase que existe una función θ tal que se puede escribir un estimador no sesgado de la desviación estándar

{\rm {E}}[s]=\sigma \theta {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}={\frac {s}{\theta {\sqrt {\gamma _{1}}}}}

y θ depende del tamaño de la muestra n y de ,a función de autocorrelación. En el caso de datos no independientes (distribuidos normalmente e independientemente), el radicando es la unidad y θ es solo la función c₄ dada en la primera sección anterior. Al igual que con c₄, θ se acerca a la unidad a medida que aumenta el tamaño de la muestra (al igual que γ₁).

Se puede demostrar a través de una simulación que ignorar θ (es decir, tomarlo como unidad) y usar

{\rm {E}}[s]\approx \sigma {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}\approx {\frac {s}{\sqrt {\gamma _{1}}}}

elimina todo menos un pequeño porcentaje del sesgo causado por la autocorrelación, lo que lo convierte en un estimador de sesgo "reducido", en lugar de un estimador "no" sesgado. En situaciones prácticas de medición, esta reducción en el sesgo puede ser significativa y útil, incluso si queda un sesgo relativamente pequeño. La figura anterior, que muestra un ejemplo del sesgo en la desviación estándar frente al tamaño de la muestra, se basa en esta aproximación; el sesgo real sería algo mayor que el indicado en esos gráficos, ya que no se incluye el sesgo de transformación θ.

Estimación de la desviación estándar de la media editar

La varianza no sesgada de la media en términos de la varianza de la población y de la función de autocorrelación viene dada por:

{\rm {Var}}\left[{\overline {x}}\right]={\frac {\sigma ^{2}}{n}}\gamma _{2}

y como no hay valores esperados aquí, en este caso se puede tomar la raíz cuadrada, de modo que:

\sigma _{\overline {x}}={\frac {\sigma }{\sqrt {n}}}{\sqrt {\gamma _{2}}}

Al utilizar la expresión de estimación imparcial anterior para σ, se obtiene una estimación de la desviación estándar de la media:

{\hat {\sigma }}_{\overline {x}}={\frac {s}{\theta {\sqrt {n}}}}{\frac {\sqrt {\gamma _{2}}}{\sqrt {\gamma _{1}}}}

Si los datos son no independientes, de modo que la función de autocorrelación se desvanece, esto se reduce a

{\hat {\sigma }}_{\overline {x}}={\frac {s}{c_{4}{\sqrt {n}}}}

En presencia de una función de autocorrelación distinta de cero, ignorar la función θ como antes conduce a un estimador de sesgo "reducido":

{\hat {\sigma }}_{\overline {x}}\approx {\frac {s}{\sqrt {n}}}{\frac {\sqrt {\gamma _{2}}}{\sqrt {\gamma _{1}}}}={\frac {s}{\sqrt {n}}}{\sqrt {\frac {n-1}{{\frac {n}{\gamma _{1}}}-1}}}

lo que nuevamente puede demostrarse que permite eliminar la mayor parte del sesgo.

Véase también editar

Referencias editar

↑ Ben W. Bolch, "More on unbiased estimation of the standard deviation", The American Statistician, 22(3), p. 27 (1968)
↑ Duncan, A. J., Quality Control and Industrial Statistics 4th Ed., Irwin (1974) ISBN 0-256-01558-9, p.139
↑ * N.L. Johnson, S. Kotz, and N. Balakrishnan, Continuous Univariate Distributions, Volume 1, 2nd edition, Wiley and sons, 1994. ISBN 0-471-58495-9. Chapter 13, Section 8.2
↑ Richard M. Brugger, "A Note on Unbiased Estimation of the Standard Deviation", The American Statistician (23) 4 p. 32 (1969)
↑ Law and Kelton, Simulation Modeling and Analysis, 2nd Ed. McGraw-Hill (1991), p.284, ISBN 0-07-036698-5. Esta expresión se puede derivar de su fuente original en Anderson, The Statistical Analysis of Time Series, Wiley (1971), ISBN 0-471-04745-7, p.448, Equation 51.
↑ Law and Kelton, p.286. This bias is quantified in Anderson, p.448, Equations 52–54.
↑ Law and Kelton, p.285. Esta ecuación puede derivarse del teorema 8.2.3 de Anderson. También aparece en Box, Jenkins, Reinsel, Time Series Analysis: Forecasting and Control, 4th Ed. Wiley (2008), ISBN 978-0-470-27284-8, p.31.
↑ Law and Kelton, p.285

Douglas C. Montgomery y George C. Runger, Estadística Aplicada y Probabilidad para Ingenieros , tercera edición, Wiley and sons, 2003. (ver Secciones 7 y ndash; 2.2 y 16 y ndash; 5)

Enlaces externos editar

Gráfico interactivo en Java que muestra el PDF de Helmert del cual se derivan los factores de corrección de sesgo.
Demostración de la simulación de Monte-Carlo para una estimación no sesgada de la desviación estándar
¿Qué son los gráficos de control de variables?

Datos: Q7882386

[1] Ben W. Bolch, "More on unbiased estimation of the standard deviation", The American Statistician, 22(3), p. 27 (1968)

[2] Duncan, A. J., Quality Control and Industrial Statistics 4th Ed., Irwin (1974) ISBN 0-256-01558-9, p.139

[3] * N.L. Johnson, S. Kotz, and N. Balakrishnan, Continuous Univariate Distributions, Volume 1, 2nd edition, Wiley and sons, 1994. ISBN 0-471-58495-9. Chapter 13, Section 8.2

[4] Richard M. Brugger, "A Note on Unbiased Estimation of the Standard Deviation", The American Statistician (23) 4 p. 32 (1969)

[5] Law and Kelton, Simulation Modeling and Analysis, 2nd Ed. McGraw-Hill (1991), p.284, ISBN 0-07-036698-5. Esta expresión se puede derivar de su fuente original en Anderson, The Statistical Analysis of Time Series, Wiley (1971), ISBN 0-471-04745-7, p.448, Equation 51.

[6] Law and Kelton, p.286. This bias is quantified in Anderson, p.448, Equations 52–54.

[7] Law and Kelton, p.285. Esta ecuación puede derivarse del teorema 8.2.3 de Anderson. También aparece en Box, Jenkins, Reinsel, Time Series Analysis: Forecasting and Control, 4th Ed. Wiley (2008), ISBN 978-0-470-27284-8, p.31.

[8] Law and Kelton, p.285

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]