Medidas de escala robustas

En estadística, una medida de escala robusta es un cuantificador numérico de la dispersión de un conjunto de datos, cuyo valor no se ve sensiblemente afectado por la presencia de datos atípicos en las bases de cálculo (es decir, se trata de un estimador robusto). Los indicadores más comunes de este tipo son el rango intercuartílico (IQR por sus siglas en inglés) y la desvación absoluta mediana (MAD también por sus siglas en inglés). Se contrastan con las medidas de escala convencionales, como la varianza o la desviación típica de una muestra, que no son robustas, lo que significa una gran influencia en su resultado de los valores atípicos.

Estas estadísticas robustas se utilizan particularmente como estimadores de un parámetro de escala, y tienen las ventajas tanto de su robustez como de su eficiencia superior en series de datos contaminadas, a costa de una eficiencia inferior en series de datos limpias, especialmente de distribuciones como la distribución normal. Para ilustrar el concepto de robustez, basta señalar que la desviación estándar se puede hacer arbitrariamente grande al incrementar el valor de una única observación (se dice por ello que la desviación estándar tiene "robustez 0", ya que el resultado puede estar contaminado por tan solo una única medida anómala), un defecto que no es compartido por las estadísticas sólidas.

IQR y MAD

Una de las medidas de escala robustas más comunes es el rango intercuartílico (IQR), que se define como la diferencia entre el percentil 75 y el percentil 25 de una muestra; este es el rango recortado del 25%, un ejemplo de un estimador L. También se pueden usar otros rangos recortados, como el rango interdecil (rango recortado del 10%).

Otra medida robusta y familiar de la escala es la desviación absoluta mediana, la mediana de los valores absolutos de las diferencias entre los valores de los datos y la mediana general del conjunto de datos. Para una distribución gaussiana, se relaciona con $\sigma$ como $\sigma \approx 1.4826\ \operatorname {MAD}$ (la demostración se puede encontrar en desviación absoluta mediana).

Estimación

Se pueden usar medidas de escala robustas como estimador de propiedades de la población, ya sea para ajustar sus parámetros o como estimadores de su propia esperanza matemática.

Por ejemplo, los estimadores robustos de escala se utilizan para estimar la varianza o la desviación típica de una población, generalmente multiplicando por un factor de escala para obtener resultados consistentes y no sesgados (véase estimación de parámetro de escala). Por ejemplo, dividir el IQR por [2√2 erf⁻¹ (1/2)] (aproximadamente 1.349), lo convierte en un estimador no sesgado y consistente para la desviación estándar de la población si los datos siguen una distribución normal.

En otras situaciones, tiene más sentido pensar en una medida robusta de escala como un estimador de su propia esperanza matemática, interpretado como una alternativa a la varianza de la población o la desviación estándar como una medida de escala. Por ejemplo, la MAD de una muestra de una distribución de Cauchy estándar es un estimador de la MAD de la población, que en este caso es 1, mientras que la varianza de la población no existe.

Eficiencia

Estos estimadores robustos suelen tener un eficiencia estadística inferior en comparación con los estimadores convencionales para los datos extraídos de una distribución sin valores atípicos (como una distribución normal), pero tienen una eficiencia superior para los datos extraídos de una distribución mezclada o de una distribución de cola pesada, para las que no se deben usar medidas no robustas como la desviación estándar.

Por ejemplo, para datos extraídos de una distribución normal, la MAD es un 37% tan eficiente como la desviación estándar de la muestra, mientras que el estimador de Rousseeuw-Croux Q_n es un 88% tan eficiente como la desviación estándar de la muestra.

Diferencias de pares absolutas

Rousseeuw y Croux^[1] proponen alternativas a la MAD, motivadas por dos debilidades de la misma:

Es ineficiente (37% de eficiencia) en distribuciones normales.
Calcula una estadística simétrica sobre una estimación de ubicación, por lo que no contempla la asimetría estadística.

Proponen dos estadísticas alternativas basadas en diferencias de pares: S_n y _nX, definidas como:

{\begin{aligned}S_{n}&:=1.1926\,\operatorname {med} _{i}\left(\operatorname {med} _{j}(\,\left|x_{i}-x_{j}\right|\,)\right),\\Q_{n}&:=c_{n}{\text{first quartile of}}\left(\left|x_{i}-x_{j}\right|:i<j\right),\end{aligned}}

donde $c_{n}$ es una constante dependiente de $n$ .

Se pueden calcular en el tiempo O(n log n) y en el espacio O(n).

Ninguno requiere una estimación de localización, ya que se basan únicamente en las diferencias entre los valores. Ambos son más eficientes que el MAD bajo una distribución gaussiana: S_n es eficiente en un 58%, mientras que Q_n alcanza el 82%.

Para una muestra de una distribución normal, S_n es aproximadamente no sesgado para la desviación estándar de la población, incluso hasta para tamaños de muestra muy modestos (<1% de sesgo para n = 10). Para una muestra grande de una distribución normal, 2.219144465985075864722Q_n es aproximadamente no sesgado para la desviación estándar de la población. Para muestras pequeñas o moderadas, el valor esperado de Q_n bajo una distribución normal depende notablemente del tamaño de la muestra, por lo que los factores de corrección de la muestra finita (obtenidos de una tabla o de simulaciones) se utilizan para calibrar la escala de Q_n.

Varianza media ponderada

Al igual que S_n y Q_n, la varianza media ponderada parcial está ideada para ser robusta sin sacrificar demasiada eficiencia. Se define como

{\frac {n*\sum _{i=1}^{n}(x_{i}-Q)^{2}(1-u_{i}^{2})^{4}I(|u_{i}|<1)}{(\sum _{i}(1-u_{i}^{2})(1-5u_{i}^{2})I(|u_{i}|<1))^{2}}},

donde I es la función indicatriz, Q es la mediana de la muestra de X_i, y

u_{i}={\frac {x_{i}-Q}{9\cdot {\rm {MAD}}}}.

Su raíz cuadrada es un estimador robusto de la escala, ya que el peso de los datos se reduce a medida que aumenta su distancia de la mediana, y los valores de más de 9 unidades MAD de la mediana no tienen ninguna influencia.

Estimación simultánea de localización y escala

Mizera y Müller (2004) propone un estimador robusto basado en la profundidad de los datos para determinar la localización y la escala simultáneamente.^[2]

Referencias

↑ Rousseeuw, Peter J.; Croux, Christophe (December 1993), «Alternatives to the Median Absolute Deviation», Journal of the American Statistical Association (American Statistical Association) 88 (424): 1273-1283, JSTOR 2291267, doi:10.2307/2291267 .
↑ Mizera, I.; Müller, C. H. (2004), «Location-scale depth», Journal of the American Statistical Association 99 (468): 949-966, doi:10.1198/016214504000001312 ..

Datos: Q7353541

[1] Rousseeuw, Peter J.; Croux, Christophe (December 1993), «Alternatives to the Median Absolute Deviation», Journal of the American Statistical Association (American Statistical Association) 88 (424): 1273-1283, JSTOR 2291267, doi:10.2307/2291267 .

[2] Mizera, I.; Müller, C. H. (2004), «Location-scale depth», Journal of the American Statistical Association 99 (468): 949-966, doi:10.1198/016214504000001312 ..

[1]

[2]