Agregación de bootstrap

La agregación de arranque, también conocida como embolsado, es un metaalgoritmo de aprendizaje automático diseñado para mejorar la estabilidad y precisión de algoritmos de aprendizaje automático usados en clasificación estadística y regresión. Además reduce la varianza y ayuda a evitar el sobreajuste. Aunque es usualmente aplicado a métodos de árboles de decisión, puede ser usado con cualquier tipo de método. El embolsado es un caso especial del promediado de modelos.

Descripción de la técnica editar

Dado un conjunto de entrenamiento estándar D de tamaño n, el embolsado genera m nuevos conjuntos de entrenamiento $D_{i}$ , cada uno de tamaño n′, mediante muestreo uniforme y con reemplazo de D. En el caso del muestreo con reemplazo, algunas observaciones deben repetirse en $D_{i}$ . Si n′=n, entonces para un n grande el conjunto $D_{i}$ se espera que tenga (1 - 1/e) (≈63.2%) ejemplos únicos de D, siendo el resto duplicados.^[1] Este tipo de muestra es conocido como muestra de arranque. Los m modelos son aproximados usando las m muestras de arranque y combinados promediando el resultado (para regresión) o votando (para clasificación).

El embolsado lleva a "mejoras para procedimientos inestables" (Breiman, 1996), que incluyen, por ejemplo, redes neuronales artificiales, árboles de clasificación y regresión, y selección de subconjuntos en regresión lineal (Breiman, 1994). Una aplicación interesante del embolsado mostrando mejorías en el aprendizaje preimagen puede ser visto aquí.^[2]^[3] Por otra parte, esto puede degradar levemente el rendimiento de métodos estables tales como K-nearest neighbors (Breiman, 1996).

Ejemplo: Datos de Ozono editar

Para ilustrar los principios básicos del embolsado, se muestra a continuación un análisis de la relación entre el ozono y la temperatura (datos de Peter Rousseeuw y Leroy (1986), disponibles en conjuntos de datos clásicos, el análisis está hecho en R).

La relación entre la temperatura y el ozono en este conjunto de datos es aparentemente no lineal, basado en el gráfico de dispersión. Para describir matemáticamente esta relación, se usan suavizadores LOESS. En vez de construir un único suavizador a partir del conjunto de datos completo, 100 muestras de arranque de los datos fueron graficadas. Cada muestra es diferente del conjunto de datos original, y aun así se asemeja en distribución y variabilidad. Por cada muestra de arranque, un suavizador LOESS fue ajustado. A través del rango de los datos, se hicieron predicciones a partir de estos 100 suavizadores. Los primeros 10 ajustes suaves aparecen en líneas grises en la figura. Las líneas claramente sobreajustan los datos.

Pero tomando un promedio de 100 suavizadores, cada uno ajustado a un subconjunto del conjunto original, llegamos a un pronosticador embolsado (línea roja). Claramente, la media es más estable y hay menos sobreajuste.

embolsado para clasificadores de vecinos cercanos editar

Es bien sabido que el riesgo de un clasificador 1 nearest neighbor (1NN) es a lo sumo el doble del riesgo del clasificador Bayes, pero no hay garantías de que este clasificador será consistente. Escogiendo cuidadosamente el tamaño de las nuevas muestras, el embolsado puede llevar a mejoras substanciales en el rendimiento del clasificador 1NN. Tomando una gran número de muestras de los datos de tamaño $n'$ , el clasificador embolsado nearest neighbors será consistente dado que $n'\to \infty$ diverge pero $n'/n\to 0$ cuando el tamaño de la muestra $n\to \infty$ .

Bajo simulación infinita, el clasificador nearest neighbors embolsado se puede ver como un clasificador nearest neighbors con pesos. Suponga que el espacio de estudio es $d$ dimensional y sea $C_{n,n'}^{bnn}$ el clasificador nearest neighbors embolsado basado en un conjunto de entrenamiento de tamaño $n$ , con muestras de tamaño $n'$ . En el caso del muestreo infinito, bajo ciertas condiciones de regularidad en las distribuciones de clases, el riesgo excedente tiene la extensión asintótica siguiente^[4]

{\mathcal {R}}_{\mathcal {R}}(C_{n,n'}^{bnn})-{\mathcal {R}}_{\mathcal {R}}(C^{Bayes})=\left(B_{1}{\frac {n'}{n}}+B_{2}{\frac {1}{(n')^{4/d}}}\right)\{1+o(1)\},

para algunas constantes

B_{1}

y

B_{2}

. La selección óptima de

n'

, que equilibra los dos términos en la extensión asintótica, está dada por

n'=Bn^{d/(d+4)}

para alguna

constante $B$ .

Historia editar

El embolsado fue propuesto por Leo Breiman en 1994 para mejorar la clasificación combinando clasificaciones de conjuntos de entrenamientos generados aleatoriamente. Ver Breiman, 1994. Reporte Técnico No. 421.

Véase también editar

Referencias editar

↑ Aslam, Javed A.; Popa, Raluca A.; y Rivest, Ronald L. (2007); On Estimating the Size and Confidence of a Statistical Audit, Proceedings of the Electronic Voting Technology Workshop (EVT '07), Boston, MA, August 6, 2007. Generalizando, cuando graficamos con reemplazo n′ valores fuera del conjunto de n (diferentes e igualmente probables), el número esperado de gráficos únicos es $n(1-e^{-n'/n})$ .
↑ Sahu, A., Runger, G., Apley, D., Image denoising with a multi-phase kernel principal component approach and anensemble version, IEEE Applied Imagery Pattern Recognition Workshop, pp.1-7, 2011.
↑ Shinde, Amit, Anshuman Sahu, Daniel Apley, and George Runger. "Preimages for Variation Patterns from Kernel PCA and Bagging." IIE Transactions, Vol.46, Iss.5, 2014
↑ Samworth R. J. (2012). Optimal weighted nearest neighbour classifiers 40 (5). Annals of Statistics. pp. 2733-2763. doi:10.1214/12-AOS1049.