Aprendizaje por conjuntos

En estadística y aprendizaje automático, los métodos por conjuntos utilizan múltiples algoritmos de aprendizaje para obtener un rendimiento predictivo mejor que el que podría obtenerse con cualquiera de los algoritmos de aprendizaje constituyentes por sí solos.[1][2][3]​ A diferencia de un conjunto estadístico en mecánica estadística, que suele ser infinito, un conjunto de aprendizaje automático consta únicamente de un conjunto finito concreto de modelos alternativos, pero normalmente permite que exista una estructura mucho más flexible entre esas alternativas.

Descripción general editar

Los algoritmos de aprendizaje supervisado realizan la tarea de buscar a través de un espacio de hipótesis para encontrar una hipótesis adecuada que haga buenas predicciones con un problema concreto.[4]​ Aunque el espacio de hipótesis contenga hipótesis muy adecuadas para un problema concreto, puede ser muy difícil encontrar una buena. Los conjuntos combinan múltiples hipótesis para formar una hipótesis (con suerte) mejor. El término "conjunto" suele reservarse a los métodos que generan múltiples hipótesis utilizando el mismo aprendiz base. El término más amplio de sistemas clasificadores múltiples también abarca la hibridación de hipótesis que no son inducidas por el mismo aprendiz base.

Evaluar la predicción de un conjunto suele requerir más cálculos que evaluar la predicción de un único modelo. En cierto sentido, el aprendizaje por conjuntos puede considerarse una forma de compensar los algoritmos de aprendizaje deficientes realizando muchos cálculos adicionales. Por otro lado, la alternativa es realizar mucho más aprendizaje en un sistema que no es por conjuntos. Un sistema por conjuntos puede ser más eficiente a la hora de mejorar la precisión global por el mismo aumento de recursos de computación, almacenamiento o comunicación utilizando ese aumento en dos o más métodos, que lo que se habría mejorado aumentando el uso de recursos para un solo método. Los algoritmos rápidos, como los árboles de decisión, suelen utilizarse en métodos de conjuntos (por ejemplo, los bosques aleatorios), aunque los algoritmos más lentos también pueden beneficiarse de las técnicas de ensamblaje.

Por analogía, las técnicas de conjuntos se han utilizado también en escenarios de aprendizaje no supervisado, por ejemplo en la agrupación por consenso o en la detección de anomalías.

Teoría de conjuntos editar

Empíricamente, los conjuntos tienden a dar mejores resultados cuando hay una diversidad significativa entre los modelos.[5][6]​ Por lo tanto, muchos métodos de conjuntos intentan promover la diversidad entre los modelos que combinan.[7][8]​ Aunque quizá no sea intuitivo, se pueden utilizar algoritmos más aleatorios (como los árboles de decisión aleatorios) para producir un conjunto más fuerte que algoritmos muy deliberados (como los árboles de decisión con reducción de entropía).[9]​ Sin embargo, se ha demostrado que el uso de una variedad de algoritmos de aprendizaje potentes es más eficaz que el uso de técnicas que intentan simplificar los modelos para promover la diversidad.[10]​ Es posible aumentar la diversidad en la fase de entrenamiento del modelo utilizando la correlación para tareas de regresión[11]​ o utilizando medidas de información como la entropía cruzada para tareas de clasificación.[12]

 
Un conjunto de clasificadores suele tener un error de clasificación menor que los modelos base.


Teóricamente, se puede justificar el concepto de diversidad porque el límite inferior de la tasa de error de un sistema conjunto se puede descomponer en precisión, diversidad y el otro término.[13]

Tamaño del conjunto editar

Aunque el número de clasificadores componentes de un conjunto tiene un gran impacto en la precisión de la predicción, hay un número limitado de estudios que aborden este problema. La determinación a priori del tamaño del conjunto y el volumen y la velocidad de los grandes flujos de datos hacen que este aspecto sea aún más crucial para los clasificadores de conjuntos en línea. Para determinar el número adecuado de componentes se han utilizado sobre todo pruebas estadísticas. Más recientemente, un marco teórico ha sugerido que existe un número ideal de componentes clasificadores para un conjunto, de modo que tener más o menos de este número de clasificadores deterioraría la precisión. Es lo que se llama "la ley de los rendimientos decrecientes en la construcción de conjuntos". Su marco teórico muestra que utilizar el mismo número de clasificadores de componentes independientes que de etiquetas de clase proporciona la mayor precisión.[14][15]

Tipos comunes de conjuntos editar

Clasificador bayesiano óptimo editar

El clasificador bayesiano óptimo es una técnica de clasificación. Se trata de un conjunto de todas las hipótesis del espacio de hipótesis. Por término medio, ningún otro conjunto puede superarlo.[16]​ El clasificador Naive Bayes es una versión de éste que asume que los datos son condicionalmente independientes de la clase y hace que el cálculo sea más factible. A cada hipótesis se le da un voto proporcional a la probabilidad de que el conjunto de datos de entrenamiento sea muestreado de un sistema si esa hipótesis fuera cierta. Para facilitar los datos de entrenamiento de tamaño finito, el voto de cada hipótesis también se multiplica por la probabilidad a priori de esa hipótesis. El clasificador óptimo de Bayes puede expresarse con la siguiente ecuación:

 

Donde   es la clase prevista,   es el conjunto de todas las posibles clases,   es el espacio de hipótesis,   se refiere a una probabilidad, y   son los datos de entrenamiento. Como conjunto, el clasificador óptimo de Bayes representa una hipótesis que no está necesariamente en  . Sin embargo, la hipótesis representada por el clasificador óptimo de Bayes es la hipótesis óptima en el espacio de conjuntos (el espacio de todos los conjuntos posibles formados sólo por hipótesis en  ).

Esta fórmula puede reformularse utilizando el teorema de Bayes, que dice que la probabilidad posterior es proporcional a la probabilidad multiplicada por la probabilidad anterior:

 

por lo tanto,

 

Agregación de Bootstrap (bagging) editar

 
Tres conjuntos de datos extraídos de un conjunto original. El ejemplo A aparece dos veces en el conjunto 1 porque se eligen con reemplazo.

La agregación bootstrap (bagging) consiste en entrenar un conjunto a partir de conjuntos de datos bootstrap. Un conjunto bootstrap se crea seleccionando del conjunto de datos de entrenamiento original con reemplazo. Por lo tanto, un conjunto bootstrap puede contener un ejemplo dado cero, una o varias veces. Los miembros del conjunto también pueden tener límites en las características (por ejemplo, los nodos de un árbol de decisión), para fomentar la exploración de diversas características.[17]​ La varianza de la información local en los conjuntos bootstrap y las consideraciones sobre las características promueven la diversidad en el conjunto, y pueden fortalecerlo.[18]​ Para reducir el sobreajuste, un miembro puede validarse utilizando el conjunto fuera de la bolsa (los ejemplos que no están en su conjunto bootstrap).[19]

La inferencia se realiza por votación de las predicciones de los miembros del conjunto, lo que se denomina agregación. A continuación se ilustra con un conjunto de cuatro árboles de decisión. Cada árbol clasifica el ejemplo de consulta. Como tres de los cuatro predicen la clase positiva, la clasificación global del conjunto es positiva. Los bosques aleatorios como el que se muestra son una aplicación común del ensamblaje.

 

Boosting editar

El boosting consiste en entrenar modelos sucesivos haciendo hincapié en los datos de entrenamiento clasificados erróneamente por los modelos aprendidos previamente. Inicialmente, todos los datos (D1) tienen el mismo peso y se utilizan para aprender un modelo base M1. A los ejemplos mal clasificados por M1 se les asigna un peso mayor que a los correctamente clasificados. Estos datos reforzados (D2) se utilizan para entrenar un segundo modelo base M2, y así sucesivamente. La inferencia se realiza por votación.

En algunos casos, el boosting ha dado mejores resultados que el bagging, pero tiende a sobreajustar más. La aplicación más común de boosting es Adaboost, pero algunos algoritmos más recientes obtienen mejores resultados.

Promedio bayesiano de modelos editar

El promediado bayesiano de modelos (BMA) realiza predicciones promediando las predicciones de los modelos ponderados por sus probabilidades a posteriori dados los datos.[20]​ Se sabe que el BMA suele dar mejores respuestas que un único modelo, obtenido, por ejemplo, mediante regresión paso a paso (stepwise), especialmente cuando modelos muy diferentes tienen un rendimiento casi idéntico en el conjunto de entrenamiento pero, por lo demás, pueden tener un rendimiento muy diferente.

La cuestión con cualquier uso del teorema de Bayes es el prior, es decir, la probabilidad (quizá subjetiva) de que cada modelo sea el mejor para un fin determinado. Conceptualmente, BMA puede utilizarse con cualquier prior. Los paquetes de R ensembleBMA[21]​ y BMA[22]​ utilizan la prioridad implícita en el criterio de información bayesiano (BIC), siguiendo a Raftery (1995).[23]​ El paquete de R BAS admite el uso de las prioridades implícitas en el criterio de información de Akaike (AIC) y otros criterios sobre los modelos alternativos, así como prioridades sobre los coeficientes.[24]

La diferencia entre el BIC y el AIC es la fuerza de la preferencia por la parsimonia. La penalización del BIC por la complejidad del modelo es  , mientras que la de AIC es  . La teoría asintótica de muestras grandes establece que si existe un mejor modelo, entonces, con tamaños de muestra crecientes, el BIC es fuertemente consistente, es decir, casi seguro que lo encontrará, mientras que el AIC puede que no, porque el AIC puede seguir colocando una probabilidad posterior excesiva en modelos que son más complicados de lo necesario. Por otra parte, AIC y AICc son asintóticamente "eficientes" (es decir, error medio cuadrático mínimo de predicción), mientras que BIC no lo es.[25]

Haussler et al. (1994) demostraron que cuando se utiliza BMA para la clasificación, su error esperado es, como máximo, el doble del error esperado del clasificador óptimo de Bayes.[26]​ Burnham y Anderson (1998, 2002) contribuyeron en gran medida a presentar a un público más amplio las ideas básicas del promediado bayesiano de modelos y a popularizar la metodología.[27]​ La disponibilidad de software, incluidos otros paquetes gratuitos de código abierto para R además de los mencionados anteriormente, ayudó a que los métodos fueran accesibles a un público más amplio.[28]

Combinación bayesiana de modelos editar

La combinación bayesiana de modelos (BMC) es una corrección algorítmica del promedio bayesiano de modelos (BMA). En lugar de muestrear cada modelo del conjunto individualmente, se muestrea a partir del espacio de posibles conjuntos (con pesos de modelo extraídos aleatoriamente de una distribución Dirichlet con parámetros uniformes). Esta modificación supera la tendencia de BMA a converger y dar todo el peso a un único modelo. Aunque la BMC es algo más costosa que la BMA desde el punto de vista informático, tiende a producir resultados mucho mejores. Se ha demostrado que la BMC es mejor en promedio (con significación estadística) que el BMA y el bagging.[29]

El uso de la ley de Bayes para calcular las ponderaciones de los modelos requiere calcular la probabilidad de los datos en función de cada modelo. Normalmente, ninguno de los modelos del conjunto es exactamente la distribución a partir de la cual se generaron los datos de entrenamiento, por lo que todos ellos reciben correctamente un valor cercano a cero para este término. Esto funcionaría bien si el conjunto fuera lo suficientemente grande como para muestrear todo el espacio de modelos, pero rara vez es posible. En consecuencia, cada patrón de los datos de entrenamiento hará que la ponderación del conjunto se desplace hacia el modelo del conjunto que más se aproxime a la distribución de los datos de entrenamiento. En esencia, se reduce a un método innecesariamente complejo para realizar la selección de modelos.

Las posibles ponderaciones de un conjunto pueden visualizarse como si estuvieran situadas en un simplex. En cada vértice del simplex, todo el peso se asigna a un único modelo del conjunto. El BMA converge hacia el vértice más próximo a la distribución de los datos de entrenamiento. En cambio, BMC converge hacia el punto en el que esta distribución se proyecta sobre el simplex. En otras palabras, en lugar de seleccionar el modelo más cercano a la distribución generada, busca la combinación de modelos más cercana a la distribución generada.

Los resultados de la BMA pueden aproximarse a menudo utilizando la validación cruzada para seleccionar el mejor modelo a partir de un conjunto de modelos. Del mismo modo, los resultados del BMC pueden aproximarse utilizando la validación cruzada para seleccionar la mejor combinación de conjuntos a partir de un muestreo aleatorio de posibles ponderaciones.

Bucket of models (Cubo de modelos) editar

Un "cubo de modelos" es una técnica de conjunto en la que se utiliza un algoritmo de selección de modelos para elegir el mejor modelo para cada problema. Cuando se prueba con un solo problema, un cubo de modelos puede no producir mejores resultados que el mejor modelo del conjunto, pero cuando se evalúa a través de muchos problemas, normalmente producirá resultados mucho mejores, de media, que cualquier modelo del conjunto.

El método más utilizado para la selección de modelos es la validación cruzada (a veces denominada "concurso de horneado"). Se describe con el siguiente pseudocódigo:

Para cada modelo m del cubo: Hacer c veces: (donde 'c' es alguna constante). Divida aleatoriamente el conjunto de datos de entrenamiento en dos conjuntos: A y B. 
Probar m con A
Probar m con B. 
Seleccione el modelo que obtenga la puntuación media más alta

La selección por validación cruzada puede resumirse como: "pruébelos todos con el conjunto de entrenamiento y elija el que mejor funcione".[30]

Gating es una generalización de la selección por validación cruzada. Consiste en entrenar otro modelo de aprendizaje para decidir cuál de los modelos del cubo es el más adecuado para resolver el problema. A menudo, se utiliza un perceptrón para el modelo de gating. Puede utilizarse para elegir el "mejor" modelo o para dar un peso lineal a las predicciones de cada modelo del cubo.

Cuando se utiliza un cubo de modelos con un gran conjunto de problemas, puede ser deseable evitar el entrenamiento de algunos de los modelos que tardan mucho tiempo en entrenarse. El aprendizaje de hitos es un enfoque de metaaprendizaje que trata de resolver este problema. Consiste en entrenar sólo los algoritmos rápidos (pero imprecisos) del cubo y, a continuación, utilizar el rendimiento de estos algoritmos para ayudar a determinar qué algoritmo lento (pero preciso) tiene más probabilidades de obtener mejores resultados.[31]

Stacking (apilamiento) editar

El apilamiento (a veces denominado generalización apilada) consiste en entrenar un modelo para combinar las predicciones de otros algoritmos de aprendizaje. En primer lugar, se entrenan todos los demás algoritmos utilizando los datos disponibles y, a continuación, se entrena un algoritmo combinador (estimador final) para realizar una predicción final utilizando todas las predicciones de los demás algoritmos (estimadores base) como entradas adicionales o utilizando predicciones de validación cruzada de los estimadores base, lo que puede evitar el sobreajuste.[32]​ Si se utiliza un algoritmo combinador arbitrario, el apilamiento puede representar teóricamente cualquiera de las técnicas de conjunto descritas en este artículo, aunque, en la práctica, a menudo se utiliza un modelo de regresión logística como combinador.

El apilamiento suele dar mejores resultados que cualquiera de los modelos entrenados por separado.[33]​ Se ha utilizado con éxito tanto en tareas de aprendizaje supervisado (regresión,[34]​ clasificación y aprendizaje a distancia)[35]​ como en aprendizaje no supervisado (estimación de la densidad).[36]​ También se ha utilizado para estimar la tasa de error del bagging.[3][37]​ Se ha informado de que supera al promediado bayesiano de modelos.[38]​ Los dos mejores resultados del concurso de Netflix utilizaron la mezcla, que puede considerarse una forma de apilamiento.[39]

Votación editar

La votación es otra forma de ensamblaje. Véase, por ejemplo, el algoritmo de mayoría ponderada (aprendizaje automático).

Implementación en paquetes estadísticos editar

  • R: al menos tres paquetes ofrecen herramientas de promediado de modelos bayesianos,[40]​ entre ellos el paquete BMS (acrónimo de Bayesian Model Selection),[41]​ el paquete BAS (acrónimo de Bayesian Adaptive Sampling),[42]​ y el paquete BMA.[43]
  • Python: scikit-learn, un paquete para el aprendizaje automático en Python, ofrece paquetes para el aprendizaje de conjuntos, incluidos paquetes para los métodos bagging, voting y averaging.
  • MATLAB: los conjuntos de clasificación se implementan en Statistics and Machine Learning Toolbox.[44]

Aplicaciones del aprendizaje por conjuntos editar

En los últimos años, debido a la creciente potencia computacional, que permite el entrenamiento en el aprendizaje de grandes conjuntos en un tiempo razonable, el número de aplicaciones de aprendizaje de conjuntos ha crecido cada vez más.[45]​ Algunas de las aplicaciones de los clasificadores de conjuntos incluyen:

Teledetección editar

Cartografía de la cubierta terrestre editar

La cartografía de la cubierta terrestre es una de las principales aplicaciones de los sensores de los satélites de observación de la Tierra, que utilizan datos de teledetección y geoespaciales, para identificar los materiales y objetos que se encuentran en la superficie de las zonas objetivo. Generalmente, las clases de materiales objetivo incluyen carreteras, edificios, ríos, lagos y vegetación.[46]​ Para identificar eficientemente los objetos de la cubierta terrestre, se proponen diferentes enfoques de aprendizaje conjunto basados en redes neuronales artificiales,[47]​ análisis de componentes principales del núcleo (KPCA),[48]árboles de decisión con refuerzo,[49]​ bosque aleatorio[46][50]​ y diseño automático de sistemas clasificadores múltiples[51]​ son propuestos para identificar eficazmente los objetos de la cubierta terrestre.

Detección de cambios editar

La detección de cambios es un problema de análisis de imágenes que consiste en la identificación de lugares en los que la cubierta terrestre ha cambiado con el tiempo. La detección de cambios se utiliza ampliamente en campos como el crecimiento urbano, la dinámica de los bosques y la vegetación, el uso del suelo y la monitorización de catástrofes.[52]​ Las primeras aplicaciones de clasificadores de conjuntos en la detección de cambios se diseñaron con el voto mayoritario,[53]​ el promedio de modelos bayesianos,[54]​ y la máxima probabilidad posterior.[55]​ Dado el crecimiento de los datos de satélite a lo largo del tiempo, en la última década se ha visto un mayor uso de métodos de series temporales para la detección continua de cambios a partir de pilas de imágenes.[56]​ Un ejemplo es un método bayesiano de detección de puntos de cambio por conjuntos llamado BEAST, con el software disponible como paquete Rbeast en R, Python y Matlab.[57]

Seguridad informática editar

Denegación de servicio distribuido editar

La denegación de servicio distribuida es uno de los ciberataques más amenazadores que puede sufrir un proveedor de servicios de Internet.[45]​ Al combinar la salida de clasificadores individuales, los clasificadores de conjunto reducen el error total de detectar y discriminar este tipo de ataques de los flashes legítimos.[58]

Detección de malware editar

La clasificación de códigos maliciosos como virus informáticos, gusanos informáticos, troyanos, ransomware y programas espía mediante técnicas de aprendizaje automático se inspira en el problema de la categorización de documentos.[59]​ Los sistemas de aprendizaje por conjuntos han demostrado una eficacia adecuada en este ámbito.[60][61]

Detección de intrusos editar

Un sistema de detección de intrusos supervisa la red informática o los sistemas informáticos para identificar códigos de intrusos como un proceso de detección de anomalías. El aprendizaje conjunto ayuda con éxito a estos sistemas de supervisión a reducir su error total.[62][63]

Reconocimiento facial editar

El reconocimiento facial, que recientemente se ha convertido en una de las áreas de investigación más populares del reconocimiento de patrones, se ocupa de la identificación o verificación de una persona mediante sus imágenes digitales.[64]

Los conjuntos jerárquicos basados en el clasificador de Gabor Fisher y las técnicas de preprocesamiento del análisis de componentes independientes son algunos de los primeros conjuntos empleados en este campo.[65][66][67]

Reconocimiento de emociones editar

Mientras que el reconocimiento del habla se basa principalmente en el aprendizaje profundo porque la mayoría de los actores de la industria en este campo como Google, Microsoft e IBM revelan que la tecnología central de su reconocimiento del habla se basa en este enfoque, el reconocimiento de emociones basado en el habla también puede tener un rendimiento satisfactorio con el aprendizaje conjunto.[68][69]

También se está utilizando con éxito en el reconocimiento de emociones faciales.[70][71][72]

Detección de fraudes editar

La detección de fraudes se ocupa de la identificación de fraudes bancarios, como el blanqueo de dinero, el fraude con tarjetas de crédito y el fraude en las telecomunicaciones, que tienen vastos dominios de investigación y aplicaciones de aprendizaje automático. Dado que el aprendizaje por conjuntos mejora la solidez del modelado del comportamiento normal, se ha propuesto como una técnica eficaz para detectar estos casos y actividades fraudulentos en los sistemas bancarios y de tarjetas de crédito.[73][74]

Toma de decisiones financieras editar

La precisión de la predicción del fracaso empresarial es una cuestión muy crucial en la toma de decisiones financieras. Por lo tanto, se proponen distintos clasificadores de conjuntos para predecir las crisis financieras y las dificultades financieras.[75]​ Asimismo, en el problema de la manipulación basada en el comercio, en el que los operadores intentan manipular los precios de las acciones mediante actividades de compra y venta, se requieren clasificadores de conjuntos para analizar los cambios en los datos del mercado de valores y detectar síntomas sospechosos de manipulación de los precios de las acciones.[75]

Medicina editar

Los clasificadores de conjuntos se han aplicado con éxito en neurociencia, proteómica y diagnóstico médico, como en la detección de trastornos neurocognitivos (por ejemplo, Alzheimer o distrofia miotónica) a partir de conjuntos de datos de IRM,[76][77][78]​ y en la clasificación de citología cervical.[79][80]

Referencias editar

  1. Opitz, D.; Maclin, R. (1 de agosto de 1999). «Popular Ensemble Methods: An Empirical Study». Journal of Artificial Intelligence Research (en inglés) 11: 169-198. ISSN 1076-9757. doi:10.1613/jair.614. Consultado el 5 de marzo de 2024. 
  2. Polikar, R. (2006). «"Ensemble based systems in decision making"». IEEE Circuits and Systems Magazine. doi:10.1109/MCAS.2006.1688199. 
  3. a b Rokach, L. (2010). «"Ensemble-based classifiers"». Artificial Intelligence Review. doi:10.1007/s10462-009-9124-7. 
  4. Blockeel H. (2011). «"Hypothesis Space"». Encyclopedia of Machine Learning. ISBN 978-0-387-30768-8. doi:10.1007/978-0-387-30164-8_373. 
  5. Kuncheva, L. and Whitaker, C. (2003). «Measures of diversity in classifier ensembles». Machine Learning. 
  6. Sollich, P. and Krogh, A. (1996). «Learning with ensembles: How overfitting can be useful». Advances in Neural Information Processing Systems, volume 8. 
  7. Brown, G. and Wyatt, J. and Harris, R. and Yao, X. (2005). «Diversity creation methods: a survey and categorisation». Information Fusion. 
  8. Adeva, Juan Jose Garcıa; Beresi, Ulises Cervino; Calvo, Rafael A. (1 de diciembre de 2005). «Accuracy and Diversity in Ensembles of Text Categorisers». CLEI Electronic Journal (en inglés) 8 (2): 1:1-1:12. ISSN 0717-5000. doi:10.19153/cleiej.8.2.1. Consultado el 5 de marzo de 2024. 
  9. Ho, T. (1995). «Random Decision Forests». Proceedings of the Third International Conference on Document Analysis and Recognition. 
  10. Gashler, M.; Giraud-Carrier, C.; Martinez, T. (2008). «Decision Tree Ensemble: Small Heterogeneous is Better Than Large Homogeneous». Seventh International Conference on Machine Learning and Applications. ISBN 978-0-7695-3495-4. doi:10.1109/ICMLA.2008.154. 
  11. Liu, Y.; Yao, X. (1999-12). «Ensemble learning via negative correlation». Neural Networks 12 (10): 1399-1404. ISSN 0893-6080. doi:10.1016/s0893-6080(99)00073-8. Consultado el 5 de marzo de 2024. 
  12. Shoham, Ron; Permuter, Haim (2019). «"Amended Cross-Entropy Cost: An Approach for Encouraging Diversity in Classification Ensemble (Brief Announcement)"». Cyber Security Cryptography and Machine Learning. ISBN 978-3-030-20950-6. doi:10.1007/978-3-030-20951-3_18. 
  13. Morishita, Terufumi; Morio, Gaku; Horiguchi, Shota; Ozaki, Hiroaki; Nukaga, Nobuo (28 de junio de 2022). «Rethinking Fano’s Inequality in Ensemble Learning». Proceedings of the 39th International Conference on Machine Learning (en inglés) (PMLR): 15976-16016. Consultado el 6 de marzo de 2024. 
  14. Bonab, Hamed R.; Can, Fazli (24 de octubre de 2016). «A Theoretical Framework on the Ideal Number of Classifiers for Online Ensembles in Data Streams». Proceedings of the 25th ACM International on Conference on Information and Knowledge Management. CIKM '16 (Association for Computing Machinery): 2053-2056. ISBN 978-1-4503-4073-1. doi:10.1145/2983323.2983907. Consultado el 6 de marzo de 2024. 
  15. Bonab, Hamed; Can, Fazli (2017). "Less is More: A Comprehensive Framework for the Number of Components of Ensemble Classifiers". 
  16. Tom M. Mitchell (1997). Machine Learning. 
  17. Salman, R., Alzaatreh, A., Sulieman, H., & Faisal, S. (2021). «A Bootstrap Framework for Aggregating within and between Feature Selection Methods». Entropy (Basel, Switzerland). doi:10.3390/e23020200. 
  18. Breiman, L., Bagging Predictors (1996). Machine Learning. doi:10.1007/BF00058655. 
  19. Brodeur, Z. P., Herman, J. D., & Steinschneider, S. (2020). «Bootstrap aggregation and cross-validation methods to reduce overfitting in reservoir control policy search». Water Resources Research. doi:10.1029/2020WR027184. 
  20. Hoeting, Jennifer A.; Madigan, David; Raftery, Adrian E.; Volinsky, Chris T. (1999-11). «Bayesian model averaging: a tutorial (with comments by M. Clyde, David Draper and E. I. George, and a rejoinder by the authors». Statistical Science 14 (4): 382-417. ISSN 0883-4237. doi:10.1214/ss/1009212519. Consultado el 6 de marzo de 2024. 
  21. Chris Fraley; Adrian Raftery; J. McLean Sloughter; Tilmann Gneiting. ensembleBMA: Probabilistic Forecasting using Ensembles and Bayesian Model Averaging. Wikidata Q98972500. 
  22. Sevcikova, Hana (23 de noviembre de 2023), hanase/BMA, consultado el 7 de marzo de 2024 .
  23. Adrian Raftery (1995). «"Bayesian model selection in social research"». Sociological Methodology. ISSN 0081-1750. doi:10.2307/271063. 
  24. Merlise A. Clyde; Michael L. Littman; Quanli Wang; Joyee Ghosh; Yingbo Li; Don van den Bergh. BAS: Bayesian Variable Selection and Model Averaging using Bayesian Adaptive Sampling. Wikidata Q98974089. 
  25. Gerda Claeskens; Nils Lid Hjort (2008). «Model selection and model averaging». Cambridge University Press. Wikidata Q62568358. 
  26. Haussler, David; Kearns, Michael; Schapire, Robert E. (1 de enero de 1994). «Bounds on the sample complexity of Bayesian learning using information theory and the VC dimension». Machine Learning (en inglés) 14 (1): 83-113. ISSN 1573-0565. doi:10.1007/BF00993163. Consultado el 7 de marzo de 2024. 
  27. Kenneth P. Burnham; David R. Anderson (2002). «Model Selection and Inference: A practical information-theoretic approach,». Springer Science+Business Media. Wikidata Q76889160. 
  28. El artículo de Wikiversity sobre Searching R Packages menciona varias formas de encontrar paquetes disponibles para algo como esto. Por ejemplo, "sos::findFn('{Bayesian model averaging}')" desde dentro de R buscará archivos de ayuda en paquetes contribuidos que incluyan el término de búsqueda y abrirá dos pestañas en el navegador por defecto. La primera listará todos los archivos de ayuda encontrados ordenados por paquete. La segunda resume los paquetes encontrados, ordenados por la aparente fuerza de la coincidencia.
  29. Monteith, Kristine; Carroll, James; Seppi, Kevin; Martinez, Tony (2011). «Turning Bayesian Model Averaging into Bayesian Model Combination». Proceedings of the International Joint Conference on Neural Networks IJCNN'11. 
  30. «CiteSeerX». CiteSeerX (en inglés). Consultado el 7 de marzo de 2024. 
  31. Bensusan, Hilan; Giraud-Carrier, Christophe (2000). «"Discovering Task Neighbourhoods through Landmark Learning Performances». Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. Vol. 1910. ISBN 978-3-540-41066-9. doi:10.1007/3-540-45372-5_32. 
  32. «1.11. Ensembles: Gradient boosting, random forests, bagging, voting, stacking». scikit-learn (en inglés). Consultado el 7 de marzo de 2024. 
  33. Wolpert (1992). «"Stacked Generalization"». Neural Networks. doi:10.1016/s0893-6080(05)80023-1. 
  34. Breiman, Leo (1 de julio de 1996). «Stacked regressions». Machine Learning (en inglés) 24 (1): 49-64. ISSN 1573-0565. doi:10.1007/BF00117832. Consultado el 7 de marzo de 2024. 
  35. Ozay, M.; Yarman Vural, F. T. A New Fuzzy Stacked Generalization Technique and Analysis of its Performance. 
  36. Smyth, Padhraic; Wolpert, David (1999). «Linearly Combining Density Estimators via Stacking». Machine Learning. doi:10.1023/A:1007511322260. 
  37. Wolpert, David H.; MacReady, William G. (1999). «"An Efficient Method to Estimate Bagging's Generalization Error"». Machine Learning. doi:10.1023/A:1007519102914. 
  38. Clarke, B. (2003). «Bayes model averaging and stacking when model approximation error cannot be ignored». Journal of Machine Learning Research. 
  39. Sill, J.; Takacs, G.; Mackey, L.; Lin, D. (2009). "Feature-Weighted Linear Stacking". 
  40. Amini, Shahram M.; Parmeter, Christopher F. (2011). «Bayesian model averaging in R». Journal of Economic and Social Measurement. doi:10.3233/JEM-2011-0350. 
  41. Hofmarcher, Martin Feldkircher and Stefan Zeugner and Paul (9 de agosto de 2022), BMS: Bayesian Model Averaging Library, consultado el 7 de marzo de 2024 .
  42. Clyde (ORCID=0000-0002-3595-1872), Merlise; Littman, Michael; Ghosh, Joyee; Li, Yingbo; Bersson, Betsy; Bergh, Don van de; Wang, Quanli (6 de diciembre de 2023), BAS: Bayesian Variable Selection and Model Averaging using Bayesian Adaptive Sampling, consultado el 7 de marzo de 2024 .
  43. Raftery, Adrian; Hoeting, Jennifer; Volinsky, Chris; Painter, Ian; Yeung, Ka Yee (22 de abril de 2022), BMA: Bayesian Model Averaging, consultado el 7 de marzo de 2024 .
  44. «Classification Ensembles - MATLAB & Simulink - MathWorks United Kingdom». uk.mathworks.com. Consultado el 7 de marzo de 2024. 
  45. a b Woźniak, Michał; Graña, Manuel; Corchado, Emilio (2014). «A survey of multiple classifier systems as hybrid systems». Information Fusion. doi:10.1016/j.inffus.2013.04.006. 
  46. a b Rodriguez-Galiano, V.F.; Ghimire, B.; Rogan, J.; Chica-Olmo, M.; Rigol-Sanchez, J.P. (2012). «"An assessment of the effectiveness of a random forest classifier for land-cover classification"». ISPRS Journal of Photogrammetry and Remote Sensing. doi:10.1016/j.isprsjprs.2011.11.002. 
  47. Giacinto, Giorgio; Roli, Fabio (2001). «Design of effective neural network ensembles for image classification purposes"». Image and Vision Computing. doi:10.1016/S0262-8856(01)00045-2. 
  48. Xia, Junshi; Yokoya, Naoto; Iwasaki, Yakira (2017). «A novel ensemble classifier of hyperspectral and LiDAR data using morphological features"». 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). ISBN 978-1-5090-4117-6. doi:10.1109/ICASSP.2017.7953345. 
  49. Mochizuki, S.; Murakami, T. (2012). «Accuracy comparison of land cover mapping using the object-oriented image classification with machine learning algorithms"». 33rd Asian Conference on Remote Sensing 2012, ACRS 2012. 
  50. Liu, Dan; Toman, Elizabeth; Fuller, Zane; Chen, Gang; Londo, Alexis; Xuesong, Zhang; Kaiguang, Zhao (2018). «"Integration of historical map and aerial imagery to characterize long-term land-use change and landscape dynamics: An object-based analysis via Random Forests». Ecological Indicators. doi:10.1016/j.ecolind.2018.08.004. 
  51. Giacinto, G.; Roli, F.; Fumera, G. (2000). «"Design of effective multiple classifier systems by clustering of classifiers".». Proceedings 15th International Conference on Pattern Recognition. ICPR-2000. Vol. 2. ISBN 978-0-7695-0750-7. doi:10.1109/ICPR.2000.906039. 
  52. Du, Peijun; Liu, Sicong; Xia, Junshi; Zhao, Yindi (2013). «Information fusion techniques for change detection from multi-temporal remote sensing images». Information Fusion. doi:10.1016/j.inffus.2012.05.003. 
  53. Defined by Bruzzone et al. 2002 como "La clase de datos que recibe el mayor número de votos se toma como clase del patrón de entrada", se trata de mayoría simple, más exactamente descrita como votación por pluralidad.
  54. «1-s2.0-S0034425719301853-main.pdf». Google Docs. Consultado el 7 de marzo de 2024. 
  55. Bruzzone, Lorenzo; Cossu, Roberto; Vernazza, Gianni (2002). «"Combining parametric and non-parametric algorithms for a partially unsupervised classification of multitemporal remote-sensing images». Information Fusion. doi:10.1016/S1566-2535(02)00091-X. 
  56. Mugiraneza, Theodomir; Nascetti, Andrea; Ban, Yifang (2020-01). «Continuous Monitoring of Urban Land Cover Change Trajectories with Landsat Time Series and LandTrendr-Google Earth Engine Cloud Computing». Remote Sensing (en inglés) 12 (18): 2883. ISSN 2072-4292. doi:10.3390/rs12182883. Consultado el 7 de marzo de 2024. 
  57. zhaokg (6 de marzo de 2024), zhaokg/Rbeast, consultado el 7 de marzo de 2024 .
  58. Raj Kumar, P. Arun; Selvakumar, S. (2011). «Distributed denial of service attack detection using an ensemble of neural classifier». Computer Communications. doi:10.1016/j.comcom.2011.01.012. 
  59. Shabtai, Asaf; Moskovitch, Robert; Elovici, Yuval; Glezer, Chanan (2009). «"Detection of malicious code by applying machine learning classifiers on static features: A state-of-the-art survey"». Information Security Technical Report. doi:10.1016/j.istr.2009.03.003. 
  60. Zhang, Boyun; Yin, Jianping; Hao, Jingbo; Zhang, Dingxing; Wang, Shulin (2007). «Malicious Codes Detection Based on Ensemble Learning». Autonomic and Trusted Computing. Lecture Notes in Computer Science. ISBN 978-3-540-73546-5. doi:10.1007/978-3-540-73547-2_48. 
  61. Menahem, Eitan; Shabtai, Asaf; Rokach, Lior; Elovici, Yuval (2009). «"Improving malware detection by applying multi-inducer ensemble"». Computational Statistics & Data Analysis. doi:10.1016/j.csda.2008.10.015. 
  62. Locasto, Michael E.; Wang, Ke; Keromytis, Angeles D.; Salvatore, J. Stolfo (2005). «"FLIPS: Hybrid Adaptive Intrusion Prevention"». Recent Advances in Intrusion Detection. Lecture Notes in Computer Science. PMID 978-3-540-31778-4 |pmid= incorrecto (ayuda). doi:10.1007/11663812_5. 
  63. Giacinto, Giorgio; Perdisci, Roberto; Del Rio, Mauro; Roli, Fabio (2008). «"Intrusion detection in computer networks by a modular ensemble of one-class classifiers"». Information Fusion. doi:10.1016/j.inffus.2006.10.002. 
  64. Mu, Xiaoyan; Lu, Jiangfeng; Watta, Paul; Hassoun, Mohamad H. (2009). «"Weighted voting-based ensemble classifiers with application to human face recognition and voice recognition".». 2009 International Joint Conference on Neural Networks. doi:10.1109/IJCNN.2009.5178708. 
  65. Yu, Su; Shan, Shiguang; Chen, Xilin; Gao, Wen (2006). «Hierarchical ensemble of Gabor Fisher classifier for face recognition». 7th International Conference on Automatic Face and Gesture Recognition (FGR06). ISBN 978-0-7695-2503-7. doi:10.1109/FGR.2006.64. 
  66. Su, Y.; Shan, S.; Chen, X.; Gao, W. (2006). «"Patch-Based Gabor Fisher Classifier for Face Recognition"». 18th International Conference on Pattern Recognition (ICPR'06). ISBN 978-0-7695-2521-1. doi:10.1109/ICPR.2006.917. 
  67. Liu, Yang; Lin, Yongzheng; Chen, Yuehui (2008). «"Ensemble Classification Based on ICA for Face Recognition".». 2008 Congress on Image and Signal Processing. ISBN 978-0-7695-3119-9. doi:10.1109/CISP.2008.581. 
  68. Rieger, Steven A.; Muraleedharan, Rajani; Ramachandran, Ravi P. (2014). «"Speech based emotion recognition using spectral feature extraction and an ensemble of KNN classifiers"». The 9th International Symposium on Chinese Spoken Language Processing. ISBN 978-1-4799-4219-0. doi:10.1109/ISCSLP.2014.6936711. 
  69. Krajewski, Jarek; Batliner, Anton; Kessel, Silke (2010). «"Comparing Multiple Classifiers for Speech-Based Detection of Self-Confidence - A Pilot Study». 2010 20th International Conference on Pattern Recognition. ISBN 978-1-4244-7542-1. doi:10.1109/ICPR.2010.905. 
  70. Rani, P. Ithaya; Muneeswaran, K. (2016). «"Recognize the facial emotion in video sequences using eye and mouth temporal Gabor features». Multimedia Tools and Applications. doi:10.1007/s11042-016-3592-y. 
  71. Rani, P. Ithaya; Muneeswaran, K. (2016). «"Facial Emotion Recognition Based on Eye and Mouth Regions".». International Journal of Pattern Recognition and Artificial Intelligence. doi:10.1142/S021800141655020X. 
  72. RANI, P. ITHAYA; MUNEESWARAN, K. (28 de marzo de 2018). «Emotion recognition based on facial components». Sādhanā (en inglés) 43 (3): 48. ISSN 0973-7677. doi:10.1007/s12046-018-0801-6. Consultado el 8 de marzo de 2024. 
  73. Louzada, Francisco; Ara, Anderson (2012). «Bagging k-dependence probabilistic networks: An alternative powerful fraud detection tool». Expert Systems with Applications. doi:10.1016/j.eswa.2012.04.024. 
  74. Sundarkumar, G. Ganesh; Ravi, Vadlamani (2015). «"A novel hybrid undersampling method for mining unbalanced datasets in banking and insurance"». Engineering Applications of Artificial Intelligence. doi:10.1016/j.engappai.2014.09.019. 
  75. a b Kim, Yoonseong; Sohn, So Young (2012). «"Stock fraud detection using peer group analysis"». Expert Systems with Applications. doi:10.1016/j.eswa.2012.02.025. 
  76. Savio, A.; García-Sebastián, M.T.; Chyzyk, D.; Hernandez, C.; Graña, M.; Sistiaga, A.; López de Munain, A.; Villanúa, J. (2011). «"Neurocognitive disorder detection based on feature vectors extracted from VBM analysis of structural MRI".». Computers in Biology and Medicine. doi:10.1016/j.compbiomed.2011.05.010. 
  77. Ayerdi, B.; Savio, A.; Graña, M. (2013). «Meta-ensembles of Classifiers for Alzheimer's Disease Detection Using Independent ROI Features». Natural and Artificial Computation in Engineering and Medical Applications. Lecture Notes in Computer Science. ISBN 978-3-642-38621-3. doi:10.1007/978-3-642-38622-0_13. 
  78. Gu, Quan; Ding, Yong-Sheng; Zhang, Tong-Liang (2015). «"An ensemble classifier based prediction of G-protein-coupled receptor classes in low homology"». Neurocomputing. doi:10.1016/j.neucom.2014.12.013. 
  79. Xue, Dan; Zhou, Xiaomin; Li, Chen; Yao, Yudong; Rahaman, Md Mamunur; Zhang, Jinghua; Chen, Hao; Zhang, Jinpeng et al. (2020). «An Application of Transfer Learning and Ensemble Learning Techniques for Cervical Histopathology Image Classification». IEEE Access 8: 104603-104618. ISSN 2169-3536. doi:10.1109/ACCESS.2020.2999816. Consultado el 8 de marzo de 2024. 
  80. Manna, Ankur; Kundu, Rohit; Kaplun, Dmitrii; Sinitca, Aleksandr; Sarkar, Ram (2021). «"A fuzzy rank-based ensemble of CNN models for classification of cervical cytology». Scientific Reports. PMID 34267261. doi:10.1038/s41598-021-93783-8.