Diferencia entre revisiones de «Aprendizaje basado en árboles de decisión»

Contenido eliminado Contenido añadido
Se cambia "aprendizaje de máquina" por "aprendizaje automático" por coherencia con otros artículos del mismo tipo
CEM-bot (discusión · contribs.)
m Pequeñas correcciones WP:CEM.
Línea 35:
*'''Árboles de regresión''' es cuando el resultado predicho se puede considerar un número real (por ejemplo, el precio de una casa, o la longitud de un paciente de la estancia en un hospital).
 
El término '''Árboles de Clasificación y Regresión''' (ACR) es un término genérico utilizado para referirse a ambos de los procedimientos anteriores, introducido por primera vez por por [[Leo Breiman|Breiman]] et al.<ref name="bfos">{{Cite book
|last=Breiman
|first=Leo
Línea 72:
==Impureza de Gini==
No debe confundirse con el coeficiente de Gini.
Utilizado por el algoritmo de ACR (Árboles de Clasificación y Regresión) , la impureza de Gini es una medida de cuán a menudo un elemento elegido aleatoriamente del conjunto sería etiquetado incorrectamente si fue etiquetado de manera aleatoria de acuerdo a la distribución de las etiquetas en el subconjunto. La impureza de Gini se puede calcular sumando la probabilidad de cada elemento siendo veces elegido la probabilidad de un error en la categorización de ese elemento. Alcanza su mínimo (cero) cuando todos los casos del nodo corresponden a una sola categoría de destino.
 
Para calcular la impureza de Gini de un conjunto de elementos, supongamos i toma valores en <math>\{1, 2, ..., m\}</math>, y sea <math>f_i</math> la fracción de artículos etiquetados con valor <math>i</math> en el conjunto.
Línea 103:
 
==Limitaciones==
*El problema del aprendizaje de un árbol de decisión óptimo es conocido por ser [[NP-completo]] bajo varios aspectos de optimización e incluso para conceptos simples.<ref>{{Cite journal | doi = 10.1016/0020-0190(76)90095-8 | last1 = Hyafil | first1 = Laurent | last2 = Rivest | first2 = RL | year = 1976 | title = Constructing Optimal Binary Decision Trees is NP-complete | url = | journal = Information Processing Letters | volume = 5 | issue = 1| pages = 15–17 }}</ref><ref>Murthy S. (1998). Automatic construction of decision trees from data: A multidisciplinary survey. ''Data Mining and Knowledge Discovery''</ref> En consecuencia, los algoritmos prácticos de aprendizaje de árboles de decisiones se basan en heurísticas como el [[algoritmo voraz]] donde decisiones localmente óptimas se hacen en cada nodo. Tales algoritmos no pueden garantizar devolver el árbol de decisión globalmente óptimo. Para reducir el efecto codicioso de optimalidad local han sido propuestos algunos métodos tales como la distancia de doble información (DDI).<ref>{{Cite paper|url= http://www.eng.tau.ac.il/~bengal/DID.pdf|title=Efficient Construction of Decision Trees by the Dual Information Distance Method|author= Ben-Gal I. Dana A., Shkolnik N. and Singer
|publisher= Quality Technology & Quantitative Management (QTQM), 11( 1), 133-147|year=20}}</ref> [http://www.eng.tau.ac.il/~bengal/DID.pdf]