Diferencia entre revisiones de «Aprendizaje basado en árboles de decisión»

Contenido eliminado Contenido añadido
Corrección de referencia
Línea 73:
''No debe confundirse con el [[coeficiente de Gini]].''
 
Utilizado por el algoritmo de ACR (Árboles de Clasificación y Regresión), la impureza de Gini es una medida de cuán a menudo un elemento elegido aleatoriamente del conjunto sería etiquetado incorrectamente si fue etiquetado de manera aleatoria de acuerdo a la distribución de las etiquetas en el subconjunto. La impureza de Gini se puede calcular sumando la probabilidad de cada elemento siendo veces elegido multiplicado por la probabilidad de un error en la categorización de ese elemento. Alcanza su mínimo (cero) cuando todos los casos del nodo corresponden a una sola categoría de destino.
 
Para calcular la impureza de Gini de un conjunto de elementos, supongamos i toma valores en <math>\{1, 2, ..., m\}</math>, y sea <math>f_i</math> la fracción de artículos etiquetados con valor <math>i</math> en el conjunto.