Clasificación estadística

En aprendizaje automático y estadística, la clasificación estadística es el problema de identificar a cuál de un conjunto de categorías (subpoblaciones) pertenece una nueva observación, sobre la base de un conjunto de datos de formación que contiene observaciones (o instancias) cuya categoría de miembros es conocida. Un ejemplo sería asignar a un correo electrónico dado la clasificación de "spam" o "no spam", o asignar un diagnóstico a un paciente dado según las características observadas del paciente (sexo, género, presión arterial, presencia o ausencia de ciertos síntomas, etc.). La clasificación es un ejemplo reconocimiento de patrones.

En la terminología de aprendizaje automático, la clasificación está considerada como un caso de aprendizaje supervisado, es decir, un aprendizaje en el que se dispone de un conjunto de observaciones correctamente identificadas.^[1] El procedimiento no supervisado se conoce como clustering, e implica agrupar los datos e categorías basadas en alguna medida de similitud o distancia inherente.

A menudo, las observaciones individuales se analizan en un conjunto de propiedades cuantificables, conocidas como variables explicativas o características. Estas propiedades pueden ser categórica(por ejemplo,"A","B","AB" u "O", para el grupo sanguíneo), ordinales (por ejemplo,"grande","mediano" o "pequeño"), de número entero (por ejemplo, el número de ocurrencias de una palabra en particular en un mensaje de correo electrónico) de número real (por ejemplo, una medición de la presión arterial). Otros clasificadores trabajan comparando observaciones contra observaciones anteriores mediante la función de similitud o de distancia.

Un algoritmo que implementa la clasificación, especialmente en una implementación concreta, se conoce como un clasificador. El término "clasificador" algunas veces refiere a la función matemática, implementada por un algoritmo de clasificación, que asocia los datos de entrada a una categoría.

La terminología a través de los diferentes campos es muy variada. En estadística, cuando la clasificación se hace a menudo con regresión logística o con un procedimiento similar, las propiedades de las observaciones se denominan variables explicativas (o variables independientes, regriones, etc.), y las categorías a predecir se conocen como clases, que se consideran posibles valores de la variable dependiente. En el aprendizaje automático, las observaciones se conocen a menudo como instancias, las variables explicativas se denominan características (agrupadas en un vector de características) y las posibles categorías a predecir son clases. Otros campos pueden utilizar terminologías diferentes: por ejemplo, en ecología de comunidades, el término "clasificación" se refiere normalmente al análisis de grupos, es decir, a un tipo de aprendizaje no supervisado, en lugar del aprendizaje supervisado descrito en este artículo.

Ámbitos de aplicación

La clasificación tiene muchas aplicaciones. En algunos de estos está empleado como procedimiento de minería de datos, mientras que en otros se lleva a cabo un modelado estadístico más detallado.

Visión de ordenador
- Imagen médica y análisis de imagen médica
- Reconocimiento óptico de caracteres
- Seguimiento de objetos
Descubrimiento de fármacos y desarrollo
- Toxicogenómica
- Estructura cuantitativa y estructura actividad
Geoestadística
Reconocimiento del habla
Reconocimiento de escritura a mano
Biometría
Taxinomía
Procesamiento de lengua natural estadístico
Clasificación de documentos
Motores de búsqueda de internet
El crédito que puntúa
Reconocimiento de patrones
Micro-Clasificación de variedad

Véase también

Inteligencia artificial
Clasificación binaria
Probabilidades de afiliación de la clase
Regla de clasificación
Procesamiento de plazo compuesto
Minería de datos
Almacén de datos
Lógica difusa
Búsqueda y recuperación de información
Lista de datasets para búsqueda de aprendizaje de la máquina
Aprendizaje automático
Sistema de recomendación

Referencias

↑ Alpaydin, Ethem (2010). Introduction to Machine Learning. MIT Press. p. 9. ISBN 978-0-262-01243-0.

Enlaces externos

Clasificación de COLEGA Suite escrito en Java.
kNN Y energía Potencial (Applet), Universidad de Leicester
scikit-Aprender un paquete ampliamente utilizado en python
Weka Un paquete basado en java con una variedad extensa de algoritmos.

Datos: Q1744628
Multimedia: Statistical classification / Q1744628

[1] Alpaydin, Ethem (2010). Introduction to Machine Learning. MIT Press. p. 9. ISBN 978-0-262-01243-0.

[1]