Herramientas de software abierto para minería de datos

Las herramientas de software abierto para Minería de Datos han sido desarrolladas por comunidades entusiastas de análisis de datos. No son necesariamente apoyadas por instituciones puesto que son el resultado del esfuerzo de contribuciones internacionales e informales de grupos desarrolladores. En la última década, las herramientas de código abierto más usadas para propósitos de minería de datos han sido: RapidMiner, R, Weka, KNIME, Orange y scikit-learn. Estas herramientas se posicionaron en los primeros puestos en los resultados de una encuesta publicada en el influential KDnuggets portal en 2013, basada en las opiniones sobre herramientas para DM más usadas en proyectos reales; un dato particularmente interesante es que todas las opciones más votadas fueron open source, a excepción de Excel.[1]​ Para el año 2020 otras herramientas como SAS (Statistical Analysis System), Oracle BI, IBM SPSS, Teradata, Board, Dundas, Weka y Sisense han ganado popularidad, sin embargo herramientas como RapidMiner, R y Orange aún mantienen un destacable apoyo de la comunidad

Evolución de las herramientas de software abierto para Minería de Datos

editar

Lo modelos de inferencia y lenguaje automático (machine learning) que aparecieron de manera temprana en los años 80 utilizaban generalmente una consola de comandos para realizar las actividades relacionadas con los algoritmos. Posteriormente, la introducción de algoritmos de clasificación como C4.5 y librerías orientadas a objetos como MLC++ permitieron el desarrollo de programas en los que se podía compartir información en distintos formatos y que ya proveían herramientas para la evaluación de los resultados. Alrededor de los años 90, MLC++ se convertiría en MineSet que en el momento fue considerado el ambiente de minería de datos más sofisticado ya que permitía realizar interesantes interesantes visualizaciones de información y modelos. En la actualidad, muchas herramientas modernas de software abierto para minería de datos utilizan un enfoque similar para la programación de visualizaciones.[2]

Referencias

editar
  1. Jovic (Mayo 2014). «An overview of free software tools for general data mining» (en inglés). Consultado el 4 de octubre de 2020. 
  2. Zupan, Blaz (2008). «Open-Source Tools for Data Mining» (en inglés). Consultado el 4 de octubre de 2020.