Big data
Big Data (del idioma inglés grandes datos[1][2] ) es en el sector de tecnologías de la información y la comunicación una referencia a los sistemas que manipulan grandes conjuntos de datos (o data sets). Las dificultades más habituales en estos casos se centran en la captura, el almacenado,[3] búsqueda, compartición, análisis,[4] y visualización. La tendencia a manipular ingentes cantidades de datos se debe a la necesidad en muchos casos de incluir los datos relacionados del análisis en un gran conjunto de datos relacionado, tal es el ejemplo de los análisis de negocio, los datos de enfermedades infecciosas, o la lucha contra el crimen organizado.[5]
El límite superior de procesamiento se ha ido desplazando a lo largo de los años, de esta forma los límites que estaban fijados en 2008 rondaban los órdenes de petabytes a zettabytes de datos.[6] Los científicos con cierta regularidad encuentran limitaciones debido a la gran cantidad de datos en ciertas áreas, tales como la meteorología, la genómica,[7] la conectómica, las complejas simulaciones de procesos físicos,[8] y las investigaciones relacionadas con los procesos biológicos y ambientales,[9] Las limitaciones también afectan a los motores de búsqueda en internet, a los sistemas finanzas y a la informática de negocios. Los data sets crecen en volumen debido en parte a la introducción de información ubicua procedente de los sensores inalámbricos y los dispositivos móviles (por ejemplo las VANETs), del constante crecimiento de los históricos de aplicaciones (por ejemplo de los logs), cámaras (sistemas de teledetección), micrófonos, lectores de radio-frequency identification.[10][11] La capacidad para almacenar datos de la humanidad se ha doblado a un ritmo de cuarenta meses desde los años ochenta.[12] En 2012 , cada día fueron creados cerca de 2,5 trillones (del inglés quintillion) (2.5×1018) de bytes de datos.[13]
Definición
"Big data" es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Los tamaños del "big data" se encuentran constantemente en movimiento creciente, de esta forma en 2012 se encontraba dimensionada en un tamaño de una docena de terabytes hasta varios petabytes de datos en un único data set. En la metodología MIKE2.0 dedicada a investigar temas relacionados con la gestión de información, definen big data en términos de permutaciones útiles, complejidad y dificultad para borrar registros individuales.
En el año 2001 un informe de investigación que se fundamentaba en congresos y presentaciones relacionadas,[14] el analista Doug Laney del META Group (ahora Gartner) definía el crecimiento constante de datos como una oportunidad y reto para investigar en el volumen, la velocidad y la variedad. Gartner continúa usando big data como referencia de este.[15]
Referencias
- ↑ White, Tom. Hadoop: The Definitive Guide. 2009. 1st Edition. O'Reilly Media. Pg 3.
- ↑ MIKE2.0, Big Data Definition http://mike2.openmethodology.org/wiki/Big_Data_Definition
- ↑ Kusnetzky, Dan. What is "Big Data?". ZDNet. http://blogs.zdnet.com/virtualization/?p=1708
- ↑ Vance, Ashley. Start-Up Goes After Big Data With Hadoop Helper. New York Times Blog. 22 April 2010. http://bits.blogs.nytimes.com/2010/04/22/start-up-goes-after-big-data-with-hadoop-helper/?dbk
- ↑ Cukier, K. (25 February 2010). Data, data everywhere. The Economist. http://www.economist.com/specialreports/displaystory.cfm?story_id=15557443
- ↑ Horowitz, Mark. Visualizing Big Data: Bar Charts for Words. Wired Magazine. Vol 16 (7). 23 June 2008. http://www.wired.com/science/discoveries/magazine/16-07/pb_visualizing##ixzz0llT2DN5j. Volu 16(7)
- ↑ Community cleverness required. Nature, 455(7209), 1. 2008. http://www.nature.com/nature/journal/v455/n7209/full/455001a.html
- ↑ Sandia sees data management challenges spiral. HPC Projects. 4 August 2009. http://www.hpcprojects.com/news/news_story.php?news_id=922
- ↑ Reichman,O.J., Jones, M.B., and Schildhauer, M.P. 2011. Challenges and Opportunities of Open Data in Ecology. Science 331(6018): 703-705.DOI:10.1126/science.1197962
- ↑ Hellerstein, Joe. Parallel Programming in the Age of Big Data. Gigaom Blog. 9 November 2008. http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/
- ↑ Segaran, Toby and Hammerbacher, Jeff. Beautiful Data. 1st Edition. O'Reilly Media. Pg 257.
- ↑ "The World’s Technological Capacity to Store, Communicate, and Compute Information", Martin Hilbert and Priscila López (2011), Science (journal), 332(6025), 60-65; free access to the article through here: martinhilbert.net/WorldInfoCapacity.html
- ↑ http://www-01.ibm.com/software/data/bigdata/
- ↑ Douglas, Laney. «3D Data Management: Controlling Data Volume, Velocity and Variety». Gartner. Consultado el 6 de febrero de 2001.
- ↑ Beyer, Mark. «Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data». Gartner. Consultado el 13 de julio de 2011.