En el mundo de la computación actual es usual escuchar el término Big Data. En este artículo voy a tratar de forma general de este término, qué es, qué información contiene, para qué sirve, y cuál es su importancia.
En la actualidad se generan millones de datos a cada segundo, provenientes de diferentes fuentes, en forma de datos estructurados, no estructurados o semiestructurados. Hay tanta información que en ocasiones no se sabe qué información se debe recolectar para analizar, y si vale la pena el costo de manejarlos en bases de datos relacionales o bajo otros esquemas.
El volumen actual de datos se generan desde multitud de orígenes, como smartphones, sistemas GPS, sensores de temperatura, humedad, eléctricos, presión, médicos, sistemas de facturación, impuestos, historias clínicas, redes sociales, internet, correos electrónicos, datos biométricos, por nombrar algunos de ellos. Es tan grande la cantidad de datos, que para que éstos puedan ser realmente efectivos, se necesita que puedan ser analizados muy rápidamente.
Generalmente se catalogan las fuentes de big data en las siguientes categorías:
En términos de tamaño, en big data se habla en petabytes o exabyte, para darnos una idea de estos términos, miremos sus valores expresados en bytes:
Existen varias plataformas y metodologías para el manejo de big data, a continuación nombraré algunas de ellas:
Gracias a los avances en las redes de datos, las grandes capacidades de almacenamiento, procesadores más potentes y distribuidos, el análisis y gestión de big data está empezando a cambiar el paradigma de las instituciones en la toma de decisiones; pudiendo tener mejores puntos de vista sobre el comportamiento de cualquier variable, permitiendo que la toma de decisiones pueda ser lo más acertada posible desde el punto de vista estadístico.
En la actualidad se generan millones de datos a cada segundo, provenientes de diferentes fuentes, en forma de datos estructurados, no estructurados o semiestructurados. Hay tanta información que en ocasiones no se sabe qué información se debe recolectar para analizar, y si vale la pena el costo de manejarlos en bases de datos relacionales o bajo otros esquemas.
El volumen actual de datos se generan desde multitud de orígenes, como smartphones, sistemas GPS, sensores de temperatura, humedad, eléctricos, presión, médicos, sistemas de facturación, impuestos, historias clínicas, redes sociales, internet, correos electrónicos, datos biométricos, por nombrar algunos de ellos. Es tan grande la cantidad de datos, que para que éstos puedan ser realmente efectivos, se necesita que puedan ser analizados muy rápidamente.
Generalmente se catalogan las fuentes de big data en las siguientes categorías:
- Web y redes sociales: Twitter, Facebook, Instagram, contenido web, etc.
- Datos biométricos: Reconocimiento facial, huellas digitales, mapas de ADN, retina, etc.
- Machine-to-Machine: Lecturas de sensores, RFID, GPS, temperatura, etc.
- Generados por humanos: Grabaciones de voz de Call Centers, emails, registros médicos, notas de voz, documentos electrónicos, etc.
- Grandes datos de transacciones: Registros de facturación, ventas, compras, registros detallados de llamadas etc.
En términos de tamaño, en big data se habla en petabytes o exabyte, para darnos una idea de estos términos, miremos sus valores expresados en bytes:
- Gigabyte = 109 = 1,000,000,000
- Terabyte = 1012 = 1,000,000,000,000
- Petabyte = 1015 = 1,000,000,000,000,000
- Exabyte = 1018 = 1,000,000,000,000,000,000
Existen varias plataformas y metodologías para el manejo de big data, a continuación nombraré algunas de ellas:
- Hadoop (MapReduce)
- Avro
- Cassandra
- Chukwa
- Flume
- HBase
- Hive
- Jaql
- Lucene
- Oozie
- Pig
- ZooKeeper
Gracias a los avances en las redes de datos, las grandes capacidades de almacenamiento, procesadores más potentes y distribuidos, el análisis y gestión de big data está empezando a cambiar el paradigma de las instituciones en la toma de decisiones; pudiendo tener mejores puntos de vista sobre el comportamiento de cualquier variable, permitiendo que la toma de decisiones pueda ser lo más acertada posible desde el punto de vista estadístico.