El concepto de big data ("grandes datos" en inglés) está en
boca de todos en el mundo informático y es una de las preocupaciones de los
directivos de las grandes empresas. Y si no lo es, debería serlo.
Pero el primer paso para encarar el problema es entender qué es.
1. ¿Qué es exactamente el big data?
Buena pregunta. Al fin y al cabo, desde hace mucho tiempo hay grandes
cantidades de datos de todo tipo de fuentes: recibos de compras, datos de
tarjetas, informes médicos, declaraciones de impuestos y un largo etcétera.
Se trata de la gestión y análisis de enormes volúmenes de datos que superan
los límites y capacidades de las herramientas habitualmente utilizadas.
Laurie Miles, jefa de análisis de la empresa especializada en el tema SAS,
explica: "El concepto de grandes datos existe desde hace décadas, y hemos estado
haciendo análisis durante todo este tiempo. Pero ahora no es grande
(big), es enorme".
En efecto, lo que hizo que se acuñara este término es la velocidad, la
variedad y el volumen que ahora tienen los datos.
2. ¿Por qué es tan grande?
La mayoría de los datos tradicionalmente se estructuraron en bases de
datos.
Fue entonces cuando el mundo se volvió digital y llegó internet.
La mayor parte de lo que hacemos se puede traducir en cadenas de unos y ceros
que puedan ser registrados, almacenados, registrados y analizados.
Luego hubo una proliferación de los llamados "datos no estructurados",
generados por todas nuestras interacciones digitales, desde el correo
electrónico a las compras en línea, los mensajes de texto, los tuits, las
actualizaciones de Facebook y los videos de YouTube, entre otras.
Y el número de aparatos de grabación y transmisión de datos, desde
smartphones hasta neveras inteligentes, sensores industriales a cámaras
de circuito cerrado de televisión, ha aumentado en todo el mundo, dando lugar a
una explosión en el volumen de datos.
Estos conjuntos de datos son ahora tan grandes y complejos que necesitamos
nuevas herramientas y enfoques para sacar el máximo provecho de ellos.
3. ¿Cuántos datos hay?
Nadie lo sabe a ciencia cierta, ya que el número crece muy rápido. Algunos
dicen que alrededor del 90% de todos los datos que existen hoy en el mundo
fueron creados en los últimos años.
De acuerdo con el gigante informático IBM, cada día de 2012 se generaron 2,5
exabytes -es decir, 2,5 billones de gigabytes (GB)- de datos. Eso es mucho para
cualquier estándar. "Cerca del 75% de los datos no son estructurados y proceden
de fuentes tales como texto, voz y video", señala Miles.
Y como se prevé que la penetración de los móviles crecerá de aproximadamente
el 61% de la población mundial en 2013 a casi el 70% en 2017, esas cifras sólo
pueden crecer. El proyecto de datos abiertos del gobierno de Estados Unidos ya
ofrece más de 120.000 conjuntos de datos disponibles al público.
4. ¿Dónde se almacenan?
Las primeras computadoras venían con memorias que se medían en kilobytes,
pero los últimos smartphones ahora pueden almacenar 32 GB y muchos portátiles
tienen ahora un terabyte (1.000 GB) de disco duro. El almacenamiento en realidad
ya no es un problema.
Para las grandes empresas, en efecto, "el costo de almacenamiento de datos se
ha desplomado", dice Andrew Carr, de la consultora Bull. Las empresas pueden ya
sea guardar todos sus datos en sus instalaciones, en sus propios centros de
datos remotos o enviarlos a proveedores de almacenamientos de datos "en la
nube".
Varias plataformas de código abierto han crecido específicamente para manejar
estas grandes cantidades de datos de manera rápida y eficiente, entre ellas
Hadoop, MongoDB, Cassandra y NoSQL.
5. ¿Por qué es importante?
Los datos sirven en la medida en que nos transmiten inteligencia, y esto
implica un análisis eficaz de los datos y una gran cantidad de energía para
hacerle frente al aumento exponencial del volumen.
Un informe reciente de la consultora Bain & Co señala que, de 400 grandes
empresas, las que habían adoptado análisis de grandes datos "ganaron ventaja
significativa sobre el resto del mundo empresarial".
"Los grandes datos no se refieren solamente la inteligencia histórica para
los negocios", dice Carr , "es la incorporación de datos en tiempo real y la
capacidad de agrupar varios conjuntos de datos lo que los hace tan
valiosos".
Y aunque a muchos les resulte lejano, el tema nos afecta a todos.
Prácticamente, cualquier persona que haga, cultive o venda cualquier objeto
puede utilizar el análisis de grandes datos para hacer que sus procesos de
fabricación y producción sean más eficientes y su comercialización más
específica y rentable.
Esto está dando resultados muy interesantes en los campos de la salud, la
investigación científica, la agricultura, la logística, el diseño urbano, la
energía, el comercio minorista, la reducción de la delincuencia y las
operaciones de negocios.
"Es un gran problema para las empresas, para la sociedad y para cada
individuo", dice Ralf Dreischmeier, jefe de tecnología de la información del
Boston Consultancy Group.
6. ¿Podemos manejar todos estos datos?
Los grandes datos necesitan nuevas habilidades y los mundos empresarial y
académico están intentando ponerse al día. "El trabajo del científico de datos
no existía hace cinco o diez años", dice Duncan Ross, director de ciencia de
datos de Teradata. "Pero ¿dónde están? Hay escasez".
Muchas empresas recién están empezando a darse cuenta de que los datos son un
activo valioso que necesitan proteger y explotar. "Los bancos sólo usan un
tercio de sus datos disponibles, ya que a menudo se encuentra en bases de datos
que son de difícil acceso", dice Dreischmeier.
"Tenemos que encontrar formas de hacer que esta información sea más
accesible", agrega.
Las empresas, los gobiernos y los organismos públicos también deben mantener
los datos sensibles a salvo de hackers, espías y desastres naturales, peligros
cada vez más palpables en este mundo conectado a la red.
7. ¿Quién es el dueño de todo esto?
Esa es la pregunta del millón. Mucho depende del proveedor del servicio de
almacenamiento de datos, la jurisdicción en la que se almacena y de cómo se
generaron. Es un campo legal minado.
Por ejemplo, la metadata de las llamadas telefónicas – es decir, la
ubicación, la hora y duración de las llamadas más allá de su contenido en sí
mismo- ¿le pertenece a la persona que llama, a la red de telefonía o cualquier
agencia de espionaje del gobierno que pueda estar escuchándola?
Cuando nuestros coches entren a la red, ¿serán los conductores, los
propietarios o los fabricantes los dueños de los datos que generan?
En las redes sociales a menudo se dice que sus usuarios son dueños de su
propio contenido, pero luego quieren decidir cómo se utiliza ese contenido,
reservándose el derecho de compartirlo con terceros. Así que cuando usted
tuitea, por ejemplo, renuncia a todo control sobre cómo se utilizará ese tuit en
el futuro, a pesar de que los términos y condiciones de Twitter dicen: "Lo que
es tuyo, es tuyo ".
Es que la privacidad y las leyes de propiedad intelectual no han seguido el
ritmo de los cambios tecnológicos.
¿Cuánto es...?
- 1.000 bytes = un kilobyte (kB)
- 1.000 kB = un megabyte (MB)
- 1.000 MB = un gigabyte (GB)
- 1.000 GB = un terabyte (TB)
- 1.000 TB = un petabyte (PB)
- 1.000 PB = un exabyte (EB)
- 1.000 EB = un zettabyte (ZB)
- 1.000 ZB = un yottabyte (YB)
Big data
- Cada motor de un avión en un vuelo de Londres a Nueva York genera 10 terabytes de datos cada 30 minutos.
- En 2013, los datos de internet, en su mayoría aportados por los usuarios, representaron 1.000 exabytes.
- Los datos meteorológicos recogidos en Estados Unidos por la Administración Nacional Oceánica y Atmosférica tienen un valor anual estimado de unos US$10 mil millones.
- Todos los días creamos 2,5 trillones de bytes de datos.
- El 90% de los datos en el mundo de hoy se ha creado en los últimos dos años.
- Cada minuto se envían 100,000 tuits a nivel mundial.
- Google recibe dos millones de peticiones de búsqueda por minuto.
Matthew Wall BBC Última actualización: Jueves, 6 de marzo de 2014
No hay comentarios:
Publicar un comentario
Nota: solo los miembros de este blog pueden publicar comentarios.