10 Dic Big Data ¿Oportunidad o Amenaza?
Introducción
La oportunidad de Big Data es también su desafío. Nos ahogamos en datos, las imágenes, el audio y el vídeo no son los datos estructurados a los que estamos acostumbrados y que caben bien en bases de datos relacionales para los motores de búsqueda tradicionales. Datos por consiguiente demasiado grandes y que obviamente requieren de un nuevo modo de pensar sobre como almacenar y analizar los mismos para acomodar los motores de búsqueda y convertirlos en decisiones procesables.
Hoy existen gran cantidad de datos en la red: de hecho, los expertos en estadística han publicado que el 90% de los datos que existen hoy fueron creados en los dos años anteriores. Y con el abrupto volumen de medios de comunicación sociales y datos móviles que corren a diario, la nueva inquietud de cualquier negocio es poder utilizar Big Data para agregar todos estos datos, extraer la información de ello, e identificar el valor a clientes y consumidores.
Definición
Big Data es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Los tamaños del Big Data se hallan constantemente en aumento. En 2012 se dimensionaba su tamaño desde una docena de terabyteshasta varios petabytes de datos en un único data set.
El tamaño es la definición primaria de Big Data. La respuesta está en el número de fuentes de datos independientes, cada uno con el potencial para actuar recíprocamente. Big Data no se presta bien a la domesticación por técnicas de gestión de datos estándar, simplemente debido a sus combinaciones incoherentes e imprevisibles.
Otro atributo de Big Data es su tendencia a la dificultad de suprimir la información; una preocupación común. Por ejemplo, es casi imposible borrar todos los datos asociados a los datos un conductor de coche en una autopista de peaje. Los sensores, las cámaras, y el pago con tarjeta hace prácticamente imposible el borrado completo de esa información.
Máquinas modernas como coches, trenes, centrales eléctricas y aviones de una manera creciente sensores que constantemente que recogen grandes masas de datos. Es común a la conversación entre sistemas el hecho de tener miles o aún cientos de miles de sensores para el tráfico de toda la información que se genera sobre el funcionamiento y las actividades de la máquina.
Un avión sobre un vuelo regular de una hora con cien mil sensores que cubren todo lo referente a la velocidad del aire sobre cada parte de la armadura del avión, o la suma de dióxido de carbono en cada sección de la cabina, propone que cada sensor es un dispositivo independiente con sus propias características físicas. Pero el verdadero interés es por lo general las diferentes lecturas de los sensores combinadas entre sí (como el dióxido de carbono combinado con la temperatura de cabina y la velocidad del aire combinado con la presión atmosférica). Con tantos sensores las combinaciones son increíblemente complejas y varían con la tolerancia de error y las características de cada dispositivo individual.
El tráfico de datos que corren a través de cien mil sensores en un avión son Big Data. Sin embargo el tamaño del dataset no es tan grande como cabría esperar. Incluso cien mil sensores, produciendo ocho octetos por segundo, producirían menos de 3GB de datos en una hora de vuelo (100,000 sensores x 60 minutos x 60 segundos x 8 octetos).
Hay un número creciente de sistemas que generan cantidades muy grandes de datos simples. Por ejemplo, el flujo de información de los medios de comunicación genera volúmenes muy grandes con el aumento de metadata estructurado. Asimismo las empresas de telecomunicaciones rastrean volúmenes enormes de llamadas y conexiones a Internet cada segundo.
Incluso si estas dos actividades se combinan, y se producen petabytes de datos, el contenido suele ser sumamente estructurado. Los motores de búsqueda, y las bases de datos relacionales han mostrado que determinados datasets pueden ser analizados rápidamente si el contenido está bien estructurado. Incluso aunque estos datos sean grandes, no es “grande” de la misma forma como los datos que vienen de los sensores del vuelo del avión en el ejemplo anterior.
Retos
El crecimiento constante de datos representa al mismo tiempo una oportunidad y un reto para investigar en el volumen, la velocidad y la variedad para la comunidad informática. Grandes proveedores del mercado de Big Data están desarrollando soluciones para atender las demandas más críticas de procesamiento de datos masivos, permutaciones, complejidad y dificultad para el borrado de la información.
La era de la tecnología ubicua ha dado lugar a un nuevo reto; la gestión de la información ubicua. Ahora vemos que casi todas las grandes organizaciones se encuentran ante un gran desafío para gestionar sus datos:
- La calidad de los datos es el núcleo de las presiones de los clientes.
- Muchos fallos de los sistemas son debidos en gran medida a que los datos no se rigen por la tecnología utilizada, y estos sólo pueden ser mitigados por rectificaciones del software.
- El almacenamiento de grandes datos es ahora la corriente principal, no una idea de último momento, y está en el centro de las estrategias de convergencia del desarrollo de la gestión de la información.
Las primeras décadas del siglo XXI muestran que una de sus características dominantes es la generación, procesamiento y disponibilidad de grandes volúmenes de datos y, en consecuencia, de las Supercomputadoras que, a diferencia de una red que incluye servidores dispersos en distintos lugares, los concentra en un solo lugar. Watson, una de las más reconocidas, agrupa no menos de 90 de ellos. Una supercomputadora, por sus características físicas y lógicas, superan en mucho las tecnologías actuales, anticuadas y arraigadas en los sistemas informáticos y tecnologías desarrolladas en la década de 1970.
Para representar fácil y rápidamente la definición de una supercomputadora, los expertos recurren a su particular notación científica, los FLOPS (floating point operations per second), es decir, la cantidad de operaciones que procesa por segundo, por lo que hablamos de teras y petas, es decir, respectivamente, de al menos un billón y mil billones de operaciones por segundo. El siguiente paso, la supercomputación, una máquina con capacidad exaflop, que pueda ejecutar un trillón de operaciones por segundo, 100 veces más veloz que el mayor de los procesadores actuales.
(*)INTEL anunció que llegará a esa meta en el 2018, con el desarrollo de su familia de chips, IXeon Phi.
Propiedad de Datos
¿Quién posee los datos? La propiedad de datos es cuestión difícil, y es difícil hablar de la propiedad de los datos sin hablar también de la intimidad (véase mi artículo El Derecho al Olvido). Contratar servicios de posicionamiento (ubicación), correo electrónico libre (gratis), y Redes Sociales eficaces destapan nuestros secretos, aún mucho después de suprimir nuestras cuentas.
Las empresas en general parecen más interesadas en el oído, lo que la gente dice sobre ellos, haciendo la cuestión de propiedad quizás una no cuestión. Pero otras empresas pueden tener un plan diferente; como cuando ésta puede aprender bastante sobre un ciudadano a través de los datos obtenidos con los motores de búsqueda y le envía publicidad de ropa de bebé a pesar del hecho de que su embarazo no era algo que el ciudadano quiso que alguien conociera.
Nace Mike 2.0
BearingPoint (empresa matriz: BearingPoint Europe Holdings BV) es una multinacional consultora de gestión y tecnología con sede en Ámsterdam , Países Bajos. Tiene operaciones en 17 países y alrededor de 3.500 empleados y es una de las mayores consultorías de gestión en Europa.
Los orígenes de BearingPoint se encuentran en las operaciones de servicios de consultoría de KPMG , que se convirtió en una unidad de negocio distinta en 1997. Tras la escisión de KPMG en 2000 y una salida a bolsa en 2001, la compañía pasó a llamarse BearingPoint Inc. en octubre de 2002. BearingPoint se convirtió en uno de los mayores proveedores del mundo de servicios de gestión y consultoría tecnológica, con operaciones en más de 60 países y aproximadamente 17.100 empleados. En febrero de 2009 la unidad de EE.UU. de la compañía se acogió al Capítulo 11 de bancarrota.
A raíz de la reestructuración y la compra de la administración en agosto de 2009, las operaciones continuas de BearingPoint se organizaron como una asociación con sede en Holanda.
BearingPoint desarrolló el software inicial y fue puesto en libertad a la comunidad de código abierto en diciembre de 2006 bajo la Creative Commons Attribution License . La plataforma tecnológica que soporta MIKE2.0 (omCollab) utiliza una base de tecnologías de código abierto con un gran número de extensiones y personalizaciones. El producto en general se conoce como omCollab y se liberará en su totalidad a la comunidad. MIKE2.0 proporcionará una metodología integral que se podrá aplicar a través de un número de diferentes proyectos dentro del espacio global de gestión de la información.
Conclusión
La información es sin duda el recurso más importante para las empresas y la sociedad. Con la información adecuada, las organizaciones pueden competir de manera más efectiva, los gobiernos pueden identificar a los más necesitados, y los consumidores pueden tomar mejores decisiones personales. Cuando el principal obstáculo era el volumen de información, la atención se centró en la creación de más información. La era digital ha creado una abundancia de este recurso, pero su volumen enorme amenaza con hacerla inútil a menos que se aprovecha adecuadamente.
Una comunidad de profesionales de la gestión de la información, han puesto sus conocimientos para compartir nuevas prácticas de manera integral. El desarrollo de la Información usando MIKE2.0 es una nueva manera de mirar cómo se trata la información dentro de las organizaciones, desde la perspectiva de que se puede desarrollar en lugar de ser simplemente almacenada.
Con la necesidad de conectar datos estructurados y no estructurados y la probabilidad de que un marco analítico muy diferente vaya apareciendo, será necesario quizás un acercamiento más humanista que incorpore la psicología y la sociología al desafío. De modo interesante, los investigadores con habilidades en la materia se harán cada vez más necesarios a la hora de la realización de la promesa de Big Data.
El relleno del hueco del científico de datos requerirá de una nueva labor educativa de las instituciones, de los departamentos de recursos humanos, y de los negocios. Esto también puede requerir de soluciones más creativas, como por ejemplo el empleo de equipos de personas cualificadas para manejar esta tarea.