Crónica / Reportaje

Cómo crearle sentido al universo de “big data”

Almacenamiento y estructura

Tan pronto como el público en general empieza a entender un carro, se desarrolla otro. En este caso, mientras la computación en la nube comienza a ser una realidad, los grandes datos (big data) alzan su cabeza como “la siguiente oportunidad o la amenaza más grande a la organización”, según lo que se comenta.

Como no existe una amenaza con la nube, hay una gran confusión acerca de los grandes datos. Muchos de los vendedores de bases de datos intentan reproducir puramente grandes volúmenes de datos teniendo una gran cantidad de datos en una o varias bases de datos. Pero eso no es big data, son datos de gran tamaño -un problema que se puede manejar con la federación de bases de datos, inteligencia de negocio y análisis estándar.

Después se dijo que la mezcla de datos en poder de la organización había reunido a los tomadores de decisiones, quienes ahora podrían ver todo lo que la organización llevó a cabo en torno a un tema específico para tomar decisiones mejor informadas –pero sólo a través de toda la información que la organización ya conocía. Así que si de algo no era consciente la organización es que los resultados serían excluyentes.

Muchas compañías de tecnología –con la ayuda de organizaciones de relaciones públicas empleadas para controlar sus marcas– empujaron la idea de que los datos importantes se movían hacia el campo de las redes sociales. Dijeron que big data era la respuesta para utilizar la sabiduría de la multitud e identificar los sentimientos de las masas.

Pero las redes sociales no han retomado mucha información anterior, por lo que cualquier solución todavía tiene que incluir toda la información que se alimenta por otras vías, como grabaciones, e-mails, llamadas, registros de Client Relationship Management (CRM), documentos escaneados, etc.

Todos los enfoques cubren algún aspecto de los grandes datos, pero todos ellos pierden el punto. La mejor definición sencilla sobre grandes volúmenes de datos se reduce al volumen, la velocidad y la variedad.

Un aspecto de big data es que en realidad puede referirse a un volumen de datos de menos importancia. Big no se trata de peta bytes de datos –puede referirse a volúmenes relativamente pequeños que necesitan ser tratados con un enfoque similar al de grandes datos.

Sin embargo, para la mayoría de las organizaciones, los grandes volúmenes de datos implican reunir muchos datos diferentes y fuentes de información que, por su naturaleza, tienden a dar como resultado una cantidad total de datos que se examinan y son grandes. Por lo tanto, el volumen no es algo que está bajo el control directo de la organización –lo que hay que considerar es cómo el volumen de datos que acaba siendo analizado y se reduce al mínimo (profundizaré sobre esto más adelante).

Una vez más, el aspecto de la velocidad de grandes volúmenes de datos puede ser un punto discutible –todo el mundo quiere resultados comparados contra su análisis de los datos disponibles en el período más breve posible. Sin embargo, todo es relativo –por ejemplo, cada milisegundo añadido de ofrecer resultados a un comerciante del mercado financiero puede costar millones de libras, mientras que las variaciones en el seguimiento del movimiento global de las placas tectónicas pueden no ser tan preocupantes si los resultados llegan después de un par de segundos.

Lo que realmente importa es la variedad de la información. Big data se trata de la combinación de datos y dónde se lleva a cabo, en cualquier momento. En este caso, las bases de datos formales bajo el control directo de la organización son sólo una parte muy pequeña de la mezcla global. No abarcan todos los documentos de la oficina almacenados como archivos a través de la organización y tal vez se deban incluir los archivos de voz y video.

Luego está la información contenida en la cadena de valor de proveedores y clientes –información que es crítica para el proceso o el servicio que se presta, sin embargo, no está bajo el control directo de la organización. Entonces, bien puede ser un requisito para incluir información de las distintas redes sociales por ahí –y cualquiera que sea el enfoque adoptado, tiene que ser inclusivo.

Inclusión de la información y sus recursos

Por ejemplo, no tiene sentido construir algo que es específico de Facebook, si la mayoría de los comentarios están apareciendo como hashtags en ​​Twitter.

Además, es una pérdida de tiempo escribir a varios conectores para cubrir la totalidad de las redes sociales de hoy en día – ¿recuerda MySpace, Bebo y Second? Todos ellos eran los preferidos de su época, pero se han desvanecido a una existencia marchita o casi inexistencia, a medida que los nuevos jugadores se han hecho cargo.

Los sitios como Pinterest están mostrando signos de mayor interés –sin embargo, este fue también el caso de Google+, que después de poco tiempo se parece más a un desierto occidental de una red social viable y activa.

Cualquier solución de red social tiene que ser capaz de abrazar las nuevas plataformas a un costo mínimo, por lo que las nuevas redes son sólo "picos" en el continuo de no consumir grandes cantidades de dinero en la creación de conectores específicamente para ellos.

Incluso las más grandes organizaciones tienen poco control sobre cualquier cosa más allá de un pequeño porcentaje de los datos totales disponibles. La espada de dos filos de internet levanta su fea cabeza y ofrece enormes recursos de información adicionales –pero, por otra parte, también incluye una gran cantidad de cosas innecesarias que no añaden nada a la suma del conocimiento de una organización.

Almacenamiento y Estructura

Las necesidades de almacenamiento deben tenerse plenamente en cuenta. EMC, NetApp y Dell están hablando de almacenamiento de objetos, bloques y archivos, en lugar de centrarse exclusivamente en el alto rendimiento de almacenamiento de objetos de base de datos para cubrir los diversos tipos de datos grandes que necesitan ser controlados.

Otros proveedores de almacenamiento, como Nutanix, Coraid, Amplidata y FusionIO proporcionan sistemas que se centran en un aspecto de grandes volúmenes de datos, asociándose donde sea necesario para cubrir a los demás.

La necesidad de una estructura en torno a los datos no estructurados o semi-estructurados está dando lugar a una explosión de interés en el uso de MySQL basado ​​en bases de datos, como por ejemplo Apache Cassandra, 10gen MongoDB, CouchDB y así sucesivamente. Los sistemas como Hadoop de Apache (que permiten una plataforma masiva a escala para proporcionar el procesamiento distribuido de grandes cantidades de datos) pueden utilizar MapReduce, (usando la "fragmentación" de análisis de datos en paquetes de trabajo que pueden ser tratados en un modo paralelo a través de un grupo de recursos de gran tamaño), y se aproxima a minimizar la cantidad de información que necesita ser tratada.

Lo que se está tratando de dirigir por aquí, es tomar la cantidad aparentemente infinita de los datos disponibles y filtrarla en pedazos manejables. Las búsquedas estándar de internet pueden alimentar un sistema basado en Hadoop, que puede entonces alimentar cualquiera de los estándares basados ​​en SQL así como a bases de datos no basadas en SQL, en función del tipo de información que está siendo tratada.

La información adicional se puede agregar automáticamente a través de motores de reglas o manualmente, según sea necesario, como los metadatos que se suman al valor de la información almacenada. Una vez que la información se mantiene en una forma reconocida, es entonces capaz de aplicar la forma correcta de análisis de datos en vez de proporcionar una fuente de datos adecuados para la toma de decisiones.

Aquí es donde aún residen los principales problemas, pero mucho trabajo se está llevando a cabo. Como era de esperarse, una gran parte es de la incumbencia de proveedores de inteligencia de negocio, como SAS Institute, QlikTech, JasperSoft, así como aquellos que han logrado entrar al mercado a través de adquisiciones, como IBM (IBM Cognos, SPSS), SAP (Business Objects) y Oracle (Hyperion, Endeca).

Los proveedores de almacenamiento también están trabajando en esta área –EMC adquirió Greenplum y Dell sigue adquiriendo empresas que le ayudan a crear un enfoque más coherente y completo de los datos.

Si’s y No’s de los compradores

La clave para los compradores es el tratamiento de grandes volúmenes de datos como un viaje. Lo que se requiere es establecer metas a corto y mediano plazo y luego poner las soluciones para ayudar a avanzar hacia esos objetivos.

No ponga en marcha todo lo que podría dar lugar a una necesidad de importantes mejoras posteriormente –adopte estándares abiertos, busque proveedores que defienden la heterogeneidad de los sistemas de almacenamiento y herramientas, así como un enfoque que abarca una mezcla hibrida de nubes públicas y privadas.

No se deje engañar por cualquier proveedor que dice que el mundo se está moviendo hacia o desde bases de datos "estándar" basadas en SQL –el movimiento es un entorno mixto de un sistema estilo Hadoop junto con sistemas basados en SQL y NoSQL. Busque los paquetes de análisis de negocio que permiten introducir vínculos en fuentes de datos de cualquier tipo, que residan en cualquier lugar de internet, y que se pueden vincular de manera significativa a sistemas semi-estructurados como los sitios de redes sociales.

Big data puede parecer simplemente otro tren al que podemos saltar en este momento –pero es importante, y debe ser abordado con cuidado y prudencia, no como un elefante en una tiendita de porcelana que parece ser empujado por muchos proveedores. El viaje puede llevarse a cabo a un ritmo moderado, aprovechando los sistemas existentes en relación con los nuevos sistemas. Sólo necesita un plan estratégico elaborado a partir de una planificación cuidadosa –y poner la vista en el futuro a largo plazo.

Clive Longbottom es un director analista de una firma en Quocirca.


Esto fue publicado por primera vez en noviembre 2012

Unirse a la conversación Comenta

Compartir
Comentas

    Resultados

    Contribuye a la conversacion

    Todos los campos son obligatorios. Los comentarios aparecerán en la parte inferior del artículo