BACKGROUND IMAGE: iSTOCK/GETTY IMAGES

Este contenido es parte de Guía Esencial: Principios de la analítica de datos: una guía esencial
Resolver Problemas Consiga ayuda para problemas específicos con sus proyectos, procesos y tecnologías.

Integrar herramientas de big data comienza con una planificación eficaz

Para que TI integre eficazmente los sistemas de big data en una arquitectura corporativa de data warehousing, BI y analítica, debe planificar detalladamente el proyecto.

La experimentación con lo que puede ser denominado colectivamente como herramientas de big data (o grandes volúmenes de datos) –incluyendo Hadoop clusters, el modelo de programación MapReduce y bases de datos NoSQL– ha llevado a algunos escenarios de aplicación emergentes y casos de uso que demuestran un claro valor de negocios. Pero estos éxitos tempranos plantean una cuestión potencialmente complicada: ¿Cuál es la mejor manera de integrar los sistemas de big data en una arquitectura corporativa de data warehousing, inteligencia de negocios (BI) y analítica?

Las tecnologías de big data no tienen que ser disruptivas para los entornos existentes de data warehouse. Sí, las barreras reducidas de entrada proporcionadas por el amplio conjunto de herramientas sin costo o de bajo costo que conforman el ecosistema Hadoop, y su soporte para almacenar y gestionar conjuntos masivos de datos en hardware básico, plantea el potencial de desplazar al tradicional data warehouse corporativo de su percha en el centro del universo de BI y analítica.

Pero las organizaciones que han invertido una cantidad significativa de dinero, recursos y tiempo en la implementación de almacenes de datos para apoyar la consulta, reporte y análisis no son propensas a querer dar la espalda a esas inversiones. E incluso si su compañía no opta por la transición a una nueva arquitectura de BI y analítica de big data por capas, exclusivamente sobre las tecnologías de Hadoop y NoSQL, es poco probable que el cambio suceda durante la noche. Más comúnmente, será realizado a través de una serie de cambios incrementales para reducir el riesgo de niveles de servicio disminuidos o interrupciones a gran escala en los procesos de análisis.

Como resultado, la mayoría de las organizaciones se beneficiarán de un enfoque que valore la integración e interoperabilidad para asegurar un nivel de simbiosis entre viejas y nuevas tecnologías. Un ejemplo podría ser una aplicación analítica basada en Hadoop para perfiles de clientes, junto con un data warehouse existente de clientes. Los datos pueden ser transmitidos desde el almacén a la aplicación Hadoop, mientras que las mejoras en los perfiles de los clientes y clasificaciones generadas como parte del proceso de análisis se pueden combinar de nuevo en el almacén de datos.

Estableciendo una conexión de big data

La primera consideración para la integración es el establecimiento de conexiones entre los almacenes de datos y las plataformas de big data. En la actualidad, uno de los usos más frecuentes de los sistemas de big data es el aumento del data warehouse, en el que ofrecen almacenamiento de datos ampliado a un costo más bajo de lo que puede brindar un tradicional data warehouse o data mart. Muchos usuarios tempranos también están utilizando clusters Hadoop y bases de datos NoSQL como áreas de escena para los datos antes de cargar una parte o la totalidad de la información en un data warehouse para usos analíticos. Tales aplicaciones pueden ser tan simples como usar el sistema de archivos distribuidos Hadoop para almacenar datos, o pueden involucrar enlaces más complejos a conjuntos de datos en Hive, HBase, Cassandra y otras tecnologías NoSQL.

La incorporación de estas herramientas en un marco de data warehouse y BI puede requerir tanto conectividad como interpretación. Las interfaces de programación de aplicaciones se pueden utilizar para proporcionar acceso a los sistemas Hadoop y NoSQL de los data warehouses; además, numerosos proveedores ofrecen conectores empaquetados entre bases de datos SQL y los sistemas de big data, incluyendo los basados ​​en estándares de integración, tales como ODBC y JDBC. Para esos sistemas que no se ajustan a un modelo relacional típico, podría haber una necesidad de una capa de interpretación que puede transformar objetos semi estructurados (documentos, por ejemplo) desde su forma representativa, como YAML o JSON, en un formato que pueda ser entendido por las aplicaciones de BI.

Hay otros enfoques para una integración aún más estrecha entre los dos tipos de sistemas. Por ejemplo, los sistemas de data warehouse son cada vez más abiertos a la incorporación de llamadas hacia las funciones de MapReduce como mejoras a su vocabulario SQL nativo, permitiendo que los resultados de un proceso de análisis en un cluster Hadoop sean extraídos directamente hacia el conjunto de resultados de una consulta de BI. Otro ejemplo es la incorporación de los resultados analíticos generados por Hadoop en almacenes de datos para la presentación de informes y su posterior análisis.

Las brechas de big data necesitan puentes

Integrar los diferentes enfoques se convertirá rápidamente en un imperativo para muchos equipos de TI y de data warehousing a medida que el valor empresarial de big data –y la forma de revelarlo– llega a ser mejor comprendido. El acoplamiento de un grado de agilidad con una buena planificación del programa para el proceso de integración es fundamental. Eso significa salvar algunas lagunas evidentes que persistirán a medida que aumenta la adopción, incluyendo las siguientes:

Arquitecturas desconectadas. El enfoque típico para proyectos piloto o pruebas de concepto, así como para muchas aplicaciones de producción temprana, consiste en la implementación de sistemas Hadoop o NoSQL en sus propios entornos de silos. Un plan de integración bien estructurado debe incluir involucrar a TI y los arquitectos de datos para correctamente visualizar, diseñar e implementar las diversas capas apiladas de una arquitectura de data warehouse híbrido, BI y analítica.

Deficiencias de la administración. La naturaleza de código abierto de muchas herramientas de big data a menudo conduce al énfasis de la funcionalidad sobre la gestión y la administración. Esta brecha se reducirá con el tiempo, a medida que maduren las versiones comerciales de productos de software de big data, pero por ahora puede que tenga que compensar la relativa inmadurez de sus capacidades de gestión.

Escasez de habilidades. La empinada curva de aprendizaje al trabajar con las tecnologías Hadoop y NoSQL puede ser el obstáculo más grande a escalar en los esfuerzos de integración de big data. El conocimiento de técnicas de computación paralela y distribuida, en general, sigue siendo algo difícil de encontrar en el mercado de personal de TI, e incluso hay un menor número de gente con una profunda experiencia práctica en el desarrollo y actualización de las aplicaciones de big data. Entrenar empleados internos puede ser el camino más rápido y de menor costo para poner en su lugar las habilidades requeridas.

En cada vez más empresas, la integración de Hadoop y NoSQL con los entornos de data warehouse es una cuestión no de “si” sino de “qué tan pronto”. Empezar a prepararse ahora le ayudará a identificar los posibles obstáculos en la delantera, y le permitirá el desarrollo de un plan eficaz del proyecto. Eso, a su vez, debe ayudar a construir procesos repetibles para satisfacer sus necesidades de integración, y ese debería ser el objetivo final de cualquier iniciativa.

Sobre el autor: David Loshin es presidente de Knowledge Integrity Inc., una empresa de consultoría, capacitación y desarrollo de servicios que trabaja con clientes en inteligencia de negocios, big data, calidad de datos, gobernanza de datos e iniciativas de gestión de datos maestros. Él también es autor de numerosos libros, entre ellos “Big Data Analytics” y “La guía del practicante para mejorar la calidad de los datos”. Su correo electrónico es loshin@knowledge-integrity.com.

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close