BACKGROUND IMAGE: iSTOCK/GETTY IMAGES

Este contenido es parte de Guía Esencial: Principios de la analítica de datos: una guía esencial
Evaluar Conozca los pros y contras de las tecnologías, productos y proyectos que está considerando.

¿Es Hadoop todavía muy lento para aplicaciones de análisis en tiempo real?

Los sistemas Hadoop, diseñados para el procesamiento por lotes, no se prestan para la rápida actuación que requiere el análisis de datos en tiempo real.

Con todos los rumores que Hadoop está generando en los círculos de TI en estos días, es fácil empezar a pensar que el marco de procesamiento distribuido de código abierto puede manejar casi cualquier cosa en entornos de big data. Pero el análisis en tiempo real que implica consultas ad hoc de los datos Hadoop ha sido una notable excepción.

Hadoop está optimizado para trabajar a través de grandes conjuntos de datos estructurados, no estructurados y semi estructurados, pero fue diseñado como un sistema de procesamiento por lotes, algo que no se presta a la rápida actuación del análisis de datos.

Y Jan Gelin, vicepresidente de operaciones técnicas en Rubicon Project, dijo que la velocidad de la analítica es algo que necesita el corredor de publicidad en línea, muchísimo.

Rubicon Project está basado en Playa Vista, California, y ofrece una plataforma para que los anunciantes la utilicen al subastar espacio publicitario en las páginas web cuando los usuarios de internet visitan las páginas. El sistema permite a los anunciantes ver información sobre los visitantes del sitio web antes de hacer ofertas para tratar de garantizar que los anuncios serán vistos solo por los consumidores interesados. Gelin dijo que el proceso implica una gran cantidad de análisis, y todo tiene que suceder en fracciones de segundo.

Rubicon se apoya fuertemente en Hadoop para ayudar a alimentar la plataforma de subastas de publicidad. Pero la clave, dijo Gelin, esemparejar Hadoop con otras tecnologías que puedan manejar los verdaderos análisis en tiempo real. Rubicon utiliza el motor de procesamiento de eventos complejos Storm para capturar y analizar rápidamente grandes cantidades de datos como parte del proceso de subasta de anuncios. A continuación, Storm envía los datos a un clúster que ejecuta la distribución de Hadoop MapR Technologies Inc. El cluster Hadoop se utiliza sobre todo para transformar los datos para prepararlos para aplicaciones analíticas más tradicionales, tales como los informes de inteligencia de negocios. Incluso para esa etapa, sin embargo, mucha de la información se carga en una base de datos analítica Greenplum después de que se completa el proceso de transformación.

Realismo Hadoop

Gelin dijo que el enorme volumen de datos que Rubicon produce a diario lo apuntó hacia el poder de procesamiento de Hadoop. Pero cuando se trata de analizar los datos, agregó, “No se puede quitar el hecho de que Hadoop es un sistema de procesamiento por lotes. Hay otras cosas encima de Hadoop con las que puede jugar que en realidad son como verdadero tiempo real”.

Varios proveedores de Hadoop están tratando de eliminar las restricciones de análisis en tiempo real. Cloudera Inc. puso a rodar el balón en abril con la liberación de su motor de consulta Impala, prometiendo la capacidad de ejecutar consultas SQL interactivas contra datos Hadoop con rendimiento en tiempo casi real. Pivotal, una empresa de gestión de datos y analítica derivada de EMC Corp. y su filial VMware, lo siguió tres meses más tarde con un motor de consulta similar llamado Hawq. También está tratando de entrar en el juego Splunk Inc., que se centra en la captura de flujos de datos generados por máquinas; hizo una herramienta de análisis de datos Hadoop llamada Hunk disponible en general a finales de octubre.

La versión Hadoop 2 del marco de trabajo, que fue lanzado en octubre también, ayuda igualmente a la causa mediante la apertura de los sistemas Hadoop para aplicaciones distintas de los trabajos por lotes de MapReduce. Con todas las nuevas herramientas y capacidades disponibles o en camino, Hadoop pronto podría estar preparado para el desafío del análisis en tiempo real, dijo Mike Gualtieri, un analista de Forrester Research Inc. Un gran factor que trabaja en su favor, agregó, es que los proveedores al igual que los usuarios de Hadoop están decididos a hacer que la tecnología funcione en tiempo real o casi real, para aplicaciones de analítica.

Hadoop es fundamentalmente un entorno de operación por lotes”, dijo Gualtieri. “Sin embargo, debido a la arquitectura distribuida y debido a que una gran cantidad de casos de uso tiene que ver con poner los datos en Hadoop, muchos vendedores o incluso los usuarios finales están diciendo, ‘Hey, ¿por qué no podemos hacer más cosas en tiempo real o consultas ad hoc contra Hadoop?’ , y es una buena pregunta”.

Controles de análisis en tiempo real

Gualtieri ve dos principales obstáculos en tiempo real para Hadoop. En primer lugar, dijo, la mayoría de los nuevos motores de consulta Hadoop todavía no son tan rápidos como para ejecutar consultas contra bases de datos relacionales convencionales. Herramientas como Impala y Hawq proporcionan interfaces que permiten a los usuarios finales escribir consultas en el lenguaje de programación SQL. Las consultas luego se traducen a MapReduce para su ejecución en un cluster Hadoop, pero ese proceso es inherentemente más lento que ejecutar una consulta SQL directamente contra una base de datos relacional, según Gualtieri.

El segundo reto que Gualtieri ve es que Hadoop actualmente es un sistema de solo lectura una vez que se ha escrito datos en el sistema de archivos distribuido Hadoop (HDFS). Los usuarios no pueden insertar, eliminar o modificar fácilmente las piezas individuales de datos almacenados en el sistema de archivos como pueden hacerlo en una base de datos relacional, dijo.

Si bien los desafíos son reales, Gualtieri piensa que pueden ser superados. Por ejemplo, Hadoop 2 incluye una capacidad para anexar datos a archivos HDFS.

El analista de Gartner Inc. Nick Heudecker dijo por correo electrónico que, a pesar de que los nuevos motores de consulta podrían no apoyar una verdadera funcionalidad de análisis de datos en tiempo real, sí le permiten a los usuarios con menos conocimientos técnicos acceder y analizar datos almacenados en Hadoop. Esto puede reducir el tiempo del ciclo y el costo asociado con ejecutar trabajos de analítica Hadoop porque los desarrolladores de MapReduce ya no tienen que estar involucrados en escribir consultas, dijo.

Las organizaciones tendrán que decidir por sí mismas si eso es suficiente justificación para el despliegue de este tipo de herramientas. La escalabilidad y la asequibilidad de Hadoop también son atractivos, pero eso puede llevar a algunas empresas por el camino equivocado, dijo Patricia Gorla, una consultora en el proveedor de servicios de TI de OpenSource Connections LLC. Lo que se requiere, advirtió Gorla, es encontrar el mejor ajuste para Hadoop, y no tratar de forzarlo a que  encaje en una arquitectura de sistemas donde no pertenece”. “Hadoop es bueno en lo que es bueno, y no lo es en lo que no lo es”, dijo.

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close