photobank.kiev.ua - Fotolia

Evaluar Conozca los pros y contras de las tecnologías, productos y proyectos que está considerando.

Usuarios ven el streaming en tiempo real para acelerar la analítica de big data

Las tecnologías de procesamiento de datos y analítica en tiempo real están ayudando a las empresas a encontrar información útil en flujos de big data para que puedan tomar rápidamente medidas para impulsar sus operaciones comerciales.

Para más organizaciones, no hay tiempo como el presente para procesar y analizar la información que fluye en sus sistemas de big data. Y los proveedores de TI cada vez más están lanzando tecnologías que facilitan el proceso de análisis de streaming en tiempo real.

Comcast Corp. se encuentra entre la vanguardia en tiempo real. El conglomerado de televisión y películas está a punto de ampliar un cluster Hadoop utilizado por el equipo de ciencia de datos, de 300 nodos de cómputo a 480. Además, Comcast planea mejorar el sistema para incluir Apache Kudu, un almacén de datos de código abierto diseñado para su uso en aplicaciones de análisis en tiempo real que implican la transmisión de datos que se actualiza con frecuencia.

“Para nosotros, la capacidad de actualización es una cosa muy grande", dijo Kiran Muglurmath, director ejecutivo de ciencia de datos de la empresa con sede en Filadelfia. El cluster Hadoop, creado a principios de este año, ya contiene más de un petabyte de información; por ejemplo, los datos recogidos de los decodificadores sobre las actividades de observación de televisión de los clientes de Comcast y las operaciones de las propias cajas. Pero el equipo de Muglurmath necesita mantener los datos lo más actualizados posible para un análisis eficaz, lo que significa actualizar los registros individuales a través de escaneo de tablas conforme entra nueva información.

Sridhar Alla, director de arquitectura de big data en Comcast, dijo que hacerlo toma "una inmensa cantidad de tiempo" en el sistema de archivos distribuido Hadoop (HDFS) y su compañera base de datos HBase; demasiado tiempo para ser viable a escala petabyte. Kudu, por otra parte, ha acelerado de manera significativa el proceso en un proyecto de prueba de concepto en los últimos tres meses. En una prueba, por ejemplo, escaneó más de dos millones de filas de datos por segundo. "Está escribiendo los datos lo más rápido que los discos pueden manejar”, dijo Alla durante una sesión en Strata + Hadoop World 2016.

El juego de espera en tiempo real llega a su fin

La tecnología Kudu fue creada el año pasado por el proveedor de Hadoop Cloudera Inc. y luego pasó a ser de código abierto. La semana pasada, Apache Software Foundation lanzó Kudu 1.0.0, la primera versión de producción, un paso que Comcast estaba esperando antes de ir a en vivo con su despliegue de Kudu.

La expansión del cluster Hadoop basado en Cloudera debe completarse a finales de octubre, dijo Muglurmath después de la sesión de la conferencia. Kudu será configurado en todos los nodos de cómputo junto con HDFS, que continuará siendo utilizado para almacenar otros tipos de datos. El equipo de ciencia de datos también tiene previsto utilizar Impala, un motor de consulta SQL sobre Hadoop desarrollado por Cloudera, para unir los datos de HDFS y Kudu para su análisis.

Dell EMC, la unidad de almacenamiento de datos del proveedor de TI Dell Technologies, también va por el camino del streaming en tiempo real para soportar sus esfuerzos de analítica internos.

El equipo de TI está utilizando el motor de procesamiento de Spark y otras herramientas de ingestión de datos para canalizar los datos en tiempo real sobre las interacciones con los clientes en una combinación de bases de datos: Cassandra, Gemfire, MemSQL y PostgreSQL. Los algoritmos automatizados posteriormente se comparan con los datos para generar puntuaciones de experiencia al cliente al minuto que ayudan a guiar a la fuerza de ventas de Dell EMC en la venta de la renovación de suscripciones de soporte técnico, dijo Darryl Smith, arquitecto jefe de la plataforma de datos en el Hopkinton, una organización basada en Massachussets.

Los datos de interacción con el cliente también se alimentan en un lago de datos Hadoop, pero eso es para hacer perfiles de clientes a largo plazo y análisis de tendencias. Para la aplicación de puntuación de clientes, "usted no podía solo tirar todos los datos en Hadoop y decir ‘Vayan por ellos' [a los representantes de ventas]", dijo Smith. "Es una cosa diferente tomar datos en tiempo real y hacer con ellos analítica para tomar acciones concretas".

Eso quiere decir que los mismos datos están siendo procesados y almacenados en diferentes lugares dentro de la arquitectura de big data de Dell EMC, pero Smith no ve eso como algo malo. "Y no es solo porque yo trabajo para una empresa de almacenamiento", bromeó. "Si usted va a obtener valor de los datos, va a tener que almacenarlos en múltiples lugares, porque va a consumirlos de diferentes maneras".

Uno de los procesos de streaming en tiempo real adoptados por Dell EMC utiliza la herramienta de cola de mensajes código abierto Kafka para empujar datos en MemSQL, una base de datos en memoria diseñada para aplicaciones en tiempo real. El proveedor MemSQL Inc. liberó una versión de actualización 5.5, que incorpora la conectividad Kafka en una función para crear procesos de datos con semántica de exactamente una vez, lo que significa que las transmisiones de datos se procesan solo una vez, con entrega garantizada y sin pérdida de datos a lo largo del camino. Smith dijo que tal garantía es "absolutamente fundamental" para el tipo de análisis en tiempo real que Dell EMC está tratando de hacer.

Viviendo con alguna pérdida de datos en tiempo real

Sin embargo, la entrega de datos garantizada no es una necesidad para eBay Inc. La compañía de subastas en línea y comercio electrónico utiliza Pulsar, una tecnología de procesamiento de flujos y analítica de código abierto que creó para analizar los datos sobre las actividades del usuario, con el fin de impulsar la personalización de la página web de eBay para los visitantes individuales. En la creación y la ampliación de la arquitectura en tiempo real durante los últimos tres años, el equipo de TI de eBay decidió que no tenía que gastar dinero extra para desarrollo para construir una garantía de entrega en el proceso de datos.

"Para nuestros casos de uso, podemos darnos el lujo de perder un poco de datos", dijo Tony Ng, director de ingeniería para el análisis de comportamiento de los usuarios y otros servicios de datos en eBay. Pero el equipo de Ng sí tiene que poner toda su atención y energía mientras entran los flujos de datos. Por ejemplo, uno de los objetivos es detectar bots en el sitio y separar los datos de actividad que generan, para que no sesguen el proceso de personalización para los usuarios reales. Eso requiere actualizaciones frecuentes a las reglas de detección de bots integrados en los algoritmos de analítica de eBay, dijo Ng.

La configuración del streaming en tiempo real de la empresa también incluye Kafka como mecanismo de transporte, además de varias otras tecnologías de código abierto –Storm, Kylin y Druid– para procesamiento y almacenamiento de datos. Ng señaló que las operaciones de transmisión son muy diferentes de la carga de datos de lote que eBay hace en sus clusters Hadoop y almacenes de datos Teradata para otros usos de analítica.

"Hay algunas restricciones sobre la cantidad de procesamiento que se puede hacer en los datos", dijo. Con el tiempo, se limpia y se consolida en el modo por lotes para las aplicaciones de análisis que se hacen después, "pero las cosas que necesitan ser en tiempo real, queremos mantenerlas en tiempo real".

Construir una arquitectura de transmisión de datos y análisis en tiempo real puede ser un proceso complicado de por sí, dijo Mark Madsen, presidente de la consultora de gestión de datos y analítica Third Nature Inc. "Es un problema de hecho a la orden", dijo Madsen. "[Los proveedores individuales de TI] resuelven una parte del problema, pero es difícil para ellos despejar todo el problema".

Próximos pasos

Más sobre analítica:

El equipo de analítica no siempre debe buscar los triunfos rápidos

Equipos de analítica del sector público luchan por implementar innovación

Capacidades del director de analítica o CAO lo convierten en un líder para la innovación

Investigue más sobre Big data (Grandes datos)

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

Close