El conector Hadoop empuja a las BD hacia clústeres de ‘big data’

Noticias

El conector Hadoop empuja a las BD hacia clústeres de ‘big data’

Mark Brunelli, Editor Senior en TechTarget

 Los proveedores de software han captado el mensaje de que Hadoop es lo último, y muchos responden lanzando conectores Hadoop diseñados para facilitar a los usuarios la transferencia de información entre bases de datos relacionales tradicionales y el sistema de procesamiento distribuido de código abierto.

Oracle, Microsoft e IBM están entre los proveedores que han comenzado a ofrecer el software de conectores de Hadoop como parte de sus estrategias generales de gestión de "big data (datos grandes)". Pero no son sólo los líderes del mercado de sistemas de gestión de bases de datos relacionales (RDBMS) los que están pasando a la acción. Los proveedores de bases de datos analíticas y de centros de datos tales como Teradata y la unidad Vertica de Hewlett-Packard también han desarrollado conectores para vincular Hadoop a las bases de datos SQL, al igual que proveedores de integración de datos como Informatica y Talend. Los proveedores de las distribuciones Hadoop, incluyendo Cloudera y MapR Technologies, también trabajan en el campo de los conectores.

¿Qué es Hadoop?

Hadoop es un marco de programación basado en Java que soporta el procesamiento de grandes conjuntos de datos en un entorno informático distribuido.

Desarrollado por Apache Software Foundation como un proyecto de código abierto, Hadoop originalmente se basó en el modelo de programación MapReduce de Google, que permite a los desarrolladores descomponer aplicaciones en numerosas pequeñas tareas que se pueden ejecutar en paralelo en diferentes nodos informáticos en sistemas de clústeres.

Hadoop permite ejecutar aplicaciones en clústeres con miles de nodos y terabytes de datos; el sistema de archivos distribuido de Hadoop gestiona el almacenamiento, facilita las transferencias de datos entre los nodos y permite que un clúster siga operando sin interrupción, aún si fallan nodos individuales.

Fuente: Whatis.com

Las organizaciones que barajan la posibilidad de utilizar conectores para enlazar sistemas de base de datos convencionales con los clústeres Hadoop deberían analizar "cuál es el mejor lugar para analizar, buscar, ordenar o lo que sea que estén intentando hacer con sus datos", dijo Rod Cope, un usuario experimentado de Hadoop que es jefe de tecnología de OpenLogic Inc. en Broomfield, Colorado.

OpenLogic utiliza Hadoop en combinación con HBase, una base de datos NoSQL orientada en columnas que forma parte del marco de Hadoop, realizando seguimiento de proyectos de software de código abierto en el mundo. Es todo parte del servicio que es la punta de lanza de la compañía, que ayuda a los clientes corporativos a auditar las aplicaciones de software para comprobar que el uso de código fuente abierto integrado cumple con las licencias pertinentes. OpenLogic aún tiene que implementar conectores, pero Cope ha estudiado de cerca esta tecnología, por ejemplo como un posible medio de desplazar datos utilizados con poca frecuencia desde una base de datos relacional a HBase para ser archivados.

Los conectores no resuelven mágicamente todas las cuestiones involucradas en tales emparejamientos, según sostiene Cope, quien advierte que los posibles usuarios deben ser conscientes de cuánto tiempo puede llevar la carga datos desde una base de datos en Hadoop. "Es fácil que la gente se olvide de que cuando realmente se maneja big data, cualquier cosa que se haga con ella llevará mucho tiempo", dijo Cope. “Normalmente”, agregó, "no es Hadoop el que resulta lento; es aquello desde donde se está intentando cargarlo".

David Menninger, analista de Ventana Research en San Ramón, California, sostuvo que el sistema de archivos distribuido de Hadoop, y las bases de datos especializadas construidas sobre este sistema, son buenos para proporcionar a los usuarios un lugar para administrar y analizar información que no encaja perfectamente en un RDBMS o en un centro de datos tradicionales. Esto puede incluir formularios de big data generados automáticamente, como registros de eventos de aplicación, búsqueda y sitio web, a lo que se suma información de redes sociales, registros con detalles de llamadas de teléfono móvil y otras "cosas que simplemente serían por lo general consideradas información relacional estructurada", dijo Menninger.

Uno de los usos más comunes de un conector Hadoop, dijo, es el de una organización que utiliza un sistema Hadoop para extraer una pequeña cantidad de información analítica estructurada de una cantidad mucho mayor de datos no estructurados, y luego transferir esa información a un RDBMS para su posterior análisis y presentación de informes mediante   herramientas de inteligencia de negocios.

El lema del conector Hadoop: Cada cosa en su sitio

"La razón por la que lo ponemos en una base de datos relacional es porque actualmente no podemos informar fácilmente sobre las fuentes de datos Hadoop", dijo Menninger. "Tenemos toda una industria de herramientas que ha evolucionado para informar y analizar datos relacionales".

Tales transferencias de datos no tienen que ser una oferta de un día. "Tal vez haya estado contando las apariciones de un determinado evento y más tarde decide que desea contar la cantidad de veces que dos eventos se produjeron juntos", dijo. "Entonces vuelve a los archivos de origen y procesa la información nuevamente. Por eso la gente no tira los datos [no estructurados]. Los dejan en Hadoop".

Además, Hadoop proporciona un entorno mucho mejor para ciertos análisis avanzados y aplicaciones de búsqueda de datos que una base de datos relacional de SQL, dijo Menninger. Un ejemplo que citó alude a analizar registros de llamadas de servicio al cliente en combinación con mensajes en Twitter, Facebook y otras redes sociales para tratar de identificar a los clientes que son propensos a dejar de usar un determinado producto o servicio.

"Esas son cosas difíciles de expresar en SQL", dijo Menninger. Pero, agregó, los resultados analíticos pueden ser enviados a través de un conector Hadoop a una base de datos relacional o a un centro de datos para su posterior análisis y presentación de informes y para determinar acciones de seguimiento pensadas para evitar que los clientes se vayan.

Cameron Befus, vicepresidente de ingeniería en Tynt Multimedia Inc., una empresa de Web Analytics de Sausalito, California que fue adquirida en enero por 33Across Inc., dijo que su organización utiliza Hadoop para brindar servicios de análisis a más de 500.000 sitios web de publicación. Además, Tynt tiene funcionando una base de datos MySQL de código abierto de Oracle para dar sustento a sus operaciones de gestión.

Hasta ahora, Befus no ha visto la necesidad de instalar software de conectores para integrar los dos entornos. "Solemos mover los datos un poco, pero generalmente resulta sencillo", señaló, agregando que la compañía carga directamente archivos de Hadoop en MySQL. "Un conector puede hacer el proceso un poco más fácil, pero esto no ha sido un problema para nosotros".

Sin embargo, analistas de IT, como Menninger y Judith Hurwitz, Presidente y CEO de Hurwitz & Associates en Needham, Massachusets, esperan que la demanda de conectores aumente gradualmente a medida que más organizaciones se convierten en usuarios de Hadoop.

Al igual que Menninger, Hurwitz cree que el interés en la tecnología será impulsado por las empresas que buscan poner en un contexto mayor de negocios los resultados de análisis basados en Hadoop.

"Cuando analizamos [el big data], lo que estamos buscando es: '¿qué me están diciendo estos datos acerca de algún asunto crítico?’, explicó Hurwitz. "[El usuario] querrá construir puentes entre estos datos, no estructurados y sin sentido, y los datos muy estructurados que pueden incluir detalles sobre cómo su empresa puede hacer frente a esos problemas".


Unirse a la conversación Comenta

Compartir
Comentas

    Resultados

    Contribuye a la conversacion

    Todos los campos son obligatorios. Los comentarios aparecerán en la parte inferior del artículo