BACKGROUND IMAGE: iSTOCK/GETTY IMAGES

Lo básico Póngase al día con nuestro contenido introductorio.

Explorando distribuciones Hadoop para gestionar big data

Empresas de todos los tamaños pueden utilizar Hadoop, a medida que los proveedores venden paquetes que agrupan distribuciones de Hadoop con diferentes niveles de soporte.

Hadoop es una tecnología de código abierto que hoy es la plataforma de gestión de datos más comúnmente asociada con aplicaciones de big data. El marco de procesamiento distribuido fue creado en 2006, principalmente en Yahoo, y basado en parte en las ideas esbozadas por Google en un par de documentos técnicos; pronto, otras compañías de internet como Facebook, LinkedIn y Twitter adoptaron la tecnología y comenzaron a contribuir a su desarrollo. En los últimos años, Hadoop se ha convertido en un complejo ecosistema de componentes de infraestructura y  herramientas relacionadas, que se empaquetan juntos por varios proveedores en las distribuciones comerciales de Hadoop.

Corriendo en clusters de servidores comerciales, Hadoop ofrece un enfoque de alto rendimiento y bajo costo para establecer una gran arquitectura de gestión de big data para soportar las iniciativas de analítica avanzada. Mientras que el conocimiento de sus capacidades ha aumentado, el uso de Hadoop se ha extendido a otras industrias, tanto para la presentación de informes, como para las aplicaciones analíticas que implican una mezcla de datos estructurados tradicionales y nuevas formas de datos no estructurados y semi-estructurados. Esto incluye datos de los clics en la web, información de publicidad en línea, datos de medios sociales, registros de reclamos de salud y datos de los sensores de los equipos de fábricas y otros dispositivos en la internet de las cosas.

¿Qué es Hadoop?

El marco Hadoop abarca un gran número de componentes de software de código abierto, con un conjunto de módulos básicos para la captura, procesamiento, gestión y análisis de grandes volúmenes de datos, que está rodeado por una gran variedad de tecnologías de soporte. Los componentes básicos incluyen:

  • El sistema de archivos distribuido Hadoop (HDFS), que es compatible con un directorio jerárquico y sistema archivos convencional que distribuye los archivos a través de los nodos de almacenamiento (es decir, DataNodes) en un clúster Hadoop.
  • MapReduce, un marco modelo de programación y ejecución para el procesamiento paralelo de  aplicaciones por lotes.
  • YARN (corto para el gracioso Otro Negociador de Recursos Más en inglés), que gestiona la planificación de trabajos y asigna los recursos del clúster a aplicaciones en ejecución, arbitrando entre ellas cuando hay competencia por los recursos disponibles. También rastrea y monitorea el progreso de los trabajos de procesamiento.
  • Hadoop Common, un conjunto de librerías y utilidades utilizadas por los diferentes componentes.

En clusters de Hadoop, esas piezas centrales y otros módulos de software están puestos en capas en la parte superior de una colección de nodos de hardware de computación y almacenamiento de datos. Los nodos están conectados a través de una red interna de alta velocidad para formar un sistema paralelo de alto rendimiento y de procesamiento distribuido.

Como una colección de tecnologías de código abierto, Hadoop no está controlado por ningún proveedor único; más bien, su desarrollo es administrado por la Apache Software Foundation. Apache ofrece Hadoop bajo una licencia que básicamente otorga a los usuarios un derecho sin cargo, libre de regalías para utilizar el software. Los desarrolladores pueden descargarlo directamente desde la página web de Apache y construir un entorno Hadoop por su cuenta. Sin embargo, los proveedores de Hadoop proporcionan versiones “comunitarias” prediseñadas con la funcionalidad básica que también se pueden descargar de forma gratuita e instalar en una variedad de plataformas de hardware. También comercializan distribuciones de Hadoop comerciales –o empresariales– que agrupan el software con diferentes niveles de servicios de mantenimiento y soporte.

En algunos casos, los proveedores también ofrecen mejoras de rendimiento y funcionalidad sobre la base de la tecnología Apache, por ejemplo, al proporcionar herramientas de software adicionales para facilitar la configuración del clúster y la gestión, o la integración de datos con plataformas externas. Estas ofertas comerciales hacen a Hadoop cada vez más asequible para las empresas de todos los tamaños. Esto es especialmente valioso cuando el equipo de servicios de soporte del proveedor comercial puede poner en marcha el diseño y el desarrollo de la infraestructura Hadoop de una empresa, así como guiarla en la selección de herramientas y la integración de capacidades avanzadas para implementar rápidamente soluciones analíticas de alto rendimiento para satisfacer las necesidades de negocio emergentes.

Los componentes de una típica pila de software Hadoop

¿Qué es lo que realmente se obtiene al adquirir una versión comercial de Hadoop? Además de los componentes básicos, las distribuciones típicas de Hadoop incluirán –pero no se limitarán a– lo siguiente:

  • Gestores de procesamiento de datos alternativos y ejecución de aplicaciones como Tez o Spark, que puede ejecutarse en la parte superior o al lado de YARN para proporcionar gestión de clústeres; gestión de datos en caché; y otros medios de mejorar el rendimiento del procesamiento.
  • Apache HBase, un sistema de gestión de base de datos orientado en columnas, modelado a partir del proyecto BigTable de Google que se ejecuta sobre HDFS.
  • Herramientas de SQL sobre Hadoop, como Hive, Impala, Stinger, Drill y Spark SQL, que proporcionan diferentes grados de cumplimiento de la norma SQL para consulta directa de los datos almacenados en HDFS.
  • Herramientas de desarrollo tales como Pig, que ayudan a los desarrolladores a crear programas MapReduce.
  • Herramientas de configuración y gestión, como ZooKeeper o Ambari, que pueden ser utilizadas para el monitoreo y la administración.
  • Entornos analíticos como Mahout, que suministran modelos analíticos para aprendizaje automático, minería de datos y análisis predictivo.

Debido a que el software es de código abierto, usted no compra una distribución de Hadoop como producto, per se. En cambio, los proveedores venden suscripciones de soporte anuales con diversos acuerdos de nivel de servicio (SLA). Todos los proveedores son participantes activos en la comunidad Apache Hadoop, aunque cada uno puede promover sus propios componentes complementarios con los que han contribuido a la comunidad como parte de su distribución de Hadoop.

¿Quién administra el entorno de gestión de big data Hadoop?

Es importante reconocer que conseguir el rendimiento deseado de un sistema Hadoop requiere un equipo coordinado de profesionales de TI cualificados que colaboran en la planificación, diseño,  desarrollo, pruebas, despliegue y operaciones en curso de la arquitectura, y con el mantenimiento para garantizar un rendimiento óptimo. Esos equipos de TI suelen incluir:

  • Analistas de requisitos, para evaluar los requisitos de rendimiento del sistema en función de los tipos de aplicaciones que serán ejecutadas en el entorno Hadoop.
  • Arquitectos de sistemas, para evaluar los requisitos de rendimiento y configuraciones de hardware de diseño.
  • Ingenieros de sistemas, para instalar, configurar y poner a punto la pila de software Hadoop.
  • Desarrolladores de aplicaciones para diseñar e implementar aplicaciones.
  • Profesionales de gestión de datos, para hacer la integración de datos, crear presentaciones de datos y realizar otras tareas de administración.
  • Administradores de sistemas, para hacer la gestión operativa y de mantenimiento.
  • Gerentes de proyecto para supervisar la implementación de los distintos niveles de la pila y el trabajo de desarrollo de aplicaciones.
  • Un gerente del programa para supervisar la implementación del entorno Hadoop y la priorización, desarrollo y despliegue de aplicaciones.

El mercado de la plataforma de software Hadoop

En esencia, la evolución de Hadoop como un ecosistema viable de gestión de datos a gran escala  también ha creado un nuevo mercado de software que está transformando la industria de la inteligencia de negocios y la analítica. Esto se ha expandido tanto en los tipos de aplicaciones analíticas que las organizaciones usuarias pueden ejecutar, como en los tipos de datos que pueden ser recogidos y analizados como parte de esas aplicaciones. El mercado incluye tres proveedores independientes que se especializan en Hadoop: Cloudera Inc., Hortonworks Inc. y MapR Technologies Inc. Otras empresas que ofrecen distribuciones o capacidades de Hadoop incluyen Pivotal Software Inc., IBM, Amazon Web Services y Microsoft.

La evaluación de los proveedores que ofrecen distribuciones de Hadoop requiere comprender las similitudes y diferencias entre los dos aspectos de las ofertas de productos. El primero es la tecnología en sí misma: qué se incluye en las diferentes distribuciones; con qué plataformas son compatibles; y, lo más importante, qué componentes específicos son defendidos por los proveedores individuales. En segundo lugar, está el modelo de servicio y soporte: ¿qué tipos de soporte y SLAs se proporcionan dentro de cada nivel de suscripción, y cuánto cuestan las diferentes suscripciones.

Comprender de cómo estos aspectos se relacionan con sus necesidades de negocio específicas pondrá de relieve las características que son importantes para una relación con el proveedor.

Próximos pasos

Más sobre Hadoop:

No construya su lago de datos sin seguridad para Hadoop

Aún se necesita “mucha madurez” para la arquitectura Hadoop

Hadoop y el cómputo de nube, ¿colisionarán o tendrán una feliz simbiosis?

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close