Evaluar Conozca los pros y contras de las tecnologías, productos y proyectos que está considerando.

Hadoop y el cómputo de nube, ¿colisionarán o tendrán una feliz simbiosis?

De acuerdo con Forrester, dos de las tendencias más calientes de la industria -el cómputo de nube y Hadoop- no pueden trabajar bien juntos.

De acuerdo con Forrester, dos de las tendencias más calientes de la industria - el cómputo de nube y Hadoop - no pueden trabajar bien juntos.

Esta teoría, sin embargo, no parece ser apoyada por los hechos.

Apache Hadoop es un framework de software que soporta aplicaciones distribuidas bajo una licencia libre. Se trata de un proyecto de alto nivel Apache que está siendo construido y usado por una comunidad global de contribuidores  mediante el lenguaje de programación Java, permitiendo a las aplicaciones trabajar con miles de nodos y petabytes de datos.

Creado por Doug Cutting, que lo nombró así por su elefante de juguete, Hadoop se inspiró en los documentos de Google para MapReduce y Google File System (GFS).

Fue desarrollado originalmente para apoyar la distribución del proyecto de motor de búsqueda, denominado Nutch. Yahoo! ha sido el mayor contribuyente al proyecto, y usa Hadoop extensivamente en su negocio.

A pesar de los beneficios que plantea, de acuerdo con Forrester, Hadoop –a menudo considerado el corazón de los grandes datos– no significa un ajuste natural para la nube, donde cada vez queremos correr más de nuestras aplicaciones. Pero con más datos que se generan en la nube y se almacenan en Hadoop, es más probable que el "curso de colisión" previsto por Forrester sea en realidad una simbiosis feliz.

Hadoop: ¿Un inadaptado atado a la tierra?

Hadoop es una de las últimas tendencias en tecnología, de acuerdo con las tendencias de empleo Indeed.com, entre otras fuentes.

Pero también lo es el cómputo de nube, con más empresas tratando de pasar a la nube para acelerar la innovación, como lo muestra una encuesta entre los usuarios de RightScale.

Las dos grandes tendencias, sin embargo, pueden no funcionar juntas. Al menos, no según el analista de Forrester, Richard Fichera, quien señala que la propia naturaleza de la computación en nube no es un buen hogar para un clúster Hadoop.

Para apoyar su argumento, Fichera ofrece tres razones por las que considera que Hadoop pertenece en un centro de datos empresarial y no a un entorno de cloud computing:

  1. Grandes cargas de trabajo en aumento favorecen la instalación de Hadoop. Hadoop tiende a ser muy utilizado, con una capacidad que se añade conforme se agregan recursos. En otras palabras, ya sea de manera lenta o rápida, los racimos de Hadoop se alimentan de datos obtenidos de una forma mayormente predecible, sin los picos y valles que normalmente se prestan a un despliegue en la nube elástica.
  2. Almacenamiento en la nube es a la vez más lento y más caro para los conjuntos de datos que siguen creciendo.  El almacenamiento en la nube puede tener "tiempos de acceso inaceptablemente largos", y las comparaciones de costos no indican que es inherentemente más barato de todos modos.
    Además, "Hadoop tiende a acumular 10 veces o más datos de los entornos transaccionales heredados, aunado a que los científicos de datos y sus grupos de interés empresariales centrados en el cliente casi nunca quieren descartar los datos de Hadoop, y los requisitos de acceso son imprevisibles –todo lo cual favorece el almacenamiento en las instalaciones”.
  3. Fuentes de datos y locales hacen una gran diferencia para el rendimiento. Durante la ejecución de las agrupaciones de Hadoop en la nube puede tener sentido en que los datos en sí se generen en la nube (por ejemplo, el análisis de Twitter), pero "para los sistemas de cara al cliente en tiempo real con datos provenientes desde múltiples lugares, el equipo de Operaciones probablemente necesitará construir Hadoop en un centro físico controlado (donde se determine el ancho de banda y la latencia), así como interconexiones de red para minimizar la latencia de extremo a extremo de la aplicación".

Uso de Hadoop para datos en la nube

Quizá sí. Quizás no.

Después de todo, el argumento sobre la "gravedad de datos" de Forrester parece indicar que es más probable que se realicen más despliegues Hadoop en la nube.

Es pronto para hacer proyecciones a largo plazo, tal como Mike Olson, cofundador y director de estrategia en Cloudera, proveedor de Hadoop, me dijo en una conversación por Gtalk:

"Hadoop se instala donde los datos ya están. El despliegue de la nube tiene sentido cuando usted ya tiene un montón de datos en cubos S3. Simplemente, no hay suficiente historia para un análisis de las tendencias a largo plazo."

Aun así, es poco prudente imaginar que Hadoop seguirá vinculado al centro de datos. Marten Mickos, CEO de Eucalyptus, un proveedor de nube híbrida, me dijo por correo electrónico que es más probable que veamos a Hadoop en todas partes: "Lo que la gente suele olvidar es que vamos a tener datos en todas partes. Los datos ejercen gravedad, y está carga de trabajo se llevará a Hadoop. No se sorprendan si empezamos a ver cargas de trabajo Hadoop en estaciones base inalámbricas, en vehículos o en otros bordes de la infraestructura de TI”.

Debido a esta bestia de datos de múltiples cabezas, es poco probable que las cargas de trabajo Hadoop permanezcan arraigadas en el centro de datos. Pero tampoco es probable que cada clúster Hadoop se ejecute en la nube.

Está más cerca de la verdad que el futuro de Hadoop se encuentre tanto en el centro de datos como en la nube, algo que Shaun Connolly, vicepresidente de Estrategia de Hortonworks, un proveedor de Hadoop, me dijo a través de Skype:

"Creo que habrá múltiples centros de gravedad de datos, uno de los cuales es en las instalaciones. Pero estoy convencido de que Hadoop en la nube juega un papel importante en la arquitectura más amplia ya que el mercado Hadoop sigue madurando. Por otra parte, para una determinada parte de los datos, la economía de almacenamiento en la nube será convincente para datos históricos más antiguos que se desea que estén accesibles para los informes históricos. El almacenamiento en la nube puede jugar un papel que la cinta ha desempeñado históricamente, pero con mucho mejor accesibilidad. Es la misma razón por la que [tener disponibles] Linux y Windows, tanto en las instalaciones como en la nube (al estilo de Azure, Amazon, Rackspace, etc.) es tan importante."

El único perdedor en esta división entre los centros de datos y la nube pública, de acuerdo con Mickos, está en el "aprovisionamiento baremetal dedicado".

Hemanth Yamijala, consultor principal de ThoughtWorks, da seis razones para creer que Hadoop es un paso natural a los entornos de nube:

  1. La reducción del costo de la innovación
  2. La adquisición de recursos a gran escala de forma rápida
  3. El manejo de cargas de trabajo de proceso por lotes de manera eficiente
  4. Manejo de las necesidades de recursos variables
  5. Corre más cerca de los datos
  6. La simplificación de las operaciones

Su segundo punto es particularmente interesante en contraposición al argumento de Forrester. Puede tener más sentido, en papel, añadir hardware de Hadoop para resolver el problema de una compañía, pero la realidad de la mayoría de los departamentos de TI es muy diferente. Es más fácil decir: "Necesito 50 servidores adicionales" de lo que realmente es adquirirlos, dada la política interna o políticas de compras.

Por estas y otras razones, la teoría de Hadoop en el centro de datos es mucho más optimista que su realidad. Si Hadoop es un ajuste perfecto para infraestructura en la nube es una cuestión muy diferente a si los patrones de adopción de Hadoop tienden a favorecer la nube.

Esta revolución no se puede ejecutar en su centro de datos

Todo lo cual es razón para creer que, si bien Forrester puede haber clavado su teoría de las implementaciones de Hadoop, parece haber pasado por alto la realidad de donde van a vivir cada vez más datos empresariales y lo fácil que será suministrar hardware para satisfacer la creciente demanda de Hadoop.

A medida que más datos se mueven a la nube, las empresas tendrán más razón para ejecutar Hadoop allí.

Pero hay más.  Como señala el analista de Redmonk, James Governor, el componente que falta, pero esencial en el cálculo de Forrester, es la comodidad: "Hadoop es una sofisticada tecnología, que requiere habilidad y experiencia para implementarse, configurarse, escalarse y gestionarse. Las empresas deben elegir un proveedor para integrar Hadoop en sus sistemas existentes, o intentar algo que va a cambiar radicalmente y mejorar la forma en que trabajan en la actualidad. La nube es el lugar donde verán la diferencia”

 

- Compilado, traducido y redactado por León Blaustein con información original de Matt Asay.

Este artículo se actualizó por última vez en noviembre 2014

Profundice más

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close