BACKGROUND IMAGE: iSTOCK/GETTY IMAGES

Evaluar Conozca los pros y contras de las tecnologías, productos y proyectos que está considerando.

Aún se necesita “mucha madurez” para la arquitectura Hadoop

Hadoop aún no se ha adoptado ampliamente, en gran parte por problemas de madurez, dice el experto Joe Caserta, hablando sobre el marco de big data.

Joe Caserta está en una buena posición para analizar el estado actual de los despliegues de arquitectura Hadoop. Junto con Ralph Kimball, fue co-autor deThe Data Warehouse ETL Toolkit, un libro publicado en 2004 que detalla técnicas de extracción, transformación y carga para alimentar almacenes de datos. Pero el fundador y presidente de la consultora neoyorquina Caserta Concepts ha visto Hadoop y otras herramientas de big data cambiar los métodos tradicionales de almacenamiento de datos, y ha impulsado este proceso ayudando a las organizaciones a implementar clústeres de Hadoop. En una entrevista con SearchDataManagement en la conferencia Strata + Hadoop World 2014 en Nueva York, Caserta ofreció su perspectiva sobre el guiso burbujeante que es Hadoop.

¿Es la arquitectura Hadoop en la empresa lista para una adopción amplia? A veces parece que no va a salir de lo que algunos llamarían un nicho.

Joe Caserta: Fuimos usuarios muy tempranos de Hadoop. Pensé que para ahora estaría completamente extendido. Creo que va a llegar allí, pero el tiempo tiene mucho que ver con el hecho de que lo que hace es difícil de hacer. En primer lugar, las herramientas que están ahí afuera hoy en día, como bases de datos relacionales, herramientas ETL y SQL, han tenido más de 30 años  para madurar. Usted puede argumentar acerca de la edad de Hadoop, pero muchas de las herramientas tienen esencialmente solo tres o menos años de edad. Así que hay una gran madurez que aún tiene que suceder.

En segundo lugar, todavía no hay mejores prácticas. No hay interfaces gráficas. Usted realmente tiene que ser un programador para trabajar con Hadoop. No se puede salir adelante con ser un usuario avanzado realmente inteligente y empezar a bucear en Hadoop. La mayoría del trabajo se realiza en la línea de comandos.

En tercer lugar, gobernar datos que no tienen una estructura es prácticamente imposible. Es difícil cumplir con las regulaciones de HIPAA o la SEC cuando usted no tiene columnas estructuradas para enmascarar o cifrar. Ese es probablemente el mayor desafío para las empresas que adoptan Hadoop.

Parece, mirando algunos datos, que muchos de los proyectos están atrapados en la etapa de la prueba de concepto (POC).

Caserta: Sí. Cuando empezamos en 2009, y luego en 2010, el trabajo era en su mayoría con académicos. En 2011 y en 2012, era sobre todo POC. Y cada vez más, vemos lo que la gente está llamando pruebas de valor, que se centran en las necesidades de negocio.

El término big data es una especie de nombre inapropiado, ya que realmente no tiene que ser grande. Pero, en el primer par de años, el principal impulso con Hadoop fue hacer big data. La razón de ello era que la gente realmente quería datos de bajo costo. La diferencia de costos entre la instalación, configuración y mantenimiento de un cluster Hadoop, frente a la adquisición de licencias y la instalación de hardware, software e infraestructura para algún almacén de datos establecido, como Netezza o Teradata, es muy convincente. No hay duda de que se trata de un ahorro económico. Pero ahora la gente está buscando más.

El año pasado y este año es cuando los proyectos de prueba de concepto comenzaron la producción, y a ser utilizados en las operaciones de un negocio. Es ahora que la gente está empezando a notar todos los defectos. Para un solo caso de uso es genial, pero una vez que usted empieza a expandirlo a más usuarios y más casos de uso, es como los data marts tradicionales. Construir [data marts de un solo uso] puede ser bastante fácil. Pero una vez que comienza a ampliarlos hacia un almacén de datos donde usted tiene que soportar todos estos sistemas dispares y procesos de negocios que trabajan con cohesión, es cuando usted empieza a darse cuenta: 'necesito algo un poco más sofisticado y más maduro’.

Mucho del potencial uso expandido de Hadoop tiene que ver con el análisis de back-end. Pero esos tipos de herramientas Hadoop, algunas de ellas son en realidad completamente nuevas.

Caserta: Correcto. Otra razón por la que Hadoop no ha tomado al mundo por sorpresa como  pensábamos es su falta de capacidad para hacer consultas interactivas. Cuando las herramientas como Impala y Drill empiecen a madurar, entonces creo que podría ser adoptado más ampliamente.

Aún así, los científicos de datos e ingenieros de datos y los muy sofisticados desarrolladores de bases de datos y gente de ETL están empezando a adoptarlo. Es muy similar a los viejos tiempos en que teníamos un piso lleno de programadores COBOL, y luego salió la programación orientada a objetos. Algunos fueron capaces de dar el salto, y algunos simplemente no. Creo que vamos a tener un cambio similar. Hoy en día la mayor parte de nuestra ETL se está haciendo en Python: estamos utilizando Python, Pig, Hive y MapReduce. Se requiere de un conjunto de habilidades diferentes. Algunos desarrolladores pueden dar el salto. A veces solo tenemos que encontrar nuevas personas con nuevas habilidades.

Lo que realmente está cambiando hoy en día, sin embargo, es que Hadoop está permitiendo a las empresas funcionar sin seres humanos involucrados. SQL y los lenguajes tipo SQL y las herramientas de BI son realmente hechos para los seres humanos. El concepto del aprendizaje automático significa que usted puede alimentar algunos datos en un equipo que ejecuta Hadoop, correr algunos algoritmos sobre eso, y volverse más inteligente y hacer predicciones y recomendaciones sobre lo que deberíamos hacer.

Los pequeños pasos para esto fueron los motores de recomendación en Amazon.com. Pero estamos haciendo eso con todo ahora. Lo estamos haciendo con selecciones de valores, y con los anuncios que se sirven en los servidores de anuncios.Y cuanto más frecuente se vuelve esto, menos dependientes seremos en realidad en el ser humano para tomar decisiones por nosotros. El almacenamiento de datos se hizo principalmente para que las personas interactuaran con una herramienta de BI. Pero los consumidores intermedios de la mayoría de los sistemas Hadoop con los que hemos estado trabajando son otras máquinas.

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close