freshidea - Fotolia

Gestionar Aprenda a aplicar las mejores prácticas y optimizar sus operaciones.

Equipos de TI buscan simplificar el proceso de analítica de big data

Empresas como Yahoo, Merck, Macy's y eBay se han movido para eliminar obstáculos que bloqueaban el camino hacia el éxito con aplicaciones de análisis de big data.

Incluso con la amplia gama de herramientas avanzadas de análisis ahora disponibles para su uso, los equipos de analítica todavía enfrentan muchos retos en el desarrollo de aplicaciones de big data y en obtener información útil de ellas.

Para los principiantes, la construcción de modelos predictivos y aplicaciones de aprendizaje automático es una tarea difícil y demorada que normalmente implica probar un gran número de variables de datos y algoritmos antes de encontrar una combinación que produzca los resultados analíticos deseados. El grado de dificultad aumenta a medida que el proceso de análisis de big data se vuelve más complejo, como en las iniciativas de aprendizaje profundo e inteligencia artificial, señaló Andy Feng, vicepresidente a cargo de la arquitectura de big data y aprendizaje automático de Yahoo.

"El ciclo de innovación es demasiado largo", dijo Feng. "Necesita probar muchas cosas diferentes, y ese proceso puede ser complicado". Con sede en Sunnyvale, California, Yahoo ejecuta más de 300 aplicaciones, incluyendo un creciente conjunto de programas de aprendizaje automático, en un entorno de big data de 40 clústeres que se basa en Hadoop y otras tecnologías asociadas con el marco de procesamiento distribuido de código abierto.

El fabricante de productos farmacéuticos y proveedor de servicios de salud Merck & Co. Inc. es otro gran usuario de aprendizaje automático. Por ejemplo, una aplicación analiza grandes cantidades de datos diversos recogidos de monitores de presión arterial y otros dispositivos portátiles como parte de los programas de gestión de salud. La plataforma de aprendizaje automático de Merck "está haciendo realmente todo el trabajo pesado" en el secuenciamiento y análisis de los datos, dijo Murali Kaundinya, director de ingeniería de innovación de la empresa de Kenilworth, N.J.

Sin embargo, para que el uso de la plataforma sea menos desalentador para los analistas de datos, el equipo de ingeniería construyó una capa de abstracción que les oculta la complejidad técnica del proceso de desarrollo de algoritmos. "Hay muchas opciones; realmente quiere que alguien cure las librerías de aprendizaje automático y las convierta en una plataforma o un servicio", dijo Kaundinya en la Cumbre de Hadoop 2016 en San José, California. "La idea es simplificarlo para que [los analistas] puedan hacer su trabajo mucho más rápido".

La semántica compartida facilita los esfuerzos de análisis

Macy's Inc. ha emprendido un camino similar, creando una capa de datos semántica virtual en la parte superior de su almacén de datos Hadoop. Eso da a los equipos de inteligencia de negocios y analítica del minorista de Cincinnati un marco común para usar en el desarrollo de consultas, reportes y modelos predictivos con controles de calidad, consistencia y revisiones de gobierno incorporados de antemano, dijo Seetha Chakrapany, director de análisis de marketing y gestión de relaciones con clientes (CRM) en Macy's.

Antes de que se estableciera la capa semántica, el proceso de análisis de big data se estaba empantanando en la ingeniería de datos y el trabajo de preparación, sobre todo porque los analistas comenzaron a ejecutar consultas más complejas, dijo Chakrapany. Además, era difícil para los analistas colaborar en proyectos.

Durante una sesión de la Cumbre de Hadoop, Chakrapany señaló la inmadurez relativa de Hadoop y muchas de las tecnologías de gestión de datos y analítica de código abierto que lo rodean como otro problema que puede obstaculizar las aplicaciones de análisis de big data.

"Muchas de estas herramientas todavía no están completamente maduras", advirtió. "Tienes que aceptar el hecho de que hay casos en los que las cosas no van a ser fluidas". Chakrapany agregó, sin embargo, que el nivel de inestabilidad técnica que Macy's ha experimentado desde entonces no es un espectáculo "si tienes una mente abierta y sabes que este [proceso] es para el bien" en general.

Vendido para mejorar el acceso a los datos

En eBay Inc., averiguar cómo hacer que los resultados de las aplicaciones analíticas estén disponibles para los ejecutivos corporativos y otros usuarios empresariales de una manera fácilmente accesible fue un esfuerzo de seis años, involucrando una sucesión de pasos que no encajaban completamente con la factura.

La empresa de subastas en línea genera 50 TB de datos nuevos para su análisis diariamente, procesándolo en una combinación de tres sistemas de back-end: un clúster Hadoop, un almacén de datos Teradata y un almacén personalizado desarrollado conjuntamente con Teradata. Para analítica, eBay utiliza SAS, R, MicroStrategy, Tableau y otras herramientas. Más de 300 analistas de datos y 5.000 usuarios de negocios tienen acceso al entorno, dijo Alex Liang, director de programas de datos, productos, arquitectura y estrategia de eBay, con sede en San José.

A lo largo de los años, esas personas han creado mucha información analítica, incluyendo más de 10.000 informes en Tableau y 5.000 en MicroStrategy. El número de tablas de base de datos que contienen conjuntos de datos de usuario también ha superado la marca de 10.000. Con tantos datos entre los cuales los usuarios deben sondear, en diferentes lugares, "era casi imposible encontrar las métricas adecuadas en un informe" para responder una pregunta de negocio específica, dijo Liang.

Para tratar de remediar eso, eBay primero creó un wiki en 2009, con el objetivo de fomentar una mayor colaboración interna en la analítica. Siguió que, con un hub de datos modelado en elementos de Pinterest y Facebook, luego intentó otras tachuelas, incluyendo un moderado foro de discusión analítica. Sin embargo, la plataforma de analítica seguía siendo inconexa y difícil de navegar para los usuarios, de acuerdo con Liang.

Por último, en 2014, eBay desplegó una nueva aplicación de concentrador basada en el software de descubrimiento de datos de autoservicio, búsqueda y colaboración de Alation Inc., con capacidades de gobierno de datos incorporadas para ayudar a los usuarios a encontrar información y garantizar su fiabilidad. Liang dijo que el cambio reemplazó a un modelo similar a IKEA de ensamble de datos tipo hágalo usted mismo, con un enfoque de autoservicio gobernado que es más fácil de usar y más eficaz. Ahora, agregó, el mensaje a los usuarios es sencillo: "Vaya a usar analítica".

Esa es la misma clase de mentalidad que Macy's está tratando de fomentar internamente a través de sus inversiones en tecnologías de administración de big data y analítica. Con las herramientas adecuadas vinculadas a Hadoop y a las plataformas de procesamiento de datos relacionadas, el proceso de análisis de big data puede ser un gran contribuyente para mejorar la toma de decisiones empresariales en una organización, dijo Chakrapany. "Usted no quiere ver a Hadoop solo como una solución de almacenamiento barato. Su valor es mucho más alto que eso".

Profundice más

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close