carloscastilla - Fotolia

Resolver Problemas Consiga ayuda para problemas específicos con sus proyectos, procesos y tecnologías.

Construir un lago de datos requiere planificación meticulosa y flexibilidad

Los lagos de datos ofrecen una alternativa más amplia a los almacenes de datos para usos de analítica. El analista de TDWI, Philip Russom, ofrece consejos sobre cómo hacer las cosas bien en una arquitectura de lago de datos.

Los lagos de datos pueden brindar a las organizaciones más libertad para almacenar y analizar datos de lo que obtienen de los almacenes de datos tradicionales. Pero construir una arquitectura de lago de datos también presenta a los equipos de TI una gran cantidad de desafíos.

El analista de gestión de datos de TDWI, Philip Russom, detalló los beneficios potenciales y las dificultades de los lagos de datos en un seminario web; también ofreció consejos sobre las prioridades y las mejores prácticas para la implementación de un lago de datos, destacando aspectos tales como la necesidad de relacionarlo con cuestiones comerciales reales y garantizar la existencia de procesos sólidos de gobernanza de datos.

Por ejemplo, Russom dijo que los lagos de datos –que implican típicamente Hadoop y otras plataformas de datos grandes– dejan a los científicos de datos y usuarios de negocios analizar datos que no eran accesibles para ellos antes: notas de centros de llamadas, mensajes de redes sociales, registros de clics en internet y más. Pero, agregó, la exploración más amplia habilitada por los lagos de datos tiene que hacerse "con el objetivo de obtener un valor de negocios real a partir de estos datos".

Para ayudar en ese proceso, las organizaciones deben tener cuidado de no eliminar información útil en los datos brutos recopilados en un lago de datos, dijo Russom. Esto requiere un enfoque diferente de la forma en que los datos de transacción estructurados almacenados en un almacén de datos se limpian y consolidan antes de estar disponibles para su análisis.

"Si usted limpia los datos, si se deshace de las anomalías, si estandariza los datos para que todo tenga el mismo aspecto, es posible que pierda algunas de las cosas que usted está buscando", dijo Russom. Como ejemplos, citó la identificación de segmentos de clientes para el marketing dirigido y la detección de posibles fraudes en las transacciones financieras, que podrían pasarse por alto si se eliminan los valores atípicos en los conjuntos de datos.

El seminario web se basó en un informe de TDWI, publicado en marzo, que incluía datos de encuestas sobre cómo las empresas están utilizando los lagos de datos y qué beneficios o inconvenientes están viendo. En la encuesta, realizada a fines del año pasado, el 23% de los 252 encuestados dijo que sus organizaciones ya estaban usando un lago de datos, mientras que otro 24% esperaba tener uno en producción en los próximos 12 meses.

Russom describió una lista de 12 prioridades para las empresas que implementan una arquitectura de lago de datos. Sus consejos se pueden condensar en estos tres puntos principales:

Planifique su lago de datos cuidadosamente, de acuerdo con las necesidades específicas de su organización. El uso de Hadoop es la forma más común de construir un lago de datos: 40 de los 75 encuestados de TDWI con experiencia en lagos de datos dijeron que sus plataformas están construidas completamente en Hadoop. Pero no es la única forma, y algunos métodos funcionan mejor para diferentes situaciones, indicó Russom.

Por ejemplo, 17 de esos 75 encuestados dijeron que están usando una arquitectura híbrida que combina Hadoop con una base de datos relacional. Esa es una combinación lógica para las empresas que han invertido en data warehouses basados en software relacional, según Russom. "Rara vez encuentro un lago de datos existiendo en un vacío", dijo.

En última instancia, cuando se construye un lago de datos, debe diseñarse para adaptarse a los usos planificados y estructurarse de forma lógica para que los usuarios puedan navegar con éxito en el entorno, dijo Russom. También se requiere flexibilidad, aconsejó: si el diseño inicial del lago de datos no termina siendo exitoso, es posible que deba actualizarse para hacerlo más efectivo.

No espere encontrar muchos trabajadores con las habilidades requeridas y la experiencia relevante. Uno de los mayores obstáculos que enfrentan las empresas que buscan implementar lagos de datos es la falta de habilidades en Hadoop y otras tecnologías de big data.

Para evitar ese problema y facilitar el proceso de construcción de un lago de datos, Russom sugirió reentrenar el personal de gestión de datos para que se ajuste a las funciones necesarias, en lugar de tratar de contratar nuevos trabajadores con conocimientos sobre el lago de datos. La incorporación temporal de consultores técnicos puede ser una forma más fácil y más rentable de integrar la experiencia previa en los lagos de datos, añadió; los consultores también pueden ayudar a capacitar a los empleados internos durante el proceso de implementación.

Evite el "volcado" de datos para que su lago de datos no se atasque con datos inútiles. Russom dijo que la tentación con un lago de datos es simplemente tirar todo lo que pueda en él, sin ningún plan para la organización o estructuración de los datos, lo que puede hacer que sea complicado y difícil para los usuarios navegarlo. Su prescripción para evitar eso radica en la gobernanza eficaz del lago de datos.

"Un lago de datos se convertirá en un pantano si permite que alguien bote cualquier información en él en cualquier momento, por lo que es necesario que haya algunos controles", advirtió. Si bien la limpieza y conformación completa de los datos no siempre es aconsejable, los controles deben incluir un proceso gobernado para la introducción de nuevos datos, para asegurarse de que sean "vetados, al menos un poco" antes de ser puestos en un lago de datos, dijo Russom.

Este artículo se actualizó por última vez en marzo 2018

Profundice más

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Enviando esta solicitud usted acepta recibir correos electrónicos de TechTarget y sus socios. Si usted reside afuera de Estados Unidos, esta dando autorización para que transfiramos y procesemos su información personal en Estados Unidos.Privacidad

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close