BACKGROUND IMAGE: iSTOCK/GETTY IMAGES

Este contenido es parte de Guía Esencial: ¿Hacia dónde van la analítica y big data en las empresas?
Evaluar Conozca los pros y contras de las tecnologías, productos y proyectos que está considerando.

El data warehouse no está listo para jubilarse en la era de big data

Los data warehouses tradicionales todavía tienen un papel importante que desempeñar en los entornos de inteligencia de negocios y analítica.

La intención original del data warehouse era segregar las operaciones analíticas del procesamiento de transacciones del mainframe para evitar lentificaciones en los tiempos de respuesta de las transacciones, y reducir al mínimo el incremento en los costos de CPU acumulados al ejecutar consultas ad hoc y crear y distribuir informes. Con el tiempo, el data warehouse empresarial (EDW) se convirtió en un componente central de las arquitecturas de información, y ahora es raro encontrar un negocio maduro que no emplee alguna forma de un EDW o una colección de data marts más pequeños para soportar aplicaciones de inteligencia de negocios, informes y analítica.

Pero a medida que las organizaciones adoptan cada vez más nuevas tecnologías –clústeres de Hadoop, NoSQL, bases de datos en columnas y en memoria, herramientas de virtualización de datos– se plantean interrogantes acerca de la relevancia futura del software de data warehouse en  las infraestructuras de TI empresariales. Algunas personas ya han empezado a sonar el toque de difuntos para el EDW, prediciendo su desaparición inminente a manos de sistemas de big data y plataformas de computación de alto rendimiento.

Y esas otras tecnologías ofrecen algunas ventajas sobre el tradicional data warehouse. Hadoop es un marco de procesamiento distribuido que promete altos niveles de escalabilidad de rendimiento utilizando hardware de bajo costo. Las bases de datos en memoria y el software columnar orientado a usos analíticos también pueden aumentar drásticamente el rendimiento del procesamiento. Las bases de datos NoSQL eluden las restricciones de esquema de los principales sistemas de gestión de bases de datos relacionales y proporcionan una flexibilidad más amplia en el desarrollo de aplicaciones. Poner una herramienta de virtualización de datos en capas sobre los sistemas permite la integración sobre la marcha y, en algunos casos, también permite el procesamiento de transacciones y aplicaciones analíticas para tocar simultáneamente los mismos conjuntos de datos; ambas capacidades pueden reducir la necesidad de extraer y cargar datos en un almacén segregado.

Mire debajo de las cubiertas en los costos de TI

Sin embargo, los informes de la muerte del data warehouse pueden llegar a ser muy exagerados. Desde una perspectiva financiera, las motivaciones para migrar a las nuevas tecnologías deben equilibrarse con los méritos de continuar aprovechando las inversiones existentes en tecnología EDW que ya están en uso de producción –y aún así producir los bienes de datos. También es útil señalar que, con el fin de ser realizado, la percepción del valor de cambio radical a veces requiere una inversión mayor de lo previsto originalmente.

Como ejemplo, considere los costos de infraestructura. Hay una implicación respecto a que descargar e instalar software de código abierto, como Hadoop, en una configuración de cosecha propia de los sistemas informáticos comerciales interconectados, ofrece una alternativa de bajo costo ante los servidores de gama alta o mainframes que normalmente albergan los data warehouses. Si bien es posible crear un entorno de colchón de pruebas usando ese enfoque, se necesita más para que un clúster Hadoop cumpla con sus promesas de rendimiento en aplicaciones de producción: Una organización debe invertir no solo en nuevas tecnologías, sino también en recursos de personal cualificado para implantar y gestionar la plataforma.

El potencial de Hadoop para la elasticidad en el almacenamiento también sugiere un espacio en disco potencialmente ilimitado. Pero no siempre se navega con viento en popa en el lago de datos Hadoop. Siendo realistas, la disponibilidad de una cantidad aparentemente inagotable de almacenamiento puede animar a los usuarios a guardar datos de forma innecesaria, llenando rápidamente el espacio en disco disponible con una amplia gama de datos no estructurados (y sin gobierno) que pueden no tener ningún valor empresarial real.

Un enfoque mixto para la gestión de datos

Algunos otros hechos clave que debemos reconocer:

Por supuesto, no se puede ignorar la disponibilidad de una plataforma de procesamiento paralelo que puede ejecutar algoritmos computacionales complejos para analizar grandes volúmenes de datos de maneras que no se pueden hacer usando un sistema orientado al corte y fragmentación dimensional. Los resultados de este tipo de aplicaciones analíticas se pueden utilizar para aumentar los datos en un data warehouse empresarial, mejorando los perfiles de clientes y permitiendo tomar decisiones de negocios más informadas.

Eso sugiere que, si bien es probable que Hadoop, NoSQL y otras tecnologías alternativas surjan como componentes importantes de BI y las arquitectura de analítica, la estrategia óptima las mezclará con el EDW. No es el momento de cerrar la puerta al data warehouse por ahora.

Sobre el autor: David Loshin es presidente del Knowledge Integrity Inc., una empresa de consultoría y servicios de desarrollo que trabaja con clientes en proyectos de big data, inteligencia de negocios y gestión de datos. También es el autor o co-autor de varios libros, entre ellos “El uso de la información para desarrollar una cultura centrada en el cliente”. Su correo electrónico es: loshin@knowledge-integrity.com.

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close