Noticias

Big Data, sí; pero el almacén de datos de empresa no ha muerto todavía

Beth Stackpole, Contribuidora

El creciente interés en la captura, almacenamiento y análisis de “Big Data” ha llevado a muchos a la gestión de observación de tendencia de datos para predecir la inminente desaparición del Almacén de Datos Empresariales (EDW). Pero a medida que las empresas se adentran en las implementaciones de grandes volúmenes de datos, la famosa frase de Mark Twain, acerca de un informe de su muerte siendo una exageración puede llegar a ser un comentario más preciso sobre las perspectivas futuras del EDW.

Hay pocas dudas sobre la inundación de grandes volúmenes de datos - grandes cantidades de información tanto estructurada como no estructurada, a menudo con múltiples tipos de datos y actualizaciones frecuentes de los mismos - se requerirán cambios en muchas estrategias corporativas de almacenamiento de datos. Durante las últimas dos décadas, los grupos de TI, sobre todo en las grandes empresas, han perseguido el desarrollo de un almacén de datos únicos que sirva como un repositorio central para todos los datos estructurados dentro de sus organizaciones. Ahora, la validez de este enfoque está siendo cuestionada por el incremento meteórico en los puestos de los medios de comunicación social y un aumento de los datos no transaccionales de fuentes como una aplicación y los registros del servidor de aplicaciones Web, dispositivos de la red de monitoreo y sensores.

El mundo de la base de datos tradicional relacional de la EDW normalmente no está equipado para dar cabida a la marea entrante de texto y otros tipos de datos no estructurados. En respuesta, los bolsillos de los usuarios dentro de las empresas - a menudo operando fuera del control del departamento de TI o el equipo de almacenamiento de datos - han adoptado las nuevas tecnologías como Hadoop, MapReduce y bases de datos NoSQL en un esfuerzo por ganar control sobre los volúmenes crecientes de grandes datos de modo que puedan ser extraídos para las indagaciones que puedan conducir a ventajas competitivas y otros beneficios empresariales.

Pero a pesar de la rápida aparición de las tecnologías de datos grandes como alternativas a las plataformas de los Sistemas de Gestión de Base de Datos Relacionales (RDBMS), el EDW no está en vías de extinción en el corto plazo, según los analistas de almacenamiento de datos. En cambio, ellos lo ven transformándose en una especie de animal diferente ya que las empresas buscan ampliar sus actuales sistemas de almacenamiento de datos y procesos para ayudar a gestionar los nuevos tipos de datos.

“El EDW no va a desaparecer - de hecho, el almacén de datos empresarial en sí fue siempre una visión y nunca un hecho”, dijo Mark Beyer, Vicepresidente de Investigación de Gestión de Información de Gartner Inc. en Stamford, Connecticut. “Ahora la visión del EDW es evolucionar para incluir todos los activos de información de la organización. Está cambiando de una estrategia de depósito en una estrategia de plataforma de servicios de información”.

Lo que Beyer y otros analistas prevén es una versión modificada del EDW, en la que los conjuntos de datos estructurados y no estructurados se almacenan y gestionan en donde tienen más sentido como parte de una arquitectura extendida pero bien coordinada.

¿Big data a la altura de una disciplina de almacén de datos?

“Estamos viendo que la tendencia de la aplicación de la tecnología y de las disciplinas aprendidas en los almacenes de datos establecidos hacia un conjunto de fuentes de datos más federado”, dijo David Menninger, Vicepresidente y Director de Investigación de Ventana Research en San Ramón, California.

En una encuesta sobre la gestión de grandes volúmenes de datos realizado por Ventana a principios del año pasado, el 89% de los 163 encuestados dijo que sus organizaciones estaban usando principalmente bases de datos relacionales en plataformas convencionales de hardware para soportar las actividades de procesamiento de datos a gran escala, y el 73% dijo que era su software relacional fue la herramienta primaria para hacer frente a grandes volúmenes de datos.

Sin embargo, el 93% de los encuestados dijeron que estaban utilizando o evaluando otras tecnologías para la gestión de grandes volúmenes de datos, de acuerdo con Ventana, que dio a conocer los resultados de la encuesta en enero. Esto incluye archivos planos (utilizados por los encuestados en un 70%); aparatos de almacenamiento de datos (34%), bases de datos en-memoria (33%), Hadoop (22%) y las bases de datos analíticas especializadas (15%).

“El gran escenario de federación solía ser de servidores geográficos o instancias [base de datos] que actúan como si fueran una sola unidad cohesionada, pero todos [con] estructuras muy similares y todas en modo relacional”, dijo Menninger. “Lo que está muriendo es el concepto de un RDBMS de instancia sencilla como el único y solo almacén de datos empresarial. Ahora está evolucionando a que partes tan diversas pueden no ser de la misma tecnología, pero la idea es hacer algo para que tecnologías dispares se comporten y actúen como si fueran un conjunto de datos coherente.”

La mayoría de las organizaciones no están allí todavía. En la encuesta de Ventana, por ejemplo, el 64% de los encuestados citaron la falta de integración entre los sistemas de grandes volúmenes de datos y la existente Inteligencia de Negocios (BI) y herramientas de almacenamiento de datos como uno de los retos técnicos que estaban enfrentando.

Pero los analistas dicen que el cambio en marcha hoy en día no es tan diferente a lo que ocurrió en la década de los 90s, cuando el desafío de almacenamiento de grandes volúmenes de datos se centró en tratar de consolidar la excelente cosecha de data marts sembradas en toda la organización en un EDW que estaba bajo el dominio del departamento de TI. Como parte de ese esfuerzo, las empresas también trataron de encontrar un terreno común entre las diferentes unidades de negocio en proyectos de almacenamiento de datos, tanto para aprovechar las eficiencias de costos y fomentar la consistencia de los datos y la reutilización, de acuerdo con Ralph Kimball, Fundador de Kimball Group, una empresa de consultoría y formación en almacenamiento de datos en Boulder Creek, California.

“Con el tiempo, se dio cuenta de que todo el mundo [teniendo] islas de competencia en los departamentos del usuario final no era una forma eficaz de escalar y tener una estrategia coherente”, dijo Kimball, quien agregó que el mismo escenario es probable que juegue con el auge de los sistemas de grandes volúmenes  de información, muchos de los cuales tienen su inicio en las áreas funcionales fuera de TI. “En algún momento, se trata de unificar estas cosas - no por algún tipo de control comunista de TI, sino al estilo del Salvaje Oeste con los departamentos de usuarios finales construyendo sus propios sistemas que tienen que ser acorralados. Esto simplemente cuesta demasiado”.

Las piedras que dan paso a la construcción de puentes

Si bien aún estamos a principios de ese proceso de acorralamiento, muchas cosas han cambiado, incluso en los últimos seis meses. Inicialmente, hubo una oleada de competencia por la posición entre los proveedores tradicionales de almacenamiento de datos y las nuevas empresas que ofrecen Hadoop y otras tecnologías de grandes volúmenes de almacenamiento de datos, pero que parece haber disminuido. Los dos grupos de vendedores ahora están centrando sus esfuerzos más en la creación de vínculos entre sus respectivas plataformas, dijo Colin White, Presidente de Investigación de BI Research, una firma de consultoría en Ashland, Oregón.

El Salvaje Oeste de los departamentos de usuarios finales construyendo sus propios sistemas tiene que ser acorralado. Simplemente cuesta demasiado.

Ralph Kimball, Fundador, Kimball Group

Varios fabricantes ya ofrecen conectores para mover datos entre grupos Hadoop y bases de datos convencionales, con la promesa de más por venir a futuro. A medida que se da la integración y avanza el proceso de la construcción de puentes, Beyer dijo que el EDW potencialmente puede llegar a ser más un almacén de datos lógicos que es capaz de recuperar automáticamente los datos de sistemas diferentes, mientras se canalizan las cargas de trabajo hacia la mejor plataforma disponible en función de factores tales como el costo y requisitos de rendimiento.

Asimismo, otro modelo emergente ve la EDW como un sistema híbrido que combina prácticamente múltiples tecnologías de procesamiento de datos. Por ejemplo, los usuarios de los departamentos de una organización podrían utilizar Hadoop para tamizar a través de datos de la Web, en un esfuerzo por encontrar la información que es relevante para un problema de negocio en particular, entonces mover ese subconjunto de datos a una base de datos analítica para un análisis más detallado. Una vez que el proceso analítico se completó, los resultados agregados podrían ser enrolados en un almacén de datos y puestos a disposición de un grupo más amplio de usuarios.

“Tratar de hacer análisis avanzados sobre una arquitectura de almacenamiento de datos tradicional es desalentador, lo cual es la razón de que las bases de datos analíticas lo han hecho tan bien”, dijo Shawn Rogers, Vicepresidente de BI e Investigación de Almacenamiento de Datos en Enterprise Management Associates Inc. en Boulder, Colorado. “Y está demostrado que una arquitectura tradicional almacén de datos no puede manejar las cantidades increíbles de información provenientes de nuevas fuentes de datos, como registros web o los datos sociales, que es donde Hadoop se convierte en una plataforma mejor”.

Sin embargo, el almacén de datos es probable que sea aún parte de la ecuación, así: “Hay una oportunidad”, añadió Rogers, “por todas las diferentes plataformas para jugar un papel único en la solución del problema”.

SOBRE EL AUTOR: Beth Stackpole es Escritor Independiente que ha estado cubriendo la intersección de la tecnología y los negocios por más de 25 años para una variedad de publicaciones comerciales, de negocios y sitios web.


Unirse a la conversación Comenta

Compartir
Comentas

    Resultados

    Contribuye a la conversacion

    Todos los campos son obligatorios. Los comentarios aparecerán en la parte inferior del artículo