Definition

Almacén de datos (data warehouse)

Un almacén de datos es un depósito de datos generados y recopilados por los diversos sistemas operativos de una empresa. El almacenamiento de datos es a menudo parte de una estrategia de gestión de datos más amplia y enfatiza la captura de datos de diferentes fuentes para su acceso y análisis por parte de analistas de negocios, científicos de datos y otros usuarios finales.

Normalmente, un almacén de datos es una base de datos relacional alojada en un mainframe, otro tipo de servidor empresarial o, cada vez más, en la nube. Los datos de varias aplicaciones de procesamiento de transacciones en línea (OLTP) y otras fuentes se extraen y consolidan de forma selectiva para las actividades de inteligencia empresarial (BI) que incluyen apoyo a la toma de decisiones, informes empresariales y consultas ad hoc por parte de los usuarios. Los almacenes de datos también admiten tecnologías de procesamiento analítico en línea (OLAP), que organizan la información en cubos de datos que están categorizados por diferentes dimensiones para ayudar a acelerar el proceso de análisis.

Componentes básicos de un almacén de datos

Un almacén de datos reúne datos que se extraen de repositorios de datos internos y, en muchos casos, de fuentes de datos externas. Los registros de datos dentro del almacén deben contener detalles para que se puedan buscar y sean útiles para los usuarios comerciales. En conjunto, hay tres componentes principales del almacenamiento de datos:

  1. Una capa de integración de datos que extrae datos de sistemas operativos, como Excel, ERP, CRM o aplicaciones financieras.
  2. Un área de organización de datos donde los datos se limpian y organizan.
  3. Un área de presentación donde los datos se almacenan y se ponen a disposición para su uso.

Una arquitectura de almacenamiento de datos también puede entenderse como un conjunto de niveles, donde el nivel inferior es el servidor de base de datos, el nivel medio es el motor de análisis y el nivel superior es el software de almacenamiento de datos que presenta información para informes y análisis.

Las herramientas de análisis de datos, como el software de BI, permiten a los usuarios acceder a los datos dentro del almacén. Un almacén de datos empresarial almacena datos analíticos para todas las operaciones comerciales de una organización; alternativamente, las unidades de negocio individuales pueden tener sus propios almacenes de datos, especialmente en las grandes empresas. Los almacenes de datos también pueden alimentar data marts, que son sistemas descentralizados más pequeños en los que se organizan subconjuntos de datos de un almacén y se ponen a disposición de grupos específicos de usuarios comerciales, como equipos de gestión de inventario o ventas.

Además, Hadoop se ha convertido en una extensión importante de los almacenes de datos para muchas empresas porque la plataforma de procesamiento de datos distribuidos puede mejorar los componentes de una arquitectura de almacén de datos,  desde la ingestión de datos, hasta el procesamiento de análisis y el archivo de datos. En algunos casos, los clústeres de Hadoop sirven como área de preparación para los almacenes de datos tradicionales. En otros, los sistemas que incorporan Hadoop y otras tecnologías de big data se implementan como almacenes de datos completos.

Beneficios y opciones del almacenamiento de datos

Los almacenes de datos pueden beneficiar a las organizaciones desde una perspectiva empresarial y de TI. Por ejemplo:

  • La separación de los procesos analíticos de los operativos puede mejorar el rendimiento de los sistemas operativos y permitir que los analistas de datos y los usuarios comerciales accedan y consulten datos relevantes más rápidamente desde múltiples fuentes.
  • Los almacenes de datos pueden ofrecer una mejor calidad y coherencia de los datos para usos analíticos, mejorando así la precisión de las aplicaciones de BI.
  • Las empresas pueden elegir sistemas locales, implementaciones en la nube convencionales u ofertas de almacén de datos como servicio (DWaaS).
  • Los almacenes de datos locales ofrecen flexibilidad y seguridad para que los equipos de TI puedan mantener el control sobre la administración y configuración de su almacén de datos; están disponibles en IBM, Oracle y Teradata como ejemplo.
  • Los almacenes de datos basados ​​en la nube como Amazon Redshift, Google BigQuery, Microsoft Azure SQL Data Warehouse y Snowflake permiten a las empresas escalar rápidamente sus sistemas mientras eliminan las inversiones iniciales en infraestructura y los requisitos de mantenimiento continuo del sistema.
  • DWaaS, una rama de la base de datos como servicio, proporciona un servicio en la nube administrado que libera a las organizaciones de la necesidad de implementar, configurar y administrar sus almacenes de datos. Estos servicios están siendo ofrecidos por un número creciente de proveedores de servicios en la nube.

Tipos de almacenes de datos

Hay tres enfoques principales para implementar un almacén de datos, que se detallan a continuación. Algunas organizaciones también han adoptado almacenes de datos federados, que integran sistemas analíticos separados ya implementados independientemente unos de otros, un enfoque que los proponentes describen como una forma práctica de aprovechar las implementaciones existentes.

  • Enfoque de arriba hacia abajo: Creado por el pionero del almacén de datos William H. Inmon, este método requiere construir primero el almacén de datos empresarial. Los datos se extraen de los sistemas operativos y posiblemente de fuentes externas de terceros y se pueden validar en un área de preparación antes de integrarse en un modelo de datos normalizado. A continuación, se crean mercados de datos a partir de los datos almacenados en el almacén de datos.
  • Método ascendente: El consultor Ralph Kimball desarrolló una arquitectura de almacenamiento de datos alternativa que exige que se creen primero los data marts Los datos se extraen de los sistemas operativos, se mueven a un área de preparación y se modelan en un diseño de esquema en estrella, con una o más tablas de hechos conectadas a una o más tablas dimensionales. Luego, los datos se procesan y cargan en data marts, cada uno de los cuales se centra en un proceso comercial específico. Los data marts se integran mediante una arquitectura de bus de almacén de datos para formar un almacén de datos empresarial.
  • Método híbrido: Los enfoques híbridos para el diseño del almacén de datos incluyen aspectos tanto de los métodos de arriba hacia abajo, como de abajo hacia arriba. Las organizaciones a menudo buscan combinar la velocidad del enfoque de abajo hacia arriba con las capacidades de integración de datos logradas en un diseño de arriba hacia abajo.

Almacenes de datos frente a bases de datos frente a lagos de datos

Las bases de datos y los lagos de datos a menudo se confunden con los almacenes de datos, pero existen diferencias importantes. Si bien los almacenes de datos suelen almacenar datos de múltiples fuentes y utilizan esquemas predefinidos diseñados para el análisis de datos, una base de datos operativa generalmente se usa para capturar, procesar y almacenar datos de una sola fuente, como un sistema transaccional, y su esquema está normalizado. Por lo general, estas bases de datos no están diseñadas para ejecutarse en conjuntos de datos muy grandes, como los almacenes de datos.

Por el contrario, un lago de datos es un repositorio central para todo tipo de datos sin procesar, ya sean estructurados o no, de múltiples fuentes. Los lagos de datos se construyen más comúnmente en Hadoop u otras plataformas de big data. No es necesario definir un esquema por adelantado en ellos, lo que permite más tipos de análisis que los almacenes de datos, que tienen esquemas definidos. Por ejemplo, los lagos de datos se pueden utilizar para búsquedas de texto, aprendizaje automático y análisis en tiempo real.

Innovaciones en el almacenamiento de datos a lo largo de la historia

El concepto de almacenamiento de datos se remonta al trabajo realizado a mediados de la década de 1980 por los investigadores de IBM Barry Devlin y Paul Murphy. El dúo acuñó el término almacén de datos empresariales (business data warehouse) en su artículo de 1988, «Una arquitectura para un sistema empresarial y de información», que decía:

«La arquitectura [del sistema de información empresarial] se basa en el supuesto de que dicho servicio se ejecuta en un repositorio de toda la información empresarial necesaria que se conoce como Business Data Warehouse (BDW). ...Un requisito previo, necesario para la implementación física de un servicio de almacenamiento de datos comerciales, es un proceso comercial y una arquitectura de información que define (1) el flujo de informes entre las funciones y (2) los datos requeridos».

Bill Inmon, como se le conoce más familiarmente, promovió el desarrollo del almacén de datos con su libro de 1992, Building the Data Warehouse, así como escribiendo algunas de las primeras columnas sobre el tema. El método de diseño de arriba hacia abajo de Inmon para construir un almacén de datos describe la tecnología como una colección de datos orientada al sujeto, integrada, variable en el tiempo y no volátil que respalda el proceso de toma de decisiones de una organización.

El crecimiento de la tecnología continuó con la fundación de The Data Warehousing Institute, ahora conocido como TDWI, en 1995, y con la publicación en 1996 del libro de Ralph Kimball, The Data Warehouse Toolkit, que introdujo su enfoque de modelado dimensional para el diseño de almacenes de datos.

En 2008, Inmon introdujo el concepto de almacén de datos 2.0, que se centra en la inclusión de datos no estructurados y metadatos corporativos.

Este contenido se actualizó por última vez en agosto 2021

Investigue más sobre Almacenamiento y gestión de datos

Close