Sergey Nvns - Fotolia

Evaluar Conozca los pros y contras de las tecnologías, productos y proyectos que está considerando.

Experto: Para BI, debe conocer el proceso de integración de datos

Comprender el proceso de integración de datos es fundamental para la inteligencia de negocios de autoservicio y el diseño de arquitectura de datos, dice el consultor Rick Sherman en una mirada a las tendencias de administración de datos.

En 2018, la administración de datos se ve azotada por vientos de cambio. Los datos no estructurados son mucho más prevalentes, la nube se está convirtiendo en una plataforma de destino más grande y la demanda de BI de autoservicio por parte de los usuarios empresariales se escucha más que nunca. A pesar del tumulto, el profesional de datos no puede perder de vista lo básico. Una de las claves es la planificación, aconseja el consultor de BI y veterano de gestión de datos, Rick Sherman.

SearchDataManagement se encontró con Sherman, fundador de Athena IT Solutions, para estudiar el panorama de los datos. Trabajando durante mucho tiempo en el campo del almacenamiento de datos, Sherman también imparte clases sobre el proceso de integración de datos y la arquitectura de datos en Northeastern University en Boston. Además, recientemente dirigió sesiones sobre arquitectura de datos en una conferencia de Dataversity dedicada al tema. Las herramientas de hoy son útiles, nos dice, pero saber cómo usarlas sigue siendo el principal desafío al que nos enfrentamos.

Los datos en la nube eran casi un tema prohibido no hace tanto tiempo. Hoy, la pregunta parece ser qué tan rápido uno puede moverse a la nube, especialmente para la experimentación. ¿Qué está viendo en ese frente?

Rick Sherman: Hay aplicaciones a las que acudir para la nube, pero eso no cubre todo. No se va a tener un movimiento completo a la nube.

Tiene un conjunto de aplicaciones existentes, almacenes de datos y similares y, si funcionan bien, no querrá migrarlos solo por el hecho de migrarlos. No es necesariamente tan convincente mover las cosas existentes que funcionan a la nube si se están ejecutando y son grandes.

Rick Sherman

Será más el trabajo más nuevo: nuevas aplicaciones y nuevas tecnologías. Cada vez más aplicaciones –Salesforce es un ejemplo– están en la nube, y conforme tales aplicaciones se trasladan a la nube, las personas se moverán allí. Eso no es nada nuevo. Y, ahora, los proveedores de bases de datos están haciendo un esfuerzo lo suficientemente grande como para que las personas estén mucho más cómodas.

Usted menciona la palabra experimentación. Ese es un lugar donde se usa la nube. Es mucho más rentable para las personas aprovechar las capacidades de los proveedores de la nube allí, especialmente si van a configurar proyectos Hadoop o NoSQL, que intentar establecer eso en las instalaciones.

Con BI, es diferente. Ciertamente, estamos en un lapso de tiempo en el que la cantidad de proveedores que analizan la nube en el lado de BI ha estallado. Pero veo mucho más una tendencia hacia las herramientas de descubrimiento de datos en las instalaciones, en lugar de la nube.

Uno de los principios de la gente de descubrimiento de datos es que los procesos de integración de datos relacionados con ETL –es decir, extraer, transformar y cargar– pueden salir de TI y pasar a manos de los trabajadores de datos de primera línea. ¿Qué tan real es eso?

Sherman: Bueno, una de las cosas en las cuales las empresas siempre han sido malas es la integración de datos. Usan toneladas de herramientas ETL, pero las usan para crear SQL personalizado. Las empresas contratan recursos de integración de datos más y más baratos. En realidad, no están usando las herramientas porque están usando las herramientas para escribir scripts personalizados. Pero, como resultado, muchas de las herramientas establecidas han recibido un impacto en su reputación.

Existe la sensación de que puede tener lo que Gartner podría llamar científicos de datos ciudadanos, y hay personas que continúan con la idea de que no necesitan las herramientas de ETL, que puede usar herramientas de preparación de datos, que de alguna manera es solo hacer una herramienta ETL para que alguien más la use.

Pero, no creo que las cosas se hayan automatizado. Creo que lo que se tiene es más tiempo empleado por un equipo de ciencia de datos o de ingeniería de datos para escribir scripts SQL personalizados, o para mover cosas dentro o fuera de las hojas de cálculo de Excel. La herramienta ETL probablemente no se usa mucho. No es porque las cosas estén mejorando: Las cosas están empeorando. Se usa cada vez más tiempo para realizar extracciones personalizadas, Python personalizado y similares, y se utiliza menos tiempo para analizar los datos. El trabajo no está siendo automatizado.

Estoy de acuerdo en que toda la idea de un científico de datos ciudadano vale la pena, pero el hecho es que las personas todavía están usando una cantidad desmesurada de tiempo para mover datos dentro y fuera de las herramientas.

Usted dirige sesiones extendidas sobre arquitectura de datos en conferencias, y enseña algunos de los mismos principios en Northeastern. ¿Cómo trata de guiar a la gente? ¿Qué debería estar en primer lugar en el proceso de integración de datos de hoy?

Sherman: El punto clave que trato de enfatizar es que todas las herramientas de BI y analítica son geniales, y se están expandiendo, pero las verdaderas agallas de usar datos de manera efectiva son tener una arquitectura de datos y entender cómo encajan las cosas dentro de ella.

No todo tiene que estar integrado, pero se necesita integrar muchas cosas. Demasiadas compañías lo hacen manualmente o lo hacen de punto a punto. La manera más efectiva de hacerlo, si desea ser un ingeniero de datos o un científico de datos, o si solo desea dar soporte a BI, es centrarse en la integración de datos. Debe comprender cuándo necesita la integración de datos y cómo lo hace.

Existen muchas razones por las que las empresas no han tenido el éxito que debieran tener con el almacenamiento de datos, y casi ninguna de ellas tiene nada que ver con las herramientas. Tiene que ver con el hecho de que no tienen una arquitectura. La posición alternativa es reaccionar a las cosas y personalizar las cosas punto a punto, en lugar de planificarlas.

Si las personas diseñan teléfonos o automóviles de la misma forma que las empresas diseñan sus arquitecturas de backbone de datos, no viajaríamos mucho, estaríamos caminando por todos lados. Estaríamos de vuelta a los días en que, cuando hacía una llamada, hablaba con un operador y físicamente enchufaban líneas para conectar su llamada; o, con computadoras, en los días anteriores a Grace Hopper, cuando el sistema era una masa de cables de conexión. La tecnología está ahí, y existen las mejores prácticas, pero la mayoría de las arquitecturas de datos de las empresas son reaccionarias, en lugar de planificadas.

Este artículo se actualizó por última vez en marzo 2018

Profundice más

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close