BACKGROUND IMAGE: iSTOCK/GETTY IMAGES

Gestionar Aprenda a aplicar las mejores prácticas y optimizar sus operaciones.

McKesson busca simplificar el ecosistema de big data para analítica de salud

El ecosistema de big data tiene muchos giros y vueltas. Un administrador de datos de McKesson vio la base de datos de Splice Machine como un medio para enderezar el camino colocando los datos de análisis y operaciones en un solo lugar.

Los profesionales de la gestión de datos se enfrentan hoy a un cambio radical en el modo en que se hacen los datos. Ellos están recopilando cantidades cada vez más grandes y variadas de datos, probando el aprendizaje automático y navegando en un nuevo ecosistema de big data de herramientas de administración de datos, todo a la vez.

Aún así, los principios esenciales son ciertos, a pesar de los mares ondulantes. El análisis de salud es un buen ejemplo. Analizar los datos de llegada rápida puede llevar a conclusiones útiles, pero el manejo de esos datos es el primer paso, de acuerdo con un profesional en análisis de salud.

"Lo importante es poner los datos en un formato en el que la máquina pueda trabajar", dijo Manuel Salgado, gerente senior de datos y análisis del gigante de la salud McKesson Corp.

Salgado sostiene que un primer paso importante para trabajar con los datos actuales es simplificar la administración de datos. Eso puede ser difícil, dado el exceso de nuevas herramientas disponibles en un ecosistema de big data, incluidos marcos como Hadoop, HBase, Spark y muchos, muchos más.

Eliminando silos de datos

Para reducir la complejidad mientras se construye una cadena de datos para el análisis, Salgado y McKesson optaron por una base de datos híbrida de Splice Machine para algunos proyectos. Splice Machine se denomina base de datos híbrida porque admite trabajos de análisis transaccionales y avanzados. Está construido listo con conexiones a diferentes elementos del ecosistema de big data.

"Nos dimos cuenta de que el ecosistema de big data no es tan maduro como la gestión de datos tradicional", dijo Salgado. "Estábamos lidiando con muchos componentes, y buscamos una forma de hacerlo más fácil".

El objetivo de usar el enfoque híbrido fue eliminar los silos de datos, reducir el movimiento de datos y reducir el número de partes móviles, según Salgado.

Splice Machine, en efecto, realiza una gran cantidad de integración necesaria para los clientes, ya que su arquitectura conecta directamente una base de datos relacional SQL con una base de datos HBASE NoSQL para el procesamiento de transacciones, así como a Spark para analítica, distribuyendo el trabajo a través de múltiples clústeres Hadoop. En el camino, maneja funciones de datos tanto analíticas como operacionales, y proporciona una consola de administración única.

"En bases de datos relacionales, como Oracle y SQL Server, la base de datos se ocupa de los detalles de las tareas de administración de datos. Pero eso es difícil con Hadoop corriendo solo. Es solo un sistema de archivos", dijo Salgado. "Al final del día, se tiene que administrar esos archivos".

Él dijo que quería asegurarse de que los analistas y desarrolladores no estuvieran pasando demasiado tiempo gestionando la complejidad del procesamiento de datos a gran escala, y que Splice Machine los ayudó en este sentido. Salgado dijo que el enfoque ayudó a simplificar la administración de datos, al tiempo que reducía el movimiento de datos.

"Podemos obtener los datos en Splice Machine y hacer modelos y aprendizaje automático allí", dijo. "Podemos abrir las bibliotecas de aprendizaje automático TensorFlow [de Google] o Spark y no tener que mover datos".

El resultado es que el análisis y el modelado ocurren en el mismo lugar, "a diferencia de muchos viajes de datos", dijo Salgado.

Manejar los objetivos de negocios

El enfoque de Salgado al ecosistema de big data de hoy se ve atenuado por la experiencia. Él ha estado involucrado con la gestión de datos durante muchos años. Más recientemente, esas habilidades de gestión de datos se han volcado hacia el análisis predictivo y prescriptivo, así como en el aprendizaje automático.

"En el cuidado de la salud, básicamente estamos tratando de descubrir cómo podemos hacer que las decisiones de los médicos sean más eficientes", dijo Salgado. "Tenemos en marcha varios proyectos que intentan aprovechar los datos que tenemos en el sistema y generar modelos a partir de él".

Por el momento, se adjudicó, big data es en gran medida un objetivo en movimiento. Diferentes elementos en el ecosistema muestran diferentes niveles de madurez.

"Nos dimos cuenta de que el ecosistema de big data no es tan maduro como la gestión de datos tradicional", dijo Salgado. "Estábamos lidiando con muchos componentes, y buscamos una forma de hacerlo más fácil".

No es que su equipo no muestre entusiasmo por la tecnología de vanguardia, señaló, pero el problema es que los objetivos de negocios deben impulsar la adopción de esa tecnología.

"Por mucho que nos guste meternos en la hierba, tenemos que abstraernos un poco de la tecnología con el fin de dar resultados a los negocios", dijo Salgado.

El observador de la industria Mike Matchett dijo que es probable que la administración de datos vea más aplicaciones de este tipo que combinen procesos operativos y analíticos. El enfoque híbrido también puede ayudar a cerrar la brecha entre los datos existentes y las nuevas cargas de trabajo de aprendizaje automático.

Con software como Splice Machine, dijo Matchett, analista senior y consultor de Taneja Group, los usuarios pueden tomar aplicaciones heredadas y agregar aprendizaje automático sin tener que realizar una gran reescritura. Tal soporte se volverá más crucial a medida que las organizaciones traten de aplicar más perspicacia analítica a más datos operativos.

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close