BACKGROUND IMAGE: iSTOCK/GETTY IMAGES

Gestionar Aprenda a aplicar las mejores prácticas y optimizar sus operaciones.

Encontrar el camino a diferentes tipos de bases de datos y herramientas de big data

En una entrevista, el analista de EMA, John Myers, asesora a los equipos de TI a ver las cargas de trabajo de big data al clasificar a través de nuevos y diferentes tipos de bases de datos y herramientas de código abierto. ¿Su palabra sobre Spark? Todavía es joven.

A medida que las opciones de gestión de datos e inteligencia de negocios se multiplican, establecer un curso no se está volviendo más fácil para los equipos de TI. Medir el impacto inmediato y de largo plazo de esas opciones es el trabajo de John Myers. Como directora de investigación en gestión de BI y data warehousing en Enterprise Management Associates Inc., Myers mantiene un estrecho registro sobre las tecnologías en la nube, Spark y los diferentes tipos de bases de datos disponibles. En una entrevista con nuestro portal hermano SearchDataManagement, dijo que una tendencia clave en estos días ve a los usuarios pasar a una arquitectura que permite a las diferentes plataformas trabajar para resolver los problemas de procesamiento de datos para los que son más adecuados.

¿No es sorprendente la variedad de cargas de trabajo y los mecanismos de carga de trabajo que surgen hoy en día?

John Myers: Lo que realmente estamos viendo es la aparición de un ecosistema de datos híbrido. No nos suscribimos a la idea de que una sola plataforma de gestión de datos puede satisfacer todas las necesidades de procesamiento y gestión de datos que usted pueda tener. La gente está mirando entradas de Hadoop y NoSQL como Mongo y Cassandra.

Podríamos lanzar motores de análisis como Apache Spark o diferentes tipos de bases de datos allí, también.

Myers: Bueno, diría que Spark es mucho más un motor de procesamiento que una plataforma de gestión de datos.

John Myers

Básicamente, cuando pienso en un sistema de gestión de datos, tiene que cumplir con los [criterios] ACID, y parte de eso es durabilidad. Spark es un buen motor de procesamiento. Pero todavía necesita tener ese componente de durabilidad que vaya junto con eso. Spark tiene que vivir en alguna parte. Tiene que dejar su material en alguna parte. Está creciendo y mejorando en lo que hace, y no sé si podría subir a MapReduce y Yarn para llegar a donde Spark va a estar. Es una gran plataforma a la que empezar a ir, pero solo tiene dos o tres años de edad. En ese sentido, tiene mucho trabajo por hacer para aprender muchas cosas que otros motores han hecho durante bastante tiempo.

Tiene muchas oportunidades, pero también es muy joven en su madurez. Para ciertos casos de uso, Spark funciona muy bien. Pero, para algunos otros, cuando usted lo tiene instalado y funcionando, Spark funcionará realmente más lento que algunos otros motores de procesamiento. Es especialmente dependiente de los tipos de preguntas que usted está haciendo. Eso es cierto para cualquier plataforma: todo depende de lo que se le pida.

Volviendo a las bases de datos relacionales y cosas de esa naturaleza, si usted quiere pedir [a un sistema de gestión de base de datos relacional] para agregar, restar, multiplicar o dividir, hará eso todo el día. Eso es lo que ha sido entrenado para hacer por 40 años.

Por otro lado, si pide a una base de datos relacional que realice un análisis gráfico, algo como lo que puede hacer una base de datos gráfica como Neo4j o una Objectivity [InfiniteGraph], es difícil. Usted tiene que pedir a la base de datos relacional que haga una unión muy recursiva, que es algo que no le gusta hacer porque, francamente, no fue diseñada para hacer eso.

Sin embargo, con la base de datos de gráficos, si usted le pide que haga un análisis gráfico, si usted dice: ‘Dime quién es el amigo de un amigo de un amigo’, dirá: ‘Aquí tienes, aquí hay una lista, que tengas un buen día'. Pero si pides a una base de datos de gráficos que agregue, sustraiga, multiplique y divida, se pone un poco molesta.

Usted encuentra que la gente se pregunta cuál de estas plataformas deben elegir. Pero lo que quiero destacar es que hay más que suficiente espacio para múltiples plataformas.

¿Cómo ve la parte de negocios reaccionando al nuevo estado de la analítica de big data?

Myers: Las partes interesadas del negocio están intrigadas con lo que puede suceder con la analítica de big data. Nuestra investigación a lo largo de los últimos cinco años muestra que los proyectos de big data casi siempre están alineados con el aumento de los ingresos, la limitación de costos o la mejora de los márgenes.

Encontramos que las oportunidades de aumentar las ventas [son] un pedazo significativo de los proyectos. Otra es la mitigación de riesgos, ya sea en forma de análisis de riesgo o gestión de la detección de fraudes. Los actores del negocio están consiguiendo el valor y están impulsando esos proyectos.

El hecho es que las personas de TI pueden cargar Hadoop con datos, pero luego tienen que preguntar qué hacer con ello a continuación. Al mismo tiempo, los empresarios no necesariamente dicen: ‘Déme los datos de los clientes que se encuentran en Hadoop en comparación con los datos de los clientes que se encuentran en nuestro almacén de datos corporativo o en nuestro sistema operacional’. En su lugar, dicen: ‘Dame los datos de los clientes’.

Por lo tanto, es tarea de los equipos de TI tomar datos de nivel de eventos o de comportamiento, como los datos del flujo de clics de una aplicación en línea o móvil que probablemente estén almacenados en una plataforma Hadoop, y tomar datos curados de un almacén de datos y correlacionarlos para realmente poder conseguir valor.

¿Es justo decir que hacia donde big data y estos diferentes tipos de bases de datos nos están moviendo es a un lugar donde podemos poner los datos del clickstream junto con los datos curados para que podamos obtener cosas tales como mejores márgenes, buena venta cruzada, mejor mitigación de riesgos, y así sucesivamente?

Myers: Sí, exactamente. Pero los empresarios no dicen: 'Utilicemos análisis de big data’. En lugar de eso, dicen: ‘Vamos a ampliar el alcance de la información a la que podemos mirar para nuestros clientes’.

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close