Evaluar Conozca los pros y contras de las tecnologías, productos y proyectos que está considerando.
Este artículo es parte de nuestra guía: ¿Hacia dónde van la analítica y big data en las empresas?

Se requiere balance entre el volumen de big data y las necesidades de analítica

Al analizar big data, en lugar de centrarse en el tamaño de los conjuntos de datos, las empresas deberían centrarse en si tienen los datos correctos.

Conforme las empresas tratan de obtener información útil a partir de conjuntos de big data, muchos están descubriendo que el equilibrio entre el tamaño de los datos frente a las necesidades de modelado analítico puede ser un proceso complicado. Pero hacerlo es crucial para el éxito de los proyectos de análisis de big data.

En un extremo del espectro se encuentra Facebook. En su intervención en la Cumbre de Innovación de Big Data 2014, celebrada en Boston en septiembre The Innovation Enterprise Ltd., el científico de datos de Facebook, Mario Vinasco, dijo que el tamaño de los depósitos de big data en la compañía de redes sociales puede obstaculizar los esfuerzos de analítica. Facebook no carece de volumen de big data: recoge miles de puntos de datos de millones de usuarios. Analizar todo eso a la vez es imposible, dijo Vinasco.

Así, para un proyecto reciente que buscó determinar el aumento de las interacciones sociales provocados por una nueva característica, él extrajo una muestra de datos en tan solo 100 mil usuarios. Algunos defensores de big data argumentan que los conjuntos de datos extremadamente grandes eliminan la necesidad de ese tipo de práctica básica de modelado estadístico al permitir a los analistas generar estadísticas de población verdaderas en lugar de estimaciones. Pero Vinasco dijo que Facebook tiene tantos datos repartidos en tantos tipos diferentes de bases de datos que lo que sería una simple consulta en una base de datos relacional no es factible. Como resultado de ello, añadió, limitar el alcance de un análisis a través del uso de técnicas de muestreo de datos puede ser realmente útil.

"En el mundo de estos conjuntos de datos grandes, enormes, es necesario trabajar hacia atrás, hacia algo específico", dijo Vinasco.

Por otro lado, hay un montón de empresas que carecen de los datos necesarios para responder a las preguntas clave del negocio. Para esas organizaciones, adquirir nuevos tipos de datos y construir su infraestructura de analítica es a menudo necesario antes de que puedan desarrollar modelos analíticos eficaces.

Por ejemplo, cuando Consumers United Inc., una agencia de seguros en línea que opera bajo el nombre de Goji, lanzó por primera vez su sitio web en 2007, no era un usuario de big data. Sean Parenti, director de estrategia y analítica en la compañía con sede en Boston, dijo que recibía leads de clientes desde un servicio de terceros y administraba los datos en hojas de cálculo. El equipo de analítica luego corría algoritmos simples sobre los datos para determinar el posible costo por adquisición de cada lead.

"Este tipo de estrategia era muy engorrosa, y el número de horas-hombre para mantenerla a flote era aterrador", dijo Parenti.

Ahora Goji recoge una mayor cantidad de datos web sobre leads de clientes y los ejecuta todos a través de una plataforma de análisis construida internamente para calcular no solo el costo de la adquisición de clientes, sino también su valor de vida esperado para la empresa.

Incluso las organizaciones donde el tamaño de big data es enorme pueden no tener suficiente para responder a las preguntas que quieren abordar. Tim Brooks, un ingeniero de software en el Laboratorio de Innovación Staples, una unidad de Staples con sede en California, que está construyendo sistemas analíticos sobre comercio electrónico y clientes para el minorista de artículos de oficina, dijo que tiene una enorme cantidad de datos a su disposición. Pero durante un proyecto para modelar cómo los clientes responderían a los cambios de precios, Brooks descubrió que no tenía suficientes.

Existen numerosos factores que pueden afectar la voluntad de un cliente por comprar productos a determinados precios, todos los cuales Brooks quería modelar. El problema, dijo, es que mientras más factores considere en un modelo predictivo, más datos se necesitan. Brooks tenía datos de ventas históricos y estaba mirando cosas como demografía de los clientes e ingresos. Pero había agujeros en los datos. Por ejemplo, no había ningún dato acerca de ciertos segmentos de clientes en algunos días de la semana. El déficit de información fue finalmente resuelto mediante la recopilación de más datos sobre las actividades de navegación web de los clientes, dijo Brooks.

El compañero de trabajo de Brooks, Courosh Mehanian, un científico de datos de alto nivel en el Innovation Lab, dijo que mediante la incorporación de tipos de datos adicionales que describen realmente a los clientes y sus intenciones, es posible obtener resultados valiosos para Staples, así como para los clientes. Staples gana por aumentar las ventas y el cliente gana por tener una experiencia más personalizada.

"Tenemos montones y montones de datos, [sobre] millones de visitas mensuales a los sitios y la gente que hace compras. Lo que podemos llegar a proponer con esto resulta ser muy útil y proporciona valor para los clientes y para nosotros", dijo Mehanian.

Este artículo se actualizó por última vez en febrero 2015

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close