BACKGROUND IMAGE: iSTOCK/GETTY IMAGES

Gestionar Aprenda a aplicar las mejores prácticas y optimizar sus operaciones.

Supere los desafíos del análisis predictivo en sistemas de big data

Big data y análisis predictivo pueden parecer sinónimos, pero comprender las limitaciones de cada disciplina es la clave para extraer valor comercial de los proyectos que los combinan.

En los últimos años, el análisis de big data se ha convertido casi en sinónimo de analítica predictiva. Como resultado, existe una creciente presunción de que cualquier sistema utilizado para el análisis predictivo debe involucrar big data, y que cualquier sistema de big data seguramente soportará el modelado predictivo.

En realidad, sin embargo, las dos cosas no son una y la misma. Y aunque el acceso a volúmenes de datos masivos y nuevos tipos de datos puede mejorar significativamente la capacidad de desarrollar buenos modelos predictivos, los gerentes analíticos y sus equipos deben considerar los aspectos fundamentales de qué hace que los datos sean grandes y cómo los desafíos de administrarlos afectan el análisis predictivo en entornos de big data.

Primero, examinemos el proceso de análisis predictivo en sí. La percepción popular del análisis predictivo implica algún tipo de análisis estadístico o coincidencia de patrones que se integra en una aplicación de negocios para impulsar automáticamente las decisiones y acciones operativas. Pero la implementación de modelos predictivos requiere una serie de pasos, que incluyen los siguientes:

  • Preparación de datos para limpiar, transformar y reorganizar datos en un formato adecuado para el análisis predictivo o los algoritmos de aprendizaje automático. Esto implica perfilar los datos, buscar anomalías, determinar qué tipos de estándares de calidad de datos aplicar y qué correcciones realizar, idear un modelo de datos adecuado para el análisis, y realizar las transformaciones necesarias para hacer que los conjuntos de datos sean coherentes.
  • Desarrollo de modelo predictivo, en el que se crea un conjunto de datos de entrenamiento y se somete a algoritmos seleccionados, lo que resulta en algunos modelos analíticos que se deben probar. Este paso requiere un plan para dividir los datos que se analizan en varios subconjuntos, incluido el conjunto de entrenamiento y uno o más conjuntos de prueba.
  • Pruebas, en las que los diversos modelos se ejecutan contra los conjuntos de datos de prueba, y se mide y evalúa su rendimiento para determinar qué modelo produce los mejores resultados.
  • Integración e implementación, en las cuales el modelo más preciso se incorpora en un proceso comercial de producción y se ejecuta de manera real para generar resultados analíticos y recomendar acciones.
  • Ajuste del modelo predictivo elegido para garantizar su validez continua y rendimiento preciso, con las actualizaciones correspondientes basadas en análisis repetidos.

Big data crea desafíos únicos

A continuación, analicemos las cosas en el contexto de los famosos 3V de big data –volumen, variedad y velocidad– y contemplemos algunos desafíos específicos que deben abordarse para implementar eficazmente análisis predictivos en entornos de big data.

Volumen de datos. Además de las consideraciones obvias relacionadas con la administración de volúmenes de datos a menudo masivos (ingestión, puesta en escena y prevención de latencia de datos), debe tener procesos simplificados para soportar las diferentes etapas del proceso de análisis. Por ejemplo, debe poder extraer un conjunto de datos de entrenamiento que pueda analizarse rápidamente utilizando los diferentes algoritmos candidatos, pero también uno que refleje adecuadamente el conjunto completo de datos.

Variedad de datos. Cada vez más se presenta a las empresas una amplia variedad de datos de entrada, desde datos estructurados convencionales hasta un número creciente de tipos de datos no estructurados. Y, a medida que más flujos de datos no estructurados se vuelven esenciales para los procesos de negocio –por ejemplo, el monitoreo continuo de las transmisiones de Twitter para identificar el sentimiento del cliente– se están convirtiendo en fuentes de datos necesarias para los modelos predictivos. Esto significa que debe tener un conjunto de procesos sólidos para escanear, analizar y contextualizar datos no estructurados y transformarlos en conjuntos de datos que puedan servir como forraje para los algoritmos de analítica.

Velocidad de datos. La complejidad de lidiar con grandes volúmenes de datos variados se ve agravada por la velocidad de aceleración con la que se están entregando esos flujos de datos. No solo usted debe ser capaz de lidiar con alimentaciones cada vez más rápidas de datos entrantes, a menudo no hay posibilidad de predecir cuándo la estructura o el formato de esos feeds de datos podría cambiar, lo que forzaría una necesidad casi continua de creación y preparación de perfiles de datos.

Sea inteligente con su estrategia de analítica

Diseñe su estrategia de análisis predictivo en sistemas de big data para abordar estos desafíos, de modo que pueda gestionar con éxito (o mejorar) los puntos críticos en el proceso.

Por ejemplo, considere el desafío de reducir un conjunto de datos masivos a uno razonable para entrenamiento. En algunos casos, el mejor enfoque sería utilizar filtros para reducir el tamaño del conjunto de datos, quizás eliminando los registros que no son parte de los casos de uso común, antes de seleccionar aleatoriamente el conjunto de entrenamiento. En otros casos, el objetivo podría ser aumentar los recursos de computación del sistema de big data para permitir que los algoritmos de análisis manejen un conjunto de entrenamiento mucho más grande y para eliminar la necesidad de filtrar cualquier registro.

Como otro ejemplo, abordar los desafíos de velocidad de datos puede significar ampliar las capacidades de ingesta de datos de transmisión del sistema para que cada feed de datos pueda ejecutarse completamente a través de los modelos predictivos o reducir la complejidad de los modelos para que puedan ejecutarse más rápido.

Cada una de estas opciones implica un toma y daca cuando se trata de diseño, ingeniería, complejidad y costo. Un conjunto más preciso de modelos predictivos podría requerir más recursos de procesamiento y almacenamiento, pero los beneficios analíticos podrían superar los costos adicionales. Alternativamente, su organización podría obtener lo que necesita del análisis predictivo en aplicaciones de big data de modelos menos complejos que no requieren refuerzos de procesamiento.

El análisis predictivo debe combinarse con el procesamiento de big data para producir los resultados que los gerentes de analítica, y ejecutivos corporativos, están buscando. Para que esto suceda, es imperativo encontrar la forma de equilibrar las demandas de rendimiento y administración de big data con las oportunidades que brinda el análisis predictivo.

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close