olly - Fotolia

Lo básico Póngase al día con nuestro contenido introductorio.

Tres fallas de modelado predictivo que estropean los proyectos de ciencia de datos

La ciencia de datos puede ser increíblemente valiosa si se hace correctamente, pero igual de perjudicial si se hace mal. Aquí, un experto en ciencias de datos discute tres errores comunes de modelado predictivo.

Los proyectos de ciencias de datos pueden proporcionar un valor comercial inmenso, guiando a las empresas hacia mayores ingresos u operaciones mejoradas, pero también pueden ser perjudiciales si se hacen mal.

Digamos que alguien en un equipo de marketing que se imagina un científico de datos ciudadanos utiliza Domo, Google Analytics o una herramienta de inteligencia de negocios fácil de usar para obtener información sobre las ventas. Los datos muestran que el equipo alcanzará sus números, y presenta esa información a los altos ejecutivos.

Sin embargo, esos datos pueden no ser exactos, ya que no se puede ver la metodología detrás de las herramientas de caja negra, dijo Ian Swanson, fundador y CEO de DataScience, un proveedor de servicios y plataforma de ciencia de datos en California.

La construcción de modelos predictivos exactos requiere personalización y conocimiento de diversas metodologías y enfoques, que se aplican en función del escenario y del conjunto de datos. En otras palabras, si conecta datos en una herramienta de análisis predictivo de caja negra, y confía en que ha aplicado la metodología y el enfoque adecuados para analizar sus datos, está tomando una apuesta. Los mejores equipos de ciencias de datos nunca harían eso, y tampoco debería hacerlo usted.

"Podría ser genial sacar algunas ideas de [herramientas de caja negra], pero puede ser realmente peligroso", dijo Swanson. "¿Debería un ciudadano científico de datos tomar decisiones que impactan a la empresa? Ninguna gran empresa quiere [eso]".

Swanson discutió tres peligros comunes a tener en cuenta durante los proyectos de ciencia de datos, incluyendo problemas de modelos predictivos y calidad de datos, la importancia del linaje de datos, y cómo asegurarse de que tiene el flujo de trabajo de análisis adecuado.

Mala calidad de los datos

El éxito de un proyecto de ciencia de datos comienza con buenos datos. Si los datos que entran en un modelo predictivo son malos, las salidas predictivas no serán exactas.

Con eso, un primer paso crítico en el modelado predictivo es explorar y evaluar la calidad de los datos, determinar cuánta limpieza de datos se requiere y llevar los datos a un formato utilizable, dijo Swanson.

Los equipos de ciencias de los datos también deben comprobar que el tipo correcto de datos está incluso allí. Tomemos la elección presidencial de los Estados Unidos en 2016. Los modelos predictivos señalaron a Hillary Clinton como la ganadora, y claramente esas predicciones estaban equivocadas. Una razón, según Swanson y otros expertos en ciencias de datos, era que había voces críticas que faltaban en los datos. Además, los datos introducidos en los modelos predictivos no pudieron ser validados; algunos votantes pudieron haber dicho que planeaban votar en una dirección, pero finalmente votaron de manera diferente.

Falta de linaje de datos

Un equipo de ciencia de datos debe ser capaz de seguir el ciclo de vida de los datos que utiliza, incluyendo el origen de los datos y cómo se recolectaron. El equipo también debe ser capaz de explicar lo que encontró durante la fase de exploración de datos, la metodología y el proceso de análisis, y cómo los equipos de negocios de la empresa podrán utilizar la información.

Sin un claro linaje de datos, los ejecutivos pueden no confiar en los datos, y en su lugar pueden optar por apoyarse más en su intuición que en el análisis de datos, dijo Swanson.

"Conectamos los puntos, así que cuando las partes interesadas ejecutivas ven los datos, les mostramos cómo los datos y los resultados fueron encontrados y cómo se pueden usar en los productos", dijo. "Todos los puntos necesitan ser puestos juntos".

Equipos analíticos de torre de marfil

A menudo, los equipos de ciencia de datos están centralizados, y no tienen flujos de trabajo integrados con los equipos de negocios. Swanson recomienda que los científicos de datos se integren en los equipos de negocios para asegurarse de que entienden los problemas que necesitan ser resueltos, y para trabajar juntos para averiguar cómo la producción analítica predictiva se puede hacer productiva (si esa es la meta). La integración de los equipos también ayuda a los equipos de ciencia de datos y de negocios a identificar oportunidades analíticas y a aprovechar el conocimiento institucional.

"Vemos problemas de integridad de datos y [problemas en] la elección del algoritmo correcto, pero lo más importante es el flujo de trabajo: si resolvemos este problema de esta manera, ¿se puede utilizar?", dijo Swanson. "No tener a los interesados ​​de negocios en la mesa es una trampa común. Si estás tratando de resolver un problema para marketing, ¿están las personas de marketing en la mesa con los científicos de datos?".

De particular importancia es que los equipos de ciencias de datos trabajen con el equipo de ingeniería que armoniza los modelos predictivos y los pone en producción, añadió. Si esos dos equipos no usan el mismo lenguaje, los proyectos de ciencia de datos podrían estar muertos antes de llegar.

Este artículo se actualizó por última vez en abril 2017

Profundice más

PRO+

Contenido

Encuentre más contenido PRO+ y otras ofertas exclusivas para miembros, aquí.

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Enviando esta solicitud usted acepta recibir correos electrónicos de TechTarget y sus socios. Si usted reside afuera de Estados Unidos, esta dando autorización para que transfiramos y procesemos su información personal en Estados Unidos.Privacidad

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close