BACKGROUND IMAGE: iSTOCK/GETTY IMAGES

Este contenido es parte de Guía Esencial: Principios de la analítica de datos: una guía esencial
Resolver Problemas Consiga ayuda para problemas específicos con sus proyectos, procesos y tecnologías.

Los beneficios de la analítica sobre big data sobrepasan cualquier dificultad

Las organizaciones de todos los tamaños pueden beneficiarse de realizar analítica sobre big data para obtener una ventaja sobre sus competidores.

Qué es lo que aprenderá: Las organizaciones de todos los tamaños pueden beneficiarse de realizar analítica sobre big data para obtener una ventaja sobre sus competidores. El problema es cómo proporcionar, de forma rentable, agilidad en el acceso a los datos a cantidades masivas de información. Este artículo describe las tecnologías disponibles y la forma en que podrían ofrecer ayuda en un entorno de big data.

Big data ha estado mucho en las noticias últimamente, destacada –de alguna manera negativa– por la controversia sobre la minería de registros telefónicos de la Agencia de Seguridad Nacional de los Estados Unidos. Pero la mayoría de los objetivos de big data son de carácter decididamente mundano: registrar a través de incidentes de servicio al cliente para mejorar la calidad del producto, determinar qué productos se venden bien en conjunto para optimizar la comercialización, o usar los datos de precios del diesel para enrutar camiones de largo recorrido de manera rentable. De hecho, el valor de big data puede encontrarse en prácticamente todas las industrias: servicios financieros, salud, comercio minorista, recursos naturales y el gobierno, son todos buenos ejemplos. Comercialmente, los objetivos son bastante sencillos: Conseguir una ventaja competitiva y mejorar la rentabilidad. Los primeros usuarios de big data obtendrán una ventaja, mientras que los rezagados estarán en modo de ponerse al corriente.

El almacenamiento es clave para big data

Las organizaciones de almacenamiento se centran en big data, ya que depende de ellos alojar y administrar potencialmente petabytes de información. Desde una perspectiva de negocios, se trata de analítica de big data, o el lado de la aplicación de lo que puede ser derivado de grandes cantidades de información. Esta es una distinción importante: Si la tarea fuera solo albergar una gran cantidad de datos, la arquitectura sería simple; las unidades de mayor capacidad por el menor costo, y un cierto grado de protección de datos. Pero cuando el objetivo es la ventaja competitiva y el aumento de los beneficios, la oportunidad y la capacidad de desmenuzar los datos justifican un precio más alto. Las organizaciones que pueden reconocer los cambios en los hábitos de consumo antes que sus competidores, por ejemplo, tendrán la ventaja del “que mueve primero” hacia los mercados potencialmente lucrativos, modas o tendencias.

El término big data no es una etiqueta tan útil porque plantea preguntas tales como: “¿Qué tan grande tiene que ser para que sea grande?” y “¿Existe tal cosa como los datos medianos?”. Ciertamente, big data puede implicar petabytes de datos, pero no necesariamente. Se trata del proceso analítico más que del mero tamaño del almacén de datos. Big data también implica la naturaleza impredecible de los datos de entrada en términos de fuente y formato. Algunos observadores argumentarán que big data incluye los sistemas tradicionales para extraer, transformar y cargar (ETL) que alimentan los datos en bases de datos relacionales comerciales. Sin embargo, de manera más reciente se piensa en ella en términos del marco de trabajo de código abierto Hadoop.

Teóricamente, cualquier organización puede beneficiarse de realizar análisis sobre big data, independientemente de su tamaño. El factor limitante es tener la masa crítica necesaria de experiencia para implementar y obtener el valor de la analítica, en lugar de alguna delimitación arbitraria de volumen. Desde el punto de vista de un gestor de almacenamiento, las cuestiones críticas pueden resumirse en cómo proporcionar agilidad en el acceso a datos que sea rentable para cantidades impredecibles y potencialmente masivas de información. Con todas las tecnologías de almacenamiento de datos disponibles, el almacenamiento no debería ser el factor limitante en la analítica de big data.

¿Datos grandes o  I/O grande?

Una mejor etiqueta que big data, al menos desde la perspectiva de un gestor de almacenamiento, puede ser “I/O grande”. La naturaleza impredecible de big data inhibe la capacidad de un administrador para medir cuáles o cuántos datos podrían ser demandados en cualquier punto en el tiempo. Por lo tanto, la habilidad de predecir los requisitos de cómputo y los requerimientos de I/O puede ser una ciencia inexacta. Los administradores de almacenamiento desearán seleccionar sistemas y arquitecturas que proporcionen la máxima flexibilidad para ajustar cualquier parámetro dado en la ecuación de rendimiento.

Aunque los entornos de ETL y de data warehouse pueden ser considerados como aplicaciones de big data, hay una importante diferencia entre estos tradicionales enfoques analíticos y big data: el procesamiento en tiempo real. Piense en ello como si el procesamiento de transacciones en línea (OLTP) se juntara con el almacenamiento de datos. Esto añade un nuevo elemento de imprevisibilidad, debido a que el tratamiento de la información más reciente puede requerir datos que residen en unidades de disco duro de bajo IOPS (HDD). Desde una perspectiva de almacenamiento, esto significa que big data puede tener los requisitos de rendimiento de OLTP, con la capacidad de un data warehouse.

Los requisitos de I/O se verán también influenciados por la naturaleza de los datos. Millones (o miles de millones) de archivos pequeños pueden ser muy aleatorios en el acceso. Unos pocos archivos grandes pueden ser mejor servidos por largas lecturas secuenciales. Conocer esta distinción ayudará a los administradores de almacenamiento a saber qué arquitectura será la más adecuada para su carga de trabajo.

La gestión de datos

Los administradores de almacenamiento están acostumbrados a una gama completa de capacidades de servicios de datos en vectores. He aquí un resumen de cómo algunos de estos pueden desempeñarse en un entorno de big data.

RAID. RAID puede parecer obvio, pero hay algunas consideraciones especiales. En primer lugar, los almacenes de datos de amplia distribución pueden operar de manera convencional con una configuración  RAID- 5. Por el contrario, los almacenes de datos centrales a gran escala pueden exigir la funcionalidad RAID- 6, dado el gran tamaño del almacén. Sin embargo, cada unidad de paridad adicional puede incurrir en una sobrecarga tanto de capacidad como de procesamiento. El almacenamiento basado en objetos, otra alternativa más, no utiliza RAID en absoluto. En su lugar, utiliza la replicación a través de nodos distribuidos para obtener la protección de datos que se encuentra allí donde se necesita.

Aprovisionamiento ligero. Debido a que los volúmenes de datos son impredecibles en big data, el aprovisionamiento ligero puede ayudar a asegurar que se dispone de capacidad y sin exceso de aprovisionamiento.

Cifrado. Intuitivamente, parecería que el cifrado no es necesario para una aplicación que se mantiene generalmente in-house y que es de naturaleza transitoria. Sin embargo, si se regula alguno de los datos de entrada, el cifrado puede no ser una mala idea.

Organización automatizada en niveles. Los requisitos impredecibles de IOPS pueden ser resueltos con esquemas de organización en niveles automatizada que mueven datos “calientes” a medios más rápidos, y datos “fríos” a discos duros de alta capacidad y bajo costo. Algunos esquemas de organización automatizada en niveles mueven pequeñas cantidades de datos con frecuencia, lo que puede ser ideal para sistemas de archivos pequeños en grandes volúmenes. Otros esquemas mueven grandes bloques con poca frecuencia, lo que puede ser lo más adecuado para entornos de grandes archivos.

Replicación remota. Las aplicaciones de big data en tiempo real pueden representar los resultados acumulados de semanas o meses de procesamiento. A menudo, estos sistemas son más precisos con el tiempo. Por lo tanto, perder el almacén de datos puede hacer retroceder el negocio de manera significativa, y su recreación puede ser imposible. En consecuencia, la replicación remota puede ser necesaria para evitar el tiempo de inactividad en caso de un importante fallo del sistema o desastre. El objetivo del punto de recuperación puede ser crítico, incluso si el objetivo de tiempo de recuperación es menos estricto.

Consideraciones finales

Las organizaciones pueden determinar que el empleo de Hadoop o una pila similar puede ser la implementación más eficiente de big data. Desde una perspectiva de TI, la implementación es lo suficientemente diferente para que una prueba de concepto esté bien justificada: Los despliegues improvisados probablemente producirán frustración y fracaso.

Los administradores de almacenamiento deben tener en cuenta la realidad de que big data podría reintroducir el almacenamiento en silos al centro de datos. Después de haber pasado la última década tratando de reducir los silos, las organizaciones de TI estarían comprensiblemente reticentes a reintroducirlos. Sin embargo, los beneficios para el negocio de llevar a cabo analítica sobre big data pueden ser mucho mayores que las dificultades, e impulsar a los administradores de almacenamiento a comprender y adaptarse. El resultado podría ser una tecnología genial que traiga un cambio de juego a los negocios.

Acerca del autor: Phil Goodwin es un consultor de almacenamiento y escritor independiente.

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close