vege - stock.adobe.com

Evaluar Conozca los pros y contras de las tecnologías, productos y proyectos que está considerando.

¿Son las bases de datos de series temporales la clave para manejar el diluvio de datos de IoT?

A medida que crecen los datos de series temporales, también aumenta la conciencia de la necesidad de sistemas específicos para los datos de series temporales.

Es bastante obvio que los datos se recopilan a una velocidad asombrosa y en rápido aumento. Estamos recopilando más datos, en más sistemas y en más industrias que nunca antes en la historia humana. Mantenerse al día con ese flujo de datos es uno de los principales desafíos en la industria de TI hoy en día.

Desafortunadamente, creo que el aumento de la recopilación de datos apenas está comenzando, y la cantidad y la velocidad de la recopilación de datos no solo crecerán, sino que crecerán a un ritmo más rápido que nunca. Estamos en una avalancha de datos.

¿Por qué tantos datos?

La respuesta a esta pregunta es, por supuesto, larga, pero se reduce al hecho de que estamos instrumentando más sistemas y más "cosas" que nunca. Desde la creciente instrumentación de aplicaciones y sistemas, lo que ahora llamamos DevOps, hasta el crecimiento explosivo de internet de las cosas (IoT), todo lo que nos rodea está comenzando a emitir datos. Por ahora, me centraré en el crecimiento de los datos de IoT para ilustrar lo que nos espera.

Cada analista tiene una predicción de cuántos dispositivos IoT creen que estarán en línea para una determinada fecha. En 2017, Gartner informó que los dispositivos IoT crecieron un 31% a 8,3 mil millones de dispositivos durante el año anterior, y predijo que más de 20 mil millones de dispositivos estarían en línea para 2020 (¡eso es el año que viene!). En aras de la simplicidad, usemos ese número de 20 mil millones como ejemplo de referencia.

¿Cuántos datos son esos?

He construido muchos dispositivos de IoT; de hecho, tengo una docena sentada en mi escritorio ahora mismo. Algunos de estos dispositivos producen solo un único flujo de datos, lo que significa que solo producen un único punto de datos para cada lectura. Otros producen más de una docena de flujos de datos. Los sensores industriales y de consumo, por ejemplo, pueden monitorear mucho más y producir docenas de flujos de datos por dispositivo.

Para dar un ejemplo más concreto sobre cómo se calculan estos datos, supongamos que cada dispositivo produce un promedio de 10 flujos de datos y escribe datos una vez por segundo, lo cual es muy bajo para muchos sensores industriales, para el registro. Ahora, mi sensor de flujo único lee el contenido de CO2 y lo escribe en una base de datos cada segundo. Esa lectura, entre 0 y 10,000 partes por millón de CO2, puede variar de uno a cinco bytes de largo. Entonces, por la simplicidad de calcular, supongamos que cada flujo de datos es una lectura de 5 bytes, una vez por segundo. Ahora tenemos un solo dispositivo, que produce 5 bytes por segundo, multiplicado por 10 flujos de datos, ¡eso es 50 bytes por segundo!

Si bien esto no parece mucho, si multiplicamos este número por 20 mil millones de dispositivos, obtendría aproximadamente 1 billón de bytes por segundo, o un terabyte de datos de IoT. Cada segundo. De todos los días. Siempre.

Mi computadora portátil tiene una unidad de 1 TB, así que la llenaría en un solo segundo, que es casi un petabyte de datos en un solo año.

¿Qué vamos a hacer con todos esos datos?

Ahora, esta es la verdadera pregunta.

Todos esos datos deben ser ingeridos en algún tipo de base de datos de búsqueda en tiempo real. Las empresas y organizaciones deben almacenarlos, manipularlos, consultarlos y actuar sobre la base de datos cada hora de cada día para aprovechar al máximo los conocimientos empresariales que contienen los datos enriquecidos. Eso sí, no todo va a la misma base de datos, pero todavía hay muchos datos que administrar para cualquier organización.

Cuando hablamos de ingerir y almacenar datos, también debemos analizar qué tipo de datos son porque no todos los datos se crean por igual. Podemos dividir los datos de IoT en varios segmentos. El primero son los metadatos sobre los sensores y dispositivos que estamos utilizando para recopilar los datos. Esto puede consistir en todo, desde los números de modelo del sensor hasta la fecha de servicio, ubicación física y cualquier otra información sobre el sensor en sí. Estos datos generalmente no se actualizan con frecuencia y probablemente no cambien mucho con el tiempo.

Los datos realmente valiosos son los datos del sensor en sí. Los datos del sensor suelen ser lecturas con sello de tiempo de un sensor, enviados en un flujo constante desde el dispositivo a la plataforma de almacenamiento. Podría ser una lectura de CO2, datos ambientales o datos de monitores de frecuencia cardíaca, equipos industriales, etc. No importa de dónde provengan estos datos, casi siempre sigue la fórmula básica de <lectura de datos> @sello-de-tiempo. Esto, como algunos de ustedes pueden reconocer, son datos de series de tiempo, datos para los cuales el tiempo es un componente crítico.

¿Cómo almacenamos datos de series temporales?

Hay tantas posibilidades para almacenar datos de series temporales como bases de datos en el mundo. Pueden almacenarse en un sistema tradicional de gestión de bases de datos relacionales (RDBMS), como datos no estructurados en una base de datos NoSQL o incluso en una hoja de cálculo o un archivo CSV. Pero el hecho de que se pueda hacer algo no significa que deba hacerse.

Los RDBMS tradicionales están diseñados para almacenar accesos y actualizar tablas de datos relacionales, mientras que las bases de datos no estructuradas NoSQL son adecuadas para almacenar y recuperar datos no estructurados. Los datos de IoT, como hemos visto, no son ninguna de estas cosas. Se trata de datos de series temporales muy específicos y, para eso, necesitan una base de datos de series temporales.

Las bases de datos de series temporales están diseñadas específicamente para ingerir, almacenar y consultar datos de series temporales porque son diferentes a otros tipos de datos. Requieren tasas de ingestión realmente altas y la capacidad de consultar datos a lo largo del tiempo para comprender las tendencias y los conocimientos comerciales de los datos.

El crecimiento de los datos de series temporales como categoría

A medida que crecen los datos de series temporales, también aumenta la conciencia de la necesidad de sistemas específicos para los datos de series temporales. Este creciente problema de datos, y el crecimiento de las bases de datos de series temporales, ha creado una categoría completamente nueva de proveedores de bases de datos. Es por eso que, en los últimos 24 meses, las bases de datos de series temporales han sido el segmento de más rápido crecimiento del mercado de bases de datos.

Con el crecimiento de los datos de IoT, es fácil ver por qué.

Investigue más sobre Big data (Grandes datos)

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close