Evaluar Conozca los pros y contras de las tecnologías, productos y proyectos que está considerando.

Preguntas frecuentes sobre la deduplicación de datos

¿Puede usted conseguir las ratios de reducción de datos prometidas por los proveedores? Aquí le dejamos algunas respuestas de preguntas frecuentes.

¿Conseguirá usted alcanzar las enormes ratios de reducción de datos anunciadas por los proveedores de deduplicación de datos? En esta lista de preguntas y respuestas, el analista Jerome Wendt contesta a las preguntas sobre deduplicación de datos que más le plantean en la actualidad.                                                                                 

¿Qué tipo de ratios de reducción de datos es realista esperar de la deduplicación?

La cuestión se puede enfocar de dos maneras. La mayor parte de la gente considera la deduplicación de datos conjuntamente con la safeguard, mediante dispositivos de safeguard que realizan deduplicación, o incluso VTLs. De manera que, visto en ese contexto, se ven anuncios de ratios que van de 10X a 500X.

Pero, para ser realistas, creo que es sensato suponer una ratio situada entre 13X y 17X. Probablemente observe usted ratios más bajas aún en la deduplicación en destino, y ratios más altas en la deduplicación en origen, debido simplemente a su arquitectura.

La otra cara de esta moneda es el tipo de ratios de reducción de datos que se pueden observar en un entorno de archivo. Últimamente he tenido ocasión de hablar con empresas como Permabit y NEC, cuyos dispositivos están siendo objeto de un mayor despliegue en ese contexto. Están observando ratios que van desde sólo 2X hasta nada menos que 200X. Una vez más, las cifras varían enormemente; una ratio de 13X a 15X es en promedio una buena aproximación, pero se pueden observar resultados extraordinarios en el tipo de entorno adecuado.

¿Qué dispositivos de deduplicación de datos y software de protección le parecen adecuados para la empresa?

Si tiene que safeguardr 20 TB de datos, diría que la mayor parte de los dispositivos de deduplicación de datos que hay en el mercado en la actualidad podrán hacerse cargo sin demasiados problemas. Pero cuando se empieza a escalar a 50 TB, 100 TB, 1 PB de datos de safeguard, la dinámica cambia realmente. Tiene esquemas de protección en curso. Tiene recuperaciones en curso. Tiene datos que se están transfiriendo a cinta. El entorno se vuelve mucho más complejo y dinámico.

Personalmente, considero adecuadas para la empresa tecnologías como Dilligent Technologies y Sepaton, entre otras. Estas dos casas tienen productos en el mercado desde hace tiempo ya, y ambas están triunfando.

¿Hay productos de deduplicación de datos de los que haya que estar pendiente?

Permabit produce un dispositivo realmente interesante, y espero que consigan trabajar en colaboración y transmitir su mensaje, porque tienen un producto robusto que lleva varios años funcionando. Probablemente esté más maduro que varios productos que se ven por ahí.

El otro producto que realmente me fascina es el Hydrastor de NEC. Se presentó por primera vez en Storage Decisions, en la ciudad de Nueva York, este mismo año. He hablado con un par de clientes que tienen buenas experiencias que contar al respecto. Tiene una arquitectura realmente sólida, pero es tan nuevo que los usuarios todavía no han tenido tiempo de utilizarlo y evaluarlo de manera que NEC pueda resolver cualquier dificultad que pueda surgir y adecuarlo al uso empresarial.

¿Cuánto tardan las empresas en alcanzar esas ratios de reducción de datos?

También en este campo varían mucho las cuentas. Hace un tiempo tuve una conversación muy extensa al respecto con Network Appliance. Suponiendo una tasa de variación de los datos del 5% desde la safeguard completa de una semana antes, calculamos que en 90 días se alcanzaría una ratio de reducción de en torno a 20X. Se taDRa unos 90 días en observar una reducción significativa.

A corto plazo, se puede observar una reducción de 2X ó 3X en el transcurso del primer mes más o menos. Pero a medida que se lleve más tiempo deduplicando los datos, se empezarán a ver cifras más altas.

¿Cree usted que hay que deduplicar los datos mientras se realiza un respaldo, o mejor cuando haya terminado?

Hay dos enfoques a este respecto. La arquitectura post-proceso acepta todos los datos entrantes, y luego los almacena en disco. Y por otro lado tenemos la arquitectura intermedia, que es más corriente.

Personalmente, hoy día soy más favorable al post-proceso. Intento comprender plenamente las ventajas de realizarlo en el transcurso del proceso. Lo que me preocupa es que, en un contexto de empresa, estos productos sean capaces de hacer restauraciones, respaldos y volcados a cinta coherentes. Y que el producto pueda hacer todo eso manteniendo el rendimiento.

Desde un punto de vista táctico, me gusta el enfoque post-proceso. Mientras siga comprando discos, podré seguir haciendo safeguards. Quizá no sea un enfoque tan elegante o bien diseñado como el enfoque intermedio, pero siempre se puede hacer el respaldo y deduplicar los datos después.

Ahora bien, todavía no tengo una opinión definitiva en este ámbito.

¿Cuándo tiene sentido realizar la deduplicación de datos utilizando software de respaldo y protección de datos en el alojador (host)?

Hay que considerar dos factores. Si se tienen limitaciones de ancho de banda y se intenta salvaguardar datos cuando llegan grandes cantidades de datos a través de la red, entonces tiene mucho sentido realizar la deduplicación de datos en el alojador. Esto puede liberar espectacularmente el ancho de banda disponible.

Es importante que el alojador pueda aguantar el tirón inicial. Esta tecnología requiere memoria y tratamiento en la unidad central para llevar a cabo la deduplicación de datos. Puede ser buena idea realizar el respaldo inicial durante el fin de semana, cuando la ventana de back up es algo más prolongada.

Algunas empresas están tomando medidas para mitigar este impacto inicial en el rendimiento. Hace poco hablé con Symantec, y, para esa safeguard inicial, están poniendo algo de inteligencia en los nodos individuales de manera que se produzca cierto grado de deduplicación antes de que arranque, para contribuir a reducir la carga general.

¿Hay casos en los que la deduplicación de datos no suponga ninguna ventaja? ¿Ventajas superiores?

En las fotos, vídeos, etc., no hay mucha información duplicada. Si se está creando un gran número de imágenes nuevas, la deduplicación de datos aportará muy pocas ventajas. En este caso, es mejor limitarse a realizar safeguards diferenciales.

En cuanto a los ámbitos en los que la deduplicación de datos puede resultar muy ventajosa, las bases de datos contienen muchos datos redundantes y la deduplicación puede dar resultados espectaculares. Los sistemas de archivos grandes con un número de cambios reducidos también se prestan muy bien a la deduplicación.

¿Qué tal hacer la deduplicación en destino de datos en la VTL o en el dispositivo de respaldo? ¿El impacto en el rendimiento es similar?

Tiene un impacto en el rendimiento un poco diferente. El inconveniente de la deduplicación de datos en destino es que en realidad no se reduce la cantidad de datos que transitan por la red. Así que cada vez que se realiza una safeguard, se sigue transmitiendo todos los datos a través de la red. Se reduce la cantidad de datos que se almacenan, pero con la deduplicación en destino seguirá produciéndose esa incidencia en el rendimiento.

Al principio preocupaba la escalabilidad. ¿Los fabricantes han resuelto esas preocupaciones, o persisten los problemas de escalabilidad?

La escalabilidad sigue siendo motivo de preocupación. Hasta 20 TB, probablemente todo vaya bien. Pero una vez que se rebasa ese umbral, es imperativo analizar la arquitectura del producto, cómo gestionar el rendimiento y la escalabilidad, e incluso la destrucción de datos en el back end. ¿Cómo elimina del índice los datos expirados el producto en cuestión? ¿Cómo se reconstruye el índice conforme pasa el tiempo? ¿Cómo se añade capacidad adicional? A nivel de empresa, la propuesta se vuelve realmente mucho más compleja.

De manera que siguen existiendo interrogantes, y las empresas tienen que tener conocimiento de ellos. Entre las bazas a favor, hay que decir que esta tecnología ya está muy avanzada, y que los proveedores no escatiman recursos para que sus productos den la talla. Saben qué es lo que quieren las empresas, y saben que es un problema enorme. Cabe esperar muchos cambios en los próximos doce meses.

¿Qué pasa si se llena un sistema de almacenamiento de datos deduplicados, y necesita crecer?

Ese es el verdadero talón de Aquiles de la deduplicación de datos en este momento.

Si se tiene mucho crecimiento y se acaba llenando un sistema entero, la mayor parte de los productos que hay actualmente en el mercado no tienen la capacidad de incorporar otro sistema. Así que hay que invertir en un sistema nuevo. Y eso desemboca en otro problema. Si se instala un sistema del mismo tamaño, no basta con incorporar los datos deduplicados previamente al nuevo sistema, sino que hay que volver a empezar todo el proceso de deduplicación. Si se gasta dinero en un dispositivo mucho más grande, se puede migrar todos los datos al nuevo dispositivo y empezar a trabajar desde ahí.

A nivel de empresa, se busca un producto que pueda escalar independientemente el rendimiento y el almacenamiento.

También preocupa la pérdida de datos por colisiones de Hash. ¿Cómo han resuelto ese problema los fabricantes al día de hoy?

He tenido ocasión de comentar este tema con varios proveedores, y en su mayor parte aseguran que ese problema ha quedado bien resuelto con los nuevos algoritmos de Hash. Hablé del tema con Permabit, y me dijeron que la única forma de estar completamente seguro de que cada fragmento de datos sea completamente único es tomar cada nuevo fragmento de datos y compararlo con cada fragmento de datos almacenado. También me han dicho que esto no es realmente práctico porque si se hace así, se crea una demora enorme. Así que la solución de compromiso es utilizar un algoritmo de Hash.

Otras empresas adoptan un enfoque distinto. ExaGrid, por ejemplo, tgrocea los datos en segmentos largos y analiza el contenido de cada segmento para ver cómo se relacionan entre sí Después lleva a cabo la diferenciación por bytes en cada segmento y almacena los datos de ese modo.

Sobre el autor: Jerome M. Wendt es fundador y analista jefe de Datacenter Infrastructure Group, una empresa de consultoría y análisis independiente que ayuda a los usuarios a evaluar las diversas tecnologías de almacenamiento del mercado y a tomar la decisión en materia de almacenamiento más adecuada para su organización.

Este artículo se actualizó por última vez en octubre 2008

Profundice más

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close