Resolver Problemas Consiga ayuda para problemas específicos con sus proyectos, procesos y tecnologías.

Tecnología de deduplicación de datos: casos que justifican la deduplicación

Si ha pensado en implantar la deduplicación de datos, le preguntarán qué ventajas deparará a su empresa. Este consejo le ayudará a decidir si la deduplicación es adecuada para su actividad.

La Deduplicación de datos es una tecnología relativamente nueva que se ha hecho hueco en numerosos entornos de almacenamiento de datos. Pero lo que justifica el gasto en un entorno concreto no es necesariamente válido en todos los casos; es imperativo comprender si la deduplicación colmará una laguna, ayudará a cumplir un requisito o reducirá los costos. A los proveedores de almacenamiento se les suele dar mejor encontrar una necesidad de su tecnología en el entorno del cliente, que encontrar una tecnología que satisfaga realmente las necesidades del cliente. Ojo con los cálculos de retorno de la inversión de los proveedores, que arrojan fantásticos ahorros por deduplicación, pues está claro que las cuentas varían de un caso práctico a otro.

Al hablar de los casos que justifican la deduplicación, preferimos utilizar el término de gasto al de inversión, porque estamos hablando de salvavidas. La tecnología de protección emergente rara vez genera ingresos, salvo cuando la utiliza un proveedor de servicios de emergencia, o safeguard. Para la mayor parte de las empresas, las safeguards son una forma de prevenir pérdidas, así que la mentalidad es más bien la de ahorrar dinero. Jamás se oye hablar de “Invertir en una tecnología de safeguard para aumentar los ingresos.” Por consiguiente, la reducción de costos es un buen punto de partida para desarrollar una justificación práctica sólida de la deduplicación de datos.

¿Qué se intenta resolver con la deduplicación de datos?

¿Qué se intenta resolver con la deduplicación? Esa es la primera pregunta que habría que hacerse. Aunque no hay nada malo en adoptar nuevas tecnologías y mejorar el funcionamiento de ciertos procesos informáticos, siempre resulta más fácil conseguir los fondos necesarios cuando el objetivo es recortar costos o atender algo que no está cumpliendo los requisitos. He aquí algunos pros y contras que pueden ayudar a argumentar a favor de la deduplicación.

Ventajas de la deduplicación de datos

Oficinas remotas: La deduplicación puede ayudar a responder a una situación corriente en las oficinas remotas que carecen de personal local formado para administrar las safeguards. La utilización de una matriz de disco con función de deduplicación como destino primario para almacenar datos de safeguard eliminará la necesidad de garantizar que haya siempre una cinta disponible y suprimirá el requisito de tener a alguien que monte una cinta para las restauraciones. Si a eso se le suma la capacidad de replicar datos deduplicados en la red de área amplia, tenemos una solución de safeguard que conlleva pocas tareas de administración general. Además, la replicación de datos deduplicados en la red de área amplia reduce las necesidades de ancho de banda de la red, lo cual la convierte en una alternativa más barata que los discos en espejo. Esto no se traduce necesariamente en ahorros inmediatos en comparación con la cinta, pero a menudo puede suprimir los fallos de safeguard.

Deduplicación de datos y archivos duplicados: La eliminación de los archivos duplicados es una de las razones más atractivas que abogan por la deduplicación de datos. Los entornos con grandes cantidades de archivos duplicados o similares tienen mucho que ganar con la reducción de costos de almacenamiento. Los mejores resultados de reducción de datos de la deduplicación se obtienen cuando el proceso encuentra grandes volúmenes de segmentos de datos idénticos. En los casos en que se realizan safeguards completas con frecuencia y los datos cambian a un ritmo entre moderado y lento, la reducción de datos puede ser muy impresionante, y desembocar en ahorros significativos en materia de almacenamiento. Las ratios de reducción entre 5:1 y10:1 no son infrecuentes, pero en algunos entornos se han observado ratios de 20:1 y más.

Reducción de la manipulación de soportes: En los entornos que siguen necesitando operadores de cintas y racks para almacenar los soportes porque la biblioteca de cintas roza su capacidad máxima, la deduplicación ofrece una gran oportunidad de reducir la manipulación de soportes, y permite destinar los recursos a otras áreas que los requieran. Una vez más, la capacidad de replicar datos a un punto remoto después de haberlos deduplicado puede suprimir la necesidad de manipulación de soportes en otra sede, sin que haga falta mucho ancho de banda de red para respetar las ventanas de safeguard. Las organizaciones con al menos dos sedes que ya estén comunicadas a través de una conexión de red pueden explotar la replicación de datos deduplicados sin necesidad de realizar grandes gastos de capital, a la vez que reducen su presupuesto de almacenamiento fuera de la sede y reasignan recursos a tareas más productivas.

Recuperación de espacio: En vista del costo del espacio de los centros de datos, es muy sensato recuperar parte del espacio ocupado por una biblioteca de cintas muy grande y sustituirla por algunas matrices de discos con función de deduplicación, que ocupan mucha menos superficie.

Mejora de las cintas: cualquier organización que se plantee una mejora de su tecnología de cinta debería considerar seriamente la deduplicación en disco. Aunque retirar y sustituir un subsistema de cinta que sigue satisfaciendo los requisitos no es forzosamente ventajoso desde el punto de vista financiero, la necesidad de actualizar la tecnología siempre brinda una oportunidad de evaluar otras opciones.

Inconvenientes de la deduplicación de datos

Tipo de datos: No todos los datos se prestan a la deduplicación: los archivos de imágenes, vídeo y audio, u otros tipos de datos comprimidos menguan poco con la deduplicación.

Cifrado: para las entidades preocupadas por la seguridad que implantan el cifrado de datos en origen, la deduplicación en el marco de la safeguard no es la mejor opción, pues la primera función del cifrado es que los datos resulten irreconocibles sin las claves. Esto anula la mayor parte de las ventajas de la deduplicación, a menos que el cifrado se realice después de la deduplicación.

Datos efímeros: Los datos con parámetros de retención muy bajos normalmente arrojan ratios de deduplicación o reducción muy reducidas. Esto se debe a que para ser eficaz, la deduplicación tiene que desarrollar una base de segmentos de datos idénticos. Los datos de paso o retenidos a muy corto plazo normalmente no residen en la matriz de almacenamiento el tiempo suficiente para permitir que los algoritmos de deduplicación desarrollen una hipótesis. La deduplicación es sin lugar a dudas más adecuada para la retención a largo plazo.

Ideas erróneas sobre la deduplicación

No se debe considerar que las bibliotecas de cintas virtuales con capacidad de deduplicación (VTL) son una fuente infinita de dispositivos de cinta. Aunque los fabricantes le pueden permitir configurar 128 unidades de cinta lógicas o más, eso no se traduce automáticamente en un aumento masivo del rendimiento. Por ejemplo, encaminar las corrientes de datos a más de 100 unidades de cinta virtuales a través de un enlace de un gigabit no superará el rendimiento de un gigabit. Puede encontrarse con los mismos cuellos de botella de rentabilidad después de haber invertido decenas de miles de dólares.

Muchos proveedores explotarán el hecho de que las matrices de discos con función de deduplicación pueden ser más rápidas que la cinta, pero con todo y con eso, siguen teniendo sus limitaciones. La deduplicación de datos a disco no es tecnología de espejo o de instantánea; los datos se tendrán que reensamblar y, si se administran a través de un producto de safeguard, también se tendrán que volver a escribir en un sistema de archivo, en un formato legible por las aplicaciones que acceden a los mismos. Dependiendo de la tecnología de deduplicación que se utilice, el rendimiento de las grandes operaciones de restauración también puede ser decepcionante.

La deduplicación se debería presentar como cualquier otra tecnología. A menos que su utilización subsane las carencias de otra tecnología o ayude realmente a reducir los gastos de explotación por encima del costo del capital inicial a lo largo de la vida útil de la solución, resultará difícil de vender.

Sobre el autor: Pierre Dorion es el Director de Prácticas de Centros de Datos y Asesor Superior de Long View Systems Inc. en Phoenix, Arizona, especializado en el campo de los servicios de planificación de la recuperación de desastres y la continuidad del negocio, así como en la protección de datos empresariales.

Este artículo se actualizó por última vez en abril 2009

Profundice más

Únase a la conversación

1 comentario

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

Hay que mantener actualizados los artículos, pienso que al 2017 muchos aspectos que se mencionan de la deduplicación ya pudieron haber sido superados
Cancelar

- ANUNCIOS POR GOOGLE

Close