Resolver Problemas Consiga ayuda para problemas específicos con sus proyectos, procesos y tecnologías.

Cuándo y cómo utilizar la tecnología de deduplicación de datos en el safeguard de disco

El mercado de deduplicación de datos está cada vez más atestado, y resulta cada vez más confuso. Ahórrese problemas aprendiendo dónde y cómo utilizar la deduplicación de datos.

La deduplicación de datos promete reducir la transferencia y almacenamiento de datos redundantes, optimizando el ancho de banda de la red y la capacidad de almacenamiento. Almacenar los datos en disco de forma más eficiente permite conservar los datos durante más tiempo, o “rescatar” datos para proteger más aplicaciones mediante la safeguard en disco, lo cual incrementa la probabilidad de recuperar rápidamente los datos. Transferir menos datos a través de la red también mejora el rendimiento. La reducción de los datos transferidos a través de una conexión de red de área amplia puede permitir a las organizaciones consolidar la safeguard de sedes remotas o ampliar la recuperación de desastres a datos que previamente no gozaban de esa protección. La idea básica es que la deduplicación de datos puede ahorrar tiempo y dinero, al permitir recuperar más datos desde el disco y reducir la superficie ocupada y las necesidades de energía y refrigeración del almacenamiento secundario. También puede mejorar la protección de los datos.

Al seleccionar un producto de deduplicación de datos, lea la letra pequeña

El primer punto de confusión reside en las numerosas formas en que se puede optimizar la capacidad de almacenamiento. La deduplicación de datos es en cierto modo una categoría de tipo cajón de sastre, donde se incluyen todas las tecnologías que optimizan la capacidad. La gestión de archivos, el almacenamiento de instancia única, la safeguard diferencial “para siempre”, la diferenciación delta y la compresión son sólo algunas tecnologías o métodos empleados en el proceso de protección de datos para eliminar la redundancia y reducir la cantidad de datos transferidos y almacenados. Por desgracia, las empresas tienen que orientarse entre una gran profusión de bombo publicitario para comprender qué ofrecen los proveedores que esgrimen esos términos.

En los procesos de protección de datos, la deduplicación es una función disponible en las aplicaciones de safeguard y los sistemas de almacenamiento en disco para reducir las necesidades de ancho de banda y de espacio en disco. La tecnología de deduplicación de datos examina los datos para identificar y eliminar redundancias. Por ejemplo, la deduplicación de datos puede crear un objeto de datos único mediante un algoritmo de Hash, y cotejar esa huella digital con un índice maestro. En el soporte de almacenamiento se graban datos únicos, y sólo se conserva un indicador que remite a los datos escritos previamente.

Granularidad y deduplicación

El nivel de granularidad ofrecido por la solución de deduplicación es otra consideración a tener en cuenta. La deduplicación se puede realizar a nivel de archivo, de bloque y de byte. Cada método tiene sus ventajas e inconvenientes, como son el tiempo de proceso, la precisión, el nivel de duplicación detectado, el tamaño del índice y, potencialmente, la escalabilidad de la solución.

La deduplicación por archivo (o almacenamiento de instancia única) suprime los datos duplicados a nivel de archivo comprobando los atributos de los archivos y suprimiendo las copias de archivos redundantes conservadas en el soporte de safeguard. Este método permite una menor reducción de capacidad que el resto, pero es rápido y sencillo.

La deduplicación a nivel inferior al del archivo (nivel de bloques) divide los datos en fragmentos. Por lo general, se asigna al bloque o fragmento una “huella digital” y su identificador único se compara con el índice. Cuanto más pequeños son los bloques, mayor es el número de fragmentos, y por consiguiente mayor es el número de comparaciones con el índice y mayor es el potencial de identificar y suprimir redundancias (y de alcanzar tasas de reducción más altas). Una desventaja es la carga de E/S, que puede aumentar con el número de comparaciones; además, si los fragmentos son más pequeños el índice será mayor, lo cual puede inducir un menor rendimiento de la safeguard. El rendimiento puede resentirse asimismo porque para recuperar los datos hay que volver a ensamblar los fragmentos.

La reducción a nivel de byte es una comparación byte a byte de archivos nuevos con archivos almacenados previamente. Aunque este método es el único que garantiza la eliminación total de redundancias, la merma de rendimiento puede ser importante. Algunos proveedores han adoptado otros enfoques. Unos cuantos se concentran en comprender el formato de la corriente de safeguard y evaluar la duplicación con esta “conciencia del contenido.”

Dónde y cuándo deduplicar

La tarea de deduplicación de datos se puede llevar a cabo en uno o varios lugares entre el origen de los datos y el destino de almacenamiento. La deduplicación que se realiza en el servidor de aplicación o de archivos (antes de la transmisión de los datos de safeguard por la red) se denomina deduplicación del lado cliente (imperativa cuando es importante reducir el consumo de ancho de banda). Alternativamente, la deduplicación de la corriente de safeguard se puede llevar a cabo en el servidor de safeguard, y se denomina deduplicación proxy o deduplicación en el dispositivo de destino, o más en general deduplicación en destino.

La deduplicación se puede programar de modo que se produzca antes de que se escriban los datos en el disco destino (tratamiento intermedio) o después de que los datos se escriban en el disco destino (post-proceso).

La deduplicación post-proceso escribe la imagen de safeguard en un cache de disco antes de iniciar la deduplicación. Esto permite que la safeguard se realice a pleno rendimiento del disco. La deduplicación post-proceso exige una capacidad de cache del disco suficiente para los datos de safeguard que no se deduplican más capacidad adicional par almacenar los datos deduplicados. El tamaño del cache depende de si el proceso de deduplicación espera a que haya terminado toda la tarea de safeguard antes de comenzar la deduplicación, o de si empieza a deduplicar los datos conforme se van escribiendo éstos y, lo que es más importante, cuando el proceso de deduplicación libera espacio de almacenamiento.

La deduplicación intermedia puede incidir negativamente en el rendimiento cuando la aplicación utiliza una base de datos de huellas digitales que crece con el tiempo. Los enfoques intermedios inspeccionan y deduplican los datos en tránsito hacia el destino de disco. La erosión del rendimiento depende de varios factores, entre ellos el método de creación de huellas digitales, la granularidad de la deduplicación, dónde se realiza el proceso intermedio, el rendimiento de la red, cómo se distribuye la carga de trabajo de la tecnología de deduplicación….

Deduplicación haDRware o software

Muchos de los enfoques basados en el haDRware más populares en la actualidad pueden resolver el problema inmediato de reducir los datos en entornos de safeguard disco a disco, pero ocultan los problemas que surgirán a medida que el entorno se expanda y evolucione.

La cuestión es optar por realizar la deduplicación en software o haDRware. A favor del haDRware cabe citar los que dispositivos específicos ofrecen despliegues rápidos, la integración con el software de safeguard existente, y una experiencia de enchufar y usar, sin necesidad de configuración. El compromiso? Presentan limitaciones en materia de flexibilidad y escalabilidad. Hay que añadir dispositivos adicionales a medida que aumenta la demanda de capacidad, y la expansión descontrolada de dispositivos resultante no sólo incrementa la complejidad y la carga de trabajo de administración general, sino que además puede limitar la deduplicación de cada dispositivo individual.

Con los enfoques de software, la capacidad de disco puede ser más flexible. El almacenamiento en disco se virtualiza, y se presenta como un gran recurso común que escala sin sobresaltos. En un supuesto de software, el impacto sobre la carga de administración general es menor y el efecto sobre la deduplicación puede ser mayor, pues ésta se realiza sobre un mayor número de datos que en la mayor parte de las arquitecturas basadas en los dispositivos individuales.

La deduplicación del lado cliente basada en el software y en proxy optimiza el rendimiento, pues distribuye el proceso de deduplicación entre un gran número de soportes o de servidores clientes. La deduplicación en destino requiere dispositivos de almacenamiento específicos potentes, pues exige procesar en destino la carga de safeguard completa. Como las implantaciones de software permiten distribuir mejor la carga de trabajo, el rendimiento de la deduplicación intermedia puede superar el de sus equivalentes basados en el haDRware.

La elección entre un enfoque software o haDRware dependerá del software de safeguard que tenga usted implantado en la actualidad. Si el software de safeguard implantado no tiene una opción o función de deduplicación, cambiar a otro que sí lo tenga puede conllevar dificultades.

Información sobre la autora: Lauren Whitehouse es analista de Enterprise Strategy Group y se dedica a las tecnologías de protección de datos. Lauren tiene más de 20 años de experiencia en el sector del software, donde también ha desempeñado responsabilidades de marketing y de desarrollo de software.

Investigue más sobre Copia de seguridad y protección

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close