BACKGROUND IMAGE: iSTOCK/GETTY IMAGES

Este contenido es parte de Guía Esencial: Protección de datos empresariales: Guía Esencial
Resolver Problemas Consiga ayuda para problemas específicos con sus proyectos, procesos y tecnologías.

Métodos de deduplicación de datos: por bloques o por bytes

Para poder decidir cuál es el más adecuado para su entorno de backup, es imprescindible comprender las diferencias entre los métodos de deduplicación de datos por bloques y por bytes.

La deduplicación de datos identifica los datos duplicados, elimina las redundancias y reduce el volumen global de datos transferidos y almacenados. En mi último artículo, repasaba las diferencias entre deduplicación de datos a nivel de archivo y a nivel de bloque. En este artículo, evalúo la deduplicación a nivel de byte en comparación con el nivel de bloque. La deduplicación por bytes proporciona una inspección más granular de los datos que los enfoques por bloque, lo cual garantiza una mayor precisión, pero a menudo requiere un mayor conocimiento de la corriente de safeguard para realizar su función.

Enfoques por bloque

La deduplicación por bloques de datos segmenta las corrientes de datos en bloques, e inspecciona los bloques para determinar si ya han aparecido antes (típicamente, generando una huella digital o un identificador único a través de un algoritmo de Hash. Si el bloque es único, se escribe en el disco y su identificador único se incluye en un índice; de lo contrario sólo se almacena un indicador que remite al único bloque original. Al sustituir los bloques repetidos por indicadores mucho más pequeños en lugar de volver a guardar el bloque, se ahorra espacio.

Las críticas a los enfoques por bloque son 1) la utilización de un algoritmo de Hash para calcular el ID único introduce el riesgo de generar un falso positivo; y 2) almacenar IDs únicos en un índice puede ralentizar el proceso de inspección a medida que aumenta su tamaño y requiere E/O de disco (a menos que se controle el tamaño del índice y la comparación de datos se realice en la memoria).

Las colisiones de Hash pueden provocar un falso positivo cuando se utiliza un algoritmo basado en Hash para determinar los duplicados. Los algoritmos de Hash, como MD5 y SHA-1, generan un número único para la porción de datos examinada. Aunque las colisiones de Hash y la corrupción de datos resultantes es una posibilidad real, su incidencia es muy reducida.

Deduplicación por bytes de datos

Otro enfoque de deduplicación consiste en analizar las corrientes de datos por bytes. Al realizar una comparación byte a byte de las corrientes de datos nuevos con los almacenados previamente, se puede conseguir un mayor nivel de precisión. Los productos de deduplicación que utilizan este método tienen un rasgo en común: es posible que la corriente de datos de safeguard entrante ya se haya visto antes, de modo que se revisa para ver si coincide con datos similares recibidos con anterioridad.

Los productos que aplican el enfoque por byte suelen ser “conscientes del contenido”, lo cual significa que el proveedor ha realizado algo de compilación inversa de la corriente de datos de la aplicación de safeguard (protección) para comprender cómo recuperar información como el nombre de archivo, tipo de archivo, marca de fecha y hora, etc. Este método reduce la cantidad de computación necesaria para diferenciar los datos únicos de los duplicados. ¿El inconveniente? Este enfoque se suele aplicar después del proceso – es decir que se realiza sobre los datos de safeguard una vez terminada ésta. Por consiguiente, los trabajos de safeguard se llevan a cabo a pleno rendimiento del disco, pero requieren una reserva de cache del disco para llevar a cabo el proceso de deduplicación. También es probable que el proceso de deduplicación se limite a una única serie de safeguards y no se aplique “globalmente” a todas las series de safeguards.

Una vez terminado el proceso de deduplicación, la solución libera espacio del disco eliminando los datos duplicados. Antes de que se lleve a cabo la liberación de espacio, se puede realizar una prueba de integridad para comprobar que los datos deduplicados coincidan con los datos objeto originales. También se puede mantener la última safeguard completa de modo que la restauración no dependa de la reconstitución de datos deduplicados, para permitir una rápida recuperación.

¿Qué enfoque es mejor?

Tanto el método por bloques como el método por bytes ofrecen la ventaja de optimizar la capacidad de almacenamiento. Para optar por uno u otro enfoque, antes deberá estudiar cuándo, dónde y cómo ejecutar los procesos en su propio entorno de safeguard, y los requisitos específicos del mismo. Su proceso de investigación debe incluir asimismo referencias a entidades con características y requisitos similares.

Sobre la autora: Lauren Whitehouse es analista de Enterprise Strategy Group y se dedica a las tecnologías de protección de datos. Lauren tiene más de 20 años de experiencia en el sector del software, donde también ha desempeñado responsabilidades de marketing y de desarrollo de software.

Este artículo se actualizó por última vez en noviembre 2008

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close