Resolver Problemas Consiga ayuda para problemas específicos con sus proyectos, procesos y tecnologías.

Ventajas e inconvenientes de la tecnología de deduplicación de datos por archivos y por bloques

Algunos enfoques de deduplicación de datos se aplican a nivel de archivo, mientras que otros examinan los datos a nivel de bloque. Este consejo estudia las ventajas e inconvenientes de cada método.

La deduplicación de datos ha mejorado espectacularmente la propuesta de valor de la  protección de datos en disco, así como las estrategias de consolidación de safeguards y de recuperación de desastres en red de área amplia con sucursales y oficinas remotas. Identifica los datos duplicados, elimina las redundancias y reduce el volumen global de datos transferidos y almacenados.

Algunos enfoques de deduplicación actúan a nivel de archivo, pero otros van más allá y examinan los datos a nivel de subarchivo o de bloque. La determinación del carácter único a nivel de archivo o de bloques presenta ventajas, aunque los resultados varían. Las diferencias residen en la cantidad de reducción conseguida mediante cada enfoque, y en el tiempo que taDRa cada enfoque en determinar qué es único.

Deduplicación por archivos

La deduplicación de datos por archivo, también denominada almacenamiento de instancia única, (SIS), compara un archivo que hay que safeguardr o archivar con los que ya están almacenando, a través de la comparación de sus atributos con un índice. Si el archivo es único, se almacena y se actualiza el índice; si no lo es, sólo se almacena un indicador que apunta al archivo existente. El resultado es que sólo se salva un ejemplar del archivo, y las copias subsiguientes se sustituyen por un “talón” que remite al archivo original.

Deduplicación por bloques

La deduplicación de datos por bloques actúa a nivel de subarchivo. Como su propio nombre indica, el archivo se divide en segmentos – fragmentos o bloques – que se cotejan con la información almacenada previamente buscando posibles redundancias.

El enfoque más popular para identificar duplicados consiste en asignar un identificador a cada fragmento de datos, utilizando un algoritmo de Hash, por ejemplo, que genera un ID o “huella dactilar” única para ese bloque. A continuación se compara el ID con un índice central. Si el ID ya existe, significa que el segmento de datos ya se ha procesado y almacenado antes. Por consiguiente, sólo hace falta guaDRar un indicador que remita a los datos almacenados previamente. Si el ID es nuevo, entonces el bloque es único. Así que se incorpora al índice El ID único, y se almacena el fragmento único.

El tamaño del fragmento examinado varía en función del proveedor. Algunos tienen tamaños de bloque fijos, mientras que otros utilizan tamaños de bloque variables (y por si eso no fuera suficientemente confuso, algunos permiten que los usuarios finales modifiquen el tamaño del bloque fijo). Los bloques fijos pueden ser de 8 KB o quizás de 64 KB – la diferencia es que cuanto más pequeño sea el fragmento, más posibilidades habrá de identificarlo como redundante. Esto, a su vez, significa mayores reducciones, pues se almacenan aún menos datos. El único problema que plantean los bloques fijos es que si se modifica un archivo y el producto de deduplicación utiliza los mismos bloques fijos que en la inspección anterior, es posible que no detecte segmentos redundantes, porque como los bloques del archivo han cambiado o se han desplazado, varían a partir de la modificación, dejando sin efecto el resto de comparaciones.

Los bloques de tamaño variable contribuyen a incrementar las posibilidades de que se detecte un segmento común, incluso después de que se modifique un archivo. Este enfoque encuentra los patrones naturales o puntos de ruptura que aparecen en un archivo, y segmenta los datos en función de los mismos. Este enfoque tiene más posibilidades de encontrar segmentos repetidos aunque cambien los bloques cuando se modifica un archivo. ¿El inconveniente? Un enfoque de extensión variable puede exigir a un proveedor realizar el seguimiento y la comparación de más de un único ID por segmento, lo cual puede afectar al tamaño del índice y a los tiempos de computación.

Las diferencias entre la deduplicación por archivos o por bloques va más allá de su forma de funcionamiento. Cada enfoque presenta sus propias ventajas e inconvenientes.

Los enfoques a nivel de archivo pueden ser menos eficientes que la deduplicación por bloques:

-Un cambio en el archivo provoca que se vuelva a salvar todo el archivo. En un archivo, como por ejemplo una presentación en PowerPoint, puede cambiar algo tan sencillo como el encabezamiento de la página para reflejar un cambio de fecha o de presentador – y eso hará que se vuelva a guaDRar todo el archivo por segunda vez. La deduplicación por bloques sólo guaDRaría los bloques modificados entre una versión del archivo y la siguiente. Las ratios de reducción pueden ser del oDRen del 5:1 o menos solamente, mientras que la deduplicación por bloques ha conseguido reducir el volumen de datos guaDRados del oDRen del 20:1 al 50:1.

Los enfoques por archivos pueden resultar más eficientes que la deduplicación de datos por bloques:

-Los índices de deduplicación por archivos son significativamente menores, con lo que lleva menos tiempo de cómputo localizar los duplicados. Por consiguiente, la deduplicación afecta menos al rendimiento de safeguard. Los procesos a nivel de archivo requieren menos potencia de tratamiento, debido a que el índice es menor y el número de comparaciones más reducido. Por consiguiente, incide menos en los sistemas que realizan la inspección. El impacto en el tiempo de recuperación es escaso. La deduplicación por bloques, en cambio, exige volver a ensamblar los fragmentos basándose en el índice maestro que cartografía los segmentos únicos y los indicadores que remiten a los segmentos únicos. Como los enfoques basados en archivos almacenan archivos únicos e indicadores que apuntan a archivos únicos, hay menos necesidad de reensamblaje.

Información sobre la autora: Lauren Whitehouse es analista de Enterprise Strategy Group y se dedica a las tecnologías de protección de datos. Lauren tiene más de 20 años de experiencia en el sector del software, donde también ha desempeñado responsabilidades de marketing y de desarrollo de software. 

Investigue más sobre Copia de seguridad y protección

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close