Restauración de datos deduplicados

La deduplicación de datos es una de las tecnologías de backup más prometedoras de hoy en día, pero al restaurar los datos deduplicados pueden surgir problemas. Aquí se señalan algunas cosas que conviene vigilar.

En el mercado del almacenamiento secundario, se habla sobre todo de la  deduplicación de datos en los esquemas de safeguard en disco. Las ventajas de la deduplicación son significativas. Permiten conservar los datos de safeguard en disco durante periodos de tiempo más dilatados, o ampliar las estrategias de safeguard en disco a otras capas de aplicaciones de su entorno. Cada estrategia implica que los tiempos de recuperación pueden mejorar enormemente (con respecto a la safeguard en cinta) para una mayor porción de los datos del entorno. La reducción del volumen de datos conseguida mediante la deduplicación también reduce el tráfico en la red – que, dependiendo de dónde se realice la deduplicación, puede incidir en el volumen de datos transferidos por la red de área local, la red de áreas de almacenamiento o la red de área amplia y conseguir que a las organizaciones les resulte más viable implantar la consolidación de safeguards para las sucursales y oficinas remotas así como la replicación fuera de la sede para disponer de protección de recuperación de desastres. Ambos supuestos introducen mejoras significativas con respecto a las estrategias de cinta, donde el soporte físico requiere manipulación y transferencia física entre sedes.

Se ha dedicado mucha más atención (y esfuerzos comerciales de los proveedores) al proceso de deduplicación de datos para la safeguard – y concretamente a determinar cuándo, dónde, cómo y en qué grado incide la deduplicación en el proceso de escritura de datos. Ahora bien, esa atención no va acompañada de una mayor comprensión de la forma en que la deduplicación afecta al proceso de recuperación – y concretamente, a la velocidad a la cual se pueden recuperar los datos para la restauración.

Durante el proceso de recuperación, los datos solicitados pueden no residir en el disco en bloques contiguos – y esto es así incluso en las safeguards que no se han deduplicado. Conforme expiran los datos de safeguard y se libera espacio de almacenamiento, se puede producir una fragmentación que prolonga el tiempo de recuperación. Este mismo concepto se aplica a los datos deduplicados, pues los datos únicos -- y los indicadores que remiten a los datos únicos – pueden estar almacenados de forma no secuencial, frenando el rendimiento de recuperación.

Algunos proveedores de sistemas de safeguard y almacenamiento que ofrecen funciones de deduplicación se han anticipado a estos problemas de rendimiento de la recuperación y han optimizado sus productos para enmascarar el problema de fragmentación en el disco. Las soluciones de algunos proveedores, como ExaGrid Systems Inc. y Sepaton Inc., pueden conservar una copia de la última safeguard en formato completo, lo cual permite una restauración más rápida de los datos protegidos más recientemente, frente a otras soluciones que tienen que reconstituir los datos basándose en días, semanas o meses de indicadores. Otras soluciones están configuradas en una arquitectura que distribuye la carga de trabajo de deduplicación de datos durante la safeguard, y la actividad de reensamblaje durante la recuperación entre varios motores de deduplicación para acelerar el proceso. Esto se hace tanto con enfoques de software como de haDRware. Los proveedores que reparten las actividades de deduplicación entre varios nodos y, cosa importante, permiten añadir nodos suplementarios, pueden ofrecer una mayor escalabilidad del rendimiento que los que ofrecen un único punto de ingestión/tratamiento.

El rendimiento depende de diversos factores, entre ellos el software de safeguard, el ancho de banda de la red, el tipo de disco, y otros. El tiempo necesario para restaurar un solo archivo diferirá mucho del tiempo necesario para una restauración completa. Por consiguiente, será importante comprobar cómo funciona un motor de deduplicación en diversas condiciones de recuperación, en especial cuando se trata de datos conservados durante un periodo de tiempo más prolongado, para evaluar el impacto potencial de la deduplicación en su entorno.

Información sobre la autora: Lauren Whitehouse es analista de Enterprise Strategy Group y se dedica a las tecnologías de protección de datos. Lauren tiene más de 20 años de experiencia en el sector del software, donde también ha desempeñado responsabilidades de marketing y de desarrollo de software.

Profundice más

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close