microworks - Fotolia

P
Gestionar Aprenda a aplicar las mejores prácticas y optimizar sus operaciones.

¿Cómo decido cuándo deduplicar datos y dónde?

En su superficie, la deduplicación de datos es positiva porque elimina datos redundantes. Utilice la tecnología con cuidado, pero en el momento adecuado, para obtener los mejores resultados.

La deduplicación de datos tiene el potencial de reducir significativamente el espacio de almacenamiento de una organización. Aun así, la forma en que deduplique datos puede desempeñar un papel importante en su efectividad.

Lo primero que debe entender acerca de la deduplicación de datos es que las proporciones de deduplicación anunciadas por los proveedores (25:1, 50:1, etc.) suelen ser las mejores estimaciones posibles. No hay forma de que un proveedor pueda garantizar la proporción por la cual se puede reducir su huella de datos. Esto se debe a que la naturaleza de sus datos es el factor más importante para determinar la eficacia con la que el proveedor puede deduplicar los datos.

La deduplicación funciona eliminando datos duplicados. Si no existe redundancia dentro de los datos, entonces ningún motor de deduplicación podrá reducir la huella de los datos. Algunos tipos de datos que tienden a no beneficiarse de la deduplicación incluyen archivos multimedia comprimidos, como MPEG, JPG, etc.; archivos comprimidos, como ZIP, CAB, etc.; y datos científicos, que a menudo son algo aleatorios.

La forma en que los sistemas realizan la deduplicación también puede marcar la diferencia. La mayoría de los motores deduplican datos ya sea en línea o después del proceso.

En línea, después del proceso, global: ¿Qué deduplicación, si corresponde, es adecuada para usted?

La deduplicación en línea ocurre en tiempo real. Si, por ejemplo, transmite continuamente datos a la nube, la deduplicación en línea puede ser beneficiosa porque puede reducir los datos antes de que se transmitan, reduciendo así el ancho de banda requerido y el tiempo de transferencia.

La deduplicación posterior al proceso se ejecuta de forma programada. Un motor de deduplicación posterior al proceso podría, por ejemplo, deduplicar datos a las 11 p.m. cada noche.

La deduplicación posterior al proceso a veces puede lograr una proporción mayor que la deduplicación en línea, pero tiene sus desventajas. Por un lado, el repositorio de almacenamiento debe ser lo suficientemente grande como para almacenar los datos en su forma sin comprimir antes de la deduplicación. También puede requerir algo de espacio de almacenamiento adicional para acomodar la sobrecarga asociada con el proceso de deduplicación. Otra desventaja es que el proceso posterior tiende a consumir muchos recursos, por lo que probablemente no desee programar el motor para deduplicar los datos en medio de la jornada laboral.

Algunas organizaciones combinan la deduplicación en línea y posterior al proceso en un proceso denominado deduplicación global. Imagine que varias fuentes de datos diferentes se deduplican en línea y se escriben en un destino de almacenamiento común. Aunque cada flujo de datos ha sido deduplicado, siempre existe la posibilidad de que haya alguna redundancia de flujo cruzado. La deduplicación posterior al proceso se puede utilizar para eliminar esta redundancia.

La deduplicación global combina lo mejor de ambos mundos. El motor de deduplicación en línea minimiza la cantidad de datos que fluyen a través del cable, mientras que el motor de deduplicación posterior al proceso elimina cualquier información redundante que pueda estar presente en el dispositivo de almacenamiento.

Profundice más

¿Qué necesita resolver?

Por favor, añada un título para su pregunta

Obtenga respuestas de un experto de TechTarget en lo que sea que necesite resolver

Usted será capaz de añadir detalles en la siguiente página

Inicie la conversación

Envíenme notificaciones cuando otros miembros comenten sobre este artículo.

Por favor cree un Nombre de usuario para poder comentar.

- ANUNCIOS POR GOOGLE

Close