Qué es la deduplicación en el almacenamiento de datos de respaldo

Tutoriales

Las grandes infraestructuras virtuales de hoy generan una vasta cantidad de datos. Esto conduce a un aumento en los datos de respaldo y en el gasto en infraestructura de almacenamiento de respaldo, que incluye dispositivos de almacenamiento y su mantenimiento. Por esta razón, los administradores de red buscan formas de ahorrar espacio de almacenamiento al crear copias de seguridad frecuentes de máquinas y aplicaciones críticas.

Una de las técnicas ampliamente utilizadas es la deduplicación de respaldo. Esta publicación de blog cubre qué es la deduplicación de datos, los tipos de deduplicación y los casos de uso con un enfoque en las copias de seguridad.

¿Qué es la Deduplicación?

La deduplicación de datos es una tecnología de optimización de capacidad de almacenamiento. La deduplicación de datos implica leer los datos fuente y los datos ya almacenados para transferir o guardar solo bloques de datos únicos. Se mantienen referencias a los datos duplicados. Al utilizar esta tecnología para evitar duplicados en un volumen, se puede ahorrar espacio en disco y reducir la sobrecarga de almacenamiento.

Orígenes de la deduplicación de datos

Los precursores de la deduplicación de datos son los algoritmos de compresión LZ77 y LZ78 introducidos en 1977 y 1978 respectivamente. Involucran reemplazar secuencias de datos repetidas con referencias a las originales.

Este concepto influyó en otros métodos de compresión populares. El más conocido de estos es DEFLATE, que se utiliza en los formatos de imagen PNG y archivos ZIP. Ahora veamos cómo funciona la deduplicación con copias de seguridad de VM y cómo exactamente ayuda a ahorrar espacio de almacenamiento y costos en infraestructura.

¿Qué es la Deduplicación en Copias de Seguridad?

Durante una copia de seguridad, la deduplicación de datos verifica bloques de datos idénticos entre el almacenamiento de origen y el repositorio de copia de seguridad de destino. Los duplicados no se copian y se crea una referencia, o puntero, a los bloques de datos existentes en el almacenamiento de copia de seguridad de destino.

¿Cuánto espacio puede ahorrar la deduplicación de datos?

Para entender cuánto espacio de almacenamiento se puede ganar con la deduplicación, consideremos un ejemplo. Los requisitos mínimos del sistema para instalar Windows Server 2016 son al menos 32 GB de espacio en disco libre. Si tiene diez MV en ejecución con este SO, las copias de seguridad sumarán al menos 320 GB, y este es solo un sistema operativo limpio sin ninguna aplicación o base de datos en él.

Lo más probable es que si necesita implementar más de una máquina virtual (MV) con el mismo sistema, usará una plantilla, lo que significa que inicialmente tendrá diez máquinas idénticas. Y esto también significa que obtendrá 10 conjuntos de bloques de datos duplicados. En este ejemplo, tendrá una relación de ahorro de espacio de almacenamiento de 10:1. En general, se considera que los ahorros que van desde 5:1 hasta 10:1 son buenos.

Razón de la Deduplicación de DatosLa razón de la deduplicación de datos es una métrica utilizada para medir el tamaño de los datos originales versus el tamaño de los datos después de que se eliminan las porciones redundantes. Esta métrica le permite evaluar la efectividad del proceso de deduplicación de datos. Para calcular el valor, debe dividir la cantidad de datos antes de la deduplicación por el espacio de almacenamiento consumido por estos datos después de ser deduplicados.

La proporción de deduplicación de datos es una métrica utilizada para medir el tamaño original de los datos frente al tamaño de los datos después de eliminar las porciones redundantes. Esta métrica te permite evaluar la efectividad del proceso de deduplicación de datos. Para calcular el valor, debes dividir la cantidad de datos antes de la deduplicación por el espacio de almacenamiento consumido por estos datos después de haber sido deduplicados.

Por ejemplo, una proporción de deduplicación de 5:1 significa que puedes almacenar cinco veces más datos respaldados en tu almacenamiento de respaldo de lo que se requiere para almacenar los mismos datos sin deduplicación.

Debes determinar la proporción de deduplicación y la reducción del espacio de almacenamiento. Estos dos parámetros a veces se confunden. Las proporciones de deduplicación no cambian proporcionalmente a los beneficios de reducción de datos, ya que la ley de los rendimientos decrecientes está destinada a entrar en juego más allá de cierto punto. Consulta el gráfico a continuación.

Esto significa que las proporciones más bajas pueden generar ahorros más significativos que las más altas. Por ejemplo, una proporción de deduplicación de 50:1 no es cinco veces mejor que una proporción de 10:1. La proporción de 10:1 proporciona una reducción del 90% del espacio de almacenamiento consumido, mientras que la proporción de 50:1 aumenta este valor al 98%, dado que la mayor parte de la redundancia ya ha sido eliminada. Para obtener más información sobre cómo se calculan estos porcentajes, puedes consultar el documento de la Asociación de la Industria de Redes de Almacenamiento (SNIA) sobre deduplicación de datos.

Factores que afectan a la eficiencia de la deduplicación de datos

Es difícil predecir la eficiencia de reducción de datos hasta que los datos se deduplican realmente debido a varios factores. A continuación, se presentan algunos de los factores que tienen un impacto en la reducción de datos al usar la deduplicación:

Tipos y políticas de respaldo de datos. La deduplicación para respaldos completos es más efectiva que para respaldos incrementales o diferenciales.
Tasa de cambio. Si hay muchos cambios de datos para respaldar, entonces la relación de deduplicación es menor.
Configuraciones de retención. Cuanto más tiempo almacenes los respaldos de datos en el almacenamiento de respaldo, más efectiva puede ser la deduplicación de datos en este almacenamiento.
Tipo de datos. La deduplicación para archivos en los que los datos ya han sido comprimidos, como JPG, PNG, MPG, AVI, MP4, ZIP, RAR, etc., no es efectiva. Lo mismo ocurre con los datos ricos en metadatos y encriptados. Los tipos de datos que contienen partes repetitivas son mejores para la deduplicación.
Ámbito de datos. La deduplicación de datos es más efectiva para un gran ámbito de datos. La deduplicación global puede ahorrar más espacio de almacenamiento en comparación con la deduplicación local.

Nota: La deduplicación local funciona en un solo nodo/dispositivo de disco. La deduplicación global analiza todo el conjunto de datos en todos los nodos/dispositivos de disco para eliminar duplicados de datos. Si tiene varios nodos con deduplicación local habilitada en cada uno, la deduplicación no sería tan eficiente como si tuviera habilitada la deduplicación global para ellos.

Software y hardware. Combinar soluciones de software y hardware de deduplicación puede ofrecer mejores ratios de deduplicación que solo el software. Por ejemplo, la solución de copia de seguridad de NAKIVO ofrece integración con HP StoreOnce, Dell EMC Data Domain y los dispositivos de deduplicación NEC HYDRAstor para ratios de deduplicación de hasta 17:1.

Técnicas de Deduplicación de Copia de Seguridad

Las técnicas de deduplicación de copia de seguridad se pueden categorizar según lo siguiente:

Dónde se realiza la deduplicación de datos
Cuándo se realiza la deduplicación
Cómo se realiza la deduplicación

Dónde se realiza la deduplicación de datos

La deduplicación de copia de seguridad se puede realizar en el lado de origen o en el lado de destino, y esas técnicas se llaman deduplicación en el lado de origen y deduplicación en el lado de destino, respectivamente.

Deduplicación en el lado de origen

La deduplicación del lado de la fuente disminuye la carga de la red porque se transfiere menos datos durante la copia de seguridad. Sin embargo, requiere que se instale un agente de deduplicación en cada MV o en cada host. La otra desventaja es que la deduplicación del lado de la fuente puede ralentizar las MV debido a los cálculos necesarios para la identificación de bloques de datos duplicados.

La deduplicación del lado del objetivo

Primero transfiere los datos al repositorio de copia de seguridad y luego realiza la deduplicación. Las tareas de computación intensiva las realiza el software responsable de la deduplicación.

Cuando se realiza la deduplicación de datos

La deduplicación de copia de seguridad puede ser en línea o posterior al procesamiento.

La deduplicación en línea verifica duplicados de datos antes de que se escriban en un repositorio de copia de seguridad. Esta técnica requiere menos espacio de almacenamiento en un repositorio de copia de seguridad, ya que elimina las redundancias en el flujo de datos de copia de seguridad, pero resulta en un tiempo de copia de seguridad más largo, ya que la deduplicación en línea ocurre durante la tarea de copia de seguridad.
La deduplicación posterior al procesamiento procesa los datos después de que se escriben en el repositorio de copia de seguridad. Obviamente, este enfoque requiere más espacio libre en el repositorio, pero las copias de seguridad se ejecutan más rápido y todas las operaciones necesarias se realizan después. La deduplicación posterior al procesamiento también se llama deduplicación asincrónica.

Cómo se realiza la deduplicación de datos

Los métodos más comunes para identificar duplicados son los basados en hash y los basados en hash modificados.

Con el método basado en hash, el software de deduplicación divide los datos en bloques de longitud fija o variable y calcula un hash para cada uno de ellos utilizando algoritmos criptográficos como MD5, SHA-1 o SHA-256. Cada uno de estos métodos produce una huella digital única de los bloques de datos, por lo que los bloques con hashes similares se consideran idénticos. La desventaja de este método es que puede requerir recursos informáticos significativos, especialmente en el caso de copias de seguridad grandes.
El método modificado basado en hash utiliza algoritmos generadores de hash más simples como CRC, que producen solo 16 bits (en comparación con los 256 bits de SHA-256). Luego, si los bloques tienen hashes similares, se comparan byte por byte. Si son completamente iguales, se considera que los bloques son idénticos. Este método es un poco más lento que el basado en hash pero requiere menos recursos informáticos.

Elección del software de deduplicación de copias de seguridad

La deduplicación de copias de seguridad es uno de los casos de uso más populares de la deduplicación. Aún así, es necesario contar con la solución de software adecuada y el hardware de almacenamiento para implementar esta tecnología de reducción de datos.

NAKIVO Backup & Replication es una solución de copia de seguridad que admite el uso de la deduplicación de posprocesamiento global de destino con detección de duplicados basada en hash modificada. También puedes aprovechar la deduplicación en el lado de origen integrando un dispositivo de deduplicación como DELL EMC Data Domain con DD Boost, NEC HYDRAstor y HP StoreOnce con soporte de Catalyst con la solución NAKIVO.

Source:
https://www.nakivo.com/blog/backup-deduplication-explained/