O que é Deduplicação no Armazenamento de Dados de Backup

As grandes infraestruturas virtuais de hoje geram uma vasta quantidade de dados. Isso leva a um aumento nos dados de backup e nos gastos com infraestrutura de armazenamento de backup, que inclui dispositivos de armazenamento e sua manutenção. Por esse motivo, os administradores de rede buscam maneiras de economizar espaço de armazenamento ao criar backups frequentes de máquinas e aplicativos críticos.

Uma das técnicas amplamente utilizadas é a deduplicação de backup. Esta postagem no blog aborda o que é deduplicação de dados, tipos de deduplicação e casos de uso com foco em backups.

O Que É Deduplicação?

A deduplicação de dados é uma tecnologia de otimização de capacidade de armazenamento. A deduplicação de dados envolve a leitura dos dados de origem e dos dados já armazenados para transferir ou salvar apenas blocos de dados únicos. As referências aos dados duplicados são mantidas. Usando essa tecnologia para evitar duplicatas em um volume, é possível economizar espaço em disco e reduzir a sobrecarga de armazenamento.

Origens da deduplicação de dados

Os predecessores da deduplicação de dados são os algoritmos de compressão LZ77 e LZ78, introduzidos em 1977 e 1978, respectivamente. Eles envolvem a substituição de sequências de dados repetidos por referências aos originais.

Esse conceito influenciou outros métodos populares de compressão. O mais conhecido deles é o DEFLATE, que é usado nos formatos de arquivo de imagem PNG e ZIP. Agora, vamos ver como a deduplicação funciona com backups de VMs e como exatamente ela ajuda a economizar espaço de armazenamento e custos com infraestrutura.

O Que É Deduplicação em Backup?

Durante um backup, a deduplicação de dados verifica blocos de dados idênticos entre o armazenamento de origem e o repositório de backup de destino. Duplicatas não são copiadas, e uma referência, ou ponteiro, para os blocos de dados existentes no armazenamento de backup de destino é criada.

Quanto Espaço a Deduplicação de Dados Pode Economizar Para Você?

Para entender quanto espaço de armazenamento pode ser ganho com a deduplicação, vamos considerar um exemplo. Os requisitos mínimos do sistema para instalar o Windows Server 2016 são pelo menos 32 GB de espaço livre em disco. Se você tiver dez VMs executando este sistema operacional, os backups totalizarão pelo menos 320 GB, e isso é apenas um sistema operacional limpo sem aplicativos ou bancos de dados.

As chances são de que se você precisar implantar mais de uma máquina virtual (VM) com o mesmo sistema, você usará um modelo, e isso significa que inicialmente você terá dez máquinas idênticas. E isso também significa que você obterá 10 conjuntos de blocos de dados duplicados. Neste exemplo, você terá uma proporção de economia de espaço de 10:1. Em geral, economias variando de 5:1 a 10:1 são consideradas boas.

Razão de Deduplicação de DadosA razão de deduplicação de dados é uma métrica usada para medir o tamanho dos dados originais versus o tamanho dos dados após partes redundantes serem removidas. Esta métrica permite avaliar a eficácia do processo de deduplicação de dados. Para calcular o valor, você deve dividir a quantidade de dados antes da deduplicação pelo espaço de armazenamento consumido por esses dados após serem deduplicados.

A taxa de deduplicação de dados é uma métrica usada para medir a quantidade original de dados em relação à quantidade de dados após a remoção das partes redundantes. Essa métrica permite que você avalie a eficácia do processo de deduplicação de dados. Para calcular o valor, você deve dividir a quantidade de dados antes da deduplicação pela espaço de armazenamento consumido por esses dados depois de deduplicados.

Por exemplo, a taxa de deduplicação de 5:1 significa que você pode armazenar cinco vezes mais dados de backup em seu armazenamento de backup do que é necessário para armazenar os mesmos dados sem deduplicação.

Você deve determinar a taxa de deduplicação de dados e a redução do espaço de armazenamento. Esses dois parâmetros são às vezes confundidos. As taxas de deduplicação não mudam proporcionalmente aos benefícios da redução de dados, pois a lei do retorno cada vez menor está sempre para entrar em jogo além de certo ponto. Veja o gráfico abaixo.

Isso significa que as taxas mais baixas podem trazer economias maiores do que as taxas mais altas. Por exemplo, uma taxa de deduplicação de 50:1 não é cinco vezes melhor do que uma taxa de 10:1. A taxa de 10:1 fornece uma redução de 90% do espaço de armazenamento consumido, enquanto a taxa de 50:1 aumenta esse valor para 98%, dado que a maioria da redundância já foi eliminada. Para obter mais informações sobre como esses percentuais são calculados, você pode ver documento da Associação da Indústria de Rede de Armazenamento (SNIA) sobre deduplicação de dados.

Fatores que afetam a eficiência da deduplicação de dados

É difícil prever a eficiência de redução de dados até que os dados sejam efetivamente deduplicados devido a vários fatores. Os seguintes são alguns dos fatores que têm impacto na redução de dados ao usar a deduplicação:

  • Tipos e políticas de backup de dados. A deduplicação para backups completos é mais efetiva do que para backups incrementais ou diferenciais.
  • Taxa de alteração. Se houver muitas alterações de dados para fazer backup, então a taxa de deduplicação é menor.
  • Configurações de retenção. Quanto mais tempo você armazenar backups de dados no armazenamento de backup, mais efetiva será a deduplicação dos dados neste armazenamento.
  • Tipo de dados. A deduplicação para arquivos em que os dados já foram comprimidos, como JPG, PNG, MPG, AVI, MP4, ZIP, RAR, etc., não é efetiva. O mesmo vale para dados ricos em metadados e dados criptografados. Tipos de dados contendo partes repetitivas são melhores para deduplicação.
  • Escopo de dados. A deduplicação de dados é mais efetiva para um grande escopo de dados. A deduplicação global pode economizar mais espaço de armazenamento em comparação com a deduplicação local.

Nota: A desduplicação local funciona em um único nó/dispositivo de disco. A desduplicação global analisa todo o conjunto de dados em todos os nós/dispositivos de disco para eliminar os duplicatas de dados. Se você tiver vários nós com desduplicação local habilitada em cada um, a desduplicação não seria tão eficiente quanto com a desduplicação global habilitada para eles.

  • Software e hardware. A combinação de soluções de software com hardware de desduplicação oferece melhores taxas de desduplicação do que o software por si só. Por exemplo, a solução de backup NAKIVO fornece integração com HP StoreOnce, Dell EMC Data Domain e aparelhos de desduplicação NEC HYDRAstor para taxas de desduplicação de até 17:1.

Técnicas de Desduplicação em Backup

As técnicas de desduplicação em backup podem ser categorizadas com base em:

  • Onde a desduplicação de dados é feita
  • Quando a desduplicação é feita
  • Como a desduplicação é feita

Onde a desduplicação de dados é feita

A desduplicação em backup pode ser feita no lado fonte ou no lado alvo, e essas técnicas são chamadas de desduplicação de lado fonte e desduplicação de lado alvo, respectivamente.

Desduplicação de lado fonte

A desduplicação na fonte diminui a carga da rede porque transfere menos dados durante o backup. No entanto, exige que um agente de desduplicação seja instalado em cada VM ou em cada hospedeiro. Outro problema é que a desduplicação na fonte pode lentar VMs devido às contas necessárias para identificar blocos de dados duplicados.

A desduplicação no alvo

A desduplicação no alvo transfere primeiro os dados para o repositório de backup e depois realiza a desduplicação. As tarefas computacionais pesadas são realizadas pelo software responsável pela desduplicação.

Quando a desduplicação de dados é feita

A desduplicação de backup pode ser em linha ou pós-processamento.

  • A desduplicação em linha verifica se há duplicatas de dados antes de serem gravadas no repositório de backup. Esta técnica exige menos espaço de armazenamento no repositório de backup, pois remove as redundâncias do fluxo de dados de backup, mas resulta em um backup mais longo, pois a desduplicação em linha acontece durante o trabalho de backup.
  • A desduplicação de pós-processamento processa os dados depois de gravados no repositório de backup. Obviamente, essa abordagem exige mais espaço livre no repositório, mas os backups são mais rápidos e todas as operações necessárias são realizadas depois. A desduplicação de pós-processamento também é chamada de desduplicação assíncrona.

Como a desduplicação de dados é feita

Os métodos mais comuns para identificar duplicatas são baseados em hash e modificados baseados em hash.

  • Com o método baseado em hash, o software de deduplicação divide os dados em blocos de comprimento fixo ou variável e calcula um hash para cada um deles usando algoritmos criptográficos como MD5, SHA-1 ou SHA-256. Cada um desses métodos gera uma impressão digital única dos blocos de dados, então os blocos com hashes semelhantes são considerados idênticos. A desvantagem desse método é que pode exigir recursos computacionais significativos, especialmente no caso de backups grandes.
  • O método baseado em hash modificado usa algoritmos de geração de hash mais simples, como CRC, que produzem apenas 16 bits (em comparação com 256 bits no SHA-256). Em seguida, se os blocos tiverem hashes semelhantes, eles são comparados byte a byte. Se forem completamente iguais, os blocos são considerados idênticos. Este método é um pouco mais lento que o método baseado em hash, mas requer menos recursos computacionais.

Escolhendo Software de Deduplicação de Backup

A deduplicação de backup é um dos casos de uso mais populares da deduplicação. Ainda assim, você precisa ter a solução de software apropriada e hardware de armazenamento para implementar essa tecnologia de redução de dados.

O NAKIVO Backup & Replication é uma solução de backup que suporta o uso da deduplicação pós-processamento global com detecção de duplicatas baseada em hash modificada. Você também pode aproveitar a deduplicação no lado da origem integrando um appliance de deduplicação, como o DELL EMC Data Domain com DD Boost, NEC HYDRAstor e HP StoreOnce com suporte a Catalyst, com a solução NAKIVO.

Source:
https://www.nakivo.com/blog/backup-deduplication-explained/