Cos’è la Deduplicazione nello Storage dei Dati di Backup

Tutorial

Le grandi infrastrutture virtuali odierne generano una vasta quantità di dati. Ciò porta ad un aumento dei dati di backup e della spesa per l’infrastruttura di archiviazione dei backup, che include dispositivi di archiviazione e la loro manutenzione. Per questo motivo, gli amministratori di rete cercano modi per risparmiare spazio di archiviazione durante la creazione di backup frequenti di macchine e applicazioni critiche.

Una delle tecniche ampiamente utilizzate è la deduplicazione dei backup. Questo post del blog copre cos’è la deduplicazione dei dati, i tipi di deduplicazione e i casi d’uso con un focus sui backup.

Cos’è la Deduplicazione?

La deduplicazione dei dati è una tecnologia di ottimizzazione della capacità di archiviazione. La deduplicazione dei dati comporta la lettura dei dati di origine e dei dati già presenti nell’archiviazione per trasferire o salvare solo blocchi di dati univoci. Vengono mantenuti riferimenti ai dati duplicati. Utilizzando questa tecnologia per evitare duplicati su un volume, è possibile risparmiare spazio su disco e ridurre l’overhead di archiviazione.

Origini della deduplicazione dei dati

I predecessori della deduplicazione dei dati sono gli algoritmi di compressione LZ77 e LZ78 introdotti rispettivamente nel 1977 e nel 1978. Coinvolgono la sostituzione di sequenze di dati ripetuti con riferimenti a quelli originali.

Questo concetto ha influenzato altri metodi di compressione popolari. Il più conosciuto di questi è DEFLATE, che è utilizzato nei formati di immagine PNG e nei file ZIP. Ora vediamo come funziona la deduplicazione con i backup delle VM e in che modo aiuta esattamente a risparmiare spazio di archiviazione e costi spesi per l’infrastruttura.

Cos’è la Deduplicazione nei Backup?

Durante un backup, la deduplicazione dei dati controlla blocchi di dati identici tra lo storage di origine e il repository di backup di destinazione. I duplicati non vengono copiati, e viene creato un riferimento, o puntatore, ai blocchi di dati esistenti nello storage di backup di destinazione.

Quanto Spazio Può Risparmiare la Deduplicazione dei Dati?

Per capire quanto spazio di archiviazione si può guadagnare con la deduplicazione, consideriamo un esempio. I requisiti minimi di sistema per l’installazione di Windows Server 2016 sono almeno 32 GB di spazio su disco libero. Se hai dieci VM che eseguono questo sistema operativo, i backup totalizzeranno almeno 320 GB, e questo è solo un sistema operativo pulito senza alcune applicazioni o database su di esso.

È probabile che se devi distribuire più di una macchina virtuale (VM) con lo stesso sistema, utilizzerai un modello, il che significa che inizialmente avrai dieci macchine identiche. E ciò significa anche che otterrai 10 insiemi di blocchi di dati duplicati. In questo esempio, avrai un rapporto di risparmio dello spazio di archiviazione di 10:1. In generale, risparmi che vanno da 5:1 a 10:1 sono considerati buoni.

Rapporto di Deduplicazione dei DatiIl rapporto di deduplicazione dei dati è una metrica utilizzata per misurare la dimensione dei dati originali rispetto alla dimensione dei dati dopo che le porzioni ridondanti sono state rimosse. Questa metrica ti consente di valutare l’efficacia del processo di deduplicazione dei dati. Per calcolare il valore, devi dividere la quantità di dati prima della deduplicazione per lo spazio di archiviazione consumato da questi dati dopo essere stati deduplicati.

Il rapporto di deduplicazione dei dati è una metrica utilizzata per misurare la dimensione dei dati originali rispetto alla dimensione dei dati dopo che le parti ridondanti sono state rimosse. Questa metrica ti consente di valutare l’efficacia del processo di deduplicazione dei dati. Per calcolare il valore, dovresti dividere la quantità di dati prima della deduplicazione per lo spazio di archiviazione occupato da questi dati dopo essere stati deduplicati.

Ad esempio, il rapporto di deduplicazione 5:1 significa che puoi memorizzare cinque volte più dati di backup nel tuo archivio di backup rispetto a quanto sarebbe necessario per memorizzare gli stessi dati senza deduplicazione.

Dovresti determinare il rapporto di deduplicazione e riduzione dello spazio di archiviazione. Questi due parametri a volte sono confusi. I rapporti di deduplicazione non cambiano in modo proporzionale ai benefici della riduzione dei dati, poiché la legge dei rendimenti decrescenti è destinata a entrare in gioco oltre un certo punto. Vedi il grafico qui sotto.

Ciò significa che i rapporti più bassi possono apportare risparmi più significativi rispetto a quelli più alti. Ad esempio, un rapporto di deduplicazione 50:1 non è cinque volte migliore di un rapporto 10:1. Il rapporto 10:1 fornisce una riduzione del 90% dello spazio di archiviazione consumato, mentre il rapporto 50:1 aumenta questo valore al 98%, dato che la maggior parte della ridondanza è già stata eliminata. Per ulteriori informazioni su come questi percentuali sono calcolate, puoi vedere documento dell’Associazione per le Reti di Archiviazione (SNIA) sulla deduplicazione dei dati.

Fattori che influenzano l’efficienza della deduplicazione dei dati

È difficile prevedere l’efficienza della riduzione dei dati fino a quando i dati non vengono effettivamente deduplicati a causa di diversi fattori. Di seguito sono riportati alcuni dei fattori che influenzano la riduzione dei dati quando si utilizza la deduplicazione:

Tipi e politiche di backup dei dati. La deduplicazione per backup completi è più efficace rispetto a incrementali o differenziali.
Tasso di cambiamento. Se ci sono molti cambiamenti dei dati da eseguire il backup, allora il rapporto di deduplicazione è inferiore.
Impostazioni di conservazione. Più a lungo si conservano i backup dei dati nel backup storage, più efficace può essere la deduplicazione dei dati su questo storage.
Tipo di dati. La deduplicazione per i file in cui i dati sono già stati compressi, come JPG, PNG, MPG, AVI, MP4, ZIP, RAR, ecc., non è efficace. Lo stesso vale per i dati ricchi di metadati e crittografati. I tipi di dati contenenti parti ripetitive sono più adatti per la deduplicazione.
Portata dei dati. La deduplicazione dei dati è più efficace per una vasta gamma di dati. La deduplicazione globale può risparmiare più spazio di archiviazione rispetto alla deduplicazione locale.

Nota: La deduplicazione locale funziona su un singolo nodo/dispositivo a disco. La deduplicazione globale analizza l’intero set di dati su tutti i nodi/dispositivi a disco per eliminare i duplicati dei dati. Se si hanno più nodi con la deduplicazione locale abilitata su ciascuno, la deduplicazione non sarebbe efficiente come con la deduplicazione globale abilitata per loro.

Software e hardware. Combinare soluzioni software e hardware di deduplicazione può offrire rapporti di deduplicazione migliori rispetto al solo software. Ad esempio, la soluzione di backup di NAKIVO offre integrazione con HP StoreOnce, Dell EMC Data Domain e gli apparecchi di deduplicazione NEC HYDRAstor per rapporti di deduplicazione fino a 17:1.

Tecniche di Deduplicazione del Backup

Le tecniche di deduplicazione del backup possono essere categorizzate in base ai seguenti:

Dove viene fatta la deduplicazione dei dati
Quando viene fatta la deduplicazione
Come viene fatta la deduplicazione

Dove viene fatta la deduplicazione dei dati

La deduplicazione del backup può essere fatta sul lato sorgente o sul lato destinazione, e tali tecniche sono chiamate rispettivamente deduplicazione sul lato sorgente e deduplicazione sul lato destinazione.

Deduplicazione sul lato sorgente

La deduplicazione lato sorgente riduce il carico di rete perché viene trasferito meno dati durante il backup. Tuttavia, richiede l’installazione di un agente di deduplicazione su ogni VM o su ogni host. L’altro svantaggio è che la deduplicazione lato sorgente può rallentare le VM a causa dei calcoli richiesti per l’identificazione dei blocchi di dati duplicati.

La deduplicazione lato destinazione

La deduplicazione lato destinazione trasferisce prima i dati al repository di backup e poi esegue la deduplicazione. Le attività di calcolo pesanti vengono eseguite dal software responsabile della deduplicazione.

Quando viene eseguita la deduplicazione dei dati

La deduplicazione dei backup può essere in linea o post-elaborazione.

Deduplicazione in linea controlla i duplicati di dati prima che vengano scritti in un repository di backup. Questa tecnica richiede meno spazio di archiviazione in un repository di backup poiché rimuove le ridondanze dallo stream di backup dei dati, ma si traduce in un tempo di backup più lungo poiché la deduplicazione in linea avviene durante il processo di backup.
Deduplicazione post-elaborazione elabora i dati dopo che sono stati scritti nel repository di backup. Ovviamente, questo approccio richiede più spazio libero nel repository, ma i backup vengono eseguiti più velocemente e tutte le operazioni necessarie vengono eseguite in seguito. La deduplicazione post-elaborazione è anche chiamata deduplicazione asincrona.

Come viene eseguita la deduplicazione dei dati

I metodi più comuni per identificare i duplicati sono quelli basati su hash e modificati basati su hash.

Con il metodo hash-based, il software di deduplicazione suddivide i dati in blocchi di lunghezza fissa o variabile e calcola un hash per ciascuno di essi utilizzando algoritmi crittografici come MD5, SHA-1 o SHA-256. Ognuno di questi metodi produce un’impronta digitale unica dei blocchi di dati, quindi i blocchi con hash simili sono considerati identici. Il difetto di questo metodo è che può richiedere risorse di calcolo significative, specialmente nel caso di backup di grandi dimensioni.
Il metodo modificato hash-based utilizza algoritmi di generazione hash più semplici come CRC, che producono solo 16 bit (rispetto ai 256 bit in SHA-256). Quindi, se i blocchi hanno hash simili, vengono confrontati byte per byte. Se sono completamente simili, i blocchi sono considerati identici. Questo metodo è un po’ più lento del metodo hash-based ma richiede meno risorse di calcolo.

Scegliere il Software di Deduplicazione dei Backup

La deduplicazione dei backup è uno dei casi d’uso più popolari della deduplicazione. Tuttavia, è necessario disporre della soluzione software e hardware appropriata per l’archiviazione per implementare questa tecnologia di riduzione dei dati.

NAKIVO Backup & Replication è una soluzione di backup che supporta l’uso della deduplicazione globale post-elaborazione con la rilevazione dei duplicati basata su hash modificati. Puoi anche trarre vantaggi dalla deduplicazione sul lato sorgente integrando un dispositivo di deduplicazione come DELL EMC Data Domain con DD Boost, NEC HYDRAstor e HP StoreOnce con supporto Catalyst con la soluzione NAKIVO.

Source:
https://www.nakivo.com/blog/backup-deduplication-explained/