Teste de Recuperação de Desastres e Por Que Sua Empresa Precisa Disso

Não importa o quão confiáveis os hardwares e softwares se tornaram hoje, as máquinas ainda são vulneráveis a falhas por diferentes motivos. Quando elas falham, os sistemas podem sair do ar e os dados podem ficar indisponíveis por longos períodos de tempo. E mesmo quando os sistemas são trazidos de volta ao ar, às vezes os dados são impossíveis de serem restaurados e são perdidos de forma irrevogável. A maneira mais confiável de mitigar esses riscos é implementar um plano abrangente de recuperação de desastres (DR).

A disaster recovery plan is a set of procedures that must be undertaken to restore data and workloads within set time limits. This detailed DR checklist includes mechanisms put in place in advance to prepare for different disaster scenarios.

As estatísticas mostram que 95% das empresas em todo o mundo investem recursos consideráveis no planejamento para o pior, incluindo em DR. No entanto, apenas 78% delas realizam testes de recuperação de desastres para verificar se seu plano realmente atende aos objetivos. Continue lendo para aprender o que é teste de recuperação de desastres e como desenvolver uma estratégia de teste de DR para sua organização para garantir a disponibilidade do sistema e a continuidade dos negócios através de qualquer incidente.

O Que É Teste de Recuperação de Desastres?

O teste de recuperação de desastres é a verificação dos passos do plano de DR para garantir que o plano possa ser implementado com sucesso e que aplicativos críticos e dados possam ser restaurados após uma interrupção. Testar o plano de recuperação de desastres tem como objetivo garantir que as operações comerciais e os serviços críticos possam ser mantidos durante e após um incidente.

Os testes de recuperação de desastres em sua forma mais abrangente envolvem simular uma falha de TI ou qualquer outro tipo de interrupção nos negócios para avaliar o plano de DR em vigor. Os principais objetivos do teste de recuperação de desastres são verificar se uma organização pode atender aos objetivos de tempo de recuperação (RTOs) e aos objetivos de ponto de recuperação (RPOs) estabelecidos no plano de recuperação de desastres. Você deve compreender RPOs vs RTOs e defini-los para cada aplicativo e VM. O teste de DR também fornece insights sobre como o sistema se comporta se alguma parte de sua infraestrutura se tornar indisponível. Essas informações podem ajudá-lo a aprimorar o plano de DR de sua organização e corrigir quaisquer pontos fracos antes que uma interrupção real ocorra.

Lembre-se de que um plano de teste de recuperação de desastres não deve se limitar aos componentes técnicos do plano de DR. É igualmente importante testar se cada funcionário envolvido na recuperação de desastres entende seu papel e tem acesso aos recursos necessários para desempenhar seu trabalho durante uma interrupção.

Os testes do plano de recuperação de desastres devem ser realizados regularmente, de preferência algumas vezes por ano. Os ambientes de TI mudam regularmente, com software desativado, novas aplicações introduzidas ou hardware substituído, o que, por sua vez, exige as devidas alterações em seu plano de DR. O processo de teste de DR pode fazer parte das rotinas de manutenção e treinamento da equipe.

Por que os Testes de Recuperação de Desastres São Importantes

O risco de não testar um plano de recuperação de desastres é a perda de dados e acesso aos sistemas. Você pode segurar seu negócio contra perdas, mas nenhuma apólice de seguro pode substituir os dados perdidos como resultado de um incidente ou as repercussões do tempo de inatividade prolongado em um negócio. A única maneira de garantir verdadeiramente o tempo de atividade e a disponibilidade é criar um plano de DR e realizar testes regulares. Se ainda não estiver convencido de que testar o plano de recuperação de desastres é necessário, aqui está uma lista do que os testes de DR ajudam a alcançar antes que um incidente ocorra:

  • Descobrir lacunas ou falhas em um plano de DR
  • Certificar-se de que você tem a sequência correta de ações durante a recuperação
  • Verificar se os objetivos de recuperação são realistas e podem ser atendidos
  • Minimizar a perda de dados
  • Executar ações da equipe de DR e garantir que cada membro entenda seu papel
  • Introduzir atualizações e correções antes que seja tarde demais

Componentes de um Processo de Teste de Recuperação de Desastres

A DR test should be planned to ensure that it brings results and helps improve DR readiness. This means that disaster recovery test objectives should be clear, and you should have a specified timetable for how often to conduct tests, the criteria for success, evaluation of results, and steps to address gaps and any DR failures. Let’s go over these components in more detail.

Definir o escopo do teste de DR

O escopo do teste de DR envolve um conjunto de suposições e expectativas que devem ser atendidas durante o processo de teste. Definir o escopo de teste deve incluir:

  • Identificar os sistemas e funções que serão incluídos no teste de DR
  • Definir que tipo de processo de recuperação de desastres será testado: recuperação de máquinas inteiras a partir de backups, failover para um site de DR, etc.
  • Estabelecer exceções e limitações antecipadamente, porque alguns componentes do seu plano de DR podem não ser executados conforme planejado
  • Especificar os departamentos e o pessoal incluídos no processo de teste de DR
  • Definindo os cenários que serão testados: falha no site principal, ataque de ransomware, perda de conexão, falha no servidor/banco de dados, etc.

Revisão do plano de recuperação de desastres

Antes de realizar os testes, você deve revisar o plano de DR. Os testes de DR devem ser conduzidos de maneira organizada, focando nas políticas e práticas da organização. Assim, a equipe de recuperação de desastres deve se reunir com a alta administração para revisar o plano de DR existente e determinar quaisquer mudanças ou atualizações que devam ser implementadas com base no estado atual dos negócios. Isso inclui fatores como a introdução de novos produtos de hardware ou software, expansão do negócio, cortes de orçamento, rotatividade de pessoal, etc.

Frequência de testes de DR

Com os ambientes de TI atuais sendo altamente dinâmicos, determinar a frequência de revisão é crucial para manter seu plano de recuperação de desastres constantemente atualizado. Algumas organizações revisam e atualizam seus planos de DR uma vez por ano. No entanto, a estratégia mais eficiente é atualizar (e retestar) seu plano de DR sempre que componentes críticos para a missão de sua organização passarem por mudanças. Embora os testes de recuperação de desastres possam ser demorados e custosos, você deve criar sua programação de testes com base nas necessidades e recursos do negócio, considerando o escopo dos processos de DR.

Critérios de sucesso do teste

Você precisa definir os critérios que determinam se seus testes de recuperação de desastres de VM são bem-sucedidos ou não. Idealmente, os testes de DR de VM podem ser considerados aprovados quando um plano de DR é comprovado como válido e viável.

No entanto, o teste de recuperação de desastres pode ser considerado bem-sucedido mesmo quando um plano de DR falhou em passar no teste. Esse cenário permite identificar falhas em um plano de DR antes de um desastre real e abordá-las na próxima iteração do plano. Essencialmente, os critérios de sucesso do teste são definidos com base em expectativas predeterminadas, que devem ser claramente expressas no plano de teste de recuperação de desastres para evitar qualquer confusão.

Avaliação dos resultados do teste

Os resultados de um processo de teste de recuperação de desastres de VM fornecem uma visão geral das estratégias de DR atualmente utilizadas na empresa. A equipe de recuperação pode avaliar os resultados do teste e propor melhorias ou ajustes para o plano de DR com base nos problemas identificados.

Os seguintes métricas também devem ser considerados ao avaliar os resultados do teste de DR:

  • Quanto tempo decorreu antes que as atividades críticas fossem restauradas
  • Quão bem cada etapa do plano foi executada (se ocorreram erros e atrasos)
  • Quantas operações foram concluídas com sucesso durante o processo de teste de DR

Alterações e atualizações devem ser feitas e testadas para melhorar o plano de DR. O objetivo é fornecer um processo de recuperação mais eficaz e gerenciável.

Revisão pós-teste do plano de DR

Após executar um plano de recuperação de desastres em modo de teste, é aconselhável revisar seu plano de DR mais uma vez. Pontos fortes e fracos, bem como quaisquer resultados inesperados, devem ser registrados durante o processo de teste de recuperação de desastres e seu impacto na continuidade dos negócios deve ser medido. Isso pode melhorar significativamente suas estratégias de DR e aumentar o desempenho geral. As etapas para abordar lacunas e falhas devem ser detalhadas e adicionadas à próxima iteração do plano de DR.

Fatores a serem considerados antes de testar o plano de recuperação de desastres

  • Número de pessoas na equipe de DR: Deve haver pelo menos duas pessoas em uma equipe de recuperação de desastres para evitar o problema de um “ponto único de falha”. Com vários membros da equipe, se uma pessoa não puder ser contatada durante um desastre, você pode ter certeza de que há um substituto com o conhecimento necessário e acesso ao site de DR.
  • Horário escolhido para testar a recuperação de desastres: Geralmente, os testes de DR são executados fora do horário de trabalho, pois o processo é demorado e pode interromper as operações comerciais ou afetar o desempenho geral. No entanto, esses resultados de teste podem não ser indicativos de como o plano de recuperação de desastres funcionaria sob condições de trabalho reais. Testar os componentes de um plano de DR de VM isoladamente durante o horário de trabalho pode ser uma solução ideal. Isso ajuda a reduzir o risco de sobrecarga do sistema que o teste completo apresenta.
  • Alterações na equipe ou na infraestrutura de TI: Antes de testar o plano de recuperação de desastres, considere os vários fatores que poderiam tornar seu plano de DR incompleto e desatualizado. Como mencionado acima, esses fatores podem incluir novos componentes de infraestrutura, mudanças de equipe, entre outras coisas. Mantenha a equipe de DR informada sobre as novas mudanças no ambiente e envie memorandos breves notificando a equipe das últimas atualizações.

Métodos de Teste de Recuperação de Desastres

Nesta seção, abordamos os quatro métodos de teste de recuperação de desastres mais comuns. Considere-os atentamente antes de decidir qual oferece a abordagem certa para sua organização ou se uma combinação dessas abordagens pode ser usada.

Teste de checklist

A checklist test of a disaster recovery plan involves reviewing the list of requirements and conditions that must be met. This review is a great starting point as it is the most basic option and involves analyzing the current plan and looking over every point in order to spot the outdated or missing parts. This means verifying, for example, that the backup site is of sufficient size, that the recovery team is notified of the latest updates, that the data protection solution is running, etc.

Ao usar este método de teste de DR, a equipe de recuperação pode revisar rapidamente o plano de DR, garantir que cada componente esteja no lugar e identificar quaisquer componentes ausentes na estratégia de DR. Este procedimento pode ser realizado em um tempo mínimo e sem grande envolvimento da equipe.

Teste de simulação

O objetivo desta estratégia é percorrer verbalmente cada etapa de um plano de recuperação de desastres de VM e identificar quaisquer problemas e deficiências. Aqui, todos os membros de uma equipe de recuperação participam da revisão e discussão do plano de DR, apresentando recomendações.

É essencial garantir que todos tenham um forte entendimento do plano e estejam cientes de suas responsabilidades durante um evento de DR. Este método envolve apenas uma discussão verbal do processo de DR. Os aspectos tecnológicos do seu plano de DR não são realmente testados ou aprovados no teste de simulação.

Teste de mesa/simulação de DR

Para um teste de mesa, a organização passa por um cenário de desastre simulado para identificar se um plano de recuperação de desastres é adequado e se os objetivos definidos podem ser alcançados. Este método de teste de DR pode ser considerado uma extensão do teste de simulação. Todos os membros da equipe são apresentados a vários cenários de desastre, que revisam discutindo como agiriam nas circunstâncias. Isso permite testar a preparação de sua equipe em um ambiente mais realista e verificar se seu plano de recuperação de desastres pode lidar com problemas inesperados.

  • Simulação de mesa. A equipe de DR conduz uma simulação passo a passo como se um desastre real tivesse acontecido. Este método de teste de recuperação de desastres ajuda a identificar possíveis pontos cegos e problemas ocultos.
  • Simulação de cenário. Este método envolve a execução do plano de DR em um ambiente de teste sem interrupção no fluxo de trabalho de produção. A simulação é executada de acordo com cenários específicos de recuperação.
  • Simulação completa de recuperação de desastres. Este método de teste de DR é semelhante à simulação descrita acima, mas desta vez o cenário inclui a falha total das operações em seu site principal. O método envolve tentar uma recuperação completa em um local externo.

Teste paralelo

Teste paralelo permite que você teste a funcionalidade dos seus sistemas de recuperação para determinar se eles podem executar operações comerciais e garantir processos críticos. Os sistemas primários não são incluídos no processo de teste de recuperação de desastres, pois espera-se que eles suportem a carga de trabalho de produção completa. Esta é uma maneira segura e não disruptiva de testar sistemas técnicos.

Teste de interrupção total

A full-interruption DR test provides thorough testing of your VM DR plan. In this case, your DR site assumes the full production workload and the primary site is shut down. The goal is to recover as quickly as possible using the corporate disaster recovery plan. The execution of a full-interruption test should be well thought out as normal operations can be disrupted and it is quite costly.

Cada um dos processos de recuperação deve ser documentado. Identifique todos os problemas e preocupações durante a execução do teste de DR para poder abordá-los posteriormente. As ações da equipe de recuperação devem ser observadas de perto para identificar quaisquer lacunas potenciais no seu plano de DR de VM. O teste de interrupção total também é um método apropriado de teste de recuperação de desastres para verificar se seus objetivos de DR são aceitáveis e alcançáveis.

Você pode considerar realizar o teste de interrupção total sem notificar sua equipe antecipadamente. Isso permite que você avalie com mais precisão a preparação da sua equipe em caso de desastre.

Dicas úteis para testes de recuperação de desastres

Testar um plano de DR é uma tarefa importante que pode parecer esmagadora às vezes. As seguintes dicas de teste de DR podem ajudar a economizar tempo e reduzir o estresse:

  • Após instalar qualquer novo hardware ou software, teste-os imediatamente para verificar sua funcionalidade e integridade. Isso também ajuda você a descobrir o RTO do produto e aprender como ele pode se comportar durante os procedimentos de DR.
  • Realize uma análise de risco (RA) e uma análise de impacto nos negócios (BIA) antes de elaborar seu plano de recuperação de desastres (DR). Revise constantemente os resultados dessas análises e, se houver mudanças, considere como elas devem ser refletidas em sua estratégia de DR.
  • A testagem deve ser executada em circunstâncias o mais semelhantes possível a um cenário de DR. Ao simular um cenário de desastre da vida real, você pode ver quão bem os funcionários desempenham suas funções em circunstâncias de DR. Isso também ajuda a reduzir o estresse entre sua equipe, pois os funcionários se acostumam mais a vários cenários de DR e aprendem o que é esperado deles.
  • Convide observadores independentes para revisar seu plano de DR e monitorar o processo de teste. Esta abordagem garante que nenhum atalho seja tomado pelos funcionários para concluir rapidamente os testes. Além disso, observadores independentes podem ajudar a reescrever um plano de DR e melhorá-lo, identificando frequentemente problemas que não são visíveis para aqueles dentro da organização.
  • Tenha uma lista completa de todas as aplicações em sua infraestrutura. Esta lista deve incluir os detalhes de cada aplicação, suas configurações, os detalhes de contato dos proprietários da aplicação e seus detalhes de contrato/licenciamento.
  • Nas fases iniciais, os testes de DR devem ser conduzidos em partes e após o horário comercial para não sobrecarregar o sistema. Após identificar quaisquer deficiências e melhorar o plano de acordo, você pode considerar realizar mais testes completos durante o horário comercial.

Recuperação de Desastres com Backup & Replicação NAKIVO

O NAKIVO Backup & Replication é uma solução confiável de backup e recuperação de desastres. A solução permite automatizar os processos de backup, replicação e recuperação de desastres, garantindo a integridade dos dados em várias plataformas (físicas, virtuais ou na nuvem). A solução NAKIVO contém recursos de replicação de VM, failover de VM, failback e recuperação de site para recuperação de desastres. Além disso, você pode testar uma sequência de recuperação de desastres para garantir que tudo esteja configurado corretamente.

Executar trabalhos de recuperação de site no modo de teste

O NAKIVO Backup & Replication permite que você execute trabalhos de recuperação de site no modo de teste para verificar se todos os componentes do sistema podem ser facilmente restaurados durante um evento de recuperação de desastres e se os objetivos de DR estipulados podem ser alcançados. Este teste não interrompe as cargas de trabalho de produção. Um trabalho de recuperação de site no modo de teste pode ser agendado e executado sob demanda.

O seguinte guia mostra como executar manualmente um trabalho de recuperação de site no modo de teste. Note que um trabalho de recuperação de site precisa ser configurado primeiro.

  1. No painel de Trabalhos, selecione um trabalho de recuperação de site e clique no botão Executar Trabalho. O menu suspenso oferece duas opções. Clique em Testar trabalho de recuperação de site.

  1. Na caixa de diálogo que é lançada, você pode configurar suas métricas de RTO. Defina o tempo máximo permitido para que o seu trabalho de recuperação de site seja concluído. Se a execução de teste exceder o valor de RTO que você inseriu, o teste é considerado falho. Você também pode desabilitar esta opção.

  1. Por fim, clique em Testar para executar o trabalho.Opções para agendar testes

Opções para agendar teste

Você também pode configurar opções de agendamento de teste ao configurar um trabalho de Recuperação de Site. Essas opções funcionam quando você executa este trabalho no modo de teste.

Relatório por e-mail

Com esta opção ativada, os destinatários selecionados recebem um relatório de teste sempre que o trabalho é concluído. Você precisa configurar as configurações de notificação por e-mail na guia 5. Opções antes de clicar em Concluir.

Você também pode baixar um relatório como um arquivo PDF ou CSV diretamente de um navegador da web. Basta clicar com o botão direito em um trabalho de Recuperação de Site e selecionar Relatório do Trabalho de Recuperação de Site.

Source:
https://www.nakivo.com/blog/disaster-recovery-testing-top-reasons/