O Que É um Failover? Casos de Uso de Clusterização e Replicação

Tutoriais

Hyper-V VMware

A disponibilidade de VMs é essencial para garantir a continuidade dos negócios. Quando os serviços em execução em VMs críticas para os negócios e para missões se tornam indisponíveis, as empresas podem perder dinheiro e a confiança dos clientes. Para restaurar a disponibilidade da VM imediatamente após uma falha, você deve usar técnicas de failover apropriadas.

O failover para uma réplica de VM pode fazer parte da recuperação de desastres para restaurar dados e operações com interrupção mínima nos fluxos de trabalho regulares. O processo de failover da VM deve ser descrito na continuidade de negócios e recuperação de desastres (BCDR) da organização. Vamos analisar os tipos de failover de VM e os casos de uso com mais detalhes.

O que é um Failover?

O failover é o processo de retomar uma máquina virtual (VM) em um sistema secundário (e às vezes em um local secundário) após uma falha do sistema primário. O sistema secundário contém todos os dados necessários para manter as operações comerciais. Um sistema neste contexto pode ser um servidor, banco de dados, máquina virtual, etc.

Em ambientes virtuais, existem dois métodos comuns de failover:

Usando uma réplica de VM (geralmente localizada em outro servidor de virtualização) é usada para realizar failover se uma VM primária falhar
Usando um cluster de failover (nenhuma replicação necessária)

A alternância de falha requer menos tempo para restaurar as cargas de trabalho em comparação com a recuperação de um backup e, como resultado, você pode alcançar um objetivo de tempo de recuperação (RTO) mais baixo. No entanto, usar replicação de VM ou clustering não elimina a necessidade de criar backups de VM. Um backup (geralmente comprimido) é útil quando você precisa recuperar dados de um ponto de recuperação antigo.

Vamos revisar a terminologia básica de alternância de falha para recuperação de desastres baseada em replicação.

Glossário de alternância de falha

Falha: Qualquer problema com hardware ou software como resultado de uma falha do sistema, interrupção de energia, problemas de rede, ataque de ransomware, etc., que tira um sistema do ar.
Sistema primário: O sistema que executa operações ao vivo no ambiente de produção.
Sistema secundário: O sistema redundante de espera, que é regularmente atualizado com cópias do sistema primário. O sistema secundário pode ser localizado no local ou em um local remoto.
Replicação: O processo essencial para preparar para a alternância de falha de VM. A replicação cria uma cópia exata, ou seja, réplica, da VM primária para um determinado ponto no tempo.
Retorno de VM: O retorno é o processo de mudar de volta para o sistema primário da VM réplica após o incidente ser resolvido.

Tipos de alternância de falha

Existem três tipos de alternância de falha:

A planned failover is used for scheduled migrations of workloads from one system/site to another. Use cases include performing maintenance on the primary system, electrical works performed at the production site, and expected disaster scenarios. For example, a weather alert about a tornado may require a planned failover to ensure availability.
Um failover não planejado é um failover realizado quando ocorre uma falha inesperada resultando em uma VM crítica ou todo o site primário ficando offline. A falha pode ser causada por qualquer número de desastres naturais, acidentes (uma queda de energia), um ataque de malware ou qualquer outro incidente. Para um failover não planejado, os hosts e réplicas devem ser preparados com antecedência.
A test failover, as the name suggests, is used for testing purposes. Testing scenarios can include rehearsing unplanned failover scenarios to ensure that
- você pode atender aos RTOs e RPOs
- tudo funciona bem e pode rodar sem problemas quando necessário
- todo o pessoal envolvido na recuperação de desastres compreende seus papéis e responsabilidades

A Sequência de Failover

Durante um failover de VM, a sequência de ações de failover e a ordem de inicialização da VM são essenciais para garantir a retomada bem-sucedida dos fluxos de trabalho. Elas devem ser definidas na fase de desenvolvimento do plano de recuperação de desastres da sua organização. A sequência deve capturar as dependências entre diferentes serviços que são executados em VMs diferentes.

Por exemplo, a autenticação para alguns serviços e aplicativos que são executados em VMs podem estar usando o Active Directory, que está sendo executado em outra VM. Um servidor de banco de dados pode estar sendo executado na primeira VM, um servidor de aplicativos na segunda e o servidor da web na terceira.

A VM com o Servidor Active Directory deve ser iniciada primeiro. Em seguida, as VMs com serviços que utilizam o Active Directory para autenticação podem ser iniciadas. A VM com o servidor de banco de dados deve ser iniciada antes da VM com o servidor de aplicativos, pois o servidor de aplicativos se conecta ao banco de dados. Uma vez que as VMs com o servidor de banco de dados e o servidor de aplicativos tenham sido iniciadas, a VM com o servidor web pode ser iniciada.

Principais Soluções de Failover

As principais soluções utilizadas em ambientes virtuais são:

agrupamento de failover
failover usando réplicas de VM

Vamos considerar cada uma delas.

Solução 1. Agrupamento de Failover

A failover cluster is a group of at least two servers or nodes that are configured to take over workloads when one node is down or unavailable. Clustering is an enterprise-class automated solution that can be used for the most important, business-critical VMs. Microsoft Hyper-V offers a Failover Cluster made up of several Hyper-V hosts. VMware’s equivalent is a High Availability cluster, which is made up of ESXi hosts.

No primeiro diagrama abaixo, você pode ver um cluster no qual ambos os hosts (também chamados de nós) estão funcionando corretamente. As VMs estão sendo executadas nos hosts, e os arquivos das VMs estão localizados em armazenamento compartilhado acessível por ambos os hosts.

Quando um dos hosts falha, a propriedade da conexão com a VM (que estava sendo executada no nó offline) é transferida para outro nó que ainda está online. Este é o processo de failover. Uma VM altamente disponível pode precisar ser reiniciada.

Requisitos para Agrupamento de Failover

Os seguintes requisitos devem ser atendidos para construir um cluster de failover:Armazenamento compartilhado conectado aos hosts com uma rede dedicada de alta velocidade e baixa latência. Um sistema de arquivos clusterizado deve ser usado para garantir que múltiplos hosts possam acessar simultaneamente os dados localizados no armazenamento.

Armazenamento compartilhado conectado aos hosts com uma rede dedicada de alta velocidade e baixa latência. Um sistema de arquivos em cluster deve ser usado para garantir que vários hosts possam acessar simultaneamente os dados localizados no armazenamento.
Os hosts nos quais as VMs estão em execução devem ter o mesmo hardware ou, pelo menos, hardware da mesma família. Os processadores devem suportar os mesmos conjuntos de instruções para garantir compatibilidade para que as VMs possam ser executadas corretamente após a migração de um host para outro durante a falha.
A high-speed redundant network with low latency. There should be multiple, separate cluster networks, that is, a cluster must have different networks for storage, management, VM migration, connection of hosts amongst each other, etc.

Casos de uso

Os clusters de failover são usados para recuperar VMs de falhas de servidor, fornecendo alta disponibilidade para VMs críticas. Se um dos hosts (chamados de nós) dentro de um cluster falhar, então as VMs que estavam em execução no host falido migram (failover) para outros hosts saudáveis. Dependendo das configurações, as VMs que foram movidas podem ser migradas de volta para o host no qual estavam em execução antes do incidente assim que a falha for resolvida.

Vantagens

A failover cluster has advantages that provide strong protection:

A failover cluster provides automatic VM failover. You don’t need to start the failed VMs manually on other hosts.
No failover, você experimenta perda de dados quase zero. O tempo de inatividade geralmente é limitado ao tempo necessário para carregar a VM, o sistema operacional (SO) e o software em execução na VM.
O recurso de Tolerância a Falhas incluído no cluster de Alta Disponibilidade da VMware garante o failover da VM sem tempo de inatividade e sem perda de dados.

Desvantagens

A failover cluster does not protect against:

Falha de software em VMs. Bugs de software ou vírus podem causar uma falha no sistema em uma VM.
Exclusão acidental de arquivos dentro da VM.
Falha de armazenamento compartilhado. O cluster falha se o armazenamento compartilhado falhar. O armazenamento compartilhado é um componente crucial do cluster; os discos virtuais pertencentes às VMs dentro de um cluster são armazenados no armazenamento compartilhado.
A disaster that makes the whole physical site unavailable.

Para obter mais informações sobre o que é um cluster de failover, leia o guia completo sobre o agrupamento VMware.

Solução 2. Failover usando réplicas de VM

O failover de VMs que dependem de réplicas de VM pode ser executado por aplicativos especializados, que podem replicar as VMs e iniciar as réplicas quando solicitado pelo administrador. Além do software de proteção de dados, você precisa de hosts ESXi ou Hyper-V (dependendo do seu ambiente) que tenham sido preparados antecipadamente para executar as réplicas de VM quando as VMs de origem falharem.

No diagrama abaixo, você pode ver dois hosts conectados entre si via rede. As VMs estão usando os discos dos hosts. As VMs de origem estão sendo executadas no primeiro host, e as réplicas de VM, que são cópias exatas das VMs de origem em um ponto específico no tempo, estão localizadas no segundo host, em estado desligado.

Quando um host cai, as VMs que estavam sendo executadas nesse host também se tornam inacessíveis. As réplicas de VM que estão localizadas em outro host são então ligadas pelo administrador.

Requisitos de replicação de VM

Os requisitos básicos para replicação de VM são dois ou mais hosts e uma solução de replicação. Uma VM de origem sendo executada no primeiro host é replicada para o segundo host. A réplica da VM está localizada no segundo host.

Casos de uso

A falha de operação usando réplicas de VM pode ser usada quando ocorre uma falha de hardware ou software. Falhas de hosts ESXi ou Hyper-V são um exemplo de falha de hardware. Exemplos de falhas de software podem ser atualizações mal sucedidas, bugs de software, ataques de vírus ou exclusão acidental de arquivos por um usuário.

Vantagens

A principal vantagem da falha de operação da VM para uma réplica é a possibilidade de falha de operação para um site remoto. Quando uma réplica de VM está sendo criada, os dados copiados de uma VM de origem podem ser transmitidos por uma conexão de rede (com largura de banda limitada) para um site remoto. O site remoto pode estar localizado em um escritório próximo ou do outro lado do mundo. A réplica da VM também pode estar localizada no site de produção primário.

Desvantagens

A lista de desvantagens para uma falha de operação usando réplicas de VM:

Há um curto período de tempo de inatividade entre uma falha e o início da réplica no segundo host.
A falha de operação deve ser iniciada manualmente.
Os dados gravados desde a última replicação podem ser perdidos durante uma falha de operação não planejada. A replicação de VM muitas vezes não é um processo em tempo real (síncrono), já que a replicação síncrona coloca uma carga significativa nos recursos. A replicação geralmente é realizada em intervalos regulares dependendo das configurações escolhidas.
As configurações de rede das VMs devem (muitas vezes) ser alteradas após a falha para outro site. As redes das VMs do site remoto podem diferir das redes do site primário. Portanto, os endereços IP também podem ser diferentes e devem ser verificados e alterados junto com as outras configurações de rede durante a falha.

Clustering vs Failover Baseado em Replicação de VM

	Falha com clustering	Falha usando uma réplica
Propósito	Alta disponibilidade	Recuperação de desastres
Proteção contra	Falhas de hardware apenas	Falhas de hardware e software
Administração	Iniciado automaticamente	Iniciado manualmente
Duração do tempo de inatividade (RTO)	A falha é mais rápida, então o tempo de inatividade da VM é curto (RTO curto)	A falha leva mais tempo, então o tempo de inatividade da VM é mais longo
Requisitos	Mais requisitos	Menos requisitos
Preço da solução	Soluções de clustering geralmente são mais caras	Soluções de replicação são mais econômicas
Perda de dados (RPO)	Perda de dados próxima de zero (RPO muito baixo)	A perda de dados depende da frequência de replicação

Uso combinado de clusters e réplicas para failover de VMs

As soluções de failover de cluster e réplica às vezes são vistas como alternativas, mas podem ser usadas para se complementarem. Vamos ver alguns exemplos de como o uso de ambas as soluções de failover pode ajudar a proteger suas VMs contra falhas em nível de servidor e de site.

Exemplo 1: Você pode replicar as VMs em execução dentro de um cluster para um host em um site remoto. Além disso, você pode replicar as VMs em execução dentro de um cluster para outro cluster. Assim, se um host falhar, o cluster de failover mantém essas VMs online. Se o site inteiro sofrer uma interrupção, então você pode fazer failover para as réplicas de VM armazenadas em um site remoto.
Exemplo 2: Um vírus danifica arquivos dentro de algumas VMs. Um cluster de failover não pode proteger contra tais falhas. Mas se você tiver réplicas de VM com vários pontos de recuperação, você pode restaurar cada VM para um ponto no tempo antes de seus arquivos serem danificados ou excluídos.

Usando a Solução NAKIVO para Failover Automatizado de VMs VMware para Réplica

O NAKIVO Backup & Replication é uma solução de backup e recuperação de desastres que pode proteger VMs em execução dentro de um cluster, replicar VMs, fazer failover para réplicas e orquestrar sequências complexas de DR. Clusters, bem como hosts ESXi ou Hyper-V autônomos, são suportados como pontos de origem e destino para replicação. A solução rastreia automaticamente o host em que uma VM está residindo para que possa replicar essa VM. Isso é útil porque as VMs podem migrar de um host para outro dentro de um cluster após eventos de failover ou eventos de balanceamento de carga (um cluster geralmente é configurado em conjunto com o balanceamento de carga). Por isso, o software que você usa para replicar uma VM de um cluster deve ser capaz de rastrear o host em que a VM está residindo.

A solução NAKIVO pode alterar automaticamente as configurações de rede da VM após o failover; basta usar os recursos de Mapeamento de Rede e Re-IP ao configurar um trabalho de replicação ou failover.

Vamos considerar um exemplo de Failover Automatizado de VM (com Mapeamento de Rede e Re-IP) no NAKIVO Backup & Replication. Começaremos criando uma réplica de VM.

Configurando a replicação necessária para o failover de VM

Na dashboard Jobs, clique em Criar > Trabalho de replicação VMware vSphere se você tiver um ambiente virtual VMware. Observe que você pode criar um trabalho de replicação para uma VM Microsoft Hyper-V ou uma instância Amazon EC2 da mesma forma.

O assistente de trabalho de replicação é iniciado.

Selecione as máquinas virtuais que deseja replicar. Neste exemplo, a VM Server2019, que está executando o Windows Server 2019 como sistema operacional convidado, será replicada. Clique em Próximo.

Selecione um host de destino para a réplica da VM ser executada (10.10.10.90 no nosso caso). Selecione o datastore montado no host selecionado para a colocação dos arquivos da VM. Clique em Próximo.

Você pode definir Mapeamento de Rede e opções de Re-IP ao configurar um trabalho de replicação ou um trabalho de failover. Neste tutorial, o Mapeamento de Rede e o Re-IP serão configurados posteriormente quando o trabalho de failover for configurado. Assim, você pode pular esta etapa por enquanto e apenas clicar em Próximo.

A configuração de Re-IP será explicada durante a configuração do trabalho de failover da VM neste passo a passo. Clique em Próximo.

Selecione suas configurações de agendamento. Clique em Próximo quando terminar.

Defina as configurações de retenção. Lembre-se de que você pode configurar a política de retenção avô-pai-filho neste passo. Clique em Próximo.

Selecione as opções de trabalho de replicação e clique em Concluir ou no botão Concluir & Executar. Aguarde enquanto a réplica é criada.

Configurando failover de VM

Agora que você tem uma réplica de VM criada, você pode realizar o failover de VM para esta réplica.

Na página inicial do painel, clique em Recuperar > Recuperação Completa do VMware (failover de réplica de VM). O Assistente de Novo Trabalho de Failover é aberto.

No painel esquerdo, selecione a réplica de VM a ser usada para o failover. Neste passo a passo, o Server2019-replica, que acabou de ser criado, é selecionado. No painel direito, selecione um ponto de recuperação. O último ponto de recuperação é selecionado por padrão na solução. Clique em Próximo.

O Mapeamento de Rede ajuda a alterar a rede à qual a VM está conectada. Os hosts ESXi de origem e destino provavelmente têm configurações de switch virtual diferentes. Como uma réplica da VM é uma cópia exata da VM de origem, as redes virtuais às quais a VM de origem está conectada são preservadas na réplica da VM.
Geralmente, você deve verificar as configurações de rede de uma réplica da VM e alterar manualmente a rede. O NAKIVO Backup & Replication pode mapear automaticamente a rede de origem para uma rede de destino. Você só precisa configurar o Mapeamento de Rede ao configurar o trabalho de replicação ou failover.
- Para habilitar o Mapeamento de Rede, selecione a caixa de seleção. Se você já criou uma regra de mapeamento de rede, pode clicar em Adicionar mapeamento existente. Se não houver regras de mapeamento de rede, clique em Criar novo mapeamento.
- Para criar uma nova regra de mapeamento de rede, selecione a rede de origem e a rede de destino. A rede de origem é a rede à qual a VM de origem está conectada. A rede de destino é a rede à qual a réplica da VM deve ser conectada.
  
  Nota: O nome da rede da VM não é o mesmo que o endereço IP ou endereço de rede.
  
  Clique em Salvar para salvar a regra de mapeamento de rede e, em seguida, clique em Avançar para prosseguir na configuração.
1. O recurso Re-IP permite alterar as configurações de IP da réplica da VM. Pode ser usado para endereços IP estáticos. Selecione a caixa de seleção Habilitar Re-IP se desejar habilitar essa opção e, em seguida, crie uma regra de Re-IP ou adicione uma regra existente. Clique em Criar nova regra se não houver regras criadas anteriormente. Um menu pop-up aparecerá.
- As configurações da VM de origem são o endereço IP e a máscara de rede que precisam ser alterados.
- As configurações de destino são as configurações a serem aplicadas à réplica da VM quando ocorrer o failover. Neste exemplo, o caractere [*] cobre o último octeto. O [*] significa qualquer número de 1 a 254. Se os endereços IP de origem forem, por exemplo, 10.10.10.1, 10.10.10.96 e 10.10.10.222, os endereços de destino seriam 192.168.10.1, 192.168.10.96 e 192.168.10.222, respectivamente. O último octeto do endereço IP é preservado.
  
  Clique em Salvar para salvar sua regra de Re-IP e prosseguir.
  
  Após adicionar a regra de Re-IP, sua tela deve se parecer com isso:
  
  Agora selecione as VMs para as quais as regras de Re-IP devem ser aplicadas. O trabalho de failover neste exemplo contém apenas uma réplica de VM, então selecione a caixa de seleção correspondente.
  
  Em seguida, selecione as credenciais para cada VM. Clique em Gerenciar credenciais > Adicionar credenciais para adicionar novas credenciais. As credenciais adicionadas podem ser selecionadas na lista suspensa.
  
  Nota: As credenciais são necessárias para que o NAKIVO Backup & Replication acesse as configurações de rede do sistema operacional dentro da VM e aplique o script que altera essas configurações. O VMware Tools deve estar instalado em VMs VMware vSphere e os Serviços de Integração do Hyper-V devem estar instalados em VMs Microsoft Hyper-V.
  
  Quando você tiver configurado todas essas configurações, clique em Avançar.
Agora, configure as opções de trabalho de failover da VM. Você pode selecionar a caixa de seleção Desligar VMs de origem. Pode ser útil para evitar conflito de endereços IP se as VMs de origem e réplica usarem a mesma rede ou tiverem os mesmos endereços IP. Após configurar todas as opções, clique em Concluir & Executar.
Aguarde até que o trabalho de failover da VM seja concluído.
Agora você pode garantir que a réplica da VM esteja em execução. Vá para Configuração > Inventário e clique no botão

Source:
https://www.nakivo.com/blog/vm-failover-guide/