故障转移是什么?集群和复制的用例

虚拟机的可用性对于确保业务连续性至关重要。当业务和关键任务虚拟机上运行的服务不可用时,公司可能会损失资金和客户信任。为了在故障发生后立即恢复虚拟机的可用性,您应该使用适当的故障转移技术。

将故障转移到虚拟机副本可以作为灾难恢复的一部分,以在对常规工作流程的干扰最小的情况下恢复数据和运营。虚拟机故障转移过程应该在组织的业务连续性和灾难恢复(BCDR)计划中进行描述。让我们更详细地了解虚拟机故障转移类型和用例。

什么是故障转移?

故障转移是在主系统发生故障后,在辅助系统(有时在辅助位置)上恢复虚拟机(VM)的过程。辅助系统包含维持业务运营所需的所有数据。在这个上下文中,系统可以是服务器、数据库、虚拟机等。

在虚拟环境中,有两种常见的故障转移方法:

故障切换需要较少的时间来恢复工作负载,与从备份中恢复相比,因此可以实现更低的恢复时间目标(RTO)。但是,使用VM复制或集群并不能消除创建VM备份的必要性。备份(通常是压缩的)在需要从旧的恢复点恢复数据时非常有用。

让我们来了解基于复制的灾难恢复的基本VM故障切换术语。

故障切换术语表

  • 故障: 由于系统崩溃、停电、网络问题、勒索软件攻击等硬件或软件问题,导致系统下线的任何问题。
  • 主系统: 在生产环境中运行实时操作的系统。
  • 辅助系统:定期更新主系统副本的冗余待机系统。辅助系统可以部署在本地或远程位置。
  • 复制: 为准备VM故障切换而进行的基本过程。复制创建主VM的精确副本,也就是副本,以在特定时间点为基础。
  • VM故障切换:在事件解决后从副本VM切换回主系统的过程。

故障切换类型

有三种故障切换类型:

  • A planned failover is used for scheduled migrations of workloads from one system/site to another. Use cases include performing maintenance on the primary system, electrical works performed at the production site, and expected disaster scenarios. For example, a weather alert about a tornado may require a planned failover to ensure availability.
  • 一个未计划的故障转移是在发生意外故障导致关键虚拟机或整个主站点离线时执行的故障转移。故障可能是由许多自然灾害、事故(如停电)、恶意软件攻击或其他事件引起的。对于未计划的故障转移,主机和复制品应提前准备好。
  • A test failover, as the name suggests, is used for testing purposes. Testing scenarios can include rehearsing unplanned failover scenarios to ensure that
    • 您可以满足设置的RTOsRPOs
    • 一切正常运行,并且在需要时可以顺利运行
    • 所有参与灾难恢复的员工都了解他们的角色和责任

故障转移序列

在虚拟机故障转移期间,动作序列和虚拟机启动顺序对确保成功恢复工作流程至关重要。它们必须在您组织的灾难恢复计划的开发阶段定义。该序列应捕捉在不同虚拟机上运行的不同服务之间的依赖关系。

例如,一些运行在虚拟机上的服务和应用可能正在使用另一个虚拟机上运行的活动目录进行身份验证。一个数据库服务器可能在第一个虚拟机上运行,一个应用服务器在第二个虚拟机上运行,Web 服务器在第三个虚拟机上运行。

虚拟机上的Active Directory服务器必须首先启动。然后可以启动使用Active Directory进行身份验证的服务的虚拟机。数据库服务器的虚拟机必须在应用服务器的虚拟机之前启动,因为应用服务器连接到数据库。一旦数据库服务器和应用服务器的虚拟机启动了,就可以启动Web服务器的虚拟机。

主要故障转移解决方案

在虚拟环境中使用的主要解决方案是:

  • 故障转移集群
  • 使用虚拟机副本进行故障转移

让我们逐个考虑。

解决方案1.故障转移集群

A failover cluster is a group of at least two servers or nodes that are configured to take over workloads when one node is down or unavailable. Clustering is an enterprise-class automated solution that can be used for the most important, business-critical VMs. Microsoft Hyper-V offers a Failover Cluster made up of several Hyper-V hosts. VMware’s equivalent is a High Availability cluster, which is made up of ESXi hosts.

在下面的第一个图表中,您可以看到一个群集,其中两个主机(也称为节点)都正常运行。虚拟机正在主机上运行,并且虚拟机文件位于共享存储上,两个主机都可以访问。

当其中一个主机宕机时,连接到离线节点上运行的虚拟机的所有权将转移到仍然在线的另一个节点。这就是故障转移过程。高可用性虚拟机可能需要重新启动。

故障转移集群要求

建立故障转移集群必须满足以下要求:共享存储通过专用高速网络与主机连接,并具有低延迟。必须使用集群文件系统以确保多个主机可以同时访问存储上的数据。

  • 共享存储通过一条专用的高速网络连接到主机,该网络延迟低。必须使用集群文件系统,以确保多个主机可以同时访问存储上的数据。
  • 运行虚拟机的主机必须拥有相同的硬件,或者至少是同一家族的硬件。处理器必须支持相同的指令集,以确保在故障转移过程中虚拟机能够在从一个主机迁移到另一个主机后正确运行。
  • A high-speed redundant network with low latency. There should be multiple, separate cluster networks, that is, a cluster must have different networks for storage, management, VM migration, connection of hosts amongst each other, etc.

应用场景

故障转移集群用于从服务器故障中恢复虚拟机,为关键虚拟机提供高可用性。如果集群中的一个主机(称为节点)失败,那么原本在该主机上运行的虚拟机会迁移(故障转移)到其他健康的主机上。根据您的设置,已经迁移的虚拟机可以在解决问题后返回到故障发生前运行的主机上。

优势

A failover cluster has advantages that provide strong protection:

  • A failover cluster provides automatic VM failover. You don’t need to start the failed VMs manually on other hosts.
  • 在故障转移过程中,您几乎不会遇到数据丢失。停机时间通常限于加载虚拟机、操作系统(OS)及运行在虚拟机上的软件所需的时间。
  • VMware高可用性集群中包含的容错特性确保了虚拟机故障转移时无停机和无数据丢失。

缺点

A failover cluster does not protect against:

  • VM的软件故障。软件错误或病毒可能导致VM系统崩溃。
  • VM内部文件的意外删除。
  • 共享存储故障。如果共享存储失败,集群也会失败。共享存储是集群的关键组成部分;属于集群内VM的虚拟磁盘存储在共享存储上。
  • A disaster that makes the whole physical site unavailable.

有关故障转移群集的更多信息,请阅读关于VMware集群的完整指南

解决方案2. 使用VM副本进行故障转移

依赖于VM副本的VM故障转移可以由专门的应用程序执行,该应用程序可以在管理员提示时复制VM并启动副本。除了数据保护软件外,您还需要提前准备好可以在源VM失败时运行VM副本的ESXi或Hyper-V主机(取决于您的环境)。

在下图中,您可以看到两个主机通过网络相互连接。VM使用主机的磁盘。源VM在第一个主机上运行,而VM副本是源VM在特定时间点的完全副本,位于第二个主机上处于关闭状态。

当一个主机宕机时,运行在该主机上的VM也变得不可访问。管理员会启动位于另一个主机上的VM副本。

VM复制要求

VM复制的基本要求是两个或更多的主机和一个复制解决方案。源VM在第一个主机上运行,被复制到第二个主机上。VM副本位于第二个主机上。

使用案例

在硬件或软件故障发生时,可以使用VM副本进行故障转移。ESXi或Hyper-V主机故障是硬件故障的一个例子。软件故障的例子可以是更新失败、软件错误、病毒攻击或用户意外删除文件。

优势

将VM故障转移到副本的主要优势是可以将故障转移到远程站点。在创建VM副本时,从源VM复制的数据可以通过网络连接(带宽有限)传输到远程站点。远程站点可以位于附近的办公室或世界的另一边。VM副本也可以位于主要生产站点上。

劣势

使用VM副本进行故障转移的劣势清单:

  • 在故障和在第二个主机上启动副本之间存在短暂的停机时间。
  • 故障转移必须手动启动。
  • 在计划外故障转移期间,自上次复制以来写入的数据可能会丢失。VM复制通常不是实时(同步)进行的,因为同步复制会对资源产生重大负载。复制通常根据您选择的设置定期进行。
  • 虚拟机在切换到另一个站点时,其网络设置必须(经常)进行更改。远程站点的虚拟机网络可能与主站点的网络不同,因此IP地址也可能不同,必须在故障转移过程中检查并更改这些IP地址以及其他网络设置。

基于集群与基于复制的虚拟机故障转移

集群故障转移 使用副本进行故障转移
目的 高可用性 灾难恢复
防护对象 仅硬件故障 硬件和软件故障
管理 自动启动 手动启动
停机时长(RTO) 故障转移更快,虚拟机停机时间短(短RTO) 故障转移耗时较长,虚拟机停机时间长
要求 更多要求 较少要求
解决方案价格 集群解决方案通常更昂贵 复制解决方案更具成本效益
数据丢失(RPO) 近乎零的数据丢失(非常低RPO) 数据丢失取决于复制的频率

集群和副本联合用于虚拟机故障转移

集群和副本故障转移解决方案有时被视为替代方案,但它们可以相互补充。让我们看一些例子,了解同时使用这两种故障转移解决方案如何帮助您的虚拟机(VM)抵御服务器级和站点级故障。

  • 示例1:您可以将集群内运行的虚拟机复制到远程站点的宿主机上。此外,您还可以将一个集群内运行的虚拟机复制到另一个集群。这样,如果宿主机发生故障,故障转移集群可以使这些虚拟机保持在线。如果整个站点遭受干扰,那么您可以故障转移至存储在远程站点的虚拟机副本。
  • 示例2:某种病毒损坏了一些虚拟机内的文件。故障转移集群无法防止此类故障。但如果您有具有多个恢复点的虚拟机副本,您可以将每个虚拟机恢复到其文件被损坏或删除之前的时间点。

使用NAKIVO解决方案进行自动化VMware虚拟机故障转移至副本

NAKIVO Backup & Replication 是一个备份和灾难恢复解决方案,能够保护运行在集群中的虚拟机(VM),复制虚拟机,故障转移至复制品,并编排复杂的灾难恢复(DR)序列。该解决方案支持集群以及独立的 ESXi 或 Hyper-V 主机作为复制的源和目标。该解决方案会自动跟踪虚拟机所在的宿主机,以便进行虚拟机复制。这很有用,因为虚拟机在故障转移事件或负载平衡事件后(通常在负载平衡的配合下),可以在集群中从一个宿主机迁移到另一个宿主机。这就是为什么您用于从集群中复制虚拟机的软件必须能够跟踪虚拟机所在的宿主机。

在 NAKIVO Backup & Replication 中,当发生故障转移时,NAKIVO 解决方案可以自动更改虚拟机的网络设置;在配置复制或故障转移作业时,只需使用网络映射和重新 IP 功能即可。

让我们考虑一个例子,在 NAKIVO Backup & Replication 中进行自动化虚拟机故障转移(配合网络映射和重新 IP)。首先,我们需要创建一个虚拟机副本。

配置用于虚拟机故障转移的复制

在作业仪表板中,如果您拥有 VMware 虚拟环境,请点击创建> VMware vSphere 复制作业。请注意,您也可以以相同方式为 Microsoft Hyper-V 虚拟机或 Amazon EC2 实例创建复制作业。

将启动复制作业向导。

  1. 选择要复制的虚拟机。在此示例中,将复制运行 Windows Server 2019 作为客户操作系统的 Server2019 VM。单击下一步
  1. 选择要在其上运行 VM 复制品的目标主机(在我们的情况下为10.10.10.90)。选择挂载到所选主机的数据存储以放置 VM 文件。单击下一步
  1. 在配置复制作业或故障切换作业时,可以设置网络映射和重定 IP 选项。在本步骤中,将稍后配置网络映射和重定 IP,因此您可以暂时跳过此步骤,只需单击下一步
  1. 重新配置IP将在本教程中的VM故障转移作业配置期间进行解释。单击下一步
  1. 选择您的调度设置。完成后单击下一步
  1. 设置保留设置。请记住,您可以在此步骤设置祖父 – 父亲 – 子保留策略。单击下一步
  1. 选择复制作业选项,然后单击完成完成 & 运行按钮。创建副本时请等待。

配置虚拟机故障转移

创建了虚拟机副本后,您可以执行虚拟机故障转移。

在仪表板的主页上,点击恢复> VMware 完全恢复 (虚拟机副本故障转移)新的故障转移作业向导 打开。

  1. 在左侧窗格中,选择用于故障转移的虚拟机副本。在本演练中,选择了刚刚创建的Server2019-replica。在右侧窗格中,选择一个恢复点。解决方案中默认选择最新的恢复点。单击下一步
  1. 网络映射可帮助您更改VM连接的网络。源ESXi主机和目标ESXi主机可能具有不同的虚拟交换机设置。由于VM副本是源VM的精确副本,因此源VM连接的虚拟网络会保留在VM副本中。

    通常情况下,您应该检查VM副本的网络设置并手动更改网络。NAKIVO备份与复制可以自动将源网络映射到目标网络。您只需在配置复制或故障转移任务时设置网络映射即可。

    • 要启用网络映射,请选中复选框。如果您之前创建了网络映射规则,可以点击添加现有映射。如果没有网络映射规则,请点击创建新映射
    • 要创建新的网络映射规则,请选择源网络和目标网络。源网络是源VM连接的网络。目标网络是VM副本应连接到的网络。

      注意: VM网络名称不同于IP地址或网络地址。

      点击保存以保存网络映射规则,然后点击下一步继续配置。

    1. Re-IP功能允许您更改VM副本的IP设置。它适用于静态IP地址。如果要启用此选项并创建Re-IP规则或添加现有规则,请选中启用Re-IP复选框。然后,点击创建新规则,如果之前没有创建规则,则会弹出菜单。
    • 源VM设置为需要更改的IP地址和网络掩码。
    • 目标设置为发生故障转移时应为VM副本应用的设置。在此示例中,[*]字符代表最后一个八位字节。[*]表示从1到254的任意数字。如果源IP地址为10.10.10.1、10.10.10.96和10.10.10.222,则目标地址分别为192.168.10.1、192.168.10.96和192.168.10.222。IP地址的最后一个八位字节保持不变。

      点击保存以保存您的Re-IP规则并继续。

      添加Re-IP规则后,您的屏幕应如下所示:

      现在选择应用Re-IP规则的VM。在此示例中,故障转移任务只包含一个VM副本,因此选择一个复选框。

      然后为每个VM选择凭据。点击管理凭据>添加凭据以添加新的凭据。添加的凭据可以从下拉列表中选择。

      注意: 凭据是NAKIVO备份与复制访问VM内部操作系统的网络设置并应用更改这些设置的脚本所必需的。VMware Tools必须安装在VMware vSphere VM上,Hyper-V集成服务必须安装在Microsoft Hyper-V VM上。

      当您配置完所有这些设置后,点击下一步

    1. 现在,配置VM故障转移任务选项。您可以选中关闭源VM复选框。如果源和副本VM同时使用相同的网络或具有相同的IP地址,这可能有助于防止IP地址冲突。配置完所有选项后,点击完成并运行
      等待VM故障转移任务完成。
      现在,您可以确保VM副本正在运行。转到配置>清单,点击刷新全部按钮。刷新后,您可以看到Server2019-replica VM已在目标ESXi主机上运行。您还可以从此页面(清单页面)管理凭据、网络映射规则和Re-IP规则。

    结论

    VM故障转移对于具有许多虚拟机的灾难恢复场景或为了确保运营连续性和高可用性而恢复单个VM非常有用。然而,重要的是要了解任何灾难恢复计划都应与可靠高效的备份策略相结合,以获得更可靠和高效的数据保护。

    考虑使用NAKIVO备份与复制,这是一种快速、可靠且经济实惠的VM保护解决方案,可通过集中的Web界面对虚拟、物理、云和SaaS环境进行备份和精细恢复。

Source:
https://www.nakivo.com/blog/vm-failover-guide/