如何在VMware vSphere中配置HA

当您的关键虚拟机和关键服务在运行时,必须确保它们在您组织的运营时间内可用。实现高可用性的一种方法是使用集群来确保持续运行的服务和应用程序。

VMware vSphere虚拟化平台允许您使用集群来运行虚拟机(VM)并使用vSphere高可用性(HA)。本博文解释了VMware vSphere HA配置,以使您熟悉配置参数。

VMware vSphere中的HA是什么?

VMware High Availability(HA)是一个功能,为vSphere虚拟机提供最佳可用性,包括运行在VM上的应用程序和服务,以最小化故障时的停机时间。高可用性(HA)或虚拟环境抵御主机故障的能力是您选择部署VMware vCenter和集群而不是独立的VMware ESXi主机的重要原因之一。当在VMware集群上运行HA时,每个参与集群的主机上都安装了一个代理。每个主机代理与其他代理通信,并通过心跳监视集群中主机的可达性。如果在15秒的间隔内没有收到来自特定主机的心跳并且对主机的ping也失败了,则该主机被声明为失败。在失败主机的计算/内存资源上运行的VM将故障转移到健康主机,并在该主机上重新启动。

当HA在VMware集群上运行时,每个参与集群的主机上都安装了一个代理。每个主机代理通过心跳进行通信,并监视集群中主机的可达性。如果从特定主机没有收到心跳信号并且对该主机的ping也失败了15秒,该主机将被声明为失败。在失败的主机上运行的虚拟机将故障转移到一个健康的主机上,并在该主机上重新启动。

在vSphere中的HA功能可以监视主机的硬件健康状况,以主动将虚拟机从存在硬件问题的主机上迁移出去。HA还包含重启优先级和编排功能,因此在故障转移事件中,指定的虚拟机将在其他虚拟机之前上线。这些功能在VMware vSphere 6.7和vSphere 7版本中可用。

VMware集群要求

创建启用了HA的VMware集群需要满足一些VMware的要求。这些要求包括:

  • HA集群中的主机必须为vSphere HA获得许可。必须应用VMware vSphere Standard或Enterprise Plus许可,包括vCenter Standard许可。
  • 启用HA功能需要两个主机,建议使用三个或更多主机。
  • 在每个主机上配置静态IP地址是最佳实践。
  • 您需要至少一个管理网络,跨主机之间通用。
  • 为了在集群中将虚拟机移动到不同的主机上时能够正常运行,主机需要配置相同的网络和数据存储。
  • 对于HA,需要共享存储。
  • VMware工具需要在HA中监控的虚拟机上运行。

VMware HA配置逐步指南

您可以在创建集群时或已经 创建了集群时启用VMware HA。在这个vSphere HA配置演示中,我们专注于配置高可用性,我们已经创建了一个集群。我们使用 VMware vSphere 7 逐步解释VMware HA的配置。

如何在VMware vSphere中启用HA

为了在现有的集群中启用VMware vSphere中的HA,请执行以下操作:

  1. 在您的网络浏览器中打开 VMware vSphere Client
  2. 转到 主机和集群 并导航到您的集群。
  3. 右键单击导航器窗格中的集群名称。
  4. 点击设置在上下文菜单中。

  1. 配置页面的服务部分选择vSphere可用性,用于您的集群。
  2. 点击编辑附近的vSphere HA,在我们的情况下它是关闭的。

  1. 点击vSphere HA开关以启用高可用性。

有四个带有vSphere HA设置的选项卡:

  • 故障和响应
  • 准入控制
  • 心跳数据存储
  • 高级选项

让我们查看通过编辑这些选项卡中的设置可以进行的vSphere HA配置。

故障和响应故障和响应选项卡

故障和响应故障和响应选项卡用于自定义HA集群的行为,并设置在不同情况下对VM执行的操作。

启用主机监控。启用此选项以允许ESXi主机在集群中交换心跳。VMware vSphere HA集群使用心跳来检测任何集群组件不可用的情况。在执行网络维护时禁用此选项,以避免不必要的VM迁移和故障转移。

让我们审查故障和响应选项卡中的所有设置。

主机故障响应

  • 失败响应。 使用这些设置来设置HA集群对此集群的故障情况做出响应。有两种模式可用:
    • 已禁用 – ESXi主机监控已关闭。
    • 重新启动VM – 在主机故障时按确定的顺序重新启动VM。
  • 默认VM重新启动优先级。此设置用于确定应首先重新启动哪个VM组。有五个值:最低最高。按优先级顺序重新启动VM,一次一个组。
  • VM依赖性重新启动条件。选择一种条件,当满足时,集群会检测到VM已成功重新启动,并可以重新启动下一批VM。有四种条件可用:
    • 分配资源
    • 已上电
    • 检测到Guest心跳
    • 检测到App心跳

主机隔离响应

主机隔离响应选项允许您设置HA集群在ESXi主机继续运行但失去管理网络连接时的行为:

  • 已禁用
  • 关闭电源并重新启动VM
  • 关闭并重新启动虚拟机

带PDL的数据存储

永久设备丢失(PDL)故障响应可配置为通过ESXi主机检测数据存储无法访问并启动受影响虚拟机的自动故障转移。

此vSphere HA配置选项有三种模式:

  • 禁用
  • 发出事件
  • 关闭并重新启动虚拟机

带APD的数据存储

  • 所有路径中断(APD)故障响应是当所有路径中断且没有指示这是临时还是永久设备丢失时,允许集群响应的条件。
    此设置有四个选项:

    • 禁用
    • 发出事件
    • 关闭并重新启动虚拟机 – 保守重启策略
    • 关闭并重新启动虚拟机 – 激进重启策略
  • 响应恢复有两个选项:
    • 禁用
    • 重置虚拟机

您可以设置响应延迟时间(分钟)。

虚拟机监控

  • 通过运行在虚拟机上的VMware Tools,启用虚拟机的心跳监控。您还可以使用这些功能配置应用程序监控。如果未及时接收到VM心跳信号,将启动VM重新启动。在VMware集群配置中有三个选项可供设置:
    • 禁用
    • 仅VM监控
    • VM和应用程序监控
  • VM监控灵敏度用于设置VM被分类为不可用并且HA集群可以启动VM重新启动的时间。
    • 预设。您可以将开关从低值移动到高值。
    • 自定义。设置自定义灵敏度参数,包括故障间隔、最大正常运行时间和每个VM的最大重置次数。最大重置时间窗口可以设置为自定义小时数。

注意您还可以使用VM监控解决方案来检测不在集群中的VM的故障和问题。

准入控制选项卡

准入控制是一种策略,用于确保在 VMware HA 集群发生故障转移时为运行虚拟机保留足够的资源。准入控制设置确保故障转移容量。如果某个操作违反了准入控制设置,则不允许执行该操作。这些被禁止的操作可以是启动虚拟机、迁移虚拟机以及增加虚拟机的 CPU 和内存设置。

  • 准入控制定义HA 集群可以容忍多少次故障并仍然能够实现虚拟机故障转移(对虚拟机故障转移的保证)。
  • 您可以通过以下方式定义主机故障转移容量
    • 集群资源百分比
    • 专用故障转移主机
    • 插槽策略

如果禁用准入控制,则无法确保在发生故障时 HA 集群中将重新启动预期数量的虚拟机。

  • 性能降级虚拟机容忍是定义集群可以容忍的性能降级百分比的设置。0% 表示在虚拟机故障转移/重新启动后必须保证相同水平的虚拟机性能。否则,将显示警告。100% 表示警告已禁用,集群将尝试重新启动虚拟机。

心跳数据存储标签

心跳数据存储提供了一种次要的监视 ESXi 主机可用性的方式,当网络连接到 ESXi 主机不可用且管理网络失败时,可使用数据存储来监视。这种方法允许 vSphere 区分主机故障和通过网络无法访问主机的情况。在 VMware HA 配置中使用心跳数据存储来监视主机在 HA 网络失败时。

心跳数据存储选择策略有三个选项:

  • 自动选择可从主机访问的数据存储
  • 仅使用指定列表中的数据存储
  • 使用指定列表中的数据存储,并在需要时自动补充

高级选项 选项卡

高级选项 选项卡允许您通过手动输入每个字符串的选项和值来配置 vSphere HA。当您无法在我们之前解释的标准设置中调整 HA 集群时,可以使用高级选项,这些选项在 VMware vSphere Client 的 GUI 中可用。

VMware 分布式资源调度器 (DRS) 一样,一旦单击 确定,VMware 集群将根据上面配置的 HA 设置进行重新配置。

VMware vSphere 主动 HA

主动 HA 是一项功能,使集群在所有 ESXi 主机和驻留在该主机上的所有 VM 发生故障之前对问题做出反应。ESXi 服务器的不同组件可能会出现问题,vSphere 主动 HA 可以检测服务器的硬件状况。

主动HA可以通知ESXi服务器的电源供应存在问题。虚拟机继续在该服务器上运行,但这个问题可能很快导致服务器故障。为了防止虚拟机可能的故障,vSphere主动HA可以启动虚拟机迁移到集群的其他ESXi主机。主动HA支持对电源供应、风扇、存储、内存和网络相关问题做出反应。

在启用主动HA之前,您需要在vSphere集群中启用和配置分布式资源调度器(DRS)。您可以为集群同时配置vSphere HA和DRS

总结思考

一旦vCenter Server被配置并将ESXi主机添加到vSphere ESXi集群中,VMware vSphere ESXi平台的真正力量、弹性和可伸缩性就会被释放。配置vSphere HA和DRS以有效提供对主机故障的保护,以及为虚拟机平衡和调度资源。自vSphere 6.5以来,DRS和HA变得更加强大,因为VMware为这两个集群功能增加了更多主动和智能的监控和洞察力,使它们能够灵活和主动。

即使您的虚拟机在集群中运行,请不要忘记执行VMware虚拟机备份,以避免数据丢失。

Source:
https://www.nakivo.com/blog/vmware-cluster-ha-configuration/