在您的組織運營期間,當您運行關鍵虛擬機器和關鍵服務時,必須確保它們的可用性。實現高可用性的一種方式是使用集群來確保服務和應用程序的持續運行。
VMware vSphere虛擬化平台允許您使用集群運行虛擬機器(VM)並使用vSphere高可用性(HA)。本博客文章將解釋VMware vSphere HA配置,使您熟悉配置參數。
VMware vSphere中的HA是什麼?
VMware高可用性(HA)是一項功能,為vSphere虛擬機器提供最佳的可用性,包括在VM上運行的應用程序和服務,以減少故障情況下的停機時間。高可用性(HA)或虛擬環境抵禦主機故障的能力是您選擇部署VMware vCenter和集群而不是獨立的VMware ESXi主機的重要原因之一。
當 HA 在 VMware 集群上運行時,每個參與集群的主機上都會安裝一個代理。每個主機代理通過心跳與其他主機通信並監控集群中主機的可達性。如果從特定主機收不到心跳並且對該主機的 ping 也失敗了 15 秒間隔,則該主機被宣告為失敗。運行在該失敗主機的計算/內存資源上的虛擬機將故障轉移到一個健康主機上並在該主機上重新啟動。
vSphere 中的 HA 可以監控主機的硬件健康狀況,以主動將虛擬機從存在硬件問題的主機上移出。HA 還包括重新啟動優先級和協調,因此在故障轉移事件中,指定的虛擬機會在其他虛擬機之前上線。這些功能在 VMware vSphere 6.7 和 vSphere 7 版本中可用。
VMware 集群要求
VMware 提出了一些要求,以創建啟用 HA 的 VMware 集群。這些要求包括:
- HA 集群中的主機必須為 vSphere HA 授權。必須應用 VMware vSphere Standard 或 Enterprise Plus,包括 vCenter Standard 授權。
- 至少需要兩個主機才能啟用 HA。建議使用三個或更多主機。
- 配置在每台主机上的静态IP地址是最佳实践。
- 您需要至少一个管理网络,跨主机之间共享。
- 为了让虚拟机在集群中的所有主机之间运行,如果它们被移动到不同的主机上,这些主机需要配置相同的网络和数据存储。
- 高可用性需要共享存储。
- VMware工具需要在受HA监视的虚拟机上运行。
VMware HA配置逐步指南
您可以在创建集群时或已经创建集群时启用VMware HA。在这个vSphere HA配置演练中,我们专注于配置高可用性,并且已经创建了一个集群。我们使用VMware vSphere 7逐步解释VMware HA配置。
如何在VMware vSphere中启用HA
为了在现有集群中启用VMware vSphere中的HA,请执行以下操作:
- 在您的网络浏览器中打开VMware vSphere Client。
- 转到主机和集群,导航到您的集群。
- 在导航器窗格中右键单击集群名称。
- 點擊設定在上下文選單中。
- 在您的叢集的配置頁面的服務部分中選擇vSphere可用性。
- 點擊在我們的情況下已關閉的vSphere HA附近的編輯。
- 點擊vSphere HA開關器以啟用高可用性。
有四個帶有vSphere HA設置的標籤:
- 故障和響應
- 入場控制
- 心跳數據存儲
- 高級選項
讓我們通過編輯這些標籤中的設置來查看您可以進行的vSphere HA配置。
故障和響應故障和響應標籤
故障和響應標籤用於自定義HA叢集的行為並設置在不同情況下對VM進行的操作。
啟用主機監控。啟用此選項以允許ESXi主機在叢集中交換心跳。VMware vSphere HA叢集使用心跳來檢測任何叢集組件不可用的情況。執行網絡維護時禁用此選項,以避免不需要的VM遷移和故障切換。
讓我們查看故障和響應標籤中的所有設置。
主機故障響應
- 失敗回應。 使用這些設置來設定 HA 叢集對此叢集的故障條件作出回應。有兩種模式可用:
- 已停用 – ESXi 主機監控已關閉。
- 重新啟動 VM – 在主機故障時按確定的順序重新啟動 VM。
- 默認 VM 重新啟動優先級。此設置用於確定應首先重新啟動哪個 VM 群組。有五個值:最低、低、中、高和最高。按優先順序重新啟動 VM,一次一組。
- VM 依賴重新啟動條件。選擇一個條件,當滿足時,叢集會檢測到 VM 已成功重新啟動,並且可以重新啟動下一批 VM。有四個條件可用:
- 分配的資源
- 已啟動
- 檢測到 Guest 心跳
- 檢測到 App 心跳
主機隔離回應
當 ESXi 主機繼續運行但失去管理網絡連接時,主機隔離回應選項允許您設置 HA 叢集的行為:
- 已停用
- 關閉電源並重新啟動 VM
- 關閉並重新啟動 VMs
帶有 PDL 的 Datastore
永久設備損失(PDL)故障響應可以配置為通過 ESXi 主機檢測 Datastore 的無法訪問性並啟動受影響 VM 的自動故障切換。
此 vSphere HA 配置選項有三種模式:
- 已停用
- 發出事件
- 關閉電源並重新啟動 VMs
帶有 APD 的 Datastore
- 所有路徑中斷(APD)故障響應是一種條件,允許集群在所有路徑中斷且沒有指示這是暫時性還是永久性設備損失時做出響應。
此設置有四個選項:- 已停用
- 發出事件
- 關閉電源並重新啟動 VMs – 保守重啟策略
- 關閉電源並重新啟動 VMs – 積極重啟策略
- 響應恢復有兩個選項:
- 已停用
- 重置 VMs
您可以設置響應延遲時間(以分鐘為單位)。
VM 監控
- 使用運行在虛擬機器上的 VMware Tools 啟用心跳監控。您還可以使用這些功能來配置應用監控。如果虛擬機器的心跳未能及時接收,將啟動虛擬機器重新啟動。在 VMware 集群配置中有三個選項:
- 已停用
- 僅 VM 監控
- VM 和應用監控
- VM 監控靈敏度用於設置 VM 被歸類為不可用並且 HA 集群可以啟動 VM 重新啟動的時間。
- 預設。您可以將開關從低值調整到高值。
- 自定義。設置自定義靈敏度參數,包括失敗間隔、最大正常運行時間和每個 VM 的最大重置次數。最大重置時間窗口可以設置為自定義值(以小時為單位)。
注意:您還可以使用 VM 監控解決方案來檢測不在集群中的 VM 的故障和問題。
入場控制 標籤
准入控制是一種政策,用於確保在 VMware HA 集群中發生故障轉移時為運行虛擬機器保留足夠的資源。准入控制設置確保故障轉移容量。如果某個操作違反了准入控制設置,則該操作將不被允許。這些被禁止的操作可能包括啟動虛擬機器、遷移虛擬機器以及增加虛擬機器的 CPU 和內存設置。
- 准入控制定義了HA 集群可以容忍多少次故障,並仍然實現虛擬機器故障轉移的可能性(對虛擬機器故障轉移的保證)。
- 您可以通過以下方式定義主機故障轉移容量:
- 集群資源百分比
- 專用故障轉移主機
- 插槽策略
如果禁用准入控制,則無法確保在 HA 集群中發生故障時預期數量的虛擬機器將重新啟動。
- 虛擬機器容忍的性能降級是一個設置,用於定義您的集群可以容忍的性能降級百分比。0% 表示在虛擬機器故障轉移/重新啟動後必須保證相同水平的虛擬機器性能。否則,將顯示警告。100% 表示警告已禁用,集群將嘗試重新啟動虛擬機器。
心跳資料存儲页面
心跳資料存儲提供了一種次要方式,通過使用資料存儲來監控 ESXi 主機的可用性,如果無法連接到 ESXi 主機並且管理網絡失敗。這種方法允許 vSphere 區分主機故障和通過網絡無法訪問主機的情況。在 VMware HA 配置中使用心跳資料存儲來監控主機當 HA 網絡失敗時。
心跳資料存儲選擇策略有三個選項:
- 自動選擇從主機可訪問的資料存儲
- 僅使用指定列表中的資料存儲
- 使用指定列表中的資料存儲,並在需要時自動補充
進階選項標籤
進階選項標籤允許您通過在每個字符串中手動輸入選項和值來配置 vSphere HA。當您無法在我們之前解釋的標準設置中調整 HA 集群時,您可以使用進階選項,這些選項在 VMware vSphere Client 的 GUI 中可用。
與 VMware 分佈式資源調度器 (DRS) 一樣,一旦單擊確定,VMware 集群將根據上面配置的 HA 設置進行重新配置。
VMware vSphere 主動 HA
主動 HA 是一項功能,可以在所有 ESXi 主機和駐留在該主機上的 VM 發生故障之前對問題做出反應。ESXi 服務器的不同組件可能出現問題,vSphere 主動 HA 可以檢測服務器的硬件狀況。
主動式 HA 可以通知 ESXi 伺服器的電源供應出現問題。VM 仍在此伺服器上運行,但此問題可能導致伺服器很快故障。為了防止可能的 VM 故障,vSphere 主動式 HA 可以啟動 VM 遷移至叢集的其他 ESXi 主機。主動式 HA 支援對電源供應、風扇、存儲、記憶體和網路相關問題做出反應。
在啟用主動式 HA 之前,您需要在 vSphere 叢集中啟用並配置分佈式資源調度器(DRS)。您可以為叢集一起配置vSphere HA 和 DRS。
結語
一旦配置 vCenter Server 並將 ESXi 主機添加到 vSphere ESXi 叢集中,VMware vSphere ESXi 平台的真正功能、彈性和可擴展性就會被釋放。配置 vSphere HA 和 DRS 以有效提供對主機故障的保護,並為 VM 平衡和安排資源。自 vSphere 6.5 以來,DRS 和 HA 更加強大,因為 VMware 為這兩個叢集功能增加了更多主動和智能的監控和洞察,使它們能夠靈活和主動。
即使您的 VM 在叢集中運行,也不要忘記進行 VMware VM 備份,以避免數據丟失。
Source:
https://www.nakivo.com/blog/vmware-cluster-ha-configuration/