故障切換是什麼?集群和複製用例

VM 的可用性對於確保業務連續性至關重要。當業務和使命關鍵 VM 上運行的服務變得不可用時,公司可能會損失金錢和客戶信任。為了在故障發生後立即恢復 VM 的可用性,應該使用適當的故障轉移技術。

將故障轉移到 VM 副本可以作為災難恢復的一部分,以最小干擾地恢復數據和操作,保持常規工作流程。VM 故障轉移流程應該在組織的業務連續性和災難恢復(BCDR)計劃中進行描述。讓我們更詳細地研究 VM 故障轉移的類型和用例。

什麼是故障轉移?

故障轉移是在主系統失敗後在次要系統(有時在次要位置)上恢復虛擬機器(VM)的過程。次要系統包含維護業務運營所需的所有數據。在這個上下文中,系統可以是服務器、數據庫、虛擬機器等。

在虛擬環境中,有兩種常見的故障轉移方法:

故障轉移比從備份恢復工作負載需要更少的時間,因此,您可以實現更低的恢復時間目標(RTO)。然而,使用VM複製或集群並不消除創建VM備份的需求。備份(通常是壓縮的)在您需要從舊恢復點恢復數據時非常有用。

讓我們來回顧一下基於複製的災難恢復的VM故障轉移術語。

故障轉移詞彙表

  • 故障:由於系統崩潰、停電、網絡問題、勒索軟件攻擊等硬件或軟件的問題,導致系統離線。
  • 主系統:在生產環境中運行實時操作的系統。
  • 次級系統:定期使用主系統的副本進行更新的冗餘待機系統。次級系統可以設在本地或遠程位置。
  • 複製:為VM故障轉移準備的基本過程。複製創建一個精確的副本,即主VM在給定時間點的副本。
  • VM故障回復:故障回復是在事件解決後從副本VM切換回主系統的過程。

故障轉移類型

有三種類型的故障轉移:

  • A planned failover is used for scheduled migrations of workloads from one system/site to another. Use cases include performing maintenance on the primary system, electrical works performed at the production site, and expected disaster scenarios. For example, a weather alert about a tornado may require a planned failover to ensure availability.
  • 一個非計劃性故障轉移是在意外故障發生時執行的故障轉移,導致關鍵虛擬機器或整個主站點離線。故障可能由許多自然災害、意外事件(例如停電)、惡意軟件攻擊或任何其他事件引起。對於非計劃性故障轉移,主機和副本應提前準備好。
  • A test failover, as the name suggests, is used for testing purposes. Testing scenarios can include rehearsing unplanned failover scenarios to ensure that
    • 您可以滿足設定的RTOsRPOs
    • 一切都正常運作,並且在需要時能夠順利運行
    • 所有參與災難恢復的人員都明白自己的角色和責任

故障轉移序列

在虛擬機器故障轉移期間,行動序列和虛擬機器啟動順序對於確保成功恢復工作流程至關重要。它們必須在您組織的災難恢復計劃的開發階段定義。該序列應捕捉在不同虛擬機器上運行的不同服務之間的依賴關係。

例如,某些運行在虛擬機器上的服務和應用程序的身份驗證可能正在使用在另一個虛擬機器上運行的Active Directory。數據庫服務器可能在第一個虛擬機器上運行,應用程序服務器在第二個虛擬機器上運行,網絡服務器在第三個虛擬機器上運行。

處於活動目錄伺服器的虛擬機必須首先啟動。然後,使用活動目錄進行身份驗證的服務的虛擬機可以啟動。應用程式伺服器的虛擬機必須在資料庫伺服器的虛擬機之前啟動,因為應用程式伺服器連接到資料庫。一旦資料庫伺服器和應用程式伺服器的虛擬機已經啟動,Web 伺服器的虛擬機就可以啟動。

主要故障切換解決方案

虛擬環境中使用的主要解決方案是:

  • 故障切換叢集
  • 使用虛擬機複本進行故障切換

讓我們來考慮每一個。

解決方案 1. 故障切換叢集

A failover cluster is a group of at least two servers or nodes that are configured to take over workloads when one node is down or unavailable. Clustering is an enterprise-class automated solution that can be used for the most important, business-critical VMs. Microsoft Hyper-V offers a Failover Cluster made up of several Hyper-V hosts. VMware’s equivalent is a High Availability cluster, which is made up of ESXi hosts.

在下面的第一個圖表中,您可以看到一個集群,在該集群中,兩個主機(也稱為節點)都正常運作。虛擬機正在主機上運行,並且虛擬機檔案位於共享存儲上,該存儲可由兩個主機共同訪問。

當其中一個主機掛掉時,將連接到虛擬機(正在離線節點上運行的虛擬機)的所有權轉移到仍然在線的另一個節點。這是故障切換過程。高可用性虛擬機可能需要重新啟動。

故障切換叢集要求

必須滿足以下要求才能構建故障切換叢集:通過專用高速網絡與低延遲連接到主機的共享存儲。必須使用叢集檔案系統以確保多個主機可以同時訪問存儲上的數據。

  • 連接到主機的共享存儲,使用專用高速低延遲網絡。必須使用集群文件系統,以確保多個主機可以同時訪問存儲中的數據。
  • 運行虛擬機器的主機必須具有相同的硬件,或者至少是同一系列的硬件。處理器必須支持相同的指令集,以確保在故障轉移期間從一個主機遷移到另一個主機後,虛擬機器能夠正常運行。
  • A high-speed redundant network with low latency. There should be multiple, separate cluster networks, that is, a cluster must have different networks for storage, management, VM migration, connection of hosts amongst each other, etc.

使用情況

故障轉移集群用於從服務器故障中恢復虛擬機器,為關鍵虛擬機器提供高可用性。如果集群中的一個主機(稱為節點)失敗,則運行在失敗主機上的虛擬機器將遷移到其他正常主機上(故障轉移)。根據您的設置,一旦故障得到解決,已經故障轉移的虛擬機器可以重新遷移到故障發生前運行的主機上。

優勢

A failover cluster has advantages that provide strong protection:

  • A failover cluster provides automatic VM failover. You don’t need to start the failed VMs manually on other hosts.
  • 在故障轉移時,您幾乎不會有數據丟失。停機時間通常僅限於加載虛擬機器、操作系統(OS)和運行在虛擬機器上的軟件所需的時間。
  • 包含在 VMware 高可用性集群中的容錯容忍功能確保虛擬機器的故障轉移無需停機和數據丟失。

缺點

A failover cluster does not protect against:

  • 虛擬機器的軟體故障。軟體錯誤或病毒可能導致虛擬機器系統崩潰。
  • 虛擬機器內部文件的意外刪除。
  • 共享存儲故障。如果共享存儲失敗,叢集也會失敗。共享存儲是叢集的關鍵組件;屬於叢集內虛擬機器的虛擬磁碟存儲在共享存儲上。
  • A disaster that makes the whole physical site unavailable.

有關故障切換叢集的更多信息,請閱讀有關VMware叢集的完整指南

解決方案2。使用虛擬機器副本進行故障切換

依賴虛擬機器副本進行故障切換可以由專用應用程序執行,這些應用程序可以複製虛擬機器並在管理員提示時啟動副本。除了數據保護軟體外,您還需要預先準備好的ESXi或Hyper-V主機(取決於您的環境),以在源虛擬機器失敗時運行虛擬機器副本。

在下面的圖表中,您可以看到兩個主機通過網絡相互連接。虛擬機器使用主機的磁碟。源虛擬機器運行在第一個主機上,而虛擬機器副本,即源虛擬機器在特定時間點的完全副本,位於第二個主機上並處於關機狀態。

當一個主機故障時,運行在該主機上的虛擬機器也變得無法訪問。然後,管理員會啟動位於另一個主機上的虛擬機器副本。

虛擬機器複製要求

虛擬機器複製的基本要求是兩個或更多主機和一個複製解決方案。運行在第一個主機上的源虛擬機器被複製到第二個主機。虛擬機器副本位於第二個主機上。

使用案例

使用虛擬機器副本進行故障轉移可在硬件或軟件故障發生時使用。ESXi或Hyper-V主機故障是硬件故障的一個例子。軟件故障的例子可以是更新失敗、軟件錯誤、病毒攻擊或用戶意外刪除文件。

優點

將虛擬機器故障轉移至副本的主要優點是可以故障轉移至遠程站點。當正在創建虛擬機器副本時,從源虛擬機器複製的數據可以通過網絡連接(帶有有限帶寬)傳輸到遠程站點。遠程站點可以位於附近的辦公室或世界的另一邊。虛擬機器副本也可以位於主要生產站點。

缺點

使用虛擬機器副本進行故障轉移的缺點清單:

  • 故障和在第二個主機上啟動副本之間存在短暫的停機時間。
  • 必須手動啟動故障轉移。
  • 自上次複製以來寫入的數據在非計劃性故障轉移期間可能會丟失。虛擬機器複製通常不是實時(同步)過程,因為同步複製會對資源造成重大負荷。複製通常根據您選擇的設置在定期時間間隔進行。
  • 虛擬機器的網路設定在故障轉移至另一個站點時必須(通常)更改。遠端站點的虛擬機器網路可能與主站點的網路不同。因此,在故障轉移期間,IP 地址可能也不同,必須在更改其他網路設定的同時進行檢查和更改。

叢集 vs 基於複製的虛擬機器故障轉移

使用叢集進行故障轉移 使用複本進行故障轉移
目的 高可用性 災難恢復
防護對象 僅防護硬體故障 硬體和軟體故障
管理 自動啟動 手動啟動
停機時間長度(RTO) 故障轉移速度較快,因此虛擬機器停機時間短(短 RTO) 故障轉移需要更多時間,因此虛擬機器停機時間較長
需求 更多需求 較少需求
解決方案價格 叢集解決方案通常較昂貴 複製解決方案更具成本效益
資料損失(RPO) 幾乎零資料損失(非常低 RPO) 資料損失取決於複製頻率

集群和副本的結合用於虛擬機故障轉移

集群和副本故障轉移解決方案有時被視為替代方案,但它們可以互補使用。讓我們看一些使用兩種故障轉移解決方案如何幫助保護您的虛擬機免受伺服器和站點級別故障的示例。

  • 示例1: 您可以將在集群內運行的虛擬機複製到遠端主機。此外,您還可以將在一個集群內運行的虛擬機複製到另一個集群。因此,如果一個主機故障,故障轉移集群將使這些虛擬機保持在線。如果整個站點遇到干擾,那麼您可以切換到存儲在遠端站點的虛擬機副本。
  • 示例2: 病毒損壞了一些虛擬機內的文件。故障轉移集群無法保護免受此類故障。但如果您有具有多個恢復點的虛擬機副本,您可以將每個虛擬機還原到其文件損壞或刪除之前的時間點。

使用NAKIVO解決方案進行自動化的VMware VM故障轉移到副本

NAKIVO Backup & Replication 是一款備份和災難恢復解決方案,可保護集群內運行的虛擬機器,複製虛擬機器,切換到副本,並組織複雜的災難恢復序列。集群以及獨立的 ESXi 或 Hyper-V 主機都支持作為複製的來源和目的地。該解決方案會自動跟踪虛擬機器所在的主機,以便複製該虛擬機器。這很有用,因為虛擬機器可以在故障切換事件或負載平衡事件後從一個主機遷移到另一個主機(通常與負載平衡一起配置集群)。這就是為什麼您用於從集群複製虛擬機器的軟件必須能夠跟踪虛擬機器所在的主機。

NAKIVO 解決方案可以在切換時自動更改虛擬機器的網絡設置;只需在配置複製或切換作業時使用網絡映射和重新 IP 功能。

讓我們以 NAKIVO Backup & Replication 中的 自動虛擬機器切換(帶有網絡映射和重新 IP)為例。我們將從創建虛擬機器副本開始。

配置所需的虛擬機器切換複製

在作業儀表板上,單擊 創建 > VMware vSphere 複製作業 如果您有 VMware 虛擬環境。請注意,您可以以相同方式為 Microsoft Hyper-V 虛擬機器或 Amazon EC2 實例創建複製作業。

複製作業嚮導已啟動。

  1. 選擇您想要複製的虛擬機器。在此示例中,選擇運行 Windows Server 2019 作為客戶操作系統的 Server2019 VM 進行複製。點擊 下一步
  1. 選擇一個目的地主機來運行 VM 複本(在我們的案例中為 10.10.10.90)。選擇掛載到所選主機的數據存儲器以放置 VM 文件。點擊 下一步
  1. 在配置複製作業或故障轉移作業時,您可以設置網絡映射和重新 IP 選項。在本教程中,網絡映射和重新 IP 將在配置故障轉移作業時稍後進行配置。因此,您可以暫時跳過此步驟,只需點擊 下一步
  1. 重新配置 IP 將在本教學中的 VM 故障轉移工作配置期間進行解釋。點擊 下一步
  1. 選擇您的排程設定。完成後點擊 下一步
  1. 設置保留設定。請記住您可以在此步驟設定祖父-父親-兒子保留政策。點擊 下一步
  1. 選擇複製工作選項,然後點擊完成完成並運行按鈕。等待複本創建。

配置VM故障切換

現在您已經創建了一個VM複本,您可以對此複本執行VM故障切換。

在儀表板的主頁上,點擊恢復>VMware完全恢復(VM複本故障切換)。打開新故障切換作業精靈

  1. 在左窗格中,選擇要用於故障切換的VM複本。在本教程中,選擇了剛創建的Server2019-replica。在右窗格中,選擇一個恢復點。默認情況下,解決方案中選擇了最新的恢復點。點擊下一步
  1. html
    網絡映射幫助您更改 VM 連接的網絡。源 ESXi 主機和目標 ESXi 主機可能具有不同的虛擬交換機設置。由於 VM 副本是源 VM 的精確副本,因此源 VM 連接的虛擬網絡在 VM 副本中得以保留。

    通常,您應檢查 VM 副本的網絡設置並手動更改網絡。NAKIVO 備份與復原可以自動將源網絡映射到目標網絡。在配置複製或故障轉移作業時,您只需設置網絡映射即可。

    • 要啟用網絡映射,請選擇核取方塊。如果之前創建了網絡映射規則,您可以點擊 添加現有映射。如果沒有網絡映射規則,請點擊 創建新映射
    • 要創建新的網絡映射規則,請選擇源網絡和目標網絡。源網絡是源 VM 連接的網絡。目標(目標)網絡是 VM 副本應連接的網絡。

      注意:VM 網絡名稱與 IP 地址或網絡地址不相同。

      單擊 保存 以保存網絡映射規則,然後單擊 下一步 以進行配置。

    1. 重新 IP 功能 允許您更改 VM 副本的 IP 設置。它可用於靜態 IP 地址。如果要啟用此選項,請選擇 啟用重新 IP 核取方塊,然後創建重新 IP 規則或添加現有規則。如果之前沒有創建規則,請單擊 創建新規則。會彈出一個彈出菜單。
    • 源 VM 設置是需要更改的 IP 地址和網絡遮罩。
    • 目標設置是在故障轉移發生時應用於 VM 副本的設置。在此示例中,[*] 字符覆蓋了最後一個八進制。[*] 表示從 1 到 254 的任何數字。例如,如果源 IP 地址為 10.10.10.1、10.10.10.96 和 10.10.10.222,則目標地址將分別為 192.168.10.1、192.168.10.96 和 192.168.10.222。 IP 地址的最後一個八進制被保留。

      單擊 保存 以保存您的重新 IP 規則並繼續。

      添加重新 IP 規則後,您的屏幕應如下所示:

      現在選擇應用重新 IP 規則的 VM。在此示例中,故障轉移作業僅包含一個 VM 副本,因此選擇一個核取方塊。

      然後為每個 VM 選擇憑據。單擊 管理憑據 > 添加憑據 以添加新憑據。可以從下拉列表中選擇添加的憑據。

      注意:憑據是 NAKIVO 備份與復原訪問 VM 內操作系統的網絡設置並應用更改該設置的腳本所需的。在 VMware vSphere VM 上必須安裝 VMware Tools,在 Microsoft Hyper-V VM 上必須安裝 Hyper-V Integration Services。

      配置所有這些設置後,單擊 下一步

    <diy

Source:
https://www.nakivo.com/blog/vm-failover-guide/