RTO vs RPO:了解灾难恢复的关键差异

組織越來越依賴備份來保護其數據,在災害發生時確保業務持續運作。然而,估計有超過 72% 的企業無法滿足其與 IT 恢復預期相關的恢復點目標(RPO)和恢復時間目標(RTO)

。為了幫助您制定有效的恢復計劃,重要的是您完全了解 RTO 和 RPO 並了解其差異。本文將解釋您對可靠的災害恢復策略所需了解的這兩個參數的一切。繼續閱讀,了解如何實現更緊密的 RPO 和 RTO,以最小化數據損失並在災害後盡快恢復正常業務運作

RTO 是什麼?

恢復時間目標(RTO)指的是組織在發生破壞性事件後能夠容忍的最大停機時間。換句話說,RTO 是災害發生與恢復受影響的關鍵工作負載之間的持續時間。

RTO 的計算通常取決於您的災難恢復計劃、可用資源和預算。當您的 IT 基礎設施不可用時,您需要一些時間來確定故障的原因並採取必要的措施來解決問題。然而,應該制定災難恢復步驟,以確保在解決生產問題的同時,關鍵系統和工作負載是可訪問和可用的。您的 RTO 是故障發生後通過備份或複製工作負載恢復系統可用性的時間。

什麼是 RPO?

恢復點目標(RPO)代表組織在災難中可以承受的最大數據損失量,而不會造成重大後果。此指標以自上次備份/複製流程以來的小時/分鐘為單位進行衡量。使用它來確定您需要多常創建數據備份和複製以減少在發生破壞性事件後的數據損失。

在理想情況下,備份或複製工作在原始機器故障之前剛完成。然而,在現實生活中,這是罕見的,因此您在上次成功備份創建和原始機器故障之間存在一個間隙。在此期間,VM 正在執行操作並存儲數據,最有可能的情況是這些數據將丟失。

災難恢復中的 RTO 和 RPO 是什麼?

資料保護的最終目標很明確:您希望確保在出現問題時不會丟失關鍵數據,並且可以符合組織的上線時間和可用性的 SLA。但是,將虛擬環境中的所有變更實時鏡像到災難恢復(DR)站點是相當昂貴的。這就是為什麼您需要接受這樣一個觀念:在停機時會丟失一些數據,並且您的 IT 服務將中斷。因此,您的任務是將這些損失和中斷降到最低。

讓我們通過一個簡單的圖表來說明 RPO 和 RTO 的概念:

該圖表顯示了一個常見的情景:某些原因導致虛擬機器崩潰。黃線代表 RPO,即最後一次備份和中斷之間的時間。橙線是 RTO,反映了恢復虛擬機器所需的時間。

RTO 和 RPO 之間的區別

要理解如何確定 RTO 和 RPO,您應該看看它們之間的區別以及它們在 DR 過程中的作用。

評估

  • RTO主要關注業務在災害期間預計恢復的時間。要考慮的重點有:
    • 評估您組織的需求和優先事項,因為它們對每個組織都是獨特的。
    • 考慮哪些應用程式對組織的生存至關重要,以及如果這些應用程式失效可能會產生什麼後果。
    • 確定每個系統/應用程式應該按照什麼順序恢復,以確保成功的災害恢復並減少停機造成的損失。
  • RPO更關注在停機期間可以丟失的數據量,而不會對組織的底線造成嚴重損害。要考慮的重點有:
    • 確定備份/複寫的頻率,以及在最新的VM備份和實際災害之間可能丟失的數據量。
    • 考慮組織每種工作負載可以承受多少數據丟失。

成本

RTO和RPO的主要差異在於,前者考慮到業務結構和灾难恢復過程的方方面面,而後者只考慮數據和應用程序對業務连续性的重要性。因此,滿足RTO值可能會是一項要求嚴格且昂貴的任務,以確保快速恢復。同樣,擁有較小的RPO意味著您需要進行更多備份並創建額外的恢復點,這可能會增加您的存儲成本。

自動化

  • 由於RPO著重於數據和系統對於數據丢失的恢復能力,建議您定期進行數據備份。許多現代備份解決方案允許您進行自動VM備份,意味著您的備份策略可以量身定製,以有效滿足您的RPO目標,且只需您最小的參與。
  • 實現RTO是一個更複雜的管理過程,因為它考慮到所有需要在灾难恢復事件中恢復的業務過程和系統部件。說明如此,建議自動化和 orchestrate 整個灾难恢復過程,從開始到結束,以確保可以滿足您的RTO目標。

計算容易度

  • RPO 的 量化 相当簡單,因為它只涵盖恢復进程中的一個方面 – 數據。
  • RTO 則考慮到您的組織的各个方面,包括數據和服務的重要性、停機成本、DR活動的投資等。計算 RTO 時,您應該考慮不同的工作負荷和應用程序,因為它們可能有不同的恢復過程。建議在商業 continuity 計劃的基礎上計算 RTO,該計劃概述了可能的商業風險和威脅,並描述了恢復商業運營的步驟。

要為您的組織中不同的工作負荷定義相适应的 RTO,請回答以下問題:

特定應用程序/系統/機器停機多久才不會對您組織的核心業務產生顯著影響?

為不同的機器回答這個問題後,考慮是否預期的結果能滿足您目前的商業需求。如果不能,想想如何改進您的備份和 DR 策略,以保持備份數據尽可能新。

如何使用 NAKIVO 实现更嚴格的 RPO 和 RTO

NAKIVO 備份與复製允許您更頻繁地創建虛擬和實體機器的備份,從而提高 RPO。只需安排定期的備份,備份間隔不超過您的目標即可。

該解決方案還可通過即時虛擬機恢復和VMware vSphere的複製功能、Microsoft Hyper-V和Amazon EC2來降低RTO。將您的網絡監控服務集成起來,在虛擬機不可用後立即觸發恢復流程。您還可以創建關鍵虛擬機的離岸副本(完全副本)。如果原始虛擬機失敗,副本將自動啟動。如果維護副本所需的資源超出您的負擔能力,您可以從備份中選擇即時VM啟動功能

為了實現最緊密的RTO,NAKIVO Backup&Replication引入了Site Recovery協調功能。全自動化VM故障切換和故障恢復,適用於不同的DR方案,並進行非中斷測試以確保在預期時間內完成恢復。

Source:
https://www.nakivo.com/blog/rpo-and-rto-difference/