组织越来越依赖备份来保护其数据,并确保在灾难发生时保持业务连续性。然而,据估计,超过 72% 的企业无法满足其与恢复点目标(RPO)和恢复时间目标(RTO)相关的 IT 恢复期望。
为了帮助您创建高效的恢复计划,重要的是您完全了解 RTO 和 RPO,并了解它们之间的区别。本文解释了您需要了解的关于这两个参数的所有内容,以确保可靠的灾难恢复策略。继续阅读,了解如何实现更紧密的 RPO 和 RTO,以尽量减少数据丢失,并在灾难发生后尽快恢复正常业务运营。
什么是 RTO?
恢复时间目标(RTO)是指组织在发生破坏性事件后能够容忍的最长停机时间。换句话说,RTO 是灾难发生和受影响的关键工作负载恢复之间的持续时间。
RTO计算通常取决于您的灾难恢复计划、可用资源和预算。在您的IT基础设施不可用时,您需要一些时间来确定故障原因并采取必要措施解决问题。然而,应当制定灾难恢复步骤,以确保在解决生产问题的同时,关键系统和工作负载是可访问和可用的。您的RTO是故障发生后通过备份或复制工作负载使系统可用的时间。
RPO是什么?
恢复点目标(RPO)表示组织在灾难中最多可以承受的数据丢失量,而不会造成重大后果。该指标以小时/分钟计,自上次备份/复制过程以来的时间。使用它来确定您需要多频繁地创建数据备份和复制以减少发生中断事件后的数据丢失。
在理想情况下,备份或复制作业在原始机器故障之前刚刚完成。然而,在现实生活中,这种情况很少见,因此您在最后一个成功备份创建之时和原始机器失败之时之间存在一个时间差。在此期间,虚拟机正在执行操作和存储数据,很可能会丢失这些数据。
灾难恢复中的RTO和RPO
数据保护的终极目标很明确:确保关键数据在出现问题时不会丢失,并且能够满足组织在运行时间和可用性方面的SLA。然而,将虚拟环境中的所有更改实时镜像到灾难恢复(DR)站点是相当昂贵的。这就是为什么你需要接受这样一个观念:在发生故障时你会丢失一些数据,并且你的IT服务会中断。因此,你的任务是尽量减少这些损失和中断。
让我们用一个简单的图表来说明RPO和RTO的概念:
图表展示了一个常见情景:一个虚拟机由于某种原因崩溃了。黄色线表示RPO,即最后一次备份和中断之间的时间。橙色线是RTO,反映了恢复虚拟机所需的时间。
RTO和RPO的区别
要理解如何确定RTO和RPO,你应该看看它们之间的区别以及它们在DR过程中的作用。
评估
- RTO主要关注业务在灾难期间预计恢复的时间段。需要考虑的要点包括:
- 评估您组织的需求和优先事项,因为它们对每个组织都是独特的。
- 考虑哪些应用程序对组织的生存至关重要,以及如果这些应用程序发生故障会产生什么后果。
- 确定每个系统/应用程序应该以何种顺序恢复,以确保成功的灾难恢复并最小化停机造成的损失。
- RPO更关注在停机期间可以丢失的数据量,而不会对组织的底线造成严重损害。需要考虑的要点包括:
- 确定备份/复制的频率,以及在最新虚拟机备份和实际灾难之间可能丢失的数据量。
- 考虑您的组织对每种工作负载可以承受的数据丢失量。
成本
RTO和RPO的主要区别在于前者考虑了业务结构和整个DR过程的所有方面,而后者仅考虑了数据和应用程序对业务连续性的关键性。因此,满足RTO值可能是一项费时费力的任务,以确保快速恢复。同样,具有较小的RPO意味着您需要执行更多的备份并创建额外的恢复点,这可能会增加存储成本。
自动化
- 由于RPO侧重于数据和系统对损失的弹性,建议您定期运行数据备份。许多现代备份解决方案都允许您执行自动化的VM备份,这意味着您可以根据需要调整备份策略,有效地实现您的RPO目标,并且您所需的输入很少。
- 实现RTO是一个更复杂的流程,因为它考虑了DR事件期间需要恢复的所有业务流程和系统组件。因此,建议自动化并编排整个DR过程,以确保您的RTO目标可以实现。
计算简便 RPO指标易于计算,因为它只涵盖恢复过程的一个方面——数据。
- RPO 指标易于计算,因为它只涵盖了恢复过程的一个方面 – 数据。
- RTO 考虑了组织的所有方面,包括数据和服务的重要性,停机成本,DR活动的投资等。在计算RTO时,您应考虑不同类型的工作负载和应用程序,因为它们可能具有不同的恢复过程。建议根据业务连续性计划计算RTO,该计划概述了可能的业务风险和威胁,并描述了恢复业务运营所需采取的步骤。
为了定义适用于您组织中不同工作负载的RTO ,请回答以下问题:
特定应用程序/系统/机器停机多长时间不会对您组织的核心运营产生重大影响?
回答了不同机器的这个问题后,考虑一下预期结果是否能满足您当前的业务需求。如果不能,请考虑如何改进您的备份和DR策略,以使备份数据尽可能与当前数据保持一致。
如何通过NAKIVO实现更紧密的RPO和RTO
NAKIVO备份与复制允许您更频繁地创建虚拟和物理机器的备份,从而提高RPO。只需安排定期备份,间隔不超过您的目标。
该解决方案还通过立即虚拟机恢复和VMware vSphere的复制功能、Microsoft Hyper-V和Amazon EC2来帮助减少RTO。集成您的网络监控服务,并在虚拟机不可用后立即触发恢复过程。您还可以创建关键虚拟机的异地副本(完全副本)。如果原始虚拟机失败,副本将自动启动。如果维护副本需要比您负担得起的资源更多,您可以选择备份中的即时虚拟机启动功能。
为了实现最紧密的RTO,NAKIVO备份与复制引入了站点恢复编排功能。完全自动化不同灾难恢复场景的虚拟机故障转移和故障恢复,并执行非中断测试以确保在预期时间范围内完成恢复。