业务连续性计划检查表

A disruption or a disaster can happen when you least expect it. In fact, 80% of data center managers have experienced an outage in the past three years. Whether it is a cyber attack, ransomware infection, human error or natural disaster, lengthy downtime can have a detrimental impact on your organization’s operations.

拥有健全的业务连续性计划(BCP)作为您风险管理策略的一部分,能够使您在发生中断时保持或快速恢复关键功能。BCP还保护公司的基础设施,并作为您可以遵循的大纲,以适当应对事故的纲要。

本文列出了业务连续性计划清单的基本要素。继续阅读,了解您应该采取的成功恢复业务运作的最佳方法,以最小化后果。

为什么需要业务连续性计划

A business continuity plan (BCP) determines how an organization can continue delivering products and services during unplanned disruptions. The BCP is a detailed strategy that helps mitigate the impact of a disaster on day-to-day activities while keeping the production environment going.

A comprehensive BCP should tackle all potential threats that could endanger your employees, resources and operations, whether it is a power outage, a malware infection or a natural disaster. This is particularly important since all these events can cause downtime, which, in turn, results in financial loss, reputational damage or permanent closure.

业务连续性计划的主要目的是通过使您的响应团队有条不紊地在紧急情况发生前、期间和后完成必要步骤,来确保紧急应对能力。没有这份清单的公司可能会难以维持正常的业务流程,并有失数据、系统或客户的风险,往往无法弥补。

7步业务连续性计划

7步清单帮助您制定一个优先级的通用框架,您可以在此基础上建立一个适合您组织的业务连续性计划。您可以包含在危机期间维持业务运作所需的所有程序。请注意,具体细节因公司规模、行业和威胁类型等不同方面而异。

标准业务连续性计划通常包括以下步骤:

  1. 创建灾难响应团队
  2. 识别关键业务服务
  3. 进行风险评估和业务影响分析
  4. 制定恢复计划
  5. 设定恢复目标并指定DR站点
  6. 确保所有关键业务负载都受到保护
  7. 测试并更新您的业务连续性计划

让我们更详细地了解每个步骤,以了解它们为何是任何BCP检查表的重要元素。

1. 创建灾难响应团队

制定业务连续性计划的第一步是组建负责在紧急情况下保持公司运行的团队。BCP团队应包括来自参与日常运营的每个部门的成员,并应指定一名经理来率领业务连续性规划工作。

在确定关键BCP人员时,您需要创建一个包含对您的组织构成最大威胁的各种灾难的广泛列表,以便招募合适的人员。不同类型的紧急情况,如IT系统故障、停电或设施损坏,需要具有特定知识和专业知识的工作人员来正确且迅速地处理。

创建一个表格来记录响应团队成员的必要信息,以便在需要时轻松联系到他们。您的表格可能包括姓名、职位、响应团队角色和联系信息。请记住,您应该为团队中的每个角色至少指定一个备用人员。这样可以避免主要代表未能执行其责任而造成的瓶颈。

2. 确定关键业务服务

业务连续性计划的主要目的之一是帮助您确定对您组织的运作至关重要的流程、设备和资源。这些是您应该围绕BCP建立的重要基础功能和服务。

这些关键服务和基础设施元素最可能包括:

  • 电力系统和发电机
  • 电信设备 – WAN、LAN、电话、计算机
  • IT系统和服务器
  • 建筑基础设施和设施
  • 专业设备或业务关键供应品

在发生中断时尽快恢复这些元素对于恢复您的运营并保护您的资产至关重要。

3. 进行风险评估和业务影响分析

确定关键业务服务后,您应进行风险影响评估,以发现与重要系统、活动和资源相关的漏洞。风险评估估计了每种威胁的可能性,并反映了灾难发生的可能性。

通常与风险评估一起进行的业务影响分析(BIA)允许您评估对业务运营的影响的关键性和严重性。BIA的主要目标是分析在风险实现的情况下您将承担的财务和运营成本。它帮助您确定重要流程和依赖关系(如客户和合作伙伴)的容忍水平,如果关键业务功能受到降级、中断或完全停止。

以下是一个简化的表格,您可以用作起草您自己分析的模板:

业务流程 影响类别 严重程度 最大可容忍停机时间(MTD) 预计成本 依赖关系

请注意,具有多个站点的组织必须为每个位置进行单独的风险评估和业务影响分析(BIA)。如果这些站点在地理上相距较远,则挑战和风险可能会有所不同。健壮的业务连续性计划还考虑了不同位置之间的关系和依赖关系。

4. 制定恢复计划

完成前面的步骤后,是时候制定一个恢复计划,重点是在灾难发生后恢复您的运营。业务连续性和灾难恢复密切相关,特别是因为灾难恢复(DR)计划是业务连续性计划的重要组成部分。要获取更详细的灾难恢复模板,请下载我们的免费白皮书《灾难恢复手册和模板》

DR计划概述了您需要执行的技术步骤,以尽快恢复核心服务。请记住,恢复计划不仅限于数据,还应包括机器、工作负载和流程。

您的恢复计划可能利用以下策略,等等:

  • 备用业务程序 – 例如,手动解决方案用于机械化或自动化流程,直到系统恢复正常
  • A secondary or alternate site to resume business operations
  • 站点级网络和服务器故障转移
  • 恢复业务关键数据的异地备份
  • “热备”或备用资源,可在主要组件发生故障时立即投入使用

以下视频介绍了如何使用NAKIVO备份与复制执行完整的灾难恢复。

5.设置恢复目标并指定DR站点

恢复时间目标或RTO确定业务在进程或服务恢复之前可以合理容忍多少IT系统停机时间。恢复点目标或RPO定义业务可以容忍多少数据丢失。RTO和RPO在任何业务连续性计划中都是重要的指标。

为网络/数据故障转移指定灾难恢复(DR)站点至关重要,因为它在您的主要生产站点下线时提供了一个即时替代。此外,它帮助您确保实现您的恢复目标。

位于不同地理位置的DR设施充当您的资源(如虚拟机(VM))的“热备份”副本。在导致生产网络宕机的站点范围故障事件中,流量可以切换到DR位置。“热备份”VM基本上成为生产工作负载,高效恢复业务运营并确保业务连续性。

您可以使用先进的第三方数据保护解决方案将生产VM复制到离线DR位置,并将复制间隔设置为与您的RPO对齐。复制VM是原始机器的精确副本,在实施灾难恢复计划时可以用于自动故障转移过程。

6.确保所有业务关键工作负载受到保护

灾难的影响可以通过正确保护业务关键数据来显著减轻。通过应用 3-2-1 原则使您的备份具有弹性:至少需要 3 个备份,跨越 2 种不同类型的存储介质,其中至少有 1 份备份存储在离岸位置。

遵循 3-2-1 备份方法进行业务数据备份,以实现可能的最短 RPO 和 RTO。这也让您确保影响生产网络的同一灾难也不能影响备份数据。

7. 测试和更新您的业务连续性计划

一旦您的业务连续性计划完成,就需要进行严格的测试。最佳方法是通过培训员工确保他们完全了解自己的角色和责任。没有定期进行培训和演练,就不能保证应急准备工作。更重要的是,通过进行全面模拟,您可以识别和修复计划中的弱点。

确保执行所有程序以模拟实际灾难场景的流程。此类测试最好每季度进行一次,因为关键团队成员仍然熟悉流程。此外,对基础架构、环境、协议、工作负载和/或劳动力的更改可能会引入计划中的复杂性。这些潜在问题通常只能在全面实施过程中发现。

模拟应该由独立观察者观察,该观察者可以记录所有漏洞。每次运行后都应进行详细说明,然后您可以起草一份报告,记录已注意到的弱点和建议的更新。应将报告以及更新后的业务连续性计划与所有团队成员共享。

业务连续性计划检查表

以下是一个简化的业务连续性计划检查表,可让您通过必要的阶段以确保应急准备。

创建灾难响应团队

  • 指派BCP高级经理
  • 创建业务连续性委员会
  • 选择响应团队成员
  • 定义角色和责任
  • 为每个团队成员选择备用代表
  • 确立所有成员之间的清晰沟通

确定必要的业务服务

  • 绘制所有电力系统
  • 确定电信设备
  • 确定IT系统和服务器
  • 确定设施和专用设备
  • 确定服务之间的相互依赖关系
  • 检查紧急服务

进行风险评估和业务影响分析

  • 确定威胁和漏洞
  • 建立风险容忍度
  • 确定关键业务流程
  • 计算每项服务的最大容忍停机时间
  • 分析金融、法律、监管和客户影响
  • 确定关键业务功能之间的相互依赖

制定恢复计划              

  • 创建您的业务连续性计划(COOP)
  • 为自动化流程起草手动解决方案
  • 准备现场级别的网络和服务器故障切换
  • 测试关键数据的离线备份恢复
  • 确保备用资源可用

设定恢复目标并指定DR站点

  • 指定次要站点以恢复业务运营
  • 设定恢复点目标(RPO)
  • 设定恢复时间目标(RTO)
  • 管理灾难恢复流程

保护业务关键数据

  • 为业务关键数据执行备份
  • 将数据存储在本地和远程存储设备上
  • 存储空隙隔离备份
  • 为特定备份启用不可变性

测试和更新您的业务连续性计划

  • 每年、半年、季度进行测试
  • 每年进行完整的BCP模拟
  • 创建审计流程
  • 确定漏洞并更新计划
  • 培训您的员工

结论

A business continuity plan checklist is essential to ensure that services can carry on smoothly while you recover the impacted workloads following a disruptive event. Organizations that fail to create a BCP risk suffering from major downtime and data loss which can cause irreparable financial and reputational damage.

这个清单为有效的业务连续性计划提供了框架,可以帮助您经受甚至最糟糕的情况。请记住,没有像 NAKIVO 备份与复制这样先进的数据保护解决方案,BCP 就无法完整。NAKIVO 解决方案包括您执行备份和恢复流程、自动化 DR 工作流程以及进行非中断 DR 测试所需的所有工具,以确保实现您的恢复目标。

Source:
https://www.nakivo.com/blog/business-continuity-plan-checklist/