재해 복구 테스트 및 비즈니스가 필요한 이유

컴퓨터 하드웨어와 소프트웨어가 얼마나 신뢰할 지에 관계 없이, 다양한 이유로 기계는 여전히 고장에 취약합니다. 고장이 발생하면 시스템이 오프라인 상태가 될 수 있고, 데이터는 장기간 사용할 수 없게 됩니다. 그리고 심지어 시스템이 다시 온라인 상태로 복구되어도 데이터가 때로는 복원이 불가능하고 영구적으로 손실될 수 있습니다. 이러한 위험을 완화하는 가장 신뢰할 수 있는 방법은 포괄적인 재해 복구(DR) 계획을 마련하는 것입니다.

A disaster recovery plan is a set of procedures that must be undertaken to restore data and workloads within set time limits. This detailed DR checklist includes mechanisms put in place in advance to prepare for different disaster scenarios.

통계에 따르면 전 세계의 회사 중 95%가 최악의 상황을 대비하기 위해 상당한 자원을 투자하고 DR을 포함한 계획을 세우고 있습니다. 그러나 이 중 78%만이 재해 복구 테스트를 실시하여 계획이 실제 목표를 충족하는지 확인합니다. 시스템 가용성과 업무 연속성을 보장하기 위해 귀하의 조직을 위한 DR 테스트 전략을 개발하는 방법을 알아보세요.

재해 복구 테스트란 무엇인가요?

재해 복구 테스트는 재해 복구 계획 단계를 검증하여 계획이 성공적으로 실행될 수 있고 중요한 응용 프로그램 및 데이터가 중단 이후 복원될 수 있는지 확인하는 것입니다. 재해 복구 계획을 테스트하는 것은 사업 운영과 중요한 서비스가 사건 발생 중 및 이후에 유지될 수 있도록 보장하는 것을 목표로 합니다.

재난 복구 테스트의 가장 종합적인 형태는 IT 실패나 기타 유형의 비즈니스 중단을 시뮬레이션하여 있는 DR 계획을 평가하는 것입니다. 주요 재난 복구 테스트 목표는 조직이 재난 복구 계획에 설정된 복구 시간 목표(RTO)와 복구 지점 목표(RPO)를 충족할 수 있는지 확인하는 것입니다. RPO와 RTO를 이해하고 각 애플리케이션과 VM에 대해 설정해야 합니다. DR 테스트는 인프라의 일부가 사용할 수 없게 되면 시스템이 어떻게 동작하는지에 대한 통찰력도 제공합니다. 이 정보를 통해 조직의 DR 계획을 개선하고 실제 중단이 발생하기 전에 약한 링을 수정할 수 있습니다.

DR 테스트 계획은 DR 계획의 기술적 구성 요소에만 국한되어서는 안 됩니다. 재난 복구에 관련된 모든 직원이 자신의 역할을 이해하고 중단 시 자신의 업무를 수행하는 데 필요한 자원에 접근할 수 있는지 테스트하는 것도 매우 중요합니다.

재난 복구 계획 테스트는 정기적으로 수행되어야 하며, 가능하면 1년에 몇 번 정도 수행하는 것이 바람직합니다. IT 환경은 소프트웨어가 폐기되고, 새로운 애플리케이션이 도입되거나, 하드웨어가 교체되면서 자주 변경되므로 DR 계획에 적절한 수정이 필요합니다. DR 테스트 프로세스는 유지 보수 루틴 및 직원 교육의 일부가 될 수 있습니다.

재난 복구 테스트가 중요한 이유

재해 복구 계획을 테스트하지 않을 경우 발생하는 위험은 데이터 손실과 시스템 접근 불가입니다. 사업에 발생한 손실에 대비할 수는 있지만, 어떤 보험도 사고로 인한 데이터 손실이나 비즈니스에 긴 시간 동안의 다운타임이 미칠 영향을 대체할 수는 없습니다. 업타임과 가용성을 확실히 보장하는 유일한 방법은 재해 복구 계획을 만들고 정기적인 테스트를 실행하는 것입니다. 아직 재해 복구 계획을 테스트하는 것이 필요한지 확신이 안 서신다면, 사고 발생 전에 DR 테스트를 통해 달성할 수 있는 목록을 확인해보세요:

  • DR 계획의 간극이나 결함 발견
  • 복구 중 올바른 작업 순서 보장
  • 복구 목표가 현실적이고 달성 가능한지 검증
  • 데이터 손실 최소화
  • DR 팀 작업 실행 및 각 구성원이 자신의 역할을 이해하는지 확인
  • 너무 늦기 전에 업데이트 및 수정 사항 도입

재해 복구 테스트 프로세스 구성 요소

A DR test should be planned to ensure that it brings results and helps improve DR readiness. This means that disaster recovery test objectives should be clear, and you should have a specified timetable for how often to conduct tests, the criteria for success, evaluation of results, and steps to address gaps and any DR failures. Let’s go over these components in more detail.

DR 테스트 범위 설정

DR 테스트 범위는 테스트 과정 중에 충족되어야 하는 일련의 가정과 기대 사항을 포함합니다. 테스트 범위 설정은 다음을 포함해야 합니다:

  • DR 테스트에 포함될 시스템 및 기능 식별
  • 어떤 종류의 재해 복구 프로세스를 테스트할지 정의: 백업에서 전체 시스템 복구, DR 사이트로의 장애 조치 등
  • 미리 예외와 제한 사항 설정, 왜냐하면 DR 계획의 일부 구성 요소가 계획대로 실행되지 않을 수 있기 때문입니다
  • DR 테스트 과정에 포함될 부서 및 직원 명시
  • 주로 테스트될 시나리오를 정의합니다: 주 사이트 장애, 랜섬웨어 공격, 연결 손실, 서버/데이터베이스 장애 등.

재해 복구 계획 검토

테스트를 진행하기 전에 재해 복구 계획을 검토해야 합니다. 재해 복구 테스트는 조직의 정책과 실천 방법에 중점을 두어 체계적으로 진행되어야 합니다. 따라서 재해 복구 팀은 최고 경영진과 회의를 갖고 현재 비즈니스 상태를 기반으로 기존 재해 복구 계획을 검토하고 변경 사항이나 업데이트 사항을 결정해야 합니다. 이는 새 하드웨어나 소프트웨어 제품의 도입, 비즈니스 확장, 예산 삭감, 직원 이동 등과 같은 요인을 포함합니다.

재해 복구 테스트 빈도

현재 IT 환경이 매우 동적인 것을 고려할 때, 검토 빈도를 결정하는 것이 재해 복구 계획을 지속적으로 업데이트하는 데 중요합니다. 일부 조직은 매년 한 번씩 재해 복구 계획을 검토하고 업데이트합니다. 그러나 가장 효율적인 전략은 조직의 핵심 구성 요소가 변경될 때마다 재해 복구 계획을 업데이트하고(재테스트 포함)하는 것입니다. 재해 복구 테스트는 시간이 많이 걸리고 비용이 소요될 수 있지만, 비즈니스의 필요와 리소스를 고려하여 테스트 일정을 만들어야 하며, 재해 복구 프로세스의 범위를 고려해야 합니다.

테스트 성공 기준

VM 재해 복구 테스트가 성공적인지 여부를 결정하는 기준을 설정해야 합니다. 이상적으로 VM DR 테스트는 재해 복구 계획이 유효하고 실행 가능한 경우에 합격으로 간주될 수 있습니다.

그러나 재해 복구 테스트는 DR 계획이 테스트에 통과하지 못했을 때라도 성공적으로 간주될 수 있습니다. 이 시나리오는 실제 재해가 발생하기 전에 DR 계획의 결함을 확인하고 다음 계획의 반복에서 이를 해결할 수 있도록 합니다. 본질적으로 테스트 성공 기준은 예비 기대에 따라 정의되며, 이는 혼란을 피하기 위해 재해 복구 테스트 계획에 명확하게 표현되어야 합니다.

테스트 결과 평가

VM 재해 복구 테스트 프로세스의 결과는 현재 회사에서 사용 중인 DR 전략의 일반적인 개요를 제공합니다. 복구 팀은 테스트 결과를 평가하고 식별된 문제를 기반으로 DR 계획을 개선하거나 조정할 수 있습니다.

DR 테스트 결과를 평가할 때 다음 지표도 고려되어야 합니다:

  • 임무 중요 활동이 복원되기까지 소요된 시간
  • 계획의 각 단계가 얼마나 잘 실행되었는지(어떤 오류나 지연이 발생했는지)
  • DR 테스트 프로세스 중 성공적으로 완료된 작업 수

DR 계획을 개선하기 위해 변경 사항과 업데이트를 수행하고 테스트해야 합니다. 목표는 더 효과적이고 관리 가능한 복구 프로세스를 제공하는 것입니다.

DR 계획의 테스트 후 검토

재해 복구 계획을 테스트 모드로 실행한 후에는 DR 계획을 다시 검토하는 것이 좋습니다. 재해 복구 테스트 과정 중에 강점과 약점, 그리고 예상치 못한 결과를 기록하고 그것이 업무 연속성에 미치는 영향을 측정해야 합니다. 이는 DR 전략을 크게 향상시키고 전반적인 성능을 향상시킬 수 있습니다. 간극과 실패에 대응하는 단계를 자세히 기술하고 DR 계획의 다음 반복에 추가해야 합니다.

재해 복구 계획을 테스트하기 전 고려해야 할 사항

  • DR 팀의 인원 수: 재해 복구 팀에는 “단일 고장 지점” 문제를 피하기 위해 적어도 두 명의 인원이 있어야 합니다. 여러 팀원이 있으면 재해 발생 시 한 명의 연락이 닿지 않아도 필요한 지식과 DR 사이트 접근 권한을 가진 대안이 있다는 것을 안심할 수 있습니다.
  • 재해 복구 테스트에 선택된 시간: 일반적으로 DR 테스트는 근무 시간 외에 실행됩니다. 왜냐하면 이 과정은 시간이 많이 소요되고 업무 영향을 미칠 수 있기 때문입니다. 그러나 이러한 테스트 결과는 실제 근무 조건 하에서 재해 복구 계획이 작동하는 방식을 반영하지 않을 수 있습니다. 근무 시간 동안 VM DR 계획의 구성 요소를 격리하여 테스트하는 것이 이상적일 수 있습니다. 이렇게 하면 전체 테스트에서 시스템 과부하의 위험을 줄일 수 있습니다.
  • 팀 또는 IT 인프라의 변화: 재해 복구 계획을 테스트하기 전에, DR 계획이 완전하지 않거나 오래된 이유로 여겨질 수 있는 다양한 요소를 고려하십시오. 위에서 언급한 것처럼, 이러한 요소에는 새로운 인프라 구성 요소, 직원 변경 등이 포함될 수 있습니다. DR 팀에게 환경의 새로운 변화를 알리고 최신 업데이트를 알리는 간단한 메모를 보내세요.

재해 복구 테스트 방법

이 섹션에서는 네 가지 가장 일반적인 재해 복구 테스트 방법을 다룹니다. 조직에 적절한 접근 방식을 제공하는지 또는 이러한 방법의 조합을 사용할 수 있는지 결정하기 전에 주의 깊게 고려하십시오.

체크리스트 테스트

A checklist test of a disaster recovery plan involves reviewing the list of requirements and conditions that must be met. This review is a great starting point as it is the most basic option and involves analyzing the current plan and looking over every point in order to spot the outdated or missing parts. This means verifying, for example, that the backup site is of sufficient size, that the recovery team is notified of the latest updates, that the data protection solution is running, etc.

이 DR 테스트 방법을 사용하면, 복구 팀은 DR 계획을 신속하게 검토하여 모든 구성 요소가 제 위치에 있는지 확인하고 DR 전략에 빠진 부분을 식별할 수 있습니다. 이 절차는 최소한의 시간과 직원 참여 없이 수행될 수 있습니다.

워크스루 DR 테스트

이 전략의 목적은 VM 재해 복구 계획의 각 단계를 구두로 통과하고 문제와 결핍을 식별하는 것입니다. 여기서 복구 팀의 모든 구성원이 DR 계획의 검토와 토론에 참여하여 권장 사항을 제시합니다.

모든 사람이 계획을 잘 이해하고 DR 사건 중에 책임을 인식하는 것이 중요합니다. 이 방법은 DR 프로세스의 구두 토론만 포함하며, 실제로 DR 계획의 기술적 측면은 워크스루 테스트에서 테스트되거나 승인되지 않습니다.

테이블탑/시뮬레이션 DR 테스트

테이블탑 테스트를 위해 조직은 시뮬레이션된 재해 시나리오를 통해 DR(재해 복구) 계획이 적절한지와 정의된 목표를 달성할 수 있는지를 확인합니다. 이 DR 테스트 방법은 워크스루 테스트의 확장으로 볼 수 있습니다. 모든 팀원은 다양한 재해 시나리오를 제시받고, 그 상황에서 어떻게 대응할지에 대해 논의하여 검토합니다. 이를 통해 귀하의 직원들의 대비 상태를 더 현실적인 환경에서 시험하고, 재해 복구 계획이 예상치 못한 문제에 대처할 수 있는지 확인할 수 있습니다.

  • 테이블탑 실행. DR 팀은 실제 재해가 발생한 것처럼 단계별로 계획을 테스트합니다. 이 재해 복구 테스트 방법은 잠재적인 블라인드 스팟과 숨겨진 문제를 식별하는 데 도움이 됩니다.
  • 시나리오 시뮬레이션. 이 방법은 생산 워크플로에는 방해가 없는 테스트 환경에서 DR 계획을 실행하는 것을 포함합니다. 시뮬레이션은 구체적인 복구 시나리오에 따라 실행됩니다.
  • 전체 재해 복구 시뮬레이션. 이 DR 테스트 방법은 위에 설명된 시뮬레이션과 유사하지만, 이번에는 시나리오가 본 사이트의 운영 전체 실패를 포함합니다. 이 방법은 오프사이트 위치에서 완전한 복구를 시도하는 것을 포함합니다.

병렬 테스트

병렬 테스트를 통해 회복 시스템의 기능을 테스트하여 비즈니스 운영을 실행하고 중요한 프로세스를 안전하게 보호할 수 있는지 확인할 수 있습니다. 주요 시스템은 재해 복구 테스트 프로세스에 포함되지 않습니다. 왜냐하면 그들은 전체 생산 워크로드를 지원하기로 예상되기 때문입니다. 이것은 기술 시스템을 테스트하는 안전하고 비방해적인 방법입니다.

전체 중단 테스트

A full-interruption DR test provides thorough testing of your VM DR plan. In this case, your DR site assumes the full production workload and the primary site is shut down. The goal is to recover as quickly as possible using the corporate disaster recovery plan. The execution of a full-interruption test should be well thought out as normal operations can be disrupted and it is quite costly.

모든 회복 프로세스는 문서화되어야 합니다. 재해 복구 테스트 실행 중 발생하는 모든 문제와 우려 사항을 확인하여 나중에 처리해야 합니다. 회복 팀의 조치는 가상 머신 재해 복구 계획에서 잠재적인 공백을 확인하기 위해 밀접히 관찰되어야 합니다. 전체 중단 테스트는 DR 목표가 수용 가능하고 달성 가능한지 확인하는 적절한 재해 복구 테스트 방법입니다.

사전에 직원들에게 통보하지 않고 전체 중단 테스트를 실시하는 것이 좋습니다. 이렇게 하면 재해 발생 시 팀의 준비 상태를 더 정확하게 평가할 수 있습니다.

재해 복구 테스트에 유용한 팁

DR 계획을 테스트하는 것은 때로는 압도적인 작업일 수 있습니다. 다음 DR 테스트 팁은 시간을 절약하고 스트레스를 줄일 수 있습니다:

  • 새 하드웨어 또는 소프트웨어 제품을 설치한 후 즉시 테스트하여 기능과 무결성을 확인하세요. 이것은 또한 제품의 RTO를 찾고 재해 복구 절차 중에 제품이 어떻게 수행될 수 있는지 배우는 데 도움이 됩니다.
  • DR 계획을 설계하기 전에 위험 분석(RA)과 업무 영향 분석(BIA)을 수행하십시오. 이러한 분석의 결과를 지속적으로 검토하고, 변경 사항이 있는 경우 DR 전략에 어떻게 반영되어야 하는지 고려하십시오.
  • DR 시나리오와 가능한 유사한 상황에서 테스트를 실행해야 합니다. 실제 재난 시나리오를 모사함으로써 직원들이 DR 상황에서 업무를 얼마나 잘 수행하는지 확인할 수 있습니다. 이는 직원들이 다양한 DR 시나리오에 더 익숙해지고 그들로부터 기대되는 것을 배우면서 직원들 사이의 스트레스를 줄이는 데 도움이 됩니다.
  • 독립적인 관찰자를 초대하여 DR 계획을 검토하고 테스트 과정을 모니터링하십시오. 이러한 접근 방식은 직원들이 테스트를 신속하게 완료하기 위해 단축키를 사용하지 않도록 보장합니다. 게다가 독립적인 관찰자는 DR 계획을 다시 작성하고 개선하는 데 도움을 줄 수 있으며, 종종 조직 내부에서는 보이지 않는 문제들을 식별할 수 있습니다.
  • 인프라에 있는 모든 애플리케이션의 완전한 목록을 보유하십시오. 이 목록에는 각 애플리케이션의 세부 정보, 구성, 애플리케이션 소유자의 연락처 및 계약/라이선스 정보가 포함되어야 합니다.
  • 초기 단계에서는 DR 테스트를 부분적으로 비즈니스 시간 이후에 실행하여 시스템을 과부하로 만들지 않도록 해야 합니다. 어떠한 결함도 식별하고 계획을 개선한 후에는 비즈니스 시간에 추가적인 완전한 테스트를 고려할 수 있습니다.

NAKIVO Backup & Replication을 활용한 재난 복구.

NAKIVO 백업 및 복제는 신뢰할 수 있는 백업 및 재해 복구 솔루션입니다. 이 솔루션을 사용하면 물리적, 가상 또는 클라우드와 같은 다양한 플랫폼에서 데이터 무결성을 보장하면서 백업, 복제 및 재해 복구 프로세스를 자동화할 수 있습니다. NAKIVO 솔루션에는 재해 복구를 위한 VM 복제, VM 장애 극복, 재해 복구 및 사이트 복구 기능이 포함되어 있습니다. 또한 재해 복구 순서를 테스트하여 모든 것이 올바르게 구성되었는지 확인할 수 있습니다.

테스트 모드에서 사이트 복구 작업 실행

NAKIVO 백업 및 복제를 사용하면 테스트 모드에서 사이트 복구 작업을 실행하여 재해 복구 이벤트 중에 모든 시스템 구성 요소가 쉽게 복원될 수 있는지 및 규정된 DR 목표를 충족할 수 있는지 확인할 수 있습니다. 이 테스트는 생산 워크로드를 방해하지 않습니다. 테스트 모드의 사이트 복구 작업은 예약할 수 있으며 필요할 때 실행할 수도 있습니다.

다음 안내서는 테스트 모드에서 사이트 복구 작업을 수동으로 실행하는 방법을 안내합니다. 사이트 복구 작업은 먼저 구성되어야 합니다.

  1. 작업 대시보드에서 사이트 복구 작업을 선택한 다음 작업 실행 버튼을 클릭합니다. 드롭다운 메뉴에서 두 가지 옵션이 제공됩니다. 사이트 복구 테스트 작업을 클릭합니다.

  1. 실행된 대화 상자에서 RTO 지표를 구성할 수 있습니다. 사이트 복구 작업이 완료되는 데 허용되는 최대 시간을 정의하십시오. 테스트 실행이 입력한 RTO 값보다 초과되면 테스트가 실패로 간주됩니다. 이 옵션을 비활성화할 수도 있습니다.

  1. 마지막으로, 작업을 실행하려면 테스트를 클릭하십시오.테스트 일정 옵션

테스트 일정 옵션

사이트 복구 작업을 구성할 때 테스트 일정 옵션도 구성할 수 있습니다. 이러한 옵션은 테스트 모드에서 작업을 실행할 때 작동합니다.

이메일 보고서

이 옵션을 활성화하면 선택한 수신자가 작업이 완료될 때마다 테스트 보고서를 받게 됩니다. 5. 옵션 탭에서 이메일 알림 설정을 구성해야 완료를 클릭할 수 있습니다.

또한 웹 브라우저에서 PDF 또는 CSV 파일로 보고서를 직접 다운로드할 수도 있습니다. 사이트 복구 작업을 마우스 오른쪽 버튼으로 클릭하고 사이트 복구 작업 보고서를 선택하세요.

Source:
https://www.nakivo.com/blog/disaster-recovery-testing-top-reasons/