Pruebas de recuperación ante desastres y por qué tu negocio las necesita

Tutoriales

No importa cuán confiables se hayan vuelto el hardware y el software hoy en día, las máquinas aún son vulnerables a fallos por diferentes razones. Cuando se produce un fallo, los sistemas pueden desconectarse y los datos pueden volverse inaccesibles durante largos períodos de tiempo. Y aún cuando los sistemas vuelven a estar en línea, a veces es imposible restaurar los datos y se pierden de forma irrevocable. La forma más confiable de mitigar estos riesgos es establecer un plan integral de recuperación ante desastres (DR).

A disaster recovery plan is a set of procedures that must be undertaken to restore data and workloads within set time limits. This detailed DR checklist includes mechanisms put in place in advance to prepare for different disaster scenarios.

Las estadísticas muestran que el 95% de las empresas en todo el mundo invierten recursos considerables en planificar para lo peor, incluida la recuperación ante desastres. Sin embargo, solo el 78% de ellas realizan pruebas de recuperación ante desastres para verificar que su plan realmente cumpla los objetivos. Sigue leyendo para aprender qué es la prueba de recuperación ante desastres y cómo desarrollar una estrategia de prueba de DR para tu organización para garantizar la disponibilidad del sistema y la continuidad del negocio ante cualquier incidente.

¿Qué es la prueba de recuperación ante desastres?

La prueba de recuperación ante desastres es la verificación de los pasos del plan de DR para garantizar que el plan se pueda implementar con éxito y que las aplicaciones y datos críticos se puedan restaurar después de una interrupción. El objetivo de probar el plan de recuperación ante desastres es garantizar que las operaciones comerciales y los servicios críticos se puedan mantener durante y después de un incidente.

La prueba de recuperación ante desastres en su forma más completa implica simular un fallo en TI o cualquier otro tipo de interrupción comercial para evaluar el plan de DR en su lugar. Los principales objetivos de la prueba de recuperación ante desastres son verificar si una organización puede cumplir con los objetivos de tiempo de recuperación (RTO) y los objetivos de punto de recuperación (RPO) establecidos en el plan de recuperación ante desastres. Debería comprender RPOs vs RTOs y establecerlos para cada aplicación y VM. La prueba de DR también proporciona información sobre cómo se comporta el sistema si alguna parte de su infraestructura no está disponible. Esta información puede ayudarlo a perfeccionar el plan de DR de su organización y corregir cualquier eslabón débil antes de que ocurra una interrupción real.

Tenga en cuenta que un plan de prueba de recuperación ante desastres no debe limitarse a los componentes técnicos del plan de DR. Es igualmente importante probar que cada empleado involucrado en la recuperación ante desastres comprende su rol y tiene acceso a los recursos que necesitan para desempeñar su trabajo durante una interrupción.

La prueba del plan de recuperación ante desastres debe realizarse regularmente, preferiblemente varias veces al año. Los entornos de TI cambian regularmente con la desactivación de software, la introducción de nuevas aplicaciones o el reemplazo de hardware, lo que a su vez requiere enmiendas apropiadas a su plan de DR. El proceso de prueba de DR puede formar parte de las rutinas de mantenimiento y capacitación del personal.

Por qué es importante la prueba de recuperación ante desastres

El riesgo de no probar un plan de recuperación ante desastres es la pérdida de datos y acceso a sistemas. Puede asegurar su negocio contra pérdidas, pero ninguna póliza de seguro puede reemplazar los datos perdidos como resultado de un incidente o las repercusiones de un tiempo de inactividad prolongado en un negocio. La única manera de garantizar verdaderamente el tiempo de actividad y disponibilidad es crear un plan de recuperación ante desastres y realizar pruebas regulares. Si aún no está convencido de que es necesario probar el plan de recuperación ante desastres, aquí hay una lista de lo que ayuda a lograr la prueba de recuperación ante desastres antes de que ocurra un incidente:

Descubrir brechas o fallos en un plan de recuperación ante desastres
Asegurarse de que tenga la secuencia correcta de acciones durante la recuperación
Verificar que los objetivos de recuperación sean realistas y puedan cumplirse
Minimizar la pérdida de datos
Repasar las acciones del equipo de recuperación ante desastres y asegurarse de que cada miembro comprenda su función
Introducir actualizaciones y correcciones antes de que sea demasiado tarde

Componentes de un Proceso de Prueba de Recuperación ante Desastres

A DR test should be planned to ensure that it brings results and helps improve DR readiness. This means that disaster recovery test objectives should be clear, and you should have a specified timetable for how often to conduct tests, the criteria for success, evaluation of results, and steps to address gaps and any DR failures. Let’s go over these components in more detail.

Establecer el alcance de la prueba de recuperación ante desastres

El alcance de la prueba de recuperación ante desastres implica un conjunto de suposiciones y expectativas que deben cumplirse durante el proceso de prueba. Establecer el alcance de la prueba debe incluir:

Identificar los sistemas y funciones que se incluirán en la prueba de recuperación ante desastres
Definir qué tipo de proceso de recuperación ante desastres se probará: recuperación de máquinas completas desde copias de seguridad, conmutación por error a un sitio de recuperación ante desastres, etc.
Establecer excepciones y limitaciones de antemano, porque algunos componentes de su plan de recuperación ante desastres pueden no ejecutarse según lo planeado
Especificar los departamentos y el personal incluido en el proceso de prueba de recuperación ante desastres.
Definir los escenarios que se probarán: falla del sitio principal, ataque de ransomware, pérdida de conexión, falla del servidor/base de datos, etc.

Revisión del plan de recuperación ante desastres

Antes de realizar pruebas, deberías revisar el plan de recuperación ante desastres (DR). Las pruebas de DR deben llevarse a cabo de manera organizada centrándose en las políticas y prácticas de la organización. Por lo tanto, el equipo de recuperación ante desastres debe reunirse con la alta dirección para revisar el plan de DR existente y determinar cualquier cambio o actualización que deba implementarse según el estado actual del negocio. Estos incluyen factores como la introducción de nuevos productos de hardware o software, la expansión del negocio, recortes presupuestarios, rotación de personal, etc.

Frecuencia de las pruebas de DR

Dado que los entornos de TI actuales son altamente dinámicos, determinar la frecuencia de revisión es fundamental para mantener actualizado constantemente tu plan de recuperación ante desastres. Algunas organizaciones revisan y actualizan sus planes de DR una vez al año. Sin embargo, la estrategia más eficiente es actualizar (y volver a probar) tu plan de DR cada vez que componentes críticos para la misión de tu organización sufran cambios. Si bien las pruebas de recuperación ante desastres pueden resultar consumidoras de tiempo y costosas, debes crear tu programa de pruebas en función de las necesidades comerciales y los recursos, considerando el alcance de los procesos de DR.

Criterios de éxito de las pruebas

Debes establecer los criterios que determinen si tus pruebas de recuperación ante desastres de VM son exitosas o no. Idealmente, las pruebas de DR de VM se consideran exitosas cuando se demuestra que un plan de DR es válido y viable.

Sin embargo, las pruebas de recuperación ante desastres pueden considerarse exitosas incluso cuando un plan de DR ha fallado en pasar la prueba. Este escenario te permite identificar fallas en un plan de DR antes de un desastre real y abordarlas en la próxima iteración del plan. Esencialmente, los criterios de éxito de la prueba están definidos en función de expectativas predeterminadas, las cuales deben ser claramente expresadas en el plan de prueba de recuperación ante desastres para evitar cualquier confusión.

Evaluación de los resultados de la prueba

Los resultados de un proceso de pruebas de recuperación ante desastres de VM proporcionan una visión general de las estrategias de DR actualmente utilizadas en la empresa. El equipo de recuperación puede evaluar los resultados de la prueba y proponer mejoras o ajustes para el plan de DR en función de los problemas identificados.

También se deben considerar las siguientes métricas al evaluar los resultados de la prueba de DR:

Cuánto tiempo transcurrió antes de que se restauraran las actividades críticas para la misión
Qué tan bien se ejecutó cada paso del plan (si ocurrieron errores y retrasos
Cuántas operaciones se completaron con éxito durante el proceso de pruebas de DR

Se deben realizar cambios y actualizaciones, y probarlos para mejorar el plan de DR. El objetivo es proporcionar un proceso de recuperación más efectivo y manejable.

Revisión post-prueba del plan de DR

Después de ejecutar un plan de recuperación ante desastres en modo de prueba, es recomendable revisar nuevamente su plan de DR. Fortalezas y debilidades, así como cualquier resultado inesperado, deben ser registrados durante el proceso de prueba de recuperación ante desastres y su impacto en la continuidad del negocio debe ser medido. Esto puede mejorar significativamente sus estrategias de DR y aumentar el rendimiento general. Los pasos para abordar brechas y fallos deben ser detallados y agregados a la próxima iteración del plan de DR.

Factores a considerar antes de probar el plan de recuperación ante desastres

Número de personas en el equipo de DR: Debe haber al menos dos personas en un equipo de recuperación ante desastres para evitar el problema de un “punto único de fallo”. Con varios miembros del equipo, si una persona no puede ser contactada durante un desastre, puede estar seguro de que hay un sustituto con el conocimiento requerido y acceso al sitio de DR.
Hora del día elegida para la prueba de recuperación ante desastres: Generalmente, las pruebas de DR se ejecutan fuera del horario laboral, ya que el proceso es consumidor de tiempo y podría interrumpir las operaciones comerciales o afectar el rendimiento general. Sin embargo, estos resultados de prueba podrían no ser indicativos de cómo funcionaría el plan de recuperación ante desastres en condiciones de trabajo reales. Probar los componentes de un plan de DR de VM de forma aislada durante el horario laboral podría ser una solución ideal. Esto ayuda a reducir el riesgo de sobrecarga del sistema que presenta la prueba completa.
Cambios en el equipo o en la infraestructura de TI: Antes de probar el plan de recuperación ante desastres, considere los diversos factores que podrían hacer que su plan de DR esté incompleto y desactualizado. Como se mencionó anteriormente, estos factores pueden incluir nuevos componentes de infraestructura, cambios de personal, entre otras cosas. Mantenga al equipo de DR informado sobre los nuevos cambios en el entorno y envíe breves memorandos notificando al personal sobre las últimas actualizaciones.

Métodos de Prueba de Recuperación de Desastres

En esta sección, cubrimos los cuatro métodos de prueba de recuperación de desastres más comunes. Considérelos detenidamente antes de decidir cuál proporciona el enfoque correcto para su organización o si se pueden utilizar una combinación de estos enfoques.

Prueba de lista de verificación

A checklist test of a disaster recovery plan involves reviewing the list of requirements and conditions that must be met. This review is a great starting point as it is the most basic option and involves analyzing the current plan and looking over every point in order to spot the outdated or missing parts. This means verifying, for example, that the backup site is of sufficient size, that the recovery team is notified of the latest updates, that the data protection solution is running, etc.

Al usar este método de prueba de DR, el equipo de recuperación puede revisar rápidamente el plan de DR, asegurarse de que cada componente esté en su lugar e identificar cualquier componente faltante en la estrategia de DR. Este procedimiento se puede realizar en poco tiempo y sin una gran participación del personal.

Prueba de simulación detallada

El propósito de esta estrategia es recorrer verbalmente cada paso de un plan de recuperación ante desastres de VM e identificar cualquier problema y deficiencia. Aquí, todos los miembros de un equipo de recuperación participan en la revisión y discusión del plan de DR, proponiendo recomendaciones.

Es esencial asegurarse de que todos tengan una comprensión sólida del plan y sean conscientes de sus responsabilidades durante un evento de DR. Este método solo implica una discusión verbal del proceso de DR. Los aspectos tecnológicos de su plan de DR no se prueban ni aprueban realmente en la prueba de simulación detallada.

Prueba de mesa/simulación de DR

Para una prueba de mesa, la organización pasa por un escenario de desastre simulado para identificar si un plan de recuperación ante desastres es adecuado y se pueden cumplir los objetivos definidos. Este método de prueba de DR se puede considerar una extensión de la prueba de recorrido. Todos los miembros del equipo se presentan con varios escenarios de desastre, que revisan discutiendo cómo actuarían en las circunstancias. Esto le permite probar la preparación de su personal en un entorno más realista y verificar si su plan de recuperación ante desastres puede hacer frente a problemas inesperados.

Revisión de mesa. El equipo de DR lleva a cabo una revisión del plan paso a paso como si un desastre real hubiera ocurrido. Este método de prueba de recuperación ante desastres ayuda a identificar posibles puntos ciegos y problemas ocultos.
Simulación de escenario. Este método implica ejecutar el plan de DR en un entorno de prueba sin interrupción del flujo de trabajo de producción. La simulación se ejecuta según escenarios de recuperación específicos.
Simulación completa de recuperación ante desastres. Este método de prueba de DR es similar a la simulación descrita anteriormente, pero esta vez el escenario incluye el fallo total de operaciones en su sitio principal. El método implica intentar una recuperación completa en un lugar fuera del sitio.

Prueba paralela

La prueba en paralelo te permite probar la funcionalidad de tus sistemas de recuperación para determinar si pueden ejecutar operaciones comerciales y asegurar procesos críticos. Los sistemas primarios no están incluidos en el proceso de prueba de recuperación ante desastres, ya que se espera que respalden la carga de trabajo de producción completa. Esta es una forma segura y no disruptiva de probar sistemas técnicos.

Prueba de interrupción total

A full-interruption DR test provides thorough testing of your VM DR plan. In this case, your DR site assumes the full production workload and the primary site is shut down. The goal is to recover as quickly as possible using the corporate disaster recovery plan. The execution of a full-interruption test should be well thought out as normal operations can be disrupted and it is quite costly.

Todos los procesos de recuperación deben documentarse. Identifica todos los problemas y preocupaciones durante la ejecución de la prueba de recuperación ante desastres para abordarlos más tarde. Las acciones del equipo de recuperación deben observarse de cerca para señalar cualquier brecha potencial en tu plan de recuperación de VM. La prueba de interrupción total también es un método apropiado de prueba de recuperación ante desastres para verificar si tus objetivos de recuperación ante desastres son aceptables y alcanzables.

Puedes considerar realizar la prueba de interrupción total sin notificar a tu personal con anticipación. Esto te permite evaluar con mayor precisión la preparación de tu equipo en caso de desastre.

Consejos útiles para la prueba de recuperación ante desastres

Probar un plan de recuperación ante desastres es una tarea importante que a veces puede parecer abrumadora. Los siguientes consejos para la prueba de recuperación ante desastres pueden ayudarte a ahorrar tiempo y reducir el estrés:

Después de instalar cualquier hardware o software nuevo, pruébalo inmediatamente para verificar su funcionalidad e integridad. Esto también te ayuda a encontrar el RTO del producto y a entender cómo podría funcionar durante los procedimientos de recuperación ante desastres.
Realiza un análisis de riesgos (RA) y un análisis de impacto comercial (BIA) antes de diseñar tu plan de recuperación ante desastres. Revisa constantemente los resultados de estos análisis, y si se realizan cambios, considera cómo deberían reflejarse en tu estrategia de recuperación ante desastres.
Las pruebas deben ejecutarse en circunstancias lo más similares posible a un escenario de recuperación ante desastres. Al simular un escenario de desastre real, puedes ver qué tan bien los empleados realizan sus funciones en circunstancias de recuperación ante desastres. Esto también ayuda a reducir el estrés entre tu personal, ya que los empleados se familiarizan más con varios escenarios de recuperación ante desastres y aprenden qué se espera de ellos.
Invita a observadores independientes a revisar tu plan de recuperación ante desastres y monitorear el proceso de pruebas. Este enfoque garantiza que no se tomen atajos por parte de los empleados para completar rápidamente las pruebas. Además, los observadores independientes pueden ayudar a reescribir un plan de recuperación ante desastres y mejorarlo, identificando a menudo problemas que no son visibles para quienes están dentro de la organización.
Ten una lista completa de todas las aplicaciones en tu infraestructura. Esta lista debe incluir los detalles de cada aplicación, sus configuraciones, los detalles de contacto de los propietarios de la aplicación y tus detalles de contrato/licencia.
En las etapas iniciales, las pruebas de recuperación ante desastres deben realizarse por partes y después del horario laboral para no sobrecargar el sistema. Después de identificar cualquier deficiencia y mejorar el plan en consecuencia, puedes considerar realizar más pruebas completas durante el horario laboral.

Recuperación de desastres con NAKIVO Backup & Replication

NAKIVO Backup & Replication es una solución confiable de copia de seguridad y recuperación de desastres. La solución le permite automatizar los procesos de copia de seguridad, replicación y recuperación de desastres mientras garantiza la integridad de los datos en diversas plataformas (físicas, virtuales o en la nube). La solución de NAKIVO contiene replicación de VM, conmutación por error de VM, reversión y características de Recuperación de Sitio para la recuperación de desastres. Además, puede probar una secuencia de recuperación de desastres para asegurarse de que todo esté configurado correctamente.

Ejecución de trabajos de Recuperación de Sitio en modo de prueba

NAKIVO Backup & Replication le permite ejecutar trabajos de recuperación de sitio en modo de prueba para verificar si todos los componentes del sistema pueden restaurarse fácilmente durante un evento de recuperación de desastres y si se pueden cumplir los objetivos de DR estipulados. Esta prueba no interrumpe las cargas de trabajo de producción. Un trabajo de Recuperación de Sitio en modo de prueba se puede programar y ejecutar según demanda.

El siguiente recorrido le indica cómo ejecutar un trabajo de Recuperación de Sitio manualmente en modo de prueba. Tenga en cuenta que primero debe configurar un trabajo de Recuperación de Sitio.

En el panel de Trabajos, seleccione un trabajo de recuperación de sitio y luego haga clic en el botón Ejecutar Trabajo. El menú desplegable le da dos opciones. Haga clic en Trabajo de recuperación de sitio de prueba.

En la ventana de diálogo que se abre, puede configurar sus métricas de RTO. Defina la cantidad máxima permisible de tiempo que su trabajo de Recuperación de Sitio puede tardar en completarse. Si la ejecución de prueba excede el valor de RTO que ingresó, se considera que la prueba ha fallado. También puede desactivar esta opción.

Finalmente, haga clic en Prueba para ejecutar el trabajo.Opciones para programar pruebas

Opciones para programar pruebas

También puedes configurar opciones de programación de pruebas al configurar un trabajo de recuperación de sitio. Estas opciones funcionan cuando ejecutas este trabajo en modo de prueba.

Informe por correo electrónico

Con esta opción habilitada, los destinatarios seleccionados reciben un informe de prueba cada vez que se completa el trabajo. Necesitas configurar la configuración de notificación por correo electrónico en la pestaña 5. Opciones antes de hacer clic en Finalizar.

También puedes descargar un informe como archivo PDF o CSV directamente desde un navegador web. Simplemente haz clic derecho en un trabajo de recuperación de sitio y selecciona Informe de trabajo de recuperación de sitio.

Source:
https://www.nakivo.com/blog/disaster-recovery-testing-top-reasons/