Cómo configurar HA en VMware vSphere

Tutoriales

VMware

Cuando tiene máquinas virtuales críticas y servicios críticos ejecutándose en ellas, se debe garantizar su disponibilidad durante las horas de funcionamiento de su organización. Una de las formas de lograr alta disponibilidad es utilizando un clúster para asegurar la ejecución continua de servicios y aplicaciones.

La plataforma de virtualización VMware vSphere le permite utilizar un clúster para ejecutar máquinas virtuales (VM) y utilizar Alta Disponibilidad de vSphere (HA). Esta publicación de blog explica la configuración de Alta Disponibilidad de VMware vSphere para familiarizarlo con los parámetros a configurar.

¿Qué es HA en VMware vSphere?

La Alta Disponibilidad de VMware (HA) es una función que proporciona una disponibilidad óptima para las máquinas virtuales de vSphere, incluidas las aplicaciones y servicios que se ejecutan en las VM, para minimizar el tiempo de inactividad en caso de fallos. La Alta Disponibilidad (HA), o la capacidad de un entorno virtual para resistir fallos de host, es una de las razones importantes por las que elegiría implementar VMware vCenter y un clúster en lugar de un host independiente de VMware ESXi.Cuando HA se ejecuta en un clúster de VMware, se instala un agente en cada host que participa en el clúster. Cada agente de host se comunica con los demás y monitorea la accesibilidad de los hosts en el clúster mediante latidos. Si transcurre un intervalo de 15 segundos sin recibir latidos de un host en particular y también fallan los pings al host, se declara que el host ha fallado. Las VM que se ejecutan en los recursos de cómputo/memoria de ese host fallido se migran a un host sano y se reinician en ese host.

Cuando HA se está ejecutando en un clúster de VMware, se instala un agente en cada host que participa en el clúster. Cada agente de host se comunica con los demás y monitorea la accesibilidad de los hosts en el clúster a través de latidos. Si pasa un intervalo de 15 segundos sin recibir latidos de un host en particular y los pings al host también fallan, el host se declara como fallido. Las MV que se ejecutan en los recursos de cálculo/memoria de ese host fallido se transfieren a un host sano y se reinician en ese host.

HA en vSphere puede monitorear la salud del hardware de sus hosts para mover proactivamente las MV fuera de los hosts que tienen problemas de hardware. También hay prioridades de reinicio y orquestación incorporadas en HA y, como resultado, las MV designadas se ponen en línea antes que otras en caso de un failover. Estas características están disponibles en las versiones VMware vSphere 6.7 y vSphere 7.

Requisitos del clúster de VMware

Hay algunos requisitos de VMware para crear un clúster de VMware con HA habilitado. Los requisitos incluyen:

Los hosts en el clúster de HA deben estar licenciados para vSphere HA. Se deben aplicar licencias de VMware vSphere Standard o Enterprise Plus, incluidas las licencias de vCenter Standard.
Se requieren dos hosts para habilitar HA. Se recomiendan tres o más hosts.
Las direcciones IP estáticas configuradas en cada anfitrión son la mejor práctica.
Necesita al menos una red de gestión común entre todos los anfitriones.
Para que las VM se ejecuten en todos los anfitriones del cluster en caso de que se muevan a diferentes anfitriones del cluster, los anfitriones necesitan tener configuradas las mismas redes y almacenes de datos.
Se requiere un almacenamiento compartido para la HA.
VMware Tools deben estar en ejecución en las VM que se están supervisando en HA.

Configuración de VMware HA Paso a Paso

Puede habilitar VMware HA mientras crea un cluster o cuando ya ha creado un cluster. En este tutorial de configuración de HA de vSphere, nos centraremos en la configuración de Alta Disponibilidad y tenemos un cluster ya creado. Usamos VMware vSphere 7 para explicar la configuración de VMware HA paso a paso.

Cómo habilitar HA en VMware vSphere

Para habilitar HA en VMware vSphere en un cluster existente, realice lo siguiente:

Abra VMware vSphere Client en su navegador web.
Vaya a Hosts y clusters y navegue hasta su cluster.
Haga clic con el botón derecho en el nombre del cluster en el panel Navigator.
Haz clic en Ajustes en el menú contextual.

Selecciona Alta Disponibilidad de vSphere en la sección Servicios de la página Configurar de tu clúster.
Haz clic en Editar cerca de vSphere HA que está deshabilitado en nuestro caso.

Haz clic en el interruptor de vSphere HA para habilitar la Alta Disponibilidad.

Hay cuatro pestañas con la configuración de vSphere HA:

Fallos y respuestas
Control de Admisión
Almacenes de heartbeat
Opciones avanzadas

Veamos la configuración de vSphere HA que puedes realizar editando las configuraciones en estas pestañas.

La pestaña Fallos y respuestas

La pestaña Fallos y respuestas se utiliza para personalizar el comportamiento de un clúster HA y configurar qué hacer con las VM en diferentes situaciones.

Habilitar el Monitoreo del Host. Actívalo para permitir que los hosts ESXi intercambien heartbeats en el clúster. Un cluster de Alta Disponibilidad de VMware vSphere utiliza heartbeats para detectar cuándo cualquier componente del clúster no está disponible. Desactívalo al realizar mantenimiento de red para evitar migraciones de VM no deseadas y fallos.

Veamos todos los ajustes en la pestaña Fallos y respuestas.

Respuesta al Fallo del Host

Respuesta de falla. Utilice estos ajustes para configurar cómo un clúster de HA responde a condiciones de falla en este clúster. Dos modos están disponibles:
- Deshabilitado – El monitoreo de hosts ESXi se desactiva.
- Reiniciar VMs – Se reinician los VMs en el orden determinado en caso de falla del host.
Prioridad de reinicio predeterminada de VM. Esta configuración se utiliza para determinar qué grupo de VM debe reiniciarse primero. Hay cinco valores: Más bajo, Bajo, Medio, Alto, y Más alto. Las VMs se reinician en orden de prioridad, un grupo a la vez.
Condición de reinicio de dependencia de VM. Seleccione una condición que, cuando se cumpla, un clúster detecte que las VMs se han reiniciado correctamente, y se puede reiniciar el próximo lote de VMs. Hay cuatro condiciones disponibles:
- Recursos asignados
- Encendido
- Se detectan latidos del invitado
- Se detectan latidos de aplicación

Respuesta para la aislación del host

La opción Respuesta a la aislación del host le permite configurar el comportamiento de un clúster de HA cuando un host ESXi continúa funcionando pero pierde conexiones de red de administración:

Deshabilitado
Apagar y reiniciar VMs
Apagar y reiniciar VMs

Datastore con PDL

La respuesta de falla de datastore con pérdida de dispositivo permanente (PDL) puede configurarse para detectar la inaccesibilidad de datastore por parte de un host ESXi y iniciar un recuperación automática de VMs afectadas.

Existen tres modos para esta opción de configuración de HA de vSphere:

Deshabilitado
Generar eventos
Apagar y reiniciar VMs

Datastore con APD

Respuesta de falla de Todas las Rutas Abajo (APD) es la condición que permite que un clúster responda cuando todas las rutas están caídas y no hay ninguna indicación de que sea una pérdida de dispositivo temporal o permanente.
Hay cuatro opciones disponibles para este ajuste:
- Deshabilitado
- Generar eventos
- Apagar y reiniciar VMs – Política de reinicio conservadora
- Apagar y reiniciar VMs – Política de reinicio agresiva

Recuperación de respuesta tiene dos opciones:
- Deshabilitado
- Reiniciar VMs

Puedes configurar el retraso de respuesta en minutos.

Monitoreo de VM

Habilitar el monitoreo del latido para las máquinas virtuales utilizando VMware Tools que se ejecutan en ellas. También puedes configurar el monitoreo de aplicaciones utilizando estas capacidades. Si no se reciben los latidos de las VM a tiempo, se iniciará el reinicio de la VM. Hay tres opciones para esta configuración en la configuración del clúster de VMware:
- Deshabilitado
- Solo monitoreo de VM
- Monitoreo de VM y aplicaciones

La sensibilidad del monitoreo de VM se utiliza para establecer el tiempo después del cual se clasifica una VM como no disponible y un clúster HA puede iniciar el reinicio de la VM.
- Preestablecido. Puedes mover el interruptor desde el valor bajo hasta el alto.
- Personalizado. Establece parámetros de sensibilidad personalizados, incluyendo el intervalo de fallos, el tiempo máximo de actividad y el número máximo de reinicios por VM. La ventana de tiempo máxima de reinicios se puede establecer en un valor personalizado en horas.

Nota: También puedes utilizar una solución de monitoreo de VM para detectar fallos y problemas en las VM que no están en un clúster.

La pestaña de Control de admisión

El control de admisión es una política utilizada para asegurar que hay suficientes recursos reservados para ejecutar las máquinas virtuales en caso de un fallo en un clúster HA de VMware. Los ajustes de control de admisión aseguran la capacidad de fallover. Si una acción viola los ajustes de control de admisión, la acción no es permitida. Estas acciones no permitidas pueden ser el encendido de una VM, la migración de una VM, y el aumento de los ajustes de CPU y memoria para una VM.

El control de admisión define cuántos fallos un clúster HA puede tolerar y aún así hacer posible el fallover de VMs (una garantía de fallover de VMs).
Puede definir la capacidad de fallover de los hosts mediante:
- Porcentaje de recursos del clúster
- Hosts de fallover dedicados
- Política de slots

Si deshabilita el control de admisión, no puede asegurar que el número esperado de VMs se reiniciará en un clúster HA en caso de fallo.

Degradación de rendimiento VMs toleran es el ajuste que define el porcentaje de degradación de rendimiento que su clúster puede tolerar. 0% significa que se debe garantizar el mismo nivel de rendimiento de VM después del fallover/reinicio de la VM. De lo contrario, se muestra la advertencia. 100% significa que se deshabilita la advertencia y el clúster intenta reiniciar la VM de todos modos.

La pestaña Datastores del Heartbeat

Los almacenes de datos de latido proporcionan una forma secundaria de monitorear la disponibilidad de los hosts ESXi utilizando almacenes de datos si la conexión de red a los hosts ESXi no está disponible y una red de administración ha fallado. Este enfoque permite que vSphere distinga entre el fallo del host y la falta de disponibilidad del host a través de la red. Utilice almacenes de datos de latido en la configuración de VMware HA para monitorear los hosts cuando una red HA haya fallado.

La política de selección de almacén de datos de latido tiene tres opciones:

Seleccionar automáticamente los almacenes de datos accesibles desde los hosts
Utilizar únicamente los almacenes de datos de la lista especificada
Utilizar los almacenes de datos de la lista especificada y complementar automáticamente si es necesario

La pestaña Opciones avanzadas

La pestaña Opciones avanzadas le permite configurar vSphere HA ingresando manualmente una opción y un valor en cada cadena. Puede utilizar opciones avanzadas cuando no pueda ajustar un clúster HA en la configuración estándar que explicamos anteriormente, que están disponibles en la interfaz gráfica de usuario (GUI) de VMware vSphere Client.

Al igual que con VMware Distributed Resource Scheduler (DRS), una vez que hagamos clic en Aceptar, el clúster de VMware se reconfigurará con la configuración HA que se configuró anteriormente.

VMware vSphere Proactive HA

Proactive HA es una característica que hace que un clúster reaccione ante un problema antes de que ocurra un fallo de todos los hosts ESXi y las máquinas virtuales que residen en ese host. Los problemas pueden ocurrir con diferentes componentes de un servidor ESXi, y vSphere Proactive HA puede detectar las condiciones de hardware de un servidor.

Por ejemplo, la HA proactiva puede ser notificada de que hay problemas con la suministro de energía de un servidor ESXi. Las VM continúan ejecutándose en este servidor, pero este issue puede llevar a un fallo de servidor pronto. Para evitar posibles fallos de VM, la HA proactiva de vSphere puede iniciar la migración de las VM a otros anfitriones ESXi de un cluster. La HA proactiva admite reaccionar a problemas relacionados con el suministro de energía, ventilador, almacenamiento, memoria y red.

Debe habilitar y configurar el Scheduler de Recursos Distribuidos (DRS) en un cluster de vSphere antes de poder habilitar la HA proactiva. Puede configurar vSphere HA y DRS juntos para un cluster.

Pensamientos Concluyentes

El verdadero poder, resistencia y escalabilidad de la plataforma VMware vSphere ESXi se desbloquean una vez que se proporciona el vCenter Server y se agreguen los anfitriones ESXi a un cluster vSphere ESXi. Configure vSphere HA y DRS para proporcionar efectivamente protección contra los fallos de hosts, así como equilibrar y programar recursos para las VM. Tanto DRS como HA son aún más potentes desde vSphere 6.5 ya que VMware ha añadido más supervisión y visión proactivas e inteligentes a ambas características de cluster, lo que les permite ser ágiles y proactivas.

No olvide realizar las copias de seguridad de VMware de sus VM incluso si están ejecutándose en el cluster para evitar pérdidas de datos.

Source:
https://www.nakivo.com/blog/vmware-cluster-ha-configuration/