Mejores Prácticas de Monitoreo de Infraestructura de TI

En las pequeñas empresas con pocos servidores y estaciones de trabajo, los administradores del sistema suelen poder identificar rápidamente cualquier problema que ocurra sin necesidad de herramientas especiales. A medida que una empresa crece, también lo hace el número de servidores y otros dispositivos de red. Y si algo sale mal, un administrador del sistema aún debe poder identificar el problema rápidamente para evitar problemas graves.

Buscar un problema manualmente en una infraestructura mediana o grande puede ser complicado y consumir mucho tiempo. Afortunadamente, hoy en día existen amplias herramientas automatizadas de monitoreo de infraestructura de TI para ayudar a los administradores a identificar el tipo y la fuente de problemas lo más rápido posible. Estas herramientas también ayudan a los administradores a prevenir proactivamente problemas y cuellos de botella antes de que ocurran mediante la monitorización de la asignación de recursos y el consumo en tiempo real.

Esta publicación de blog explica qué es el monitoreo de infraestructura de TI, por qué usar herramientas de monitoreo para servidores y otros dispositivos de red, y qué prácticas recomendadas seguir.

¿Qué es el Monitoreo de Infraestructura de TI?

El monitoreo de infraestructura es el proceso de rastrear métricas de hardware y software en un entorno físico o virtual para mejorar la eficiencia y optimizar procesos. Esto se hace mediante la recolección y análisis de datos sobre la disponibilidad, rendimiento y uso de recursos de hardware y aplicaciones críticas.

Una infraestructura de TI es el marco subyacente que permite a las empresas ofrecer servicios, llevar a cabo transacciones, proporcionar información, interactuar con clientes, etc. Esta infraestructura está compuesta por centros de datos, aplicaciones y software, redes, y hardware como servidores, enrutadores, etc.

Tipos y Métodos de Monitoreo de TI

Vamos a ver los dos enfoques principales para el monitoreo de la infraestructura de TI.

  • El monitoreo basado en agentes se puede realizar utilizando software cliente-servidor instalando agentes en cada máquina monitoreada. Este tipo de herramientas de monitoreo de TI requiere instalar el componente del servidor del software de monitoreo del sistema en un servidor o máquina virtual. El software del servidor registra los datos recopilados en una base de datos y proporciona una interfaz web para que los administradores y usuarios configuren el software de monitoreo del sistema y monitoreen la infraestructura de TI.Un agente es el componente del software de monitoreo de TI que se instala en la máquina objetivo de la cual se deben recopilar datos. El agente interactúa con el servidor a través de la red y envía los datos recopilados al servidor de monitoreo. El agente debe ser compatible con múltiples sistemas operativos para cubrir mejor la infraestructura de TI.
  • El monitoreo sin agentes se puede realizar utilizando software del lado del servidor y protocolos de red compatibles sin instalar agentes de software de monitoreo en cada máquina monitoreada. Se puede utilizar para diferentes plataformas, lo cual es especialmente útil si no puedes instalar el agente de monitoreo (por ejemplo, en un switch o router).

El software de monitoreo de TI puede verificar la disponibilidad de servicios en un host remoto utilizando los protocolos ICMP, SSH, FTP, HTTP y DNS sin un agente de monitoreo instalado en el host remoto. El software de monitoreo del servidor intenta acceder al host de destino a través del protocolo definido y, dependiendo de la respuesta del servidor, determina el estado del servicio necesario.

Dos de los protocolos utilizados son:

  • El Protocolo Simple de Administración de Redes (SNMP) está desarrollado especialmente para tareas de monitoreo sin instalar agentes de monitoreo en hosts remotos. El host remoto debe ejecutar el servicio SNMP apropiado para admitir la recolección de datos a través de SNMP desde este host monitoreado. SNMP funciona en la capa de aplicación del modelo OSI, y la última versión es SNMPv3. El protocolo SNMP suele ser compatible con conmutadores, enrutadores, puntos de acceso, firewalls, impresoras de red y otros dispositivos conectados a la red. Cada identificador de objeto está asociado con el parámetro apropiado, como bytes recibidos, bytes transmitidos, temperatura de la CPU, nivel de tóner en el cartucho de la impresora, etc. Los identificadores de objetos están numerados utilizando una estructura jerárquica (similar a un árbol). Por ejemplo, 1.3.6.1.4.1.343.2.19.1.2.10.206.1.1.16 es el identificador del sensor de temperatura del hardware de Intel.

    Tenga en cuenta que un agente SNMP no es lo mismo que un agente de monitoreo de software de monitoreo del sistema.

  • Instrumentación de Administración de Windows (WMI) es un protocolo de red propietario de Microsoft desarrollado para monitorear sistemas basados en Windows sin instalar agentes. La herramienta de monitoreo envía una consulta WMI a un host monitoreado y luego lee los datos devueltos.

El monitoreo de TI para sistemas virtualizados

El monitoreo de VMs y contenedores tiene sus propias características que deben tenerse en cuenta para lograr los resultados deseados.

Monitoreo de VM. Para máquinas virtuales, utilice soluciones de software de monitoreo sin agentes utilizando APIs de VMware para rastrear el rendimiento y la eficiencia de los hosts ESXi, servidores vCenter y máquinas virtuales. Las métricas de monitoreo incluyen CPU, memoria, almacenamiento y uso de red. Este enfoque le permite evitar los costos adicionales en comparación con el método cuando se instalan agentes de monitoreo en las VMs.

El monitoreo de contenedores es complicado en comparación con el monitoreo de servidores tradicionales y máquinas virtuales. Esto se debe a que los contenedores se provisionan/destruyen rápidamente y comparten recursos, lo que hace difícil medir los recursos consumidos por un host. El despliegue de N agentes en N contenedores no es racional. Al igual que las VMs, los contenedores pueden ser monitoreados a través de APIs especiales.

La API de estadísticas de Docker es un mecanismo nativo proporcionado con los contenedores Docker para monitorearlos. La idea principal del monitoreo de contenedores es monitorear aplicaciones contenerizadas de la arquitectura de microservicios que se ejecutan en contenedores.

Monitoreo de Infraestructura de TI: Componentes

Exploraremos diferentes componentes que pueden ser rastreados con monitoreo de infraestructura de TI para aprender más. Esta clasificación de componentes monitoreados es condicional porque pueden intersectarse entre sí.Monitoreo de hardware para temperatura de CPU, temperatura de HDD, estado S.M.A.R.T. de HDD, datos de vida de la batería, voltaje, etc. memoria libre, espacio en disco, actividad de disco y uso de archivo de intercambio.

  • Monitoreo de red para tasas de transferencia de datos en diferentes interfaces de red, el número de usuarios conectados (útil para conexiones VPN), conexiones de red, firewalls, conexiones TCP y UDP (para detectar malware), etc. Puede ayudarlo a detectar sobrecarga de red, baja velocidad de transferencia de datos y intentos no autorizados de acceder a la red.
  • Monitoreo de aplicaciones para verificar registros de aplicaciones, incluidos registros del sistema operativo, detectar códigos de error y mostrar información agregada en la interfaz web o enviar notificaciones a los administradores. El monitoreo de aplicaciones puede incluir el consumo de CPU y memoria por una aplicación.
  • Monitoreo de seguridad para detectar problemas de seguridad y abordar vulnerabilidades de software, puertos abiertos y permisos no deseados, que pueden ser utilizados para iniciar ataques en su entorno.
  • Monitoreo de actividades críticas para detectar intentos de inicio de sesión no autorizados en un sistema, modificaciones de archivos, etc. Monitorear archivos y carpetas lo ayuda a detectar actividades inusuales causadas por ransomware y responder rápidamente para evitar pérdida de datos.
  • Monitoreo de tiempo de actividad para detectar si un host se apagó incluso si nadie lo ha notado (por ejemplo, un servidor se reinició durante la noche durante horas no laborables después de instalar actualizaciones automáticas o después de un corte de energía). Cuanto más tiempo opere correctamente el host sin reinicio, más confiable y estable será el sistema.
  • Mejores prácticas para el monitoreo de infraestructura de TI

Mejores prácticas para la monitorización de infraestructura de TI

Para lograr la máxima eficiencia en la monitorización, sigue estas mejores prácticas de monitorización de infraestructuras. Con una comprensión clara de cómo implementar la monitorización de TI, puedes mitigar los riesgos de tiempo de inactividad y reaccionar de manera más efectiva ante problemas antes de que los usuarios sientan el impacto negativo de servicios y aplicaciones fallidos.

Elegir la solución de monitorización adecuada

Para elegir la solución de monitorización adecuada para las necesidades de tu organización, determina qué componentes requieren monitorización en tu infraestructura de TI. Para hacerlo, categoriza hardware, sistemas y aplicaciones en función de su importancia para las operaciones comerciales.

Luego puedes definir tu estrategia de monitorización y seleccionar el software óptimo de monitorización de infraestructura de TI. Tu estrategia incluirá el hardware y el software a monitorizar, qué métricas monitorizar, la profundidad de la monitorización y cómo responder cuando ocurran problemas. Según estos parámetros, selecciona el software de monitorización que cumpla con tus requisitos.

Si necesitas monitorizar VM de VMware en hosts ESXi, elige una solución que acceda a las VM en el nivel del hipervisor en lugar de instalar agentes en el sistema operativo invitado. Un software de monitorización empresarial universal combinará agentes para monitorizar máquinas físicas y APIs de virtualización para monitorizar hosts y VM de hipervisor. Dicho software de monitorización puede utilizar protocolos como SNMP para monitorizar dispositivos de red y otro equipamiento, y utilizar APIs especiales para monitorizar elementos en las nubes de AWS y Azure.

Recopilar métricas relevantes

Las mejores prácticas de monitorización de TI recomiendan enfoques para obtener siempre información relevante:

  • Define qué métricas necesitas monitorear para máquinas físicas, máquinas virtuales, aplicaciones, redes y diferentes dispositivos.
  • Revise regularmente sus métricas de rendimiento y registros monitoreados.
  • Revise periódicamente sus métricas monitoreadas y realice cambios en el monitoreo de la infraestructura de TI si es necesario.

Configure el acceso a los paneles adecuados.

El software de monitoreo de TI generalmente recopila datos y muestra información en una vista optimizada en la interfaz web. Una interfaz web generalmente contiene paneles con información visualizada recopilada. Un administrador de sistemas y usuarios autorizados pueden abrir la interfaz web y verificar información resumida, gráficos, estadísticas y otros datos para toda la infraestructura y servidores, dispositivos y aplicaciones particulares.

Defina quién necesita ver los datos de monitoreo. Conceda acceso a los usuarios para monitorear solo lo que necesitan para realizar sus responsabilidades, siguiendo el principio de menor privilegio. Configure paneles personalizados para diferentes grupos de usuarios, por ejemplo:

  • Los programadores pueden monitorear servidores de bases de datos, servidores de aplicaciones, servidores web y los clústeres de Kubernetes que utilizan.
  • Los probadores pueden monitorear servidores y VM utilizados para pruebas.
  • Los administradores del sistema pueden monitorear todos los elementos.
  • Los gerentes de ventas pueden necesitar ver información sobre el sistema CRM.

Configure alertas/notificaciones automatizadas.

Los administradores y usuarios pueden verificar los datos de monitoreo bajo demanda en los paneles proporcionados. Esta es una opción útil, pero ¿cómo puede informarse sobre el problema de inmediato? Los administradores no pueden pasar todo el día monitoreando estadísticas. Por esta razón, la mayoría de las herramientas de monitoreo de TI permiten a los administradores configurar notificaciones automáticas que se envían por correo electrónico, Skype, SMS, etc. Los administradores pueden configurar disparadores basados en eventos específicos para enviar notificaciones al destino elegido.

Las alertas pueden ser priorizadas: las alertas más críticas deben tener el mínimo retraso, mientras que otras alertas pueden ser enviadas con un retraso de unos minutos. Por ejemplo, si un host se desconecta, se envía un mensaje de notificación en dos minutos a un grupo de correo electrónico o a un grupo de Skype cuyos miembros son administradores, usuarios avanzados y líderes de equipo. Si un servidor vuelve a estar en línea, se envía el mensaje de notificación correspondiente al grupo. También puede configurar alertas para espacio de disco bajo, sobrecarga de CPU y memoria insuficiente en servidores. Si el dispositivo de red tiene la funcionalidad adecuada, incluso puede configurar notificaciones sobre el bajo nivel de tóner en un cartucho en la impresora de red. Puede ser útil si los usuarios siempre imprimen páginas importantes y desea evitar olvidar verificar si hay cartuchos llenos en el inventario.

Las mejores prácticas de monitoreo de infraestructura recomiendan que configure el envío de notificaciones automáticas solo para los parámetros necesarios. Si configura notificaciones para ser enviadas sobre todos los problemas, será difícil manejar la información recibida.

Establezca el umbral para las notificaciones

Configurar umbrales para mostrar y enviar notificaciones. Si configura para establecer notificaciones de inmediato, puede ver muchos mensajes de alerta en cortos picos de rendimiento de la CPU, períodos cortos de redes “inaccesibles” causados por la sobrecarga del servidor, etc. Configure el umbral adecuado para reaccionar a tiempo y minimizar la inundación de notificaciones. La configuración adecuada del umbral reduce la probabilidad de activación de falsos positivos.

Al configurar el software de monitoreo del sistema, establezca intervalos adecuados para recopilar datos y generar informes. Si el intervalo para generar un informe es demasiado pequeño, los procesos que generan informes y gráficos en los paneles de control pueden interferir con los procesos principales, y la carga de la CPU aumenta significativamente. Eso puede causar sobrecarga y falla del servidor de monitoreo.

Marcar prioridades de notificación

Sin priorizar las notificaciones, se muestran como una inundación irrelevante de datos. Analizar estos datos para encontrar los datos importantes es consumidor de tiempo, no conveniente e ineficiente. Configurar la solución de monitoreo de infraestructura de TI para mostrar solo lo que necesita con las prioridades establecidas facilita la vida.

Diferentes problemas pueden ocurrir en la infraestructura de TI. Algunos de ellos pueden ser críticos, otros no.

  • Ejemplos de problemas críticos. Fallo de un servidor controlador de dominio de Active Directory, servidor de base de datos de producción, servidor ESXi que ejecuta VM críticas para la misión, estado S.M.A.R.T. malo de un disco duro, espacio de disco bajo, alta temperatura de la CPU, memoria libre insuficiente, etc.
  • Ejemplos de problemas moderados (prioridad intermedia). Fallo de un servidor de prueba, VM de prueba, rastreador de errores, etc.
  • Ejemplos de problemas leves (menores). Bajo nivel de tóner en una impresora, etc.

Las prioridades pueden ser diferentes para cada empresa, y debes ajustarlas según tus requisitos. Establece la prioridad para diferentes tipos de problemas si es posible mostrarlos en paneles de monitoreo y al enviar notificaciones automáticas, por ejemplo:

  • [Crítico] El host 192.168.17.2 (DC01) no está disponible durante 5 minutos.
  • [Crítico] La temperatura de la CPU es demasiado alta (82 °C) en el host 192.168.17.89 (Ora12-prod).
  • [Crítico] Espacio en disco bajo en C: en el host 10.10.10.6 (FS-06).
  • [Moderado] La VM 10.10.10.35 (Oracle-test) en el host 192.168.17.22 (ESXi-22) no está disponible durante 5 minutos.
  • [Menor] El nivel de tóner es bajo para 192.168.17.8 (impresora HP).

Los problemas críticos son urgentes y los administradores deben solucionarlos lo antes posible. Los problemas menores pueden esperar una respuesta.

Prueba cómo funciona el monitoreo

Después de configurar un sistema de monitoreo de infraestructura de TI, debes probar cómo funciona este sistema y si las notificaciones se envían correctamente. No esperes una situación de emergencia real y programa una prueba después de terminar la configuración. Después de la prueba, es posible que necesites ajustar finamente tu sistema de monitoreo de TI. Las pruebas te permiten asegurarte de que el monitoreo funcione como se espera y determinar su eficiencia.

Crea un plan de acción de respuesta

Defina qué hacer después de recibir notificaciones cuando surjan problemas. Debe contar con una solución rápida sobre cómo responder a problemas críticos. Necesita tener un plan de recuperación ante desastres y seguir este plan en caso de fallas o pérdida de datos para garantizar la continuidad operativa y la recuperación ante desastres para cumplir con los RTOs y RPOs de su organización. Siempre debe tener copias de seguridad listas para la recuperación de máquinas o datos de aplicaciones específicas.

Algunos software de monitoreo vienen con una funcionalidad completa de protección de datos y recuperación ante desastres, como la solución de Monitoreo de TI de NAKIVO. La falla del servidor y la pérdida de datos pueden ocurrir en todo tipo de entornos. La copia de seguridad de datos le permite proteger sus datos, recuperar datos en caso de falla y restaurar cargas de trabajo con operación normal en poco tiempo. NAKIVO Backup & Replication es una solución universal de protección de datos que admite la copia de seguridad de máquinas físicas Linux y Windows, máquinas virtuales VMware vSphere, máquinas virtuales Microsoft Hyper-V, Amazon EC2, Nutanix AHV y Microsoft 365.

Source:
https://www.nakivo.com/blog/all-you-should-know-about-it-infrastructure-monitoring/