Nas pequenas empresas com poucos servidores e estações de trabalho, os administradores de sistema geralmente podem identificar rapidamente quaisquer problemas que ocorram sem a necessidade de ferramentas especiais. Conforme uma empresa cresce, aumenta também o número de servidores e outros dispositivos de rede. E se algo der errado, um administrador de sistema ainda deve ser capaz de identificar o problema rapidamente para evitar problemas graves.
Procurar por um problema manualmente em uma infraestrutura média ou grande pode ser complicado e demorado. Felizmente, a monitoração automatizada da infraestrutura de TI está amplamente disponível hoje para ajudar os administradores a identificarem o tipo e a origem dos problemas o mais rápido possível. Essas ferramentas também ajudam os administradores a prevenir proativamente problemas e gargalos antes que ocorram, monitorando a alocação de recursos e o consumo em tempo real.
Este post explica o que é a monitorização da infraestrutura de TI, por que usar ferramentas de monitorização para servidores e outros dispositivos de rede, e quais as melhores práticas a seguir.
O que é Monitorização da Infraestrutura de TI?
A monitorização da infraestrutura é o processo de rastreamento de métricas de hardware e software em um ambiente físico ou virtual para melhorar a eficiência e otimizar processos. Isso é feito através da coleta e análise de dados sobre a disponibilidade, desempenho e uso de recursos de hardware crítico e aplicativos.
Uma infraestrutura de TI é o arcabouço subjacente que permite às empresas fornecer serviços, realizar transações, fornecer informações, interagir com clientes, etc. Essa infraestrutura é composta por data centers, aplicativos e software, redes e hardware como servidores, roteadores, etc.
Tipos e Métodos de Monitorização de TI
Vamos analisar as duas principais abordagens para o monitoramento de infraestrutura de TI.
- O monitoramento baseado em agente pode ser realizado usando software cliente-servidor instalando agentes em cada máquina monitorada. Este tipo de ferramentas de monitoramento de TI requer a instalação do componente de servidor do software de monitoramento de sistema em um servidor ou máquina virtual. O software do servidor registra os dados coletados em um banco de dados e fornece uma interface web para administradores e usuários configurarem o software de monitoramento de sistema e monitorar a infraestrutura de TI.Um agente é o componente do software de monitoramento de TI que é instalado na máquina de destino a partir da qual os dados devem ser coletados. O agente interage com o servidor via rede e envia os dados coletados para o servidor de monitoramento. O agente deve suportar múltiplos sistemas operacionais para cobrir melhor a infraestrutura de TI.
- O monitoramento sem agentepode ser feito usando software do lado do servidor e protocolos de rede suportados sem instalar agentes de software de monitoramento em cada máquina monitorada. Pode ser usado em diferentes plataformas, o que é especialmente útil se você não puder instalar o agente de monitoramento (por exemplo, em um switch ou roteador).
O software de monitoramento de TI pode verificar a disponibilidade de serviços em um host remoto usando protocolos ICMP, SSH, FTP, HTTP e DNS sem um agente de monitoramento instalado no host remoto. O software de monitoramento do servidor tenta acessar o host de destino via protocolo definido e, dependendo da resposta do servidor, determina o status do serviço necessário.
Dois dos protocolos usados são:
- O Protocolo Simples de Gerenciamento de Rede (SNMP) é desenvolvido especialmente para tarefas de monitoramento sem a instalação de agentes de monitoramento em hosts remotos. O host remoto deve executar o serviço SNMP apropriado para suportar a coleta de dados via SNMP deste host monitorado. O SNMP funciona na camada de aplicação do modelo OSI, e a versão mais recente é o SNMPv3. O protocolo SNMP é geralmente suportado em switches, roteadores, pontos de acesso, firewalls, impressoras de rede e outros dispositivos conectados à rede. Cada identificador de objeto está associado ao parâmetro apropriado, como bytes recebidos, bytes transmitidos, temperatura da CPU, nível de toner no cartucho da impressora, etc. Os identificadores de objetos são numerados usando a estrutura hierárquica (em forma de árvore). Por exemplo, 1.3.6.1.4.1.343.2.19.1.2.10.206.1.1.16 é o identificador para o sensor de temperatura do hardware Intel.
Observe que um agente SNMP não é o mesmo que um agente de monitoramento de software de monitoramento de sistema.
- Instrumentação de Gerenciamento do Windows (WMI) é um protocolo de rede proprietário da Microsoft desenvolvido para monitorar sistemas baseados em Windows sem a instalação de agentes. A ferramenta de monitoramento envia uma consulta WMI para um host monitorado e então lê os dados retornados.
Monitoramento de TI para sistemas virtualizados
O monitoramento de VMs e containers possui suas próprias características que devem ser levadas em consideração para alcançar os resultados desejados.
Monitoramento de VM. Para máquinas virtuais, utilize soluções de software de monitoramento sem agente usando APIs da VMware para rastrear o desempenho e eficiência dos hosts ESXi, servidores vCenter e máquinas virtuais. As métricas de monitoramento incluem CPU, memória, armazenamento e uso de rede. Esta abordagem permite evitar sobrecargas em comparação com o método em que agentes de monitoramento são instalados em VMs.
Monitoramento de contêineres é complicado em comparação com o monitoramento de servidores tradicionais e máquinas virtuais. Isso ocorre porque os contêineres são provisionados/destruídos rapidamente e compartilham recursos, o que torna difícil medir os recursos consumidos por um host. A implantação de N agentes em N contêineres não é racional. Assim como as VMs, os contêineres podem ser monitorados por meio de APIs especiais.
A API de estatísticas do Docker é um mecanismo nativo fornecido com contêineres Docker para monitorá-los. A ideia principal do monitoramento de contêineres é monitorar as aplicações containerizadas da arquitetura de microsserviços em execução nos contêineres.
Monitoramento da Infraestrutura de TI: Componentes
Vamos explorar diferentes componentes que podem ser rastreados com o monitoramento da infraestrutura de TI para aprender mais. Essa classificação de componentes monitorados é condicional porque eles podem se intersectar entre si.
- Monitoramento de rede para taxas de transferência de dados em diferentes interfaces de rede, o número de usuários conectados (útil para conexões VPN), conexões de rede, firewalls, conexões TCP e UDP (para detectar malware), etc. Ele pode ajudar a detectar sobrecarga de rede, baixa velocidade de transferência de dados e tentativas não autorizadas de acesso à rede.
- Monitoramento de aplicativos para verificar logs de aplicativos, incluindo logs do sistema operacional, detectar códigos de erro e exibir informações agregadas na interface da web ou enviar notificações para administradores. O monitoramento de aplicativos pode incluir o consumo de CPU e memória por um aplicativo.
- Monitoramento de segurança para detectar problemas de segurança e lidar com vulnerabilidades de software, portas abertas e permissões indesejadas, que podem ser usadas para iniciar ataques em seu ambiente.
- Monitoramento de atividades críticas para detectar tentativas de login não autorizadas em um sistema, modificações de arquivos, etc. Monitorar arquivos e pastas ajuda a detectar atividades incomuns causadas por ransomware e responder rapidamente para evitar perda de dados.
- Monitoramento de tempo de atividade para detectar se um host foi desligado mesmo que ninguém tenha percebido (por exemplo, um servidor foi reiniciado à noite durante horário não comercial após a instalação de atualizações automáticas ou após uma queda de energia). Quanto mais tempo o host operar corretamente sem reiniciar, mais confiável e estável será o sistema.
- Práticas recomendadas para o monitoramento de infraestrutura de TI
Melhores Práticas para Monitoramento da Infraestrutura de TI
Para alcançar a máxima eficiência de monitoramento, siga essas melhores práticas de monitoramento de infraestrutura. Com uma compreensão clara de como implementar o monitoramento de TI, você pode mitigar os riscos de tempo de inatividade e reagir aos problemas de forma mais eficaz antes que os usuários sintam o impacto negativo de serviços e aplicativos falhos.
Escolha a solução de monitoramento certa
Para escolher a solução de monitoramento certa para as necessidades da sua organização, determine quais componentes requerem monitoramento em sua infraestrutura de TI. Para fazer isso, categorize hardware, sistemas e aplicativos com base em quão críticos são para as operações comerciais.
Então você pode definir sua estratégia de monitoramento e selecionar o software de monitoramento de infraestrutura de TI ideal. Sua estratégia incluirá o hardware e software a ser monitorado, quais métricas monitorar, a profundidade do monitoramento e como responder quando ocorrerem problemas. Dependendo desses parâmetros, selecione o software de monitoramento que atenda aos seus requisitos.
Se você precisa monitorar VMs VMware em hosts ESXi, selecione uma solução que acesse VMs no nível do hipervisor em vez de instalar agentes no sistema operacional convidado. Um software de monitoramento empresarial universal combinará agentes para monitorar máquinas físicas e APIs de virtualização para monitorar hosts de hipervisor e VMs. Esse software de monitoramento pode usar protocolos como SNMP para monitorar dispositivos de rede e outros equipamentos e usar APIs especiais para monitorar itens nas nuvens AWS e Azure.
Recolha métricas relevantes
As melhores práticas de monitoramento de TI recomendam abordagens para sempre obter informações relevantes:
- Defina quais métricas precisam ser monitoradas para máquinas físicas, máquinas virtuais, aplicativos, redes e diferentes dispositivos.
- Verifique regularmente suas métricas de desempenho e logs monitorados.
- Revise periodicamente suas métricas monitoradas e faça algumas alterações no monitoramento da infraestrutura de TI, se necessário.
Configure o acesso aos painéis certos
O software de monitoramento de TI geralmente coleta dados e exibe informações em uma visualização otimizada na interface da web. Uma interface web geralmente contém painéis com informações visualizadas coletadas. Um administrador do sistema e usuários autorizados podem abrir a interface web e verificar informações resumidas, gráficos, estatísticas e outros dados para toda a infraestrutura e servidores, dispositivos e aplicativos específicos.
Defina quem precisa visualizar os dados de monitoramento. Conceda acesso aos usuários para monitorar apenas o que precisam para realizar suas responsabilidades, seguindo o princípio do menor privilégio. Configure painéis personalizados para diferentes grupos de usuários, por exemplo:
- Os programadores podem monitorar servidores de banco de dados, servidores de aplicativos, servidores web e os clusters Kubernetes que eles utilizam.
- Os testadores podem monitorar servidores e VMs usados para teste.
- Os administradores do sistema podem monitorar todos os itens.
- Os gerentes de vendas podem precisar visualizar informações sobre o sistema CRM.
Configure alertas/notificações automatizados
Os administradores e usuários podem verificar os dados de monitoramento sob demanda nos painéis fornecidos. Esta é uma opção útil, mas como você pode ser informado sobre o problema imediatamente? Os administradores não podem passar o dia inteiro monitorando estatísticas. Por esse motivo, a maioria das ferramentas de monitoramento de TI permite que os administradores configurem notificações automáticas que são enviadas por e-mail, Skype, SMS, etc. Os administradores podem configurar gatilhos com base em eventos específicos para enviar notificações para o destino escolhido.
Alertas podem ser priorizados: os alertas mais críticos devem ter o mínimo de atraso, enquanto outros alertas podem ser enviados com um atraso de alguns minutos. Por exemplo, se um host ficar offline, uma mensagem de notificação é enviada em dois minutos para um grupo de e-mails ou para um grupo do Skype cujos membros são administradores, usuários avançados e líderes de equipe. Se um servidor estiver online novamente, a mensagem de notificação apropriada é enviada para o grupo. Você também pode configurar alertas para baixo espaço em disco, sobrecarga de CPU e memória insuficiente nos servidores. Se o dispositivo de rede tiver a funcionalidade apropriada, você pode até configurar notificações sobre o baixo nível de toner em um cartucho na impressora de rede. Pode ser útil se os usuários sempre imprimirem páginas importantes, e você quiser evitar esquecer de verificar se há cartuchos cheios no inventário.
As melhores práticas de monitoramento de infraestrutura recomendam que você configure o envio de notificações automáticas apenas para os parâmetros necessários. Se você configurar notificações para serem enviadas sobre todos os problemas, será difícil lidar com as informações recebidas.
Defina o limite para as notificações
Configure os limiares para exibir e enviar notificações. Se você configurar para receber notificações imediatamente, poderá ver muitas mensagens de alerta durante picos curtos de desempenho da CPU, períodos curtos de redes “inacessíveis” causados por sobrecarga do servidor, etc. Configure o limiar adequado para reagir a tempo e minimizar o volume de notificações. Uma configuração adequada do limiar reduz a probabilidade de disparos falsos positivos.
Ao configurar o software de monitoramento do sistema, defina intervalos adequados para coletar dados e gerar relatórios. Se o intervalo para gerar um relatório for muito pequeno, os processos de geração de relatórios e gráficos nos painéis de controle podem interferir nos processos principais, e a carga da CPU aumenta significativamente. Isso pode causar sobrecarga e falha do servidor de monitoramento.
Marque as prioridades de notificação
Sem priorizar notificações, elas são exibidas como um dilúvio de dados irrelevantes. Analisar esses dados para encontrar as informações importantes é demorado, inconveniente e ineficiente. Configurar a solução de monitoramento da infraestrutura de TI para exibir apenas o que você precisa com as prioridades definidas facilita a vida.
Diferentes problemas podem ocorrer na infraestrutura de TI. Alguns deles podem ser críticos, outros não.
- Exemplos de problemas críticos. Falha de um servidor controlador de domínio Active Directory, servidor de banco de dados de produção, servidor ESXi executando VMs críticas, status S.M.A.R.T. ruim de uma unidade de disco, espaço em disco baixo, alta temperatura da CPU, memória livre insuficiente, etc.
- Exemplos de problemas moderados (prioridade média). Falha de um servidor de teste, VM de teste, rastreador de bugs, etc.
- Exemplos de problemas leves (menores). Baixo nível de toner em uma impressora, etc.
As prioridades podem ser diferentes para cada empresa e você deve ajustá-las de acordo com seus requisitos. Defina a prioridade para diferentes tipos de problemas, se possível exibi-los em painéis de monitoramento e ao enviar notificações automáticas, por exemplo:
- [Crítico] O host 192.168.17.2 (DC01) está inacessível há 5 minutos.
- [Crítico] A temperatura da CPU está muito alta (82 °C) no host 192.168.17.89 (Ora12-prod).
- [Crítico] Pouco espaço em disco em C: no host 10.10.10.6 (FS-06).
- [Moderado] A VM 10.10.10.35 (Oracle-test) no host 192.168.17.22 (ESXi-22) está inacessível há 5 minutos.
- [Menor] O nível de toner está baixo para 192.168.17.8 (impressora HP).
Os problemas críticos são urgentes e os administradores devem resolvê-los o mais rápido possível. Os problemas menores podem esperar por uma resposta.
Teste como o monitoramento está funcionando
Após configurar um sistema de monitoramento de infraestrutura de TI, você precisa testar como esse sistema funciona e se as notificações são enviadas corretamente. Não espere por uma situação de emergência real e agende uma execução de teste após terminar a configuração. Após a execução do teste, você pode precisar ajustar finamente seu sistema de monitoramento de TI. O teste permite garantir que o monitoramento funcione conforme o esperado e determinar sua eficiência.
Crie um plano de ação de resposta
Defina o que fazer após receber notificações quando ocorrem problemas. Você deve ter uma solução rápida sobre como responder a problemas críticos. Você precisa ter um plano de recuperação de desastres e seguir esse plano em caso de falhas ou perda de dados para garantir a continuidade operacional e a recuperação de desastres para atender aos RTOs e RPOs da sua organização. Você sempre deve ter backups prontos para a recuperação de máquinas ou dados de aplicativos específicos.
Alguns softwares de monitoramento vêm com funcionalidades abrangentes de proteção de dados e recuperação de desastres, como a solução de Monitoramento de TI da NAKIVO. Falhas de servidor e perda de dados podem ocorrer em todos os tipos de ambientes. O backup de dados permite proteger seus dados, recuperar dados em caso de falha e restaurar cargas de trabalho com operação normal em pouco tempo. O NAKIVO Backup & Replicação é uma solução universal de proteção de dados que suporta backup de máquinas físicas Linux e Windows, VMs VMware vSphere, VMs Microsoft Hyper-V, Amazon EC2, Nutanix AHV e Microsoft 365.
Source:
https://www.nakivo.com/blog/all-you-should-know-about-it-infrastructure-monitoring/