Best practice per il monitoraggio dell’infrastruttura IT

Alle piccole aziende con pochi server e postazioni di lavoro, gli amministratori di sistema di solito possono identificare rapidamente eventuali problemi che si verificano senza l’ausilio di strumenti speciali. Man mano che un’azienda cresce, aumenta anche il numero di server e altri dispositivi di rete. E se qualcosa va storto, un amministratore di sistema deve comunque essere in grado di identificare il problema rapidamente per evitare seri inconvenienti.

Cercare manualmente un problema in un’infrastruttura di medie o grandi dimensioni può essere complicato e richiedere tempo. Fortunatamente, oggi è ampiamente disponibile il monitoraggio automatizzato delle infrastrutture IT per aiutare gli amministratori a identificare il tipo e la fonte dei problemi il più rapidamente possibile. Questi strumenti aiutano anche gli amministratori a prevenire proattivamente problemi e colli di bottiglia prima che si verifichino monitorando l’allocazione delle risorse e il consumo in tempo reale.

Questo post del blog spiega cos’è il monitoraggio dell’infrastruttura IT, perché utilizzare strumenti di monitoraggio per server e altri dispositivi di rete e quali sono le migliori pratiche da seguire.

Cos’è il Monitoraggio dell’Infrastruttura IT?

Il monitoraggio dell’infrastruttura è il processo di tracciamento di metriche hardware e software in un ambiente fisico o virtuale per migliorare l’efficienza e ottimizzare i processi. Ciò viene fatto raccogliendo e analizzando i dati sull’accessibilità, le prestazioni e l’uso delle risorse di hardware e applicazioni critiche.

Un’infrastruttura IT è il framework sottostante che consente alle aziende di fornire servizi, effettuare transazioni, fornire informazioni, interagire con i clienti, ecc. Questa infrastruttura è composta da data center, applicazioni e software, reti e hardware come server, router, ecc.

Tipi e Metodi di Monitoraggio IT

Diamo un’occhiata ai due principali approcci al monitoraggio dell’infrastruttura IT.

  • Il monitoraggio basato su agente può essere effettuato utilizzando software client-server installando agenti su ogni macchina monitorata. Questo tipo di strumenti di monitoraggio IT richiede l’installazione del componente server del software di monitoraggio di sistema su un server o una macchina virtuale. Il software server registra i dati raccolti in un database e fornisce un’interfaccia web per gli amministratori e gli utenti per configurare il software di monitoraggio di sistema e monitorare l’infrastruttura IT.Un agente è il componente del software di monitoraggio IT che viene installato sulla macchina di destinazione da cui devono essere raccolti i dati. L’agente interagisce con il server tramite la rete e invia i dati raccolti al server di monitoraggio. L’agente dovrebbe supportare più sistemi operativi per coprire meglio l’infrastruttura IT.
  • Il monitoraggio senza agente può essere effettuato utilizzando software lato server e protocolli di rete supportati senza installare agenti software di monitoraggio su ogni macchina monitorata. Può essere utilizzato per piattaforme diverse, il che è particolarmente utile se non è possibile installare l’agente di monitoraggio (ad esempio, su uno switch o un router).

Il software di monitoraggio IT può verificare la disponibilità dei servizi su un host remoto utilizzando i protocolli ICMP, SSH, FTP, HTTP e DNS senza un agente di monitoraggio installato sull’host remoto. Il software di monitoraggio del server cerca di accedere all’host di destinazione tramite il protocollo definito e, a seconda della risposta del server, determina lo stato del servizio necessario.

Due dei protocolli utilizzati sono:

  • Protocollo di Gestione di Rete Semplice (SNMP) è sviluppato appositamente per compiti di monitoraggio senza installare agenti di monitoraggio su host remoti. L’host remoto deve eseguire il servizio SNMP appropriato per supportare la raccolta dei dati tramite SNMP da questo host monitorato. SNMP funziona a livello di applicazione del modello OSI e la versione più recente è SNMPv3. Il protocollo SNMP è generalmente supportato in switch, router, punti di accesso, firewall, stampanti di rete e altri dispositivi collegati alla rete. Ogni identificatore di oggetto è associato al parametro appropriato, come byte ricevuti, byte trasmessi, temperatura CPU, livello di toner nel caricatore della stampante, ecc. Gli identificatori di oggetti sono numerati utilizzando la struttura gerarchica (ad albero). Ad esempio, 1.3.6.1.4.1.343.2.19.1.2.10.206.1.1.16 è l’identificatore per il sensore di temperatura del hardware Intel.

    Si noti che un agente SNMP non è la stessa cosa di un agente di monitoraggio del software di monitoraggio del sistema.

  • Windows Management Instrumentation (WMI) è il protocollo di rete proprietario di Microsoft sviluppato per monitorare sistemi basati su Windows senza installare agenti. Lo strumento di monitoraggio invia una query WMI a un host monitorato e poi legge i dati restituiti.

Monitoraggio IT per sistemi virtualizzati

Monitorare VM e contenitori ha caratteristiche proprie che dovrebbero essere considerate per ottenere i risultati desiderati.

Monitoraggio delle VM. Per le macchine virtuali, utilizzare soluzioni software di monitoraggio senza agente utilizzando le API di VMware per tracciare le prestazioni e l’efficienza degli host ESXi, dei server vCenter e delle macchine virtuali. Le metriche di monitoraggio includono CPU, memoria, archiviazione e utilizzo della rete. Questo approccio consente di evitare sovraccarichi rispetto al metodo in cui vengono installati agenti di monitoraggio sulle VM.

Monitoraggio dei container è complicato rispetto al monitoraggio dei server tradizionali e delle macchine virtuali. Questo perché i container vengono provisionati/distrutti rapidamente e condividono risorse, rendendo difficile misurare le risorse consumate da un host. Il dispiegamento di N agenti in N container non è razionale. Proprio come le VM, i container possono essere monitorati tramite API speciali.

La Docker stats API è un meccanismo nativo fornito con i container Docker per monitorarli. L’idea principale del monitoraggio dei container è monitorare le applicazioni containerizzate dell’architettura a microservizi in esecuzione nei container.

Monitoraggio dell’infrastruttura IT: Componenti

Esploriamo diversi componenti che possono essere tracciati con il monitoraggio dell’infrastruttura IT per saperne di più. Questa classificazione dei componenti monitorati è condizionale perché possono intersecarsi tra loro.Monitoraggio hardware per temperatura della CPU, temperatura dell’HDD, stato S.M.A.R.T. dell’HDD, dati sulla durata della batteria, tensione, ecc. memoria libera, spazio su disco, attività del disco e utilizzo del file di swap.

  • Monitoraggio della rete per le velocità di trasferimento dati su diverse interfacce di rete, il numero di utenti connessi (utile per le connessioni VPN), connessioni di rete, firewall, connessioni TCP e UDP (per rilevare malware), ecc. Può aiutarti a rilevare il sovraccarico di rete, la bassa velocità di trasferimento dati e i tentativi non autorizzati di accesso alla rete.
  • Monitoraggio delle applicazioni per controllare i log delle applicazioni, inclusi i log del sistema operativo, rilevare i codici di errore e visualizzare informazioni aggregate nell’interfaccia web o inviare notifiche agli amministratori. Il monitoraggio delle applicazioni può includere il consumo di CPU e memoria da parte di un’applicazione.
  • Monitoraggio della sicurezza per rilevare problemi di sicurezza e affrontare vulnerabilità del software, porte aperte e autorizzazioni indesiderate, che possono essere utilizzate per avviare attacchi nel tuo ambiente.
  • Monitoraggio delle attività critiche per rilevare tentativi di accesso non autorizzati a un sistema, modifiche ai file, ecc. Monitorare file e cartelle ti aiuta a rilevare attività insolite causate da ransomware e a rispondere rapidamente per evitare la perdita di dati.
  • Monitoraggio del tempo di attività per rilevare se un host è stato spento anche se nessuno lo ha notato (ad esempio, un server è stato riavviato di notte durante le ore non lavorative dopo l’installazione di aggiornamenti automatici o dopo un’interruzione di corrente). Più a lungo l’host funziona correttamente senza riavvi, più affidabile e stabile è il sistema.
  • Linee guida per il monitoraggio dell’infrastruttura IT.

Pratiche migliori per il monitoraggio dell’infrastruttura IT

Per ottenere la massima efficienza nel monitoraggio, seguire queste pratiche migliori per il monitoraggio dell’infrastruttura. Con una chiara comprensione di come implementare il monitoraggio IT, è possibile mitigare i rischi di inattività e reagire ai problemi in modo più efficace prima che gli utenti sentano l’impatto negativo dei servizi e delle applicazioni non funzionanti.

Scegliere la soluzione di monitoraggio giusta

Per scegliere la soluzione di monitoraggio giusta per le esigenze della tua organizzazione, determina quali componenti richiedono monitoraggio nella tua infrastruttura IT. Per fare ciò, categorizza hardware, sistemi e applicazioni in base a quanto sono critici per le operazioni aziendali.

Poi puoi passare a definire la tua strategia di monitoraggio e selezionare il software di monitoraggio dell’infrastruttura IT ottimale. La tua strategia includerà l’hardware e il software da monitorare, quali metriche monitorare, la profondità del monitoraggio e come rispondere quando si verificano problemi. In base a questi parametri, seleziona il software di monitoraggio che soddisfa i tuoi requisiti.

Se hai bisogno di monitorare le VM VMware su host ESXi, seleziona una soluzione che accede alle VM a livello di hypervisor anziché installare agenti sul sistema operativo guest. Un software di monitoraggio aziendale universale combinerà agenti per monitorare macchine fisiche e API di virtualizzazione per monitorare host e VM di hypervisor. Tale software di monitoraggio può utilizzare protocolli come SNMP per monitorare dispositivi di rete e altri equipaggiamenti e utilizzare API speciali per monitorare elementi nei cloud AWS e Azure.

Raccogliere metriche rilevanti

Le pratiche migliori per il monitoraggio IT raccomandano approcci per ottenere sempre informazioni rilevanti:

  • Definire quali metriche monitorare per macchine fisiche, macchine virtuali, applicazioni, reti e diversi dispositivi.
  • Controllare regolarmente le metriche delle prestazioni e i log monitorati.
  • Rivedere periodicamente le metriche monitorate e apportare eventuali modifiche al monitoraggio dell’infrastruttura IT se necessario.

Configurare l’accesso alle dashboard corrette

Il software di monitoraggio IT di solito raccoglie dati e visualizza informazioni in una vista ottimizzata nell’interfaccia web. Un’interfaccia web di solito contiene dashboard con informazioni visualizzate. Un amministratore di sistema e gli utenti autorizzati possono aprire l’interfaccia web e controllare informazioni di riepilogo, grafici, statistiche e altri dati per l’intera infrastruttura e server, dispositivi e applicazioni particolari.

Definire chi deve visualizzare i dati di monitoraggio. Concedere l’accesso agli utenti per monitorare solo ciò di cui hanno bisogno per svolgere le proprie responsabilità, seguendo il principio del minor privilegio. Configurare dashboard personalizzate per diversi gruppi di utenti, ad esempio:

  • I programmatori possono monitorare i server di database, i server delle applicazioni, i server web e i cluster Kubernetes che utilizzano.
  • I tester possono monitorare server e VM utilizzati per i test.
  • Gli amministratori di sistema possono monitorare tutti gli elementi.
  • I responsabili delle vendite potrebbero aver bisogno di visualizzare informazioni sul sistema CRM.

Configurare avvisi/notifiche automatizzati

Gli amministratori e gli utenti possono controllare i dati di monitoraggio su richiesta nelle dashboard fornite. Questa è un’opzione utile, ma come puoi essere informato immediatamente del problema? Gli amministratori non possono passare l’intera giornata a monitorare le statistiche. Per questo motivo, la maggior parte degli strumenti di monitoraggio IT consente agli amministratori di configurare notifiche automatiche che vengono inviate tramite email, Skype, SMS, ecc. Gli amministratori possono configurare trigger basati su eventi specifici per inviare notifiche alla destinazione scelta.

Le allerte possono essere prioritarie: le allerte più critiche dovrebbero avere il minimo ritardo, mentre altre allerte possono essere inviate con un ritardo di alcuni minuti. Ad esempio, se un host va offline, viene inviato un messaggio di notifica entro due minuti a un gruppo di email o a un gruppo di Skype i cui membri sono amministratori, utenti avanzati e responsabili del team. Se un server torna online, viene inviato il relativo messaggio di notifica al gruppo. Puoi anche impostare allerte per lo spazio su disco basso, il sovraccarico della CPU e la memoria insufficiente sui server. Se il dispositivo di rete ha la funzionalità appropriata, puoi anche configurare notifiche sul livello basso di toner in una cartuccia nella stampante di rete. Può essere utile se gli utenti stampano sempre pagine importanti e vuoi evitare di dimenticare di controllare se ci sono cartucce piene in magazzino.

Le migliori pratiche di monitoraggio dell’infrastruttura consigliano di configurare l’invio di notifiche automatiche solo per i parametri necessari. Se si configurano notifiche da inviare su tutti i problemi, sarà difficile gestire le informazioni ricevute.

Imposta la soglia per le notifiche.

Configura le soglie per visualizzare e inviare notifiche. Se configuri per impostare le notifiche immediatamente, puoi vedere molti messaggi di allerta in brevi picchi di prestazioni della CPU, brevi periodi di reti “irraggiungibili” causate da sovraccarico del server, ecc. Configura la soglia adeguata per reagire in tempo e minimizzare il flusso di notifiche. Una corretta configurazione della soglia riduce la probabilità di attivazioni false-positive.

Quando configuri il software di monitoraggio del sistema, imposta intervalli adeguati per raccogliere dati e generare rapporti. Se l’intervallo per generare un rapporto è troppo piccolo, i processi che generano rapporti e grafici nei cruscotti possono interferire con i processi principali e l’onere della CPU aumenta significativamente. Ciò può causare sovraccarico e fallimento del server di monitoraggio.

Marca le priorità delle notifiche

Senza priorizzare le notifiche, vengono visualizzate come un flusso irrilevante di dati. Analizzare questi dati per trovare i dati importanti è dispendioso in termini di tempo, non conveniente e inefficiente. Configurare la soluzione di monitoraggio dell’infrastruttura IT per visualizzare solo ciò di cui hai bisogno con le priorità impostate rende la vita più facile.

Diversi problemi possono verificarsi nell’infrastruttura IT. Alcuni di essi possono essere critici, altri no.

  • Esempi di problemi critici. Guasto di un server di controller di dominio di Active Directory, server di database di produzione, server ESXi che esegue VM mission-critical, stato S.M.A.R.T. del disco difettoso, spazio su disco basso, temperatura elevata della CPU, memoria libera insufficiente, ecc.
  • Esempi di problemi di moderata (media priorità). Guasto di un server di test, VM di test, bug tracker, ecc.
  • Esempi di problemi leggeri (minori). Basso livello di toner in una stampante, ecc.

Le priorità possono essere diverse per ogni azienda, e dovresti adattarle in base alle tue esigenze. Imposta la priorità per i diversi tipi di problemi se è possibile visualizzarli nei dashboard di monitoraggio e quando invii notifiche automatiche, ad esempio:

  • [Critico] Host 192.168.17.2 (DC01) non è raggiungibile per 5 minuti.
  • [Critico] La temperatura della CPU è troppo alta (82 °C) sull’host 192.168.17.89 (Ora12-prod).
  • [Critico] Spazio disco basso su C: sull’host 10.10.10.6 (FS-06).
  • [Moderato] La VM 10.10.10.35 (Oracle-test) sull’host 192.168.17.22 (ESXi-22) non è raggiungibile per 5 minuti.
  • [Minore] Il livello del toner è basso per 192.168.17.8 (HP-printer).

I problemi critici sono urgenti e gli amministratori dovrebbero risolverli il prima possibile. I problemi minori possono attendere una risposta.

Testa il funzionamento del monitoraggio

Dopo aver configurato un sistema di monitoraggio dell’infrastruttura IT, è necessario testare il funzionamento di questo sistema e verificare se le notifiche vengono inviate correttamente. Non aspettare una situazione di emergenza reale e pianifica un test dopo aver completato la configurazione. Dopo il test, potrebbe essere necessario ottimizzare il sistema di monitoraggio IT. Il testing consente di garantire che il monitoraggio funzioni come previsto e di determinarne l’efficienza.

Crea un piano di azione di risposta

Definire cosa fare dopo aver ricevuto notifiche quando si verificano problemi. Dovresti avere una soluzione rapida su come rispondere a problemi critici. È necessario disporre di un piano di recupero di emergenza e seguire questo piano in caso di guasti o perdita di dati per garantire la continuità operativa e il recupero di emergenza per soddisfare gli Obiettivi di Tempo di Ripristino (RTO) e gli Obiettivi di Punto di Ripristino (RPO) della tua organizzazione. Devi sempre avere backup pronti per il recupero di macchine o dati di applicazioni specifiche.

Alcuni software di monitoraggio sono dotati di funzionalità complete di protezione dei dati e recupero di emergenza, come la soluzione di monitoraggio IT di NAKIVO. Guasti al server e perdita di dati possono verificarsi in tutti i tipi di ambienti. Il backup dei dati ti consente di proteggere i tuoi dati, recuperare i dati in caso di guasto e ripristinare i carichi di lavoro con un funzionamento normale in breve tempo. NAKIVO Backup & Replication è una soluzione universale di protezione dei dati che supporta il backup di macchine fisiche Linux e Windows, VM VMware vSphere, VM Microsoft Hyper-V, Amazon EC2, Nutanix AHV e Microsoft 365.

Source:
https://www.nakivo.com/blog/all-you-should-know-about-it-infrastructure-monitoring/