Best practices voor IT-infrastructuurbewaking

Bij kleine bedrijven met weinig servers en werkstations kunnen systeembeheerders meestal snel eventuele problemen identificeren zonder speciale tools. Naarmate een bedrijf groeit, groeit ook het aantal servers en andere netwerkapparaten. En als er iets misgaat, moet een systeembeheerder nog steeds in staat zijn om het probleem snel te identificeren om ernstige problemen te voorkomen.

Het handmatig zoeken naar een probleem in een middelgrote of grote infrastructuur kan ingewikkeld en tijdrovend zijn. Gelukkig is geautomatiseerde IT-infrastructuurmonitoring vandaag de dag wijdverspreid beschikbaar om beheerders te helpen het type en de bron van problemen zo snel mogelijk te identificeren. Deze tools helpen beheerders ook proactief om problemen en knelpunten te voorkomen door het monitoren van middelenallocatie en realtime verbruik.

Deze blogpost legt uit wat IT-infrastructuurmonitoring is, waarom monitoringtools voor servers en andere netwerkapparaten worden gebruikt, en welke beste praktijken moeten worden gevolgd.

Wat is IT-infrastructuurmonitoring?

Infrastructuurmonitoring is het proces van het volgen van hardware- en softwaremetingen in een fysieke of virtuele omgeving om de efficiëntie te verbeteren en processen te optimaliseren. Dit gebeurt door het verzamelen en analyseren van gegevens over de beschikbaarheid, prestaties en het gebruik van middelen van kritieke hardware en toepassingen.

Een IT-infrastructuur is het onderliggende raamwerk dat bedrijven in staat stelt om diensten te leveren, transacties uit te voeren, informatie te verstrekken, met klanten te communiceren, enz. Deze infrastructuur bestaat uit datacenters, toepassingen en software, netwerken en hardware zoals servers, routers, enz.

Soorten en methoden van IT-monitoring

Laten we kijken naar de twee belangrijkste benaderingen van IT-infrastructuurbewaking.

  • Agentgebaseerde bewaking kan worden uitgevoerd met client-server software door agents te installeren op elke gecontroleerde machine. Dit type IT-bewakingsgereedschap vereist de installatie van de servercomponent van de systeembewakingssoftware op een server of virtuele machine. De serversoftware slaat verzamelde gegevens op in een database en biedt een webinterface voor beheerders en gebruikers om de systeembewakingssoftware te configureren en de IT-infrastructuur te bewaken.Een agent is het onderdeel van de IT-bewakingssoftware dat wordt geïnstalleerd op de doelmachine waarvan gegevens moeten worden verzameld. De agent communiceert via het netwerk met de server en stuurt de verzamelde gegevens naar de bewakingsserver. De agent moet meerdere besturingssystemen ondersteunen om de IT-infrastructuur beter te kunnen dekken.
  • Agentloze bewaking kan worden uitgevoerd met serverzijde software en ondersteunde netwerkprotocollen zonder bewakingssoftwareagents te installeren op elke gecontroleerde machine. Het kan worden gebruikt voor verschillende platforms, wat vooral handig is als u de bewakingsagent niet kunt installeren (bijvoorbeeld op een switch of router).

IT-bewakingssoftware kan de beschikbaarheid van services op een externe host controleren met behulp van ICMP, SSH, FTP, HTTP en DNS-protocollen zonder een bewakingsagent geïnstalleerd op de externe host. De serverbewakingssoftware probeert toegang te krijgen tot de bestemmingshost via het gedefinieerde protocol, en afhankelijk van de reactie van de server, bepaalt het de status van de benodigde service.

Twee van de gebruikte protocollen zijn:

  • Eenvoudig Network Management Protocol (SNMP) is speciaal ontwikkeld voor het uitvoeren van bewakingstaken zonder monitoringagenten te installeren op externe hosts. De externe host moet de juiste SNMP-service draaien om gegevensverzameling via SNMP vanaf deze bewaakte host te ondersteunen. SNMP werkt op de toepassingslaag van het OSI-model, en de laatste versie is SNMPv3. Het SNMP-protocol wordt doorgaans ondersteund in switches, routers, toegangspunten, firewalls, netwerkprinters en andere apparaten die zijn verbonden met het netwerk. Elk object-identificatie is gekoppeld aan de juiste parameter, zoals ontvangen bytes, verzonden bytes, CPU-temperatuur, niveau van toner in de printer-cartridge, enzovoort. Objectidentificaties worden genummerd met behulp van de hiërarchische (boomachtige) structuur. Bijvoorbeeld, 1.3.6.1.4.1.343.2.19.1.2.10.206.1.1.16 is de identificator voor de temperatuursensor van Intel-hardware.

    Merk op dat een SNMP-agent niet hetzelfde is als een bewakingsagent van systeembewakingssoftware.

  • Windows Management Instrumentation (WMI) is Microsoft’s eigen netwerkprotocol ontwikkeld om Windows-gebaseerde systemen te bewaken zonder agenten te installeren. De bewakingstool stuurt een WMI-query naar een bewaakte host en leest vervolgens de teruggegeven gegevens.

IT-bewaking voor gevirtualiseerde systemen

Het bewaken van VM’s en containers heeft zijn eigen kenmerken die in aanmerking moeten worden genomen om de gewenste resultaten te bereiken.

VM Monitoring. Voor virtuele machines, gebruik agentloze monitoringssoftware-oplossingen met behulp van VMware API’s om de prestaties en efficiëntie van ESXi-hosts, vCenter-servers en virtuele machines bij te houden. Monitoringsmetrieken omvatten CPU, geheugen, opslag en netwerkgebruik. Deze aanpak stelt u in staat om overhead te vermijden in vergelijking met de methode waarbij monitoringsagenten op VM’s zijn geïnstalleerd.

Containermonitoring is lastig in vergelijking met het monitoren van traditionele servers en virtuele machines. Dit komt doordat containers snel worden aangemaakt/vernietigd en ze resources delen, waardoor het moeilijk is om de verbruikte resources van een host te meten. Het implementeren van N agenten in N containers is niet rationeel. Net als VM’s kunnen containers worden gemonitord via speciale API’s.

De Docker stats API is een native mechanisme dat wordt geleverd met Docker-containers om ze te monitoren. Het hoofdidee van containermonitoring is het monitoren van gecontaineriseerde toepassingen van de microservices-architectuur die in containers draaien.

IT-infrastructuurmonitoring: Componenten

Laten we verschillende componenten verkennen die kunnen worden bijgehouden met IT-infrastructuurmonitoring om meer te weten te komen. Deze classificatie van gemonitorde componenten is voorwaardelijk omdat ze met elkaar kunnen overlappen.Hardwaremonitoring voor CPU-temperatuur, HDD-temperatuur, HDD S.M.A.R.T.-status, batterijlevensduurgegevens, voltage, etc. vrije geheugen, schijfruimte, schijfactiviteit en wisselbestandgebruik.

  • Netwerkmonitoring voor gegevensoverdrachtsnelheden op verschillende netwerkinterfaces, het aantal verbonden gebruikers (handig voor VPN-verbindingen), netwerkverbindingen, firewalls, TCP- en UDP-verbindingen (om malware te detecteren), enzovoort. Het kan u helpen bij het detecteren van netwerkoverbelasting, lage gegevensoverdrachtsnelheid en ongeautoriseerde pogingen om toegang te krijgen tot het netwerk.
  • Applicatiemonitoring om applicatielogs te controleren, inclusief logs van het besturingssysteem, foutcodes detecteren en geaggregeerde informatie weergeven in de webinterface of meldingen sturen naar beheerders. Applicatiemonitoring kan CPU- en geheugenverbruik door een applicatie omvatten.
  • Beveiligingsmonitoring om beveiligingsproblemen te detecteren en softwarekwetsbaarheden aan te pakken, geopende poorten en ongewenste toestemmingen te detecteren, die kunnen worden gebruikt om aanvallen in uw omgeving te starten.
  • Monitoren van kritieke activiteiten om ongeautoriseerde aanmeldpogingen op een systeem, bestandsaanpassingen, enzovoort te detecteren. Het monitoren van bestanden en mappen helpt u ongebruikelijke activiteiten te detecteren die worden veroorzaakt door ransomware en snel te reageren om gegevensverlies te voorkomen.
  • Uptimemonitoring om te detecteren of een host is uitgeschakeld, zelfs als niemand dat heeft opgemerkt (bijvoorbeeld, een server is ’s nachts opnieuw opgestart tijdens niet-werkuren na het installeren van automatische updates of na een stroomstoring). Hoe langer de host goed werkt zonder opnieuw op te starten, hoe betrouwbaarder en stabieler het systeem is.
  • Best Practices voor IT-infrastructuurmonitoring

Best Practices voor IT-infrastructuurbewaking

Om maximale bewakingsefficiëntie te bereiken, volg deze best practices voor infrastructuurbewaking. Met een duidelijk begrip van hoe IT-bewaking te implementeren, kunt u de risico’s van downtime beperken en effectiever reageren op problemen voordat gebruikers de negatieve impact van mislukte services en toepassingen voelen.

Kies de juiste bewakingsoplossing

Om de juiste bewakingsoplossing voor de behoeften van uw organisatie te kiezen, bepaalt u welke componenten bewaking vereisen in uw IT-infrastructuur. Om dat te doen, categoriseer hardware, systemen en toepassingen op basis van hoe kritiek ze zijn voor de bedrijfsvoering.

Vervolgens kunt u uw bewakingsstrategie definiëren en de optimale IT-infrastructuurbewakingssoftware selecteren. Uw strategie zal de hardware en software omvatten die moeten worden bewaakt, welke metingen moeten worden bewaakt, de bewakingsdiepte en hoe te reageren wanneer zich problemen voordoen. Afhankelijk van deze parameters, selecteert u de bewakingssoftware die aan uw eisen voldoet.

Als u VMware VM’s op ESXi-hosts moet bewaken, selecteert u een oplossing die toegang heeft tot VM’s op hypervisorniveau in plaats van agents te installeren op het gastbesturingssysteem. Een universele bedrijfsbewakingssoftware zal agents combineren om fysieke machines te bewaken en virtualisatie-API’s om hypervisorhosts en VM’s te bewaken. Dergelijke bewakingssoftware kan protocollen zoals SNMP gebruiken om netwerkapparaten en andere apparatuur te bewaken en speciale API’s gebruiken om items in de AWS- en Azure-clouds te bewaken.

Verzamel relevante metingen

Best practices voor IT-bewaking raden benaderingen aan om altijd relevante informatie te verkrijgen:

  • Definieer welke metrics u moet controleren voor fysieke machines, virtuele machines, applicaties, netwerken en verschillende apparaten.
  • Controleer regelmatig uw prestatie-indicatoren en gemonitorde logs.
  • Herzie periodiek uw gemonitorde metrics en breng indien nodig wijzigingen aan in de IT-infrastructuurmonitoring.

Configureer toegang tot de juiste dashboards

IT-monitoringsoftware verzamelt doorgaans gegevens en toont informatie in een geoptimaliseerd overzicht in de webinterface. Een webinterface bevat doorgaans dashboards met verzamelde gevisualiseerde informatie. Een systeembeheerder en geautoriseerde gebruikers kunnen de webinterface openen en samenvattende informatie, grafieken, statistieken en andere gegevens bekijken voor de gehele infrastructuur en specifieke servers, apparaten en applicaties.

Definieer wie de monitoringgegevens moet bekijken. Verleen gebruikers toegang om alleen te controleren wat ze nodig hebben om hun verantwoordelijkheden uit te voeren, volgens het principe van minste privilege. Configureer aangepaste dashboards voor verschillende gebruikersgroepen, bijvoorbeeld:

  • Programmeurs kunnen database servers, applicatieservers, webservers en de Kubernetes-clusters die ze gebruiken monitoren.
  • Testers kunnen servers en VM’s die voor testdoeleinden worden gebruikt monitoren.
  • Systeembeheerders kunnen alle items monitoren.
  • Verkoopmanagers moeten mogelijk informatie bekijken over het CRM-systeem.

Configureer geautomatiseerde waarschuwingen/meldingen

Beheerders en gebruikers kunnen de monitoringgegevens op verzoek controleren in de meegeleverde dashboards. Dit is een nuttige optie, maar hoe kun je direct op de hoogte worden gesteld van het probleem? Beheerders kunnen niet de hele dag statistieken monitoren. Om deze reden stellen de meeste IT-monitoringtools beheerders in staat om automatische meldingen te configureren die worden verzonden via e-mail, Skype, sms, enz. Beheerders kunnen triggers configureren op basis van specifieke gebeurtenissen om meldingen naar de gekozen bestemming te sturen.

Waarschuwingen kunnen worden geprioriteerd: de meest kritieke waarschuwingen moeten minimaal vertraging hebben, terwijl andere waarschuwingen met enkele minuten vertraging kunnen worden verzonden. Als bijvoorbeeld een host offline gaat, wordt binnen twee minuten een meldingsbericht verzonden naar een e-mailgroep of naar een Skype-groep waarvan de leden beheerders, gevorderde gebruikers en teamleiders zijn. Als een server weer online is, wordt het passende meldingsbericht naar de groep verzonden. Je kunt ook waarschuwingen instellen voor een lage schijfruimte, CPU-overbelasting en onvoldoende geheugen op servers. Als het netwerkapparaat de juiste functionaliteit heeft, kun je zelfs meldingen configureren over het lage niveau van toner in een cartridge in de netwerkprinter. Dit kan handig zijn als gebruikers altijd belangrijke pagina’s afdrukken en je wilt voorkomen dat je vergeet te controleren of er volle cartridges in de voorraad zijn.

De beste praktijken voor het monitoren van de infrastructuur raden aan om automatische meldingen alleen te configureren voor de benodigde parameters. Als je meldingen configureert om te worden verzonden over alle problemen, zal het moeilijk zijn om de ontvangen informatie te verwerken.

Stel de drempel voor meldingen in

Configureer drempels om meldingen weer te geven en te verzenden. Als je de meldingen meteen instelt, kun je veel waarschuwingsberichten zien bij korte CPU-prestatiepieken, korte periodes van “onbereikbare” netwerken veroorzaakt door serveroverbelasting, enzovoort. Configureer de juiste drempel om op tijd te reageren en de overvloed aan meldingen te minimaliseren. Een juiste configuratie van de drempel vermindert de kans op onterechte activering.

Wanneer je systeemmonitoringsoftware configureert, stel dan adequate intervallen in om gegevens te verzamelen en rapporten te genereren. Als het interval om een rapport te genereren te klein is, kunnen de processen die rapporten en grafieken in dashboards genereren interfereren met kernprocessen, en neemt de CPU-belasting aanzienlijk toe. Dat kan leiden tot overbelasting en uitval van de monitoringserver.

Markeer meldingsprioriteiten

Zonder prioritering van meldingen worden ze weergegeven als een onbelangrijke stroom van gegevens. Het analyseren van deze gegevens om de belangrijke gegevens te vinden is tijdrovend, niet handig en inefficiënt. Het configureren van de IT-infrastructuurmonitoringoplossing om alleen weer te geven wat je nodig hebt met de ingestelde prioriteiten maakt het leven gemakkelijker.

Verschillende problemen kunnen zich voordoen in de IT-infrastructuur. Sommige daarvan kunnen kritiek zijn, andere niet.

  • Voorbeelden van kritieke problemen. Uitval van een Active Directory-domeincontroller-server, productiedatabase-server, ESXi-server die mission-critische VM’s draait, slechte S.M.A.R.T.-status van een schijfstation, weinig schijfruimte, hoge CPU-temperatuur, onvoldoende vrije geheugenruimte, enzovoort.
  • Voorbeelden van gematigde (middelhoge prioriteit) problemen. Uitval van een tests erver, test-VM, bugtracker, enz.
  • Voorbeelden van lichte (kleine) problemen. Laag niveau van toner in een printer, enz.

Prioriteiten kunnen verschillend zijn voor elk bedrijf, en je moet ze aanpassen aan je vereisten. Stel de prioriteit in voor verschillende probleemtypes als het mogelijk is om ze weer te geven in monitoringdashboards en bij het verzenden van automatische meldingen, bijvoorbeeld:

  • [Kritiek] Host 192.168.17.2 (DC01) is onbereikbaar gedurende 5 minuten.
  • [Kritiek] CPU-temperatuur is te hoog (82 °C) op host 192.168.17.89 (Ora12-prod).
  • [Kritiek] Weinig schijfruimte op C: op host 10.10.10.6 (FS-06).
  • [Matig] VM 10.10.10.35 (Oracle-test) op host 192.168.17.22 (ESXi-22) is onbereikbaar gedurende 5 minuten.
  • [Klein] Tonerniveau is laag voor 192.168.17.8 (HP-printer).

De kritieke problemen zijn dringend en beheerders moeten ze zo snel mogelijk oplossen. De kleine problemen kunnen wachten op een reactie.

Test hoe monitoring werkt

Na het configureren van een IT-infrastructuurmonitoringssysteem, moet je testen hoe dit systeem werkt en of meldingen correct worden verzonden. Wacht niet op een echte noodsituatie en plan een testrun in nadat de configuratie is voltooid. Na de testrun moet je mogelijk je IT-monitoringsysteem finetunen. Testen stelt je in staat om ervoor te zorgen dat de monitoring werkt zoals verwacht en om de efficiëntie ervan te bepalen.

Maak een reactie-actieplan

Stel vast wat te doen na ontvangst van meldingen wanneer zich problemen voordoen. Je moet een snelle oplossing hebben voor hoe te reageren op kritieke problemen. Je moet een rampenherstelplan hebben en dit plan volgen in geval van storingen of gegevensverlies om operationele continuïteit en rampenherstel te garanderen om te voldoen aan de RTO’s en RPO’s van je organisatie. Je moet altijd back-ups klaar hebben voor het herstellen van machines of specifieke toepassingsgegevens.

Sommige monitoringssoftware wordt geleverd met uitgebreide gegevensbeschermings- en rampenherstelfunctionaliteit, zoals de IT-monitoringsoplossing van NAKIVO. Serverstoringen en gegevensverlies kunnen zich voordoen in alle soorten omgevingen. Gegevensback-up stelt je in staat om je gegevens te beschermen, gegevens te herstellen in geval van storing, en werkbelastingen te herstellen met normale werking binnen korte tijd. NAKIVO Backup & Replication is een universele gegevensbeschermingsoplossing die back-up van fysieke Linux- en Windows-machines, VMware vSphere VM’s, Microsoft Hyper-V VM’s, Amazon EC2, Nutanix AHV en Microsoft 365 ondersteunt.

Source:
https://www.nakivo.com/blog/all-you-should-know-about-it-infrastructure-monitoring/