Best Practices für die Überwachung der IT-Infrastruktur

Tutorials

VMware

Bei kleinen Unternehmen mit wenigen Servern und Arbeitsstationen können Systemadministratoren in der Regel schnell auftretende Probleme ohne spezielle Tools identifizieren. Wenn ein Unternehmen wächst, nimmt jedoch auch die Anzahl der Server und anderer Netzwerkgeräte zu. Und wenn etwas schief geht, muss ein Systemadministrator immer noch in der Lage sein, das Problem schnell zu identifizieren, um ernsthafte Probleme zu verhindern.

Die manuelle Suche nach einem Problem in einer mittleren oder großen Infrastruktur kann kompliziert und zeitaufwendig sein. Glücklicherweise sind heute automatisierte IT-Infrastrukturüberwachungstools weit verbreitet, um Administratoren zu helfen, den Typ und die Quelle von Problemen so schnell wie möglich zu identifizieren. Diese Tools helfen auch Administratoren, Probleme und Engpässe proaktiv zu verhindern, indem sie die Ressourcenzuweisung und den Echtzeitverbrauch überwachen.

Was ist IT-Infrastrukturüberwachung?

Die Überwachung der Infrastruktur ist der Prozess, Hardware- und Softwaremetriken in einer physischen oder virtuellen Umgebung zu verfolgen, um die Effizienz zu verbessern und Prozesse zu optimieren. Dies geschieht durch Sammeln und Analysieren von Daten über die Verfügbarkeit, Leistung und Ressourcennutzung kritischer Hardware und Anwendungen.

Eine IT-Infrastruktur ist das zugrunde liegende Rahmenwerk, das Unternehmen ermöglicht, Dienste bereitzustellen, Transaktionen durchzuführen, Informationen bereitzustellen, mit Kunden zu interagieren usw. Diese Infrastruktur besteht aus Rechenzentren, Anwendungen und Software, Netzwerken und Hardware wie Servern, Routern usw.

Arten und Methoden der IT-Überwachung

Lassen Sie uns die zwei Hauptansätze zur Überwachung der IT-Infrastruktur betrachten.

Agentenbasierte Überwachung kann durch die Verwendung von Client-Server-Software durch Installation von Agenten auf jeder überwachten Maschine erfolgen. Diese Art von IT-Überwachungswerkzeugen erfordert die Installation des Serverkomponenten der Systemüberwachungssoftware auf einem Server oder einer virtuellen Maschine. Die Serversoftware zeichnet gesammelte Daten in einer Datenbank auf und bietet eine Webschnittstelle für Administratoren und Benutzer, um die Systemüberwachungssoftware zu konfigurieren und die IT-Infrastruktur zu überwachen. Ein Agent ist die Komponente der IT-Überwachungssoftware, die auf der Zielmaschine installiert ist, von der aus Daten gesammelt werden müssen. Der Agent interagiert über das Netzwerk mit dem Server und sendet die gesammelten Daten an den Überwachungsserver. Der Agent sollte mehrere Betriebssysteme unterstützen, um die IT-Infrastruktur besser abzudecken.
Agentenlose Überwachung kann mithilfe von serverseitiger Software und unterstützten Netzwerkprotokollen ohne Installation von Überwachungssoftware-Agenten auf jeder überwachten Maschine durchgeführt werden. Es kann für verschiedene Plattformen verwendet werden, was besonders nützlich ist, wenn Sie den Überwachungsagenten nicht installieren können (z. B. auf einem Switch oder Router).

Die IT-Überwachungssoftware kann die Verfügbarkeit von Diensten auf einem Remote-Host mithilfe von ICMP, SSH, FTP, HTTP und DNS-Protokollen überprüfen, ohne dass ein Überwachungsagent auf dem Remote-Host installiert ist. Die Serverüberwachungssoftware versucht, auf den Zielhost über das definierte Protokoll zuzugreifen, und bestimmt je nach Antwort des Servers den Status des benötigten Dienstes.

Zwei der verwendeten Protokolle sind:

Einfaches Netzwerkverwaltungsprotokoll (SNMP) wurde speziell für Überwachungsaufgaben entwickelt, ohne Überwachungsagenten auf entfernten Hosts zu installieren. Der entfernte Host muss den entsprechenden SNMP-Dienst ausführen, um die Datensammlung über SNMP von diesem überwachten Host zu unterstützen. SNMP arbeitet auf der Anwendungsschicht des OSI-Modells, und die neueste Version ist SNMPv3. Das SNMP-Protokoll wird normalerweise in Switches, Routern, Zugriffspunkten, Firewalls, Netzwerkdruckern und anderen Geräten unterstützt, die mit dem Netzwerk verbunden sind. Jeder Objektbezeichner ist mit dem entsprechenden Parameter verbunden, wie z. B. empfangene Bytes, übertragene Bytes, CPU-Temperatur, Füllstand des Toners in der Druckerpatrone usw. Objektbezeichner werden mithilfe der hierarchischen (baumartigen) Struktur nummeriert. Zum Beispiel ist 1.3.6.1.4.1.343.2.19.1.2.10.206.1.1.16 die Kennung für den Temperatursensor von Intel-Hardware.
Beachten Sie, dass ein SNMP-Agent nicht dasselbe ist wie ein Überwachungsagent einer Systemüberwachungssoftware.

Windows-Verwaltungsinstrumentation (WMI) ist ein proprietäres Netzwerkprotokoll von Microsoft, das entwickelt wurde, um Windows-basierte Systeme zu überwachen, ohne Agenten zu installieren. Das Überwachungstool sendet eine WMI-Abfrage an einen überwachten Host und liest dann die zurückgegebenen Daten.

IT-Überwachung für virtualisierte Systeme

Das Überwachen von VMs und Containern hat seine eigenen Besonderheiten, die berücksichtigt werden sollten, um die gewünschten Ergebnisse zu erzielen.

VM-Überwachung. Für virtuelle Maschinen verwenden Sie agentenlose Überwachungssoftwarelösungen, die VMware-APIs nutzen, um die Leistung und Effizienz von ESXi-Hosts, vCenter-Servern und virtuellen Maschinen zu verfolgen. Überwachungsmetriken umfassen CPU, Speicher, Speicher und Netzwerkverwendung. Dieser Ansatz ermöglicht es Ihnen, im Vergleich zur Methode, bei der Überwachungsagenten auf VMs installiert sind, Überlastungen zu vermeiden.

Containerüberwachung ist im Vergleich zur Überwachung traditioneller Server und virtueller Maschinen knifflig. Dies liegt daran, dass Container schnell bereitgestellt/zerstört werden und sie Ressourcen teilen, was es schwierig macht, die verbrauchten Ressourcen eines Hosts zu messen. Die Bereitstellung von N-Agenten in N-Containern ist nicht rational. Wie bei VMs können Container über spezielle APIs überwacht werden.

Die Docker-Stats-API ist ein natives Mechanismus, der bei Docker-Containern bereitgestellt wird, um sie zu überwachen. Die Hauptidee der Containerüberwachung besteht darin, containerisierte Anwendungen der Mikroservice-Architektur zu überwachen, die in Containern ausgeführt werden.

IT-Infrastrukturüberwachung: Komponenten

Lasst uns verschiedene Komponenten erkunden, die mit IT-Infrastrukturüberwachung verfolgt werden können, um mehr zu erfahren. Diese Klassifizierung der überwachten Komponenten ist bedingt, da sie sich überschneiden können.Hardwareüberwachung für CPU-Temperatur, HDD-Temperatur, HDD-S.M.A.R.T.-Status, Batterielebensdaten, Spannung usw. Freier Speicher, Festplattenspeicher, Festplattenaktivität und Auslagerungsdateiverwendung.

Netzwerküberwachung für Datenübertragungsraten auf verschiedenen Netzwerkschnittstellen, die Anzahl der verbundenen Benutzer (nützlich für VPN-Verbindungen), Netzwerkverbindungen, Firewalls, TCP- und UDP-Verbindungen (zur Erkennung von Malware) usw. Es kann Ihnen helfen, Netzwerküberlastungen, niedrige Datenübertragungsgeschwindigkeiten und unbefugte Zugriffsversuche auf das Netzwerk zu erkennen.
Anwendungsüberwachung zur Überprüfung von Anwendungsprotokollen, einschließlich Betriebssystemprotokollen, zur Erkennung von Fehlercodes und zur Anzeige aggregierter Informationen im Webinterface oder zum Senden von Benachrichtigungen an Administratoren. Die Anwendungsüberwachung kann auch die CPU- und Speicherauslastung einer Anwendung umfassen.
Sicherheitsüberwachung zur Erkennung von Sicherheitsproblemen und zur Behebung von Software-Schwachstellen, geöffneten Ports und unerwünschten Berechtigungen, die zur Initiierung von Angriffen in Ihrer Umgebung verwendet werden können.
Überwachung kritischer Aktivitäten zur Erkennung unbefugter Anmeldeversuche bei einem System, Dateiänderungen usw. Die Überwachung von Dateien und Ordnern hilft Ihnen, ungewöhnliche Aktivitäten durch Ransomware zu erkennen und schnell zu reagieren, um Datenverlust zu vermeiden.
Verfügbarkeitsüberwachung zur Erkennung, ob ein Host ausgeschaltet wurde, auch wenn niemand das bemerkt hat (zum Beispiel wurde ein Server nachts während der Nicht-Arbeitszeit nach der Installation automatischer Updates oder nach einem Stromausfall neu gestartet). Je länger der Host ordnungsgemäß ohne Neustart funktioniert, desto zuverlässiger und stabiler ist das System.
Best Practices für die Überwachung der IT-Infrastruktur

Best Practices für die Überwachung der IT-Infrastruktur

Um maximale Effizienz bei der Überwachung zu erreichen, befolgen Sie diese Best Practices für die Überwachung der Infrastruktur. Mit einem klaren Verständnis dafür, wie IT-Überwachung implementiert wird, können Sie Ausfallzeiten minimieren und auf Probleme effektiver reagieren, bevor Benutzer die negativen Auswirkungen fehlgeschlagener Dienste und Anwendungen spüren.

Wählen Sie die richtige Überwachungslösung

Um die richtige Überwachungslösung für die Bedürfnisse Ihrer Organisation auszuwählen, bestimmen Sie, welche Komponenten in Ihrer IT-Infrastruktur überwacht werden müssen. Kategorisieren Sie dazu Hardware, Systeme und Anwendungen basierend darauf, wie wichtig sie für den Geschäftsbetrieb sind.

Dann können Sie Ihre Überwachungsstrategie definieren und die optimale IT-Infrastrukturüberwachungssoftware auswählen. Ihre Strategie wird die zu überwachende Hardware und Software, die zu überwachenden Metriken, die Überwachungstiefe und das Vorgehen bei Problemen umfassen. Abhängig von diesen Parametern wählen Sie die Überwachungssoftware aus, die Ihren Anforderungen entspricht.

Wenn Sie VMware-VMs auf ESXi-Hosts überwachen müssen, wählen Sie eine Lösung, die auf der Ebene des Hypervisors auf VMs zugreift, anstatt Agenten im Gastbetriebssystem zu installieren. Eine universelle Unternehmensüberwachungssoftware kombiniert Agenten zur Überwachung physischer Maschinen und Virtualisierungs-APIs zur Überwachung von Hypervisor-Hosts und VMs. Eine solche Überwachungssoftware kann Protokolle wie SNMP zur Überwachung von Netzwerkgeräten und anderer Ausrüstung verwenden und spezielle APIs zur Überwachung von Elementen in den AWS- und Azure-Clouds verwenden.

Sammeln Sie relevante Metriken

Best Practices für die IT-Überwachung empfehlen Ansätze, um immer relevante Informationen zu erhalten:

Definieren Sie, welche Metriken für physische Maschinen, virtuelle Maschinen, Anwendungen, Netzwerke und verschiedene Geräte überwacht werden müssen.
Überprüfen Sie regelmäßig Ihre Leistungsmetriken und überwachten Protokolle.
Überprüfen Sie regelmäßig Ihre überwachten Metriken und nehmen Sie bei Bedarf Änderungen in der Überwachung der IT-Infrastruktur vor.

Konfigurieren Sie den Zugriff auf die richtigen Dashboards.

Überwachungssoftware für IT sammelt normalerweise Daten und zeigt Informationen in einer optimierten Ansicht im Webinterface an. Ein Webinterface enthält normalerweise Dashboards mit gesammelten visualisierten Informationen. Ein Systemadministrator und autorisierte Benutzer können das Webinterface öffnen und Zusammenfassungsinformationen, Grafiken, Statistiken und andere Daten für die gesamte Infrastruktur sowie bestimmte Server, Geräte und Anwendungen überprüfen.

Definieren Sie, wer die Überwachungsdaten anzeigen muss. Gewähren Sie Benutzern Zugriff, um nur das zu überwachen, was sie benötigen, um ihre Aufgaben auszuführen, unter Beachtung des Prinzips des geringsten Privilegs. Konfigurieren Sie benutzerdefinierte Dashboards für verschiedene Benutzergruppen, zum Beispiel:

Programmierer können Datenbankserver, Anwendungsserver, Webserver und die von ihnen verwendeten Kubernetes-Cluster überwachen.
Tester können Server und VMs überwachen, die für Tests verwendet werden.
Systemadministratoren können alle Elemente überwachen.
Vertriebsleiter benötigen möglicherweise Informationen zum CRM-System.

Konfigurieren Sie automatisierte Warnungen/Benachrichtigungen.

Administratoren und Benutzer können die Überwachungsdaten bei Bedarf in den bereitgestellten Dashboards überprüfen. Dies ist eine nützliche Option, aber wie können Sie sofort über das Problem informiert werden? Administratoren können nicht den ganzen Tag damit verbringen, Statistiken zu überwachen. Aus diesem Grund ermöglichen die meisten IT-Überwachungstools Administratoren, automatische Benachrichtigungen zu konfigurieren, die per E-Mail, Skype, SMS usw. gesendet werden. Administratoren können Trigger basierend auf bestimmten Ereignissen konfigurieren, um Benachrichtigungen an das ausgewählte Ziel zu senden.

Alarme können priorisiert werden: Die kritischsten Alarme sollten die geringste Verzögerung haben, während andere Alarme mit einer Verzögerung von einigen Minuten gesendet werden können. Zum Beispiel, wenn ein Host offline geht, wird eine Benachrichtigungsnachricht in zwei Minuten an eine E-Mail-Gruppe oder an eine Skype-Gruppe gesendet, deren Mitglieder Administratoren, fortgeschrittene Benutzer und Teamleiter sind. Wenn ein Server wieder online ist, wird die entsprechende Benachrichtigungsnachricht an die Gruppe gesendet. Sie können auch Alarme für wenig Speicherplatz, CPU-Überlastung und unzureichenden Speicher auf Servern einstellen. Wenn das Netzwerkgerät über die entsprechende Funktionalität verfügt, können Sie sogar Benachrichtigungen über den niedrigen Tonerstand in einer Patrone im Netzwerkdrucker konfigurieren. Es kann nützlich sein, wenn Benutzer immer wichtige Seiten drucken und Sie vermeiden möchten, zu vergessen, zu überprüfen, ob es volle Patronen im Bestand gibt.

Die Best Practices für die Infrastrukturüberwachung empfehlen, dass Sie automatische Benachrichtigungen nur für die benötigten Parameter konfigurieren. Wenn Sie Benachrichtigungen für alle Probleme senden, wird es schwierig sein, die erhaltenen Informationen zu verarbeiten.

Legen Sie den Schwellenwert für Benachrichtigungen fest

Konfigurieren Sie Schwellenwerte, um Benachrichtigungen anzuzeigen und zu senden. Wenn Sie die Benachrichtigungen sofort einstellen, können Sie viele Alarmmeldungen bei kurzen CPU-Leistungsspitzen, kurzen Zeiträumen „nicht erreichbarer“ Netzwerke aufgrund von Serverüberlastungen usw. sehen. Konfigurieren Sie den angemessenen Schwellenwert, um rechtzeitig zu reagieren und den Flut von Benachrichtigungen zu minimieren. Eine ordnungsgemäße Konfiguration des Schwellenwerts verringert die Wahrscheinlichkeit einer Auslösung von falschen Positiven.

Wenn Sie Software zur Überwachung des Systems konfigurieren, setzen Sie angemessene Intervalle zum Sammeln von Daten und Generieren von Berichten. Wenn das Intervall zur Generierung eines Berichts zu klein ist, können die Prozesse zur Generierung von Berichten und Grafiken in Dashboards mit Kernprozessen interferieren, und die CPU-Auslastung steigt signifikant an. Das kann Überlastung und Ausfall des Überwachungsservers verursachen.

Kennzeichnen Sie die Prioritäten für Benachrichtigungen

Ohne Priorisierung von Benachrichtigungen werden sie als irrelevante Datenflut angezeigt. Das Durchsuchen dieser Daten, um die wichtigen Daten zu finden, ist zeitaufwändig, unpraktisch und ineffizient. Das Konfigurieren der IT-Infrastruktur-Überwachungslösung zur Anzeige nur dessen, was Sie benötigen, mit den festgelegten Prioritäten, erleichtert das Leben.

In der IT-Infrastruktur können verschiedene Probleme auftreten. Einige davon können kritisch sein, andere nicht.

Beispiele für kritische Probleme. Ausfall eines Active Directory-Domänencontroller-Servers, Produktionsdatenbankserver, ESXi-Server, der geschäftskritische VMs ausführt, schlechter S.M.A.R.T.-Status einer Festplatte, geringer Speicherplatz, hohe CPU-Temperatur, unzureichender freier Speicher usw.
Beispiele für moderate (mittlere Priorität) Probleme. Ausfall eines Testservers, Test-VM, Fehlerverfolgungssystem, usw.
Beispiele für leichte (geringe) Probleme. Geringer Tonerstand in einem Drucker, etc.

Die Prioritäten können für jedes Unternehmen unterschiedlich sein, und Sie sollten sie entsprechend Ihren Anforderungen anpassen. Legen Sie die Priorität für verschiedene Problemarten fest, wenn sie beispielsweise in Überwachungs-Dashboards angezeigt werden können und automatische Benachrichtigungen gesendet werden:

[Kritisch] Host 192.168.17.2 (DC01) ist seit 5 Minuten nicht erreichbar.
[Kritisch] CPU-Temperatur ist zu hoch (82 °C) auf Host 192.168.17.89 (Ora12-prod).
[Kritisch] Geringer Festplattenspeicher auf C: auf Host 10.10.10.6 (FS-06).
[Mäßig] VM 10.10.10.35 (Oracle-test) auf Host 192.168.17.22 (ESXi-22) ist seit 5 Minuten nicht erreichbar.
[Geringfügig] Tonerstand ist niedrig für 192.168.17.8 (HP-Drucker).

Die kritischen Probleme sind dringend und Administratoren sollten sie so schnell wie möglich beheben. Die geringfügigen Probleme können auf eine Antwort warten.

Testen Sie, wie die Überwachung funktioniert

Nachdem Sie ein IT-Infrastrukturüberwachungssystem konfiguriert haben, müssen Sie testen, wie dieses System funktioniert und ob Benachrichtigungen ordnungsgemäß versendet werden. Warten Sie nicht auf eine echte Notfallsituation und planen Sie einen Testlauf nach Abschluss der Konfiguration ein. Nach dem Testlauf müssen Sie möglicherweise Ihr IT-Überwachungssystem feinabstimmen. Das Testen ermöglicht es Ihnen, sicherzustellen, dass die Überwachung wie erwartet funktioniert und ihre Effizienz zu bestimmen.

Erstellen Sie einen Aktionsplan für die Reaktion.

Definieren Sie, was nach dem Erhalt von Benachrichtigungen bei Problemen zu tun ist. Sie sollten eine schnelle Lösung haben, wie auf kritische Probleme reagiert werden soll. Sie müssen über einen Notfallwiederherstellungsplan verfügen und diesem Plan im Falle von Ausfällen oder Datenverlust folgen, um die Betriebskontinuität und die Wiederherstellung im Katastrophenfall zu gewährleisten und die Wiederherstellungszeiten und Wiederherstellungspunkte Ihres Unternehmens zu erfüllen. Sie müssen stets Backups bereit haben, um Maschinen oder bestimmte Anwendungsdaten wiederherstellen zu können.

Einige Überwachungssoftware verfügt über umfassende Datensicherungs- und Katastrophenschutzfunktionen, wie z.B. die IT-Überwachungslösung von NAKIVO. Serverausfälle und Datenverlust können in allen Arten von Umgebungen auftreten. Datenbackups ermöglichen es Ihnen, Ihre Daten zu schützen, Daten im Falle eines Ausfalls wiederherzustellen und Workloads in kurzer Zeit mit normaler Betriebsfähigkeit wiederherzustellen. NAKIVO Backup & Replikation ist eine universelle Datensicherungslösung, die die Sicherung physischer Linux- und Windows-Maschinen, VMware vSphere-VMs, Microsoft Hyper-V-VMs, Amazon EC2, Nutanix AHV und Microsoft 365 unterstützt.

Source:
https://www.nakivo.com/blog/all-you-should-know-about-it-infrastructure-monitoring/