IT 基礎設施監控最佳實踐

在少數伺服器和工作站的小型公司中,系統管理員通常可以在沒有任何特殊工具的情況下快速識別出任何問題。隨著公司的發展,伺服器和其他網絡設備的數量也會增加。如果出現問題,系統管理員仍然必須能夠快速識別問題,以防止嚴重問題的發生。

在中型或大型基礎設施中手動尋找問題可能會很複雜且耗時。幸運的是,今天廣泛提供自動化的IT基礎設施監控工具,以幫助管理員盡快識別問題的類型和來源。這些工具還幫助管理員通過監控資源分配和實時消耗,預防問題和瓶頸的發生。

本博客文章解釋了什麼是IT基礎設施監控,為什麼要使用伺服器和其他網絡設備的監控工具,以及應遵循的最佳實踐。

什麼是IT基礎設施監控?

基礎設施監控是在物理或虛擬環境中追蹤硬件和軟件指標的過程,以提高效率和優化流程。這是通過收集和分析有關關鍵硬件和應用程序的可用性、性能和資源使用情況的數據來完成的。

IT基礎設施是一個底層框架,允許企業提供服務、執行交易、提供信息、與客戶互動等。這個基礎設施由數據中心、應用程序和軟件、網絡和伺服器、路由器等硬件組成。

IT監控類型和方法

讓我們看看 IT 基礎架構監控的兩種主要方法。

  • 基於代理的監控 可以通過在每台受監控的機器上安裝代理軟件來完成。這類型的 IT 監控工具需要在服務器或虛擬機器上安裝系統監控軟件的服務器組件。服務器軟件將收集的數據記錄在數據庫中,並為管理員和用戶提供 Web 界面,以配置系統監控軟件並監控 IT 基礎架構。代理是安裝在需要收集數據的目標機器上的 IT 監控軟件組件。代理通過網絡與服務器進行交互,並將收集的數據發送到監控服務器。代理應支持多個操作系統,以更好地覆蓋 IT 基礎架構。
  • 無代理監控可以通過使用服務器端軟件和支持的網絡協議來完成,而無需在每台受監控的機器上安裝監控軟件代理。這對於不可安裝監控代理的情況(例如在交換機或路由器上)特別有用。

IT 監控軟件可以使用 ICMP、SSH、FTP、HTTP 和 DNS 協議檢查遠程主機上服務的可用性,而無需在遠程主機上安裝監控代理。服務器監控軟件嘗試通過定義的協議訪問目標主機,並根據服務器的響應確定所需服務的狀態。

其中使用的兩種協議是:

  • 簡單網路管理協定(SNMP)是專為監視任務而開發的,無需在遠程主機上安裝監視代理。遠程主機必須運行適當的SNMP服務,以支持從被監視主機通過SNMP進行數據收集。SNMP工作於OSI模型的應用層,最新版本為SNMPv3。SNMP協議通常在交換機、路由器、訪問點、防火牆、網絡打印機和其他連接到網絡的設備中得到支持。每個對象識別符都與相應的參數相關聯,如接收字節、傳輸字節、CPU溫度、打印機墨盒中的碳粉水平等。對象識別符使用分層(樹狀)結構進行編號。例如,1.3.6.1.4.1.343.2.19.1.2.10.206.1.1.16是Intel硬件的溫度感測器的識別符。

    請注意,SNMP代理不同於系統監控軟件的監控代理。

  • Windows管理儀器(WMI)是微軟的專有網路協定,用於監視基於Windows的系統而無需安裝代理。監控工具向被監視主機發送WMI查詢,然後讀取返回的數據。

虛擬系統的IT監控

監控虛擬機和容器具有其自身的特點,應考慮這些特點以達到所需的結果。

虛擬機監控。對於虛擬機器,使用無需代理的監控軟體解決方案,利用 VMware API 來追蹤 ESXi 主機、vCenter 伺服器和虛擬機器的性能和效率。監控指標包括 CPU、記憶體、儲存和網路使用情況。這種方法可以避免與在虛擬機上安裝監控代理相比帶來的開銷。

容器監控與監控 傳統伺服器和虛擬機 相比較複雜。這是因為容器快速部署/銷毀且共享資源,這使得衡量主機消耗資源變得困難。在 N 個容器中部署 N 個代理是不合理的。與虛擬機一樣,容器可以通過特殊的 API 進行監控。

Docker 狀態 API 是 Docker 容器提供的本機機制,用於監控它們。容器監控的主要思想是監控運行在容器中的微服務架構的容器化應用程式。

IT 基礎設施監控:組件

讓我們探索可以通過 IT 基礎設施監控 追蹤的不同組件,以獲取更多信息。這個被監控組件的分類是有條件的,因為它們可能互相交叉。硬件監控 包括 CPU 溫度、硬碟溫度、硬碟 S.M.A.R.T. 狀態、電池壽命資料、電壓等。還有可用記憶體、磁碟空間、磁碟活動和交換檔案使用情況。

  • 網絡監控用於監測不同網絡接口的數據傳輸速率,已連接用戶的數量(對於VPN連接很有用),網絡連接,防火牆,TCP和UDP連接(以檢測惡意軟件),等等。它可以幫助您檢測網絡過載,低數據傳輸速度以及未經授權的訪問網絡嘗試。
  • 應用程序監控用於檢查應用程序日誌,包括操作系統日誌,檢測錯誤代碼,並在Web界面中顯示匯總信息或向管理員發送通知。應用程序監控可以包括應用程序的CPU和內存消耗。
  • 安全監控用於檢測安全問題並解決軟件漏洞,開放的端口和不需要的許可權,這些都可以用於在您的環境中發起攻擊。
  • 關鍵活動監控用於檢測對系統的未經授權的登錄嘗試,文件修改等。監控文件和文件夾可以幫助您檢測勒索軟件引起的異常活動並迅速作出反應以避免數據丟失。
  • 正常運行時間監控用於檢測主機是否已關閉電源,即使沒有人注意到(例如,服務器在非工作時間的夜間安裝自動更新後或停電後重新啟動)。主機正常運行時間越長,系統就越可靠穩定。
  • IT基礎設施監控的最佳實踐

IT基礎設施監控的最佳實踐

為了實現最大的監控效率,請遵循這些基礎設施監控的最佳實踐。通過清楚了解如何實施IT監控,您可以在用戶感受到服務和應用程序故障的負面影響之前,有效地減輕停機風險並更有效地應對問題。

選擇正確的監控解決方案

為了為您的組織的需求選擇正確的監控解決方案,請確定哪些組件需要在您的IT基礎設施中進行監控。為此,請根據對業務運營的重要性對硬件、系統和應用程序進行分類。

然後,您可以制定監控策略並選擇最佳的IT基礎設施監控軟件。您的策略將包括要監控的硬件和軟件、要監控的指標、監控深度以及在問題發生時如何應對。根據這些參數,選擇符合您需求的監控軟件。

如果您需要在ESXi主機上監控VMware VM,請選擇一個在超級管理員級別訪問VM而不是在客戶操作系統上安裝代理的解決方案。通用企業監控軟件將結合代理以監控物理機器和虛擬化API以監控超級管理員主機和VM。這種監控軟件可以使用像SNMP這樣的協議來監控網絡設備和其他設備,並使用特殊的API來監控AWS和Azure雲中的項目。

收集相關指標

IT監控的最佳實踐建議採用方法始終獲取相關信息:

  • 定義需要監控的物理機器、虛擬機器、應用程序、網絡和不同設備的指標。
  • 定期檢查您的性能指標和監控日誌。
  • 定期審查您的監控指標,如有必要,對IT基礎設施監控進行一些更改。

配置對正確儀表板的訪問權限。

IT監控軟件通常會在Web界面中收集數據並顯示信息。 Web界面通常包含具有收集的可視化信息的儀表板。系統管理員和授權用戶可以打開Web界面並檢查摘要信息、圖表、統計數據和其他數據,用於整個基礎設施以及特定的服務器、設備和應用程序。

確定誰需要查看監控數據。授予用戶訪問權限,僅監控其執行職責所需的內容,遵循最小特權原則。為不同的用戶組配置自定義儀表板,例如:

  • 程序員可以監控數據庫服務器、應用程序服務器、Web服務器以及他們使用的Kubernetes集群。
  • 測試人員可以監控用於測試的服務器和虛擬機器。
  • 系統管理員可以監控所有項目。
  • 銷售經理可能需要查看關於CRM系統的信息。

配置自動警報/通知

管理員和使用者可以隨時在提供的儀表板中檢查監控數據。這是一個有用的選項,但您如何可以立即獲取問題的通知呢?管理員不能整天都花在監控統計數據上。出於這個原因,大多數 IT 監控工具允許管理員配置自動通知,通過電子郵件、Skype、短信等方式發送。管理員可以根據具體事件配置觸發器,以將通知發送到所選的目的地。

警報可以進行優先排序:最關鍵的警報應該具有最短的延遲,而其他警報可以延遲幾分鐘發送。例如,如果一台主機離線,則在兩分鐘內向電子郵件組或 Skype 組發送通知消息,其成員為管理員、高級用戶和團隊負責人。如果服務器再次上線,則向該組發送適當的通知消息。您還可以為伺服器上的低磁盤空間、CPU 超載和內存不足設置警報。如果網絡設備具有相應的功能,您甚至可以配置關於網絡打印機墨盒中墨粉水平低的通知。如果用戶總是打印重要頁面,並且您想要避免忘記檢查庫存中是否有滿墨盒,這可能會很有用。

基礎設施監控最佳實踐建議,您應僅為所需參數配置自動通知。如果配置通知以發送有關所有問題的信息,將很難處理接收到的信息。

設置通知的閾值

配置閾值以顯示和發送通知。如果配置立即設置通知,您可能會看到短時間的 CPU 性能峰值,由於服務器過載導致的短時間的“無法訪問”網絡,等等,導致許多警報消息。配置足夠的閾值及時響應,並將通知洪水最小化。適當配置閾值降低了誤報觸發的概率。

當您配置系統監控軟件時,設置適當的間隔來收集數據並生成報告。如果生成報告的間隔太小,生成報告和儀表板中的圖形的進程可能會干擾核心進程,CPU 負載會顯著增加。這可能導致監控服務器過載並失敗。

標記通知優先級

沒有將通知優先級化,它們將顯示為不相關的數據洪流。解析此數據以查找重要數據耗時,不方便且效率低下。通過設置優先級來僅顯示您需要的內容,可以讓生活更輕鬆。

IT 基礎設施可能會出現不同問題。其中一些可能是關鍵的,而其他可能不是。

  • 關鍵問題的示例。Active Directory 域控制器服務器失敗,生產數據庫服務器,運行關鍵 VM 的 ESXi 服務器,磁盤驅動器的磁盤 SMART 狀態不良,磁盤空間不足,CPU 溫度過高,可用內存不足等。
  • 中等(中優先級)問題的示例。測試服務器失敗,測試 VM,錯誤跟蹤器等。
  • 輕微問題的例子。打印機碳粉低,等等。

每家公司的優先事項可能不同,您應根據自己的要求進行調整。如果可能的話,在監控儀表板上顯示不同問題類型的優先級,以及在發送自動通知時設置優先級,例如:

  • [關鍵] 主機192.168.17.2(DC01)連續5分鐘無法連接。
  • [關鍵] 主機192.168.17.89(Ora12-prod)的CPU溫度過高(82°C)。
  • [關鍵] 主機10.10.10.6(FS-06)的C:磁盤空間不足。
  • [中等] 主機192.168.17.22(ESXi-22)上的VM 10.10.10.35(Oracle-test)連續5分鐘無法連接。
  • [輕微] 192.168.17.8(HP-printer)的碳粉水平過低。

關鍵問題是緊急的,管理員應盡快解決。輕微問題可以等待回應。

測試監控的運作情況

配置完IT基礎設施監控系統後,您需要測試該系統的運作情況以及是否正確發送通知。不要等到真正的緊急情況發生,請在完成配置後安排測試運行。測試運行後,您可能需要微調您的IT監控系統。測試可以確保監控按預期運作,並確定其效率。

創建應對行動計劃

在收到通知後,當問題發生時應採取的措施需進行定義。您應該對關鍵問題有快速解決方案。您需要擁有災難恢復計劃,並在故障或數據損失時遵循此計劃,以確保運營連續性和災難恢復,以滿足您組織的RTO和RPO。您必須隨時準備好備份,以恢復機器或特定應用程序數據。

一些監控軟件具有全面的數據保護和災難恢復功能,例如NAKIVO的IT監控解決方案。在各種環境中都可能發生服務器故障和數據丟失。數據備份使您能夠保護數據,在故障時恢復數據,並在短時間內恢復工作負載以實現正常運行。NAKIVO備份與複製是一個通用的數據保護解決方案,支持物理Linux和Windows機器、VMware vSphere VM、Microsoft Hyper-V VM、Amazon EC2、Nutanix AHV和Microsoft 365的備份。

Source:
https://www.nakivo.com/blog/all-you-should-know-about-it-infrastructure-monitoring/