IT 基础设施监控最佳实践

教程

VMware

在小型企业中，拥有少量服务器和工作站的系统管理员通常可以在没有任何特殊工具的情况下快速识别出任何出现的问题。随着公司规模的扩大，服务器和其他网络设备的数量也在增加。如果出现问题，系统管理员仍然必须能够快速识别问题，以防止严重问题的发生。

在中型或大型基础架构中手动查找问题可能会很复杂且耗时。幸运的是，如今广泛提供自动化的IT基础架构监控工具，可帮助管理员尽快确定问题的类型和来源。这些工具还通过监控资源分配和实时消耗来帮助管理员积极预防问题和瓶颈的发生。

本博客文章将解释IT基础架构监控是什么，为什么要使用服务器和其他网络设备的监控工具，以及应遵循的最佳实践。

什么是IT基础架构监控？

基础架构监控是在物理或虚拟环境中跟踪硬件和软件指标的过程，以提高效率和优化流程。这是通过收集和分析关于关键硬件和应用程序的可用性、性能和资源使用情况的数据来实现的。

IT基础设施是支持企业提供服务、执行交易、提供信息、与客户互动等的基础框架。这种基础设施由数据中心、应用程序和软件、网络以及诸如服务器、路由器等硬件组成。

IT监控类型和方法

让我们来看看 IT 基础设施监控的两种主要方法。

基于代理的监控可以通过在每台受监控的计算机上安装代理来完成。这种类型的 IT 监控工具需要在服务器或虚拟机上安装系统监控软件的服务器组件。服务器软件将收集的数据记录在数据库中，并提供 Web 界面供管理员和用户配置系统监控软件并监控 IT 基础设施。代理是安装在目标机器上的 IT 监控软件的组件，从中必须收集数据。代理通过网络与服务器交互，并将收集的数据发送到监控服务器。代理应支持多个操作系统，以更好地覆盖 IT 基础设施。
无代理监控可以使用服务器端软件和支持的网络协议进行，而无需在每台受监控的计算机上安装监控软件代理。如果无法在受监控的计算机上安装监控代理（例如在交换机或路由器上），这种方法尤其有用。

IT 监控软件可以使用 ICMP、SSH、FTP、HTTP 和 DNS 协议检查远程主机上服务的可用性，而无需在远程主机上安装监控代理。服务器监控软件尝试通过定义的协议访问目标主机，并根据服务器的响应确定所需服务的状态。

其中使用的两个协议是：

简单网络管理协议（SNMP）是专门为在远程主机上进行监视任务而开发的，无需安装监视代理。远程主机必须运行适当的SNMP服务，以支持通过SNMP从此监视主机进行数据收集。SNMP工作在OSI模型的应用层，并且最新版本是SNMPv3。SNMP协议通常在交换机、路由器、接入点、防火墙、网络打印机和其他连接到网络的设备中得到支持。每个对象标识符与适当的参数相关联，例如接收字节、传输字节、CPU温度、打印机墨盒中的墨粉水平等。对象标识符使用分层（树状）结构进行编号。例如，1.3.6.1.4.1.343.2.19.1.2.10.206.1.1.16是Intel硬件的温度传感器的标识符。
注意，SNMP代理与系统监视软件的监视代理不同。

Windows管理规范（WMI）是微软的专有网络协议，用于在Windows系统上进行监视而无需安装代理。监视工具向被监视主机发送WMI查询，然后读取返回的数据。

针对虚拟化系统的IT监视

监视虚拟机和容器具有自己的特点，应考虑这些特点以达到期望的结果。

虚拟机监控。对于虚拟机，使用无代理监控软件解决方案，利用VMware API跟踪ESXi主机、vCenter服务器和虚拟机的性能和效率。监控指标包括CPU、内存、存储和网络使用情况。这种方法可以避免与在虚拟机上安装监控代理相比的额外开销。

容器监控与监控传统服务器和虚拟机相比较棘手。这是因为容器被快速创建/销毁，并且它们共享资源，这使得难以测量主机消耗的资源。在N个容器中部署N个代理是不合理的。就像虚拟机一样，容器可以通过特殊的API进行监控。

Docker统计API是Docker容器提供的本机机制，用于监控它们。容器监控的主要思想是监控运行在容器中的微服务架构的容器化应用程序。

IT基础设施监控：组件

让我们探讨可以通过IT基础设施监控跟踪的不同组件，以便更多地了解。这些被监控组件的分类是有条件的，因为它们可以相互交叉。硬件监控用于CPU温度、硬盘温度、硬盘S.M.A.R.T.状态、电池寿命数据、电压等。空闲内存、磁盘空间、磁盘活动和交换文件使用情况。

网络监控用于监测不同网络接口的数据传输速率、连接用户数量（对VPN连接有用）、网络连接、防火墙、TCP和UDP连接（用于检测恶意软件）等。它可以帮助您检测网络超载、低数据传输速度以及未经授权的尝试访问网络。
应用程序监控用于检查应用程序日志，包括操作系统日志，检测错误代码，并在Web界面中显示汇总信息或向管理员发送通知。应用程序监控可以包括应用程序的CPU和内存消耗。
安全监控用于检测安全问题并解决软件漏洞、开放端口和不受欢迎的权限，这些可以用于在您的环境中发起攻击。
关键活动监控用于检测未经授权的系统登录尝试、文件修改等。监控文件和文件夹可帮助您检测勒索软件引起的异常活动，并迅速做出响应以避免数据丢失。
正常运行时间监控用于检测主机是否已关闭电源，即使没有人注意到（例如，在非工作时间的夜间安装自动更新或停电后重新启动服务器）。主机正常运行的时间越长，系统就越可靠稳定。
IT基础设施监控的最佳实践

IT基础设施监控的最佳实践

为了实现最大的监控效率，请遵循这些基础设施监控的最佳实践。通过清晰了解如何实施IT监控，您可以在用户感受到服务和应用程序失败的负面影响之前，更有效地减少停机风险并做出反应。

选择正确的监控解决方案

为了选择适合您组织需求的监控解决方案，请确定哪些组件需要在您的IT基础设施中进行监控。为此，根据它们对业务运营的关键程度对硬件、系统和应用程序进行分类。

然后，您可以制定监控策略并选择最佳的IT基础设施监控软件。您的策略将包括要监控的硬件和软件、要监控的指标、监控深度以及在出现问题时如何做出响应。根据这些参数，选择符合您需求的监控软件。

如果您需要监控ESXi主机上的VMware VM，请选择一种在超级管理程序级别访问VM而不是在客户操作系统上安装代理的解决方案。通用的企业监控软件将结合代理以监控物理机器和虚拟化API以监控超级管理程序主机和VM。这种监控软件可以使用诸如SNMP之类的协议来监控网络设备和其他设备，并使用特殊的API来监控AWS和Azure云中的项目。

收集相关指标

IT监控的最佳实践建议始终获取相关信息的方法：

定义需要监控的物理机器、虚拟机器、应用程序、网络和不同设备的指标。
定期检查您的性能指标和监控日志。
定期审查您监控的指标，并在必要时对IT基础设施监控进行一些更改。

配置访问正确的仪表板

IT监控软件通常在Web界面中收集数据并显示信息。Web界面通常包含具有聚合可视化信息的仪表板。系统管理员和授权用户可以打开Web界面，查看摘要信息、图形、统计数据和其他数据，以了解整个基础设施以及特定服务器、设备和应用程序的情况。

定义谁需要查看监控数据。授予用户仅监视其职责所需的权限，遵循最小特权原则。为不同用户组配置自定义仪表板，例如：

程序员可以监视数据库服务器、应用程序服务器、Web服务器和他们使用的Kubernetes集群。
测试人员可以监视用于测试的服务器和虚拟机。
系统管理员可以监视所有项目。
销售经理可能需要查看有关CRM系统的信息。

配置自动警报/通知

管理员和用户可以在提供的仪表板上随需查看监控数据。这是一个有用的选择，但是您如何能立即了解问题呢？管理员无法整天都在监控统计数据。因此，大多数IT监控工具允许管理员配置自动通知，通过电子邮件、Skype、短信等发送。管理员可以根据特定事件配置触发器，将通知发送到选择的目的地。

警报可以设置优先级：最关键的警报应该具有最短的延迟，而其他警报可以延迟几分钟发送。例如，如果主机离线，将在两分钟内向管理员、高级用户和团队负责人组成的电子邮件组或Skype组发送通知消息。如果服务器再次在线，将向该组发送相应的通知消息。您还可以设置关于服务器上磁盘空间不足、CPU负载过高和内存不足的警报。如果网络设备具有适当的功能，甚至可以配置关于网络打印机中墨盒墨粉水位过低的通知。如果用户经常打印重要页面，并且您希望避免忘记检查库存中是否有满墨盒，这将非常有用。

基础设施监控最佳实践建议您仅为所需参数配置发送自动通知。如果您将通知配置为发送所有问题，那么处理收到的信息将会很困难。

设置通知的阈值

配置阈值以显示和发送通知。如果将配置设置为立即发送通知，您可能会在短时间内看到许多警报消息，这是由于短暂的 CPU 性能峰值、由服务器超载引起的网络短暂不可达等原因。配置适当的阈值以及时做出反应，并尽量减少通知洪流。合适的阈值配置可降低误报触发的概率。

配置系统监控软件时，设置适当的间隔以收集数据并生成报告。如果生成报告的间隔太小，生成报告和仪表板中图形的过程可能会干扰核心流程，并且 CPU 负载会显著增加。这可能会导致监控服务器过载和失败。

标记通知优先级

未对通知进行优先排序，它们将显示为无关紧要的数据洪流。解析这些数据以找到重要数据是耗时的、不方便的和低效的。使用设置的优先级配置 IT 基础设施监控解决方案仅显示您需要的内容可以简化生活。

IT 基础设施可能会出现不同问题。其中一些可能是关键的，而其他则不是。

关键问题示例。 Active Directory 域控制器服务器故障，生产数据库服务器故障，运行关键任务的 ESXi 服务器的虚拟机故障，磁盘驱动器的 S.M.A.R.T. 状态不佳，磁盘空间不足，CPU 温度过高，可用内存不足等。
中等优先级问题示例。 测试服务器故障，测试虚拟机故障，错误跟踪器故障等。
轻微问题示例。打印机碳粉较低，等等。

每家公司的优先事项可能不同，您应根据您的需求进行调整。例如，如果可能在监控仪表板上显示它们并在发送自动通知时设置不同问题类型的优先级：

[关键] 主机192.168.17.2（DC01）连续5分钟不可访问。
[关键] 主机192.168.17.89（Ora12-prod）的CPU温度过高（82°C）。
[关键] 主机10.10.10.6（FS-06）的C:磁盘空间不足。
[适中] 主机192.168.17.22（ESXi-22）上的VM 10.10.10.35（Oracle-test）连续5分钟不可访问。
[次要] 主机192.168.17.8（HP-printer）的碳粉水平较低。.

关键问题很紧急，管理员应尽快修复。次要问题可以等待响应。

测试监控运行情况

配置完IT基础设施监控系统后，您需要测试该系统的工作情况以及通知是否正常发送。不要等待真正的紧急情况，完成配置后安排测试运行。测试运行后，您可能需要微调您的IT监控系统。测试允许您确保监控按预期工作，并确定其效率。

创建响应行动计划

接收通知后，应定义处理问题的步骤。对于关键问题，应有快速解决方案。需要有灾难恢复计划，并在发生故障或数据丢失时执行该计划，以确保运营连续性和灾难恢复，以满足组织的RTO（恢复时间目标）和RPO（恢复点目标）。必须始终准备好备份以恢复机器或特定应用程序数据。

一些监控软件提供全面的数据保护和灾难恢复功能，例如NAKIVO的IT监控解决方案。服务器故障和数据丢失可能发生在各种环境中。数据备份允许您保护数据，在发生故障时恢复数据，并在短时间内恢复工作负载的正常运行。NAKIVO备份与复制是一种通用的数据保护解决方案，支持备份物理Linux和Windows机器，VMware vSphere VM，Microsoft Hyper-V VM，Amazon EC2，Nutanix AHV和Microsoft 365。

Source:
https://www.nakivo.com/blog/all-you-should-know-about-it-infrastructure-monitoring/