Лучшие практики мониторинга IT-инфраструктуры

VMware

В небольших компаниях с небольшим количеством серверов и рабочих станций системные администраторы обычно могут быстро определить любые проблемы, возникающие без каких-либо специальных инструментов. По мере роста компании увеличивается количество серверов и других сетевых устройств. И если что-то идет не так, системный администратор все равно должен быть способен быстро определить проблему, чтобы предотвратить серьезные последствия.

Поиск проблемы вручную в среднем или крупном инфраструктуре может быть сложным и времязатратным. К счастью, сегодня широко доступно автоматизированное мониторинга информационной технологической инфраструктуры, чтобы помочь администраторам быстро определить тип и источник проблемы. Эти инструменты также помогают администраторам проактивно предотвращать проблемы и узкие места до их возникновения путем мониторинга распределения ресурсов и потребления в реальном времени.

В этом блоге объясняется, что такое мониторинг информационной технологической инфраструктуры, почему использовать инструменты мониторинга для серверов и других сетевых устройств, и какие лучшие практики следовать.

Что такое мониторинг информационной технологической инфраструктуры?

Мониторинг инфраструктуры – это процесс отслеживания аппаратных и программных метрик в физической или виртуальной среде для повышения эффективности и оптимизации процессов. Это делается путем сбора и анализа данных о доступности, производительности и использовании ресурсов критических аппаратных средств и приложений.

ИТ-инфраструктура – это базовая структура, которая позволяет бизнесу предоставлять услуги, осуществлять транзакции, предоставлять информацию, взаимодействовать с клиентами и т. д. Эта инфраструктура состоит из центров обработки данных, приложений и программного обеспечения, сетей и аппаратного обеспечения, такого как серверы, маршрутизаторы и т. д.

Виды и методы мониторинга ИТ-инфраструктуры

Давайте рассмотрим два основных подхода к мониторингу ИТ-инфраструктуры.

Мониторинг на основе агентов может быть выполнен с использованием клиент-серверного программного обеспечения путем установки агентов на каждую отслеживаемую машину. Для таких инструментов мониторинга ИТ необходимо установить серверную компоненту программного обеспечения системного мониторинга на сервере или виртуальной машине. Серверное программное обеспечение записывает собранные данные в базу данных и предоставляет веб-интерфейс администраторам и пользователям для настройки программного обеспечения мониторинга системы и отслеживания ИТ-инфраструктуры.Агент – это компонент программного обеспечения мониторинга ИТ, установленный на целевой машине, с которой необходимо собирать данные. Агент взаимодействует с сервером через сеть и отправляет собранные данные на мониторинговый сервер. Агент должен поддерживать несколько операционных систем, чтобы лучше охватывать ИТ-инфраструктуру.
Мониторинг без агентов может быть выполнен с использованием серверного программного обеспечения и поддерживаемых сетевых протоколов без установки агентов мониторинга на каждую отслеживаемую машину. Это может быть полезно для различных платформ, особенно если вы не можете установить мониторинговый агент (например, на коммутаторе или маршрутизаторе).

Программное обеспечение мониторинга ИТ может проверять доступность услуг на удаленном хосте с использованием протоколов ICMP, SSH, FTP, HTTP и DNS без установки агента мониторинга на удаленном хосте. Серверное программное обеспечение мониторинга пытается получить доступ к целевому хосту через определенный протокол, и в зависимости от ответа сервера определяет статус нужной службы.

Из используемых протоколов два:

Протокол простого сетевого управления (SNMP) разработан специально для задач мониторинга без установки агентов мониторинга на удаленных хостах. Удаленный хост должен запускать соответствующую службу SNMP для поддержки сбора данных по SNMP с этого мониторируемого хоста. SNMP работает на прикладном уровне модели OSI, и последняя версия – SNMPv3. Протокол SNMP обычно поддерживается в коммутаторах, маршрутизаторах, точках доступа, брандмауэрах, сетевых принтерах и других устройствах, подключенных к сети. Каждый идентификатор объекта связан с соответствующим параметром, таким как принятые байты, переданные байты, температура ЦП, уровень тонера в картридже принтера и т. д. Идентификаторы объектов нумеруются с использованием иерархической (деревоподобной) структуры. Например, 1.3.6.1.4.1.343.2.19.1.2.10.206.1.1.16 – идентификатор для датчика температуры аппаратного обеспечения Intel.
Обратите внимание, что SNMP-агент не является тем же самым, что и агент мониторинга системного программного обеспечения.

Windows Management Instrumentation (WMI) – собственный сетевой протокол Microsoft, разработанный для мониторинга систем на базе Windows без установки агентов. Инструмент мониторинга отправляет запрос WMI на мониторируемый хост, а затем считывает возвращенные данные.

Мониторинг ИТ для виртуализированных систем

Мониторинг ВМ и контейнеров имеет свои особенности, которые следует учитывать для достижения ж��лаемых результатов.

Мониторинг виртуальных машин. Для виртуальных машин используются программные решения для мониторинга без агентов с использованием API VMware для отслеживания производительности и эффективности хостов ESXi, серверов vCenter и виртуальных машин. Мониторинг включает в себя метрики использования ЦП, памяти, хранилища и сети. Такой подход позволяет избежать накладных расходов по сравнению с методом установки агентов мониторинга на виртуальные машины.

Мониторинг контейнеров сложнее по сравнению с мониторингом традиционных серверов и виртуальных машин. Это связано с тем, что контейнеры создаются и уничтожаются быстро, а также они используют общие ресурсы, что затрудняет измерение потребляемых ресурсов хоста. Развертывание N агентов в N контейнерах не рационально. Как и в случае с виртуальными машинами, контейнеры могут быть мониторены с помощью специальных API.

API Docker stats – это встроенный механизм, предоставляемый с контейнерами Docker для их мониторинга. Основная идея мониторинга контейнеров заключается в мониторинге контейнеризированных приложений архитектуры микросервисов, запущенных в контейнерах.

Мониторинг информационной технологической инфраструктуры: Компоненты

Давайте рассмотрим различные компоненты, которые могут быть отслежены с помощью мониторинга информационной технологической инфраструктуры, чтобы узнать больше. Эта классификация отслеживаемых компонентов условна, поскольку они могут пересекаться между собой.Мониторинг аппаратного обеспечения для температуры ЦП, температуры жесткого диска, статуса S.M.A.R.T. жесткого диска, данных о заряде батареи, напряжения и т.д., свободной памяти, дискового пространства, активности диска и использования файла подкачки.

Мониторинг сети для скорости передачи данных по различным сетевым интерфейсам, количества подключенных пользователей (полезно для VPN-соединений), сетевых соединений, брандмауэров, TCP- и UDP-соединений (для обнаружения вредоносного ПО) и т. д. Это может помочь обнаружить перегрузку сети, низкую скорость передачи данных и несанкционированные попытки доступа к сети.
Мониторинг приложений для проверки журналов приложений, включая журналы операционной системы, обнаружения кодов ошибок и отображения агрегированной информации в веб-интерфейсе или отправки уведомлений администраторам. Мониторинг приложений может включать потребление процессора и памяти приложением.
Мониторинг безопасности для обнаружения проблем безопасности и устранения уязвимостей программного обеспечения, открытых портов и нежелательных разрешений, которые могут быть использованы для запуска атак в вашей среде.
Мониторинг критической активности для обнаружения несанкционированных попыток входа в систему, изменений файлов и т. д. Мониторинг файлов и папок помогает обнаружить необычные действия, вызванные вымогательским вирусом, и быстро реагировать, чтобы избежать потери данных.
Мониторинг времени работы для определения, был ли хост выключен, даже если никто этого не заметил (например, сервер был перезагружен ночью в нерабочее время после установки автоматических обновлений или после отключения питания). Чем дольше хост работает правильно без перезагрузки, тем надежнее и стабильнее система.
Лучшие практики мониторинга ИТ-инфраструктуры

Лучшие практики мониторинга ИТ-инфраструктуры

Для достижения максимальной эффективности мониторинга следуйте этим лучшим практикам мониторинга инфраструктуры. Обладая четким пониманием того, как реализовать мониторинг ИТ, вы можете смягчить риски простоев и реагировать на проблемы более эффективно до того, как пользователи почувствуют негативное влияние от отказавших сервисов и приложений.

Выберите правильное решение для мониторинга

Чтобы выбрать правильное решение для мониторинга, отвечающее потребностям вашей организации, определите, какие компоненты требуют мониторинга в вашей ИТ-инфраструктуре. Для этого классифицируйте аппаратное обеспечение, системы и приложения на основе их важности для бизнес-операций.

Затем вы можете перейти к определению вашей стратегии мониторинга и выбору оптимального программного обеспечения для мониторинга ИТ-инфраструктуры. Ваша стратегия будет включать в себя аппаратное и программное обеспечение для мониторинга, метрики для мониторинга, уровень мониторинга и способы реагирования на возникающие проблемы. Исходя из этих параметров, выберите программное обеспечение для мониторинга, которое соответствует вашим требованиям.

Если вам необходимо мониторить виртуальные машины VMware на хостах ESXi, выберите решение, которое получает доступ к виртуальным машинам на уровне гипервизора, а не устанавливает агенты на гостевую операционную систему. Универсальное программное обеспечение для мониторинга предприятия объединяет агенты для мониторинга физических машин и API для мониторинга хостов гипервизора и виртуальных машин. Такое программное обеспечение для мониторинга может использовать протоколы, такие как SNMP, для мониторинга сетевых устройств и другого оборудования, а также специальные API для мониторинга элементов в облаках AWS и Azure.

Соберите соответствующие метрики

Лучшие практики мониторинга ИТ рекомендуют подходы к постоянному получению соответствующей информации:

Определите какие метрики вам необходимо отслеживать для физических машин, виртуальных машин, приложений, сетей и различных устройств.
Регулярно проверяйте свои метрики производительности и отслеживаемые журналы.
Периодически просматривайте ваши отслеживаемые метрики и, если необходимо, вносите изменения в мониторинг ИТ-инфраструктуры.

Настройте доступ к нужным панелям инструментов

Программное обеспечение мониторинга ИТ обычно собирает данные и отображает информацию в оптимизированном виде в веб-интерфейсе. Веб-интерфейс обычно содержит панели инструментов с собранной визуализированной информацией. Системный администратор и авторизованные пользователи могут открыть веб-интерфейс и проверить сводную информацию, графики, статистику и другие данные для всей инфраструктуры и конкретных серверов, устройств и приложений.

Определите, кто должен видеть данные мониторинга. Предоставьте доступ пользователям только к тому, что им необходимо для выполнения своих обязанностей, следуя принципу минимальных привилегий. Настройте пользовательские панели инструментов для различных групп пользователей, например:

Программисты могут отслеживать базы данных, серверы приложений, веб-серверы и кластеры Kubernetes, которые они используют.
Тестировщики могут отслеживать серверы и виртуальные машины, используемые для тестирования.
Системные администраторы могут отслеживать все элементы.
Менеджеры по продажам могут нуждаться в просмотре информации о системе CRM.

Настройте автоматические оповещения и уведомления

Администраторы и пользователи могут проверять данные мониторинга по запросу в предоставленных панелях управления. Это полезная опция, но как можно быть проинформированным о проблеме немедленно? Администраторы не могут проводить весь день за мониторингом статистики. По этой причине большинство инструментов мониторинга ИТ позволяют администраторам настраивать автоматические уведомления, которые отправляются по электронной почте, Skype, SMS и т. Д. Администраторы могут настраивать триггеры на основе конкретных событий для отправки уведомлений в выбранное место.

Уведомления могут быть приоритизированы: самые критические уведомления должны иметь минимальную задержку, в то время как другие уведомления могут быть отправлены с задержкой в несколько минут. Например, если хост выходит из строя, сообщение уведомления отправляется через две минуты в группу электронной почты или в группу Skype, чьи участники – администраторы, опытные пользователи и руководители команд. Если сервер снова в сети, соответствующее сообщение уведомления отправляется группе. Вы также можете настроить уведомления о низком пространстве на диске, перегрузке ЦП и недостаточной памяти на серверах. Если у сетевого устройства есть соответствующая функциональность, вы даже можете настроить уведомления о низком уровне тонера в картридже в сетевом принтере. Это может быть полезно, если пользователи всегда печатают важные страницы, и вы хотите избежать забывания проверить, есть ли заполненные картриджи в инвентаре.

Лучшие практики мониторинга инфраструктуры рекомендуют настраивать отправку автоматических уведомлений только для необходимых параметров. Если настроить уведомления для отправки о всех проблемах, будет трудно обрабатывать полученную информацию.

Установите порог для уведомлений.

Настройте пороги для отображения и отправки уведомлений. Если вы настроите моментальное уведомление, вы можете получить много сообщений о предупреждениях при кратковременных скачках производительности ЦП, кратковременных периодах “недоступности” сети из-за перегрузки сервера и т. д. Настройте адекватный порог, чтобы реагировать вовремя и минимизировать поток уведомлений. Правильная конфигурация порога снижает вероятность ложно-положительных срабатываний.

При настройке программного обеспечения мониторинга системы установите адекватные интервалы для сбора данных и создания отчетов. Если интервал для создания отчета слишком мал, процессы генерации отчетов и графиков на панелях могут мешать основным процессам, и загрузка ЦП значительно увеличивается. Это может вызвать перегрузку и сбой сервера мониторинга.

Определите приоритеты уведомлений

Без определения приоритетов уведомления отображаются как неважный поток данных. Разбор этой информации для поиска важных данных занимает много времени, неудобен и неэффективен. Настройка решения мониторинга ИТ-инфраструктуры для отображения только того, что вам нужно, с установленными приоритетами, облегчает жизнь.

В ИТ-инфраструктуре могут возникать различные проблемы. Некоторые из них могут быть критическими, другие нет.

Примеры критических проблем. Сбой сервера контроллера домена Active Directory, сервера базы данных производства, сервера ESXi, запущенного на них критических виртуальных машин, негативный статус S.M.A.R.T. жесткого диска, низкое место на диске, высокая температура ЦП, недостаточное количество свободной памяти и т. д.
Примеры умеренных (среднеприоритетных) проблем. Сбой тестового сервера, тестовой виртуальной машины, багтрекера и т. д.
Примеры легких (незначительных) проблем. Низкий уровень тонера в принтере и т. д.

Приоритеты могут быть разными для каждой компании, и их следует настраивать в соответствии с вашими требованиями. Установите приоритет для различных типов проблем, если возможно отображать их на мониторинговых панелях и отправлять автоматические уведомления, например:

[Критическое] Хост 192.168.17.2 (DC01) недоступен в течение 5 минут.
[Критическое] Температура процессора слишком высока (82 °C) на хосте 192.168.17.89 (Ora12-prod).
[Критическое] Недостаточно места на диске C: на хосте 10.10.10.6 (FS-06).
[Умеренное] ВМ 10.10.10.35 (Oracle-test) на хосте 192.168.17.22 (ESXi-22) недоступна в течение 5 минут.
[Незначительное] Уровень тонера низкий для 192.168.17.8 (принтер HP).

Критические проблемы требуют немедленного решения, и администраторы должны исправить их как можно скорее. Незначительные проблемы могут подождать ответа.

Проверьте работу мониторинга

После настройки системы мониторинга ИТ-инфраструктуры вам необходимо проверить, как работает эта система, и правильно ли отправляются уведомления. Не ждите настоящей чрезвычайной ситуации и запланируйте тестовый запуск после завершения настройки. После тестового запуска вам может потребоваться настроить вашу систему мониторинга ИТ. Тестирование позволяет убедиться, что мониторинг работает как ожидалось, и определить его эффективность.

Создайте план действий по реагированию

Определите, что делать после получения уведомлений о возникших проблемах. Вам необходимо иметь быстрое решение по реагированию на критические проблемы. У вас должен быть план восстановления после катастрофы и следовать этому плану в случае отказов или потери данных, чтобы обеспечить операционную непрерывность и восстановление после катастрофы в соответствии с требованиями вашей организации в отношении RTO и RPO. Вы всегда должны иметь готовые резервные копии для восстановления машин или конкретных данных приложений.

Некоторые программные средства мониторинга поставляются с комплексной защитой данных и функциями восстановления после катастрофы, такими как решение по мониторингу IT от NAKIVO. Отказ сервера и потеря данных могут произойти во всех типах сред. Резервное копирование данных позволяет вам защитить свои данные, восстановить данные в случае отказа и восстановить рабочие нагрузки с нормальной операцией в кратчайшие сроки. NAKIVO Backup & Replication – это универсальное решение по защите данных, которое поддерживает резервное копирование физических машин Linux и Windows, виртуальных машин VMware vSphere, виртуальных машин Microsoft Hyper-V, Amazon EC2, Nutanix AHV и Microsoft 365.

Source:
https://www.nakivo.com/blog/all-you-should-know-about-it-infrastructure-monitoring/