IT 인프라 모니터링 최상의 방법

소규모 기업에서는 일반적으로 특별한 도구 없이도 시스템 관리자가 발생하는 문제를 빠르게 식별할 수 있습니다. 회사가 성장함에 따라 서버 및 기타 네트워크 장치의 수도 증가합니다. 그리고 무언가 잘못되면 시스템 관리자는 여전히 신속하게 문제를 식별하여 심각한 문제를 예방해야 합니다.

중대한 또는 대규모 인프라에서 문제를 수동으로 찾는 것은 복잡하고 시간이 많이 소요될 수 있습니다. 다행히 오늘날 자동화된 IT 인프라 모니터링이 널리 사용되어 관리자가 문제의 유형과 원인을 최대한 빠르게 식별할 수 있도록 돕습니다. 이러한 도구들은 자원 할당 및 실시간 소비를 모니터링하여 문제와 병목 현상이 발생하기 전에 관리자가 문제를 선제적으로 예방하는 데도 도움이 됩니다.

이 블로그 게시물에서는 IT 인프라 모니터링이 무엇이며, 서버 및 기타 네트워크 장치에 대한 모니터링 도구를 사용하는 이유, 그리고 따를 ​​수 있는 모범 사례에 대해 설명합니다.

IT 인프라 모니터링이란 무엇인가?

인프라 모니터링은 물리적 또는 가상 환경에서 하드웨어 및 소프트웨어 지표를 추적하여 효율성을 향상시키고 프로세스를 최적화하는 과정입니다. 이는 핵심 하드웨어 및 응용 프로그램의 가용성, 성능 및 자원 사용에 대한 데이터를 수집하고 분석함으로써 수행됩니다.

IT 인프라는 비즈니스가 서비스를 제공하고 거래를 수행하며 정보를 제공하고 고객과 상호 작용하는 데 필요한 기본 프레임워크입니다. 이 인프라는 데이터 센터, 응용 프로그램 및 소프트웨어, 네트워크 및 서버, 라우터 등의 하드웨어로 구성됩니다.

IT 모니터링 유형 및 방법

IT 인프라 모니터링에 대한 두 가지 주요 접근法을 살펴봅니다.

  • エージェント기반 모니터링は、各监視対象のマシンにエージェントをインストールして、クライアント/サーバーソフト웨アを使用して行われます。IT 모니터링ツールのこのタイプは、監視ソフトのサーバーコンポーネントをサーバーまたは仮想マシンにインストールする必要があります。サーバーソフトは、コレクターデータをデータベースに記録し、管理者やユーザーによるシステムモニタリングソフトの設定とITインフラの監視を行うためのウェブインターフェースを提供します。エージェントは、ITモニタリングソフトのコンポーネントで、データを集めるために対象マシンにインストールされます。エージェントは、ネットワークを介してサーバーと相互作用し、集めたデータを監視サーバーに送ります。エージェントは、さまざまなオペレーティングシステムをサポートしており、ITインフラをよりよくカバーするためです。
  • エージェントなしモニ터링は、監視ソフトのエージェントを各监視対象のマシンにインストールせずに、サーバー側のソフトとサポートされるネットワークプロトコルを使用して行われます。異なるプラットフォームにも使用でき、监視エージェントをインストールできない場合(例えば、スイッチやルーターに)とても有用です。

ITモニタリングソフトは、遠隔ホスト上のサービスの利用可能性をICMP、SSH、FTP、HTTP、DNSプロトコルを使用して監視エージェントをインストールしないで確認することができます。サーバーモニタリングソフトは、定義されたプロトコルを通じて目的地ホストにアクセスしようとし、サーバーの応答に応じて必要なサービスの状態を決定します。

使用されるプロトコルの2つは以下の通りです:

  • 간단한 네트워크 관리 프로토콜 (SNMP) 은 원격 호스트에 모니터링 에이전트를 설치하지 않고도 모니터링 작업을 위해 개발되었습니다. 원격 호스트는 해당 모니터링된 호스트로부터 SNMP를 통한 데이터 수집을 지원하기 위해 적절한 SNMP 서비스를 실행해야 합니다. SNMP는 OSI 모델의 응용 계층에서 작동하며, 최신 버전은 SNMPv3입니다. SNMP 프로토콜은 일반적으로 스위치, 라우터, 액세스 포인트, 방화벽, 네트워크 프린터 및 기타 네트워크에 연결된 장치에서 지원됩니다. 각 객체 식별자는 수신된 바이트, 전송된 바이트, CPU 온도, 프린터 카트리지의 토너 수준 등과 같은 적절한 매개변수와 연관됩니다. 객체 식별자는 계층적 (트리 모양의) 구조를 사용하여 번호가 매겨집니다. 예를 들어, 1.3.6.1.4.1.343.2.19.1.2.10.206.1.1.16은 Intel 하드웨어의 온도 센서의 식별자입니다.

    SNMP 에이전트는 시스템 모니터링 소프트웨어의 모니터링 에이전트와 동일하지 않음을 유의하십시오.

  • Windows 관리 인터페이스 (WMI)은 Microsoft의 프로프레티어리 네트워크 프로토콜로, 에이전트를 설치하지 않고도 Windows 기반 시스템을 모니터링하기 위해 개발되었습니다. 모니터링 도구는 모니터링된 호스트에 WMI 쿼리를 보내고 반환된 데이터를 읽습니다.

가상화된 시스템에 대한 IT 모니터링

VM 및 컨테이너의 모니터링에는 원하는 결과를 얻기 위해 고려해야 할 고유한 기능이 있습니다.

VM 모니터링. 가상 머신의 경우, VMware API를 사용하여 에이전트 없이 모니터링 소프트웨어 솔루션을 사용하여 ESXi 호스트, vCenter 서버 및 가상 머신의 성능과 효율성을 추적합니다. 모니터링 메트릭에는 CPU, 메모리, 저장소 및 네트워크 사용량이 포함됩니다. 이 접근 방식을 사용하면 VM에 에이전트가 설치된 방법과 비교하여 오버헤드를 피할 수 있습니다.

컨테이너 모니터링전통적인 서버와 가상 머신의 모니터링과 비교하여 까다롭습니다. 이는 컨테이너가 신속하게 프로비저닝/파기되며 리소스를 공유하기 때문에 호스트의 소비된 리소스를 측정하기 어렵게 만듭니다. N개의 컨테이너에 N개의 에이전트를 배치하는 것은 합리적이지 않습니다. VM과 마찬가지로 컨테이너는 특수 API를 통해 모니터링할 수 있습니다.

Docker stats API는 Docker 컨테이너에서 제공되는 내장 메커니즘으로 컨테이너를 모니터링합니다. 컨테이너 모니터링의 주요 아이디어는 컨테이너에서 실행되는 마이크로서비스 아키텍처의 컨테이너화된 애플리케이션을 모니터링하는 것입니다.

IT 인프라 모니터링: 구성요소

IT 인프라 모니터링으로 추적할 수 있는 다양한 구성 요소를 살펴보겠습니다. 이 모니터링된 구성 요소의 분류는 조건부이며 서로 교차될 수 있습니다.CPU 온도, HDD 온도, HDD S.M.A.R.T. 상태, 배터리 수명 데이터, 전압 등에 대한 하드웨어 모니터링, 무료 메모리, 디스크 공간, 디스크 활동 및 스왑 파일 사용량입니다.

  • 네트워크 모니터링은 다른 네트워크 인터페이스의 데이터 전송 속도, 연결된 사용자 수 (VPN 연결에 유용), 네트워크 연결, 방화벽, TCP 및 UDP 연결 (악성 코드 감지용) 등을 확인합니다. 네트워크 과부하, 데이터 전송 속도 저하 및 네트워크 접근 시도 등을 감지하는 데 도움이 됩니다.
  • 애플리케이션 모니터링은 운영 체제 로그를 포함한 애플리케이션 로그를 확인하고, 오류 코드를 감지하며, 웹 인터페이스에서 집계 정보를 표시하거나 관리자에게 알림을 보낼 수 있습니다. 애플리케이션 모니터링에는 애플리케이션의 CPU 및 메모리 사용량이 포함될 수 있습니다.
  • 보안 모니터링은 보안 문제를 감지하고 소프트웨어 취약성, 개방된 포트 및 불필요한 권한을 해결하여 환경에서 공격을 시작하는 데 사용될 수 있습니다.
  • 중요한 활동 모니터링은 시스템에 대한 무단 로그인 시도, 파일 수정 등을 감지합니다. 파일 및 폴더를 모니터링하면 랜섬웨어로 인한 이상 활동을 감지하고 데이터 손실을 피하기 위해 빠르게 대응할 수 있습니다.
  • 가동 시간 모니터링은 호스트가 꺼진 여부를 감지합니다. 예를 들어, 자동 업데이트를 설치하거나 정전 후 비업무 시간에 서버가 재부팅되었는지 여부 등입니다. 호스트가 재부팅 없이 올바르게 작동하는 기간이 길수록 시스템은 더 신뢰할 수 있고 안정적입니다.
  • IT 인프라 모니터링의 최상의 실천 방법

IT 인프라 모니터링을 위한 모범 사례

최대 모니터링 효율을 달성하기 위해 인프라 모니터링 모범 사례를 준수하십시오. IT 모니터링을 어떻게 구현할지 명확히 이해하면 다운타임 리스크를 완화하고 사용자가 실패한 서비스 및 응용 프로그램의 부정적인 영향을 느끼기 전에 문제에 효과적으로 대응할 수 있습니다.

적절한 모니터링 솔루션 선택

조직의 요구에 맞는 적절한 모니터링 솔루션을 선택하려면 IT 인프라에서 모니터링이 필요한 구성 요소를 결정하십시오. 이를 위해 하드웨어, 시스템 및 응용 프로그램을 비즈니스 운영에 얼마나 중요한지에 따라 분류하십시오.

그런 다음 모니터링 전략을 정의하고 최적의 IT 인프라 모니터링 소프트웨어를 선택할 수 있습니다. 전략에는 모니터링할 하드웨어 및 소프트웨어, 어떤 메트릭을 모니터링할지, 모니터링 깊이 및 문제 발생 시 대응 방법이 포함됩니다. 이러한 매개 변수에 따라 요구 사항을 충족하는 모니터링 소프트웨어를 선택하십시오.

ESXi 호스트에서 VMware VM을 모니터링해야 하는 경우, 게스트 운영 체제에 에이전트를 설치하는 대신 하이퍼바이저 수준에서 VM에 액세스하는 솔루션을 선택하십시오. 범용 기업 모니터링 소프트웨어는 물리적 머신을 모니터링하기 위한 에이전트와 하이퍼바이저 호스트 및 VM을 모니터링하기 위한 가상화 API를 결합할 수 있습니다. 이러한 모니터링 소프트웨어는 네트워크 장치를 모니터링하기 위해 SNMP와 같은 프로토콜을 사용하고 AWS 및 Azure 클라우드의 항목을 모니터링하기 위해 특수 API를 사용할 수 있습니다.

관련 메트릭 수집

IT 모니터링 모범 사례는 항상 관련 정보를 얻기 위한 접근 방식을 권장합니다.

  • 물리적 머신, 가상 머신, 응용 프로그램, 네트워크 및 다양한 장치에 대한 모니터링할 메트릭을 정의하십시오.
  • 성능 메트릭 및 모니터링된 로그를 정기적으로 확인하십시오.
  • 주기적으로 모니터링된 메트릭을 검토하고 필요한 경우 IT 인프라 모니터링에 일부 변경을 가하십시오.

적절한 대시보드에 대한 액세스 구성

IT 모니터링 소프트웨어는 일반적으로 웹 인터페이스에서 최적화된 뷰로 데이터를 수집하고 정보를 표시합니다. 웹 인터페이스에는 일반적으로 수집된 시각화된 정보가 포함된 대시보드가 있습니다. 시스템 관리자 및 권한이 부여된 사용자는 웹 인터페이스를 열고 전체 인프라 및 특정 서버, 장치 및 응용 프로그램에 대한 요약 정보, 그래프, 통계 및 기타 데이터를 확인할 수 있습니다.

모니터링 데이터를 볼 필요가 있는 사용자를 정의하십시오. 사용자가 책임을 수행하는 데 필요한 것만 모니터링할 수 있도록 최소한의 권한 원칙을 따라 사용자에게 액세스 권한을 부여하십시오. 예를 들어 다른 그룹의 사용자를위한 사용자 정의 대시 보드를 구성하십시오:

  • 프로그래머는 데이터베이스 서버, 응용 프로그램 서버, 웹 서버 및 사용하는 Kubernetes 클러스터를 모니터링할 수 있습니다.
  • 테스터는 테스트에 사용되는 서버 및 가상 머신을 모니터링할 수 있습니다.
  • 시스템 관리자는 모든 항목을 모니터링할 수 있습니다.
  • 영업 관리자는 CRM 시스템에 대한 정보를 보여줄 수 있습니다.

자동 경고/알림 구성

관리자 및 사용자는 제공된 대시 보드에서 요청에 따라 모니터링 데이터를 확인할 수 있습니다. 이것은 유용한 옵션입니다만, 문제에 대해 즉시 알 수 있는 방법은 무엇일까요? 관리자는 하루 종일 통계를 모니터링할 수 없습니다. 이러한 이유로 대부분의 IT 모니터링 도구는 관리자가 이메일, Skype, SMS 등을 통해 자동 알림을 구성할 수 있도록 허용합니다. 관리자는 특정 이벤트를 기반으로 트리거를 구성하여 선택한 대상에게 알림을 보낼 수 있습니다.

경고를 우선 순위로 설정할 수 있습니다: 가장 중요한 경고는 최소한의 지연 시간이 있어야 하며, 다른 경고는 몇 분의 지연 시간이 있을 수 있습니다. 예를 들어, 호스트가 오프라인 상태로 전환되면 관리자, 고급 사용자 및 팀 리더로 구성된 이메일 그룹 또는 Skype 그룹으로 2분 후에 알림 메시지가 전송됩니다. 서버가 다시 온라인 상태로 변경되면 해당 그룹에 적절한 알림 메시지가 전송됩니다. 또한 서버의 디스크 공간 부족, CPU 과부하 및 메모리 부족에 대한 경고를 설정할 수 있습니다. 네트워크 장치에 적절한 기능이 있다면 네트워크 프린터의 카트리지에서 토너 수준이 낮음에 대한 알림도 구성할 수 있습니다. 사용자가 항상 중요한 페이지를 인쇄하는 경우에 유용할 수 있으며, 재고에 충분한 카트리지가 있는지 확인을 잊지 않으려는 경우입니다.

인프라 모니터링 최상의 실천 사례는 필요한 매개변수에 대해서만 자동 알림을 보내도록 구성하는 것을 권장합니다. 모든 문제에 대한 알림을 보내도록 구성하면 수신된 정보를 처리하기가 어려워집니다.

알림을 위한 임계값 설정

통지를 표시하고 전송하기 위해 임계값을 구성하십시오. 통지를 즉시 설정하면 CPU 성능 스파이크, 서버 과부하로 인한 “접근 불가능” 네트워크의 짧은 기간 등에서 많은 경고 메시지를 볼 수 있습니다. 적절한 임계값을 구성하여 시간적으로 반응하고 통지의 홍수를 최소화하십시오. 임계값의 적절한 구성은 오검출 확률을 줄입니다.

시스템 모니터링 소프트웨어를 구성할 때 데이터 수집 및 보고서 생성을 위한 적절한 간격을 설정하십시오. 보고서를 생성하는 간격이 너무 작으면 보고서 및 대시보드의 그래프 생성 프로세스가 핵심 프로세스와 간섭하며 CPU 부하가 크게 증가할 수 있습니다. 이로 인해 모니터링 서버의 과부하 및 장애가 발생할 수 있습니다.

통지 우선순위 설정

우선순위를 지정하지 않으면 통지는 관련 없는 데이터의 홍수로 표시됩니다. 중요한 데이터를 찾기 위해 이 데이터를 구문 분석하는 데 시간이 많이 소요되며 편리하지 않고 비효율적입니다. IT 인프라 모니터링 솔루션을 설정한 우선순위로 필요한 것만 표시하도록 구성하면 더 편리합니다.

IT 인프라에서 다양한 문제가 발생할 수 있습니다. 그 중 일부는 중대한 문제이고, 다른 일부는 그렇지 않을 수도 있습니다.

  • 중대한 문제의 예. Active Directory 도메인 컨트롤러 서버의 장애, 프로덕션 데이터베이스 서버의 장애, 중요한 미션을 수행하는 VM을 실행 중인 ESXi 서버의 장애, 디스크 드라이브의 나쁜 S.M.A.R.T. 상태, 낮은 디스크 공간, 높은 CPU 온도, 충분하지 않은 여유 메모리 등이 있습니다.
  • 중간 우선순위 문제의 예. 테스트 서버, 테스트 VM, 버그 추적기 등의 장애.
  • 가벼운 (사소한) 문제의 예시입니다. 프린터의 토너 수준이 낮음 등.

우선순위는 각 회사마다 다를 수 있으며 요구 사항에 따라 조정해야 합니다. 가능하다면 감시 대시보드에 표시하고 자동 알림을 보낼 수 있는 다른 문제 유형에 대한 우선순위를 설정하십시오. 예를 들어:

  • [중대한] 호스트 192.168.17.2 (DC01)가 5분 동안 접근할 수 없음.
  • [중대한] 호스트 192.168.17.89 (Ora12-prod)에서 CPU 온도가 너무 높음 (82°C).
  • [중대한] 호스트 10.10.10.6 (FS-06)의 C: 디스크 공간이 부족합니다.
  • [보통] 호스트 192.168.17.22 (ESXi-22)의 VM 10.10.10.35 (Oracle-test)가 5분 동안 접근할 수 없음.
  • [사소한] 192.168.17.8 (HP-printer)의 토너 수준이 낮습니다..

중대한 문제는 긴급하며 관리자가 가능한 빨리 해결해야 합니다. 사소한 문제는 대응을 기다릴 수 있습니다.

감시가 어떻게 작동하는지 테스트하십시오

IT 인프라 감시 시스템을 구성한 후에는 이 시스템이 작동하는 방법과 알림이 제대로 전송되는지 테스트해야 합니다. 실제 긴급 상황을 기다리지 말고 구성을 마친 후에 테스트를 예약하십시오. 테스트 실행 후에는 IT 감시 시스템을 세밀하게 조정해야 할 수도 있습니다. 테스트를 통해 감시가 예상대로 작동하는지 확인하고 그 효율성을 결정할 수 있습니다.

응답 대응 계획을 만드세요

문제가 발생할 때 알림을 받은 후의 조치를 정의하십시오. 중요한 문제에 대응하는 빠른 솔루션이 있어야 합니다. 재난 복구 계획이 있어야 하며, 장애나 데이터 손실이 발생한 경우 이 계획을 따라야 하여 운영의 연속성과 재해 복구를 보장하여 조직의 RTOsRPOs를 충족해야 합니다. 항상 기계나 특정 응용 프로그램 데이터의 복구를 위한 백업이 준비되어 있어야 합니다.

몇몇 모니터링 소프트웨어는 NAKIVO의 IT 모니터링 솔루션과 같이 포괄적인 데이터 보호 및 재해 복구 기능을 제공합니다. 서버 장애와 데이터 손실은 모든 유형의 환경에서 발생할 수 있습니다. 데이터 백업을 통해 데이터를 보호하고, 장애 발생 시 데이터를 복구하고, 정상 작동으로 워크로드를 복원할 수 있습니다. NAKIVO Backup & Replication은 물리적인 Linux 및 Windows 머신, VMware vSphere VM, Microsoft Hyper-V VM, Amazon EC2, Nutanix AHV, 그리고 Microsoft 365의 백업을 지원하는 범용 데이터 보호 솔루션입니다.

Source:
https://www.nakivo.com/blog/all-you-should-know-about-it-infrastructure-monitoring/