ITインフラ監視のベストプラクティス

中小企業では、サーバーやワークステーションが少ないため、システム管理者は通常、特別なツールなしで発生する問題を迅速に特定できます。企業が成長するにつれて、サーバーや他のネットワークデバイスの数も増えます。そして何か問題が発生した場合、システム管理者は依然として迅速に問題を特定して深刻な問題を防ぐ必要があります。

中規模または大規模なインフラストラクチャで問題を手動で探すことは複雑で時間がかかる場合があります。幸いにも、現在は自動化されたITインフラストラクチャモニタリングが広く利用可能であり、管理者が問題のタイプや原因をできるだけ迅速に特定するのに役立ちます。これらのツールは、リソースの割り当てやリアルタイムの消費を監視することで、管理者が問題やボトルネックを予防し、事前に防ぐのにも役立ちます。

このブログ投稿では、ITインフラストラクチャモニタリングとは何か、サーバーや他のネットワークデバイスのモニタリングツールを使用する理由、および従うべきベストプラクティスについて説明します。

ITインフラストラクチャモニタリングとは何ですか?

インフラストラクチャモニタリングとは、物理的または仮想環境でハードウェアおよびソフトウェアのメトリクスを追跡し、効率を向上させプロセスを最適化するプロセスです。これは、重要なハードウェアやアプリケーションの可用性、パフォーマンス、リソース使用状況に関するデータを収集し分析することによって行われます。

ITインフラストラクチャは、企業がサービスを提供し、取引を行い、情報を提供し、顧客とやり取りするための基盤です。このインフラストラクチャは、データセンター、アプリケーションやソフトウェア、ネットワーク、サーバーやルーターなどのハードウェアで構成されています。

ITモニタリングの種類と方法

主要な2つのITインフラ監視アプローチを見てみましょう。

  • エージェントベースの監視は、各監視対象のマシンにエージェントをインストールして、クライアントサーバーソフトウェアを使用して行われます。このタイプのIT監視ツールは、システム監視ソフトウェアのサーバーコンポーネントをサーバーまたは仮想マシンにインストールする必要があります。サーバーソフトウェアは収集されたデータをデータベースに記録し、管理者とユーザーがシステム監視ソフトウェアを構成し、ITインフラを監視するためのWebインターフェイスを提供します。エージェントは、データを収集する必要のある対象マシンにインストールされるIT監視ソフトウェアのコンポーネントです。エージェントはネットワークを介してサーバーとやり取りし、収集されたデータを監視サーバーに送信します。エージェントは、ITインフラをより良くカバーするために複数のオペレーティングシステムをサポートする必要があります。
  • エージェントレス監視は、監視ソフトウェアエージェントを各監視対象のマシンにインストールせずに、サーバーサイドソフトウェアとサポートされるネットワークプロトコルを使用して行われます。これは、監視エージェントをインストールできない場合に特に有用であり、例えば、スイッチやルーターなどです。

IT監視ソフトウェアは、リモートホスト上のサービスの可用性を、監視エージェントをリモートホストにインストールせずに、ICMP、SSH、FTP、HTTP、およびDNSプロトコルを使用してチェックできます。サーバー監視ソフトウェアは、定義されたプロトコルを介して宛先ホストにアクセスしようとし、サーバーの応答に応じて必要なサービスのステータスを決定します。

使用されるプロトコルの2つは:

  • Simple Network Management Protocol (SNMP)は、リモートホストに監視エージェントをインストールせずに監視タスクを行うために特に開発されました。リモートホストでは、この監視対象ホストからのSNMPによるデータ収集をサポートするために適切なSNMPサービスを実行する必要があります。SNMPはOSIモデルのアプリケーション層で動作し、最新バージョンはSNMPv3です。SNMPプロトコルは、通常、スイッチ、ルータ、アクセスポイント、ファイアウォール、ネットワークプリンタなど、ネットワークに接続された他のデバイスでサポートされています。各オブジェクト識別子は、受信バイト、送信バイト、CPU温度、プリンタカートリッジのトナーレベルなど、適切なパラメータと関連付けられています。オブジェクト識別子は階層的な(木構造のような)構造を使用して番号付けされます。たとえば、1.3.6.1.4.1.343.2.19.1.2.10.206.1.1.16は、Intelハードウェアの温度センサーの識別子です。

    注意してください。SNMPエージェントは、システム監視ソフトウェアの監視エージェントと同じではありません。

  • Windows Management Instrumentation (WMI)は、Microsoftのプロプライエタリなネットワークプロトコルであり、エージェントをインストールせずにWindowsベースのシステムを監視するために開発されました。監視ツールは監視対象ホストにWMIクエリを送信し、返されたデータを読み取ります。

仮想化システムのITモニタリング

VMおよびコンテナの監視には、望ましい結果を得るために考慮すべき独自の機能があります。

VMモニタリング。仮想マシンでは、VMware APIを使用したエージェントレスモニタリングソフトウェアソリューションを使用して、ESXiホスト、vCenterサーバー、および仮想マシンのパフォーマンスと効率を追跡します。モニタリングメトリクスには、CPU、メモリ、ストレージ、およびネットワーク使用率が含まれます。このアプローチにより、VMにエージェントをインストールしてモニタリングする方法と比較して、オーバーヘッドを回避できます。

コンテナモニタリングは、従来のサーバーや仮想マシンのモニタリングと比較して複雑です。これは、コンテナが迅速にプロビジョニング/破棄され、リソースを共有するため、ホストの消費リソースを測定することが難しいためです。N個のコンテナにN個のエージェントを展開するのは合理的ではありません。VMと同様に、コンテナは特別なAPIを介して監視できます。

Dockerのstats APIは、Dockerコンテナに付属のネイティブメカニズムであり、それらを監視します。コンテナモニタリングの主なアイデアは、コンテナ内で実行されているマイクロサービスアーキテクチャのコンテナ化されたアプリケーションを監視することです。

ITインフラストラクチャの監視:コンポーネント

ITインフラストラクチャの監視で追跡できるさまざまなコンポーネントを探ってみましょう。監視されるコンポーネントのこの分類は条件付きですが、互いに交差する可能性があります。ハードウェア監視は、CPU温度、HDD温度、HDD S.M.A.R.T.ステータス、バッテリー寿命データ、電圧などを対象とします。空きメモリ、ディスクスペース、ディスクアクティビティ、およびスワップファイルの使用状況。

  • ネットワーク監視は、異なるネットワークインターフェイス上のデータ転送速度、接続されているユーザーの数(VPN接続に有用)、ネットワーク接続、ファイアウォール、TCPおよびUDP接続(マルウェアの検出に使用)、などを監視します。ネットワークの過負荷、低データ転送速度、およびネットワークへの不正なアクセス試行を検出するのに役立ちます。
  • アプリケーション監視は、アプリケーションログをチェックし、オペレーティングシステムログを含む、エラーコードを検出し、ウェブインターフェースで集約された情報を表示したり、管理者に通知を送信したりします。アプリケーションのCPUおよびメモリ消費も含まれる場合があります。
  • セキュリティ監視は、セキュリティの問題を検出し、ソフトウェアの脆弱性、オープンポート、不要な権限などを解決します。これらは、環境内で攻撃を開始するために使用される可能性があります。
  • クリティカルな活動の監視は、システムへの不正なログイン試行、ファイルの変更などを検出します。ファイルとフォルダーの監視は、ランサムウェアによって引き起こされる異常な活動を検出し、データの損失を回避するために迅速に対応します。
  • 稼働時間の監視は、ホストが誰も気づかなくても電源が切れていないかどうかを検出します(たとえば、夜間の非稼働時間に自動更新をインストールした後や停電後にサーバーが再起動された場合など)。ホストが再起動せずに正常に動作し続ける時間が長いほど、システムは信頼性が高く安定しています。
  • ITインフラ監視のベストプラクティス

ITインフラ監視のベストプラクティス

最大の監視効率を達成するには、これらのインフラ監視のベストプラクティスに従ってください。IT監視の実装方法を明確に理解することで、ダウンタイムのリスクを軽減し、サービスやアプリケーションの障害がユーザーに悪影響を与える前に、問題に効果的に対応できます。

適切な監視ソリューションを選択する

組織のニーズに適した監視ソリューションを選択するには、ITインフラストラクチャで監視が必要なコンポーネントを特定します。そのためには、ハードウェア、システム、アプリケーションをビジネス運用にどれだけ重要かに基づいてカテゴリ分けします。

その後、監視戦略を定義し、最適なITインフラ監視ソフトウェアを選択します。戦略には監視するハードウェアとソフトウェア、監視するメトリクス、監視の深さ、問題が発生した際の対応方法が含まれます。これらのパラメータに応じて、要件を満たす監視ソフトウェアを選択します。

ESXiホスト上のVMware VMを監視する必要がある場合は、ゲストオペレーティングシステムにエージェントをインストールするのではなく、ハイパーバイザーレベルでVMにアクセスするソリューションを選択します。汎用エンタープライズ監視ソフトウェアは、物理マシンを監視するためのエージェントと、ハイパーバイザーホストとVMを監視するための仮想化APIを組み合わせます。このような監視ソフトウェアは、ネットワークデバイスやその他の機器を監視するためにSNMPなどのプロトコルを使用し、AWSやAzureクラウド内のアイテムを監視するために特別なAPIを使用します。

関連するメトリクスを収集する

IT監視のベストプラクティスでは、常に関連情報を取得するアプローチを推奨しています。

  • 物理マシン、仮想マシン、アプリケーション、ネットワーク、およびさまざまなデバイスの監視に必要なメトリックを定義します。
  • 定期的にパフォーマンスメトリックと監視されたログをチェックします。
  • 必要に応じて、監視されたメトリックを定期的にレビューし、ITインフラストラクチャの監視に変更を加えます。

適切なダッシュボードへのアクセスを構成します。

IT監視ソフトウェアは通常、Webインターフェイスでデータを収集し、情報を最適な表示で表示します。 Webインターフェースには通常、収集された視覚化された情報を含むダッシュボードがあります。システム管理者および承認されたユーザーは、Webインターフェースを開いて、インフラ全体や特定のサーバー、デバイス、およびアプリケーションに関する概要情報、グラフ、統計、およびその他のデータを確認できます。

誰が監視データを表示する必要があるかを定義します。ユーザーが責任を果たすために必要なもののみを監視するために、最小特権の原則に従ってユーザーへのアクセスを許可します。異なるユーザーグループ用にカスタムダッシュボードを構成します。例:

  • プログラマーは、データベースサーバー、アプリケーションサーバー、Webサーバー、および使用するKubernetesクラスターを監視できます。
  • テスターは、テストに使用されるサーバーやVMを監視できます。
  • システム管理者は、すべての項目を監視できます。
  • 営業マネージャーはCRMシステムに関する情報を表示する必要があるかもしれません。

自動警告/通知を構成します。

管理者とユーザーは、提供されたダッシュボードで監視データを必要に応じて確認できます。これは便利なオプションですが、問題についてすぐに知る方法はありますか?管理者は統計を監視するのに一日中費やすことはできません。そのため、ほとんどのIT監視ツールでは、特定のイベントに基づいてトリガーを構成し、電子メール、Skype、SMSなどで送信される自動通知を設定できます。管理者は、特定のイベントに基づいてトリガーを設定して、選択した宛先に通知を送信することができます。

アラートは優先されることがあります:最も重要なアラートは最小の遅延で送信されるべきですが、他のアラートは数分の遅延で送信されることがあります。たとえば、ホストがオフラインになった場合、管理者、上級ユーザー、チームリーダーのメンバーである電子メールグループまたはSkypeグループに2分後に通知メッセージが送信されます。サーバーが再びオンラインになった場合、適切な通知メッセージがグループに送信されます。また、サーバーのディスク容量不足、CPUの過負荷、メモリ不足のアラートも設定できます。ネットワークデバイスに適切な機能がある場合、ネットワークプリンターのカートリッジのトナー残量が少ないことに関する通知も構成できます。ユーザーが常に重要なページを印刷する場合や、在庫にフルのカートリッジがあるかどうかを確認するのを忘れたくない場合に役立ちます。

インフラストラクチャの監視ベストプラクティスでは、必要なパラメーターについてのみ自動通知を送信するように構成することをお勧めします。すべての問題について通知を設定すると、受信した情報を処理するのが難しくなります。

通知の閾値を設定します

閾値を設定して通知を表示および送信するように構成します。通知をすぐに設定すると、短いCPUパフォーマンスのスパイク、サーバーの過負荷による短い「到達不能」ネットワークなど、多くのアラートメッセージが表示されます。適切な閾値を設定して、時間内に反応し、通知の洪水を最小限に抑えるように構成します。閾値の適切な設定により、誤反応の確率が低くなります。

システム監視ソフトウェアを構成する際には、データを収集しレポートを作成するための適切な間隔を設定します。レポートを生成する間隔が小さすぎると、レポートやダッシュボードのグラフを生成するプロセスがコアプロセスと干渉し、CPU負荷が大幅に増加します。これにより、監視サーバーが過負荷となり、障害が発生する可能性があります。

通知の優先順位を付けます

優先順位を付けずに通知を表示すると、関係のないデータの洪水として表示されます。重要なデータを見つけるためにこのデータを解析することは時間がかかり、便利でも効率的でもありません。設定した優先順位で必要なものだけを表示するようにITインフラ監視ソリューションを構成することで、作業が容易になります。

ITインフラストラクチャでさまざまな問題が発生することがあります。それらのうち、いくつかは重要であり、他のものはそうではありません。

  • 重要な問題の例。アクティブディレクトリドメインコントローラーサーバーの障害、プロダクションデータベースサーバーの障害、ミッションクリティカルなVMを実行するESXiサーバーの障害、ディスクドライブの悪いS.M.A.R.T.ステータス、ディスク容量の低下、高CPU温度、十分な空きメモリの不足など。
  • 中程度の優先順位の問題の例。テストサーバー、テストVM、バグトラッカーなどの障害。
  • 軽微な問題の例。 プリンターのトナーが少ないなど。

優先順位はそれぞれの企業で異なる可能性があり、要件に応じて調整する必要があります。監視ダッシュボードに表示したり、自動通知を送信する際に異なる問題タイプの優先度を設定できる場合は、たとえば次のようにします:

  • [重大] ホスト192.168.17.2(DC01)が5分間アクセスできません。
  • [重大] ホスト192.168.17.89(Ora12-prod)のCPU温度が高すぎます(82℃)。
  • [重大] ホスト10.10.10.6(FS-06)のC:のディスク容量が不足しています。
  • [中程度] ホスト192.168.17.22(ESXi-22)のVM 10.10.10.35(Oracle-test)が5分間アクセスできません。
  • [軽微] 192.168.17.8(HPプリンター)のトナーレベルが低いです。.

重大な問題は緊急であり、管理者はできるだけ早く修正する必要があります。軽微な問題は対応を待つことができます。

監視が機能しているかテストする

ITインフラ監視システムを設定した後、このシステムが正常に動作し、通知が適切に送信されるかどうかをテストする必要があります。実際の緊急事態を待たずに、設定を完了した後にテストランをスケジュールします。テストランの後、IT監視システムを微調整する必要がある場合があります。テストを実行することで、監視が期待どおりに機能し、その効率性を確認できます。

対応アクションプランを作成します

通知を受け取った後の対応方法を定義します。致命的な問題に対する迅速な解決策を持っている必要があります。障害やデータ損失が発生した場合には、事業の継続性と災害復旧を確保するために災害復旧計画を持ち、この計画に従う必要があります。組織のRTOおよびRPOを満たすためです。常にマシンまたは特定のアプリケーションデータの回復のためのバックアップを準備しておく必要があります。

一部の監視ソフトウェアには包括的なデータ保護と災害復旧機能が付属しています。NAKIVOのITモニタリングソリューションのように、サーバーの障害やデータの損失はすべての種類の環境で発生する可能性があります。データバックアップにより、データを保護し、障害が発生した場合にデータを回復し、通常の運用を短時間で復元できます。NAKIVO Backup & Replicationは、物理的なLinuxおよびWindowsマシン、VMware vSphere VM、Microsoft Hyper-V VM、Amazon EC2、Nutanix AHV、およびMicrosoft 365のバックアップをサポートする汎用データ保護ソリューションです。

Source:
https://www.nakivo.com/blog/all-you-should-know-about-it-infrastructure-monitoring/