GTM-MML4VXJ
Skip to main content

Finplex Realize Stable System Operation

1.背景

安定稼働や迅速な障害対応が必要とされるシステムには、システムが正常動作しているかを監視する仕組み(以降、監視システム)が作り込まれています。一般的な監視システムは、システムを構成する各要素において異常と判断される変化をキャッチ(異常検出)する仕様となっています。

一般的な監視システムの仕組み

  • 監視対象のログファイルに異常メッセージが書き込まれた場合に異常検知
  • 監視対象のプロセスがダウンした場合に異常検知
  • 監視対象の機器がダウンした場合に異常検知
など

一般的な監視システムの課題

課題1:被監視対象に障害があっても異常を検知する仕組みの実装

“変化”に対して受動的に異常を検知しているため、監視対象となる各ソフトウェア(ファームウェアを含む)が仕様通りに動作しない場合、つまり、以下のようなケースの場合は異常を検知することができません。より高い信頼性が求められるシステムでは、これらを加味した監視の仕組みの個別実装が必要となり、システム投資コストが増大する問題があります。

  • バグなどにより異常状態においてもログが出力されず、またプロセスもダウンしないケース
  • SEの設計ミスや切替用のソフトウェアのバグにより、異常・障害発生時に切り替わらず、システムが正常稼働していないケース

課題2:障害切り分け手順の自動化

システムに障害が発生した際に運用者は検出したエラーメッセージから、どのような問題なのか、業務にどのような影響があるのか、どういった調査が必要なのかといった内容を直ちに判断して、障害に対応する必要があります。しかし、システムが大規模化するにつれてこれらの判断は難しくなり、障害対応の開始に時間がかかるという問題があります。

2.Realize Stable System Operationとは

Realize Stable System Operationは能動的なシステムの正常性稼働監視に求められる運用業務の開発業務と運用をフレームワーク化したパッケージ製品です。開発者は「どのノードでどのような正常性の確認を行うか」を定義し、システムに入力するだけで、各ノードが自律的にシステムの正常性の確認を行います。開発者は定義設計のみに注力できるようになり、スクリプトの作成、配備、運用にかかるコストを低減します。

3.パッケージの最小構成

本パッケージは実行定義設計ファイル・マネージャ・エージェントから構成されます。
また、マネージャとエージェントを連携するための共有ディスクが必要になります。
エージェントに運用業務を配備する操作や、正常性確認の結果を参照する操作をマネージャが提供するため、開発者は運用対象ホスト一台一台を直接操作する必要がありません。

4.利点

Realize Stable System Operationでは開発者が作成した定義に基づいて、エージェントが自律的かつ能動的にシステムの正常性を確認することができます。

例えば、既存の集中監視製品では運用管理サーバと各ノード間のping 応答によって、各ノードの死活監視ができましたが、WebサーバとAPサーバ間といった業務に則した通信の正常性の確認はできませんでした。Realize Stable System Operationを使用することでWebサーバからAPサーバに対するping疎通を確認するといった実際の業務に則したシステムの正常性確認を実行することができます。

5.利用ケース

インシデント発生時の原因調査の迅速化

正常性確認で異常が検出された場合の事後処理を定義することで、インシデントが発生した際の情報採取を自動化できます。インシデント発生から原因調査までにかかる時間を短縮することができ、また異常を検出した時点で直ちに情報を採取できるため、一時的な事象であっても情報の採取もれを防ぐことが可能です。

またシステムを運用する中で発生したインシデントについて、原因が特定できず、事象再現待ちとなる場合に情報採取を自動化するといった運用も可能です。

系切替前の業務正常性診断

システムの片系でトラブルが発生した際に、切替対象ホストで正常性確認を直ちに実行することで、系切替を行う前に、予め問題がないかを判断することができます。