LifeKeeper for LinuxのStandby Node Health Check機能(SNHC)に関して、よくある質問をまとめました。
対象バージョン : LifeKeeper for Linux v9.4.1 -
Q1:SNHCで待機系ノードの障害が検知された場合、どのように通知されるのか?
A1:SNMP Trapまたはメールによる通知を利用します。
SNHC の監視は、待機系ノード自信の LKCHECKINTERVAL の設定間隔で行われます。障害検知時は以下の機能を利用して通知します。
SIOS Protection Suite for Linux テクニカルドキュメンテーション / SNMP による LifeKeeper イベント転送(SNMP Trap)
SIOS Protection Suite for Linux テクニカルドキュメンテーション / LifeKeeper イベントメール通知(mail コマンドによるメール送信)
Q2:SNHCにより、待機系ノードに大きな負荷がかかるのか。
A2:いいえ。
Node監視は、/proc 以下の各ファイルよりステータスを読み取る仕様となっており、大きな負荷がかかる処理ではありません。
Q3:OSUリソース監視で異常を検知した場合に必要な対処は?
A3:待機系ノードの障害原因を取り除いた後、LifeKeeper上でステータスの変更を行います。
詳しくは以下マニュアルの記述を参照ください。
SIOS Protection Suite for Linux テクニカルドキュメンテーション / OSUリソース監視 > 障害からの復帰
Q4:OSUリソース監視で異常を検知後、復旧前にアクティブノードに障害が発生した場合、フェイルオーバーは実施されるか?
A4:はい。
稼働系ノードまたはリソースに障害が発生した場合は、待機系ノードの状態に依らず、フェイルオーバーが試行されます。一方で、セカンダリノード側の障害原因が取り除かれていない場合はフェイルオーバーは途中で失敗し、両ノードでサービスが起動しない状態となります。この状態を避けるためにも、SNHCにより待機系ノードの障害を検知した際は、すみやかにその原因を取り除いてください。
Q5:OSUリソース監視で異常を検知した場合、ログには記録されますか?
A5:はい。
待機系ノード上のログファイルに、一例として、以下のようなログが出力されます。
IOSUリソース監視(IPリソース)の障害検知
OSUquickCheck[XXXXX]: ERROR:ip:OSUquickCheck:ip-xx.xx.xx.xx:123089:Link check failed for virtual IP xx.xx.xx.xx on interface ens33.
参考資料
SIOS Protection Suite for Linux テクニカルドキュメンテーション / Standby Node Health Check