対象製品:以下製品の全バージョン
SIOS Protection Suite for Windows
LifeKeeper のノード間において、コミュニケーションパスの全断を検知した場合、ノード障害におけるフェイルオーバー処理に移行しますが、Windows 版 LifeKeeper では、フェイルオーバー処理に移行する前に、「セーフティチェック」が動作します。
「セーフティチェック」では、ノード上にて利用可能な全ての NIC(コミュニケーションパスにて使用されていない NIC を含む)を用いて、対向先ノードとの疎通確認を実施します。
「セーフティチェック」にて、ノード間の疎通確認が成功した場合、フェイルオーバー処理は中断となり、稼動系ノードおよび待機系ノードは通常運用を継続します。
失敗した場合は、フェイルオーバー処理を開始します。
なお、「セーフティチェック」は無効化できません。
上記説明における各状況が発生した際、Windows イベントログ(アプリケーション)では次の情報が記録されます。
■コミュニケーションパス全断を検知
*INFO* (No. ###) Missed comm heartbeats, checking for comm down
→セーフティチェックが開始されます。
■セーフティチェック失敗
*ERROR* (No. ###) COMMUNICATIONS TO "ホスト名" FAILED
→フェイルオーバーが開始されます。
■フェイルオーバ開始
*INFO* (No. ###) FAILOVER RECOVERY OF MACHINE <ホスト名> STARTED
■セーフティチェック成功
*ERROR* (No. ###) SAFETY CHECK DETECTED MACHINE "ホスト名":PAUSING COMM_DOWN
→フェイルオーバーは開始されません。
■コミュニケーションパス復旧
*ERROR* (No. ###) SAFETY CHECK ABORTED:ABORTING COMM_DOWN
■復旧したコミュニケーションパスの情報は、イベントログに記録される次の情報よりご確認可能です。
*INFO* (No. ###) LifeKeeper: communication to <ホスト名> by TCPIP:<ポート番号> RESTORED
「セーフティチェック」は、コミュニケーションパス全断を契機に開始され、コミュニケーションパスが復旧するまでの間、8 秒間隔で動作を継続します。
ただし、コミュニケーションパス復旧までに数時間を要する場合、「セーフティチェック」の処理にてオーバーフローが発生する恐れがあります。
「セーフティチェック」の処理にてオーバーフローが発生した場合、LifeKeeper のフェイルオーバーが開始されます。
【関連情報】
[Linux][Windows]共有ストレージを使用しています。ハートビートが全て切断された場合、
どのような挙動を示しますか?
https://lkdkuserportal.sios.jp/hc/ja/articles/360037887931
改訂履歴
[公開日:2020年7月2日]
[更新日:2022年2月15日]