対象製品:以下製品の全バージョン
・LifeKeeper for Linux
データレプリケーションリソースの監視処理(quickCheck)にて、同期に使用する通信が切断されていることを検知した場合、lifekeeper.log に次の情報が記録されます。
[日時] [ホスト名] recover[PID]: ERROR:lcd.recover:recover:(リソース名):004779:resource "リソース名" with id "デバイスID" has experienced failure event "netraid,recover"
LifeKeeper では、同期の通信の切断を検知した後、通信の復旧(ローカルリカバリ)を試みます。
通信の復旧が成功した場合、通信切断中に更新されたデータは自動的に同期されます。
また、通信復旧に伴う、データの同期が完了した際、lifekeeper.log に次の情報が記録されます。
[日時] [ホスト名] md_event[PID]: INFO:dr::(リソース名):104121:Resynchronization of component "/dev/nbdXX" has been completed for mirror "/dev/mdX" (resource: "リソース名") (target: ホスト名)
※メッセージ内の /dev/nbdXX 及び /dev/mdX における X の箇所につきましては、データレプリケーションリソース毎に異なる数字が設定されています。
以上のことから、同期の通信が切断された際は、通信の復旧及び同期が自動的に処理されるため、ご利用者様による対処は不要です。
なお、同期の通信にて切断を検知する状況につきましては、運用上、完全に防止することは不可であると想定しております。
そのため、切断発生が散発的であり、かつ、ローカルリカバリが毎回成功している状況であれば、製品及び運用の観点で問題は無いと判断しております。
通信切断の発生頻度が 1時間に3回以上となる場合は、ネットワークやサーバの負荷をご確認ください。
[補足1]
データレプリケーションリソースの同期は、同期専用のポート及びプロセスを使用して通信致します。
LifeKeeper のコミュニケーションパスによるハートビートの動作との関連はありません。
[補足2]
同期の通信が切断されている状況(通信復旧前)においても、稼働系ノードでは保護対象のディスクへのアクセスや書き込みは可能です。
(同期の通信の切断が契機となり、LifeKeeper にて保護されている各製品の動作が停止することはありません。)
[補足3]
同期の状況につきましては、次のコマンドよりご確認が可能です。
# /opt/LifeKeeper/bin/mirror_status (リソース名)
実行結果の例は次のとおりです。
[Status: Fully Operational] の情報が表示される場合、同期は正常とご判断いただけます。
Mirror Configuration:
[ ] (稼動系ノード) -> (待機系ノード) (IP アドレス)
Status: Fully Operational
[===================>] 100%
Type: (同期モード)
Bitmap: (数値) bits (chunks), (数値) dirty (%)
次のように、[Status: Out of Sync] の情報が表示される場合、同期は停止しております。
Mirror Configuration:
[X] (稼動系ノード) -> (待機系ノード) (IP アドレス)
Status: Out of Sync
Type: (同期モード)
Bitmap: (数値) bits (chunks), (数値) dirty (%)
データレプリケーションリソースのローカルリカバリが成功することにより、[Status: Fully Operational] の状態に
切り替わります。
[補足4]
データ保護の観点より、データレプリケーションリソースにおけるローカルリカバリの無効化は非推奨となります。
初期値(有効)にてご利用ください。