現象:
同期処理中にミラーリング用経路のネットワークが停止した場合、NBDプロセスの停止処理が遅延します。
原因:
本現象はLinuxカーネルに起因するものであり、LifeKeeperに起因する現象ではありません。この現象は2.6.24以前のカーネルに含まれているNBDドライバの仕様によりNBDプロセスの停止処理には10~15分程度を要します。NBDプロセスが完全に停止するまでレプリケーション領域に対するディスクI/Oが待ち状態となります。NBDプロセスが停止され次第、ディスクI/Oの応答は回復致します。NBDプロセスが停止されるまでの間、レプリケーション領域をread/writeする処理を含むARKは、quickCheckのタイムアウトが発生します。
対象パッケージ:
2.6.24以前のカーネルを使用した環境における以下のパッケージ
・SteelEye Data Replication v6
・LifeKeeper Data Replication v4.7
現象の確認方法
NBDプロセスの停止処理に時間を要している場合は以下のようなメッセージがLifeKeeperのログに記録されます。
====================
木 7月 3 19:14:23 JST 2008 quickCheck: WARNING: failed to kill nbd-client, pid 23736
====================
回避/対処方法:
カーネル2.6.24以降で回避されています。カーネルを2.6.24にアップデートできない場合、または2.6.24が含まれるアップデートがディストリビューターからリリースされていない場合は、ミラーリング用経路のネットワークbonding により冗長化するなどして、ミラーリング用経路が障害とならないような耐障害性を高める予防策を講じてください。
最新の情報について:
本問題に関する最新の情報が以下にございます。併せてご参照ください。
[Linux] データレプリケーション構成をご利用のお客様へ
掲載日: 2008年7月10日
<改定履歴>
[2011年3月3日 改定]