致命的なのは、
- 片方のノード(例えばcancer)が障害で起動できない
- 生き残っている方のノード(この場合gemini)を再起動させると、clvmリソースが正常に立ち上がって来ない→gfs2が利用できない
しかも、この状態だとgeminiが再起動できない。(停止処理でハングしてしまう)
調べていったら、起動後にdlmは起動するが、clvmdがうまく起動できていないのだが、clvmdがdlmと通信を行い、dlmがエラーを返すことで、clvmdが起動に失敗する、という流れのよう。
dlmがシングルノードで稼働している(相方が死んでいるので、シングルで稼働させても問題はない)という状態をうまく認識できていないのが問題のよう。
やっぱりdlmがネックになるなー。
0 件のコメント:
コメントを投稿