2019年4月29日月曜日

シングルノード状態でのgfs2

いろいろ試しているうちに、いくつかまだ設定がおかしいと思われるところが見つかった。
致命的なのは、
  • 片方のノード(例えばcancer)が障害で起動できない
  • 生き残っている方のノード(この場合gemini)を再起動させると、clvmリソースが正常に立ち上がって来ない→gfs2が利用できない
という状態だ。
しかも、この状態だとgeminiが再起動できない。(停止処理でハングしてしまう)

調べていったら、起動後にdlmは起動するが、clvmdがうまく起動できていないのだが、clvmdがdlmと通信を行い、dlmがエラーを返すことで、clvmdが起動に失敗する、という流れのよう。
dlmがシングルノードで稼働している(相方が死んでいるので、シングルで稼働させても問題はない)という状態をうまく認識できていないのが問題のよう。

やっぱりdlmがネックになるなー。

2019年4月13日土曜日

Windowsのnetkvm.sys

ちょっと検証から離れて…。
KVM環境の上には、Linux以外にもWindowsを動かしている。
特に、以前から使っていたWindows7をKVMに移行し、それをメインのWindows環境として使っていた。(移行は、Windows7が持つシステムバックアップを使用した。)
KVM環境に移行してからのWindows7、実は頻繁にクラッシュしてた。クラッシュも、頻繁に発生するかと思ったらしばらく発生しなかったりで、原因が全然つかめなかった。
物理環境から、仮想環境へ移行したことが原因だと思っていたんだが…。

で、先日このWindows7をWindows10にアップグレードしたが、Windows10にしてからはもっとクラッシュ頻度が高まり、ほとんど使い物にならない状態だった。

が、Windows10になってから、クラッシュ時に表示される画面で、netkvm.sysというのが原因だということが分かった。
これは、Virtio NIC用のドライバだ。
調べてみると、このnetkvm.sys、非常に不安定らしい。いや、パラメータチューニングを適切に施せば、安定稼働するのかもしれないが…。

ただ、パラメータチューニングも時間がかかるし、チューニング中にもクラッシュしかねない。
なので、Virtio NICはやめて、rtl8139の完全仮想化デバイスに変えた。
変えてから数日しか経ってないが、非常に安定している。速度は出ないかもしれないが、こちらの方が快適だ。
とりあえず、netkvm.sysが安定するまでは、rtl8139を使用することにする。