2017年12月22日金曜日

温度管理(lm-sensors)(aquarius)

ココで仮想マシン pegasus がクラッシュするのが、H/W障害か?と書いた。
メモリが壊れたかと思って、一応memtestしかけてみたんだけど、特に問題は見つからず。

となると、単に I/O 負荷が上がって CPU 無応答時間が発生→強制再起動、ということが想定される。
が、そこまでチェックする前に、そもそも熱が大丈夫か確認してみたい。

というわけで、温度を確認するツールを入れてみる。
まずは aquarius から。
$ sudo apt-get --simulate install lm-sensors
$ sudo apt-get install lm-sensors

次はどうやら構成ファイルを作成するようだ。
色々聞かれるから、基本的にはデフォルトでエンター。
$ sudo sensors-detect
# sensors-detect revision 6284 (2015-05-31 14:00:33 +0200)
# System:   []
# Board: Intel Corporation NUC5i7RYB
# Kernel: 4.4.0-104-generic x86_64
# Processor: Intel(R) Core(TM) i7-5557U CPU @ 3.10GHz (6/61/4)

This program will help you determine which kernel modules you need
to load to use lm_sensors most effectively. It is generally safe
and recommended to accept the default answers to all questions,
unless you know what you're doing.

Some south bridges, CPUs or memory controllers contain embedded sensors.
Do you want to scan for them? This is totally safe. (YES/no): (そのままエンター)
Module cpuid loaded successfully.
Silicon Integrated Systems SIS5595... No
VIA VT82C686 Integrated Sensors... No
VIA VT8231 Integrated Sensors... No
AMD K8 thermal sensors... No
AMD Family 10h thermal sensors... No
AMD Family 11h thermal sensors... No
AMD Family 12h and 14h thermal sensors... No
AMD Family 15h thermal sensors... No
AMD Family 16h thermal sensors... No
AMD Family 15h power sensors... No
AMD Family 16h power sensors... No
Intel digital thermal sensor... Success!
(driver `coretemp')
Intel AMB FB-DIMM thermal sensor... No
Intel 5500/5520/X58 thermal sensor... No
VIA C7 thermal sensor... No
VIA Nano thermal sensor... No

Some Super I/O chips contain embedded sensors. We have to write to
standard I/O ports to probe them. This is usually safe.
Do you want to scan for Super I/O sensors? (YES/no): (そのままエンター)
Probing for Super-I/O at 0x2e/0x2f
Trying family `National Semiconductor/ITE'... No
Trying family `SMSC'... No
Trying family `VIA/Winbond/Nuvoton/Fintek'... No
Trying family `ITE'... No
Probing for Super-I/O at 0x4e/0x4f
Trying family `National Semiconductor/ITE'... No
Trying family `SMSC'... No
Trying family `VIA/Winbond/Nuvoton/Fintek'... Yes
Found `Nuvoton NCT5573D/NCT5577D/NCT6776F Super IO Sensors' Success!
(address 0xa00, driver `nct6775')

Some systems (mainly servers) implement IPMI, a set of common interfaces
through which system health data may be retrieved, amongst other things.
We first try to get the information from SMBIOS. If we don't find it
there, we have to read from arbitrary I/O ports to probe for such
interfaces. This is normally safe. Do you want to scan for IPMI
interfaces? (YES/no): (そのままエンター)
Probing for `IPMI BMC KCS' at 0xca0... No
Probing for `IPMI BMC SMIC' at 0xca8... No

Some hardware monitoring chips are accessible through the ISA I/O ports.
We have to write to arbitrary I/O ports to probe them. This is usually
safe though. Yes, you do have ISA I/O ports even if you do not have any
ISA slots! Do you want to scan the ISA I/O ports? (yes/NO): (そのままエンター)

Lastly, we can probe the I2C/SMBus adapters for connected hardware
monitoring devices. This is the most risky part, and while it works
reasonably well on most systems, it has been reported to cause trouble
on some systems.
Do you want to probe the I2C/SMBus adapters now? (YES/no): (そのままエンター)
Found unknown SMBus adapter 8086:9ca2 at 0000:00:1f.3.
Sorry, no supported PCI bus adapters found.

Next adapter: i915 gmbus vga (i2c-0)
Do you want to scan it? (yes/NO/selectively): (そのままエンター)

Next adapter: i915 gmbus dpc (i2c-1)
Do you want to scan it? (yes/NO/selectively): (そのままエンター)

Next adapter: i915 gmbus dpb (i2c-2)
Do you want to scan it? (yes/NO/selectively): (そのままエンター)

Next adapter: i915 gmbus dpd (i2c-3)
Do you want to scan it? (yes/NO/selectively): (そのままエンター)

Next adapter: DPDDC-C (i2c-4)
Do you want to scan it? (yes/NO/selectively): (そのままエンター)

Now follows a summary of the probes I have just done.
Just press ENTER to continue: (そのままエンター)

Driver `nct6775':
* ISA bus, address 0xa00
Chip `Nuvoton NCT5573D/NCT5577D/NCT6776F Super IO Sensors' (confidence: 9)

Driver `coretemp':
* Chip `Intel digital thermal sensor' (confidence: 9)

To load everything that is needed, add this to /etc/modules:
#----cut here----
# Chip drivers
coretemp
nct6775
#----cut here----
If you have some drivers built into your kernel, the list above will
contain too many modules. Skip the appropriate ones!

Do you want to add these lines automatically to /etc/modules? (yes/NO) (そのままエンター)

Unloading cpuid... OK

これでいいのかな?何か、/etc/modules に「coretemp と nct6775 を入れろ」って言われてるけど…。

とりあえず動かしてみる。
$ sensors
acpitz-virtual-0
Adapter: Virtual device
temp1: +27.8°C (crit = +110.0°C)
temp2: +29.8°C (crit = +110.0°C)

coretemp-isa-0000
Adapter: ISA adapter
Physical id 0: +35.0°C (high = +105.0°C, crit = +105.0°C)
Core 0: +34.0°C (high = +105.0°C, crit = +105.0°C)
Core 1: +33.0°C (high = +105.0°C, crit = +105.0°C)

う~ん、これで良いのだろうか…?

lsmod を見てみると、 coretemp というカーネルモジュールは導入されているっぽいので、 nct6775 というカーネルモジュールを入れてみようかな…。
$ lsmod > lsmod.before
$ sudo modprobe nct6775
$ lsmod > lsmod.after
$ diff -c lsmod.before lsmod.after
*** lsmod.before 2017-12-22 15:36:48.274393335 +0900
--- lsmod.after 2017-12-22 15:37:00.374274890 +0900
***************
*** 1,4 ****
--- 1,6 ----
Module Size Used by
+ nct6775 57344 0
+ hwmon_vid 16384 1 nct6775
vhost_net 20480 0
vhost 32768 1 vhost_net
macvtap 20480 1 vhost_net

nct6775 を使うために、hwmon_vid というカーネルモジュールも一緒にロードされたな…。
sensors の出力結果に何か変化はあるか…?
$ sensors
acpitz-virtual-0
Adapter: Virtual device
temp1: +27.8°C (crit = +110.0°C)
temp2: +29.8°C (crit = +110.0°C)

coretemp-isa-0000
Adapter: ISA adapter
Physical id 0: +35.0°C (high = +105.0°C, crit = +105.0°C)
Core 0: +34.0°C (high = +105.0°C, crit = +105.0°C)
Core 1: +34.0°C (high = +105.0°C, crit = +105.0°C)

nct6776-isa-0a00
Adapter: ISA adapter
Vcore: +1.88 V (min = +0.00 V, max = +1.74 V) ALARM
in1: +1.36 V (min = +0.00 V, max = +0.00 V) ALARM
AVCC: +3.36 V (min = +0.00 V, max = +0.00 V) ALARM
+3.3V: +3.36 V (min = +0.00 V, max = +0.00 V) ALARM
in4: +1.02 V (min = +0.00 V, max = +0.00 V) ALARM
in5: +0.00 V (min = +0.00 V, max = +0.00 V)
in6: +0.26 V (min = +0.00 V, max = +0.00 V) ALARM
3VSB: +3.34 V (min = +0.00 V, max = +0.00 V) ALARM
Vbat: +3.20 V (min = +0.00 V, max = +0.00 V) ALARM
fan1: 0 RPM (min = 0 RPM)
fan2: 3435 RPM (min = 0 RPM)
SYSTIN: +65.0°C (high = +0.0°C, hyst = +0.0°C) ALARM sensor = thermistor
CPUTIN: +30.5°C (high = +80.0°C, hyst = +75.0°C) sensor = CPU diode
AUXTIN: +32.5°C (high = +80.0°C, hyst = +75.0°C) sensor = CPU diode
PCH_CHIP_CPU_MAX_TEMP: +34.0°C (high = +80.0°C, hyst = +75.0°C)
PECI Agent 0: +34.0°C (high = +80.0°C, hyst = +75.0°C)
(crit = +105.0°C)
PCH_CHIP_TEMP: +0.0°C
PCH_CPU_TEMP: +0.0°C
intrusion0: OK
intrusion1: OK
beep_enable: disabled

びっくりした!しっかり出てきたよ…。

これを X で見るためのツールも導入してみよう。
$ sudo apt-get install xsensors

動くかな…?
$ xsensors &
動いた!画面イメージは以下の通り。
acpitzから出力される温度

coretempから出力される温度

nct6776から出力される温度

普通に動いている。
とりあえず後は、nct6776 というカーネルモジュールが、OS起動時に自動的に取り込まれるか…だな…。

というわけで再起動して確認してみる。
$ sudo systemctl reboot

リブート後、カーネルモジュールを確認してみる。
$ lsmod | grep nct6775
ありゃ、ロードされてないや。
ってことは、意図的にロードするように設定を組み込まないとアカンのね。

sensors-detect コマンドの出力結果では、 /etc/modules に記載しろ、とのことだったので、それを書いてみよう。
$ ls /etc/modules
$ cat /etc/modules
コメント行のみで存在しているので追記しよう。
$ sudo vi /etc/modules
--以下の行を追加
# Chip drivers
nct6775
--ココまで

これで再起動して再確認だな。
$ sudo systemctl daemon-reload
$ sudo systemctl reboot

起動してきたら確認。
$ lsmod | grep nct6775

ロードされているので、温度見てみよう。
$ sensors

nct6775 の方の温度も表示されたなら、xsensors も見てみる。
$ xsensors &

問題なく見れた。

次回は、同じ作業を sagittarius に適用したい。
ただ、ハードウェア構成が違から、カーネルモジュールも違うはずなので、次回に同じように記載する。

0 件のコメント:

コメントを投稿