ESXiでS.M.A.R.Tデータを取る

2022-09-29
  • B!

VMware

 ESXiを使用していて気になる点は、ディスクアクセスが24時間それなりに激しく行われる点。

単体の物理サーバに比べてディスクアクセスランプが常にピカピカ点滅しています。そういえばESXi 7からUSBやSDカードブートは非推奨になりましたね。システムディスクのアクセス頻度が上がり、安価なUSBやSDカードではすぐに壊れてしまうそうだ。

それに加えて、ESXi上では複数の仮想マシンが動作しているから当然のごとく各仮想マシンのディスクアクセスがちょこちょこと発生する。元々自宅のサーバ兼開発機であるので個々のマシンはそれほど激しい稼働をさせているわけではないが、複数のマシンが同時に稼働すれば物理ディスクのアクセスは塵も積もってそれなりの頻度となる。

活動が軽い単体物理サーバではHDDが10年以上持ったこともあるが、今のマシンはSSDなので、書き込み上限数が気になってくるわけです。そこでESXi上でS.M.A.R.T情報を確認してみることにします。

コマンドラインからS.M.A.R.T情報を取得するので、一時的にホストの管理メニューからSSHを有効にしてシェルにログイン。



ホストへSSHログインし、デバイス名称を取得。
[root@esxi:~] esxcli storage core device list
t10.ATA_____WDC_WDS200T2B0B_________________________184484421466________
   Display Name: Local ATA Disk (t10.ATA_____WDC_WDS200T2B0B_________________________184484421466________)
   Has Settable Display Name: true
   Size: 1907729
   Device Type: Direct-Access 
   Multipath Plugin: HPP
   Devfs Path: /vmfs/devices/disks/t10.ATA_____WDC_WDS200T2B0B_________________________184484421466________
   Vendor: ATA     
   Model: WDC WDS200T2B0B 
   Revision: 90WD
   SCSI Level: 5
   Is Pseudo: false
   Status: on
(以下略)
冒頭の「t10.ATA_____WDC_WDS200T2B0B_________________________184484421466________」がディスク名です。

次にこのディスク名のS.M.A.R.T情報を取得。
[root@esxi:~] esxcli storage core device smart get -d t10.ATA_____WDC_WDS200T2B
0B_________________________184484421466________
Parameter                  Value  Threshold  Worst  Raw
-------------------------  -----  ---------  -----  ---
Health Status              OK     N/A        N/A    N/A
Media Wearout Indicator    43     0          N/A    43
Power-on Hours             131    0          N/A    131
Power Cycle Count          94     0          N/A    94
Reallocated Sector Count   0      0          N/A    0
Drive Temperature          45     0          75     55
Write Sectors TOT Count    236    0          N/A    236
Read Sectors TOT Count     64     0          N/A    64
Program Fail Count         0      0          N/A    0
Erase Fail Count           0      0          N/A    0
Uncorrectable Error Count  0      0          N/A    0
全てのS.M.A.R.T情報が取得できるというわけではないようですが、このように数字が出てきました。

"Health Status    OK"    なのでとりあえずいますぐ問題な無いようですが、
"Media Wearout Indicator     43"    は気になりますね。

Media Wearout Indicatorとは日本語でメディア消耗指数と呼び、SSDの寿命の指標です。
出荷時が100で徐々に減少し1まで減っていきます。今は43ですので、すでに寿命の半分以上は使い切っているということになります。
SSDの総稼働時間の数値は表示されていませんが、これは約3年半使用したSSDです。3年半で半分ということは7年ぐらいでこのSSDはダメになるのか?出来が良いHDDよりも寿命が短いかもしれません。

状況がわかってきましたので、来年も同じような確認をしてMedia Wearout Indicator値が30を切ったらSSDを予防交換しようと思います。