ドライブ故障統計(ビッグデータ採用):ストレージ故障予測の仕組み 概要 用途別に2種類をご用意

ホームビッグデータの復旧技術応用→ドライブ故障統計→ストレージ故障予測の仕組み 概要 用途別に2種類をご用意

■ ドライブの故障予測をS.M.A.R.T.のみで行う事は、現実的ではございません。
※ 6年間調査を行いまして、多数のドライブの故障統計(復旧分含む)から、この結論に至っております。

○ ハードディスク、SSDの故障予測に、S.M.A.R.T.のみを利用されておりませんか?

自己診断機能“S.M.A.R.T.”(Self-Monitoring Analysis and Reporting Technology)をドライブから読み出して、 その変化を記録し、計算することにより、事前に故障を予測することができるとされております。 そして、その変化および計算を行うソフトウェアが「故障予測ソフトウェア」と呼ばれております。 しかしながら、その計算のアルゴリズムは多種多様に溢れておりまして、統一されておりません。

S.M.A.R.T.単独では厳しい故障予測ですが、複数の調査と組み合わせる事により、予測精度を大幅に向上できる点も分かってきました。 ただし、複数の調査を組み合わせますと負荷も上がりますので、用途別に2種類の機能をご用意させていただきました。

■ ご利用の環境に合わせ、「2通り」の故障予測をご提供いたします。

ストレージ故障予測系:スキャンを組み合わせ、故障を予測。24時間継続のサーバ系に最適です。

故障予測ビュー

S.M.A.R.T.数値変動グラフ:数日分(約6日)の変動を記録しております。

※ グラフ内部を左クリックいたしますと、現在値とデータに関しまして表示を切り替える事ができます。
※ スキャンA, スキャンB 解析結果(左下のグラフ):独自の故障予測スキャンの結果を表示いたしております。
※ スクリーンショット中央にある緑の線が中央に安定すれば正常、上下に振れてブルーゾーンを超えると、異常判定となります。
※ 状態範囲の「レッドゾーン」に入った場合は、交換をお勧めいたします。物理的な破損が出ております。
※ 再描写:各グラフを再描写いたします。
※ 再解析:故障予測の演算部に再解析を促すキューを投げます。
注:再解析は強制的に故障予測を進めますので、多用いたしますと予測精度が低下いたしますのでご注意ください。

S.M.A.R.T.では処理できないエラー・故障が多数存在することが分かりました。 S.M.A.R.T.自身の定義が曖昧な上、その数値も不確かなものが多いためです。 そこで、各ドライブが確実に状況を出さなければならないコマンドで予測する方式を独自に開発いたしました。 それが、「故障予測スキャン」となっております。

故障予測スキャンモニタ 温度計メインモニタ

故障を予測する独自の計算式に当てはめやすい約70,000件の事例(パートナー様の協力含む)を厳選し、整理いたしました。 2015年からは、さらにドライブ故障統計(ビッグデータ)も組み合わせております。

※ 技術パートナー様および、この試みに賛同いただいたユーザ様のご協力に深く感謝いたします。 その故障個所・不良セクタの種類・不良セクタの分布・故障発生前後の状況など、 壊れやすい状況・アクション・内容を整理した上、ソフトウェア化いたしました。

故障の前兆をキャッチ次第、それをユーザ様に知らせると同時に、緊急バックアップで重要データの損失を回避します。

S.M.A.R.T.コンセンサス系:低負荷でしっかりその都度、予測できます。普段のご利用に最適です。

故障予測ビュー

ビッグデータを利用いたしまして、ドライブの故障予測を実施いたします。
S.M.A.R.T.およびビッグデータ以外に別の検査が必要な場合は、それを追加検査して総合判断する事ができます。
ストレージ故障予測系では常駐スキャンを必要とするため、常駐させる必要がありましたが、こちらは常駐不要です。
※ 負荷も軽いため、普段のご利用にはこちらの機能をご活用ください。

S.M.A.R.T.の状態変化は、以下に沿います。
※ ドライブの状態により、その判定が「180度異なる」ため、これがS.M.A.R.T.の難点です。
S.M.A.R.T.が動きましてバックアップを指示されても、すでに手遅れな場合が多いのはこのためです。

○ S.M.A.R.T.による予測の典型的な失敗例

S.M.A.R.T.では見抜けない物理障害をご紹介いたします。
※ データを損失しますので、注意が必要となります。現在の3.0TB級ドライブでもよく拝見しております。

SMART値

□ S.M.A.R.T.の取得:通常の読み書きとは「別」に存在するデータとなります。

数字が並んでおりますが、あまり気にしないでください(^^;。
この場合、一般的なS.M.A.R.T.予測ソフトウェアでは、間違いなく良好を示します(これが重要です)。

さて、この「良好」は本当なのでしょうか?
そこで、このハードディスクへアクセスいたしまして、実際にデータを読み出してみましょう。

エラー発生

□ Windowsより読み取ろうとした結果、エラーが発生いたします。

エラーが発生いたしました。データへのアクセス失敗、いわゆるデータ障害です。
このようなエラーは、ソフトウェア的な破損ではなく、物理的な破損の方が遥かに多いのが現状です。
例えば、FATやMFTが読み書き不能セクタで壊れた場合、物理的なエラーで読めないという感じです。
なお、症状が断定できない以上、これらのエラーをすぐに「論理障害」と決め付けてはなりません。

ここで、FromHDDtoSSDの「完全スキャン」を実行いたします。
これは、ハードディスク/SSDに対しまして、セクタレベル(最小単位)の完全検査を行うことができます。

動作安定度が大きく乱れ、安定せず

上側のグリーンに関しましては、検査して良好だった点を示しております。
しかし、これはあくまでも「不良セクタがない」事を示しているのみです。
通常の検査系ソフトウェアにて、調査できるのはここまでとなります。しかし、これでは全くの不十分です。

下部の「動作安定度」の指標が非常に乱れております。
こちらは、一直線になれば正常で、大きく乱れた場合は動作系統に異常がございます。
このHDDは物理的に壊れておりまして、修理もできません。なおさら、論理障害ではありません。

バックアップは、読み出せるかどうか時々でも良いのでご確認ください。
実は、そのバックアップ先が機能していなかったというケースを多く伺っております。

ハードディスクは、書き込み側よりも読み込み側が壊れやすい性質となっております。
つまり、書き込み専門となってしまったバックアップ先は、書き込めていないのに正常通知が出てしまいます。

これにより、読み込み側が壊れても即時にエラーを出すこともなく動作し続けてしまいます。
※ 読み込ませてエラーのセクタが検出され、そこではじめてエラーが返されます。それまでは正常を振舞います。
書き込める状態でも、読み込めるとは限りません。これがバックアップ損失の主な原因です。

>> 参考ページはこちら (ミラーリングの過信は厳禁)