取り出せなくなったデータを救う。
[更新:2010-1028]

故障予測ソフトウェア

データ復旧技術の最終到達点:ストレージ故障予測技術

ストレージ故障予測技術の概要

バックアップは必要不可欠ですが、それでは解決できない域(容量)に達してきております。
データのバックアップがない場合、「データ復旧」を行うしかない現状に疑問をお持ちではありませんか?
一般的に考えまして、手間と費用が掛かる復旧よりも、手軽に対処できる故障予測が歓迎されます。
そのため、「最先端技術」は2年前より「故障予測」の方にシフトし、色々とお話等を伺っております。
※ データ復旧技術の方は「DIRECTSCAN Ver2.0 技術」へまとめ、別方向に進化いたしております。
2010年9月より、復旧技術を生かすストレージ故障予測Ver2.0(FromHDDtoSSD Ver2.0A)がスタートいたします。
Ver1.3系を大幅に見直しまして、さらにスキャンB〜スキャンDを追加し、上手く連携させております。

故障予測サービスへの移行


従来からよく使われるS.M.A.R.T. (自己診断機能)

FromHDDtoSSD_旧バージョン
旧バージョン保守版(Ver1.3B) S.M.A.R.T.情報モニタ

従来の故障予測では、自己診断“S.M.A.R.T.”(Self-Monitoring Analysis and Reporting Technology)を利用したケースがございます。
ドライブの各ステータスを決められた属性IDに記録し、それを参照して予測を行う仕組みです。
しかしながら、属性IDが明らかに変動しない機種や、故障状況と連動していないケースも多くございまして、
S.M.A.R.T.が予測できる割合は数%にも満たないと判断いたしております。
以下、実際の例となります。このようなケースが大多数を占めておりますので、ご確認をお願いいたします。

S.M.A.R.T.はあくまでも参考程度、メインでは使えません

多数実施いたしましたデータ復旧サービスによる測定結果に基づきまして、
このS.M.A.R.T.を利用して予測できるHDD/SSDは数%にも満たないと判断いたしております。

以下、S.M.A.R.T.のみの故障予測に対する予測失敗の実例を挙げておりますが、
このように予測を外してしまうケースが95%以上とみて間違いありません。よろしくお願いいたします。

S.M.A.R.T.で判断できる要素は、「不安定とならない不良セクタ発生」または「その発生予測」、この数点に過ぎません。
実際の故障は多岐に渡っております。以下、そのうちの一つです。

S.M.A.R.T.運用では、S.M.A.R.T.の他、しきい値(故障の基準値)をハードディスク/SSDより取得いたします。
しかしながら、このしきい値は実用的な値ではなく、あくまでも参考値と考えております。
なぜならば、これをそのまま利用できる機会は少なく(または全くなく)、実際に調べた値と異なるからです。
そこで・・・弊社が復旧業界にて初めて開発に着手・搭載いたしました「故障予測スキャン」の出番となります。

Ver2.0A 故障予測スキャン
FromHDDtoSSD Ver2.x [S.M.A.R.T.では見抜けない数多くの障害を監視:故障予測スキャン]

故障予測スキャンの概要に関しましては、こちらをご参照ください。詳しく解説いたしました。
弊社が開発いたしましたFromHDDtoSSDでもS.M.A.R.T.を利用いたしておりますが、
しきい値に関しましてはデータ復旧サービスを通して調べ上げました数値を採用し
さらには「故障予測スキャン」に応じてしきい値を補正、僅かな部分まで見抜いていきます。

[S.M.A.R.T.の予測精度に関しまして]:S.M.A.R.T.が予測を外し、データ復旧サービスの利用に至った例
※ ご依頼いただくまでの経緯に関しまして、一部をご紹介させていただきます。
[1]:故障する日が分かるというS.M.A.R.T.系ソフトを利用していたのですが、まだ良好で3年以上使えるはずが、昨日動かなくなりました・・・。
[2]:S.M.A.R.T.からハードディスクの状態が分かるというソフトウェアを利用して、監視していました
本日朝、立ち上げようとしたらブルーバックとなりました。慌てて外付けにしたら、内部からカラカラ音が出ています。S.M.A.R.T.は正常だったのでショックです。
[3]:S.M.A.R.T.は問題なくグリーンだったのに壊れました。私のハードディスクは外れだったのでしょうか?
あと、この場合でもデータ復旧サービスが必要となるのでしょうか?まだ故障を信じ切れずにいます。
[4]:不良セクタが出たのですが、S.M.A.R.T.のソフトで「健康」だったので安心していました
ところが、その後、一秒に一度くらいの感覚で「カタン、カタン」という音がするようになり、
起動させようとしてもメーカーのロゴが表示された後に「operating system not found」が表示され、
そこから先へ進まない状態です。もう何が何だか・・、S.M.A.R.T.は嘘だったという事でしょうか?
[5]:本体の調子が悪くなり強制終了が多発した。何度かそのような状況で接続中に強制終了を行ううちに認識が遅くなり、
異音がするようになった。はじめのうちは認識していたが、そのうち認識が極度に遅くなり、最後には接続してもアクセスランプが付かず回転しなくなった。
でも、S.M.A.R.T.のソフトでは直前まで健康状態だったので、まさか、ハードディスクが一気にここまで壊れるとは思ってもいなかったです。

SMART値
[S.M.A.R.T.の取得:通常の読み書きとは「別」に存在いたします]

さて、S.M.A.R.T.の具体的な中身をみていきます。まず、S.M.A.R.T. 属性はHDD/SSDより「数値」で取得することができます。
このままでは数字の羅列となっておりますが、これらを整形して予測に利用いたします。その取得した数値が上の画像です。なお、これでも1段階加工済みです。
※ デジタルの性質上、最初に取得する値はバイナリデータ(0と1の並び)です。
それらを論理的な集合として処理・解釈するのはソフトウェア側の仕事です。いわゆる「構造体」です。

「100:0000:0000:0000」は新品時の値と同じです。
劣化の度合いが0000:0000:0000へ格納され、総合評価を100より下げていく減点方式です。
つまり、これが示す意味は「劣化していない」ことを示していますね。違う属性をみてみると、
C0とC1が気になりますね。100ではなく099です。C0の場合、099の次が0605です。ただ、これはこのまま読めません。
バイト単位で下位から読みます。※ Intel系アーキテクチャの場合はリトルエンディアンです。
それから、それを10進法へ変換いたしますと表示できる値に整形完了となります。

つまり、0506にして、これを変換し、1286を得ます。これはスピンダウンの回数(電源投入回数)です。
1,000回で評価を1、落としているようですね。だから100 - 1 = 99となる訳です。
100,000回で評価が0となりますので、いつ壊れてもおかしくない、そういった状況のようです。
総合的に考えて、自己診断機能は「良好」、従来の故障予測ソフトウェア(S.M.A.R.T.)でも「良好」となります。
※ 「自己診断機能」は、起動の際にBIOSへ渡されるものです。この警告はほとんど当たりません。

さて・・、「良好」は本当なのでしょうか?
そこで、このHDDへアクセスいたしまして、データを読み出してみましょう。

エラー発生
[Windows2000より読み取ろうとした結果、エラーが発生]

正直、見たくもないエラーが発生しました。データ構造へのアクセス失敗、いわゆる論理構造の破綻です。
実はこのようなエラーは、ソフトウェア的な破損ではなく、物理的な破損の方が遥かに多いです。
例えば、BPBやFAT,MFTが読み書き不能セクタで壊れた場合、物理的なエラーで読めないという流れです。
症状が断定できない以上、これらのエラーを「論理障害」と決め付けてはなりません。

ここで、本ソフトウェア[FromHDDtoSSD]の「完全スキャン」を実行いたします。
これは、ハードディスク/SSDに対しまして、セクタレベル(最小単位)の完全検査を行うことができます。

動作安定度が大きく乱れ、安定せず

上側のグリーンに関しましては、検査して良好だった点を示しております。 しかし、これはあくまでも「不良セクタがない」事を示しているのみです。
通常の検査系ソフトウェアにて、調査できるのはここまでとなります。しかし、これでは全くの不十分です。
※ この先の検査(動作安定度)を行うには、検査機材(ハードウェア)による直接アクセスなどが主流でした。
これを、上手く制御して動作の安定度を出させるのが、FromHDDtoSSDの一つの機能として存在
します。

下部の「動作安定度」の指標に関しまして、非常に乱れております。[見方の詳細は>>こちら]
こちらは、一直線になれば正常で、大きく乱れた場合は動作系統に異常がございます。
つまり、このHDDは物理的に壊れておりまして、修理もできません。なおさら、論理障害ではありません。

S.M.A.R.T. による数値が正常でも壊れる場合がある、これは紛れも無い事実となります。
そのため、S.M.A.R.T. 技術で対応できない多くの障害を見抜く「完全スキャン」が良さそうです・・が、
時間を相当要しますので(数時間)、この検査を頻繁(常駐)に使う訳にはいきません

そこで、完全スキャン系をごく短時間で処理できる「故障予測スキャン」が必要となりました。
故障予測スキャンを最優先とする新しい方式でお客さまのハードディスク/SSDを監視いたします。
HDDに対しましては不良セクタシミュレーション+解析ゲージ、SSDに対しましてはコマンドフルテストによる挙動調査で、故障予測自体を大幅に強化いたしました。
※ [更新:2010-0508] 不良セクタシミュレーション、アクティブレストレーションの実装に成功し、完全スキャンの難点を克服いたしました。

不良セクタシミュレーション中 故障予測ビュー

データ損失回避に役立ちます

バックアップのやり取り

データ復旧サービスにて拝見させていただきました事例のうち、
故障を予測する独自の計算式に当てはめやすい約55,000件の事例を厳選して整理いたしまして、
※ 技術パートナー様および、この試みに賛同いただいたユーザ様のご協力に深く感謝いたします。
その故障個所・不良セクタの種類・不良セクタの分布・故障発生前後の状況など、壊れやすい状況・アクション・内容を整理、ソフトウェア化いたしました。

従来から存在いたしますハードディスク/SSDに搭載された S.M.A.R.T. 技術に加え、
独自に開発いたしました「故障予測スキャン」を搭載、あらゆる角度から故障を予測いたします。

故障の前兆をキャッチ次第、それをユーザに知らせると同時に、予めご設定いただけます「緊急バックアップ」が始動、重要データ損失などのトラブルを回避します。

故障予測 メインシステム, 不良セクタシミュレーション, S.M.A.R.T.ビュー(実測の完全スキャンと連動)

次世代故障予測

完全スキャンVer2.x系

S.M.A.R.T.ビュー

バックアップも運用次第では怖い?

※ お客さまより:
「気が付いたらバックアップ先が壊れていた」とありますが、バックアップ先の破損に気が付かないという点がどうも引っ掛かります。
壊れたら、その地点でエラーが発生して使えなくなる
と思うのですが?どうでしょうか?

バックアップを取っていても、そのバックアップ先が機能していなかったという例も多く扱います。
実は、ハードディスクは書き込み側よりも先に、読み込み側に関しまして壊れる可能性が高い媒体です。
つまり、「書き込み専門」となってしまったバックアップ先は、読み込み側が壊れても、即時にエラーを出すこともなく、動作し続けてしまいます。
※ 読み込ませてエラーのセクタが検出され、そこではじめてエラーが返されます。それまでは正常を振舞います。
書き込める状態でも、読み込めるとは限りません。これがバックアップ損失の原因です。[>> 参考ページ]

技術的な詳しい内容は、以下の内容にて紹介する予定です。よろしくお願いいたします。
※ ブログ形式で少しずつ噛み砕きながら解説、2009年9月23日より書き始めております。

故障予測技術 Lab