統計処理の導入

先を読むのに使われる手法として統計がございます。例えばコインを投げて表または裏になるかです。歪みのないコインなら表または裏の確率は半々ですから投げ続けるとその確率は半々に向かっていくのが感覚的にもわかります。

母体と標本 そして統計

歪みのないコインの表または裏の確率が半々になるという事象が母体で投げた各結果を標本と呼びます。このようにはじめから母体がわかっているのならよいのですが実際には逆です。この母体を知るために多角的な解析などを行います。そしてその解析を統計と呼びます。

大数の法則 良くも悪くも数打てば標本は母体へ

はじめに書きましたあの感覚なんとなくではなくしっかりと大数の法則として定められています。そこで、データ復旧です。データ量が増加すると最小単位として収まるセクタの数が莫大(億から兆単位の数です)になります。よって、この大数の法則に外れず、復旧結果は母体通りになります。そのため、母体の出来が悪いと復旧率も上がらないという流れです。

手数について すなわち標本の数です

データ復旧の解析では「手数」の考え方がとても大切な要素となっております。例えば同じデータを取得する場合であっても複数の方法が存在するものとします。この場合、正常なドライブならば「どちらでもいい(だからファイルシステムが成立)」となります。しかしデータ復旧の現場では「手数」が少ない方を優先的に選ぶ必要があります。ここで「優先的」としたのは「手数」が少ない手法であっても、リスクが高い場合にはあえて「手数」が多い方を選択する場合があるためです。この判断がドライブが大容量化するほど複雑化してしまい、それゆえに現在のデータ復旧作業については「手作業」では難しくなってきております。

固定化される不良セクタなら扱いは容易です

不良セクタが発生した場合であっても一度発生した不良セクタが「固定化」されるなら不良セクタの回避方法については、その不良セクタの位置を同じ系統のドライブから統計的ならびに確率的に推測のち事前に準備を行い導かれる区間についてそれらをスキャン区間に設定し、その区間内を同じルールに固定化して不良セクタを避けることを実現いたします。

不良セクタの対処方法について

不良セクタが「200」「1200」「34561」で発生している場合を考えてみます。固定化されている場合、基本的にこれらのセクタの位置が「どこに存在するのか」を判断いたします。次にファイルシステムを確認いたします。そしてこれらが「MFT」と呼ばれる「マスターファイルテーブル」に多く発生している点をつきとめます。そこでこの「マスターファイルテーブル」の位置は「BPB」と呼ばれるセクタから「一手」で判明できますから、そこを「区間」に設定して、このような不良セクタが存在するとみるスキャン方法で「MFT」全区間をスキャンします。ところで「MFT」の必要性です。

MFTには「ファイル名」「ファイルまでの位置」「実ファイルの断片化性」が含まれ「必須(重要)」です。そのため「避ける」という選択肢はありません。あらゆる技術を駆使して、必ずスキャンする場所となっております。逆に、その不良セクタが「インデックスバッファ」だった場合です。この「インデックスバッファ」はファイルシステムへのアクセスの手数を減らすためのインデックスです。これにより「ランダムアクセスが実現」できているのですが、データ復旧では、優先度は低いため、ここに不良セクタが一つでも存在する場合は「避ける」仕組みです。

必要なセクタ、そうではないセクタ、それらを区別してスキャンする方法となっております。