ドライブが故障し、壊れかけております。その動作は「不安定」で、不良セクタもあります。
そこで、まず不良セクタの「状態」について、正常な場合は0(状態0)、不良の場合は1(状態1)とします。次に「壊れかけのドライブ」の「状態1」にk回アクセスすると完全に壊れてしまうという「観測データを集めたもの」(観測データA)が存在いたします。
※ この「観測データを集めたもの」については、ドライブの種類によらず、量産されている点ならびにファイルシステムのアルゴリズムより、その「ばらつき」は狭くしっかりとドライブ別に「特徴付け」を行いますと、良質な分布……すなわち「統計」が得られます。

ドライブは、数多くの「セクタ」と呼ばれるもので構成されております。そして故障いたしますと、そのうちの一部が「不良セクタ」になります。そこで、「数多くのセクタ」のうちから「状態1」となったセクタの位置pについて「観測データを集めたもの」(観測データB)が存在いたします。

観測データA, 観測データBの「存在」から何も考えずにn回「壊れかけのドライブ」にアクセスしてデータの復旧を試みると、大部分のデータが救えずに、ドライブが完全に壊れてしまう点を以下に示します。まず1つのセクタには512バイト(または4096バイト)しか、データが収まりません。つまりドライブには「億単位のセクタが存在」いたします。

ここで「壊れかけのドライブ」からデータが綺麗に復旧できる確率をP1(壊れない確率)とします。そしてデータを救うには、とにかくドライブに「アクセス」するしかありません。よってnを大きな数にする必要があります(nはドライブへのアクセス回数となりますので……)。その結果「大数の法則」に従いましてP1は0(復旧失敗)に向かいます。

「何も考えずにn回アクセス」は、言い換えますと、各セクタの「重み」(そのセクタが「状態1」である確率)を考慮せずにアクセスを繰り返した、に同値です。

ここでアクセスしたセクタが「状態1」である確率をP2とします。そしてP2を考慮せずにドライブへのアクセスを繰り返すとP1が0に向かうと同値です。ではどうしたらデータの復旧に成功できるのか考えます。

P2が有名な分布、例えば某所などで有名な「正規分布」に従う……なら復旧作業は「簡単」になります。しかし……セクタのふるまいが、そのような決まった分布に従うわけがありません。そもそも決まった分布に、あらゆる事象が従うのであれば「統計」自体が不要になってしまいます。

結局、このP2については「観測データB」から地道に作るしかありません。データ復旧作業はこのような地道なデータの蓄積で復旧率が向上するので、とても大切な過程になります。このP2の分布や「集め方の手法」が「データ復旧技術やノウハウに相当する」ものになります。

道筋が立ったので、では「観測データB」からP2を……としたいのですが、直接は無理です。なぜなら「状態1」同士の絡み方を考慮していないためです。例えばAの位置が「状態1」ならBの位置も「状態1」になる確率が1だとします。……ちょっと悩みますね。なので簡単にします。イメージは、本来なら「独立試行」となる複数枚の同時コイン投げを思い浮かべてみてください。