クロード・シャノンによる予測とエントロピー:言語の情報理論的分析
はじめに:言語を情報源として捉える
クロード・シャノンが1948年に発表した画期的な論文「A Mathematical Theory of Communication」は、情報という概念を数学的に定式化し、通信システムの解析に革命をもたらしました。この理論体系の中で、情報源のエントロピーは「情報源から出力されるメッセージに含まれる不確かさ」あるいは「その情報源を効率的に符号化するために必要な平均ビット数」を示すfundamentalな量として定義されています。シャノンは、この情報理論を一般的な通信システムだけでなく、人間の言語のような複雑な情報源にも適用可能であると考えました。
特に、1951年に発表された論文「Prediction and Entropy of Printed English」は、印刷された英文を情報源と見なし、その統計的性質を分析し、情報源エントロピーを推定しようとした画期的な研究です。この研究は、情報源のエントロピーがその冗長性と密接に関連していることを示し、言語の統計的構造に対する深い洞察を提供しました。本記事では、シャノンのこの研究の核心に迫り、その理論的背景、実験手法、歴史的意義、そして現代の情報科学における位置づけについて掘り下げていきます。
情報源としての言語とエントロピー
シャノンの情報理論における情報源は、一定の確率分布に従ってシンボル列を出力するものとモデル化されます。理想的な情報源は、各シンボルが独立かつ同一の確率分布で出現する無記憶情報源(Memoryless Source)です。このような情報源のエントロピーは、各シンボルの確率から容易に計算できます。
しかし、人間の言語は無記憶情報源ではありません。特定の単語や文字の出現は、その直前あるいはそれ以前に出現した単語や文字に強く依存します。例えば、英語で "Q" の後には通常 "U" が続きます。このような依存関係を持つ情報源は、マルコフ情報源としてモデル化されることが一般的です。n-次のマルコフ情報源は、次に生成されるシンボルが直前の n 個のシンボルにのみ依存すると仮定します。
言語のような情報源のエントロピー $H$ は、シンボル列が長くなるにつれて、1シンボルあたりの平均不確かさがどのように収束するかで定義されます。正式には、長さ $N$ のシンボル列 $s_1, s_2, \ldots, s_N$ が出現する確率を $P(s_1, \ldots, s_N)$ とするとき、エントロピーは以下の極限で定義されます。
$$ H = \lim_{N \to \infty} \frac{1}{N} H(s_1, \ldots, s_N) = \lim_{N \to \infty} \frac{1}{N} \log_2 \frac{1}{P(s_1, \ldots, s_N)} $$
ここで、対数の底は通常 2 が用いられ、単位はビット/シンボルとなります。これは、十分長いメッセージにおける1シンボルあたりの平均情報量(不確かさ)を示しており、理論的な最小平均符号長の下限を与えます。言語の場合、シンボルは文字でも単語でも考えられますが、シャノンの研究では主に文字(アルファベット、スペース、句読点など)をシンボルとして扱いました。
言語のエントロピー推定手法
シャノンは、言語のエントロピーを推定するために、主に二つの異なるアプローチを用いました。一つは言語の統計的性質(文字の出現頻度、連鎖確率など)に基づくモデル化、もう一つは人間の予測能力を利用した実験的アプローチです。
1. 有限次近似による統計的推定
シャノンは、言語を n-次のマルコフ情報源として近似し、そのエントロピーを推定しました。 n-次のマルコフ情報源のエントロピー $H_n$ は、以下のように定義されます。
$$ H_n = - \sum_{x_1, \ldots, x_n, x_{n+1}} P(x_1, \ldots, x_n, x_{n+1}) \log_2 P(x_{n+1} | x_1, \ldots, x_n) $$
ここで $P(x_{n+1} | x_1, \ldots, x_n)$ は、直前の n 個のシンボル $x_1, \ldots, x_n$ が与えられた条件での、次のシンボル $x_{n+1}$ の条件付き確率です。$H_n$ は $n$ に対して単調非増加であり、$n \to \infty$ の極限で真のエントロピー $H$ に収束すると考えられます。
シャノンは、実際の英文テキストを用いて、0次(無記憶)、1次、2次といった比較的低い次のマルコフ近似に基づいたエントロピーを計算しました。 * 0次近似 ($H_0$): 各文字が独立に出現すると仮定。出現頻度のみに基づいてエントロピーを計算。これは各文字の独立確率分布のエントロピーに等しい。 $H_0 = - \sum_i p_i \log_2 p_i$ * 1次近似 ($H_1$): 各文字が直前の1文字にのみ依存すると仮定。二文字の遷移確率(条件付き確率)に基づいてエントロピーを計算。 $H_1 = - \sum_{i,j} p(x_i, x_j) \log_2 p(x_j | x_i)$ * n次近似 ($H_n$): 各文字が直前のn文字に依存すると仮定。n+1文字の連鎖確率に基づいてエントロピーを計算。
これらの計算は、当時の計算リソースでは大規模なコーパスが必要でしたが、シャノンは限られたデータと手計算、あるいは原始的な計算ツールを用いてこれらの統計量を推定しました。得られた $H_n$ の値は、$n$ が増えるにつれて減少していき、言語における統計的依存関係を考慮することで不確かさが減少することを示しました。しかし、高次の統計量はデータが不足するため、この手法だけでは真のエントロピー $H$ を正確に推定するのは困難でした。
2. 人間の予測能力を用いた実験的推定
シャノンの研究の最も独創的な部分の一つは、人間の予測能力を利用して言語のエントロピーを推定する実験手法を考案したことです。彼は、被験者に対して英文テキストの断片を見せ、次に続く文字を予測させる実験を行いました。
実験手順は以下のようになります。 1. 被験者にある英文テキスト(例えば、"INFORMATION THEO")を見せる。 2. 次に続く文字(この例では "R")を予測させる。 3. 被験者が予測に成功するまで、繰り返し異なる文字を提示させる。 4. 正解するまでにかかった試行回数を記録する。
もし被験者が正しい文字を r 回目の試行で予測した場合、これは被験者が次に続く文字候補に順序を付け、正しい文字が確率的な意味で r 番目に尤もらしいと判断したことに対応します。シャノンは、このような予測実験の結果を統計的に分析し、特定の文脈(先行するテキスト断片)が与えられたときに、次に続く文字の予測可能な部分、すなわち不確かさの削減量を測定しました。
シャノンは、被験者の予測性能が高いほど、その文脈における次の文字の条件付き不確かさが低いことを示唆すると考えました。具体的には、彼は予測実験の結果を用いて、ある文脈 $s_1, \ldots, s_n$ の後に続く文字 $x$ の条件付き確率分布 $P(x | s_1, \ldots, s_n)$ を間接的に推定できると考えました。そして、この推定された条件付き確率分布から、1文字あたりのエントロピーの上限と下限を導出しました。
予測実験の結果に基づき、シャノンは印刷された英文の1文字あたりのエントロピーが、およそ 0.6〜1.3 ビット の間にあると推定しました。この値は、単純な文字出現頻度(0次近似)から計算される約4.03ビットや、1次近似から計算される約3.3ビットと比較して格段に低い値であり、言語に含まれる強い統計的依存性、すなわち高い冗長性を示しています。
冗長性と予測可能性
情報源のエントロピーがその情報源の持つ不確かさであるのに対し、冗長性 (Redundancy) は、実際のエントロピーとその情報源が持ちうる最大エントロピー(全てのシンボルが出現確率が等しく、無記憶であるとした場合のエントロピー、つまりアルファベットサイズの対数)との差として定義されます。アルファベットサイズを $A$ とすると、最大エントロピーは $\log_2 A$ です。英文のアルファベット数(スペース含む)は約27であるため、最大エントロピーは約 $\log_2 27 \approx 4.76$ ビットです。
シャノンの推定によれば、英文のエントロピーは約 1 ビット程度です。これは、英文が約 $4.76 - 1 = 3.76$ ビット/シンボルの冗長性を持っていることを意味します。言い換えれば、英文の約 $3.76 / 4.76 \approx 79\%$ は統計的な依存関係によって決定されており、真に予測不可能な情報は約 21% しかないということになります。
この高い冗長性は、通信路におけるノイズに対する耐性や、文脈からの補完、あるいは暗号解読において非常に重要な役割を果たします。冗長性がなければ、わずかなエラーがメッセージ全体の復元を不可能にするでしょう。また、人間の読書においても、ある程度の文字が欠落していても文脈から内容を推測できるのは、言語の持つ冗長性のおかげです。
歴史的意義と現代への示唆
シャノンの「予測とエントロピー」に関する研究は、いくつかの点で画期的なものでした。
- 言語の情報理論的分析の先駆け: 人間の言語という複雑なシステムを、情報源というフレームワークで捉え、その統計的性質を定量的に分析しようとした最初の試みの一つです。
- エントロピー推定手法の提案: 統計的モデル化だけでなく、人間の認知プロセス(予測)を利用した実験的なエントロピー推定手法を開発したことは、情報理論の応用範囲の広さを示すものです。
- 言語における冗長性の定量化: 言語が持つ高い冗長性を初めて定量的に示し、その後の情報圧縮や自然言語処理の研究に大きな影響を与えました。
この研究は、その後の統計的自然言語処理研究の基礎となる考え方を提供しました。言語モデルとは、基本的に「ある文脈が与えられたときに、次にどのような単語や文字が出現しやすいか」という確率分布をモデル化することです。シャノンが有限次マルコフ近似や人間の予測実験で行ったことは、まさにこの言語モデルの初期的な試みであったと言えます。
現代の自然言語処理におけるニューラルネットワークに基づく確率的言語モデル(RNN, LSTM, Transformerなど)は、シャノンが扱ったマルコフモデルよりも遥かに長距離の依存関係を捉えることができますが、その根本にある思想は、言語を確率的な情報源としてモデル化し、次に続く要素の条件付き確率を推定するというシャノンのフレームワークに通じるものがあります。これらの高度なモデルも、結局のところ、言語の統計的構造を学習し、そのエントロピーをより正確に推定しようとする試みであると解釈できます。
また、シャノンのエントロピー概念は、データ圧縮の理論的限界を示唆するものです。情報源符号化定理によれば、可逆圧縮の限界はその情報源のエントロピーによって与えられます。シャノンが英文のエントロピーを推定したことは、英文の理論的な圧縮限界を示唆するものであり、その後のテキスト圧縮アルゴリズムの開発に影響を与えました。例えば、算術符号化のような文脈に応じた符号化手法は、シャノンが分析した条件付き確率に基づいて符号を割り当てることで、言語の冗長性をより効率的に除去することを目指しています。
まとめ
クロード・シャノンによる「予測とエントロピー」の研究は、単に情報理論の理論的な枠組みを示すだけでなく、それを具体的な情報源である人間の言語に応用し、その本質的な統計的性質を明らかにした画期的な業績です。有限次マルコフ近似による統計的分析と、人間の予測能力を利用した独創的な実験的手法を組み合わせることで、シャノンは英文のエントロピーが非常に低い値であり、高い冗長性を持っていることを示しました。
この研究は、情報理論が通信工学だけでなく、言語学、認知科学、そして後の自然言語処理といった多様な分野に深い影響を与えうることを示しました。現代の確率的言語モデルや高度なデータ圧縮技術は、シャノンがこの研究で示唆した言語の統計的構造とエントロピーという概念の上に成り立っていると言っても過言ではありません。シャノンの研究は、複雑に見える情報源も、統計的な観点から分析することで、その構造と情報量を理解できることを示唆しており、情報科学における基本的な考え方の一つとして、現在でもその重要性を失っていません。
シャノンの原論文「Prediction and Entropy of Printed English」は、その数学的な厳密さだけでなく、実験デザインの巧妙さにおいても学ぶべき点が多く含まれています。情報源のエントロピーと言語の構造、そして人間の予測能力の間の関係を探求したこの研究は、情報科学分野の研究者にとって、情報理論の応用と可能性を深く理解するための貴重な出発点となるでしょう。