シャノン研究ノート

クロード・シャノンの言語分析:『Prediction and Entropy of Printed English』における予測とエントロピーの推定手法

Tags: 情報理論, エントロピー, 言語処理, 自然言語処理, 統計的分析

はじめに

クロード・シャノンの1948年の画期的な論文『A Mathematical Theory of Communication』は、情報理論という新しい分野を確立しました。この理論は、通信システムの基本的な限界と可能性を数学的に記述する枠組みを提供しました。情報源符号化定理やチャネル符号化定理といった主要な成果は、その後の情報通信技術の発展に不可欠な基盤となっています。

しかし、シャノンの研究は抽象的な数学理論に留まらず、具体的な情報源、特に言語の性質を情報理論の観点から分析することにも積極的に取り組みました。本記事で焦点を当てるのは、彼の1951年の論文『Prediction and Entropy of Printed English』です。この論文は、情報理論で定義される「エントロピー率」という概念を、実際の「印刷された英語」という情報源に対して適用し、その統計的性質を定量的に明らかにしようとしたものです。

この研究は、情報源のエントロピー率を推定するための独創的な手法を提示し、言語が持つ冗長性の度合いを初めて具体的な数値で示しました。また、単なる統計的分析に留まらず、人間の予測能力を用いた実験を取り入れている点も特徴的です。本記事では、この論文の内容を掘り下げ、シャノンが用いた分析手法、得られた結果、そしてそれが現代の情報科学、特に自然言語処理分野に与えた影響について考察します。

情報源のエントロピー率と予測可能性

シャノンの情報理論において、情報源は確率過程としてモデル化されます。情報源符号化の目的は、この情報源から生成されるメッセージを、できるだけ少ないビット数で表現すること、すなわち圧縮することです。情報源符号化定理によれば、完全に可逆な圧縮の理論的な限界は、情報源のエントロピー率 $H_{\infty}$ によって与えられます。

離散的な確率過程 ${X_i}{i=1}^{\infty}$ で生成される情報源のエントロピー率 $H{\infty}$ は、以下のように定義されます。

$$H_{\infty} = \lim_{n \to \infty} \frac{1}{n} H(X_1, X_2, \dots, X_n)$$

ここで、$H(X_1, \dots, X_n)$ は $n$ 個のシンボルの結合エントロピーです。定常エルゴード情報源の場合、$H_{\infty}$ はまた、次の条件付きエントロピーの極限としても定義されます。

$$H_{\infty} = \lim_{n \to \infty} H(X_n | X_{n-1}, \dots, X_1)$$

この条件付きエントロピー $H(X_n | X_{n-1}, \dots, X_1)$ は、過去の $n-1$ 個のシンボルが与えられた場合に、次のシンボル $X_n$ が持つ不確実性の平均を表します。エントロピー率が低いほど、過去のシンボルから次のシンボルを予測しやすくなり、情報源には高い冗長性があることになります。逆に、エントロピー率が高い(最大エントロピーに近い)情報源は、各シンボルが独立かつ均一に出現するようなランダムな情報源に近く、予測が難しくなります。

シャノンの『Prediction and Entropy of Printed English』論文の目的は、このエントロピー率 $H_{\infty}$ を、実際の情報源である「印刷された英語」に対して推定することでした。アルファベット(文字、スペース、句読点など)のサイズを $|A|$ とすると、各シンボルが独立かつ均一に出現する場合のエントロピー率の最大値は $\log_2 |A|$ ビット/シンボルとなります。実際の言語は高い構造(文法、語彙、意味など)を持っているため、この最大値よりもはるかに低いエントロピー率を持つはずです。シャノンはこのエントロピー率を推定することで、英語が持つ冗長性の度合いを定量化しようとしました。

論文におけるエントロピー率の推定手法

シャノンは、印刷された英語のエントロピー率を推定するために、主に二つの異なるアプローチを用いました。

  1. Nグラム統計に基づく推定: このアプローチは、言語を有限次のマルコフ情報源として近似し、過去の $N-1$ 個のシンボル($N-1$ グラム)が与えられた条件下での次のシンボルの条件付き確率を統計的に推定するものです。エントロピー率は、このような条件付きエントロピーの極限として定義されるため、有限の $N$ に対して $H_N = H(X_n | X_{n-1}, \dots, X_{n-N+1})$ を計算することで、$H_{\infty}$ を近似的に推定できます。

    具体的には、大量の英文テキストから、特定の $N-1$ グラムに続く各シンボルの出現頻度を数え上げ、条件付き確率 $P(x_n | x_{n-1}, \dots, x_{n-N+1})$ を推定します。そして、これらの確率を用いて条件付きエントロピー $H_N$ を計算します。

    $$H_N = - \sum_{x_{n-N+1}, \dots, x_n} P(x_{n-N+1}, \dots, x_n) \log_2 P(x_n | x_{n-N+1}, \dots, x_{n-1})$$

    シャノンは、0次から高次のNグラム(文字レベル、単語レベル)に基づく統計的推定を行いました。0次近似は各文字が独立に出現する場合、1次近似はマルコフ過程(前の文字のみに依存)、2次近似は2文字前に依存、といった具合です。Nを大きくするにつれて、モデルはより正確になり、推定されるエントロピーは真の値に近づくと期待されます。しかし、Nを大きくすると、統計的に信頼できる確率を推定するために必要なテキスト量が指数関数的に増加するという課題があります。

  2. 人間による予測実験に基づく推定: これはシャノンの論文の最もユニークな点の一つです。彼は、人間の被験者に英文のテキストの一部を見せ、次に続く文字を予測させる実験を行いました。例えば、ある単語の最初の数文字だけを見せ、「次にくる文字は何ですか?」と尋ねる、といった具合です。

    実験手順は以下のようでした。被験者にテキストの一部(例えば、最初のいくつかの単語)が与えられます。次に、そのテキストの次の文字を予測するように求められます。被験者が予測を外した場合、正解が知らされ、その情報を基にさらに次の文字を予測します。このプロセスを繰り返します。

    この実験の背後にある考え方は、人間が言語の統計的構造を implicitly に学習しており、その構造を利用して次の文字を予測しているというものです。予測が容易な箇所(つまり、次の文字の確率分布が非常に偏っている箇所)では、人間は高い精度で予測に成功します。予測が難しい箇所(つまり、次の文字の選択肢が多く、それぞれの確率が比較的均等である箇所)では、予測は失敗しやすくなります。

    シャノンは、予測の成功・失敗の確率を用いて、条件付きエントロピーを推定できると考えました。具体的には、ある文脈 $C$ が与えられたときに、次に続く文字 $x$ の確率 $P(x|C)$ を人間が implicit に知っていると仮定します。被験者が文字 $x$ を予測する確率を $q(x|C)$ とします。もし人間が optimal に予測を行うならば、$q(x|C)$ は $P(x|C)$ に近いと考えられます。

    シャノンは、特に、被験者が次にくる文字の可能性のある選択肢を、最も可能性の高いものから順にリストアップさせる実験を行いました。被験者が $k$ 回目の試行で初めて正解にたどり着いた場合、それは真の確率分布において、その文字が $k$ 番目に確率の高い文字であったことを示唆します。このデータから、真の確率分布に関する情報を得て、エントロピーを推定しました。より洗練された手法として、被験者が「次にくる文字は何ですか?」と尋ねられた際に、複数の選択肢に対して確率を割り振る(例えば、「Eである確率は0.3、Tである確率は0.2…」といった形で)実験も考えられますが、シャノンはよりシンプルな予測成功率に基づく手法を用いました。

    この人間実験に基づく推定は、Nグラム統計では捉えきれない、より長距離の依存関係や意味的な情報を含む言語の構造を反映していると考えられます。

得られた結果とその解釈

シャノンはこれらの手法を用いて、印刷された英語のエントロピー率を推定し、驚くべき結果を得ました。

これらの結果が示した最も重要な点は、印刷された英語が非常に高い「冗長性」を持っているということです。冗長度 (Redundancy) は、最大エントロピー率と実際のエントロピー率の差を最大エントロピー率で割ったものとして定義できます。シャノンの推定によれば、英語の冗長度は約50%程度、あるいはそれ以上である可能性が示されました。つまり、英語のテキストの約半分は、情報理論的な観点からは予測可能であり、圧縮によって取り除くことができる「余分な」情報であるということです。

この冗長性は、通信システムにおいては効率を低下させる要因となりますが、同時にノイズが存在する場合でもメッセージを理解可能にする上で非常に重要な役割を果たします。例えば、誤字脱字があっても意味を理解できるのは、言語が持つ冗長性のおかげです。

歴史的意義と現代への影響

シャノンの『Prediction and Entropy of Printed English』は、情報理論の概念を具体的な応用領域である言語に適用した初期の成功例であり、その後の多くの研究に影響を与えました。

  1. 統計的言語モデルの基礎: Nグラム統計によるエントロピー推定は、現代の自然言語処理において広く用いられる「統計的言語モデル」の基礎を築きました。Nグラムモデルは、音声認識、機械翻訳、スペル訂正、テキスト生成など、様々な応用で使用されています。シャノンの研究は、これらのモデルが言語の統計的構造を捉えることで、予測や生成タスクにおいて有効であることを理論的・実験的に示しました。
  2. 情報源符号化(データ圧縮): 言語の高い冗長性を定量的に示したことは、テキストデータの圧縮技術の開発を促進しました。ハフマン符号化や算術符号化といったエントロピー符号化手法は、シャノンの情報源符号化定理に基づき、情報源のエントロピーに近いレートでの圧縮を目指します。言語のエントロピー率が低いという事実は、テキスト圧縮が高い圧縮率を実現可能であることを示唆しました。
  3. 人間の情報処理との関連: 人間による予測実験は、認知科学や心理学の分野にも示唆を与えました。人間がどのようにして言語の統計的性質を学習し、予測に利用しているのかという問題は、その後の人間の情報処理能力に関する研究にもつながっています。
  4. 情報理論と言語学の連携: この論文は、情報理論と言語学という異なる分野間の連携を促しました。情報理論の概念や手法が、言語の構造や統計的性質を分析するための強力なツールとなり得ることが示されました。

現代の自然言語処理では、Nグラムモデルはニューラルネットワークに基づくより高度な言語モデル(リカレントニューラルネットワーク、トランスフォーマーなど)に取って代わられつつあります。これらのモデルは、より長距離の依存関係を捉え、より正確な言語の確率モデルを構築することができます。しかし、これらの現代的なモデルも、根本的にはシャノンの情報源のエントロピー率をより正確に推定し、言語の予測や生成を行うという目的においては、シャノンの研究が示した方向性の延長線上にあると言えます。

まとめ

クロード・シャノンの論文『Prediction and Entropy of Printed English』は、情報理論の基礎概念であるエントロピー率を、具体的な情報源である印刷された英語に適用し、その冗長性を定量的に分析した画期的な研究でした。Nグラム統計と人間による予測実験という二つの異なる手法を用いることで、シャノンは英語のエントロピー率が理論上の最大値よりもはるかに低いことを示し、言語の高い冗長性を明らかにしました。

この論文は、情報源符号化の理論的基盤を提供するだけでなく、統計的言語モデルの黎明期を築き、その後の自然言語処理やデータ圧縮技術の発展に大きな影響を与えました。現代の高度な言語モデルも、シャノンのこの先駆的な研究によって示された、言語を確率過程として捉え、その統計的性質を利用して予測や生成を行うという基本的な思想の上に成り立っています。

シャノンのこの研究は、抽象的な数学理論が現実世界の複雑な現象を理解し、応用技術を生み出す上での強力なツールとなり得ることを改めて示しており、情報科学の研究者にとって今なお学ぶべき点の多い古典と言えるでしょう。

ここで、もし読者が論文に用いられた具体的な数式や実験の詳細にさらに興味を持たれるようであれば、原論文『Prediction and Entropy of Printed English』の参照をお勧めいたします。