シャノン研究ノート

クロード・シャノンによる情報理論と統計的モデル選択:情報量規準におけるエントロピーと相対エントロピーの役割

Tags: 情報理論, 統計学, モデル選択, エントロピー, 相対エントロピー

はじめに:情報理論と統計的推論の交差点

クロード・シャノンが1948年に発表した記念碑的な論文『A Mathematical Theory of Communication』は、情報量の概念を確率論的に定義し、通信システムにおける情報伝送の限界を明らかにしました。この理論は、その当初の目的であった通信工学や符号化理論に加えて、統計学、機械学習、神経科学など、幅広い分野に深い影響を与えています。本稿では、特に統計的推論における重要な問題であるモデル選択に焦点を当て、シャノンの情報理論がどのようにその理論的基盤を形成し、Akaike Information Criterion (AIC) や Bayesian Information Criterion (BIC) といった情報量規準の理解に貢献しているかを掘り下げます。

統計的モデリングにおいて、複数の候補モデルの中から最適なモデルを選択することは中心的な課題の一つです。モデルは観測されたデータがどのように生成されたかを説明しようとしますが、過度に複雑なモデルはノイズまで学習してしまい(過学習)、未知のデータに対する予測性能が低下する傾向があります。一方、単純すぎるモデルはデータの構造を十分に捉えられません。このモデルの複雑さとデータへの適合度の間のトレードオフをいかに定量的に評価し、バランスの取れたモデルを選択するかは、統計学者やデータ科学者にとって長年の問題でした。

シャノンの情報理論が提供するエントロピーや相対エントロピー(カルバック・ライブラー情報量)といった概念は、このモデル選択問題に対して情報理論的な視点からの基礎を与えました。特に、情報源符号化におけるデータ圧縮の原理は、データから効率的に情報を抽出するためのモデル化と深く関連しています。次章以降では、これらの情報理論的な概念がモデル選択規準にどのように結びつくのかを詳細に見ていきます。

シャノン情報理論における関連概念:エントロピー、相対エントロピー、そしてAEP

モデル選択における情報理論の役割を理解するためには、シャノンの主要な概念を再確認することが不可欠です。

エントロピー

離散確率変数 (X) のエントロピー (H(X)) は、その変数の持つ不確実性の平均量を表します。確率分布 (P(x)) に対して、以下のように定義されます。

[ H(X) = - \sum_x P(x) \log_b P(x) ]

ここで、(b) は対数の底であり、情報量の単位をビット((b=2))やナット((b=e))で測るかによって選択されます。エントロピーは、ある確率分布に従うデータ源から生成されるシンボルを符号化する際に、シンボルあたりに平均して必要となる最小の符号長(理想的なデータ圧縮率)を与えます。情報源のエントロピー率 (h) は、確率過程 (X_1, X_2, \dots) が生成するシンボルの系列において、(n) 個のシンボルの結合エントロピー (H(X_1, \dots, X_n)) を (n) で割った値の (n \to \infty) での極限として定義され、定常エルゴード情報源においては、(h = \lim_{n\to\infty} \frac{1}{n} H(X_1, \dots, X_n) = \lim_{n\to\infty} H(X_n | X_1, \dots, X_{n-1})) となります。これは、情報源の持つ固有の不確実性、すなわち圧縮できない最小レートを示します。

相対エントロピー(カルバック・ライブラー情報量)

二つの確率分布 (P(x)) と (Q(x)) の間の相対エントロピー(またはカルバック・ライブラー情報量、KLダイバージェンス)(D(P || Q)) は、分布 (Q) を用いて分布 (P) に従うデータを符号化する際に、分布 (P) を用いる場合に比べて平均して余計に必要となる符号長を表します。

[ D(P || Q) = \sum_x P(x) \log_b \frac{P(x)}{Q(x)} ]

これは常に非負であり、(D(P || Q) = 0) となるのは (P=Q) のときに限られます(ギブスの不等式)。KLダイバージェンスは分布間の「距離」のようなものと解釈されることがありますが、厳密な距離の定義を満たしません(非対称性、三角不等式不成立)。しかし、あるモデル (Q) が真のデータ生成分布 (P) をどれだけ良く近似しているかを示す指標として非常に有用です。モデル選択においては、候補モデルの分布が真の分布からどれだけ「離れている」かを評価するために利用できます。

漸近等分割性 (Asymptotic Equipartition Property, AEP)

AEPは、シャノン情報理論の根幹をなす重要な性質です。定常エルゴード情報源から生成される十分長いシンボルの系列(典型系列)の確率は、ほぼ等しくなり、その確率は情報源のエントロピー率に関係することが示されます。具体的には、長さ (n) の系列 (x_1, \dots, x_n) に対して、その結合確率 (P(x_1, \dots, x_n)) は、ほとんどの場合 (b^{-n h}) に漸近的に等しくなります(ここで (h) はエントロピー率)。典型集合は、このような性質を持つ系列全体の集合であり、その要素数は約 (b^{nh}) となります。データが典型集合に属する確率は、(n) が大きくなるにつれて1に近づきます。

このAEPは、統計学において、観測されたデータが仮定した確率モデル(情報源モデル)から生成されたものかどうかを評価する際に、データの「典型的」なふるまいを理解するための理論的な根拠となります。モデルの尤度関数 (\log P(x_1, \dots, x_n)) は、(n) が大きいとき、真の情報源のエントロピー率 (h) に従って (-\frac{1}{n} \log P(x_1, \dots, x_n) \to h) となるという、エルゴード性の結果とAEPが密接に関連しています。

統計的モデル選択の課題と情報理論的視点

統計的モデル選択の基本的な考え方は、与えられたデータセットに対して、複数の統計モデルの候補の中から最も適切なものを選択することです。モデルの適切さは、通常、そのモデルがデータをどれだけうまく説明できるか(適合度)と、モデル自体の複雑さのバランスによって評価されます。

尤度最大化の限界

最尤推定は、観測されたデータのもとで、モデルのパラメータが最もらしい値を推定する強力な手法です。しかし、候補となるモデルクラスの複雑さが増すにつれて、最尤推定量は訓練データに対する尤度を最大化するために、データに含まれるノイズや偶発的なパターンまで捉えようとする傾向があります。その結果、訓練データには非常によく適合するものの、未知のデータに対する予測性能が劣化するという「過学習」の問題が生じます。

情報理論的視点:モデルをデータ圧縮器と見なす

ここで、情報理論的な視点が有用になります。統計モデルは、ある意味でデータ圧縮器と見なすことができます。良いモデルは、データの本質的な構造を捉えることで、そのデータを短い記述で表現することを可能にします。情報源符号化定理が示すように、データ系列を最も効率的に符号化するための平均符号長は、そのデータ源のエントロピー率に漸近的に等しくなります。これは、真のデータ生成分布を知っている場合に達成可能な理想的な圧縮率です。

未知のデータ生成分布 (P) に対して、候補モデル (Q_{\theta}) (パラメータ (\theta) を持つ)を用いてデータを符号化するとします。このとき、データ系列 (x_1, \dots, x_n) を符号化するために必要な平均符号長は、KLダイバージェンス (D(P || Q_{\theta})) に情報源のエントロピー率を加えたものに漸近的に比例します。

[ \text{Average Code Length} \approx H(P) + D(P || Q_{\theta}) ]

データ生成分布 (P) のエントロピー (H(P)) はモデルによらず一定であるため、平均符号長を最小化することは、KLダイバージェンス (D(P || Q_{\theta})) を最小化することと同義になります。つまり、最適なモデル選択とは、真のデータ生成分布 (P) を最も良く近似する候補モデル (Q_{\theta}) を見つける問題と捉えることができます。

情報量規準 (AIC, BIC) と情報理論の関連

Akaike Information Criterion (AIC)

AICは、日本の統計学者、赤池弘次氏によって1973年に提案された情報量規準です。その理論的背景には、情報理論的な損失関数としてKLダイバージェンスを考え、これを最小にするモデルを選択するという思想があります。

真のデータ生成分布を (P)、候補モデルによる分布を (Q_{\theta}) とします。我々の目標は (D(P || Q_{\theta})) を最小化することですが、(P) は未知です。AICは、尤度関数を用いてKLダイバージェンスを推定し、その推定値に基づいてモデルを評価します。特に、候補モデルが真の分布を含むクラスの一部であるという仮定のもとで、最尤推定量 (\hat{\theta}) を用いたモデル (Q_{\hat{\theta}}) と真の分布 (P) との間のKLダイバージェンスは、標本サイズ (n) が大きいとき、期待値として次のように近似できることが知られています(漸近的な性質)。

[ E[D(P || Q_{\hat{\theta}})] \approx E[- \log L(\hat{\theta})] + k ]

ここで、(L(\hat{\theta})) は最尤推定量における最大対数尤度、(k) はモデルが持つパラメータの数です。AICは、このKLダイバージェンスの推定値に基づき、次の形で定義されます。

[ \text{AIC} = -2 \log L(\hat{\theta}) + 2k ]

AICは、最大対数尤度(データの適合度を表す正の項)とパラメータ数(モデルの複雑さを表すペナルティ項)の和として表現されます。この形式は、データの適合度を高めるとパラメータ数が増加し、ペナルティが増えるというトレードオフを明示的に示しています。モデル選択においては、AICの値が最小となるモデルが最も良いモデルと判断されます。シャノンの相対エントロピーが、異なるモデル間の情報損失を定量化する概念として、AICの理論的な出発点となっているのです。特に、AICの導出には、最尤推定量の漸近的な性質や、KLダイバージェンスと対数尤度の関係といった、情報理論と統計的漸近論の深い関連性が活用されています。

Bayesian Information Criterion (BIC)

BICは、Gideon E. Schwarzによって1978年に提案されました。AICと同様に、最大対数尤度とモデルの複雑さに対するペナルティ項から構成されますが、ペナルティ項の形式が異なります。

[ \text{BIC} = -2 \log L(\hat{\theta}) + k \log(n) ]

BICは、ベイズ統計学の枠組みにおけるモデル選択(ベイズ因子)の漸近近似として導出されますが、情報理論的には最小記述長 (Minimum Description Length, MDL) 原理との関連が指摘されています。MDL原理は、「データをもっとも短く記述できる(符号化できる)モデルが最適である」という考え方に基づいています。データ系列を符号化するための符号長は、モデルを記述するための符号長と、そのモデルの下でデータを記述するための符号長の和として考えられます。MDL原理は、この合計符号長を最小化するモデルを選択します。シャノンの情報源符号化定理によれば、モデル (Q_{\theta}) の下でデータ (x_1, \dots, x_n) を符号化する理想的な符号長は (-\log Q_{\theta}(x_1, \dots, x_n)) に漸近的に等しくなります。BICのペナルティ項 (k \log(n)) は、モデルのパラメータを符号化するために必要な符号長に漸近的に対応すると解釈できます。

このように、BICもまた、シャノンの情報源符号化の考え方、すなわちデータを効率的に表現するという情報理論的な視点と深く関連しています。

現代における意義と応用

シャノンの情報理論は、AICやBICのような古典的な情報量規準の理論的基礎を提供しただけでなく、現代の統計学や機械学習においてもモデル選択や正則化手法、あるいは複雑なモデルの評価において重要な役割を果たしています。

例えば、機械学習における正則化は、モデルの複雑さを抑制し、過学習を防ぐための手法です。L1正則化がパラメータのスパース性を促進し、モデル選択の効果も持つことはよく知られていますが、これもまたMDL原理や情報理論的なモデル選択の考え方と関連づけて議論されることがあります。

また、変分オートエンコーダー (VAE) や生成モデルの学習においても、KLダイバージェンスは重要な役割を果たします。潜在変数モデルにおいて、近似事後分布と真の事後分布の間のKLダイバージェンスを最小化することは、データ生成分布をより良く近似することにつながります。これもまた、シャノンの相対エントロピーがモデルの良さを測る指標として活用されている例です。

さらに、情報ボトルネック理論など、現代の情報理論と機械学習の境界領域における研究も、シャノンの情報概念を基礎としています。情報ボトルネックは、入力変数と出力変数間の相互情報量を最大化しつつ、同時に表現変数のエントロピーを最小化することで、データから最も関連性の高い情報を抽出する原理を提供します。相互情報量もまた、シャノンの基本概念の一つであり、変数間の統計的依存性の強さを測る指標です。

結論

クロード・シャノンが創設した情報理論は、単に通信システムの効率と限界を論じるフレームワークに留まらず、その基本概念であるエントロピーや相対エントロピー、そして漸近等分割性といった性質は、統計学におけるモデル選択という中心的な問題に対して、深い理論的な洞察を与えました。AICやBICといった広く用いられる情報量規準は、情報理論的な損失関数(KLダイバージェンス)の最小化や、データ圧縮(MDL原理)という情報理論的な視点から理論的に裏付けられています。

シャノンの理論は、異なるモデルが真のデータ生成過程からどれだけ「情報的に」乖離しているかを定量化する手段を提供し、過学習を防ぎつつデータ構造を効率的に捉えるというモデル選択の目的と見事に合致しました。この情報理論と統計的推論の交差点は、現代のデータ科学や機械学習における多くの手法の基盤となっており、シャノンの業績の enduring な重要性を示す好例と言えるでしょう。今後も、情報理論的な視点は、より複雑なデータ構造やモデルに対する新たな統計的推論手法の開発において、重要な役割を果たし続けると考えられます。