シャノン情報理論における予測可能性定理:定常確率過程の予測誤差とエントロピー率の関係
シャノン情報理論における予測可能性定理:定常確率過程の予測誤差とエントロピー率の関係
情報理論の創始者であるクロード・シャノンは、通信路における情報伝送の限界を明らかにしただけでなく、情報源が持つ統計的な性質についても深く考察しました。特に、情報源から生成される系列の「予測可能性」と、その情報源のエントロピー率との間に、理論的な関係があることを示唆しました。本稿では、シャノンの情報源予測可能性定理に焦点を当て、定常確率過程における最良予測の平均二乗誤差とエントロピー率がどのように関連づけられるのかを、その数学的側面から掘り下げて解説いたします。
情報源の予測可能性は、データ圧縮や信号処理、時系列分析、そして自然言語処理など、多くの分野における基礎的な課題です。系列データがどれだけ予測可能であるかは、そのデータに含まれる「情報量」に強く依存すると直感的に理解できます。情報量が少なければ(つまり、不確実性が低ければ)、系列はより予測しやすくなるはずです。シャノンの情報理論は、この直感を「エントロピー率」という概念を用いて定量的に捉える枠組みを提供しました。
定常確率過程としての情報源とエントロピー率
情報源は、時間的に発展する確率変数系列 ${X_t}_{t \in \mathbb{Z}}$ としてモデル化されることが一般的です。特に、統計的な性質が時間によって変化しない「定常確率過程」は、情報理論において基本的な情報源モデルとなります。離散時間・離散値(アルファベット $\mathcal{X}$ 上の値をとる)の定常確率過程 ${X_t}$ のエントロピー率 $H({X_t})$ は、以下のように定義されます。
$$ H({X_t}) = \lim_{n \to \infty} \frac{1}{n} H(X_1, X_2, \dots, X_n) $$
ここで $H(X_1, \dots, X_n)$ は結合エントロピーです。定常エルゴード過程の場合、このエントロピー率は、長い系列におけるシンボルあたりの平均情報量、あるいは情報源の生成する系列が持つ本質的なランダム性の度合いを示す指標となります。
予測問題の定式化
時刻 $t$ における確率変数 $X_t$ を、過去の観測値 $X_{t-1}, X_{t-2}, \dots$ に基づいて予測することを考えます。予測値 $\hat{X}t$ は、過去の無限長の系列 $X{-\infty}^{t-1} = (\dots, X_{t-2}, X_{t-1})$ の関数として与えられます。つまり、$\hat{X}t = f(X{-\infty}^{t-1})$ です。情報源が定常過程である場合、予測関数 $f$ は時間不変であると仮定できます。
予測の精度を評価するためには、誤差基準が必要です。ここでは、シャノンが主に考察した平均二乗誤差 (Mean Squared Error, MSE) を用います。予測誤差は $e_t = X_t - \hat{X}_t$ であり、その平均二乗誤差は $E[e_t^2] = E[(X_t - \hat{X}_t)^2]$ です。我々が関心を持つのは、可能なすべての予測関数 $f$ の中で、この平均二乗誤差を最小にする「最良予測」を行った場合の最小平均二乗誤差です。定常過程の場合、この最小平均二乗誤差は時間 $t$ に依存しません。
$$ \sigma^2 = \min_{f} E[(X_t - f(X_{-\infty}^{t-1}))^2] $$
この最小平均二乗誤差 $\sigma^2$ は、過去の情報から $X_t$ がどれだけ予測できないか、すなわち $X_t$ に含まれる新規な情報量と関連すると期待されます。
シャノンによる予測可能性定理とその核心
シャノンは、情報源のエントロピー率 $H({X_t})$ と、最良予測による最小平均二乗誤差 $\sigma^2$ の間に、ある重要な関係が存在することを示しました。この関係は、連続値情報源(確率変数 $X_t$ が実数値をとる場合)に対してより直接的に定式化されますが、離散値情報源の場合も、適切な条件下で類似の関係が成立します。
連続値定常確率過程の場合、シャノンは以下の関係を示唆しました(しばしば「予測可能性定理」あるいは「情報源符号化定理の逆」の文脈で言及されます)。適切な条件下(例えば、過程がガウス過程である場合)、最小平均二乗誤差 $\sigma^2$ と微分エントロピー率 $h({X_t})$ の間には密接な関係があります。より一般的な非ガウス過程に対しても、シャノンは次のような形式の関係を導き出しました(これはワイナー・コモゴロフの線形予測理論における結果を、非線形予測の場合に拡張するものとして理解できます)。
最小平均二乗誤差 $\sigma^2$ と情報源のエントロピー率 $H({X_t})$ (または微分エントロピー率 $h({X_t})$) の関係は、特にガウス過程の場合に明確になります。ガウス過程は、その統計的性質が平均と共分散関数によって完全に特徴づけられるため、線形予測が最良予測となります。この場合、最小平均二乗誤差は予測誤差の分散 $\sigma_e^2$ に等しく、情報源のエントロピー率は $h({X_t}) = \frac{1}{2}\log(2\pi e \sigma_e^2)$ のような形で関連づけられます。これから、$\sigma_e^2$ はエントロピー率から計算できます。
シャノンの一般的な非線形予測に関する考察は、『Mathematical Theory of Communication』のPart III Section 23「Predicting a process」および Section 24「The entropy of a continuous process」で展開されています。彼は、過去の観測値から将来の値を予測する最良の(任意の非線形な)予測器を考えた場合、予測誤差の分散 $\sigma^2$ は、その情報源の持つ不確実性、すなわちエントロピー率と関連することを示しました。具体的には、予測誤差の分布のエントロピーは、元の情報源のエントロピー率によって下限が与えられるという性質が導かれます。そして、平均二乗誤差 $\sigma^2$ は、予測誤差の分布の微分エントロピーに関連づけられるため、結果として $\sigma^2$ はエントロピー率に結びつくことになります。
定理の核心は、情報源の持つ「予測不可能な部分」が、その情報源の持つ情報量、すなわちエントロピー率によって定量化されるという点にあります。エントロピー率が高い情報源ほど、将来のシンボルが過去から独立して決定される傾向が強く、予測誤差の最小値が大きくなります。逆に、エントロピー率が低い情報源(例えば、強い相関や冗長性を持つ情報源)は、過去の情報から将来を高い精度で予測できるため、予測誤差の最小値は小さくなります。
歴史的背景と意義
シャノンの予測可能性に関する考察は、当時の時系列分析や信号処理の分野で発展していた線形予測理論(ノルベルト・ワイナーやアンドレイ・コモゴロフによるもの)と深く関連しています。シャノンは、これらの線形予測の枠組みを乗り越え、任意の非線形な予測器を用いた場合であっても、情報理論的な限界が存在することを示しました。
この定理の意義は、情報源の統計的性質と、その情報源からどれだけの情報を取り出して予測に利用できるかという予測性能の間に、普遍的な関係を確立した点にあります。これは、情報源符号化において、情報源のエントロピー率が圧縮率の理論的限界を与えることと並行して、予測の限界がエントロピー率によって与えられることを示したものです。
現代における位置づけと応用
シャノンの予測可能性に関する洞察は、現代の多くの技術や理論の基盤となっています。
- 時系列分析と信号処理: エントロピー率を推定することで、時系列データの持つ予測不可能性を定量的に評価できます。これは、モデル選択や異常検知などに応用されます。
- データ圧縮: 予測可能な部分は効率的に符号化(圧縮)できるという原則は、予測符号化(Predictive Coding)など、多くのロスレス圧縮手法の基礎となっています。予測誤差(予測できなかった部分)のみを符号化することで、高い圧縮率を達成します。
- 機械学習: 特にリカレントニューラルネットワーク(RNN)やTransformerのような系列モデルは、本質的に時系列データの予測を行っています。シャノンの定理は、これらのモデルが達成できる予測性能の理論的な限界を示唆するものとして捉えることができます。エントロピー率の低いデータ(例:構造化されたテキスト、規則的な時系列)は高精度に予測できますが、エントロピー率の高いデータ(例:真にランダムなノイズ、非常に複雑なカオス時系列)は、過去の情報をどれだけ多く用いても予測が本質的に困難であることを示しています。
- 情報量規準: 赤池情報量規準(AIC)などに代表される情報量規準は、モデルの予測誤差と複雑さのバランスをとるためのフレームワークを提供しますが、ここでも情報源のエントロピーや相対エントロピーの概念が重要な役割を果たします。
結論
クロード・シャノンによる情報源予測可能性定理は、定常確率過程の持つ内包的な不確実性であるエントロピー率が、過去の観測に基づく最良予測が避けられない平均二乗誤差の限界と密接に関連していることを示しています。この定理は、情報源の統計的構造とその予測限界を結びつける情報理論の基本的な成果の一つであり、時系列分析、データ圧縮、信号処理、そして現代の機械学習における系列予測など、幅広い分野において理論的な指針を与えています。情報源がどれだけ予測可能であるかという問いに対するシャノンの回答は、情報源のエントロピー率を計算することによって得られる、普遍的かつ定量的な洞察であったと言えるでしょう。
参考文献(例示)
- Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal, 27(3), 379-423; 27(4), 623-656. (Part III, Sections 23, 24などを参照)
- Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley-Interscience. (Chapter 11, Chapter 13などを参照)
- Gray, R. M. (2011). Entropy and Information Theory (2nd ed.). Springer. (Chapter 6などを参照)
本稿は、シャノンの原論文および情報理論の標準的な教科書に基づき、予測可能性定理の核心部分を解説したものです。定理の厳密な証明や詳細な条件については、上記の参考文献などを参照いただくことを推奨いたします。