シャノンの情報理論における確率過程とエルゴード性:理論体系を支える数学的基盤
はじめに
クロード・シャノンが1948年に発表した画期的な論文「A Mathematical Theory of Communication」は、通信システムにおける情報の定量化とその伝送に関する理論的基礎を確立しました。この理論体系を構築する上で不可欠であったのが、情報源や通信路を数学的に記述するための確率論的な枠組み、特に確率過程とエルゴード性の概念です。これらの概念は、情報源のエントロピーや通信路の容量といった情報理論の根幹をなす量を厳密に定義し、主要な定理(ソース符号化定理、チャネル符号化定理など)を証明するための基盤を提供しています。
本稿では、シャノンの情報理論における確率過程およびエルゴード性の役割と意義について深く掘り下げていきます。情報源やチャネルがどのように確率過程としてモデル化されるか、エルゴード性が情報理論においてなぜ中心的な役割を果たすのか、そしてこれらの概念がシャノンの理論体系をいかに強固なものにしているかについて解説いたします。
情報源とチャネルの確率過程モデル
シャノンの情報理論において、情報源は時間と共に記号系列や信号を生成するものとして捉えられます。また、通信路は入力信号を受け取り、ノイズを加えて出力信号を生成するものとしてモデル化されます。これらの動的なシステムを数学的に記述するために、シャノンは確率過程の概念を導入しました。
情報源としての確率過程
離散的な時間における情報源は、記号の列 $X_1, X_2, X_3, \dots$ を生成すると考えることができます。ここで、$X_i$ は各時刻 $i$ に生成される記号であり、取りうる値は有限または可算無限個のアルファベット集合 $\mathcal{X}$ の要素です。このような記号の列は、確率変数の列 $(X_i)_{i \in \mathbb{Z}}$ としてモデル化され、これは離散時間確率過程に他なりません。
情報源の重要な性質として、生成される記号系列の統計的な性質があります。シャノンは特に定常性を持つ情報源を基本モデルの一つとしました。定常情報源とは、時刻 $t$ から $t+k-1$ までの $k$ 個の記号の列 $(X_t, X_{t+1}, \dots, X_{t+k-1})$ の結合確率分布が、時刻 $t$ に依存せず、長さ $k$ とその列の内容のみに依存する確率過程です。すなわち、任意の $t_1, \dots, t_k$ と任意の遅延 $\tau$ に対して、$(X_{t_1}, \dots, X_{t_k})$ と $(X_{t_1+\tau}, \dots, X_{t_k+\tau})$ の結合確率分布が等しい場合、その確率過程は(狭義)定常であると言います。
さらに重要な概念として、エルゴード性があります。定常情報源がエルゴード性を持つ場合、時間平均が集合平均(期待値)に一致するという性質が成り立ちます。例えば、ある記号 'a' が出現する頻度を考えたとき、一つの非常に長い記号系列における 'a' の出現頻度(時間平均)は、同じ情報源から生成されうる全ての可能な記号系列を考えた場合の 'a' の期待される出現確率(集合平均)にほぼ等しくなります。情報源のエントロピーや、特定の系列が出現する確率の典型的な振る舞いを論じる上で、このエルゴード性は不可欠な仮定となります。後述する漸近等分割性 (AEP) は、定常エルゴード情報源の根幹をなす性質です。
シャノンは、最も単純な情報源として離散無記憶情報源を考えました。これは各時刻で生成される記号が互いに独立同分布 (i.i.d.) である確率過程です。これは定常であり、一般的にはエルゴード性も持ちます。より複雑な情報源としては、記号の生成が直前の記号に依存するマルコフ情報源などがあります。適切な条件の下で、既約かつ非周期的なマルコフ連鎖によって生成される情報源は、定常かつエルゴード的になります。
チャネルとしての確率過程
通信路(チャネル)もまた、確率過程を用いてモデル化されます。離散的な時間における通信路は、入力系列 $X_1, X_2, \dots$ に対して出力系列 $Y_1, Y_2, \dots$ を生成するものとして捉えられます。ノイズの存在により、出力 $Y_i$ は入力 $X_i$ および過去の入出力、あるいは外部からの干渉に依存する確率変数となります。チャネルは、入力確率過程 $(X_i)$ と出力確率過程 $(Y_i)$ の間の条件付き確率分布 $P(Y_i | X_j, Y_k, j \le i, k < i)$ などによって特徴づけられる結合確率過程としてモデル化されます。
最も基本的なチャネルモデルは離散無記憶チャネル (DMC) です。これは各時刻 $i$ における出力 $Y_i$ が、その時刻の入力 $X_i$ のみに依存し、過去の入出力に依存しないチャネルです。すなわち、 $P(Y_i | X_i, X_{i-1}, \dots, Y_{i-1}, \dots) = P(Y_i | X_i)$ が成り立ちます。さらに、チャネルの遷移確率 $P(Y_i=y | X_i=x)$ が時刻 $i$ に依存しない場合、チャネルは時間的に均一であると言えます。このようなDMCは、入力系列を確率過程 $(X_i)$、出力系列を確率過程 $(Y_i)$ と見なしたとき、特定の統計的性質を持つ確率過程として記述されます。
より複雑なチャネルとして、過去の入力や出力が現在の出力に影響を与える有記憶チャネルがあります。これは、例えば符号間干渉が存在するチャネルや、状態を持つチャネルなどが該当します。これらのチャネルも、より一般的な確率過程の枠組みを用いてモデル化されます。シャノンのチャネル容量定理は、当初は主に離散無記憶チャネルを対象としていましたが、その後の発展により、より広範な定常有記憶チャネルや連続値チャネルにも拡張されていきました。これらの拡張においても、確率過程の概念は基本的な記述言語として利用されます。
エルゴード性の情報理論における役割
エルゴード性は、シャノンの情報理論の定量的側面において極めて重要な役割を果たします。特に、情報源の持つ情報量(エントロピー率)や、通信路が伝送できる情報量(チャネル容量)といった概念を、実際のデータ系列や観測可能な信号に基づいて推定・定義することを可能にします。
時間平均と集合平均の一致
確率過程 $(X_i)$ において、ある関数 $f$ の時間平均は、長い系列 $(X_1, \dots, X_N)$ における $f(X_i)$ の平均値として定義されます。例えば、記号 $x$ の出現頻度は $\frac{1}{N} \sum_{i=1}^N \mathbf{1}_{X_i=x}$ で与えられます。一方、集合平均は期待値 $E[f(X_i)]$ です(定常であれば $i$ に依存しません)。エルゴード定理は、確率過程が定常かつエルゴード的であれば、ほとんど全ての系列に対して時間平均が集合平均に確率収束することを示します。
情報理論において、この一致は極めて強力です。 * 情報源のエントロピー率: 定常エルゴード情報源のエントロピー率は、長い記号系列 $(X_1, \dots, X_N)$ に対して、系列の同時確率の対数の負の平均 $-\frac{1}{N} \log P(X_1, \dots, X_N)$ の $N \to \infty$ とした時間平均極限として定義できます。エルゴード性により、この時間平均は情報源の統計的性質から定義される集合平均としてのエントロピー率に一致します。 * 相互情報量: チャネルにおける入力 $X$ と出力 $Y$ の間の相互情報量 $I(X;Y) = E[\log \frac{P(Y|X)}{P(Y)}]$ は集合平均です。エルゴード的なチャネルであれば、長い入出力系列ペア $(X_1, Y_1), \dots, (X_N, Y_N)$ から計算される経験的な相互情報量のような時間平均が、理論的な相互情報量に収束すると期待できます。
漸近等分割性 (AEP)
エルゴード性の最も直接的かつ強力な応用の一つが、シャノンが導入した漸近等分割性 (Asymptotic Equipartition Property; AEP) です。AEPは、定常エルゴード情報源によって生成される非常に長い記号系列は、統計的に「典型的な」系列と呼ばれる特定の性質を持つ系列の集合にほとんど確実に入り、その集合のサイズは情報源のエントロピー率 $H(X)$ によって $2^{NH(X)}$ 程度で与えられることを示します。具体的には、系列 $x_1, \dots, x_N$ の同時確率 $P(x_1, \dots, x_N)$ は、ほとんど全ての系列に対して $2^{-NH(X)}$ に漸近的に近づくことを示します($-\frac{1}{N} \log P(X_1, \dots, X_N) \to H(X)$ in probability)。
AEPは、情報源符号化定理の証明の核心をなします。データを圧縮するということは、長い系列をより短い符号語に対応させることですが、AEPによれば、符号化の対象とすべき「重要な」系列は典型集合に属する系列のみであり、その数は $2^{NH(X)}$ 個程度であるため、これらの系列を一意に区別するための符号語の平均符号長は $NH(X)$ ビットより小さくできない、すなわち平均符号長の下限が情報源のエントロピー率によって与えられることが示されます。
チャネル容量とエルゴード性
チャネル容量は、通信路が単位時間あたりに伝送できる情報の最大レートです。離散無記憶チャネル (DMC) の容量は、入力分布 $P(x)$ について相互情報量 $I(X;Y)$ を最大化することによって定義されます。$C = \max_{P(x)} I(X;Y)$。エルゴード性は、長い時間におけるチャネルの使用を考える上で重要になります。エルゴード的なチャネルでは、チャネルの統計的振る舞いが時間平均として安定しており、信頼性のある通信レートを定義するための基盤となります。
シャノンのチャネル符号化定理は、チャネル容量 $C$ 未満の任意のレート $R < C$ で、非常に小さな誤り確率で情報を確実に伝送できる符号が存在することを示します。この証明も、入力系列と出力系列の間の同時 typicality(典型性)といった概念に依存しており、これは情報源とチャネルを結合した確率過程のエルゴード的性質から導かれるものです。送信側は情報源を符号化し、チャネルを介して送信し、受信側は受け取った信号から元の情報を復号しますが、このプロセス全体の信頼性や効率性は、 underlying な確率過程モデルとエルゴード性の仮定なしには論じ得ません。
歴史的背景と現代への影響
シャノンが情報理論を構築した1940年代は、確率論、統計学、統計物理学の分野で確率過程に関する研究が活発に進められていた時期でした。特にノルベルト・ウィーナーは、確率過程に関する深い研究を行い、通信理論や制御理論への応用を模索していました。シャノンは、ウィーナーや他の研究者たちの成果を巧みに情報理論のフレームワークに取り入れました。エルゴード理論自体は、ボルツマンによる統計力学におけるエルゴード仮説に端を発し、数学的な定式化が20世紀初頭に進められていました。シャノンは、情報源やチャネルの長期的な振る舞いを分析する上で、時間平均がアンサンブル平均に一致するというエルゴード性の性質が極めて有用であることを見抜きました。
シャノンの情報理論における確率過程とエルゴード性の導入は、情報伝送や処理の問題を厳密な数学的枠組みで捉えることを可能にしました。これにより、理論的な限界を明確にし、具体的な符号化・復号化手法の設計に対する指針を与えることができました。
現代の情報科学においても、確率過程とエルゴード性は基本的なツールであり続けています。 * 時系列解析: 株価変動、音声信号、センサーデータなど、時間と共に変化するデータのモデリングには確率過程が必須です。 * 機械学習: 特に強化学習や深層学習における確率的勾配降下法、生成モデル(例:GAN, VAE)、系列データのモデリング(例:RNN, Transformer)など、多くの手法が確率過程や確率モデルに基づいています。エルゴード性は、学習アルゴリズムの収束性分析などにおいて重要な概念となり得ます。 * 通信システム: 無線通信におけるフェージングチャネル、ネットワークのトラフィックモデリングなど、現実の複雑な通信環境は確率過程として記述されます。 * 統計物理学: 情報理論は統計物理学とも深い関連があり、特に自由エネルギー、分配関数、相転移といった概念が情報理論の対応物(エントロピー、容量、相転移)と結びつけられています。この関連性においても、確率過程やエルゴード性は共通言語となります。
シャノンが情報理論の基礎に据えた確率過程とエルゴード性は、単なる数学的抽象化に留まらず、情報システムの本質的な性質を捉えるための極めて強力な概念であり、現代の情報科学の広範な分野でその重要性が再認識されています。
まとめ
本稿では、クロード・シャノンの情報理論における確率過程とエルゴード性の役割について解説しました。情報源や通信路を確率過程としてモデル化すること、そして特に定常性とエルゴード性の仮定が、情報理論における主要な概念であるエントロピー率やチャネル容量を厳密に定義し、漸近等分割性(AEP)や符号化定理といった中心的な結果を導出するための数学的基盤を提供していることを確認しました。
シャノンが確率過程とエルゴード性を情報理論に取り入れたことは、当時の最新の数学的知見を応用したものであり、情報伝送の限界を定量的に理解するための道を拓きました。これらの概念は、シャノンの理論体系の堅牢さを保証するだけでなく、現代の情報科学における様々な分野の発展においても基礎的な役割を果たし続けています。シャノンのオリジナルの論文を読む際には、その背後にある確率過程とエルゴード性の理解が、理論の深遠さをより一層 comprehend する上で不可欠であると言えるでしょう。