クロード・シャノン情報理論における非定常性:情報源モデルとその分析の課題
はじめに
クロード・シャノンがその記念碑的な論文『A Mathematical Theory of Communication』で確立した情報理論は、確率論を基盤として情報源と通信路を数学的にモデル化することから始まります。シャノンの理論の多くの中心的な結果、特に情報源符号化定理や通信路符号化定理は、情報源や通信路が時間的に統計的性質を変化させない「定常性」という性質、あるいはさらに強い「定常かつエルゴード性」という性質を仮定することが一般的です。
しかし、現実世界の情報源(例えば、音声、動画、自然言語、ネットワークトラフィック、生体信号など)は、しばしばその統計的性質が時間とともに変化する、すなわち非定常である場合があります。このような非定常情報源の情報理論的分析は、シャノンの基礎理論を出発点としつつも、新たな数学的課題を提起します。本稿では、シャノン情報理論の枠組みにおける非定常性の概念、その定義、そして非定常情報源の分析がもたらす理論的課題について論じます。
非定常情報源の定義とシャノンのエントロピー率
シャノンの情報理論における情報源は、一般に確率過程としてモデル化されます。離散時間情報源であれば、それは時間インデックス $t \in {1, 2, \dots}$ に対する確率変数系列 ${X_t}_{t=1}^{\infty}$ です。各 $X_t$ は有限または可算なアルファベット $\mathcal{A}$ から値を取るとします。
この確率過程が定常であるとは、任意の時間オフセット $\tau$ および任意の時刻 $t_1, \dots, t_k$ について、結合確率分布 $P(X_{t_1}=x_1, \dots, X_{t_k}=x_k)$ が $P(X_{t_1+\tau}=x_1, \dots, X_{t_k+\tau}=x_k)$ に等しいことを意味します。つまり、統計的性質が時間の平行移動に対して不変であるということです。
一方、非定常情報源は、この定常性の条件を満たさない確率過程です。例えば、信号の平均値や分散が時間とともに変化したり、状態間の遷移確率が時間依存的であったりする場合などがこれに該当します。
シャノンは、情報源の不確実性、ひいては圧縮の限界を示す指標として、エントロピー率 $H(\mathcal{S})$
を定義しました。離散時間情報源 $\mathcal{S} = {X_t}_{t=1}^{\infty}$ に対するエントロピー率は、長さ $n$ のブロックのエントロピー $H(X_1, \dots, X_n)$
を用いて、以下のように定義されます。
$H(\mathcal{S}) = \lim_{n \to \infty} \frac{1}{n} H(X_1, \dots, X_n)$
ここで、$H(X_1, \dots, X_n)$ は結合エントロピーであり、長さ $n$ の系列 $x_1, \dots, x_n$ が出現する確率 $P(x_1, \dots, x_n)$ を用いて $H(X_1, \dots, X_n) = -\sum_{x_1, \dots, x_n} P(x_1, \dots, x_n) \log P(x_1, \dots, x_n)$
と定義されます。
シャノンは、この極限が存在する場合、特に情報源が定常かつエルゴードである場合に、エントロピー率が情報源の持つ「平均的な情報量」を表し、ソース符号化の理論的な限界を与えることを示しました(情報源符号化定理)。
非定常情報源における情報理論的課題
エントロピー率の定義式 $H(\mathcal{S}) = \lim_{n \to \infty} \frac{1}{n} H(X_1, \dots, X_n)$
は、形式的には非定常情報源に対しても定義可能です。しかし、非定常情報源においては、定常情報源では問題とならなかった以下のような根本的な課題が生じます。
-
エントロピー率の極限の存在と解釈: 定常情報源に対しては、シャノンのエントロピー率は常に存在することが保証されています(Feketeの補題などが用いられる)。しかし、非定常情報源では、ブロックエントロピーの平均
$ \frac{1}{n} H(X_1, \dots, X_n) $
が $n \to \infty$ の極限で収束しない場合があります。極限が存在しない場合、エントロピー率という単一の数値で情報源の不確実性を特徴づけることが困難になります。 また、たとえ極限が存在したとしても、それが情報源の「平均的な情報量」としてソース符号化の限界と直接結びつくかどうかの解釈がより複雑になります。定常エルゴード情報源においては、時間平均とアンサンブル平均が一致するというエルゴード性により、エントロピー率はある典型的な長い系列が持つ平均的な符号長と一致します(漸近等分割性, AEP)。非定常情報源では、このエルゴード性が一般に成り立たないため、AEPもそのままでは適用できません。 -
漸近等分割性 (AEP) の崩壊: AEPはシャノン情報理論の多くの証明の核心をなす性質であり、長い系列はそのエントロピー率にほぼ等しい確率で出現する「典型集合」に集中するというものです。この性質は定常かつエルゴード情報源に対して成り立ちます。非定常情報源では、系列の統計的性質が時間によって変動するため、系列全体の典型集合という概念がうまく定義できません。これにより、典型集合を用いた簡単な確率的解析手法が利用できなくなります。
-
情報源符号化定理の拡張: 情報源符号化定理は、エントロピー率が可逆圧縮の理論的な限界であることを示しています。この定理は主に定常エルゴード情報源に対して証明されました。非定常情報源に対しては、エントロピー率(もし存在すれば)が依然としてレートの限界として何らかの役割を果たす可能性はありますが、符号化可能性を示す構成的な証明や、逆定理(それ以下のレートでは符号化できない)の証明は、非定常性の性質に依存してより複雑になります。特に、情報源の統計的性質が事前に未知であったり、時間とともに変化の仕方も不確定であったりする場合、情報源に適応する「ユニバーサル符号化」の必要性が高まります。シャノンの原論文にはユニバーサル符号化の概念は明確にはありませんが、彼の基礎理論がこの分野の研究を触発しました。
-
通信路容量との関係: 情報源と通信路を組み合わせた通信システム全体を考える場合、情報源が非定常であれば、通信路容量を最大限に活用するための符号化・復号化戦略はさらに複雑になります。シャノンの通信路符号化定理もまた、定常無記憶通信路を主な対象としています。非定常通信路や非定常情報源に対する通信容量や符号化の問題は、シャノンのフレームワークを基盤としつつ、より高度な確率過程論やレート歪み理論の拡張を必要とします。
シャノン自身の非定常性への示唆と現代への繋がり
シャノンの『A Mathematical Theory of Communication』やその他の著作において、「非定常性」という言葉が現代的な厳密さで頻繁に用いられているわけではありません。しかし、彼が情報源を一般の確率過程として定義したこと、そしてエントロピー率の定義をブロックエントロピーの極限として与えたことは、非定常情報源を含むより広いクラスの情報源を扱うための基礎的な枠組みを提供しています。
シャノン自身は、特定の非定常情報源、例えば言語のような複雑な構造を持つ情報源の分析にも関心を持っていました。彼の論文『Prediction and Entropy of Printed English』では、予測可能性を通じて言語のエントロピー率を推定する試みが行われています。言語は厳密には定常とは言えない構造を持っていますが、シャノンは長期的な平均としてのエントロピー率という概念を用いてその統計的性質を捉えようとしました。これは、非定常性に対処するための「平均的な挙動」に着目するという初期的なアプローチと言えるかもしれません。
シャノンの基礎理論が確立された後、情報理論研究者たちは非定常情報源を含むより一般的な確率過程の情報理論的性質の解明に取り組みました。特に、時間的に平均エントロピー率が収束するような非定常エルゴード情報源や、特定のクラスの非定常情報源(例えば、区分定常源や漸近定常源)に対する情報源符号化やユニバーサル符号化の研究が進展しました。
現代の情報科学においては、非定常性は避けられない現実であり、その分析は活発な研究分野です。時系列分析、信号処理、機械学習における非定常データのモデリングや予測、適応的な符号化・伝送方式の開発など、シャノンの情報理論を基盤としつつ、確率過程論、統計学、アルゴリズム理論などの知見を融合したアプローチが取られています。シャノンのエントロピー率の概念や、情報源の統計的性質が符号化効率の限界を決定するという基本的な考え方は、非定常情報源の分析においても重要な指針となっています。
まとめ
クロード・シャノンが築き上げた情報理論は、情報源を確率過程として捉え、エントロピー率によってその不確実性を定量化する強力なフレームワークを提供しました。しかし、理論の多くの主要な結果が定常性を前提としているのに対し、現実世界の多くの情報源は非定常です。
非定常情報源は、エントロピー率の極限の存在や解釈、漸近等分割性の不適用、情報源符号化定理の拡張など、情報理論における根本的な課題を提起します。シャノン自身は非定常性について現代的な意味で厳密に扱ったわけではありませんが、彼の定義した情報源のモデルとエントロピー率の概念は、非定常情報源の研究のための出発点を提供しました。
非定常情報源の分析は、シャノンの基礎理論を深く理解するとともに、より高度な確率過程論や漸近解析の手法を必要とする、情報理論における難しくも重要なテーマです。この分野の研究は現在も進行しており、現代の情報科学における多くの応用分野に影響を与えています。