シャノン情報理論におけるコンベックス性:相互情報量の数学的性質とチャネル容量の導出
はじめに:シャノン情報理論における数学的構造の重要性
クロード・シャノンが1948年に発表した画期的な論文『A Mathematical Theory of Communication』は、情報という曖昧な概念に数学的な厳密さを与え、情報科学という新たな分野を確立しました。シャノンの理論体系は、エントロピーや相互情報量といった基本的な情報量測度に基づき、通信路容量や情報源符号化限界を確率論的に定式化しています。これらの概念の多くは、深い数学的な性質、特にコンベックス性(凸性)や凹性といった性質を内包しており、これが理論の堅牢性や応用可能性の基盤となっています。
本稿では、シャノン情報理論におけるコンベックス性がどのような役割を果たしているのか、特に情報伝送の根幹をなす相互情報量の性質に焦点を当てて掘り下げます。相互情報量が持つコンベックス性(厳密には、入力確率分布に関して凹関数、出力確率分布に関して凸関数となる性質)が、チャネル容量という最も重要な量の一つを、凸最適化問題として定式化し、その存在や一意性の議論、さらには計算アルゴリズムの開発にどのように貢献しているかを詳細に解説します。
情報量測度の再確認:エントロピーと相互情報量
議論の出発点として、離散的な確率変数に関する情報量測度の基本的な定義を確認します。
確率変数 $X$ が取る値の集合を $\mathcal{X} = {x_1, \dots, x_n}$ とし、その確率分布を $P_X = {p_1, \dots, p_n}$、ただし $p_i = P(X=x_i)$ とします。$X$ のエントロピー $H(X)$ は、その不確実性の平均的な尺度であり、以下で定義されます。
$H(X) = - \sum_{i=1}^n p_i \log_b p_i$
ここで、対数の底 $b$ は通常 2 とされ、単位はビットとなります。シャノンの理論において、エントロピーは情報源符号化の下限を示します。
次に、二つの確率変数 $X$ と $Y$ の間の相互情報量 $I(X;Y)$ を考えます。これは、$Y$ を観測することによって $X$ に関して得られる情報量、あるいはその逆を示します。$X$ と $Y$ の結合確率分布を $P_{XY}(x,y)$、周辺確率分布を $P_X(x)$ および $P_Y(y)$ とするとき、相互情報量 $I(X;Y)$ は以下のように定義されます。
$I(X;Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} P_{XY}(x,y) \log \frac{P_{XY}(x,y)}{P_X(x) P_Y(y)}$
この定義は、結合分布 $P_{XY}(x,y)$ と、周辺分布の積 $P_X(x)P_Y(y)$ ($X$ と $Y$ が独立である場合の分布)との間のカルバック・ライブラー情報量(相対エントロピー)として解釈することもできます。すなわち、$I(X;Y) = D(P_{XY} \| P_X P_Y)$ です。相対エントロピーは常に非負であるため、相互情報量も常に非負です ($I(X;Y) \ge 0$)。また、相互情報量は以下のエントロピーの関係式でも表現できます。
$I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = H(X) + H(Y) - H(X,Y)$
ここで、$H(X|Y)$ は $Y$ を観測した後の $X$ の条件付きエントロピー、$H(X,Y)$ は結合エントロピーです。
相互情報量のコンベックス性(凹性)
情報理論におけるコンベックス性(より正確には凹性)の議論は、相互情報量の特定の性質に関わります。特に重要なのは、相互情報量が以下の性質を持つことです。
-
入力分布 $P_X(x)$ に関して凹関数である。 これは、固定されたチャネル行列 $P(y|x)$ に対し、$I(X;Y)$ を入力確率分布 $P_X$ の関数とみなしたときに、この関数が凹関数となることを意味します。つまり、任意のスカラー $\lambda \in [0, 1]$ と二つの入力分布 $P_{X1}$ および $P_{X2}$ に対して、その混合分布 $P_X = \lambda P_{X1} + (1-\lambda) P_{X2}$ に対する相互情報量は、それぞれの分布に対する相互情報量の凸結合以上となります。 $I(\lambda P_{X1} + (1-\lambda) P_{X2}; Y) \ge \lambda I(P_{X1}; Y) + (1-\lambda) I(P_{X2}; Y)$
-
出力分布 $P_Y(y)$ に関して凸関数である。 これは、固定された入力分布 $P_X(x)$ に対し、$I(X;Y)$ を出力確率分布 $P_Y$ の関数とみなしたときに、この関数が凸関数となることを意味します。
-
チャネル行列 $P(y|x)$ に関してアフィン関数(線形関数)である。 これは、二つのチャネル行列 $P_1(y|x)$ と $P_2(y|x)$ の混合チャネル $P(y|x) = \lambda P_1(y|x) + (1-\lambda) P_2(y|x)$ に対する相互情報量が、それぞれのチャネルに対する相互情報量の凸結合と等しくなることを意味します。 $I(X; Y){\lambda P_1 + (1-\lambda) P_2} = \lambda I(X; Y){P_1} + (1-\lambda) I(X; Y)_{P_2}$
これらの性質のうち、情報理論において特に強力な結果をもたらすのが、相互情報量の入力分布に関する凹性です。この凹性の証明は、主にJensenの不等式や対数関数の凹性を用いて行われます。例えば、$P_X(x)$ を入力分布とし、チャネルを $P(y|x)$ とすると、出力分布は $P_Y(y) = \sum_x P_X(x) P(y|x)$ で与えられます。相互情報量は $I(X;Y) = \sum_x \sum_y P_X(x) P(y|x) \log \frac{P_X(x) P(y|x)}{P_X(x) P_Y(y)}$ ですが、これを $\sum_x P_X(x) \sum_y P(y|x) \log \frac{P(y|x)}{P_Y(y)/P_X(x)}$ のように変形したり、カルバック・ライブラー情報量の定義から出発し、対数関数の凹性やJensenの不等式を適用することで、凹性を示すことができます。
チャネル容量の導出とコンベックス性の役割
離散無記憶通信路(Discrete Memoryless Channel, DMC)は、入力シンボル $x \in \mathcal{X}$ から出力シンボル $y \in \mathcal{Y}$ への遷移が条件付き確率 $P(y|x)$ で与えられる確率的なモデルです。通信路を介した情報伝送の最大のレートを示すのが、チャネル容量 $C$ です。シャノンはチャネル容量を、入力確率分布 $P_X(x)$ を様々に変化させたときの、入力 $X$ と出力 $Y$ の間の相互情報量 $I(X;Y)$ の最大値として定義しました。
$C = \max_{P_X(x)} I(X;Y) = \max_{P_X(x)} \sum_{x,y} P_X(x) P(y|x) \log \frac{P(y|x)}{P_Y(y)}$
ここで、$P_Y(y) = \sum_x P_X(x) P(y|x)$ であり、最大化は全ての可能な入力確率分布 $P_X(x)$ 上で行われます。入力確率分布は確率ベクトルの空間、すなわち要素が非負であり総和が 1 となるようなベクトルの集合上を動きます。この集合は凸集合です。
先述の通り、相互情報量 $I(X;Y)$ は入力分布 $P_X(x)$ に関して凹関数です。したがって、チャネル容量の定義式は、凹関数を凸集合上で最大化するという形式の凸最適化問題となります。凸最適化問題の重要な性質として、もし目的関数が凹関数(または凸関数の最小化)であり、制約領域が凸集合であれば、大域的な最適解が必ず存在し、しかもその最適解はユニークであるとは限りませんが、最適値はユニークに定まります。
相互情報量の入力分布に関する凹性は、チャネル容量 $C$ がwell-definedな量であることを数学的に保証します。すなわち、相互情報量の最大値が存在し、有限の値を取ることを保証します。さらに、凸最適化の理論を用いることで、チャネル容量を計算するための効率的なアルゴリズム(例:Blahut-Arimotoアルゴリズム)を設計することが可能となります。これらのアルゴリズムは、目的関数である相互情報量の凹性や、関連する確率分布の集合が形成する凸構造を本質的に利用しています。
シャノンのチャネル符号化定理(通信路容量定理)は、「任意のレート $R < C$ に対して、符号長を十分長くすれば、誤り確率をいくらでも小さくできる符号が存在する」ということを示しています。この定理の証明においても、平均符号長や誤り確率といった量が、確率分布やそれらの混合に関するコンベックスな性質を持つことが利用される場合があります。
歴史的背景と現代における意義
シャノンが『A Mathematical Theory of Communication』を発表した際、彼は相互情報量の「凹性」という言葉を明示的に使ってその性質を強調したわけではありません。しかし、彼の定式化、特にチャネル容量を相互情報量の最大値として定義した構造そのものが、この数学的な性質を本質的に捉えています。当時の数学的な最適化理論は現代ほど確立されていませんでしたが、シャノンは問題の構造から、この最大値が存在し、通信路の基本的な限界を与えるものであることを洞察しました。
その後の情報理論の研究では、シャノンの基礎の上に、これらの数学的性質がより深く分析され、理論全体の強固な数学的基盤が確立されていきました。特に、情報不等式(データ処理不等式など)や様々な情報量測度間の関係性を証明する上で、コンベックス性は不可欠なツールとなっています。
現代の情報科学、特に通信理論、統計学、機械学習、データ圧縮といった分野では、相互情報量とそのコンベックス性は依然として中心的な役割を果たしています。例えば、機械学習における変分推論(Variational Inference)では、観測データに対する対数尤度関数の下界(Evidence Lower Bound, ELBO)を最大化しますが、このELBOはカルバック・ライブラー情報量やエントロピーの項から構成されており、その最適化問題を解く上で、関連する関数のコンベックス性が重要な指針を与えます。また、情報ボトルネック理論のような先進的な情報理論の概念も、相互情報量の性質、特にコンベックス性に基づいています。
結論
クロード・シャノンの情報理論は、数学的な美しさと実用的な深さを兼ね備えています。その理論体系を支える重要な柱の一つが、情報量測度、特に相互情報量が持つコンベックス性(凹性)という数学的な性質です。この性質は、チャネル容量がwell-definedな最適化問題として定式化されることを可能にし、情報伝送の基本的な限界を理解し、その値を計算するための道を拓きました。
シャノン自身が「コンベックス性」という用語を頻繁に用いたかは定かではありませんが、彼の定式化がこの本質的な数学的性質を捉えていたことは間違いありません。相互情報量のコンベックス性は、その後の情報理論の発展においても、様々な定理の証明やアルゴマイア設計において中心的な役割を果たし続けています。シャノンの研究は、単に情報という概念を定量化しただけでなく、その背後にある深い数学的構造を明らかにすることで、現代の情報科学の礎を築いたと言えるでしょう。本稿が、シャノン情報理論の数学的な側面、特にコンベックス性の重要性について、読者の皆様の理解を深める一助となれば幸いです。