シャノン研究ノート

クロード・シャノンによる相互情報量とチャネル容量:数学的基礎と通信路の評価

Tags: 情報理論, クロード・シャノン, 相互情報量, チャネル容量, 通信理論, 数学

「シャノン研究ノート」へようこそ。本稿では、情報理論の創始者であるクロード・シャノンがその金字塔たる論文 "A Mathematical Theory of Communication" (1948) で提示した、相互情報量(Mutual Information)とチャネル容量(Channel Capacity)という二つの根幹的な概念に焦点を当て、その数学的基礎と通信路の評価における意義を掘り下げて解説します。

導入:情報理論における相互情報量とチャネル容量の位置づけ

クロード・シャノンの情報理論は、情報を定量化し、通信システムの性能限界を数学的に明らかにするためのフレームワークを提供しました。その中心にあるのが、情報の「量」を測るエントロピー、そして送信された情報と受信された情報の間の関連性の強さを測る相互情報量です。さらに、相互情報量は、ある通信路が単位時間あたりに信頼性高く伝送できる情報の最大量を示すチャネル容量の定義に不可欠な概念となります。

ノイズが存在する通信路においても、ある一定の符号化率以下であれば誤りなく情報を伝送できるというチャネル符号化定理は、このチャネル容量によってその限界が与えられます。したがって、相互情報量とチャネル容量の理解は、情報理論の最も重要な成果の一つにアクセスするための鍵となります。

相互情報量の定義と数学的基礎

相互情報量 $I(X;Y)$ は、二つの確率変数 $X$$Y$ の間の相互依存性の度合いを測る指標です。$X$ が送信されるシンボル、$Y$ が受信されるシンボルを表す場合、$I(X;Y)$ は、$Y$ を観測することによって $X$ について得られる情報量と解釈できます。

相互情報量は、エントロピー $H(\cdot)$ と条件付きエントロピー $H(\cdot|\cdot)$ を用いて定義されます。まず、確率変数 $X$ のエントロピー $H(X)$ は、$X$ の不確実性を測る尺度であり、その確率質量関数 $p(x)$ を用いて次のように定義されます(離散的な場合):

$H(X) = - \sum_{x} p(x) \log_b p(x)$

ここで $b$ は対数の底であり、通常は 2 が用いられ、情報の単位はビットとなります。

次に、確率変数 $X$ が与えられたときの確率変数 $Y$ の条件付きエントロピー $H(Y|X)$ は、$X$ が既知である場合の $Y$ の不確実性を表します。

$H(Y|X) = - \sum_{x,y} p(x,y) \log_b p(y|x)$

ここで $p(x,y)$$X$$Y$ の同時確率質量関数、$p(y|x)$ は条件付き確率質量関数です。

相互情報量 $I(X;Y)$ は、$X$ のエントロピーから、$Y$ を知った後の $X$ の条件付きエントロピーを差し引いたものとして定義されます。

$I(X;Y) = H(X) - H(X|Y)$

これは対称性があり、$I(X;Y) = H(Y) - H(Y|X)$ とも等しくなります。このことから、相互情報量は $X$ の不確実性を $Y$ を知ることでどれだけ減らせるか、あるいはその逆を表していると解釈できます。さらに、結合エントロピー $H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)$ を用いると、

$I(X;Y) = H(X) + H(Y) - H(X,Y)$

という等価な定義も得られます。相互情報量は常に非負であり、$I(X;Y) \ge 0$ です。$I(X;Y) = 0$ となるのは、$X$$Y$ が統計的に独立である場合に限ります。

チャネル容量の定義と通信路の評価

通信路(チャネル)は、入力シンボル $x$ を出力シンボル $y$ に変換する物理的なシステムを数学的にモデル化したものです。通信路は、入力アルファベット $\mathcal{X}$、出力アルファベット $\mathcal{Y}$、そして入力 $x \in \mathcal{X}$ が与えられたときに出力 $y \in \mathcal{Y}$ が得られる条件付き確率 $P(y|x)$ の集合(遷移行列)によって特徴づけられます。

チャネル容量 $C$ は、その通信路が単位使用あたりに伝送できる情報の最大量として定義されます。これは、考えられるすべての入力確率分布 $P(x)$ の中で、相互情報量 $I(X;Y)$ を最大化することによって得られます。

$C = \max_{P(x)} I(X;Y)$

ここで最大化は、入力シンボルの確率分布 $P(x)$ 全体に対して行われます。通信路の遷移行列 $P(y|x)$ は通信路固有の特性であり、不変です。したがって、チャネル容量は通信路自身の能力を示す値であり、どのような入力信号の確率分布を選択すれば最も効率よく情報を送れるかを示唆しています。

チャネル容量の単位は、相互情報量と同様にビット/通信路使用(bits/channel use)となります。もし通信路が単位時間あたりに $N$ 回使用できるならば、単位時間あたりのチャネル容量は $N \times C$ となります。

具体例:バイナリ対称通信路 (BSC)

簡単な例として、バイナリ対称通信路(Binary Symmetric Channel, BSC)を考えます。BSCは、入力も出力もバイナリ(0または1)であり、送信されたビットが一定の確率 $p$ で反転する(0が1に、1が0になる)、対称なノイズを持つ通信路です。反転しない確率は $1-p$ です。

入力アルファベット $\mathcal{X} = {0, 1}$、出力アルファベット $\mathcal{Y} = {0, 1}$。 遷移行列は以下のようになります。 $P(0|0) = 1-p, P(1|0) = p$ $P(1|1) = 1-p, P(0|1) = p$

このBSCのチャネル容量を計算するには、まず入力分布 $P(X=0)=q, P(X=1)=1-q$ に対する相互情報量 $I(X;Y)$ を求め、次に $q$ についてこれを最大化します。

$H(Y|X) = \sum_{x \in {0,1}} P(X=x) H(Y|X=x)$ ここで $H(Y|X=0)$ は、入力が0のときに出力Yの取りうる値(0または1)に関するエントロピーです。出力は確率 $1-p$ で0、確率 $p$ で1となるため、これはバイナリエンとロピー関数 $H_b(p) = -p \log_2 p - (1-p) \log_2 (1-p)$ に等しくなります。 同様に $H(Y|X=1) = H_b(p)$ です。 したがって、$H(Y|X) = q H_b(p) + (1-q) H_b(p) = H_b(p)$ となります。

$I(X;Y) = H(Y) - H(Y|X) = H(Y) - H_b(p)$

出力 $Y$ の確率分布を求めるには、$P(Y=0) = P(Y=0|X=0)P(X=0) + P(Y=0|X=1)P(X=1) = (1-p)q + p(1-q)$$P(Y=1) = P(Y=1|X=0)P(X=0) + P(Y=1|X=1)P(X=1) = p q + (1-p)(1-q)$ です。

$H(Y) = - P(Y=0) \log_2 P(Y=0) - P(Y=1) \log_2 P(Y=1)$

$I(X;Y) = H(Y) - H_b(p)$$q$ について最大化することを考えます。出力 $Y$ のエントロピー $H(Y)$ は、$Y$ が最も不確実であるとき、つまり $P(Y=0) = P(Y=1) = 1/2$ のときに最大値1を取ります。これは入力分布が対称、つまり $q=1/2$ のときに起こります。なぜなら、$q=1/2$ のとき、$P(Y=0) = (1-p)/2 + p/2 = 1/2$$P(Y=1) = p/2 + (1-p)/2 = 1/2$ となるからです。

したがって、BSCのチャネル容量は、入力分布を均等($P(X=0)=P(X=1)=1/2$)としたときの相互情報量であり、

$C_{BSC} = \max_q I(X;Y) = I(X;Y)|{q=1/2} = H(Y)|{q=1/2} - H_b(p) = 1 - H_b(p)$

となります。これは、BSCが1回の使用で伝送できる最大の情報量が $1 - H_b(p)$ ビットであることを示しています。ノイズがない場合 ($p=0$)、$H_b(0) = 0$ なので $C_{BSC}=1$ ビットとなります。完全にノイズに埋もれている場合 ($p=1/2$)、$H_b(1/2) = 1$ なので $C_{BSC}=0$ ビットとなり、情報伝送は不可能であることを示します。

歴史的背景とシャノンの洞察

相互情報量とチャネル容量は、シャノンが電気通信における根本的な問題を解決するために導入した概念です。当時、通信システムはノイズによって情報の劣化が避けられないと考えられていました。シャノンは、通信路を数学的にモデル化し、情報量をエントロピーとして定量化することで、この問題に統計的な観点からアプローチしました。

彼は、送信側の情報源と受信側の出力の間で「共有される」情報量を相互情報量として定義し、これが通信路の質を測る普遍的な尺度となることを見抜きました。そして、その通信路で実現可能な最大の相互情報量をもってチャネル容量と定義することで、ノイズが存在しても誤り率を任意に小さく抑えながら通信できる最大の速度(チャネル容量)が存在するという驚くべきチャネル符号化定理の基礎を築きました。

これは、それまでの通信工学が個別の変調方式や回路設計に終始していたのに対し、通信システム全体の情報伝送能力の限界を、物理的な実装に依存しない普遍的な形で与えた画期的な成果でした。

現代の情報科学における意義と応用

相互情報量とチャネル容量は、情報理論の枠を超えて現代の様々な分野で活用されています。

相互情報量とチャネル容量は、情報がどのように生成、伝送、処理されるかを理解するための基本的なツールとして、今日の情報化社会を支える多くの技術や理論の基盤となっています。

結論

クロード・シャノンによって導入された相互情報量とチャネル容量の概念は、情報理論の最も根本的な柱です。これらは、通信路の能力を普遍的な尺度で定量化することを可能にし、情報伝送における理論的な限界を明らかにしました。その数学的な美しさと実用的な重要性から、これらの概念は発表から70年以上が経過した現在でも、通信工学のみならず、コンピュータ科学、統計学、機械学習、脳科学など、幅広い分野の研究者にとって不可欠なツールであり続けています。シャノンの原論文におけるこれらの概念の厳密な定義とその導出プロセスを辿ることは、現代の情報科学を深く理解する上で非常に有益な営みと言えるでしょう。