クロード・シャノンによる相対エントロピー(カルバック・ライブラー情報量)の源流とその情報理論における役割
シャノン研究ノートへようこそ。本稿では、クロード・シャノンがその記念碑的論文 "A Mathematical Theory of Communication" (1948) で確立した情報理論体系における、相対エントロピー(Kullback-Leibler divergence, KL divergence)の概念的な源流と、その理論全体における本質的な役割について掘り下げて考察します。シャノン自身は「相対エントロピー」という用語を直接用いていませんが、その数学的構造と意義は彼の理論の随所に埋め込まれており、後に独立した概念として明確化され、情報科学の様々な分野で中心的な役割を果たすことになります。
相対エントロピーの定義と情報理論における位置づけ
相対エントロピーは、2つの確率分布 $P$ と $Q$ がどれだけ異なるかを測る尺度の一つです。離散確率分布 $P = {p_1, \dots, p_n}$ と $Q = {q_1, \dots, q_n}$ に対して、確率変数 $X$ が取る値 $x_i$ に対応する相対エントロピー $D(P\|Q)$ は以下のように定義されます。
$$D(P\|Q) = \sum_{i=1}^n p_i \log \frac{p_i}{q_i}$$
ここで、対数の底は通常2が用いられ、単位はビットとなります。また、$p_i \log(p_i/q_i)$ の項において、$p_i > 0$ かつ $q_i = 0$ の場合はこの項を $\infty$ と定義し、$p_i = 0$ の場合はこの項を0と定義します(ロピタルの定理から $x \log x \to 0$ as $x \to 0$ であることに従います)。連続確率分布 $P(x)$ と $Q(x)$ に対しては、以下のように定義されます。
$$D(P\|Q) = \int p(x) \log \frac{p(x)}{q(x)} dx$$
相対エントロピーは、直感的には、真の分布 $P$ からのデータを、モデル分布 $Q$ を使って符号化した場合に、真の分布 $P$ を知っている場合に比べて平均的にどれだけ余分なビットが必要になるか、という情報量の差を表します。シャノン情報理論において、情報源のエントロピー $H(X) = -\sum p_i \log p_i$ は、確率変数 $X$ の値を知ることで得られる平均情報量、あるいは $X$ を最適に符号化するのに必要な平均ビット数の下界を示します。相対エントロピーは、このエントロピーの概念を2つの分布の比較に拡張したものと解釈できます。
重要な性質として、相対エントロピーは常に非負です。すなわち、$D(P\|Q) \ge 0$ であり、等号は $P=Q$ (すなわち全ての $i$ に対して $p_i = q_i$)の場合に限り成立します。この性質は、ジェンセンの不等式を用いて証明できます。関数 $f(x) = x \log x$ は下に凸であるため、$-\sum p_i \log(q_i/p_i) = -E_P[\log(q_i/p_i)] \ge -\log(E_P[q_i/p_i]) = -\log(\sum p_i (q_i/p_i)) = -\log(\sum q_i) = -\log(1) = 0$ となり、$D(P\|Q) = \sum p_i \log(p_i/q_i) \ge 0$ が導かれます。
シャノンは論文の中でこの相対エントロピーそのものを明示的に定義したわけではありません。しかし、彼の情報源符号化定理やチャネル容量定理の証明、特に漸近等分割性(AEP)や相互情報量の概念の中に、相対エントロピーの本質が内在しています。
情報源符号化における相対エントロピーの示唆
シャノンの情報源符号化定理は、無記憶情報源から発生するシンボルの系列を、そのエントロピー率に任意に近いレートで、かつ誤りなく圧縮できることを示しています。より具体的には、確率分布 $P$ に従う無記憶情報源から得られる長さ $N$ の系列 $x_1, \dots, x_N$ について、その「典型集合 (typical set)」と呼ばれる集合内の系列の確率が、$N$ が大きくなるにつれて1に近づくことを示しました(これが漸近等分割性、AEPです)。典型集合内の系列の数は約 $2^{N H(P)}$ であり、これにより平均 $H(P)$ ビット/シンボルで符号化できることの理論的根拠を与えました。
ここで、もし情報源が真には分布 $P$ に従っているにも関わらず、誤って別の分布 $Q$ に従うと仮定して符号化(例えば算術符号化)を行った場合を考えます。分布 $Q$ を仮定した場合の各シンボル $x_i$ の符号長は $-\log q(x_i)$ となります。この符号化方式による系列全体の平均符号長は、真の分布 $P$ の下での期待値として計算され、以下のようになります。
$$E_P[-\log Q(X)] = \sum_x p(x) (-\log q(x)) = \sum_x p(x) \log \frac{1}{q(x)}$$
真の分布 $P$ を知っている場合の最適な平均符号長は、情報源のエントロピー $H(P) = \sum_x p(x) \log \frac{1}{p(x)}$ です。この2つの平均符号長の差は、まさに相対エントロピー $D(P\|Q)$ に等しくなります。
$$E_P[-\log Q(X)] - H(P) = \sum_x p(x) \log \frac{1}{q(x)} - \sum_x p(x) \log \frac{1}{p(x)} = \sum_x p(x) \left( \log \frac{1}{q(x)} - \log \frac{1}{p(x)} \right) = \sum_x p(x) \log \frac{p(x)}{q(x)} = D(P\|Q)$$
これは、真の分布 $P$ を知っている場合に比べて、誤った分布 $Q$ を仮定して符号化を行った場合に、平均して $D(P\|Q)$ ビット/シンボルだけ余分な符号長が必要になる、ということを明確に示しています。シャノンは論文のセクション9で、Fanoの不等式に関連する議論や、異なる確率システム間での情報伝送の効率に関する考察の中で、この差分の構造に言及しています。彼はこれを「冗長度 (redundancy)」や「不確かさ (equivocation)」の文脈で論じており、相対エントロピーの概念が情報源符号化の非最適性、あるいはモデルの不一致によるペナルティを定量化する上で本質的であることを示唆しています。
チャネル容量と相互情報量における役割
シャノン情報理論のもう一つの核となる概念は、通信路容量です。これは、ノイズのある通信路を通して単位時間あたりに reliably (信頼性高く、すなわち誤り確率を任意に小さくして) 伝送できる情報量の最大値を示します。通信路容量は、入力と出力の間の相互情報量の最大値として定義されます。
相互情報量 $I(X;Y)$ は、入力変数 $X$ と出力変数 $Y$ の間の統計的依存性の度合いを測る尺度であり、以下のように定義されます。
$$I(X;Y) = H(X) - H(X|Y)$$
ここで $H(X)$ は入力のエントロピー、$H(X|Y)$ は出力 $Y$ が与えられた下での入力 $X$ の条件付きエントロピーです。相互情報量はまた、入力と出力の同時分布 $P(X,Y)$ と、入力と出力が統計的に独立であると仮定した場合の分布 $P(X)P(Y)$ との間の相対エントロピーとして定義することもできます。
$$I(X;Y) = D(P(X,Y) \| P(X)P(Y)) = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}$$
この定義から、相互情報量は常に非負であることが直接的に分かります。$I(X;Y) \ge 0$ であり、等号は $X$ と $Y$ が統計的に独立である場合に限り成立します。つまり、相互情報量は、入力を知ることが出力について平均的にどれだけの情報量(不確かさの減少)をもたらすか、あるいはその逆を測る尺度であると同時に、結合確率分布と周辺確率分布の積の間の「距離」としても解釈できるのです。
シャノンのチャネル容量 $C$ は、可能な全ての入力分布 $P(X)$ の上で相互情報量 $I(X;Y)$ を最大化することによって得られます。
$$C = \max_{P(X)} I(X;Y)$$
この定式化において、相対エントロピーとしての相互情報量の理解は非常に強力です。通信路容量は、入力と出力の統計的関連性(真の結合分布 $P(X,Y)$)が、統計的独立性からのどれだけ「離れているか」($P(X)P(Y)$ からどれだけ「離れているか」)を最大化することに対応します。これは、最適な入力分布 $P(X)$ を見つける問題が、相対エントロピーを最大化する問題として捉えられることを意味します。
歴史的文脈と現代への影響
シャノンが論文を発表した時点では、「相対エントロピー」や「カルバック・ライブラー情報量」という用語はまだ確立していませんでした。この概念が現在のように広く認識され、Kullback-Leibler divergence と呼ばれるようになったのは、統計学者ソロモン・カルバックとリチャード・ライブラーが1951年の論文 "On Information and Sufficiency" で正式に導入し、統計的仮説検定との関連でその重要性を示して以降のことです。彼らはシャノンの情報理論に触発され、異なる確率分布間の「情報量」や「距離」を測る尺度としてこの概念を定式化しました。
シャノン自身は、おそらく情報源符号化や通信路符号化における数学的な必要性から、この差分構造($\sum p_i \log(p_i/q_i)$ の形)の重要性を認識していたと考えられます。彼の天才性は、この構造が情報理論の様々な側面において繰り返し現れる本質的な量であることを捉えていた点にあります。
現代の情報科学において、相対エントロピー(KL divergence)は、情報理論に留まらず、統計学、機械学習、信号処理、経済学、生物学など、多岐にわたる分野で基本的なツールとして利用されています。
- 統計的推論: 最尤推定と密接に関連し、モデルの当てはまりの悪さ(逸脱度)を測る尺度として用いられます。
- 機械学習:
- 変分推論 (Variational Inference): 複雑な事後分布を単純な分布で近似する際に、近似分布と真の事後分布の間のKL divergenceを最小化します。これは、ELBO (Evidence Lower Bound) の最大化と等価であり、教師なし学習や確率的モデルの学習に広く用いられています。
- 生成モデル (Generative Models): 例えば、Generative Adversarial Networks (GANs) や Variational Autoencoders (VAEs) において、生成されたデータの分布と真のデータ分布の間のKL divergenceを最小化あるいは最大化する目的関数が用いられることがあります。
- モデル選択: 異なるモデルがデータ分布をどれだけよく説明するかを比較する際に、KL divergenceに基づく基準(例えば、AICやBICなどとの関連)が用いられることがあります。
- 情報幾何学 (Information Geometry): 確率分布の空間に微分幾何学的な構造を導入する情報幾何学において、KL divergence は最も基本的なダイバージェンスとして中心的な役割を果たします。
このように、シャノンがその理論体系の中に implicitly に含んでいた数学的構造は、後の研究者によって顕在化され、情報理論の基盤としてだけでなく、確率分布を扱う様々な応用分野における普遍的な尺度として確立しました。
結論
クロード・シャノンは、その情報理論の構築において、直接的な用語を用いずとも、相対エントロピーという概念の本質的な役割を洞察していました。情報源符号化におけるモデルの不一致による冗長度、そして通信路容量を定める相互情報量が、いずれも2つの確率分布間の相対エントロピーとして表現されることは、シャノン理論体系の美しさと一貫性を示しています。
相対エントロピーは、2つの分布間の「情報量の距離」を測る非負の量として、シャノン情報理論の理論的基盤を支え、情報源符号化の限界、通信路の伝送能力、そして確率分布の比較や近似といった、情報科学の根幹に関わる問題に対して普遍的な数学的枠組みを提供しました。シャノンによって蒔かれたこの概念の種は、その後の情報科学、統計学、機械学習といった分野で豊かに開花し、現代の情報技術の発展に不可欠な役割を果たしています。シャノンの原論文を読み解く際には、相対エントロピーという視点を持つことで、彼の議論の深さと広がりをより一層理解することができるでしょう。