シャノンによる情報源エントロピーの公理的定義と唯一性:不確実性の定量化とその数学的根拠
「シャノン研究ノート」へようこそ。本稿では、情報理論の創始者であるクロード・シャノンが、1948年の画期的な論文 "A Mathematical Theory of Communication" のセクション6で展開した、情報源のエントロピーに関する極めて重要な議論に焦点を当てます。特に、情報源の不確実性を定量化するための測度としてのエントロピーが満たすべき公理的な性質、そしてそれらの性質を満たす測度が定数倍を除いてシャノンエントロピーの形に限られること(唯一性)について、その数学的根拠と意義を深く掘り下げていきます。
情報理論におけるエントロピーは、単にデータ圧縮の限界を示すだけでなく、確率分布が持つ「不確実性」や「驚き」の度合いを定量化する根源的な概念です。シャノンは、この不確実性の測度をどのような性質が満たすべきかという観点から議論を開始し、いくつかの直感的に妥当な公理を満たす関数が、定数倍を除いて $-\sum p_i \log p_i$ の形以外にありえないことを示しました。この唯一性の証明こそが、エントロピーの定義の妥当性と普遍性を数学的に保証するものです。
不確実性の測度$H$に求められる性質 (公理)
シャノンは、確率分布 $P = {p_1, p_2, \dots, p_n}$ ($p_i \ge 0, \sum p_i = 1$) を持つ情報源の不確実性を表す関数 $H(p_1, \dots, p_n)$ が満たすべき、いくつかの自然な性質(公理)を提示しました。これらの性質は、我々が「不確実性」という概念に対して抱く直感を数学的に表現したものです。シャノンの論文における記述を基に、主要な性質を以下に挙げます。
-
連続性 (Continuity): 関数 $H(p_1, \dots, p_n)$ は、その引数である確率 $p_i$ に関して連続である必要があります。これは、確率の微小な変化が不確実性の測度に急激な不連続な変化をもたらさないという、実用上および数学的な取り扱いの容易さからの要請です。
-
増加関数性 (Increasing Function of $n$ for Equiprobable Case): 可能な事象の数 $n$ が等しい確率分布 $P = {1/n, 1/n, \dots, 1/n}$ の場合を考えます。このときのエントロピーを $A(n) = H(1/n, \dots, 1/n)$ と定義します。事象の選択肢が多いほど不確実性は高まるという直感から、関数 $A(n)$ は $n$ に関して単調増加である必要があります。つまり、$A(n+1) > A(n)$ が期待されます。特に、シャノンは等確率分布が任意の他の分布よりも高い不確実性を持つという性質も重要視しました ($H(1/n, \dots, 1/n) \ge H(p_1, \dots, p_n)$)。
-
分解可能性 (Grouping Property): これが最も特徴的で強力な性質です。複合的な選択肢の不確実性は、それを段階的に分解した場合の不確実性の合計として表現できるというものです。例えば、ある情報源が3つの事象 $x_1, x_2, x_3$ をそれぞれ確率 $p_1, p_2, p_3$ で出力するとします。この不確実性 $H(p_1, p_2, p_3)$ は、まず事象が ${x_1, x_2}$ のグループに含まれるか $x_3$ であるかを選択する不確実性 $H(p_1+p_2, p_3)$ と、もし ${x_1, x_2}$ のグループが選択された場合に、その中で $x_1$ または $x_2$ を選択する条件付きの不確実性の期待値 $(p_1+p_2) H(\frac{p_1}{p_1+p_2}, \frac{p_2}{p_1+p_2})$ の和に等しいと仮定します。一般的には、確率分布 $(p_1, \dots, p_n)$ を $(p_1+\dots+p_k, p_{k+1}, \dots, p_n)$ とグループ化した場合、$H(p_1, \dots, p_n) = H(p_1+\dots+p_k, p_{k+1}, \dots, p_n) + (p_1+\dots+p_k) H(\frac{p_1}{p_1+\dots+p_k}, \dots, \frac{p_k}{p_1+\dots+p_k})$ が成り立ちます。
唯一性の証明の核心
シャノンは、上記の性質、特に分解可能性を利用して、$H(p_1, \dots, p_n)$ の関数形を導出しました。証明の鍵となるのは、等確率分布の場合のエントロピー $A(n) = H(1/n, \dots, 1/n)$ の関数形を決定することです。
等確率分布 $P = {1/n, \dots, 1/n}$ を考えます。これを $k$ 個ずつのグループに分け、$n=mk$ とします。分解可能性を用いると、全体の不確実性 $A(n) = A(mk)$ は、まず $m$ 個のグループから一つを選ぶ不確実性 $A(m)$ と、選ばれたグループ内で $k$ 個の事象から一つを選ぶ条件付き不確実性の期待値の和になります。すべてのグループ内の条件付き分布は等確率分布 ${1/k, \dots, 1/k}$ であり、各グループが選ばれる確率は $k/n = 1/m$ です。したがって、分解可能性より、 $A(mk) = H(1/mk, \dots, 1/mk) = H(1/m, \dots, 1/m) + \sum_{i=1}^m \frac{1}{m} H(1/k, \dots, 1/k) = A(m) + A(k)$ という機能方程式が得られます。
この機能方程式 $A(mk) = A(m) + A(k)$ と、性質2($A(n)$ が $n$ に関して単調増加であること)から、連続関数 $A(n)$ の一般解は $A(n) = c \log_b n$ の形に限られることが数学的に示されます(ここで $c$ と $b$ は定数)。基底 $b$ の選択は対数の定数倍に影響するだけなので、通常は $b=2$ を選びビット単位のエントロピーとします。シャノンはさらに、性質1(連続性)と性質3(分解可能性)を組み合わせることで、任意の確率分布に対するエントロピー $H(p_1, \dots, p_n)$ が、定数倍を除いて $-\sum p_i \log_b p_i$ の形でなければならないことを導きました。証明の詳細なステップはシャノンの原論文のセクション6に展開されていますが、この機能方程式を導出する部分が議論の核心の一つです。
歴史的背景と意義
シャノンがこのような公理的なアプローチを取った背景には、情報という、当時はまだ明確な数学的定義を持たなかった概念を、普遍的な物理量のように扱いたいという意図があったと考えられます。熱力学におけるエントロピーが、ある状態の乱雑さや無秩序さを定量化するのと同様に、情報源のエントロピーは、その出力の不確実さや選択肢の多さを定量化する測度として位置づけられました。
この唯一性の証明は、シャノンが定義した $-\sum p_i \log p_b p_i$ という関数形が、恣意的なものではなく、不確実性の測度として満たすべきごく自然な要請から必然的に導かれるものであることを示しました。これにより、エントロピーの定義に揺るぎない数学的な基礎が与えられ、情報理論が物理学におけるエントロピーや統計力学と形式的な類似性を持つことの根拠ともなりました。
現代の情報科学における位置づけと応用
シャノンエントロピーとその公理的定義は、現代の情報科学において依然として中心的な役割を果たしています。
- 情報理論の基礎: ソース符号化定理、チャネル符号化定理など、情報理論の主要な定理はすべてエントロピーを基盤としています。エントロピーの定義の唯一性は、これらの定理の普遍性を保証します。
- 機械学習と統計学: エントロピーや関連概念(相互情報量、KLダイバージェンスなど)は、確率分布間の距離や独立性の測度として、決定木の構築、特徴選択、モデルの正則化、多様体学習など、機械学習の様々な場面で応用されています。クロスエントロピー損失関数は、分類問題における学習目標として広く用いられています。
- 物理学: 統計力学におけるボルツマン・ギブズエントロピーとの形式的な対応関係は、情報理論を物理系に応用する際の重要な指針となります。最大エントロピー原理は、不確実な情報のみを用いて確率分布を推定する強力な手法として、物理学、経済学、生物学など幅広い分野で利用されています。
- 他の不確実性測度: RenyiエントロピーやTsallisエントロピーなど、シャノンエントロピーを一般化した不確実性の測度も研究されていますが、これらの測度もシャノンの公理の一部(特に分解可能性)を異なる形で緩めたり変更したりすることによって得られています。シャノンの公理は、最も基本的かつ直感的な性質を満たす測度として、依然として特別な位置を占めています。
シャノンがエントロピーの定義に先立ってその満たすべき性質を考察し、そこから関数形を導出したアプローチは、数学的な美しさだけでなく、情報という抽象的な概念に確固たる基盤を与えるという点で非常に重要でした。これは、情報理論が単なる工学的なツールに留まらず、不確実性の数学として普遍的な科学となり得た理由の一つです。
結論
クロード・シャノンによる情報源エントロピーの公理的定義と唯一性の証明は、情報理論の最も深い基礎の一つです。不確実性の測度が満たすべき自然な性質から出発し、その関数形が一意に定まることを示したシャノンの議論は、エントロピーという概念に揺るぎない正当性を与えました。この数学的基盤の上に、情報理論の壮大な体系が構築され、現代の通信、計算、データ科学といった分野に計り知れない影響を与えています。シャノンの原論文に立ち返り、この根源的な議論を追体験することは、情報科学に携わる者にとって、その思考の深淵に触れる貴重な機会となるでしょう。
```