シャノン研究ノート

シャノンの情報源と通信路における容量概念:その定義、数学的定式化、そして理論体系における役割

Tags: 情報理論, クロード・シャノン, チャネル容量, 情報源容量, 分離定理, エントロピー, 相互情報量

はじめに:情報システムの「能力」を測る尺度としての容量

クロード・シャノンの記念碑的論文『A Mathematical Theory of Communication』は、情報伝送システムを抽象化し、その根本的な限界と可能性を数学的に定量化する枠組みを確立しました。この理論の中心概念の一つが「容量 (capacity)」です。シャノンは、情報伝送システムを構成する主要な要素である「情報源 (source)」と「通信路 (channel)」のそれぞれについて、その「能力」を測る尺度として容量を定義しました。

情報源の容量は、単位時間あたりに生成される情報の量、すなわち「情報源容量 (Source Capacity)」またはエントロピー率として定義され、これはデータ圧縮の理論的な限界と結びつきます。一方、通信路の容量は、ノイズの存在下で単位時間あたりに信頼性高く伝送できる情報の最大量として定義され、「通信路容量 (Channel Capacity)」と呼ばれ、信頼性のある通信レートの理論的な限界を示します。

これらの容量概念は、単に個別の要素の能力を定量化するだけでなく、シャノンの情報理論体系全体において極めて重要な役割を果たしています。特に、情報源符号化と通信路符号化を独立に行っても全体としての最適性が失われないことを示す「分離定理 (Source-Channel Separation Theorem)」は、これら二つの容量概念に基づいて構築されており、通信システム設計に普遍的な指針を与えています。

本稿では、シャノンが定義した情報源容量と通信路容量について、その数学的な定義、性質、導出の基礎となる考え方、そして情報理論体系におけるそれらの相互関係と役割を深く掘り下げて解説いたします。

情報源容量:不確実性の定量化と可逆圧縮の限界

情報源は、あるアルファベット $\mathcal{A}$ から記号の系列を確率的に生成するものとしてモデル化されます。シャノンは、情報源が生成する不確実性の量を定量化するためにエントロピーの概念を導入しました。情報源容量は、特に確率過程としてモデル化された情報源が単位時間あたりに持つ平均的な不確実性、すなわち「エントロピー率 (entropy rate)」として定義されます。

離散的、定常、エルゴード的な情報源 ${X_i}_{i=1}^\infty$ に対して、エントロピー率 $H(\mathcal{X})$ は以下のように定義されます。

$$H(\mathcal{X}) = \lim_{n \to \infty} \frac{1}{n} H(X_1, X_2, \dots, X_n)$$

ここで、$H(X_1, \dots, X_n)$ は $n$ 個の確率変数 $X_1, \dots, X_n$ の結合エントロピーです。定常かつエルゴード的であれば、この極限は存在し、しばしば条件付きエントロピーの極限として等価的に表現されます。

$$H(\mathcal{X}) = \lim_{n \to \infty} H(X_n | X_{n-1}, \dots, X_1)$$

シャノンの情報源符号化定理(ソース符号化定理)は、このエントロピー率が可逆データ圧縮の理論的な限界であることを示しています。すなわち、情報源のエントロピー率が $H$ である場合、任意の $\epsilon > 0$ に対して、平均符号長が $H + \epsilon$ に収束するような符号化方法が存在しますが、平均符号長を $H - \epsilon$ 以下にすることは、符号長 $n$ が十分大きい場合に復号誤り確率をゼロに近づける限り不可能です。情報源容量はこのエントロピー率 $H(\mathcal{X})$ に等しいと見なすことができます。

この定理の証明の核心には、シャノンが導入した「漸近等分割性 (Asymptotic Equipartition Property, AEP)」という概念があります。AEPは、十分長い系列において、実際に発生する確率がゼロでない系列は、確率がほぼ等しく、その数は $2^{nH(\mathcal{X})}$ 個程度であるという性質を示します。これらの系列を「典型集合 (Typical Set)」と呼び、この典型集合を符号化すれば、高い確率で情報源の出力を圧縮・復元できることを示しています。

通信路容量:ノイズに打ち勝つ伝送レートの限界

通信路は、入力記号列をノイズによって影響された出力記号列に変換するものとしてモデル化されます。シャノンは、通信路の能力を、その通信路を通して信頼性高く伝送できる情報の最大量として定義しました。これが通信路容量 $C$ です。

通信路容量は、入力 $X$ と出力 $Y$ の間の「相互情報量 (Mutual Information)」$I(X;Y)$ を、取りうる全ての入力確率分布 $P(X)$ について最大化した値として定義されます。離散無記憶通信路の場合、入力アルファベット $\mathcal{X}$、出力アルファベット $\mathcal{Y}$、そして遷移行列 $P(y|x)$ で特徴づけられる通信路において、容量 $C$ は以下のように定義されます。

$$C = \max_{P(X)} I(X;Y) = \max_{P(X)} \sum_{x \in \mathcal{X}, y \in \mathcal{Y}} P(x) P(y|x) \log_2 \frac{P(y|x)}{P(y)}$$

ここで、$P(y) = \sum_{x \in \mathcal{X}} P(x) P(y|x)$ は出力の周辺確率分布です。相互情報量 $I(X;Y)$ は、入力 $X$ を知ることで出力 $Y$ に関して得られる情報量、あるいはその逆と解釈でき、通信路がどれだけ効率的に情報を伝達できるかを示します。容量はこの情報伝達能力の最大値を示します。

シャノンの通信路符号化定理(チャネル符号化定理)は、この通信路容量が信頼性のある通信レートの理論的な限界であることを示しています。すなわち、任意の通信路容量 $C$ より小さい伝送レート $R < C$ と任意の $\epsilon > 0$ に対して、誤り確率が $\epsilon$ 未満となるような符号化・復号方法が存在します。しかし、レート $R > C$ で伝送しようとすると、誤り確率を任意に小さく保つことは不可能です。

この定理の証明には、シャノンが考案した「ランダム符号化 (Random Coding)」の手法が重要な役割を果たします。これは、特定の良い符号を構成する代わりに、多数の符号語をランダムに選び、その中で良い性質を持つものが高い確率で存在することを示す非構成的な証明手法です。また、受信側での典型集合を用いた復号も、証明の重要な要素となります。

有名な例として、帯域幅 $W$ [Hz] の加法性ガウスノイズ (AWGN) 通信路における容量は、シャノン・ハートレーの定理として知られ、信号電力 $S$、ノイズ電力スペクトル密度 $N_0$ を用いて以下のように与えられます。

$$C = W \log_2 \left(1 + \frac{S}{N_0 W}\right)$$

これは、物理的な制約(帯域幅、電力、ノイズレベル)の下で達成可能な最大情報伝送レートの厳密な限界を示しています。

情報源容量と通信路容量の相互関係:分離定理の普遍性

シャノン情報理論の最も強力で実用的な結果の一つが、情報源符号化と通信路符号化の「分離定理」です。この定理は、通信システム設計における基本的な指針を与えます。

定理は次のように述べられます:情報源のエントロピー率が $H(\mathcal{X})$ であり、通信路容量が $C$ である場合、情報源から出力される情報を信頼性高く、通信路を通して伝送するための必要十分条件は、$H(\mathcal{X}) \leq C$ であることです。もしこの条件が満たされれば、情報源符号化(圧縮)と通信路符号化をそれぞれ独立に設計しても、全体として信頼性の高い通信システムを構築することが可能です。具体的には、まず情報源出力をレート $R_s \geq H(\mathcal{X})$ のバイナリ系列に圧縮し(情報源符号化)、次にこのバイナリ系列をレート $R_c \leq C$ で通信路に適した信号に変換して伝送します(通信路符号化)。分離定理が保証するのは、もし $H(\mathcal{X}) \leq C$ であれば、レート $R_s$ と $R_c$ を適切に選ぶことで(例えば $H(\mathcal{X}) \leq R_s \leq R_c \leq C$ のように)、全体として任意に小さい誤り確率で情報伝送が可能になるということです。

この定理は、情報源と通信路という全く異なる性質を持つ要素の「能力」を、それぞれエントロピー率と相互情報量の最大値という単一の尺度で定量化できるからこそ成り立ちます。情報源容量は「どれだけの情報(不確実性)を効率的に表現できるか」、通信路容量は「どれだけの情報を信頼性高く運べるか」という能力を示し、前者が後者を下回っていれば、その情報源からの全ての情報をその通信路で伝送できる、という直感的な理解を厳密に数学的に裏付けています。

分離定理は、通信システム設計のモジュール化を可能にしました。データ圧縮技術と誤り訂正符号技術をそれぞれ独立に研究・開発し、それらを組み合わせて全体システムを構築できるという設計パラダイムは、この定理に大きく依存しています。これは、異なる情報源(音声、画像、データなど)や異なる通信路(無線、有線、光ファイバーなど)に対して、それぞれの特性に最適な圧縮・伝送技術を個別に開発し、組み合わせることを可能にします。

数学的基礎と定式化における重要な洞察

シャノンの容量概念の定式化は、確率論と情報理論的な尺度(エントロピー、相互情報量)の深い理解に基づいています。

シャノンはこれらの数学的ツールを駆使して、情報システムの根源的な性質を見抜き、その能力を定量化する普遍的な尺度「容量」を確立しました。

歴史的意義と現代への影響

シャノンの容量概念は、情報理論が確立された1940年代後半において、通信システムの設計と分析に革命をもたらしました。それまでの通信工学は、特定の変調方式や符号化方式の性能を経験的に評価することが主流でしたが、シャノンの理論は、どのような方式を用いようとも超えることのできない理論的な限界(容量)を明確に示しました。これにより、エンジニアは理論的な限界値を目標としてシステム設計を行うことができるようになり、技術開発の方向性に大きな影響を与えました。

特に分離定理は、データ圧縮研究と通信路符号化研究を独立した分野として発展させる強力な推進力となりました。今日、私たちが享受している様々なデジタル技術(例えば、インターネット通信、モバイル通信、デジタルメディア配信など)は、この分離原理に基づいたシステム設計の上に成り立っています。高効率なデータ圧縮技術(MP3, JPEG, H.26x, ZIPなど)や強力な誤り訂正符号(ターボ符号、LDPC符号など)は、それぞれの分野で理論的な容量限界に近づくための長年の研究開発の成果であり、これらはシャノンの情報源容量や通信路容量という概念によって指針が与えられてきました。

また、容量概念は情報科学、統計学、機械学習、生物学など、情報が関わる幅広い分野に応用されています。例えば、機械学習におけるモデルの表現能力やデータからの情報抽出能力を容量のアナロジーで議論したり、神経科学でニューロンの通信能力を通信路容量で評価したりするなど、情報の流れと処理に関する根本的な問いに答えるための強力な枠組みを提供し続けています。

結論:情報理論の礎石としての容量概念

クロード・シャノンが確立した情報源容量と通信路容量の概念は、情報理論の最も基本的かつ強力な柱です。これらの容量は、それぞれ情報源の生成能力と通信路の伝達能力という、情報伝送システムの二つの主要な要素の「能力」を、エントロピー率と相互情報量という数学的な尺度で厳密に定量化することを可能にしました。

情報源容量は可逆圧縮の理論限界を、通信路容量は信頼性のある伝送レートの理論限界を示します。そして、これらの二つの容量を結びつける分離定理は、情報源符号化と通信路符号化という異なる課題を独立に設計できるという、通信システム設計における普遍的な原理を提供しました。

シャノンの容量概念とその背後にある数学的な枠組みは、情報システムの分析、設計、そして最適化のための強固な基盤を提供しています。その普遍性と厳密性は、情報理論が通信工学の枠を超え、現代の情報科学における様々な分野で不可欠なツールとなる上で決定的な役割を果たしました。シャノンのこの業績は、今後も情報に関する探求の礎石であり続けるでしょう。