信息論與編碼理論基礎(chǔ) 王育民(第二章 )

上傳人：1*** IP屬地：湖南上傳時間：2024-05-09 格式：PPTX 頁數(shù)：100 大?。?.80MB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩95頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第二章：信息量和熵§2.1離散型隨機變量的非平均信息量(事件的信息量)§2.2離散型隨機變量的平均自信息量(熵)§2.4離散型隨機變量的平均互信息量§2.5

連續(xù)型隨機變量的平均互信息量和微分熵§2.6凸函數(shù)與(離散型隨機變量的)平均互信息量凸性2020/7/4

1§2.1

離

散

型

隨

機

變

量

的

非

平

均

信

息

量(

事

件

的

信

息

量

)2020/7/4

2輸入消息碼字(

輸

出

)p(Xk)收到0收到01收

到

1X1X2X3X4X5X6X7X80000010100111001011101111/8L

C1/81/8*1/81/81/81/81/41/41/41/4)1/21/200(】0非平均互信息量例2.1.103輸入消息碼字p(×k)收到0收到01收

到

1X1X2X3X4X5X6X7X80000010100111001011101111/81/41/81/41/161/161/161/1611/31/61/3)1/32/3000】非平均互信息量2020/7/44■

對觀察者來說，

同樣觀察事件011,但

輸入消息等概情況下“收獲”要大些，

即

得到的“信息”要多些?！鲈绞遣惶赡馨l(fā)生的事件竟然發(fā)生了，越是令人震驚。獲得的“信息”要多些。2020/7/4

5直觀認(rèn)

識輸入消息碼字p(xk)收

到

0收

到

1收

到010X1X20001111/21/21-pP1/21/21-pP非平均互信息量2020/7/4

6例2.1.201011-p1-p在接收010的過程中，消息出現(xiàn)的可能性，

即后驗概率也在不斷變化，但變化趨勢不再像例2.1.1

那樣單調(diào)地變化，

而

是有起伏的，且最后并未達(dá)到1或0.■觀察到010之后不能斷定是哪個消息出現(xiàn)了。但是由觀察結(jié)

果計算出來的某個消息出現(xiàn)的后驗概率大于1/2或小于1/2,使

我們可比未觀察前較有把握地推斷消息出現(xiàn)的可能性，

因而多少得到了一些有關(guān)出現(xiàn)的“信息”?！鋈魀<1/2,

則1-p>1/2,

也即010是消息x1的輸出可能性大。2020/7/4

7直觀

認(rèn)

識■從上述兩個系統(tǒng)可以看出，在一個系統(tǒng)中我們

所關(guān)心的輸入是哪個消息的問題，只與事件出

現(xiàn)的先驗概率和經(jīng)過觀察后事件出現(xiàn)的后驗概

率有關(guān)?！?/p>

信

息應(yīng)當(dāng)是先驗概率和后驗概率的函數(shù)，

即2020/7/4

I(xx;y;)=f[Q(xx),P(xxly;)]

8直

觀

認(rèn)

識■

研究表明信息量就表示成為事件的后驗概率與事件的先

驗概率之比的對數(shù)函數(shù)!!!2020/7/4

9(本章將給出各種信息量的定義和它們的性質(zhì)。)定義2.1.1(

非平均互信息量)給定一個二維離散型隨機變量因此就給定了兩個離散型隨機變量事件xk∈X

與事件yj∈Y的互信息量定義為非平均互信息量2020/7/4

10■

;若信源發(fā)某符號x;,

由于信道中噪聲的隨機干擾，收信者收到的是x;的某種變形y;,

收信者收到y(tǒng);后，從y;中獲取x;的信息量

用I(x;;y;)表示，則有■I(x;;y;)=

[收到y(tǒng);前，收信者對信源發(fā)x;的不確定性]-[收到y(tǒng);后，收信者對信源發(fā)x;仍然存在的

不確定性]=收信者收到y(tǒng);前后，收信者對信源發(fā)x;的不確定性的消除2020/7/4

11非平均互信息量直觀認(rèn)識的單位為“比特”?；バ畔⒘康男再|(zhì)：(1)I(xx;y;)=log。(r/(qxw;))。

因此有對稱性：I(xk;y;)=I(y;;xx)。(

)

當(dāng)x=qxW;

時，

|(x;y;)=0。

即

當(dāng)(x/q)

=W;

時

，I(xx;y,)=0。又即當(dāng)(rn/w;)=qx時

，I(xx;y;)=0。換句話說，當(dāng)

“X=xx”與“Y=y;”這兩個事件相互獨立時，互信息量20為20/

。

127/0其中底數(shù)a

是大于1的常數(shù)。常用a=2

或a=e,當(dāng)a=2

時互信息量非平均互信息量性質(zhì)當(dāng)(rkj/qn)>w;

時

，I(xx;y;)>0;當(dāng)(rj/qn)<w;

時

，I(xx;y;)<0。換句話說，當(dāng)

“X=xx”與

“Y=y;”這兩個事件相互肯定時，互信息量為正

值

；當(dāng)

“X=xg”與

“Y=y;”這兩個事件相互否定時，互信息量為

負(fù)值。2020/7/4非平均互信息量性質(zhì)(

)

當(dāng)rx>9xW;

時

I(xx;y;)>0,

當(dāng)rx<qnW;

時

I(xx;y;)<0。13條件互信息和聯(lián)合事件

互信

息■三個事件集的條件互信息定義(

定義2.1.2)

為■可以推廣到任意有限多個空間情況2020/7/4

14意味著：

(u?,u?)

聯(lián)合給出的關(guān)于u?

的信息量等于u?給出的關(guān)于u?

的信息量與u?

已知條件下u?給出的關(guān)于u?

的信息量之和。2020/7/4

15U?

U?U?系統(tǒng)互信息的可加性系統(tǒng)LDHQLslLDU?Z<lzaU2U?定義2.1.3(非平均自信息量)給定

一

個離散型隨機變量{X,xx,qx,k=1~K}。事

件xg∈X

的自信息量定義為I(xg)=log

。(1/qx),其中底數(shù)a是大于1的常數(shù)。非平均自信息量2020/7/4

16即互信息量不超過各自的自信息量。證明注意到總有rx≤min{qx,w;}

。

(why?

什么情況下相等?)因此根據(jù)定義，I(xx;y;)≤I(xk),I(xx;y;)≤I(y;)。2020/7/4自信息量的性質(zhì)：(1)非負(fù)性

.I(xg)≥0(2)單調(diào)性

qμ越小，

I(xg)越大(3)I(xx;y;)≤min{I(xk),I(y;)}非平均自信息量17若信源發(fā)某符號x;,

沒有信道中噪聲的隨機干擾，收信者收到的y;就是x;本身。收信者收到y(tǒng);=x;

后，當(dāng)然就完全消

除了對信源發(fā)符號x;

的不確定性，即[收到y(tǒng);=x;后，收信者對信源發(fā)x;仍然存在的不確定性]=0■I(x;;x;

)=[收

到x;前，收信者對信源發(fā)x;的不確定性]=I(x;)2020/7/4

18非平均自信息量的直觀認(rèn)識【例1.1】

假設(shè)一次擲兩個各自均勻、互相不可區(qū)分又互不相關(guān)的骰子.如事件(A)

、(B)

、(C)分別表示：(A)僅有

一

個骰子是3;(B)至少有

一個骰子是4;(C)

骰子上點數(shù)的總和是偶數(shù).試計算

事件{A)

、(B)

、(C)

發(fā)生后所提供的信息量.2020/7/4

19解

兩個骰

子

朝

上

一

面點

數(shù)的組

合總

數(shù)N=6×6-36(A)

事件的樣本

數(shù)

2a=2×5==10(B)

事件的樣本數(shù)ng=5×2+1=11(C)事件的樣本數(shù)

nc=6×3=18我們用隨機事

件出現(xiàn)

頻

率

近

似

地

看

作隨

機

事

件出現(xiàn)的

概

率，則

事

件(A)

、(B)

、(C)出現(xiàn)的概率分別是：2020/7/420得隨機

事

件(A)

、(B)

、(C)

出現(xiàn)后提供的信息量分別是：

比

特2020/7/4

21比

特定義2.1.4(條件的非平均自信息量)給定

一

個二維離散型隨機變量{(X,Y),(xx,y;),rx,k=1~K;j=1~J}在事件y;發(fā)生的條件下事件xx的條件自信息量定義為I(xxly;)=log

。(1/P(X=xxIY=y;))=log(wfrxj)2020/7/4條件的非平均自信息量22■條件的非平均自信息量實際上是非平均自信息

量的簡單推廣，

只不過將概率換成了條件概率?！?/p>

條件的非平均自信息量的特殊性質(zhì)：I(x?ly;)=I(xx)-I(xx;y;)2020/7/4

23條件的非平均自信息量定義2.1.5(聯(lián)合

的非平均自信息量)給定一個二維離散型隨機變量{(X,Y),(xx,y;),rk,k=1~K;j=1~J}事件(xx,y;)∈(X,Y)

的自

信

息

量定

義

為I(xx,y;)=log(1/rxj)2020/7/4

24聯(lián)合的非平均自信息量■

聯(lián)合的非平均自信息量的特殊性質(zhì)：I(xx,y;)=I(y;)+I(xxly;)=I(xx)+I(y;lxx)I(xx,y;)=I(xx)+I(y;)-I(xx;y;)。2020/7/4■聯(lián)合的非平均自信息量實際上是非平均自信

息量的簡單推廣。

即可以將(X,Y)

直接看成是

一

維的隨機變量。聯(lián)合的非平均自信息量25小結(jié)非平均互信息量——I(xx;y;)非平均自

信息量——I(xg),I(y;)條

件的非平均自信

息量——I(xgly;),I(y;lx)聯(lián)

合的非平均自信息量——I(xx,y;)非平均信息量(事件的信息量)2020/7/4

非

平均

信

息

量

(

事

件

的

信

息

量

)相

互

關(guān)

系

：I(x;y;)≤min{I(xq),I(y;)}I(xx;y;)=I(xq)-I(xxly;)I(x?y;)=I(y;)+I(xxly;)=I(xx)+II(x?y;)=I(xx)+I(y;)-I(xx;y;)(y;lxx)2020/7/427Z(xk;y;)2020/7/4

28Cx?Y)IQDHGY)1QY)=/G<Y)Z(xk)聯(lián)合自信息、條件自信息和互信息/(y;)§2.2

離散型隨機變量的平均自信息量

——熵2020/7/4

29■信息函數(shù)I(x)

破天荒地使信息度量成為可

能，是信息度量的有力工具，■但在信息度量方面仍然存在某些不足.自信息量的不足2020/7/4

30自信息量的不足■

信源發(fā)符號xx不是確定事件，是以p(xg)為概率的隨機事件，相應(yīng)的

自信息量I(xg)也是

一

個以p(xg)為概率的隨機性的量，顯然，用一個

隨機性的量來度量信息是不方便的.■

信息函數(shù)I(xx)只能表示信源發(fā)某一特定的具體符號xg所提供的信息

量.不同的符號由不同的自信息量.所以它不足以作為整個信源的總

體信息測度

·■

據(jù)此，在信息函數(shù)I(xg)的基礎(chǔ)上，構(gòu)架一個確定的量，作為信源的總體信息測度，就成為我們面臨的一個重要課題.2020/7/4

31■能作為信源總體信息測度的確定的量，應(yīng)是信源X可能發(fā)出的各種不同符號xk

(k=1,2,.,

含有的自信

息

量I(x)(k=1,2,...,K),在信源的概率空間{p(x?),p(x?),...,p(xx)}中的統(tǒng)計平均值H(X).2020/7/4

32統(tǒng)

計

平

均

值定義2.2.1(平均自信息量——熵)離散型隨機變量{X,xx,qn,k=1~K}的平均自信息量(又稱為熵)定義為其中底數(shù)a是大于1的常數(shù)。2020/7/4

33平均自信息量—

—

熵

平均自信息量——(

信息

)

熵集X

的平均自信息量表示集X

中事件出現(xiàn)的平均不確定性，

即為了確定■

集X

中

出現(xiàn)一個事

件

平

均

所

需

的

信

息

量

(

觀

測之

前

)

,或■集X中每出現(xiàn)

一

事件平均給出的信息量(觀測之

后

)

。2020/7/434■信息熵和統(tǒng)計熱力學(xué)中定義的熱熵在形式上

完全相同?！鲈跓崃W(xué)中，

表示系統(tǒng)所有可能的狀態(tài)，

p(x)表示某

一

個特定狀態(tài)x

出現(xiàn)的概率。

熱

熵

H(X)描

述了系統(tǒng)的“無規(guī)則”的程度，

即在

某

一

給定時刻

一個系統(tǒng)可能出現(xiàn)的有關(guān)狀態(tài)

的

“不確定”的程度。信息熵與熱熵2020/7/4

35我們不妨通過一個簡單

例

子，從另一角

度

進(jìn)

一

步

領(lǐng)

會

信息

熵的含

義.

若

有

一

布

袋內(nèi)放100個球.

其中：7

個是紅

色；

個

是白色

現(xiàn)

隨

意

摸出

一

球，

猜

是

什

么

顏

色

這

個

隨

機

試

驗

相

當(dāng)

于

一

個

單

符號

離

散

信

源，

其

信

源

空

間

為摸

出紅球(a?)

的

信

息

量I(a?)=…log0.7

比

特摸

出

白球(az)的信

息

量I(a?)=—log0.3

比

特2020/7/436若每次摸出一個球后又放回袋中，再進(jìn)行第二次摸取.在摸取

N(N足夠大)次中，紅球(a?)出現(xiàn)的次數(shù)約為

n?=Np(a?)次，白球出現(xiàn)的次數(shù)約為πe=Np(az)次

摸取

N次后總共所獲取的信息量為Iy=n,I(a?)+n?I(az)=Np(a?)I(a?)+Np(a?)I(a?)2020/7/4

372020/7/4

38平均每模取一次

所

獲

得的平

均

信

息量

為一p(x?)l(a?)+p(ap)I(ax)=-p(a?)logp(a?)-p(az)logp(a?)比

特

信

源

符

號注意：(

)

事

件xx的自信息量值為I(x)=log

。(1/qx),因

此H(X)是隨機變量X

的各事件自信息量值的“數(shù)學(xué)期望”。(

)

定

義H(X)時，允許某個qx=0

。

(此時將qlog

。(1/qμ)

通盤考慮)此時補充定義qplog

。(1/qk)=0。這個定義是合理的，

因

為平均自信息量———熵2020/7/4

39例2.2.1

離散型隨機變量X

有兩個事件x?和x?,P(X=x?)=p,P(X=x?)=1-p則X

的

平

均

自

信

息

量

(

熵

)

為H(X)=plog

。(1/p)+(1-p)log

。(1/(1-p))觀

察H(X),它

是p

的函數(shù)，

圖2.2.1給出了函數(shù)圖象.平均自信息量—

—

熵2020/7/4

40H(X)1.00.5O

0.5

12020/7/4

41圖2.2.1P該圖象具有某種對稱性：■

當(dāng)p=0或p=1時

，H(X)=0。(隨機變量X

退化為常數(shù)時，熵為O)■

當(dāng)

<p<1

時，H(X)>0。p

越

靠

近1/2,H(X)

越大

。

(X是真正

的隨機變量時，總有正的熵。隨機性越大，熵越大)■

當(dāng)p=1/2

時

，H(X)

達(dá)到最大。

(隨機變量X

的隨機性最大時，

熵最大。特別如果底數(shù)a=2,

則H(X)=1

比

特

)平均自信息量———熵2020/7/4

42【例1.4】計算英

文

信

源

的

信

息

熵

，若把英文的26個字母和空格共2

7個

符

號

，

看

作

等

概

出

現(xiàn)

，

則

英

文

信

源

的

信

息

熵

為平

均

自

信

息

量

—

熵2020/7/4

43=log27

=4.75比

特

字

母字母空格ET○AVtRS樓率0.19560.1050.072A06540.0630,05g0.0550.05d0.052字母IDLCFMPF概畢0.0470.0350.0290.0230.02250.02250.0210.01750-012字母WCBVKXJQZ概率Q.0120.0110.01050.0080.0030.0020.00]0.0010.001事實上，英語中的某些字母的出現(xiàn)概率遠(yuǎn)大于另外一些字母，英文字母的概率分布如(表2.1)

所示

。表2

英文字母的概率分布平均自信息量—

—

熵2020/7/4

44我們用隨機

變

量

表

示

英

文

信

源

，

符

號α(i-1,2,…,27)

分別表示

英

文的

個

字

母

和

一

個

空格，p(a,)(i=1,2,…,27)分

別

表

示

上

述

表

格中

各

字

母

和

空

格的

概

率，

則

英

文

信

源的

信息

熵

比

特

字

母可

見，

當(dāng)

我

們

考

慮

到

英

文

不同

字

母

和

空

格的

實

際

出

現(xiàn)

概

率

后

，

英

文

倍

源

的

信

息

熵

H,(X),要

比把字

母

和

空

格

看

作

等

概出

現(xiàn)時的

信

息

熵

H?(X)要

小

一

些

這

就

是

說，

在

考

慮

到

英

文

字

母

和

空

格

的實際出現(xiàn)概率后

，

英文信源的平均不確定性

，

比把字母和空格看作等概出現(xiàn)時英文信源的平均不確

定

性

要

小

一

些

平

均

自

信

息

量—

—

熵

2020/7/4

平

均

自

信

息

量—

—熵

【

例

】擲一個均勻硬幣直到出現(xiàn)“正面

”

為止.令

表示

所

需

擲

的

次

數(shù)

，

求

隨

機

變

量

的信

息

熵

(X)2020/7/4

46解因

為

表示擲一個均

句

硬

幣

直

到

出

現(xiàn)“

正

面

”

所

需

擲

的

次

數(shù)

，

所

以

信

源

X可

能

發(fā)

出

的

符

號是表示

次

數(shù)

的

數(shù)字

(

正

整

數(shù)

)

符

號

集

是

一

串

無

限

可

列

的

正

整

數(shù)

(

除

以

外

)

即X:{1,2,3,…}我們知道，擲一次硬幣

出現(xiàn)“正

面

”的概率P{X

=1}=2-

1擲二次出現(xiàn)“正面”

,即第一次出現(xiàn)“反

面”

,第二

次出現(xiàn)

“正

面”

的概率P{X=2}=

(第

一次出現(xiàn)“反面”的概率》×(第

一次出現(xiàn)“正面”的概率》一

P{第

一

次出現(xiàn)“反面*}·P{

第二次出現(xiàn)“正面”}-2-1·2-1=21

平

均

自

信

息

量—

—熵

2020/7/4

47顯然，擲n

次出現(xiàn)“正面”的概率P{X=n}=P{

=2-(

-一1

出2

面2”-}“·

1第,2(

)次出現(xiàn)“反面”}·P{

第

次出現(xiàn)“正面”]由此可得信源X的信源空間“,…一

1,3x(n…·平均自信息量——熵2020/7/4

48平均自信息量—

—

熵2020/7/4

49信

源

的

信

息

熵比

特

次■由此可類似給出條件平均自信息量稱做是給定y,εγ條件下，集x的條件熵■同時，H(Xly,)又可以看作是集{Y,p(y)}上

的隨機變量，

繼續(xù)求統(tǒng)計平均/期望2020/7/4條件平均自信息量(條件熵)■條件非平均自信息量Gd>=

是集{

CXX/(s?}

上的隨機變量50定義2.2.2(條件熵)給定

一個二維離散型隨機變量{(X,Y),(xx,y;),rkj,=p(xx,y;)k=1~K;j=1~J},稱如下定義的H(XIY)

為X

相對于Y

的條件熵條件平均自信息量——條件熵2020/7/451{(X,Y),(xx,y;),rx=p(xx,y;),k=1~K;j=1~J}事件(xx,y;)∈(X,Y)

的自信息量I(xx,y;)=-logp(xx,y;)求其統(tǒng)計平均或數(shù)學(xué)期望聯(lián)合的非平均自信息量給定

一個二維離散型隨機變量2020/7/4

52定義2.2.3(聯(lián)合熵)二維離散型隨機變量{(X,Y),(xx,y;),rx=p(xx,y;),k=1~K;j=1~J}的聯(lián)合熵定義為聯(lián)合的平均自信息量——聯(lián)合熵2020/7/4

53熵、條件熵、聯(lián)合熵之間的關(guān)系：(1)

H(X,Y)=H(X)+H(YIX)=H(Y)+H(XIY)

(由定義容易證明)(2)當(dāng)

與Y

相互獨立時，H(YIX)=H(Y),H(XIY)=H(X)此

時

也有H(X,Y)=H(X)+H(Y)。2020/7/4各熵之間的關(guān)系54各熵之間的關(guān)系2020/7/4

55證明

(

)H(X)=Zqxlog。(1/q),有以下的性質(zhì)。1

、H(X)

與事件{xx,

k=1~K}

的具體形式無關(guān)，僅僅依賴于概率向量{qx,k=1

~K}。而

且H(X)與概率向量{qx,k=1~K}

的分量排列順序無關(guān)。2

、H(X)≥0。完全同理，H(XI)≥0;H(YIX)≥0;H(X,)≥0。2020/7/4對于隨機變量{X,xk,qx,k=1~K}的熵熵的性質(zhì)56■

3、確定性：當(dāng)概率向量{qk,k=1~K

}的

一(

)

(時這(

是時說其，它當(dāng)分隨量機均變?yōu)?/p>

實,

際上是個常量時，不含有任何信息量)

。量X0)就此X分H個2020/7/4

57熵的性質(zhì)

§2.2

離

散

型

隨

機

變

量

的

平

均

自

信

息

量

(

熵

)4、

可忽咯

性：

當(dāng)隨

機

變

量X的

某

個

事

件

的

概

率

很

小

時

，該

事

件

對

熵的

貢

獻(xiàn)

可以

忽

咯

不

計

。

(

雖

然

小

概

率

事

件

的自信息

量

很

大。

這

是因為當(dāng)qx→0時

，qxlog。(1/qp)→0)

。5、

可

加

性

：H(X,Y)=H(X)+H(YIX)=H(Y)+H(XIY)。因此，

H(X,D≥H(X);H(X,)≥H(Y)。(

性質(zhì)

有

一

個

隱

含

的

結(jié)

論

：

設(shè)X的概率向量

為{q?,q?,...,9k},Y

的

概率

向量為{q?,q?,..,9K-2,9K-1+9k},其

中qk-19x>0,

則

H(X)>H(Y)

。

)2020/7/458

§2.2

離

散

型

隨

機

變

量

的

平

均

自

信

息

量

(熵

)6、

極

值

性

：H(X)≤log

。K

。

當(dāng)

q?=q?=…=qk=1/K時

，

才

有H(X)=log

。K。(以

下

是

極

值

性的

證

明

過

程

)引

理

對任何x>0

總

有l(wèi)nx≤x-1。證明

令

f(x)=lnx-(x-1),

則f‘(x)=1/x-1

。

因此當(dāng)

0<x<1

時f‘(x)>0;當(dāng)x>1時f‘(x)<0。換句話說

，當(dāng)

0<x<1

時，f(x)的

值

嚴(yán)

格

單

調(diào)

增

；當(dāng)x>1時，f(x)的

值

嚴(yán)

格

單

調(diào)

減

。注意到f(1)=0。所以對任何x>0總

有f(x)≤f(1)=0。得

證

。2020/7/4

59引

理

設(shè)有

兩

個K

維概

率

向量

(

什

么

叫

概

率

向

量

每

個

分

量

都是非負(fù)的，且各分量之和等于1){qk,k=1~K}和{Px,k=1~K}。則總滿足§2.2

離散型隨機變量的平均自信息量(熵)2020/7/4

60§2.2

離散型隨機變量的平均自信息量(

熵

)2020/7/4

61證明

注意到引理1,

§2.2

離

散

型

隨

機

變

量

的

平

均

自

信

息

量

(

熵

)引理2得證。

(注意：此

證明

過

程

省略了

若

干

細(xì)

節(jié)，

比如

當(dāng)

概率向

量的

某

個

分

量

為

時

，

情

況比較

復(fù)

雜

)極

值

性

的

證

明

{

qk,k

=1~K

}是一個K維

概率向量。

令P=1/K,k=1~K

。

則

{P,k=1~K}也是一個K

維

概率向量。

由引

理

2,H(X)=Zkqlog

。(1/q)≤Zqlog

。(1/(1/K))=log。K。得

證

。2020/7/4

62交

互

信

息

量

故

然

是

度

量

信

道

傳

遞

信

息

的

基

石

，

但

交

互

信

息

量

I<a?;b?)還只能

表

示

信

源

和信

宿

了

的

某

特

定

具

體

符

號

和6;之間的交互信息量，而且信源

出

現(xiàn)

某

特

定

具

體

符

號

a.、信

宿Y出

現(xiàn)

某

特

定

具

體

符

號

b,本

身

是

一

個

概

率

為

p(a,b;)的

隨

機

事

件

，

相

應(yīng)

的

交

互

信

息

量

I(ai?b,)是

一

個

隨

機

性

的

量

作

為

信

道

傳

遞

信

息

的

度

量

函

數(shù)

，

它

應(yīng)

該

從

總

體

上

反

映

信

道

每

傳

遞

一

個

符

號(

不

論

傳

遞

什

么具體符號)所傳遞的平均信息量，同時也應(yīng)該是

一

個確定的量

.§2.4

離

散

型

隨

機

變

量

的

平

均

互

信

息

量2020/7/4

63我們知道，當(dāng)信宿

收

到

某

一

具

體

符

號b;(Y=b,)

后，推測信源

發(fā)符號a;的

概

率

，

已

由

先

驗

概率p(a,)轉(zhuǎn)交為

后

驗

概

率

p(a,/b,),從

b,中

獲

取

關(guān)

于

輸

人

符

號(

不

論

是

哪

一

個

符

號

)的

平

均

信

息

量，應(yīng)是交互信息量

I(a;sb,)

在

條

件

概

率

空

間

P(X/Y=b,)中的統(tǒng)計平均值，即§2.4

離

散型

隨

機

變

量的

平

均

互

信

息

量2020/7/4

64(2.47)§2.4

離散型隨機變量的平均互信息量定義2.4.1(平均互信息量)給定一個二維離散型隨機變量{(X,Y),(xx,y),rej,

k=1~K;j=1~J}(

因此就給定了兩個離散型隨機變

量{X,xx,9x,k=1~K}和{Y,y;,w;,j=1~J})

。X與Y的平均互信息量定義為如下的I(X;Y):2020/7/4

65注

意

：①事件對(xg,y;)的“非平均互信息量”值為I(xx;y;)。②

此外，可以定義“半平均互信息量”I(xx;Y)和1(X;y,)。I(xx;Y)表示事件“X=xg”與隨機變量Y之間的半平均互信息量；

I(X;y;)表示事件“Y=y;”與隨機變量X

之間的半平均互信息量。平均互信息量的性質(zhì)1、I(X;)≥0。

(雖然每個“非平均互信息量”

I(xk;y;)未必非負(fù)，

但平均互信息量I(X;Y)

非負(fù))證

明§2.4

離散型隨機變量的平均互信息量2020/7/4

67{rxj,k=1~K;j=1~J}

是一個概率向量：{qw),k=1~K;j=1~J}

是另一個概率向量：§2.4

離散型隨機變量的平均互信息量故由引理2知，2020/7/468

§2.4

離散型隨機變量的平均互信息量2、

對稱性：

I(X;Y)=I(Y;X)。3、

平均互信息量的熵表示：=HO+HO—HX》2020/7/4I(X;Y)=H(X)-H(XIY)=H(Y)-H(YIX)=H(X)+H(Y)-H(XY)。證

明69§2.4

離散型隨機變量的平均互信息量2020/7/4

70=H(X)-H(XIY)=H(Y)-H(YIX)3’、若X與

相互獨立，則I(X;Y)=0,H(XIY)=H(X),H(YIX)=H(Y),H(XY)=H(X)+H(Y)。證明若X與Y

相互獨立，則rx=qxw;,k=1~K;j=1~J。

因此此時log

。(rk/(qxw;))=0,k=1~K;j=1~J。因此I(X;Y)=0

。再由

性

質(zhì)

,性質(zhì)3’得證。§2.4

離

散

型

隨

機

變

量

的

平

場

互

信

息量

2020/7/4

714、I(X;Y)≤H(X),I(X;Y)≤H(Y)。(性質(zhì)4有多種簡單的證明方法。第

一種證明方法：

由I(X;Y)

的

定

義

，log

。(rx/(qnw;))≤log

。(1/q)。

第二種證明方法：由性質(zhì)3,I(X;Y)=H(X)-H(XIY)≤H(X)

。)4’、若X

是Y的確定的函數(shù)X=g(Y),

則I(X;Y)=H(X)≤H(Y)。若Y是X

的確定的函數(shù)Y=g(X),

則I(X;Y)=H(Y)≤H(X)。(證咯)§2.4

離散型隨機變量的平均

互信息量2020/7/4

72一般印象(

平

均

互

信息

量I(X;Y)的

各

種

性

質(zhì)

與

我

們

對

“

平

均

互

信

息

量”

這

個

名

詞的

直

觀

理

解

非

常

吻

合

)。一

般

情

形：

總有0≤I(X;)≤min{H(X),H(Y)}。一

種

極

端

情

形：若

X與

Y相

互

獨

立，則I(X;Y)=0。另

一

種

極

端

情

形：若

、Y

中

有

一

個

完全

是

另

一

個的

確

定

的

函

數(shù)，則

I(X;Y)=min{H(X),H(Y)}?！?.4

離

散

型

隨

機

變

量

的

平

場

互

信

息量

2020/7/4

73X

系

統(tǒng)

乙

系

統(tǒng)

2Y信息處理定理的含義：

串聯(lián)的系統(tǒng)越多，

兩端的平均互信息量

越小。信息處理定理的證明思想：

注意到X

、Z

、Y

構(gòu)成了馬爾可夫鏈。簡單地說，在已知Z的條件下，

X與Y條件獨立。根據(jù)這種馬爾可夫鏈結(jié)構(gòu)，可以證明I(X;Y)≤I(X;Z)。(證咯)2020/7/4

74定理2.4.1(信息處理定理)對于以下給定的系統(tǒng)串聯(lián)有：I(X;Y)≤I(X;Z)?！?.4

離散型隨機變量的平均

互

信

息量

§2.1~§2.4

諸

概

念

直

觀

理

解兩不事件的非平均互信息量：互相肯定的程度。一個事件的非平均自信息量：令人震驚的程度。一

個隨機變量的平均自信息量(熵):不可預(yù)測的程度。一

個隨機變量X相對于另

一

個隨機變量Y的條件熵：

當(dāng)

Y的值確定

時，

X剩余的不可預(yù)測的程度。二維隨機變量(XY)

的聯(lián)合熵：

聯(lián)合不可預(yù)測的程度。兩個隨機變量X與Y的平均互信息量：

互相依賴的程度。

(

當(dāng)Y的

值確定時，

X的可預(yù)測的程度；

當(dāng)

Y的值確定時，

所能夠給出

的X的

信

息

量

)

(

當(dāng)X

的值確定時，

的可預(yù)測的程度；

當(dāng)X的值確定時，

所能夠給出的Y的信息量)事件X=x與隨機變量Y的半平均互信息量：

當(dāng)X=x時

，

所能夠給出的Y的信息量。2020/7/4

75恒等式I(X;Y)=H(X)-H(XIY)=H(Y)-H(YIX)=H(X)+H(Y)-H(XY)由

定

義

容易

看出第

一

類

不

等

式H(X)≤log。K;I(X;Y)≥0;H(XY)≤H(X)+H(Y);H(XIY)≤H(X);H(YIX)≤H(Y)。根

據(jù)引

理1

和引

理

來

證明第

二

類

不

等

式I(X;)≤min{H(X),H(Y)};H(XY)≥max{H(X),H(Y)}。根

據(jù)

概

率

論的基

本

事

實

來

證明獨

立

情

形

下的

等式I(X;Y)=0,H(XIY)=H(X),H(YIX)=H(Y),H(XY)=H(X)+H(Y)。第

一

類

不

等

式的

特殊情形§2.2和§2.4

中的若干公式2020/7/4

76§2.5

連

續(xù)

型

隨

機

變

量

的平

均

互

信

息

量和

微

分

熵2020/7/4

77定義2.5.1給定二維連續(xù)型隨機變量{(X,Y),Px.n(x,y)}(因此就給定了兩個連續(xù)型隨機

變量{X,px(x)}和{Y,py(y)})

。

事

件x

∈X與事件y∈Y的互信息量定義為事件互信息量2020/7/4

78定義2.5.2

給定二維連續(xù)型隨機變量{(X,Y),Px.p(x,y)}

(因此

就給定了兩個連續(xù)型隨機變量{X,px(x)}和{Y,py(y)})。X與Y的平均互信息量定義為平均互信息量2020/7/4

79平均互信息量的性質(zhì)1、I(X;Y)≥0。2、

對稱性：

I(X;Y)=I(Y;X),3、

信息處理定理：對于如下的系統(tǒng)串聯(lián)有I(X;Y)≤1(X;

Z)。X

系統(tǒng)

乙系

統(tǒng)

Y平均互信息量性質(zhì)2020/7/4

804、(連續(xù)型隨機變量為什么不能類似地定義平均自信息量

—

熵?這是因為，連續(xù)型隨機變量的事件有無窮多個，每個

事件發(fā)生的概率無窮小。如果類似地定義熵，

則熵是無窮

大。因此只能定義所謂“微分熵”,而“微分熵”的直觀

合理性大打折扣。

比如“微分熵”可以是負(fù)的)微分熵的定義給定連續(xù)型隨機變量{X,px(x)}。

X的微分熵

(又稱為相對熵)定義為微分熵

、

相對熵2020/7/4

81聯(lián)合的微分熵的定義給定二維連續(xù)型隨機

變量{(X,Y),P(x,r(x,y)}。

(X,Y)

的聯(lián)合的

微分熵定義為2020/7/4

82聯(lián)

合

微

分

熵性

質(zhì)例2.5.1設(shè)(XY)

是連續(xù)型的二維隨機變量，其聯(lián)合分布密度函數(shù)

Pxy(xy)為二維高斯概率密度函數(shù)(二元正態(tài)密度函數(shù)):

2020/7/4

83例題如X

是信

號隨

機

變

量

是噪

聲隨

機

就

是

信

噪2020/7/4

84例

題結(jié)

論

：例2

設(shè)X~U(a,b),

求

的

微

分

熵

(

相

對

熵

)(我們將發(fā)現(xiàn)，

X的相對熵未必非負(fù))

。例題2020/7/485例2.5.3設(shè)X~N(m,σ2),求X的微分熵(相對熵)(我們將發(fā)現(xiàn)，

X的相對熵未必非負(fù))。2020/7/4

86例題熵功率例題2020/7/487(已

知

：

當(dāng)離散型隨機變量X的

事

件

有K

個

時

，

H(X)≤log。K;只有當(dāng)X服從等概分布時才有H(X)=log。K)■

1.峰值功率受限■均勻分布相對熵最大定理2.5.1

若連續(xù)型隨機變量X的取值范圍在區(qū)間

(-M,M)

之

內(nèi)

(即

當(dāng)x不在區(qū)間(-M,M)

時

，fx(x)=0)

則H(X)≤log。2M;

只有當(dāng)X

服從U(-M,M)

分布時才有H(X)=log。2M。2020/7/4

88微

分

熵

的

極

大

化■高斯分布相對熵最大定理2.5.2

若連續(xù)型隨機變量X的方差等于σ2

,則H(X)≤(1/2)log(2πeo2);只

有

當(dāng)X服從N(m,σ2)分布時才有H(X)=(1/2)log。(2πeo2)?！?/p>

3.平均功率大于等于熵功率微

分

熵

的

極

大

化2020/7/4

人人文庫> 全部分類> 辦公材料 > 演講稿件

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

信息論與編碼理論基礎(chǔ) 王育民(第二章 )

文檔簡介

溫馨提示

最新文檔

評論

信息論與編碼理論基礎(chǔ) 王育民(第二章 )

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔