版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1第二章信息的度量2度量信息的基本思路信源熵和條件熵互信息量和平均互信息量多維隨機變量的熵
本章內容提要3信息論的發(fā)展是以信息可以度量為基礎的,度量信息的量稱為信息量。對于隨機出現(xiàn)的事件,它的出現(xiàn)會給人們帶來多大的信息量?考慮到通信系統(tǒng)或很多實際的信息傳輸系統(tǒng),對于所傳輸?shù)南⑷绾斡眯畔⒘康姆椒▉砻枋??本章將圍繞這些問題展開討論。第2章信息的度量4從討論信源的特征入手,給出定量度量信息的方法。以天文學范疇的事件為例。小行星撞擊地球、月食、日食、流星雨、星系的產生與消亡等等,都是天文學內一個個離散的事件如果將一個事件用一個符號來表示,則一個符號代表一個完整的消息如果把都是天文學內的事件看作是天文學這個“信源”輸出的符號,則這個信源可以看作是單符號離散信源。2.1.1單符號離散信源2.1度量信息的基本思路5由此給出如下定義:定義2.1
如果信源發(fā)出的消息是離散的、有限或無限可列的符號或數(shù)字,且一個符號代表一條完整的消息,則稱這種信源為單符號離散信源。2.1度量信息的基本思路2.1.1單符號離散信源6單符號離散信源的實例擲骰子每次只能是1,2,3,4,5,6中的某一個;天氣預報可能是晴、陰、雨、雪、風、冰雹…中的一種或其組合以及溫度、污染等;二進制通信中傳輸?shù)闹皇?、0兩個數(shù)字;等等。這種符號或數(shù)字都可以看作某一集合中的事件,每個符號或數(shù)字(事件)都是信源中的元素,它們的出現(xiàn)往往具有一定的概率。把信源看作具有一定概率分布的某一符號集合。2.1度量信息的基本思路2.1.1單符號離散信源7定義2.2若信源的輸出是隨機事件X,其出現(xiàn)概率為P(X),,則它們所構成的集合,稱為信源的概率空間或簡稱為信源空間。信源空間通常用如下方式來描述:
顯然,信源空間必定是一個完備集,即2.1度量信息的基本思路2.1.1單符號離散信源8考慮一個單符號離散信源,它的輸出被傳送給對此感興趣的一方。設x1為最大可能的輸出,xN為最小可能的輸出。例如,假設信源輸出代表天氣情況,x1為晴或多云天氣,xN為冰雹或其他強對流天氣。哪個輸出包含更多的信息,x1還是xN?直觀地,傳遞xN
給出了更多的信息。2.1.2度量信息的基本思路2.1度量信息的基本思路9由此可以合理地推算信源輸出的信息量應該是輸出事件的概率的減函數(shù)。2.1.2度量信息的基本思路2.1度量信息的基本思路10信息量的另一個直觀屬性是,某一輸出事件的概率的微小變化不會很大地改變所傳遞的信息量,即信息量應該是信源輸出事件概率的連續(xù)減函數(shù)。2.1.2度量信息的基本思路2.1度量信息的基本思路11假設與輸出xi相關的信息能被分成獨立的兩部分,比如xi1與xi2,即xi={xi1,xi2}。直觀地,傳遞xi所包含的信息量是分別傳遞xi1和xi2所得到的信息量的和。2.1.2度量信息的基本思路2.1度量信息的基本思路12
若信源中事件xi的出現(xiàn)所帶來的信息量用I(xi)來表示并稱之為事件xi的自信息量,則概率為p(xi)的信源輸出xi所包含的信息量I(xi)必須滿足以下幾個條件:2.1.2度量信息的基本思路2.1度量信息的基本思路131.
信源輸出xi所包含的信息量I(xi)僅依賴于它的概率,與其取值無關。2.I(xi)是P(xi)的連續(xù)函數(shù)。3.I(xi)是P(xi)的減函數(shù),即:如果P(xi)>P(xj),則I(xi)<I(xj)。極限情況,若P(xi)=0,則I(xi)→∞; 若P(xi)=1,則I(xi)=0。4.若兩個單符號離散信源(符號集合X,Y
)統(tǒng)計獨立,則X中出現(xiàn)xi、Y中出現(xiàn)yj的聯(lián)合信息量
I(xi,yj)=I(xi)+I(yj)4個公理只有對數(shù)函數(shù)能夠同時滿足以上條件。
2.1度量信息的基本思路2.1.2度量信息的基本思路14定義2.3
事件xi的出現(xiàn)所帶來的信息量為事件xi的自信息量。2.1度量信息的基本思路2.1.2度量信息的基本思路15I(xi)實質上是無量綱的為研究問題的方便,根據(jù)對數(shù)的底定義信息量的量綱對數(shù)的底取2,則信息量的單位為比特(bit);取e(自然對數(shù)),則單位為奈特(nat);取10(常用對數(shù)),則單位為哈特(Hart)。利用換底公式容易求得: 1nat1.44bit 1Hart3.32bit在通信及目前的絕大多數(shù)信息傳輸系統(tǒng)中,都是以二進制為基礎的,因此信息量單位以比特最為常用在沒有特別說明的情況下,通常式(2.3)的量綱即為比特,且底數(shù)2被省略。2.1度量信息的基本思路2.1.2度量信息的基本思路16例2.1
一個1,0等概的二進制隨機序列,求任一碼元的自信息量。 解:任一碼元不是為0就是為1 因為P(0)=P(1)=1/2 所以I(0)=I(1)=–lb(1/2)=1(bit)2.1度量信息的基本思路2.1.2度量信息的基本思路17例2.2
對于2n進制的數(shù)字序列,假設每一符號的出現(xiàn)完全隨機且概率相等,求任一符號出現(xiàn)時所包含的自信息量。 解:設2n進制數(shù)字序列任一碼元xi的出現(xiàn)概率為P(xi),根據(jù)題意,有
P(xi)=1/2n
I(xi)=–lb(1/2n)=n(bit)事件的自信息量只與其概率有關,而與它的取值無關。2.1度量信息的基本思路2.1.2度量信息的基本思路18信宿端收到某一消息后所得到的信息量,可以等效為接收者在通信前后“不確定”因素的減少或消除。事件的不確定性可用不確定度描述,它同樣是事件概率的函數(shù),在數(shù)值和量綱上和自信息量相等,因此都可以用(2.3)式來計算。某一隨機事件的出現(xiàn)所給出的信息量(自信息量),在數(shù)值上與該隨機事件的不確定度不但相關而且相等,即事件的出現(xiàn)等效成事件不確定集合的元素的減少,或簡稱為事件不確定度的減少。2.1度量信息的基本思路2.1.3自信息量和不確定度的關系19自信息量和該事件的不確定度的含義有本質的區(qū)別。不確定度只與事件的概率有關,是一個統(tǒng)計量,在靜態(tài)狀態(tài)下也存在;自信息量只有該隨機事件出現(xiàn)時才給出,不出現(xiàn)時不給出,因此它是一個動態(tài)的概念。2.1度量信息的基本思路2.1.3自信息量和不確定度的關系20自信息量I(xi)只能表示信源發(fā)出的某一具體符號xi的自信息量。很多信源的符號集合具有多個元素且其概率并不相等,即P(xi)≠P(xj),因此I(xi)不能作為整個信源的總體信息測度。能作為信源總體信息測度的量應是信源各個不同符號xi
(i=1,2,…,N)所包含的自信息量I(xi)(i=1,2,…,N)在信源空間 P(X)={P(x1),P(x2),…,P(xi),…,P(xN
)}中的統(tǒng)計平均值。2.2信源熵和條件熵2.2.1信源熵21 定義2.4
若信源符號xi
的出現(xiàn)概率為P(xi),自信息量為I(xi)(i=1,2,…,N),則
稱為信源的信息熵,簡稱信源熵。其中,定義0lb0=0。2.2信源熵和條件熵2.2.1信源熵22對于單符號離散信源,信源熵是信源每發(fā)一個符號所提供的平均信息量,其量綱為信息單位/信源符號。信源熵只與信源符號的概率分布有關,是一種先驗熵。對于任何給定概率分布的信源,H(X)是一個確定的數(shù),其大小代表了信源每發(fā)出一個符號給出的平均信息量。2.2信源熵和條件熵2.2.1信源熵23例2.3
二進制通信系統(tǒng)的信源空間為
求該信源的熵。
解:
設P(1)=p,則P(0)=1-p。由(2.4)式,有 H(X)=-plbp-(1-p)lb(1-p) (2.5)上式又稱為二進制熵函數(shù),也常用Hb(p)表示p=0或p=1時,H(X)=0;p=1/2時,H(X)=1。2.2信源熵和條件熵2.2.1信源熵242.2信源熵和條件熵2.2.1信源熵圖2.1二進制熵函數(shù)25信息熵借用熱力學中的熵給出了平均信息量的概念,不但可以表征信源的信息統(tǒng)計測度,也可以表征任何集合的信息統(tǒng)計測度。例如,若信宿的符號yj
的出現(xiàn)概率為P(yj),自信息量為I(yj)(j=1,2,…,M),則信宿熵為2.2信源熵和條件熵2.2.1信源熵26若信源的輸出為X,信宿的輸入為Y,即考慮了信道的作用,如圖2.2所示,這時經常是某一事件在某種條件下才出現(xiàn),它的出現(xiàn)所帶來的信息量就必須要在聯(lián)合符號集合X、Y中進行考慮,且需用條件概率來描述。
2.2.2條件自信息量2.2信源熵和條件熵圖2.2最簡單的通信系統(tǒng)模型27定義2.5
設在yj條件下,隨機事件xi的條件概率為P(xi/yj),則xi的出現(xiàn)所帶來的信息量被稱為它的條件自信息量,表示為
(2.6)類似地,在xi條件下,隨機事件yj出現(xiàn)所帶來的信息量亦是條件自信息量:(2.7)2.2信源熵和條件熵2.2.2條件自信息量上述條件概率僅僅由信道特性決定,可以看作是由信道給出的信息量。28為尋求在給定y條件下X集合的總體信息量度,有2.2信源熵和條件熵2.2.3條件熵考慮到整個Y集合,有(2.9)29定義2.6
對于聯(lián)合符號集XY,在給定Y的條件下,用聯(lián)合概率P(xy)對X集合的條件自信息量進行加權的統(tǒng)計平均值,為X的條件熵。由此可見,條件熵表示了信道所給出的平均信息量。2.2信源熵和條件熵2.2.3條件熵30在圖2.3的通信系統(tǒng)信息傳輸模型中,若信道存在干擾,信宿收到從信道輸出的某一符號yj后,能夠獲取多少關于從信源發(fā)某一符號xi的信息量?
圖2.3最簡單的通信系統(tǒng)信息傳輸模型2.2信源熵和條件熵2.2.3條件熵31定義2.7
對兩個離散隨機事件集合X和Y,事件yj的出現(xiàn)給出關于事件xi的信息量,定義為事件xi、yj的互信息量,用I(xi
;yj)表示。注意I(xi;yj)與I(xi,yj)的區(qū)別,后者表示xi與yj同時出現(xiàn)時的自信息量。 2.3互信息量和平均互信息量2.3.1互信息量32互信息量的表示式首先考慮信道沒有干擾的情況:
信源發(fā)xi,信宿獲取其全部信息量,即信源信息通過信道全部流通到信宿,有 I(xi
;yj)=I(xi)2.3互信息量和平均互信息量2.3.1互信息量33當信道存在干擾時,信源發(fā)xi,信宿收到的yj可能是xi的某種變型,亦即除了信源給出的信息外,還可能有純粹是信道給出的“信息”。收到y(tǒng)j后,考慮從發(fā)端發(fā)xi這一事件中獲得的信息量,應該是
(2.10) 故有
(2.11)
2.3互信息量和平均互信息量2.3.1互信息量34
1.對稱性如果考慮信息的反向流通問題,即考慮事件xi的出現(xiàn)給出關于事件yj的信息量,或者從xi中獲取關于yj的信息量,那么由定義2.7,有
(2.12)
2.3.2互信息量的性質2.3互信息量和平均互信息量35由式(2.11),有
(2.13)即I(xi;yj)=I(yj;xi),稱為互信息量的對稱性。
2.3互信息量和平均互信息量2.3.2互信息量的性質36由于P(xi)、P(yj
)均為先驗概率,而P(xi|yj)、P(yj|xi)均為后驗概率,綜合式(2.11)和式(2.12)有
互信息量= (2.14)
這也表明,互信息量描述了兩個隨機事件xi、yj之間的統(tǒng)計約束程度,假如先驗概率確定了,其后驗概率就決定了信息的流通。2.3互信息量和平均互信息量2.3.2互信息量的性質37 2.值域為實數(shù)互信息量的值可為正數(shù)、負數(shù)或者0,取決于后驗概率和先驗概率的比值。以式(2.11)為例進行討論,有如下幾種情況。 (1)P(xi|yj
)=1,I(xi;yj)=I(xi)。后驗概率為1,說明收到y(tǒng)j后即可以完全消除對信源是否發(fā)xi的不確定度。其物理含義是信宿獲取了信源發(fā)出的全部信息量,這等效為信道沒有干擾。2.3.2互信息量的性質2.3互信息量和平均互信息量38(2)P(xi)<P(xi|yj)<1,這時I(xi)>I(xi/yj),I(xi;yj)>0。后驗概率大于先驗概率,說明收到y(tǒng)j后對信源是否發(fā)xi所進行判斷的正確程度,要大于xi在信源集合中的概率.或者說收到y(tǒng)j后多少還能消除一些對信源是否發(fā)xi的不確定度,因此yj獲取了關于xi的信息量。I(xi;yj)越大,這種獲取就越多。這正是實際通信時遇到的大多數(shù)情況,它對應著信道存在干擾,但信宿仍能從信源中獲取信息量。I(xi;yj)>0表明信宿從信源獲取的信息,亦表明存在正確通信的可能,在后面的章節(jié)將會進一步討論進行可靠通信的極限條件。2.3互信息量和平均互信息量2.3.2互信息量的性質39(3)P(xi|yj)=P(xi),即I(xi)=I(xi|yj),I(xi;yj)=0后驗概率與先驗概率相等,說明收到y(tǒng)j后對信源是否發(fā)xi所進行判斷的正確程度,和xi在信源集合中的概率是一樣的;因此,它一點也不能消除對信源是否發(fā)xi的不確定度,也就是說從yj中獲取不到關于xi的信息量;事實上,假若xi
和yj
統(tǒng)計無關,即P(xi,yj)=P(xi)P(yj),由貝葉斯公式容易推得I(xi;yj)=0;這種情況實際上是事件xi
和事件yj
統(tǒng)計無關,或者說信道使得事件xi
和事件yj變成了兩碼事,信宿得到的信息僅僅是由信道特性給出的,與信源實際發(fā)出什么符號無關,因此完全沒有信息的流通。2.3互信息量和平均互信息量2.3.2互信息量的性質40(4)0<P(xi|yj)<P(xi),即I(xi)<I(xi|yj),I(xi;yj)<0后驗概率小于先驗概率,說明收到y(tǒng)j后對信源是否發(fā)xi所進行判斷的正確程度,比xi在信源集合中的概率還要小,這時判斷信源沒有發(fā)xi似乎更合理些,但不能判斷信源到底發(fā)了什么(特別是對應于信源有多個符號時)。這種情況事實上給出了信息量,但流通的不是關于xi的信息量,而是xi以外的事件的信息量。綜上所述,只有P(xi|yj)=P(xi),即I(xi;yj)=0時,才沒有信息的流通。2.3互信息量和平均互信息量2.3.2互信息量的性質41
3.不大于其中任一事件的自信息量由于P(xi|yj)1,根據(jù)式(2.11),有 I(xi;yj)lb[1/P(xi)]=I(xi)同理,由P(yj|xi)1,根據(jù)式(2.12),有 I(yj;xi)lb[1/P(yj)]=I(yj)這一性質清楚地說明了互信息量是描述信息流通特性的物理量,流通量的數(shù)值當然不能大于被流通量的數(shù)值。某一事件的自信息量是任何其他事件所能提供的關于該事件的最大信息量。2.3互信息量和平均互信息量2.3.2互信息量的性質422.3互信息量和平均互信息量2.3.3條件互信息量假設XYZ空間的事件xi、yj、zk,那么事件yjzk出現(xiàn)后,從yjzk中獲取關于xi的信息量是多少呢?如果把yjzk看作一個事件,則由式(2.11),有
(2.15)將上式分子分母同乘以P(xi|zk),得
(2.16)上式第一項是xi與zk之間的互信息量;第二項定義為在zk條件下xi與yj之間的互信息量,簡稱為條件互信息量。43條件互信息量I(xi;yj|zk)是在給定zk條件下,事件yj的出現(xiàn)所提供的有關xi
的信息量寫成I[(xi;yj)|zk]或許含義更明確些是在給定zk條件下xi、yj之間的互信息量2.3互信息量和平均互信息量2.3.3條件互信息量442.3互信息量和平均互信息量2.3.3條件互信息量條件互信息量和條件信息量的關系由式(2.16),有
類似地,還可推得其他表示,如
即條件互信息量可用條件信息量表示
45自信息量→熵互信息量→平均互信息量定義2.8
兩個離散隨機事件集合X和Y,若其任意兩事件間的互信息量為I(xi;yj),則其聯(lián)合概率加權的統(tǒng)計平均值,稱為兩集合的平均互信息量,用I(X;Y)表示。2.3互信息量和平均互信息量2.3.4平均互信息量46推導其數(shù)學描述:當信宿收到某一具體符號yj后,從yj中獲取關于輸入符號的平均信息量,顯然應該是在條件概率空間中的統(tǒng)計平均,可用I(X;yj)表示,有再對其在集合Y中取統(tǒng)計平均,得2.3互信息量和平均互信息量2.3.4平均互信息量(2.19)47
1.對稱性根據(jù)互信息量的對稱性,容易推得 I(X;Y)=I(Y;X)
(2.20)說明從集合Y中獲取X的信息量,等于從集合X中獲取Y的信息量。
2.3互信息量和平均互信息量2.3.5平均互信息量的性質48
2.與各種熵的關系
從平均互信息量的定義出發(fā),可以推得它與各種熵的關系。例如
2.3互信息量和平均互信息量2.3.5平均互信息量的性質(2.21)49
2.與各種熵的關系I(X;Y)=H(X)–H(X|Y)
(2.22)I(Y;X)=H(Y)–H(Y|X)
(2.23)I(X;Y)=H(X)+H(Y)–H(XY) (2.24)H(XY)為X集合和Y集合的共熵,或稱聯(lián)合熵。共熵應該是聯(lián)合符號集合XY上的每個元素對xy的自信息量的概率加權統(tǒng)計平均值。2.3互信息量和平均互信息量2.3.5平均互信息量的性質50
2.與各種熵的關系(續(xù))
共熵的定義式將P(x|y)=P(xy)
/P(y)帶入式(2.21),得H(XY)=
=
(2.25)當X、Y統(tǒng)計獨立時,有P(xy)=P(x)P(y),故
H(XY)=
H(X)+H(Y) (2.26)H(XY)=H(Y)+H(X|Y) (2.27)H(XY)=H(X)+H(Y|X)(2.28)2.3互信息量和平均互信息量2.3.5平均互信息量的性質51 3.I(X;Y)0,當且僅當X、Y互相獨立時,等號成立平均互信息量是一個非負數(shù)由式(2.24),只要證明 H(XY)
H(X)+H(Y) (2.29)
當且僅當X、Y互相獨立時等號成立,上述結論即得到證明。2.3互信息量和平均互信息量2.3.5平均互信息量的性質52式(2.29)的證明如下H(XY)-H(X)-H(Y)
2.3互信息量和平均互信息量2.3.5平均互信息量的性質由式(2.26)可知,當且僅當X、Y互相獨立時等號成立。證畢。53上述證明中的不等式使用了Jensen不等式,該不等式給出如下結論:如果f是上凸函數(shù),X為隨機變量,則E[f(x)]
f[E(x)]。在這里用
這一關系可證。另外,對下凸函數(shù)有:f(x1+(1–)x2)
f(x1)+(1–)f(x2),即二階導數(shù)非負利用式(2.24)和(2.26)容易證明,平均互信息量實質上是一種熵。
2.3互信息量和平均互信息量2.3.5平均互信息量的性質54I(X;Y)=H(X)–H(X/Y)平均互信息量為信源熵減掉一個條件熵。表明:以發(fā)送端(信源)的熵為參考,在接收端平均每收到一個符號所獲得的(來自發(fā)端的)信息量。信道上沒有任何干擾或噪聲:I(X;Y)=H(X);信道存在干擾和噪聲干擾和噪聲“污染”了被傳輸?shù)男畔⒌竭_接收端的平均信息量比信源熵少了一些少掉的部分就是條件熵H(X/Y)因此H(X/Y)表征了對接收的每一個符號的正確性所產生懷疑的程度,故條件熵H(X/Y)又稱之為疑義度。2.3互信息量和平均互信息量2.3.6平均互信息量的物理意義55I(Y;X)=H(Y)–H(Y/X)說明平均互信息量也可以用接收端(信宿)的熵為參考,且等于信宿熵減掉一個條件熵同樣表征接收端平均每收到一個符號所獲得的信息量。如果信道上沒有任何干擾或噪聲,則平均每收到一個符號所獲得的信息量即是信宿熵,即I(X;Y)=H(Y);但是,如果信道上存在著干擾或噪聲,則平均每收到一個符號所獲得的信息量,它比起信宿熵小了一個條件熵,這個條件熵H(Y/X)是由于信道的干擾或噪聲給出的,因此它是唯一地確定信道噪聲和干擾所需的平均信息量,故稱之為噪聲熵,也稱為散布度(DegreeofDiffusiveness)。2.3互信息量和平均互信息量2.3.6平均互信息量的物理意義56I(X;Y)=H(X)+H(Y)–H(XY)根據(jù)各種熵的定義,從該式可以清楚看出平均互信息量是一個表征信息流通的量其物理意義就是信源端的信息通過信道后傳輸?shù)叫潘薅说钠骄畔⒘俊?.3互信息量和平均互信息量2.3.6平均互信息量的物理意義57例2.4
已知信源空間
信道特性如圖2.4所示,求在該信道上傳輸?shù)钠骄バ畔⒘縄(X;Y),疑義度H(X|Y),噪聲熵H(Y|X)和共熵H(XY)。2.3互信息量和平均互信息量2.3.6平均互信息量的物理意義
圖2.4例2.4的信道特性58解(1)根據(jù)P(xiyj)=P(xi)P(yj
|xi),求各聯(lián)合概率,得 P(x1y1)=P(x1)P(y1|x1)=0.5×0.98=0.49 P(x1y2)=P(x1)P(y2|x1)=0.5×0.02=0.01 P(x2y1)=P(x2)P(y1|x2)=0.5×0.20=0.10 P(x2y2)=P(x2)P(y2|x2)=0.5×0.80=0.40(2)根據(jù),求Y集合中各符號的概率,得 P(y1)=P(x1)P(y1|x1)+P(x2)P(y1|x2)=0.5×0.98+0.5×0.2=0.59 P(y2)=1–0.59=0.412.3互信息量和平均互信息量2.3.6平均互信息量的物理意義59(3)根據(jù)P(xi|yj)=P(xiyj)/P(yj),求各后驗概率,得 P(x1|y1)=P(x1y1)/P(y1)=0.49/0.59=0.831 P(x2|y1)=P(x2y1)/P(y1)=0.10/0.59=0.169 P(x1|y2)=P(x1y2)/P(y2)=0.01/0.41=0.024
P(x2|y2)=P(x2y2)/P(y2)=0.40/0.41=0.9762.3互信息量和平均互信息量2.3.6平均互信息量的物理意義602.3互信息量和平均互信息量2.3.6平均互信息量的物理意義(4)求各種熵,有
I(X;Y)=H(X)+H(Y)–H(XY)=1+0.98-1.43=0.55比特/信符H(X|Y)=H(X)–I(X;Y)=1–0.55=0.45比特/信符H(Y|X)=H(Y)–I(X;Y)=0.98–0.55=0.43比特/信符61相對熵的定義定義2.9
若對應于x有兩種分布p(x)和q(x),則
2.3互信息量和平均互信息量2.3.7平均互信息量的另一種定義(2.30)稱為這兩種分布的相對熵。62D(p||q)稱為“熵差”,也稱為兩種分布的“距離(Distance)”。在計算時將使用如下求極限的公式:2.3互信息量和平均互信息量2.3.7平均互信息量的另一種定義63例2.5
x={0,1};p(0)=1–r,p(1)=r;q(0)=1–s,q(1)=s。求D(p||q)和D(q||p)。
解
2.3互信息量和平均互信息量2.3.7平均互信息量的另一種定義若r=s,則D(p||q)=D(q||p)=0r
s,則D(p||q)D(q||p)64上述定義并不是嚴格意義下的熵差或“距離”,僅有一種相互的關系。利用這一關系引入平均互信息量的另一種定義。定義2.10
平均互信息量用相對熵定義如下:2.3互信息量和平均互信息量2.3.7平均互信息量的另一種定義65二維隨機變量的熵 H(X1,X2)=H(X1)+H(X2|X1) (2.32)多維隨機變量的熵P(X1,X2,…,
Xn)=P(X1)P(X2|X1)···P(Xn
|Xn
–1,Xn–2,…,
X2,X1)
根據(jù)熵和共熵的定義可推得
H(X1,X2,X3)=H(X1)+H[(X2,X3)|X1]=H(X1)+H(X2|X1)+H(X3|X2,X1)
(2.33)
H(X1,X2,…,Xn)=H(X1)+H(X2|X1)+H(X3|X2,X1)+… +H(Xn|Xn–1,Xn–2,…,
X2,X1)=2.4多維隨機變量的熵2.4.1熵的鏈接準則(2.34)66
式(2.34)被稱為熵的鏈接準則(ChainRules)給出了多維隨機變量的聯(lián)合熵與各隨機變量的熵之間的關系。等于某一隨機變量的熵及其他所有隨機變量的條件熵之和,而條件熵涉及的條件,隨著隨機變量的維數(shù)增加而遞增。2.4多維隨機變量的熵2.4.1熵的鏈接準則67多維隨機變量的信息流通問題假設信源是一個多維隨機變量(X1,X2,…,
Xn),它通過信道傳送到信宿的信息量,就是它們的平均互信息量I(X1,X2,…,
Xn;Y)。由平均互信息量的定義和熵的鏈接準則,有2.4多維隨機變量的熵2.4.2信息鏈接準則(2.35)68式(2.35)被稱為信息鏈接準則給出了多維隨機變量的信息流通量與各隨機變量的信息流通量之間的關系為( )條件下Xi與Y的平均互信息量。2.4多維隨機變量的熵2.4.2信息鏈接準則69定理2.1
n維隨機變量的共熵,不大于它們各自的熵之和。即
(2.36)
稱為熵的界(Bounds)。2.4多維隨機變量的熵2.4.3熵的界70證明
因為0I(X;Y)=H(X)–H(X|Y),所以H(X|Y)
H(X)由共熵的定義和熵的鏈接準則,有 H(X1,X2)=H(X1)+H(X2|X1)
H(X1)+H(X2) H(X1,
X2,X3)=H(X1)+H(X2,X3|X1)
=H(X1)+H(X2|X1)+H(X3|X2,X1)
H(X1)+H(X2)+H(X3)
證畢。2.4多維隨機變量的熵2.4.3熵的界71由隨機過程理論,對于3個隨機變量空間X、Y、Z,如果Z的條件分布僅僅取決于Y而與X的條件無關,則稱隨機變量空間X、Y、Z構成了馬爾可夫鏈(MarkovChain),簡稱馬氏鏈。特別地,若 P(X,Y,Z)=P(X)P(Y|X)P(Z|Y)
(2.37) 則隨機變量空間X、Y、Z構成了馬氏鏈。X、Y、Z構成的馬氏鏈也可寫成X→Y→Z。2.4多維隨機變量的熵2.4.4數(shù)據(jù)處理不等式72定理2.2
如果X→Y→Z,則I(X;Y)
I(X;Z)證明
由平均互信息量的性質和信息鏈接準則,可得 I(X;Y,Z)=I(X;Z)+I(X;Y|Z)
(2.38) 或 I(X;Y,Z)=I(X;Y)+I(X;Z|Y)
(2.39)X、Z與給定的Y條件無關,式(2.38)中的I(X;Y|Z)0,而式(2.39)中的I(X;Z|Y)=0,因此I(X;Y)
I(X;Z)
(2.40)證畢。類似地,也可以證得I(Y;Z)
I(X;Z)
(2.41)2.4多維隨機變量的熵2.4.4數(shù)據(jù)處理不等式73定理說明:當消息通過級聯(lián)處理時,其輸入和輸出消息之間的平均互信息量,不會超過輸入消息與中間消息之間的平均互信息量,也不會超過中間消息與輸出消息之間平均互信息量。結論可以推廣到多級處理的情況,且無論處理器級數(shù)數(shù)目增加多少,輸入消息與輸出消息之間的平均互信息量只會變小而不會變大。稱定理2.2為數(shù)據(jù)處理定理,式(2.40)和(2.41)為數(shù)據(jù)處理不等式。它指出數(shù)據(jù)處理能夠把數(shù)據(jù)變換成各種所需要的或更有用的形式,但對于傳輸輸入消息的目的而言,所作的處理不會創(chuàng)造出新的信息,故不會使流通的信息量增大。2.4多維隨機變量的熵2.4.4數(shù)據(jù)處理不等式74信源空間的概念自信息量條件自信息量、信息熵、條件熵、互信息量、條件互信息量、平均互信息量及不確定度、疑義度、噪聲熵、聯(lián)合熵
信息可以度量
在信息的度量中,熵是最基本的,圖2.5給出了各種熵與平均互信息量之間的關系。本章小結圖2.5各種熵與平均互信息量之間的關系751.某市在幾乎所有十字路口行人通道的紅綠燈下方均增設了紅燈語音提示裝置,每當對應方向的紅燈亮啟時就有“現(xiàn)在是紅燈,請不要闖紅燈”的高聲提示,根據(jù)實測,該提示音的傳播幾乎沒有方向性且在嘈雜環(huán)境下亦能傳得很遠;假設在十字路口四角的兩個通行方向出現(xiàn)紅、綠燈分別用事件R1、G1和R2、G2表示,行人聽到紅燈提示用事件R表示,它們對應的概率分別為P(R1)、P(G1)、P(R2)、P(G2)和P(R)。(1)若P(G1)=P(G2)=1/2,試建立一信息傳輸模型,求行人聽到紅燈提示音時獲取的信息量;(2)若P(G1)=1/3,P(G2)=3/8,再求行人聽到紅燈提示音時獲得的信息量;(3)從狹義信息論的觀點出發(fā),你認為通過如何改進能夠讓行人獲取比現(xiàn)在情況要大一些的信息量。
習題76解(1)設行人聽到紅燈提示音獲取的信息量為I(R),由自信息量的定義,有I(R)=-lbP(R),根據(jù)本題條件必有P(R)=P(R1)+P(R2),因為對于行人行進方向來說只有紅燈和綠燈,因此在P(G1)=P(G2)=1/2情況下P(R)=1,故I(R)=0,即由于行人總能一直聽到紅燈提示音且無法辨別其來自的方向,聽到紅燈提示時獲取的信息量為0,亦即說明紅燈提示音并沒有給出行人行進方向是否為紅燈的任何信息。(2)根據(jù)題意,有:P(R1)=1-P(G1)=2/3,P(R2)=1-P(G2)=5/8,P(R)=P(R1)+P(R2/G1)P(G1)=P(R2)+P(R1/G2)P(G2)=1,I(R)=-lbP(R)=0,即此時紅燈提示音也沒有給出行人行進方向是否為紅燈的任何信息。77(3)從狹義信息論的觀點來看,該紅燈語音提示沒有給行人提供關于行進方向紅綠燈的任何信息,究其原因是因為始終出現(xiàn)“現(xiàn)在是紅燈”的事件。改進的方法有(建議):兩個方向的語音提示裝置物理空間上分開;去除“現(xiàn)在是紅燈”的判定,僅給出“請不要闖紅燈”的警示;去除該種裝置,讓行人養(yǎng)成看紅綠燈的習慣。78 1.一珍珠養(yǎng)殖場收獲240顆外觀及重量完全相同的特大珍珠,但不幸被人用外觀相同但重量僅有微小差異的假珠換掉1顆。(1)一人隨手取出3顆,經測量
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 分家協(xié)議的內容
- 個人的居間協(xié)議模板
- 2023裝修房子協(xié)議書七篇
- 銀屑病甲病因介紹
- 竣工驗收要點培訓課件
- (范文)雕刻機項目立項報告
- 公路工程竣工資料管理 黃 00課件講解
- 2024年秋江蘇名小四年級語文12月月考試卷-A4
- 2023年廢棄資源和廢舊材料回收加工品項目融資計劃書
- 2023年家庭投影儀項目融資計劃書
- 內科學糖尿病教案
- 《高尿酸血癥》課件
- 微量泵的操作及報警處置課件查房
- 云南省昆明市西山區(qū)2023-2024學年七年級上學期期末語文試卷
- 人教版小學數(shù)學四年級上冊5 1《平行與垂直》練習
- 市政設施養(yǎng)護面年度計劃表
- 公差配合與技術測量技術教案
- 堅持教育、科技、人才“三位一體”為高質量發(fā)展貢獻高校力量
- 污水處理廠工藝設計及計算
- 杭州宇泰機電設備有限公司X射線機室內探傷項目(新建)環(huán)境影響報告
- 2023年冷柜行業(yè)專題研究報告
評論
0/150
提交評論