第8講自然語言的熵_第1頁
第8講自然語言的熵_第2頁
第8講自然語言的熵_第3頁
第8講自然語言的熵_第4頁
第8講自然語言的熵_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第8講信源冗余度與自然語言的熵背景知識(shí):

實(shí)際的信源可能是非平穩(wěn)的,其極限熵不一定存在。可以假定它是平穩(wěn)的,用平穩(wěn)信源的來代替。對(duì)于一般平穩(wěn)的離散信源,求值也是極其困難的。

進(jìn)一步假設(shè)它是m階馬爾可夫信源,用m階馬爾可夫信源的信息熵來近似。最簡(jiǎn)單的馬爾可夫信源是記憶長(zhǎng)度為m=1的信源,信源的熵:

對(duì)于一般的離散信源都可以近似地用不同記憶長(zhǎng)度的馬爾可夫信源來逼近。進(jìn)一步簡(jiǎn)化,可以建設(shè)信源為無記憶信源,信源符號(hào)有一定的概率分布。最后可以假定是等概率分布的離散無記憶信源。1

由此看出,由于信源輸出符號(hào)間的依賴關(guān)系也就是信源信號(hào)的相關(guān)性使信源的實(shí)際熵減小。信源輸出符號(hào)間統(tǒng)計(jì)約束關(guān)系越長(zhǎng),信源的實(shí)際熵越小。當(dāng)信源輸出符號(hào)間彼此不存在依賴關(guān)系且為等概率分布時(shí),信源的實(shí)際熵等于最大熵。定義:一個(gè)信源的熵率(極限熵)與具有相同符號(hào)集的最大熵的比值稱為熵的相對(duì)率:

可見對(duì)于有記憶信源,最小單個(gè)消息熵應(yīng)為,即從理論上看,對(duì)有記憶信源只需傳送即可。但是這必需要掌握信源全部概率統(tǒng)計(jì)特性和所有的記憶關(guān)系。這顯然是不現(xiàn)實(shí)的。實(shí)際上,往往只能掌握有限的N維,這時(shí)只需傳送,那么與理論值相比,就多傳送了。為了定量描述信源熵的有效性,定義了信源冗余度:

信源的冗余度來自兩個(gè)方面:1、信源符號(hào)間的相關(guān)性信源符號(hào)間相關(guān)程度越大,符號(hào)間的依賴關(guān)系越長(zhǎng),信源的實(shí)際熵越小;2、另一方面是信源符號(hào)分布的不均勻性使信源的實(shí)際熵越小。

為了更經(jīng)濟(jì)有效的傳送信息,需要盡量壓縮信源的冗余度,壓縮冗余度的方法就是盡量減小符號(hào)間的相關(guān)性,并且盡可能的使信源符號(hào)等概率分布。

從提高信息傳輸效率的觀點(diǎn)出發(fā),人們總是希望盡量去掉冗余度。但是從提高抗干擾能力角度來看,卻希望增加或保留信源的冗余度,因?yàn)槿哂喽却蟮南⒖垢蓴_能力強(qiáng)。

信源編碼是減少或消除信源的冗余度以提高信息的傳輸效率。信道編碼則通過增加冗余度來提高信息傳輸?shù)目垢蓴_能力。

中華人民共和國中國母親病愈,身體健康母病愈例:一個(gè)輸出A、B、C、D四個(gè)符號(hào)的信源,它輸出10個(gè)符號(hào)的序列包含最大可能的信息量為:

當(dāng)信源的符號(hào)間有依賴關(guān)系時(shí),或概率分布不均勻時(shí),信源熵要下降,因此信源輸出的序列總信息量也要下降。假定信源由于符號(hào)間的相關(guān)性或不等概率,信源熵下降到比特/符號(hào)

正由于信源存在著冗余度,即存在著不必要傳送的信息,因此信源也就存在進(jìn)一步壓縮信息率的可能性。冗余度越大,壓縮潛力也就越大??梢娝切旁淳幋a,數(shù)據(jù)壓縮的前提與理論基礎(chǔ)。下面,以英文為例,計(jì)算文字信源的冗余度。首先給出英文字母(含空檔)出現(xiàn)概率如下:下面,首先求得獨(dú)立等概率情況,即其次,計(jì)算獨(dú)立不等概率情況再次,若僅考慮字母有一維相關(guān)性,求

還可進(jìn)一步求出:

最后,利用統(tǒng)計(jì)推斷方法求出,由于采用的逼近的方法和所取的樣本的不同,推算值也有不同,這里采用Shannon的推斷值。這樣,可以計(jì)算出:

這一結(jié)論說明,英文信源,從理論上看71%是多余成分。即有71%是由語言結(jié)構(gòu)定好的,而剩下的29%可由寫文章的人自由發(fā)揮的。直觀地說100頁英文書,理論上看僅有29頁是有效的,其余71頁是多余的。正是由于這一多余量的存在,才有可能對(duì)英文信源進(jìn)行壓縮編碼。為計(jì)算這些熵,要計(jì)算字母之間的一維條件概率、二維條件概率二階馬爾可夫信源,條件概率為個(gè)。香農(nóng)做法:對(duì)于其它文字,也有不少人作了大量的統(tǒng)計(jì)工作,現(xiàn)簡(jiǎn)述如下:英文法文德文西班牙文中文(按8千漢字計(jì)算)漢字的編碼

GB2312-80

國家標(biāo)準(zhǔn)漢字編碼簡(jiǎn)稱國標(biāo)碼。該編碼集的全稱是“信息交換用漢字編碼字符集—基本集”,國家標(biāo)準(zhǔn)代號(hào)是“GB2312-80”。該編碼的主要用途是作為漢字信息交換碼使用。國標(biāo)碼中收集了二級(jí)漢字,共約7445個(gè)漢字及符號(hào)。其中,一級(jí)常用漢字3755個(gè),漢字的排列順序?yàn)槠匆糇值湫?;二?jí)常用漢字3008個(gè),排列順序?yàn)槠孕?;還收集了682個(gè)圖形符號(hào)。一般情況下,該編碼集中的二級(jí)漢字及符號(hào)已足夠使用。國標(biāo)碼規(guī)定:一個(gè)漢字用兩個(gè)字節(jié)來表示,每個(gè)字節(jié)只用前七位,最高位均未作定義(見圖)。為了方便書寫,常常用四位十六進(jìn)制數(shù)來表示一個(gè)漢字。b7b6b5b4b3b2b1b0b7b6b5b4b3b2b1b00×××××××0×××××××國標(biāo)碼的格式

例如:漢字“大”的國標(biāo)碼是“3473”(十六進(jìn)制數(shù))。國標(biāo)碼是一種機(jī)器內(nèi)部編碼,其主要作用是:用于統(tǒng)一不同的系統(tǒng)之間所用的不同編碼。通過將不同的系統(tǒng)使用的不同編碼統(tǒng)一轉(zhuǎn)換成國標(biāo)碼,不同系統(tǒng)之間的漢字信息就可以相互交換。GB2312編碼表的格式和布局

國際漢字編碼也用類似于ASCCII碼表的形式給出,將漢字和必要的非漢字字符排列在94×94方陣的區(qū)域中。方陣中的每一個(gè)位置的行和列分別用一個(gè)七位二進(jìn)制編碼表示,稱為區(qū)碼和位碼,每一個(gè)漢字和非漢字字符對(duì)應(yīng)于方陣中的一個(gè)位置,因此,可以把漢字和非漢字字符所在位置的區(qū)碼和位碼作為它們的編碼。區(qū)碼和位碼的存儲(chǔ)各占一個(gè)字節(jié),所以在國際漢字編碼中,每個(gè)漢字和非漢字字符占用倆個(gè)字節(jié)。表2-6給出了GB2312編碼表的局部格式。

表GB2312編碼局部表

位碼:低7位區(qū)碼:高7位0100100100100100100100100100001

0010

0011

01000101

0110

0111

1000

1001010203040506070809011000016011000117011001018011001119011010020011010121啊阿埃挨哎唉哀皚癌薄雹保堡飽寶抱報(bào)暴病并玻菠播撥缽波博場(chǎng)嘗常長(zhǎng)償腸廠敞暢礎(chǔ)儲(chǔ)矗搐觸處揣川穿怠耽擔(dān)丹單鄲撣膽旦

在“國際基本集”中,從16區(qū)到55區(qū)是常用的一級(jí)漢字,從56區(qū)到87區(qū)是二級(jí)漢字除此之外還收錄了一般符號(hào)202個(gè)(包括間隔、標(biāo)點(diǎn)、運(yùn)算符號(hào)、單位符號(hào)、制表符號(hào)),序號(hào)60個(gè)(1~20共20個(gè),(1)~(20)共20個(gè),①~⑩共10個(gè),(一)~(十)共10個(gè)),數(shù)字22個(gè)(0~9共10個(gè),Ⅰ~Ⅻ共12個(gè)),拉丁字母52個(gè),日本假名169個(gè),希臘字母48個(gè),俄文字母66個(gè),漢語拼音符號(hào)、注音符號(hào)63個(gè)。這些符號(hào)占1區(qū)到10區(qū)。該字符集共收入了漢字和圖形符號(hào)共7445個(gè)。因?yàn)槿砉?4區(qū)、94位,所以最多可表示的字符個(gè)數(shù)為94×94,即8836個(gè)。表中的空位作為擴(kuò)充之用。GB2312編碼表的總體布局如下表所示。GB2312編碼表總體布局位區(qū)01~94位01至94區(qū)123456789…16~5556~8788…94常用符號(hào)(94)序號(hào)、羅馬數(shù)字(72)GB1988圖形字符集(94)日文平假名(83)日文片假名(86)希臘字母(48)俄文字母(66)漢語拼音符(26)、注音字母(37)制表符(76)…第一級(jí)漢字(3755個(gè))第二級(jí)漢字(3008個(gè))…

GB2312中的6763個(gè)漢字是在文化部1965年發(fā)布的《印刷通用漢字字形表》(6196字)的基礎(chǔ)上,根據(jù)需要增加了500多個(gè)科技名詞、地名和姓名用字,既基本上滿足了各方面的需要,又有利于降低漢字信息處理系統(tǒng)的成本,提高漢字編碼的效率,有利于漢字信息處理技術(shù)的推廣和應(yīng)用。GB2312廣泛應(yīng)用于我國通用漢字系統(tǒng)的信息交換及硬、軟件設(shè)計(jì)中。例如,目前漢字字模庫的設(shè)計(jì)都以GB2312為準(zhǔn),絕大部分漢字?jǐn)?shù)據(jù)庫系統(tǒng)、漢字情報(bào)檢索系統(tǒng)等軟件也都以GB2312為基礎(chǔ)進(jìn)行設(shè)計(jì)。GB2312是漢字信息處理技術(shù)領(lǐng)域內(nèi)的基礎(chǔ)標(biāo)準(zhǔn),許多其他標(biāo)準(zhǔn)都與它密切相關(guān),例如,漢字點(diǎn)陣字型標(biāo)準(zhǔn)、磁盤格式標(biāo)準(zhǔn)的制定均根據(jù)GB2312標(biāo)準(zhǔn)。什么是信息?關(guān)于信息的定義,眾說紛紜。哲學(xué)家說,信息就是認(rèn)識(shí)論。數(shù)學(xué)家則認(rèn)為信息是概率論。物理學(xué)家把信息定義為熵。通信專家把信息看作是消除不確定性。表明信息科學(xué)尚未形成一套統(tǒng)一的、完整的、得到公認(rèn)的理論。獲取信息的過程是一個(gè)由未知到已知的過程(哲學(xué)),或者說由不確定到確定的過程(通信)。因此信息可以看作是消除不確定性。信息分析與統(tǒng)計(jì)的工具是概率論(數(shù)學(xué))。具有實(shí)際意義的平均信息量稱為熵(物理)。對(duì)信息量的認(rèn)識(shí)理解衡量信息多少的物理量稱為信息量。信息量的大小與消息所描述事件的出現(xiàn)概率有關(guān)。若概率很小,受信者感覺很突然,該消息所含信息量就很大;若概率很大,受信者事先已有所估計(jì),則該消息信息量就越?。蝗羰苄耪呤盏酵耆_定的消息,則沒有信息.臨

診斷是要在互不相容的疾病中作出鑒別。設(shè)每個(gè)疾病發(fā)生的先驗(yàn)概率分別為P(a1),P(a2),……P(an)醫(yī)生做診斷前,病人所患的疾病是不確定,如上所述,信源的熵就是這種不確定性大小的量度。請(qǐng)用信息論思想闡述臨床診斷的實(shí)質(zhì)和過程。

在診斷過程中,每進(jìn)行一項(xiàng)檢查獲得一個(gè)征候信息表現(xiàn)時(shí),它就給醫(yī)生對(duì)疾病的認(rèn)識(shí)帶來一定的信息量,醫(yī)生對(duì)患者所患疾病認(rèn)識(shí)的不確定性就會(huì)減少。設(shè)征候S有m個(gè)互不相容的表現(xiàn)s1,s2,…,sm,當(dāng)sj出現(xiàn)時(shí),疾病ai發(fā)生的概率設(shè)為P(ai|sj),i=1,2,…,n,j=1,2,…,m在獲得征候表現(xiàn)sj后,信源(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論