自然語言處理技術(shù)的三個(gè)里程碑_第1頁
自然語言處理技術(shù)的三個(gè)里程碑_第2頁
自然語言處理技術(shù)的三個(gè)里程碑_第3頁
自然語言處理技術(shù)的三個(gè)里程碑_第4頁
自然語言處理技術(shù)的三個(gè)里程碑_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、自然語言處理技術(shù)的三個(gè)里程碑微軟亞洲研究院黃昌寧張小鳳摘要要: 本文就半個(gè)世紀(jì)以來自然語言處理(NLP)研究領(lǐng)域中筆者所觀察到的要點(diǎn)進(jìn)行闡述,其中包括兩個(gè)事實(shí)和三大重要成果。近年自然語言處理研究所揭示的兩個(gè)事實(shí)為:(1)對(duì)于句法分析來說,基于單一標(biāo)記的短語結(jié)構(gòu)規(guī)則是不充分的;(2)短語結(jié)構(gòu)規(guī)則在真實(shí)文本中的分布呈現(xiàn)嚴(yán)重扭曲。換言之,有限數(shù)目的短語結(jié)構(gòu)規(guī)則不能覆蓋大規(guī)模語料中的語法現(xiàn)象。這與原先人們的預(yù)期大相徑庭。筆者認(rèn)為,NLP技術(shù)的發(fā)展歷程在很大程度上受到以上兩個(gè)事實(shí)的影響。從這個(gè)意義上來說,在該領(lǐng)域中可以稱得上里程碑式的成果有如下三個(gè):(1)復(fù)雜特征集和合一語法;(2)語言學(xué)研究中的詞匯主

2、義;(3)語料庫方法和統(tǒng)計(jì)語言模型。業(yè)內(nèi)人士普遍認(rèn)為,大規(guī)模語言知識(shí)的開發(fā)和自動(dòng)獲取是NLP 技術(shù)的瓶頸問題。因此,語料庫建設(shè)和統(tǒng)計(jì)學(xué)習(xí)理論將成為該領(lǐng)域中的關(guān)鍵課題。關(guān)鍵詞詞: 自然語言處理復(fù)雜特征集詞匯主義語料庫方法統(tǒng)計(jì)語言模型1. 引言隨著高科技的迅速發(fā)展,其應(yīng)用深入人們生活的各個(gè)方面。信息輸入、檢索、人機(jī)對(duì)話等對(duì)自然語言處理(NLP)提出越來越高的要求,使NLP 研究成為本世紀(jì)最熱門的學(xué)科之一。從50年代的機(jī)器翻譯和人工智能研究算起, NLP 至今至少也有長達(dá)半個(gè)世紀(jì)的歷史了。在這個(gè)進(jìn)程中,學(xué)術(shù)界曾經(jīng)提出過許多重要的理論和方法,也誕生了豐富的成果。但筆者認(rèn)為,近二十年年來在這一領(lǐng)域中堪稱

3、里程碑式的貢獻(xiàn)有如下三個(gè):(1)復(fù)雜特征集和合一語法;(2)語言學(xué)研究中的詞匯主義;(3)語料庫方法和統(tǒng)計(jì)語言模型。這三個(gè)成果將繼續(xù)對(duì)語言學(xué)、計(jì)算語言學(xué)和NLP 的研究產(chǎn)生深遠(yuǎn)影響。為了更好地理解這些成果的意義,有必要先介紹一下兩個(gè)與此相關(guān)的事實(shí)。2. 兩個(gè)事實(shí)2.1 事實(shí)之一大家知道,在自然語言處理中為了識(shí)別一個(gè)輸入句子的句法結(jié)構(gòu),首先要把句子中的詞一個(gè)一個(gè)地切分出來: 然后去查詞典,給句子中的每個(gè)詞指派一個(gè)合適的詞性(part ofspeech);之后再用句法規(guī)則把句子里包含的的句法成分,如名詞短語、動(dòng)詞短語、小句等,逐個(gè)地識(shí)別出來。進(jìn)而,判斷每個(gè)短語的句法功能,如主語、謂語、賓語等,及其

4、語義角色,最終得到句子的意義表示,如邏輯語義表達(dá)式。這就是一個(gè)句法分析的全過程。本文要提到的第一個(gè)事實(shí)是:短語結(jié)構(gòu)語法(Phrase Structure Grammar,簡稱PSG)不能有效地描寫自然語言。PSG在Chomsky 的語言學(xué)理論中占有重要地位,并且在自然語言的句法描寫中擔(dān)當(dāng)著舉足輕重的角色。但是它有一些根本性的弱點(diǎn),主要表現(xiàn)為它使用的是像詞類和短語類那樣的單一標(biāo)記,因此不能有效地指明和解釋自然語言中的結(jié)構(gòu)歧義問題。讓我們先來看一看漢語中“V+N”組合。假如我們把“打擊,委托,調(diào)查”等詞指派為動(dòng)詞(V);把“力度,方式,盜版,甲方”等詞視為名詞(N)。而且同意“打擊力度”、“委托方

5、式”是名詞短語(NP),“打擊盜版”、“委托甲方”是動(dòng)詞短語(VP)。那么就會(huì)產(chǎn)生如下兩條有歧義的句法規(guī)則:(1) NP V N(2) VP V N換句話講,當(dāng)計(jì)算機(jī)觀察到文本中相鄰出現(xiàn)的“V+N”詞類序列時(shí),仍不能確定它們組成的究竟是NP 還是VP。我們把這樣的歧義叫做“短語類型歧義”。例如:? 該公司正在招聘 銷售V 人員NNP。? 地球在不斷 改變V 形狀NVP。下面再來看“N+V”的組合,也同樣會(huì)產(chǎn)生帶有短語類型歧義的規(guī)則對(duì), 如:(3)NP N V 例:市場(chǎng)調(diào)查;政治影響。(4) S N V 例:價(jià)格攀升;局勢(shì)穩(wěn)定。其中標(biāo)記S 代表小句。不僅如此,有時(shí)當(dāng)機(jī)器觀察到相鄰出現(xiàn)的“N+V”

6、詞類序列時(shí),甚至不能判斷它們是不是在同一個(gè)短語中。也就是說,“N+V”詞類序列可能組成名詞短語NP 或小句S,也有可能根本就不在同一個(gè)短語里。后面這種歧義稱為“短語邊界歧義”。下面是兩個(gè)相關(guān)的例句:? 中國的 鐵路N 建設(shè)VNP 發(fā)展很快。? 中國的鐵路NNP 建設(shè)V 得很快。前一個(gè)例句中,“鐵路建設(shè)”組成一個(gè)NP;而在后一個(gè)例句中,這兩個(gè)相鄰的詞卻分屬于兩個(gè)不同的短語。這足以說明,基于單一標(biāo)記的PSG 不能充分地描述自然語言中的句法歧義現(xiàn)象。下面讓我們?cè)賮砜匆恍┻@樣的例子。(5)NP V N1 de N2(6)VP V N1 de N2其中de代表結(jié)構(gòu)助詞“的”。例如,“削蘋果VP 的刀”是

7、NP; 而“削蘋果的皮NP”則是VP。這里既有短語類型歧義,又有短語邊界歧義。比如,“削V 蘋果N”這兩個(gè)相鄰的詞,可能構(gòu)成一個(gè)VP,也可能分處于兩個(gè)相鄰的短語中。(7)NP P N1 de N2(8)PP P N1 de N2規(guī)則中P 和PP 分別表示介詞和介詞短語。例如,“對(duì)上海PP 的印象”是NP; 而“對(duì)上海的學(xué)生NP”則是PP。相鄰詞“對(duì)P 上海N”可能組成一個(gè)PP,也可能分處于兩個(gè)短語中。(9)NP NumP N1 de N2其中NumP 表示數(shù)量短語。規(guī)則(9)雖然表示的是一個(gè)NP,但可分別代表兩種結(jié)構(gòu)意義:(9a)NumP N1 de N2NP 如:五個(gè)公司的職員NP(9b)N

8、umP N1NP de N2 如:五個(gè)公司NP 的職員(10)NP N1 N2 N3規(guī)則(10)表示的也是一個(gè)NP,但“N1+ N2”先結(jié)合,還是“N2 +N3”先結(jié)合,會(huì)出現(xiàn)兩種不同的結(jié)構(gòu)方式和意義,即:(10a)N1 N2NP N3 如:現(xiàn)代漢語NP 詞典(10b)N1 N2 N3NP 如:新版漢語詞典NP以上討論的第一個(gè)事實(shí)說明:! 由于約束力不夠,單一標(biāo)記的PSG 規(guī)則不能充分消解短語類型和短語邊界的歧義。用數(shù)學(xué)的語言來講,PSG 規(guī)則是必要的,卻不是充分的。因此機(jī)器僅僅根據(jù)規(guī)則右邊的一個(gè)詞類序列來判斷它是不是一個(gè)短語,或者是什么短語,其實(shí)都有某種不確定性。! 采用復(fù)雜特征集和詞匯主義

9、方法來重建自然語言的語法系統(tǒng),是近二十年來全球語言學(xué)界就此作出的最重要的努力。2.2 事實(shí)之二通過大規(guī)模語料的調(diào)查,人們發(fā)現(xiàn)一種語言的短語規(guī)則的分布也符合所謂的齊夫率(Zipfs Law)。Zipf是一個(gè)統(tǒng)計(jì)學(xué)家和語言學(xué)家。他提出,如果對(duì)某個(gè)語言單位(不論是英語的字母或詞)進(jìn)行統(tǒng)計(jì),把這個(gè)語言單位在一個(gè)語料庫里出現(xiàn)的頻度(frequency)記作F,而且根據(jù)頻度的降序?qū)γ總€(gè)單元指派一個(gè)整數(shù)的階次(rank) R。結(jié)果發(fā)現(xiàn)R和F 的乘積近似為一個(gè)常數(shù)。即F*R const (常數(shù))或者說,被觀察的語言單元的階次R 與其頻度F 成反比關(guān)系。在詞頻的統(tǒng)計(jì)方面齊夫律顯示,不管被考察的語料僅僅是一本長篇

10、小說,還是一個(gè)大規(guī)模的語料庫,最常出現(xiàn)的100個(gè)詞的出現(xiàn)次數(shù)就會(huì)占到語料庫總詞次數(shù)(tokens)的近一半。假如語料庫的規(guī)模是100 萬詞次, 那么其中頻度最高的100 個(gè)詞的累計(jì)出現(xiàn)次數(shù)大概是50萬詞次。如果整個(gè)語料庫含有5 萬詞型(types),那么其中的一半(也就是2.5 萬條左右)在該語料庫中只出現(xiàn)過一次。即使把語料庫的規(guī)模加大十倍,變成1000萬詞次,統(tǒng)計(jì)規(guī)律大體不變。有趣的是,80 年代英國人Sampson 對(duì)英語語料庫中的PSG規(guī)則進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)它們的分布同樣是扭曲的,大體表現(xiàn)為齊夫率1。也就是說,一方面經(jīng)常遇到的語法規(guī)則只有幾十條左右,它們的出現(xiàn)頻度非常非常高;另一方面,規(guī)則庫

11、中大約一半左右的規(guī)則在語料庫中只出現(xiàn)過一次。隨著語料庫規(guī)模的擴(kuò)大,新的規(guī)則仍不斷呈現(xiàn)。Chomsky 曾提出過這樣的假設(shè),認(rèn)為對(duì)一種自然語言來說,其語法規(guī)則的數(shù)目總是有限的,但據(jù)此生成的句子數(shù)目卻是無限的。但語料庫調(diào)查的結(jié)果不是這個(gè)樣子。這個(gè)發(fā)現(xiàn)至少說明,單純依靠語言學(xué)家的語感來編寫語法規(guī)則不可能勝任大規(guī)模真實(shí)文本處理的需求,我們必須尋找可以從語料庫中直接獲取大規(guī)模語言知識(shí)的新方法。幾十年來,NLP 學(xué)界曾發(fā)表過許多燦爛成果,有詞法學(xué)、語法學(xué)、語義學(xué)的,有句法分析算法的,還有眾多著名的自然語言應(yīng)用系統(tǒng)。那么究竟什么是對(duì)該領(lǐng)域影響最大的、里程碑式的成果呢?3三個(gè)里程碑3.1 里程碑之一一:復(fù)雜特

12、征集復(fù)雜特征集(complex feature set)又叫做多重屬性(multiple features)描寫。在語言學(xué)里,這種描寫方法最早出現(xiàn)在語音學(xué)中。后來被Chomsky學(xué)派采用來擴(kuò)展PSG的描寫能力。現(xiàn)在無論是在語言學(xué)界還是計(jì)算語言學(xué)界,幾乎沒有哪個(gè)語法系統(tǒng)在詞匯層的描寫中不采用復(fù)雜特征集,并且利用這些屬性來強(qiáng)化句法規(guī)則的約束力。一個(gè)復(fù)雜特征集F 包含任意多個(gè)特征名fi和特征值vi對(duì)。其形式如:F = , fi=vi , , i=1,n特征值vi既可以是一個(gè)簡單的數(shù)字或符號(hào),也可以是另外一個(gè)復(fù)雜特征集。這種遞歸式的定義使復(fù)雜特征集獲得了強(qiáng)大的表現(xiàn)能力。舉例來說,北京大學(xué)俞士汶開發(fā)的現(xiàn)

13、代漢語語法信息詞典2,對(duì)一個(gè)動(dòng)詞定義了約40項(xiàng)屬性描寫,對(duì)一個(gè)名詞定義了約27項(xiàng)屬性描寫。一條含有詞匯和短語屬性約束的句法規(guī)則具有如下的一般形式:: <屬性約束>: <屬性傳遞>一般來說,PSG 規(guī)則包括右部(條件:符號(hào)序列的匹配模式)和左部(動(dòng)作:短語歸并結(jié)果)。詞語的“屬性約束”直接來自系統(tǒng)的詞庫,而短語的“屬性約束”則是在自底向上的短語歸并過程中從其構(gòu)成成分的中心語(head)那里繼承過來的。在Chomsky 的理論中這叫做X-bar 理論。X-bar代表某個(gè)詞類X所構(gòu)成的、仍具有該詞類屬性的一個(gè)成分。如果X= N,就是一個(gè)具有名詞特性的N-bar。當(dāng)一條PSG規(guī)

14、則的右部匹配成功,且“屬性約束”部分得到滿足,這條規(guī)則才能被執(zhí)行。此時(shí),規(guī)則左部所命名的的短語被生成,該短語的復(fù)雜特征集通過“屬性傳遞”部分動(dòng)態(tài)生成。80 年代末、90年代初學(xué)術(shù)界提出了一系列新的語法,如廣義短語結(jié)構(gòu)語法(GPSG)、中心語驅(qū)動(dòng)的短語結(jié)構(gòu)語法(HPSG)、詞匯功能語法(LFG)等等。這些形式語法其實(shí)都是在詞匯和短語的復(fù)雜特征集描寫背景下產(chǎn)生的。合一(unification)算法則是針對(duì)復(fù)雜特征集的運(yùn)算而提出來的?!昂弦弧笔菍?shí)現(xiàn)屬性匹配和賦值的一種算法,所以上述這些新語法又統(tǒng)稱為“基于合一的語法”。3.2 里程碑之二二:詞匯主義在NLP 領(lǐng)域中,第二個(gè)里程碑式的貢獻(xiàn)叫詞匯主義(l

15、exicalism)。語言學(xué)家Hudson 曾宣稱詞匯主義是當(dāng)今語言學(xué)理論發(fā)展的頭號(hào)傾向3。其出現(xiàn)原因也同前面所觀察的兩個(gè)事實(shí)有關(guān)。詞匯主義方法不僅提出了一種顆粒度更細(xì)的語言知識(shí)表示形式,而且體現(xiàn)了一種語言知識(shí)遞增式開發(fā)和積累的新思路。這里首先要解釋一下這樣一個(gè)矛盾。一方面,語言學(xué)界一向認(rèn)為,不劃分詞類就無法講語法,如前面介紹的短語結(jié)構(gòu)語法。也就是說,語法“不可能”根據(jù)一個(gè)個(gè)個(gè)別的詞來寫規(guī)則。但是另一方面,人們近來又注意到,任何歸類其實(shí)都會(huì)丟失個(gè)體的某些重要信息。所以從前文提到的第一個(gè)事實(shí)出發(fā),要想強(qiáng)化語法約束能力,詞匯的描寫應(yīng)當(dāng)深入到比詞類更細(xì)微的詞語本身上來。換句話講,語言學(xué)呼喚在詞匯層采

16、用顆粒度更小的描寫單元。從本質(zhì)上來說,詞匯主義傾向反映了語言描寫的主體已經(jīng)從句法層轉(zhuǎn)移到了詞匯層;這也就是所謂的“小語法,大詞庫”的思想。下面讓我們來看與詞匯主義有關(guān)的一些工作。3.2.1 詞匯語法法(Lexicon-grammar)法國巴黎大學(xué)Gross 教授在60 年代就創(chuàng)立了一個(gè)研究中心叫做LADL,并提出了詞匯語法的概念(http:/www.ladl.jussieu.fr/)。? 把12,000個(gè)主要?jiǎng)釉~分成50 個(gè)子類。? 每個(gè)動(dòng)詞都有一個(gè)特定的論元集。? 每一類動(dòng)詞都有一個(gè)特定的矩陣, 其中每個(gè)動(dòng)詞都用400 個(gè)不同句式來逐一描寫(“+”代表可進(jìn)入該句式;“-”表示不能)。? 已開

17、發(fā)英、法、德、西等歐洲語言的大規(guī)模描寫。? INTEX 是一個(gè)適用于大規(guī)模語料分析的工具,已先后被世界五十多個(gè)研究中心采用。3.2.2 框架語義學(xué)(Frame Semantics)Fillmore是格語法(Case Grammar)的創(chuàng)始人,他前幾年主持了美國自然科學(xué)基金的一個(gè)名為框架語義學(xué)的項(xiàng)目(/framenet)。該項(xiàng)目從WordNet 上選取了2000個(gè)動(dòng)詞,從中得到75 個(gè)語義框架。例如,動(dòng)詞”categorize” 的框架被定義為:一個(gè)人(Cognizer) 把某個(gè)對(duì)象(Item) 視為某個(gè)類(Category)。同原先的格框架

18、相比,原來一般化的動(dòng)作主體被具體化為認(rèn)知者Cognizer,動(dòng)作客體被具體化為事物Item,并根據(jù)特定體動(dòng)詞的性質(zhì)增加了一個(gè)作為分類結(jié)果的語義角色Category。項(xiàng)目組還從英國國家語料庫中挑出50,000 個(gè)相關(guān)句子,通過人工給每個(gè)句子標(biāo)注了相應(yīng)的語義角色。例句:Kim categorized the book as fiction.(Cog) (Itm) (Cat)3.2.3 WordNetWordNet是一個(gè)描寫英語詞匯層語義關(guān)系的詞庫。1990 年由普林斯頓大學(xué)Miller開發(fā)(:80/wn/)。到現(xiàn)在已有很多個(gè)版本,全部公布

19、在因特網(wǎng)上,供研究人員自由下載。歐洲有一個(gè)Euro-WordNet,以類似的格式來表現(xiàn)各種歐洲語言的詞匯層語義關(guān)系。WordNet刻意描寫的是詞語之間的各種語義關(guān)系,如同義關(guān)系(synonymy)、反義關(guān)系(antonymy)、上下位關(guān)系(hyponymy),部分-整體關(guān)系(part-of)等等。這種詞匯語義學(xué)又叫做關(guān)系語義學(xué)。這一學(xué)派同傳統(tǒng)的語義場(chǎng)理論和和語義屬性描寫理論相比,其最大的優(yōu)勢(shì)在于第一次在一種語言的整個(gè)詞匯表上實(shí)現(xiàn)了詞匯層的語義描寫。這是其他學(xué)派從來沒有做到的。其他理論迄今僅僅停留在教科書或某些學(xué)術(shù)論文中,從來就沒有得到工程規(guī)模的應(yīng)用。下面是WordNet的概況:? 95,600

20、 條實(shí)詞詞型(動(dòng)詞、名詞、形容詞)? 被劃分成70,100 個(gè)同義詞集(synsets)3.2.4 知網(wǎng)網(wǎng)(How-Net)知網(wǎng)是董振東和董強(qiáng)4設(shè)計(jì)的一個(gè)漢語語義知識(shí)網(wǎng)()。? 自下而上地依據(jù)概念對(duì)漢語實(shí)詞進(jìn)行了窮盡的分類。? 15,000 個(gè)動(dòng)詞被劃分成810 類。? 定義了300 個(gè)名詞類,100 個(gè)形容詞類。? 全部概念用400 個(gè)語義元語來定義。知網(wǎng)的特點(diǎn)是既有WordNet 所描寫的同一類詞之間的語義關(guān)系(如:同義、反義、上下位、部分-整體等),又描寫了不同類詞之間的論旨關(guān)系和語義角色。3.2.5 MindNetMindNet 是微軟研究院NLP 組設(shè)計(jì)的( Dictionary o

21、f Contemporary English,American Heritage Dictionary)和一部百科全書(Encarta)中的全部句子進(jìn)行分析,獲得每個(gè)句子的邏輯語義表示(logical form,簡稱LF)。而LF本來就是由三元組構(gòu)成的,如(W1, V-Obj, W2)表示:W1 是一個(gè)動(dòng)詞,W2是其賓語中的中心詞, 因此W2 從屬于W1,它們之間的關(guān)系是V-Obj。比如(play, V-Obj, basketball)便是一個(gè)具體的三元組。.又如(W1, H-Mod, W2),W1 代表一個(gè)偏正短語中的中心詞(head word),W2 是其修飾語(modifier), 因此

22、W2 從屬于W1,它們之間的關(guān)系是H-Mod。這種資源是完全自動(dòng)做出來的,所得的三元組不可能沒有錯(cuò)誤。但是那些出現(xiàn)頻度很高的三元組一般來說是正確的。MindNet已經(jīng)應(yīng)用到像語法檢查、句法結(jié)構(gòu)排歧、詞義排歧、機(jī)器翻譯等許多場(chǎng)合。3.3 里程碑之三三:統(tǒng)計(jì)語言模型第三個(gè)貢獻(xiàn)就是語料庫方法,或者叫做統(tǒng)計(jì)語言模型。如果用變量W代表一個(gè)文本中順序排列的n個(gè)詞,即W = w1w2wn ,則統(tǒng)計(jì)語言模型的任務(wù)是給出任意一個(gè)詞序列W 在文本中出現(xiàn)的概率P(W) 。利用概率的乘積公式,P(W)可展開為:P(W) = P(w1)P(w2/w1)P(w3/ w1 w2)P(wn/w1 w2wn-1) (1)式中P

23、(w1)表示第一個(gè)詞w1的出現(xiàn)概率,P(w2/w1) 表示在w1出現(xiàn)的情況下第二個(gè)詞w2出現(xiàn)的條件概率,依此類推。不難看出,為了預(yù)測(cè)詞wn的出現(xiàn)概率,必須已知它前面所有詞的出現(xiàn)概率。從計(jì)算上來看,這太復(fù)雜了。如果近似認(rèn)為任意一個(gè)詞wi 的出現(xiàn)概率只同它緊鄰的前一個(gè)詞有關(guān),那么計(jì)算就得以大大簡化。這就是所謂的二元模型(bigram),由(1)式得:P(W) P(w1) i=2,nP(wi/ wi-1 ) (2)式中i=2,nP(wi/ wi-1 )表示多個(gè)概率的連乘。需要著重指出的是:這些概率參數(shù)都可以通過大規(guī)模語料庫來估值。比如二元概率P(wi/ wi-1) count(wi-1 wi) /

24、count(wi-1) (3)式中count() 表示一個(gè)特定詞序列在整個(gè)語料庫中出現(xiàn)的累計(jì)次數(shù)。若語料庫的總詞次數(shù)為N,則任意詞wi在該語料庫中的出現(xiàn)概率可估計(jì)如下:P(wi) count(wi) / N (4)同理,如果近似認(rèn)為任意詞wi的出現(xiàn)只同它緊鄰的前兩個(gè)詞有關(guān),就得到一個(gè)三元模型(trigram):P(W) P(w1)P(w2/w1) i=3,nP(wi/wi-2 w-1 ) (5)統(tǒng)計(jì)語言模型的方法有點(diǎn)像天氣預(yù)報(bào)。用來估計(jì)概率參數(shù)的大規(guī)模語料庫好比是一個(gè)地區(qū)歷年積累起來的氣象記錄,而用三元模型來做天氣預(yù)報(bào),就像是根據(jù)前兩天的天氣情況來預(yù)測(cè)當(dāng)天的天氣。天氣預(yù)報(bào)當(dāng)然不可能百分之百正確

25、。這也算是概率統(tǒng)計(jì)方法的一個(gè)特點(diǎn)。3.3.1 語音識(shí)別語音識(shí)別作為計(jì)算機(jī)漢字鍵盤輸入的一種圖代方式,越來越受到信息界人士的青睞。所謂聽寫機(jī)就是這樣的商品。據(jù)報(bào)道中國的移動(dòng)電話用戶已超過一億,隨著移動(dòng)電話和個(gè)人數(shù)字助理(PDA)的普及,尤其是當(dāng)這些隨身攜帶的器件都可以無線上網(wǎng)的時(shí)候,廣大用戶更迫切期望通過語音識(shí)別或手寫板而不是小鍵盤來輸入簡短的文字信息。其實(shí),語音識(shí)別任務(wù)可視為計(jì)算以下條件概率的極大值問題:W*= argmaxW P(W/speech signal)= argmaxW P(speech signal/W) P(W) / P(speech signal)= argmaxW P(sp

26、eech signal/W) P(W) (6)式中數(shù)學(xué)符號(hào)argmaxW 表示對(duì)不同的候選詞序列W計(jì)算條件概率P(W/speech signal)的值,從而使W*成為其中條件概率值最大的那個(gè)詞序列,這也就是計(jì)算機(jī)選定的識(shí)別結(jié)果。換句話講,通過式(6)的計(jì)算,計(jì)算機(jī)找到了最適合當(dāng)前輸入語音信號(hào)speech signal的詞串W*。式(6)第二行是利用貝葉斯定律轉(zhuǎn)寫的結(jié)果,因?yàn)闂l件概率P(speech signal/W)比較容易估值。公式的分母P(speech signa ) 對(duì)給定的語音信號(hào)是一個(gè)常數(shù),不影響極大值的計(jì)算,故可以從公式中刪除。在第三行所示的結(jié)果中,P(W) 就是前面所講得統(tǒng)計(jì)語言

27、模型,一般采用式(5)所示的三元模型;P(speech signal/W) 叫做聲學(xué)模型。講到這兒,細(xì)心的讀者可能已經(jīng)明白,漢語拼音輸入法中的拼音漢字轉(zhuǎn)換任務(wù)其實(shí)也是用同樣方法實(shí)現(xiàn)的,而且兩者所用的漢語語言模型(即二元或三元模型)是同一個(gè)模型。據(jù)筆者所知,目前市場(chǎng)上的聽寫機(jī)產(chǎn)品和微軟拼音輸入法(3.0 版)都是用詞的三元模型實(shí)現(xiàn)的, 幾乎完全不用句法-語義分析手段。為什么會(huì)出現(xiàn)這樣的局面呢?這是優(yōu)勝劣汰的客觀規(guī)律所決定的。可比的評(píng)測(cè)結(jié)果表明,用三元模型實(shí)現(xiàn)的拼音-漢字轉(zhuǎn)換系統(tǒng),其出錯(cuò)率比其它產(chǎn)品減少約50%。3.3.2 詞性標(biāo)注一個(gè)詞庫中大約14%的詞型具有不只一個(gè)詞性。而在一個(gè)語料庫中,占總

28、詞次數(shù)約30% 的詞具有不止一個(gè)詞性。所以對(duì)一個(gè)文本中的每一個(gè)詞進(jìn)行詞性標(biāo)注,就是通過上下文的約束,實(shí)現(xiàn)詞性歧義的消解。歷史上曾經(jīng)先后出現(xiàn)過兩個(gè)自動(dòng)詞性標(biāo)注系統(tǒng)。一個(gè)采用上下文相關(guān)的規(guī)則,叫做TAGGIT(1971),另一個(gè)應(yīng)用詞類的二元模型,叫做CLAWS(1987)5。兩個(gè)系統(tǒng)都分別對(duì)100 萬詞次的英語非受限文本實(shí)施了詞性標(biāo)注。結(jié)果顯示,采用統(tǒng)計(jì)語言模型的CLAWS 系統(tǒng)的標(biāo)注正確率大大高于基于規(guī)則方法的TAGGIT系統(tǒng)。請(qǐng)看下表的對(duì)比:系統(tǒng)名TAGGIT(1971) CLAWS(1987)標(biāo)記數(shù)86 133方法3000條CSG 規(guī)則隱馬爾科夫模型標(biāo)注精度77% 96%測(cè)試語料布朗LOB

29、令C 和W 分別代表詞類標(biāo)記序列和詞序列,則詞性標(biāo)注問題可視為計(jì)算以下條件概率的極大值:C*= argmaxC P(C/W)= argmaxC P(W/C)P(C) / P(W) argmaxC i=1,nP(wi/ci )P(ci /ci-1 ) (7)式中P(C/W)是已知輸入詞序列W 的情況下,出現(xiàn)詞類標(biāo)記序列C 的條件概率。數(shù)學(xué)符號(hào)argmaxC 表示通過考察不同的候選詞類標(biāo)記序列C, 來尋找使條件概率取最大值的那個(gè)詞類標(biāo)記序列C* 。后者應(yīng)當(dāng)就是對(duì)W的詞性標(biāo)注結(jié)果。公式第二行是利用貝葉斯定律轉(zhuǎn)寫的結(jié)果,由于分母P(W) 對(duì)給定的W是一個(gè)常數(shù),不影響極大值的計(jì)算,可以從公式中刪除。接著

30、對(duì)公式進(jìn)行近似。首先,引入獨(dú)立性假設(shè),認(rèn)為任意一個(gè)詞wi的出現(xiàn)概率近似只同當(dāng)前詞的詞類標(biāo)記ci 有關(guān),而與周圍(上下文)的詞類標(biāo)記無關(guān)。于是詞匯概率可計(jì)算如下:P(W/C) i=1,n P(wi/ci ) (8)其次,采用二元假設(shè),即近似認(rèn)為任意一個(gè)詞類標(biāo)記ci 的出現(xiàn)概率只同它緊鄰的前一個(gè)詞類標(biāo)記ci-1有關(guān)。有P(C) P(c1) i=2,n P(ci /ci-1 ) (9)P(ci /ci-1 ) 是詞類標(biāo)記的轉(zhuǎn)移概率,也叫做基于詞類的二元模型。上述這兩個(gè)概率參數(shù)都可以通過帶詞性標(biāo)記的語料庫來分別估計(jì):P(wi/ci ) count(wi,ci) / count(ci) (10)P(ci

31、 /ci-1 ) count(ci-1ci) / count(ci-1) (11)據(jù)文獻(xiàn)報(bào)道,采用統(tǒng)計(jì)語言模型方法漢語和英語的次性標(biāo)注正確率都可以達(dá)到96%左右6。5.3 介詞短語PP 的依附歧義在英語中,介詞短語究竟依附于前面的名詞還是前面的動(dòng)詞,是句法分析中一種常見的結(jié)構(gòu)歧義問題。下面通過一個(gè)例子看看,怎樣用語料庫方法來解決這個(gè)問題,以及這種方法究竟能達(dá)到多高的正確率。例句: Pierre Vinken, 61 years old, joined the board as a nonexecutive director.令A(yù)=1表示名詞依附,A=0 為動(dòng)詞依附,則上述例句的PP 依附問題可

32、表為:(A=0, V=joined, N1=board, P=as, N2=director)令V, N1, N2分別代表句中動(dòng)詞短語、賓語短語、介賓短語的中心詞,并在一個(gè)帶有句法標(biāo)注的語料庫(又稱樹庫)中統(tǒng)計(jì)如下四元組的概率Pr:Pr = (A=1 / V=v, N1=n1, P=p, N2=n2) (10)對(duì)輸入句子進(jìn)行PP 依附判斷的算法如下:若Pr = (1 / v, n1, p, n2) 0.5,則判定PP 依附于n1,否則判定PP 依附于v。Collins 和Brooks7.實(shí)驗(yàn)使用的語料庫是賓夕法尼亞大學(xué)標(biāo)注的華爾街日?qǐng)?bào)(WSJ)樹庫,包括: 訓(xùn)練集20,801個(gè)四元組,測(cè)試集3,097 個(gè)四元組。他們對(duì)PP 依附自動(dòng)判定精度的上下限作了如下的分析:一律視為名詞依附(即A1) 59.0%只考慮介詞p的最常見附加72.2%三位專家只根據(jù)四個(gè)中心詞判斷88.2%三位專家根據(jù)全句判斷93.2%很明顯,自動(dòng)判斷精確率的下限是72.2%,因?yàn)闄C(jī)器不會(huì)比只考慮句中介詞p的最常見依附做得更差了;上限是88.2%,因?yàn)闄C(jī)器不可能比三位專家根據(jù)四個(gè)中心詞作出的判斷更高明。論文報(bào)告,在被測(cè)試的3,097 個(gè)四元組中,系統(tǒng)正確判斷的四元組為2,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論