![自然語言理解-詞性標(biāo)注_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-7/30/b6daa4a5-34bf-405c-bc1c-26f94c029b62/b6daa4a5-34bf-405c-bc1c-26f94c029b621.gif)
![自然語言理解-詞性標(biāo)注_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-7/30/b6daa4a5-34bf-405c-bc1c-26f94c029b62/b6daa4a5-34bf-405c-bc1c-26f94c029b622.gif)
![自然語言理解-詞性標(biāo)注_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-7/30/b6daa4a5-34bf-405c-bc1c-26f94c029b62/b6daa4a5-34bf-405c-bc1c-26f94c029b623.gif)
![自然語言理解-詞性標(biāo)注_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-7/30/b6daa4a5-34bf-405c-bc1c-26f94c029b62/b6daa4a5-34bf-405c-bc1c-26f94c029b624.gif)
![自然語言理解-詞性標(biāo)注_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-7/30/b6daa4a5-34bf-405c-bc1c-26f94c029b62/b6daa4a5-34bf-405c-bc1c-26f94c029b625.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、詞性標(biāo)注 關(guān)于標(biāo)注關(guān)于標(biāo)注 總體說來,漢語的詞性標(biāo)注和英語的詞性標(biāo)注在方法上沒有明顯的不同。 比較典型的標(biāo)注算法有: 基于規(guī)則的方法。國(guó)外在70年代初主要采用這種方法,著名的TAGGIT系統(tǒng),利用3300條上下文規(guī)則,對(duì)100萬詞次的Brown語料庫標(biāo)注正確率到77%。 關(guān)于標(biāo)注關(guān)于標(biāo)注 基于統(tǒng)計(jì)的方法。80年代初,隨著經(jīng)驗(yàn)主義方法在計(jì)算語言學(xué)中的重新崛起,統(tǒng)計(jì)方法在語料庫詞性標(biāo)注中又占據(jù)了主導(dǎo)地位。CLAWS標(biāo)注系統(tǒng)對(duì)LOB語料庫的標(biāo)注正確率達(dá)到96%左右。 混合策略。國(guó)內(nèi)北京大學(xué)計(jì)算語言學(xué)研究所提出了一種先規(guī)則、后統(tǒng)計(jì)的規(guī)則和統(tǒng)計(jì)相結(jié)合的標(biāo)注算法,其準(zhǔn)確率達(dá)到了96.6%。 現(xiàn)在也有人用神
2、經(jīng)網(wǎng)絡(luò)和遺傳算法進(jìn)行詞性標(biāo)記,這類文獻(xiàn)很少。詞性標(biāo)注 自然語言處理的最終目的是要分析并理解語言,但是距離這個(gè)目標(biāo)我們?nèi)匀幌嗳ド踹h(yuǎn)。 詞性標(biāo)注是一個(gè)中間過程。詞性標(biāo)注給句子中的每一個(gè)詞賦予一個(gè)合適的詞性。 POStagging:)|(maxarg,.,1,.,1,.,1nntwtPn詞性標(biāo)注中的信息來源 句法結(jié)構(gòu)信息 考慮在當(dāng)前詞上下文中的詞的詞性。 詞匯信息 當(dāng)前詞本身提供了關(guān)于標(biāo)注的大量信息。詞性標(biāo)注的主要方法 MarkovModelTaggers HiddenMarkovModelTaggersMarkov模型 Markov過程/鏈/模型是由AndreiA.Markov最初發(fā)展起來的. 它
3、們最初的確就是為了處理語言而設(shè)計(jì)的:針對(duì)俄國(guó)文學(xué)作品中的字母序列建模。但是,Markov模型之后便作為一個(gè)通用的概率工具發(fā)展了起來。 為了和隱Markov模型相區(qū)別,我們有時(shí)也把Markov模型成為顯Markov模型(HMM)。Markov假設(shè) 一序列(可能按時(shí)間排列)的隨機(jī)變量不是相互獨(dú)立的,每一個(gè)隨機(jī)變量的值依賴于序列中前一個(gè)隨機(jī)變量。對(duì)于許多這樣的系統(tǒng),我們可以合理的假設(shè):我們只需要知道當(dāng)前的隨機(jī)變量的值,就可以來預(yù)測(cè)所有將來的隨機(jī)變量,我們并不需要知道隨機(jī)變量序列中所有過去的值。Markov假設(shè) 假設(shè)X=(X1,XT)是隨機(jī)變量的序列,它從某個(gè)有限集S=s1,sN中取值,這個(gè)有限集被稱
4、作是狀態(tài)空間。 當(dāng)X滿足Markov性質(zhì)時(shí),X被稱作Markov鏈。什么是Markov性質(zhì)呢?Markov性質(zhì) 有限歷史LimitedHorizon:P(Xt+1=sk|X1,Xt)=P(Xt+1=sk|Xt) 時(shí)間不變Timeinvariant(stationary):P(Xt+1=sk|Xt)=P(X2=sk|X1)這樣X是一個(gè)Markov鏈Markov模型中的概率 隨機(jī)轉(zhuǎn)移矩陣Aaij=P(Xt+1=sj|Xt=si) 初始狀態(tài)的概率Njijijaiandaji11,0,)(1iisXPNii11Markov模型和n元文法 N元文法模型是Markov模型2元詞模型就是Markov模型:當(dāng)
5、前的詞僅依賴于前一個(gè)詞,而且這個(gè)依賴型不隨著詞序列而變化。如果n2,n元文法違背了有限歷史假設(shè)嗎?就不是Markov模型了?我們可以簡(jiǎn)單的將任何n元文法轉(zhuǎn)換成Markov模型,只要將合適數(shù)量的歷史編碼到狀態(tài)空間中。在一個(gè)n元文法模型中,狀態(tài)是n-1元的。隱Markov模型 HMMs:不清楚模型經(jīng)過的狀態(tài)序列,但是知道狀態(tài)序列的一些概率函數(shù)。 HMMs基于VMM。對(duì)于觀察值來說需要知道符號(hào)發(fā)射概率。ijkjtittbsXsXkOP),|(1HMMsvsVMMss1s2a12a21a22a11b12kb21kb22kb11kOOOOMarkovModelTaggers X標(biāo)注序列,S標(biāo)注集,O詞集
6、(“O”是HMM中的觀察值,那我們?yōu)槭裁捶Q它為MMtaggers呢?為什么不是HMMtaggers?后面會(huì)有解釋) Markovmodeltaggers:假定一個(gè)詞的詞性只依賴于前一個(gè)詞的詞性(有限歷史),而且,這個(gè)依賴性不隨著時(shí)間而變化(時(shí)間不變) 如同大多數(shù)的概率模型,這兩個(gè)Markov假設(shè)只是對(duì)于實(shí)際情況一個(gè)近似。例如,有限歷史假設(shè)并不能覆蓋長(zhǎng)距離依存的問題。VMMTagger原理應(yīng)用貝葉斯規(guī)則)|(maxarg,.,1,.,1,.,1nnwtPnt)()|(maxarg)()()|(maxarg, 1, 1, 1, 1, 1, 1, 1, 1, 1nnntnnnnttPtwPwPtPt
7、wPnnVMMTagger原理nininnntwPtPtwP1, 1, 1, 1, 1)|()()|()|(.)|()|(122, 111, 1ttPttPttPnnnnniiitwP1)|()|(.)|()|(12211ttPttPttPnnnn詞的相互獨(dú)立性一個(gè)詞的詞形只依賴于它自身的詞性有限歷史niiiiittPtwP11)|()|(VMMTagger原理 最終,計(jì)算一個(gè)句子的最優(yōu)標(biāo)注序列的公式是:niiiiinntnttPtwPwtPtn11, 1, 1, 1)|()|()|(maxarg, 1訓(xùn)練一個(gè)VMMtagger 有一個(gè)大的帶標(biāo)訓(xùn)練集最大似然估計(jì))(),()|(,)(),()|
8、(,jkljlljjkjjkkjtCtwCtwPwordwtagttCttCttPtagttagtC(?) 是出現(xiàn)次數(shù)平滑 為什么需要平滑呢?數(shù)據(jù)稀疏!1.收集更多的數(shù)據(jù)從實(shí)用角度這并不是一個(gè)通用的解決方法,在訓(xùn)練文本中總會(huì)遺漏一些情況。2.平滑估計(jì)在訓(xùn)練文本中沒有出現(xiàn)情況的出現(xiàn)概率。降低已出現(xiàn)情況的概率,這樣留下一些概率“分給”沒有出現(xiàn)的情況。平滑 因?yàn)橐恍├淦г~不會(huì)在訓(xùn)練語料中出現(xiàn),所以平滑詞生成概率比平滑轉(zhuǎn)移概率更為的重要 加一(簡(jiǎn)單平滑)jjkljlKtCtwCtwP)(1),()|(高效的標(biāo)注算法 為了計(jì)算下面的式子,是不是需要知道長(zhǎng)度為n的句子中所有可能的標(biāo)注序列t1,n呢?nii
9、iiinntnttPtwPwtPtn11, 1, 1, 1)|()|()|(maxarg, 1這樣算法的復(fù)雜度就是指數(shù)階的。一個(gè)高效的算法就是 Viterbi algorithmViterbiAlgorithm 動(dòng)態(tài)規(guī)劃 尋徑算法Viterbi Algorithmtjt1 (j) (j)oTo1otot-1ot+1Viterbi Algorithm),.,.(max)(1111.11ttttxxjojxooxxPtt一個(gè)狀態(tài)序列,使得:觀察到直到t-1時(shí)刻的各觀察值,當(dāng)前狀態(tài)是狀態(tài)j以及t時(shí)刻的觀察值出現(xiàn)的概率最大。x1xt-1joTo1otot-1ot+1Viterbi Algorithmj
10、j)0(DP 遞歸的開始x1xt-1joTo1otot-1ot+1Viterbi Algorithm1)(max) 1(tjoijiijbatt1)(maxarg) 1(tjoijiijbatt下一狀態(tài)概率x1xt-1xtxt+1jj)0(遞歸開始下一狀態(tài)名oTo1otot-1ot+1Viterbi Algorithm)(maxargTXiiT) 1(1tXtXt)(maxarg)(TXPii自后向前“讀出”最可能的狀態(tài)序列x1xt-1xtxt+1xTViterbialgorithm(aTrellisalgorithm) 模型=(A,B,)KkSjibBSjiaASikkKssSijkijiM
11、N,.,.,11狀態(tài)集輸出初始狀態(tài)概率狀態(tài)轉(zhuǎn)移概率符號(hào)發(fā)射概率Viterbialgorithm定義:)|,.,.(max)(1111.11jXooXXPttttXXjt1.初始化2.遞推3.結(jié)束Njjj1 ,) 1 (NjbatttijoijiNij1 ,)(max) 1(1NjbatttijoijiNij1 ,)(maxarg) 1(1) 1() 1(maxarg111tXTXtXtiNiT注意 在訓(xùn)練時(shí),我們能夠觀察到Markov模型的狀態(tài),但是在標(biāo)注時(shí)我們只能觀察到詞。所以我們說在MMTagging時(shí)我們使用的實(shí)際上是一個(gè)混合的方法: 在訓(xùn)練時(shí)構(gòu)造VMMs,但是在標(biāo)注時(shí)把它們當(dāng)作是HMM
12、s。 但為什么不稱它為HMMTagger呢?HMMtagger 標(biāo)注過程和VMMtagger一樣。 區(qū)別在于怎樣訓(xùn)練這個(gè)模型。 如果我們沒有足夠的訓(xùn)練語料,我們可以使用HMM來學(xué)習(xí)標(biāo)注序列(使用Forward-Backward算法)基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)的詞性標(biāo)注方法 EricBrill(1992,1995) Transformation-basederror-drivenpartofspeechtagging 基本思想:(1)正確結(jié)果是通過不斷修正錯(cuò)誤得到的(2)修正錯(cuò)誤的過程是有跡可循的(3)讓計(jì)算機(jī)學(xué)習(xí)修正錯(cuò)誤的過程,這個(gè)過程可以用轉(zhuǎn)換規(guī)則(transformation)形式記錄下來,然后用
13、學(xué)習(xí)得到轉(zhuǎn)換規(guī)則進(jìn)行詞性標(biāo)注 下載Brillstagger:http:/ 轉(zhuǎn)換規(guī)則由兩部分組成 改寫規(guī)則(rewritingrule) 激活環(huán)境(triggeringenvironment) 一個(gè)例子:轉(zhuǎn)換規(guī)則T1 改寫規(guī)則:將一個(gè)詞的詞性從動(dòng)詞(v)改為名詞(n); 激活環(huán)境:該詞左邊第一個(gè)緊鄰詞的詞性是量詞(q),第二個(gè)詞的詞性是數(shù)詞(m)S0:他/r做/v了/u一/m個(gè)/q報(bào)告/v運(yùn)用T1S1:他/r做/v了/u一/m個(gè)/q報(bào)告/n轉(zhuǎn)換規(guī)則的模板(template) 改寫規(guī)則:將詞性標(biāo)記x改寫為y 激活環(huán)境:(1)當(dāng)前詞的前(后)面一個(gè)詞的詞性標(biāo)記是z;(2)當(dāng)前詞的前(后)面第二個(gè)詞的
14、詞性標(biāo)記是z;(3)當(dāng)前詞的前(后)面兩個(gè)詞中有一個(gè)詞的詞性標(biāo)記是z;其中x,y,z是任意的詞性標(biāo)記代碼。根據(jù)模板可能學(xué)到的轉(zhuǎn)換規(guī)則 T1:當(dāng)前詞的前一個(gè)詞的詞性標(biāo)記是量詞(q)時(shí),將當(dāng)前詞的詞性標(biāo)記由動(dòng)詞(v)改為名詞(n); T2:當(dāng)前詞的后一個(gè)詞的詞性標(biāo)記是動(dòng)詞(v)時(shí),將當(dāng)前詞的詞性標(biāo)記由動(dòng)詞(v)改為名詞(n); T3:當(dāng)前詞的后一個(gè)詞的詞性標(biāo)記是形容詞(a)時(shí),將當(dāng)前詞的詞性標(biāo)記由動(dòng)詞(v)改為名詞(n); T4:當(dāng)前詞的前面兩個(gè)詞中有一個(gè)詞的詞性標(biāo)記是名詞(n)時(shí),將當(dāng)前詞的詞性標(biāo)記由形容詞(v)改為數(shù)詞(m);轉(zhuǎn)換規(guī)則的學(xué)習(xí)流程 C0表示帶有正確標(biāo)注的語料庫 C0_raw表示C
15、0拿掉正確標(biāo)注后的生語料庫轉(zhuǎn)換規(guī)則學(xué)習(xí)器算法描述1)首先用初始標(biāo)注器對(duì)C0_raw進(jìn)行標(biāo)注,得到帶有詞性標(biāo)記的語料Ci(i=1);2)將Ci跟正確的語料標(biāo)注結(jié)果C0比較,可以得到Ci中總的詞性標(biāo)注錯(cuò)誤數(shù);3)依次從候選規(guī)則中取出一條規(guī)則Tm(m=1,2,),每用一條規(guī)則對(duì)Ci中的詞性標(biāo)注結(jié)果進(jìn)行一次修改,就會(huì)得到一個(gè)新版本的語料庫,不妨記做(m=1,2,3,),將每個(gè)跟C0比較,可計(jì)算出每個(gè)中的詞性標(biāo)注錯(cuò)誤數(shù)。假定其中錯(cuò)誤數(shù)最少的那個(gè)是(可預(yù)期中的錯(cuò)誤數(shù)一定少于Ci中的錯(cuò)誤數(shù)),產(chǎn)生它的規(guī)則Tj就是這次學(xué)習(xí)得到的轉(zhuǎn)換規(guī)則;此時(shí)成為新的待修改語料庫,即Ci=。4)重復(fù)第3步的操作,得到一系列的標(biāo)
16、注語料庫,后一個(gè)語料庫中的標(biāo)注錯(cuò)誤數(shù)都少于前一個(gè)中的錯(cuò)誤數(shù),每一次都學(xué)習(xí)到一條令錯(cuò)誤數(shù)降低最多的轉(zhuǎn)換規(guī)則。直至運(yùn)用所有規(guī)則后,都不能降低錯(cuò)誤數(shù),學(xué)習(xí)過程結(jié)束。這時(shí)得到一個(gè)有序的轉(zhuǎn)換規(guī)則集合Ta,Tb,Tc,轉(zhuǎn)換規(guī)則學(xué)習(xí)示例參考文獻(xiàn) 黃昌寧,中文信息處理中的分詞問題 語言文字應(yīng)用,1997(1) 揭春雨等,漢語自動(dòng)分詞實(shí)用系統(tǒng)CASS的設(shè)計(jì)和實(shí)現(xiàn) 中文信息學(xué)報(bào),1990(4) 張國(guó)煊等,快速書面漢語自動(dòng)分詞系統(tǒng)及算法設(shè)計(jì) 計(jì)算機(jī)研究與發(fā)展,1993(1) 何克抗等,書面漢語自動(dòng)分詞專家系統(tǒng)設(shè)計(jì)原理 中文信息學(xué)報(bào),1991(2) 徐輝等,書面漢語自動(dòng)分析專家系統(tǒng)的實(shí)現(xiàn) 中文信息學(xué)報(bào),1991(3)
17、 姚天順等,基于規(guī)則的漢語自動(dòng)分詞系統(tǒng) 中文信息學(xué)報(bào),1990(1) 揭春雨等,論漢語自動(dòng)分詞方法 中文信息學(xué)報(bào),1989(1) 梁南元等,漢語計(jì)算機(jī)自動(dòng)分詞知識(shí) 中文信息學(xué)報(bào),1990(2) 孫茂松等,漢語自動(dòng)分詞研究評(píng)述 語言文字學(xué) 2001(7) 參考文獻(xiàn) 孫茂松等,漢語自動(dòng)分詞研究中的若干理論問題 語言文字應(yīng)用,1995(4) 張華平等,基于N-最短路徑方法的中文詞語粗分模型 中文信息學(xué)報(bào),2002(5) 張華平等,中文詞語分析一體化系統(tǒng) 高山等,基于三元統(tǒng)計(jì)模型的漢語分詞及標(biāo)注一體化研究 自然語言理解與機(jī)器翻譯,清華大學(xué)出版社,2001.7 劉源等,信息處理用現(xiàn)代漢語分詞規(guī)范及自動(dòng)分
18、詞方法清華大學(xué)出版社及廣西科學(xué)技術(shù)出版社,1994.6 劉挺等,串頻統(tǒng)計(jì)和詞形匹配相結(jié)合的漢語自動(dòng)分詞系統(tǒng) 中文信息學(xué)報(bào),1998(1) 孫茂松等,利用漢字二元語法關(guān)系解決漢語自動(dòng)分詞中的交集型歧義 計(jì)算機(jī)研究與發(fā)展,1997(5) 尹鋒,漢語自動(dòng)分詞研究的現(xiàn)狀與新思維 現(xiàn)代圖書情報(bào)技術(shù),1998(4) 參考文獻(xiàn) 白栓虎,漢語詞切分及詞性標(biāo)注的一體化方法 中文信息處理應(yīng)用平臺(tái)工程,電子工業(yè)出版社,1995 周強(qiáng)等,一種切分與詞性標(biāo)注相融合的漢語語料庫多級(jí)處理方法 計(jì)算語言學(xué)研究與應(yīng)用,北京語言學(xué)院出版社,1993參考文獻(xiàn)VIBrillsTaggerTransformation-basederror-drivenlearningandnaturallanguageprocessing:ac
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 保時(shí)捷卡宴購買合同范本
- 專家顧問聘用合同范本
- 毛紡織行業(yè)分析報(bào)告
- 制定合同范本目
- 中介商鋪合同范例
- 公墓物業(yè)維修合同范本
- 眾籌餐廳合同范本
- 個(gè)人獨(dú)資加油站合同范本
- 農(nóng)村電廠維修合同范例
- 個(gè)人建設(shè)用地合同范例
- 骨科的疼痛管理
- 前列腺癌診斷治療指南
- 中國(guó)銀行招聘筆試真題「英語」
- 江蘇省2023年對(duì)口單招英語試卷及答案
- GB/T 35506-2017三氟乙酸乙酯(ETFA)
- GB/T 25784-20102,4,6-三硝基苯酚(苦味酸)
- 特種設(shè)備安全監(jiān)察指令書填寫規(guī)范(特種設(shè)備安全法)參考范本
- 硬筆書法全冊(cè)教案共20課時(shí)
- 《長(zhǎng)方形的面積》-完整版課件
- 五年級(jí)上冊(cè)英語Module6Unit1Youcanplaybasketballwell外研社課件
- 工業(yè)企業(yè)現(xiàn)場(chǎng)監(jiān)測(cè)工況核查表
評(píng)論
0/150
提交評(píng)論