![實(shí)驗(yàn)報(bào)告-中文分詞(共6頁)_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/22/4081e11b-9528-44e4-8135-8738e40a3a5f/4081e11b-9528-44e4-8135-8738e40a3a5f1.gif)
![實(shí)驗(yàn)報(bào)告-中文分詞(共6頁)_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/22/4081e11b-9528-44e4-8135-8738e40a3a5f/4081e11b-9528-44e4-8135-8738e40a3a5f2.gif)
![實(shí)驗(yàn)報(bào)告-中文分詞(共6頁)_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/22/4081e11b-9528-44e4-8135-8738e40a3a5f/4081e11b-9528-44e4-8135-8738e40a3a5f3.gif)
![實(shí)驗(yàn)報(bào)告-中文分詞(共6頁)_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/22/4081e11b-9528-44e4-8135-8738e40a3a5f/4081e11b-9528-44e4-8135-8738e40a3a5f4.gif)
![實(shí)驗(yàn)報(bào)告-中文分詞(共6頁)_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/22/4081e11b-9528-44e4-8135-8738e40a3a5f/4081e11b-9528-44e4-8135-8738e40a3a5f5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、實(shí)驗(yàn)報(bào)告1 雙向匹配中文分詞 小組信息目錄摘要 - 1理論描述 - 1算法描述 - 2詳例描述 - 3軟件演示 - 4總結(jié) - 6 摘要 這次實(shí)驗(yàn)的內(nèi)容是中文分詞,現(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。而我們用到的分詞算法是基于字符串的分詞方法(又稱機(jī)械分詞方法)中的正向最大匹配算法和逆向匹配算法。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的錯(cuò)誤率為1/24
2、5。 理論描述中文分詞指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。中文分詞是文本挖掘的基礎(chǔ),對(duì)于輸入的一段中文,成功的進(jìn)行中文分詞,可以達(dá)到電腦自動(dòng)識(shí)別語句含義的效果。它是信息提取、信息檢索、機(jī)器翻譯、文本分類、自動(dòng)文摘、語音識(shí)別、文本語音轉(zhuǎn)換、自然語言理解等中文信息處理領(lǐng)域的基礎(chǔ)。雙向最大匹配算法是兩個(gè)算法的集合,主要包括:正向最大匹配算法和逆向最大匹配算法如果兩個(gè)算法得到相同的分詞結(jié)果,那就認(rèn)為是切分成功,否則,就出現(xiàn)了歧義現(xiàn)象或者是未登錄詞問題。正向最大匹配算法:從左到右將待分詞文本中的幾個(gè)連續(xù)字符與詞表匹配,如果匹配上,則切分出一個(gè)詞。逆向最大匹配算法:從右到左將待分詞文本中的幾個(gè)連續(xù)
3、字符與詞表匹配,如果匹配上,則切分出一個(gè)詞。 算法描述本文實(shí)現(xiàn)雙向匹配算法,具體算法描述如下: 正向最大匹配算法MM:/對(duì)純中文句子s1的正向減字最大匹配分詞string CHzSeg:SegmentHzStrMM(CDict &dict,string s1)conststring s2=""/保存句子s1的分詞結(jié)果while(!s1.empty()unsigned int len=s1.size();/如果待切分的句子大于最大切分單元/len=最大切分單元,否則len=句子的長度if(len>MAX_WORD_LENGTH)len=MAX_WORD_LENG
4、TH;/取s1句子最左邊長度len為的子句子string w=s1.substr(0,len);/判斷剛剛?cè)〕鰜淼淖泳渥邮遣皇且粋€(gè)詞bool isw=dict.IsWord(w);/當(dāng)w中至少有一個(gè)中文字&&不能構(gòu)成字的時(shí)候,減去最右邊的一個(gè)中文字while(len>2&&isw=false)/減去最右邊的一個(gè)中文字len-=2;w=w.substr(0,len);/再次判斷減字后的w是不是構(gòu)成一個(gè)詞isw=dict.IsWord(w);s2+=w+SEPARATOR;s1=s1.substr(w.size();/end whilereturn s2;逆向
5、最大匹配算法RMM: /對(duì)純中文句子s1的逆向減字最大匹配分詞string CHzSeg:SegmentHzStrRMM(CDict &dict,string s1)conststring s2=""/保存句子s1的分詞結(jié)果while(!s1.empty()unsigned int len=s1.size();/如果待切分的句子大于最大切分單元/len=最大切分單元,否則len=句子的長度if(len>MAX_WORD_LENGTH)len=MAX_WORD_LENGTH;/取s1句子最右邊長度len為的子句子string w=s1.substr(s1.len
6、gth()-len,len);/判斷剛剛?cè)〕鰜淼淖泳渥邮遣皇且粋€(gè)詞bool isw=dict.IsWord(w);/當(dāng)w中至少有一個(gè)中文字&&不能構(gòu)成字的時(shí)候,減去最左邊的一個(gè)中文字while(len>2&&isw=false)/減去最左邊的一個(gè)中文字len-=2;w=s1.substr(s1.length()-len,len);/再次判斷減字后的w是不是構(gòu)成一個(gè)詞isw=dict.IsWord(w);w=w+SEPARATOR;s2=w+s2;/分出一個(gè)詞后的s1s1=s1.substr(0,s1.length()-len);return s2; 詳例描
7、述: 逆向最大匹配思想是從右向左切分,以“對(duì)外經(jīng)濟(jì)技術(shù)合作與交流不斷擴(kuò)大”為例,詳細(xì)描述算法如下 :輸入例句:S1=“對(duì)外經(jīng)濟(jì)技術(shù)合作與交流不斷擴(kuò)大” ;定義:最大詞長MaxLen = 6;S2= “”;分隔符 = “/ ”;逆向減字最大匹配分詞算法過程如下:(1)S2=“”;S1不為空,從S1右邊取出候選子串W=“斷擴(kuò)大”;(2)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“擴(kuò)大”;(3)查詞表,“擴(kuò)大”在詞表中,將W加入到S2中,S2=“ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)技術(shù)合作與交流不斷”;(4)S1不為空,于是從S1左邊取出候選子串W=“流不斷”;(5)查詞
8、表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“不斷”;(6)查詞表,“不斷”在詞表中,將W加入到S2中,S2=“不斷/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)技術(shù)合作與交流”;(7)S1不為空,于是從S1左邊取出候選子串W=“與交流”;(8)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“交流”;(9)查詞表,“交流”在詞表中,將W加入到S2中,S2=“交流/ 不斷/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)技術(shù)合作與”;(10)S1不為空,于是從S1左邊取出候選子串W=“合作與”;(11)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“作與”;(12
9、)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“與”;(13)查詞表,“與”在詞表中,將W加入到S2中,S2=“與/ 交流/ 不斷/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)技術(shù)合作”;(14)S1不為空,于是從S1左邊取出候選子串W=“術(shù)合作”;(15)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“合作”;(16)查詞表,“交流”在詞表中,將W加入到S2中,S2=“合作/ 與/ 交流/ 不斷/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)技術(shù)”;(17)S1不為空,于是從S1左邊取出候選子串W=“濟(jì)技術(shù)”;(18)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉
10、,得到W=“技術(shù)”;(19)查詞表,“交流”在詞表中,將W加入到S2中,S2=“技術(shù)/ 合作/ 與/ 交流/ 不斷/ 擴(kuò)大/”,并將W從S1中去掉,此時(shí)S1=“對(duì)外經(jīng)濟(jì)(20)S1不為空,于是從S1左邊取出候選子串W=“外經(jīng)濟(jì)”;(21)查詞表,W不在詞表中,將W最左邊一個(gè)字去掉,得到W=“經(jīng)濟(jì)”;(22)查詞表,“交流”在詞表中,將W加入到S2中,S2=“經(jīng)濟(jì)/ 技術(shù)/ 合作/ 與/ 交流/ 不斷/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“對(duì)外”; (23)S1不為空,由于此時(shí)S1只剩下“對(duì)外”于是從S1左邊取出候選子串W=“對(duì)外”;(24)查詞表,“對(duì)外”在詞表中,將W加入到S2中,S2=“對(duì)外/ 經(jīng)濟(jì)/ 技術(shù)/ 合作/ 與/ 交流/ 不斷/ 擴(kuò)大/ ”,并將W從S1中去掉,此時(shí)S1=“”;(25)S1為空,輸出S2作為分詞結(jié)果,分詞過程結(jié)束。正向匹配法思想與逆向一樣,只是從左向右切分,因此只舉例逆向最大匹配算法描述。 軟件演示: 軟件界面:選擇分詞所要的方式(正向或逆向),然后輸入所要分詞的內(nèi)容,分詞結(jié)果就會(huì)在右邊顯示出來。正向最大匹
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 股東間股權(quán)轉(zhuǎn)讓協(xié)議
- 月嫂家政服務(wù)合同
- 廣告位租賃的合同
- 設(shè)備維護(hù)服務(wù)合同
- 停車車位租賃合同
- 模具鋼材采購合同
- 一兒一女夫妻離婚協(xié)議書
- 2025年日照貨運(yùn)從業(yè)資格證模擬考試駕考
- 2025年德州貨運(yùn)從業(yè)資格證模擬考試下載安裝
- 電梯管理方維修方及業(yè)主方三方合同(2篇)
- 14S501-1 球墨鑄鐵單層井蓋及踏步施工
- YB 4022-1991耐火泥漿荷重軟化溫度試驗(yàn)方法(示差-升溫法)
- 胸腔積液護(hù)理查房-范本模板
- 水土保持方案中沉沙池的布設(shè)技術(shù)
- 安全生產(chǎn)技術(shù)規(guī)范 第25部分:城鎮(zhèn)天然氣經(jīng)營企業(yè)DB50-T 867.25-2021
- 現(xiàn)代企業(yè)管理 (全套完整課件)
- 走進(jìn)本土項(xiàng)目化設(shè)計(jì)-讀《PBL項(xiàng)目化學(xué)習(xí)設(shè)計(jì)》有感
- 《網(wǎng)店運(yùn)營與管理》整本書電子教案全套教學(xué)教案
- 教師信息技術(shù)能力提升培訓(xùn)課件希沃的課件
- 高端公寓住宅項(xiàng)目營銷策劃方案(項(xiàng)目定位 發(fā)展建議)
- 執(zhí)業(yè)獸醫(yī)師聘用協(xié)議(合同)書
評(píng)論
0/150
提交評(píng)論