面向?qū)@墨I(xiàn)的漢語(yǔ)分詞技術(shù)研究課件_第1頁(yè)
面向?qū)@墨I(xiàn)的漢語(yǔ)分詞技術(shù)研究課件_第2頁(yè)
面向?qū)@墨I(xiàn)的漢語(yǔ)分詞技術(shù)研究課件_第3頁(yè)
面向?qū)@墨I(xiàn)的漢語(yǔ)分詞技術(shù)研究課件_第4頁(yè)
面向?qū)@墨I(xiàn)的漢語(yǔ)分詞技術(shù)研究課件_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、面向?qū)@墨I(xiàn)的漢語(yǔ)分詞技術(shù)研究課件面向?qū)@墨I(xiàn)的漢語(yǔ)分詞技術(shù)研究課件1課題背景及意義 2實(shí)驗(yàn)原理及方法3實(shí)驗(yàn)數(shù)據(jù)及結(jié)果4未來(lái)工作計(jì)劃 講解綱要1課題背景及意義 2實(shí)驗(yàn)原理及方法3實(shí)驗(yàn)數(shù)據(jù)及結(jié)果4未來(lái)工作一、課題背景及意義分詞是NLP的重要基礎(chǔ)、核心技術(shù)中文分詞的難點(diǎn): 分詞規(guī)范、歧義切分、未登錄詞的識(shí)別當(dāng)前中文分詞工具的特點(diǎn) 算法不斷改進(jìn)、精度不斷提高 特定領(lǐng)域內(nèi)分詞精度可達(dá)97%以上 專(zhuān)利文獻(xiàn)的分詞精度低下80%以下一、課題背景及意義分詞是NLP的重要基礎(chǔ)、核心技術(shù)二、實(shí)驗(yàn)原理及方法專(zhuān)利文獻(xiàn)的特點(diǎn) 專(zhuān)業(yè)性強(qiáng) 形式規(guī)范語(yǔ)言嚴(yán)謹(jǐn),較少出現(xiàn)歧義 大量的術(shù)語(yǔ)定語(yǔ)嵌套現(xiàn)象 存在數(shù)據(jù)稀疏現(xiàn)象 某些術(shù)語(yǔ)內(nèi)

2、部存在符號(hào)標(biāo)記(2-二甲基環(huán)丙醇) 二、實(shí)驗(yàn)原理及方法專(zhuān)利文獻(xiàn)的特點(diǎn)二、實(shí)驗(yàn)原理及方法二、實(shí)驗(yàn)原理及方法二、實(shí)驗(yàn)原理及方法ICTCLAS工具粗切分 各/r 向/p 異性/n 線/n 來(lái)自/v 于/p 逆變換/v ,/w 該/r 逆/n 變化/v 將/p 幾何/n 基元/n 表面/n 上/f 的/u 點(diǎn)/q 映射/v 至/p 紋理/n 映射/v 中/f 的/u 點(diǎn)/q ./w 二、實(shí)驗(yàn)原理及方法ICTCLAS工具粗切分二、實(shí)驗(yàn)原理及方法NC-value算法運(yùn)用規(guī)則提取初步術(shù)語(yǔ) 術(shù)語(yǔ)構(gòu)詞特點(diǎn)(多為名詞性短語(yǔ),最后1-3個(gè)字 大多是其中心詞) 詞性標(biāo)注信息 上下文信息 語(yǔ)料切分標(biāo)記(標(biāo)點(diǎn)、提示語(yǔ)、數(shù)

3、字等) 二、實(shí)驗(yàn)原理及方法NC-value算法運(yùn)用規(guī)則提取初步術(shù)語(yǔ)二、實(shí)驗(yàn)原理及方法術(shù)語(yǔ)提取的正則式實(shí)例 名詞+名詞 n+n(形容詞|動(dòng)詞|名詞)+名詞 (a|v|n)+n 名詞+(名詞|動(dòng)詞|量詞|未識(shí)別的詞) n(n|v|q|x)* 說(shuō)明: +表示出現(xiàn)一次以上,*表示出現(xiàn)零次以上 二、實(shí)驗(yàn)原理及方法術(shù)語(yǔ)提取的正則式實(shí)例二、實(shí)驗(yàn)原理及方法NC-value值計(jì)算公式 其中,a表示候選的字符串,|a|表示字符串a(chǎn)的長(zhǎng)度,f(a)表示字符串a(chǎn)的詞頻,Ta表示包含字串a(chǎn)的術(shù)語(yǔ),b表示Ta中任意的包含字串a(chǎn)的術(shù)語(yǔ),P(Ta)表示包含字串a(chǎn)的術(shù)語(yǔ)總數(shù),fa (b) 表示b在字串a(chǎn)的上下文中出現(xiàn)的次數(shù)閾值

4、設(shè)為0.0169,即若NC_value值大于閾值,就判定該詞為一個(gè)專(zhuān)業(yè)術(shù)語(yǔ) 二、實(shí)驗(yàn)原理及方法NC-value值計(jì)算公式二、實(shí)驗(yàn)原理及方法條件隨機(jī)場(chǎng)(CRF)統(tǒng)計(jì)訓(xùn)練提取低頻率術(shù)語(yǔ) 四詞位標(biāo)注集 標(biāo)注符號(hào) 不同詞長(zhǎng)的標(biāo)注形式 B(術(shù)語(yǔ)的首字); BE(2字術(shù)語(yǔ)); M(術(shù)語(yǔ)的中間字); BME(3字術(shù)語(yǔ)); E(術(shù)語(yǔ)的尾字); BM.ME(大于3的術(shù)語(yǔ)); O(非術(shù)語(yǔ)); O/O.O(非術(shù)語(yǔ)) 二、實(shí)驗(yàn)原理及方法條件隨機(jī)場(chǎng)(CRF)統(tǒng)計(jì)訓(xùn)練提取低頻率術(shù)語(yǔ)二、實(shí)驗(yàn)原理及方法特征模板 特征類(lèi)型 特征模板 Unigram(一元)Cn,Sn n=-2,-1,0,1,2 Bigram(二元) CnCn+1,SnSn+1 n=-2,-1,0,1 說(shuō)明: C表示當(dāng)前字,S表示詞性特征 二、實(shí)驗(yàn)原理及方法特征模板三、實(shí)驗(yàn)數(shù)據(jù)及結(jié)果實(shí)驗(yàn)語(yǔ)料 訓(xùn)練集:NTCIR-9會(huì)議的PatentMT任務(wù)提供的10萬(wàn)句生語(yǔ)料的漢語(yǔ)專(zhuān)利數(shù)據(jù) 測(cè)試集:103篇專(zhuān)利文獻(xiàn)(摘要、說(shuō)明書(shū)、權(quán)利要求) 在訓(xùn)練語(yǔ)料中抽取8000句作為專(zhuān)業(yè)術(shù)語(yǔ)提取 結(jié)果的抽樣評(píng)價(jià)數(shù)據(jù)三、實(shí)驗(yàn)數(shù)據(jù)及結(jié)果實(shí)驗(yàn)語(yǔ)料三、實(shí)驗(yàn)數(shù)據(jù)及結(jié)果評(píng)測(cè)方法三、實(shí)驗(yàn)數(shù)據(jù)及結(jié)果評(píng)測(cè)方法三、實(shí)驗(yàn)數(shù)據(jù)及結(jié)果術(shù)語(yǔ)提取實(shí)驗(yàn)抽樣結(jié)果三、實(shí)驗(yàn)數(shù)據(jù)及結(jié)果術(shù)語(yǔ)提取實(shí)驗(yàn)抽樣結(jié)果三、實(shí)驗(yàn)數(shù)據(jù)及結(jié)果開(kāi)放測(cè)試下實(shí)驗(yàn)結(jié)果三、實(shí)驗(yàn)數(shù)據(jù)及結(jié)果開(kāi)放測(cè)試下實(shí)驗(yàn)結(jié)果四、未來(lái)工作計(jì)劃語(yǔ)擴(kuò)充語(yǔ)料規(guī)模、減少數(shù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論