![中文分詞課件_第1頁](http://file4.renrendoc.com/view/31bb679f443665a484e204a2a1990f57/31bb679f443665a484e204a2a1990f571.gif)
![中文分詞課件_第2頁](http://file4.renrendoc.com/view/31bb679f443665a484e204a2a1990f57/31bb679f443665a484e204a2a1990f572.gif)
![中文分詞課件_第3頁](http://file4.renrendoc.com/view/31bb679f443665a484e204a2a1990f57/31bb679f443665a484e204a2a1990f573.gif)
![中文分詞課件_第4頁](http://file4.renrendoc.com/view/31bb679f443665a484e204a2a1990f57/31bb679f443665a484e204a2a1990f574.gif)
![中文分詞課件_第5頁](http://file4.renrendoc.com/view/31bb679f443665a484e204a2a1990f57/31bb679f443665a484e204a2a1990f575.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
13.4中文分詞原理2【目錄】什么是中文
分詞查詢處理分詞技術(shù)分析應用舉證分詞技術(shù)概
述
12345為什么要分詞英文Knowledgeispower單詞之間有空格,很容易進行詞語的匹配。中文的語義與字詞的搭配相關(guān)后人又有人寫:1、下雨天留客,天留,我不留。2、下雨天留客,天留我不留。3、下雨天,留客,天留,我不留。4、下雨天,留客,天留我,不留。5、下雨天留客,天留我不?留!6、下雨天,留客天,留我不留?7、下雨天,留客天,留我?不留!8、下雨天留客,天!留我不?留!9、下雨天,留客!天!留我不留?唐朝時,一個窮人到他朋友家去玩,這個窮人非常的聰明。又一天,下起了雨,這個朋友想讓他快點回去,不好意思說,于是,寫了一封信,但沒加標點。這個朋友的意思是:下雨天留客,天留人不留。沒想到,這位聰明的窮人在信中夾了標點,意思全變了:下雨天,留客天,留人不?留。6什么是中文分詞中文分詞定義上海/武警/總隊/醫(yī)院/地址分詞就是將一句話切分成一個個單詞的過程.分詞的目的是更加有效、準確的關(guān)鍵詞索引。中文分詞概述什么是分詞?比如句子“內(nèi)塔尼亞胡說的確實在理”基于關(guān)鍵詞的口碑分析客戶:某知名全國連鎖餐飲品牌需求:自身及競爭對手在互聯(lián)網(wǎng)上的口碑變化2023/2/62023/2/611Part2【接受用戶查詢后做了哪些事情】『查詢處理』
13查詢處理小于等于3個字符串皮膚病用戶查詢方式皮膚病14查詢處理用戶查詢方式小于等于3個中文漢字,將直接調(diào)取數(shù)據(jù)庫中索引的詞匯注15查詢處理用戶提交了不止一個查詢串多于3個字串符上海皮膚病醫(yī)院用戶查詢方式上海/皮膚病/醫(yī)院上海皮膚病/醫(yī)院上海/皮膚病醫(yī)院上海皮膚病醫(yī)院17查詢處理提交的中文查詢包含英文單詞用戶查詢方式Iphone手機Iphone/手機Iphone手機18查詢處理用戶查詢方式當提交的中文查詢包含英文單詞時,查詢結(jié)果會將英文單詞優(yōu)先完整展現(xiàn),即使查詢的單詞不存在,也會當做一個字符處理,不會進行拆分注中文分詞概述(Cont.)分詞難點歧義無處不在交叉歧義(多種切分交織在一起)內(nèi)塔內(nèi)亞胡說的/確實/在理組合歧義(不同情況下切分不同)這個人/手上有痣我們公司人手真歧義(幾種切分都可以)乒乓球拍/賣/完了乒乓球/拍賣/完了中文分詞概述(Cont.)分詞難點普通詞與新詞互用高明表演真好(演員)/他的表演很高明汪洋到深圳檢查工作/洞庭湖一片汪洋普通詞與新詞交織在一起克林頓對內(nèi)塔尼亞胡說胡錦濤聽取龔學平等同志的匯報中文分詞概述(Cont.)分詞難點(需要重新處理)需求多種多樣切分速度:搜索引擎VS單機版語音合成結(jié)果呈現(xiàn):切分粒度要求不同:機器翻譯VS搜索引擎分詞重點要求不同:語音合成VS搜索引擎唯一結(jié)果VS多結(jié)果:語音合成VS搜索引擎新詞敏感度不同:語音合成VS搜索引擎處理對象:書面文本(規(guī)范/非規(guī)范)VS口語文本硬件平臺:嵌入式VS單機版VS服務器版23Part3【都有哪些分詞技術(shù)】『分詞技術(shù)概述』
25Part3基于字典的分詞方法按照一定的策略將待分析的漢字串與一個充分大的詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功概念26Part3基于字典的分詞方法第一頁最后一頁29反向最大匹配法中醫(yī)治白癜風中/醫(yī)治/白癜風基于字典的分詞方法反向最大匹配法30最短路徑分詞法中醫(yī)治白癜風中醫(yī)/治白癜風基于字典的分詞方法最短路徑分詞法31基于字典的分詞方法常用方法采用最短路徑分詞方法,因詞典中沒有“治白癜風”這個詞組,所以從用戶體驗考慮,調(diào)取了字典中意思相近、用戶搜索量大的詞“治療白癜風”、“治愈白癜風”注32基于統(tǒng)計的分詞方法相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞優(yōu)點用于系統(tǒng)自動識別新詞缺點對常用詞的識別精度差例如:你的、我的、許多的、最好的、之一常用方法統(tǒng)計分詞生成式統(tǒng)計分詞判別式統(tǒng)計分詞生成式分詞原理首先建立學習樣本的生成模型,再利用模型對預測結(jié)果進行間接推理兩個假設前提馬爾可夫假設當前狀態(tài)出現(xiàn)的概率僅同過去有限的歷史狀態(tài)有關(guān),而與其他狀態(tài)無關(guān)。具體到分詞任務,就是文本中第i個詞出現(xiàn)的概率僅僅依賴于它前面的i-1個詞,而與其他詞無關(guān)。輸出獨立性假設當前狀態(tài)的輸出僅僅取決于當前狀態(tài)本身,而與其他狀態(tài)無關(guān)。生成式分詞(Cont.)學習素材句子切分結(jié)果分詞知識庫產(chǎn)生式學習算法產(chǎn)生式切分算法分詞詞典生成式分詞(Cont.)分詞過程實例第一步:全切分生成式分詞(Cont.)第二步:Viterbi動態(tài)規(guī)劃,找到貫穿句子的路徑并計算每條路徑的概率P1=P(說|他)*P(的|說)*P(確實|的)*P(在理|確實)*P($End|在理)P2=P(說|他)*P(的確|說)*P(實在|的確)*P(理|實在)*P($End|理)第三步:選擇概率最大的路徑為切分結(jié)果生成式分詞(Cont.)優(yōu)點在訓練語料規(guī)模足夠大和覆蓋領域足夠多的情況下,可以獲得較高的切分正確率(>=95%)不足需要很大的訓練語料新詞識別能力弱解碼速度相對較慢統(tǒng)計分詞生成式統(tǒng)計分詞判別式統(tǒng)計分詞判別式分詞原理在有限樣本條件下建立對于預測結(jié)果的判別函數(shù),直接對預測結(jié)果進行判別,建模無需任何假設。由字構(gòu)詞的分詞理念,將分詞問題轉(zhuǎn)化為判別式分類問題典型算法Maxent SVM CRF Perceptron優(yōu)勢能充分利用各種來源的知識需要較少的訓練語料解碼速度更快新詞識別性能好判別式分詞(Cont.)由字構(gòu)詞把分詞問題轉(zhuǎn)化為確定句中每個字在詞中位置問題每個字在詞中可能的位置可以分為以下三種詞首B(日本占領了東三省)詞中M(游泳比賽菲爾普斯獨占鰲頭)詞尾E(中國隊搶占了風頭)分詞結(jié)果形式化分詞結(jié)果:毛/B新/M年/E2/B0/M0/M0/M年/E畢/B業(yè)/E/于/B東/B北/M大/M學/E還原:毛新年/2000年/畢業(yè)/于/東北大學判別式分詞(Cont.)學習素材句子切分結(jié)果分詞知識庫判別式學習算法判別式學習算法判別式分詞(Cont.)特征所涉及的語言學知識列表字的上下文知識形態(tài)詞知識:處理重疊詞、離合詞、前后綴仿詞知識:2000年成語/慣用語知識普通詞詞典知識歧義知識新詞知識/用戶詞典新詞的全局化知識判別式分詞(Cont.)優(yōu)點理論基礎扎實解碼速度快分詞精度高新詞識別能力強所需學習素材少弱點訓練速度慢需要高配置的機器訓練我們即將以昂揚的斗志迎來新的一年。2023/2/6依存句法分析標注關(guān)系(共15種)及含義2023/2/6在家禽攤位中,有一個攤位專賣烏骨雞。2023/2/649概念尚不成熟,試驗階段通過讓計算機模擬人對句子的理解,達到識別詞的效果基于理解的分詞方法常用方法50Part4【實例舉證】『分詞技術(shù)分析』
51分詞技術(shù)分析百度匹配結(jié)果:皮膚/醫(yī)院52分詞技術(shù)分析正向最大匹配:解小東/北京/華/煙云反向最大匹配:解/小/東北/京華煙云百度實際匹配結(jié)果:解小東/北/京華煙云解小東/北京53分詞技術(shù)分析正向最大匹配:相同/仁/醫(yī)院/墻正向最大匹配:反向最大匹配:相/同仁/醫(yī)/院墻百度實際匹配結(jié)果:相/同仁醫(yī)院/墻54結(jié)論分詞技術(shù)分析百度分詞采取了至少兩個詞典,一個是普通詞典,一個是專用詞典(人名、書名、地名、影視劇名等)。而且是專用詞典先切分,然后將剩余的片斷交由普通詞典來切分。古巴比倫常正向最大匹配:古巴比倫/常反向最大匹配:古巴/比/倫常百度輸出結(jié)果:古巴比倫/常如果正向和反向結(jié)果不一致百度采取最短路徑方法55分詞技術(shù)分析首先查詢專用詞典(人名,部分地名等),將專有名稱切出,剩下的部分采取雙向分詞策略,如果兩者切分結(jié)果相同,說明沒有歧義,直接輸出分詞結(jié)果。如果不一致,則輸出最短路徑的那個結(jié)果,如果最短路徑長度相同,則選擇單字詞少的那一組切分結(jié)果。如果單字也相同,則選擇正向分詞結(jié)果56分詞技術(shù)分析用專用詞典切出專有名詞剩下部分進行雙向分詞如果單字也相同取正向匹配結(jié)果如果最短路徑相同取單字詞少的那一組切分結(jié)果如果不同,取最短路徑結(jié)果如果相同,說明沒有歧義輸出結(jié)果57Part5【常見切詞效果】『應用舉證』
58應用舉證【常見切詞效果】白癜風
上海白癜風治療中心
治療白癜風最好的醫(yī)院-上海武警總隊醫(yī)院A、白癜風B、上海白癜風C、上海白癜風治療D、上海白癜風治療中心E、治療白癜風最好的醫(yī)院F、上海治療白癜風最好的醫(yī)院G、上海白癜風治療醫(yī)院H、上海白癜風醫(yī)院59上海皮膚病醫(yī)院_長寧區(qū)白癜風_閔行牛皮癬_皮膚科醫(yī)院武夷路_閘北保德路黃埔徐匯靜安奉賢寶山嘉定楊浦虹口松江金山普陀浦東新區(qū)青浦區(qū)最好的皮膚病??漆t(yī)院A、上海皮膚病醫(yī)院B、上海皮膚科醫(yī)院C、上海皮膚病醫(yī)院武夷路D、上海皮膚病??漆t(yī)院E、上海皮膚病醫(yī)院保德路F、長寧區(qū)白癜風醫(yī)院G、長寧區(qū)皮膚科醫(yī)院H、………….應用舉證【常見切詞效果】60網(wǎng)頁的Title長度根據(jù)關(guān)鍵詞匹配的數(shù)量和熱度而定,好比一個頁面只做兩三個競爭度強的詞,那么Title就應該盡量控制在30字以內(nèi),因為關(guān)鍵詞拆分得越多,就意味著需要匹配得越多,而匹配的越多,對排名值的貢獻會減弱。而第二個例子中,之所以Title標題會高于70字,也是根據(jù)情況而定,因為70字中所匹配的關(guān)鍵詞除了第一個出現(xiàn)的完全匹配的關(guān)鍵詞“上海皮膚病醫(yī)院”詞以外,其他詞相對而言競爭度都非常小,所以切詞匹配后能排名的幾率仍然非常高為什么要完全匹配?應用舉證【常見切詞效果】61網(wǎng)站首頁Title根據(jù)網(wǎng)站定位可以參考此類寫法,但文章內(nèi)頁一般一篇文章只做1-2個長尾詞,所以切不可將標題寫的和例2中一樣太過于冗長而影響用戶體驗,同時網(wǎng)站內(nèi)頁也沒有如此高的權(quán)重能帶起那么多長尾詞的排名。文章內(nèi)頁Title一般一句話能匹配出2個長尾詞就足夠了,常見的是一句話匹配一個詞注:應用舉證【常見切詞效果】62注:臉上長白斑怎么辦小腿有白點搜索詞:應用舉證【常見切詞效果】63標題中的關(guān)鍵詞不一定非得完全匹配,但關(guān)鍵詞匯一定要在標題中有關(guān)聯(lián)的出現(xiàn)應用舉證64完全匹配包含主要關(guān)鍵詞“皮膚”、“過敏”的相關(guān)匹配同樣能展現(xiàn)應用舉證65主要關(guān)鍵詞要放在標題和描述的最前面,關(guān)鍵詞越靠前切詞時獲得的權(quán)重越高,排名越好應用舉證66通過梯形圖很容易看出,關(guān)鍵詞出現(xiàn)位置越靠前排名越好應用舉證67關(guān)鍵詞出現(xiàn)的頻率同樣是排名的關(guān)鍵,關(guān)鍵詞出現(xiàn)密度高的網(wǎng)頁將會獲得好的排名應用舉證68A網(wǎng)站比B網(wǎng)站關(guān)鍵詞出現(xiàn)密度顯然要高,所以略占優(yōu)勢完全匹配AB提示:如果是在完全匹配的情況下,關(guān)鍵詞密度應該要嚴格控制。標題中關(guān)鍵詞精確匹配一次,短語匹配一次為佳,描述中關(guān)鍵詞精確匹配和短語匹配可以和標題一樣穿插使用出現(xiàn)1-3次。如果完全匹配的關(guān)鍵詞如果放到標題或內(nèi)容的最后面,其排名未必見得會高于那些短語匹配出現(xiàn)密度高的關(guān)鍵詞的排名應用舉證69總結(jié)為什么用戶搜索一個詞,搜索引擎會羅列出和他相關(guān)的結(jié)果?因為用戶搜索的詞或是詞中某個字符串和搜索引擎詞典中的某個字符串匹配成功,那么包含這些字符串的網(wǎng)頁將會被羅列出來基于字典的分詞方法為什么用戶搜索一個詞,搜索引擎會羅列出和他相關(guān)的結(jié)果?為什么用戶搜索一個詞,搜索引擎會羅列出和他相關(guān)的結(jié)果??70總結(jié)為什么一再強調(diào)文章的標題要和文章主旨相符?除用戶體驗外因素外,另一個因素是因為通過搜索引擎對標題以及內(nèi)容的了解,在標題語義和句法的分析上能夠更準確,從而避免分詞時增加歧義錯誤率的發(fā)生基于詞義的分詞方法71總結(jié)為什么一再強調(diào)文章中關(guān)鍵詞的出現(xiàn)密度?能加強搜索引擎對新詞的識別能力,更好的識別文章中的主要關(guān)鍵詞是什么,同時也降低了將主要關(guān)鍵詞進行錯誤切詞的概率基于統(tǒng)計的分詞方法內(nèi)容提要分詞概述分詞技術(shù)發(fā)展國際分詞評測分詞技術(shù)總結(jié)分詞系統(tǒng)ICTCLAS這可是最早的中文開源分詞項目之一,ICTCLAS在國內(nèi)973專家組組織的評測中活動獲得了第一名,在第一屆國際中文處理研究機構(gòu)SigHan組織的評測中都獲得了多項第一名。ICTCLAS3.0分詞速度單機996KB/s,分詞精度98.45%,API不超過200KB,各種詞典數(shù)據(jù)壓縮后不到3M.ICTCLAS全部采用C/C++編寫,支持Linux、FreeBSD及Windows系列操作系統(tǒng),支持C/C++、C#、Delphi、Java等主流的開發(fā)語言。分詞系統(tǒng)CC-CEDICT一個中文詞典開源項目,提供一份以漢語拼音為中文輔助的漢英辭典,其詞典可以用于中文分詞使用,而且不存在版權(quán)問題。Chrome中文版就是使用的這個詞典進行中文分詞的。
IK
IKAnalyzer是一個開源的,基于java語言開發(fā)的輕量級的中文分詞工具包。從2006年12月推出1.0版開始,IKAnalyzer已經(jīng)推出了3個大版本。最初,它是以開源項目Luence為應用主體的,結(jié)合詞典分詞和文法分析算法的中文分詞組件。新版本的IKAnalyzer3.0則發(fā)展為面向Java的公用分詞組件,獨立于Lucene項目,同時提供了對Lucene的默認優(yōu)化實現(xiàn)。
Paoding
Paoding(庖丁解牛分詞)基于Java的開源中文分詞組件,提供lucene和solr接口,具有極高效率和高擴展性。引入隱喻,采用完全的面向?qū)ο笤O計,構(gòu)思先進。高效率:在PIII1G內(nèi)存?zhèn)€人機器上,1秒可準確分詞100萬漢字。采用基于不限制個數(shù)的詞典文件對文章進行有效切分,使能夠?qū)υ~匯分類定義。能夠?qū)ξ粗脑~匯進行合理解析。僅支持Java語言。分詞系統(tǒng)MMSEG4J
MMSEG4J基于Java的開源中文分詞組件,提供lucene和solr接口:
1.mmseg4j
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 求職申請書英語
- 工傷鑒定申請書
- 總工會困難職工申請書
- 貧困大學生助學金申請書
- 2024-2025學年高中歷史專題1中國傳統(tǒng)文化主流思想的演變3宋明理學練習含解析人民版必修3
- 2024-2025學年高中生物第四章生物的變異第一節(jié)生物變異的來源Ⅱ教案浙科版必修2
- 境外匯款申請書
- 2025年度新能源發(fā)電項目設備采購合同范本
- 二零二五年度地鐵通風空調(diào)設備安裝與節(jié)能合同
- 2025年發(fā)電機組租賃及電力設施安全評估合同
- 安徽省合肥市廬陽區(qū)評價2023-2024學年六年級下學期5月模擬預測數(shù)學試題+
- 南通市2024屆高三第二次調(diào)研測試(二模)地理試卷(含官方答案)
- 第2章一元一次不等式和一元一次不等式組 單元綜合練習題 2023-2024學年北師大版八年級數(shù)學下冊
- 價格法價格違法行為和明碼標價法律法規(guī)價格欺詐知識
- 中外歷史綱要上大事年表
- 高標準農(nóng)田建設項目監(jiān)理計劃
- 小學二年級(上冊)-乘法口訣-練習題-A4直接打印
- 采購行業(yè)的swot分析
- 二級公立醫(yī)院績效考核三級手術(shù)目錄(2020版)
- 振蕩指標MACD(波段操作精解)
- 兒科常見病的病例討論和診斷思維培訓課件
評論
0/150
提交評論