百度分詞原理培訓_第1頁
百度分詞原理培訓_第2頁
百度分詞原理培訓_第3頁
百度分詞原理培訓_第4頁
百度分詞原理培訓_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1BaiduBaidu分詞原理分詞原理2【目錄目錄】什什 么么 是是 中中 文文 分分 詞詞查查 詢詢 處處 理理分分 詞詞 技技 術術 分分 析析應應 用用 舉舉 證證 分分 詞詞 技技 術術 概概 述述 1234533Part 1【引言】4什么是中文分詞什么是中文分詞谷歌谷歌百度搜索引擎技術5什么是中文分詞什么是中文分詞搜索引擎技術BaiduBaidu更懂中文更懂中文6什么是中文分詞什么是中文分詞中文分詞定義上海/武警/總隊/醫(yī)院/地址中文分詞是指將一個漢字序列切分成一個一個單獨的詞。77Part 2【百度接受用戶查詢后做了哪些事情】8用戶提交字符串小于用戶提交字符串小于3 3個字符個字符

2、用戶提交字符串多于用戶提交字符串多于3 3個字符個字符提交的中文查詢包含英文單詞提交的中文查詢包含英文單詞查詢處理查詢處理用戶查詢方式9查詢處理查詢處理小于等于小于等于3 3個字符串個字符串皮膚病用戶查詢方式皮膚病10查詢處理查詢處理用戶查詢方式小于等于3 3個中文漢個中文漢字字,將直接調取數據庫中索引的詞匯注注11查詢處理查詢處理用戶提交了不止一個查詢串用戶提交了不止一個查詢串多于多于3 3個字串符個字串符上海皮膚病醫(yī)院用戶查詢方式上海/皮膚病/醫(yī)院上海皮膚病/醫(yī)院上海/皮膚病醫(yī)院上海皮膚病醫(yī)院12查詢處理查詢處理用戶查詢方式大于等于4 4個中文個中文漢字漢字,搜索引擎會默認將所有字符串按詞

3、分隔開,分成若干子查詢串注注13查詢處理查詢處理提交的中文查詢包含英文單詞提交的中文查詢包含英文單詞用戶查詢方式Iphone手機Iphone/手機Iphone手機14查詢處理查詢處理用戶查詢方式當提交的中文查詢包含英文單詞英文單詞時,查詢結果會將英文單詞優(yōu)先完整展現,即使查詢的單詞不存在,也會當做一個字符處理,不會進行拆分注注1515Part 3【都有哪些分詞技術】1616Part 3基于字符串匹配的分詞方法基于字符串匹配的分詞方法 基于統計的分詞方法基于統計的分詞方法 基于詞義分詞方法基于詞義分詞方法 1717Part 3按照一定的策略將待分析的漢字串與一個充分大的詞典中的詞條進行匹配,若在

4、詞典中找到某個字符串,則匹配成功概概 念念1818Part 3第一頁第一頁最后一頁最后一頁19正向最大匹配法正向最大匹配法反向最大匹配法反向最大匹配法 最短路徑分詞法最短路徑分詞法基于字符串匹配的分詞方法基于字符串匹配的分詞方法常用方法20正向最大匹配法正向最大匹配法中醫(yī)治白癜風中醫(yī) / 治 / 白癜風基于字符串匹配的分詞方法基于字符串匹配的分詞方法正向最大匹配法21反向最大匹配法反向最大匹配法中醫(yī)治白癜風中 / 醫(yī)治 / 白癜風基于字符串匹配的分詞方法基于字符串匹配的分詞方法反向最大匹配法22最短路徑分詞法最短路徑分詞法中醫(yī)治白癜風中醫(yī)/治白癜風基于字符串匹配的分詞方法基于字符串匹配的分詞方

5、法最短路徑分詞法23基于字符串匹配的分詞方法基于字符串匹配的分詞方法常用方法采用最短路徑分詞方法,因詞典中沒有“治白癜風”這個詞組,所以從用戶體驗考慮,調取了字典中意思相近、用戶搜索量大的詞“治療白癜風”、“治愈白癜風”注注24基于統計的分詞方法基于統計的分詞方法優(yōu)點優(yōu)點用于系統自動識別新詞用于系統自動識別新詞缺點缺點對常用詞的識別精度差對常用詞的識別精度差例如:例如:你的、我的你的、我的、許多的、最好的、之一、許多的、最好的、之一常用方法25概概 念念尚不成熟,試驗階段通過讓計算機模擬人對句子的理解,達到識別詞的效果基于理解的分詞方法基于理解的分詞方法常用方法2626Part 4【實例舉證】

6、27分詞技術分析分詞技術分析百度匹配結果:皮膚皮膚/ /醫(yī)院醫(yī)院28分詞技術分析分詞技術分析正向最大匹配:解小東/北京/華/煙云反向最大匹配:解/小/東北/京華煙云百度實際匹配結果:解小東/北/京華煙云解小東/北京29分詞技術分析分詞技術分析正向最大匹配:相同/仁/醫(yī)院/墻正向最大匹配:反向最大匹配:相/同仁/醫(yī)/院墻百度實際匹配結果:相/同仁醫(yī)院/墻30結 論分詞技術分析百度分詞采取了至少兩個詞典,一個是普通詞典,一個是專用詞典(人名、書名、地名、影視劇名等)。而且是專用詞典先切分,然后將剩余的片斷交由普通詞典來切分。古巴比倫常正向最大匹配:古巴比倫/常反向最大匹配:古巴/比/倫常百度輸出結

7、果:古巴比倫/常如果正向和反向結果不一致百度采取最短路徑方法31分詞技術分析分詞技術分析首先查詢專用詞典(人名,部分地名等),將專有名稱切出,剩下的部分采取雙向分詞策略,如果兩者切分結果相同,說明沒有歧義,直接輸出分詞結果。如果不一致,則輸出最短路徑的那個結果,如果最短路徑長度相同,則選擇單字選擇單字詞少的那一組詞少的那一組切分結果。如果單字也相同,則選擇正向分詞選擇正向分詞結果結果32分詞技術分析用專用詞典切出專有名詞剩下部分進行雙向分詞如果單字也相同取正向匹配結果如果最短路徑相同取單字詞少的那一組切分結果如果不同,取最短路徑結果如果相同,說明沒有歧義輸出結果3333Part 5【常見切詞效

8、果】3434應用舉證【常見切詞效果】白癜風 上海 白癜風 治療中心 治療 白癜風 最好的 醫(yī)院-上海武警總隊醫(yī)院A、白癜風B、上海白癜風C、上海白癜風治療D、上海白癜風治療中心E、治療白癜風最好的醫(yī)院F、上海治療白癜風最好的醫(yī)院G、上海白癜風治療醫(yī)院H、上海白癜風醫(yī)院3535上海皮膚病醫(yī)院_長寧區(qū)白癜風_閔行牛皮癬_皮膚科醫(yī)院 武夷路_閘北保德路 黃埔 徐匯 靜安 奉賢 寶山 嘉定 楊浦 虹口 松江 金山 普陀 浦東新區(qū) 青浦區(qū)最好的皮膚病??漆t(yī)院A、上海皮膚病醫(yī)院B、上海皮膚科醫(yī)院C、上海皮膚病醫(yī)院 武夷路D、上海皮膚病專科醫(yī)院E、上海皮膚病醫(yī)院 保德路F、長寧區(qū)白癜風醫(yī)院G、長寧區(qū)皮膚科醫(yī)

9、院H、.應用舉證【常見切詞效果】3636網頁的Title長度根據關鍵詞匹配的數量和熱度而定,好比一個頁面只做兩三個競爭度強的詞,那么Title就應該盡量控制在30字以內,因為關鍵詞拆分得越多,就意味著需要匹配得越多,而匹配的越多,對排名值的貢獻會減弱。而第二個例子中,之所以Title標題會高于70字,也是根據情況而定,因為70字中所匹配的關鍵詞除了第一個出現的完全匹配的關鍵詞“上海皮膚病醫(yī)院”詞以外,其他詞相對而言競爭度都非常小,所以切詞匹配后能排名的幾率仍然非常高為什么要完全匹配?應用舉證【常見切詞效果】3737網站首頁Title根據網站定位可以參考此類寫法,但文章內頁一般一篇文章只做1-2

10、個長尾詞,所以切不可將標題寫的和例2中一樣太過于冗長而影響用戶體驗,同時網站內頁也沒有如此高的權重能帶起那么多長尾詞的排名。文章內頁Title一般一句話能匹配出2個長尾詞就足夠了,常見的是一句話匹配一個詞注:應用舉證【常見切詞效果】3838注:臉上長白斑怎么辦小腿有白點搜索詞:應用舉證【常見切詞效果】39標題中的關鍵詞不一定非得完全匹配,但關鍵詞匯一定要在標題中有關聯的出現應用舉證40完全匹配包含主要關鍵詞“皮膚”、“過敏”的相關匹配同樣能展現應用舉證41主要關鍵詞要放在標題和描述的最前面,關鍵詞越靠前切詞時獲得的權重越高,排名越好應用舉證42通過梯形圖很容易看出,關鍵詞出現位置越靠前排名越好

11、應用舉證43關鍵詞出現的頻率同樣是排名的關鍵,關鍵詞出現密度高的網頁將會獲得好的排名應用舉證44A網站比B網站關鍵詞出現密度顯然要高,所以略占優(yōu)勢完全匹配AB提示:如果是在完全匹配的情況下,關鍵詞密度應該要嚴格控制。標題中關鍵詞精確匹配一次,短語匹配一次為佳,描述中關鍵詞精確匹配和短語匹配可以和標題一樣穿插使用出現1-3次。如果完全匹配的關鍵詞如果放到標題或內容的最后面,其排名未必見得會高于那些短語匹配出現密度高的關鍵詞的排名應用舉證45總總 結結為什么用戶搜索一個詞,搜索引擎會羅列出和他相關的結果?因為用戶搜索的詞或是詞中某個字符串和搜索引擎詞典中的某個字符串匹配成功,那么包含這些字符串的網頁將會被羅列出來為什么用戶搜索一個詞,搜索引擎會羅列出和他相關的結果?為什么用戶搜索一個詞,搜索引擎會羅列出和他相關的結果?46總總 結結為什么一再強調文章的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論