搜狗知識圖譜方案課件_第1頁
搜狗知識圖譜方案課件_第2頁
搜狗知識圖譜方案課件_第3頁
搜狗知識圖譜方案課件_第4頁
搜狗知識圖譜方案課件_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

搜狗搜索面向知識圖譜的搜索技術張坤面向知識圖譜的搜索技術張坤

網(wǎng)頁搜索的技術發(fā)展

自然語言文本表示普通網(wǎng)頁音頻圖片視頻索引自然語言查詢排序網(wǎng)頁結(jié)果檢索 網(wǎng)頁搜索的技術發(fā)展 自然語言文本表示普通音頻圖片視向量模型向量模型互聯(lián)網(wǎng)的圖分析:Anchor和Pagerank互聯(lián)網(wǎng)的圖分析:Anchor和Pagerank互聯(lián)網(wǎng)的商業(yè)價值和社會價值互聯(lián)網(wǎng)的商業(yè)價值和社會價值排序函數(shù)的構(gòu)造(LearningtoRank)排序函數(shù)的構(gòu)造(LearningtoRank)搜索結(jié)構(gòu)的變化自然語言文本表示普通網(wǎng)頁音頻圖片視頻索引自然語言查詢排序網(wǎng)頁結(jié)果檢索自然語言文本表示普通網(wǎng)頁音頻圖片視頻自然語言查詢豐富展現(xiàn)查詢翻譯結(jié)果翻譯推理預測統(tǒng)計推薦復雜查詢信息翻譯知識庫搜索結(jié)構(gòu)的變化自然語言文本表示普通音頻圖片視頻索引自然語言查半結(jié)構(gòu)化信息抽取半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù)實體對齊推理補充數(shù)據(jù)異構(gòu)數(shù)據(jù)整合重要度計算實體抽取屬性抽取屬性值決策關系建立知立方數(shù)據(jù)本體生成系統(tǒng)索引生成檢索系統(tǒng)實體識別本體庫Pattern挖掘標簽消岐SPARQL查詢語句排序推理推薦統(tǒng)計Query整體架構(gòu)圖展現(xiàn)檢索系統(tǒng)索引生成半結(jié)構(gòu)化信息抽取半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù)實體對齊推理補知立方數(shù)據(jù)庫構(gòu)建本體構(gòu)建各類型實體挖掘、屬性名稱挖掘編輯系統(tǒng)實例構(gòu)建純文本屬性、實體抽取半結(jié)構(gòu)化數(shù)據(jù)抽取異構(gòu)數(shù)據(jù)整合實體對齊、屬性值決策、關系建立實體重要度計算推理完善數(shù)據(jù)知立方數(shù)據(jù)庫構(gòu)建本體構(gòu)建國際上流行的知識庫Wolframalpha計算知識引擎,而不是搜索引擎10萬億條的信息

Freebase6800萬實體10億的關系DBpediaWikipedia結(jié)構(gòu)化364萬個條目(本體)Yago6.4億條數(shù)據(jù)國際上流行的知識庫Wolframalpha計算知識引擎,而本體建立——實體、屬性抽取半結(jié)構(gòu)化網(wǎng)頁屬性名計算和聚類屬性+屬性值(候選)實體+屬性查詢?nèi)罩緞⒌氯A年齡張學友年齡($人)年齡查詢?nèi)罩痉治霰倔w建立——實體、屬性抽取半結(jié)構(gòu)化網(wǎng)頁屬性名計算和聚類屬本體建立——本體編輯本體建立——本體編輯13信息抽取系統(tǒng)建立13信息抽取系統(tǒng)建立14信息抽取系統(tǒng)建立數(shù)據(jù)管理和自動抽樣系統(tǒng)網(wǎng)頁庫可視化UI系統(tǒng)模板庫模板監(jiān)控系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)抓取器14信息抽取系統(tǒng)建立數(shù)據(jù)管理和自動抽樣系統(tǒng)網(wǎng)頁庫可視化UI系文本挖掘步步驚心新西游記電視劇主題曲插曲片尾曲歌曲歌手文本挖掘步步驚心新西游記電視劇主題曲插曲片尾曲歌曲歌手不同數(shù)據(jù)源的整合不同數(shù)據(jù)源的整合實體對齊實例實體對齊實例對齊過程Step0Step1Step2Step3Step4bdceaabdecdeabcdeStep4Step3Step2Step1Step0agglomerative(AGNES)divisive(DIANA)對齊過程Step0Step1Step2Step3St屬性值決策與關系建立屬性值的決策:關系建立與補齊出生日期身高屬性值決策與關系建立屬性值的決策:出生日期身高實體的重要性實體搜索李娜實體名稱知立方實體庫按重要度排序0.90.80.70.61,初始化:根據(jù)實體的屬性及實體間關系初始化實體的重要度2,迭代:重要度在實體關系圖中傳遞Entity-rankvsrank實體的重要性實體搜索李娜實體名稱知立方實體庫按重要度排序0.推理補充數(shù)據(jù)與驗證從原始三元組數(shù)據(jù),推理生成新的數(shù)據(jù),建立更多的實體間的鏈接關系,增加知識圖的邊的密度,例如:<triple><entityid=“1”name=“莫言”></entity><property><![CDATA[作品]]></property><entityid=“2”name=“紅高粱家族”></entity></triple><triple><entityid=“3”name=“生死疲勞”></entity><property><![CDATA[作者]]></property><entityid=“1”name=“莫言”</entity></triple><triple><entityid=“4”name=“白棉花”></entity><property><![CDATA[作者]]></property><entityid=“1”name=“莫言”></entity></triple>???莫言的作品:

紅高粱家族生死疲勞白棉花推理作者=>作品人物關系配偶+男性=>丈夫,配偶+女性=>妻子;電影演員電影的主演=>演員出演了這部電影推理補充數(shù)據(jù)與驗證從原始三元組數(shù)據(jù),推理生成新的數(shù)據(jù),建立更半結(jié)構(gòu)化信息抽取半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù)實體對齊推理補充數(shù)據(jù)異構(gòu)數(shù)據(jù)整合重要度計算實體抽取屬性抽取屬性值決策關系建立知立方數(shù)據(jù)本體生成系統(tǒng)索引生成檢索系統(tǒng)實體識別本體庫Pattern挖掘標簽消岐SPARQL查詢語句排序推理推薦統(tǒng)計Query整體架構(gòu)圖展現(xiàn)檢索系統(tǒng)索引生成半結(jié)構(gòu)化信息抽取半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù)實體對齊推理補查詢語義理解用戶輸入查詢詞預處理語義分析查詢語句生成查詢糾錯分詞基于CFG的句法分析基于詞典和CRF的分詞和實體識別基于模式挖掘的屬性識別基于模版匹配的SPARQL生成基于需求重要度的SPARQL排序知識庫通用詞典屬性模式實體別名查詢語義理解用戶輸入查詢詞預處理語義分析查詢語句生成查詢糾錯基于規(guī)則的挖掘策略實體的識別和歸一網(wǎng)頁對齊百科Sogou點擊日志知識庫實體實體別名自然語言查詢基于字典的序列標注模型CRF實體標記實體歸一美國羅恩尼女搶匪美國<LOC>

羅恩尼<PERSON>女搶匪<MOVIE>美國<LOC>

喬阿吉姆·羅恩尼<PERSON>俠盜魅影<MOVIE>基于規(guī)則的挖掘策略實體的識別和歸一網(wǎng)頁對齊百科Sogou點擊屬性的模式挖掘互聯(lián)網(wǎng)問題答案庫知識庫打上標記后的問題答案屬性的表達模式去噪頻繁模式挖掘標記實體和屬性值1.無間道誰演的?劉德華2.誰是無間道的主演?劉德華3.讓子彈飛誰演的?葛優(yōu)無間道<E>主演<P>劉德華<V>讓子彈飛<E>主演<P>葛優(yōu)<V>主演的Pattern1.<MOVIE>誰演的2.誰是<MOVIE>的主演1.<MOVIE>誰演的?<PERSON>2.誰是<MOVIE>的主演?<PERSON>3.<MOVIE>誰演的?<PERSON>屬性的模式挖掘互聯(lián)網(wǎng)問題答案庫知識庫打上標記后的問題答案屬性基于CFG的句法分析基于CFG的句法分析實體推薦技術LDA實體推薦技術LDA實體過濾實體過濾搜狗知識圖譜方案ppt課件半結(jié)構(gòu)化信息抽取半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù)實體對齊推理補充數(shù)據(jù)異構(gòu)數(shù)據(jù)整合重要度計算實體抽取屬性抽取屬性值決策關系建立知立方數(shù)據(jù)本體生成系統(tǒng)索引生成檢索系統(tǒng)實體識別本體庫Pattern挖掘標簽消岐SPARQL查詢語句排序推理推薦統(tǒng)計Query整體架構(gòu)圖展現(xiàn)檢索系統(tǒng)索引生成半結(jié)構(gòu)化信息抽取半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù)實體對齊推理補后臺檢索系統(tǒng)SPARQL解析正排索引推理展現(xiàn)層倒排索引SPARQL支持按屬性篩選索引層檢索層計算層推薦預測統(tǒng)計排序本體知立方數(shù)據(jù)圖檢索系統(tǒng)后臺檢索系統(tǒng)SPARQL解析正排推理展現(xiàn)層倒排SPARQL支半結(jié)構(gòu)化信息抽取半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù)實體對齊推理補充數(shù)據(jù)異構(gòu)數(shù)據(jù)整合重要度計算實體抽取屬性抽取屬性值決策關系建立知立方數(shù)據(jù)本體生成系統(tǒng)索引生成檢索系統(tǒng)實體識別本體庫Pattern挖掘標簽消岐SPARQL查詢語句排序推理推薦統(tǒng)計Query整體架構(gòu)圖展現(xiàn)檢索系統(tǒng)索引生成半結(jié)構(gòu)化信息抽取半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù)實體對齊推理補知立方信息展現(xiàn)提供知識庫信息的展示載體將知識庫中的信息轉(zhuǎn)化為用戶可消費的內(nèi)容提供更加豐富的富文本信息提供文本之外的圖片、列表、動畫等更加豐富的展現(xiàn)形式提供更友好的用戶交互體驗更多的交互元素,如圖片瀏覽,點擊試聽等能夠引導用戶

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論