知識(shí)庫構(gòu)建與應(yīng)用PPT

上傳人：海*** IP屬地：江西上傳時(shí)間：2023-09-03 格式：PPT 頁數(shù)：42 大?。?.62MB 積分：14.9 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩37頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

徐源北京郵電大學(xué)知識(shí)庫構(gòu)建與應(yīng)用1

目錄語義信息抽取知識(shí)庫語義檢索海量數(shù)據(jù)處理22023/9/3語義信息抽取泛網(wǎng)資源與信息語義抽取內(nèi)容模式抽取層級(jí)構(gòu)建32023/9/3語義信息抽取——海量資源與信息泛在網(wǎng)為我們提供了無所不在的資源及信息。如何在海量信息中獲取我們需要的信息？如何快捷的獲??？機(jī)器理解？如何讓機(jī)器更好的理解？語義抽取42023/9/3語義信息抽取——語義抽取內(nèi)容實(shí)體抽取(Namedentityextraction)：人物、地點(diǎn)、機(jī)構(gòu)、疾病，等命名或?qū)Ｓ袑?shí)體。屬性抽取(Attributeextraction)：實(shí)體的自身屬性。關(guān)系挖掘(Relationmining)：實(shí)體之間的關(guān)系。事件挖掘(Eventmining)：由多個(gè)關(guān)系元組所構(gòu)成。52023/9/3語義信息抽取——實(shí)體抽取識(shí)別文本中出現(xiàn)的實(shí)體

MUC(1997):Person,Location,Organization,Date/Time/CurrencyACE(2005):100多種更具體的類型針對(duì)不同實(shí)體類型與領(lǐng)域考慮不同方法

封閉類(e.g.,geographicallocations,diseasenames,gene&proteinnames)：人工規(guī)則+詞典

語法相關(guān)(e.g.,phonenumbers,zipcodes)：正則表達(dá)式

語義相關(guān)(e.g.,personandcompanynames)：綜合考慮上下文,句法特征,詞典,啟發(fā)式規(guī)則等62023/9/3語義信息抽取——實(shí)體抽取人工規(guī)則方法

某些情況構(gòu)建簡(jiǎn)單:電話號(hào)碼、郵政編碼等。

調(diào)試和維護(hù)簡(jiǎn)單

拓展性問題機(jī)器學(xué)習(xí)方法

當(dāng)容易構(gòu)建大量訓(xùn)練數(shù)據(jù)時(shí)適合采用

能夠捕捉復(fù)雜的模板

主要方法：NaiveBayes；HiddenMarkovModels；MaximumEntropyMarkovModels；ConditionalRandomFields(CRF)72023/9/3語義信息抽取——屬性抽取屬性包括：屬性名屬性值

82023/9/3語義信息抽取——屬性抽取92023/9/3語義信息抽取——屬性抽取基于無結(jié)構(gòu)化

與前面方法類似

模板改變:AofI—>AofIisV;VisAofI

種子改變:(China,capital)—>(China,capital,Beijing)基于WikipediaInfobox基于HTML表格102023/9/3語義信息抽取——關(guān)系抽取ACE（AutomaticContentExtraction）會(huì)議將關(guān)系抽取任務(wù)表述為：探測(cè)和識(shí)別文檔中特定類型的關(guān)系，并對(duì)這些抽取出的關(guān)系進(jìn)行規(guī)范化表示。一個(gè)比較完整的關(guān)系抽取系統(tǒng)應(yīng)包括依次相連的5個(gè)模塊：NLP處理和實(shí)體抽取、模式匹配或分類、共指消解、新關(guān)系處理以及規(guī)范化輸出。關(guān)系抽取的困難可以歸納為3個(gè)方面：

特定領(lǐng)域標(biāo)引數(shù)據(jù)集的獲取

模式的獲取

共指消解112023/9/3語義信息抽取——關(guān)系抽取基于模式匹配的關(guān)系抽取

先構(gòu)造出若干基于語詞、基于詞性或基于語義的模式集合并存儲(chǔ)起來。當(dāng)進(jìn)行關(guān)系抽取時(shí),將經(jīng)過預(yù)處理的語句片段與模式集合中的模式進(jìn)行匹配。一旦匹配成功,就可以認(rèn)為該語句片段具有對(duì)應(yīng)模式的關(guān)系屬性。基于詞典驅(qū)動(dòng)的關(guān)系抽取

基于詞典驅(qū)動(dòng)的關(guān)系抽取方法非常靈活，新的關(guān)系類型能夠僅僅通過向詞典添加對(duì)應(yīng)的動(dòng)詞入口而被抽取。但只能識(shí)別以動(dòng)詞為中心詞的關(guān)系?；跈C(jī)器學(xué)習(xí)的關(guān)系抽取

將關(guān)系抽取看作是一個(gè)分類問題。在人工標(biāo)引語料的基礎(chǔ)上構(gòu)造分類器，然后將其應(yīng)用在領(lǐng)域語料關(guān)系的類別判斷過程中。目前使用比較多的學(xué)習(xí)算法有MBL算法和SVM算法。混合抽取方法

基于詞匯：“<company>

located

<location>”

基于句法結(jié)構(gòu)：“((Obj<company>)(Verblocated)(*)(Subj<location>))”機(jī)器學(xué)習(xí)方法

有監(jiān)督學(xué)習(xí)：基于人工標(biāo)注數(shù)據(jù)訓(xùn)練模型（SVM,MaxEnt,KNN等）

1.基于特征的方法2.核方法：核函數(shù)Kernel(x,y)定義對(duì)象x與y之間的相似度,則可直接使用核函數(shù)代替上述公式中基于顯式特征的點(diǎn)積運(yùn)算

半監(jiān)督學(xué)習(xí)：基于自舉方法從種子樣例中訓(xùn)練模型

自舉方法(Bootstrapping)輪流發(fā)現(xiàn)實(shí)體關(guān)系對(duì)與抽取模板。

無監(jiān)督學(xué)習(xí)：自動(dòng)發(fā)現(xiàn)主要的關(guān)系與相應(yīng)的對(duì)象

基于對(duì)象對(duì)與關(guān)系上下文的對(duì)偶性

利用聚類算法

122023/9/3語義信息抽取——事件抽取事件由事件觸發(fā)詞和描述事件結(jié)構(gòu)的元素構(gòu)成，通常需要共指消解，消岐，去重，推理。事件抽取由兩個(gè)步驟組成：事件類別識(shí)別：事件模板由事件的類別決定。ACE2005定義了8種事件類別以及33種子類別。事件元素識(shí)別：事件元素是指事件的參與者。根據(jù)所屬的事件模板抽取相應(yīng)的元素，并為其標(biāo)上正確的元素標(biāo)簽。

132023/9/3語義信息抽取——事件抽取事件抽取主要有兩種方法：模式匹配和機(jī)器學(xué)習(xí)的方法。

模式匹配的方法對(duì)某類事件的識(shí)別和抽取是在一些模式的指導(dǎo)下進(jìn)行的，采用各種模式匹配算法將待抽取的句子和已經(jīng)抽出的模板匹配。

機(jī)器學(xué)習(xí)的方法把事件抽取任務(wù)看作分類問題，把主要的精力放在分類器的構(gòu)建和特征的發(fā)現(xiàn)、選擇上。142023/9/3語義信息抽取——模式抽取一階共現(xiàn)：模版（PB）Hoursmayvaryonholidays,suchasEaster,ThanksgivingandChristmas.Pattern:(suchas|including)T{,T}*(and|,|.){Easter,Thanksgiving,Christmas}二階共現(xiàn)：分布式相似性（DS）

前提是假設(shè)：出現(xiàn)在相似上下文(詞語、句法)中的詞語比較相似。定義上下文（句法上下文,詞語上下文...）將每個(gè)短語表示為一個(gè)特征向量（特征:短語出現(xiàn)的一個(gè)上下文

；特征值:上下文針對(duì)短語的權(quán)重）計(jì)算短語相似性（特征向量之間的相似性：Cosine,Jaccard）

152023/9/3語義信息抽取——語義層級(jí)構(gòu)建為短語(term)賦予類標(biāo)簽或上位詞(label)

Beijing－》city，capital…；Apple－》company，fruit…

方法:Patternmatching+counting

為語義類(semanticclass)賦予類標(biāo)簽(label){Beijing,

Shanghai,

Dalian...}－》cities,Chinesecities...

方法:投票(Voting)

構(gòu)建層級(jí)

162023/9/3知識(shí)庫典型知識(shí)庫構(gòu)建方式應(yīng)用172023/9/3知識(shí)庫——典型知識(shí)庫人工構(gòu)建的知識(shí)庫WordNet:專家構(gòu)建、英語Wikipedia:社區(qū)網(wǎng)民構(gòu)建,實(shí)體/屬性自動(dòng)抽取得到的知識(shí)庫YAGO:Wikipedia+WordNet,自動(dòng)構(gòu)建,準(zhǔn)確率高DBpedia:Wikipedia+社區(qū)網(wǎng)民創(chuàng)建的映射規(guī)則,召回率高Freebase:Wikipedia+其他數(shù)據(jù)庫+用戶編輯

182023/9/3知識(shí)庫——構(gòu)建方式Y(jié)AGO自動(dòng)構(gòu)建方式1.利用WordNet和Wikipedia（Infobox和Categories）抽取相關(guān)知識(shí)，再合并構(gòu)成聯(lián)通本體。2.一致性檢查：包括實(shí)體的唯一性；關(guān)系領(lǐng)域與范圍；類型的一致性。http://www.mpi-inf.mpg.de/yago-naga/yago/

192023/9/3知識(shí)庫——構(gòu)建方式Dbpedia自動(dòng)構(gòu)建方式1.人工構(gòu)建分類體系ontology：259classes,6levels,1200properties。2.映射規(guī)則：將Wikipediainfoboxesandtables映射到其自有的ontology，人工映射規(guī)則。

202023/9/3知識(shí)庫——構(gòu)建方式Freebase自動(dòng)構(gòu)建方式1.從Wikipedia，ChefMoz，NNDB和MusicBrainz等多個(gè)數(shù)據(jù)源導(dǎo)入數(shù)據(jù)。2.用戶可貢獻(xiàn)數(shù)據(jù)。Totaltriples:1.9billion/freebase/data

212023/9/3知識(shí)庫——應(yīng)用自動(dòng)問答系統(tǒng)語義相似性計(jì)算

情感傾向Web數(shù)據(jù)標(biāo)注地圖標(biāo)注側(cè)面搜索……

222023/9/3語義檢索語義解析語義計(jì)算文本推理文本復(fù)述232023/9/3語義檢索——語義解析（詞法分析）詞法分析（英語：lexicalanalysis）是計(jì)算機(jī)科學(xué)中將字符序列轉(zhuǎn)換為單詞（Token）序列的過程。如下所示242023/9/3句法分析—語義解析（短語結(jié)構(gòu)分析）短語結(jié)構(gòu)指的是詞法分析之后詞和詞之間的結(jié)構(gòu)關(guān)系，包括并列，動(dòng)賓等等。如下所示252023/9/3句法分析—語義解析（依存關(guān)系分析）依存語法通過分析語言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu)，主張句子中核心動(dòng)詞是支配其它成分的中心成分，而它本身卻不受其它任何成分的支配，所有受支配成分都以某種依存關(guān)系從屬于支配者。如下所示262023/9/3句法分析—語義解析（語義角色標(biāo)注）語義角色標(biāo)注是指在語法分析的基礎(chǔ)上，對(duì)句子中各種詞語進(jìn)行更深一層的角色分析。如下所示272023/9/3語義計(jì)算詞匯語義計(jì)算是語義計(jì)算的基礎(chǔ)，也是關(guān)鍵技術(shù)點(diǎn)詞匯級(jí)語義計(jì)算詞匯語義相關(guān)度詞義消歧句子與篇章級(jí)語義計(jì)算語義角色標(biāo)注篇章分析代指分析其他語義計(jì)算情感分析文本推理與復(fù)述語義抽取語義計(jì)算應(yīng)用問答系統(tǒng)知識(shí)檢索282023/9/3語義計(jì)算—詞匯語義計(jì)算詞語相似度的計(jì)算主要分兩類：（1）基于語義詞典的方法，如wordnet、知網(wǎng)等（2）基于語料統(tǒng)計(jì)的方法292023/9/3語義計(jì)算—基于語義詞典的詞匯語義詞典一般由多個(gè)同義詞集合組成，每個(gè)集合里面是表示相同詞義的詞的集合。每個(gè)詞條包括多個(gè)同義詞集合，同義詞集合通過不同的詞義關(guān)系相連。使用同義集合代表概念，詞匯關(guān)系在詞語之間體現(xiàn)，語義關(guān)系在概念之間體現(xiàn)?；谡Z義詞典的詞匯語義計(jì)算方法很多，如下介紹幾種典型的：（1）WuAndPalmer算法通過與概念詞最近的公共父結(jié)點(diǎn)概念詞的位置關(guān)系來計(jì)算其相似度；（2）LeacockAnd-Chodorow算法則是將兩概念間的路徑長度轉(zhuǎn)化為信息量來進(jìn)行相似度計(jì)算；（3）在基于信息內(nèi)容的算法上,Resnik提出了直接利用公共父結(jié)點(diǎn)概念詞的信息內(nèi)容來計(jì)算概念詞之間的相似度的算法。302023/9/3語義計(jì)算—基于語義詞典語義詞典方法的缺點(diǎn)：（1）對(duì)于很多語言并沒有好用的語義詞典（2）有些詞不被語義詞典包含，例如實(shí)體、新詞等（3）大部分方法依賴于上下位層次關(guān)系：這限于名詞，對(duì)于形容詞和動(dòng)詞并不完善312023/9/3語義計(jì)算—基于語料統(tǒng)計(jì)上下文共現(xiàn)向量方法潛在語義分析LSA（LatentSemanticAnalysis）詞向量322023/9/3語義計(jì)算—上下文共現(xiàn)向量方法構(gòu)建上下文向量，每個(gè)詞為一個(gè)1xV(V為所有詞總數(shù))的向量，記錄其他詞是否與該詞一起出現(xiàn)基于向量距離/相似度公式（典型的胃余弦距離）進(jìn)行計(jì)算兩個(gè)詞的相似度332023/9/3語義計(jì)算—潛在語義分析LSA構(gòu)建詞和文檔的矩陣A給詞賦予權(quán)重，例如TF-IDF權(quán)重對(duì)矩陣進(jìn)行SVD（SingularValueDecomposition）分解留下奇異值不為0對(duì)應(yīng)的k行和k列矩陣U中的每一行表示相應(yīng)詞語與隱含語義空間中語義維度之間的關(guān)聯(lián)342023/9/3語義計(jì)算—詞向量詞向量是用來將語言中的詞用數(shù)學(xué)方式表示成一個(gè)向量的形式，一種最簡(jiǎn)單的詞向量方式是one-hotrepresentation，就是用一個(gè)很長的向量來表示一個(gè)詞，向量的長度為詞典的大小，向量的分量只有一個(gè)1，其他全為0，1的位置對(duì)應(yīng)該詞在詞典中的位置。但這種詞表示有兩個(gè)缺點(diǎn)：（1）容易受維數(shù)災(zāi)難的困擾，尤其是將其用于DeepLearning的一些算法時(shí)；（2）不能很好地刻畫詞與詞之間的相似性（術(shù)語好像叫做“詞匯鴻溝”）。針對(duì)這種情況，Hinton于1986年提出DistributedRepresentation，之后對(duì)詞向量的研究成為學(xué)術(shù)界的熱點(diǎn)，尤其是在2000年之后，提出了多種詞向量訓(xùn)練模型。352023/9/3語義計(jì)算—詞向量解釋模型中的隱層有多少個(gè)節(jié)點(diǎn)，詞向量就是多少維，隱層中的每一個(gè)節(jié)點(diǎn)相當(dāng)于一個(gè)語義，從輸入層到隱層的映射，相當(dāng)于將一個(gè)詞映射到不同的語義維度上。語義越相近的詞，向量相似度越高。語料庫越大，訓(xùn)練出來的詞向量越準(zhǔn)確。362023/9/3語義計(jì)算—文本推理從自然語言表示角度，在詞法層，句法層，語義層，將文本依次看成字符串形式，成分結(jié)構(gòu)或依存關(guān)系和語義表達(dá)/邏輯表達(dá)式。在基于各個(gè)表達(dá)層級(jí)選擇推理邏輯方法。文本推理的難點(diǎn)：需要大量背景知識(shí)的支持句式結(jié)構(gòu)、語義表達(dá)的多樣化需要構(gòu)建使用完整的推理規(guī)則372023/9/3語義計(jì)算—文本復(fù)述根據(jù)在知識(shí)庫索引中找到的信息，進(jìn)行文本組織復(fù)述，反饋給查詢者復(fù)述生成方法：基于規(guī)則的方法基于詞典的方法基于自然語言生成的方法基于機(jī)器翻譯的方法382023/9/3海量數(shù)據(jù)處理Nesper392023/9/3Nesper——NEsper概念背景：針對(duì)實(shí)時(shí)信息的高并發(fā)性和高吞吐量的需求而設(shè)計(jì)Esper是用于CEP

人人文庫> 全部分類> 應(yīng)用文書 > 年終總結(jié)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

知識(shí)庫構(gòu)建與應(yīng)用PPT

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

知識(shí)庫構(gòu)建與應(yīng)用PPT

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔