版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
徐源北京郵電大學(xué)知識(shí)庫(kù)構(gòu)建與應(yīng)用1
目錄語(yǔ)義信息抽取知識(shí)庫(kù)語(yǔ)義檢索海量數(shù)據(jù)處理22023/9/3語(yǔ)義信息抽取泛網(wǎng)資源與信息語(yǔ)義抽取內(nèi)容模式抽取層級(jí)構(gòu)建32023/9/3語(yǔ)義信息抽取——海量資源與信息泛在網(wǎng)為我們提供了無(wú)所不在的資源及信息。如何在海量信息中獲取我們需要的信息?如何快捷的獲取?機(jī)器理解?如何讓機(jī)器更好的理解?語(yǔ)義抽取42023/9/3語(yǔ)義信息抽取——語(yǔ)義抽取內(nèi)容實(shí)體抽取(Namedentityextraction):人物、地點(diǎn)、機(jī)構(gòu)、疾病,等命名或?qū)S袑?shí)體。屬性抽取(Attributeextraction):實(shí)體的自身屬性。關(guān)系挖掘(Relationmining):實(shí)體之間的關(guān)系。事件挖掘(Eventmining):由多個(gè)關(guān)系元組所構(gòu)成。52023/9/3語(yǔ)義信息抽取——實(shí)體抽取識(shí)別文本中出現(xiàn)的實(shí)體
MUC(1997):Person,Location,Organization,Date/Time/CurrencyACE(2005):100多種更具體的類型針對(duì)不同實(shí)體類型與領(lǐng)域考慮不同方法
封閉類(e.g.,geographicallocations,diseasenames,gene&proteinnames):人工規(guī)則+詞典
語(yǔ)法相關(guān)(e.g.,phonenumbers,zipcodes):正則表達(dá)式
語(yǔ)義相關(guān)(e.g.,personandcompanynames):綜合考慮上下文,句法特征,詞典,啟發(fā)式規(guī)則等62023/9/3語(yǔ)義信息抽取——實(shí)體抽取人工規(guī)則方法
某些情況構(gòu)建簡(jiǎn)單:電話號(hào)碼、郵政編碼等。
調(diào)試和維護(hù)簡(jiǎn)單
拓展性問(wèn)題機(jī)器學(xué)習(xí)方法
當(dāng)容易構(gòu)建大量訓(xùn)練數(shù)據(jù)時(shí)適合采用
能夠捕捉復(fù)雜的模板
主要方法:NaiveBayes;HiddenMarkovModels;MaximumEntropyMarkovModels;ConditionalRandomFields(CRF)72023/9/3語(yǔ)義信息抽取——屬性抽取屬性包括:屬性名屬性值
82023/9/3語(yǔ)義信息抽取——屬性抽取92023/9/3語(yǔ)義信息抽取——屬性抽取基于無(wú)結(jié)構(gòu)化
與前面方法類似
模板改變:AofI—>AofIisV;VisAofI
種子改變:(China,capital)—>(China,capital,Beijing)基于WikipediaInfobox基于HTML表格102023/9/3語(yǔ)義信息抽取——關(guān)系抽取ACE(AutomaticContentExtraction)會(huì)議將關(guān)系抽取任務(wù)表述為:探測(cè)和識(shí)別文檔中特定類型的關(guān)系,并對(duì)這些抽取出的關(guān)系進(jìn)行規(guī)范化表示。一個(gè)比較完整的關(guān)系抽取系統(tǒng)應(yīng)包括依次相連的5個(gè)模塊:NLP處理和實(shí)體抽取、模式匹配或分類、共指消解、新關(guān)系處理以及規(guī)范化輸出。關(guān)系抽取的困難可以歸納為3個(gè)方面:
特定領(lǐng)域標(biāo)引數(shù)據(jù)集的獲取
模式的獲取
共指消解112023/9/3語(yǔ)義信息抽取——關(guān)系抽取基于模式匹配的關(guān)系抽取
先構(gòu)造出若干基于語(yǔ)詞、基于詞性或基于語(yǔ)義的模式集合并存儲(chǔ)起來(lái)。當(dāng)進(jìn)行關(guān)系抽取時(shí),將經(jīng)過(guò)預(yù)處理的語(yǔ)句片段與模式集合中的模式進(jìn)行匹配。一旦匹配成功,就可以認(rèn)為該語(yǔ)句片段具有對(duì)應(yīng)模式的關(guān)系屬性?;谠~典驅(qū)動(dòng)的關(guān)系抽取
基于詞典驅(qū)動(dòng)的關(guān)系抽取方法非常靈活,新的關(guān)系類型能夠僅僅通過(guò)向詞典添加對(duì)應(yīng)的動(dòng)詞入口而被抽取。但只能識(shí)別以動(dòng)詞為中心詞的關(guān)系?;跈C(jī)器學(xué)習(xí)的關(guān)系抽取
將關(guān)系抽取看作是一個(gè)分類問(wèn)題。在人工標(biāo)引語(yǔ)料的基礎(chǔ)上構(gòu)造分類器,然后將其應(yīng)用在領(lǐng)域語(yǔ)料關(guān)系的類別判斷過(guò)程中。目前使用比較多的學(xué)習(xí)算法有MBL算法和SVM算法。混合抽取方法
基于詞匯:“<company>
located
in
<location>”
基于句法結(jié)構(gòu):“((Obj<company>)(Verblocated)(*)(Subj<location>))”機(jī)器學(xué)習(xí)方法
有監(jiān)督學(xué)習(xí):基于人工標(biāo)注數(shù)據(jù)訓(xùn)練模型(SVM,MaxEnt,KNN等)
1.基于特征的方法2.核方法:核函數(shù)Kernel(x,y)定義對(duì)象x與y之間的相似度,則可直接使用核函數(shù)代替上述公式中基于顯式特征的點(diǎn)積運(yùn)算
半監(jiān)督學(xué)習(xí):基于自舉方法從種子樣例中訓(xùn)練模型
自舉方法(Bootstrapping)輪流發(fā)現(xiàn)實(shí)體關(guān)系對(duì)與抽取模板。
無(wú)監(jiān)督學(xué)習(xí):自動(dòng)發(fā)現(xiàn)主要的關(guān)系與相應(yīng)的對(duì)象
基于對(duì)象對(duì)與關(guān)系上下文的對(duì)偶性
利用聚類算法
122023/9/3語(yǔ)義信息抽取——事件抽取事件由事件觸發(fā)詞和描述事件結(jié)構(gòu)的元素構(gòu)成,通常需要共指消解,消岐,去重,推理。事件抽取由兩個(gè)步驟組成:事件類別識(shí)別:事件模板由事件的類別決定。ACE2005定義了8種事件類別以及33種子類別。事件元素識(shí)別:事件元素是指事件的參與者。根據(jù)所屬的事件模板抽取相應(yīng)的元素,并為其標(biāo)上正確的元素標(biāo)簽。
132023/9/3語(yǔ)義信息抽取——事件抽取事件抽取主要有兩種方法:模式匹配和機(jī)器學(xué)習(xí)的方法。
模式匹配的方法對(duì)某類事件的識(shí)別和抽取是在一些模式的指導(dǎo)下進(jìn)行的,采用各種模式匹配算法將待抽取的句子和已經(jīng)抽出的模板匹配。
機(jī)器學(xué)習(xí)的方法把事件抽取任務(wù)看作分類問(wèn)題,把主要的精力放在分類器的構(gòu)建和特征的發(fā)現(xiàn)、選擇上。142023/9/3語(yǔ)義信息抽取——模式抽取一階共現(xiàn):模版(PB)Hoursmayvaryonholidays,suchasEaster,ThanksgivingandChristmas.Pattern:(suchas|including)T{,T}*(and|,|.){Easter,Thanksgiving,Christmas}二階共現(xiàn):分布式相似性(DS)
前提是假設(shè):出現(xiàn)在相似上下文(詞語(yǔ)、句法)中的詞語(yǔ)比較相似。定義上下文(句法上下文,詞語(yǔ)上下文...)將每個(gè)短語(yǔ)表示為一個(gè)特征向量(特征:短語(yǔ)出現(xiàn)的一個(gè)上下文
;特征值:上下文針對(duì)短語(yǔ)的權(quán)重)計(jì)算短語(yǔ)相似性(特征向量之間的相似性:Cosine,Jaccard)
152023/9/3語(yǔ)義信息抽取——語(yǔ)義層級(jí)構(gòu)建為短語(yǔ)(term)賦予類標(biāo)簽或上位詞(label)
Beijing-》city,capital…;Apple-》company,fruit…
方法:Patternmatching+counting
為語(yǔ)義類(semanticclass)賦予類標(biāo)簽(label){Beijing,
Shanghai,
Dalian...}-》cities,Chinesecities...
方法:投票(Voting)
構(gòu)建層級(jí)
162023/9/3知識(shí)庫(kù)典型知識(shí)庫(kù)構(gòu)建方式應(yīng)用172023/9/3知識(shí)庫(kù)——典型知識(shí)庫(kù)人工構(gòu)建的知識(shí)庫(kù)WordNet:專家構(gòu)建、英語(yǔ)Wikipedia:社區(qū)網(wǎng)民構(gòu)建,實(shí)體/屬性自動(dòng)抽取得到的知識(shí)庫(kù)YAGO:Wikipedia+WordNet,自動(dòng)構(gòu)建,準(zhǔn)確率高DBpedia:Wikipedia+社區(qū)網(wǎng)民創(chuàng)建的映射規(guī)則,召回率高Freebase:Wikipedia+其他數(shù)據(jù)庫(kù)+用戶編輯
182023/9/3知識(shí)庫(kù)——構(gòu)建方式Y(jié)AGO自動(dòng)構(gòu)建方式1.利用WordNet和Wikipedia(Infobox和Categories)抽取相關(guān)知識(shí),再合并構(gòu)成聯(lián)通本體。2.一致性檢查:包括實(shí)體的唯一性;關(guān)系領(lǐng)域與范圍;類型的一致性。http://www.mpi-inf.mpg.de/yago-naga/yago/
192023/9/3知識(shí)庫(kù)——構(gòu)建方式Dbpedia自動(dòng)構(gòu)建方式1.人工構(gòu)建分類體系ontology:259classes,6levels,1200properties。2.映射規(guī)則:將Wikipediainfoboxesandtables映射到其自有的ontology,人工映射規(guī)則。
202023/9/3知識(shí)庫(kù)——構(gòu)建方式Freebase自動(dòng)構(gòu)建方式1.從Wikipedia,ChefMoz,NNDB和MusicBrainz等多個(gè)數(shù)據(jù)源導(dǎo)入數(shù)據(jù)。2.用戶可貢獻(xiàn)數(shù)據(jù)。Totaltriples:1.9billion/freebase/data
212023/9/3知識(shí)庫(kù)——應(yīng)用自動(dòng)問(wèn)答系統(tǒng)語(yǔ)義相似性計(jì)算
情感傾向Web數(shù)據(jù)標(biāo)注地圖標(biāo)注側(cè)面搜索……
222023/9/3語(yǔ)義檢索語(yǔ)義解析語(yǔ)義計(jì)算文本推理文本復(fù)述232023/9/3語(yǔ)義檢索——語(yǔ)義解析(詞法分析)詞法分析(英語(yǔ):lexicalanalysis)是計(jì)算機(jī)科學(xué)中將字符序列轉(zhuǎn)換為單詞(Token)序列的過(guò)程。如下所示242023/9/3句法分析—語(yǔ)義解析(短語(yǔ)結(jié)構(gòu)分析)短語(yǔ)結(jié)構(gòu)指的是詞法分析之后詞和詞之間的結(jié)構(gòu)關(guān)系,包括并列,動(dòng)賓等等。如下所示252023/9/3句法分析—語(yǔ)義解析(依存關(guān)系分析)依存語(yǔ)法通過(guò)分析語(yǔ)言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu),主張句子中核心動(dòng)詞是支配其它成分的中心成分,而它本身卻不受其它任何成分的支配,所有受支配成分都以某種依存關(guān)系從屬于支配者。如下所示262023/9/3句法分析—語(yǔ)義解析(語(yǔ)義角色標(biāo)注)語(yǔ)義角色標(biāo)注是指在語(yǔ)法分析的基礎(chǔ)上,對(duì)句子中各種詞語(yǔ)進(jìn)行更深一層的角色分析。如下所示272023/9/3語(yǔ)義計(jì)算詞匯語(yǔ)義計(jì)算是語(yǔ)義計(jì)算的基礎(chǔ),也是關(guān)鍵技術(shù)點(diǎn)詞匯級(jí)語(yǔ)義計(jì)算詞匯語(yǔ)義相關(guān)度詞義消歧句子與篇章級(jí)語(yǔ)義計(jì)算語(yǔ)義角色標(biāo)注篇章分析代指分析其他語(yǔ)義計(jì)算情感分析文本推理與復(fù)述語(yǔ)義抽取語(yǔ)義計(jì)算應(yīng)用問(wèn)答系統(tǒng)知識(shí)檢索282023/9/3語(yǔ)義計(jì)算—詞匯語(yǔ)義計(jì)算詞語(yǔ)相似度的計(jì)算主要分兩類:(1)基于語(yǔ)義詞典的方法,如wordnet、知網(wǎng)等(2)基于語(yǔ)料統(tǒng)計(jì)的方法292023/9/3語(yǔ)義計(jì)算—基于語(yǔ)義詞典的詞匯語(yǔ)義詞典一般由多個(gè)同義詞集合組成,每個(gè)集合里面是表示相同詞義的詞的集合。每個(gè)詞條包括多個(gè)同義詞集合,同義詞集合通過(guò)不同的詞義關(guān)系相連。使用同義集合代表概念,詞匯關(guān)系在詞語(yǔ)之間體現(xiàn),語(yǔ)義關(guān)系在概念之間體現(xiàn)?;谡Z(yǔ)義詞典的詞匯語(yǔ)義計(jì)算方法很多,如下介紹幾種典型的:(1)WuAndPalmer算法通過(guò)與概念詞最近的公共父結(jié)點(diǎn)概念詞的位置關(guān)系來(lái)計(jì)算其相似度;(2)LeacockAnd-Chodorow算法則是將兩概念間的路徑長(zhǎng)度轉(zhuǎn)化為信息量來(lái)進(jìn)行相似度計(jì)算;(3)在基于信息內(nèi)容的算法上,Resnik提出了直接利用公共父結(jié)點(diǎn)概念詞的信息內(nèi)容來(lái)計(jì)算概念詞之間的相似度的算法。302023/9/3語(yǔ)義計(jì)算—基于語(yǔ)義詞典語(yǔ)義詞典方法的缺點(diǎn):(1)對(duì)于很多語(yǔ)言并沒(méi)有好用的語(yǔ)義詞典(2)有些詞不被語(yǔ)義詞典包含,例如實(shí)體、新詞等(3)大部分方法依賴于上下位層次關(guān)系:這限于名詞,對(duì)于形容詞和動(dòng)詞并不完善312023/9/3語(yǔ)義計(jì)算—基于語(yǔ)料統(tǒng)計(jì)上下文共現(xiàn)向量方法潛在語(yǔ)義分析LSA(LatentSemanticAnalysis)詞向量322023/9/3語(yǔ)義計(jì)算—上下文共現(xiàn)向量方法構(gòu)建上下文向量,每個(gè)詞為一個(gè)1xV(V為所有詞總數(shù))的向量,記錄其他詞是否與該詞一起出現(xiàn)基于向量距離/相似度公式(典型的胃余弦距離)進(jìn)行計(jì)算兩個(gè)詞的相似度332023/9/3語(yǔ)義計(jì)算—潛在語(yǔ)義分析LSA構(gòu)建詞和文檔的矩陣A給詞賦予權(quán)重,例如TF-IDF權(quán)重對(duì)矩陣進(jìn)行SVD(SingularValueDecomposition)分解留下奇異值不為0對(duì)應(yīng)的k行和k列矩陣U中的每一行表示相應(yīng)詞語(yǔ)與隱含語(yǔ)義空間中語(yǔ)義維度之間的關(guān)聯(lián)342023/9/3語(yǔ)義計(jì)算—詞向量詞向量是用來(lái)將語(yǔ)言中的詞用數(shù)學(xué)方式表示成一個(gè)向量的形式,一種最簡(jiǎn)單的詞向量方式是one-hotrepresentation,就是用一個(gè)很長(zhǎng)的向量來(lái)表示一個(gè)詞,向量的長(zhǎng)度為詞典的大小,向量的分量只有一個(gè)1,其他全為0,1的位置對(duì)應(yīng)該詞在詞典中的位置。但這種詞表示有兩個(gè)缺點(diǎn):(1)容易受維數(shù)災(zāi)難的困擾,尤其是將其用于DeepLearning的一些算法時(shí);(2)不能很好地刻畫詞與詞之間的相似性(術(shù)語(yǔ)好像叫做“詞匯鴻溝”)。針對(duì)這種情況,Hinton于1986年提出DistributedRepresentation,之后對(duì)詞向量的研究成為學(xué)術(shù)界的熱點(diǎn),尤其是在2000年之后,提出了多種詞向量訓(xùn)練模型。352023/9/3語(yǔ)義計(jì)算—詞向量解釋模型中的隱層有多少個(gè)節(jié)點(diǎn),詞向量就是多少維,隱層中的每一個(gè)節(jié)點(diǎn)相當(dāng)于一個(gè)語(yǔ)義,從輸入層到隱層的映射,相當(dāng)于將一個(gè)詞映射到不同的語(yǔ)義維度上。語(yǔ)義越相近的詞,向量相似度越高。語(yǔ)料庫(kù)越大,訓(xùn)練出來(lái)的詞向量越準(zhǔn)確。362023/9/3語(yǔ)義計(jì)算—文本推理從自然語(yǔ)言表示角度,在詞法層,句法層,語(yǔ)義層,將文本依次看成字符串形式,成分結(jié)構(gòu)或依存關(guān)系和語(yǔ)義表達(dá)/邏輯表達(dá)式。在基于各個(gè)表達(dá)層級(jí)選擇推理邏輯方法。文本推理的難點(diǎn):需要大量背景知識(shí)的支持句式結(jié)構(gòu)、語(yǔ)義表達(dá)的多樣化需要構(gòu)建使用完整的推理規(guī)則372023/9/3語(yǔ)義計(jì)算—文本復(fù)述根據(jù)在知識(shí)庫(kù)索引中找到的信息,進(jìn)行文本組織復(fù)述,反饋給查詢者復(fù)述生成方法:基于規(guī)則的方法基于詞典的方法基于自然語(yǔ)言生成的方法基于機(jī)器翻譯的方法382023/9/3海量數(shù)據(jù)處理Nesper392023/9/3Nesper——NEsper概念背景:針對(duì)實(shí)時(shí)信息的高并發(fā)性和高吞吐量的需求而設(shè)計(jì)Esper是用于CEP
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 課程設(shè)計(jì)打印好了有錯(cuò)字
- 中國(guó)網(wǎng)絡(luò)安全行業(yè)發(fā)展趨勢(shì)與前景動(dòng)態(tài)預(yù)測(cè)研究報(bào)告(2024-2030版)
- 中國(guó)紅土鎳礦行業(yè)消費(fèi)趨勢(shì)及投資發(fā)展?jié)摿ρ芯繄?bào)告(2024-2030版)
- 中國(guó)等離子彩電行業(yè)發(fā)展方向與經(jīng)營(yíng)策略研究研究報(bào)告(2024-2030版)
- 中國(guó)皮革潤(rùn)滑加脂材料行業(yè)消費(fèi)態(tài)勢(shì)與供需趨勢(shì)預(yù)測(cè)研究報(bào)告(2024-2030版)
- 中國(guó)電氣行業(yè)發(fā)展格局及未來(lái)趨勢(shì)預(yù)測(cè)研究報(bào)告(2024-2030版)
- 中國(guó)玫瑰精油行業(yè)需求規(guī)模及消費(fèi)趨勢(shì)預(yù)測(cè)研究報(bào)告(2024-2030版)
- 中國(guó)煤球機(jī)器行業(yè)市場(chǎng)現(xiàn)狀分析及競(jìng)爭(zhēng)格局與投資發(fā)展研究報(bào)告(2024-2030版)
- 電子技術(shù)課課程設(shè)計(jì)
- 山西蛋糕烘焙課程設(shè)計(jì)
- 酒店預(yù)訂確認(rèn)函
- 小學(xué)課愛(ài)國(guó)主義教育教案
- 人教版八年級(jí)上冊(cè)英語(yǔ)單詞默寫版全
- 絡(luò)合物的分子軌道理論
- 第六講-中古日本文學(xué)課件
- 《小學(xué)教育政策與法規(guī)》總資料
- 云南花燈教案
- 信任五環(huán):超級(jí)銷售拜訪技巧
- 河南省部分退休教師提高基本退休費(fèi)審核表
- 職業(yè)生涯人物訪談報(bào)告采訪教師
- 2022年山東菏澤醫(yī)專附院招聘11人筆試備考題庫(kù)及答案解析
評(píng)論
0/150
提交評(píng)論