版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
基于語義標(biāo)注的信息抽取
隨著計算機網(wǎng)絡(luò)的普及和信息采集、傳輸和應(yīng)用范圍的擴大,人們需要處理的電子文檔信息也顯著增加。這些信息中,計算機能自動處理的結(jié)構(gòu)化信息僅占很少一部分,更多的信息以目前計算機所無法理解的自然語言來表達。如何從文本中提取用戶所需信息,已成為信息處理的焦點之一。信息抽取就是針對這樣一個問題而提出的。信息抽取是一個以未知的自然語言文檔作為輸入,產(chǎn)生固定格式、無歧義的輸出數(shù)據(jù)的過程。這些數(shù)據(jù)可直接向用戶顯示,也可作為原文信息檢索的索引,或存儲到數(shù)據(jù)庫、電子表格中,以便于以后的進一步分析。與自然語言處理不同,信息抽取一般不對文本作深入全面的分析。信息抽取的主要功能是根據(jù)預(yù)先設(shè)定的任務(wù),抽取特定類型的信息。朱德熙先生在《語法答問》中曾精辟地指出漢語和印歐語的不同:一是漢語的詞類缺乏形式標(biāo)記;二是漢語詞類跟句法成分之間不存在簡單的對應(yīng)關(guān)系;三是漢語句子的構(gòu)造原則跟短語的構(gòu)造原則基本一致。因此,中文的信息抽取不能照搬目前大多數(shù)英文信息抽取系統(tǒng)所采用的以語法分析為主,以語義分析為輔的方法。由此提出了從語義分析入手的信息抽取方法。1分層處理,不符合語用分析的原則傳統(tǒng)的自然語言處理模型一般將語言處理分為詞、語法、語義、篇章、語用等不同的抽象級別,實行分層處理,并認(rèn)為高層的處理是建立在低層處理基礎(chǔ)之上的。信息抽取無須作深層的語義分析,因而拋棄了篇章、語用分析的桎梏。盡管如此,信息抽取并沒有完全擺脫自然語言模型的影響,許多基于規(guī)則的信息抽取仍要進行語法分析,而把語義分析置于輔助地位。1.1語義標(biāo)注的負(fù)面影響語法分析可視為高度抽象的語義分析,原因在于語法分析的基礎(chǔ)是詞性標(biāo)注,而詞性標(biāo)注是一種高度抽象的語義標(biāo)注。例如,在圖1所示的概念層次中,“玫瑰”和“熊貓”兩個詞,經(jīng)過逐步的語義概括,在頂層可抽象為“事物”,即詞性中的名詞。詞性標(biāo)注作為一種高度抽象的語義標(biāo)注,至少引起以下負(fù)面影響。其一,詞性標(biāo)注本身引起了語義的缺失。例如,圖1中“玫瑰”和“熊貓”兩個詞在向上一層的語義歸類中,保留了“植物”和“動物”之間的區(qū)別。但是,當(dāng)兩者最終歸到詞性的層次上時,它們之間的“植物”和“動物”區(qū)別消失了。其二,在語法分析中,當(dāng)多個具有相同詞性的詞語相連構(gòu)成一個大的語法單元時,由于各詞語在詞性上是無區(qū)別的,當(dāng)需要在相鄰的詞語中抽取其一時,就產(chǎn)生一定的困難。例如,圖2中多個名詞連結(jié)在一起構(gòu)成一個大的名詞詞組,當(dāng)要抽取某一特定語義的詞語時,就須借助其他的方法來完成。其三,在表達方式比較單一的領(lǐng)域中,描述不同對象的語句往往具有相同的語法結(jié)構(gòu),語句表達上的差別在語法分析中消失了。例如,在圖3中,當(dāng)要抽取的信息與非抽取信息用同一語法模式來表達時,作為信息抽取有效信息源之一的語法分析也就失去了本來的意義。1.2語義標(biāo)注的語義說明語法分析引起語義缺失的根本原因在于它是基于詞性標(biāo)注的,而詞性本身處于語義層次的頂層,正是詞性標(biāo)注的高度抽象化,引起了語義信息在向上傳遞過程中的逐步消失。換句話說,當(dāng)語句分析是基于語義層次中較低的抽象級別時,還是可以保留部分語義信息的?;谶@種考慮,提出了基于語義標(biāo)注的語句分析,以消除詞性標(biāo)注引起的負(fù)面影響。語義標(biāo)注的抽象級別較低,詞語在標(biāo)注后保留了一些區(qū)別性的語義信息。例如,圖1中的詞語“玫瑰”和“熊貓”經(jīng)語義標(biāo)注后,可保留“植物”和“動物”之間的區(qū)別。當(dāng)多個詞語相連成為一個大的語義單元時,這些保留的信息有助于區(qū)別不同語義的詞語,同時,語句模式也會由于描述對象語義類別的不同而有所區(qū)別。這樣,就消除了詞性標(biāo)注引起的負(fù)面影響。語義標(biāo)注與詞性標(biāo)注類似,也是給詞語加上一種類別標(biāo)簽。區(qū)別在于,詞性標(biāo)注加上的是詞性標(biāo)簽,如名詞、動詞、形容詞等,而語義標(biāo)注加上的是語義類別標(biāo)簽,一般要利用概念層次來完成。例如,在圖1所示的概念層次中,“熊貓”一詞經(jīng)語義標(biāo)注后對應(yīng)的是“動物”。語言單元的識別過程也可視為語義標(biāo)注概念的進一步拓展。從語義標(biāo)注的角度看,文本分析可視為5種粒度的語義標(biāo)注,最細(xì)的粒度是詞語的類別,即通常的語義標(biāo)注;由語義類別的組合形成基本短語,基本短語的識別可視為第2層的語義標(biāo)注;隨后的更大單元的復(fù)合短語識別、語句模式的識別分別對應(yīng)第3層和第4層的語義標(biāo)注;最粗的粒度是文本的篇章識別,即文本的分類。在信息抽取中,主要使用前4個層次的語義標(biāo)注。當(dāng)用自底向上的方法分析文本時,底層的單元在上層中表現(xiàn)出一定的組合性,便于用規(guī)則的方法來識別不同的語義單元。最終的語義單元與信息模板的槽之間會形成對應(yīng)關(guān)系,因此,可用語義標(biāo)注方法來實現(xiàn)信息的抽取。在基于語義標(biāo)注的語句分析中,語法分析的功能事實上已蘊含其中,再次的語法分析已屬冗余,這為我們舍棄語法分析,用統(tǒng)一的語義分析指導(dǎo)信息抽取提供了依據(jù)。在開放的領(lǐng)域中,語義類的數(shù)目通常要遠(yuǎn)遠(yuǎn)大于詞性的數(shù)目,存在詞的歧義問題,基于語義標(biāo)注的方法需大量的知識支持,可行性極差;這也是開放領(lǐng)域中語法分析存在的主要根據(jù)之一。但信息抽取一般是基于某特定領(lǐng)域的,所用的詞和語義有其特定的領(lǐng)域背景,詞的歧義問題基本不存在,語義類別數(shù)目急劇下降,由語義類構(gòu)成的語句模式是可控制的。因此,在信息抽取中,基于語義標(biāo)注的方法有一定的可行性。2基于意義標(biāo)記的信息提取2.1統(tǒng)一標(biāo)圖文本的構(gòu)建本文信息抽取的對象是作戰(zhàn)標(biāo)圖所需的文字資料,簡稱標(biāo)圖文本。標(biāo)圖文本是軍事標(biāo)圖的底本,一般情況下,標(biāo)圖所需的軍標(biāo)名稱、所處位置等信息都可從標(biāo)圖文本中獲取。標(biāo)圖文本通常以自然語言的形式表述,而標(biāo)圖需要的是固定格式的信息。若信息抽取能在這兩者之間構(gòu)建起通路,則可為實現(xiàn)軍用文圖的自動轉(zhuǎn)換提供一種解決方案。標(biāo)圖文本和所抽取的信息案例,如圖4所示。2.2語義標(biāo)注的策略借鑒FASTUS系統(tǒng)的工作過程,在基本語義標(biāo)注的基礎(chǔ)上,用級聯(lián)式的FSA(有限狀態(tài)自動機)將文本逐步分割成較大的語義單元。在最后的分割結(jié)果中,其中的一些語義單元將直接對應(yīng)要抽取的內(nèi)容。FASTUS系統(tǒng)在分析過程中,采用的是語法和語義的雙軌制策略,即在語法單元的識別階段保留部分語義,語義分析的結(jié)果可為語法分析所用。不同于FASTUS系統(tǒng),基于語義標(biāo)注的語句分析使用的是語義分析單軌制方法,在每個階段不存有語法信息。這種方法的優(yōu)點在于用統(tǒng)一的語義分析指導(dǎo)信息抽取,各階段只考慮語義方面的因素,使分析過程大為簡化?;谡Z義標(biāo)注的信息抽取可分為5個階段,其中,后4個階段對應(yīng)不同層次的語義標(biāo)注,如圖5所示。隨著分析的逐階段深入,文本以更大的結(jié)構(gòu)化語義單元形式出現(xiàn)。最終分析出的語義單元可分為兩部分:目標(biāo)信息和噪聲信息。2.3提取標(biāo)準(zhǔn)信息的過程2.3.1標(biāo)圖文本的語言特點一般將詞語作為語言處理的基本單位。中文的詞與詞之間沒有空格,在語法或語義分析前要對文本進行分詞處理。我們設(shè)計的MIE(軍用信息抽取)系統(tǒng)使用基于詞典的方法分詞,并根據(jù)子語言的特點避免了未登錄詞處理和歧義消解等問題。標(biāo)圖文本中未登錄詞主要是地名,通常不出現(xiàn)未登錄的組織名和人名等情況。地名通常以地圖所標(biāo)注的為準(zhǔn),一般要將地名存入地理信息系統(tǒng)中。所以,只需將地理信息數(shù)據(jù)庫中的地名作為詞取出,注入詞典,即可避免未登錄地名的處理。標(biāo)圖文本作為一種軍用文書,具有準(zhǔn)確、嚴(yán)格、簡樸等特點,歧義現(xiàn)象極少,使用簡單的基于記憶方法可達到歧義消解目的。在MIE系統(tǒng)中,我們實現(xiàn)了基于詞典的分詞算法,它支持首字Hash,進行增字最大匹配,并用基于記憶的方法實現(xiàn)歧義消解。2.3.2標(biāo)圖文本語義標(biāo)注語義標(biāo)注即給詞語加上語義類別標(biāo)簽,將原文的內(nèi)容抽象到一個較高的層次。在語義類別這一層次上,標(biāo)圖文本通常表現(xiàn)出局部的規(guī)律性,例如,表述作戰(zhàn)單位的詞語常屬于某幾個特定語義類別,且這些類別的出現(xiàn)順序有一定的規(guī)律性。這便于用規(guī)則的方式來識別較大的語言單元,所以,語義標(biāo)注是將標(biāo)圖文本簡化到可控范圍內(nèi)不可或缺的手段。在同一領(lǐng)域內(nèi),一個詞語通常只有一個意義,對應(yīng)的語義標(biāo)簽也只有一個。標(biāo)圖文本對詞語的使用有嚴(yán)格的限制,嚴(yán)禁一詞多義的現(xiàn)象發(fā)生,以免發(fā)生誤解。所以,標(biāo)圖文本的語義標(biāo)注只需簡單地從所設(shè)計的上下位語義網(wǎng)絡(luò)中發(fā)現(xiàn)上位詞。比如,“迫擊炮”的上位詞是“武器”,只要在“迫擊炮”出現(xiàn)的地方標(biāo)上〈武器〉即可。我們在MIE系統(tǒng)中設(shè)計了23個第1層的語義網(wǎng)絡(luò),部分語義標(biāo)簽及其下屬的詞,如表1所示。在標(biāo)圖文本中,數(shù)是一種語義的原子單位,具有不可分性。簡單的數(shù)字不具備基本意義,如“西北100m”、“106高程點”、“212高地(14、21)”等中的數(shù)在分詞后將被分開,形成單個的數(shù)字,要通過規(guī)則或簡單的FSA將數(shù)字連到一起,標(biāo)上〈數(shù)值〉標(biāo)簽。同樣,坐標(biāo)可視為標(biāo)圖文本中的基本構(gòu)成元素,將其作為整體識別出來,加上標(biāo)簽〈坐標(biāo)〉,以表示一種基本的語義單元。2.3.3‘部隊’的簡化fsa在第1層語義類別的基礎(chǔ)上,通過組合規(guī)則可識別出基本的短語,即進行第2層的語義標(biāo)注。這一階段主要識別出距離、基本地名、基本作戰(zhàn)單位,這3種短語的表述都遵循比較規(guī)范的語義規(guī)則,如作戰(zhàn)單位中的〈部隊〉可概略表述為:〈部隊〉::=[〈敵我〉][〈種類〉][〈序〉][〈數(shù)值〉]〈建制〉其中,〈敵我〉、〈種類〉、〈序〉、〈數(shù)值〉4項內(nèi)容是可選的,〈序〉是“第”等詞的語義類別標(biāo)簽。但這種表述將會錯誤地輸入信息,如“紅軍第營”,也識別為〈部隊〉,更精確的表述可用圖6所示的簡化FSA。圖6中,S0表示初始狀態(tài),S1,S2,S3,S4,S5分別表示接收輸入〈敵我〉、〈種類〉、〈序〉、〈數(shù)值〉、〈建制〉后到達的狀態(tài)。由此簡化的FSA,可識別出基本的作戰(zhàn)單位,比如“第1師”、“坦克團”、“摩步第2營”、“1個坦克連”等。距離和基本地名等可用同樣的方法識別。2.3.4復(fù)合部分語義以基本短語作為語句的構(gòu)成單元,分析語句的語義規(guī)則仍有較大的難度,為此將基本短語的組合進一步抽象為第3層的語義標(biāo)簽,即識別出更大的語義單元——復(fù)合短語。在第3層的語義標(biāo)簽中,設(shè)置一個標(biāo)簽為〈噪音〉,用以指代所有規(guī)則外的信息。復(fù)合短語的識別與基本短語的情況類似,也是基于組合規(guī)則的,實現(xiàn)時用FSA來識別。例如,由領(lǐng)域知識可知:2個〈部隊〉相連,表達了一個更全面的關(guān)于〈部隊〉的信息。可用規(guī)則表述為:〈部隊〉::=〈部隊〉〈部隊〉依據(jù)這個規(guī)則,基本短語“第1師”、“坦克團”、“摩步第2營”相連可形成作戰(zhàn)單位的更具體信息“第1師坦克團摩步第2營”。這一階段得到的信息已經(jīng)與模板中的信息形成一定的對應(yīng)關(guān)系。2.3.5提取函數(shù)信息(1)各種軍標(biāo)及部隊指揮機構(gòu)的模型設(shè)計標(biāo)圖信息從軍標(biāo)的層次看,可表述為一個三元組,即(軍標(biāo),位置,方向)。元組內(nèi)各項具有一定的多樣性,如從定位點的多少看,軍標(biāo)可分為點狀、線狀和面狀。從位置信息中所含地名多少看,位置也是可變參量。圖標(biāo)方向既有根據(jù)作戰(zhàn)雙方的相對位置來確定的,也有固定方向的。這三者的多樣性決定了標(biāo)圖信息不能簡單地用一個固定的模板來描述。另一方面,軍標(biāo)本身數(shù)量眾多,若為每個軍標(biāo)設(shè)計一個信息模板,形成軍標(biāo)與模板之間的映射關(guān)系,則模板的數(shù)量眾多、管理困難,每增刪一個軍標(biāo)都要修改相應(yīng)模板。為了適應(yīng)以上兩種情況,將信息模板設(shè)計為兩類:類模板和種模板。在模板庫中,目前設(shè)計了5個類模板和12個種模板。一個類模板可對應(yīng)多種軍標(biāo),如預(yù)備隊、保障隊、分隊等多種軍標(biāo)信息可用一個類模板來抽取,這幾種軍標(biāo)信息都只含一個作戰(zhàn)單位和一個地名。種模板對應(yīng)一種軍標(biāo),如,作戰(zhàn)分界線一般要涉及2個作戰(zhàn)單位、多個地名,要為其單獨設(shè)定一個信息模板。(2)檢測模式及生成模板類模板信息的抽取可用語義模式識別的方法實現(xiàn),如將預(yù)備隊、保障隊、分隊歸到語義〈分隊〉下,對應(yīng)分隊部署的語義模式為:〈分隊配置〉::=〈分隊〉[〈噪音〉]〈地名〉;設(shè)定〈分隊〉軍標(biāo)所對應(yīng)的模板為【分隊模板】,有:【分隊模板】:分隊槽+地名槽。只要在語句中出現(xiàn)〈分隊配置〉這樣的語義模式,即可將〈分隊〉和〈地名〉所對應(yīng)的內(nèi)容分別作為【分隊模板】中的分隊槽和地名槽信息抽取。種模板對應(yīng)的軍標(biāo)一般有獨特的關(guān)鍵字信息,如作戰(zhàn)分界線這種軍標(biāo)通常用“分界線”作為關(guān)鍵字,模式也較復(fù)雜。對種模板可先由關(guān)鍵字識別相應(yīng)的模板,其過程為:先對種模板設(shè)立索引關(guān)鍵字,將文本中的關(guān)鍵字作為〈關(guān)鍵〉語義標(biāo)出;當(dāng)文本中出現(xiàn)〈關(guān)鍵〉這一語義時,由關(guān)鍵字找到相應(yīng)的模板,然后根據(jù)語義對應(yīng)關(guān)系抽取標(biāo)圖信息。2.4學(xué)習(xí)目標(biāo)標(biāo)圖如圖2,設(shè)計出大量的信息點+r信息抽取的評估有兩個主要指標(biāo):查準(zhǔn)率(Precision)和查全率(Recall)。為方便不同信息抽取系統(tǒng)之間的比較,一般使用這兩個指標(biāo)的綜合值:F=(β2+1)×P×R(β2×P)+R?F=(β2+1)×Ρ×R(β2×Ρ)+R?其中,P為查準(zhǔn)率,R為查全率,β為對查準(zhǔn)率的偏重量,通常取β=1。為檢查MIE從標(biāo)圖文本中抽取標(biāo)圖信息的效果,隨機取10篇練習(xí)用的摩步營、團攻防標(biāo)圖文本作為信息抽取的測試樣本。經(jīng)手工統(tǒng)計,樣本共含有186條標(biāo)圖信息。每條信息的組成部分稱為一個信息點,相應(yīng)于模板中的槽。在作戰(zhàn)標(biāo)圖中,一個信息點的錯誤將使整個信息條成為無用信息,所以在給出信息點的查準(zhǔn)率、查全率、F度量時,也給出信息條的這3個度量。信息條中的信息點情況:16條標(biāo)圖信息含有4個信息點,8條含有3個信息點,其余各含有2個信息點,共計412個信息點。用MIE系統(tǒng)在文本上進行抽取測試,手工檢查抽取結(jié)果的正誤情況,統(tǒng)計后可得對MIE的抽取情況的評估(β=1),如表2所示。3基于語義標(biāo)注的信息抽樣方法本文分析指出詞性標(biāo)注是引起語義缺失的根本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度二零二五年度豪華別墅租賃定金及維護協(xié)議
- 二零二五年度理發(fā)店轉(zhuǎn)讓合同-附帶店鋪裝修及經(jīng)營策略指導(dǎo)
- 二零二五年度砂石料運輸安全培訓(xùn)及應(yīng)急預(yù)案協(xié)議
- 基于大數(shù)據(jù)的小學(xué)數(shù)學(xué)教育分析
- 提升安保措施保障智慧旅游出行安全
- 專業(yè)育嬰師服務(wù)合同
- XX省重點水電工程擴建項目合同2025
- 個人股權(quán)轉(zhuǎn)讓合同書
- 產(chǎn)品售后保養(yǎng)服務(wù)合同樣本
- 個人借款抵押存單合同范本
- 2024年公安機關(guān)理論考試題庫附答案【考試直接用】
- 課題申報參考:共同富裕進程中基本生活保障的內(nèi)涵及標(biāo)準(zhǔn)研究
- 2025年浙江嘉興桐鄉(xiāng)市水務(wù)集團限公司招聘10人高頻重點提升(共500題)附帶答案詳解
- 食品企業(yè)如何做好蟲鼠害防控集
- 2025中國聯(lián)通北京市分公司春季校園招聘高頻重點提升(共500題)附帶答案詳解
- 康復(fù)醫(yī)學(xué)科患者隱私保護制度
- 環(huán)保工程信息化施工方案
- 狂犬病暴露后預(yù)防處置
- 農(nóng)信社運營主管述職報告【三篇】
- 48個國際音標(biāo)表(打印版)已整理
- 建標(biāo) 198-2022 城市污水處理工程項目建設(shè)標(biāo)準(zhǔn)
評論
0/150
提交評論