下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于統(tǒng)計(jì)的中文機(jī)構(gòu)名實(shí)體識別的研究劉杰〔陜西理工學(xué)院計(jì)算機(jī)科學(xué)系陜西漢中723001〕LIUJie〔ShaanxiUniversityofTechnologyhanzhongshaanxi723001,China〕摘要:本文提出了利用隱馬爾科夫統(tǒng)計(jì)模型的方法進(jìn)行中文機(jī)構(gòu)名實(shí)體的識別。同時(shí),在此方法的根底上通過構(gòu)建一元模型來補(bǔ)充識別那些縮寫的和沒有核心詞的機(jī)構(gòu)名,彌補(bǔ)了單一統(tǒng)計(jì)模型在機(jī)構(gòu)名實(shí)體識別中的缺乏。實(shí)驗(yàn)證明該方法獲得了較高的準(zhǔn)確率和召回率,具有可行性。關(guān)鍵詞:隱馬爾科夫模型,中文機(jī)構(gòu)名實(shí)體識別,一元模型,準(zhǔn)確率,召回率TheresearchabouttheOrganizationEntityRecognitionbasedonstatisticAbstract:thisarticleputsforwardthemethodoftheChineseOrganizationEntityRecognitionthroughthemethodofusingstatisticmodelbasedontheHiddenMarkovModel.Atthesametime,thisarticlerecognizethoseOrganizationEntitywhichisabbreviatoryandwhichhavenonuclearvocablethroughdesigningSingleModelbasedonthismethod.Itcanoffsetthelimitationofsinglestatisticmodel.Theexperimentshaveprovedthatthismethodgainshigherprecisionandrecallanditisfeasible.Keyword:HiddenMarkovModel,ChineseOrganizationEntityRecognize,SingleModel,Precision,Recall引言命名實(shí)體是指句子中有確定含義的名詞。在1998年召開的MUC-7中命名實(shí)體被分成人名(Person)、地名(Location)、機(jī)構(gòu)名(Organization)、日期(Data)、時(shí)間(Time)、百分?jǐn)?shù)(Percentage)和貨幣(Monetaryvalue)等七類[1]。中文命名實(shí)體〔ChineseNamedEntity,NE〕識別是指識別出文本中這些特定的實(shí)體。它是信息抽取、自動問答和信息檢索等多種自然語言處理技術(shù)的實(shí)現(xiàn)根底[2]。機(jī)構(gòu)名稱一般泛指機(jī)關(guān)、團(tuán)體、企事業(yè)單位和協(xié)會等。2004年度國家863中文信息處理與智能人機(jī)接口技術(shù)評測的命名實(shí)體識別評測結(jié)果顯示:中文機(jī)構(gòu)名識別的召回率僅為57.41%,準(zhǔn)確率僅為64.64%[3]。2、中文機(jī)構(gòu)名的特點(diǎn)及識別難點(diǎn)〔1〕形式多樣,組成方式非常復(fù)雜。例如“西安制藥廠〞、“中共陜西省委〞等?!?〕機(jī)構(gòu)名中含有大量的其它命名實(shí)體。例如“漢中市漢江制藥廠〞等?!?〕中文機(jī)構(gòu)名用詞非常廣泛,加大了其識別的難度。例如“中國電信〞、“民生銀行〞等。〔4〕機(jī)構(gòu)名的長度極其不固定,導(dǎo)致機(jī)構(gòu)名稱的邊界很難確定?!?〕很多機(jī)構(gòu)名都有簡稱,增加識別難度。例如“聯(lián)想〞、“人大〞等。3、基于統(tǒng)計(jì)的中文機(jī)構(gòu)名識別方法由于機(jī)構(gòu)名的上述特點(diǎn),假設(shè)要對各類機(jī)構(gòu)名人工總結(jié)出統(tǒng)一的識別規(guī)那么實(shí)際上是不可行的。本文采用了基于統(tǒng)計(jì)模型的方法來識別。3.1基于隱馬爾科夫統(tǒng)計(jì)模型[4]的機(jī)構(gòu)名識別算法機(jī)構(gòu)名中修飾詞的詞語選擇和詞性選擇都是隨機(jī)的。這兩個(gè)層面上的隨機(jī)性就可以構(gòu)成一個(gè)隱馬爾科夫鏈。那么機(jī)構(gòu)名的生成概率可以通過詞語的轉(zhuǎn)移概率和詞性的轉(zhuǎn)移概率來共同描述。當(dāng)該候選詞組的生成概率大于給定的閾值時(shí),就識別該詞組為一個(gè)機(jī)構(gòu)名。算法描述為:詞組W=w1w2…wn,S=s1s2…sn,si是詞組W經(jīng)過切分后對應(yīng)的詞性,C=c1c2…cn,其中ci表示機(jī)構(gòu)名用詞。該詞組作為機(jī)構(gòu)名的生成概率和,根據(jù)貝葉斯算法得:公式1公式2對于給定詞組和是固定的,所以只要求和即可:公式3其中,公式4公式5Nc(wi)是詞wi作為機(jī)構(gòu)名出現(xiàn)的次數(shù),Nt(wi)是詞wi在文本中出現(xiàn)的總次數(shù),Nc(si)是詞性si作為機(jī)構(gòu)名出現(xiàn)的次數(shù),Nt(si)是詞性si在文本中出現(xiàn)的總次數(shù),σ是采用線性折扣的平滑參數(shù)[5]。計(jì)算出P1(C,W)和P2(C,S)后和閾值σ1和σ2比擬,只有當(dāng)P1(C,W)>σ1且P2(C,S)>σ2,我們認(rèn)為詞組W是一個(gè)機(jī)構(gòu)名。其中都是統(tǒng)計(jì)值,經(jīng)過測試,本文中取值分別為0.04、0.07、0.0007。3.2模型訓(xùn)練構(gòu)建機(jī)構(gòu)名核心詞庫機(jī)構(gòu)名核心詞是指標(biāo)示為一個(gè)機(jī)構(gòu)的中心詞,例如“集團(tuán)〞、“〞、“大學(xué)〞等。當(dāng)掃描文本時(shí),出現(xiàn)該核心詞,那么認(rèn)為產(chǎn)生一個(gè)候選機(jī)構(gòu)名。掃描并識別〔1〕首先對要識別的文本進(jìn)行分詞[6]和詞性標(biāo)注[7];〔2〕假設(shè)已到達(dá)機(jī)構(gòu)名核心詞庫末尾,識別結(jié)束;否那么從該詞庫中取出下一個(gè)核心詞;〔3〕掃描文本,假設(shè)掃描到文本結(jié)束都找不到該核心詞,那么轉(zhuǎn)向〔2〕,反之記下位置L1,然后向前掃描到分隔符〔由分詞和標(biāo)注完成〕處并記下位置L2,那么從L2到L1之間的詞組就是一個(gè)候選機(jī)構(gòu)名;〔4〕計(jì)算出P1(C,W)和P2(C,S),并根據(jù)計(jì)算結(jié)果判定該詞組是否為機(jī)構(gòu)名;〔5〕從位置L1處的文本開始,轉(zhuǎn)向〔3〕;3.3測試性能指標(biāo)在測試中采用自然語言處理中使用最廣泛的兩個(gè)性能評測指標(biāo),即準(zhǔn)確率和召回率[8],定義如下:準(zhǔn)確率P(Precision)=準(zhǔn)確率P(Precision)=召回率R(召回率R(Recall)=測試結(jié)果本文取1998年1月標(biāo)注的《人民日報(bào)》語料庫作為測試語料[9]〔其中機(jī)構(gòu)名個(gè)數(shù)為11445個(gè)〕。機(jī)構(gòu)名總數(shù)正確識別的機(jī)構(gòu)名數(shù)錯(cuò)誤識別機(jī)構(gòu)名數(shù)正確率召回率0.040.0750.0008114458762176183.26%76.56%0.040.070.0007114459321169084.65%81.44%0.050.0750.0008114458616171583.40%75.29%4、存在的缺陷經(jīng)測試分析,這種基于隱馬爾科夫統(tǒng)計(jì)模型的識別方法雖然取得較好的識別結(jié)果,但存在兩個(gè)很明顯的弊端:首先無法識別本身沒有核心詞的機(jī)構(gòu)名,例如“中國電信〞等;其次無法識別那些縮寫的機(jī)構(gòu)名,例如“北大〞、“聯(lián)想〞等。4.1解決方案在這些沒有核心詞和縮寫的機(jī)構(gòu)名中,詞〔字〕的選擇都具有隨機(jī)性,相互之間沒有約束關(guān)系,可以通過一元模型補(bǔ)充識別。假設(shè)機(jī)構(gòu)名類型用O表示,對于形如W=W1W2…Wn的詞〔字〕串,建立一元模型:〔1〕單詞〔字〕W1、W2、。。。、Wn作為機(jī)構(gòu)名在真實(shí)文本中出現(xiàn)的總頻次分別記為F(O,W1)、F(O,W2)、…、F(O,Wn);〔2〕單詞〔字〕W1、W2、…、Wn在真實(shí)文本中出現(xiàn)的總頻次分別記為F(W1)、F(W2)、…、F(Wn);〔3〕該單詞串在機(jī)構(gòu)名類型中出現(xiàn)的概率記為:P(O|W)=P(O|W1)*P(O|W2)*…*P(O|Wn)公式8其中,P(O|W1)=F(O,W1)/F(W1)P(O|W2)=F(O,W2)/F(W2)公式9…P(O|Wn)=F(O,Wn)/F(Wn)特殊地,當(dāng)F(Wn)為0時(shí),取P(O|Wn)=1?!?〕P(O|W)假設(shè)大于與給定的閾值δ〔通過大量實(shí)驗(yàn),為了取得較好的識別本文中取δ=0.200〕,那么認(rèn)為該詞〔字〕串為機(jī)構(gòu)名類型。4.2測試結(jié)果根據(jù)這個(gè)方法,對測試語料中因沒有核心詞或縮寫形式而沒有識別出的218個(gè)機(jī)構(gòu)名進(jìn)行補(bǔ)充識別,得到如下識別結(jié)果:δ機(jī)構(gòu)名總數(shù)正確識別的機(jī)構(gòu)名數(shù)錯(cuò)誤識的機(jī)構(gòu)名數(shù)正確率召回率0.1802181543183.24%70.64%0.2002181692985.35%77.52%0.2202181472884%67.43%5、結(jié)束語本文研究了采用基于隱馬爾科夫統(tǒng)計(jì)方法進(jìn)行中文機(jī)構(gòu)名實(shí)體識別,指出了該方法在實(shí)際應(yīng)用中存在的缺陷,同時(shí)提出了構(gòu)建一元模型作為補(bǔ)充識別的解決方案,在一定程度上提高了識別的準(zhǔn)確率和召回率。在實(shí)際應(yīng)用中,由于機(jī)構(gòu)名長短不一,組成方式復(fù)雜多樣,在識別中還有相當(dāng)?shù)碾y度,需要進(jìn)一步研究解決。參考文獻(xiàn)[1]吳學(xué)軍。面向信息抽取的命名實(shí)體識別與模塊獲取技術(shù)研究[D]。東北大學(xué)信息科學(xué)與工程學(xué)院,2004[2]朱江濤。中文信息處理中命名實(shí)體識別問題的研究[D]。沈陽航空工業(yè)學(xué)院,2006[3]馮元勇,孫樂,李文波等.基于單字提示特征的中文命名實(shí)體識別快速算法[J].中文信息學(xué)報(bào),2023,(1):106-109[4]孟偉濤.Web中文信息抽取技術(shù)研究及其在招聘信息系統(tǒng)中的應(yīng)用[D].西安:西北大學(xué),2007[5]ChengNiu,WeiLi,JihongDing,RohiniK.SrihariABootstrappingApproachtoNamedEntiytClassificationUsingSuccessiveLeanrers[J].ACL,2003:298一350[6]李盛.面向真實(shí)文本的漢語詞義排歧系統(tǒng)[D].太原:山西大學(xué),2004[7]張華平,劉群.基于N-最短路徑方法的中文詞語粗分模型[J].中文信息學(xué)報(bào),2002,5:2-6
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024高考地理一輪復(fù)習(xí)第十章區(qū)域可持續(xù)發(fā)展第35講礦產(chǎn)資源合理開發(fā)和區(qū)域可持續(xù)發(fā)展-以德國魯爾區(qū)為例教案湘教版
- 2024高考?xì)v史一輪復(fù)習(xí)方案專題十世界資本主義經(jīng)濟(jì)政策的調(diào)整和蘇聯(lián)社會主義建設(shè)專題整合備考提能教學(xué)案+練習(xí)人民版
- DB42-T 2338-2024 地質(zhì)調(diào)查階段海相頁巖氣選區(qū)評價(jià)技術(shù)要求
- 泰州市專業(yè)技術(shù)人員公修科目“溝通與協(xié)調(diào)能力”測試題及答案
- (3篇)2024年幼兒園讀書節(jié)活動總結(jié)
- 物資的管理和控制措施
- 二零二五版「鴻誠擔(dān)保招聘」人才測評與評估服務(wù)合同2篇
- 發(fā)起人與設(shè)立中公司
- 2024年海南工商職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試歷年參考題庫含答案解析
- 二零二五年度環(huán)保PPP項(xiàng)目合同風(fēng)險(xiǎn)防控與應(yīng)對策略
- 實(shí)際控制人與法人協(xié)議模板
- 醫(yī)療器械質(zhì)量安全風(fēng)險(xiǎn)會商管理制度
- 110kV變電站及110kV輸電線路運(yùn)維投標(biāo)技術(shù)方案(第一部分)
- 綠色制造與可持續(xù)發(fā)展技術(shù)
- 污水處理廠單位、分部、分項(xiàng)工程劃分
- 舌咽神經(jīng)痛演示課件
- 子宮內(nèi)膜癌業(yè)務(wù)查房課件
- 社會學(xué)概論課件
- 華為經(jīng)營管理-華為的研發(fā)管理(6版)
- C及C++程序設(shè)計(jì)課件
- 公路路基路面現(xiàn)場測試隨機(jī)選點(diǎn)記錄
評論
0/150
提交評論