基于角色標(biāo)注的中文機(jī)構(gòu)名識別_第1頁
基于角色標(biāo)注的中文機(jī)構(gòu)名識別_第2頁
基于角色標(biāo)注的中文機(jī)構(gòu)名識別_第3頁
基于角色標(biāo)注的中文機(jī)構(gòu)名識別_第4頁
基于角色標(biāo)注的中文機(jī)構(gòu)名識別_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、基于角色標(biāo)注的中文機(jī)構(gòu)名識別*本文得到國家重點(diǎn)基礎(chǔ)研究項(xiàng)目(G1998030507-4;G1998030510)和計(jì)算所領(lǐng)域前沿青年基金項(xiàng)目20026180-23資助作者俞鴻魁,男,1978年生,北京化工大學(xué)計(jì)算機(jī)系研究生,中科院計(jì)算所客座學(xué)生,主要研究方向?yàn)橛?jì)算機(jī)語言學(xué)。張華平,男,1978年生, 博士研究生,主要研究方向?yàn)橛?jì)算語言學(xué),中文信息處理與信息抽取。劉群,男,1966年生,在職博士研究生,副研究員,主要研究方向?yàn)闄C(jī)器翻譯,自然語言處理與中文信息處理。俞鴻魁1,2 張華平1 劉群1,31 中國科學(xué)院計(jì)算技術(shù)研究所軟件研究室 北京 1000802 北京化工大學(xué)信息科學(xué)與技術(shù)學(xué)院 北京

2、1000293 北京大學(xué)信息學(xué)院計(jì)算機(jī)系計(jì)算語言所 北京 100871E-mail:yhk摘要:中文機(jī)構(gòu)名自動(dòng)識別是命名實(shí)體識別的重點(diǎn)和難點(diǎn),目前各種解決方案的實(shí)際效果還難以滿足人們的實(shí)際需求。本文提出了一種基于角色標(biāo)注的中文機(jī)構(gòu)名自動(dòng)識別方法,其基本思想是:根據(jù)在機(jī)構(gòu)名識別中的作用,采取Viterbi算法對切分結(jié)果進(jìn)行角色標(biāo)注,在角色序列的基礎(chǔ)上,進(jìn)行字符串識別,最終實(shí)現(xiàn)中文機(jī)構(gòu)名的識別。識別過程中我們只需要某個(gè)詞作為特點(diǎn)角色的概率以及角色之間的轉(zhuǎn)移概率。該方法的實(shí)用性還在于:這些角色信息完全可以從真實(shí)語料庫中自動(dòng)抽取得到。通過對大規(guī)模真實(shí)語料庫的封閉測試中,該方法取得了接近90%的召回率和

3、準(zhǔn)確率,即使在開放測試中,準(zhǔn)確率也高達(dá)88%。不同實(shí)驗(yàn)從各個(gè)角色表明:基于角色標(biāo)注的機(jī)構(gòu)名識別算法是行之有效的。關(guān)鍵詞:中文機(jī)構(gòu)名識別;未登錄詞識別;角色標(biāo)注;Viterbi算法Recognition of Chinese Organization Name Based on Role TaggingYU Hong-Kui1,2 ZHANG Hua-Ping1 LIU Qun1,31 Institute of Computing Technology, The Chinese Academy of Sciences, Beijing, 100080 China2 Information sci

4、ence & technology college, Beijing University of Chemical Technology, Beijing, 100029 China3 Inst. of Computational Linguistics, Peking University, Beijing, 1000871 ChinaE-mail: yhkAbstract: automatic recognition of organization name is emphasis and difficulty for named entity identification. Be

5、cause of their inherent deficiencies, previous solutions are not satisfactory. This paper presents an approach for organization name recognition based on role tagging. That is: tokens after segmentation are tagged using Viterbi algorithm with different roles according to their functions in the gener

6、ation of organization name; the possible names are recognized after sting identification on the roles sequence. During the recognition process, only the possibilities of tokens being specific roles and the transition possibilities between roles are required. The significance is that such lexical kno

7、wledge can be totally extracted from corpus automatically. In both close and open test on large realistic corpus, its recalling rate and precision is nearly 90%, and precision is nearly 88% in open test. Various experiments show that: our role-based algorithm is effective for organization recognitio

8、n. Keywords: organization name recognition; unknown words recognition; role tagging; Viterbi algorithm.1. 引言命名實(shí)體識別是自然語言處理中的一項(xiàng)基本工作,命名實(shí)體的識別也是句法分析、機(jī)器翻譯、信息抽取等任務(wù)的一個(gè)非常重要的預(yù)處理模塊。一般來說,命名實(shí)體識別的任務(wù)就是對于一篇待處理文本,識別出其中出現(xiàn)的人名(Person)、地名(Location)、機(jī)構(gòu)名(Organization)、日期(data)、時(shí)間(time)、百分?jǐn)?shù)(percentage)、貨幣(monetary value)這七

9、類命名實(shí)體。其中命名實(shí)體中人名、地名、機(jī)構(gòu)名的識別是最難識別、也最重要的三類。對于機(jī)構(gòu)名識別來說,所要識別出來的機(jī)構(gòu)名主要包括股票交易所、國際組織、商業(yè)組織、公私企業(yè)、電視臺(tái)或廣播臺(tái)、政黨、宗教組織、樂隊(duì)或音樂組織、政府實(shí)體、運(yùn)動(dòng)隊(duì)、軍隊(duì)等等。例如“中國國際航空公司”、“北京商業(yè)銀行”、“北京電影學(xué)院青年電影制片廠”、“聯(lián)想集團(tuán)”、“國家經(jīng)委”、“中直機(jī)關(guān)工委”、“中共中央統(tǒng)戰(zhàn)部”等等。人們已經(jīng)對人名和地名的識別作了非常細(xì)致的研究1-6,提出了各種各樣的處理方法。目前人名和地名識別已經(jīng)能滿足人們的需求,但是機(jī)構(gòu)名無論是從理論上還是從實(shí)際上,都遠(yuǎn)遠(yuǎn)達(dá)不到人們的要求。1.1. 機(jī)構(gòu)名識別的難點(diǎn)對于

10、機(jī)構(gòu)名識別來說,主要的瓶頸在于存在大量的未登錄機(jī)構(gòu)名。未登錄詞在人名、地名和機(jī)構(gòu)名中都占有很大一部分的比例,未登錄機(jī)構(gòu)名的識別比未登錄人名和地名的識別要難得多,歸根到底還是由機(jī)構(gòu)名的自身特點(diǎn)所造成的:第一,中文機(jī)構(gòu)名組成方式非常復(fù)雜。機(jī)構(gòu)名識別中的機(jī)構(gòu)種類繁多,各類機(jī)構(gòu)都有其自已獨(dú)特的命名方式。例如,公私企業(yè)命名大多以地名作為開頭,中間加以企業(yè)字號,如“金山”、“億陽”等等,結(jié)尾一般都是“公司”、“集團(tuán)”類的普通名詞。而機(jī)關(guān)團(tuán)體類的機(jī)構(gòu)名則相對比較正規(guī),一般以上級部門開頭,結(jié)尾為“所”、“部”、“院”、“委”等單字。序數(shù)詞在一般的機(jī)構(gòu)名中很少出現(xiàn),但是在軍隊(duì)、醫(yī)院類的機(jī)構(gòu)名中,序數(shù)詞確占有相當(dāng)

11、大的比例。而且機(jī)構(gòu)名中還嵌套的情況,機(jī)構(gòu)名中包含有另一個(gè)機(jī)構(gòu)名,如“北京電影學(xué)院青年電影制片廠”。第二,機(jī)構(gòu)名中含有大量的其它命名實(shí)體。在這些命名實(shí)體中,地名所占的比例最大,其中未登錄地名又占了相當(dāng)一部分的比例。其它命名實(shí)體的識別大大制約了機(jī)構(gòu)名的識別。第三,中文機(jī)構(gòu)名用詞非常廣泛。通過對1998年1月人民日報(bào)語料中的10817個(gè)機(jī)構(gòu)名所含的19986個(gè)詞進(jìn)行統(tǒng)計(jì),共計(jì)27種詞,其中名詞最多(9941個(gè)),地名其次(5023個(gè))。所用詞如此之廣泛,是命名實(shí)體中絕無僅有的。最為嚴(yán)重的的是,在這些詞中有很大一部分詞是未登錄詞,例如大部分的企業(yè)字號。第四,機(jī)構(gòu)名的長度極其不固定。不像中國人名,一般為

12、兩到三個(gè)字,最多不超過四個(gè)字,地名最多也只是由三到四個(gè)詞組成。機(jī)構(gòu)名的長度少到兩個(gè)字(“北大”、“首鋼”),多到幾十個(gè)字(“中國人民政治協(xié)商會(huì)議第八屆全國委員會(huì)常務(wù)委員會(huì)”),在人民日報(bào)的真實(shí)文本中,由十個(gè)以上的詞構(gòu)成的復(fù)合機(jī)構(gòu)名占了相當(dāng)一部分的比例。機(jī)構(gòu)名稱長度的不確定性,導(dǎo)致機(jī)構(gòu)名稱的邊界很難確定,加大了機(jī)構(gòu)名識別的難度。第五,大多數(shù)機(jī)構(gòu)名都有其簡稱。簡稱一般都是取其全稱中的幾個(gè)關(guān)鍵字或關(guān)鍵詞,例如“聯(lián)想”、“人大”。大量的機(jī)構(gòu)名簡稱的出現(xiàn),使得本來已經(jīng)十分困難的問題變得更加困難。綜上所述,機(jī)構(gòu)名的這些特點(diǎn),使得機(jī)構(gòu)名的識別變得困難重重。1.2. 已有的工作命名實(shí)體識別不外乎基于規(guī)則7的方

13、法、基于統(tǒng)計(jì)的方法以及把規(guī)則和統(tǒng)計(jì)相結(jié)合8的方法。其實(shí)在實(shí)際應(yīng)用中,純的基于統(tǒng)計(jì)的方法并不多,統(tǒng)計(jì)中或多或少引入一些規(guī)則。機(jī)構(gòu)名大多都有非常有特點(diǎn)的詞作結(jié)尾,尤其是在特定的領(lǐng)域內(nèi),例如在金融領(lǐng)域內(nèi)的機(jī)構(gòu)名,大多都是以“公司”、“集團(tuán)”作為結(jié)尾。金融類機(jī)構(gòu)名7的這種表面上的規(guī)律使得人們很容易就想到使用規(guī)則的方法來識別這類機(jī)構(gòu)名。雖然在封閉測試中,能達(dá)到百分之九十多的準(zhǔn)確率和召回率,但是在開放測試中,僅能達(dá)到百分之六十多一點(diǎn),遠(yuǎn)遠(yuǎn)不能滿足人們的實(shí)際需求。在特定領(lǐng)域內(nèi)尚且如此,如果把基于規(guī)則的方法推廣到全領(lǐng)域內(nèi),其效果是可以想像的到的,可見單純地使用規(guī)則的方法來處理這種最為復(fù)雜的命名實(shí)體是不適宜的。

14、使用基于規(guī)則的方法之所以行不通,關(guān)鍵是只注意到了機(jī)構(gòu)名結(jié)尾的規(guī)律性,而忽視了機(jī)構(gòu)名用詞的無規(guī)律性。大量未登錄詞作為機(jī)構(gòu)名用詞,使得規(guī)則系統(tǒng)變得無能為力,這點(diǎn)在開放測試中,顯得尤為突出。文獻(xiàn)9提出了一個(gè)專名的一體化識別方法,從語料和專名表中統(tǒng)計(jì)和分析了各種專名的內(nèi)部構(gòu)成,其中有關(guān)機(jī)構(gòu)名的有:企業(yè)字號常用字(詞)、企業(yè)經(jīng)營內(nèi)容、企業(yè)經(jīng)營內(nèi)容前修飾成分、企業(yè)機(jī)構(gòu)類型等屬性,然后對具有各種專名屬性特征的單字和多字詞進(jìn)行窮盡式的標(biāo)注,最后用一個(gè)逆向的規(guī)則系統(tǒng),使用逆向掃描、尾字激活的策略,運(yùn)用27條規(guī)則對機(jī)構(gòu)名進(jìn)行識別,在小規(guī)模的語料上測試,取得了不錯(cuò)的效果。不過識別規(guī)則過于復(fù)雜。在機(jī)構(gòu)名識別方面,前人

15、們還一項(xiàng)非常有參考價(jià)值的工作,就是文獻(xiàn)11提出的采用基于類的語言模型把中文分詞和命名實(shí)體識別結(jié)合在一起,其中在機(jī)構(gòu)名識別上也取得了不錯(cuò)的成果。在總結(jié)前人工作的基礎(chǔ)上,本文提出了一個(gè)新的機(jī)構(gòu)名識別方法基于角色標(biāo)注的方法。首先,在人名和地名識別的基礎(chǔ)上,對機(jī)構(gòu)名內(nèi)部構(gòu)成角色進(jìn)行有選擇的分類,然后采用隱馬模型1213,對分詞結(jié)果進(jìn)行機(jī)構(gòu)名構(gòu)成角色的標(biāo)注,最后,在角色序列上進(jìn)行模式串識別,并最終識別出機(jī)構(gòu)名。這套識別方法,已經(jīng)實(shí)際應(yīng)用到我們的漢語詞法分析系統(tǒng)(ICTCLAS)中,取得了非常好的結(jié)果。本文以下將詳細(xì)介紹有關(guān)基于角色標(biāo)注的機(jī)構(gòu)名識別的方法,然后給出詳細(xì)的系統(tǒng)測試數(shù)據(jù)并分析有關(guān)試驗(yàn)的結(jié)果,最

16、后闡明我們的結(jié)論。2. 基于角色標(biāo)注的中文機(jī)構(gòu)名自動(dòng)識別方法2.1. 中文機(jī)構(gòu)名的構(gòu)成角色就組成方式上來講,機(jī)構(gòu)名比其它專有名詞復(fù)雜得多?;旧?,完整的機(jī)構(gòu)名可以為前段(名字部分),還有后段(關(guān)鍵字)兩部分。關(guān)鍵字一般為普通的名詞,用詞也相對集中,是機(jī)構(gòu)名中唯一較有規(guī)則可循的部分。附屬的名字部分似乎毫無規(guī)律可循,可能是一些常見的詞,也可能是被切分成碎片的單字。但是通過對人民日報(bào)(我們訓(xùn)練和測試用的語料都是采用北大標(biāo)注集的人民日報(bào)語料)1998年1月中的10817個(gè)機(jī)構(gòu)名的19986個(gè)前段進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)它們并非毫無規(guī)律可循。在從詞性上來分,地名、專有名詞、簡稱、機(jī)構(gòu)名占有相當(dāng)一部分的比例,而且在

17、普通名詞中,又有許多在機(jī)構(gòu)名中經(jīng)常出現(xiàn)的高頻詞(其中,“國際”、“中央”等五個(gè)高頻詞占全部名詞的四分之一)。機(jī)構(gòu)名不僅在內(nèi)部用詞的詞性和用詞上具有一定的規(guī)律,而且中文機(jī)構(gòu)名的上下文用字相對來說也比較集中,同樣具有一定的規(guī)律性,機(jī)構(gòu)名的上下文大多是一些連詞、動(dòng)詞或者表示職位的名詞等。如“董事長”、“經(jīng)理”等。為了充分利用機(jī)構(gòu)名構(gòu)成上的這些特點(diǎn),我們提出了基于角色標(biāo)注的中文機(jī)構(gòu)名自動(dòng)識別方法。根據(jù)每個(gè)字詞在機(jī)構(gòu)名構(gòu)成中的不同作用,我們把它們分成各個(gè)不同的角色。經(jīng)過對角色集選取的反復(fù)試驗(yàn),我們對機(jī)構(gòu)名識別制定了以下角色表:角色意義例子A上文參與亞太經(jīng)合組織的活動(dòng)B下文中央電視臺(tái)報(bào)道X連接詞北京電視臺(tái)

18、和天津電視臺(tái)C特征詞的一般性前綴北京電影學(xué)院F特征詞的譯名性前綴美國摩托羅拉公司G特征詞的地名性前綴交通銀行北京分行H特征詞的機(jī)構(gòu)名前綴中共中央顧問委員會(huì)I特征詞的特殊性前綴中央電視臺(tái)J特征詞的簡稱性前綴巴政府D機(jī)構(gòu)名的特征詞國務(wù)院僑務(wù)辦公室Z非機(jī)構(gòu)名成份表格 1中文機(jī)構(gòu)名稱構(gòu)成角色例如切分結(jié)果:“在/年/來臨/之際/,/通過/中央/人民/廣播/電臺(tái)/向/全國/各族/人民/致以/誠摯/的/問候/和/良好/的/祝愿/!”我們對其進(jìn)行角色標(biāo)注,其相應(yīng)結(jié)果就應(yīng)為:“在/Z 年/Z 來臨/Z 之際/Z ,/Z 通過/A 中央/I 人民/I 廣播/C 電臺(tái)/D 向/Z 全國/Z 各族/Z 人民/Z 致以

19、/Z 誠摯/Z 的/Z 問候/Z 和/Z 良好/Z 的/Z 祝愿/Z !/Z”。2.2. 角色自動(dòng)標(biāo)注與中文機(jī)構(gòu)名的識別中文機(jī)構(gòu)名構(gòu)成角色的標(biāo)注類似于一人簡單的詞性標(biāo)注過程。我們采用的是Viterbi算法9進(jìn)行角色自動(dòng)標(biāo)注。即:從所有可能的標(biāo)注序列中優(yōu)選出概率最大的標(biāo)注序列作為最終標(biāo)注結(jié)果。其理論及推導(dǎo)如下:我們假定W 是分詞后的Token序列(即未登錄詞識別前的分詞結(jié)果),T是W某個(gè)可能的角色標(biāo)注序列.其中T# 為最終標(biāo)注結(jié)果,即概率最大的角色序列。則有:W=(w1, w 2, , w m),T=(t1, t2, , tm), m>0,T#=P(T| W). .E1 根據(jù)貝葉斯公式,有

20、: P(T|W)= P(T)P(W|T)/P(W) . . . E2對于一個(gè)特定的Token序列來說,P(W) 是一個(gè)常數(shù),因此根據(jù)E1和 E2我們可以得到T#= P(T)P(W|T) . . . .E3假定wi為觀察值,角色ti為狀態(tài)值。則W是觀察值序列,而T為隱藏在W后的狀態(tài)值序列。那么,我們可以引入隱馬爾科夫模型12來計(jì)算P(T)P(W|T)。因此:P(T) P(W|T). . .E4T#=.E5 Û T#= -. .E6因此,角色自動(dòng)標(biāo)注問題就轉(zhuǎn)換為求解E5表達(dá)式最小化的問題。利用Viterbi算法1213就可以求解T#。 該方法的其中一個(gè)優(yōu)點(diǎn)在于可以采取E6對識別出來的候選

21、機(jī)構(gòu)名根據(jù)其組成部分進(jìn)行最終評分。2.3. 角色信息的自動(dòng)抽取p(wi|ti) 和 p(ti|ti-1)是E5中兩個(gè)關(guān)鍵的角色信息參數(shù)。其中p(wi|ti)指的是角色為ti的Token集合中wi的概率; p(ti|ti-1)表示的是角色ti-1到角色ti的轉(zhuǎn)移概率。在大規(guī)模語料庫訓(xùn)練的前提下,根據(jù)大數(shù)定理,我們可以得到:p(wi|ti)C(wi,ti)/C(ti) . .E7其中C(wi,ti):wi作為角色ti出現(xiàn)的次數(shù);C(ti):角色ti出現(xiàn)的次數(shù)。p(ti|ti-1)C(ti-1,ti)/C(ti-1) . .E8其中C(ti-1,ti):角色ti-1下一個(gè)角色是ti的次數(shù);C(wi,

22、ti), C(ti), C(ti-1,ti)均可以通過對已經(jīng)切分標(biāo)注好的熟語料庫進(jìn)行學(xué)習(xí)訓(xùn)練、自動(dòng)抽取得到。首先要對已經(jīng)詞性標(biāo)注好的語料庫進(jìn)行機(jī)構(gòu)名的角色標(biāo)注,例如,原始語料為:“在/p 年/t 來臨/v 之際/f ,/w 通過/p 中央/n 人民/n 廣播/vn 電臺(tái)/nnt 向/p 全國/n 各族/r 人民/n 致以/v 誠摯/a 的/u 問候/vn 和/c 良好/a 的/u 祝愿/vn !/w”經(jīng)過我們的轉(zhuǎn)換程序,就變?yōu)榱耍骸霸?Z 年/Z 來臨/Z 之際/Z ,/Z 通過/A 中央/I 人民/I 廣播/C 電臺(tái)/D 向/Z 全國/Z 各族/Z 人民/Z 致以/Z 誠摯/Z 的/Z 問候

23、/Z 和/Z 良好/Z 的/Z 祝愿/Z !/Z”。再對角色序列進(jìn)行訓(xùn)練,最終得到機(jī)構(gòu)名的角色字典和各個(gè)角色之間的角色轉(zhuǎn)移概率。在角色訓(xùn)練的過程中,將角色不是Z的詞wi存入機(jī)構(gòu)名識別詞典,并統(tǒng)計(jì)wi作為ti的出現(xiàn)次C(wi,ti)。同時(shí)累計(jì)所有不同角色的出現(xiàn)次數(shù)C(ti)以及相鄰角色的出現(xiàn)次數(shù)C(ti-1,ti)。2.4. 自動(dòng)識別的最終實(shí)現(xiàn)識別的過程就是在已經(jīng)角色標(biāo)注好的序列上進(jìn)行的。識別的最大的特點(diǎn)就是無須復(fù)雜的規(guī)則,而且高效準(zhǔn)確。識別的策略就是找出滿足“CFGHIJD”的子串。角色標(biāo)注好的文本一般如下:“在/Z 年/Z 來臨/Z 之際/Z ,/Z 我/Z 十分/Z 高興/Z 地/Z 通過

24、/A 中央/I 人民/I 廣播/C 電臺(tái)/D 、/X 中國/G 國際/I 廣播/C 電臺(tái)/D 和/X 中央/I 電視臺(tái)/D ,/B 向/Z 全國/Z 各族/Z 人民/Z ,/Z 向/Z 香港/Z 特別/Z 行政區(qū)/Z 同胞/Z 、/Z 澳門/Z 和/Z 臺(tái)灣/Z 同胞/Z 、/Z 海外/Z 僑胞/Z ,/Z 向/Z 世界/Z 各國/Z 的/Z 朋友/Z 們/Z ,/Z 致以/Z 誠摯/Z 的/Z 問候/Z 和/Z 良好/Z 的/Z 祝愿/Z !/Z”。應(yīng)用上述的策略,識別出的潛在機(jī)構(gòu)名為“中央人民廣播電臺(tái)”、“中國國際廣播電臺(tái)”以及“中央電視臺(tái)”。還要根據(jù)機(jī)構(gòu)名自身概率的大小對結(jié)果進(jìn)行篩選,最

25、后才得出最后的結(jié)果。3. 試驗(yàn)結(jié)果與分析3.1. 有關(guān)角色集的選取對機(jī)構(gòu)名識別效果影響的試驗(yàn)我們對機(jī)構(gòu)名角色集的選取并不是主觀臆斷的,是經(jīng)過我們不斷篩選測試而得的。測試一:我們僅把機(jī)構(gòu)名內(nèi)部用詞分出特征詞(D)和特征詞前綴兩個(gè)角色,而不把特征詞前綴再細(xì)分類,統(tǒng)一當(dāng)作是一般特征詞前綴(C),角色集的其它成員為上文(A)、下文(B)以及其它成份(Z)。對人民日報(bào)一月的部分語料進(jìn)行封閉測試,結(jié)果如下:語料TOTALFOUNDRIGHTP(%)R(%)F(%)人民日報(bào)1月78369699640766.181.873.1人民日報(bào)6月906511632724962.380.070.0表格 2測試一的試驗(yàn)數(shù)

26、據(jù)注:(1)TOTAL:語料中所有的機(jī)構(gòu)名數(shù); FOUND:系統(tǒng)識別出的機(jī)構(gòu)名數(shù); RIGHT:系統(tǒng)識別正確的機(jī)構(gòu)名數(shù)(2)P:機(jī)構(gòu)名識別的正確率=RIGHT/FOUND×100%; R:召回率=RIGHT/TOTAL×100%;F:綜合指標(biāo)=2×P×R/(P+R)×100%在角色標(biāo)注好的序列中,我們發(fā)現(xiàn)許多機(jī)構(gòu)名內(nèi)部成分被標(biāo)注為非機(jī)構(gòu)名成分。對于一些作為機(jī)構(gòu)名內(nèi)部成份出現(xiàn)次數(shù)相對較少的詞來說,p(wi|ti=C)非常小,p(wi|ti=Z)相對來說比較大,而p(ti=Z|ti-1=Z)與p(ti=C|ti-1=C)又相當(dāng)無幾。我們初步認(rèn)為是由

27、于角色分得過粗所造成的。測試二:為了驗(yàn)證測試一的假設(shè),我們將特征詞前綴初步細(xì)化為地名性特征詞前綴、譯名性特征詞前綴、機(jī)構(gòu)名性特征詞前綴、特殊特征詞前綴以及一般特征詞前綴五類。測試結(jié)果如下:語料TOTALFOUNDRIGHTP(%)R(%)F(%)人民日報(bào)1月78368167616275.478.677.0人民日報(bào)6月90659736684170.375.572.8表格 3測試二的試驗(yàn)數(shù)據(jù)測試結(jié)果顯示,正確率大幅度提高,整體性能也有了不小的提升。以“北京商業(yè)銀行”為例,細(xì)化出一個(gè)角色,雖然p(C|G)相對原來的p(C|C)要小,但是p(北京|G)的概率比原來p(北京|C)要大得多,便得“北京商業(yè)

28、銀行”整體作為機(jī)構(gòu)名的概率變大。實(shí)踐初步證明,細(xì)分特綴詞前綴對提高機(jī)構(gòu)名識別的效果有一定的影響。測試三:進(jìn)一步細(xì)化特征詞前綴。在測試二的結(jié)果中,我們發(fā)現(xiàn)許多帶有簡稱的機(jī)構(gòu)名,例如“巴政府”、“美國務(wù)院”等非常簡單的機(jī)構(gòu)名都沒有被識別出來。為此,我們特此在一般性前綴中,分化出一類簡稱性前綴。測試結(jié)果如下:語料TOTALFOUNDRIGHTP(%)R(%)F(%)人民日報(bào)1月78368476631774.580.677.5人民日報(bào)6月906510216713669.978.774.0表格 4測試三的試驗(yàn)數(shù)據(jù)細(xì)化特征詞前綴的結(jié)果使得大量含有簡稱的機(jī)構(gòu)名被識別出來,召回率和整體性能略有上升。進(jìn)一步的細(xì)

29、化前綴角色帶來性能的進(jìn)一步提升,但是是不是前綴化分得越細(xì)越好呢,為此,帶著疑問我們進(jìn)一步作了測試四。測試四:我們在剩余的一般性前綴中,把所占比例最大的數(shù)詞也單獨(dú)化分為一類前綴,由圖可見,相比如其它前綴,數(shù)詞前綴所占的比例最小。圖表 1測試四中各種前綴角色所占比例測試結(jié)果如下:語料TOTALFOUNDRIGHTP(%)R(%)F(%)人民日報(bào)1月78368491632074.480.777.4表格 5測試四的試驗(yàn)數(shù)據(jù)數(shù)據(jù)表明,雖然召回率有所提高,但是帶來了整體性能上的下降。歸其原因,主要是因?yàn)榧?xì)分角色雖然使數(shù)詞成為角色的概率提高,但是由于數(shù)詞在所有前綴中所占比例過小,召回的少量機(jī)構(gòu)名并不能彌補(bǔ)大

30、量誤報(bào)所帶來的損失。實(shí)際結(jié)果明前綴并不是分得越細(xì)越好。3.2. 機(jī)構(gòu)名識別與人名識別和地名識別的相互影響這次試驗(yàn),我們把機(jī)構(gòu)名識別集成到ICTCLAS中,在其它命名實(shí)體識別的基礎(chǔ)之上進(jìn)行機(jī)構(gòu)名識別。我們作封閉測試所用的訓(xùn)練語料是人民日報(bào)九八年一到六月的語料,開放測試時(shí)所用的訓(xùn)練語料是人民日報(bào)九八年二到六月的語料。封閉和開放測試時(shí)所用的測試語料都是九八年一月的語料。測試一:我們讓系統(tǒng)只對人名和地名進(jìn)行識別,結(jié)果如下:(注:結(jié)果中含詞典中已收錄的機(jī)構(gòu)名)TOTALFOUNDRIGHTP(%)R(%)F(%)人名15888159401519895.34504495.65710095.500817地名

31、18462230261773677.02597196.06759885.499422機(jī)構(gòu)名108174618407288.17670037.64444952.763201表格 6測試一的試驗(yàn)數(shù)據(jù)測試二:我們在人名和地名識別的基礎(chǔ)之上進(jìn)行基于角色標(biāo)注的機(jī)構(gòu)名識別,結(jié)果如下:TOTALFOUNDRIGHTP(%)R(%)F(%)人名15888159271519795.41658895.65080695.533553地名18462208481763384.57885695.50969689.712541機(jī)構(gòu)名108179049781486.35208372.23814478.667069表格 7測試

32、二的試驗(yàn)數(shù)據(jù)結(jié)果發(fā)現(xiàn),地名的總體性能大幅提升,機(jī)構(gòu)名的性能相比實(shí)驗(yàn)一中的最好結(jié)果也有不小的提升。人名識別的性能也略有升高。測試三:借鑒基于類的思想,我們對命名實(shí)體進(jìn)行有選擇的分類處理,例如,將地名識別后的結(jié)果進(jìn)行分類,所有核心詞典中未有的未登錄地名歸為未知地名類,已知地名各自為一類。經(jīng)過這次改進(jìn)后,TOTALFOUNDRIGHTP(%)R(%)F(%)人名15888159151519895.49481695.65710095.575889地名18462190091760992.63506895.37969993.987350機(jī)構(gòu)名1081710520942689.60076087.140612

33、88.353564表格 8測試三的試驗(yàn)數(shù)據(jù)與測試二相比,地名和機(jī)構(gòu)名識別的指標(biāo)又都有了大幅度的提高。測試四:為了驗(yàn)證系統(tǒng)的實(shí)用性,我們對機(jī)構(gòu)名進(jìn)行開放測試。根據(jù)所掌握的材料,我們所作開放測試所選用的測試集之大,在相關(guān)的研究論文中是絕無僅有的,所以相比其它系統(tǒng)所得出的數(shù)據(jù),我們的數(shù)據(jù)更有價(jià)值。TOTALFOUNDRIGHTP(%)R(%)F(%)人名15888159271519995.42914595.66339495.546126地名18462199301764888.54992595.59094491.935820機(jī)構(gòu)名108179279820288.39314675.82509081.62

34、8185表格 9測試四的試驗(yàn)數(shù)據(jù)最終結(jié)果顯示,系統(tǒng)的整體性能依舊非常高,完全可以滿足實(shí)際的需求。4. 結(jié)論本文系統(tǒng)地分析了中文機(jī)構(gòu)名的特點(diǎn)與命名實(shí)體識別在機(jī)構(gòu)名識別上的諸多難點(diǎn),分析了各種典型解決方案,針對實(shí)際問題和已有方法的種種不足,同時(shí)吸收各種方法的精華,提出了一種基于角色標(biāo)注的中文機(jī)構(gòu)名識別方法。即采用Viterbi算法,利用中文機(jī)構(gòu)名構(gòu)成角色表及其相關(guān)統(tǒng)計(jì)信息,對句子中的不同成分進(jìn)行角色標(biāo)注,在角色序列的基礎(chǔ)上進(jìn)行字符串匹配,從而識別出中文機(jī)構(gòu)名。中文機(jī)構(gòu)名構(gòu)成角色指的是各個(gè)分詞片段在機(jī)構(gòu)名識別過程中所扮演的不同角色。某個(gè)詞作為特定角色的概率以及角色之間的轉(zhuǎn)移概率,全部從訓(xùn)練語料庫中自動(dòng)抽取,從而降低了人工總結(jié)規(guī)則的高成本與內(nèi)在缺陷。角色的標(biāo)注過程就是選取角色序列概率最大的過程,避免了以前方法盲目觸發(fā)的不足。通過對大規(guī)模完全真實(shí)語料庫的封閉與開放測試,該方法取得了相當(dāng)好的效果。各種實(shí)驗(yàn)表明基于角色標(biāo)注的中文機(jī)構(gòu)名識別算法是行之有效的。本文所用的方法雖然是一種純統(tǒng)計(jì)學(xué)的方法,不過角色集合的確定卻是人為的,需要引入人類的語言學(xué)知識和世界知識,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論