當(dāng)代漢語文本語料庫分詞、詞性標(biāo)注技術(shù)報告_第1頁
當(dāng)代漢語文本語料庫分詞、詞性標(biāo)注技術(shù)報告_第2頁
當(dāng)代漢語文本語料庫分詞、詞性標(biāo)注技術(shù)報告_第3頁
當(dāng)代漢語文本語料庫分詞、詞性標(biāo)注技術(shù)報告_第4頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、當(dāng)代漢語文本語料庫分詞、詞性標(biāo)注技術(shù)報告楊爾弘山西大學(xué)計算機與信息技術(shù)學(xué)院山西 太原 030006yeh1 研究目標(biāo)和內(nèi)容本項目的研究目標(biāo)是:選擇500萬漢字的國內(nèi)正在流通的漢語文本,力求表現(xiàn)當(dāng)代語言的最新面貌,經(jīng)過自動分詞、詞性標(biāo)注和人工校對,建成高質(zhì)量的帶有完整詞類標(biāo)記的當(dāng)代漢語通用語料庫。力爭形成具有廣泛適用范圍的中文信息處理基礎(chǔ)資源。具體研究內(nèi)容包括:1) 語料庫的選材范圍和分布比例:語料庫的選材力求在通用性上達到一個較高的水平,并反映當(dāng)代漢語的最新面貌。2) 分詞與詞性標(biāo)注規(guī)范:制定符合漢語特點的,從信息處理的實際要求出發(fā)的當(dāng)代漢語文本加工規(guī)范。該加工規(guī)范要確立分詞標(biāo)準(zhǔn)、詞表的選詞原

2、則和詞性標(biāo)注體系。該規(guī)范的制定要吸收語言學(xué)家的研究成果,并兼顧已有的語料庫標(biāo)注的詞性分類體系,具有開放性和靈活性,以便適用于不同的中文信息處理系統(tǒng)。3) 自動分詞和詞性標(biāo)注的難點問題:歧義切分、專名和新詞語的識別、兼類詞的標(biāo)注是切分和標(biāo)注的難點問題,將這些問題進一步細(xì)化,以便獲得解決這些問題的顆粒度更加細(xì)致的知識,為自動處理提供良好的知識資源。4) 語料庫加工的輔助工具:開發(fā)對分詞和詞性標(biāo)注結(jié)果進行人工校對的輔助工具,提高整體處理效率及良好的保持語料加工的一致性。5) 語料庫加工質(zhì)量的評價及評測系統(tǒng):為保證語料加工的質(zhì)量,制定分階段的質(zhì)量控制指標(biāo)及評測方法。按照我們確定的研究目標(biāo),我們已完成5

3、00萬漢字的當(dāng)代漢語文本語料的切分和標(biāo)注任務(wù),形成了良好的語言資源。2 相關(guān)的研究語料庫的分詞和詞性標(biāo)注是語料庫語言學(xué)研究的基礎(chǔ)課題,從最早的帶有詞性標(biāo)記的英語語料庫(如Brown 語料庫、LOB語料庫)到目前不同語種的各種帶有詞性標(biāo)注的語料庫已經(jīng)紛紛涌現(xiàn)出來,如漢語語料庫、日語語料庫、韓語語料庫等。漢語語料庫的建設(shè)開始于20世紀(jì)80年代末期,目前,已經(jīng)形成了一些不同規(guī)模,服務(wù)于不同應(yīng)用的語料庫,如清華大學(xué)與北京語言大學(xué)共同建立的規(guī)模為200萬漢字的分詞標(biāo)注語料庫、國家語言文字工作委員會從1991年開始建立的,目前仍在進行中的規(guī)模為7000萬漢字的國家級的大型漢語語料庫、北京大學(xué)與富士通合作開

4、發(fā)的2700萬漢字的人民日報標(biāo)注語料庫等。這些語料庫的建設(shè)均根據(jù)任務(wù)的目標(biāo),從選材、分詞和標(biāo)注規(guī)范的制定等方面進行了研究。 本次加工完成的500萬漢字的語料庫,吸收了以往語料庫建設(shè)的經(jīng)驗,在選材上強調(diào)了當(dāng)代流通性較高的漢語文本,在分詞和詞性標(biāo)注上,通過分析現(xiàn)有語料庫的情況,對切合不統(tǒng)一的字串以及標(biāo)注不統(tǒng)一的詞語進行了收集,形成了合分字串庫、兼類詞語實例庫。這些對基于語料庫的語言研究、統(tǒng)計模型中訓(xùn)練數(shù)據(jù)的獲得、語料庫分詞和詞性標(biāo)注的評測等奠定了良好的基礎(chǔ)。 3 分詞詞性標(biāo)注語料庫的構(gòu)建原則根據(jù)我們的研究目標(biāo),從選材、分詞和詞性標(biāo)注等方面制定了構(gòu)建語料庫所遵循的原則:·選材原則1) 力求

5、反映當(dāng)代漢語的最新面貌。選擇2002年以來流通量大、傳播率較高、流通時間較長的文本。2) 構(gòu)建語料庫時,文本的分類從主題、體裁、來源三個方面綜合考慮,力求在主題和體裁上具有較好的平衡性,所提供的訓(xùn)練數(shù)據(jù)具有良好的通用性。3) 選取的文本以自然段落為準(zhǔn),而不是以字?jǐn)?shù)為準(zhǔn)。避免選取過長或過短的文章,但在選取文章后,隨自然段截取樣本。這樣可以得到較完整的語言信息的內(nèi)容。·切分原則 在進行切分和標(biāo)注時,以詞類為綱對各類單位作具體切分與標(biāo)注規(guī)定。切分時,制定了基本原則和輔助原則,基本原則具有不變性,輔助原則則視具體的情況具有一定的彈性。 基本原則:1) 詞語的切分規(guī)范盡可能同中國國家標(biāo)準(zhǔn)GB1

6、3715信息處理用現(xiàn)代漢語分詞規(guī)范(以下簡稱為“分詞規(guī)范”)保持一致。2) “分詞單位”主要是詞,也包括了一部分結(jié)合緊密、使用穩(wěn)定的詞組以及在某些特殊情況下可能出現(xiàn)在切分序列中的孤立的語素或非語素字。本文中仍用“詞”來稱謂“分詞單位”。3) 分詞中充分考慮形式與意義的統(tǒng)一。形式上要看一個結(jié)構(gòu)體的組成成分能否單用,結(jié)構(gòu)體能否擴展,組成成分的結(jié)構(gòu)關(guān)系,以及結(jié)構(gòu)體的音節(jié)結(jié)構(gòu);意義上要看結(jié)構(gòu)體的整體意義是否具有組合性。輔助原則:1) 詞表原則:使用頻率高的字串收入詞表,作為一個分詞單位,收入詞表的詞語不再按具體的規(guī)定進行切分。2) 語素一般不單獨切分,與前后詞語形成一個切分單位。·標(biāo)注原則:

7、1) 詞類劃分以語法功能為主要依據(jù)。詞語的意義有時也起著某些參考作用。2) 允許有兼類,但兼類詞語的個數(shù)要控制。兼類詞的標(biāo)記確定要依據(jù)該詞語在具體的語境中的語法功能和意義。3) 詞類加工規(guī)范的標(biāo)記集中的大類應(yīng)能覆蓋現(xiàn)代漢語的全部詞。為滿足計算機處理真實文本詞類標(biāo)注的需要,所定義的詞類標(biāo)記集,覆蓋了比詞小的單位,如前接成分(前綴)、后接成分(后綴)、語素字、非語素字等;比詞更大的單位,如習(xí)用語、簡稱和略語,以及標(biāo)點符號、非漢字符號等。在具體的標(biāo)注過程中,對于比詞大的單位,標(biāo)注為“語”的同時,進一步指明其詞類,如:名詞性習(xí)用語:“海市蜃樓 in”、動詞性習(xí)用語:“眾口難調(diào) iv”、形容詞性習(xí)用語:

8、“通情達理ia”、連詞性習(xí)用語:“總而言之 ic”等;名詞性簡稱和略語:“人大 jn”、動詞性簡稱和略語:“離退休jv”、形容詞性簡稱和略語:“短平快 ja”等簡稱略語。對于獨立性較強的語素字,標(biāo)注詞類,減少語素字標(biāo)記的比例。4 分詞與詞性標(biāo)注規(guī)范的制定 詞性標(biāo)注的一個重要目的是為進一步的短語標(biāo)注、句法分析鋪墊基礎(chǔ),因此詞性分類的依據(jù)確定為以語法功能為主要依據(jù)。在制定973當(dāng)代漢語文本語料庫分詞、詞性標(biāo)注加工規(guī)范時,我們首先對每一個詞類,確定其定義、范例,從音節(jié)構(gòu)成和句法角色的角度,逐一描述了每一類詞語的構(gòu)成形式,在此基礎(chǔ)上,制定出了本次加工的規(guī)范973當(dāng)代漢語文本語料庫分詞、詞性標(biāo)注加工規(guī)范

9、。 在該規(guī)范中,詞性標(biāo)記集共計20個大類,其中名詞、動詞、形容詞、習(xí)用語、簡稱和略語、其他等幾個大類下進一步劃分為若干小類,共計24個小類,其中人名、地名的小類又進行了進一步的細(xì)分,分別包含了6個和2個次小類。在標(biāo)注的過程中,無法明確劃分小類的詞語,標(biāo)注為大類。因此在標(biāo)注的語料中,大類與小類并存.。在制定分詞規(guī)范時,鑒于有些詞語合與分并沒有本質(zhì)的不同,在現(xiàn)已公布的標(biāo)注語料中,也存在著合分并存的現(xiàn)象。對于這樣的詞語,在本次加工中,我們按照規(guī)范進行了嚴(yán)格的統(tǒng)一,同時將他們合分均可的形式,分別進行了標(biāo)注,形成了合分字串庫。如:“仍 d 是 vlvl、意味/v 著/uv、易/a 于/pv、角/n 動量

10、/n、有/v 可能/nv、化學(xué)/n 反應(yīng)/vn”等。這些詞語的構(gòu)成形式主要是:1)詞綴及與其前后相鄰的詞語;2)二字的“動+動”、“副+動”構(gòu)成的動詞;3)“動+助”構(gòu)成的動詞;4)名詞和方位詞構(gòu)成的詞語;5)代詞與其后相鄰的名詞或量詞;6)區(qū)別詞與其后相鄰的名詞;7)部分四字詞語等情況。另外,有些詞語在句中所擔(dān)任的句法角色不同時,也存在著合分不一致的情形,比如“只是”做連詞、副詞時,不切分,做動詞時,被切分為“只 d 是 vl”。這樣可以減少兼類詞語的個數(shù),但又造成了合分的不一致性。所有這些詞語我們都收集形成了合分字串庫。合分字串庫的建立為語料庫加工結(jié)果的評測采用兼容性原則奠定了基礎(chǔ)。對于兼

11、類詞語的處理,由于國家沒有公布兼類詞語表,分析已有的標(biāo)注語料,各個兼類詞集之間的差別也比較大。為此在進行兼類詞的標(biāo)注時,對一些具體情況作了規(guī)定:比如:1)同一意義的“語”和“詞”、“詞”和“語素”之間不兼類,統(tǒng)一標(biāo)注為詞性;2)當(dāng)一部分動詞、形容詞充當(dāng)名詞短語的中心語、或充當(dāng)句子的主、賓語時,只要意義不變,認(rèn)為是活用,不做兼類處理;3)專有名詞可與任何詞類發(fā)生兼類,當(dāng)作臨時兼類詞語。在本次加工的語料中,從選材上,我們專門選擇了一批包含人名、地名、組織機構(gòu)名的語料,對專名的標(biāo)注進行了詳細(xì)的定義,希望對命名實體的識別提供一定的訓(xùn)練數(shù)據(jù)。對一些地名和組織機構(gòu)名的標(biāo)注采用了嵌套結(jié)構(gòu),如:安德森 nhy

12、 戰(zhàn)略 n 空軍 n 基地 n nsy;澳大利亞 nsy 科學(xué) n 與 c 工業(yè) n 研究 v 組織 n ni。這樣有利于較長的實體名詞的標(biāo)注。5 語料庫標(biāo)注的特點與現(xiàn)有的語料庫相比較,本次加工的語料庫的特點有:1) 對于短語進一步區(qū)分了詞性的的標(biāo)注,使得所有標(biāo)注都可以從詞性的層次上體現(xiàn)出來。2) 對專名的標(biāo)注進行了較為詳細(xì)的劃分,并利用嵌套結(jié)構(gòu)標(biāo)注了較長的專名。3) 收集了合分均可的詞語,形成了合分字串庫。6 語料庫的構(gòu)建過程 本次語料的加工過程包括如下幾個步驟:1) 從網(wǎng)站、電子刊物上收集語料,進行文本的屬性描述。文本的屬性包括:主題、體裁、來源(媒體名稱)、標(biāo)題等。所有屬性存放于文本屬性

13、數(shù)據(jù)庫中。對每一個文本設(shè)計存儲文件名稱:10位阿拉伯?dāng)?shù)字,其中13位表示體裁;46位表示主題;710位表示采集文本時的序號。2) 對所采集的文本進行屬性的統(tǒng)計,盡量在主題與體裁上有較好的平衡性。3) 按詞類確定加工手冊,并在此基礎(chǔ)上制定本次的加工規(guī)范。4) 按照加工規(guī)范,審核支持自動分詞和標(biāo)注的詞表。5) 均衡地選擇50萬語料進行自動處理。6) 利用輔助工具進行兩遍逐篇、逐詞的人工校驗。7) 自動進行詞語切分和標(biāo)注的一致性檢查,將出現(xiàn)的分歧形成分歧表,按詞表進行語境抽取,進行詞表驅(qū)動、在實例上進行的人工輔助校對,保證詞語切分和標(biāo)注的一致性。8) 將50萬語料作為訓(xùn)練數(shù)據(jù),修改自動標(biāo)注模型。9)

14、 對剩余的語料重復(fù)執(zhí)行58步,直到完成所有文本的標(biāo)注。 按照上述加工步驟,加工的過程是分階段進行的,每一個階段都按照規(guī)范進行質(zhì)量檢驗,并為后一階段的加工奠定基礎(chǔ),同時良好的輔助工具的利用,提高了加工的效率,在較短的時間內(nèi)完成了目前的語料庫STC973 ver1.0。其基本的統(tǒng)計數(shù)據(jù)如下:表 1 STC973各主題的分布比例主題分類包含文章數(shù)包含的詞語數(shù)包含的漢字?jǐn)?shù)所占的比例公益185 2103833626495.99%教育1942123964153426.85%習(xí)俗/風(fēng)俗70710731132671.87%生活36741466178900013.02%娛樂1721788412998724.95

15、%工程(土木、修路)661017281998433.30%政治35037308460885010.05%經(jīng)濟517597666104542917.26%法律1081040691978083.27%體育1841591252554114.22%軍事83938491458442.41%藝術(shù)1402003193970586.55%人文科學(xué)(歷史地理、哲學(xué)、宗教、)2092922835071798.37%基礎(chǔ)科學(xué)(數(shù)、理、化)1421283542070753.42%應(yīng)用技術(shù)2422307284024816.64%交通71716981110071.83%合計310034402486058115100%表

16、2 STC973各體裁的分布比例體裁分類包含文章數(shù)包含的詞語數(shù)包含的漢字?jǐn)?shù)所占的比例新聞報道11761020645163666027.02%小說(故事、傳說)25736298077635812.82%散文1151532362330033.85%劇本1419731357360.59%說明文(包括廣告、公告、技術(shù)手冊)512661154129423221.36%信函1126517380.02%議論文(包括評論)786887870146821824.24%傳記74934371439652.38%話語記錄1382121584201096.93%雜文2727772480960.79%合計31003440

17、2486058115100%表 3 STC973詞性分布比例詞性詞條數(shù)比例(%)詞次數(shù)比例(%)詞性詞條數(shù)比例(%)詞次數(shù)比例(%)aq3235316128157444nd1890.1855993194as8160803731031nh52.0005284001c20202089959312nhf1800.182391008d1046102183150635nhg2610.261192004e59.0005650002nhh50724.9617396060f6420.6318681065nhr3220.311180004g1830.167912027nhw6120.602902010h14.0

18、001402001nhy45034.4017894062i58875.7622871079ni3040.302831010j16101.5721013073nl5590.5514366050k31.00032902010nn87.0008618002m69086.75149237517ns53995.2867923235n3954338.66687989238nt8600.8465144226nz24582.4014292495v1659516.2635583220o1650.16430001w00p1200.12129182448wpq6210.6186521300ws36803.61198

19、97069r2670.26135045468wu0u83.0008261983908x0表 4 STC973詞長分布比例詞長數(shù)量比例一字詞3464361%二字詞459094774%三字詞269052798%四字詞1289613.41%五字詞及以上6986726%總計96160100%7 結(jié)語建造帶有詞性標(biāo)注的語料庫是一個浩大的工程,也是自然語言研究的基礎(chǔ)工程,其效應(yīng)可以由對已建成的各種語料庫的研究來體現(xiàn)。在標(biāo)注的過程中,我們對語料庫加工中的難點問題進行了收集、分析,還需要進一步研究的內(nèi)容包括:1)關(guān)于歧義的更細(xì)致地分類以及解決歧義所需知識的組織與表達;2)詞類進一步細(xì)化以及詞語構(gòu)成形式與詞性的相關(guān)關(guān)系研究。語料庫的一個基本功能便是通過提供大量的真實文本作為研究素材,因此必然也忠實的反映了人們使用語言時不可避免的會有一些錯誤。因此,對于該語料庫的建

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論