




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
現(xiàn)代漢語語料庫的開發(fā)與管理
一、大規(guī)模的標注語料庫作者認為,為了提高工作效率的現(xiàn)代化水平,需要考慮計算機的綜合語言數(shù)據(jù)庫。北京大學計算語言學研究所積十多年之努力開發(fā)的《現(xiàn)代漢語語法信息詞典》(以下簡稱《語法信息詞典》)是這個語言知識庫的主要組成部分?!墩Z法信息詞典》中的知識是由研制者根據(jù)自己對語言現(xiàn)象的觀察、領悟并參照前人的語言學著作、詞典、語料而整理的。這種知識還不能充分滿足要求,多數(shù)顆粒度較大,也難以保證與真實語料完全一致。計算機硬件與軟件的進步為自然語言處理技術(shù)的發(fā)展提供了廣闊的新天地?,F(xiàn)在,大規(guī)模的電子文本語料垂手可得。機器(更準確地說,人利用計算機)可以直接從大規(guī)模的語料中學習到處理語言的大量知識。例如,對大量語料進行簡單的統(tǒng)計,就能得到“漢字的使用頻度”。計算兩個漢字在語料中出現(xiàn)的“互信息”就能發(fā)現(xiàn)“詞”,但原始語料的利用價值或者說無指導的機器學習的潛力是有局限性的。人們常說“良師出高徒”。如果在原始語料中預先注入一些語言學知識,譬如根據(jù)人的認識將一部分語料按詞切分好并標注上詞性,然后再將這樣的語料作為樣例提供給機器,機器就能學得更多更好。正是基于這樣的認識,北大計算語言學研究所與富士通合作正在對一個2700多萬漢字的語料庫進行加工。目前的加工項目包括詞語切分和詞性標注,并標出專有名詞(包括短語型專有名稱)。經(jīng)過如此加工的語料庫可以簡稱為“標注語料庫”。要建成高質(zhì)量的大規(guī)模的標注語料庫,需要具備多方面的基礎和條件。其中必須先行的一項工作就是制訂完備的可供人機兩用的加工規(guī)范。二、/w啟動/vn儀式/d語料庫中的原始語料包括1998年全年《人民日報》的純文本文件和其他一些語料,超過2700萬字。《人民日報》的純文本文件的質(zhì)量高,幾乎沒有錯字或語法錯誤。1998年一年的語料雖然不能說覆蓋了當代漢語使用的全面情況,但至少是一個相當大的有代表性的子集。從標注語料庫中摘錄一段,示例如下:由/p[共青團/n中央/n]nt、/w[全國/n綠化/vn委員會/n]nt、/w林業(yè)部/nt、/w鐵道部/nt、/w[全國/n青年/n聯(lián)合會/n]nt共同/d發(fā)起/v的/u迎/v香港/ns回歸/v京九/j植綠護綠/l活動/vn今天/t正式/ad啟動/v。/w廣東/ns的/u深圳/ns、/w惠州/ns、/w河源/ns等/u地/n同時/d舉行/v了/u隆重/a熱烈/a的/u啟動/vn儀式/n。/w在原始語料中,若去掉標點符號,漢字都是一個接一個排列的,詞與詞之間沒有間隔。加工后的語料,切分單位之間用“空格”隔開了。對每個切分單位加了標記,每個斜杠“/”右邊的n,v,a,w等相應地表示它左邊的切分單位是名詞、動詞、形容詞、標點符號等,ns是地名。用一對方括號括起來的若干個切分單位代表一個短語型的專有名稱,如nt表示一個團體機構(gòu)的名稱。這項工程對加工質(zhì)量要求甚嚴。為了得到高精度的加工結(jié)果,必須制訂明確的可操作的加工規(guī)范,同時實現(xiàn)人與計算機的合理分工與妥善配合。三、文件倉庫加工規(guī)范的制定3.1增加了標記和語料庫制訂《現(xiàn)代漢語語料庫加工——詞語切分與詞性標注規(guī)范與手冊》的基本思路如下:(1)詞語切分的規(guī)范盡可能同已有的中國國家標準GB13715“信息處理用現(xiàn)代漢語分詞規(guī)范”(以下簡稱為“分詞規(guī)范”)保持一致。由于現(xiàn)在詞語切分與詞性標注是結(jié)合起來進行的,而且又有了一部《語法信息詞典》可作為基本參照,有必要對“分詞規(guī)范”作一些調(diào)整和補充。(2)詞性標注使用小標記集。除了使用《語法信息詞典》中的26個詞類標記外,增加了以下3類標記:①專有名詞的分類標記,即人名nr,地名ns,團體機關單位名稱nt,其他專有名詞nz;②語素g按其子類標注,已有名語素Ng,動語素Vg,形容語素Ag,時間語素Tg,副語素Dg等;③動詞和形容詞的某些功能標記,即名動詞vn(在句法結(jié)構(gòu)中起名詞作用的動詞),名形詞an(起名詞作用的形容詞),副動詞vd(起副詞作用的動詞),副形詞ad(起副詞作用的形容詞)。合計約40個左右。同漢語信息處理學界的某些研究相比,這是一個小標記集。(3)與已有資源的配合。盡管使用的是小標記集,但標注語料庫同《語法信息詞典》是緊密聯(lián)系的,在自然語言處理應用系統(tǒng)中,以文本中的詞語及詞性(各個標記的第一個字母就是相應的詞性,只有語素符號g是標記的第二個字母)為入口,可以快速、準確地檢索到詞典中詞語的豐富的語法屬性信息。這就是說,經(jīng)過切分、標注的語料庫同《現(xiàn)代漢語語法信息詞典》相結(jié)合,可以形成一個超文本的語言知識庫。(4)對專有名詞(人名、地名、團體機構(gòu)名等)進行了標注。并用方括號標出短語型專有名稱。(5)規(guī)范既要適應語言信息處理與語料庫語言學研究的需要,又要能為傳統(tǒng)的語言學研究提供充足的素材;既要適合計算機自動處理,又要便于人工校對。3.2標準的主要內(nèi)容《現(xiàn)代漢語語料庫加工——詞語切分與詞性標注規(guī)范》分為3個部分:切分規(guī)范,標注規(guī)范,切分和標注相結(jié)合的規(guī)范。3.2.1切割規(guī)范(1)切分單位定義“分詞單位”是國家標準“分詞規(guī)范”中的一個基本概念。它是指信息處理中使用的、具有確定的語義和語法功能的基本單位。為了同“分詞規(guī)范”銜接,這里仍沿用“分詞單位”這個概念,不過術(shù)語改用“切分單位”。本規(guī)范確定的“切分單位”主要是詞,也包括了一部分使用頻度高的詞組。在某些特殊情況下孤立的語素或非語素字也可能出現(xiàn)在切分序列中,如動詞的離合形式:出/v了/u一/m次/q差/Ng。/w“差/Ng”是名語素;又如:鷓鴣/n的/u鷓/x有/v什么/r意思/n嗎/y?/w“鷓/x”是非語素字。從字數(shù)考慮,對兩個字的組合可較寬地看作是一個切分單位,三個字的較嚴,四個字以上的若不是成語、習慣用語、簡稱、地名或外族人名,則一般不看作是一個切分單位。(2)切分單位的基本判斷進行切分通常要有一部“分詞詞典”。國家社科基金語言學科“九五”重大課題“面向信息處理的現(xiàn)代漢語詞匯研究”中已列入了一個子課題“分詞詞表”,不過,該詞表尚未問世?,F(xiàn)在,北大的《語法信息詞典》收錄的詞條已超過7.3萬。本規(guī)范規(guī)定《語法信息詞典》中的詞條一般都是切分單位,這就使得對“切分單位”的把握有了基本的參照。但規(guī)范定義的“切分單位”同詞條之間還是有差異的。例如5個字以上的成語、習用語、簡稱、地名或外族人名是切分單位,但未被收入《語法信息詞典》?!兑?guī)范》規(guī)定“一百二十八”、“五分之三”、“第三”、“1998年”、“10月”、“30日”這樣的數(shù)詞和時間詞是切分單位,但它們無限多,任何一部詞典都不可能全收,《語法信息詞典》只收了少量的構(gòu)成成分。如:“分之”、“第”等,但它們卻不是切分單位?!墩Z法信息詞典》中包含的前接成分、后接成分、語素、非語素字也不是切分單位,盡管當它們不能與前后成分組合時也會孤立地出現(xiàn)在切分序列中。處理大規(guī)模真實文本時,總會碰到詞典中沒有的“未定義詞”?!兑?guī)范》的重要作用就是使機器和人對確定“未定義詞”有了依據(jù)。3.2.2標準物質(zhì)(1)自動標注任務《語法信息詞典》已完成了7.3萬詞語的歸類。如果切分單位是《語法信息詞典》中的詞語,而且該詞語只屬于某一個詞類,則標注的任務只不過是復制一下詞類代碼而已。如果一個詞在《語法信息詞典》中屬于多個詞類,標注的任務就是從若干個詞類代碼中選擇一個適當?shù)?。如“自動”兼屬區(qū)別詞和副詞。當它在語料中做定語,就選擇區(qū)別詞,當它做狀語時,就選擇副詞。由于在確定的上下文中依據(jù)《語法信息詞典》做這件事,隨意性減少了。(2)標記對象的語法信息在詞性標注中,涉及的語法難點主要是詞類與句法功能之間的關系問題。詞組本位語法體系認為漢語的詞類與句法成分之間不存在簡單的一一對應關系。按照這個基本觀點,就要避免僅僅根據(jù)一個詞語在當前句子中充當?shù)木浞ǔ煞志蜎Q定它的標記。例如,某個詞在《現(xiàn)代漢語語法信息詞典》中已被唯一地確定為動詞,就不能僅根據(jù)它在某個句子中擔任主語或賓語又將它標注為名詞。至于漢語的詞類體系是如何劃分的,數(shù)以萬計的詞語是如何歸類的,則是詞組本位語法體系著力解決的問題,《語法信息詞典》反映了詞組本位語法體系指導工程實踐的成果。同時考慮到語法學界對漢語詞類的劃分特別是對兼類問題存在不同意見,在標記集中增加了名動詞vn,名形詞an,副動詞vd,副形詞ad。當然,增加這些標記并非只是緩沖不同意見,主要是為了給詞的兼類研究提供計量根據(jù),也為詞的概率語法屬性描述打下基礎。(3)對專有名稱的標注這次加工不僅對新聞語料中大量存在的人名、地名等專有名詞進行了標注,還在詞語切分與詞性標注的基礎上進一步對短語型專有名稱加上方括號和類型標記(主要是nt,nz,還有少量的ns)。3.2.3復合詞/東南角的意義在漢語中,由語素構(gòu)造合成詞的方式有“復合”、“附加”和“重疊”,但運用這3種方式試將兩個成分結(jié)合成一個較大的單位時,這個較大的新單位是否處理為切分單位,卻不能一概而論。以“附加”為例,后接成分“者”如果接在語素或詞的后面構(gòu)成合成詞,自然為一個切分單位,并且應該標注為n;如:死者/n,筆者/n,當局者/n,旁觀者/n,求知者/n。能夠后接“者”的語言單位還可以是更長的詞或成語等,如:無政府主義者/n,翻然悔悟者/n,屢教不改者/n。但是,當“者”的前面為較長的短語或句子時,卻應分開來,將“者”單獨標注為k。經(jīng)過/p苦苦/d追求/v而/c獲得/v幸福/a者/k不/d顧/v勸告/v而/c執(zhí)意/vd鬧事/v者/k“復合”的情況就更復雜了。構(gòu)詞成分通常認為是語素。由于復合詞的構(gòu)成方式和短語的構(gòu)成方式是一樣的,包括定中、狀中、述賓、述補、主謂、聯(lián)合、連動等,而能單獨成詞的語素和不能單獨成詞的語素的界限又是模糊的,這就造成了復合詞與短語的界限是模糊的?!兑?guī)范》對一些兩可的情況作出了明確的規(guī)定。例如,《規(guī)范》明確規(guī)定“雙音”節(jié)動詞后接單音節(jié)名詞的定中結(jié)構(gòu),一般為一個切分單位,且標注為n。消耗品/n,證明信/n,救濟糧/n,控制閥/n。對單音節(jié)的動詞與單音節(jié)的名詞相連時,若是定中結(jié)構(gòu),則合成為名詞;若是述賓結(jié)構(gòu),則看作是短語。如:我/r喜歡/v吃/v烤肉/n。/w我/r來/v烤/v肉/n吃/v。/w四、/p、/n標準/w校正北京大學計算語言學研究所開發(fā)的“詞語切分和詞性標注”軟件已具有很高的精度,不過自動加工的結(jié)果總會存在這樣那樣的錯誤。校對者依據(jù)《規(guī)范》可以將其中絕大部分錯誤改正。為了最大限度地提高最終成果的質(zhì)量,北大計算語言學研究所又在實踐的基礎上,制訂了《現(xiàn)代漢語語料庫加工——詞語切分與詞性標注規(guī)范與手冊》。《手冊》詳細解釋了《規(guī)范》,并列舉了大量的實例、典型錯例及修正的理由?!妒謨浴酚兄诮y(tǒng)一對《規(guī)范》的理解。為了進一步強化所有參與校對的人對《規(guī)范》和《手冊》的認識的一致性,并對《規(guī)范》的局部遺漏進行補充,筆者又將校對中發(fā)現(xiàn)的一個個具體問題及解決方案整理成《通報》,發(fā)送給參加者。同時開發(fā)了后處理軟件,提高一致化的效率。這些技術(shù)措施對保證工程質(zhì)量都起到了重要的作用。下面列舉一些錯例及校正的結(jié)果。需要時,分析這樣校正的理由。錯誤可能是機器處理的結(jié)果,也可能是人工校對后仍未排除的,個別的還可能是校對者造成的。原文:當用處,雖多勿吝;不當用處,雖少勿妄。錯例:當/v用處/n,/w雖/c多/a勿/d吝/v;/w不/d當/v用處/n,/w雖/c少/a勿/d妄/v。/w校正:當用/v處/n,/w雖/c多/a勿/d吝/Vg;/w不/d當用/v處/n,/w雖/c少/a勿/d妄/Vg。/w分析:這屬于交集型歧義切分錯誤。錯例難以理解。正確的切分離不開對原文的理解。錯例:吸/v納/v勞動力/n多/a的/u產(chǎn)品/n和/c產(chǎn)業(yè)/n校正:吸納/v勞動力/n多/a的/u產(chǎn)品/n和/c產(chǎn)業(yè)/n分析:像“吸納”這樣的兩個字的組合,盡管7萬詞表中未收入,也應當作為一個詞看待。錯例:在/p談/v及/c處理/v土地/n問題/n時/Ng校正:在/p談及/v處理/v土地/n問題/n時/Ng分析:如果將原文分解為“在談土地問題時”及“在處理土地問題時”,機器自動切分的結(jié)果并沒有錯。如果將“談”換為“論述”或“研究”等二字詞時,還就應該這樣切分。但原文的意思實際是“在談到處理土地問題時”?!罢劇焙汀疤幚硗恋貑栴}”不是并列關系,而是述賓關系。將“及”標為連詞是不對的。曾將“及/c”改為“及/p”也是不對的。7萬詞表給“及”列的詞性是連詞c,作“姓”用的名語素Ng,動詞v。并沒有介詞p。考慮到“及”可以用“到”替換,將“及”單獨切分出來并標為v是可以的。不過,在現(xiàn)代漢語中,“及”遠沒有“到”用得頻繁?!罢劶啊薄ⅰ罢摷啊?、“顧及”等都可以看作一個詞。因此,像現(xiàn)在這樣改是恰當?shù)?。錯例:把/p工作/vn重心/n轉(zhuǎn)/v到/v經(jīng)濟/n建設/vn上來/v。/w校正:把/p工作/vn重心/n轉(zhuǎn)/v到/v經(jīng)濟/n建設/vn上/f來/v。/w分析:“上來”是一個詞。“上”、“來”分別也是詞,且有多個詞性。要正確切分此句,需有一定的句法結(jié)構(gòu)的知識。錯例:第八/m次/q全國/n代表/v大會/n校正:第八/m次/q全國/n代表/n大會/n說明:屬于詞性標注錯誤?!按怼庇袆印⒚麅蓚€詞性,屬于廣義兼類。在一起開會的自然是人,此例中的“代表”是名詞。錯例:現(xiàn)場/s感受/n了/u這/r一/m宇宙/n壯景/n校正:現(xiàn)場/s感受/v了/u這/r一/m宇宙/n壯景/n說明:名詞一般不能后接“了、著、過”,從形式上就能判斷“感受”不是名詞,是動詞。錯例:共同/b開拓/v祖國/n的/u北疆/n校正:共同/d開拓/v祖國/n的/u北疆/n說明:“共同”有區(qū)別詞、副詞兩個詞性,屬于狹義兼類。在這里作狀語,是副詞。錯例:通過/p調(diào)查/vn,/w我們/r了解/v到/v校正:通過/p調(diào)查/v,/w我們/r了解/v到/v說明:“調(diào)查”是介詞“通過”的賓語,但不能因為它們是介詞的賓語,就認為應該標為vn,因為《規(guī)范》遵循的語法體系認為介詞是可以帶謂詞性賓語的。如“通過調(diào)查現(xiàn)場情
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 城市交通規(guī)劃合同審查咨詢重點基礎知識點
- 戰(zhàn)略目標的逐步落實計劃
- 通風維保服務合同協(xié)議
- 游艇合作協(xié)議書
- 軟件共同研發(fā)合同協(xié)議
- 轉(zhuǎn)讓房子租賃合同協(xié)議
- 曝光調(diào)解協(xié)議書
- 《緩解皮膚過敏癥狀的天然偏方》課件
- 小產(chǎn)權(quán)房買賣交易合同
- 轉(zhuǎn)讓非遺項目合同協(xié)議
- 2025年二級風力發(fā)電運維值班員職業(yè)技能鑒定考試題庫(濃縮500題)
- 江蘇省南京市、鹽城市2025屆高三年級5月第二次模擬考試化學試題及答案(南京鹽城二模)
- 2025新能源汽車技術(shù)的應急管理策略試題及答案
- 建筑勞務分包合同中的稅務問題3篇
- 2025年中國熔融鹽儲能行業(yè)市場占有率及投資前景預測分析報告
- 2024-2025人教版一年級下冊數(shù)學期末考試卷附答案 (三套)
- 消防作戰(zhàn)訓練安全常識及災情處置考試題庫
- 教育培訓機構(gòu)加盟經(jīng)營合同書
- 2025年人教版小學二年級下冊奧林匹克數(shù)學競賽測試卷(附參考答案)
- 中央2025年國家民委直屬事業(yè)單位招聘48人筆試歷年參考題庫附帶答案詳解
- 2025年北京市豐臺區(qū)九年級初三一模英語試卷(含答案)
評論
0/150
提交評論