版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
語料庫研究與應(yīng)用綜述一概述語料庫通常指為語言研究收集的、用電子形式保存的語言材料,由自然出現(xiàn)的書面語或口語的樣本匯集而成, 用來代表特定的語言或語言變體。 經(jīng)過科學(xué)選材和標(biāo)注、 具有適當(dāng)規(guī)模的語料庫能夠反映和記錄語言的實際使用情況。 人們通過語料庫觀察和把握語言事實, 分析和研究語言系統(tǒng)的規(guī)律。語料庫已經(jīng)成為語言學(xué)理論研究、 應(yīng)用研究和語言工程不可缺少的基礎(chǔ)資源。語料庫有多種類型,確定類型的主要依據(jù)是它的研究目的和用途,這一點往往能夠體現(xiàn)在語料采集的原則和方式上。 有人曾經(jīng)把語料庫分成四種類型: (1)異質(zhì)的(Heterogeneous):沒有特定的語料收集原則,廣泛收集并原樣存儲各種語料;( 2)同質(zhì)的(Homogeneous):只收集同一類內(nèi)容的語料;(3)系統(tǒng)的(Systematic):根據(jù)預(yù)先確定的原則和比例收集語料,使語料具有平衡性和系統(tǒng)性, 能夠代表某一范圍內(nèi)的語言事實; (4)專用的(Specialized):只收集用于某一特定用途的語料。除此之外,按照語料的語種,語料庫也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual)。按照語料的采集單位,語料庫又可以分為語篇的、 語句的、短語的。雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫,前者的語料構(gòu)成譯文關(guān)系,多用于機器翻譯、雙語詞典編撰等應(yīng)用領(lǐng)域, 后者將表述同樣內(nèi)容的不同語言文本收集到一起, 多用于語言對比研究。語料庫建設(shè)中涉及的主要問題包括:(1) 設(shè)計和規(guī)劃:主要考慮語料庫的用途、類型、規(guī)模、實現(xiàn)手段、質(zhì)量保證、可擴展(2) 語料的采集:主要考慮語料獲取、數(shù)據(jù)格式、字符編碼、語料分類、文本描述,以及各類語料的比例以保持平衡性等。(3) 語料的加工:包括標(biāo)注項目(詞語單位、詞性、句法、語義、語體、篇章結(jié)構(gòu)等)標(biāo)記集、標(biāo)注規(guī)范和加工方式。(4) 語料管理系統(tǒng)的建設(shè):包括數(shù)據(jù)維護(語料錄入、校對、存儲、修改、刪除及語料描述信息項目管理)、語料自動加工(分詞、標(biāo)注、文本分割、合并、標(biāo)記處理等)、用戶功能(查詢、檢索、統(tǒng)計、打印等)。(5) 語料庫的應(yīng)用:針對語言學(xué)理論和應(yīng)用領(lǐng)域中的各種問題,研究和開發(fā)處理語料的算法和軟件工具。我國語料庫的建設(shè)始于80年代,當(dāng)時的主要目標(biāo)是漢語詞匯統(tǒng)計研究。進入 90年代以后,語料庫方法在自然語言信息處理領(lǐng)域得到了廣泛的應(yīng)用, 建立了各種類型的語料庫, 研究的內(nèi)容涉及語料庫建設(shè)中的各個問題。 90年代末到新世紀(jì)初這幾年是語料庫開發(fā)和應(yīng)用的進一步發(fā)展時期, 除了語言信息處理和言語工程領(lǐng)域以外, 語料庫方法在語言教學(xué)、 詞典編纂、現(xiàn)代漢語和漢語史研究等方面也得到了越來越多的應(yīng)用。語料庫與語言信息處理有著某種天然的聯(lián)系。當(dāng)人們還不了解語料庫方法的時候,在自然語言理解和生成、機器翻譯等研究中,分析語言的主要方法是基于規(guī)則的 (Rule-based)。對于用規(guī)則無法表達或不能涵蓋的語言事實, 計算機就很難處理。語料庫出現(xiàn)以后,人們利用它對大規(guī)模的自然語言進行調(diào)查和統(tǒng)計,建立統(tǒng)計語言模型,研究和應(yīng)用基于統(tǒng)計的(Statistical-based)語言處理技術(shù),在信息檢索、文本分類、文本過濾、信息抽取等應(yīng)用方向取得了進展。另一方面,語言信息處理技術(shù)的發(fā)展也為語料庫的建設(shè)提供了支持。 從字符編碼、文本輸入和整理,語料的自動分詞和標(biāo)注,到語料的統(tǒng)計和檢索,自然語言信息處理的研究都為語料的加工提供了關(guān)鍵性的技術(shù)。下面先簡要敘述1998年到2003年中國語料庫建設(shè)的基本情況,然后介紹語料庫的加工、管理和規(guī)范問題,最后談?wù)務(wù)Z料庫方法在語言研究和語言工程等方面的應(yīng)用。 由于以前的《中國語言學(xué)年鑒》很少談及語料庫問題,為了盡可能全面地反映我國語料庫研究和應(yīng)用的情況,必要時會將時間上限向前延伸幾年。二中國語料庫建設(shè)的基本情況90年代末到新世紀(jì)初這幾年投入建設(shè)或開始使用的語料庫有數(shù)十個之多, 不同的應(yīng)用目的使這些語料庫的類型各不相同,對語料的加工方法也各不相同。下面是其中已開始使用并且具有一定代表性的語料庫。(一)現(xiàn)代漢語通用語料庫這是一個由國家語言文字工作委員會主持建立、面向全社會應(yīng)用需求的大型通用語料庫,從90年代初開始建設(shè),計劃規(guī)模7000萬字,主要應(yīng)用目標(biāo)是語言文字信息處理、語言文字規(guī)范和標(biāo)準(zhǔn)的制定、語言文字的學(xué)術(shù)研究、語文教育、以及語言文字的社會應(yīng)用。這個語料庫收錄的語料以書面語為主、以書面語轉(zhuǎn)述的口語為輔。語料來源是 1919年至今,主要是1977年至今出版的教材、報紙、綜合性刊物、專業(yè)刊物和圖書。在設(shè)計原則上,講求通用性、描述性、實用性和抽樣的科學(xué)性。在語料分類方面,以“門類為主,語體為輔”為原則制定三個大類:第一類:人文與社會科學(xué)類(包括 8個次類、30個細類)1.政法類:哲學(xué)政治宗教法律2?歷史類:歷史考古民族3?社會類:社會學(xué)心理語言文字教育文藝?yán)碚撔侣劽袼??經(jīng)濟類:工業(yè)經(jīng)濟農(nóng)業(yè)經(jīng)濟政治經(jīng)濟財貿(mào)經(jīng)濟5?藝術(shù)類:音樂美術(shù)舞蹈戲劇6?文學(xué)類:小說散文傳記報告文學(xué)科幻口語7.軍體類:軍事體育&生活類第二類:自然科學(xué)類(包括6個次類)1?數(shù)理類2?生化類3?天文地理類4.海洋氣象類5?農(nóng)林類6.醫(yī)藥衛(wèi)生類第三類:綜合類(包括6個次類,30多個細類)1.仃政公文類:請示報告批復(fù)命令指示布告紀(jì)要通知等2.章程法規(guī)類:章程條例細則制度公約辦法法律條文等3.司法文書類:訴訟辯護詞控告信委托書等4.商業(yè)文告類:說明廣告調(diào)查報告經(jīng)濟合同等?禮儀辭令類: 歡迎詞賀電訃告唁電慰問信祝酒詞等?實用文書類:請假條檢討申請書請愿書等在不同類別、不同來源、不同時期的語言材料中,按照不等密度的思路確定合適的語料選取比例,從共時和歷時兩個角度保證入選語料的平衡性,是這個語料庫的特點。 譬如,在語言材料的年限方面,選材比例是:1919年-1925年5% 1926年-1949年15%1950年T965年25% 1966年T976年5%1977年以后50%在語言材料的門類、語體和來源方面,選材比例是:人文與社會科學(xué)類占59.6%。其中各個次類在本大類中的比例是:政法12.7%歷史8.4%社會14.0%經(jīng)濟9.8%藝術(shù)6.7%文學(xué)44.9%軍體2.3%生活1.4%自然科學(xué)類占17.24%。其中各個次類在本大類中的比例是:數(shù)理17.2%生化19.1%天文地理14.1%海洋氣象9.1%農(nóng)林22.8%醫(yī)藥衛(wèi)生17.7%綜合類占9.36%。其中各個次類在本大類中的比例是:各類應(yīng)用文91.1%其他8.9%報紙類占13.79%。其中各個次類在本大類中的比例是:全國性報刊25%省市報刊75%這個語料庫在選材過程中收集和記錄語料的有關(guān)描述信息,為每個語料樣本設(shè)立了 20個描述項目:總號、分類號、樣本名稱、類別、作者、寫作時間、書刊名稱、編著者、出版者、出版日期、期號(版面號)、版次(初版日期)、印冊數(shù)、總頁數(shù)、開本、選樣方式、樣本起止頁數(shù)、樣本字數(shù)、樣本總數(shù)、繁簡字。用戶可以利用這些語料描述標(biāo)記根據(jù)各自的需要進行各種方式的檢索。語料庫的建庫工作分為兩步,第一步先建立核心語料庫(由 7000萬字的語料中篩選出2000萬字語料組成)。到 90年代末,完成了2000萬字生語料的收錄工作。從2001年開始,對2000萬字核心語料進行分詞和詞性標(biāo)注加工。(二)《人民日報》標(biāo)注語料庫《人民日報》標(biāo)注語料庫由北京大學(xué)計算語言學(xué)研究所和日本富士通公司合作, 從1999年開始,到2002年完成,原始語料取自 1998年全年的《人民日報》,共約 2700萬字,到2003年又擴充到3500萬字,是我國第一個大型的現(xiàn)代漢語標(biāo)注語料庫。這個語料庫加工的項目有詞語切分和詞性標(biāo)注,還有專有名詞(人名、地名、團體機構(gòu)名稱等)標(biāo)注、語素子類標(biāo)注、動詞、形容詞的特殊用法標(biāo)注和短語型標(biāo)注。下面是一段語料標(biāo)注的示例,對于1998年1月1日第5版第1篇文章的第11段:我國的國有企業(yè)改革見成效。位于河南的中國一拖集團有限責(zé)任公司面向市場,積極調(diào)整產(chǎn)品結(jié)構(gòu),加快技術(shù)改造和新產(chǎn)品研制步伐。 圖為東方紅牌履帶拖拉機生產(chǎn)線。 (趙鵬攝)標(biāo)注后的形式是:19980101-05-001-011/m我國/n的/u國有/vn企業(yè)/n改革/v見/v成效/n。/w位于/v河南/ns的/u[中國/ns一拖/j集團/n有限/a責(zé)任/n公司/n]nt面向/v市場/n,/w積極/ad調(diào)整/v產(chǎn)品/n結(jié)構(gòu)/n,/w加快/v技術(shù)/n改造/vn和/c新/a產(chǎn)品/n研制/vn步伐/n。/w圖/n為/v東方紅牌/nz履帶/n拖拉機/n生產(chǎn)線/n。/w(/w趙/nr鵬/nr攝/Vg)/w在每一個切分出來的詞和標(biāo)點符號后面,是該詞語的標(biāo)記。譬如詞性標(biāo)記( n,v,a,u,m,w等),專有名詞標(biāo)記(nr,ns,nz等),語素子類標(biāo)記(Vg等),動詞和形容詞特殊用法標(biāo)記(vn,ad)。所有的標(biāo)記都是以北京大學(xué)的《現(xiàn)代漢語語法信息詞典》為基礎(chǔ)詞庫,在一個加工規(guī)范的指導(dǎo)下標(biāo)注的。利用《人民日報》標(biāo)注語料庫,人們可以從各個角度考察和分析語言事實,統(tǒng)計各種語言單位出現(xiàn)的頻率,譬如,詞語或詞類的分布、搭配和共現(xiàn),專有名詞的結(jié)構(gòu)方式、兼類詞在句子中的表現(xiàn),語素字的使用情況,等等。也可以從語料里提取各種語言單位或語句片段作為研究實例。與僅僅以漢字串的形式表示的“生語料”相比,經(jīng)過標(biāo)注的“熟語料”顯然含有更多的語言學(xué)特征信息, 對漢語詞匯研究、語法研究和漢語信息處理系統(tǒng)來說是更好的語言知識資源。《人民日報》標(biāo)注語料庫中一半的語料( 1998年上半年)共1300萬字已經(jīng)通過《人民日報》新聞信息中心公開提供許可使用權(quán)。其中一個月的語料( 1998年1月)近200萬字在互聯(lián)網(wǎng)上公布,供自由下載。(三)用于語言教學(xué)和研究的現(xiàn)代漢語語料庫建立現(xiàn)代漢語語料庫的主要目的之一是對外漢語教學(xué)和現(xiàn)代漢語研究, 可以分為書面語語料庫和以文本形式表示的口語語料庫兩類。 前者如北京語言大學(xué)的漢語中介語語料庫、 現(xiàn)代漢語研究語料庫,后者如中國社會科學(xué)院語言研究所的北京地區(qū)現(xiàn)場即席話語語料庫。漢語中介語語料庫的建設(shè)目標(biāo)是為對外漢語教學(xué)、中介語研究、偏誤分析和漢語本體研究提供資源,因此它的語料來源很有對外漢語教學(xué)的特點。作者先在北京和其他省市的 9所高等院校里,從來自96個國家和地區(qū)的1635位外國留學(xué)生那里收集了成篇成段的漢語作文或練習(xí)材料5774篇,共3528988字。再從中抽取了740人的1731篇語料,共有44218句,1041274字。全部語料都記錄了學(xué)生姓名、性別、年齡、國別、是否華裔、第一語言、文化程度、所學(xué)主要教材、語料類別、寫作時間、提供者等 23項屬性。然后對這104萬字的語料進行詞語切分、 詞性標(biāo)注以及一些專用的語言學(xué)特征標(biāo)注。 例如,標(biāo)出了字、詞、句、篇等不同的層次,對語料的非規(guī)范形式(例如:錯字、別字、繁體字、拼音字、非規(guī)范詞等)做出索引標(biāo)記,記錄其對應(yīng)的規(guī)范形式。這個語料庫的管理系統(tǒng)有語篇屬性登錄、 文本過濾、文字預(yù)處理信息登錄、語料抽樣、斷句、分詞、詞性輔助標(biāo)注、自動標(biāo)注以及語料的主題檢索、全文檢索和數(shù)據(jù)瀏覽等各種功能, 分別處理語料庫的建立、管理和維護,以及用戶瀏覽、查詢和檢索等。與人工收集的學(xué)生病句卡片資料相比, 中介語語料庫能夠更好地反映學(xué)生學(xué)習(xí)漢語的情況,幫助教師更加全面地觀察他們的學(xué)習(xí)過程, 了解影響學(xué)習(xí)和習(xí)得的各種因素。在漢語作為第二語言的教學(xué)中,為教材編寫、課堂教學(xué)、測試等環(huán)節(jié)提供依據(jù)?,F(xiàn)代漢語研究語料庫的建設(shè)目標(biāo)是為語言學(xué)家提供一個研究平臺,由 2000萬字的粗語料庫和200萬字經(jīng)過分詞和詞性標(biāo)注的精語料庫兩個部分組成。 粗語料庫收錄的語料樣本中絕大部分是九十年代的出版物,有《人民日報》 1000萬字,《中國新聞》500萬字,各種書籍250萬字,文學(xué)作品150萬字,準(zhǔn)口語材料(書面形式的對話、獨白)100萬字。精語料庫的200萬字語料樣本是從粗語料庫中按照規(guī)定的比例由計算機隨機抽取的, 有書面語語料160萬字,準(zhǔn)口語語料40萬字,是從語體、題材、體裁三個方面均衡選取的平衡語料庫。為了對這些語料進行詞語切分和詞性標(biāo)注, 作者制定了詞語切分的細則和詞性標(biāo)記體系的原則,采用了一個含有112個詞類標(biāo)記的標(biāo)記集, 確定了兼類詞的處理方法。 這個語料庫的管理系統(tǒng)具有建庫、檢索、瀏覽、統(tǒng)計、輸出等功能,可以按詞或詞類檢索,統(tǒng)計出詞的頻率、詞類頻率、詞類共現(xiàn)頻率、平均詞長、平均句長等結(jié)果。這個語料庫建成以后,很快應(yīng)用在現(xiàn)代漢語語法、漢語教學(xué)和漢語信息處理的研究中, 研究內(nèi)容涉及現(xiàn)代漢語的插入語、 漢語句子的主題-主語標(biāo)注、V+N序列實驗分析、詞性標(biāo)注中詞語歸類問題、動賓組合的自動獲取與標(biāo)注,等等。建設(shè)北京地區(qū)現(xiàn)場即席話語語料庫的目的是, 通過收集大量的現(xiàn)場即席話語語料研究現(xiàn)場即席話語的各種動態(tài)機制,以揭示現(xiàn)場即席話語的使用規(guī)律。 這個語料庫的研究策略和取樣方法很有特點,首先是嚴(yán)格區(qū)分資源庫和語料庫, 資源庫收集符合現(xiàn)場即席話語定義的錄音材料,語料庫收錄按照一定標(biāo)準(zhǔn)從資源庫提取出來的材料; 另外在語料采樣前先做摸底性研究,通過研究對現(xiàn)場即席話語的真實情況有所了解,確定取樣域,再定取樣范疇,然后根據(jù)取樣范疇去錄現(xiàn)場典型材料, 這是一種層次范疇化的取樣方法。 這個語料庫目前正在建設(shè)之中,已經(jīng)取得了近600小時的錄音材料和50多小時的錄象材料。在用于漢語研究的語料庫中,講究選材均衡,注重語料加工,同時也提供公開服務(wù)的,當(dāng)數(shù)臺灣中央研究院歷史語言研究所的現(xiàn)代漢語平衡語料庫 (簡稱SinicaCorpus)。這個語料庫的規(guī)模為500萬個詞,每個句子都依詞斷開,標(biāo)示詞類標(biāo)記,并且配備了檢索系統(tǒng), 在網(wǎng)上開放供大家使用。根據(jù)自己制定的一套漢語文本屬性特征為語料分類, 在不同的類別上盡量均衡地采集語料,是這個語料庫的特點之一。 文本屬性用來說明文檔的呈現(xiàn)方式、 文章的寫作方式、文章寫作的內(nèi)容和文檔的來源出處,包括 7類,每類下設(shè)若干小類:文類(文檔的呈現(xiàn)方式)報導(dǎo)、評論、廣告圖文、信函、公告啟事、小說故事寓言、散文、傳記日記、詩歌、語錄、說明手冊、劇本、會話、演講 、會議記錄文體(文章的寫作方式)記敘、論說、說明、描寫語式(文檔的呈現(xiàn)方式)書面語、演講稿、劇本/臺辭、口語談話、會議記錄主題(文章寫作的內(nèi)容)哲學(xué)、科學(xué)、社會、藝術(shù)、生活、文學(xué)媒體報紙、一般雜志、學(xué)術(shù)期刊、教科書、工具書、學(xué)術(shù)論著、一般圖書、書信、視聽媒體、其它作者姓名、性別、國籍、母語出版一出版單位、出版地、出版日期、版次不同研究目的的語言學(xué)者可以自己按語式、文體、媒體和主題的小類選取不同類別的語料,組成“自訂語料庫”,在“自訂語料庫”的范圍內(nèi)進行語料的檢索和統(tǒng)計。除了通常的按詞語、詞類的檢索和統(tǒng)計以外,這個語料庫的管理系統(tǒng)還提供了一種“進階處理”功能,對檢索出來的數(shù)據(jù)作進一步處理,對處理的結(jié)果還可以再次處理,形成多層的檢索結(jié)果。(四)面向語言信息處理的現(xiàn)代漢語語料庫90年代中后期,面向語言信息處理的現(xiàn)代漢語語料庫開始建立并投入應(yīng)用。 其中最早開發(fā)的是清華大學(xué)用于研究和開發(fā)漢語自動分詞技術(shù)的現(xiàn)代漢語語料庫, 經(jīng)過幾年的積累已達到8億多字生語料。在這個語料庫的支持下,用統(tǒng)計語言模型的方法研究了漢語自動分詞中的理論、算法和技術(shù),編制了總數(shù)為9萬多個詞語的《信息處理用現(xiàn)代漢語分詞詞表》。這些研究工作體現(xiàn)了我國漢語自動分詞技術(shù)的發(fā)展水平, 詞表被許多漢語自動分詞系統(tǒng)作為底表使用,是不可缺少的基礎(chǔ)資源。TH通用語料庫系統(tǒng)是清華大學(xué)建立的另一個現(xiàn)代漢語語料庫。 這個語料庫有兩個特點,一是語料庫管理系統(tǒng)根據(jù)不同的加工深度, 分四個等級管理語料。 第一級是生語料分庫, 有4千余萬字;第二級以上都是加工程度不同的熟語料庫,其中第二級存放經(jīng)過自動分詞并由人工校對過的初加工語料 500余萬字;第三級存放經(jīng)過詞性標(biāo)注和人工校對的語料約 300萬字;第四級是經(jīng)過句子成分標(biāo)注和人工校對的語料。 每個分庫又按語料的來源分成一般書籍、報紙、雜志、論文和工具書五類子庫。不同等級的語料可以為不同的應(yīng)用目標(biāo)服務(wù)。第二個特點是在這個語料庫的支持下, 進行了漢語信息處理技術(shù)的研究。 譬如,采用以謂語為中心的句型成分分析與語料統(tǒng)計相結(jié)合的方法, 自動分析漢語的句型, 提出了一個“漢語句型頻度表”;在漢語文本中自動標(biāo)注句子成分和句型成分的邊界; 根據(jù)指定的句型在語料庫里搜尋句子實例,等等。HuaYu人工標(biāo)注語料庫是清華大學(xué)和北京語言大學(xué)合作建立的一個現(xiàn)代漢語平衡語料庫。這個語料庫按文學(xué)、新聞、學(xué)術(shù)、應(yīng)用文四個大類收錄了 200余萬字語料。它的特點是講究加工的深度,除了詞語切分和詞性標(biāo)注以外, 還根據(jù)語句中動詞的類型和句子的長度進行“語塊”標(biāo)注和“句法樹”標(biāo)注,目的是為建立漢語短語分析或句法分析的語言模型獲取統(tǒng)計數(shù)據(jù)提供資源。下面分別是語塊標(biāo)注和句法樹標(biāo)注的示例。對句子“自古以來,人類就重視檔案的保存和利用,設(shè)置館庫、選派專人進行管理。”進行語塊標(biāo)注以后得到的是一個無嵌套的線性序列,其中 S是主語語塊,P是述語語塊,O是賓語語塊:[D自/p古/t以來/f,/,[S人類/n[D就/d[P重視/v[O檔案/n的/u保存/vN和/c利用/vN,/,[P設(shè)置/v[O館庫/n、/、[P選派/v[O專人/n[P進行/v[O管理V。對句子“我哥哥送給我一本很漂亮的書?!边M行句法樹標(biāo)注以后,得到的是一個與樹形結(jié)構(gòu)等價的線性序列:[zj-XX[dj-ZW[np-DZ我/rN哥哥/n][vp-PO[vp-PO[vp-SB送/v給/v]我/rN][np-DZ[mp-DZ一/m本/qN][np-DZ[ap-ZZ很/d漂亮/a]的/u書/n]]]]。/w](五)用于開發(fā)特定語言分析技術(shù)的專用語料庫這類語料庫是針對漢語信息處理技術(shù)的需要專門建立的。 例如山西大學(xué)的專有名詞標(biāo)注語料庫和分詞與詞性標(biāo)注語料庫。分詞與詞性標(biāo)注語料庫,規(guī)模為 500萬字,帶有分詞標(biāo)記、詞性標(biāo)記和句法標(biāo)記。標(biāo)注時依據(jù)《信息處理用現(xiàn)代漢語分詞規(guī)范》和《信息處理用現(xiàn)代漢語詞類及標(biāo)記集規(guī)范》。在這個語料庫的支持下, 開發(fā)漢語自動分詞和詞性標(biāo)注軟件, 研究自動分詞和詞性標(biāo)注的評測技術(shù)。為了解決漢語自動分詞中的切分歧義問題, 還建立了交集型歧義字段庫和組合型歧義字段庫,專門收集這兩種類型的歧義切分實例。前者有 7.8萬字,后者收錄了140多條。并且在分詞和詞性標(biāo)注語料庫里作了這兩類切分歧義的標(biāo)注。 利用這些語料調(diào)查交集型歧義當(dāng)中的“偽歧義”現(xiàn)象(既切分結(jié)果只可能有唯一選擇的那些交集型歧義切分字段),發(fā)現(xiàn)這種現(xiàn)象在歧義切分字段中很普遍,可以達到 90%以上。專有名詞標(biāo)注語料庫用于研究漢語自動分詞中專有名詞的識別算法。 其中包括標(biāo)注了中國地名的語料280萬字,標(biāo)注了中國人姓名的語料 300萬字,標(biāo)注了西文姓名的語料 250萬字,標(biāo)注了漢語機構(gòu)名稱的語料 50萬字,還有標(biāo)注了網(wǎng)絡(luò)新詞語的語料 150萬字。利用這些語料,建立了中國地名用字、用詞庫,姓氏人名庫,姓氏用字頻率表,名字用字頻率表等,用統(tǒng)計語言模型的方法識別專有名詞。(六) 雙語語料庫基于實例的機器翻譯(Example-based)需要大規(guī)模的雙語平行語料庫來支持。語料庫里的源語和目標(biāo)語實例要按照相同級別的翻譯單位一一對齊。 目前已有的雙語平行語料庫主要是漢語和英語的,語料對齊的單位有句子級的、子句級的、短語級的,也有詞匯級的。機器翻譯系統(tǒng)把要翻譯的句子與語料庫里的源語實例進行對比, 分析相似程度,找到最適合的源語實例,再參照與它對齊的目標(biāo)語實例生成譯文。 用于這類機器翻譯系統(tǒng)的雙語語料庫必須有一定的規(guī)模,用人工做語料對齊的工作顯然很難滿足要求。 這就使文本自動對齊成為建立雙語語料庫的關(guān)鍵技術(shù)。在目前已有的雙語語料庫中, 哈爾濱工業(yè)大學(xué)的漢英平行語料庫已經(jīng)直接用來開發(fā)英漢雙向機器翻譯系統(tǒng)。這個語料庫有6萬個漢語和英語的句子,使用多級對齊加工技術(shù),分別按照句子、短語結(jié)構(gòu)和詞一一對齊。中國科學(xué)院計算技術(shù)研究所的漢英雙語語料庫有 20萬個句對,也完成了句子一級的對齊, 并在網(wǎng)上提供查詢服務(wù)。北京大學(xué)、中國科學(xué)院軟件研究所等單位也建立了按句對齊的漢英雙語語料庫。 除此之外,還有以語段或短語為單位收集的漢英雙語語料庫,譬如中國科學(xué)院自動化研究所的漢英雙語短語庫, 有3~5萬對已對齊的漢語和英語短語。東北大學(xué)的英漢雙語語段庫,用來幫助建立電子版的英漢搭配詞典。(七) 面向漢語史研究的語料庫面向漢語史研究的語料庫建設(shè)是從搜集漢語史文獻資料開始的。 臺灣中央研究院歷史語言研究所從90年代初期就開始了這項工作,他們先收集上古漢語的語料,然后擴展到中古漢語和近代漢語。90年代中后期逐步開始上古漢語語料和近代漢語的標(biāo)注,在該院信息研究所和計算中心的協(xié)助下進行標(biāo)注技術(shù)和檢索技術(shù)的開發(fā)。 根據(jù)是否經(jīng)過分詞處理和詞性標(biāo)注,臺灣中央研究院的古漢語語料庫和近代漢語語料庫可以分成兩類: 生語料庫和標(biāo)記語料庫。目前生語料庫收集的語料已涵蓋上古漢語 (先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以后)的大部分重要文獻資料,并己陸續(xù)開放使用。在標(biāo)記語料庫方面,上古漢語及近代漢語都已有部分語料完成標(biāo)注工作,也逐步提供網(wǎng)上檢索。 2001年底,開放了近代漢語標(biāo)記語料庫WWW版供各界使用,首先提供查詢的文獻是 《紅樓夢》及《三遂平妖傳》。在查詢方面,除了常用的功能以外, 還可以在顯示詞項及詞類的同時給出例句的出處,便于歷史語法的研究者使用。多年來中國社會科學(xué)院語言研究所也一直在致力于文獻資料的建設(shè), 搜集整理了近代漢語書面語語料150萬字,中古近代漢語語料約1千萬字,部分語料已作了標(biāo)注。目前已經(jīng)完成了一個小型語料庫,包括:敦煌變文集、祖堂集、三朝北盟匯編、碧巖錄、朱子語類、劉知遠諸宮調(diào)、西廂記諸宮調(diào)、元刊全相平話五種、元典章 刑部、老乞大諺解、樸通事諺解、孝經(jīng)直解、魯齋遺書、經(jīng)筵講義等十余種文獻,成為漢語史和語言學(xué)理論研究的重要資源。此外,語言研究所的先秦專書電子文檔有 4部文獻,共約120萬字,并且已由古漢語學(xué)者逐篇逐句標(biāo)注了語法信息。上海師范大學(xué)、浙江師范大學(xué)、四川大學(xué)等學(xué)校也依據(jù)各自漢語史研究的方向,建立了歷史文獻語料庫。四川大學(xué)的中古漢語語料庫有 1億字的中古漢語語料和有關(guān)中古漢語研究的資料。浙江師范大學(xué)的楚辭語庫、前四史語庫、六朝語庫、太平廣記語庫、唐詩語庫、宋詞語庫,已用于”前四史”語言研究和唐宋詩詞語詞研究。目前歷史文獻語料庫建設(shè)的特點是依托學(xué)科建設(shè)和研究方向,廣泛收集資料,注重校勘精審。隨著漢語史研究和語料庫應(yīng)用的發(fā)展,資源共享和語料加工將得到越來越多的重視。歷史文獻資源共享,首先要避免語料的重復(fù)收集,還要采用國際通用的標(biāo)準(zhǔn)處理語料文本,使語料能夠準(zhǔn)確、方便地交換和使用。語料加工則是充分發(fā)掘語料應(yīng)用價值的基礎(chǔ)工作, 從收集歷史文獻的電子文檔,到建成一個具有必要的語言學(xué)標(biāo)記信息、 合理的邏輯結(jié)構(gòu)和方便的檢索功能的語料庫,語料的加工是不可或缺的一步。(八) 比較語料庫為了研究漢語在不同地區(qū)的使用情況,香港城市大學(xué)建立了 LIVAC共時語料庫(LinguisticVariationinChineseSpeechCommunities)。語料來自香港、臺灣、北京、上海、澳門及新加坡六地有代表性的中文報紙, 以及電子媒介上的新聞報道。 自1995年7月
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 仁愛版初中英語單詞表
- 高一化學(xué)教案:第二單元食品中的有機化合物
- 2024高中地理第1章區(qū)域地理環(huán)境與人類活動第3節(jié)第2課時南方與北方西部大開發(fā)學(xué)案湘教版必修3
- 2024高中語文第2單元孟子蚜第4課樂民之樂憂民之憂練習(xí)含解析新人教版選修先秦諸子蚜
- 2024高中語文第六單元文無定格貴在鮮活春夜宴從弟桃花園序訓(xùn)練含解析新人教版選修中國古代詩歌散文欣賞
- 2024高考化學(xué)一輪復(fù)習(xí)第四章非金屬及其化合物第三講硫及其化合物規(guī)范演練含解析新人教版
- 2024高考歷史一輪復(fù)習(xí)方案專題四世界政治制度的演變與發(fā)展第12講解放人類的陽光大道教學(xué)案+練習(xí)人民版
- 2024高考地理一輪復(fù)習(xí)第二部分人文地理-重在運用第四章工業(yè)地域的形成與發(fā)展第23講工業(yè)地域的形成與工業(yè)區(qū)學(xué)案新人教版
- 小學(xué)2024-2025年第二學(xué)期小學(xué)科學(xué)教學(xué)計劃
- 鋼結(jié)構(gòu)廠房施工準(zhǔn)備
- GB/T 304.2-2015關(guān)節(jié)軸承代號方法
- GA/T 537-2005母線干線系統(tǒng)(母線槽)阻燃、防火、耐火性能的試驗方法
- 錄用通知書郵件
- 影響健康的主要因素課件
- 小學(xué)三年級數(shù)學(xué)軸對稱圖形練習(xí)題
- 【自考練習(xí)題】大連交通大學(xué)概率論與數(shù)理統(tǒng)計真題匯總(附答案解析)
- 布袋除塵器分部分項驗收記錄表完整
- 公路工程質(zhì)量鑒定辦法
- 水果購銷合同模板(精選5篇)
- 板框壓濾機方案具體方案模板
- 鉆探工程編錄方法課件
評論
0/150
提交評論