語料庫語言學(xué)_第1頁
語料庫語言學(xué)_第2頁
語料庫語言學(xué)_第3頁
語料庫語言學(xué)_第4頁
語料庫語言學(xué)_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

語料庫語言學(xué)提綱1什么是語料庫

2語料庫的發(fā)展簡史

3語料庫的設(shè)計(jì)

4語料庫的加工

5語料庫的應(yīng)用語料庫與語料庫語言學(xué)傳統(tǒng)上認(rèn)為語料庫就是存放語言材料的倉庫(或數(shù)據(jù)庫)。語料庫語言學(xué)主要包括兩方面的內(nèi)容:一是對自然語料進(jìn)行加工、標(biāo)注;二是用已經(jīng)標(biāo)注好的語料進(jìn)行語言研究和應(yīng)用開發(fā)。1什么是語料庫在今天,僅僅將語料庫視為存放語言材料的倉庫,是令人無法忍受的觀點(diǎn)。新一代的兆億級的大規(guī)模語料庫可以作為語言模型的訓(xùn)練和測試手段,來評價一個語言模型的質(zhì)量;此外,諸如困惑度之類的統(tǒng)計(jì)方法也可利用語料庫來評估一個語法模型對語料的解釋能力。——GeoffreyLeech,TheStateofTheArtinCorpusLinguistics,1991,InAijmar,K.andAltenberg,B.,eds.,EnglishCorpusLinguistics:StudiesinHonorofJanSvartvik,London:Longman,1991.關(guān)于語料庫的三點(diǎn)基本認(rèn)識1.語料庫中存放的是在語言的實(shí)際使用中真實(shí)出現(xiàn)過的語言材料;

2.語料庫是以電子計(jì)算機(jī)為載體承載語言知識的基礎(chǔ)資源;

3.真實(shí)語料需要經(jīng)過加工(分析和處理),才能成為有用的資源;語料庫示例(一)北京大學(xué)計(jì)算語言所富士通人民日報(bào)標(biāo)注語料庫樣例:歷史/n將/d銘記/v這個/r坐標(biāo)/n:/w北緯/b41.1/m度/q、/w東經(jīng)/b114.3/m度/q;/w人們/n將/d銘記/v這/r一/m時刻/n:/w1998年/t1月/t10日/t11時/t50分/t。/w……[中國/ns政府/n]nt順利/ad恢復(fù)/v對/p香港/ns行使/v主權(quán)/n,/w并/c按照/p“/w一國兩制/j”/w、/w“/w港人治港/l”/w、/w高度/d自治/v的/u方針/n保持/v香港/ns的/u繁榮/an穩(wěn)定/an。/w語料庫示例(二)London-Lund英語口語語料庫樣例^whata_boutacigar\ette#./*((4sylls))*/*I^w\on'thaveoneth/anks#*---/^aren'tyou.goingtositd/own#-/^[/\m]#-/^havemy_coffeeinp=eace#---/^quiteanice.roomto!s\itin((actually))#/*^\isn't*it#/*^y/\es#*---/轉(zhuǎn)引自TonyMcEnery&AndrewWilson,1996,CorpusLinguistics,p55。語料庫與語言知識庫語言知識庫(LinguisticDatabase)語料庫(corpora/corpus)2語料庫發(fā)展簡史早期語料庫語言學(xué)(20世紀(jì)50年代中期以前,喬提出轉(zhuǎn)換生成語法理論之前的所有基于語言材料的語言研究)(語言習(xí)得:方言學(xué);語言教學(xué);句法和語義;音系研究)20世紀(jì)50年代Chomsky的影響(1.喬認(rèn)為基于語料庫得研究方法有誤,提倡理性主義;2.語料的不充分性,短語結(jié)構(gòu)具有遞歸性)第一代(1970-80年代)

第二代(1980-90年代)

第三代(1990年代-)第一代語料庫Brown語料庫

LOB語料庫百萬詞級以語言研究為導(dǎo)向

LLC語料庫第二代語料庫COBUILD語料庫?千萬詞級詞典編纂-應(yīng)用導(dǎo)向Longman語料庫第三代語料庫ACL/DCI語料庫(上億詞級)

標(biāo)準(zhǔn)編碼體系UPenn樹庫

深度標(biāo)注/多語種LDC超大規(guī)模NLP應(yīng)用3語料庫的設(shè)計(jì)語料庫的編碼體系SGML(標(biāo)準(zhǔn)置標(biāo)語言)/MarkUp/SGML/XML(可擴(kuò)展的置標(biāo)語言)/TR/REC-xmlTEI(文檔編碼計(jì)劃)http://www.tei-/CES(語料庫編碼標(biāo)準(zhǔn))/Applications/index-co02.html馮志偉,1998,《標(biāo)準(zhǔn)通用置標(biāo)語言SGML及其在自然語言處理中的應(yīng)用》,載《當(dāng)代語言學(xué)》1998年第4期。CES標(biāo)準(zhǔn)(CorpusEncodingStandard)語料庫/n標(biāo)記/n應(yīng)該/v有/v規(guī)范/n

<sample_corpora>…

語料庫A:不符合CES<p>

<s><wPOS="n">語料庫</w>

語料庫B:符合CES<wPOS="n">標(biāo)記</w><wPOS="v">應(yīng)該</w><wPOS="v">有</w><wPOS="n">規(guī)范</w></s></p>…</sample_corpora>4語料庫的加工語料庫標(biāo)注(Annotation)1)詞性標(biāo)記(Part-of-speechtagging)2)句法層次和范疇標(biāo)記(Grammaticalparsing)3)詞義標(biāo)記(Wordsensetagging)4)篇章指代標(biāo)記(Anaphoricannotation)5)韻律標(biāo)記(Prosodicannotation)……p.lancs.ac.uk/computing/research/ucrel/annotation.html語料庫加工工具雙語語料庫(BilingualCorpora)加工段落對齊

句子對齊

詞對齊

短語對齊雙語句子對齊基于長度(length-based)的對齊方法Gale&Church(1993)純粹基于句子的長度來估計(jì)對齊可能性資源要求少,算法效率相對較高

基于詞(word-based)的對齊方法一般要依賴詞典資源,算法效率相對較低雙語句子對齊示例雙語句子對齊問題5語料庫應(yīng)用1.支持自然語言處理應(yīng)用系統(tǒng)開發(fā)

2.支持語言學(xué)研究和語言教學(xué)研究語料庫對NLP的支持基于大規(guī)模語料庫的語音識別;

基于大規(guī)模語料庫的音字轉(zhuǎn)換技術(shù)(中文輸入);基于大規(guī)模語料庫的自動文本校對技術(shù);

利用語料庫訓(xùn)練HMM模型進(jìn)行分詞,詞性標(biāo)注,詞義標(biāo)注,等等;

基于語料庫的句法分析;

基于語料庫的機(jī)器翻譯;

基于機(jī)器學(xué)習(xí)技術(shù),通過語料庫獲取語言知識,包括搭配特征,句法規(guī)則,等等;

基于語料庫的語言模型訓(xùn)練和語法模型評價;中文音字轉(zhuǎn)換基于語料庫的語言研究Concordance(索引——相關(guān)集列)Collocation(搭配的定量研究)CobuildConcordanceandCollocationsSamplerhttp://titania.cobuild.collins.co.uk/form.html臺灣“中研院”現(xiàn)代漢語平衡語料庫http://www.sinica.edu.tw/ftms-bin/kiwi.sh

孫茂松等,1997,《漢語搭配定量分析初探》,載《中國語文》1997年第1期。pp29-38。關(guān)于搭配的定義搭配是重復(fù)出現(xiàn)的;

“大手筆”——“大文科”/“大歷史”

搭配是不可類推的;(自由組合——受限組合)

“吃豆腐”——“吃白菜”——“喝西北風(fēng)”

搭配一般具有正常的句法結(jié)構(gòu);

“戴高帽”——?“戴高”——“風(fēng)馬牛不相及”

搭配通常與領(lǐng)域相關(guān);

“語言習(xí)得”——“學(xué)說話”“風(fēng)險(xiǎn)投資”其他研究風(fēng)格學(xué)研究

抽取詞表(單語,雙語)

統(tǒng)計(jì)字頻、詞頻,編寫語言教材

詞典編纂

句法結(jié)構(gòu)研究

句型研究

……小結(jié)語料庫對NLP和語言研究與教學(xué)都有非常重要的意義;語料庫的建設(shè)是非常昂貴的;要利用好語料庫,應(yīng)該盡量打好統(tǒng)計(jì)基礎(chǔ);進(jìn)一步閱讀文獻(xiàn)Gale,W.&Church,K.,Aprogramforaligningsentenceinbilingualcorpora,InComputationallinguistics,Vol.19,No.1,1993.

劉昕,周明,黃昌寧,1995,《基于長度算法的中英雙語文本對齊的試驗(yàn)》,載陳力為等主編《計(jì)算語言學(xué)進(jìn)展與應(yīng)用》,清華大學(xué)出版社1995年版。

孫宏林,1997,《從標(biāo)注語料庫中歸納語法規(guī)則:“V+N”序列試驗(yàn)分析》,載陳力為、袁琦主編《語言工程》,清華大學(xué)出版社1997年版,pp157-163。

《當(dāng)代語言學(xué)》1998年第1期,語料庫語言學(xué)???/p>

GraemeKennedy,1998,AnIntroduction

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論