語料庫建設(shè)(下)_第1頁
語料庫建設(shè)(下)_第2頁
語料庫建設(shè)(下)_第3頁
語料庫建設(shè)(下)_第4頁
語料庫建設(shè)(下)_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

語料庫建設(shè)(下)授課時(shí)間:2006年12月13日授課人:徐艷華教學(xué)目標(biāo)語料庫的應(yīng)用國內(nèi)語料庫的建設(shè)情況語料庫的建庫原則語料庫的建庫流程語料庫的基本功能一、語料庫的應(yīng)用語料庫語言學(xué)的發(fā)展使語料庫在語言教學(xué)、語言研究和語言工程各個(gè)領(lǐng)域得到了廣泛的應(yīng)用,具體說來包括以下幾個(gè)方面:語言頻率統(tǒng)計(jì)語料庫最早的應(yīng)用領(lǐng)域之一是語言頻率統(tǒng)計(jì)。語言頻率統(tǒng)計(jì)屬于基礎(chǔ)研究,如漢語中的字頻統(tǒng)計(jì)、英語中的詞匯頻率統(tǒng)計(jì)、各種詞類的出現(xiàn)頻率統(tǒng)計(jì)等等。詞典編纂詞典是使用中的語言的記錄,從詞條的選擇、義項(xiàng)的確定、詞義的解釋、例句的選用,無不反映編纂者的語言觀,辛克萊教授在20世紀(jì)70年代帶頭建立了COBUILD語料庫,采用詞語索引技術(shù)對海量語料進(jìn)行大規(guī)模調(diào)查,從此開創(chuàng)了現(xiàn)代詞典編纂的先河。詞匯搭配研究詞的搭配是語言的固有特征之一,詞的搭配往往是不能跨語言的,在一種語言中可接受的搭配,在另一種語言中不一定可接受。詞的搭配往往受到詞義、用法、文化、習(xí)慣等多種因素的影響。搭配研究本來主要靠語言學(xué)家的語感,大容量語料庫的問世為搭配研究提供了客觀的量化分析的依據(jù),使詞匯搭配研究更科學(xué)、更全面。語言教學(xué)由于語料庫是語言事實(shí)的采樣,這就為語言教學(xué)提供了真實(shí)的語言材料。學(xué)生可以自己到語料庫中查詢詞的用法、詞的搭配、詞義的細(xì)微差別等等。這就是所謂的數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)。數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)不但為學(xué)生提供真實(shí)的語境,而且為學(xué)生提供了一種探索語言的手段,學(xué)生可以像語言學(xué)家研究語言一樣對語言進(jìn)行主動(dòng)的探索,這在寫作教學(xué)中可以收到很好的效果。自然語言處理語料庫語言學(xué)為自然語言處理提供了概率方法,為自然語言處理研究開辟了新的途徑,由于概率是語言運(yùn)用的固有特征,因此基于概率分析的自然語言處理系統(tǒng)對不受限制的極其復(fù)雜的真實(shí)語料的處理,成功率要高得多,而且系統(tǒng)健壯,在遇到自然語言中大量存在的不規(guī)范句或部分規(guī)范句時(shí)系統(tǒng)不會(huì)中斷。語料庫語言學(xué)方法在語音識別系統(tǒng)中早就得到了廣泛的應(yīng)用,在機(jī)器翻譯和其他自然語言處理系統(tǒng)中也愈來愈得到研究者的重視。二、國內(nèi)語料庫的建設(shè)情況北航語料庫目的是進(jìn)行現(xiàn)代漢語詞頻統(tǒng)計(jì)。歷時(shí)語料庫,將1919——1981年間分為四個(gè)時(shí)期,按時(shí)期從社會(huì)科學(xué)和自然科學(xué)中采用隨機(jī)和等距、分層相結(jié)合的采樣方法抽取語料,規(guī)模為20,236,784個(gè)漢字。1986年6月通過鑒定。

北京語言學(xué)院語料庫:目的是進(jìn)行現(xiàn)代漢語詞頻統(tǒng)計(jì),歷時(shí)語料庫,選取“五四”以來的報(bào)刊政論、科普、生活口語和文學(xué)作品,共計(jì)179篇,規(guī)模為180萬漢字。1985年7月建成。

北師大語料庫:目的對中小學(xué)語文課本進(jìn)行詞頻統(tǒng)計(jì)研究,歷時(shí)語料

庫,選取1983年——1984年度國內(nèi)

中小學(xué)語文課本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論