語料庫語言學(xué)_第1頁
語料庫語言學(xué)_第2頁
語料庫語言學(xué)_第3頁
語料庫語言學(xué)_第4頁
語料庫語言學(xué)_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

語料庫語言學(xué)介紹語料庫和語料庫語言學(xué)的定義國外對語料庫語言學(xué)的定義:1、根據(jù)篇章材料對語言的研究稱為語料庫語言學(xué)。(K.A

ijm

er

&B.itenberg,1991)2、基于現(xiàn)實生活中語言運用的實例進(jìn)行的語言研究稱為語料庫語言學(xué)。(T.M

cEnery

&A.W

ilson,1996)3、以語料為語言描寫的起點或以語料為驗證有關(guān)語言的假說的方法稱為語料庫語言學(xué)。(D.Crystal,1991)我們認(rèn)為較為準(zhǔn)確全面定義:語料庫(corpus或corpora[復(fù)數(shù)]):是指按照一定的語言學(xué)原則,運用隨機(jī)抽樣方,收集自然出現(xiàn)的連續(xù)語言運用文本或話語片

段而建成的具有一定容量的大型電子文本

庫。語料庫語言學(xué):在文本語料的基礎(chǔ)上進(jìn)行語言研究的一門學(xué)科。語料庫語言學(xué)的研究對象語料庫語言學(xué)是以語料庫中收集儲存的真實語言材料做為唯一的研究對象,以語言現(xiàn)象出現(xiàn)的概率為依據(jù)。因此,語料庫語言學(xué)為語言學(xué)研究提供了一種全新的研究思路。一個合格的語料庫必須以電子計算機(jī)為載體來存放語言材料,這些存放在電子計算機(jī)中的語言材料是在語言的實際使用中真實出現(xiàn)過的。因此,它們可以如實地反映語言現(xiàn)象,克服語言學(xué)家觀察語言現(xiàn)象時的主觀性。語料庫語言學(xué)的應(yīng)用1、語料庫語言學(xué)與語言研究(1)語料庫與語言學(xué)理論。語料庫的建立使語言的理論研究的手段和方法發(fā)生了巨大的變化,它不但修正了語言的一般性規(guī)則,而且對語言的理論探索也產(chǎn)生了深遠(yuǎn)的影響。(2)語料庫語言學(xué)與語言史研究。大多數(shù)語料庫的語料都有特定的年代跨度,根據(jù)不同的研究目的,從一年至百年不等。如為了研究英語史而建立的Helsinki

Corpus

ofEnglish

Tests的歷史部分,年代跨長從公元

850年至1720年,這一語料庫無疑為研究語言的歷史和發(fā)展提供了豐富、可靠的素材。(3)語料庫語言學(xué)與句法、詞法及自動語法分析。利用語料庫進(jìn)行語法分析是語料庫語言學(xué)的早期目的之一。如今,人們對語料庫內(nèi)的語料進(jìn)行更高層次的研究,對入庫的語篇進(jìn)一步的處理,如進(jìn)行詞性附碼和句法分析(詞性附碼:對庫內(nèi)語篇中所有的單詞根據(jù)其語法作用加注詞性編碼。句法分析:對經(jīng)過自動詞性附碼的語料庫根據(jù)某種特定的語法描述進(jìn)行語法分析),使語料的自動語法分析成為可能。從而也大大方便了詞的語義及功能研究、近義詞的比較研究、搭配及其結(jié)構(gòu)的研究、語體的研究、英語口語音型和語調(diào)研究、英語名詞短語的成語性研究和英語句法發(fā)展的研究。自動語法分析還被應(yīng)用于語法檢查、詞義排歧、自然語言接口、對名詞短語辯識的改進(jìn)、機(jī)器翻譯等。(4)語料庫語言學(xué)與口語研究。語料庫在口語研究中的作用有兩個方面:第一,它能提供空前廣泛的口語素材,使對口語的概括和對特定語言內(nèi)方言變異的研究成為可能。第二,其提供的是自然真實的而非人工條件下產(chǎn)生的話語。這就保證了語料庫所提供的語言現(xiàn)象是真實存在的,并能準(zhǔn)確反映實際生活中真正使用的語言的特點。(5)語料庫語言學(xué)與語義研究。語料庫可

用來對為語義提供客觀標(biāo)準(zhǔn),并適當(dāng)考慮

到語義的不確定性。如民特(Mindt,1991)指出,詞項和語言結(jié)構(gòu)的意義常常是根據(jù)

語言學(xué)家本人的直覺來描寫的,而事實上

語義區(qū)別是同句法、詞法和韻律街上下文

的語篇相關(guān),通過語料庫來調(diào)查這些相關(guān)

成分,可以找到特定語義區(qū)別的客觀指示。(6)語料庫語言學(xué)與社會語言學(xué)。社會語

言學(xué)作為一個經(jīng)驗研究領(lǐng)域,主要依賴于

具體的語料數(shù)據(jù)。如何提高數(shù)據(jù)的自然性

和代表性,減少其誘導(dǎo)因素等一系列問題,都可通過對語料庫的運用一步步找到解決

途徑。如介爾默(Kjellmer,1986

)曾經(jīng)調(diào)查了man/men,woman/women及其它相應(yīng)的代詞,結(jié)果表明男性代詞出現(xiàn)的頻率要比女性代詞出現(xiàn)的頻率高。(7)語料庫語言學(xué)與語用學(xué)和語篇分析。語料庫常常是把話語從上下文或語篇中分離出來,因此其所收語料在很大程度上脫離了上下文或社會背景,而語用學(xué)和語篇分析對于場景和上下文又具有一定的依賴性。故以語料庫為基礎(chǔ)的語用或語篇研究相對較少,但語料庫為這些領(lǐng)域所作的貢獻(xiàn)是不可否認(rèn)的。語用學(xué)及相關(guān)領(lǐng)域的研究通常是以會話為基礎(chǔ)的,如倫敦—倫特語料庫

(London-Lund

Corpus)和柯林斯出版公司與伯明翰大學(xué)聯(lián)合開發(fā)的“英語庫”(The

Bank

ofEng2lish,簡稱BOE),前者收集的是日常會話,后者的口語部分包括日常會話會議、討論、采訪、電臺廣播等。(8)語料庫語言學(xué)與文體學(xué)。文體學(xué)研究

的主要對象是作家的寫作風(fēng)格以及比較一

個作家在某一特定歷史時期的作品與其同

時代其他人的作品。語料庫為文體學(xué)研究

提供了量化的實際語料,避免了主觀因素。(9)語料庫語言學(xué)與心理語言學(xué)。語料庫

是心理語言學(xué)家進(jìn)行測試研究的有力工具。尤其在語言病理分析方面能幫助研究人員

準(zhǔn)確確定問題到底發(fā)生在語言發(fā)展的哪一

階段。此外,語料庫語言學(xué)還為話語及會話分析、言語變體(口筆語,語言與性別,方言)、語音科學(xué)、兒童語言習(xí)得研究等方面提供了非常豐富的實例,充分體現(xiàn)了語料庫語言學(xué)在語言研究方面的作用。2、語料庫語言學(xué)與語言測試從語料庫語言學(xué)和語言測試的內(nèi)涵以及兩者的關(guān)系出發(fā),探析基于計算機(jī)的語料庫應(yīng)用于語言測試的必要性、可能性、可行性和局限性等問題。第一、語料庫容量大,可以儲存大量的文本,這樣為實現(xiàn)不同目的、要求以及規(guī)模的語言測試提供可能。第二、語料庫的設(shè)立是建立在語料庫語言學(xué)理論基礎(chǔ)上的,符合語言測試要有理論依據(jù)的要求。第三、語料庫真實性與可靠性等特點以及某些測試如GRE所體現(xiàn)的可行性,又正好迎合了語言測試評估中的要求。第四、語料庫能或多或少地補(bǔ)充和糾正所儲存的語料內(nèi)容,這樣又為語言測試的設(shè)計,試題提供和評估等提供了基礎(chǔ)。3、語料庫語言學(xué)與辭典編纂語料庫不僅能夠提供更完備和詳盡的關(guān)于詞義和詞匯搭配的信息,而且利用語料庫中的頻率統(tǒng)計可以直觀的反映詞匯用法的使用情況。如英國考林斯出版社和伯明翰大學(xué)編輯出版的《國際通用詞典》在很大程度上打破了詞典編撰的傳統(tǒng),從詞條的選定及解釋、用法到釋義的先后順序等都依據(jù)了由2億詞次的COBUILD語料庫中統(tǒng)計出的

頻率。由于語料庫的素材來自實際使用的語言,利用其素材作為詞典的例句更具真實性和準(zhǔn)確性。利用語料庫編撰詞典不僅能反映語言的真實變化,而且編撰周期也會大大縮短。4、語料庫語言學(xué)與語言教學(xué)語料庫及語料庫語言學(xué)的應(yīng)用已經(jīng)在英語教學(xué)的各個方面發(fā)揮了重要的作用。(1)教學(xué)大綱的制定或修訂??蓞⒖己徒梃b語料庫語言學(xué)對英語語言描述的研究成果,使所制定的教學(xué)大綱的體系更加科學(xué),描述更加準(zhǔn)確,更有利于英語的教和學(xué)。(2)教材的選擇。選擇合適的教材對于教學(xué)來說是非常重要的。利用定位檢索軟件

對某些詞在一個語篇中的分布情況和出現(xiàn)

頻率的統(tǒng)計,可以較為客觀地判斷出該語

篇的題材和難度,使取舍有了量化的標(biāo)準(zhǔn)。借助詞頻統(tǒng)計還可以確定哪些是教材中應(yīng)

重點講授的核心詞和語言點以作為教材編

寫和教學(xué)的重點。(3)提供例句的來源。在解釋詞或搭配的意義和用法時,教師不用自己去創(chuàng)造例句(這往往會造成不真實或不準(zhǔn)確),而是

可以借助定位檢索軟件在語料庫中尋找以

該語言為母語的人使用該詞或搭配的例句。這樣得到的例句既生動又真實,因而說服

力強(qiáng)。(4)編寫練習(xí)或測試題。使用定位檢索軟件準(zhǔn)備練習(xí)題或測試題可以極大地減輕教師的工作量,并且使題目更具真實性和可靠性。(5)學(xué)生作文分析。選擇部分學(xué)生作文語體的語篇作為參照語料庫。用定位檢索軟件分別對每個學(xué)生的作文做詞頻統(tǒng)計并將分析結(jié)果打印出來,這樣教師就可以很容易地分析出學(xué)生是否能正確的使用所學(xué)的詞或詞組,出現(xiàn)了哪些語法錯誤等。5、語料庫語言學(xué)與機(jī)器翻譯及文本校對利用計算機(jī)將語料庫中的材料,按一定的要求編碼、處理,如把語言的各個層級分別看待,即詞、句法、語義、互指,不同的應(yīng)用將利用不同層級的信息,在詞層級上的分析應(yīng)用上就可以進(jìn)行詞的切分和詞法分析、拼寫檢查、全文檢索、詞頻統(tǒng)計、名詞短語的辯識、義類詞典、逐詞機(jī)器翻譯等。在句子(句法、語義)的分析和應(yīng)用上可以進(jìn)行語法檢查、詞義排歧、自然語言接口、對名詞短語辯識的改進(jìn)、機(jī)器翻譯等。對機(jī)器可讀的語料庫進(jìn)行編碼處理,并賦

予一定的語法規(guī)則,制作出的翻譯軟件、

校對軟件、定位檢索軟件、語義網(wǎng)等是目

前語料庫語言學(xué)應(yīng)用研究的一大成果。它

們的問世為語言工作者和學(xué)習(xí)者提供了一

個十分方便的語言工具。以英漢翻譯系統(tǒng)

為例,目前我國市場上可見的譯星、譯林、快譯通等電子詞典和計算機(jī)雙向全文翻譯

系統(tǒng)非常受語言學(xué)習(xí)者和語言工作者的歡

迎。計算機(jī)多媒體使電子詞典不僅提供了詞意,而且還能模擬人聲讀出音來。一些專業(yè)全文翻譯軟件能進(jìn)行雙向翻譯且翻譯的正確率已達(dá)到了80%,翻譯人員只需將本族語或目標(biāo)語輸入計算機(jī),計算機(jī)就能在幾分鐘內(nèi)將譯文輸出,翻譯人員再用較短的時間對其進(jìn)行人工校譯就能完成譯文工作,大大縮短了翻譯時間。將計算機(jī)的校對系統(tǒng)用于

文字處理器中,能對所輸入的文本進(jìn)行自動輸入

校對和語法錯誤提示,大大地提高了輸入的正確

率,節(jié)省了大量的文稿校對時間。語料庫語言學(xué)基本發(fā)展概況語料庫語言學(xué)在國外的發(fā)展:語料庫語言學(xué)作為一種研究語言的方法,可以追溯到19世紀(jì),甚至更為久遠(yuǎn)。現(xiàn)在一般以喬姆斯基轉(zhuǎn)換生成語法的興衰時間為參照,將其發(fā)展大致分為以下幾個階段:1、語料庫語言學(xué)的早期發(fā)展早期的語料庫語言學(xué)指的是20世紀(jì)五十年代中期以前,即喬姆斯基提出轉(zhuǎn)換生成語法理論之前的所有基于語言材料的語言研究。此類研究主要集中在以下幾個方面:(1)應(yīng)用語料研究方法較早且較普遍的領(lǐng)域是語言習(xí)得。19世紀(jì)70年代在歐洲興起了兒童語言習(xí)得研究的第一個熱潮,當(dāng)時的許多研究就是基于父母詳細(xì)記載其子女話語發(fā)展的大量日記的。據(jù)悉,這些日記作為原始材料,不僅是當(dāng)時W.Preyer和W.Stern等人的理論假說的依據(jù),而且至今仍是許多學(xué)者的研究語料之一。自本世紀(jì)30年代以來,語言學(xué)家和心理語言學(xué)家提出了眾多關(guān)于兒童在不同年齡段的語言發(fā)展模式。這些模式大都是建立在對兒童自然話語大量材料的研究分析上的。(2)西方早期的結(jié)構(gòu)主義語言學(xué)家利用自然

語料開展音系研究。他們注重“野外工作”,強(qiáng)調(diào)語料獲取的自然性和語料分析的客觀性。這些都為后來的語料語言學(xué)所繼承和發(fā)展。(3)方言學(xué)從其產(chǎn)生以來就與語料關(guān)系密切。在西方,方言學(xué)脫胎于19世紀(jì)的歷史比較語言學(xué),最初興趣主要是研究運用直接法所獲取的有關(guān)單音不同分布的事實來繪制方言地圖?!胺窖匝芯空呤殖止P記本,后來是手提錄音機(jī),記下或錄下他所遇到的一切方言材料。此種取樣法至今仍為某些業(yè)余研究者所用,它對于研究方言詞匯的分布有一定價值?!?F

rancis,1983)2、新的語料庫語言學(xué)1959年,R.Quirk著手建立“英語用法”語庫(Su

rvey

of

English

Usage)。該項目旨在收集大量的風(fēng)格題材各異的語料作為對英國英語口語和書面語進(jìn)行系統(tǒng)描寫的基礎(chǔ)。幾乎與此同時,以N.F

rancis和H.Kucera為首的一批語言學(xué)家和計算機(jī)專家匯集在美國的布朗大學(xué)合力攻關(guān),于

1961年建成了當(dāng)今最早的機(jī)讀語料庫-布朗語庫

(B

row

n

Co

rpu

s)。這兩個庫可以說是現(xiàn)代語

料庫語言學(xué)的開端。3、語料庫語言學(xué)與喬姆斯基轉(zhuǎn)換生成語法50年代中前期,在實證主義和行為主義思潮的影響下,語言研究總體上是經(jīng)驗主義占主導(dǎo)。但是這種狀況隨著喬姆斯基1957年《句法理論》及其以后的一系列論著的發(fā)表被根本轉(zhuǎn)變。笛卡爾的理性主義占據(jù)主導(dǎo)地位,經(jīng)驗主義幾乎無立足之地,被視為經(jīng)驗主義產(chǎn)物的語料研究自然被完全否定。喬姆斯基及其轉(zhuǎn)換生成語法學(xué)派否定早期語料研究主要有兩點:(1)語料研究的方向有誤。喬姆斯基認(rèn)為,語言研究的主要目標(biāo)是建立一種能反映說話人心理現(xiàn)實的語言認(rèn)知模式,即語言能力模式。因為只有語言能力才能對說話人的語言知識作出解釋和描述,而語言運用只是語言能力的外在證據(jù),它往往會因超語言因素的影響而發(fā)生變化。因此,它不能確切地反映語言能力。語料從本質(zhì)上只是外在化的話語的匯集,基于語料的研究所建立的經(jīng)驗?zāi)J匠淦淞恐荒軐φZ言能力作出部分解釋,因而語料不是語言學(xué)家從事語言研究的得力工具。(2)語料的不充分性。喬姆斯基在《句法

理論》一書中首次發(fā)現(xiàn)英語短語結(jié)構(gòu)規(guī)則

具有遞歸性。這種遞歸性表明,自然語言

的句子是無限的,而作為語料基本單位的

句子的無限性決定了語料是難以窮盡的,

換言之,語料永遠(yuǎn)是不完整的,不充分的。4、在相對沉寂了近20年后,語料庫語言學(xué)自80年代以來,迅猛發(fā)展,空前繁榮,主要表現(xiàn)是:(1)第二代語料庫的建成以伯明翰英語語料庫為代表的一大批語料庫80年代以來相繼建成。這些機(jī)控語庫,盡管規(guī)模、設(shè)計和研究目的各異,但大多采用了較新的KDEM(Kurzweil

Data

Entry

Machine)光電符號識別技術(shù),使語料的編碼和編輯得以從繁重的人工輸入中解脫出來,大大加快了語料的標(biāo)注處理,促進(jìn)了語料的分析和利用,故稱第二代語料庫。根據(jù)美國加州大學(xué)伯克萊分校的語言學(xué)家J.Edwards1993年的不完全統(tǒng)計,80年代以來建成并投入使用的各類語料庫達(dá)50多個按語種分布如下:英語

24,法語4,意大利語2,丹麥語2,德語7,西班牙語2,芬蘭語2,瑞典語2。此外,還有葡萄牙語,南斯拉夫語和愛脫尼亞語等也都建立了語庫。(2)基于語料的研究項目增多大批語料庫的建成極大地促進(jìn)了基于語料的

研究項目的迅速開展。事實證明,機(jī)控語庫是開

展大范圍語言研究的極好料源,因為它所提供的

語料較之先前的材料更具有真實性,其層級結(jié)構(gòu)

更加明晰,因而更有助于對語言的不同層面進(jìn)行

描寫研究,更有助于對不同語體的比較研究和開展量化與概率統(tǒng)計研究。許多研究項目取得重要成

果,有的深化了原有的研究,有的則是拓寬了原有的研究領(lǐng)域。如J.Svartvik

(1996)和M.Halliday(1991)等人的概率語法研究;G.To

t

t

ie

(1991)的英國英語和美國英語話語風(fēng)格研究以及J.Sinclair

(1985)等人關(guān)于英語搭配的量化研究等。語料庫語言學(xué)在國內(nèi)的發(fā)展(《國內(nèi)語料

庫語言學(xué)研究評述》,賈雯,《阜陽師范

學(xué)院學(xué)報(社會科學(xué)版)》2006年第5期):在我國,從20世紀(jì)20年代開始,有學(xué)者

為制定基礎(chǔ)漢字字表開始建立文本語料庫;

70年代末以來,漢語現(xiàn)代文學(xué)作品語料庫

(1979年)、現(xiàn)代漢語語料庫(1983年)等機(jī)器可讀語料庫開始建設(shè)。90年代后,以《人民日報》光盤數(shù)據(jù)庫、北大語料庫為代表的大型漢語語料庫日益發(fā)展,語料庫成為研究中文信息處理的基本語言資源。在英語語料庫建設(shè)方面,楊惠中教授80年代主持建成的上海交通大學(xué)科技英語語料庫(JDEST),

是當(dāng)時世界上第一個同類語料庫,也是國內(nèi)最大

最完備的英語語料庫之一。1989年,中國石油大

學(xué)編制完成了廣州石油英語語料庫,庫容約41萬詞次。1993年前后,香港科技大學(xué)編制了計算機(jī)

科學(xué)英語語料庫,共計100萬詞次。1996年廣州

外國語學(xué)院開始建立中國學(xué)生交際英語語料庫。

此外由廣東外語外貿(mào)大學(xué)桂詩春教授和上海交通

大學(xué)楊惠中教授牽頭開發(fā)的“中國學(xué)習(xí)者語料庫”

(CLEC)于1999年建成,該語料庫廣泛收集了包括我國中學(xué)生、大學(xué)生在內(nèi)的一百多萬詞的各種書面語資料,并對所有的語料進(jìn)行語法標(biāo)注和言語失誤標(biāo)注,對研究中國學(xué)習(xí)者的英語特點具有開創(chuàng)性意義。語料庫語言學(xué)基本研究方法語料庫語言學(xué)的主要研究方法與傳統(tǒng)的語言結(jié)構(gòu)研

究的最大不同在于通過考察相關(guān)的“聯(lián)結(jié)模式”

(as2sociation

patterns),研究語言使用的特征。聯(lián)結(jié)模式既表現(xiàn)為量的關(guān)系,也表現(xiàn)為質(zhì)的關(guān)系。定量分析表示語言特征及不同形式與語境之間的聯(lián)結(jié)程

度,定性分析則對此作出功能解釋。以語料庫為基

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論