語料庫幻燈片_第1頁
語料庫幻燈片_第2頁
語料庫幻燈片_第3頁
語料庫幻燈片_第4頁
語料庫幻燈片_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

語料庫與語料庫應(yīng)用語言學(xué).......................................................................definitions........................................................................charcateristics........................................................................historical

devel.........................................................................Classification.........................................................................development

ten..........................................................................coupus-based

t..........................................................................corpus-based

t.........................................................................some

important1.1

corpusA

collection

of

naturally

occuring

language

data,chosento

characterize

a

state

of

variety

of

language.Sinclair

1991指一個由大量語言實際使用的信息所組成的,專供語言研究,分析和描述的語言資料庫。在隨機采樣的基礎(chǔ)上收集人們實際使用的具有代表性的真實語言樣本而創(chuàng)建起來的,是語言研究和教學(xué)的重要基礎(chǔ),是編寫字典,語法書和教材的重要源泉。劉滿堂1

definitions1.2

Corpus

linguisticCL

uses

large

collections

of

both

spoken

and

writtennatural

texts

that

are

stored

on

computer。什么是應(yīng)用語言學(xué)入門以真實的語料數(shù)據(jù)為研究對象(語料庫),對大量語言事實進行系統(tǒng)分析,所研究的語言行為而非語言能力,即通過考察語言的實際運用來尋找語言使用規(guī)律。劉滿堂分析自然語篇中語言運用的實際模式語言的最終目的是成功交流,脫離了語境的語言研究,只關(guān)注語言的固定形式是沒有意義的。使用龐大的,根據(jù)原則收集起來的自然語篇結(jié)合,即語料庫為分析的基礎(chǔ)廣泛運用電腦進行分析,結(jié)合相關(guān)軟件使用自動技術(shù)為大量的數(shù)據(jù)化統(tǒng)計提供了手段,為定量研究提供了保證Wordsmith,Tact,Mircoconcordance2

charcateristics2.4人工分析仍是必要的語料庫所提供的頻率信息知只是一個大體上的宏觀把握量,對這些信息還需要結(jié)合具體的研究任務(wù)進行有針對性地分析和判斷質(zhì),從而得出結(jié)論。有量的統(tǒng)計分析和有質(zhì)的研究分析2.5定量與定性相結(jié)合的方法研究相結(jié)合量化的說明對所評價的現(xiàn)象做出解釋,提供了準確的宏觀層面的特征,質(zhì)

的評價則可以反映事物的另一個方面,則補充性的提供了微觀層面的特征。要想反映事物的全面情況,就應(yīng)該把數(shù)量和質(zhì)量結(jié)合起來評價。數(shù)量和質(zhì)

量是一個事物的兩個方面,既沒有離開數(shù)量的質(zhì)量,也沒有離開質(zhì)量的數(shù)

量。3.1

Foreign起源動機:17C的時候,由于受到經(jīng)驗主義(empricism)經(jīng)驗主義通常指相信對現(xiàn)代科學(xué)方法,認為理論應(yīng)建立于對于事物的觀察,而不是直覺或迷信。意即通過實驗研究而后進行理論推導(dǎo)優(yōu)于單純的邏輯推理的影響,語言學(xué)的研究開始重視觀察自然發(fā)生的語料,開始大料的收集外部語言數(shù)據(jù),在客觀分析語言的基礎(chǔ)上進行相關(guān)研究。3

historical

development1)20C60S以前手工語料庫階段(前電子,前計算機化,傳統(tǒng)語料庫)收集全真文本進行語言分析主要用于一些傳統(tǒng)的領(lǐng)域詞典編纂,語法目的:1928 牛津英語字典Oxford

EnglishDictionary1961 韋伯斯特新國際字典Webster‘s

New

InternationalDictionary教學(xué)為目的:1959 英語用法調(diào)查

The

Survey

ofEEnglish

Usage

SEC 英國倫敦大學(xué)方言調(diào)查 英美兩國都做過我國的漢語方言學(xué)的第一部著作《You軒使者絕代語釋別國方言》

楊雄歷經(jīng)27年處于人工檢索的初級階段,制作周期長,檢索效率低弊端計算機化語料庫,現(xiàn)代語料庫2)20C

60S——80S60S初受到喬姆斯基的轉(zhuǎn)換生成語法的影響,研究方法轉(zhuǎn)為內(nèi)省法第一代電子語料庫Brown

Corpus

196-1964(Francais

andKucera) 布朗大學(xué)當代美國英語標準語料庫LOB語料庫

The

Lancaster-Oslo/BergenCorpus英國的蘭卡斯特大學(xué)和挪威的奧斯陸大學(xué)

1970-1978LLC語料庫

London-lund

Corpusof

SpokenEnglish 瑞典的隆德大學(xué)

口語語料庫

1975蘭開斯特/IBM英語口語語料庫Lancaster/IBM

spoken

English

corpus弊端所含語料基本上為書面語料,口語語料庫數(shù)量較少不能做共時比較3)

20C80S——90S計算機的快速發(fā)展,研究者認識到內(nèi)省法的不足

第二代電子語料庫COBUILD語料庫

Collins

BIirminghamUniversity

International

LanguageDatabase

柯林斯伯明翰大學(xué)國際語言資料庫

1980-1984英國國家語料庫

British

National

Corpus1991-1995國際英語語料庫International

Corpus

ofEnglish 英國倫敦大學(xué)Greenbaum和美國的威斯康星-密爾沃基大學(xué)Meyer相對優(yōu)勢采用了更加先進的電腦技術(shù),

檢索的速度和效率進一步提高,在研究目的上,二代以通用語

料庫為主應(yīng)用范圍也更加廣闊4)20C90S第三代電子語庫特點1語料:從單語到多語2數(shù)量:從百萬級到千萬級再到億級和萬億級3加工:從詞法級到句法級再到語義和語用級4文本:從抽樣到全文特大型語料庫動態(tài)監(jiān)控語料庫:可以實時記錄語言變化,

監(jiān)控某種語言的發(fā)展過程例如國際互聯(lián)網(wǎng)上,英國的COBUILD語料庫每周向電子郵件用戶發(fā)送Word

Watch詞語監(jiān)控的郵件,報告社會用語的動態(tài)變化情況3.2

domestic70s末80s初興起

1982

黃人杰和楊惠中

科技英語語料庫(JDEST)語料庫1989

中國石油大學(xué)廣州石油英語語料庫700篇英國英語和美國英語的書面文本1992

北京語言文化大學(xué)當代北京口語語料庫收錄了80年代北京人的口語錄音1993

香港科技大學(xué)計算機科學(xué)英語語料庫取材于90年代早期所使用的166種計算機英語課本1995

北京語言文化大學(xué)現(xiàn)代漢語語法研究語料庫1996

廣州外國語學(xué)院中國學(xué)生交際英語語料庫2003

桂詩春

楊惠中 中國英語學(xué)習(xí)者語料庫 第一部公開發(fā)布的學(xué)習(xí)者語料庫方興未艾中文語言資源聯(lián)盟Chinese

Linguistic

Data

Consortium

Chinese

LDC吸收國內(nèi)高等院校,科研機構(gòu)和公司參加的開放式語言資源聯(lián)盟。其目的是建成能代表當今中文信息處理水平的,通用的中文語言信息知識庫。

ChineseLDC將建設(shè)和收集中文信息處理所需要的各種語言資源,包括詞典,語料庫,數(shù)據(jù),工具等。在建立和收集語言資源的基礎(chǔ)上,分發(fā)資源,促成統(tǒng)一的標準和規(guī)范,推薦給用戶,并且針對中文信息處理領(lǐng)域的關(guān)鍵技術(shù)建立評測機制,為中文信息處理的基礎(chǔ)研究和應(yīng)用開發(fā)提供支持。4

Classification1)用途:通用語料庫

general

corpus專用語料庫

specialized

corpus2)介質(zhì):文字語料庫聲音語料庫3)語體:書面語料庫口語語料庫時間:共時語料庫歷時語料庫狀態(tài):靜態(tài)語料庫動態(tài)語料庫6)語種:單語語料庫雙語語料庫多語語料庫平行語料庫parallel

corpus非平行語料庫

母語語料庫 外語學(xué)習(xí)者語料庫learner

corpus7)處理程度:生語語庫

raw/untagged

corpus 熟語語庫

(標注語料庫)tagged/annotated

corpus容量將進一步增大計算機技術(shù)的不斷發(fā)展,其儲存容量也越來越大分析軟件以及應(yīng)用軟件的開發(fā)和推廣專用語料庫的進一步發(fā)展,一些通用語料庫無法深入分析某一專業(yè)領(lǐng)域的現(xiàn)象跨學(xué)科性進一步增強,與其他領(lǐng)域相結(jié)合多模態(tài)語料庫:收集數(shù)字化的語言和交流相關(guān)的材料,材料使用多種模態(tài),預(yù)料不在限制于口筆文本,而包括視頻,圖片等媒體形式多緯度語料庫:能使研究者從多個不同的角度去研究和語料庫標注,例如語言中的地域和歷史變化,通過跨學(xué)科研究,會產(chǎn)生新的研究方法和新的研究領(lǐng)域5

development

tendency3)網(wǎng)絡(luò)語料庫:現(xiàn)代的一些網(wǎng)絡(luò)領(lǐng)域,例如,電子郵件,博客...產(chǎn)生了一些網(wǎng)絡(luò)語言5.5自身學(xué)科地位的發(fā)展TogniniBonelli2001認為語料庫只是一種應(yīng)用前的方法論,并不只是真正意義上的科學(xué)領(lǐng)域,只不過為語言學(xué)的研究提供了一種方法論基礎(chǔ)。corpus-based基于語料庫的研究即把語料庫看成是一個工具,用來證實,解釋某個以前就存在的語言學(xué)理論。corpus-driven語料庫驅(qū)動 從原始語料出發(fā),通過研究語料本身,發(fā)現(xiàn)探究新的語言理論,建立新的概念和范疇體系。這些表明,語料庫語言學(xué)正在超越一種單純的語言研究方法,具有自己的研究對象并且形成新的理論6.3學(xué)生6.4

國家加大投入力度,支持發(fā)展;將語料庫列入到本科教育中6.5充分利用當前已有的語料庫自身實力的培養(yǎng)和提高(可以與他人建庫享庫,運用多模態(tài)語料庫教學(xué),提高課堂趣味性教師因材施教由被動轉(zhuǎn)為主動,注重自身實踐操作,充分利用網(wǎng)絡(luò)相關(guān)資源6

coupus-based

teaching7.1經(jīng)驗總結(jié)譯者往往分析不透徹,不深,理論體系也不健傳統(tǒng)的翻譯學(xué)研究歸納思辨法從實踐中歸納翻譯思辨,原則,規(guī)律(抽象總結(jié))重凝練重規(guī)約輕了描述和解釋總體評價宏觀上把握缺乏連貫性的體系特點模糊:抽象的定性概括,缺乏量的支持注重個人的翻譯實踐與經(jīng)驗,很難通過與他人進行對比,驗證,假設(shè),上升為理論7

corpus-based

translation7.2

王克非、黃立波(2007)指出,語料庫翻譯研究“在研究方法上以語言學(xué)和翻譯理論為指導(dǎo),以概率和統(tǒng)計為手段,以雙語真實語料為對象,對翻譯進行歷時或共時的研究”。1)

corpus

linguistic+

traditional

translation

提供翻譯理論基礎(chǔ)優(yōu)勢natural

or

authentic

data自然真實的語料數(shù)據(jù)emprical

research實證研究statistical+theoricalanalysis定量與定性2)當前,用于翻譯學(xué)研究的語料庫有平行語料庫,翻譯語料庫,可比語料庫和口譯語料庫等?,F(xiàn)已建成的比較成熟的譯學(xué)研究語料庫有翻譯英語語料庫、

Babel漢英平行語料庫、北外雙語對應(yīng)語料庫、中國法律法規(guī)漢英平行語料庫、全國公示語翻譯語料庫、莎士比亞戲劇英漢平行語料庫、奧斯陸多語語料庫等,很多語料庫資源是共享的,研究者可以根據(jù)需要選擇合適的語料庫3)發(fā)展前景加強翻譯學(xué)語料庫的建設(shè)與應(yīng)用,推進資源共享緊密結(jié)合翻譯學(xué)的跨學(xué)科屬性,結(jié)合語言學(xué),文學(xué),文化等理論對其進行深

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論