![語料庫幻燈片_第1頁](http://file4.renrendoc.com/view/6b2cf2cccfa04bc4faf90a8a6490dc08/6b2cf2cccfa04bc4faf90a8a6490dc081.gif)
![語料庫幻燈片_第2頁](http://file4.renrendoc.com/view/6b2cf2cccfa04bc4faf90a8a6490dc08/6b2cf2cccfa04bc4faf90a8a6490dc082.gif)
![語料庫幻燈片_第3頁](http://file4.renrendoc.com/view/6b2cf2cccfa04bc4faf90a8a6490dc08/6b2cf2cccfa04bc4faf90a8a6490dc083.gif)
![語料庫幻燈片_第4頁](http://file4.renrendoc.com/view/6b2cf2cccfa04bc4faf90a8a6490dc08/6b2cf2cccfa04bc4faf90a8a6490dc084.gif)
![語料庫幻燈片_第5頁](http://file4.renrendoc.com/view/6b2cf2cccfa04bc4faf90a8a6490dc08/6b2cf2cccfa04bc4faf90a8a6490dc085.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
語料庫與語料庫應(yīng)用語言學(xué).......................................................................definitions........................................................................charcateristics........................................................................historical
devel.........................................................................Classification.........................................................................development
ten..........................................................................coupus-based
t..........................................................................corpus-based
t.........................................................................some
important1.1
corpusA
collection
of
naturally
occuring
language
data,chosento
characterize
a
state
of
variety
of
language.Sinclair
1991指一個由大量語言實際使用的信息所組成的,專供語言研究,分析和描述的語言資料庫。在隨機采樣的基礎(chǔ)上收集人們實際使用的具有代表性的真實語言樣本而創(chuàng)建起來的,是語言研究和教學(xué)的重要基礎(chǔ),是編寫字典,語法書和教材的重要源泉。劉滿堂1
definitions1.2
Corpus
linguisticCL
uses
large
collections
of
both
spoken
and
writtennatural
texts
that
are
stored
on
computer。什么是應(yīng)用語言學(xué)入門以真實的語料數(shù)據(jù)為研究對象(語料庫),對大量語言事實進行系統(tǒng)分析,所研究的語言行為而非語言能力,即通過考察語言的實際運用來尋找語言使用規(guī)律。劉滿堂分析自然語篇中語言運用的實際模式語言的最終目的是成功交流,脫離了語境的語言研究,只關(guān)注語言的固定形式是沒有意義的。使用龐大的,根據(jù)原則收集起來的自然語篇結(jié)合,即語料庫為分析的基礎(chǔ)廣泛運用電腦進行分析,結(jié)合相關(guān)軟件使用自動技術(shù)為大量的數(shù)據(jù)化統(tǒng)計提供了手段,為定量研究提供了保證Wordsmith,Tact,Mircoconcordance2
charcateristics2.4人工分析仍是必要的語料庫所提供的頻率信息知只是一個大體上的宏觀把握量,對這些信息還需要結(jié)合具體的研究任務(wù)進行有針對性地分析和判斷質(zhì),從而得出結(jié)論。有量的統(tǒng)計分析和有質(zhì)的研究分析2.5定量與定性相結(jié)合的方法研究相結(jié)合量化的說明對所評價的現(xiàn)象做出解釋,提供了準確的宏觀層面的特征,質(zhì)
的評價則可以反映事物的另一個方面,則補充性的提供了微觀層面的特征。要想反映事物的全面情況,就應(yīng)該把數(shù)量和質(zhì)量結(jié)合起來評價。數(shù)量和質(zhì)
量是一個事物的兩個方面,既沒有離開數(shù)量的質(zhì)量,也沒有離開質(zhì)量的數(shù)
量。3.1
Foreign起源動機:17C的時候,由于受到經(jīng)驗主義(empricism)經(jīng)驗主義通常指相信對現(xiàn)代科學(xué)方法,認為理論應(yīng)建立于對于事物的觀察,而不是直覺或迷信。意即通過實驗研究而后進行理論推導(dǎo)優(yōu)于單純的邏輯推理的影響,語言學(xué)的研究開始重視觀察自然發(fā)生的語料,開始大料的收集外部語言數(shù)據(jù),在客觀分析語言的基礎(chǔ)上進行相關(guān)研究。3
historical
development1)20C60S以前手工語料庫階段(前電子,前計算機化,傳統(tǒng)語料庫)收集全真文本進行語言分析主要用于一些傳統(tǒng)的領(lǐng)域詞典編纂,語法目的:1928 牛津英語字典Oxford
EnglishDictionary1961 韋伯斯特新國際字典Webster‘s
New
InternationalDictionary教學(xué)為目的:1959 英語用法調(diào)查
The
Survey
ofEEnglish
Usage
SEC 英國倫敦大學(xué)方言調(diào)查 英美兩國都做過我國的漢語方言學(xué)的第一部著作《You軒使者絕代語釋別國方言》
楊雄歷經(jīng)27年處于人工檢索的初級階段,制作周期長,檢索效率低弊端計算機化語料庫,現(xiàn)代語料庫2)20C
60S——80S60S初受到喬姆斯基的轉(zhuǎn)換生成語法的影響,研究方法轉(zhuǎn)為內(nèi)省法第一代電子語料庫Brown
Corpus
196-1964(Francais
andKucera) 布朗大學(xué)當代美國英語標準語料庫LOB語料庫
The
Lancaster-Oslo/BergenCorpus英國的蘭卡斯特大學(xué)和挪威的奧斯陸大學(xué)
1970-1978LLC語料庫
London-lund
Corpusof
SpokenEnglish 瑞典的隆德大學(xué)
口語語料庫
1975蘭開斯特/IBM英語口語語料庫Lancaster/IBM
spoken
English
corpus弊端所含語料基本上為書面語料,口語語料庫數(shù)量較少不能做共時比較3)
20C80S——90S計算機的快速發(fā)展,研究者認識到內(nèi)省法的不足
第二代電子語料庫COBUILD語料庫
Collins
BIirminghamUniversity
International
LanguageDatabase
柯林斯伯明翰大學(xué)國際語言資料庫
1980-1984英國國家語料庫
British
National
Corpus1991-1995國際英語語料庫International
Corpus
ofEnglish 英國倫敦大學(xué)Greenbaum和美國的威斯康星-密爾沃基大學(xué)Meyer相對優(yōu)勢采用了更加先進的電腦技術(shù),
檢索的速度和效率進一步提高,在研究目的上,二代以通用語
料庫為主應(yīng)用范圍也更加廣闊4)20C90S第三代電子語庫特點1語料:從單語到多語2數(shù)量:從百萬級到千萬級再到億級和萬億級3加工:從詞法級到句法級再到語義和語用級4文本:從抽樣到全文特大型語料庫動態(tài)監(jiān)控語料庫:可以實時記錄語言變化,
監(jiān)控某種語言的發(fā)展過程例如國際互聯(lián)網(wǎng)上,英國的COBUILD語料庫每周向電子郵件用戶發(fā)送Word
Watch詞語監(jiān)控的郵件,報告社會用語的動態(tài)變化情況3.2
domestic70s末80s初興起
1982
黃人杰和楊惠中
科技英語語料庫(JDEST)語料庫1989
中國石油大學(xué)廣州石油英語語料庫700篇英國英語和美國英語的書面文本1992
北京語言文化大學(xué)當代北京口語語料庫收錄了80年代北京人的口語錄音1993
香港科技大學(xué)計算機科學(xué)英語語料庫取材于90年代早期所使用的166種計算機英語課本1995
北京語言文化大學(xué)現(xiàn)代漢語語法研究語料庫1996
廣州外國語學(xué)院中國學(xué)生交際英語語料庫2003
桂詩春
楊惠中 中國英語學(xué)習(xí)者語料庫 第一部公開發(fā)布的學(xué)習(xí)者語料庫方興未艾中文語言資源聯(lián)盟Chinese
Linguistic
Data
Consortium
Chinese
LDC吸收國內(nèi)高等院校,科研機構(gòu)和公司參加的開放式語言資源聯(lián)盟。其目的是建成能代表當今中文信息處理水平的,通用的中文語言信息知識庫。
ChineseLDC將建設(shè)和收集中文信息處理所需要的各種語言資源,包括詞典,語料庫,數(shù)據(jù),工具等。在建立和收集語言資源的基礎(chǔ)上,分發(fā)資源,促成統(tǒng)一的標準和規(guī)范,推薦給用戶,并且針對中文信息處理領(lǐng)域的關(guān)鍵技術(shù)建立評測機制,為中文信息處理的基礎(chǔ)研究和應(yīng)用開發(fā)提供支持。4
Classification1)用途:通用語料庫
general
corpus專用語料庫
specialized
corpus2)介質(zhì):文字語料庫聲音語料庫3)語體:書面語料庫口語語料庫時間:共時語料庫歷時語料庫狀態(tài):靜態(tài)語料庫動態(tài)語料庫6)語種:單語語料庫雙語語料庫多語語料庫平行語料庫parallel
corpus非平行語料庫
母語語料庫 外語學(xué)習(xí)者語料庫learner
corpus7)處理程度:生語語庫
raw/untagged
corpus 熟語語庫
(標注語料庫)tagged/annotated
corpus容量將進一步增大計算機技術(shù)的不斷發(fā)展,其儲存容量也越來越大分析軟件以及應(yīng)用軟件的開發(fā)和推廣專用語料庫的進一步發(fā)展,一些通用語料庫無法深入分析某一專業(yè)領(lǐng)域的現(xiàn)象跨學(xué)科性進一步增強,與其他領(lǐng)域相結(jié)合多模態(tài)語料庫:收集數(shù)字化的語言和交流相關(guān)的材料,材料使用多種模態(tài),預(yù)料不在限制于口筆文本,而包括視頻,圖片等媒體形式多緯度語料庫:能使研究者從多個不同的角度去研究和語料庫標注,例如語言中的地域和歷史變化,通過跨學(xué)科研究,會產(chǎn)生新的研究方法和新的研究領(lǐng)域5
development
tendency3)網(wǎng)絡(luò)語料庫:現(xiàn)代的一些網(wǎng)絡(luò)領(lǐng)域,例如,電子郵件,博客...產(chǎn)生了一些網(wǎng)絡(luò)語言5.5自身學(xué)科地位的發(fā)展TogniniBonelli2001認為語料庫只是一種應(yīng)用前的方法論,并不只是真正意義上的科學(xué)領(lǐng)域,只不過為語言學(xué)的研究提供了一種方法論基礎(chǔ)。corpus-based基于語料庫的研究即把語料庫看成是一個工具,用來證實,解釋某個以前就存在的語言學(xué)理論。corpus-driven語料庫驅(qū)動 從原始語料出發(fā),通過研究語料本身,發(fā)現(xiàn)探究新的語言理論,建立新的概念和范疇體系。這些表明,語料庫語言學(xué)正在超越一種單純的語言研究方法,具有自己的研究對象并且形成新的理論6.3學(xué)生6.4
國家加大投入力度,支持發(fā)展;將語料庫列入到本科教育中6.5充分利用當前已有的語料庫自身實力的培養(yǎng)和提高(可以與他人建庫享庫,運用多模態(tài)語料庫教學(xué),提高課堂趣味性教師因材施教由被動轉(zhuǎn)為主動,注重自身實踐操作,充分利用網(wǎng)絡(luò)相關(guān)資源6
coupus-based
teaching7.1經(jīng)驗總結(jié)譯者往往分析不透徹,不深,理論體系也不健傳統(tǒng)的翻譯學(xué)研究歸納思辨法從實踐中歸納翻譯思辨,原則,規(guī)律(抽象總結(jié))重凝練重規(guī)約輕了描述和解釋總體評價宏觀上把握缺乏連貫性的體系特點模糊:抽象的定性概括,缺乏量的支持注重個人的翻譯實踐與經(jīng)驗,很難通過與他人進行對比,驗證,假設(shè),上升為理論7
corpus-based
translation7.2
王克非、黃立波(2007)指出,語料庫翻譯研究“在研究方法上以語言學(xué)和翻譯理論為指導(dǎo),以概率和統(tǒng)計為手段,以雙語真實語料為對象,對翻譯進行歷時或共時的研究”。1)
corpus
linguistic+
traditional
translation
提供翻譯理論基礎(chǔ)優(yōu)勢natural
or
authentic
data自然真實的語料數(shù)據(jù)emprical
research實證研究statistical+theoricalanalysis定量與定性2)當前,用于翻譯學(xué)研究的語料庫有平行語料庫,翻譯語料庫,可比語料庫和口譯語料庫等?,F(xiàn)已建成的比較成熟的譯學(xué)研究語料庫有翻譯英語語料庫、
Babel漢英平行語料庫、北外雙語對應(yīng)語料庫、中國法律法規(guī)漢英平行語料庫、全國公示語翻譯語料庫、莎士比亞戲劇英漢平行語料庫、奧斯陸多語語料庫等,很多語料庫資源是共享的,研究者可以根據(jù)需要選擇合適的語料庫3)發(fā)展前景加強翻譯學(xué)語料庫的建設(shè)與應(yīng)用,推進資源共享緊密結(jié)合翻譯學(xué)的跨學(xué)科屬性,結(jié)合語言學(xué),文學(xué),文化等理論對其進行深
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2023三年級語文下冊 第一單元 2 燕子配套說課稿 新人教版
- 2024-2025學(xué)年高中語文 名著導(dǎo)讀 莎士比亞戲劇說課稿 新人教版必修4
- 9古詩三首清明說課稿2023-2024學(xué)年統(tǒng)編版語文三年級下冊
- Unit 4 Natural Disasters Reading for Writing 說課稿-2024-2025學(xué)年高中英語人教版(2019)必修第一冊
- Unit 2 lconic Attractions Learning About Language (1)說課稿 2023-2024學(xué)年高中英語人教版選擇性第四冊
- 2025主體信用評級合同
- 2025吊頂勞務(wù)承包合同
- 19《夜宿山寺》(說課稿)2024-2025學(xué)年部編版語文二年級上冊
- 2024-2025學(xué)年高中生物 第一章 人體的內(nèi)環(huán)境與穩(wěn)態(tài) 專題1.2 內(nèi)環(huán)境穩(wěn)態(tài)的重要性說課稿(基礎(chǔ)版)新人教版必修3001
- 7《壓歲錢的使用與思考》(說課稿)-2023-2024學(xué)年四年級下冊綜合實踐活動長春版
- 北京市豐臺區(qū)2024-2025學(xué)年九年級上學(xué)期期末語文試題(含答案)
- 計劃供貨時間方案
- 2024年石柱土家族自治縣中醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫頻考點附帶答案
- 西藏事業(yè)單位c類歷年真題
- 2024人教新目標(Go for it)八年級英語下冊【第1-10單元】全冊 知識點總結(jié)
- 七年級英語下學(xué)期開學(xué)考試(深圳專用)-2022-2023學(xué)年七年級英語下冊單元重難點易錯題精練(牛津深圳版)
- 部編版語文小學(xué)二年級下冊第一單元集體備課(教材解讀)
- 房屋市政工程生產(chǎn)安全重大事故隱患判定標準(2024版)宣傳畫冊
- 化學(xué)品-泄露與擴散模型課件
- 漢語言文學(xué)論文6000字
- 樹立正確的世界觀人生觀價值觀課件
評論
0/150
提交評論