語料庫的建設(shè)和應(yīng)用_第1頁
語料庫的建設(shè)和應(yīng)用_第2頁
語料庫的建設(shè)和應(yīng)用_第3頁
語料庫的建設(shè)和應(yīng)用_第4頁
語料庫的建設(shè)和應(yīng)用_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

語料庫的建設(shè)和應(yīng)用桂詩春語料庫的興起發(fā)祥地語料庫語言學(xué)首先在美國。60年代開始,美國建立了100萬詞的Brown語料庫(Francis&Kucera)。同時,英國Edinburgh大學(xué)的300,000詞的口語語料庫。但是在generativelinguistics的影響下,得不到很多發(fā)展,例如Lees認(rèn)為Francis是”Thatisacompletewasteofyourtimeandthegovernment’smoney,YouareanativespeakerofEnglish;intenminutesyoucanproducemoreillustrationsofanypointinEnglishgrammarthanyouwillfindinmanymillionsofwordsofrandomtext.”Sinclair認(rèn)為,原因是“thedominantattitudetolanguageinUSAoverfortyyearshasbeenconcernedwithlanguageinthemind,andnotlanguageonpaper,orintheair”.在英國和歐洲卻得到迅猛的發(fā)展,ICAME(InternationalComputerArchiveofModernEnglish)在挪威的建立。美國人開始覺醒,1999在Michigan召開了”北美語料庫語言學(xué)討論會。Simpson和Swales在論文集呼吁要像人造衛(wèi)星和汽車工業(yè)那樣迎頭趕上。ANC正在積極進(jìn)行,LDC(LinguisticDataConsortium)收集了許多語料。LDC的口號是Nodatalikemoredata。語料庫的興起B(yǎng)C(beforecomputers)前:100多年前,WilhelmKaeding

動員了”anarmyofhelpers”(5000人)建立了一個1千1百萬詞的德語語料庫來研究速寫(Hausser1998)。18世紀(jì)DrJohnsonbased編寫英語詞典引用了來自著名作家的150,000例句。Palmer對常用詞的研究。Thorndike的工作(包括編寫詞典和編寫3萬常用詞表。(1944)Hornby的AdvancedLearner’sDictionaryofCurrentEnglish.(1948)West的GeneralServiceListofEnglishWords(1953)Quick在50年代開始調(diào)查英語習(xí)慣語用法(SEU)(1968)。語料庫的興起B(yǎng)C后:按照Brown語料庫的傳統(tǒng)建立了一系列的語料庫(澳洲的ACE、新西蘭的WellingtonCorpus、印度的KolhapurCorpus,英國的LOB,德國的Frown和Flob,中國的JDEST,等等)越來越大,如BankofEnglish,BNC,LSWE,分別比Brown語料庫大410倍,100倍和40倍。專門用途語料庫,英國的幾大詞典出版商都建立自己的語料庫和編輯以語料庫為基礎(chǔ)的辭書,如COBUILD,OED,LONGMAN。美國的AHI也是建立得較早的語料庫。各種口語語料庫(如LLC(London-LundCorpus)、學(xué)習(xí)者語料庫(ICLE,CLEC,HKUST,等)、CHILDES(TheChildLanguageExchangeSystem),包括JDEST,GPEC(GuangzhouPetroleumEnglishCorpus),都帶有一定的專門的目的。越來越普遍,利用小語料庫(從幾十萬到100萬詞)來研究ELT。什么是語料庫?Acorpusisacollectionofpiecesoflanguagetextinelectronicform,selectedaccordingtoexternalcriteriatorepresent,asfaraspossible,alanguageorlanguagevarietyasasourceofdataforlinguisticresearch.(Sinclair)Corpuslinguisticsisthekindofresearch,carriedoutinuniversitydepartmentsoflinguistics,computerscience,andrelatedsubjects(andnowadaysofteninindustrialresearchlabstoo),whichmakescrucialuseoflanguagecorpora.(G.Sampson&D.McCarthy)語料庫是一種語言學(xué)研究生必須掌握的一種方法、技術(shù)、手段。它對我們的研究提供一種新的視野,對我們論文寫作提供很大的幫助。什么是語料庫?語料庫必須有代表性。不管語料庫有多大,它所包含的語料都不過是整個語言的一部分樣本。樣本太少,代表性就不夠,通過樣本來了解整體就有誤差。這牽涉到選擇文本的方式(mode,speechorwriting)、類型(type,abook,ajournal,etc。)、領(lǐng)域(domain,academicorpopular)、語言(language,American,British,etc.)、來源地(location)、時間(date)。語料庫必須是機讀(machine-readable)的。語料庫必須是用統(tǒng)計手段分析和整理過的。語料庫最好是向公眾開放的。語料是經(jīng)得起檢驗的。語料庫的設(shè)計和制作

設(shè)計和制作語料庫必須有明確的目的。如果是通用性的,使用現(xiàn)成的,就足夠了。如果有特定的研究目的,而又較多地了解一些特定領(lǐng)域內(nèi)的語言用法,就可以建立專門用途的語料庫。有了明確的目的以后,就必須考慮這方面的語料范圍,以及制定抽樣方案。抽樣的基本原則是保證樣本的代表性(representativeness)和均衡性(balance),語料庫的各個部分的權(quán)重必須大致相同。表11.6Brown語料庫抽樣方案編

號文

型篇數(shù)百分比(%)I.信息性文體37475

A.報紙:報道448.8

B.報紙:社論275.4

C.報紙:評論173.4

D.宗教173.4

E.技能與嗜好367.2

F.民間傳說489.6

G.純文學(xué),傳記、回憶錄7515

H.雜類(政府文獻(xiàn)、基金、工業(yè)報告、學(xué)校目錄、公司內(nèi)部報告)306.0

J.學(xué)術(shù)性文章8016.0II.想象性文體12625

K.一般小說

295.8

L.疑案與偵探小說244.8

M.科幻小說61.2

N.冒險與西部小說295.8

F.愛情故事295.8

R.幽默91.8最好的方法隨機抽樣或分層抽樣來取樣,例如要選科幻小說,就到圖書館科幻小說的書架上隨機抽一本,隨機選出有關(guān)頁面?;蚴窍入S機定好一個數(shù)目,如有關(guān)資料的第一個書架的第二層的第五本書的第50頁到第55頁。語料庫的設(shè)計和制作又如我們最近想建一個《語言學(xué)及應(yīng)用語言學(xué)語料庫》,其目的是(1)供研究生論文寫作查閱語言搭配;(2)建立次專業(yè)性(sub-technicalterms)詞匯表。我們定了14個領(lǐng)域,包括理論、心理、社會、應(yīng)用、語用、神經(jīng)、認(rèn)知、語音、語法、語義(詞匯)、語料、語體(語篇)、生物語言學(xué)和自然語言處理,隨機抽樣500篇,每篇2000字上下。這也是一個方案。語源,來自英、美的電子文本、新出的教科書、雜志,主要。書面英語,學(xué)術(shù)性文體。Internet。語料庫的設(shè)計和制作文本電子化。文本必須是純文本(.txt)格式,(因為很多通用的軟件如TACT,Wordsmith等只接受這種格式),而且經(jīng)過光學(xué)字符識別(OCR)處理。最簡便的方法是(1)從網(wǎng)上直接下載,然后進(jìn)行轉(zhuǎn)換,例如用Word打開,另存為.txt文件。(2)是用掃描器掃描文件,進(jìn)行識別(一般掃描器都提供識別的軟件),存為.txt文件。純文本格式的文本不能有圖表。文本電子化。所有選擇好的樣本都必須進(jìn)行電子化處理,那就是轉(zhuǎn)換成可以機讀的電子文本,存放在電腦里備用。在目前的情況下,文本必須是純文本(.txt)格式。對電子文件進(jìn)行標(biāo)識。語料庫標(biāo)識(corpusannotation)是建立語料庫中值得關(guān)注的問題。建立語料庫的改變目的是從語料中抽取信息,以編制詞典、建立語法、了解學(xué)習(xí)者語言,等等。為了抽取信息,我們需要對文本增加更多的明示的語言信息,例如文本的來源,詞類賦碼(part-of-speechtagging),等等,例如taken_WN,WN說明taken是過去分詞。詞類賦碼很有必要,例如英語left,可以是名詞(onyourleft)、形容詞(mylefthand)或動詞(Ileftearly)。語料庫的設(shè)計和制作語料的標(biāo)識一般放在尖括號(<>)里面,詞類的賦碼則放在詞后加_,如girls_NN$。如the_AT

jury_NN

said_VBD

it_PPS

did_DOD

find_VB

that_CS

many_AP

of_IN

Georgia's_NP$registration_NN

and_CC

election_NN

laws_NNS

are_BER

outmoded_JJ

or_CC

inadequate_JJ

and_CC

often_RB

ambiguous_JJ._.對語料庫進(jìn)行統(tǒng)計處理。語料庫是一種依托計算機把文本的詞頻進(jìn)行整理的技術(shù)和方法。頻數(shù)反映的是一種概率關(guān)系。哈佛大學(xué)的語言學(xué)教授Zipf(1949)提出一條關(guān)于詞頻和它的排列次序的關(guān)系的定律——Zipf定律:Thenumericalpositionofawordinalistissortedbydecreasingfrequency(f).。Brown語料庫(1014232)的前10個詞的次序排列次序最常用詞頻數(shù)實際概率Zipf定律1the699710.0689890.12of364110.03590.053on288520.0284470.0333334to261490.0257820.0255a232370.0229110.026in213410.0210420.0166677that105950.0104460.0142868is100990.0099570.01259was98160.0096780.01111110he95430.0094090.01

累計比例=0.2425620.292897Zipf定律除了高低兩端的次序外都較準(zhǔn)確。語料庫的設(shè)計和制作一般來說,對語料庫的統(tǒng)計整理主要是編制詞頻排列表(按次序和按字母排列)和詞頻分布表。Carroll等人根據(jù)AHI所編制成《詞頻手冊》(1971)對詞頻排列表,除了頻數(shù)外,還計算出其D值,U值和SFI值。CLEC也照樣給出這幾個值。D值為分布指數(shù),從1~0,指數(shù)越大意味著一個詞在不同類別的文本中的頻數(shù)越大,使用面越廣。U值指一個詞折算成100萬詞的頻數(shù)(因為不是所有的語料庫都是100萬詞的),SFI為標(biāo)準(zhǔn)頻數(shù)指數(shù)(StandardFrequencyIndex),表示詞型和詞次的關(guān)系,根據(jù)U值算出。90表示一個詞在10詞次、80表示100詞次、70表示1000……40表示100萬詞次中出現(xiàn)一次。

語料庫的設(shè)計和制作建立語料庫需要的技術(shù)條件硬件:計算機(臺式、筆記本)、Pentium4以上,內(nèi)存520~1GB,硬盤120GB以上;掃描儀,最好是掃描文本專用的。軟件:Wordsmith,TACT,Concodancer;Abbyy

FineReader8.0;AdobeAcrobat;MicrosoftWord,Excel.聯(lián)網(wǎng),Google搜索。詞頻率DUSFIst2st3st4st5st6DEBT320.0969.4349.75000131MEMORABLE320.2311.9550.8210290FLAG320.36615.451.9271022TROUBLES320.9329.454.7257612表4詞頻排列表50,000詞中出現(xiàn)一次SFI=50,100,000詞中出現(xiàn)一次語料庫的應(yīng)用根據(jù)Leech(1998)的說法,可以有下列幾個方面:和本族語使用者比較,目標(biāo)語學(xué)習(xí)者有哪些語言特征是明顯地超用(overuse)和少用(underuse)的?學(xué)習(xí)者的目標(biāo)語行為在多大程度上受到他們的母語的影響(負(fù)面轉(zhuǎn)移)?他們在哪些領(lǐng)域不能夠充分利用目標(biāo)語的表達(dá)資源,而采取了“回避策略”?他們在語言運用的哪些方面達(dá)到接近本族語水平?在哪些方面仍然處于非本族語的水平?A國的學(xué)習(xí)者的非本族語的語言運用有哪些重要方面(按頻數(shù)的次序)蒙受損失,需要幫助?表11.8CLEC、Flob、Frown三個語料庫的比較

CLECFlobFrown詞次(token)120787912374371241858詞型(type)255624508945356型/次比2.123.643.65標(biāo)準(zhǔn)型/次比36.0645.7345.77平均詞長4.094.354.39句子693515267556912句長16.6923.4921.82句長標(biāo)準(zhǔn)差12.316.6215.44語料庫的應(yīng)用中國英語學(xué)習(xí)者的英語超用和少用詞的情況。Wordsmith的另一個子程序是“關(guān)鍵詞”(keywords),它可以把一個語料庫和另一個參照語料庫比較時,它在文本中出現(xiàn)的頻數(shù)概率小于或等于用戶所規(guī)定的p值。經(jīng)過比較后,如果一個詞的出現(xiàn)超出所期望的幾率,我們把它叫做“正關(guān)鍵詞”;少于所期望的幾率時,我們稱之為“負(fù)關(guān)鍵詞”。我們把CLEC和Flob兩個語料庫加以比較,發(fā)現(xiàn)兩個語料庫超用的詞和文本的內(nèi)容有很大的關(guān)系,如CLEC的語料大都來自與個人和學(xué)校生活有關(guān),所以life,school,college,campus,English,friends,knowledge,we,I,teachers,students。有些超用詞則來自命題作文,如water,fresh,health,mortality,fake,society,jobs,money,countries,eat,harm,pollution,births,shortage,river,euthanasia等。

語料庫的應(yīng)用而Flob的超用詞則和英國的政治和社會生活有關(guān),如British,church,European,community,bullet,Labour,UK,England,minister,religious,Christian,tax等。所以超用詞的比較僅可以說明語料的題材不同。但是少用詞卻可以暴露中國英語學(xué)習(xí)者的一些問題。例如of,her,had,she,been,was,an,local,his,cent,its,within,Mr.,where,by,which,were,might,as,off,between,he’d,he等,都是屬于前50個關(guān)鍵性最高的少用詞。這可以說明:中國英語學(xué)習(xí)者傾向于少用被動語態(tài)(如been,by),過去時態(tài)(had,was,were,might),第三人稱代詞(her,she,his,its,he’d,he)和一些wh-詞(which,where),而其原因很可能是受漢語的影響:漢語的被動式用得較少,但表達(dá)方法卻很多,不一定非用“被字句”;漢語表示過去沒有形態(tài)變化;漢語第三人稱在語音上沒有差別;漢語的內(nèi)嵌句較少,關(guān)系代詞也沒有英語用得那么普遍。語料庫的應(yīng)用英語的一個特點是習(xí)慣用法很多,很多詞的搭配是規(guī)約性的,沒有什么理由可說。這往往成為英語學(xué)習(xí)者的一個難點。在Wordsmith的concord子程序,可以幫助我們了解一個詞的搭配詞的情況。例如英語的great,large,big是三個同義詞。我們比較了它們在CLEC,F(xiàn)lob和Frown的頻數(shù):CLECFLOBFROWNGreat1354533450Large388386389big514255330表10.10CLEC中g(shù)reat的搭配詞f>10

NWORDR1NWORDR11HARM7414THING162DEAL7115BURDEN153WALL6416IMPORTANCE154CHANGES6317SUCCESS155PROGRESS4518NEED146CHANGE3719NUMBER147BENEFIT3620VALUE148PAIN3121IMPROVEMENT129RELIEF2422MAN1210POET1923PLEASURE1111HELP1824TROUBLE1112ACHIEVEMENTS1625DEVELOPMENT1013EFFORT16

但是在幾個NS的語料庫里,10個以上的搭配詞只有deal,Britain和many。在BNC里harm倒是有29次,折算下來中國學(xué)生多用了255倍。

語料庫的應(yīng)用又如risk,danger,threat,hazard這幾個近義詞的使用情況也反映了中國學(xué)習(xí)者的掌握和英美人大不相同:BNCFLOBFROWNCLECRisk1171009626Danger58485168Threat56566819Hazard7872總計238212222115語料庫的應(yīng)用中國學(xué)生掌握和使用的數(shù)量偏少。中國學(xué)生使用這幾個近義詞,特別是risk和threat,明顯地少于操本族語者,而使用danger卻又略多于他們。中國學(xué)生使用risk的搭配非常有限(taketherisk[8],attherisk[3],torisk[6]),較多樣:英美人比較多樣,avoid/carry/eliminate/ignore/crease/involve/give/reduce/run/worth/lackoftherisk;它還可以有一個修飾詞,如conventional/maximum/no/some/suicide/own/unnecessary/hazard/with/withoutrisk,最多用的修飾詞是high,但中國學(xué)生都不會用。語料庫的應(yīng)用中國學(xué)生之所以多用danger是因為不懂得還有risk,threat等其他近義詞,而且把danger當(dāng)作是“危險”、“風(fēng)險”、“威脅”的上義詞,在寫作中出現(xiàn)下面的失誤:

Fakefurniturebringsdangertopeople.(Itisriskybuyingfakefurniture.)Waterisfacingthedangerofshortage.(Wearefacingthethreatofwatershortage.)語料庫的應(yīng)用搭配是中國學(xué)生的難點,在寫作時往往會碰到一些搭配不好解決。例如utterly在詞典的釋義里是“完全、徹底”的意思,但是Louw發(fā)現(xiàn)在COBUILD語料庫里發(fā)現(xiàn)了99個搭配,而在大多數(shù)情況下,都是用于“壞”的意義。1nothing.Thefarmerswereutterlyagainsttheunionandutterl

2rlyagainsttheUnionandutterlyagainsttheWagesBoard.Now3fiteverythingseemedsoutterlyalteredthatIfeltillogica

4butIohasnowindandisutterlyarid.Mostlikelythiserosi

5rstthingwe'deverseen,utterlyblackenednow,theskinont6inhisdiary:"Whitehallutterlyburnedtotheground,nothin

7Inmyexperienceitgetsutterlyconfused.Andthereareseve

8sambitiouswife,arenotutterlyconvincing.MiguelFernandes

9nfident,well-trainedandutterlydedicatedtotheideaofwin10feet.Itshopesappearedutterlydemolishedin1956,whenMr

11outwardsfromthecentreutterlydestroyingeverythinginits12theislandtheviewwasutterlydifferent.Thefilmyenchant13Ithinkitwouldbeanutterlydifferentkindofprogramme

14probability'ssake,notutterlydisconfirmingthetaleofa又如根據(jù)Sinclair的調(diào)查,regime在67%的情況下都是用于西方社會看成是”壞的”搭配.ancientNazipowerBaghdadSovietPresidentFrancodictatedoverthrowtotalitariancommunistnewoldmilitaryIraqiCeausescuSaddamHusseinPenhPhnomstrictfascistauthoritarianMengistucollapsecontrolVichyrepressiveKabul語料庫的應(yīng)用有些語言搭配可以通過語料庫來尋找更多的說法,使文章變得多采多姿。例如論文中免不了要談到theory。通過檢索,我們可以找到一些搭配:need,assume,construct,putforward,support,believe,leadto,promote,discuss,revise,basedon….a(the)theory;或a(the)theoryfaces,behind,evolved,dependson,emergedfrom,proposes,holds,relatedto,grewoutof,concerned,serves….

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論