




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
...v.語料庫簡單DIY第二講a.開場進(jìn)入語料庫軟件的應(yīng)用領(lǐng)域,我們應(yīng)該從什么地方下手?
b.如何培養(yǎng)一種理性地邏輯思維,從而對語料進(jìn)展加工和處理?
c.MonoConcPro是什么?它能幫助我們做什么?
語料庫簡單DIY
第二講
語料庫軟件初探--MonoConcPro2.2
主講
葉城
日本國立廣島大學(xué)綜合科學(xué)研究中心
計算機輔助語言教學(xué)博士一年
聯(lián)系方式:
QQ47354211
:sery2004hotmail.
朋友們,首先我們想想上一講我們都談到了哪些問題?!踩绻邢氩黄饋淼?,可以翻看上一講的帖子〕
通過上一講的學(xué)習(xí),大家了解到了語料庫CORPUS的定義,語料庫語言學(xué)的定義,以及語料庫語言學(xué)的特征;并且,在我的苦口婆心威逼利誘之下,朋友們硬著頭皮和我一起簡單地回憶了一些對于大家來說并不熟悉的語料庫產(chǎn)品,了解了一些語料庫開展的歷史等等。總而言之,算是拋了個磚頭出去,至于有沒有起到磚頭的作用,砸沒砸到點兒上,這就不得而知啦。上一次講義之后,縱觀朋友們的留言,根本上都是對今后講座的期待等等。沒有疑問,沒有質(zhì)疑。這一點不是太好,我覺得這里面還是能提出很多問題的。不過,既然算是一種科普性質(zhì)的講座,我也不能對大家要求過于苛刻,總而言之,希望我講的東西,真的對大家有用,不至于回國下了飛機就被西紅柿和板磚兒砸得看不清方向。
下面進(jìn)入今天的正題:
語料庫軟件初探--MonoConcPro2.2
本軟件是Athelstan開發(fā)小組athel./,于1996年開發(fā)的語料庫比擬檢索工具。目前,我的效勞器上提供學(xué)術(shù)性下載,下載地址:
〔本軟件為學(xué)術(shù)交流使用,所有權(quán)歸本軟件開發(fā)小組所有,一切商務(wù)性盈利目的的XX使用,所帶來的連帶責(zé)任關(guān)系與本人及本論壇無關(guān)。請慎重下載,小心使用?。。 ?/p>
功能介紹:軟件主界面
根本功能:
MonoConcPro2.2的軟件界面比擬簡單。適合語料庫初學(xué)者和初級研究人員使用。
本軟件據(jù)作者的研究,其內(nèi)部主核使用UTF-8編碼,根本支持歐洲幾種主要語言。當(dāng)然,其主要的應(yīng)用領(lǐng)域還是針對英語。本軟件主要處理的文本素材是以TXT結(jié)尾的記事本文件,當(dāng)然,本軟件還可以導(dǎo)入RTF文檔和其他格式的操作系統(tǒng)默認(rèn)文檔格式。不過,從DIY的角度來說,我們自己收集到的語料,為了免除格式,字體,行距等等文本要求,最好全部使用TXT文檔,方便,省事!用了都說好!〔誰用誰知道〕
我們按照自己的研究目的,研究方向,收集我們所需要的語料素材,具體的收集方法因人而異??梢詮膱蠹堧s志的電子文文檔上直接下載,也可以從上直接下載整理好的TXT版本的小說,資料素材等,還可以直接從各大語料庫中檢索需要的語用素材,然后拷貝粘貼到TXT文本中。由于MonoConcPro強大的跨文檔處理系統(tǒng),一次可以同時導(dǎo)入多個TXT文檔進(jìn)展比擬處理,所以我們可以把文章或者資料按照自己喜好的分類標(biāo)準(zhǔn)進(jìn)展分類,然后存成不同的TXT文件名。檢索的時候,只需要同時導(dǎo)入這些文件就可以了。〔異常強大~〕
下載好軟件,解壓縮,然后翻開MP22.EXE文件,你就可以看到上圖那個簡單的主界面了。
之后,選擇File→LordCorpusFile(s),找到你需要導(dǎo)入處理的TXT文檔,一個或者多個都可以,然后選擇[翻開]。指定的TXT文件就被全部導(dǎo)入進(jìn)MonoConcPro中了。
如果導(dǎo)入了過多的TXT文檔,比方您導(dǎo)入了莎士比亞全集+馬克思選+恩格斯選+列寧選+選+選.....〔不能否認(rèn),真的有這樣的朋友存在〕。那么,為了方便您查詢檢索結(jié)果所出現(xiàn)的文章,你可以選擇File→ViewCorpusFile/URL,這樣就能看到查詢結(jié)果所在的文章,還可以刪除不需要的文章,或者添加新的文章,非常簡單。
*這里的URL,指的是在HTTP或者FTP上,可以直接翻開的文字頁面的。一般朋友們DIY的語料庫都是存在本地硬盤上的,所以根本上可以無視這個選項。不過,將來我們的個人語料庫要實現(xiàn)點對點,點對多的平臺連接。連接后,我們就可以相互查詢對方個人語料庫中的資料,此時在導(dǎo)入對方語料庫中的文檔的時候,就要用這個了?!策@個目前還很遙遠(yuǎn),大家還是踏踏實實做自己的DIY語料庫吧!〕
當(dāng)我們要刪除所有的文章的時候,這個時候僅僅關(guān)閉文章的窗口,是不能實現(xiàn)刪除文章內(nèi)容的。關(guān)閉了窗口,只是你看不見了而已,但是文章實際上已經(jīng)寫入了內(nèi)存,你必須將它去除出內(nèi)存,才能在搜索的結(jié)果中排出掉不需要使用的文章。這個時候,你就需要File→UnloadCorpus功能了。這里Unload只是卸載掉內(nèi)存中的TXT文檔,不是刪除你的文章,所以不要害怕,大膽卸。
以上就是MonoConcPro操作的根本功能。這里需要說明一個問題,MonoConcPro的File里面有一個Language的選項,里面你可以發(fā)現(xiàn)軟件支持很多語言。這里所謂的支持,只是顯示TXT文檔時所支持的語言編碼。也就是說,在MonoConcPro里面是可以顯示字母體系文字,和漢字體系文字的。但是,但是,但是!在內(nèi)存中處理的時候,軟件是使用UTF-8歐洲語言進(jìn)展處理的〔ANSI〕,所以無法直接處理漢字編碼Unicode或者ASCII編碼。不過,通過WORD或者其他的專碼工具,也可以進(jìn)展操作,但是本人研究了很多編,對于漢字編碼的處理,系統(tǒng)總是出現(xiàn)很多錯誤,所以建議不要使用這個軟件來處理漢字文本。當(dāng)然,有鉆研精神的人,還是很鼓勵的。沒有鉆研精神也不要怕,MonoConcPro介紹完了之后,我們會介紹專門處理漢字編碼的軟件Antconc3.2.0W,要好好支持我,我才講哦!
*有的朋友在翻開自己所整理的TXT文本文件時,在MonoConcPro進(jìn)展操作的時候,會出現(xiàn)軟件報錯,或者軟件自動關(guān)閉等狀況。這就是我在上面提到的編碼問題。在我們進(jìn)展MonoConcPro操作之前,我們有必要將我們的TXT文檔,用寫字板翻開,然后選擇另存為,編碼選擇ANSI,然后用新保存的文件進(jìn)展MonoConcPro操作,就會防止這個問題;當(dāng)然也可以使用Word等更加強大的軟件進(jìn)展編碼轉(zhuǎn)換。如果在這一點上有疑問,請聯(lián)系我。--------------------------------------------------課間休息------------------------------------------課間休息-------------------------------------------------
進(jìn)階功能介紹:
前半節(jié)的課程上,我們認(rèn)識了MonoConcPro軟件的根本功能?,F(xiàn)在我們來學(xué)習(xí)今天課程的精華中的精華中的精華局部。要好好聽,不要走神哦!
Word
List功能
這個功能看名字很簡單,但是實際上這是一個很了不起的功能。首先我發(fā)上來兩個圖,大家可以參考一下。
第一副圖是對于英文文章WordList---詞匯頻率出現(xiàn)的統(tǒng)計;第二幅圖是對于漢語文章WordList的統(tǒng)計結(jié)果。從第一幅圖上我們就可以很清楚的看到〔可能這里看得不是很清楚〕,軟件能夠把英文單詞準(zhǔn)確地提取出來,按照單個詞來統(tǒng)計頻率。而第二幅圖就明顯地看到,軟件不能把漢字處理成為單個漢字來統(tǒng)計,也不能按照任何一種詞匯規(guī)律來統(tǒng)計,根本上說,廢了。
那么WordList的功能怎么實現(xiàn)呢?首先,導(dǎo)入你需要統(tǒng)計的所有TXT文檔文件,這一步我想大家根本上都能實現(xiàn)。當(dāng)你導(dǎo)入文件之后,你會發(fā)現(xiàn),主頁面的登陸畫面上,出現(xiàn)了很多新的功能菜單。這些菜單就是今后我們需要逐個介紹的進(jìn)階和高級搜索功能菜單。今天我們先選擇Frequency→CorpusFrequencyData→FrequencyOrder。這時候軟件就開場自己統(tǒng)計詞匯頻率了,之后會出現(xiàn)一個統(tǒng)計表。就像上面的圖里面表示的東西一樣。表中的左邊開場依次是指定單詞出現(xiàn)的次數(shù),指定單詞出現(xiàn)的頻率,指定單詞。從表中一下子就對文章中的詞匯的出現(xiàn)頻率有了整體的了解,是不是也就有助于你做一些詞類研究呢?!
我們注意到了Frequency→CorpusFrequencyData→AlphabeticalOrder這個選項。這個也是一個很有用的選項。它會將WordList的統(tǒng)計結(jié)果,按照字母表順序排列,這樣你就可以看到,同一個字母開頭的詞匯,哪些詞出現(xiàn)的頻率較高,對于詞性研究,詞類比照,使用比照等,想必是非常有用處的吧。我也不是語言學(xué)的專家,有用沒有用,還需要大家自己的判斷。
Frequency下面還有一個選項,F(xiàn)requencyOptions。這個選項主要對于我們的頻率檢索做一些簡單的設(shè)定。里面規(guī)定了,結(jié)果顯示行數(shù),最低頻率數(shù),最高頻率數(shù),大小寫區(qū)別,TAG區(qū)別等,沒有特殊的需求,初學(xué)者一般不要修改這個選項比擬好。
好了!我們現(xiàn)在已經(jīng)學(xué)習(xí)了WordList的制作方法,也懂得了一些查詢的選項。在開頭我也提到了,語料庫軟件的學(xué)習(xí),其實也是培養(yǎng)一種理性地邏輯思維能力。用這種邏輯思維去思考和設(shè)計語料庫檢索處理軟件,來為自己的語料研究效勞。剛剛我們講了單詞頻率的統(tǒng)計。那么,我向大家提出一個問題,如果遇到了兩篇巨長的文章,我們要同時比擬某個單詞在這兩篇文章中的出現(xiàn)頻率,應(yīng)該怎么做呢?!
細(xì)心的你,一定注意到,在Frequency菜單下,有一個SaveasFile選項。這是一個偉大的選項。雖然實現(xiàn)的是一個很不起眼,Save存儲這樣的小破功能。但是,對于后來我們的比擬研究,確是必不可少的一步。
在我給大家提供的下載文件里面,我放入了很多DEMO用的TXT文檔文件在SIMPLE文件夾中,還有一篇巨長的小說?罪與罰?。這都是用來講解和大家實踐用的。
首先,我們運行軟件,導(dǎo)入SIMPLE中的TXT文檔〔poorfolk.txt,demo.txt,demo2.txt,demo3.txt〕!對!就是不要那個?罪與罰?。
然后我們統(tǒng)計這四篇TXT文檔的WordList。具體統(tǒng)計的操作方法,不會的朋友看上面的教程。
然后我們就看到了下面這個圖:
然后我們選擇Frequency→SaveasFile這個時候會出現(xiàn)一個對話框,這個對話框是提示需要用多少行來表示所統(tǒng)計的數(shù)據(jù),一般我們默認(rèn)為0,也就是用無限行來表示。然后選擇OK,這個時候出現(xiàn)保存程序的對話框。我強烈建議,大家把文件不要存成TXT,存文件的時候,把保存類型選擇為Allfiles。然后我們給文件隨便命名為mantou。這樣就保存成了一個叫做mantou,但是不能直接運行的程序文件。為什么這樣?呵呵!這是一個小訣竅。使用Allfiles來保存這種文本處理的統(tǒng)計文件,你會驚奇的發(fā)現(xiàn),我們可以使用EXCEL輕松地翻開這個叫做mantou的文件,然后可以用EXCEL的強大表格功能來進(jìn)展編輯。還可以用SQL,MYSQL,ACCESS等數(shù)據(jù)庫文件翻開這個叫做mantou的文件,輕松導(dǎo)入到各種數(shù)據(jù)庫文件中。非常方便!
好了,繼續(xù)!
現(xiàn)在我們使用UnloadCorpus,卸載掉駐留內(nèi)存的所有文檔,然后翻開罪與罰.txt〔抱歉里面使用了日語,將就吧〕。然后對這一篇文章進(jìn)展WordList頻率統(tǒng)計。就會出現(xiàn)下列圖:
同樣地,為了保險起見,我們也把這篇文章的WordList存成名叫qianqian的無指定程序運行的文件。
這個時候,我們選擇Frequency→Corpusparison,在翻開的對話框的文件類型中選擇AllFiles。然后我們就可以看到mantou那個文件了,選中它,然后翻開。這個時候我們就能看到下面這個圖。
也許這里看不清,我說說。在這個圖表中,左邊開場依次是:指定單詞目前出現(xiàn)次數(shù),指定單詞目前出現(xiàn)頻率,指定單詞,指定單詞上次出現(xiàn)次數(shù),指定單詞上次出現(xiàn)頻率,兩次比擬頻率差,對數(shù)尤度比。
這樣就可以清晰地比擬出來詞匯在不同的文章中出現(xiàn)的頻率。不過,這里的比擬只能進(jìn)展1:1的單次比,不能實現(xiàn)復(fù)數(shù)次數(shù)以上的多數(shù)比。如果要進(jìn)展多數(shù)比,也就是復(fù)數(shù)文章以上的,針對指定單詞的出現(xiàn)頻率和出現(xiàn)次數(shù)的比擬的話,那么最好是用EXCEL翻開多個保存WordList的文件,直接在EXCEL上做統(tǒng)計,表格,圖形處理,會比擬直觀〔
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江蘇財經(jīng)職業(yè)技術(shù)學(xué)院《打印創(chuàng)新設(shè)計》2023-2024學(xué)年第二學(xué)期期末試卷
- 天津醫(yī)科大學(xué)臨床醫(yī)學(xué)院《電視節(jié)目播音主持實訓(xùn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 邵陽職業(yè)技術(shù)學(xué)院《結(jié)構(gòu)設(shè)計軟件應(yīng)用》2023-2024學(xué)年第二學(xué)期期末試卷
- 長春職業(yè)技術(shù)學(xué)院《三維動畫MAYA》2023-2024學(xué)年第二學(xué)期期末試卷
- 內(nèi)江師范學(xué)院《SAS與統(tǒng)計分析》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年重慶市建筑安全員考試題庫附答案
- 長春師范大學(xué)《公共管理與公共政策實務(wù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 西安航空學(xué)院《老年認(rèn)知癥的篩查與干預(yù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 南京科技職業(yè)學(xué)院《會展設(shè)計實務(wù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 襄陽職業(yè)技術(shù)學(xué)院《現(xiàn)代環(huán)境分析技術(shù)與應(yīng)用》2023-2024學(xué)年第二學(xué)期期末試卷
- 病歷書寫相關(guān)法律法規(guī)
- 老舊小區(qū)加裝電梯方案
- 老年人誤吸與預(yù)防-護理團標(biāo)
- 輸氣場站工藝流程切換操作規(guī)程課件
- 青少年網(wǎng)絡(luò)安全教育課件
- 2021年全國統(tǒng)一高考英語試卷(新課標(biāo)Ⅰ)(原卷版)
- 產(chǎn)科抗磷脂綜合征診斷與處理專家共識護理課件
- 中醫(yī)護理中藥封包課件
- 2024年中智集團及下屬單位招聘筆試參考題庫含答案解析
- 中草藥材種植基地項目申請報告
- 2022年南京鐵道職業(yè)技術(shù)學(xué)院單招職業(yè)技能題庫及答案解析
評論
0/150
提交評論