版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
語(yǔ)言分析工具語(yǔ)言分析工具語(yǔ)料庫(kù)(corpus,復(fù)數(shù)為corpora)一詞來(lái)源于拉丁語(yǔ),本意為body。一般情況下,語(yǔ)料庫(kù)往往指的是一個(gè)“電子文本集”(acollectionoftextsstoredinanelectronicdatabase)。真正意義上,語(yǔ)料庫(kù)是一個(gè)按照一定的采樣標(biāo)準(zhǔn)采集而來(lái)的、能夠代表一種語(yǔ)言或者某語(yǔ)言的一種變體或文類(lèi)的電子文本集。以一個(gè)語(yǔ)料庫(kù)為數(shù)據(jù)源(datasource)進(jìn)行的研究可以看作是對(duì)該語(yǔ)料庫(kù)所代表語(yǔ)肓、語(yǔ)言變體或文類(lèi)的研究,研究所得到的結(jié)論可以推廣到整個(gè)語(yǔ)言、語(yǔ)言變體或文類(lèi)。語(yǔ)料庫(kù)語(yǔ)料庫(kù)(corpus,復(fù)數(shù)為corpora)一詞來(lái)源于拉丁語(yǔ)語(yǔ)料庫(kù)(corpus)是語(yǔ)言材料的倉(cāng)庫(kù),是計(jì)算機(jī)進(jìn)行語(yǔ)言檢索、比較、分析等處理的重要基礎(chǔ)。(張普1999)語(yǔ)言學(xué)名詞審定委員會(huì)2011年推出的《語(yǔ)言學(xué)名詞》中,對(duì)語(yǔ)料庫(kù)的定義、作用及應(yīng)用領(lǐng)域的闡述為:
(語(yǔ)料庫(kù)是)為語(yǔ)言研究和應(yīng)用而收集的,在計(jì)算機(jī)中存儲(chǔ)的語(yǔ)言材料,由自然出現(xiàn)的書(shū)面語(yǔ)或口語(yǔ)的樣本匯集而成,用來(lái)代表特定的語(yǔ)言或語(yǔ)言變體。經(jīng)過(guò)科學(xué)選材和標(biāo)注,具有適當(dāng)規(guī)模的語(yǔ)科庫(kù)能夠反映和記錄語(yǔ)言的實(shí)際使用恃況。通過(guò)語(yǔ)科庫(kù)能夠觀察和把握語(yǔ)言事實(shí),分析和研究語(yǔ)言系統(tǒng)的規(guī)律。語(yǔ)料庫(kù)可以應(yīng)用于語(yǔ)言學(xué)理論研究、語(yǔ)言應(yīng)用和語(yǔ)言工程。由此可見(jiàn),語(yǔ)料庫(kù)并不是語(yǔ)言材料的簡(jiǎn)單堆砌或隨意集合。而是有著嚴(yán)格要求的有序的語(yǔ)料集合。語(yǔ)料庫(kù)語(yǔ)言學(xué)語(yǔ)料庫(kù)(corpus)是語(yǔ)言材料的倉(cāng)庫(kù),是計(jì)算機(jī)進(jìn)行語(yǔ)言檢索對(duì)語(yǔ)料庫(kù)語(yǔ)言學(xué)(corpuslinguistics)的兩種看法:語(yǔ)料庫(kù)語(yǔ)言學(xué)是一個(gè)獨(dú)立的學(xué)科,它有自己獨(dú)到的理論體系和操作方法。語(yǔ)科庫(kù)語(yǔ)言學(xué)并非語(yǔ)言學(xué)的又一個(gè)分支學(xué)科,而是一種研究方法,這種方法基于大量的真實(shí)語(yǔ)言,可以用來(lái)回答通過(guò)其他途徑很難回答的問(wèn)題,從而極大地豐富已有的研究方法。語(yǔ)料庫(kù)語(yǔ)言學(xué)以大量精心采集而來(lái)的真實(shí)文本(authentictexts)為研究素材,主要通過(guò)概率統(tǒng)計(jì)的方法得出結(jié)論,因此語(yǔ)料庫(kù)語(yǔ)言學(xué)從本質(zhì)上講是實(shí)證性的(empirical)。語(yǔ)料庫(kù)語(yǔ)言學(xué)對(duì)語(yǔ)料庫(kù)語(yǔ)言學(xué)(corpuslinguistics)的兩種統(tǒng)計(jì)語(yǔ)言學(xué)使用概率論、數(shù)理統(tǒng)計(jì)等統(tǒng)計(jì)學(xué)的方法來(lái)對(duì)語(yǔ)言進(jìn)行研究。(馮志偉2012)統(tǒng)計(jì)語(yǔ)言學(xué)統(tǒng)計(jì)語(yǔ)言學(xué)統(tǒng)計(jì)語(yǔ)言學(xué)計(jì)量語(yǔ)言學(xué)計(jì)量語(yǔ)言學(xué)(quantitativelinguistics)以真實(shí)的語(yǔ)言交際活動(dòng)中呈現(xiàn)的各種語(yǔ)言現(xiàn)象、語(yǔ)言結(jié)構(gòu)、結(jié)構(gòu)屬性以及它們之間的相互關(guān)系作為研究對(duì)象,通過(guò)概率論、隨機(jī)過(guò)程、微分與微分方程、函數(shù)論等數(shù)學(xué)的定量方法(與代數(shù)等數(shù)學(xué)的定性方法相對(duì))對(duì)其進(jìn)行精確的測(cè)量、觀察、模擬、建模和解釋?zhuān)瑢ふ艺Z(yǔ)言現(xiàn)象背后的數(shù)理規(guī)律,揭示各種語(yǔ)言現(xiàn)象形成的內(nèi)在原因,探索語(yǔ)言系統(tǒng)的自適應(yīng)機(jī)制和語(yǔ)言演化的動(dòng)因。(劉海濤2012)計(jì)量語(yǔ)言學(xué)計(jì)量語(yǔ)言學(xué)計(jì)量語(yǔ)言學(xué)計(jì)算語(yǔ)言學(xué)“計(jì)算語(yǔ)言學(xué)是研究用機(jī)器來(lái)處理自然語(yǔ)言的學(xué)科。它是由信息技術(shù)和語(yǔ)言學(xué)交叉而成的”(CuS:1)。SLP沒(méi)有直接提出計(jì)算語(yǔ)言學(xué)的確切定義。SLP的作者在開(kāi)篇借用了StanleyKubrick科幻片中的人物HAL,HAL是一個(gè)通曉英語(yǔ)的機(jī)器人。作者引入HAL的目的在于說(shuō)明,為了構(gòu)建這樣一個(gè)可與人通過(guò)自然語(yǔ)言進(jìn)行交流的機(jī)器人,需要哪些知識(shí)和技術(shù):語(yǔ)言理解方面有語(yǔ)音識(shí)別和自然語(yǔ)言理解(包括唇讀技術(shù)),表達(dá)方面需要自然語(yǔ)言生成和語(yǔ)音合成,另外HAL也需要信息檢索、信息提取和推理方面的技能。而解決這些問(wèn)題一般涉及以下學(xué)科:自然語(yǔ)言處理,計(jì)算語(yǔ)言學(xué),語(yǔ)音識(shí)別和合成。SLP的作者將這三者合起來(lái)稱(chēng)為語(yǔ)音及語(yǔ)言處理,除了以上HAL所用的這些技能外,SLP也囊括了其他重要的語(yǔ)言處理領(lǐng)域,如:拼寫(xiě)校正、語(yǔ)法檢查和機(jī)器翻譯。計(jì)算語(yǔ)言學(xué)計(jì)算語(yǔ)言學(xué)計(jì)算語(yǔ)言學(xué)聯(lián)系:都是涉及語(yǔ)言學(xué)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)以及計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科和領(lǐng)域,是典型的文理工交叉學(xué)科,具有鮮明的跨學(xué)科研究性質(zhì)。研究對(duì)象都是自然語(yǔ)言組成的大規(guī)模語(yǔ)料庫(kù)。研究工具都是利用計(jì)算機(jī)的軟硬件。研究的理論基礎(chǔ)是數(shù)學(xué)的概率統(tǒng)計(jì)知識(shí)和語(yǔ)言學(xué)的語(yǔ)音、詞匯、句法、語(yǔ)義、語(yǔ)篇和語(yǔ)用知識(shí)。都可以對(duì)語(yǔ)言學(xué)的語(yǔ)音、詞匯、句法和語(yǔ)義等層面進(jìn)行統(tǒng)計(jì)和研究。四種語(yǔ)言學(xué)的聯(lián)系與區(qū)別聯(lián)系:四種語(yǔ)言學(xué)的聯(lián)系與區(qū)別聯(lián)系:統(tǒng)計(jì)語(yǔ)言學(xué)和計(jì)量語(yǔ)言學(xué)都是利用統(tǒng)計(jì)方法來(lái)實(shí)現(xiàn)對(duì)語(yǔ)言成分的統(tǒng)計(jì),計(jì)量語(yǔ)言學(xué)以發(fā)現(xiàn)語(yǔ)言成分或語(yǔ)言成分間的數(shù)學(xué)規(guī)律為目標(biāo)。而統(tǒng)計(jì)語(yǔ)言學(xué)以所統(tǒng)計(jì)的語(yǔ)言特征在統(tǒng)計(jì)學(xué)上顯著和不顯著為目標(biāo)。語(yǔ)料庫(kù)語(yǔ)言學(xué)對(duì)大規(guī)模語(yǔ)料庫(kù)進(jìn)行詞匯、句法和語(yǔ)義等統(tǒng)計(jì),依據(jù)統(tǒng)計(jì)數(shù)據(jù)和實(shí)例上下文對(duì)所研究的對(duì)象進(jìn)行語(yǔ)言學(xué)層面定性的分析,是定量分析和定性分析的結(jié)合,以研究語(yǔ)言的結(jié)構(gòu)和運(yùn)用為目標(biāo)。計(jì)算語(yǔ)言學(xué)以語(yǔ)言結(jié)構(gòu)的理解與生成為研究目標(biāo),以統(tǒng)計(jì)和規(guī)則為基本研究方法。計(jì)算語(yǔ)言學(xué)的統(tǒng)計(jì)模型——隱馬爾科夫模型、最大熵模型、條件隨機(jī)場(chǎng)模型等和實(shí)現(xiàn)算法更復(fù)雜。四種語(yǔ)言學(xué)的聯(lián)系與區(qū)別聯(lián)系:四種語(yǔ)言學(xué)的聯(lián)系與區(qū)別對(duì)“詞”的定義,語(yǔ)言學(xué)界一直很難達(dá)成共識(shí)。我們暫且撇開(kāi)語(yǔ)義問(wèn)題,考慮一下當(dāng)一個(gè)句子里出現(xiàn)兩個(gè)it,它們應(yīng)該被視作一個(gè)詞還是兩個(gè)詞呢?形符(token)類(lèi)似于我們?nèi)粘Uf(shuō)的“詞”(如一篇300詞的作文)。句子AcomputeralmostnecessarilyhasaKeyboardandamonitor中共有10個(gè)形符(即A,computer,almost,necessarily,has,a,Keyboard,and,a,monitor)。這看起來(lái)似乎沒(méi)有什么歧義,但是我們?nèi)匀恍枰紤]it’s是一個(gè)形符還是兩個(gè)形符。語(yǔ)料庫(kù)語(yǔ)言學(xué)中一般的處理方法是,對(duì)it’s,can’t等縮略詞進(jìn)行切分,使其成為it和’s兩個(gè)成分(can’t切分為ca和n’t兩個(gè)成分),這一過(guò)程被稱(chēng)作為分詞(tokenization)。換言之,語(yǔ)料庫(kù)語(yǔ)言學(xué)中一般將it’s視作為兩個(gè)形符??傂畏麛?shù)是語(yǔ)料庫(kù)容量的最常用的測(cè)量單位。如英國(guó)英國(guó)國(guó)家語(yǔ)料庫(kù)約有1億詞,說(shuō)的就是該語(yǔ)料庫(kù)中包含有約1億個(gè)形符。分詞—詞、形符、類(lèi)符、類(lèi)符/形符比對(duì)“詞”的定義,語(yǔ)言學(xué)界一直很難達(dá)成共識(shí)。我們暫且撇開(kāi)語(yǔ)義問(wèn)形符:在處理英語(yǔ)時(shí),較為通用的做法是,把所有的單詞視為“形符”。這里說(shuō)的形符,大概有這樣幾種類(lèi)型:1、全部由英語(yǔ)字母構(gòu)成(如computer由8個(gè)英文字母構(gòu)成)2、由數(shù)字或數(shù)字和字母構(gòu)成(如3、1985、21th、3D等)3、除了數(shù)字和/或字母之外,還帶有連字符(-)4、帶有英語(yǔ)26個(gè)字母之外的外來(lái)字母(如德語(yǔ)中的音變)5、部分符號(hào)(如&、$等)。統(tǒng)計(jì)形符時(shí),我們通常不把標(biāo)點(diǎn)符號(hào)(如逗號(hào)、句號(hào)等)包括在內(nèi),但這一點(diǎn)有例外,如數(shù)字3.1415925和整數(shù)的千分位分隔符(如100,000)中的逗號(hào)等。為了便于統(tǒng)計(jì),對(duì)英語(yǔ)進(jìn)行分詞時(shí)通常在以上我們所說(shuō)的“形符”后加空格,使得他們與文本中的其他形符或符號(hào)分離開(kāi)來(lái)。分詞—詞、形符、類(lèi)符、類(lèi)符/形符比形符:在處理英語(yǔ)時(shí),較為通用的做法是,把所有的單詞視為“形類(lèi)符(type)作為一個(gè)統(tǒng)計(jì)量,指語(yǔ)料庫(kù)文本中任何一個(gè)獨(dú)特的詞形(wordform)。換言之,在一個(gè)文本中,重復(fù)出現(xiàn)的形符只能記作一個(gè)類(lèi)符。以美國(guó)作家GertrudeStein的作品SacredEmily中的詩(shī)句Roseisaroseisaroseisarose.為例,這句中:共有10個(gè)形符,而類(lèi)符只有3個(gè)(即rose,is,a)。據(jù)此,我們可以計(jì)算這個(gè)句子的類(lèi)符/形符比(type-tokenratio,TTR,又稱(chēng)為形次比或類(lèi)形比),即 TTR=(3/10)*100%=30%類(lèi)符/形符比是衡量文本中詞匯密度(lexicaldensity)的常用方法。然而由于文本中有大量的功能詞(如the、a、of等)反復(fù)出現(xiàn),文本越大,形符量越大,但類(lèi)符量卻不會(huì)等量增加。文本越長(zhǎng),功能詞重復(fù)的次數(shù)也就越多,類(lèi)符/形符比也就會(huì)越低。因此,如果采用類(lèi)符/形符比來(lái)計(jì)算長(zhǎng)度不等的文本的詞匯密度就顯得很不合理。常用的補(bǔ)救方法是用標(biāo)準(zhǔn)化類(lèi)符/形符比(standardizedtype-tokenratio)來(lái)計(jì)算詞匯密度。計(jì)算方法是:計(jì)算每個(gè)文本每1000詞的類(lèi)符/形符比。分詞—詞、形符、類(lèi)符、類(lèi)符/形符比類(lèi)符(type)作為一個(gè)統(tǒng)計(jì)量,指語(yǔ)料庫(kù)文本中任何一個(gè)獨(dú)特的所謂分詞(tokenization),指將一連串的字符轉(zhuǎn)換成相互分離、容易識(shí)別的形符(tokens)的過(guò)程。在文本采集的過(guò)程中,由于文本來(lái)源不一,格式各異,文本內(nèi)部存在很大的不一致性,如果不進(jìn)行分詞處理,一來(lái)容易導(dǎo)致檢索困難,二來(lái)可能會(huì)使得語(yǔ)料庫(kù)的頻率統(tǒng)計(jì)出現(xiàn)誤差,還可能會(huì)影響語(yǔ)料庫(kù)的標(biāo)注和后期加工。分詞—詞、形符、類(lèi)符、類(lèi)符/形符比所謂分詞(tokenization),指將一連串的字符轉(zhuǎn)換漢語(yǔ)的分詞比英語(yǔ)要復(fù)雜的多。詞與詞之間連寫(xiě),沒(méi)有空格。對(duì)漢語(yǔ)“詞”的理解眾說(shuō)紛紜。分詞漢語(yǔ)的分詞比英語(yǔ)要復(fù)雜的多。分詞軟件filelist.ini,修改分詞文件目錄路徑批處理分詞軟件分詞軟件分詞軟件分詞語(yǔ)料庫(kù)屬性語(yǔ)料庫(kù)屬性語(yǔ)料庫(kù)屬性語(yǔ)料庫(kù)屬性語(yǔ)料庫(kù)屬性語(yǔ)料庫(kù)屬性語(yǔ)料庫(kù)屬性語(yǔ)料庫(kù)屬性語(yǔ)料庫(kù)分析索引,又稱(chēng)為“語(yǔ)境中的關(guān)鍵詞”語(yǔ)料庫(kù)分析索引,又稱(chēng)為“語(yǔ)境中的關(guān)鍵詞”語(yǔ)料庫(kù)分析語(yǔ)料庫(kù)分析語(yǔ)料庫(kù)分析語(yǔ)料庫(kù)分析語(yǔ)料庫(kù)分析語(yǔ)料庫(kù)分析語(yǔ)料庫(kù)分析語(yǔ)料庫(kù)分析語(yǔ)料庫(kù)分析語(yǔ)料庫(kù)分析語(yǔ)料庫(kù)分析語(yǔ)料庫(kù)分析語(yǔ)料庫(kù)分析語(yǔ)料庫(kù)分析語(yǔ)料庫(kù)分析語(yǔ)料庫(kù)分析語(yǔ)料庫(kù)分析語(yǔ)料庫(kù)分析語(yǔ)料庫(kù)分析語(yǔ)料庫(kù)分析ConcordanceConcordancePlotFileViewWordClusterN-GramsCollocatesWordListKeywordListAntConc-語(yǔ)料庫(kù)分析軟件ConcordanceAntConc-語(yǔ)料庫(kù)分析軟件AntConc-Concordance索引,又稱(chēng)為語(yǔ)境中的關(guān)鍵詞AntConc-Concordance索引,又稱(chēng)為語(yǔ)境中的關(guān)AntConc-ConcordancePlot索引定位AntConc-ConcordancePlot索引定位AntConc-FileViewAntConc-FileViewAntConc-WordCluster詞簇表,又稱(chēng)詞塊,詞匯短語(yǔ),短語(yǔ)結(jié)構(gòu)等等??稍O(shè)定長(zhǎng)度。AntConc-WordCluster詞簇表,又稱(chēng)詞塊,詞AntConc-N-GramsAntConc-N-GramsAntConc-Collocates搭配。AntConc-Collocates搭配。AntConc-WordList詞表。詞頻表。AntConc-WordList詞表。詞頻表。AntConc-Wo
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)內(nèi)部質(zhì)量控制與實(shí)驗(yàn)分析方法研究
- 教育培訓(xùn)崗位成效的立體化視覺(jué)報(bào)告
- 家庭照明設(shè)計(jì)營(yíng)造溫馨氛圍的技巧
- 教育背景下體育活動(dòng)的策劃藝術(shù)
- 心理健康從校園到生活的關(guān)懷與指引
- 心理學(xué)實(shí)驗(yàn)中的學(xué)生自主探究教學(xué)實(shí)踐
- 教室裝修中的空間利用與優(yōu)化策略
- 2025年度鴨苗銷(xiāo)售與農(nóng)產(chǎn)品品牌建設(shè)合作合同3篇
- 教育信息化與學(xué)生學(xué)業(yè)發(fā)展的關(guān)系
- 教育心理學(xué)在科技產(chǎn)品開(kāi)發(fā)中的應(yīng)用研究
- 綿陽(yáng)市高中2022級(jí)(2025屆)高三第二次診斷性考試(二診)歷史試卷(含答案)
- 《視頻壓縮基礎(chǔ)》課件
- 四年級(jí)數(shù)學(xué)(上)計(jì)算題專(zhuān)項(xiàng)練習(xí)及答案
- 軍事理論(2024年版)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- GB/T 6672-2001塑料薄膜和薄片厚度測(cè)定機(jī)械測(cè)量法
- 寫(xiě)人事物景作文課件
- 廠級(jí)安全培訓(xùn)資料
- 中國(guó)藥科大學(xué)《藥物化學(xué)》教學(xué)日歷
- 露天礦山課件
- 經(jīng)濟(jì)效益證明(模板)
- 果樹(shù)蔬菜病害:第一章 蔬菜害蟲(chóng)
評(píng)論
0/150
提交評(píng)論