




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1第1頁(yè),共17頁(yè),2023年,2月20日,星期一一、什么是語(yǔ)料庫(kù)?語(yǔ)料庫(kù)通常指為語(yǔ)言研究收集的、用電子形式保存的語(yǔ)言材料,由自然出現(xiàn)的書(shū)面語(yǔ)或口語(yǔ)的樣本匯集而成,用來(lái)代表特定的語(yǔ)言或語(yǔ)言變體。經(jīng)過(guò)科學(xué)選材和標(biāo)注、具有適當(dāng)規(guī)模的語(yǔ)料庫(kù)能夠反映和記錄語(yǔ)言的實(shí)際使用情況。人們通過(guò)語(yǔ)料庫(kù)觀察和把握語(yǔ)言事實(shí),分析和研究語(yǔ)言系統(tǒng)的規(guī)律。語(yǔ)料庫(kù)已經(jīng)成為語(yǔ)言學(xué)理論研究、應(yīng)用研究和語(yǔ)言工程不可缺少的基礎(chǔ)資源。2第2頁(yè),共17頁(yè),2023年,2月20日,星期一二、語(yǔ)料庫(kù)產(chǎn)生的原因:(1)傳統(tǒng)語(yǔ)言學(xué)研究方法的落后性是語(yǔ)料庫(kù)語(yǔ)言學(xué)產(chǎn)生的內(nèi)在動(dòng)力。任何一項(xiàng)科學(xué)研究都是建立在大量資料之上的。資料占有的完備性、取樣的準(zhǔn)確性和使用的有效性是科學(xué)研究的一個(gè)基本條件和前提條件。語(yǔ)言學(xué)研究也必須建立在大量的語(yǔ)料基礎(chǔ)之上。而傳統(tǒng)語(yǔ)言學(xué)研究方法在搜集、處理語(yǔ)料方面有很大的局限性,表現(xiàn)在以下幾個(gè)方面:
3第3頁(yè),共17頁(yè),2023年,2月20日,星期一一是語(yǔ)料的主觀性強(qiáng)。傳統(tǒng)語(yǔ)言學(xué)的研究方法是“內(nèi)省”、“舉例”方法,這種方法在很大程度上依賴(lài)于語(yǔ)言學(xué)家的主觀經(jīng)驗(yàn)。用帶有濃厚主觀色彩的語(yǔ)言事實(shí)作為立論的根據(jù),往往是靠不住的。最原始、最可靠的語(yǔ)言證據(jù)只能來(lái)自使用中的客觀語(yǔ)言材料。二是語(yǔ)料占有量小,覆蓋面窄,代表性差。通過(guò)手工獲得的語(yǔ)料從數(shù)量上不能得到充分的保證,致使其覆蓋面不夠大,自然代表性就差,由此得出的結(jié)論的科學(xué)性令人懷疑。
4第4頁(yè),共17頁(yè),2023年,2月20日,星期一三是語(yǔ)料整理工作量大,共享性不夠,效率低。比如編一本《牛津英語(yǔ)詞典》需要準(zhǔn)備近500萬(wàn)張卡片,編《現(xiàn)代漢語(yǔ)詞典》這樣一部中型詞典,資料卡片超過(guò)100萬(wàn)張。工作量之大可想而知。而且每一張卡片都是就某一項(xiàng)特定的要求制作的,不能移作他用,使用效率很低。而現(xiàn)代語(yǔ)料庫(kù)存儲(chǔ)的語(yǔ)料量大,具有充分代表性,而且存貯在磁盤(pán)上,并附有多功能檢索系統(tǒng),可根據(jù)多種不同的需要,從不同的角度,對(duì)語(yǔ)料進(jìn)行重組,提高了語(yǔ)料的共享性。
5第5頁(yè),共17頁(yè),2023年,2月20日,星期一四是知識(shí)問(wèn)題。一般語(yǔ)法著作和詞典提供了語(yǔ)言知識(shí)。但是就漢語(yǔ)詞典來(lái)看,沒(méi)有哪一本大型漢語(yǔ)詞典是帶有詞性標(biāo)注的用法解釋的。像英語(yǔ)的朗文詞典和牛津詞典那樣的專(zhuān)門(mén)為外國(guó)人學(xué)習(xí)語(yǔ)言而編纂的詳解詞典,在國(guó)內(nèi)還沒(méi)有見(jiàn)到。這就給計(jì)算機(jī)進(jìn)行漢語(yǔ)信息處理帶來(lái)不便,迫切需要帶有詞性標(biāo)記的語(yǔ)料庫(kù)作基礎(chǔ),并進(jìn)一步形成一個(gè)供計(jì)算機(jī)使用的語(yǔ)言知識(shí)庫(kù)。6第6頁(yè),共17頁(yè),2023年,2月20日,星期一(2)計(jì)算機(jī)的運(yùn)算速度和存貯容量的大幅度增長(zhǎng)是語(yǔ)料庫(kù)得以發(fā)展的物質(zhì)基礎(chǔ)。計(jì)算機(jī)的運(yùn)算速度快使得計(jì)算機(jī)語(yǔ)料庫(kù)具有建庫(kù)快、使用方便的優(yōu)點(diǎn)。計(jì)算機(jī)語(yǔ)料庫(kù)容量大使得計(jì)算機(jī)語(yǔ)料庫(kù)具有占用空間小、成本低的優(yōu)點(diǎn)。如果一個(gè)卡片盒裝2000張卡片,編《現(xiàn)代漢語(yǔ)詞典》的100萬(wàn)卡片需要500個(gè)卡片盒才能裝下,而用30張5·25英寸盤(pán)則可全部裝下,僅占1/3抽屜的面積。而且成本低,如果一張卡片1分錢(qián),100萬(wàn)張卡片需要1萬(wàn)元,如果用磁盤(pán)存貯,每張磁盤(pán)7元錢(qián),30張磁盤(pán)只需要210元。用其他介質(zhì)則更優(yōu)勢(shì)明顯。7第7頁(yè),共17頁(yè),2023年,2月20日,星期一(3)語(yǔ)言信息處理的進(jìn)一步發(fā)展,是語(yǔ)料庫(kù)語(yǔ)言學(xué)產(chǎn)生的學(xué)科需要。從自然語(yǔ)言系統(tǒng)所需裝備的語(yǔ)言知識(shí)來(lái)看,其數(shù)量之浩大和顆粒度之精細(xì)都是以往的系統(tǒng)所遠(yuǎn)遠(yuǎn)不及的。而且,隨著系統(tǒng)擁有的知識(shí)在數(shù)量和精細(xì)程度上發(fā)生的巨大變化,系統(tǒng)在如何獲取、表示和管理知識(shí)等依靠傳統(tǒng)的研究是不能解決問(wèn)題的,需要大規(guī)模真實(shí)文本語(yǔ)料庫(kù)的支持。8第8頁(yè),共17頁(yè),2023年,2月20日,星期一三、語(yǔ)料庫(kù)的類(lèi)型語(yǔ)料庫(kù)有多種類(lèi)型,確定類(lèi)型的主要依據(jù)是它的研究目的和用途,這一點(diǎn)往往能夠體現(xiàn)在語(yǔ)料采集的原則和方式上。有人曾經(jīng)把語(yǔ)料庫(kù)分成四種類(lèi)型:(1)異質(zhì)的:沒(méi)有特定的語(yǔ)料收集原則,廣泛收集并原樣存儲(chǔ)各種語(yǔ)料;(2)同質(zhì)的:只收集同一類(lèi)內(nèi)容的語(yǔ)料;(3)系統(tǒng)的:根據(jù)預(yù)先確定的原則和比例收集語(yǔ)料,使語(yǔ)料具有平衡性和系統(tǒng)性,能夠代表某一范圍內(nèi)的語(yǔ)言事實(shí);(4)專(zhuān)用的:只收集用于某一特定用途的語(yǔ)料。
9第9頁(yè),共17頁(yè),2023年,2月20日,星期一除此之外,按照語(yǔ)料的語(yǔ)種,語(yǔ)料庫(kù)也可以分成單語(yǔ)的、雙語(yǔ)的和多語(yǔ)的。按照語(yǔ)料的采集單位,語(yǔ)料庫(kù)又可以分為語(yǔ)篇的、語(yǔ)句的、短語(yǔ)的。雙語(yǔ)和多語(yǔ)語(yǔ)料庫(kù)按照語(yǔ)料的組織形式,還可以分為平行(對(duì)齊)語(yǔ)料庫(kù)和比較語(yǔ)料庫(kù),前者的語(yǔ)料構(gòu)成譯文關(guān)系,多用于機(jī)器翻譯、雙語(yǔ)詞典編撰等應(yīng)用領(lǐng)域,后者將表述同樣內(nèi)容的不同語(yǔ)言文本收集到一起,多用于語(yǔ)言對(duì)比研究。
10第10頁(yè),共17頁(yè),2023年,2月20日,星期一四、中文語(yǔ)料庫(kù)的應(yīng)用簡(jiǎn)介我國(guó)語(yǔ)料庫(kù)的建設(shè)始于80年代,當(dāng)時(shí)的主要目標(biāo)是漢語(yǔ)詞匯統(tǒng)計(jì)研究。進(jìn)入90年代以后,語(yǔ)料庫(kù)方法在自然語(yǔ)言信息處理領(lǐng)域得到了廣泛的應(yīng)用,建立了各種類(lèi)型的語(yǔ)料庫(kù),研究的內(nèi)容涉及語(yǔ)料庫(kù)建設(shè)中的各個(gè)問(wèn)題。90年代末到新世紀(jì)初這幾年是語(yǔ)料庫(kù)開(kāi)發(fā)和應(yīng)用的進(jìn)一步發(fā)展時(shí)期,除了語(yǔ)言信息處理和言語(yǔ)工程領(lǐng)域以外,語(yǔ)料庫(kù)方法在語(yǔ)言教學(xué)、詞典編纂、現(xiàn)代漢語(yǔ)和漢語(yǔ)史研究等方面也得到了越來(lái)越多的應(yīng)用。11第11頁(yè),共17頁(yè),2023年,2月20日,星期一語(yǔ)料庫(kù)與語(yǔ)言信息處理有著某種天然的聯(lián)系。當(dāng)人們還不了解語(yǔ)料庫(kù)方法的時(shí)候,在自然語(yǔ)言理解和生成、機(jī)器翻譯等研究中,分析語(yǔ)言的主要方法是基于規(guī)則的。對(duì)于用規(guī)則無(wú)法表達(dá)或不能涵蓋的語(yǔ)言事實(shí),計(jì)算機(jī)就很難處理。語(yǔ)料庫(kù)出現(xiàn)以后,人們利用它對(duì)大規(guī)模的自然語(yǔ)言進(jìn)行調(diào)查和統(tǒng)計(jì),建立統(tǒng)計(jì)語(yǔ)言模型,研究和應(yīng)用基于統(tǒng)計(jì)的語(yǔ)言處理技術(shù),在信息檢索、文本分類(lèi)、文本過(guò)濾、信息抽取等應(yīng)用方向取得了進(jìn)展。12第12頁(yè),共17頁(yè),2023年,2月20日,星期一另一方面,語(yǔ)言信息處理技術(shù)的發(fā)展也為語(yǔ)料庫(kù)的建設(shè)提供了支持。從字符編碼、文本輸入和整理,語(yǔ)料的自動(dòng)分詞和標(biāo)注,到語(yǔ)料的統(tǒng)計(jì)和檢索,自然語(yǔ)言信息處理的研究都為語(yǔ)料的加工提供了關(guān)鍵性的技術(shù)。13第13頁(yè),共17頁(yè),2023年,2月20日,星期一五、語(yǔ)料庫(kù)在語(yǔ)言研究上的主要功能1、統(tǒng)計(jì)描寫(xiě)功能;2、原因解釋功能;3、結(jié)論驗(yàn)證功能;4、探索發(fā)現(xiàn)功能;5、知識(shí)挖掘功能。14第14頁(yè),共17頁(yè),2023年,2月20日,星期一六、語(yǔ)料庫(kù)的建設(shè):1、根據(jù)系統(tǒng)功能目標(biāo)確定建庫(kù)方法;2、根據(jù)建庫(kù)需要確定選材原則;3、語(yǔ)料輸入和轉(zhuǎn)寫(xiě);4、語(yǔ)料的加工(分詞和屬性標(biāo)注);5、管理和檢索。15第15頁(yè),共17頁(yè),2023年,2月20日,星期一七、分詞與詞性標(biāo)注(參看word文檔)16第16頁(yè),共17頁(yè),2023年,2月20日,星期一
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 轉(zhuǎn)崗勞動(dòng)合同范本
- 2025年度出租車(chē)行業(yè)車(chē)輛更新改造合同
- 《與妻書(shū)》教學(xué)設(shè)計(jì) 2023-2024學(xué)年統(tǒng)編版高中語(yǔ)文必修下冊(cè)
- 2025年新能源停車(chē)場(chǎng)車(chē)位租賃合同范本
- 2024年多媒體講臺(tái)行業(yè)發(fā)展前景預(yù)測(cè)及投資戰(zhàn)略咨詢(xún)報(bào)告
- Unit 7 Careers Lesson 1EQIQ 教學(xué)設(shè)計(jì)-2024-2025學(xué)年高中英語(yǔ)北師大新版(2019)選擇性必修第三冊(cè)
- 2落花生第二課時(shí)(教學(xué)設(shè)計(jì))2024-2025學(xué)年統(tǒng)編版語(yǔ)文五年級(jí)上冊(cè)
- 購(gòu)買(mǎi)儀器的合同范本
- 2025年瓷質(zhì)滲花磚項(xiàng)目投資可行性研究分析報(bào)告
- 2025年沙卡項(xiàng)目可行性研究報(bào)告
- 人效管理措施
- 2024-2025學(xué)年人教部編版七年級(jí)上語(yǔ)文寒假作業(yè)(五)
- 四年級(jí)下冊(cè)勞動(dòng)《小小快遞站》課件
- 中國(guó)妊娠期糖尿病母兒共同管理指南(2024版)解讀
- 春節(jié)促銷(xiāo)活動(dòng)方案(7篇)
- 《股市的基礎(chǔ)常識(shí)》課件
- 火災(zāi)自動(dòng)報(bào)警及其消防聯(lián)動(dòng)系統(tǒng)技術(shù)規(guī)格書(shū)
- 設(shè)備管理人員安全培訓(xùn)
- 山東省房屋市政工程安全監(jiān)督機(jī)構(gòu)人員業(yè)務(wù)能力考試題庫(kù)-上(單選題)
- 2024年六西格瑪黃帶認(rèn)證考試練習(xí)題庫(kù)(含答案)
- 《公務(wù)員行測(cè)必會(huì)考試寶典》大全(分類(lèi))-2資料分析類(lèi)試題庫(kù)(含答案)
評(píng)論
0/150
提交評(píng)論