語料庫和知識庫的研究現(xiàn)狀

上傳人：地*** IP屬地：山東上傳時間：2023-04-03 格式：DOC 頁數(shù)：10 大小：82KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩5頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

語料庫和知識庫的研究現(xiàn)狀語料庫和知識庫的研究現(xiàn)狀/語料庫和知識庫的研究現(xiàn)狀語料庫和知識庫研究現(xiàn)狀2015-12-9摘要：語料庫是語料庫語言學(xué)研究的基礎(chǔ)資源，也是經(jīng)驗主義語言研究方法的主要資源，它與自然語言辦理有著相輔相成的關(guān)系，是用統(tǒng)計語言模型的方法辦理自然語言的基礎(chǔ)資源。知識庫寬泛應(yīng)用于信息檢索、機器問答系統(tǒng)、自動文摘、文本分類等領(lǐng)域，為進行大規(guī)模的真實性文本的語義解析供應(yīng)了有利的支持，它也成為自然語言辦理不可以或缺的基礎(chǔ)資源。由于語料庫和知識庫的寬泛應(yīng)用，此刻國內(nèi)外對語料庫和知識庫的研究給與高度的重視，經(jīng)過過去幾十年的發(fā)展，各國在語料庫和知識庫的建設(shè)和應(yīng)用方面都獲取了很多成就。本文經(jīng)過對語料庫與知識庫相關(guān)文件資料的找尋整理，重點介紹當(dāng)前國內(nèi)外在語料庫和知識庫方面的研究現(xiàn)狀。重點詞：語料庫；知識庫；研究現(xiàn)狀前言語料庫是指依照必然的語言學(xué)原則，運用隨機抽樣的方法，收集自然出現(xiàn)的連續(xù)的語言文本也許說話片段而建成的擁有必然容量的大規(guī)模電子文本庫[1]。而知識庫是知識工程中結(jié)構(gòu)化、易操作使用，全面有組織的知識集群，是針對某一（或某些）領(lǐng)域問題求解的需要，采用某種（或若干）知識表示方式在計算機儲藏器中儲藏、組織、管理和使用的互相聯(lián)系的知識片會集。語料庫和知識庫在傳統(tǒng)語言研究、詞典編纂、語言授課、自然語言辦理等領(lǐng)域有重要作用，因此自從20世紀(jì)60年代第一個現(xiàn)代意義上的語料庫——美國布朗語料庫(BrownCorpus)出生開始，大批國內(nèi)外的專家學(xué)者致力于語料庫和知識庫的研究，近來幾年來國內(nèi)外對于語料庫知識庫的研究獲取了重要的打破，形成了規(guī)模不一的各種語料庫和知識庫，而且涌現(xiàn)了眾多相關(guān)語料庫和知識庫的專著、論文等。對于語料庫和知識庫發(fā)展現(xiàn)狀的總結(jié)研究，不但可以幫助人們清楚的認(rèn)識語料庫和知識庫當(dāng)前發(fā)展的形勢，對今后語料庫知識庫的發(fā)展擁有必然的指導(dǎo)作用，而且對于應(yīng)用語料庫知識庫發(fā)展自然語言辦理等領(lǐng)域擁有重要意義。研究意義從現(xiàn)代意義上第一個語料庫出現(xiàn)以來,語料庫在國內(nèi)外的發(fā)展均有長足的進步,不僅其規(guī)模越來越大,加工深度越來越深,而且相關(guān)語料庫的應(yīng)用也越來越寬泛[2]。語料庫的迅速發(fā)展對語言學(xué)研究領(lǐng)域和應(yīng)用語言學(xué)領(lǐng)域產(chǎn)生了巨大的作用。在語言學(xué)研究領(lǐng)域,語料庫為語言研究者和使用者供應(yīng)了豐富而全面的研究素材,有助于研究者依照大批的語言素材實質(zhì)得出客觀正確的結(jié)論。別的，語料庫的現(xiàn)代化使得語言學(xué)家可以利用語料庫解析軟件實現(xiàn)語料檢索和頻率統(tǒng)計，幫助人們觀察和掌握語言事實，更為正確的得出結(jié)論。在應(yīng)用語言學(xué)領(lǐng)域，語料庫技術(shù)與應(yīng)用語言學(xué)的結(jié)合也產(chǎn)生了大批的合用成就。比方，應(yīng)用語料庫產(chǎn)生一系列基于語料庫的詞典，應(yīng)用語料庫確定語言授課的教材大綱，供應(yīng)外語授課與研究的優(yōu)異平臺等。而知識庫特別是語言知識庫，是幫助計算機認(rèn)識人類語言的一個媒介和手段，也是讓計算機逐漸智能起來的物質(zhì)前提[3]。知識庫的成立對于自然語言辦理的發(fā)展擁有重要作用，可以滿足其對語言句子語義知識的要求，在信息檢索、機器問答系統(tǒng)、信息提取、機器翻譯、文本分類、自動文摘等方面獲取了寬泛的應(yīng)用。基于以上介紹的語料庫和知識庫在此刻研究中的重要作用，對于語料庫和知識庫發(fā)展現(xiàn)狀的研究總結(jié)，可以幫助人們更好地認(rèn)識語料庫和知識庫的此刻已獲取發(fā)展成就和還沒有解決的問題，可以為人們對語料庫知識庫的進一步研究和應(yīng)用供應(yīng)必然的指導(dǎo)作用。國內(nèi)發(fā)展現(xiàn)狀語料庫的發(fā)展與現(xiàn)狀自1979年中國開始成立機器可讀的語料庫以來,國內(nèi)語料庫發(fā)展迅速，獲取了相當(dāng)一部分的成就。（1）早期語料庫早期在中國成立的機器可讀語料庫主要包括：1979年武漢大學(xué)成立的漢語現(xiàn)代文學(xué)作品語料庫（527萬字）、1983年北京航天航空大學(xué)成立的現(xiàn)代漢語語料庫（2000萬字）、1983年北京師范大學(xué)成立的中學(xué)語文教材語料庫（106萬8千字）以及1983年北京語言學(xué)院成立的現(xiàn)代漢語詞頻統(tǒng)計語料庫（182萬字）。早期形成的這些語料庫，基本都是手工方式成立的，成本高、效率低。別的，在早期成立語料庫時，只形成了初步的國家語料庫的成立標(biāo)準(zhǔn)，在語料庫成立的一致規(guī)范方面問題比較突出。（2）國家級大型漢語語料庫在1991年，為了推進漢語的詞法、句法、語義和語用的研究，中國國家語言文字工作委員會開始成立計劃規(guī)模達7000萬漢字的國家級大型漢語語料庫。誠然該語料庫當(dāng)時在漢語語料庫系統(tǒng)開發(fā)技術(shù)上擁有國際當(dāng)先水平，而且在語料的可靠和注明的正確方面等享有聲威性，但是該語料庫依靠純手工成立，在選材方面也碰到了必然的限制。當(dāng)前，該語料庫已經(jīng)擁有2000萬字的核心語料，經(jīng)過人們的加工辦理，其正在完成從生語料庫到熟語料庫的過分。（3）大規(guī)模真實文本語料庫隨著技術(shù)的進一步發(fā)展，大規(guī)模真實文本語料庫逐漸被成立起來。研究大規(guī)模真實文本語料庫的單位包括北京大學(xué)計算語言學(xué)研究所、清華大學(xué)、山西大學(xué)、哈爾濱工業(yè)大學(xué)、北京語言文化大學(xué)、東北大學(xué)、中科院軟件研究所、中科院自動化研究所、香港城市大學(xué)以及臺灣中央研究院等。其中代表性成就有：北京大學(xué)計算語言學(xué)研究所從1992年開始張開對現(xiàn)代漢語語料庫多級加工的研究，先后建成2600萬字的1998年《人民日報》的注明語料庫，2000萬字漢字、1000多萬英語單詞的篇章級英漢比較雙語語料庫以及8000萬字篇章級信息科學(xué)與技術(shù)領(lǐng)域的語料庫等。清華大學(xué)則在1998年景立了1億漢字的語料庫，它重視研究歧義切分的問題，此刻成立的生語料庫已達7-8億字[4]。（4）雙語語料庫在20世紀(jì)90年代前后，隨著外語授課的普及，先后出現(xiàn)了各種不同樣的雙語語料庫，比方：北大計算語言學(xué)研究所的雙語語料庫、哈爾濱工業(yè)大學(xué)的英漢雙語語料庫、東北大學(xué)的英漢雙語語段庫等英漢雙語語料庫，北京外國語大學(xué)的北京日本學(xué)研究中心成立漢語和日語并行語料庫、中國海洋大學(xué)語言文學(xué)院研制的《蝴蝶》德漢比較語料庫以及復(fù)旦大學(xué)計算機系成立的漢日英分類熟語料庫。在該時期，中國語料庫的發(fā)展進入到嶄新的蓬勃時期。雙語語料庫的迅速發(fā)展為外語授課供應(yīng)了豐富的可用資源，對于外語授課的發(fā)展起到了巨大的推進作用。（5）少許民族語語言料庫由于我公民族眾多，民族語言資源豐富，因此近來幾年來，少許民族語語言料庫的發(fā)展獲取了大家的重視。比方，新疆大學(xué)從2002年起開始建設(shè)現(xiàn)代維吾爾語語料庫系統(tǒng)，當(dāng)前已有生語料800萬詞；新疆師范大學(xué)成立了200萬詞的維吾爾語語料庫，擬發(fā)展到300萬詞；中國社會科學(xué)院民族研究所成立了500萬藏語字符的藏語語料庫；內(nèi)蒙古大學(xué)成立了帶有初步切分和注明的蒙古語語料庫[5]。誠然由于少許民族語言的特別性，少許民族語料庫的建設(shè)還存在一系列問題，但是少許民族語語言料庫的成立足以說明到當(dāng)前為止我國語料庫的發(fā)展已經(jīng)達到了一個新的高度。知識庫的發(fā)展與現(xiàn)狀在國內(nèi)，此刻比較有名的知識庫是HowNet（知網(wǎng)）、基于WordNet框架開發(fā)的中文看法詞典（CCD）以及臺灣中研院的SinicaBow[6]等。從上世紀(jì)末開始，董振東先生就帶領(lǐng)一批專家學(xué)者開始成立知網(wǎng)（HowNet），它是一個以漢語和英語的詞語所代表的看法為描述對象，以揭穿看法與看法之間以及概念所擁有的屬性之間的關(guān)系為基本內(nèi)容的知識知識庫。知網(wǎng)的發(fā)展從1988年張開基礎(chǔ)研究開始到2008年宣布“知網(wǎng)在線”共經(jīng)歷了九個過程。現(xiàn)此刻，的發(fā)展比較成熟，已經(jīng)成為中國知識資源的總庫，供應(yīng)了工業(yè)、農(nóng)業(yè)等眾多學(xué)科的知識。它不但為語言信息辦理的研發(fā)供應(yīng)了豐富的知識資源，而且供應(yīng)了一個進行漢語言計算機辦理的新思路，其在詞義注明、詞義消歧、信息過濾、詞義相似度的計算等好多領(lǐng)域獲取寬泛的應(yīng)用。CCD是基于WordNet框架開發(fā)的，他不但繼承了WordNet的一部分方法技術(shù)，而且依照漢語的特點對WordNet進行了改進，經(jīng)過多年的努力，CCD已包括十萬左右的漢語同義詞集[7]。臺灣中研院開發(fā)的SinicaBow支持英漢雙語盤問；多重語義索引等，而且SinicaBow還包括了不同樣層次的詞匯知識，詞匯的可用資源豐富而全面。外國發(fā)展現(xiàn)狀語料庫的發(fā)展與現(xiàn)狀從20世紀(jì)60年代開始，語料庫從第一代逐漸發(fā)展到此刻的第三代，這么多年來，各國在語料庫的發(fā)展方面都獲取了不菲的成績。（1）第一代語料庫20世紀(jì)60年代Francis和Kucera在美國Brown大學(xué)成立美國布朗語料庫(BrownCorpus)，它是世界上第一個依照系統(tǒng)性原則收集樣本的標(biāo)準(zhǔn)語料庫，主要代表今世美國英語的，擁有100萬詞的規(guī)模。70年代初，英國Lancaster大學(xué)、挪威Oslo大學(xué)與

Bergen大學(xué)結(jié)合成立了與布朗語料庫規(guī)模相當(dāng)?shù)?/p>

LOB

語料庫，它主要代表今世英國英語。

LLC口語語料庫

(London-LundCorpusofSpokenEnglish)

在1975年建成的，其規(guī)模為萬詞的而且?guī)в性敿毜捻嵚勺⒚?。整體來說，第一代語料庫的規(guī)模比較小，基本采用系統(tǒng)的抽樣方法而且基本都以語言研究為目的。（2）第二代語料庫COBUILD語料庫（CollinsBirminghamUniversityInternationalLanguageDatabase，科林斯英語語料庫）是從20世紀(jì)80年代開始由英國伯明翰（Birmingham）大學(xué)和柯林斯（Collins）初版社合作成立的主要應(yīng)用于詞典編撰的一個大規(guī)模語料庫，當(dāng)前它固定在億詞的規(guī)模，而且供應(yīng)在線檢索。同樣在20世紀(jì)80年代朗文語料庫委員會還成立了應(yīng)用于英語學(xué)習(xí)詞典編纂的Longman語料庫（朗文語料庫），當(dāng)前其規(guī)模達5000萬詞次。由于技術(shù)的進步，第二代語料庫采用談心的光電符號鑒別技術(shù)，拜托了手工成立的麻煩，節(jié)約了語料庫成立的時間和成本，而且第二代語料庫的規(guī)模與第一代語料庫對照均有大幅度提高。（3）第三代語料庫美國計算機協(xié)會（ACL/DCI）建議倡導(dǎo)成立ACL/DCI語料庫，其收集的語料本源寬泛，而且采用了一致的標(biāo)準(zhǔn)通用注明語言和TEI文本編碼建議標(biāo)準(zhǔn)。在20世紀(jì)80年代末90年代初，美國賓州大學(xué)開始對百萬詞級的語料進行句法和語義注明，把線性的文本語料庫加工成為表示句子的句法和語義結(jié)構(gòu)的樹庫，成立了賓州大學(xué)樹庫（PennTreeBank）。到1993年已經(jīng)完成了對300萬詞的英語句子進行了句法結(jié)構(gòu)注明。別的在2000年，其完成了約10萬詞、4185個句子的初版中文樹庫。隨著發(fā)展，第三代語料庫的語料從開始的單語種發(fā)展到多語種，規(guī)模從開始的百萬級發(fā)展到億級、萬億級，采用的文本從抽樣發(fā)展到全文。經(jīng)過三個階段，現(xiàn)此刻除上述所列的語料庫，外國還包括好多其他的語料庫，整體來說，此刻不但中國的語料庫發(fā)展迅速，在外國語料庫也獲取了巨大的發(fā)展成就。知識庫的發(fā)展與現(xiàn)狀外國知識庫的發(fā)展過程中，形成了以描述聚合關(guān)系為主的WordNet，以描述組合關(guān)系為主的FrameNet[8]。本文將重視介紹WordNet，對于FrameNet不做詳細表達。為認(rèn)識決詞典中同義信息的組織問題，美國美國普林斯頓大學(xué)(PrincetonUniversity)認(rèn)知科學(xué)實驗室開發(fā)了WordNet[9]，它是在線詞匯的語義資源。其基本單元是同義詞會集，而且單元和單元之間主要依靠包括上下文關(guān)系、反義關(guān)系、整體部分關(guān)系等的聚合關(guān)系來連接。它包括95600個英語詞條，其中51500個簡單詞，44100個搭配詞，70100個同義詞級會集。其詳細可以應(yīng)用于詞匯消歧，語義推理，語義理解等領(lǐng)域。存在問題及未來發(fā)展趨勢存在的問題語料庫的問題誠然國內(nèi)外語料庫的建設(shè)發(fā)展迅速，但是在語料庫的發(fā)展方面依舊存在很多的問題，主要包括：（1）語料庫建設(shè)的規(guī)范問題語料庫的規(guī)范問題主若是對語料加工而言的[10]。誠然在語料庫的發(fā)展過程中形成了《信息辦理用字符集漢字部件規(guī)范》、TEI（TextEncodingInitiative，文本編碼建議，1998年）、CES（CorpusEncodingStandard，語料庫編碼標(biāo)準(zhǔn)）及國際標(biāo)準(zhǔn)SGML(StandardGeneralizedMarkupLanguage，標(biāo)準(zhǔn)通用置口號言)等一系列約束語料庫的標(biāo)準(zhǔn)和規(guī)范，但是語料庫中建設(shè)的規(guī)范問題依舊比較嚴(yán)重，存在分詞的標(biāo)準(zhǔn)沒有完好確定和一致，文本屬性的規(guī)范未能完好成熟等問題。（2）產(chǎn)權(quán)保護和國家語料庫建設(shè)問題在此刻社會中，誠然人們寬泛關(guān)注語料庫的發(fā)展，重視國家語料庫的建設(shè)，但是沒有擬定出臺對于語料庫知識產(chǎn)權(quán)保護的法律法規(guī)，以正式初版物為資源的語料庫面對版權(quán)的問題，別的也沒有將國家語料庫的建設(shè)和保護上升到對于國家資源保護的高度。（3）語料庫的資源共享的問題誠然近來幾年來語料庫資源在較大范圍的共享已經(jīng)成為了可能，但是在資源共享方面依舊存在比較嚴(yán)重的問題。一方面，由于建設(shè)語料庫的目的不同樣，收集的語料信息也不同樣，這給資源的共享帶來了必然的限制。另一方面，好多語料庫資源的共享是盈利性質(zhì)的，這也限制了語料庫資源的共享。（4）語料庫加工中統(tǒng)計垃圾的問題此刻社會，由于計算機的普及，電子文本獲取寬泛使用，用于生成語料庫資源的越來越多，但是隨著語料庫容量的不斷增大，語料統(tǒng)計中的數(shù)據(jù)稀罕現(xiàn)象會越來越嚴(yán)重[11]。而在統(tǒng)計垃圾中可能會儲蓄著好多新的語言現(xiàn)象，因此應(yīng)該正確的地對待統(tǒng)計垃圾，防備統(tǒng)計中的數(shù)據(jù)稀罕現(xiàn)象。（5）語料庫發(fā)展不平衡隨著語料庫的發(fā)展，語料庫在個領(lǐng)域發(fā)展不平衡的現(xiàn)象越來越嚴(yán)重。以中國為例，某些語料庫，比方英漢雙語語料庫，在此刻獲取了迅速的發(fā)展，形成的語料庫規(guī)格各異、數(shù)量眾多，但是在少許民族語言方面，形成的語料庫數(shù)量少，規(guī)模小。因此，我們應(yīng)該著眼于全局，使得語料庫可以獲取全面平衡的發(fā)展。知識庫的問題誠然知識庫的建設(shè)各個國家的重視，但是知識庫依舊存在以下的一些問題：（1）知識獲取問題由于知識的提取技術(shù)不可以熟，若是采用機器自動提取知識成立知識庫會降低知識庫的質(zhì)量，而手工成立知識庫誠然保證了質(zhì)量但是效率低、成本高。因此，知識的獲取是阻攔知識庫發(fā)展的一個瓶頸。（2）保護困難由于知識的動向性，使得知識庫需要經(jīng)常的進行保護[12]，當(dāng)知識庫規(guī)模特別大時，它的保護工作難以進行。未來發(fā)展趨勢誠然語料庫和知識庫的發(fā)展存在上述的一些問題，但是經(jīng)過近幾十年的發(fā)展，無論是在語料庫知識庫的利用還是研究方法上都獲取了長足的進步。而且隨著知識經(jīng)濟的發(fā)展，計算機語言學(xué)和自然語言辦理在學(xué)界也越來越碰到重視[13]，這也意味著作為其發(fā)展基礎(chǔ)的語料庫和知識庫也越來越獲取人們的重視?？v觀此刻現(xiàn)狀，由于計算機技術(shù)的迅速發(fā)展，建設(shè)語料庫的語料資源越來越豐富，越來越多的語言研究者依照自己需求成立語料庫，這使得語料庫的建設(shè)趨于多樣性、應(yīng)用趨于多樣化。別的，學(xué)習(xí)者語料庫、口語語料庫、平行語料庫等應(yīng)用性比較強的語料庫種類的發(fā)展趨勢可能更為樂觀。而知識庫則會出現(xiàn)本體化和多語化的大趨勢，它們將從不同樣方面填充詞匯語義知識庫在知識共享和知識交流上的不足，使其更好地為自然語言辦理服務(wù)[8]?？傊Z料庫和知識庫在今后相當(dāng)長的時間內(nèi)都擁有廣闊的發(fā)展空間。總結(jié)語料庫主要用來研究語言的特點，隨著技術(shù)的現(xiàn)代化，語料庫在語言學(xué)研究中據(jù)有著越來越重要的地位。而語言知識庫則是自然語言辦理的基礎(chǔ)，在機器問答系統(tǒng)、信息檢索等方面發(fā)揮重視要的作用。本文大綱介紹了語料庫和知識庫的基本看法,研究語料庫和知識庫的意義、語料庫和知識庫當(dāng)前存在的一些問題以及對語料庫和知識庫未來發(fā)展的展望，別的，本文重視介紹了國內(nèi)外語料庫以及知識庫的發(fā)展現(xiàn)狀。參照文件[1]劉美良.語料庫語言學(xué)綜述[J].科技信息,2010,21期(21):280-281.常寶

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

語料庫和知識庫的研究現(xiàn)狀

文檔簡介

溫馨提示

最新文檔

評論

語料庫和知識庫的研究現(xiàn)狀

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔