漢語自動(dòng)分詞與內(nèi)容分析法研究_第1頁
漢語自動(dòng)分詞與內(nèi)容分析法研究_第2頁
漢語自動(dòng)分詞與內(nèi)容分析法研究_第3頁
漢語自動(dòng)分詞與內(nèi)容分析法研究_第4頁
漢語自動(dòng)分詞與內(nèi)容分析法研究_第5頁
已閱讀5頁,還剩31頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

漢語自動(dòng)分詞與內(nèi)容分析法研究

前言

漢語自動(dòng)分詞是目前中文信息處理中公認(rèn)的難題,因?yàn)闈h語自動(dòng)分詞是自然語言理解、機(jī)器翻譯、信息檢索、語言文字研究、漢語文本自動(dòng)標(biāo)引、內(nèi)容分析等研究領(lǐng)域中最基本的一個(gè)環(huán)節(jié),也是中文信息自動(dòng)處理的“瓶頸”。如果能突破這一“瓶頸”,那么中文信息的自動(dòng)處理就會(huì)迎刃而解,甚至意味著中華民族文化復(fù)興的開始,因?yàn)樗呀?jīng)為漢語走向全世界打開了一扇方便之門。

近年來,由于計(jì)算機(jī)技術(shù)的飛速發(fā)展,漢語自動(dòng)分詞研究取得了突破性進(jìn)展,其應(yīng)用研究也越來越受到人們的重視,應(yīng)用范圍也越來越廣。內(nèi)容分析就是漢語自動(dòng)分詞應(yīng)用研究的重要領(lǐng)域之一,因?yàn)闈h語自動(dòng)分詞是內(nèi)容分析法的前提和基礎(chǔ)。隨著內(nèi)容分析法的興起及其廣泛應(yīng)用,研究漢語自動(dòng)分詞在內(nèi)容分析法中的應(yīng)用就變得十分迫切和必要了。

1已有的分詞方法

為了克服漢語詞計(jì)算機(jī)自動(dòng)切分這一難題,許多年來,大量的學(xué)者都加入了這一領(lǐng)域的研究,使?jié)h語自動(dòng)分詞取得了豐碩的研究成果。歸納起來,目前國(guó)內(nèi)公開報(bào)道過的漢語自動(dòng)分詞系統(tǒng)采用的分詞方法主要有三種類型[1~8]:

(1)機(jī)械分詞法。又稱詞典式切分法。機(jī)械分詞法主要有最大匹配法、逆向最大匹配法(RMM、OMM、IMM)、逐詞匹配法、部件詞典法、詞頻統(tǒng)計(jì)法、設(shè)立標(biāo)志法、并行分詞法、詞庫劃分和聯(lián)想匹配法等。

(2)語義分詞法。語義分詞法引入了語義分析,對(duì)自然語言自身的語言信息進(jìn)行更多的處理,如擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)法、知識(shí)分詞語義分析法、鄰接約束法、綜合匹配法、后綴分詞法、特征詞庫法、約束矩陣法、語法分析法等。

(3)人工智能法。又稱理解分詞法。人工智能是對(duì)信息進(jìn)行智能化處理的一種模式,主要有兩種處理方式:一種是基于心理學(xué)的符號(hào)處理方法,模擬人腦的功能。像專家系統(tǒng)即是希望模擬人腦的功能,構(gòu)造推理網(wǎng)絡(luò),經(jīng)過符號(hào)轉(zhuǎn)換,從而可以進(jìn)行解釋性處理。一種是基于生理學(xué)的模擬方法。神經(jīng)網(wǎng)絡(luò)旨在模擬人腦的神經(jīng)系統(tǒng)機(jī)構(gòu)的運(yùn)作機(jī)制來實(shí)現(xiàn)一定的功能。以上兩種思路也是近年來人工智能領(lǐng)域研究的熱點(diǎn)問題,應(yīng)用到分詞方法上,產(chǎn)生了專家系統(tǒng)分詞法和神經(jīng)網(wǎng)絡(luò)分詞法。

2當(dāng)前漢語自動(dòng)分詞研究的重要趨勢(shì)

漢語自動(dòng)分詞是一個(gè)綜合性的難題,涉及到眾多的學(xué)科和研究領(lǐng)域,需要多個(gè)學(xué)科的研究成果作為基礎(chǔ)。但是隨著科學(xué)技術(shù)的快速發(fā)展,漢語自動(dòng)分詞也并非遙不可及。根據(jù)目前漢語自動(dòng)分詞的研究現(xiàn)狀,以及相關(guān)學(xué)科的發(fā)展情況,漢語自動(dòng)分詞有望在三個(gè)重大研究領(lǐng)域取得突破性進(jìn)展。

克服漢語文本切分中的困難,繼續(xù)研究傳統(tǒng)文本切分的有效方法

目前,漢語自動(dòng)分詞的研究重心主要集中在克服傳統(tǒng)文本切分中存在的困難,對(duì)傳統(tǒng)文本的有效切分上。在計(jì)算機(jī)科學(xué)、情報(bào)科學(xué)和語言文字研究三個(gè)領(lǐng)域的學(xué)者專家們的共同努力之下,傳統(tǒng)文本的有效切分已經(jīng)取得了重大進(jìn)展。

(1)漢語詞的規(guī)范研究。漢語詞的規(guī)范是漢語自動(dòng)分詞的基礎(chǔ)。沒有統(tǒng)一和明確的漢語詞的定義,沒有規(guī)范的漢語分詞詞表,漢語自動(dòng)分詞就無從談起。在漢語語言學(xué)家和計(jì)算機(jī)中文信息處理專家們的共同努力之下,目前,我國(guó)漢語詞的規(guī)范研究和漢語分詞規(guī)范詞表的制定已經(jīng)有了較大突破。《信息處理用現(xiàn)代漢語分詞詞表》的制定及不斷完善,說明了我國(guó)在漢語自動(dòng)分詞詞表方面取得了重大研究成果,這為漢語自動(dòng)分詞的研究鋪平了道路[10~14]。

(2)漢語詞自動(dòng)分詞算法研究。分詞算法研究是漢語自動(dòng)分詞的重點(diǎn)和難點(diǎn),每一次分詞算法上的突破都會(huì)使?jié)h語自動(dòng)分詞的速度和精度有較大提高。據(jù)不完全統(tǒng)計(jì),目前,在漢語自動(dòng)分詞方法和算法研究中,已經(jīng)出現(xiàn)了上百種分詞方法和算法[15~19]。傳統(tǒng)漢語自動(dòng)分詞要獲得新的突破,只能結(jié)合新的信息技術(shù),在分詞算法上做文章,必須在現(xiàn)有的分詞算法和方法的基礎(chǔ)上找到新的分詞算法,這是今后漢語自動(dòng)分詞努力的重要方向之一。

(3)漢語自動(dòng)分詞歧義處理研究。漢語自動(dòng)分詞的主要困難是歧義切分,而歧義在自動(dòng)分詞中普遍存在。隨著自動(dòng)分詞研究的突破,分詞歧義處理研究也取得了重大進(jìn)展。以前的消歧方法大體可分為兩類:規(guī)則方法與統(tǒng)計(jì)方法[20]。由于自動(dòng)分詞中存在三種歧義類型,不同類型的歧義,其產(chǎn)生的根源和消除的方法各不相同。因此,應(yīng)針對(duì)不同的歧義類型采取不同的解決方法。對(duì)于第一類歧義,由于他們本身就是漢語言中的歧義問題,解決這類歧義需要依靠上、下文語義信息,即增加語義、語用知識(shí)的處理。這無異對(duì)自動(dòng)分詞的效率有很大的影響,而且實(shí)現(xiàn)起來比較困難。若是在詞處理的相應(yīng)階段,結(jié)合對(duì)分詞階段未解決的歧義字段進(jìn)行處理,則會(huì)起到事半功倍的效果。統(tǒng)計(jì)表明,第一類歧義字段不到整個(gè)歧義字段總數(shù)的1/30,因此不必在分詞階段花費(fèi)巨大的開銷來處理它們。目前對(duì)第二類歧義處理方法主要有以下幾種:分詞知識(shí)處理法、聯(lián)想-回溯法、基于詞頻統(tǒng)計(jì)的方法、鄰接約束法、基于數(shù)學(xué)期望的方法。處理第三類歧義目前主要有兩種方法:一是增加構(gòu)詞知識(shí),擴(kuò)大詞典,二是增加臨時(shí)詞典。此外,還可以人工干預(yù)分詞,人工分詞與計(jì)算機(jī)自動(dòng)分詞結(jié)合。在遇到計(jì)算機(jī)解決不了的歧義時(shí),借助于人工干預(yù)來完成。為了有效地消除歧義字段,還可以在上述方法的基礎(chǔ)上建立分詞歧義知識(shí)庫或規(guī)則庫[21~23]。隨著計(jì)算機(jī)技術(shù)和漢語語言研究的進(jìn)展,漢語詞自動(dòng)切分歧義處理技術(shù)將會(huì)有更大的突破。

(4)漢語自動(dòng)分詞應(yīng)用研究。目前,漢語自動(dòng)分詞主要在信息檢索、自動(dòng)標(biāo)引、自動(dòng)文摘、機(jī)器翻譯、語言文字研究、搜索引擎研究、自然語言理解和中文信息處理等方面的應(yīng)用取得了可喜的成績(jī)。隨著漢語自動(dòng)分詞技術(shù)的進(jìn)一步發(fā)展,這一研究成果將會(huì)更廣泛地應(yīng)用到更多的研究領(lǐng)域,如詞頻統(tǒng)計(jì)、內(nèi)容分析、概念分析、認(rèn)知心理學(xué)和漢語語言學(xué)等方面[24]。

將人工智能技術(shù)與漢語自動(dòng)分詞研究有機(jī)結(jié)合起來

漢語自動(dòng)分詞是中文信息處理的“瓶頸”問題,它的最終解決依賴于漢語的分詞結(jié)構(gòu)、句法結(jié)構(gòu)、語義等語言知識(shí)的深入系統(tǒng)的研究;依賴于對(duì)語言與思維的本質(zhì)的揭示;同時(shí),在很大程度上還依賴于神經(jīng)網(wǎng)絡(luò)、專家系統(tǒng)、知識(shí)工程等人工智能技術(shù)研究的新進(jìn)展。計(jì)算機(jī)技術(shù)和人工智能技術(shù)是漢語自動(dòng)分詞的技術(shù)基礎(chǔ),計(jì)算機(jī)技術(shù)發(fā)展的每一次巨大飛躍都是漢語自動(dòng)分詞的福音。因?yàn)樽匀徽Z言處理與理解既是人工智能研究領(lǐng)域需要解決的重大課題,也是漢語自動(dòng)分詞研究的重要內(nèi)容。因此,漢語自動(dòng)分詞研究發(fā)展的同時(shí)也寄希望于人工智能技術(shù)的新突破。

目前,人工智能技術(shù)的重點(diǎn)研究領(lǐng)域主要是專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)技術(shù)和生物芯片技術(shù)。從人工智能技術(shù)的發(fā)展和漢語自動(dòng)分詞的要求出發(fā),比較理想的自動(dòng)分詞系統(tǒng)應(yīng)該綜合詞法、句法和語義信息,而用計(jì)算機(jī)對(duì)語義、語法進(jìn)行自動(dòng)分析尚處在研究階段。因而,已經(jīng)推出的漢語分詞與標(biāo)引系統(tǒng)只能采用以機(jī)械分詞為主,輔之以能部分反映詞法、句法和語義規(guī)則的改進(jìn)算法,但仍難以解決復(fù)雜的漢語組詞關(guān)系。因此,今后應(yīng)注重漢語句法和語義的自動(dòng)分析研究,并將其應(yīng)用到漢語自動(dòng)分詞領(lǐng)域。重點(diǎn)應(yīng)集中在引入知識(shí)分詞的技術(shù)與方法,采用知識(shí)分詞語義分析法進(jìn)行自動(dòng)分詞系統(tǒng)的研究。從目前已經(jīng)公開的各種分詞方法看,性能比較優(yōu)異且具發(fā)展前景的應(yīng)首推基于符號(hào)和啟發(fā)式推理的專家系統(tǒng)和基于數(shù)值和算法的神經(jīng)網(wǎng)絡(luò)技術(shù)。神經(jīng)網(wǎng)絡(luò)具有聯(lián)想、容錯(cuò)、記憶、自適應(yīng)、自學(xué)習(xí)和處理復(fù)雜多模式等優(yōu)點(diǎn),不足的是網(wǎng)絡(luò)連接模型表達(dá)復(fù)雜,訓(xùn)練過程較長(zhǎng),不能對(duì)自身的推理方法進(jìn)行解釋,對(duì)未在訓(xùn)練樣本中出現(xiàn)過的新詞匯不能給予正確切分。專家系統(tǒng)具有顯式的知識(shí)表達(dá)形式,知識(shí)容易維護(hù),能對(duì)推理行為進(jìn)行解釋,并可利用深層知識(shí)來切分歧義字段,缺點(diǎn)是不能從經(jīng)驗(yàn)中學(xué)習(xí),當(dāng)知識(shí)庫龐大時(shí)難以維護(hù),在進(jìn)行多歧義字段切分時(shí)耗時(shí)較長(zhǎng),同時(shí)在知識(shí)表示、知識(shí)獲取和知識(shí)驗(yàn)證等方面存在一些問題。因而,將人工智能技術(shù)與漢語自動(dòng)分詞研究有機(jī)結(jié)合起來,把神經(jīng)網(wǎng)絡(luò)技術(shù)與專家系統(tǒng)緊密聯(lián)系起來用于漢語自動(dòng)分詞與標(biāo)引系統(tǒng)將是該領(lǐng)域的發(fā)展趨向[25]。

改造漢語文本書寫規(guī)則使之利于計(jì)算機(jī)自動(dòng)處理

當(dāng)現(xiàn)有的分詞方法和人工智能技術(shù)不能有效地解決漢語詞自動(dòng)切分中的困難時(shí),必須有一種新的思維方式來引導(dǎo)漢語自動(dòng)分詞的研究,那就是要研究漢語語言本身的特點(diǎn)和規(guī)律,從漢語書面語的書寫規(guī)則出發(fā)來尋求漢語自動(dòng)分詞的突破口。這也許是漢語自動(dòng)分詞發(fā)展的新方向。

對(duì)漢語書寫規(guī)則進(jìn)行適當(dāng)改造,以使其便于計(jì)算機(jī)自動(dòng)切分,不是一種主觀幻想。這樣做既有理論依據(jù),又有現(xiàn)實(shí)例子。其理論依據(jù)在于,其他許多語言雖然沒有漢語那樣博大精深和妙不可言,但卻有利于計(jì)算機(jī)自動(dòng)處理的優(yōu)勢(shì),實(shí)有可取之處。而且任何一種語言都處于不斷變化和發(fā)展之中,有益的東西要吸收進(jìn)來,不利的東西要拋棄,并使其趨于完善。完善是相對(duì)而言,并非一成不變。語言產(chǎn)生和發(fā)展的真正意義還在于,便于交流和利用。這就是為什么解放后我國(guó)要進(jìn)行多次漢語改革的原因。而這些成功的漢語改革正是我們對(duì)漢語書寫規(guī)則進(jìn)行改造的現(xiàn)實(shí)依據(jù)。為了使?jié)h語走向全球,為了中華文化的再次偉大復(fù)興,隨著信息時(shí)代的到來,我們必須對(duì)漢語進(jìn)行改革。因?yàn)樗鼱肯狄粋€(gè)民族發(fā)展的前途和命運(yùn)。

對(duì)書面漢語書寫規(guī)則進(jìn)行改造與規(guī)范,可以吸收其他語言在計(jì)算機(jī)處理中的優(yōu)點(diǎn)。如可以從西方語系得出啟示,也可以從東方語系得到啟發(fā),還可以汲取藏文自動(dòng)處理的做法。這些語言都有適合計(jì)算機(jī)自動(dòng)處理的優(yōu)勢(shì)。

西方語系與漢語的明顯不同之處在于,西文都是拼音文字,詞與詞之間有空格等明顯的間隔符,因此不存在語詞切分的問題。西語的這一顯著特征適應(yīng)了計(jì)算機(jī)自動(dòng)處理發(fā)展的要求,使得西語在計(jì)算機(jī)自動(dòng)文字處理上具有較大優(yōu)勢(shì)。這是一種偶然,可以說是上帝賜予西方人的最好禮物。漢語顯然不具備這一特征,而恰恰正是這一點(diǎn)又使得漢語不利于計(jì)算機(jī)自動(dòng)處理,給我們留下了一個(gè)世紀(jì)難題。這是否能給我們一些啟示呢?我們能否在漢語的書寫上向西方人學(xué)習(xí)呢?這是值得我們思考的。當(dāng)然,我們不必完全模仿西文而拋棄中文應(yīng)有的特色和優(yōu)點(diǎn)。為了使?jié)h語便于計(jì)算機(jī)自動(dòng)處理,我們只需要對(duì)現(xiàn)有的漢語語法規(guī)則作如下改造:一是要對(duì)漢語詞進(jìn)行明確規(guī)定,即界定什么是詞;二是要在漢語文本的詞與詞之間增加適當(dāng)?shù)拈g隔符,即設(shè)立分詞標(biāo)志;三是要制定完整的漢語書寫規(guī)則。這些都可以在漢語文本生成之前完成,如,由作者本人在寫作時(shí)完成,或由出版編輯部門在稿件編輯時(shí)完成。這樣我們就不必耗費(fèi)巨資設(shè)計(jì)種種算法、編寫各種軟件來對(duì)傳統(tǒng)文本進(jìn)行切分了。

如果我們覺得西方語系難以接受的話,那么我們只要看看日語和韓語就應(yīng)該有所啟發(fā)了。日語同漢語十分接近,但日語較漢語適合于計(jì)算機(jī)自動(dòng)處理。這是因?yàn)槿照Z有豐富的詞綴,日語中大量使用片假名和平假名構(gòu)成了書面日語的詞尾變化,而這些詞綴可以作為計(jì)算機(jī)識(shí)別詞的標(biāo)志。雖然漢語不能像日語那樣構(gòu)造大量的詞綴來作為詞的標(biāo)志,但是可以模仿日語設(shè)立其他詞綴來區(qū)分詞,如在詞與詞之間增加分隔符。韓語本身也有適合計(jì)算機(jī)自動(dòng)處理的優(yōu)勢(shì),因?yàn)轫n語是部件式結(jié)構(gòu),能進(jìn)行自由拆分和組合。而我國(guó)藏族的藏語是黏著性語言,在一定意義上,我們可以把傳統(tǒng)藏文語法看作是由格助詞及其接續(xù)特征規(guī)則構(gòu)成的語法系統(tǒng)。這一語法系統(tǒng)的主要特點(diǎn)就是:各類名詞性成分借助格助詞及其接續(xù)特征規(guī)則構(gòu)成句節(jié)進(jìn)而由句節(jié)結(jié)合動(dòng)詞來組織句子。一般而言,藏語的句子是以動(dòng)詞為中心來組織的,動(dòng)詞決定著格助詞的添接規(guī)則[26]。相比之下,漢語則明顯缺乏足夠的自動(dòng)分詞信息,所以必須對(duì)漢語文本進(jìn)行改造,添加必要的分詞信息。

基于以上啟示,漢語的書寫規(guī)則是完全可以進(jìn)行改造的。如果詞的范疇已經(jīng)明確,書寫規(guī)則已經(jīng)制定,而且分隔符也已確定,那么我們就可以對(duì)漢語書寫規(guī)則進(jìn)行適當(dāng)?shù)母脑炝?。這是一種新的分詞思維,是一種類似英語詞切分的無詞典式分詞方法,即改造書面漢語書寫規(guī)則,在規(guī)范詞的基礎(chǔ)上,書寫或錄入時(shí)在詞與詞之間增加分隔符,增加自動(dòng)分詞信息,以便計(jì)算機(jī)自動(dòng)識(shí)別和切分。這是一種一勞永逸的分詞方法。盡管目前我們還不習(xí)慣,但是一旦它形成標(biāo)準(zhǔn),而編輯部和出版社又按此標(biāo)準(zhǔn)對(duì)稿件進(jìn)行規(guī)范時(shí),我們有理由相信只要假以時(shí)日,就會(huì)有一種新的適合計(jì)算機(jī)自動(dòng)處理的新的漢語文本出現(xiàn),而這種文本并不破壞漢語自身固有的特色和優(yōu)點(diǎn)。

此外,在進(jìn)行信息交流和處理時(shí),我們除了使用自然語言之外,還有很多其他的人工語言,如數(shù)學(xué)語言、檢索語言、邏輯語言、程序設(shè)計(jì)語言等,是自然語言交流的補(bǔ)充。這些人工語言和自然語言一樣都有一個(gè)共同特點(diǎn),那就是都有一定數(shù)量的符號(hào)系統(tǒng)和一套完整的語法規(guī)則。但是,這些人工語言在很大程度上都適應(yīng)了計(jì)算機(jī)技術(shù)的發(fā)展,具有較強(qiáng)的生命力。由此可得,我們應(yīng)該能像這些人工語言一樣設(shè)計(jì)出一套新的語言符號(hào)系統(tǒng),模擬現(xiàn)有的漢語語言,并對(duì)其進(jìn)行改造。例如,在數(shù)學(xué)語言中,“因?yàn)椤蓖ǔS谩啊摺北硎?,“所以”通常用“∴”表示,清楚明白,一看便知。又如,在普通邏輯的三段論推理中,分別用“P”、“S”、“M”表示大前提、小前提和結(jié)論。數(shù)理邏輯和各種程序設(shè)計(jì)語言中的符號(hào)系統(tǒng)更是十分完備,完全可以用來進(jìn)行信息表示、信息傳遞、信息存儲(chǔ)和信息處理,并實(shí)現(xiàn)信息的自由交流。

3漢語自動(dòng)分詞應(yīng)用研究

書面漢語自動(dòng)分詞的研究具有重要的理論和應(yīng)用價(jià)值,它的最終解決將對(duì)以下幾個(gè)方面產(chǎn)生實(shí)質(zhì)性影響[35]:漢語語言理解;計(jì)算機(jī)系統(tǒng)的漢語人機(jī)接口;機(jī)器翻譯;情報(bào)檢索、信息檢索和自然語言檢索;自動(dòng)標(biāo)引;自動(dòng)編制文摘、目錄與索引;詞頻統(tǒng)計(jì)、概念分析和內(nèi)容分析;語言文字自動(dòng)處理;人工智能和知識(shí)工程;智能計(jì)算機(jī);專家系統(tǒng)和知識(shí)庫;搜索引擎和網(wǎng)站建設(shè);數(shù)據(jù)挖掘、知識(shí)挖掘;漢語語言學(xué);認(rèn)知心理學(xué)等。

正是由于自動(dòng)分詞問題在以上研究領(lǐng)域的重要性,所以它受到人工智能界、漢語語言學(xué)界、情報(bào)檢索界、計(jì)算機(jī)應(yīng)用界和其他各界人士的廣泛關(guān)注。漢語自動(dòng)分詞應(yīng)用相當(dāng)廣泛,已經(jīng)在信息檢索、自動(dòng)標(biāo)引、自動(dòng)文摘、機(jī)器翻譯、語言學(xué)研究、搜索引擎研究和自然語言理解等方面取得了重大的研究成果。

(1)信息檢索。自動(dòng)分詞與信息檢索的結(jié)合實(shí)現(xiàn)自然語言檢索接口是自然語言檢索的一個(gè)重要方面,自動(dòng)分詞是實(shí)現(xiàn)基于自然語言理解的智能檢索的前提,是貫穿于信息檢索系統(tǒng)整體流程中不可缺少的處理步驟[27]。在信息檢索系統(tǒng)的設(shè)計(jì)中,如果能先解決自動(dòng)分詞問題,就會(huì)大大提高檢索系統(tǒng)的檢索效率。檢索語言的發(fā)展趨勢(shì)應(yīng)是檢索語言的自然語言化發(fā)展與自然語言的檢索語言化發(fā)展的雙向結(jié)合。

(2)自動(dòng)標(biāo)引。以自動(dòng)分詞為基礎(chǔ),專家學(xué)者們研制出了多種自動(dòng)標(biāo)引系統(tǒng),歸結(jié)起來有:詞典切分標(biāo)引法、單漢字標(biāo)引法、機(jī)助標(biāo)引法、統(tǒng)計(jì)標(biāo)引法、邏輯推理法、語法語義分析標(biāo)引法、自動(dòng)標(biāo)引專家系統(tǒng)和神經(jīng)網(wǎng)絡(luò)分詞標(biāo)引法等。這些自動(dòng)標(biāo)引方法可以分為三類,即統(tǒng)計(jì)法、語言法和人工智能法。并相應(yīng)地開發(fā)出了一些科學(xué)實(shí)用的自動(dòng)標(biāo)引系統(tǒng)[28~30]。

(3)自動(dòng)文摘。自動(dòng)文摘是自動(dòng)分詞的一個(gè)十分重要的應(yīng)用領(lǐng)域。國(guó)外在自動(dòng)文摘研究方面已經(jīng)取得了豐富的研究成果,并開發(fā)了大量實(shí)用的自動(dòng)文摘系統(tǒng)。相比之下,漢語自動(dòng)文摘研究較為困難,研究成果也相對(duì)較少。漢語自動(dòng)文摘必須首先攻克漢語自動(dòng)分詞這一難題。盡管困難重重,我國(guó)在自動(dòng)文摘研究方面仍然取得了一系列可喜的成績(jī),自動(dòng)文摘理論和方法研究成果不斷涌現(xiàn),針對(duì)漢語自身特點(diǎn)而開發(fā)的中文自動(dòng)文摘系統(tǒng)也開始由實(shí)驗(yàn)走向應(yīng)用[31]。

(4)機(jī)器翻譯。機(jī)器翻譯本質(zhì)上是對(duì)人類思維和語言活動(dòng)的模擬,突破的焦點(diǎn)是讓計(jì)算機(jī)理解和表達(dá)人類的語言。目前國(guó)內(nèi)外關(guān)于機(jī)器翻譯研究已取得了豐富的研究成果,并已經(jīng)進(jìn)入了實(shí)用性應(yīng)用階段。但要實(shí)現(xiàn)全自動(dòng)高質(zhì)量的機(jī)器翻譯仍是一個(gè)長(zhǎng)遠(yuǎn)目標(biāo),不可能在短期內(nèi)實(shí)現(xiàn),需要多個(gè)領(lǐng)域的學(xué)者專家們長(zhǎng)期不懈的努力和追求[32]。

(5)搜索引擎研究。中文搜索引擎的重點(diǎn)在于中文關(guān)鍵信息的提取,其中的難點(diǎn)就是中文自動(dòng)分詞。隨著因特網(wǎng)在我國(guó)的發(fā)展和普及,中文搜索引擎研究有了重大突破。在短期內(nèi)就涌現(xiàn)出了許多重要的中文搜索引擎,并得到了廣泛應(yīng)用。目前,已開發(fā)并投入使用的中文搜索引擎已達(dá)上百種,并且數(shù)量仍在不斷增加,質(zhì)量也不斷提高。但是,中文搜索引擎研究開發(fā)仍然存在大量的問題,如在信息組織、檢索速度、檢準(zhǔn)率和檢全率等方面還有較大的發(fā)展空間。今后,中文搜索引擎的研究方向應(yīng)是將中文自動(dòng)分詞、信息檢索、自然語言理解和人工智能等與搜索引擎研究相結(jié)合[33~34]。

(6)語言文字研究。計(jì)算機(jī)的出現(xiàn)和發(fā)展,引起了科學(xué)技術(shù)的巨大變化,也為語言學(xué)研究開辟了新的發(fā)展途徑。計(jì)算機(jī)一方面對(duì)語言學(xué)提出了一系列新的要求,希望能用語言學(xué)武裝其“頭腦”,以發(fā)展它的智力;給它添加“翅膀”,以賦予它更強(qiáng)的聽覺、視覺、說話和聽寫能力。另一方面它又充當(dāng)語言學(xué)的得力助手,幫助語言學(xué)工作者對(duì)語言素材進(jìn)行分類、統(tǒng)計(jì)、演算、控制和模擬等。這也正是內(nèi)容分析法需要研究的重要內(nèi)容之一。將計(jì)算機(jī)與語言學(xué)有機(jī)結(jié)合起來,彼此互助,彼此互補(bǔ),計(jì)算機(jī)便可能實(shí)現(xiàn)高度智能化。利用計(jì)算機(jī)來處理自然語言是一門新學(xué)科,即計(jì)算語言學(xué)。目前研究得比較多的課題有:機(jī)器翻譯、情報(bào)檢索、言語識(shí)別和言語合成、漢字信息處理、語音分析、人工智能中的自然語言理解等[35]。

(7)自然語言理解。自然語言理解是人工智能研究的最重要課題之一,同時(shí)也是自動(dòng)分詞研究最前沿的難題之一。國(guó)外在自然語言理解方面的研究起步較早,一些卓有成就的計(jì)算機(jī)專家、語言學(xué)家、邏輯學(xué)家和心理學(xué)家都在自然語言理解中的語法、句法及語義分析方面提出了一系列較為系統(tǒng)的理論的方法。比較有影響的理論有:轉(zhuǎn)換生成語法、依存語法、語義網(wǎng)絡(luò)、蒙塔鳩語法、擴(kuò)展轉(zhuǎn)換網(wǎng)絡(luò)、系統(tǒng)語法、格語法和語義網(wǎng)絡(luò)理論、概念依存理論、境況語義學(xué)和語料庫語言學(xué)等。這些理論和方法大致可歸為基于語法的分析法、基于語法與語義相結(jié)合的分析法和基于語義的分析法三類。盡管國(guó)外在自然語言理解上研究較早,成熟的理論和方法也不少,開發(fā)的實(shí)驗(yàn)系統(tǒng)也不計(jì)其數(shù),但到目前為止,這些系統(tǒng)離真正的實(shí)用要求尚存在較大距離。國(guó)內(nèi)在自然語言理解研究方面起步較晚,且較為系統(tǒng)的研究成果也為數(shù)不多。因?yàn)槲覈?guó)的自然語言理解研究必須以漢語為研究對(duì)象,而我國(guó)傳統(tǒng)的漢語研究,并不以計(jì)算機(jī)處理漢語為目的,盡管語言學(xué)家設(shè)計(jì)了許多漢語語法體系,可這些體系很難直接在自然語言理解的研究中得到有效應(yīng)用。同時(shí),由于漢語是無形態(tài)變化的語種,因此無法直接套用西方現(xiàn)有的語法、語義結(jié)構(gòu)體系,這使得漢語自然語言理解研究工作困難重重。但令人欣慰的是,近幾年,國(guó)內(nèi)自然語言理解的研究取得了很大的成績(jī),無論在漢語書面語的自動(dòng)切分、漢語電子詞典、漢語機(jī)讀語料庫、機(jī)器翻譯、漢語人機(jī)對(duì)話、漢語情報(bào)檢索等應(yīng)用研究領(lǐng)域中,還是在結(jié)合漢語、漢字特點(diǎn)探索計(jì)算語言學(xué)基礎(chǔ)理論的研究中,都出現(xiàn)了不少拓荒之作,取得了驕人的成果[36~37]。

(8)內(nèi)容分析研究。除以上應(yīng)用研究外,漢語自動(dòng)分詞還在其他一些相關(guān)領(lǐng)域也得到了充分的利用,如詞頻統(tǒng)計(jì)、文本內(nèi)容分析、概念分析和數(shù)據(jù)庫編制等。其中內(nèi)容分析已成為漢語自動(dòng)分詞應(yīng)用研究的重要內(nèi)容之一。漢語自動(dòng)分詞及其研究成果都可以直接或者間接地應(yīng)用到內(nèi)容分析法中來,并構(gòu)成內(nèi)容分析法的重要研究?jī)?nèi)容、方法和手段。此外,漢語自動(dòng)分詞還可以直接用于詞頻統(tǒng)計(jì)、主題分析、篇幅分析、文獻(xiàn)內(nèi)容分析、概念分析和數(shù)據(jù)庫系統(tǒng)設(shè)計(jì)等方面。因?yàn)榫湍壳皝砜?,所有詞典式漢語自動(dòng)分詞系統(tǒng)幾乎都是以詞頻統(tǒng)計(jì)分析為前提和基礎(chǔ)的。例如,自動(dòng)標(biāo)引和信息檢索系統(tǒng)的設(shè)計(jì)就是以詞典式漢語自動(dòng)分詞系統(tǒng)為基礎(chǔ)。在信息檢索系統(tǒng)的設(shè)計(jì)中,如果能先解決自動(dòng)分詞問題,就會(huì)大大提高檢索系統(tǒng)的檢索效率。而信息檢索系統(tǒng)又是內(nèi)容分析法進(jìn)行統(tǒng)計(jì)和分析的數(shù)據(jù)來源,同時(shí)也是內(nèi)容分析法的一種重要的輔助手段。信息檢索系統(tǒng)檢索效率的高低及數(shù)據(jù)完備程度,能夠決定內(nèi)容分析法結(jié)論的準(zhǔn)確和客觀程度。

4漢語自動(dòng)分詞研究與內(nèi)容分析法

漢語自動(dòng)分詞是內(nèi)容分析法的前提和基礎(chǔ),對(duì)內(nèi)容分析法技術(shù)、方法和應(yīng)用具有巨大的影響。如何綜合利用漢語自動(dòng)分詞研究成果、計(jì)算機(jī)技術(shù)、文獻(xiàn)計(jì)量方法和內(nèi)容分析方法,深入文獻(xiàn)內(nèi)部,對(duì)其內(nèi)容、信息和知識(shí)進(jìn)行測(cè)度和綜合研究,實(shí)現(xiàn)內(nèi)容分析的自動(dòng)化,提高研究效率和分析結(jié)果的可靠性與準(zhǔn)確性是目前急需重點(diǎn)研究和解決的重大課題,也是情報(bào)學(xué)和文獻(xiàn)計(jì)量學(xué)發(fā)展當(dāng)前所面臨的重大課題之一。

漢語自動(dòng)分詞研究對(duì)內(nèi)容分析技術(shù)與方法的影響

內(nèi)容分析法(ContentAnolysis)是一種對(duì)文獻(xiàn)內(nèi)容進(jìn)行客觀、系統(tǒng)和量化描述與分析的研究方法,是社會(huì)科學(xué)研究中普遍使用的一種科學(xué)方法[38~39]。對(duì)文獻(xiàn)內(nèi)容的研究可分為定性研究與定量研究?jī)煞N方式,分別從不同的側(cè)面對(duì)文獻(xiàn)中所包含的信息和知識(shí)進(jìn)行加工處理與分析,從而得出相應(yīng)的研究結(jié)論。但人們通常將對(duì)文獻(xiàn)內(nèi)容的定量研究稱為內(nèi)容分析法。內(nèi)容分析法最早萌發(fā)于新聞界,后來擴(kuò)展到圖書情報(bào)乃至整個(gè)社會(huì)科學(xué)領(lǐng)域,在信息傳播、情報(bào)研究與決策分析中有著重要的地位和作用[40~41]??陀^、系統(tǒng)和定量是內(nèi)容分析法的基本特征,而“定量”是內(nèi)容分析法最為顯著的特征,是達(dá)到“精確”和“客觀”的一種必要手段。因此,內(nèi)容分析法結(jié)論的準(zhǔn)確性、客觀性和可靠性取決于定量化的程度。在定量化的過程中,除了對(duì)大量的文獻(xiàn)樣本進(jìn)行統(tǒng)計(jì)分析之外,還必須對(duì)樣本文獻(xiàn)自身所包含的知識(shí)內(nèi)容進(jìn)行統(tǒng)計(jì)分析。詞頻統(tǒng)計(jì)分析法是內(nèi)容分析法中最基本的分析方法之一,而計(jì)算機(jī)輔助詞頻統(tǒng)計(jì)則是內(nèi)容分析法最重要的技術(shù)手段之一,目前國(guó)內(nèi)外有關(guān)內(nèi)容分析法的理論與應(yīng)用研究主要以詞頻統(tǒng)計(jì)分析為基礎(chǔ)。從廣義上來說,詞頻統(tǒng)計(jì)分析法包括所有以詞或詞組為單元的分析技術(shù)和方法,如主題詞詞頻分析法、指示詞詞頻分析法和關(guān)鍵詞詞頻分析法等[42]。而漢語自動(dòng)分詞是詞頻統(tǒng)計(jì)分析法的基礎(chǔ),漢語自動(dòng)分詞的精度決定了詞頻統(tǒng)計(jì)的準(zhǔn)確度。只有首先對(duì)文本文獻(xiàn)進(jìn)行有效切分之后,才能對(duì)文獻(xiàn)中的詞或詞組進(jìn)行準(zhǔn)確的統(tǒng)計(jì),然后再對(duì)統(tǒng)計(jì)結(jié)果進(jìn)行分析,對(duì)文獻(xiàn)中隱含的信息和知識(shí)進(jìn)行有效挖掘。由于漢語自動(dòng)分詞研究一度進(jìn)展十分緩慢,使得詞頻統(tǒng)計(jì)分析法在相當(dāng)長(zhǎng)的時(shí)間內(nèi)還存在著一些問題。但近些年來,由于計(jì)算機(jī)技術(shù)應(yīng)用于內(nèi)容分析領(lǐng)域以及漢語自動(dòng)分詞研究的突破性進(jìn)展,對(duì)內(nèi)容分析法產(chǎn)生了根本性影響。以漢語自動(dòng)分詞研究為基礎(chǔ)的信息檢索系統(tǒng)的發(fā)展以及數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù)的應(yīng)用,為內(nèi)容分析方法研究提供了便利的條件,帶來了蓬勃的生機(jī)[43~45]。所以說,漢語自動(dòng)分詞研究是內(nèi)容分析法的前提和基礎(chǔ),特別是在利用計(jì)算機(jī)技術(shù)輔助內(nèi)容分析法方面,漢語自動(dòng)分詞研究對(duì)內(nèi)容分析技術(shù)與方法具有重大的影響。

漢語自動(dòng)分詞研究對(duì)內(nèi)容分析法應(yīng)用的影響

內(nèi)容分析法應(yīng)用相當(dāng)廣泛。由于科學(xué)技術(shù)發(fā)展的突飛猛進(jìn),信息知識(shí)社會(huì)的到來,當(dāng)今世界的“信息過剩、信息富余”、“知識(shí)爆炸”給人們學(xué)習(xí)、工作和生活帶來了沉重的壓力,怎樣才能在浩如煙海的文獻(xiàn)和知識(shí)信息中找到自己需要的文獻(xiàn)和知識(shí)信息,已經(jīng)變得越來越重要。而內(nèi)容分析法正是解決這一問題的有效方法,它借助于計(jì)算機(jī)對(duì)各個(gè)學(xué)科領(lǐng)域中海量的文獻(xiàn)、信息和知識(shí)進(jìn)行統(tǒng)計(jì)分析,找出其關(guān)鍵信息和核心內(nèi)容,以供人們利用,從而提高管理水平和決策效率。因而,內(nèi)容分析法受到了各個(gè)學(xué)科領(lǐng)域的熱烈歡迎。

目前內(nèi)容分析法主要在計(jì)算機(jī)和人工智能領(lǐng)域、圖書情報(bào)領(lǐng)域、政治與軍事領(lǐng)域、科技與經(jīng)濟(jì)領(lǐng)域、新聞與傳播領(lǐng)域、社會(huì)學(xué)研究和心理學(xué)研究等研究領(lǐng)域的分析與預(yù)測(cè)中應(yīng)用得非常普遍。計(jì)算機(jī)和人工智能領(lǐng)域研究?jī)?nèi)容分析法,注重于研究對(duì)象內(nèi)容的自動(dòng)分析、提煉和表達(dá),因此,其主要研究領(lǐng)域,如自然語言理解、語義分析、自動(dòng)編文摘、知識(shí)工程、機(jī)器翻譯和專家系統(tǒng)等研究中都包含著內(nèi)容分析。圖書情報(bào)領(lǐng)域主要利用文獻(xiàn)計(jì)量方法和內(nèi)容分析方法對(duì)圖書館學(xué)、情報(bào)學(xué)、科技、經(jīng)濟(jì)和社會(huì)等方面的文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析,了解其發(fā)展現(xiàn)狀,并預(yù)測(cè)其發(fā)展趨勢(shì)。因?yàn)閮?nèi)容分析法是一種重要的文獻(xiàn)計(jì)量分析方法和情報(bào)研究方法,不僅自動(dòng)標(biāo)引系統(tǒng)、情報(bào)檢索系統(tǒng)和搜索引擎等設(shè)計(jì)中包含著內(nèi)容分析,而且詞頻統(tǒng)計(jì)、主題分析、關(guān)鍵詞抽取、概念分析和篇幅分析等實(shí)質(zhì)上就是內(nèi)容分析法的重要內(nèi)容和方法。政治、軍事、科技與經(jīng)濟(jì)領(lǐng)域主要利用內(nèi)容分析法對(duì)這些領(lǐng)域目前的文獻(xiàn)信息進(jìn)行統(tǒng)計(jì)分析,了解國(guó)內(nèi)外發(fā)展動(dòng)態(tài),并對(duì)其發(fā)展動(dòng)向進(jìn)行科學(xué)的預(yù)測(cè),以便采取有效的應(yīng)對(duì)措施。新聞與傳播領(lǐng)域主要利用內(nèi)容分析法對(duì)新聞媒介所含的大量信息進(jìn)行統(tǒng)計(jì)分析,捕捉新聞熱點(diǎn)和焦點(diǎn)。社會(huì)學(xué)主要利用內(nèi)容分析法對(duì)有關(guān)社會(huì)學(xué)研究的文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析,找出社會(huì)發(fā)展中人們普遍關(guān)心的問題,如人口問題、老年問題、教育問題、犯罪問題、婦女問題和兒童問題等。心理學(xué)研究則通過對(duì)人們的語言和行為及其相關(guān)文獻(xiàn)進(jìn)行分析,以了解人們的心理狀態(tài)和心理變化等[46~59]。

內(nèi)容分析法的應(yīng)用以文獻(xiàn)計(jì)量方法和詞頻統(tǒng)計(jì)方法為基礎(chǔ),而文獻(xiàn)計(jì)量方法和詞頻統(tǒng)計(jì)方法離不開漢語自動(dòng)分詞研究。內(nèi)容分析法與漢語自動(dòng)分詞研究具有較高的關(guān)聯(lián)度。內(nèi)容分析法的應(yīng)用和發(fā)展為漢語自動(dòng)分詞研究提出了迫切需求。因此,內(nèi)容分析法的深入應(yīng)用也受制于漢語自動(dòng)分詞研究。

內(nèi)容分析法的發(fā)展趨勢(shì)

目前,內(nèi)容分析法主要是基于詞頻統(tǒng)計(jì)而進(jìn)行的。基于詞頻統(tǒng)計(jì)分析的內(nèi)容分析法不能深入文獻(xiàn)內(nèi)部,很難挖掘出文獻(xiàn)中隱藏的知識(shí)和信息,容易忽視詞與詞之間的關(guān)聯(lián),而且詞頻統(tǒng)計(jì)和處理的量十分龐大。因此,要提高內(nèi)容分析法的科學(xué)性和準(zhǔn)確性,內(nèi)容分析法必須從語法分析走向語義分析和語用分析,從手工統(tǒng)計(jì)分析走向計(jì)算機(jī)自動(dòng)統(tǒng)計(jì)分析,即從計(jì)算機(jī)詞頻統(tǒng)計(jì)分析走向概念分析、段落分析和篇幅分析,這是內(nèi)容分析法發(fā)展的必然趨勢(shì)。而要實(shí)現(xiàn)這一目標(biāo),就要首先突破漢語自動(dòng)分詞這一難關(guān),實(shí)現(xiàn)計(jì)算機(jī)對(duì)自然語言的有效理解和處理。

結(jié)束語

漢語自動(dòng)分詞和內(nèi)容分析法研究是目前情報(bào)學(xué)研究領(lǐng)域兩大最重要和最富有挑戰(zhàn)性的課題,它們既有各自獨(dú)立的研究?jī)?nèi)容,又存在高度的關(guān)聯(lián)性。因?yàn)闈h語自動(dòng)分詞中的詞典式分詞法和內(nèi)容分析法都是以文獻(xiàn)計(jì)量方法與詞頻統(tǒng)計(jì)方法為基礎(chǔ)而進(jìn)行的。同時(shí),文獻(xiàn)計(jì)量方法和詞頻統(tǒng)計(jì)分析方法的改進(jìn)又能促進(jìn)詞典式自動(dòng)分詞系統(tǒng)的完善。在計(jì)算機(jī)科學(xué)界、情報(bào)信息界和漢語語言學(xué)界三大領(lǐng)域的專家學(xué)者們的共同努力之下,漢語自動(dòng)分詞研究取得了重大的進(jìn)展,但是離真正的問題解決還有相當(dāng)漫長(zhǎng)的路要走。目前,漢語自動(dòng)分詞研究有望在傳統(tǒng)文本的有效切分、人工智能技術(shù)與自動(dòng)分詞結(jié)合研究和漢語文本書寫規(guī)則的規(guī)范與改造三個(gè)方面獲得突破。漢語自動(dòng)分詞研究是內(nèi)容分析法的前提和基礎(chǔ),同時(shí)又對(duì)內(nèi)容分析法的研究具有巨大的推動(dòng)作用。內(nèi)容分析法的深入發(fā)展必須借助于漢語自動(dòng)分詞研究成果,只有解決了漢語自動(dòng)分詞問題,對(duì)文獻(xiàn)內(nèi)容的分析才能真正做到精確、客觀和可靠。

其實(shí)我們都知道,漢語自動(dòng)分詞研究無論如何已經(jīng)不是一個(gè)單純的技術(shù)問題了,因?yàn)樗呀?jīng)同漢語走向世界、中華民族文化的偉大復(fù)興緊密地聯(lián)系在一起。漢語,作為全世界使用人數(shù)最多的一門語言,隨著信息時(shí)代的到來,其自身的發(fā)展和更新已是迫在眉睫。讓更多的人了解漢語、學(xué)習(xí)漢語、使用漢語,將漢文化撒播到全球每一個(gè)角落,應(yīng)該是每一個(gè)中國(guó)人的夢(mèng)想。而要實(shí)現(xiàn)這一目標(biāo),就必須首先解決漢語自動(dòng)分詞問題,以便計(jì)算機(jī)能對(duì)漢語文本進(jìn)行自由處理,增強(qiáng)漢語的生命力。

【參考文獻(xiàn)】

1黃崑,符紹宏.自動(dòng)分詞技術(shù)及其在信息檢索中應(yīng)用的研究.現(xiàn)代圖書情報(bào)技術(shù),2001(1):26~29

2黃昌寧.中文信息處理中的分詞問題.語言文字應(yīng)用,1997(1):72~78

3孫賓.適用于信息檢索和提取的漢語詞典.北京大學(xué)計(jì)算語言學(xué)研究所研究報(bào)告

4殷建平.漢語自動(dòng)分詞方法.計(jì)算機(jī)工程與科學(xué),1998(3):60~65

5吳勝遠(yuǎn).并行分詞方法的研究.計(jì)算機(jī)研究與發(fā)展,1997(7):542~545

6楊宗澤.中文自動(dòng)分詞探討.西南民族學(xué)院學(xué)報(bào),1994(3):241~245

7文庭孝.情報(bào)檢索中漢語語詞自動(dòng)切分研究.圖書與情報(bào),2001(2):57~58

8尹鋒.漢語自動(dòng)分詞研究的現(xiàn)狀與新思維.現(xiàn)代圖書情報(bào)技術(shù),1998(4):22~26

9黃崑,符紹宏.自動(dòng)分詞技術(shù)及其在信息檢索中應(yīng)用的研究.現(xiàn)代圖書情報(bào)技術(shù),2001(1):26~29

10王洪君.《信息處理用現(xiàn)代漢語分詞詞表》的內(nèi)部結(jié)構(gòu)和漢語的結(jié)構(gòu)特點(diǎn).語言文字應(yīng)用,2001(4):90~97

11孫茂松,黃昌寧等.信息處理用現(xiàn)代漢語分詞詞表.語言文字應(yīng)用,2001(4):84~89

12揭春雨.“信息處理用現(xiàn)代漢語分詞規(guī)范”的若干問題探討.中文信息學(xué)報(bào),1989(4):33~41

13袁毓林.關(guān)于分詞規(guī)范和規(guī)范詞表若干意見.語言文字應(yīng)用,2001(4):110

14夏歷.中文信息處理與語言文字規(guī)范化.語文學(xué)刊,2002(6):74~76

15殷建平.漢語自動(dòng)分詞方法.計(jì)算機(jī)工程與科學(xué),1998(3):60~65

16陳桂林,王永成等.一種改進(jìn)的快速分詞算法.計(jì)算機(jī)研究與發(fā)展,2000(4):418~424

17李家福,張亞非.基于EM算法的漢語自動(dòng)分詞算法.情報(bào)學(xué)報(bào),2002(6):269~272

18林綺屏.基于詞形的最佳路徑分詞算法.華南師范大學(xué)學(xué)報(bào),2002(4):81~84

19何炎祥,馮夏根,周水庚.演化算法在中文自動(dòng)分詞中的應(yīng)用.計(jì)算機(jī)工程,2002(5):80~82

20曹星明,魯漢榕,李玉珍.基于多種知識(shí)源的漢語自動(dòng)分詞.計(jì)算機(jī)工程與設(shè)計(jì),1998(2)

21李國(guó)臣.漢語自動(dòng)分詞及歧義組合結(jié)構(gòu)的處理.中文信息學(xué)報(bào),1988(3):90~93

22鄭延斌.書面漢語自動(dòng)分詞及歧義分析.河南師范大學(xué)學(xué)報(bào),1997(4):90~93

23孫茂松,鄒嘉彥.漢語自動(dòng)分詞中的若干理論問題.語言文字研究,1995(4):40~47

24黃祥喜.書面漢語自動(dòng)分詞的現(xiàn)狀和問題.情報(bào)學(xué)報(bào),1989(2):125~132

25林春實(shí),方燕,全吉成.漢語文獻(xiàn)自動(dòng)分詞與標(biāo)引技術(shù)發(fā)展淺析.情報(bào)學(xué)報(bào),1997:30~33

26陳玉忠,李保利,渝士文.藏文自動(dòng)分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).中文信息學(xué)報(bào),2003(3):15~20

27黃祥喜.書面漢語自動(dòng)分詞的現(xiàn)狀和問題.情報(bào)學(xué)報(bào),1989(2):125~132

28黃崑,符紹宏.自動(dòng)分詞技術(shù)及其在信息檢索中應(yīng)用的研究.現(xiàn)代圖書情報(bào)技術(shù),2001(1):26~29

29李培.漢語自動(dòng)標(biāo)引方法述評(píng).晉圖學(xué)刊,2000(1):10~19

30顧敏,史麗萍,李春玲.自動(dòng)標(biāo)引綜述.黑龍江水專學(xué)報(bào).2000(9):103~104

31蘇新寧.漢語文獻(xiàn)自動(dòng)標(biāo)引綜析.情報(bào)學(xué)報(bào),1993(4):309~318

32郭慧燕,鐘義信等.自動(dòng)文摘綜述.情報(bào)學(xué)報(bào),2002(5):582~591

33白錫嘉.機(jī)器翻譯與自然語言理解.中國(guó)科技翻譯,1996(2):31~34

34歐振猛,余順爭(zhēng).中文分詞算法在搜索引擎應(yīng)用中的研究.計(jì)算機(jī)工程與應(yīng)用,2000

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論