現(xiàn)代漢語文本的詞語切分技術(shù)(1)

上傳人：7*** IP屬地：湖北上傳時間：2022-04-18 格式：DOC 頁數(shù)：15 大?。?0.50KB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩10頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、現(xiàn)代漢語文本的詞語切分技術(shù)(1) 一、引言1、漢語自動分詞的必要性漢語自動分詞是對漢語文本進行自動分析的第一個步驟?？梢赃@樣設(shè)想漢語自動分詞過程的困難：如果把某個英語文本中的所有空格符都去掉，然后讓計算機自動恢復(fù)文本中原有的空格符，這就是詞的識別過程，此過程的主要問題是對大量歧義現(xiàn)象的處理。切詞體現(xiàn)了漢語與英語的顯著的不同。英語文本是小字符集上的已充分分隔開的詞串,而漢語文本是大字符集上的連續(xù)字串。把字串分隔成詞串,就是自動分詞系統(tǒng)需要做的工作。

2、0; 詞是最小的、能獨立活動的、有意義的語言成分。計算機的所有語言知識都來自機器詞典（給出詞的各項信息）、句法規(guī)則（以詞類的各種組合方式來描述詞的聚合現(xiàn)象）以及有關(guān)詞和句子的語義、語境、語用知識庫。漢語信息處理系統(tǒng)只要涉及句法、語義(如檢索、翻譯、文摘、校對等應(yīng)用),就需要以詞為基本單位。例如漢字的拼音-字轉(zhuǎn)換、簡體-繁體轉(zhuǎn)換、漢字的印刷體或手寫體的識別、漢語文章的自動朗讀(即語音合成)等等,都需要使用詞的信息。切詞以后在詞的層面上做轉(zhuǎn)換或識別,處理的確定性就大大提高了。再如信息檢索,如果不切詞（按字檢索）,當(dāng)檢索德國貨幣單位"馬克"時,就

3、會把"馬克思"檢索出來,而檢索"華人"時會把"中華人民共和國"檢索出來。如果進行切詞,就會大大提高檢索的準(zhǔn)確率。在更高一級的文本處理中，例如句法分析、語句理解、自動文摘、自動分類和機器翻譯等，更是少不了詞的詳細信息。2、漢語自動分詞中的困難在過去的十幾年里, 漢語自動分詞工作雖然也取得了很大成績,但無論按照人的智力標(biāo)準(zhǔn)，還是同實用的需要相比較，差距還很大。我們首先需要對這一工作的困難有充分的認(rèn)識。 1).分詞規(guī)范的問題

4、 (1)漢語詞的概念漢語自動分詞的首要困難是詞的概念不清楚。書面漢語是字的序列,詞之間沒有間隔標(biāo)記,使得詞的界定缺乏自然標(biāo)準(zhǔn)，而分詞結(jié)果是否正確需要有一個通用、權(quán)威的分詞標(biāo)準(zhǔn)來衡量。分詞標(biāo)準(zhǔn)的問題實際上是漢語詞與語素、詞與詞組的界定問題，這是漢語語法的一個基本、長期的問題。它涉及到許多方面： ·核心詞表問題:分詞需要有一個核心（通用、與領(lǐng)域無關(guān)的）詞表,凡在該詞表中的詞,分詞時就應(yīng)該切分出來。對于哪些詞應(yīng)當(dāng)收進核心詞表,已提出各種收詞條件，但這些條件本身難以操作，目前尚

5、無合理的可操作的理論和標(biāo)準(zhǔn)。 · 詞的變形結(jié)構(gòu)問題:漢語中的動詞和形容詞有些可以產(chǎn)生變形結(jié)構(gòu),如“打牌”、“開心”、“看見”、“相信”可能變形成“打打牌”、“開開心”、“看沒看見”、“相不相信”等?？梢郧蟹殖觥按虼?牌”,但“開開/心”就不合理?！翱?沒/看見”說得過去,“相/不/相信”就說不過去了。又如大量的離合詞“打架”、“睡覺”等可以合理地變形為“打了一場架”、“睡了一個覺”。對這些變形結(jié)構(gòu)的切分缺少可操作而又合理的規(guī)范。 ·詞綴的問題:語素"者"在現(xiàn)代漢語

6、中單用是沒有意義的,因此"作者"、“成功者”、"開發(fā)者"內(nèi)部不能切開。依據(jù)這個標(biāo)準(zhǔn), “作出了巨大個人財產(chǎn)和精神犧牲者”、"克服許多困難而最終獲得成功者"、"開發(fā)中國第一個操作系統(tǒng)軟件者"也不能切開,但這樣復(fù)雜的結(jié)構(gòu)與詞的定義相矛盾。又如職務(wù)名稱"教育局長",語義上理解為"教育局之長",切成"教育/局長"、"教育局/長"、"教育/局/長"或不予切分,都會有人提出異議。 &

7、#183; 非詞語素問題:一些漢字在古代漢語中是詞,演變到現(xiàn)代漢語時成了非詞語素，例如“民”?，F(xiàn)代的書面漢語并非純粹的"現(xiàn)代漢語",其中夾雜著不少文言成分,如“為民除害”、"以逸待勞"、"幫困濟窮"等等。探尋白話文中夾雜文言成分的規(guī)律,是中文信息處理需要解決的一大問題。 (2)不同應(yīng)用對詞的切分規(guī)范要求不同漢語自動分詞規(guī)范必須支持各種不同目標(biāo)的應(yīng)用,但不同目標(biāo)的應(yīng)用對詞的要求是不同的,甚至是有矛盾的。

8、60;· 以詞為單位的鍵盤輸入系統(tǒng):為了提高輸入速度,一些互現(xiàn)頻率高的相互鄰接的幾個字也常作為輸入的單位,如:“這是”、“每一”、“再不”、“不多”、“不在”、“這就是”、“ 也就”等。 · 校對系統(tǒng):校對系統(tǒng)將含有易錯字的詞和詞組作為詞單位,如許多人“作”、“做”分不清。計算機自動判別時,若把它們當(dāng)作單字詞也不好區(qū)分,但在同前后文構(gòu)成的詞或詞組中往往可以有確定的選擇,故應(yīng)把有關(guān)的詞和詞組都收進詞庫,如“敢做”、“敢作敢為”、"叫做"、“做出”、"看作"、"做為"等。校

9、對系統(tǒng)要求分詞單位較大。如把"勇斗"、"力擒"、"智取"等分別作為一個分詞單位并劃歸及物動詞參與上下文檢查。"張老師"、"五分之三"、"北京中醫(yī)學(xué)院"也應(yīng)分別作為分詞單位,并分別歸類作為人、數(shù)字、機構(gòu)名,再參與上下文檢查。 · 簡繁轉(zhuǎn)換系統(tǒng):"干"的繁體形式有“乾”和“幹”,它的簡繁轉(zhuǎn)換是非確定的。但在詞和詞組的層面上,它的轉(zhuǎn)換常常是確定的。比如“幹部”、“幹事”、“乾凈”、“乾燥”等。為了提高簡繁轉(zhuǎn)

10、換的正確率,簡繁轉(zhuǎn)換系統(tǒng)把這類詞或詞組收進詞表。 · 語音合成系統(tǒng):語音合成系統(tǒng)收集多音字所組成的詞和詞組作為分詞單位,如“補給”、"給水",因為在這些詞或詞組中,多音字"給"的音是確定的。 ·檢索系統(tǒng):檢索系統(tǒng)的詞庫注重術(shù)語和專名,并且一些檢索系統(tǒng)傾向于分詞單位較小化。比如,把"并行計算機"切成“并行/計算機”, "計算語言學(xué)"應(yīng)切成“計算/語言學(xué)”，使得無論用"并行計算機"還是用&

11、quot;計算機"、“計算語言學(xué)”或是“語言學(xué)”檢索,都能查到。分詞單位的粒度大小需要考慮到查全率和查準(zhǔn)率的矛盾。 2).分詞算法的困難要將漢語文本的字序列切分成詞的序列,即使確定了一個合適的分詞標(biāo)準(zhǔn),要實現(xiàn)這個標(biāo)準(zhǔn)也還存在算法方面的困難。 (1)切分歧義漢語文本中含有許多歧義切分字段，典型的歧義有交集型歧義（約占全部歧義的85%以上）和組合型歧義。只有向分詞系統(tǒng)提供進一步的語法、語義知識才有可能作

12、出正確的決策。排除歧義常常用詞頻、詞長、詞間關(guān)系等信息,比如“真正在”中,“真”作為單字詞的頻率大大低于"在"作為單字詞的頻率,即"在"常常單獨使用而“真”作為單字詞使用的可能性較小,所以應(yīng)切成"真正/在"。有時切分歧義發(fā)生在一小段文字中,但為了排除歧義,需要看較長的一段文字。如"學(xué)生會"既可能是一個名詞,指一種學(xué)生組織,也可能是"學(xué)生/會",其中"會"為"可能"或"能夠"的意思。在“學(xué)生會主席”中只能是前者,在"學(xué)生會去&q

13、uot;中只能是后者,在“學(xué)生會組織義演活動”中歧義仍然排除不了，則需要看更多的語境信息。 (2)未登錄詞識別未登錄詞即未包括在分詞詞表中但必須切分出來的詞,包括各類專名(人名、地名、企業(yè)字號、商標(biāo)號等)和某些術(shù)語、縮略詞、新詞等等。"于大海發(fā)明愛爾膚護膚液"需要切分成"于大海/發(fā)明/愛爾膚/護膚液",并需要識別出"于大海"是人名,“愛爾膚”是商標(biāo)名,"護膚液"是術(shù)語名詞。專名中還包括外族、外國名的漢譯名,如"

14、斯普林菲爾德是伊里諾州首府","丹增嘉措70多歲了",其中的美國地名、藏族人名都需識別。未登錄詞的識別對于各種漢語處理系統(tǒng)不僅有直接的實用意義,而且起到基礎(chǔ)性的作用。因為各種漢語處理系統(tǒng)都需要使用詞頻等信息, 如果自動分詞中對未登錄詞識別不對,統(tǒng)計到的信息就會有很大誤差。比如,一個分詞系統(tǒng)若不做中外人名識別,分詞后進行詞頻統(tǒng)計,可能會發(fā)現(xiàn)"張"、"王"、"李"、"劉"、“爾”、“斯”的頻率比"卻"、"如"、"你"的頻率還要高,

15、用這樣的統(tǒng)計結(jié)果做漢語處理,其效果肯定有問題。又比如校對系統(tǒng)，如果系統(tǒng)不具備生詞識別能力，就無法判斷句子中大部分詞的使用是否合理，也就不能檢查真正的錯誤所在。(3) 分詞與理解的先后計算機無法像人在閱讀漢語文章時那樣邊理解邊分詞，而只能是先分詞后理解，因為計算機理解文本的前提是識別出詞、獲得詞的各項信息。這就是邏輯上的兩難：分詞要以理解為前提，而理解又是以分詞為前提。由于計算機只能在對輸入文本尚無理解的條件下進行分詞，則任何分詞系統(tǒng)都不可能企求百分之百的切分正確率。3、分詞系統(tǒng)的目標(biāo) 漢語自動分詞系統(tǒng)

16、達到怎樣的水平才能適應(yīng)信息處理的要求?我們認(rèn)為可以從以下幾個方面來衡量，即準(zhǔn)確、高效、通用及適用。 1).準(zhǔn)確性準(zhǔn)確率是分詞系統(tǒng)性能的核心指標(biāo)?，F(xiàn)在有些分詞系統(tǒng)的準(zhǔn)確率達到98%,似乎已經(jīng)很高了,其實不然。若這種分詞系統(tǒng)被用來支持句法分析、漢-外機器翻譯系統(tǒng),假定平均每句話有10個漢語詞,那么10句話中會錯切2個詞,含有切分錯誤的2句就不可能被正確處理。因此僅僅由于分詞階段的準(zhǔn)確度不夠,語言理解的準(zhǔn)確率就會減少20%?？梢?分詞系統(tǒng)的準(zhǔn)確率應(yīng)達到99.9%以上才能基本滿足上層使用的要求。 &

17、#160; 2).運行效率分詞是各種漢語處理應(yīng)用系統(tǒng)中共同的、基礎(chǔ)性的工作,這步工作消耗的時間應(yīng)盡量少,應(yīng)只占上層處理所需時間的一小部分,并應(yīng)使用戶沒有等待的感覺,在普遍使用的平臺上大約每秒鐘處理1萬字或5千詞以上為宜。 3).通用性隨著Internet的普遍應(yīng)用,中文平臺的處理能力不能僅限于我國,僅限于字處理,僅限于日常應(yīng)用領(lǐng)域。作為各種高層次中文處理的共同基礎(chǔ),自動分詞系統(tǒng)必須具有很好的通用性。自動分詞系統(tǒng)應(yīng)支持不同地區(qū)(包括我

18、國的香港、臺灣、澳門,以及新加坡和美洲、歐洲、澳洲的華語社區(qū))的漢語處理;應(yīng)能適應(yīng)不同地區(qū)的不同用字、用詞,不同的語言風(fēng)格,不同的專名構(gòu)成方式(如港澳臺地區(qū)一些婦女名前冠夫姓,外國人名地名的漢譯方式與我國人名地名很不一樣)等;支持不同的應(yīng)用目標(biāo),包括各種輸入方式、簡繁轉(zhuǎn)換、語音合成、校對、翻譯、檢索、文摘等等;支持不同領(lǐng)域的應(yīng)用,包括社會科學(xué)、自然科學(xué)和技術(shù),以及日常交際、新聞、辦公等等;應(yīng)當(dāng)同現(xiàn)在的鍵盤輸入系統(tǒng)一樣成為中文平臺的組成部分。為了做到足夠通用又不過分龐大,必須做到在詞表和處理功能、處理方式上能靈活組合裝卸,有充分可靠和方便的維護能力,有標(biāo)準(zhǔn)的開發(fā)接口。同時，系統(tǒng)還應(yīng)該具有良好的可

19、移植性,能夠方便地從一個系統(tǒng)平臺移植到另一個系統(tǒng)平臺上而無需很多的修改。當(dāng)然，完全的通用性很難達到。 4).適用性漢語自動分詞是手段而不是目的，任何分詞系統(tǒng)產(chǎn)生的結(jié)果都是為某個具體的應(yīng)用服務(wù)的。好的分詞系統(tǒng)具有良好的適用性，可以方便地集成在各種各樣的漢語信息處理系統(tǒng)中。二、自動分詞算法的分類我們可以將現(xiàn)有的分詞算法分為三大類：基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。1、基于字符串匹配的分詞方法這種方法又叫做機械分詞方法，它是按

20、照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配，若在詞典中找到某個字符串，則匹配成功（識別出一個詞）。按照掃描方向的不同，串匹配分詞方法可以分為正向匹配和逆向匹配；按照不同長度優(yōu)先匹配的情況，可以分為最大（最長）匹配和最小（最短）匹配；按照是否與詞性標(biāo)注過程相結(jié)合，又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。常用的幾種機械分詞方法如下；1）、正向最大匹配2）、逆向最大匹配3）、最少切分（使每一句中切出的詞數(shù)最?。┻€可以將上述各種方法相互組合，例如，可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。由于漢語單字成詞的特點，正向最小匹配和逆向最小

21、匹配一般很少使用。一般說來，逆向匹配的切分精度略高于正向匹配，遇到的歧義現(xiàn)象也較少。統(tǒng)計結(jié)果表明，單純使用正向最大匹配的錯誤率為1/169，單純使用逆向最大匹配的錯誤率為1/245。但這種精度還遠遠不能滿足實際的需要。由于分詞是一個智能決策過程，機械分詞方法無法解決分詞階段的兩大基本問題：歧義切分問題和未登錄詞識別問題。實際使用的分詞系統(tǒng)，都是把機械分詞作為一種初分手段，還需通過利用各種其它的語言信息來進一步提高切分的準(zhǔn)確率。一種方法是改進掃描方式，稱為特征掃描或標(biāo)志切分，優(yōu)先在待分析字符串中識別和切分出一些帶有明顯特征的詞，以這些詞作為斷點，可

22、將原字符串分為較小的串再來進機械分詞，從而減少匹配的錯誤率。另一種方法是將分詞和詞類標(biāo)注結(jié)合起來，利用豐富的詞類信息對分詞決策提供幫助，并且在標(biāo)注過程中又反過來對分詞結(jié)果進行檢驗、調(diào)整，從而極大地提高切分的準(zhǔn)確率。對于機械分詞方法，可以建立一個一般的模型，形式地表示為ASM(d,a,m)，即Automatic Segmentation Model。其中， d：匹配方向， 1表示正向，-1表示逆向； a：每次匹

23、配失敗后增加/減少字串長度（字符數(shù)）， 1為增字，-1為減字； m：最大/最小匹配標(biāo)志， 1為最大匹配，-1為最小匹配。例如，ASM( , -, )就是正向減字最大匹配法（即MM方法），ASM(-, -, )就是逆向減字最大匹配法(即RMM方法)，等等。對于現(xiàn)代漢語來說，只有m= 1是實用的方法。用這種模型可以對各種方法的復(fù)雜度進行比較，假設(shè)在詞典的匹配過程都使用順序查找和相同的計首字索引查找方法，則在不記首字索引查找次數(shù)（最小為log<漢字總數(shù)> » 1214）和詞典讀入內(nèi)存時

24、間的情況下，對于典型的詞頻分布，減字匹配ASM(d,-,m)的復(fù)雜度約為12.3次，增字匹配ASM(d, ,m)的復(fù)雜度約為10.6。另外，還可以證明，早期曾流行一時的“切分標(biāo)志字串”預(yù)處理方法是一個毫無必要的技術(shù)，它增加了一遍掃描“切分標(biāo)志詞典”的時空復(fù)雜性，卻并沒有提高分詞精度，因為所謂的切分標(biāo)志其實都已經(jīng)隱含在詞典之中，是對詞典功能的重復(fù)。實際上“切分標(biāo)志”也沒有標(biāo)記歧義字段的任何信息。因此，在近來的分詞系統(tǒng)中，已經(jīng)基本上廢棄了這種“切分標(biāo)志”預(yù)處理方法。2、基于理解的分詞方法通常的分析系統(tǒng)，

25、都力圖在分詞階段消除所有歧義切分現(xiàn)象。而有些系統(tǒng)則在后續(xù)過程中來處理歧義切分問題，其分詞過程只是整個語言理解過程的一小部分。其基本思想就是在分詞的同時進行句法、語義分析，利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分：分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下，分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進行判斷，即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、復(fù)雜性，難以將各種語言信息組織成機器可直接讀取的形式，因此目前基于理解的分詞系統(tǒng)還處在試驗階段。3、基于統(tǒng)計的分詞方法

26、60; 從形式上看，詞是穩(wěn)定的字的組合，因此在上下文中，相鄰的字同時出現(xiàn)的次數(shù)越多，就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度?？梢詫φZ料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計，計算它們的互現(xiàn)信息。定義兩個字的互現(xiàn)信息為：，其中是漢字X、Y的相鄰共現(xiàn)概率，、分別是X、Y在語料中出現(xiàn)的概率。互現(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個閾值時，便可認(rèn)為此字組可能構(gòu)成了一個詞。這種方法只需對語料中的字組頻度進行統(tǒng)計，不需要切分詞典，因而又叫做無詞典分詞法或統(tǒng)計取詞方法。但這種方法也有一定的局限性，會經(jīng)常抽出一些共現(xiàn)頻度高、但并不

27、是詞的常用字組，例如“這一”、“之一”、“有的”、“我的”、“許多的”等，并且對常用詞的識別精度差，時空開銷大。實際應(yīng)用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典（常用詞詞典）進行串匹配分詞，同時使用統(tǒng)計方法識別一些新的詞，即將串頻統(tǒng)計和串匹配結(jié)合起來，既發(fā)揮匹配分詞切分速度快、效率高的特點，又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。三、幾種典型的自動分詞系統(tǒng)評介衡量自動分詞系統(tǒng)的主要指標(biāo)是切分精度和速度。由于切分速度與所運行的軟、硬件平臺密切相關(guān)，在沒有注明運行平臺時，切分速度只是一

28、個參考指標(biāo)，沒有可比性。另外，所注明的切分精度都是開發(fā)者自測試的結(jié)果。1、幾個早期的自動分詞系統(tǒng) 自80年代初中文信息處理領(lǐng)域提出了自動分詞以來，一些實用性的分詞系統(tǒng)逐步得以開發(fā)，其中幾個比較有代表性的自動分詞系統(tǒng)在當(dāng)時產(chǎn)生了較大的影響。 CDWS分詞系統(tǒng)是我國第一個實用的自動分詞系統(tǒng)，由北京航空航天大學(xué)計算機系于年設(shè)計實現(xiàn)，它采用的自動分詞方法為最大匹配法，輔助以詞尾字構(gòu)詞糾錯技術(shù)。其分詞速度為5-10字/秒，切分精度約為1/625，基本滿足了詞頻統(tǒng)計和其他一些應(yīng)用的需要。這是漢語自動分詞實踐的首次嘗

29、試，具有很大的啟發(fā)作用和理論意義。例如，它比較科學(xué)地闡明了漢語中的歧義切分字段的類別、特征以及基本的對策。 ABWS是山西大學(xué)計算機系研制的自動分詞系統(tǒng)，系統(tǒng)使用的分詞方法稱為“兩次掃描聯(lián)想-回溯”方法，用聯(lián)想-回溯來解決引起組合切分歧義。系統(tǒng)詞庫運用了較多的詞法、句法等知識。其切分正確率為98.6%(不包括非常用、未登錄的專用名詞)，運行速度為48詞/分鐘。 CASS是北京航空航天大學(xué)于1年實現(xiàn)的分詞系統(tǒng)。它使用的是一種變形的最大匹配方法，即正向增字最大匹配。它運用知識庫來處理歧義字段。其機械分詞速度

30、為200字/秒以上，知識庫分詞速度150字/秒（沒有完全實現(xiàn)）。書面漢語自動分詞專家系統(tǒng)是由北京師范大學(xué)現(xiàn)代教育研究所于1991前后研制實現(xiàn)的，它首次將專家系統(tǒng)方法完整地引入到分詞技術(shù)中。系統(tǒng)使知識庫與推理機保持相對獨立，知識庫包括常識性知識庫（詞條的詞類24種、歧義詞加標(biāo)志及其消除規(guī)則編號、消歧的部分語義知識，使用關(guān)聯(lián)網(wǎng)絡(luò)存儲）和啟發(fā)性知識庫（消歧產(chǎn)生式規(guī)則集合，用線性表結(jié)構(gòu)存儲），詞典使用首字索引數(shù)據(jù)結(jié)構(gòu)。通過引入專家系統(tǒng)的形式，系統(tǒng)把分詞過程表示成為知識的推理過程，即句子“分詞樹”的生長過程。據(jù)報道，系統(tǒng)對封閉原料的切分精度為99.94%，

31、對開放語料的切分精度達到99.8%，在386機器上切分速度達到200字/秒左右。這些性能代表了當(dāng)時的一流成就。現(xiàn)在看來，這個系統(tǒng)的一個重要理論意義是進一步研究清楚了歧義切分字段，即把歧義字段分為詞法級、句法級、語義級和語用級，并且統(tǒng)計出它們的分布分別為84.1%、10.8%、3.4%和1.7%，還給出了每一種歧義的處理策略，從而比較徹底地剖析了漢語歧義切分字段的性質(zhì)。它的另外一個理論意義是給出了當(dāng)前基于句法和語義處理技術(shù)的歧義分析精度的上限（“語義級理想切分精度”1/6250），并且說明只有綜合運用各種知識、信息和推理機制的分析方法才又可能趨近理想切分精度。盡管本系統(tǒng)由于結(jié)構(gòu)復(fù)雜、知識庫建造困

32、難且并不像預(yù)想的那么易于維護、效率不易提高等原因而未能廣泛流行，但是其理論分析和指導(dǎo)思想已獲得了普遍關(guān)注，影響了眾多后繼系統(tǒng)的開發(fā)。2、清華大學(xué)SEG分詞系統(tǒng) 此系統(tǒng)提供了帶回溯的正向、反向、雙向最大匹配法和全切分-評價切分算法，由用戶來選擇合適的切分算法。其特點則是帶修剪的全切分-評價算法。系統(tǒng)考慮到了切分盲點的問題（某些字串永遠不會被某種分詞方法匹配出來），由此提出了全切分的概念，即找出輸入字串的所有可能的子串，然后利用某種評價方法從所有這些可能的子串中選出最佳子串序列作為分詞結(jié)果。為了解決全切分所帶來的組合爆炸問題，又引進了對全切分過程進行修

33、剪的方法，強制性地截止某些全切分的進行。用戶在使用時，對于歧義較少的語料，可采用正向或反向最大匹配法；對于有較多交叉歧義的語料，可使用雙向最大匹配法；對于其它歧義較大的語料，則采用全切分-評價算法，并需要采用一個合適的評價函數(shù)。由于對具體語料的統(tǒng)計參數(shù)設(shè)置了不確切初值，全切分-評價算法在第一、二遍切分過程中的正確率較低，隨著切分的多遍進行，評價函數(shù)逐漸得以矯正，系統(tǒng)的切分精度逐步得以提高。經(jīng)過封閉試驗，在多遍切分之后，全切分-評價算法的精度可以達到99%左右。 3、清華大學(xué)SEGTAG系統(tǒng) 此系統(tǒng)著眼于將各種各類的信息進行綜合，以便最大限度地利用這

34、些信息提高切分精度。系統(tǒng)使用有向圖來集成各種各樣的信息，這些信息包括切分標(biāo)志、預(yù)切分模式、其他切分單位。為了實現(xiàn)有限的全切分，系統(tǒng)對詞典中的每一個重要的詞都加上了切分標(biāo)志，即標(biāo)志“ck”或“qk”?！皅k”標(biāo)志表示該詞可進行絕對切分，不必理會它是否產(chǎn)生切分歧義；“ck”標(biāo)志表示該詞有組合歧義，系統(tǒng)將對其進行全切分，即保留其所有可能的切分方式。系統(tǒng)通過這兩種標(biāo)志并使用幾條規(guī)則以實現(xiàn)有限的全切分，限制過多的切分和沒有必要的搜索。規(guī)則包括： 1、無條件切出qk類詞； 2、完全切分ck類詞（保留各個子串）；&#

35、160; 3、對沒有標(biāo)記(qk或ck)的詞，若它與別的詞之間存在交叉歧義，則作全切分；否則將其切出。為了獲得切分結(jié)果，系統(tǒng)采用在有向圖DAG上搜索最佳路徑的方法，使用一個評價函數(shù)EVALUATE(Path)，求此評價函數(shù)的極大值而獲得最佳路徑Pmax。所運用的搜索算法有兩種，即“動態(tài)規(guī)劃”和“全切分搜索葉子評價”，使用了詞頻、詞類頻度、詞類共現(xiàn)頻度等統(tǒng)計信息。通過實驗，該系統(tǒng)的切分精度基本上可達到99%左右，能夠處理未登錄詞比較密集的文本,切分速度約為30字/秒。4、國家語委文字所應(yīng)用句法分析技術(shù)的漢語自動分詞

36、此分詞模型考慮了句法分析在自動分詞系統(tǒng)中的作用，以更好地解決切分歧義。切詞過程考慮到了所有的切分可能，并運用漢語句法等信息從各種切分可能中選擇出合理的切分結(jié)果。其過程由兩步構(gòu)成：一、對輸入字串進行處理，得到一個所有可能的切分字串的集合，即進行（不受限的）全切分；二、利用句法分析從全切分集合中將某些詞選出來，由它們構(gòu)成合理的詞序列，還原為原輸入字串。系統(tǒng)使用一個自由傳播式句法分析網(wǎng)絡(luò)，用短語文法描述句法規(guī)則，并將其表示為層次化網(wǎng)絡(luò)圖，通過此網(wǎng)絡(luò)的信息傳遞過程來進行選詞。網(wǎng)絡(luò)的節(jié)點分為詞類節(jié)點（終結(jié)符節(jié)點）和規(guī)則類節(jié)點（非終結(jié)符節(jié)點）。詞類節(jié)點保存詞

37、的信息；規(guī)則類節(jié)點對信息進行合并和句法、語義分析，生成新的信息，并將本節(jié)點的信息傳遞出去（也就是用文法產(chǎn)生式進行歸約，并進行屬性計算作者注）。網(wǎng)絡(luò)運行的初態(tài)是所有節(jié)點狀態(tài)為NO，各種可能切分的字串進入響應(yīng)相應(yīng)的詞類節(jié)點（終結(jié)符節(jié)點），然后開始運用文法進行計算。當(dāng)網(wǎng)絡(luò)的最高層節(jié)點S（文法起始符號）達到穩(wěn)定狀態(tài)OK時,計算結(jié)束，在最高節(jié)點處輸出最后的切分結(jié)果。從一般的角度來看，應(yīng)用句法分析技術(shù)進行切詞的方法是一種“生成測試“方法，它是一種常用的AI問題求解方法，包括兩個步驟：生成步找出所有可能的解（假設(shè)）；測試步對各個假設(shè)進行檢驗，找出合格者。在應(yīng)用

38、句法分析進行切詞時，其測試步是使用漢語的句法規(guī)則檢驗?zāi)撤N切分結(jié)果是否構(gòu)成合法的漢語句子。這樣可以將句法分析理論的各種成果用于切詞之中，有多種句法分析技術(shù)可以應(yīng)用，常見的是ATN分析、CYK分析(Chart Parsing)、G-LR分析等?？梢詫⑦@種方法稱做“切詞-句法分析一體化”方法。隨著軟硬件水平的不斷提高，直接運用時空消耗比較大的句法分析來檢查分詞結(jié)果的方法正在日益顯現(xiàn)其優(yōu)越性。5、復(fù)旦分詞系統(tǒng) 此系統(tǒng)由四個模塊構(gòu)成。一、預(yù)處理模塊，利用特殊的標(biāo)記將輸入的文本分割成較短的漢字串，這些標(biāo)記包括標(biāo)點符號、數(shù)字、字母等非漢字符，還包括文本中常見的一

39、些字體、字號等排版信息。一些特殊的數(shù)詞短語、時間短語、貨幣表示等，由于其結(jié)構(gòu)相對簡單，即由數(shù)詞和特征字構(gòu)成構(gòu)成，也在本階段進行處理。為此系統(tǒng)特別增加一次獨立的掃描過程來識別這些短語，系統(tǒng)維護一張?zhí)卣髟~表，在掃描到特征字以后，即調(diào)用這些短語的識別模塊，確定這些短語的左、右邊界，然后將其完整地切分開；二、歧義識別模塊，使用正向最小匹配和逆向最大匹配對文本進行雙向掃描，如果兩種掃描結(jié)果相同，則認(rèn)為切分正確，否則就判別其為歧義字段，需要進行歧義處理；三、歧義字段處理模塊，此模塊使用構(gòu)詞規(guī)則和詞頻統(tǒng)計信息來進行排歧。構(gòu)詞規(guī)則包括前綴、后綴、重疊詞等構(gòu)詞情況，以及成語、量詞、單字動詞切分優(yōu)先等規(guī)則。在使用

40、規(guī)則無效的情況下，使用了詞頻信息，系統(tǒng)取詞頻的乘積最大的詞串作為最后切分結(jié)果；最后，此系統(tǒng)還包括一個未登錄詞識別模塊，以解決未登錄詞造成的分詞錯誤。未登錄詞和歧義字段構(gòu)成了降低分詞準(zhǔn)確率的兩大因素，而未登錄詞造成的切分錯誤比歧義字段更為嚴(yán)重，實際上絕大多數(shù)分詞錯誤都是由未登錄詞造成的。系統(tǒng)對中文姓氏進行了自動識別，它利用了中文姓名的用字規(guī)律、頻率，以及姓名的上下文等信息。通過對十萬以上的中文姓名進行抽樣綜合統(tǒng)計，建立了姓氏頻率表和名字用字頻率表，由此可獲得任意相鄰的二、三個單字構(gòu)成姓氏的概率大小和某些規(guī)律，再利用這些字串周圍的一些稱謂、指界動詞和特定模式等具有指示意義的上下文信息，可對字串是否

41、構(gòu)成姓名進行辨別。實驗過程中，對中文姓氏的自動辨別達到了70%的準(zhǔn)確率。系統(tǒng)對文本中的地名和領(lǐng)域?qū)Ｓ性~匯也進行了一定的識別。6、哈工大統(tǒng)計分詞系統(tǒng) 該系統(tǒng)是一種典型的運用統(tǒng)計方法的純切詞系統(tǒng)，它試圖將串頻統(tǒng)計和詞匹配結(jié)合起來。系統(tǒng)由三個部分構(gòu)成：一、預(yù)處理模塊，利用顯式和隱式的切分標(biāo)記（標(biāo)點符號、數(shù)字、ASCII字符以及出現(xiàn)頻率高、構(gòu)詞能力差的單字詞、數(shù)詞單字常用量詞模式）將待分析的文本切分成短的漢字串，這大大地減少了需要統(tǒng)計的（無效）字串的數(shù)量和高頻單字或量詞邊界串；二、串頻統(tǒng)計模塊，此模塊計算各個已分開的短漢字串中所有長度大于的子串在局部上下

42、文中出現(xiàn)的次數(shù)，并根據(jù)串頻和串長對每個這樣的子串進行加權(quán)，加權(quán)函數(shù)為（F為串頻，L為串長，即串中漢字個數(shù)）。根據(jù)經(jīng)驗，局部上下文中取為200字左右。局部上下文的串頻計算使用一個滑動窗口（為一個隊列式緩沖區(qū)，保存當(dāng)前待切分漢字串及其前后20個短串），當(dāng)當(dāng)前待切分漢字串處理完之后，窗口下移一個短串（中心變?yōu)橄噜徬乱粋€短串）。系統(tǒng)采用一個外散列表來記錄窗口中的短串，以加快窗口中串頻計數(shù)。散列函數(shù)取為漢字的GB-80位碼（二級漢字共用入口95），每個桶中保存窗口中每一行（短串）上的漢字位置：（短串的行號，漢字列號），并且對于在窗口中出現(xiàn)多次的漢字位置用一個鏈指針連接起來，則計算某個字串在窗口中出現(xiàn)的

43、頻度時，不必將該字串與窗口中的短串逐個匹配，而只需統(tǒng)計在該字串中的各個漢字所對應(yīng)的位置鏈表中能夠相鄰的位置的序列的個數(shù)即可。此外，還需要根據(jù)詞綴集（前、后綴集合）對字串的權(quán)值進行提升，例如“處理器”中“處理”的權(quán)值很高，但由于對“處理器”的權(quán)值作了提升（達到或超過了“處理”），就不會切成“處理/器”。如果某個漢字串的權(quán)值超過某一閾值D（取為40），則將此漢字串作為一個新識別的詞，將其存入一臨時詞庫中；三、切分模塊，首先用臨時詞庫對每個短的漢字串進行切分，使用的是逐詞遍歷算法，再利用一個小型的常用詞詞典對漢字短串中未切分的子串進行正向最大匹配分詞。對于短漢字串中那些仍未切分的子串，則將所有相鄰單

44、字作為一個權(quán)值很低的生詞（例如“瑪”、“莉”）。其中每個模塊都對待分析的文本進行了一次掃描，因而是三遍掃描方法。此系統(tǒng)能夠利用上下文識別大部分生詞，解決一部分切分歧義，但是統(tǒng)計分詞方法對常用詞識別精度差的固有缺點仍然存在（例如切出“由/來”、“語/用”、“對/聯(lián)”等）。經(jīng)測試，此系統(tǒng)的分詞錯誤率為1.5%，速度為236字/秒。 7、杭州大學(xué)改進的MM分詞系統(tǒng) 考慮到漢語的歧義切分字段出現(xiàn)的平均最大概率為1/110，因而機械分詞的精度在理論上能夠達到1-1/100=99.1%。那么是否還有更一般、精度更高的機械分詞系統(tǒng)呢？根據(jù)統(tǒng)計，漢語的局部（詞法一

45、級）歧義字段占了全部歧義的84%，句法歧義占10%，如果提高系統(tǒng)處理這兩類歧義的準(zhǔn)確率，則可以大幅度提高切分精度。這方面的改進導(dǎo)致了改進的MM分詞算法。將其闡述如下。通過對交叉歧義字段的考察，發(fā)現(xiàn)其中80%以上可以通過運用一條無需任何語言知識的“歸右原則”（交叉歧義字段優(yōu)先與其右邊的字段成詞）就可以獲得正確切分，這是因為在多數(shù)情況下漢語的修飾語在前、中心詞在后，因而“歸右”好于“歸左”。 “歸右原則”可以使機械分詞的精度上升到99.70%。這種考察給出了鼓舞人心的結(jié)果，有可能使機械分詞系統(tǒng)達到這樣的理論精度。 &

46、#160;不過“歸右原則”還有需要修正的地方，既對于“連續(xù)型交叉歧義”會發(fā)生錯誤，需要補充一條“左部結(jié)合”原則：若ABCDE為連續(xù)型交叉歧義字段，“歸右原則”產(chǎn)生切分A B C DE；再由“左結(jié)合原則”（合并最左邊的A、B）而得到AB C DE。例如“結(jié)合成分子”>“結(jié) 合成分子”>“結(jié)合成分子”。但是仍然還有例外，例如“當(dāng)結(jié)合成分子時”>“當(dāng) 結(jié)合成分子時”；為此引入“跳躍匹配”，在詞典中定義“非連續(xù)詞”（實際上為串模式作者注）“當(dāng)*時”，然后在切分時首先分出“當(dāng) 結(jié)合成分子時”，然后再用“歸右左結(jié)合”切分中間

47、的歧義字段。以上3項技術(shù)將機械分詞的理論切分精度提高到了99.73%。綜合以上思想，就建立了如下改進的MM分詞算法：正向掃描增字最大匹配（包括“跳躍匹配非連續(xù)詞”）詞尾歧義檢查（逐次去掉首字做MM匹配以發(fā)現(xiàn)交叉歧義字段） “歸右原則”（對于“連續(xù)型交叉歧義”還需要“左結(jié)合原則”）。系統(tǒng)的詞典采用一級首字索引結(jié)構(gòu)，詞條中包括了“非連續(xù)詞”（形如C1* Cn

48、）。系統(tǒng)精度的實驗結(jié)果為95%，低于理論值99.73%，但高于通常的MM、RMM、DMM方法。8、Microsoft Research 漢語句法分析器中的自動分詞微軟研究院的自然語言研究所在從90年代初開始開發(fā)了一個通用型的多國語言處理平臺NLPWin，最初階段的研究都是對英語進行的。大約從1997年開始，增加了中文處理的研究，從而使NLPWin成為能夠進行7國語言處理的系統(tǒng)（其中日語和韓語部分的研究已較早地開展起來）。中文部分的研究在開始時缺少必要的基礎(chǔ)資源，于是經(jīng)過細致的研究分析之后，購買了北大計算語言所的現(xiàn)代漢語語法信息詞典，從此進展順利，在短短的一年半的時間里達到了其它東方語種的處理水平。據(jù)報道，NLPWin的語法分析部分使用的是一種雙向的Chart Parsing，使用了語法規(guī)則并以概率模型作導(dǎo)向，并且將語法和

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

現(xiàn)代漢語文本的詞語切分技術(shù)(1)

文檔簡介

溫馨提示

最新文檔

評論

現(xiàn)代漢語文本的詞語切分技術(shù)(1)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔