中文詞頻統(tǒng)計(jì)系統(tǒng)設(shè)計(jì)分析_第1頁
中文詞頻統(tǒng)計(jì)系統(tǒng)設(shè)計(jì)分析_第2頁
中文詞頻統(tǒng)計(jì)系統(tǒng)設(shè)計(jì)分析_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、中文詞頻統(tǒng)計(jì)系統(tǒng)設(shè)計(jì)分析摘要 隨著互聯(lián)網(wǎng)時代的到來,網(wǎng)絡(luò)信息呈極速增長態(tài)勢,互聯(lián)網(wǎng)讓人們的生活 更加“碎片化”,有用信息的獲取變更越來越不容易,中文詞頻統(tǒng)計(jì)系統(tǒng)有效解決 這一難題,幫助人們從一堆雜亂無章的文本數(shù)據(jù)中快速準(zhǔn)確獲取有價值的信息。 本文通過分析中文詞頻統(tǒng)計(jì)的關(guān)鍵技術(shù),即中文分詞技術(shù),并經(jīng)過對比分析幾種 常用的中文分詞工具后,最終通過開源的IK Analyzer完成中文詞頻統(tǒng)計(jì)系統(tǒng)的實(shí) 現(xiàn)。關(guān)鍵詞:中文詞頻統(tǒng)計(jì)關(guān)鍵技術(shù)綜述;中文詞頻統(tǒng)計(jì)系統(tǒng)設(shè)計(jì).、一 、-前言目前我們正處于一個互聯(lián)網(wǎng)時代,而信息量的高速增長帶來的復(fù)雜性,需要 我們對其進(jìn)行有效處理。如何利用計(jì)算機(jī)來進(jìn)行有效地信息處理就產(chǎn)

2、生了中文信 息處理技術(shù)。中文信息處理是計(jì)算機(jī)對中文的音、形、義等信息進(jìn)行處理和加工的過程, 它是自然語言處理的一個分支,是一門與計(jì)算機(jī)科學(xué)、語言學(xué)、數(shù)學(xué)等多種學(xué)科相 關(guān)聯(lián)的綜合性學(xué)科。從20世紀(jì)80 年代開始,中文信息處理進(jìn)入了快速發(fā)展階段, 具體研究內(nèi)容只要包括對字、詞、句、段、篇、章的輸入輸出、壓縮存儲、檢索 傳輸、分析理解和智能生成等方面的技術(shù)。隨著網(wǎng)絡(luò)信息的極速增長,有用信息的獲取變得越來越不容易,中文詞頻統(tǒng)計(jì) 系統(tǒng)的誕生為人們解決這一難題,幫助人們從一堆雜亂無章的中文文本數(shù)據(jù)中獲 取高頻詞或關(guān)鍵詞,有助于準(zhǔn)確把握文章的要義,從而深入了解其核心思想,獲 得有用的信息。1. 中文詞頻統(tǒng)計(jì)

3、關(guān)鍵技術(shù)1.1中文分詞技術(shù)中文分詞是中文詞頻統(tǒng)計(jì)首要解決的問題,也是中文詞頻統(tǒng)計(jì)的關(guān)鍵技術(shù)。中文文本信息與英文文本信息存在一個明顯差別,即在英文文本中,單詞與單詞之 間有空格分隔;而中文文本中,詞與詞之間不存在天然分隔符,同時中文詞語沒有清 晰的定義。這些文本信息區(qū)別,要求在對中文文本信息進(jìn)行處理前,必須將成段的 文本分隔成更小的詞匯單元,這個過程即是中文分詞。中文自動分詞是指使用自計(jì)算機(jī)自動對中文文本進(jìn)行詞語的切分,即像英文 那樣使得中文句子中的詞之間有空格以標(biāo)識,達(dá)到被計(jì)算機(jī)自動識別語義的效果。 常用的基于詞典分詞的算法流程圖如圖1 所示:圖1 基于詞典的分詞算法流程圖1.2常用的中文分詞

4、工具常用的中文分詞工具有:CDWS中文分詞系統(tǒng)、SCWS中文分詞引擎、ICTCLAS漢語分詞系統(tǒng)和IK Analyzer中文分詞工具。(1)CDWS 中文分詞系統(tǒng)CDWS(The Moder n Chi nese Dist in guishi ng Words System)是我國第一個實(shí)用性 的中文分詞系統(tǒng),它是由北京航空大學(xué)的梁南元教授于 1984年設(shè)計(jì)并實(shí)現(xiàn)的。 CDWS采用的是直接匹配的分詞算法,即查字典”,通過從左到右的直接掃描句 子,遇到字典里有的詞就標(biāo)示出來,遇到復(fù)合詞,則取最長匹配。比如“南京市市 長”,切分為一個整詞,而不是“南京/市/市長”。而遇到詞典里沒有的詞,則全部 切

5、分為單個字,這樣簡單的分詞就完成了。(2)SCWS 中文分詞引擎由 Hightman 開發(fā)的一套基于詞頻詞典的機(jī)械中文分詞引擎,它能將一整段 的漢字基本正確的切分成詞。采用的是采集的詞頻詞典,并輔以一定的專有名稱, 人名,地名,數(shù)字年代等規(guī)則識別來達(dá)到基本分詞,經(jīng)小范圍測試大概準(zhǔn)確率在 90% 95% 之間,已能基本滿足一些小型搜索引擎、關(guān)鍵字提取等場合運(yùn)用。 45Kb 左右的文本切詞時間是 0.026 秒,大概是 1.5MB 文本/秒,支持 PHP4 和 PHP 5。(3)ICTCLAS 漢語分詞系統(tǒng)ICTCLAS 漢語詞法分析系統(tǒng)是目前應(yīng)用最廣泛的分詞系統(tǒng),該系統(tǒng)由中科院的 兩位研究員開發(fā)

6、,深受用戶好評。ICTCLAS分詞系統(tǒng)采用層疊隱馬爾科夫模型將中 文分詞、未登錄詞識別、歧義詞處理和詞性標(biāo)注集成在一個完整的系統(tǒng)中。該系 統(tǒng)支持用戶詞典、繁體中文、GBK、UTF-8、UTF-7、Unicode等多種編碼格式。目 前已升級到ICTCLAS3.0, CTCLAS3.0分詞速度單機(jī)996KB/S,分詞精度98.45%, API不超過200KB,各種詞典數(shù)據(jù)壓縮后不到3M,是當(dāng)前世界上最好的漢語詞法 分析器。(4)IK Analyzer 中文分詞工具IKAnalyzer是一個開源的,基于java語言開發(fā)的輕量級的中文分詞工具包。 從2006年12月推出1.0版開始,IKAnalyze

7、r已經(jīng)推出了 3個大版本。最初,它 是以開源項(xiàng)目 Luence 為應(yīng)用主體的,結(jié)合詞典分詞和文法分析算法的中文分詞組 件。新版本的 IKAnalyzer3.0 則發(fā)展為面向 Java 的公用分詞組件,獨(dú)立于 Lucene 項(xiàng)目,同時提供了對Lucene的默認(rèn)優(yōu)化實(shí)現(xiàn)。IKAnalyzer3.0 方面采用了特有的 “正向迭代最細(xì)粒度切分算法“,具有60萬字/秒的高速處理能力;另一方面采用 了多子處理器分析模式,支持英文字母(IP地址、Email、URL)、數(shù)字(日期, 常用中文數(shù)量詞,羅馬數(shù)字,科學(xué)計(jì)數(shù)法),中文詞匯(姓名、地名處理)等分 詞處理。2 中文詞頻統(tǒng)計(jì)系統(tǒng)設(shè)計(jì)2.1中文詞頻統(tǒng)計(jì)系統(tǒng)設(shè)

8、計(jì)架構(gòu)圖本文基于IK Analyzer開源工具實(shí)現(xiàn)中文詞頻統(tǒng)計(jì)系統(tǒng)。在技術(shù)實(shí)現(xiàn)過程中, 主要按圖2的順序進(jìn)行3個階段操作:(1)專業(yè)術(shù)語導(dǎo)入:由于一般的中文分詞系統(tǒng)都是基于自帶的詞典進(jìn)行識 別分詞,但于詞典容量有限,特別是對于分詞組件應(yīng)用場景所涉及的領(lǐng)域不同, 需要各類專業(yè)詞庫的支持,以提高中文分詞的準(zhǔn)確性。(2)中文分詞實(shí)現(xiàn):導(dǎo)入專業(yè)術(shù)語后,利用中文分詞技術(shù)將文本數(shù)據(jù)劃分 為更小的詞匯單元。(3)詞頻統(tǒng)計(jì)輸出:在中文分詞完成后,通過普通的數(shù)學(xué)統(tǒng)計(jì)方法即可得 到原文本數(shù)據(jù)中各單詞的出現(xiàn)頻數(shù),進(jìn)而輸出詞頻統(tǒng)計(jì)結(jié)果。圖2基于IK Analyzerk中文詞頻統(tǒng)計(jì)系統(tǒng)設(shè)計(jì)架構(gòu)圖2.2 中文分詞技術(shù)實(shí)現(xiàn)

9、本文主要采用了 IK Analyzer 實(shí)現(xiàn)文本的分詞。 IK Analyzer 是一個開源的、基 于 Java 語言開發(fā)的輕量級的中文分詞工具包,采用了特有的 “ 正向迭代最細(xì)粒度 切分算法”,支持細(xì)粒度和智能分詞兩種切分模式,同時支持用戶詞典擴(kuò)展定義。 具體操作由以下幾個部分組成:(1)分詞詞典擴(kuò)展。在中文分詞前,首要需要進(jìn)行分詞詞典庫的擴(kuò)展,將 95598 的專業(yè)術(shù)語如“抄表”、 “單筆”、“劃扣”、“代扣”、“戶號”等導(dǎo)入詞典庫,通 過配置字典文件 extendwords.txt 實(shí)現(xiàn)。(2)切分模式選擇。IK Analyzer支持智能分詞和最細(xì)粒度兩種切分模式,以 下是兩種切分方式的

10、演示樣例:a)文本原文:客戶咨詢網(wǎng)上營業(yè)廳為何無法使用手機(jī)號碼注冊”b)智能分詞結(jié)果:客戶/咨詢/網(wǎng)上/營業(yè)廳/為何/無法/使用/手機(jī)號碼/注冊/c)最細(xì)粒度分詞結(jié)果:客戶/咨詢/網(wǎng)上/營業(yè)廳/營業(yè)/廳/為何/無法/使用/用手 /手機(jī)號碼/手機(jī)號/手機(jī)/手/機(jī)號碼/號碼/注冊/。3 結(jié)束語 中文詞頻統(tǒng)計(jì)能實(shí)現(xiàn)從一篇冗余的文章或一堆雜亂無章的文本數(shù)據(jù)中獲得高 詞頻,而高頻詞往往蘊(yùn)含著該文章的核心思想以及重點(diǎn)內(nèi)容,使人們快速獲取有 用的信息。本文通過分析中文詞頻統(tǒng)計(jì)的關(guān)鍵技術(shù),即中文分詞技術(shù),并經(jīng)過深 入分析幾種常用的中文分詞工具后,最終通過開源的IK Analyzer完成中文詞頻統(tǒng) 計(jì)系統(tǒng)的實(shí)現(xiàn)。參考文獻(xiàn)李曉笛.Web文本挖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論