(計算機(jī)應(yīng)用技術(shù)專業(yè)論文)中文全文檢索技術(shù)研究.pdf_第1頁
(計算機(jī)應(yīng)用技術(shù)專業(yè)論文)中文全文檢索技術(shù)研究.pdf_第2頁
(計算機(jī)應(yīng)用技術(shù)專業(yè)論文)中文全文檢索技術(shù)研究.pdf_第3頁
(計算機(jī)應(yīng)用技術(shù)專業(yè)論文)中文全文檢索技術(shù)研究.pdf_第4頁
(計算機(jī)應(yīng)用技術(shù)專業(yè)論文)中文全文檢索技術(shù)研究.pdf_第5頁
已閱讀5頁,還剩49頁未讀 繼續(xù)免費(fèi)閱讀

(計算機(jī)應(yīng)用技術(shù)專業(yè)論文)中文全文檢索技術(shù)研究.pdf.pdf 免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

碩士拳位論文 m a s t e r s 1 1 l t g s i s 捅璺 全文檢索技術(shù)是信息處理的各領(lǐng)域中的重要技術(shù) 本文對全文檢索技術(shù)進(jìn) 行了以下幾方面的研究 l 介紹了國內(nèi)外檢索技術(shù)的發(fā)展過程 討論了普通文本檢索 概念信息 檢索 超文本信息檢索 多媒體信息檢索 數(shù)據(jù)挖掘等的技術(shù)特點(diǎn) 2 研究了全文檢索技術(shù)的兩種主要索引方法的特點(diǎn)和實(shí)現(xiàn)過程 其中基 于字表的檢索方法由于具有無需分詞 實(shí)現(xiàn)容易的優(yōu)點(diǎn) 因而在實(shí)踐中被廣泛 采用 然后針對該算法存在的 索引庫較大 匹配速度不高和查全率較高而查 準(zhǔn)率較低 等缺點(diǎn) 引入了第二種檢索方法 基于詞表的檢索方法 3 研究了中文自動分詞技術(shù) 這是中文全文檢索鐘的關(guān)鍵技術(shù) 對其中 的幾種方法 如機(jī)械匹配法 即m m 法 特征詞庫法 約束矩陣法 語法分 析法和理解切分法等做了詳細(xì)的比較和分析 并歸納出各自特點(diǎn) 其中m m 法 由于實(shí)現(xiàn)簡單 并且是其它方法的基礎(chǔ) 本文對其進(jìn)行了著重介紹 4 在m m 方法的基礎(chǔ)上 本文對一種利用基于字 詞和詞組的混合模型 來實(shí)現(xiàn)中文全文檢索的方法進(jìn)行了探索和研究 該算法的基本原理是 把所有 的單字 詞還是詞組都作為語詞 建立漢語詞語二叉樹 分詞時 讀取二叉樹 右邊的內(nèi)容 并比較左節(jié)點(diǎn)的長度 得到有意義的最小長度的語詞 然后又莊 這種算法的基礎(chǔ)上進(jìn)一步討論了 種改進(jìn)的m m 法以減少詞語的歧義切分 5 設(shè)計了校園網(wǎng)內(nèi)w e b 頁面的搜索引擎 該引擎的主要特點(diǎn)是 將搜索 引擎主要分為前端和后端 后端獲取w e b 文檔 然后分詞 建立和更新索引 前端提取索引庫中的內(nèi)容 向客戶提供檢索服務(wù) 在該系統(tǒng)中利用網(wǎng)絡(luò)蜘蛛 掃描校園網(wǎng)中所有h t m l 文檔 尋找所有與檢索關(guān)鍵字相關(guān)的頁面 并將向 量空間的思想運(yùn)用到其中 即可提取出其中的資源中心 即檢索結(jié)果 關(guān)鍵詞 全文檢索 倒排文件 自動分詞 二叉樹 搜索引擎 向 量空間 碩士學(xué)位論文 m s t e r s1 1 e s s a b s t r a c t 1 1 圯f u l lt e x tr e t r i e v a l f t r i st h e m a lt e c h n o l o g yo fd i s p o s i n gt h e i n f o r m a t i o n t h ea r t i c l ed o e ss o m er e s e a r c ho f t h ef u l lt e x tr e t r i e v a lt e c h n o l o g y 1 t h ea r t i c l es u m m a r i z et h ed e v e l o p m e n to f t h ew e bs e a r c ht e c h n o l o g yi nt h e d o m e s t i cc o u n t r ya n da b o a r d i tw i l lr e f e rt on o to n l yt h ec o m m o nd o c u m e n t r e t r i e v a li nt h ew e b b u ta l s ot h eq u e r yo fc o n c e p ti n f o r m a t i o n h y p e r t e x t i n f o r m a t i o n m u l t i m e d i ai n f o r m a t i o na n dt h ed a t am i n i n g t h e s en e wt e c h n o l o g y a r ea l s oi n t r o d u c e db r i e f l y n 地a r t i c l el i s t st h es p e c i f i c a t i o no f t h ef u l lt e x tr e t r i e v a l t e c h n o l o g y a tt h es a m et i m et h ed e f i c i e n c i e sa r ea l s or e f e r r e da n dt h et r e n d so f t h e f u t u r ea r ed e m o n s t r a t e d 2 t h ep a p e rd e m o n s t r a t e st h et w oi n d e xm e t h o d so f t h ef t r s e a r c hb a s e do n t h ew o r d sl i s t i sv e r y s i m p l ei nt h ei m p l e m e n t a t i o no ft h ea l g o r i t h mw i t h o u t d i v i d i n gt h ew o r d sa n di ti su s e dw i d e l y b e c a u s eo fc o n s i d e r a b l es t o r a g es p a c ea n d l a r g e ri n d e xd a t a b a s e h i g h e rr a t ei nt h ef l l l ls e a r c h i n ga n dt h el o w e rr a t ei nt h e e x a c ts e a r c h i n g t h ea r t i c l ed e m o n s t r a t e san e wr e t r i e v a lm e t h o db a s e do nt h ep h r a s e l i s t 3 c h i n e s ew o r d sd i v i d e ds y n c o p a t i o nt e c h n o l o g yi st h ed i f f i c u l t yo ft h e q u e r yt e c h n i q u eb a s e do np h r a s e s o m ed i v i d e ds y n c o p a t i o ns u c ha sm e c h a n i c a l m a t c h i n gm e t h o d f e a t u r ep h r a s el i b r a r ym e t h o d r e s t r i c t i o nm a t r i xm e t h o d s y n t a x a n a l y s i sm e t h o da n dc o m p r e h e n d e ds y n c o p a t i o nm e t h o da r ee m p h a s i z e d t h em m m e t h o di se a s yt or e a l i z ea n dt h ef o u n d a t i o no fo t h e rm e t h o d s a n di si n t r o d u c e d e m p h a t i c a l l y 4 n l ea r t i c l ep u r p o s et h eh y b r i dm o d e l i n gb a s e do nc h a r a c t e r w o r da n d p h r a s ea st h ec h i n e s ef t ru s i n gm mm e t h o d t or e d u c ed ed i v e r g e n td i v i d e d s y n c o p a t i o na ni m p r o v e dm m m e t h o di sp m m p t e d 5 t h er e t r i e v a ls y s t e ma d o p t i n gt h ea l g o r i t h mc o u l ds e a r c hf o rw b r l dw i d e w e b p a g e si ns c h 0 0 1 t h es e a r c he n g i n e sc o u l db ec l a s s i f i e df r o n ts e a r c h i n ge n g i n e s a n dm e t as e a r c h i n ge n g i n e s t h em e t ao n eg e tw 曲d o c u m e n t t h e ns l i c et h ew o r d i i e s t a b l i s ha n du p d a t ei n d e x t h ef r o n to n ee x t r a c tt h ec o n t e n to f t h ei n d e xl i b r a r y p r o v i d et h eu s e r sq u e r ys e r v i c e i tu s e sn e t w o r ks p i d e rt os c a n n i n g a l lh t m l d o c u m e n t sa n df i n do u tt h ep a g e sw h i c hi su s e f u l t h e ni tu s e st h ei d e ao fv e c t o r s p a c em o d e l v s m t op i c ku pt h er e s u l t k e y w o r d s f u l lt e x tr e t r i e v a l i n v e r t e df i l e s d i v i d e ds y n c o p a t i o n s e a r c h e n g i n e s v e c t o rs p a c em o d 碩士學(xué)位論文 m a s t e r s t t t e s s 第一章序言 2 0 世紀(jì)9 0 年代 信息技術(shù)突飛猛進(jìn) i n t e m e t i n t r a n e t 席卷全球 產(chǎn)生了 大量的文本 聲音 圖像 數(shù)據(jù)庫等各種形式的電子信息資源 隨著大容量的 存儲介質(zhì)技術(shù)與館藏信息數(shù)字化的發(fā)展 各種形式的電子資源經(jīng)過收集 加 就可以通過網(wǎng)絡(luò)提供遠(yuǎn)程的存取 實(shí)現(xiàn)資源的管理與共享 面對越來越多的信 息 迫切需要一個高效的檢索系統(tǒng) 以便對這些信息進(jìn)行整理和加 1 1 信息檢索的發(fā)展過程 縱觀計算機(jī)信息檢索系統(tǒng)的發(fā)展 可以將其發(fā)展過程劃分為三個階段 第一階段 1 9 7 1 年以前建立的許多信息檢索系統(tǒng) 其 工作方式是傳統(tǒng)的批 處理檢索方式 這一階段的數(shù)據(jù)存取與數(shù)據(jù)通信能力都比較差 第二階段 1 9 7 1 年以后 產(chǎn)生并發(fā)展了聯(lián)機(jī)情報檢索系統(tǒng) 如o c i c d i a l o g 在線數(shù)據(jù)庫聯(lián)機(jī)檢索系統(tǒng) 這 一階段的特點(diǎn)是聯(lián)機(jī)數(shù)據(jù)庫集中管理 總 有完備的數(shù)據(jù)庫聯(lián)機(jī)檢索功能 但其數(shù)據(jù)通信能力較差 第三階段 以i n t e m e t 的出現(xiàn)為標(biāo)志 系統(tǒng)大多采用分布式的剛絡(luò)化管罵1 其信息資源的主要特點(diǎn)是 數(shù)字形式表達(dá) 多媒體和多載體 內(nèi)容覆蓋全社會領(lǐng) 域 分布無序 難于規(guī)范化和結(jié)構(gòu)化 內(nèi)容特征抽取復(fù)雜 用戶界面要求高等 這些特點(diǎn)導(dǎo)致了信息處理從傳統(tǒng)模式向新型模式的轉(zhuǎn)變 知體系結(jié)構(gòu)從終端董 機(jī)方式到客戶 j 7 務(wù)器結(jié)構(gòu)方式 網(wǎng)絡(luò)環(huán)境從局域網(wǎng)到i n t e r n e t 等開放網(wǎng) 應(yīng)劇 接口從封閉界面到w w w 等 信息結(jié)構(gòu)從結(jié)構(gòu)化到非結(jié)構(gòu)化 系統(tǒng)功能從尊 純信息檢索到綜合信息管理和服務(wù)等等 這些變化必將促使信息檢索技術(shù)的研 究和不斷發(fā)展 以滿足人們對提高信息利用能力的需要 全文檢索是信息檢索發(fā)展的最前沿和目前的最高階段 1 2 全文檢索技術(shù)的發(fā)展 全文檢索 f u l l t e x tr e t r i e v a l 是指以全文本信息為主要檢索對象 允許垌 戶以自然語言根據(jù)資料內(nèi)容而不是外在特征來實(shí)現(xiàn)檢索的先進(jìn)查詢手段 文 海撈針 是對全文檢索的形象描述 全面 準(zhǔn)確和快速是衡量全文檢索系統(tǒng)的 關(guān)鍵指標(biāo) 全文檢索技術(shù)的出現(xiàn) 導(dǎo)致了信息檢索領(lǐng)域的一場革命 比起傳統(tǒng) 碩士學(xué)位論文 m a s t e r st h e s i s 的標(biāo)引檢索來 全文檢索技術(shù)提供了全新的 強(qiáng)大的檢索功能 是發(fā)現(xiàn)信息 分析和過濾信息 信息代理 信息安全控制等應(yīng)用的主要技術(shù)基礎(chǔ) 以全文檢 索為核心技術(shù)的搜索引擎已經(jīng)成為網(wǎng)絡(luò)時代的主流技術(shù)之一 在全文檢索研究 領(lǐng)域中 基于概念 超文本信息檢索最為活躍 并已取得了突破性進(jìn)展 1 2 1 基于概念的信息檢索技術(shù) 基于概念的信息檢索是指通過對文獻(xiàn)中的原文信息進(jìn)行語義上的自然語 言處理 析取各種概念信息 并由此形成一個知識庫 然后 根據(jù)對用戶提問 的理解 檢索知識庫中的相關(guān)信息 以提供直接的回答 概念信息檢索有以下幾個特性 l 具有分析和理解自然語言的能力 可以對輸入的原文根據(jù)其概念內(nèi)容 進(jìn)行組織和安排 以析取相關(guān)的概念信息和范疇知識 然后 通過記憶機(jī)制將 它們存儲到知識庫中 以備檢索用 2 記憶機(jī)制能夠自動補(bǔ)充與更新 3 具有用自然語言回答用戶提問的能力 概念信息檢索技術(shù)的上述特性 使系統(tǒng)的查全率和查準(zhǔn)率都得到提高 w e b 上的e x c i t e 搜索引擎就是采用概念信息檢索理論設(shè)計的數(shù)據(jù)庫 在e x c i t e 搜索引擎輸入檢索詞 e l d e r l yp e o p l ef i n a n c i a lc o n c e r n s 系統(tǒng)可將含有 e c o n o m i cs t a t u so fr e t i r e dp e o p l e 和 t h ef i n a n c i a lc o n c e m so f s e n i o rc i t i z e n s 等與檢索詞概念一致的信息作為返回結(jié)果 可見系統(tǒng)自動將 e l d e r l yp e o p l e 與 r e t i r e dp e o p l e 和 s e n i o rc i t i z e n s f i n a n c i a lc o n c e l t i s 與 e c o n o m i cs t a t u s 進(jìn)行了概念匹配 由于基于概念的信息檢索技術(shù)具備了智能檢索的一些特性 其系統(tǒng)分析和理解原文內(nèi)容及用戶提問信息的能力較強(qiáng) 因此 備受檢索用戶 的青睞 1 2 2 超文本信息檢索技術(shù) 超文本信息檢索技術(shù)是以超文本網(wǎng)絡(luò)為基礎(chǔ)的文獻(xiàn)檢索技術(shù) 超文本信息 組織的特點(diǎn)是正文信息以節(jié)點(diǎn)而不是以字符串作為信息的基本單元 節(jié)點(diǎn)間通 過鏈進(jìn)行連接 在檢索文獻(xiàn)時 其檢索技術(shù)應(yīng)能滿足節(jié)點(diǎn)間的多種鏈接關(guān)系可 以動態(tài)地選擇性激發(fā) 根據(jù)思維聯(lián)想或新信息的需要 通過鏈從一個節(jié)點(diǎn)到另 一個節(jié)點(diǎn) i n t e r a c t 上的搜索引擎代表了超文本信息檢索技術(shù)的發(fā)展水平 網(wǎng) 2 碩士學(xué)位論文 m a s t e r s r h e s l s 上建立和運(yùn)行的多個基于超文本信息的全文檢索系統(tǒng)如 a 1 t a v i s t a y a h o o l y c o s i n f o s e e k 等著名引擎 不僅檢索速度快 還普遍實(shí)現(xiàn)了自動分類 自動 摘要 自動索引等功能 使w e b 信息得到有效的組織 極大地方便了用戶對 i n t e r n e t 信息的查找和利用 123 基于內(nèi)容的多媒體檢索技術(shù)的發(fā)展 多媒體信息檢索是指對圖形 圖像 文本 聲音 動畫等多媒體信息進(jìn)行 檢索的過程 目前 一種被稱為基于圖像內(nèi)容檢索 c o n t e n tb a s e di m a g e r e t r i e v a l c b i r 的多媒體檢索技術(shù)正在成為國際上眾多公司 大學(xué)和研究機(jī) 構(gòu)的研究熱點(diǎn) c b i r 技術(shù)是隨著大量多媒體信息的出現(xiàn)而產(chǎn)生 是解決多媒 體信息檢索的有效途徑 傳統(tǒng)的數(shù)據(jù)庫檢索是采用基于關(guān)鍵詞的檢索方式 甲 期的圖像數(shù)據(jù)庫如k o d a kp i c t u r ee x c h a n g es y s t e m k p x t h ep r e s si i n kl i b r a r y 和t h et i m ea r c h i v ec o l l e c t i o n 沿襲了這種檢索方式 采用描述性文本進(jìn)行檢索 由于圖像和視頻信息的內(nèi)容具有豐富的內(nèi)涵 在許多情況下僅用幾個關(guān)鍵詞難 以充分描述 而且作為關(guān)鍵詞的圖像特征的選取也有很大的主觀性 岡此 這種 傳統(tǒng)檢索技術(shù)有很大的局限性 于是 基于內(nèi)容檢索技術(shù)應(yīng)運(yùn)而生 它區(qū)別r 傳統(tǒng)的檢索手段 融合了圖像理解技術(shù) 從而可以提供一種從巨容的圖像 視頻 庫中 根據(jù)人們提出的要求進(jìn)行有效檢索的方法 根據(jù)所處理的對琢 c b l r 可分為靜j 卜圖像檢索和視頻檢索兩種 與傳統(tǒng)的檢索方式相比較 c b i r 具有以下特點(diǎn) l 利用反映圖像 視頻內(nèi)容的特征來進(jìn)行檢索 2 是相似度檢索 即根據(jù)庫中各個被檢索單元 圖像或鏡頭 與檢索要求的 相似性程度而返回檢索結(jié)果 3 除了利用反應(yīng)圖像 視頻內(nèi)容的特征來進(jìn)行特征檢索外 還提供廠多種 其它檢索手段 如可通過提供樣本圖像進(jìn)行相似性檢索 也可通過人機(jī)交互進(jìn) 行瀏覽檢索等 在現(xiàn)有的系統(tǒng)中 i b m 的q b i c q u e r yb yi m a g ec o n t e n t 系統(tǒng)i 可以說是第 一個真正的功能齊全的c b i r 系統(tǒng) 它對c b i r 技術(shù)的發(fā)展也產(chǎn)生了深遠(yuǎn)的影 響 q b i c 系統(tǒng)提供了對靜止圖像和視頻信號的檢索手段 在靜止圖像檢索中 提供了顏色 紋理 草圖 形狀 多物體等多種檢索方法 并提供了根據(jù)樣本 1 圖像進(jìn)行相似性檢索的方法 在視頻檢索中 包括了分鏡頭檢測 主運(yùn)動估計 建立層描述 通過拼接完成代表幀生成等多種視頻處理手段 并在此基礎(chǔ)上提 供了通過物體運(yùn)動 攝像機(jī)運(yùn)動的附加視頻檢索手段 由加州大學(xué)圣地亞哥分校開發(fā)的v i r a g e 系統(tǒng)在美國市場上目前是最暢銷 的c b i r 系統(tǒng) v i r a g e 系統(tǒng)提供了將多種檢索特征相融合的手段 用戶可以定 義各檢索特征在檢索中的權(quán)重 從而可報據(jù)自己的需要控制檢索方向 v i r a g e 系統(tǒng)還提供了瀏覽檢索手段 系統(tǒng)首先從圖像庫中隨機(jī)選取一組圖像 供用 戶從中選擇與檢索要求接近的圖像 若這些隨機(jī)圖像中沒有滿足要求的 用戶 可要求系統(tǒng)重新選取 直到圖像組中有與檢索要求相近者 基于內(nèi)容的多媒體信息檢索技術(shù)有著廣闊的應(yīng)用前景 它可廣泛用于電子 會議 遠(yuǎn)程教學(xué) 遠(yuǎn)程醫(yī)療 電子圖書館 軍事指揮系統(tǒng)等方面 大容量圖像 數(shù)據(jù)庫的檢索是其主要應(yīng)用方向 作為一種新興的技術(shù) c b i r 目前還處于初 級階段 只能利用一些相對簡單的特征來檢索 但隨著研究的不斷深入和發(fā)展 其功能也會越來越強(qiáng)大 將成為未來信息社會中不可缺少的技術(shù)和工具 1 2 4 數(shù)據(jù)挖掘技術(shù)的發(fā)展 數(shù)據(jù)挖掘 d a t a m i n i n g 就是從大量的 不完全的 模糊的 隨機(jī)的數(shù)據(jù)中 提取隱含在其中的 人們事先不知道的 但又是潛在有用的信息和知識的過程 數(shù)據(jù)挖掘是近年來在信息檢索技術(shù)基礎(chǔ)上發(fā)展起來的一門技術(shù) 是信息檢索技 術(shù)的一個重要分支 還有很多和這一術(shù)語相近似的術(shù)語 如從數(shù)據(jù)庫中發(fā)現(xiàn)知 識 k d d 數(shù)據(jù)分析 數(shù)據(jù)融合 d a t af u s i o n 等 特別要指出的是 數(shù)據(jù)挖掘技 術(shù)不僅是面向特定的數(shù)據(jù)庫的簡單檢索查詢調(diào)用 而且要對這些數(shù)據(jù)進(jìn)行微 觀 中觀乃至宏觀的統(tǒng)計 分析 綜合和推理 企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián) 以指導(dǎo)實(shí)際問題的求解 甚至利用已有的數(shù)據(jù)對未來的活動進(jìn)行預(yù)測 數(shù)據(jù)挖掘 是一門廣義的交叉學(xué)科 它匯集了數(shù)據(jù)庫 人工智能 數(shù)理統(tǒng)計 可視化 并 行計算等多方面的技術(shù) 在信息網(wǎng)絡(luò)化時代 單個的人利用傳統(tǒng)的手段幾乎不 可能處理或閱讀整個信息庫 同時鑒于信息庫中存在著大量無用和冗余的信 息 往往使用戶所尋找的信息量與信息總量相比非常小 因此如何 去粗取精 由表及里 并迅速 準(zhǔn)確以及適量地提供用戶所需信息 同時在一定程度上揭 示信息與信息之間的關(guān)聯(lián)是文本挖掘的主要任務(wù) 4 碩士學(xué)位論文 m a 盯e r s7 e s l s 數(shù)據(jù)挖掘與傳統(tǒng)信息檢索的區(qū)別和聯(lián)系 1 傳統(tǒng)的信息檢索較適合于數(shù)據(jù)類型同構(gòu)的信息庫 但是對于異構(gòu)數(shù)據(jù) 組成的信息庫 例如多媒體等則不擅長 2 傳統(tǒng)的信息檢索需要用戶將要尋找的事件以關(guān)鍵詞的形式較準(zhǔn)確的描 述出來 作為查詢提交給系統(tǒng) 但往往這與人們通常的思維行為模式背道而馳 再有用戶經(jīng)常并不真地知道要什么信息 3 由于字義本身與其概念的延伸不在同一級上 造成利用傳統(tǒng)信息榆索 所尋找的信息可能僅僅是字面本身的信息 但往往人們想要的是這個信息的概 念及相關(guān)的成分 而不僅僅是字面所表達(dá)的信息 4 傳統(tǒng)信息檢索可以被當(dāng)作挖掘的底層工具 換言之 傳統(tǒng)信息檢索關(guān) 注 詞 的處理而信息挖掘則關(guān)心 詞 的本原 o n t o l o g y 5 傳統(tǒng)信息檢索盡管引入布爾運(yùn)算 作為邏輯算子使用戶能夠較準(zhǔn)確地 表達(dá)查詢 但其結(jié)果往往導(dǎo)致或丟失一些信息或產(chǎn)生大量冗余信息 6 傳統(tǒng)信息檢索通常是用戶從信息庫中去找他想要的 而信息挖掘是看 信息庫中到底存在些什么 目前 信息挖掘的研究和開發(fā)以及應(yīng)用還剛剮起步 但已顯示出較好的發(fā)展前景 隨著信息挖掘的應(yīng)用與技術(shù)的成熟 必將成為信 息內(nèi)容服務(wù)業(yè)的主流 以支持 個快速的 新興的i n t e m e t 信啟 服務(wù)市場 13 全文檢索的特點(diǎn) 1 方便靈活的全文存儲和管理功能 對庫的各種操作簡便靈活 易于掌 握 可對庫中的記錄進(jìn)行編輯 修改 裁減 扣 印 編排 樹型多級分類管理 可使系統(tǒng)建庫數(shù)量不限 數(shù)據(jù)容量可以無限大 2 豐富全面的檢索方式 包括支持布爾檢索 與 或 非 異或 位置邏 輯檢索 同段 同旬 相差幾個字以及前后次序有關(guān)等 幾十種檢索方式 全交 檢索系統(tǒng)是一種存儲文獻(xiàn)全文或其主要部分并能提供全文檢索的源數(shù)據(jù)庫 與 書目數(shù)據(jù)庫 事實(shí)數(shù)據(jù)庫相比較 主要檢索特點(diǎn)是 1 包含信息的原始性 庫中信息基本上是未經(jīng)信息加工的原始文本 具有客觀性 2 信息檢索的徹底性 可對文中任何字 詞 句進(jìn)行檢索 還可表示 碩士學(xué)位論文 m a s t e r st h e s i s 檢索詞間的復(fù)雜位置關(guān)系 3 所用檢索語言的自然性 不作標(biāo)引 借助截詞 鄰接等匹配方法 以自然語言檢索所需文獻(xiàn) 4 數(shù)據(jù)相對的穩(wěn)定性 全文數(shù)據(jù)庫數(shù)據(jù)基本上是封閉的 一般不需更 新 5 檢索結(jié)果的準(zhǔn)全性 利用后控制表及檢索技術(shù)可以改善檢索效果 3 系統(tǒng)支持g b 國標(biāo)碼 o b k 大字符集碼 b i g 5 繁體字碼和多語種處理 能力 支持中 日 西 俄及其他東方文字或者圖像輸入和存儲 4 支持多種格式文檔資料和各種多媒體信息的管理和檢索 包括各種格 式化的文檔 w p s t x t c c e d w o r d s t a r 以及h t m l 頁面的超文本鏈接 自動索引格式化的文檔和頁面 書版排版格式 s 2 p s 2 s 7 2 直接入庫 實(shí)現(xiàn) 全文檢索功能 流行的圖像格式 g i f b m p t i f f j p g p c x 和聲音動畫文 件 w a v m i d f l c 的存儲和播放 m i c r o s o f to f f i c e 文件的語音識別 合成 圖形和圖像處理與傳送以及超文本的鏈接處理技術(shù) 圖像 圖形 視頻和音頻 信息的存儲 管理 檢索和播放以及各種文字處理軟件 圖表制作軟件產(chǎn)生的 格式化文件的存儲 管理 檢索和輸出 5 采用數(shù)據(jù)和索引壓縮技術(shù) 以提高系統(tǒng)的查詢效率 降低空間的膨脹率 6 支持結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲 同時實(shí)現(xiàn)數(shù)字型 日期型 定長和變長字符型 文本型 文檔型 如m s w o r d h t w l 等 和多媒體數(shù)據(jù)型 7 系統(tǒng)廣泛的兼容性 支持多種硬件平臺 如小型機(jī) 服務(wù)器 p c 機(jī) 目前流行的硬件平臺有 i b m s u n d e c s g i u n i s y s n c r a l p h a v a x 等 支持多種操作系統(tǒng) 如服務(wù)器上運(yùn)行的u n i x s c o u n i x w i n d o w sn t 客 戶機(jī)上運(yùn)行的w i n d o w s 3 x w i n d o w s 9 5 w i n d o w sn t w e b 瀏覽器 中文全 文檢索系統(tǒng)應(yīng)能支持以上軟 硬件平臺中的絕大部分 以保證用戶在i n t e r n e t 應(yīng)用方面具有優(yōu)勢 同時使信息服務(wù)系統(tǒng)的水平升級和垂直升級簡便易行 8 采用c l i e n t s e r v e r 體系結(jié)構(gòu) 可使系統(tǒng)具有良好的可伸縮性和可選擇 性 在實(shí)際多用戶環(huán)境中可以獲得更高的性能 適合于以網(wǎng)絡(luò)為中心的計算模 式和i n t e r a c t 應(yīng)用 6 1 4 全文檢索所面臨的問題 雖然全文檢索技術(shù)日趨成熟 文獻(xiàn)型的檢索系統(tǒng)的開發(fā)和使用也相當(dāng)廣 泛 一些記錄達(dá)千萬級的大型數(shù)據(jù)庫已經(jīng)使用多時 在索引結(jié)構(gòu) 檢索技術(shù) 查詢性能 詞查 t h e s a u r u s 管理 自動標(biāo)引 自動摘要和自然語言處理等相 關(guān)領(lǐng)域均取得了顯著進(jìn)展 但現(xiàn)在信息檢索的研究和開發(fā)工作也面臨著許多挑 戰(zhàn) 一無所不在的信息檢索 無所不在的信息檢索要求把信息檢索技術(shù)擴(kuò)展到 單面 光盤出版 企業(yè)信息庫 w e b 站點(diǎn) i n t e m e t 搜索引擎 電子商務(wù)和數(shù) 據(jù)倉庫等各個領(lǐng)域 自然語言處理技術(shù) 無論從數(shù)據(jù)挖掘 還是提供更易使用的自然語言查 詢接口方面 中文自然語言處理是關(guān)鍵因素 但是中文自動標(biāo)引在8 0 年代比 較熱烈的研究沒有取得可用的突破性成果 自動摘要和自動分類系統(tǒng)的可用性 仍缺乏實(shí)際證明 機(jī)器翻譯系統(tǒng)仍然是仁者見仁 智者見智 檢索系統(tǒng)的評價 和其他領(lǐng)域一樣 信息檢索技術(shù)的研究和系統(tǒng)開發(fā)需 要科學(xué)的評價 我國8 6 3 計 劃已經(jīng)開始對中文o c r 自動分詞 自動摘要進(jìn) 行統(tǒng)一測試評測 建立檢索系統(tǒng)的評測也十分必要 一多媒體內(nèi)容檢索 我國信息檢索的研究主要是針對 數(shù)據(jù)庫記錄 和 丈 字 對圖像 音頻和視頻信息的基于內(nèi)容的檢索研究需要大大增強(qiáng) 在某些 數(shù)字圖書館軟件系統(tǒng)中已經(jīng)實(shí)現(xiàn)內(nèi)容圖像檢索 針對音頻和視頻信息的檢索存 圈外也取得了很多成果 一i n t e r n e t 搜索引擎 全文檢索技術(shù)是類似于a l t a v i s t a 等搜索引擎的核心支 撐技術(shù) 由于w e b 是以h t m l 作為置標(biāo)語言 因此相關(guān)排序等算法肯定和普 通文本的檢索不同 同時因?yàn)榫W(wǎng)上信息太多 信息不可能被完全覆蓋 對檢索 的要求也首先是查準(zhǔn) 然后是查全 除了文字頁面的搜索引擎外 圖像 音頻 視頻信息的搜索引擎也在發(fā)展中 1 5 全文檢索的方法 目前所研究的全文檢索方法主要有兩種 基于統(tǒng)計的方法和基于知識的方 法 基于統(tǒng)計的方法是利用查詢變量在目標(biāo)對象中的各統(tǒng)計指標(biāo)來描述它們之 碩士學(xué)位論文 m a s t e r st h e s i s 間的相關(guān)度 基于知識的方法要求引入知識庫的信息用以分析查詢變量 從而 檢索出具有一定匹配度的信息 基于統(tǒng)計的方法在信息檢索中的應(yīng)用相當(dāng)普 遍 從簡單的文本搜索到信息挖掘都能發(fā)現(xiàn)它的蹤影 為了優(yōu)化檢索結(jié)果 部 分研究引入遺傳 神經(jīng)網(wǎng)絡(luò)等算法 實(shí)際上 基于知識的方法是在基于統(tǒng)計方 法的基礎(chǔ)上發(fā)展起來的 較為典型的研究為基于內(nèi)容的檢索 尤其在計算機(jī)圖 像和視頻等領(lǐng)域 基于內(nèi)容白q 檢索吸引了大批研究者 其目的是提取對象的特 征 并附以識別特征的知識庫結(jié)構(gòu) 1 6 全文結(jié)構(gòu) 全文整體結(jié)構(gòu)如下 第一章介紹了特點(diǎn)和主要方法 指出了當(dāng)前全文檢索 所面臨的問題 第二章描述了全文檢索技術(shù)中的主要方法之一一字索引 第三 章分析 比較了幾種中文自動分詞方法的特點(diǎn)和區(qū)別 第四章利用前面所述自 動分詞方法實(shí)現(xiàn)基于詞索引表的全文檢索 并提出一種改進(jìn)的機(jī)械匹配法以提 高檢索效率 第五章是全文的重點(diǎn) 在該章中利用全文檢索技術(shù)構(gòu)造了一個適 用于校園網(wǎng)內(nèi)的搜索引擎 第六章對全文作了小結(jié) 8 碩士學(xué)位論文 m a s e r si h e s i s 第二章基于字表的檢索方法 漢字全文檢索系統(tǒng)和西文全文檢索系統(tǒng)相比 在原理和方法上都有相同之 處 首先在計算機(jī)內(nèi)部 無論漢字還是西文都是以字節(jié)形式存儲 兩種技術(shù)的 差別主要是由于漢語本身造成的 與西方文字和文本比較 漢字文本中的詞是 由一個或多個單字構(gòu)成 詞與詞之間無間隔 實(shí)詞和虛詞之間也無問隔 檢索 的基本單元可以是單個漢字 也可以是詞 所以 存在兩種基本的檢索方法 基于字表的檢索方法和基于詞表的檢索方法 下面 我們來討論基于字表的檢 索方法 21 宇表檢索系統(tǒng)基本設(shè)計 21 1 字表的組織 字表法索引庫的主要部分是每個字的字表信 息 字表結(jié)構(gòu)如表21 所示 其中字符i 對應(yīng)的字 表記錄了該字符在源文檔中所出現(xiàn)的位置p i x 位置可以采用字符相對于文檔頭的偏移字符數(shù)表 示 而 1 i 按通常情況采用相對于文檔頭的偏移字 節(jié)數(shù) 這樣可以大大減小位置的數(shù)值大小 有利 r j 進(jìn)一步采用壓縮技術(shù) 建立字表索引時 需要 掃描整個源文檔 對出現(xiàn)的每 個有效字符 計 算其在文檔中出現(xiàn)的位置 并將該位置的值加入 到對應(yīng)的字表巾 212 檢索策略 啊 p j l p l 2 p 1 j 阿 p 2 1 p 2 2 p 2 3 的 i i p i 2 p i 3 中 p i ip j 2 p j 3 索引庫中的個字表記錄了對應(yīng)字符在源文檔中的所有位置信息 考察 個字符串 如兩個字的字符串其中x y x y 表示任意的漢字字符 假設(shè)x 的位置為p 如果字符串在源文檔中出現(xiàn) y 則的位置凡必定等3 r jp 1tj 為兩個漢字間的字符距離 在索引庫中 x 的字表中將包含p 而y 的字表 中也必然包含p 1 進(jìn)行檢索時 掃描x 和y 各自對應(yīng)的字表 若文檔中有 該詞出現(xiàn) 則必定有x 對應(yīng)的字表中存在位置值p x y 對應(yīng)的字表中存在位 9 碩士學(xué)位論文 m a s t e r st h e s i s 置值p y 使得p y p 1 成立 每查到一對這樣的位置值 就是檢索到字串 x y 一次 掃描完兩字的字表 就可檢索出該字符串的所有出現(xiàn) 2 1 3 索引庫結(jié)構(gòu) 字表是索引庫中最主要的部分 在每個漢字字符對應(yīng)的字表中 包含該字 符出現(xiàn)在所有文檔中的全部位置 為了區(qū)分每個位置值屬于哪個文檔 每個字 符的字表被分為多個字表段 每段對應(yīng)一個文檔 記錄該字符在此文檔中的出 現(xiàn)位置 字表采用倒排文件結(jié)構(gòu) 如表2 2 所示 r 二二 二i二 f 文檔編號 字頻 位置序列 l 每個字表段起始部分記錄當(dāng)前文檔的編號 隨后是該字符在文檔中的出現(xiàn) 頻率 最后是該字符在文檔中的所有出現(xiàn)位置序列 每個字符的所有字表段按 文檔編號遞增的順序排列 如果該字符在文檔k 中沒有出現(xiàn) 則不存在文檔k 對應(yīng)的字表段 2 2 索引創(chuàng)建及其優(yōu)化 2 1 2 1 基本的索引創(chuàng)建方法 系統(tǒng)采用的索引創(chuàng)建方法不需要排序 分為如下兩步 第一步分析源文檔 產(chǎn)生臨時的中間文件 我們稱為分析過程 當(dāng)前只處理gb 碼字符 其中包含 全部字符 既有漢字 又有一般的數(shù)字 標(biāo)點(diǎn)符號等 gb 碼第一個字節(jié)的范 圍是0 x a l 0 x f 7 第二個字節(jié)的范圍是0 x a l 0 x f e 漢字從 啊 開始 首 字節(jié)為1 7 6 2 4 7 第二個字節(jié)為1 6 1 2 5 4 根據(jù)這種分布規(guī)律 可以方便地定 位每個字符對應(yīng)的字表信息 源文檔經(jīng)過處理 其包含的每個字符的對應(yīng)信息 寫到一個臨時的中間文件 對于每個字符 其在臨時文件中的對應(yīng)信息包括 該字所出現(xiàn)的當(dāng)前文檔編號 在該文檔中的出現(xiàn)頻率 出現(xiàn)的位置序列和該字 符出現(xiàn)在下一個文檔中的數(shù)據(jù)的指針數(shù)據(jù)在文件中的偏移值 第二步處理臨時 1 0 碩士學(xué)位論文 m a s i 硬 s f i 瑾s i s 文件 依次從臨時文件中讀取每個字符出現(xiàn)在每一篇文章中的數(shù)據(jù)信息 生成 最終的倒排文件 在這里稱為創(chuàng)建過程 生成的最終倒排文件中包含每個字符 出現(xiàn)在所有文檔中的信息 包含 該字符出現(xiàn)的當(dāng)前文檔的編號 出現(xiàn)頻率和 相應(yīng)的位囂序列 處理過程如圖2 1 所示 幽2 l 縈弓i 創(chuàng)建i j i c 欄 222 改進(jìn)后的索引創(chuàng)建方法 在上述方法r h 對于源文件的分析過程本身需要一定的時間 隨著處理數(shù) 據(jù)集規(guī)模的增大 相應(yīng)的分析時間增大 但第二步創(chuàng)建過程所需的時f h j 也迅速 增大 該過程需要大量的隨機(jī)讀取操作來遍歷每個字符對應(yīng)的所有信扈 當(dāng)彭 據(jù)的規(guī)模增大時 遍歷每個字符的臨時數(shù)據(jù)的操作變得很慢 這是由于字符對 應(yīng)的每個字表的數(shù)據(jù)在臨時文件中有一定距離 遍歷需要不斷地移動文件指針 來讀玻這些數(shù)據(jù) 利用操作系統(tǒng)提供的虛擬內(nèi)存技術(shù)可以優(yōu)化索引的創(chuàng)建過程 w i n d o w s 操 作系統(tǒng)用虛擬內(nèi)存來動態(tài)管理運(yùn)行時的交換文件 為了提供比實(shí)際物理內(nèi)存還 多的內(nèi)存容量以供使用 w i n d o w s 操作系統(tǒng)占用了硬盤上的一部分空間作為虛 擬內(nèi)存 當(dāng)c p u 有要求時 首先會讀取內(nèi)存中的資料 當(dāng)內(nèi)存容量不夠用時 w i n d o w s 就會將需要暫時儲存的數(shù)據(jù)寫入硬盤 內(nèi)存映射文件技術(shù)是w i n d o w s 碩士學(xué)位論文 m a s t e r st h e s i s n t 提供的一種新的文件數(shù)據(jù)存取機(jī)制 利用內(nèi)存映射文件技術(shù) 系統(tǒng)可以在 2 g b 的地址空間中為文件保留一部分空間 并將文件映射到這塊保留空間 一 旦文件被映射之后 w m d o w sn t 將仔細(xì)管理頁映射 緩沖以及高速緩沖等任 務(wù) 通過把臨時文件映射到虛擬內(nèi)存中 可以大大加快對臨時文件的訪問速度 對于較小的源數(shù)據(jù)集 分析處理后生成的臨時文件也較小 使用內(nèi)存映射 文件可以大大加快創(chuàng)建過程 但當(dāng)數(shù)據(jù)規(guī)模增大時 該方法的性能迅速降低 甚至比沒有使用內(nèi)存映射文件都差 性能的降低一方面由于機(jī)器有限的內(nèi)存 其小于臨時文件的大小 另外一方面 同一個字符相鄰的數(shù)據(jù)在臨時文件中距 離過大 導(dǎo)致大量的缺頁中斷 系統(tǒng)性能大大降低 解決該問題的有效方法是 把原有的單個的大的中間文件分成多個小的臨時文件 在分析過程中生成多個 小的臨時文件 創(chuàng)建過程依次處理每個臨時文件 將其映射到虛擬內(nèi)存中 可 以充分利用直接內(nèi)存訪問的速度 并且減少缺頁中斷 2 3 索引的壓縮技術(shù) 2 3 1 索引的壓縮與查詢分析 由于全文檢索系統(tǒng)通常處理的都是海量數(shù)據(jù) 經(jīng)過處理生成的索引數(shù)據(jù)也 是很大的 因此采用一定的壓縮策略 可以節(jié)約存儲空間 另外 全文檢索系 統(tǒng)執(zhí)行檢索時 通常需要讀取 定的索引數(shù)據(jù) 采用壓縮技術(shù) 可以減少讀取 數(shù)據(jù)所需的時間 從而有可能提高檢索速度 在研究索引i o 壓縮技術(shù)時 一 方面希望能夠減少索引數(shù)據(jù)占用的磁盤空間 但同時不能降低檢索速度 否則 系統(tǒng)的性能就會下降 假設(shè)t r 為檢索時讀取未壓縮索引數(shù)據(jù)所需的i o 時間 t c 為內(nèi)存中實(shí)際 匹配和查找時間 則針對未壓縮索引數(shù)據(jù)執(zhí)行檢索所需的總時間t 可以表示 為 t 2t r t c 1 對壓縮索引數(shù)據(jù)執(zhí)行檢索所需的總時間t 可以表示為 t w t d t c 2 其中 t r 為檢索時讀取壓縮索引數(shù)據(jù)所需的i o 時間 t d 為解壓縮時間 碩士學(xué)位論文 m a s i e r s7 r l e s i s 在檢索中 一般情況下讀入的部分壓縮數(shù)據(jù)需要解壓縮 然后進(jìn)行匹配和 奄找 最壞的情況下 所有讀入的壓縮數(shù)據(jù)都需要解壓 因此會使用更多的時 間 合理的壓縮技術(shù)應(yīng)該保證檢索壓縮索引數(shù)據(jù)時讀取索引數(shù)據(jù)的時間和對索 引數(shù)據(jù)解壓縮的時間總和不大于檢索未壓縮數(shù)據(jù)時讀取索引數(shù)據(jù)所需的時間 即 t t f 3 1 t r t d t rr 4 23 2 壓縮方法 在來壓縮的索引文件中 文檔編號占用4 b 字頻占用2 b 每個位置值占 用2 b 在字表中源文檔的編號是按遞增的順序排列的 可以采用運(yùn)行長度編 碼的方法表示文檔編號 對于任何文檔編號 只記錄其相對于前一個 艾檔編號 的偏移值 同樣 某個字符在一篇文章中的所有出現(xiàn)位置必然是按升序排列的 也可以采用這種方法進(jìn)行編碼 對每一出現(xiàn)位置記錄其相對于前一個出現(xiàn)位囂 的相對偏移值 采用差值編碼 可咀減小數(shù)值的范圍 以便于列這些差值進(jìn) 步采用短的長度表示 采用字節(jié)對齊的方法壓縮索引 對于 個給定的正整數(shù) 可以用1 個或多 個字節(jié)表示 表示該數(shù)的首字節(jié)的最左邊兩位為標(biāo)志位 指示該數(shù)值共占用幾 個字節(jié) 剩余位可以用來存儲實(shí)際的數(shù) 即l 4 b 可以分別罔6 1 4 2 2 3 0 b 來保存實(shí)際的數(shù) 經(jīng)過壓縮 每個文檔編號就不必一定要占用4 b tl 女1 i 文 檔編號為8 0 用該方法表示為二進(jìn)制位串 0 1 0 0 0 0 0 00 1 0 1 0 0 0 0 只需要2 b 對于字頻和位置值 一般較小 不會大于3 2 7 6 8 所以可以采用一位做標(biāo)志位 指示該數(shù)占用 b 或2 b 2 4 小結(jié) 本章在分析實(shí)際需求和現(xiàn)有技術(shù)的基礎(chǔ)上 研究了字表法全文檢索中索引 的創(chuàng)建優(yōu)化及壓縮技術(shù) 使用虛擬內(nèi)存技術(shù)可以火大提高索引的創(chuàng)建時閭 索 引的壓縮技術(shù)可以減少索引文件所占用的磁盤空間 也可以提高檢索的速度 但解壓也有一定的代價 檢索速度因此降低 第三章漢語自動分詞方法 相對于單字索引 詞表法適用于大規(guī)模應(yīng)用 索引庫可以組織得比較小 檢索速度比較快 而且還可以實(shí)現(xiàn)同義詞 反義詞的概念檢索 但其難點(diǎn)在于 中文自動分詞及分詞中歧義的處理 下面我們通過介紹幾種主要的分詞方法 并討論在分詞中如何進(jìn)行歧義處理 3 1 機(jī)械匹配法 機(jī)械匹配法的基本思想是 事先建立一詞庫 其中包含所有可能出現(xiàn)的詞 對給定的待分詞的漢字串s 按照某種確定的原則切取s 的子串 若該子串與 詞庫中的某詞條相匹配 則該子串是詞 繼續(xù)分割剩余的部分 直到剩余部分 為空 否則 該子串不是詞 轉(zhuǎn)上重新切取s 的子串進(jìn)行匹配 機(jī)械匹配法的數(shù)據(jù)結(jié)構(gòu)較為簡單 一般來說 詞庫可分為基本詞庫和專業(yè) 詞庫 為了提高查找匹配效率 它們又可細(xì)分為單字詞庫 雙字詞庫 三字詞 庫 四字詞庫和多字詞庫等 對機(jī)械匹配法 每個詞庫中的詞條都非常簡單 只需記錄詞的內(nèi)部表示 而不必附帶其他信息 詞庫可根據(jù)內(nèi)部表示的大小組 織成一個有序表 這樣便于用二分法進(jìn)行匹配查找 但是 由于整個詞庫一般 較大 無法一次調(diào)入內(nèi)存 結(jié)果 一次匹配查找往往需要多次訪問外存 執(zhí)行 速度不一定十分理想 對此 一種改進(jìn)的方法是 按照某種確定的原則f 如詞 的首字 將整個詞庫分成若干個子詞庫 使每個詞庫均可一次調(diào)入內(nèi)存 而每 個子詞庫均按內(nèi)部表示的大小組織成一個有序表 這樣 執(zhí)行一次匹配查找時 首先確定待查串可能屬于哪個子詞庫 然后把那個子詞庫調(diào)入內(nèi)存按二分法進(jìn) 行查找 如果相同子詞庫中詞的內(nèi)部表示長度不一 那么 標(biāo)準(zhǔn)二分法還必須 加以修改 總之 詞庫的設(shè)計應(yīng)以既省空間又能快速執(zhí)行匹配查找為目標(biāo) 詞庫的建立是機(jī)械匹配法成敗之關(guān)鍵 這里一個重要的問題是 到底哪些 詞該收入詞庫 哪些不應(yīng)收入詞庫 詞庫小了也許不夠用 詞庫大了既費(fèi)空間 又費(fèi)查找時間 甚至造成大量的歧義切分 一般來說 詞庫的好壞可通過兩個 參數(shù)來衡量 即覆蓋率和利用率 覆蓋率是指詞庫中出現(xiàn)在待切分語料中的詞 的數(shù)量與待切分語料的實(shí)際含詞量之比 而利用率是指詞庫中出現(xiàn)在待切分語 1 4 碩士學(xué)位論文 m a s 旺i t sn i e s i s 料中的詞的數(shù)量與詞庫含詞量之比 這兩個參數(shù)都依賴于詞庫和待切分的語 料 并且兩者相互制約 為了獲得高的覆蓋率和高的利用率 一般采用基本詞 庫加專業(yè)詞庫的做法 其中 基本詞庫中收集那些與語料無關(guān)的常用詞匯而專 業(yè)詞庫則根據(jù)語料所屬專業(yè)來選取 即使這樣 也不能保證詞庫中確實(shí)含有特 定語料中的所有詞 為了對付這種情況 自動分詞系統(tǒng)應(yīng)該為用戶提供動態(tài)維 護(hù) 包括擴(kuò)充 詞庫的功能 31 1 最大匹配法和最小匹配法 根據(jù)字串切取的策略 機(jī)械匹配法分為最大匹配法和最小匹配法 根據(jù)匹 配不成功時重新切取的策略 機(jī)械匹配法又分為增字法和減字法 增字法般 與雖小匹配法相結(jié)合 減字法一般與最大匹配法相結(jié)合 最大匹配法的基本思想是 假設(shè)詞表中最長的詞由i 個字組成 則每次從 句予頭上截取一個長度為i 的字串 令它同詞表中的詞條依次匹配 如果同表 中的卻有這樣的一個i 字詞 匹配成功 就把這個字串作為一個詞從句子頭上 切分出去 然后再從句子余f 的頭上截取另一個i 字字串 重復(fù)上述過程 鼠 到句予被切分完為止 如果在詞表中找不到一個詞條能與當(dāng)前字串匹配 就從 浚字串的串尾減去一個字 用i l 字長的字串到詞表中去查找 若匹配成功同 樣把該字串作為一個詞切分出去 若匹配失敗 從該字串串尾再減去一個字 用i 一2 宇氏的字串去匹配詞表 贏到匹配成功 最小匹配法的方法和最大匹配法相反 它是按詞表中最短長度的1 個寧 般為j 1 從句子頭開始截取字串與詞表中的詞條進(jìn)行匹配 若匹配成功 就 把這個寧串作為一個詞從句子頭上切分出去 然后再從句子余下的頭上截取另 個j 字字串 重復(fù)上述過程 直到句子被切分完為止 若匹配失敗 則將字 串串尾加一個字 得到j(luò) 1 字長的字串 與詞表中的詞條匹配 若匹配成功同 樣把該字串作為一個詞切分出去 若匹配失敗 則繼續(xù)在串尾加一個字 用汁 字串l j 詞表匹配 直到匹配成功 例1 輸入句子 中華人民共和國成立了 假設(shè)詞表中有 中華人民共和 國 成立 了 中華 人民 共和國 中 華 人 民 共和 困 共 和 等詞 詞表中最長的詞是7 個字 i 7 最短的 詞是1 個字 i 1 1s 碩士學(xué)位論文 m u s t e r st 王e s i s 若使用最大匹配法 第一次從旬首截取的7 字字串 中華人民共和國 就 匹配成功 句子余下的部分為3 字字串 成立了 詞表中沒有這樣的3 字詞 字串截尾的新串 成立 匹配成功 句子余下部分 了 也匹配成功 于是 句子被切分為 中華人民共和國 成立 了 若使用最小匹配法 第一次從句首截取 中 匹配成功 接著截取 華 匹配成功 繼續(xù)切分句子余下的部分 最終句子被切分為 中 華 人 民供 和 國 成立 了 例2 輸入句子 有個人叫張夢云 運(yùn)用最大匹配法得到的結(jié)果為 有 個人 n q 張夢云 撮小匹配法的結(jié)果為 有 個 人 q 張夢云 可見 最小匹配法的原則是 短詞優(yōu)先 即認(rèn)為對于同一個句子來說 切分的詞最短時是最佳切分結(jié)果 而最大匹配法的原則是 長詞優(yōu)先 即認(rèn) 為對于同一個句子來說 切分的詞數(shù)最少時是最佳切分結(jié)果 由于大多數(shù)漢字 均可構(gòu)成單字詞 所以按最小匹配法分詞的結(jié)果往往因分得太細(xì)而不合要求 如例1 反之 雖然最大匹配法的評估原則在大多數(shù)情況下是合理的 但當(dāng) 長詞覆蓋短詞時 也會引起切

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論