版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、(完整word版)中文智能搜索引擎中文智能搜索引擎龍其072349(完整word版)中文智能搜索引擎摘要飛速發(fā)展的Internet給用戶提供了海量的信息資源,導(dǎo)致用戶從爆炸性增長的信息中迅速獲得需要的信息變得越來越困難。為了幫助用戶快速準(zhǔn)確地檢索到所需的網(wǎng)絡(luò)信息,網(wǎng)絡(luò)搜索引擎的研究與開發(fā)已經(jīng)成為當(dāng)今網(wǎng)絡(luò)信息檢索的熱點(diǎn)。本文通過搜索引擎概述及原理介紹中文智能搜索引擎,從中文分詞技術(shù);詞性標(biāo)注及詞義分析;分類器設(shè)計檢索模型;PageRank排序技術(shù);研究現(xiàn)狀和發(fā)展趨勢等內(nèi)容對中文智能搜索引擎進(jìn)行介紹。搜索引擎概述及原理搜索引擎是以Web頁面為檢索文檔的信息檢索系統(tǒng),它的核心就是信息檢索技術(shù)。廣義地
2、說,搜索引擎就是指在指互聯(lián)網(wǎng)上能夠響應(yīng)用戶提交的搜索請求,返回相應(yīng)的查詢結(jié)果信息的技術(shù)和系統(tǒng)。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的。搜索引擎并不是真正地搜索互聯(lián)網(wǎng),它搜索的是預(yù)先整理好的網(wǎng)頁索引數(shù)據(jù)庫。一般來說,搜索引擎得原理可以看做三步:從互聯(lián)網(wǎng)中抓取網(wǎng)頁;建立索引數(shù)據(jù)庫;在索引數(shù)據(jù)庫中進(jìn)行搜索排序.互聯(lián)網(wǎng)中抓取網(wǎng)頁:通過網(wǎng)頁搜索工具Spider(蜘蛛)或Robot(機(jī)器人)等自動訪問互聯(lián)網(wǎng),沿著URL搜索,并把搜索到的信息帶回搜索引擎。建立索引數(shù)據(jù)庫:通過對收集的網(wǎng)頁信息進(jìn)行分析,把這些相關(guān)信息進(jìn)行分類
3、索引建立索引數(shù)據(jù)庫。在索引數(shù)據(jù)庫中進(jìn)行搜索排序:通過Web服務(wù)端軟件,獲得用戶輸入關(guān)鍵詞后,有搜索程序從網(wǎng)頁數(shù)據(jù)庫中找到符合該關(guān)鍵詞的相關(guān)網(wǎng)頁。為用戶提供瀏覽界面下的查詢信息。中文智能搜索引擎中文搜索引擎中文搜索引擎是指以Interent網(wǎng)絡(luò)上的中文信息為主要對象,提供信息的自動收集、自動過濾、自動索引中和檢索導(dǎo)航等服務(wù)的搜索引擎.中文Internet搜索引擎的最關(guān)鍵組件是能夠在海量中英文數(shù)據(jù)上進(jìn)行高效全文檢索的信息管理系統(tǒng)。中文搜索引擎的機(jī)制同英文搜索引擎大致相同,不同的是多了中文語言的處理技術(shù),這主要是中文分詞技術(shù)和漢化技術(shù)。(完整word版)中文智能搜索引擎邏輯上,中文信息搜索引擎與與一
4、般搜索引擎一樣分為三個部分:網(wǎng)頁搜索引擎,索引引擎和查詢引擎.智能搜索引擎?zhèn)鹘y(tǒng)搜索引擎局限:傳統(tǒng)搜索引擎主要采用網(wǎng)站分類技術(shù)和全文檢索技術(shù)來實現(xiàn)信息查詢,前者成本高,對網(wǎng)站描述也比較簡單,不能升入網(wǎng)站內(nèi)部細(xì)節(jié)。而后者效率比較低且返回信息過多。傳統(tǒng)搜索引擎所使用的技術(shù)都難以解決用戶“找信息難”的問題,造成這種困難的實質(zhì)在于搜索引擎缺乏知識處理能力和理解能力。因此要把信息檢索從基于關(guān)鍵詞層面提高到基于知識層面。智能搜索引擎,它突破傳統(tǒng)搜索引擎基于要求較精確的關(guān)鍵詞層面信息檢索的局限,發(fā)展到基于以不規(guī)范、不精確的自然形式出現(xiàn)的知識(或概念)層面來分析和處理用戶的查詢提問,具有良好的自然語言理解、知識
5、處理能力,在信息檢索過程中體現(xiàn)出很強(qiáng)的智能化與人性化優(yōu)勢.中文智能搜索引擎采用智能搜索引擎得方法實現(xiàn)對中文信息的檢索。中文智能搜索引擎可以自動分析中文網(wǎng)頁,進(jìn)行自動分詞處理,并自動提取關(guān)鍵詞,建立一關(guān)鍵詞為基礎(chǔ)的查詢數(shù)據(jù)庫,降低了系統(tǒng)開銷,大大提高了查詢效率.它通過充分考慮中文語句的表達(dá)結(jié)構(gòu)以及“口語化的提問,智能化的結(jié)果”來滿足用戶的各種查詢需求。中文智能搜索引擎功能結(jié)構(gòu)圖大致如下:中文智能搜索引擎功能結(jié)構(gòu)中文智能信息系統(tǒng)包含了許多中文信息處理的關(guān)鍵技術(shù)如:中文分詞技術(shù),詞性標(biāo)記,文本分類等。利用這些中文信息處理技術(shù),來提高系統(tǒng)搜索的效率,查詢結(jié)果的準(zhǔn)確性等。中文分詞技術(shù)1.自動分詞分詞就是
6、把一個句子按照其中詞的含義進(jìn)行切分,由于中文文本在書寫表達(dá)或計算機(jī)內(nèi)部表示時,字與字之間、詞與詞之間沒有明確的切分標(biāo)志。此外,漢語詞序的靈活性,語法限制簡單及歧義現(xiàn)象等都給中文的自動分詞造成了極大的困難。2.自動分詞的過程指的是從信息處理需要出發(fā),按照特定的規(guī)范,對漢語按照分詞單位進(jìn)行劃分的過程.分詞單位指漢語信息處理使用的、具有確定語義或語法功能的基本單位,包括詞和詞組。詞是最小能獨(dú)立運(yùn)用的基本單位,兩個或兩個以上的詞按一定語法規(guī)則組成表達(dá)一定意義的語言單位即詞組。3.分詞詞典為實現(xiàn)及其自動分詞,需要有經(jīng)過語言專家精心挑選的詞匯組成的現(xiàn)有詞典,然后才能研究如何根據(jù)已有的分詞詞典實現(xiàn)文本的切分
7、。通常分詞詞典的設(shè)計與分詞算法相關(guān),在基于詞典的分詞算法中,分詞詞典數(shù)據(jù)結(jié)構(gòu)的設(shè)計很關(guān)鍵,將影響到分詞算法的性能。為構(gòu)建一個高效的分詞詞典,可以考慮以下三個方面:分詞詞典對詞的查詢速度:這直接決定匹配算法效率的高低。分詞詞典的存儲利用率:詞典越小,所需查詢時間也越少。分詞詞典維護(hù)的效能:包括對詞的插入、刪除和更新等操作的難易程度。4.分詞方法現(xiàn)有的中文分詞算法可以分為基于詞典的分詞方法,基于理解的分詞方法以及基于統(tǒng)計的分詞方法三大類,文章就基于詞典的分詞方法總結(jié)一些分詞算法:正向最大匹配算法這是最早提出的自動分詞方法,由蘇聯(lián)學(xué)者在六十年代研究漢俄機(jī)器翻譯時提出,它的基木思想是先取一句話的前若干
8、個字采用二分搜索的方式查詞典,若不是一個詞,則刪除這些字中的最后一個,然后再查詞典,這樣一直查下去直到找到一詞為止,對句子剩余部分重復(fù)此工作,直到把所有詞分出為止。例如:句子“明天會下雨”,設(shè)最大詞長是4,則切分過程是:明天會下明天會明天會下雨會下會下雨逆向最大匹配算法逆向最大匹配算法的基本思想與正向最大匹配算法相同,唯一的區(qū)別是最大匹配的順序不是從首字開始,而是從末尾開始。如上句“明天會下雨”,切分結(jié)果為:天會下雨會下雨下雨明天會天會會明天這兩種方法思想明了,易于機(jī)器實現(xiàn).算法把詞典作為唯一的判斷標(biāo)準(zhǔn),具有一定的主觀性和局限性,而且由于采用的是最大匹配,否定了詞中含詞的語言現(xiàn)象,出錯了較高。
9、但他們都是最基本的方法。(3)鄰近匹配算法正向最大匹配中,對每個不存在的長字符串都要進(jìn)行二分檢索,復(fù)雜度太高。在鄰近匹配算法中,采用首字索引的詞表,利用同一首字下的詞條按升序排列這一條件,找到某個字符串后,(完整word版)中文智能搜索引擎在其后增加一個字得到一個新字串,若新字串在詞典中出項,那么新詞一定在原來字串的后面,且相隔不遠(yuǎn)。這一匹配方法即稱鄰近匹配算法。最短路進(jìn)匹配算法該算法的思想是首先更具詞典,找出字串中的所有可能的詞,然后構(gòu)造詞語切分的有向無環(huán)圖.這樣每個詞對應(yīng)圖中一條有向邊。給每條邊一個權(quán)值。然后針對切分圖求出一條最短路徑。路徑上包含的詞即為該句子的切分結(jié)果.5.分詞技術(shù)的應(yīng)用
10、應(yīng)用領(lǐng)域:漢語自動分詞的研究有重要的理論價值和現(xiàn)實意義,它主要在漢語語言理解;計算機(jī)系統(tǒng)的漢語人機(jī)接口;機(jī)器翻譯;情報檢索;人工智能和知識工程等許多方面都用重要的應(yīng)用。在智能搜索中的應(yīng)用:相對于傳統(tǒng)的全文本搜索,對經(jīng)過分詞處理的文本進(jìn)行搜索,能大大提高搜索的效率和準(zhǔn)確性。文本通過分詞處理后,含有更多的判斷信息.對于搜索引擎來說,最重要的并不是找到所有結(jié)果,因為在上百億的網(wǎng)頁中找到所有結(jié)果沒有太多的意義,沒有人能看得完,最重要的是把最相關(guān)的結(jié)果排在最前面,這也稱為相關(guān)度排序。而中文分詞的準(zhǔn)確與否,常常直接影響到對搜索結(jié)果的相關(guān)度排序,對搜索引擎結(jié)果相關(guān)性和準(zhǔn)確性有相當(dāng)大的關(guān)系。6.分詞中的難題切
11、分歧義歧義是指同樣的一句話,可能有兩種或者更多的切分方法。例如:表面的,因為“表面”和“表面的”都是詞,那么這個短語就可以分成“表面的和“表面的”。由于沒有人的知識去理解,計算機(jī)很難知道到底哪個方案正確。未登錄詞處理未登錄詞即新詞,也就是那些在字典中都沒有收錄過,但又確實能稱為詞的那些詞。最典型的是人名.新詞中除了人名以外,還有機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡稱、省略語等都是很難處理的問題,而且這些又正好是人們經(jīng)常使用的詞,因此對于搜索引擎來說,分詞系統(tǒng)中的新詞識別十分重要。詞性標(biāo)注及詞義分析(完整word版)中文智能搜索引擎對中文文本進(jìn)行詞語切分后,可以利用已有的資源進(jìn)行詞性標(biāo)注及詞義分析,
12、這可以在很大程度上解決語言層面上的知識。在中文智能搜索引擎的應(yīng)應(yīng)用中,詞性標(biāo)注和詞義分析可以說是一個中間任務(wù),同過這兩方面的處理,為基于知識層面的搜索提供了大量可利用的有效信息,對于智能搜索有極大的幫助。1.詞性標(biāo)注數(shù)學(xué)描述:句子W=w,w,對應(yīng)的一個標(biāo)記序列T=t,,t,在二元組(W,T)中每個t和w一一對應(yīng),是inj1njji詞w的所有可能的標(biāo)記中的一個。i在一個給定的W的所有組合中有且只有一個語法學(xué)上正確的TwT|(W,T)與之對應(yīng)。標(biāo)注過程就是對每個句子W,在與之對應(yīng)的各個T中選擇出正確的標(biāo)記序列Tw,即:v:WTT二v(W)。j標(biāo)注模型一般有:兩步模型:當(dāng)前詞w.的詞性t.僅依賴于直
13、接前趨詞w.及其詞性劃分結(jié)果t。iii-1i-1三步模型:當(dāng)前詞w的詞性t僅依賴于直接前趨詞w、w及其詞性劃分結(jié)果t、t.iii1i2i-1i2隱馬爾科夫模型(HMM):HMM是由馬爾可夫過程擴(kuò)充而來的一種隨機(jī)過程,HMM的狀態(tài)本身不可觀察,可觀察的是狀態(tài)的一個概率函數(shù).HMM包含了雙重隨機(jī)過程,一個是系統(tǒng)狀態(tài)變化,及馬爾可夫過程,另一個是由狀態(tài)決定的隨機(jī)過程。基于HMM的詞性標(biāo)注的兩步模型:給定HMM模型入,已知詞串W,求使得條件概率P(T|W,入)值最大的T,記為:T=argmaxP(TIW,九)T運(yùn)用Bayes公式及W給定P(W)不依賴于T得到公式:P(TIW)沁P(T)P(WIT)其中
14、P(T)是詞性序列T的概率:P(T)=Hp(t11)ii-1i=1P(W|T)是已知詞性標(biāo)記串T,產(chǎn)生詞串W的條件概率:P(WIT)=Hp(w11)iii=1綜合以上,得到確定句子最優(yōu)標(biāo)注的等式:T=argmaxHP(wIt)P(tIt)iiii-1Ti=1實現(xiàn)過程:(1)CLAWS算法:采用枚舉的方法自動標(biāo)注時,從輸入文本中順序地截取一個有限長度的詞串,該詞串的首詞和尾詞的詞性是唯一的,這樣的詞串叫做跨段,記為w,w,w,,w,w。其中w和w是非兼類012nn+10n+1詞,w,w,w是n個兼類詞。利用轉(zhuǎn)移概率矩陣提供的數(shù)據(jù)來計算這個跨段中由各個單詞產(chǎn)生的每個12n可能標(biāo)記的概率積,并選擇概
15、率積最大的標(biāo)記串作為最佳路徑,以這個最佳路徑作為結(jié)果輸出.V0LSUNGA算法:采用貪心的方法(完整word版)中文智能搜索引擎沿著從左至右的方向,采用“步步為營的策略,對于當(dāng)前考慮的詞,只保留通往該詞的最佳路徑,舍棄其它路徑,然后再從這個詞出發(fā),將這個路徑同下一個詞的所有標(biāo)記進(jìn)行匹配,繼續(xù)找出最佳的路徑,舍棄其它路徑,步步前進(jìn),直到整個跨段走完,得出整個跨段的最佳路徑作為結(jié)果輸出。(3)Viterbi算法:采用動態(tài)規(guī)劃的方法定義:F(i,j)=maxF(i-1,k)P(wIj)P(jIk)表示前i個單詞的標(biāo)注結(jié)果,且第i個單詞標(biāo)注為詞性jl=k=N1的最大值。其中P(wIj)是單詞w取詞性j
16、的統(tǒng)計概率,即前面提到的P(w11);P(jIk)是詞性k后iiii取詞性j的轉(zhuǎn)移概率,即前面提到的P(t11)。ii-1Viterbi算法有三步,即:(1)初始化;(2)推導(dǎo);(3)終止和輸出。對于算法過程中的浮點(diǎn)溢出。采用對概率取負(fù)對數(shù),將積最大值問題轉(zhuǎn)化為和最小值問題解決.2.詞義分析詞義分析包含關(guān)鍵詞提取,概念排歧,次以表達(dá)等內(nèi)用,通過詞義分析,加深對文本內(nèi)容的理解程度,對于加快搜索引擎得搜索處理有明顯益處。關(guān)鍵詞提取自然語言文本中,一般包含有大量的虛詞詞匯,還有一些常用的實詞。這些詞對于文本的區(qū)分幾乎沒什么作用。一般通過:根據(jù)詞性標(biāo)注的結(jié)果,刪除冠詞、介詞、連接詞等虛詞;建立禁用詞庫
17、,把那些所有類別中均出現(xiàn)頻率較高的詞列入禁用詞庫.概念排歧由于一詞多義普遍存在,概念排歧通過詞在上下文中的位置來確定該詞的概念。詞義表達(dá)一義多詞的現(xiàn)象在文本中也是很普遍的情況,在文本分類中解決好這一問題,有助于搜索結(jié)果召回率的提高。分類器設(shè)計及檢索模型1.文本分類文本分類是將大量文本劃分為一個或一組類別,使得各個類別代表不同的概念主題。文本分類是模式分類和自然語言處理的一個交叉學(xué)科,具有以下特點(diǎn):(1)高位空間特征;(2)特征語義相關(guān);(3)特征存在多義和同義現(xiàn)象;(4)特征分布稀疏(5)基本線性可分文本分類的途徑有基于知識的途徑和基于學(xué)習(xí)的途徑.文本分類的應(yīng)用領(lǐng)域有冗余過濾、組織管理、智能檢
18、索、信息過濾及其他應(yīng)用。現(xiàn)在有很多名聲顯赫的搜索引擎,比如Google,Yahoo及Baidu等,盡管他們的檢索能力已經(jīng)非常有效,但并非所有問題都已經(jīng)解決。智能檢索方面,在搜索引擎得構(gòu)建過程中,可以利用文本分類技術(shù)來區(qū)別概念,改進(jìn)相關(guān)度排序,也可以對被檢索的信息按一定的分類體系進(jìn)行自動分類。這樣可以構(gòu)造更好的信息檢索系統(tǒng)。2.分類器設(shè)計(完整word版)中文智能搜索引擎文本分類首先是對文本的特征提取,常用的文檔特征有詞、短語、N-Gram項、詞性、標(biāo)點(diǎn)符號等。文本特征選擇最常用的方法有特征詞頻一文檔頻率權(quán)重、信息增益權(quán)重、X2統(tǒng)計權(quán)重和互信息權(quán)重等。文本分類的核心是分類器的設(shè)計文本分類的方法可
19、分為三大類:(1)基于統(tǒng)計的方法,如NaveBayes,KNN、類中心向量等;(2)基于連接的方法即人工神經(jīng)網(wǎng)絡(luò);(3)基于規(guī)則的方法,如決策樹.下面簡單介紹一下Rocchio相似度計算方法。該方法根據(jù)算術(shù)平均為每類文檔集生成一個類中心向量,在新文本到來時,確定其文本向量計算該向量與每類中心向量的相似度。選擇相似度最大的類別。通過對訓(xùn)練文本的算術(shù)平均計算每類文本中心向量。對新文本進(jìn)行分詞處理,表示為特征向量。計算特征向量與每類中心向量的夾角余弦為相似度:Sim(d,d)=ij藝wxwikjk4=1選擇相似度計算結(jié)果最大的那一類,將文本分到其中。3.檢索模型IR模型信息檢索模型是對信息檢索任務(wù)的
20、數(shù)學(xué)抽象,是信息檢索研究的一個主要內(nèi)容。信息檢索模型是指如何對查詢和文檔進(jìn)行表示,然后對它們進(jìn)行相似度計算的框架和方法.IR模型本質(zhì)上是對相關(guān)度建模,主要從兩個方面抽象地研究信息檢索方法:(1)確定在模型中如何表示構(gòu)成檢索系統(tǒng)的兩個要素,即文檔和檢索條件即檢索表達(dá)式。確定在模型中如何定義和計算文檔和檢索條件之間的關(guān)系。IR系統(tǒng)結(jié)構(gòu)圖T成檢索擊達(dá)式文檔索引PageRank排序技術(shù)據(jù)統(tǒng)計,70%的用戶查詢往往只查看搜索引擎搜索結(jié)果的前20條記錄,因而正確而實用的網(wǎng)頁分級算法對于搜索引擎得性能很重要。PageRank即網(wǎng)頁級別,它有效地利用了互聯(lián)網(wǎng)所擁有的龐大鏈接構(gòu)造的特性,網(wǎng)頁級別越高排得越靠前面。PageRank計算頁面的重要性,對每個鏈入賦予不同的權(quán)值,鏈接提供頁面越重要則此鏈入權(quán)值就越大,即當(dāng)前頁面的重要性有其他頁面的重要性決定。PR(T)i-C(T)iPageRank算法1如下:PR(A)=(1-d)+dYi=1(完整word版)中文智能搜索引擎(完整word版)中文智能搜索引擎其中PR(A)是頁面A的級別,PR(T)為頁面T的級別,頁面T鏈向頁面A,iiiC(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 喬遷新居賀詞(集錦15篇)
- 雪話題作文(15篇)
- 初一滿分作文800字范文5篇
- 簡歷的自我評價匯編15篇
- 升學(xué)宴學(xué)生演講稿合集15篇
- 特鋼企業(yè)突發(fā)環(huán)境事件應(yīng)急預(yù)案
- 公交站亭基礎(chǔ)及鋪裝施工合同(2篇)
- 商場場地租賃協(xié)議書范本
- 貨車租賃協(xié)議書樣書
- 公租房協(xié)議范本
- 湖北省武漢市青山區(qū)2022-2023學(xué)年五年級上學(xué)期數(shù)學(xué)期末試卷(含答案)
- 《入侵檢測與防御原理及實踐(微課版)》全套教學(xué)課件
- IT企業(yè)安全生產(chǎn)管理制度范本
- 工業(yè)傳感器行業(yè)市場調(diào)研分析報告
- 小學(xué)生心理健康講座5
- 上海市市轄區(qū)(2024年-2025年小學(xué)五年級語文)部編版期末考試((上下)學(xué)期)試卷及答案
- 國家職業(yè)技術(shù)技能標(biāo)準(zhǔn) X2-10-07-18 陶瓷工藝師(試行)勞社廳發(fā)200633號
- 人教版八年級上冊生物全冊教案(完整版)教學(xué)設(shè)計含教學(xué)反思
- 2024年銀行考試-銀行間本幣市場交易員資格考試近5年真題附答案
- 人教版小學(xué)四年級數(shù)學(xué)上冊期末復(fù)習(xí)解答題應(yīng)用題大全50題及答案
- 冀教版五年級上冊脫式計算題100道及答案
評論
0/150
提交評論