搜索引擎的文本聚類研究_第1頁(yè)
搜索引擎的文本聚類研究_第2頁(yè)
搜索引擎的文本聚類研究_第3頁(yè)
搜索引擎的文本聚類研究_第4頁(yè)
搜索引擎的文本聚類研究_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、    搜索引擎的文本聚類研究    王佳樂(lè)摘 要 近年來(lái),隨著信息技術(shù)的發(fā)展,越來(lái)越多的學(xué)者開(kāi)始關(guān)注搜索引擎聚類。國(guó)內(nèi)研究相比國(guó)外較晚,還處于發(fā)展的初級(jí)階段,存在著數(shù)據(jù)庫(kù)依附性過(guò)強(qiáng)、搜索速度緩慢、用戶的個(gè)性化服務(wù)需要提升等問(wèn)題。有關(guān)網(wǎng)站可建立自己獨(dú)立的數(shù)據(jù)庫(kù)或與專業(yè)搜索引擎公司合作,建立專有數(shù)據(jù)庫(kù)或?qū)ag標(biāo)簽應(yīng)用到網(wǎng)頁(yè)中,以加快搜索引擎聚類的速度并滿足不同用戶的需要,以促進(jìn)搜索引擎聚類在搜索引擎中可持續(xù)健康快速發(fā)展。關(guān)鍵詞 搜索引擎;文本聚類;發(fā)展局限;展望 f27.4 b一、前言2013年7月發(fā)布的cnnic第32次互聯(lián)網(wǎng)報(bào)告顯示,截止2013年6

2、月止,我國(guó)網(wǎng)民規(guī)模達(dá)5.91億,半年共計(jì)新增網(wǎng)民2656萬(wàn)人?;ヂ?lián)網(wǎng)普及率為44.1%,較2012年底提升了2.0個(gè)百分點(diǎn)。從2009年到2013年,互聯(lián)網(wǎng)普及率逐年上升,從28.9%上升到44.1%。計(jì)算機(jī)的普及,使人們?cè)絹?lái)越依賴于詢問(wèn)互聯(lián)網(wǎng)。面對(duì)浩瀚的信息海洋,如何獲得用戶真正有用的信息,成為了一個(gè)炙手可熱的話題。從最早的門戶網(wǎng)站方式到現(xiàn)在的谷歌、百度全文本搜索,對(duì)待信息的獲取方式已經(jīng)有了很大的改變。然而,隨著互聯(lián)網(wǎng)越來(lái)越普及,網(wǎng)絡(luò)中存儲(chǔ)的信息,出現(xiàn)很多冗雜信息,僅僅依靠傳統(tǒng)的搜索方式,并不能滿足用戶的需要。從2000年開(kāi)始,以vivisimo為代表,越來(lái)越多的學(xué)者開(kāi)始注意到,聚類能更準(zhǔn)確

3、的定位搜索結(jié)果。二、聚類聚類是指將抽象或物理對(duì)象組成集合,將集合中類似對(duì)象組成多個(gè)類的過(guò)程。由聚類所生成的簇可以看做是一組數(shù)據(jù)對(duì)象的集合,這些對(duì)象與同一個(gè)簇中的其他對(duì)象彼此相似,而與其他簇中的對(duì)象不同。聚類分析又被叫做群分析,是針對(duì)分類問(wèn)題的一種統(tǒng)計(jì)分析方法。由一個(gè)度量的向量或多維空間中的一個(gè)點(diǎn)構(gòu)成模式,再由多個(gè)模式構(gòu)成聚類分析。聚類分析可以追溯于分類學(xué),不過(guò)聚類并不是單純的分類。聚類與分類最大的的不同之處是,劃分為聚類的類是未知的。聚類作為一種有效的分類方法,可以從龐大的消費(fèi)者數(shù)據(jù)庫(kù)區(qū)分屬性、目標(biāo)不同的消費(fèi)群體,再概括出這些消費(fèi)群體的消費(fèi)模式也就是普通意義上的習(xí)慣。它作為數(shù)據(jù)挖掘中的一個(gè)模塊

4、,可以作為一個(gè)單獨(dú)的工具以發(fā)現(xiàn)數(shù)據(jù)庫(kù)中分布的一些深層的信息,并且概括出每一類的特點(diǎn),或者把注意力放在某一個(gè)特定的類上以作進(jìn)一步的分析;并且,在數(shù)據(jù)挖掘算法時(shí),聚類算法可以作為對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,再用其他分析算法處理。聚類分析的算法可以分為層次法(hierarchical methods)、基于網(wǎng)格的方法(grid-based methods)、基于密度的方法(density-basedmethods)、劃分法(partitioning methods)、基于模型的方法(model-based methods)。三、搜索引擎聚類國(guó)內(nèi)外發(fā)展進(jìn)程國(guó)外對(duì)于搜索引擎聚類方面的研究最早發(fā)生在1996年,he

5、arstma,pedersenjo學(xué)者研究開(kāi)發(fā)的scatter/gather系統(tǒng)是世界上第一個(gè)將聚類引入搜索引擎的系統(tǒng)。2000年開(kāi)發(fā)的vivisimo元搜索引擎系統(tǒng),采用自主開(kāi)發(fā)的啟發(fā)式算法來(lái)集合并聚類原文文獻(xiàn)。這種算法吸收了傳統(tǒng)人工智能思想,對(duì)檢索結(jié)果進(jìn)行更好描述和聚類。它的文獻(xiàn)聚類技術(shù)首先將文本內(nèi)容自動(dòng)分類,劃分為等級(jí)式排列的目錄之后進(jìn)行聚類。作為一種完全自動(dòng)化的聚類技術(shù),不需要人為干擾收集數(shù)據(jù),也不需要進(jìn)行數(shù)據(jù)維護(hù)。snaket在前者研究的基礎(chǔ)上,開(kāi)發(fā)了能完整將搜索引擎聚類化的系統(tǒng),并且可以向用戶展示帶有明確標(biāo)簽的層次型結(jié)構(gòu)。grouper是利用后綴樹(shù)聚類(stc,suffix tre

6、e clustering)算法專門針對(duì)文檔摘要進(jìn)行聚類的搜索引擎系統(tǒng)。shoc是首個(gè)面向文本信息進(jìn)行聚類功的搜索引擎。sergio系統(tǒng)應(yīng)用改進(jìn)過(guò)的k均值算法對(duì)兩個(gè)搜索引擎結(jié)果進(jìn)行聚類處理。在新聞處理方面,nesrec系統(tǒng)提取altzvista新聞的新聞?wù)?,短時(shí)間內(nèi)進(jìn)行層次聚類,并使之成為擁有良好可讀性的類標(biāo)簽。而newsblaster系統(tǒng)針對(duì)每天的新聞進(jìn)行聚類處理,文本生成等處理之后,產(chǎn)生摘要文檔。whatsonweb是應(yīng)用拓谷驅(qū)動(dòng)和圖像聚類算法來(lái)構(gòu)建搜索引擎聚類系統(tǒng),具有良好的可視化效果,同時(shí)支持處理無(wú)效標(biāo)簽。國(guó)內(nèi)的研究要相對(duì)較晚,最早開(kāi)始于20005年,但是隨著科技發(fā)展,取得了很不錯(cuò)的優(yōu)

7、秀成果。2005年的pinkysearch利用后綴樹(shù)算法和相同詞聚類對(duì)多個(gè)搜索引擎的結(jié)果進(jìn)行聚類處理,最后獲得搜索結(jié)果。在2007年成立的國(guó)內(nèi)首家搜索引擎聚類公司比比貓(bbmao),采用先進(jìn)的聚類和去重技術(shù),不僅帶給用戶快捷、智能的體驗(yàn)經(jīng)歷,還引領(lǐng)創(chuàng)新了聚類技術(shù)。國(guó)內(nèi)高水準(zhǔn)的數(shù)據(jù)挖掘研究所論壇上,提出了web挖掘算法、分類聚類,應(yīng)用方案等聚類應(yīng)用技術(shù)。四、搜索引擎聚類分析搜索引擎形式從最早的目錄式搜索到基于robot搜索引擎,再到現(xiàn)在的聚類搜索引擎,其對(duì)象不僅僅是對(duì)資源進(jìn)行搜索,也開(kāi)始關(guān)注用戶體驗(yàn),如何使用戶能更為便捷的找到自己所需內(nèi)容。搜索引擎聚類發(fā)展已有十余年,通過(guò)對(duì)國(guó)內(nèi)外相對(duì)比較成熟的

8、聚類搜索引擎作為研究對(duì)象,從劃分類型、基本功能、聚類算法角度分析。1.劃分類型分析根據(jù)分類標(biāo)準(zhǔn)不同,搜索引擎聚類劃分的種類也不同。根據(jù)提供的服務(wù)劃分成社區(qū)型(比如貝殼網(wǎng))和搜索型(如第易搜)。按照信息的來(lái)源即是否擁有獨(dú)立的數(shù)據(jù)庫(kù),聚類搜索引擎能劃分為寄生型(vivisimo)和原生型(如cnki搜索)。按照搜索引擎來(lái)源的數(shù)目,聚類搜索引擎可以劃分為單一型來(lái)源搜索引擎(如touchgraph)和多來(lái)源搜索引擎,即元搜索引擎(如bbmao)。2.基本功能分析在對(duì)國(guó)內(nèi)外具有代表性的搜索引擎聚類分析后,發(fā)現(xiàn)其搜索對(duì)象不僅僅為網(wǎng)頁(yè),更延伸到網(wǎng)頁(yè)、新聞、目錄、摘要、博客,可應(yīng)用于商業(yè)、政府工作、新聞搜集等

9、多種多樣。另外,在提供個(gè)性化搜索的同時(shí),用戶還可根據(jù)自己的喜好,在游戲、旅游、博客等大類下選擇的信息源,在右側(cè)會(huì)自動(dòng)呈現(xiàn)圖片、新聞、購(gòu)物等搜索結(jié)果。 3.聚類算法角度分析目前的網(wǎng)頁(yè)聚類算法根據(jù)其針對(duì)的方向分為3種,即基于鏈接分析、基于網(wǎng)頁(yè)內(nèi)容、基于用戶搜索日志的聚類算法?;阪溄臃治龅木垲惡蛡鹘y(tǒng)的搜索引擎搜索有一定相似之處,對(duì)任一網(wǎng)頁(yè),必有本網(wǎng)頁(yè)指向其他網(wǎng)頁(yè)的鏈接和其他網(wǎng)頁(yè)指向本網(wǎng)頁(yè)的鏈接。若這些其他網(wǎng)頁(yè)都包含有同一個(gè)網(wǎng)頁(yè)的鏈接,則被認(rèn)為同音關(guān)系,具有相似性,進(jìn)而依次聚類。基于網(wǎng)頁(yè)內(nèi)容的聚類即是對(duì)網(wǎng)頁(yè)的內(nèi)容直接聚類,傳統(tǒng)的聚類算法是對(duì)網(wǎng)頁(yè)內(nèi)容去標(biāo)點(diǎn)、化復(fù)數(shù)形式為單數(shù)、去掉前后綴。然而這些方法是

10、針對(duì)單個(gè)文字的聚類,并沒(méi)有考慮詞間含義,也不能真實(shí)的反映網(wǎng)頁(yè)內(nèi)容。于是出現(xiàn)了stc算法即后綴樹(shù)算法,通過(guò)將網(wǎng)頁(yè)進(jìn)行處理,得到詞組,再依賴于后綴樹(shù),辨別擁有相同詞義的詞組,將他們作為基本類,合并形成高層次的類,進(jìn)行高效的聚類。隨著搜索引擎的發(fā)展,研發(fā)者開(kāi)始考慮到對(duì)用戶行為分析,構(gòu)建用戶模型,出現(xiàn)了基于用戶搜索日志的聚類算法。通過(guò)用戶對(duì)搜索結(jié)果網(wǎng)頁(yè)進(jìn)行聚類。上述三種聚類算法各有優(yōu)缺點(diǎn),基于用戶搜索日志的算法注重用戶體驗(yàn),基于網(wǎng)絡(luò)內(nèi)容的算法注重搜索對(duì)象,而基于鏈接分析的聚類注重相似網(wǎng)頁(yè)之間的鏈接。在以后聚類搜索引擎發(fā)展中,這三種方法將會(huì)結(jié)合使用。五、發(fā)展局限及展望國(guó)外的搜索引擎聚類最早開(kāi)始于1996

11、年,而國(guó)內(nèi)的發(fā)展相對(duì)較晚。然而由于還處于發(fā)展的初始階段,還存在一定的局限性。中國(guó)第一家元搜索聚類引擎公司是2007年的比比貓(bbmao)公司,可以直接搜尋文檔,搜索結(jié)果匯集各大搜索引擎結(jié)果,具有強(qiáng)大網(wǎng)絡(luò)收藏夾等多元功能。然而由于局限性,只存在了較短的時(shí)間。必須綜合考慮搜索引擎聚類的問(wèn)題,才可能使之長(zhǎng)遠(yuǎn)發(fā)展。1.數(shù)據(jù)庫(kù)依附性過(guò)強(qiáng)目前的搜索引擎的聚類技術(shù)多是將已有的搜索引擎檢索出的結(jié)果進(jìn)行聚類分析,得到更準(zhǔn)確的結(jié)果,呈現(xiàn)給用戶。其存在形式多為衍生性搜索引擎,這就意味著需鏈接已有搜索引擎的數(shù)據(jù)庫(kù),然而搜索引擎本就是依靠搜索結(jié)果獲得收入。對(duì)于第三方間接使用其搜索結(jié)果,原搜索引擎必然會(huì)采取限制,這也就

12、造成數(shù)據(jù)的無(wú)法獲得。國(guó)內(nèi)成立的比比貓公司就是由于依附性太強(qiáng),最后導(dǎo)致無(wú)法繼續(xù)生存下去。建立自己獨(dú)立的數(shù)據(jù)庫(kù)不失為一個(gè)好的解決辦法,然而由于獨(dú)立數(shù)據(jù)庫(kù)所需強(qiáng)大的技術(shù)支持,還可以與專業(yè)搜索引擎公司合作。2.搜索速度緩慢由于當(dāng)前搜索引擎的聚類技術(shù)對(duì)搜索結(jié)果進(jìn)行聚類,實(shí)質(zhì)上也就是進(jìn)行二次加工、聚類、排序,最后呈現(xiàn)搜索結(jié)果。勢(shì)必影響其搜索速度。值得探討的是直接建立轉(zhuǎn)有數(shù)據(jù)庫(kù),是可以解決的方法之一;此外隨著技術(shù)發(fā)展,越來(lái)越多的tag標(biāo)簽應(yīng)用到網(wǎng)頁(yè)中,這也對(duì)準(zhǔn)確了解網(wǎng)頁(yè)內(nèi)容、屬性產(chǎn)生裨益,從而加速搜索引擎聚類的速度。3.用戶的個(gè)性化服務(wù)還需提升搜索引擎的最終結(jié)果是為了使用戶使用,即服務(wù)于用戶。目前搜索引聚類還不夠成熟,如何使搜索結(jié)果更加滿足用戶的個(gè)性化需要還有很大的研究空間。記錄用戶的搜索歷史,在聚類時(shí),返回符合用戶個(gè)性的聚類。將聚類和用戶行為結(jié)合起來(lái),完美的實(shí)現(xiàn)聚類結(jié)果的個(gè)性化服務(wù),滿足用戶需要??傊m然針對(duì)搜索引擎的聚類分析還存在一定問(wèn)題,可是基于聚類能更加精確、準(zhǔn)確的提供搜索結(jié)果,能更好的反映用戶需求,隨著科技的發(fā)展,問(wèn)題終將得到解決,搜索引擎聚類也勢(shì)必是搜索引擎的大勢(shì)所趨。參 考 文 獻(xiàn)1第32次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告r.北京:中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心,20132liu w, xue g r, huang set al. interactive chine

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論