搜索引擎的文本聚類研究

上傳人：伐*** IP屬地：寧夏上傳時(shí)間：2021-12-04 格式：DOCX 頁(yè)數(shù)：7 大小：31KB 積分：10.8 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩2頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、搜索引擎的文本聚類研究王佳樂(lè)摘要近年來(lái)，隨著信息技術(shù)的發(fā)展，越來(lái)越多的學(xué)者開(kāi)始關(guān)注搜索引擎聚類。國(guó)內(nèi)研究相比國(guó)外較晚，還處于發(fā)展的初級(jí)階段，存在著數(shù)據(jù)庫(kù)依附性過(guò)強(qiáng)、搜索速度緩慢、用戶的個(gè)性化服務(wù)需要提升等問(wèn)題。有關(guān)網(wǎng)站可建立自己獨(dú)立的數(shù)據(jù)庫(kù)或與專業(yè)搜索引擎公司合作，建立專有數(shù)據(jù)庫(kù)或?qū)ag標(biāo)簽應(yīng)用到網(wǎng)頁(yè)中，以加快搜索引擎聚類的速度并滿足不同用戶的需要，以促進(jìn)搜索引擎聚類在搜索引擎中可持續(xù)健康快速發(fā)展。關(guān)鍵詞搜索引擎；文本聚類；發(fā)展局限；展望 f27.4 b一、前言2013年7月發(fā)布的cnnic第32次互聯(lián)網(wǎng)報(bào)告顯示，截止2013年6

2、月止，我國(guó)網(wǎng)民規(guī)模達(dá)5.91億，半年共計(jì)新增網(wǎng)民2656萬(wàn)人?；ヂ?lián)網(wǎng)普及率為44.1%，較2012年底提升了2.0個(gè)百分點(diǎn)。從2009年到2013年，互聯(lián)網(wǎng)普及率逐年上升，從28.9%上升到44.1%。計(jì)算機(jī)的普及，使人們?cè)絹?lái)越依賴于詢問(wèn)互聯(lián)網(wǎng)。面對(duì)浩瀚的信息海洋，如何獲得用戶真正有用的信息，成為了一個(gè)炙手可熱的話題。從最早的門戶網(wǎng)站方式到現(xiàn)在的谷歌、百度全文本搜索，對(duì)待信息的獲取方式已經(jīng)有了很大的改變。然而，隨著互聯(lián)網(wǎng)越來(lái)越普及，網(wǎng)絡(luò)中存儲(chǔ)的信息，出現(xiàn)很多冗雜信息，僅僅依靠傳統(tǒng)的搜索方式，并不能滿足用戶的需要。從2000年開(kāi)始，以vivisimo為代表，越來(lái)越多的學(xué)者開(kāi)始注意到，聚類能更準(zhǔn)確

3、的定位搜索結(jié)果。二、聚類聚類是指將抽象或物理對(duì)象組成集合，將集合中類似對(duì)象組成多個(gè)類的過(guò)程。由聚類所生成的簇可以看做是一組數(shù)據(jù)對(duì)象的集合，這些對(duì)象與同一個(gè)簇中的其他對(duì)象彼此相似，而與其他簇中的對(duì)象不同。聚類分析又被叫做群分析，是針對(duì)分類問(wèn)題的一種統(tǒng)計(jì)分析方法。由一個(gè)度量的向量或多維空間中的一個(gè)點(diǎn)構(gòu)成模式，再由多個(gè)模式構(gòu)成聚類分析。聚類分析可以追溯于分類學(xué)，不過(guò)聚類并不是單純的分類。聚類與分類最大的的不同之處是，劃分為聚類的類是未知的。聚類作為一種有效的分類方法，可以從龐大的消費(fèi)者數(shù)據(jù)庫(kù)區(qū)分屬性、目標(biāo)不同的消費(fèi)群體，再概括出這些消費(fèi)群體的消費(fèi)模式也就是普通意義上的習(xí)慣。它作為數(shù)據(jù)挖掘中的一個(gè)模塊

4、，可以作為一個(gè)單獨(dú)的工具以發(fā)現(xiàn)數(shù)據(jù)庫(kù)中分布的一些深層的信息，并且概括出每一類的特點(diǎn)，或者把注意力放在某一個(gè)特定的類上以作進(jìn)一步的分析；并且，在數(shù)據(jù)挖掘算法時(shí)，聚類算法可以作為對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，再用其他分析算法處理。聚類分析的算法可以分為層次法（hierarchical methods）、基于網(wǎng)格的方法（grid-based methods）、基于密度的方法（density-basedmethods）、劃分法（partitioning methods）、基于模型的方法（model-based methods）。三、搜索引擎聚類國(guó)內(nèi)外發(fā)展進(jìn)程國(guó)外對(duì)于搜索引擎聚類方面的研究最早發(fā)生在1996年，he

5、arstma，pedersenjo學(xué)者研究開(kāi)發(fā)的scatter/gather系統(tǒng)是世界上第一個(gè)將聚類引入搜索引擎的系統(tǒng)。2000年開(kāi)發(fā)的vivisimo元搜索引擎系統(tǒng)，采用自主開(kāi)發(fā)的啟發(fā)式算法來(lái)集合并聚類原文文獻(xiàn)。這種算法吸收了傳統(tǒng)人工智能思想，對(duì)檢索結(jié)果進(jìn)行更好描述和聚類。它的文獻(xiàn)聚類技術(shù)首先將文本內(nèi)容自動(dòng)分類，劃分為等級(jí)式排列的目錄之后進(jìn)行聚類。作為一種完全自動(dòng)化的聚類技術(shù)，不需要人為干擾收集數(shù)據(jù)，也不需要進(jìn)行數(shù)據(jù)維護(hù)。snaket在前者研究的基礎(chǔ)上，開(kāi)發(fā)了能完整將搜索引擎聚類化的系統(tǒng)，并且可以向用戶展示帶有明確標(biāo)簽的層次型結(jié)構(gòu)。grouper是利用后綴樹(shù)聚類（stc，suffix tre

6、e clustering）算法專門針對(duì)文檔摘要進(jìn)行聚類的搜索引擎系統(tǒng)。shoc是首個(gè)面向文本信息進(jìn)行聚類功的搜索引擎。sergio系統(tǒng)應(yīng)用改進(jìn)過(guò)的k均值算法對(duì)兩個(gè)搜索引擎結(jié)果進(jìn)行聚類處理。在新聞處理方面，nesrec系統(tǒng)提取altzvista新聞的新聞?wù)?，短時(shí)間內(nèi)進(jìn)行層次聚類，并使之成為擁有良好可讀性的類標(biāo)簽。而newsblaster系統(tǒng)針對(duì)每天的新聞進(jìn)行聚類處理，文本生成等處理之后，產(chǎn)生摘要文檔。whatsonweb是應(yīng)用拓谷驅(qū)動(dòng)和圖像聚類算法來(lái)構(gòu)建搜索引擎聚類系統(tǒng)，具有良好的可視化效果，同時(shí)支持處理無(wú)效標(biāo)簽。國(guó)內(nèi)的研究要相對(duì)較晚，最早開(kāi)始于20005年，但是隨著科技發(fā)展，取得了很不錯(cuò)的優(yōu)

7、秀成果。2005年的pinkysearch利用后綴樹(shù)算法和相同詞聚類對(duì)多個(gè)搜索引擎的結(jié)果進(jìn)行聚類處理，最后獲得搜索結(jié)果。在2007年成立的國(guó)內(nèi)首家搜索引擎聚類公司比比貓（bbmao），采用先進(jìn)的聚類和去重技術(shù)，不僅帶給用戶快捷、智能的體驗(yàn)經(jīng)歷，還引領(lǐng)創(chuàng)新了聚類技術(shù)。國(guó)內(nèi)高水準(zhǔn)的數(shù)據(jù)挖掘研究所論壇上，提出了web挖掘算法、分類聚類，應(yīng)用方案等聚類應(yīng)用技術(shù)。四、搜索引擎聚類分析搜索引擎形式從最早的目錄式搜索到基于robot搜索引擎，再到現(xiàn)在的聚類搜索引擎，其對(duì)象不僅僅是對(duì)資源進(jìn)行搜索，也開(kāi)始關(guān)注用戶體驗(yàn)，如何使用戶能更為便捷的找到自己所需內(nèi)容。搜索引擎聚類發(fā)展已有十余年，通過(guò)對(duì)國(guó)內(nèi)外相對(duì)比較成熟的

8、聚類搜索引擎作為研究對(duì)象，從劃分類型、基本功能、聚類算法角度分析。1.劃分類型分析根據(jù)分類標(biāo)準(zhǔn)不同，搜索引擎聚類劃分的種類也不同。根據(jù)提供的服務(wù)劃分成社區(qū)型（比如貝殼網(wǎng)）和搜索型（如第易搜）。按照信息的來(lái)源即是否擁有獨(dú)立的數(shù)據(jù)庫(kù)，聚類搜索引擎能劃分為寄生型（vivisimo）和原生型（如cnki搜索）。按照搜索引擎來(lái)源的數(shù)目，聚類搜索引擎可以劃分為單一型來(lái)源搜索引擎（如touchgraph）和多來(lái)源搜索引擎，即元搜索引擎（如bbmao）。2.基本功能分析在對(duì)國(guó)內(nèi)外具有代表性的搜索引擎聚類分析后，發(fā)現(xiàn)其搜索對(duì)象不僅僅為網(wǎng)頁(yè)，更延伸到網(wǎng)頁(yè)、新聞、目錄、摘要、博客，可應(yīng)用于商業(yè)、政府工作、新聞搜集等

9、多種多樣。另外，在提供個(gè)性化搜索的同時(shí)，用戶還可根據(jù)自己的喜好，在游戲、旅游、博客等大類下選擇的信息源，在右側(cè)會(huì)自動(dòng)呈現(xiàn)圖片、新聞、購(gòu)物等搜索結(jié)果。 3.聚類算法角度分析目前的網(wǎng)頁(yè)聚類算法根據(jù)其針對(duì)的方向分為3種，即基于鏈接分析、基于網(wǎng)頁(yè)內(nèi)容、基于用戶搜索日志的聚類算法?；阪溄臃治龅木垲惡蛡鹘y(tǒng)的搜索引擎搜索有一定相似之處，對(duì)任一網(wǎng)頁(yè)，必有本網(wǎng)頁(yè)指向其他網(wǎng)頁(yè)的鏈接和其他網(wǎng)頁(yè)指向本網(wǎng)頁(yè)的鏈接。若這些其他網(wǎng)頁(yè)都包含有同一個(gè)網(wǎng)頁(yè)的鏈接，則被認(rèn)為同音關(guān)系，具有相似性，進(jìn)而依次聚類。基于網(wǎng)頁(yè)內(nèi)容的聚類即是對(duì)網(wǎng)頁(yè)的內(nèi)容直接聚類，傳統(tǒng)的聚類算法是對(duì)網(wǎng)頁(yè)內(nèi)容去標(biāo)點(diǎn)、化復(fù)數(shù)形式為單數(shù)、去掉前后綴。然而這些方法是

10、針對(duì)單個(gè)文字的聚類，并沒(méi)有考慮詞間含義，也不能真實(shí)的反映網(wǎng)頁(yè)內(nèi)容。于是出現(xiàn)了stc算法即后綴樹(shù)算法，通過(guò)將網(wǎng)頁(yè)進(jìn)行處理，得到詞組，再依賴于后綴樹(shù)，辨別擁有相同詞義的詞組，將他們作為基本類，合并形成高層次的類，進(jìn)行高效的聚類。隨著搜索引擎的發(fā)展，研發(fā)者開(kāi)始考慮到對(duì)用戶行為分析，構(gòu)建用戶模型，出現(xiàn)了基于用戶搜索日志的聚類算法。通過(guò)用戶對(duì)搜索結(jié)果網(wǎng)頁(yè)進(jìn)行聚類。上述三種聚類算法各有優(yōu)缺點(diǎn)，基于用戶搜索日志的算法注重用戶體驗(yàn)，基于網(wǎng)絡(luò)內(nèi)容的算法注重搜索對(duì)象，而基于鏈接分析的聚類注重相似網(wǎng)頁(yè)之間的鏈接。在以后聚類搜索引擎發(fā)展中，這三種方法將會(huì)結(jié)合使用。五、發(fā)展局限及展望國(guó)外的搜索引擎聚類最早開(kāi)始于1996

11、年，而國(guó)內(nèi)的發(fā)展相對(duì)較晚。然而由于還處于發(fā)展的初始階段，還存在一定的局限性。中國(guó)第一家元搜索聚類引擎公司是2007年的比比貓（bbmao）公司，可以直接搜尋文檔，搜索結(jié)果匯集各大搜索引擎結(jié)果，具有強(qiáng)大網(wǎng)絡(luò)收藏夾等多元功能。然而由于局限性，只存在了較短的時(shí)間。必須綜合考慮搜索引擎聚類的問(wèn)題，才可能使之長(zhǎng)遠(yuǎn)發(fā)展。1.數(shù)據(jù)庫(kù)依附性過(guò)強(qiáng)目前的搜索引擎的聚類技術(shù)多是將已有的搜索引擎檢索出的結(jié)果進(jìn)行聚類分析，得到更準(zhǔn)確的結(jié)果，呈現(xiàn)給用戶。其存在形式多為衍生性搜索引擎，這就意味著需鏈接已有搜索引擎的數(shù)據(jù)庫(kù)，然而搜索引擎本就是依靠搜索結(jié)果獲得收入。對(duì)于第三方間接使用其搜索結(jié)果，原搜索引擎必然會(huì)采取限制，這也就

12、造成數(shù)據(jù)的無(wú)法獲得。國(guó)內(nèi)成立的比比貓公司就是由于依附性太強(qiáng)，最后導(dǎo)致無(wú)法繼續(xù)生存下去。建立自己獨(dú)立的數(shù)據(jù)庫(kù)不失為一個(gè)好的解決辦法，然而由于獨(dú)立數(shù)據(jù)庫(kù)所需強(qiáng)大的技術(shù)支持，還可以與專業(yè)搜索引擎公司合作。2.搜索速度緩慢由于當(dāng)前搜索引擎的聚類技術(shù)對(duì)搜索結(jié)果進(jìn)行聚類，實(shí)質(zhì)上也就是進(jìn)行二次加工、聚類、排序，最后呈現(xiàn)搜索結(jié)果。勢(shì)必影響其搜索速度。值得探討的是直接建立轉(zhuǎn)有數(shù)據(jù)庫(kù)，是可以解決的方法之一；此外隨著技術(shù)發(fā)展，越來(lái)越多的tag標(biāo)簽應(yīng)用到網(wǎng)頁(yè)中，這也對(duì)準(zhǔn)確了解網(wǎng)頁(yè)內(nèi)容、屬性產(chǎn)生裨益，從而加速搜索引擎聚類的速度。3.用戶的個(gè)性化服務(wù)還需提升搜索引擎的最終結(jié)果是為了使用戶使用，即服務(wù)于用戶。目前搜索引聚類還不夠成熟，如何使搜索結(jié)果更加滿足用戶的個(gè)性化需要還有很大的研究空間。記錄用戶的搜索歷史，在聚類時(shí)，返回符合用戶個(gè)性的聚類。將聚類和用戶行為結(jié)合起來(lái)，完美的實(shí)現(xiàn)聚類結(jié)果的個(gè)性化服務(wù)，滿足用戶需要?？傊m然針對(duì)搜索引擎的聚類分析還存在一定問(wèn)題，可是基于聚類能更加精確、準(zhǔn)確的提供搜索結(jié)果，能更好的反映用戶需求，隨著科技的發(fā)展，問(wèn)題終將得到解決，搜索引擎聚類也勢(shì)必是搜索引擎的大勢(shì)所趨。參考文獻(xiàn)1第32次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告r.北京：中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心，20132liu w， xue g r， huang set al. interactive chine

人人文庫(kù)> 全部分類> 生活休閑 > 科普知識(shí)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

搜索引擎的文本聚類研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

搜索引擎的文本聚類研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔