搜索引擎的未來_第1頁
搜索引擎的未來_第2頁
搜索引擎的未來_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

搜索引擎的未來

1.大數(shù)據(jù)及視頻點的分析技術在信息過載和信息爆炸的時代,網(wǎng)絡中的信息和資源迅速增長。通過快速、準確地搜索大量信息來解決這個問題。本文提出了一種新型的Web檢索服務模式,它區(qū)別于百度,Google等傳統(tǒng)通用檢索服務,這些搜索給不同用戶的都是按照檢索規(guī)則提供的一致結果,有的還包含有大量廣告,這是一對多的“廣播”服務模式。信息來源與信息選擇權在服務商,檢索與信息獲取的過程和內(nèi)容沒有考慮信息接收者的個體差異與信息需求的差異。而本文充分讓用戶參與到信息檢索服務中來,更注重用戶的個性化和信息需求的動態(tài)性,根據(jù)用戶的搜索歷史記錄,收藏與評分記錄,分析用戶的興趣點與關注點,主動向用戶推送有價值的信息,這是一對一的“點播”服務模式。本文采用面向領域的垂直搜索技術,針對某一特定領域、某一特定人群或某一特定需求,構建垂直搜索引擎系統(tǒng)。垂直搜索引擎在信息獲取時可以設定規(guī)則從有限個主題相關網(wǎng)站中提取信息。通過建立領域相關主題詞庫,從內(nèi)容繁雜的頁面中提取有價值的關鍵信息,經(jīng)過系統(tǒng)整合成標準文檔,作為垂直搜索引擎檢索源。這樣的檢索源針對性強、結構清晰,內(nèi)容精煉,能有效提高檢索速度與檢索準確率。2.用戶信息上傳能力(1)垂直搜索技術垂直搜索面向某一特定的專業(yè)領域,避免了通用搜索引擎搜索出的大量無關信息,提高了查詢效率,使用戶能夠更迅速地查詢到自己所需的信息。通過垂直搜索引擎,能夠把具有相同興趣點的人們集中在一個“社區(qū)”內(nèi),提高了協(xié)同過濾時的數(shù)據(jù)密度,在一定程度上避免了稀疏性問題,提高定位鄰居用戶集的效率。因此,垂直搜索與協(xié)同過濾相結合的策略,能有效提高用戶興趣分析與預測的準確率,顯著提高信息推送效果。(2)協(xié)同過濾協(xié)同過濾技術的核心思想是用戶會傾向于利用具有相似意向的用戶群的產(chǎn)品,在智能搜索引擎中起著重要作用。本文統(tǒng)計用戶的搜索歷史記錄,利用向量模型,將歷史檢索關鍵詞和關鍵詞出現(xiàn)的頻率建立成空間上的n維向量。定義用戶i和用戶j之間的統(tǒng)計響亮為Vi和Vj,兩者的相似性通過向量間的余弦夾角度量,余弦值越大表明兩用戶的相似程度越高。Vi和Vj的相似性Sim(i,j)為:(3)檢索與排序結果排序的好壞是檢驗搜索引擎有效性的重要標準,大部分(88%)互聯(lián)網(wǎng)用戶僅關注搜索引擎結果前三頁的內(nèi)容,如果前三頁沒有滿意的結果,立刻變換關鍵詞或者更換搜索引擎重新進行檢索。用戶輸入查詢語句,利用中文分詞方法,將查詢語句分解成關鍵詞,并計算關鍵詞詞頻。首先計算出用戶查詢q和文檔的相關程度Similarity(q,d)。搜索相關度的評分公式:得到用戶檢索語句與文檔的相關程度之后,綜合目標用戶對于該文檔的興趣,以及Web用戶群體對于該文檔的平均評分與收藏次數(shù),根據(jù)層次分析法,得到最終評分通過公式4得到的搜索結果相比起通用搜索引擎,將更加符合用戶本身的興趣,同時發(fā)揮Web用戶群體的作用。得到普遍公認的優(yōu)秀文檔排名靠前,排名靠前的文檔得到更多用戶的關注與評價,形成良性循環(huán),優(yōu)秀的文檔能在Web中迅速傳播。3.垂直搜索是基于信息披露的領域設計的體系結構:經(jīng)過前文中對個性化服務和垂直搜索技術的分析,本文設計的搜索引擎系統(tǒng)體系結構圖如下所示。4.實驗4.1操作系統(tǒng)監(jiān)控Web服務器(1臺):酷睿2雙核CPU,4GB內(nèi)存,Windows7操作系統(tǒng),Tomcat6.0服務器。數(shù)據(jù)服務器(4臺):酷睿2雙核CPU,2GB內(nèi)存,500GB硬盤,Windows7操作系統(tǒng)。數(shù)據(jù)采集與分析服務器(1臺):酷睿2雙核CPU,4GB內(nèi)存,Windows7操作系統(tǒng)。4.2實驗數(shù)據(jù)4.3用戶群學習行為能較好反映用戶興趣在用戶檢索次數(shù)和評分次數(shù)達到一定數(shù)量的情況下(人均檢索100次,人均評分300次,平均每個產(chǎn)品被打分1次),推送和搜索結果的準確是較高的(平均準確率分別達到82.5和88%),能較好地反映用戶的興趣?;谟脩襞d趣和用戶評價的結果排序能較好使得搜索結果符合用戶期望。同時,垂直搜索技術使得系統(tǒng)用戶群的興趣點相對集中,在一定程度上能夠緩解協(xié)同過濾稀疏性問題,提高推送的準確率。實踐表明,通過用戶搜索歷史記錄判斷興趣相似的用戶群方法在性能和功能上是有效可行的。本文設計和實現(xiàn)的數(shù)碼產(chǎn)品垂直搜索引擎的方案是切實可行的,系統(tǒng)基本達到了預期的設計目標。5.互聯(lián)網(wǎng)統(tǒng)一控制模式設計在各領域的應用實例本文著眼于解決目前信息檢索中的困難,提出了一種基于信息推送、垂直搜索思想的Web檢索“點播”服務模式,并著重分析討論了垂直搜索,協(xié)同過濾,檢索結果排序等關鍵問題。以數(shù)碼產(chǎn)品領

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論