搜索引擎相關(guān)關(guān)鍵詞推薦的對比研究_第1頁
搜索引擎相關(guān)關(guān)鍵詞推薦的對比研究_第2頁
搜索引擎相關(guān)關(guān)鍵詞推薦的對比研究_第3頁
搜索引擎相關(guān)關(guān)鍵詞推薦的對比研究_第4頁
搜索引擎相關(guān)關(guān)鍵詞推薦的對比研究_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 總第180期2009年增刊4實驗及結(jié)果分析4.1實驗1用戶對相關(guān)詞的滿意度研究(1數(shù)據(jù)來源該實驗使用的數(shù)據(jù)來自2007年3月Sogou搜索引擎發(fā)布的部分網(wǎng)頁查詢需求及用戶點擊情況的網(wǎng)頁查詢?nèi)罩緮?shù)據(jù)集合一,總體數(shù)據(jù)規(guī)模約為2000萬條查詢與點擊信息。包含的用戶行為信息有:用戶提交的查詢、用戶點擊的結(jié)果URL、該uRL在返回結(jié)果中的排名、用戶點擊的順序號(就是用戶點擊的第幾個頁面、由系統(tǒng)自動分配的用戶標識號等,不涉及用戶的個人信息,如IP地址等。本文的實驗選取Mini版日志中10000條記錄中的查詢詞,形成一個詞庫,然后利用Excel中的隨機函數(shù),產(chǎn)生出30個查詢詞(關(guān)鍵詞用來進行實驗。(2評測

2、步驟經(jīng)過對現(xiàn)有中文搜索引擎的比較,選取用戶量最多的三個搜索引擎G009le、百度和雅虎進行實驗。分別將這30個查詢詞作為關(guān)鍵詞輸入三個不同搜索引擎進行檢索,得到每個搜索引擎推薦的相關(guān)詞列表。由于有的搜索引擎推薦10個相關(guān)詞,有的搜索引擎推薦8個或更多,為了統(tǒng)一比較,選取每個搜索引擎推薦的前5個相關(guān)詞,形成列表。隨機抽取10名用戶根據(jù)相關(guān)詞與關(guān)鍵詞的相關(guān)度進行主觀評價,并利用5分法打分。在整個打分過程中對用戶隱藏搜索引擎名稱,稱為SEl、SE2和sE3,以免用戶由于對搜索引擎的偏向影響實驗結(jié)果。將10名用戶的評分進行統(tǒng)計分析,得出三個搜索引擎在關(guān)鍵詞推薦上的優(yōu)劣。(3結(jié)果分析將用戶的打分結(jié)果進行

3、匯總,利用統(tǒng)計軟件求出三個搜索引擎對每個關(guān)鍵詞給出的每個相關(guān)詞的平均得分,得出如圖1所示的結(jié)果。關(guān)鍵詞推薦得分Google2.876,百度2.537,雅虎2.679。綜合來看,本實驗證明G00出e的關(guān)鍵詞推薦功能較能使用戶滿意,雅虎其次,百度最差。即便如此, 2.876這個分值離用戶的最佳滿意度4分還有非常大的差距,說明目前搜索引擎的關(guān)鍵詞推薦功能還有待完善。然而,在實驗后對這幾名用戶體驗進行調(diào)查時,大圖1實驗1搜索引擎人工打分平均分比較(注:SEl代表G009le,sE2代表百度,SE3代表雅虎部分用戶認為SE3(雅虎的關(guān)鍵詞推薦功能在三個搜索引擎中處于最差的地位。因為sE3(雅虎推薦出的很

4、多相關(guān)詞跟關(guān)鍵詞的差距比較大,這些用戶認為可能是由于雅虎挑選相關(guān)詞時限制太多,因此挑選出的相關(guān)詞不能令用戶滿意。由此可見,搜索引擎采用的切分詞技術(shù)對相關(guān)詞推薦影響也非常大。即便所有搜索引擎對于大部分關(guān)鍵詞給出了比較相近的相關(guān)詞,對于一小部分詞各搜索引擎給出的相關(guān)詞差異非常大。如今絕大多數(shù)搜索引擎的關(guān)鍵詞推薦功能都是在統(tǒng)計用戶日志的基礎(chǔ)上實現(xiàn)的,當切分詞技術(shù)不同時匹配得到的相關(guān)詞差異也會比較大,有的相關(guān)詞甚至與關(guān)鍵詞有非常大的出入。4.2實驗2用戶對利用相關(guān)詞檢索結(jié)果的滿意度研究(1實驗概述事實上,并不是所有的相關(guān)詞都表征了其字面意義的搜索結(jié)果。也就是說,當用戶點擊進入搜索引擎推薦的相關(guān)詞時,其

5、搜索得到的網(wǎng)頁列表是否令用戶滿意是不確定的。實驗2是在統(tǒng)計用戶對點擊搜索引擎推薦的相關(guān)詞鏈接后得到的網(wǎng)頁列表滿意度的基礎(chǔ)上進行的分析。(2評測步驟仍利用實驗1中的30個關(guān)鍵詞得到的450個相關(guān)詞進行統(tǒng)計。對于每個關(guān)鍵詞在每個搜索引擎中得到的前5個相關(guān)詞,分別點擊其鏈接進入搜索得到的網(wǎng)頁列表,然后根據(jù)這些網(wǎng)頁內(nèi)容同用戶滿意度之間的匹配程度進行打分。打分后,對30個關(guān)鍵詞得到的450個打分結(jié)果進行統(tǒng)計分析。(3結(jié)果分析計算得分的算術(shù)平均值,得到G009Ie、百度和雅虎xIANDAI TusHu QINGBAo JIsHu 團的網(wǎng)頁列表平均得分為G00de2.887,百度2.307,雅虎2.455。

6、圖2實驗2網(wǎng)頁列表平均得分柱狀圖從圖2可以看出,Goode的反應(yīng)最好、得分最高,雅虎次之,百度最低。這說明相對而言,G00de向用戶推薦的相關(guān)詞,用戶點擊進入之后,最有可能找到令用戶滿意的結(jié)果。雅虎和百度跟G00de的差距比較大。雖然雅虎得分略高于百度,但實際上兩者差距并不大。雖然三個搜索引擎反應(yīng)的得分都高于打分中值2,但是與滿分4差距比較大。這說明當前主流的搜索引擎向用戶推薦的相關(guān)詞,用戶點擊其鏈接,得到的網(wǎng)頁列表同用戶滿意度的匹配并太不好,有較大的改進余地。4.3實驗3搜索引擎對同義詞推薦的研究(1實驗概述實驗3通過人工篩選的一些同義詞對,對搜索引擎的相關(guān)詞推薦功能進行評價。(2評測步驟通

7、過查詢同義詞詞典、網(wǎng)絡(luò)同義詞詞庫,以及同周圍用戶進行交流。反復比較,最終篩選出26對同義詞。前10對同義詞如表1所示:表l26對同義詞的前l(fā)O對關(guān)鍵詞同義誕紫禁城周樹人小甜甜腳踏車推拿石頭記番茄熊貓閃存盤北大故宮魯迅布蘭妮自行車按摩紅樓夢西紅柿大熊貓U盤北京大學圄圈現(xiàn)代圖書情報技術(shù)在Google、百度和雅虎這三個搜索引擎中分別將這些關(guān)鍵詞輸入檢索框,進行檢索,判斷搜索引擎推薦的相關(guān)詞中是否包含這個同義詞。如果包含,則數(shù)量加1;否則,記為0。最后統(tǒng)計數(shù)目。(3結(jié)果分析經(jīng)過檢索實驗,得出每個搜索引擎的命中數(shù),即在26對同義詞中命中的數(shù)目。表2三個搜索引擎對同義詞對的命中比較如表2所示,分別利用Go

8、ogle、百度和雅虎檢索實驗中的26個關(guān)鍵詞檢索時,其同義詞在相關(guān)搜索列表中出現(xiàn)的數(shù)目分別為10、19和14。轉(zhuǎn)化成百分比,則Goode、百度和雅虎的命中比例分別為:38.5%、73.1%、53.8%??梢钥闯?百度搜索引擎在這項實驗中表現(xiàn)最好,命中了最多的同義詞對,雅虎次之,G009le最差。百度的命中比例幾乎等于G009le命中比例的2倍。實驗說明,百度在理解中文上面更加具有優(yōu)勢,更能夠理解詞義,并將很多詞的同義詞和近義詞反映在其相關(guān)搜索中,而Google在這方面的表現(xiàn)不太好。5實驗結(jié)論通過三個實驗的數(shù)據(jù)統(tǒng)計和分析,可以得出如下結(jié)論:(1對于固定的一兩個關(guān)鍵詞,搜索引擎Goo舀e、百度和雅

9、虎推薦的相關(guān)詞令用戶滿意的排序為: G00de最好,雅虎次之,百度最差。Google顯著地好于后兩者,百度和雅虎的差別不是很大。三個搜索引擎中最好的G00出e,其推薦的相關(guān)詞用戶滿意比例也僅為71.9%,因此當前流行的搜索引擎在推薦相關(guān)詞方面還有待改進。(2搜索引擎采用的切分詞技術(shù)對相關(guān)詞推薦功能具有較大影響。對于同一個關(guān)鍵詞,在不同搜索引擎中得到的相關(guān)詞推薦列表差距非常大,對于字數(shù)相對較多的關(guān)鍵詞或較為生僻的關(guān)鍵詞來講更是如此。很多搜索引擎對于某些關(guān)鍵詞的意思理解得非常差,推薦的相關(guān)詞不能滿足用戶的檢索需求。 (3用戶如果使用搜索引擎推薦的相關(guān)詞進行二 搜索引擎相關(guān)關(guān)鍵詞推薦的對比研究 作者

10、: 作者單位: 刊名: 英文刊名: 年,卷(期: 引用次數(shù): 姜文彬, Jiang Wenbin 北京大學信息管理系,北京,100871 現(xiàn)代圖書情報技術(shù) NEW TECHNOLOGY OF LIBRARY AND INFORMATION SERVICE 2009,(z1 0次 參考文獻(9條 1.崔航.文繼榮.李敏強 基于用戶日志的查詢擴展統(tǒng)計模型期刊論文-軟件學報 2003(9 2.韓圣龍 網(wǎng)絡(luò)信息檢索工具評價指標期刊論文-情報學報 2001(4 3.Chu H T.Rosenthal M Search Engines for the World Wide Web:A Comparativ

11、e Study and Evaluation Methodology 1996 4.韓冬梅 后控詞表的設(shè)計開發(fā)與利用期刊論文-情報學報 1994(4 5.王源 后控規(guī)范的計算機處理 1993(2 6.鳳元杰.劉正春.王堅毅 搜索引擎主要性能評價指標體系研究期刊論文-情報學報 2004(1 7.張莉揚 網(wǎng)絡(luò)檢索工具性能評價標準淺議期刊論文-情報科學 2001(10 8.章成志.徐小琴 信息檢索系統(tǒng)的相關(guān)詞提示技術(shù)與評測期刊論文-情報理論與實踐 2007(1 9.用戶查詢?nèi)罩?Sogou 2008 相似文獻(1條 1.期刊論文 劉琦.卜佳俊.陳純.LIU Qi.BU Jia-Jun.CHEN Chun 基于Apriori算法的關(guān)鍵詞推薦在面向主題的用戶 個性化搜索中的應(yīng)用 -模式識別與人工智能2006,19(2 對傳統(tǒng)協(xié)作過濾方法在關(guān)鍵詞推薦系統(tǒng)中的應(yīng)用進行分析.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論