版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
垂直搜索選擇方法及其評價方法,搜索引擎論文最近幾年,隨著網(wǎng)上信息容量的增加和類型的多樣化,作為網(wǎng)上信息檢索系統(tǒng)的通用搜索引擎,已不能知足特殊領域、特殊人群的精準化信息需求服務,加之市場需求多元化也決定了搜索引擎的服務形式必將出現(xiàn)細分,出現(xiàn)針對不同行業(yè)提供愈加精到準確的垂直搜索服務。然而,據(jù)統(tǒng)計,利用垂直搜索次數(shù)只是利用Web搜索次數(shù)的1.56%。面對這種狀況,各搜索引擎公司為了知足用戶的需求,開展了同時對多個信息源進行垂直搜索,并把從各信息源搜集到的搜索結果進行聚合,再利用Web提供應用戶的聚合搜索服務。最早開展聚合搜索業(yè)務的是韓國的Naver,2000年,Naver開場了聚合搜索的商業(yè)化服務,到2018年6月,已占韓國國內搜索市場77%的份額,是韓國利用率最高的搜索引擎。當前,Google、Yahoo!、Bing、Baidu等世界知名的搜索引擎公司也都開展了聚合搜索業(yè)務。但是,這些公司的Web搜索引擎公司不是經(jīng)常性地開展聚合搜索業(yè)務。能否施行聚合搜索,除了根據(jù)用戶的問題需求外,還要根據(jù)最新的新聞報道、博客報道的動向來判定。Naver的特點是不僅提供Web上的信息,還提供來自各垂直搜索的相關信息,對各垂直搜索問題分開顯示。如當輸入大學進行搜索時,在頁面上分別顯示來自詞典、知識iN、知識百科、圖像等垂直搜索引擎有關大學的結果。與Naver不同,Google、Yahoo!、Bing、Baidu等是把Web搜索的結果和垂直搜索的結果混合顯示。Google、Yahoo、Bing等的聚合搜索,是在Web搜索結果前10位以追加形式插入垂直搜索結果。從上述可見,聚合搜索結果的顯示方式方法有兩種:一個是各垂直搜索分開顯示的方式方法;另一個是與Web搜索結果混合顯示的方式方法。有報告稱這兩種搜索結果顯示方式方法對用戶的點擊次數(shù)沒有太大的影響。但是以混合形式顯示時,不管哪種垂直搜索,排在搜索結果上位的更容易被點擊,所以把垂直搜索的結果插入哪個位置很重要。也就是講,以混合形式顯示W(wǎng)eb搜索結果和垂直搜索結果時,最好把以為重要的垂直搜索結果排在前面。一、聚合搜索的技術為了實現(xiàn)聚合搜索,重要的是對輸入到Web搜索引擎的問題混入了哪種垂直搜索的搜索結果,因而,下面重點介紹垂直搜索選擇方式方法及其評價方式方法。1.垂直搜索的選擇方式方法。垂直搜索的選擇判定使用三個要素,即問題、垂直搜索文集、問題日志。聚合搜索時,或用華而不實的一個要素選擇垂直搜索,或用邏輯回歸法組合幾個要素選擇垂直搜索。〔1〕問題。使用問題選擇垂直搜索的方式方法,是把問題中能否包含特定的本文關鍵詞語作為判定材料。詳細講,在AdHoc網(wǎng)指定垂直搜索名和相關的picture、movie、product、shopping等單詞,以及地名、觀光地名等,以本文關鍵詞語作為選擇垂直搜索的使用。例如,搜索digitalcamerashopping這一問題時,就以購物為本文關鍵詞語把購物垂直搜索作為選擇對象,搜索DayanPagoda問題時,就以塔為本文關鍵詞語把圖像垂直搜索作為選擇對象?!?〕垂直搜索的文集。使用垂直搜索的文集選擇垂直搜索的方式方法,是把輸入Web搜索的問題同時輸入垂直搜索,選擇更多與問題相符的檢索結果的垂直搜索。由于本方式是把輸入Web搜索的問題全都送入垂直搜索,所以計算成本較大。因而進行垂直搜索時,不使用含各類垂直搜索的完好索引,而是使用每種垂直搜索獨設的簡化索引,簡化索引是從完好索引節(jié)選而成的?!?〕問題日志。使用問題日志選擇垂直搜索的方式方法,是通過問題與垂直搜索的相關度選擇垂直搜索。通過直接輸入垂直搜索的問題,能反映出用戶對該垂直搜索感興趣的主題,以及每類垂直搜索的問題的傾向性。例如,在垂直搜索A中問題X的頻度高時,判定問題X與垂直搜索A的關聯(lián)度高,給問題X混入垂直搜索A的搜索結果。由于一個問題一般是由幾個單詞組成,所以把問題分割成若干單詞,找出被分割的單詞與垂直搜索之間的關聯(lián)度。另外,被分割的單詞,不僅在一個垂直搜索,有時也在多個垂直搜索中頻繁出現(xiàn),此時,為了查全能夠選擇多個垂直搜索進行查找。2.聚合搜索的評價。在聚合搜索中為了實現(xiàn)更好的信息聚合,需要熟悉聚合搜索的評價方式方法?!?〕評價對象和評價條件。聚合搜索的評價,分為由評價者的評價和根據(jù)有無點擊的評價。由評價者的評價又分為評價對象的不同和有無問題意圖兩種。①評價對象的不同。這種評價是評價者以何為根據(jù)判定合適、不合適的問題。即,對給出的問題,有不看搜索結果,判定問題與垂直搜索的關聯(lián)度;或是看了來自各垂直搜索的結果,判定問題與垂直搜索的關聯(lián)度兩種。前者的方式方法是由評價者給出的評價,只是以問題為對象得出的評價;而后一種方式方法,是以各垂直搜索的搜索結果為對象得出的評價。②問題意圖的有無。此評價觀點有兩個,一是有意圖,即事先把問題背后的意圖告知評價者讓其評價;二是無意圖,即不告知評價者問題背后的意圖,讓評價者自個考慮問題背后的意圖再行評價。前一個評價方式方法是被信息檢索領域競賽式會議TREC和NTCIR上采用的,當前,在信息檢索評估中被普遍使用。但是在聚合搜索評價方面至今尚無統(tǒng)一的評價方式方法。〔2〕評價方式方法的不同對評價的影響。圖盧茲大學的Kopliku等人對評價方式方法不同對評價的影響進行調查,本調查以視頻、圖像、新聞、地圖、Wiki、商品、AQ、字典等八個垂直搜索為對象,利用2007年TREC會議上使用的300個問題,由33個評價者介入評價。從調查結果看,評價者用實際看到的搜索結果,得出的判定更確切、全面。以視頻類垂直搜索為例,只從問題判定,所有問題中有12%合適視頻垂直搜索。但在看完檢索結果后再判定,所有問題中有24%合適視頻垂直搜索。其次是把問題背后的意圖告知評價者的評價和不告知評價者的評價,表示出告知問題背后意圖時的評價較局限,不靈敏。例如,當問題為海南島時,告知檢索意圖是想知道海南島的地理位置,給出正確解釋的垂直搜索是地圖、Wiki。但是不告知搜索意圖時,可以從圖像垂直搜索和動畫垂直搜索獲得正確解釋,由此可見,不告知搜索意圖時,評價者的視野更廣泛,使用正確解釋的垂直搜索的種類也增加?!?〕搜索結果的多樣性。圖盧茲大學的Kopliku等人還對聚合搜索結果的多樣性進行調查。調查顯示:只合適Web搜索的問題占19%,只合適垂直搜索的問題占16%,超過80%的問題合適垂直搜索,而且65%的問題合適多個垂直搜索。進一步,對于合適多個垂直搜索的問題最合適的垂直搜索進行調查,依次是50%問題合適Web搜索、23%問題合適Wiki、10%問題合適QA、6%問題合適動畫。結論是:進行一個垂直搜索,不能有多樣性的搜索結果;若進行聚合搜索能夠實現(xiàn)一個垂直搜索不能實現(xiàn)的多樣性。二、聚合搜索的課題與將來關于聚合搜索的研究,近年來比擬盛行,牽涉的課題也是多方面的,華而不實作為新的方向性的研究,有新聞搜索的選擇方式方法,以及用戶屬性推斷的應用。1.新聞搜索的選擇方式方法。為了把隨時變化的信息源混入聚合搜索中,利用者必須知道如今正在查找什么?Yahoo!的Diaz提出有效聚合新聞搜索結果的方式方法。例如,輸入Yahoo!這一問題,以關于Yahoo!的事件為起點,不是搜索導航性的問題,而是搜索新聞事件方面存在的問題,在這種情況下不能用2.1講述的方式方法選擇新聞搜索。Diaz提出了把問題能否忽然發(fā)生的?用該問題進行新聞搜索,排在頂端的新聞報道是數(shù)分鐘之前登錄的新的報道嗎?作為判定基準。進一步,從被聚合的新聞搜索結果的點擊率,對能否繼續(xù)聚合做動態(tài)性補充。與Diaz方式方法一樣,微軟也提出了針對最新新聞報道選擇新聞搜索的方式方法。這個方式方法是利用在近期7日內的新聞報道和博客報道中出現(xiàn)的本文關鍵詞語選擇新聞搜索。Yahoo!的Diaz們進一步提出,不是把新聞報道和博客報道,而是把Twitter的微博報道作為選擇的方式方法。假定記述微博的URL是近期關注的新聞和Web頁面,把URL上的報道內容排在上位以表示其重要性。詳細講,以Twitter為對象進行試驗,把URL上報道發(fā)送者的Tweet數(shù)、Retweet數(shù)、Follow數(shù)等各類信息輸入學習器,抽出有用的URL。以上這些能夠作為選擇新聞搜索的指標使用。2.用戶屬性推斷的應用。假如能夠推斷Web搜索用戶的專業(yè)性,即可實現(xiàn)包括垂直搜索的各種應用。根據(jù)微軟的White等人的調查,提出從輸入Web搜索的問題中,能夠判定出用戶是計算機專家、金融專家、醫(yī)學專家、法律專家的方式方法。詳細講,就是用輸入Web搜索的問題長度、問題中專業(yè)術語的含有度、一次搜索提出的問題數(shù)、訪問Web頁面數(shù)、對話時間等進行等級分類。有實驗報告稱對計算機專家的判定,再現(xiàn)率50%時能到達80%的精準度。而其余三類專家再現(xiàn)率50%時精準度為60%下面。假如判定專家的精準度提高,能夠作為選擇垂直搜索的一個要素使用。以下為參考文獻[1]Liu,N.;Yan,J.;C
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度倉儲信息化管理合同4篇
- 二零二五年度茶葉種植基地生態(tài)環(huán)境保護合同3篇
- 二零二五版珠寶寄售代銷服務協(xié)議3篇
- 2025年度征收拆遷安置房租賃合同示范文本4篇
- 2025年度汽車配件買賣居間服務協(xié)議書4篇
- 2025年度基礎設施安全監(jiān)測測量合同樣本4篇
- 2025年版智慧城市建設承包協(xié)議書范本3篇
- 二零二五年度離婚協(xié)議書起草與婚姻登記協(xié)助服務協(xié)議3篇
- 二零二五年電商客服人員服務規(guī)范培訓合同3篇
- 2025年分銷商市場推廣策略合同
- 勞動合同續(xù)簽意見單
- 大學生國家安全教育意義
- 封條(標準A4打印封條)
- 2024年保育員(初級)培訓計劃和教學大綱-(目錄版)
- 河北省石家莊市2023-2024學年高二上學期期末考試 語文 Word版含答案
- 企業(yè)正確認識和運用矩陣式管理
- 分布式光伏高處作業(yè)專項施工方案
- 陳閱增普通生物學全部課件
- 檢驗科主任就職演講稿范文
- 人防工程主體監(jiān)理質量評估報告
- 20225GRedCap通信技術白皮書
評論
0/150
提交評論