




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
信息檢索
第06章查詢處理技術(shù)軟件學(xué)院教研室陳鄞信息檢索系統(tǒng)的體系結(jié)構(gòu)文本數(shù)據(jù)庫數(shù)據(jù)庫管理建索引索引查詢處理搜索排序排序后的文檔用戶反饋文本處理用戶界面檢出的文檔用戶需求文本提問邏輯視圖倒排文檔引言查詢處理主要包含兩方面內(nèi)容將用戶輸入的原始查詢轉(zhuǎn)化為統(tǒng)一的查詢機內(nèi)表示形式序號檢索模型查詢機內(nèi)表示形式1布爾模型布爾表達式→合取向量的析取范式2向量空間模型向量3概率模型向量4基于統(tǒng)計語言模型的檢索模型詞串引言查詢處理主要包含兩方面內(nèi)容將用戶輸入的原始查詢轉(zhuǎn)化為統(tǒng)一的查詢機內(nèi)表示形式查詢重構(gòu)為什么要重新構(gòu)造查詢用戶檢索經(jīng)驗不足,無法提供高質(zhì)量的用戶查詢問題復(fù)雜,用戶無法提供恰當(dāng)?shù)谋硎鰸撛诘恼鎸嵭枨螅≧ealInformationNeed,RIN)意識到或感知到的需求(PerceptionInformationNeed,PIN)表達出的需求(Request)查詢(Query)用戶信息需求的不同狀態(tài)本章內(nèi)容6.1相關(guān)反饋與查詢重構(gòu)6.2自動的查詢擴展技術(shù)
6.1相關(guān)反饋與查詢重構(gòu)相關(guān)反饋(RelevanceFeedback
)利用用戶對于最初的檢索結(jié)果的相關(guān)性評估信息對系統(tǒng)的搜索策略進行調(diào)整,以改進檢索效果的技術(shù)相關(guān)反饋的原理F:從用戶那里接受相關(guān)性評估,輸出相關(guān)文檔和不相關(guān)文檔G:實現(xiàn)相關(guān)反饋公式檢索過程FG原始Q排序輸出相關(guān)和不相關(guān)的文檔重新形成的queryQ’相關(guān)評估相關(guān)反饋主要利用了如下思想當(dāng)用戶對文檔集不十分了解時,構(gòu)造一個好的查詢很困難,但是讓用戶來判斷具體文檔的相關(guān)性卻是比較容易的用戶看到某些文檔之后可能會使他們對原來所理解的信息需求進行修正如何利用相關(guān)反饋信息重新構(gòu)造查詢?本節(jié)主要內(nèi)容6.1.1向量空間模型中的相關(guān)反饋6.1.2偽相關(guān)反饋與隱式相關(guān)反饋6.1.3概率模型中的相關(guān)反饋6.1.1向量空間模型中的相關(guān)反饋Rocchio,1971年提出基本思想對用戶最初給出的權(quán)值進行調(diào)整,對于查詢中的每個詞,如果其在相關(guān)文檔集合中的權(quán)重比較高,則提高其在查詢中的權(quán)重;如果其在不相關(guān)文檔集合中的權(quán)重比較高,則降低其在查詢中的權(quán)重6.1.1向量空間模型中的相關(guān)反饋Rocchio算法,1971年提出相關(guān)反饋實現(xiàn)中的一個經(jīng)典算法20世紀(jì)70年代左右在Salton的SMART系統(tǒng)中引入并廣泛流傳基本思想對用戶最初給出的權(quán)值進行調(diào)整,對于查詢中的每個詞,如果其在相關(guān)文檔集合中的權(quán)重比較高,則提高其在查詢中的權(quán)重;如果其在不相關(guān)文檔集合中的權(quán)重比較高,則降低其在查詢中的權(quán)重
基本思想
向量中的權(quán)重分量如果為負(fù)值,那么該分量將會被忽略,即該分量權(quán)重設(shè)為0正反饋往往比負(fù)反饋更有價值,因此在很多IR系統(tǒng)中,會將參數(shù)設(shè)置成β>γ
一個合理的取值是α=1、β=0.75及γ=0.15實際上,很多系統(tǒng)都只允許進行正反饋,即相當(dāng)于設(shè)置γ=0只取檢索系統(tǒng)返回結(jié)果中排名最高的標(biāo)記為不相關(guān)的文檔進行負(fù)反饋Idedec-hi公式相關(guān)反饋可以同時提高召回率和正確率實際表明該技術(shù)在一些重召回率的場景下對于提高召回率非常有用。這其中的部分原因在于它對查詢進行了擴展修改后的查詢引入了一些新的索引詞,這些索引詞主要來自相關(guān)文檔實際應(yīng)用中的迭代算法Rocchio算法實際應(yīng)用中的問題長查詢檢索實現(xiàn)時更高的計算開銷,導(dǎo)致系統(tǒng)對用戶的應(yīng)答時間更長,降低了系統(tǒng)的效率。部分解決方案是只改變相關(guān)文檔中某些關(guān)鍵詞項(比如文檔中詞項頻率最高的20個詞項)的權(quán)重例子
T1
T2
T3T4
T5Q=(5,0,3,0,1)→初始查詢d1=(2,1,2,0,0)→相關(guān)文檔d2=(1,0,0,0,2)→不相關(guān)文檔S(Q,
d1)=(52)+(01)+(32)+(00)+(10)=16S(Q’,d1)=(5.752)+(0.51)+(42)+(00)+(0.50)=20S(Q,d2)=(51)+(00)+(30)+(00)+(12)=7S(Q’,d2)=(5.751)+(0.50)+(40)+(00)+(0.52)=6.75=1,=1/2,=1/4文本搜索中相關(guān)反饋的例子Initialquery:Newspacesatelliteapplications1.0.539,08/13/91,NASAHasn’tScrappedImagingSpectrometer2.0.533,07/09/91,NASAScratchesEnvironmentGearFromSatellitePlan3.0.528,04/04/90,SciencePanelBacksNASASatellitePlan,ButUrgesLaunchesofSmallerProbes4.0.526,09/09/91,ANASASatelliteProjectAccomplishesIncredibleFeat:StayingWithinBudget5.0.525,07/24/90,ScientistWhoExposedGlobalWarmingProposesSatellitesforClimateResearch6.0.524,08/22/90,ReportProvidesSupportfortheCriticsOfUsingBigSatellitestoStudyClimate7.0.516,04/13/87,ArianespaceReceivesSatelliteLaunchPactFromTelesatCanada8.0.509,12/02/87,TelecommunicationsTaleofTwoCompaniesUserthenmarksrelevantdocumentswith“+”.+++查詢擴展成18個帶權(quán)重的詞項2.074new 15.106space30.816satellite 5.660application5.991nasa 5.196eos4.196launch 3.972aster3.516instrument 3.446arianespace3.004bundespost 2.806ss2.790rocket 2.053scientist2.003broadcast 1.172earth0.836oil 0.646measure查詢擴展后的檢索結(jié)果1.0.513,07/09/91,NASAScratchesEnvironmentGearFromSatellitePlan2.0.500,08/13/91,NASAHasn’tScrappedImagingSpectrometer3.0.493,08/07/89,WhenthePentagonLaunchesaSecretSatellite,SpaceSleuthsDoSomeSpyWorkofTheirOwn4.0.493,07/31/89,NASAUses‘Warm’SuperconductorsForFastCircuit5.0.492,12/02/87,TelecommunicationsTaleofTwoCompanies6.0.491,07/09/91,SovietsMayAdaptPartsofSS-20MissileForCommercialUse7.0.490,07/12/88,GapingGap:PentagonLagsinRaceToMatchtheSovietsInRocketLaunchers8.0.490,06/14/90,RescueofSatelliteBySpaceAgencyToCost$90Million2186.1.2直接反饋、間接反饋與偽相關(guān)反饋直接反饋 (用戶有意識)間接反饋 (用戶無意識)也叫隱式相關(guān)反饋點擊率間接反映了該文檔與查詢的相關(guān)性假設(shè)文摘質(zhì)量比較好瀏覽時間等偽相關(guān)反饋 (無用戶)將返回結(jié)果的前K個文檔作為相關(guān)文本優(yōu)點:實現(xiàn)起來比較方便缺點:迭代,會導(dǎo)致查詢漂移例:coppermines→minesinChile
→Chile6.1.3概率模型中的相關(guān)反饋第1步:初始化第2步:第3步:詞t狀態(tài)相關(guān)文檔不相關(guān)文檔合計t出現(xiàn)rtdft
–
rtdftt
不出現(xiàn)R-rtN-dft-(R-rt)N-dft合計RN-RN第4步:重復(fù)以上兩步直至收斂VSM與概率檢索模型中
相關(guān)反饋技術(shù)的比較VSM中的相關(guān)反饋概率模型中的相關(guān)反饋作用對象不同概率模型中的反饋直接作用于模型(參數(shù)),而不是查詢對查詢的擴展性不同概率模型沒有擴展查詢提綱6.1相關(guān)反饋與查詢重構(gòu)6.2自動查詢擴展技術(shù)6.2自動查詢擴展技術(shù)查詢擴展用附加(額外的)的詞語補充原始查詢的過程查詢擴展的提出20世紀(jì)70年代,用于改善檢索結(jié)果查詢擴展的分類依據(jù)用戶的參與程度交互式查詢擴展擴展詞的選擇由用戶自己完成自動查詢擴展查詢擴展的分類依據(jù)用戶的參與程度交互式查詢擴展擴展詞的選擇由用戶自己完成自動查詢擴展擴展詞的選擇由系統(tǒng)自動完成依據(jù)擴展源基于相關(guān)文檔集合的查詢擴展基于相關(guān)反饋技術(shù)的局部分析法基于語義詞典的查詢擴展人工編撰計算機自動提?。ɑ谌课臋n集合的全局分析法)基于用戶日志的查詢擴展6.2.1全局分析法基本思想通過對全部文檔集合的分析,自動獲取關(guān)鍵詞之間相似度的矩陣(相似度詞典)。當(dāng)進行查詢時,使用與查詢相似度最高的關(guān)鍵詞作為新生成的查詢用詞如何從文檔集合中提取與查詢詞相似度高的關(guān)鍵詞?
相似度詞典的構(gòu)造方法tjditndm兩個詞所處的文檔環(huán)境越相似,它們之間的相似度就越大wji的計算t1…tj…tnd1n11…n1j…n1n………………dini1…nij…nin………………dmnm1…nmj…nmnd1…di…dmt1n11…ni1…nm1………………tjn1j…nij…nmj………………tnn1n…nin…nmn實際應(yīng)用中的公式關(guān)鍵詞之間相似度自動生成詞典樣例基于關(guān)鍵詞相似度矩陣的查詢擴展關(guān)鍵詞tj與查詢q之間的相似度選擇相似度最高的r個關(guān)鍵詞作為候選的擴展用關(guān)鍵詞,相應(yīng)的權(quán)值定義為設(shè)q’=(w’q1,w’q2,…,w’qn),則qe=q+q’其中r項不為0另外一種擴展辦法q=AddB=2AddA=1,D=1AddE=0.5AddB=0.5,E=0.5AddnothingA=5B=4.5C=1D=2E=1qe
=根據(jù)q不能找出僅包含E的文檔,但qe可以A=4B=2C=1D=1E=0Associated
term的權(quán)值系數(shù)為0.5
ABCDEA11000B11010
C00101
D01011
E00111
假設(shè)根據(jù)閾值將相似度轉(zhuǎn)化為二值的OriginaltermAssociatedtermABBA,DCEDB,EEC,D該方法也適用于人工編撰的同義詞典性能分析優(yōu)點最大限度地探求關(guān)鍵詞之間的關(guān)系相似度詞典建立以后,查詢擴展效率較高缺點相似度詞典建立過程中的時間和空間開銷較大,降低了該方法的可行性詞典質(zhì)量常常是一個問題6.2.2局部分析法基本思想利用初次檢索得到的與原查詢最相關(guān)的N篇文檔來確定擴展的詞語進一步分類基于直接相關(guān)反饋基于偽相關(guān)反饋局部上下文分析的方法算法要點從初始檢索得到的前k個段落中選擇與原查詢相關(guān)度最高的“概念”作為新的查詢用詞概念c與查詢q的相關(guān)程度由c與查詢q中的每一個
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年發(fā)酵合成控制系統(tǒng)合作協(xié)議書
- 企業(yè)用酒合同范例
- 廠區(qū)用地拆除合同范本
- 手寫的借款合同范本
- 化糞池改造工程合同范本
- 縣城酒吧轉(zhuǎn)讓合同范例
- 吊柜出售轉(zhuǎn)讓合同范本
- 瓦片勞務(wù)合同范本
- 樹木移植合同范本
- 義齒公司員工合同范本
- 2025年山東泰山財產(chǎn)保險股份有限公司招聘筆試參考題庫含答案解析
- 初中物理競賽及自主招生講義:第7講 密度、壓強與浮力(共5節(jié))含解析
- 非遺數(shù)字化保護的可行性研究
- 農(nóng)村自建房施工合同范本(包工包料)
- 高中主題班會 梁文鋒和他的DeepSeek-由DeepSeek爆火開啟高中第一課-高中主題班會課件
- 污水處理設(shè)施運維服務(wù)投標(biāo)方案(技術(shù)標(biāo))
- 一年級下冊書法教案 (一)
- 2025年復(fù)工復(fù)產(chǎn)安全開工第一課專題培訓(xùn)
- 2025幼兒園疫情報告制度及流程
- GB/T 41869.3-2024光學(xué)和光子學(xué)微透鏡陣列第3部分:光學(xué)特性測試方法
- 2024年9月時事政治試題帶答案
評論
0/150
提交評論