




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第7章信息檢索及發(fā)展《現(xiàn)代信息查詢與利用》課程組第7章信息檢索及發(fā)展《現(xiàn)代信息查詢與利用》課程組7.1信息檢索概述7.2信息檢索研究歷史和現(xiàn)狀7.3信息檢索模型7.1信息檢索概述37.1.1信息檢索詞匯(terms)
檢索的含義
“檢索就是查找”,這僅僅是一種狹義的解釋。從廣義的角度講,檢索包括“存貯”和“查找”兩個過程。
沒有存貯就沒有查找,存貯是為了查找,但查找必須有存貯,兩者缺一不可。
37.1.1信息檢索詞匯(terms)4信息檢索詞匯(terms)“檢索”(Retrieval)一詞是一個外來詞,來源于英語“Information
Retrieval”(信息檢索)Informationretrieval(IR)Informationaccess(obtain)Informationsearch(lookfor)Informationsearching(lookfor)Informationseeking(focusonusers,active)locatehit4信息檢索詞匯(terms)“檢索”(Retrieval)一7.1.2信息檢索的原理信息檢索
是指從任何信息集合中查出所需信息的活動、過程與方法。廣義的信息檢索還包括信息存貯,兩者又往往合并稱為“信息存貯與檢索(Information
storage
and
retrieval)。7.1.2信息檢索的原理信息檢索
是指從任何信息集合中查出信息檢索的原理信息存貯與檢索信息檢索的原理信息存貯與檢索信息檢索的起源信息檢索起源于圖書館的參考咨詢和文摘索引工作,從19世紀下半葉首先開始發(fā)展,至20世紀40年代,索引和檢索成已為圖書館獨立的工具和用戶服務(wù)項目。隨著1946年世界上第一臺電子計算機問世,計算機技術(shù)逐步走進信息檢索領(lǐng)域,并與信息檢索理論緊密結(jié)合起來;脫機批量情報檢索系統(tǒng)、聯(lián)機實時情報檢索系統(tǒng)信息檢索的起源信息檢索起源于圖書館的參考咨詢和文摘索引工作,87.1.3信息檢索發(fā)展階段●手工操作(manual)●計算機化(computerized)●網(wǎng)絡(luò)化(networked)●智能化(intelligentized)●認知化(cognized)87.1.3信息檢索發(fā)展階段●手工操97.1.4主要檢索系統(tǒng)類型聯(lián)機檢索(onlinesearch)
脫機檢索(offlinesearch)光盤檢索(CDsearch)網(wǎng)絡(luò)檢索(Interne/Websearch)全球數(shù)字圖書館系統(tǒng)(digitalglobalsystem)97.1.4主要檢索系統(tǒng)類型聯(lián)機檢索(onlinesear101、
聯(lián)機檢索(onlinesearch)
通信網(wǎng)絡(luò)
聯(lián)機檢索中心
檢索終端數(shù)據(jù)庫
主機
WAN微機101、聯(lián)機檢索(onlinesearch)
11檢索終端局域網(wǎng)
服務(wù)器
光驅(qū)
LAN微機光盤聯(lián)機檢索(CD
online)11檢索終端局域網(wǎng)服務(wù)器光驅(qū)L12網(wǎng)絡(luò)(Internet)信息檢索Internet網(wǎng)絡(luò)檢索分布、開放、異種機;客戶機/服務(wù)器模式,瀏覽器/服務(wù)器模式信息量大,無質(zhì)量控制;自動發(fā)掘、采集;免費服務(wù)居多個人用戶檢索模式;WIMP(瀏覽+檢索);自然語言檢索為主12網(wǎng)絡(luò)(Internet)信息檢索Internet網(wǎng)絡(luò)檢索137.2信息檢索研究歷史和現(xiàn)狀研究歷史和現(xiàn)狀1948年C.N.Mooers在其MIT碩士論文中第一次使用了“InformationRetrieval”這個術(shù)語1960-70年代在建立文摘檢索系統(tǒng)中,產(chǎn)生了布爾模型(BooleanModel)、向量空間模型(VectorSpaceModel)和概率檢索模型(ProbabilisticModel)137.2信息檢索研究歷史和現(xiàn)狀研究歷史和現(xiàn)狀147.2信息檢索研究歷史和現(xiàn)狀研究歷史和現(xiàn)狀1980年代出現(xiàn)商用數(shù)據(jù)庫檢索系統(tǒng):Dialog,ORBIT,MEDLINE1990’s第一個網(wǎng)絡(luò)搜索工具:1990年加拿大蒙特利爾大學(xué)開發(fā)的FTP搜索工具Archie147.2信息檢索研究歷史和現(xiàn)狀研究歷史和現(xiàn)狀157.2信息檢索研究歷史和現(xiàn)狀
研究歷史和現(xiàn)狀第一個WEB搜索引擎:1994年美國CMU開發(fā)的Lycos1995斯坦福大學(xué)博士生開發(fā)Yahoo1998斯坦福大學(xué)博士生開發(fā)的Google,提出PageRank計算公式1998年基于語言模型的IR模型提出157.2信息檢索研究歷史和現(xiàn)狀研究歷史和現(xiàn)狀167.2信息檢索研究歷史和現(xiàn)狀
研究歷史和現(xiàn)狀1990年代推薦系統(tǒng)的出現(xiàn):Ringo,Amazon,NetPerceptions文本分類和聚類的使用、信息抽?。篧hizbang167.2信息檢索研究歷史和現(xiàn)狀研究歷史和現(xiàn)狀177.2信息檢索研究歷史和現(xiàn)狀
研究歷史和現(xiàn)狀2000’s的重要事件文本檢索會議TREC(TextRetrievalConference)的發(fā)展問答系統(tǒng)評測專項Q/Atrack(QuestionAnsweringTrack)2001年,百度成立177.2信息檢索研究歷史和現(xiàn)狀研究歷史和現(xiàn)狀187.2信息檢索研究歷史和現(xiàn)狀
研究歷史和現(xiàn)狀2000’s以來的其他重要事件多媒體IR,Image,Video,Audioandmusic跨語言IR,DARPATides,文本摘要,DUC評測187.2信息檢索研究歷史和現(xiàn)狀研究歷史和現(xiàn)狀197.3檢索模型
三類
7.3.1基于內(nèi)容的信息檢索模型7.3.2結(jié)構(gòu)化模型
7.3.3瀏覽型數(shù)學(xué)模型197.3檢索模型三類20檢索模型分類信息檢索模型檢索模型瀏覽模型內(nèi)容模型結(jié)構(gòu)模型布爾模型向量模型概率模型非重疊鏈表模型鄰近節(jié)點模型平坦模型結(jié)構(gòu)導(dǎo)向模型超文本模型20檢索模型分類信息檢索模型檢索模型瀏覽模型內(nèi)容模型結(jié)構(gòu)模型217.3.1內(nèi)容模型
基于內(nèi)容的信息檢索模型有集合論模型
布爾模型、模糊集合模型、擴展布爾模型代數(shù)模型
向量空間模型、廣義向量空間模型、潛在語義標引模型、神經(jīng)網(wǎng)絡(luò)模型217.3.1內(nèi)容模型基于內(nèi)容的信息檢索模型有227.3.1內(nèi)容模型
基于內(nèi)容的信息檢索模型有概率模型
經(jīng)典概率論模型、推理網(wǎng)絡(luò)模型、置信(信念)網(wǎng)絡(luò)模型227.3.1內(nèi)容模型基于內(nèi)容的信息檢索模型有23檢索模型的基本概念——相關(guān)概念
標引項(IndexTerm)
文檔表示成多個Term的集合通常用詞來表示,但是也可以用其他語言單位來表示
關(guān)鍵詞(keywords)可以看成Term的一種標引項的權(quán)重(Weight)
不同標引項作用是不同的通過權(quán)重加以區(qū)分23檢索模型的基本概念——相關(guān)概念標引項(IndexTe24檢索模型的基本概念——模型要素
F是一個框架,用以構(gòu)建文檔,查詢以及它們之間關(guān)系的模型
D是一個文檔集合,通常由文檔邏輯視圖來表示??梢允且唤M索引詞或關(guān)鍵詞。既可以自動提取,也可以是由人主觀指定。24檢索模型的基本概念——模型要素F是一個框架,用以構(gòu)建文25檢索模型的基本概念——模型要素
Q是一個查詢集合,是用戶任務(wù)的表達,由查詢需求的邏輯視圖來表示。
R(qi,dj)是一個排序函數(shù),它給查詢qi和文檔dj之間的相關(guān)度賦予一個排序值即:IR模型由上述三個要素組成
R(qi,dj)=F(D,Q)25檢索模型的基本概念——模型要素261、
布爾模型一種簡單的檢索模型,它建立在經(jīng)典的集合論和布爾代數(shù)的基礎(chǔ)上261、布爾模型一種簡單的檢索模型,它建立在經(jīng)典的集合論271、
布爾模型基本原理系統(tǒng)索引詞集合中的每一個索引詞在一篇文檔中只有兩個狀態(tài)出現(xiàn)不出現(xiàn)檢索提問式q由三種布爾運算符“and”、“or”、“not”連接索引詞來構(gòu)成271、布爾模型28布爾模型集合的幾種表示具有某種屬性的事物的全體就構(gòu)成一個集合,以A,B,C,…表示構(gòu)成集合的事物,以a,b,c,…表示該集合的元某個圖書館現(xiàn)存的所有圖書——有限集
以S1={a,b,c,d}表示28布爾模型集合的幾種表示29布爾模型集合的幾種表示所有的正整數(shù)——無限集
以S2={1,2,3,4,…}表示
P(x)表示與元x有關(guān)的一個屬性
S3={x|x是正偶數(shù)}
S4={x|1<x<10}為空集29布爾模型集合的幾種表示30布爾模型——集合的表示集合間的關(guān)系
x是A中的一個元,記作x∈Ax不是A中的一個元,記作x?A
集合的圖形表示空間E
集合A元x30布爾模型——集合的表示集合間的關(guān)系空間E集合A元x31布爾模型——集合的運算并運算設(shè)A,B是兩個集合,集合A與B的并運算是由A的一切元素和B的一切元素所組成的集合,記做A∪B,數(shù)學(xué)表示為:設(shè)A={a,b,c,d,e},B={c,d,x,y,z}
則A∪B={a,b,c,d,e,x,y,z}
即A∪B={x|x∈A∨x∈B}AB空間E31布爾模型——集合的運算并運算AB空間E32布爾模型——集合的運算交運算設(shè)A,B是兩個集合,包含A和B的所有公共元素的集合叫做A與B的交集,記做A∩B,數(shù)學(xué)表示為:設(shè)A={a,b,c,d,e},B={c,d,x,y,z}
則A∩B={c,d}
即A∩B={x|x∈A∧x∈B}32布爾模型——集合的運算交運算33布爾模型遵循兩條基本規(guī)則每個索引詞在一篇文檔中只有兩種狀態(tài):出現(xiàn)或不出現(xiàn),對應(yīng)邏輯值為0或1
查詢是由三種布爾邏輯運算符and,or,not連接索引詞組成的布爾表達式33布爾模型遵循兩條基本規(guī)則34布爾模型——集合的運算差運算設(shè)A,B是兩個集合,A-B是由一切屬于A但不屬于B的元素所組成的集合,稱為B在A中的余集,或者A與B的差,即設(shè)A={a,b,c,d,e},B={c,d,x,y,z}
則A-B={a,b,e},B-A={x,y,z}
數(shù)學(xué)表示為
A-B={x|x∈A﹁x∈B}34布爾模型——集合的運算差運算35布爾模型定義用qdnf表示查詢q的析取范式,qcc表示qdnf的任意合取分項,文獻dj
與查詢q的相似度為如果,則表示文獻dj與q相關(guān),否則為不相關(guān)。
sim(dj,q)為該模型的匹配函數(shù)(相似度)35布爾模型定義36布爾模型——優(yōu)缺點優(yōu)點簡單而整齊自我保護功能,降低用戶對搜索系統(tǒng)的期望,使自己不在責任方,檢索結(jié)果不好的原因在于用戶構(gòu)造查詢不好簡單、易理解、簡潔的形式化缺點它的檢索策略是基于二值決策準則,即一個文檔只被判斷成相關(guān)的或不相關(guān)的,無任何等級變化當用布爾表達式表示精確語義的時候,很難將信息表達為一個布爾表達式準確匹配,信息需求的能力表達不足36布爾模型——優(yōu)缺點優(yōu)點簡單而整齊自我保護功能,降低用戶對布爾模型目前仍然是商業(yè)文檔數(shù)據(jù)庫的主流模型,并為一些新的領(lǐng)域提供了一個好的起點布爾模型382、向量模型——n維向量考慮從空間坐標系原點出發(fā)(其他向量可以平移到原點出發(fā))的向量,其終點坐標為<x1,x2,…,xn>,我們稱之為一個n維向量382、向量模型——n維向量考慮從空間坐標系原點出發(fā)(其他392、向量模型——n維向量向量的運算加、減、倍數(shù)、內(nèi)積392、向量模型——n維向量40向量模型——空間概念文獻空間如果把每個標引詞看作是一個向量,代表了空間的一個維,則由這些標引詞集合定義了一個空間文獻集合中的任一文獻都可以表示為這個多維空間中的一個向量,這個空間就成為“文獻空間”40向量模型——空間概念文獻空間41向量模型——空間概念標引詞空間文獻集合中的一篇文獻可看成是標引詞空間的一個維,空間中的一點代表一個標引詞點從原點到該點的向量就是一個標引詞向量它在各個軸上的分量就是該標引詞在各個軸所代表的相應(yīng)文獻中的權(quán)重41向量模型——空間概念42向量模型——模型含義
向量空間模型(VectorSpaceModel,VSM)
由康奈爾大學(xué)Salton等人在上世紀70年代末提出并倡導(dǎo)的,原型系統(tǒng)為SMART*
該模型采用了“部分匹配”的檢索策略,即:出現(xiàn)部分索引詞也可以出現(xiàn)在檢索結(jié)果中,以克服布爾模型的缺點*可從/pub/smart/下載全部源碼和相關(guān)語料42向量模型——模型含義向量空間模型(VectorSpa43向量模型——模型含義
向量空間模型(VectorSpaceModel,VSM)
通過給查詢或文檔中的索引詞分配非二值權(quán)值來實現(xiàn)查詢和文檔都可轉(zhuǎn)化成Term及其權(quán)重組成的向量表示,并可以看成空間中的點。向量之間通過距離計算得到查詢和每個文檔的相似度*可從/pub/smart/下載全部源碼和相關(guān)語料43向量模型——模型含義向量空間模型(VectorSpa44向量模型——模型含義向量模型通過分派非二值權(quán)重給查詢和文檔中的索引項來實現(xiàn)檢索目標這些權(quán)重用于計算系統(tǒng)中的每個文檔與用戶的查詢請求的相似程度,向量模型通過對文檔按照相似程度降序排列的方式,來實現(xiàn)文檔與查詢項的部分匹配結(jié)果中的文檔排列順序比通過布爾模型得到的結(jié)果要合理得多44向量模型——模型含義向量模型通過分派非二值權(quán)重給查詢和45向量模型——模型含義在該模型中,與(ki,dj)相關(guān)聯(lián)的權(quán)重wi,j是一個非二值數(shù)查詢中的索引項也是有權(quán)重的,設(shè)wi,q是與(ki,q)相關(guān)聯(lián)的權(quán)重,且wi,q≥0,則查詢向量Q被定義成
Q=(w1,q,w2,q,w3,q…………wt,q)
其中,t是系統(tǒng)中所有索引項的數(shù)目45向量模型——模型含義在該模型中,與(ki,dj)相關(guān)聯(lián)46向量模型——模型含義文檔dj的向量可以表示為
wj=(w1,j,w2,j,w3,j………wt,j),向量模型通過wj和Q的相關(guān)度來評價文檔dj和查詢q的相關(guān)度。這種關(guān)系可以用定量表示,一般使用兩個向量之間的夾角余弦值來計算46向量模型——模型含義47向量模型——模型含義變量wi稱為權(quán)值,非負表示對應(yīng)詞項ki對于判斷d和查詢q相關(guān)性的重要程度(注意,這里的q是一般的,而d是具體的)
q=<v1,v2,…vt>
變量vi的含義類似于wi
兩個基本問題:如何定義wi和vi
如何計算R(d,q)47向量模型——模型含義變量wi稱為權(quán)值,非負48向量模型——模型含義設(shè)wi和vi為對應(yīng)的詞分別在d和q中出現(xiàn)的次數(shù),于是我們有了兩個m維向量,用夾角的cos表示“接近度”,即
48向量模型——模型含義設(shè)wi和vi為對應(yīng)的詞分別在d和q493、
概率模型概率模型基本思想是:給定一個用戶的查詢,則有一個包含相關(guān)文檔且不包含不相關(guān)文檔的集合。設(shè)想這個文檔集合是一個理想的結(jié)果集。493、概率模型概率模型基本思想是:507.3.3概率模型基本假設(shè)給定一個查詢q和文檔集中一個文檔dj,概率模型試圖找出用戶對其感興趣的概率模型假設(shè)這個概率只是依賴于查詢和文檔的表示,進而模型假設(shè)文檔集中存在一個子集,它使得總體相關(guān)概率在集合中的文檔被認為是與查詢相關(guān)的,不在集合中的則被認為是不相關(guān)的507.3.3概率模型基本假設(shè)51概率模型——貝葉斯定理
貝葉斯定理詞條的獨立假設(shè)
P(AB)=P(A)P(B)當且僅當A與B相互獨立對一篇文檔而言,若文檔中的各個索引詞相互獨立,則有
P(dj)=P(k1)…P(kt)51概率模型——貝葉斯定理
貝葉斯定理52概率模型——模型定義定義設(shè)索引詞的權(quán)重為二值的,即:
R表示已知的相關(guān)文檔集(或最初的猜測集),用表示R的補集。表示文檔dj與查詢q相關(guān)的概率,表示文檔dj與查詢q不相關(guān)的概率。文檔dj與查詢q的相似度sim(dj,q)可以定義為:52概率模型——模型定義定義53概率模型——優(yōu)缺點優(yōu)點理論上講,文檔按照其與目標集合的相關(guān)概率降序排列缺點需要最初將文檔分為相關(guān)和不相關(guān)的集合所有權(quán)重都是二值的,模型中仍然假設(shè)索引項之間是相互獨立的53概率模型——優(yōu)缺點優(yōu)點54比較布爾、向量和概率模型是三個傳統(tǒng)的檢索模型布爾模型是基于集合理論和布爾代數(shù)的一種簡單檢索
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 家用電器檢測行業(yè)發(fā)展?jié)摿︻A(yù)測及投資策略研究報告
- 2025-2030年中國報進警器項目投資可行性研究分析報告
- 中國鐵路建設(shè)市場全面調(diào)研及行業(yè)投資潛力預(yù)測報告
- 4《路程時間與速度》(教學(xué)設(shè)計)-2024-2025學(xué)年四年級上冊數(shù)學(xué)人教版
- 2025K歌APP行業(yè)市場分析報告
- 2025年汽車頂襯項目可行性研究報告
- 2025年變速箱主體裝飾罩行業(yè)深度研究分析報告
- 快樂讀書吧:讀讀童話故事 教學(xué)設(shè)計-2024-2025學(xué)年語文二年級上冊統(tǒng)編版
- 面膜采購合同范本
- 2025年中國網(wǎng)站建設(shè)行業(yè)發(fā)展?jié)摿︻A(yù)測及投資戰(zhàn)略研究報告
- 2025人教版一年級下冊數(shù)學(xué)教學(xué)進度表
- 2025年四川司法警官職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試近5年??及鎱⒖碱}庫含答案解析
- 新建污水處理廠工程EPC總承包投標方案(技術(shù)標)
- 山東省德州市2024-2025學(xué)年高三上學(xué)期1月期末生物試題(有答案)
- 本人報廢車輛委托書
- 雙減政策與五項管理解讀
- 2025年道德與法治小學(xué)六年級下冊教學(xué)計劃(含進度表)
- 過橋資金操作流程
- 貨物學(xué) 課件1.2貨物的特性
- 《略陽名勝古跡》課件
- 新時代中國特色社會主義理論與實踐2024版研究生教材課件全集2章
評論
0/150
提交評論