版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
2信息檢索基礎理論2.1信息檢索的基本原理■通過對大量的、分散無序的文獻信息進行搜集、加工、組織、存儲,建立各種各樣的檢索系統(tǒng),并通過一定的方法和手段,使存儲與檢索這兩個過程所采用的特征標識達到一致,以便有效地獲得和利用信息源。■存儲是為了檢索,檢索又必須先進行存儲。信息存儲與檢索■一是信息存儲,即把大量分散的無序的信息集中起來,經(jīng)過加工,使之有序化、系統(tǒng)化,成為有功能的檢索工具或檢索系統(tǒng)。■二是信息檢索,是指通過一定的方法和手段,使信息存儲與檢索兩個過程所采用的特征和標識達到一致,以便有效地獲取和利用文獻...手工檢索與計算機化檢索的對比手工計算機信息集合文字型檢索工具機讀數(shù)據(jù)庫需求集合文字型檢索課題形式化表示的提問式匹配選擇眼看、主翻、腦子判斷計算機程序信息檢索的基本原理:信息集合一一匹配選擇一—需求集合1、需求集合需求集合涉及人類生存所必需的一切東西,其中包括信息需求。■信息需求的結構與規(guī)律。⑴信息需求是一種運動狀態(tài),并表現(xiàn)為三個層次結構。⑵信息需求的心理行為規(guī)律包括Mooers定律、Zipf最少省力法則、馬太效應和羅賓漢效應。⑶學生信息需求特征。■信息需求的識別與表達?!鲂畔⑿枨蟮奶幚砼c加工。即采用特定的檢索語言將信息需求表示出來,換言之,將檢索問題或課題進行處理,抽取出主題內(nèi)容或其他特征。經(jīng)過這樣處理的信息需求稱之為Query。用戶的信息需求是發(fā)展變化的,并且受著時、空的限制。這說明,用戶信息需求的狀態(tài)是一種“運動狀態(tài)”,科亨(Kochen)曾經(jīng)將用戶的信息需求狀態(tài)劃分為如下圖所示的三個層次。人類的社會信息(情報)需求1.生活中的需求表現(xiàn)物質(zhì)生活的信息需求精神、文化生活的信息需求(3)個人安全的信息需求勞動和其他社會工作的信息需求社會交往與互助的信息需求適應社會的信息需求增長知識的信息需求創(chuàng)造活動的信息需求(9)實現(xiàn)某種生活目標的信息需求(10)產(chǎn)生某種興趣的信息需求職業(yè)工作中的需求表現(xiàn)(1)有關職業(yè)工作環(huán)境方面的信息需求(2)有關職業(yè)工作業(yè)務素質(zhì)方面的信息需求(3)有關職業(yè)工作物質(zhì)條件方面的信息需求(4)有關職業(yè)工作社會關系方面的信息需求(5)有關職業(yè)工作業(yè)務環(huán)節(jié)的信息需求(6)有關職業(yè)工作目標方面的信息需求生理需求安全需求社交需求尊敬需求實現(xiàn)需求信息需求咱然信息需求、社會信息需求)活動(7)有關職業(yè)工作技能與知識方面的信息需求社會化中的需求表現(xiàn)(1)關于基本生活和勞動技能方面的信息(2)關于社會生活目的、社會觀與價值觀的信息(3)關于社會的自然環(huán)境信息(4)關于認識社會地位與職業(yè)的信息(5)關于社會行為規(guī)范、紀律、法制等方面的信息(6)關于所有與之交往的社會其他成員的信息2、信息集合信息集合是指有關某一領域的文獻或數(shù)據(jù)的集合?!鲂畔⒓系膹碗s性?!鲂畔⒓系男蚧??!鯝ccesspointe每件信息都包含有其內(nèi)部和外部的特征即信息的屬性,這些特征可以用來作為檢索的出發(fā)點和匹配的依據(jù)。我們稱之為檢索點。3、匹配與選擇匹配與選擇是一種機制,它負責把需求集合與信息集合進行相似性比較,然后根據(jù)一定的標準選出符合需要的信息?!霾捎貌紶柲P停粋€文檔通過一個關鍵詞條的集合來表示,這些詞條來自一個詞典。在查詢與文檔的匹配過程中,主要看該文檔中的詞條是否滿足查詢的條件?!霾捎孟蛄磕P停嬃课臋n向量與查詢詞串之間的相似度。■采用概率論模型,將文檔按照與查詢的概率相關性的大小進行排序,排在最前面的文檔是最有可能被獲取的文檔。■此外,還可以采用神經(jīng)網(wǎng)絡模型、基于命題邏輯模型、聚類模型、基于規(guī)則模型、模糊模型和語義模型等,來深入研究查詢與文檔之間的匹配過程。信息檢索的本質(zhì)是信息用戶的需求和信息集合的比較與選擇,即匹配(match)的過程?!鲇脩舾鶕?jù)檢索需求,對一定的信息集合采用一定的技術手段,根據(jù)一定的線索與準則找出相關的信息。計算機信息檢索原理示意圖IR系統(tǒng)組成:用戶接口(輸入查詢、返回結果及反饋),用戶兩種任務:retrieval或browsing,IR兩種模式:pull(用戶主動發(fā)起請求,在相對穩(wěn)定之數(shù)據(jù)集合上)和push(用戶自定義興趣、系統(tǒng)發(fā)出流動數(shù)據(jù)給用戶),文本處理(預處理查詢和文本),查詢處理(對文本處理之后的查詢進一步處理得到查詢的內(nèi)部表示),文本標引(Indexing得到TextRepresentation),搜索、排序、LogicalView2.2信息檢索的相關性問題■定義:檢索結果與用戶需求一致性程度■影響因素:?用戶信息需求的表達?相關度判斷的算法?用戶的主觀判斷■手檢相關性、機檢相關性■“相關性"(relevance),是指信息檢索系統(tǒng)針對用戶的查詢(query)從文檔集中檢出的文檔與查詢之間的一種匹配關系。?現(xiàn)代信息檢索以自然語言文本為對象,從嚴格意義上講,文檔與查詢之間不再是數(shù)據(jù)庫檢索中的那種簡單的匹配關系。但“匹配”這一術語一直在使用,這里也接受這種說法。手檢相關性■依賴于用戶智能?知識結構、項目進展階段、用戶心理、認知行為、認知能力■提高手檢相關性的方法:?分析概念及學科屬性;對檢索工具的了解?調(diào)整檢索策略機檢相關性■系統(tǒng)相關性?(1)詞頻方法(2)位置方法(3)引用率方法(4)點擊率方法(5)分類或聚類■用戶相關性搜索引擎三大定律第一定律相關性定律情報檢索、信息檢索或全文檢索的相關性都是基于詞頻統(tǒng)計的。當用戶輸入檢索詞時,搜索引擎去找那些檢索詞在文章(網(wǎng)頁)中出現(xiàn)頻率較高的,位置較重要的,再加上一些對檢索詞本身常用程度的加權,最后排出一個結果來(檢索結果頁面)。第二定律人氣質(zhì)量定律解決了技術問題??茖W引文索引機制的思路移植到網(wǎng)上就是誰的網(wǎng)頁被鏈接次數(shù)多,那個網(wǎng)頁就被認為是質(zhì)量高,人氣旺的。再加上相應的鏈接文字分析,就可以用在搜索結果的排序上了。根據(jù)這一定律,搜索結果的相關性排序,并不完全依賴于詞頻統(tǒng)計,而是更多地依賴于超鏈分析。這條定律也成為李彥宏申請的美國專利。第三定律自信心定律根據(jù)這一定律,搜索結果的相關性排序,除了詞頻統(tǒng)計和超鏈分析之外,更注重的是競價拍賣。誰對自己的網(wǎng)站有信心,誰就排在前面。有信心的表現(xiàn)就是愿意為這個排名付錢。基于詞頻統(tǒng)計的相關性■當用戶輸入檢索詞時,搜索引擎去找那些檢索詞在文章(網(wǎng)頁)中出現(xiàn)頻率較高的,位置較重要的,再加上一些對檢索詞本身常用程度的加權,最后排出一個結果來(檢索結果頁面)?!鲈缙诘乃阉饕娼Y果排序都是基于詞頻統(tǒng)計的,如Infoseek,Excite,Lycos等,它們基本上是沿用了網(wǎng)絡時代之前學術界的研究成果,工業(yè)界的主要精力放在處理大訪問量和大數(shù)據(jù)量上,對相關性排序沒有突破。■詞頻統(tǒng)計其實根本沒有利用任何跟網(wǎng)絡有關的特性,是前網(wǎng)絡時代的技術。然而,網(wǎng)絡時代的主要文獻是以網(wǎng)頁的形式存在的,而幾乎每個人都可以隨心所欲地在網(wǎng)上發(fā)表各種內(nèi)容,詞頻相同的兩個網(wǎng)頁,質(zhì)量相差可以很遠,可是按照搜索引擎的第一定律,對這兩個網(wǎng)頁的排序應該是一樣的。為了能夠派在某些檢索結果的前幾位,許多網(wǎng)頁內(nèi)容的制作者絞盡腦汁,在其頁面上堆砌關鍵詞,搜索引擎對此防不勝防,苦不堪言。這種情況到了1996年開始有了改變。(2)位置方法■根據(jù)關鍵詞在文中出現(xiàn)的位置來判定文件的相關性。認為關鍵詞出現(xiàn)得越靠前,文件的相關程度就越高。(3)引用率方法■科學引文分析■超鏈分析百度GooglePangRank算法■科學引文索引的機制,說白了就是誰的論文被引用次數(shù)多,誰就被認為是權威,論文就是好論文。這個思路移植到網(wǎng)上就是誰的網(wǎng)頁被鏈接次數(shù)多,那個網(wǎng)頁就被認為是質(zhì)量高,人氣旺。再加上相應的鏈接文字分析,就可以用在搜索結果的排序上了。這就引出了搜索引擎的第二定律:人氣質(zhì)量定律。根據(jù)這一定律,搜索結果的相關性排序,并不完全依賴于詞頻統(tǒng)計,而是更多地依賴于超鏈分析?!龅牵钜恍<腋宇^疼的是,網(wǎng)頁評級算法使那些原本合法的、并且非常符合用戶檢索需求的網(wǎng)頁,因為很少被其他網(wǎng)頁鏈接而被深深地埋在成千上萬的搜索結果中。對于一個特定用戶來說,某一個網(wǎng)頁跟他的檢索需求的相關度其實并不取決于這個網(wǎng)頁是否流行。.“Google的搜索技術更多地是把注意力集中在Web的架構上,這樣不利于挖掘網(wǎng)頁深層次的價值,而含有特定主題的'簇'的概念則非常相似于生物界的'群落',”Teoma的副總裁PaulGardi說。在Teoma引擎向用戶給出搜索結果之前,它會確定下來一系列與關鍵詞相關的“群落”,并找到這個“群落”內(nèi)的權威站點,然后根據(jù)這些權威站點對網(wǎng)頁的引用頻率確定每個頁面的相關程度。AskJeeves就是因為放棄了原來的搜索技術提供者轉而采用Teoma引擎,而使其檢索量在2002年和2003年每年都增加了30%?!鯳EB中各頁面之間的鏈接關系是一項可以利用的重要信息。基于這種信息的技術被稱為鏈接分析技術。絕大部分鏈接分析算法都有共同的出發(fā)點:更多地被其他頁面鏈接的頁面是質(zhì)量更好的頁面,并且從更重要的頁面出發(fā)的鏈接有更大的權重。這個循環(huán)定義可以通過迭代算法巧妙打破。最著名的鏈接分析算法是Stanford大學提出并應用到Google搜索引擎中的PageRank算法以及IBM用于CLEVER搜索引擎的HITS算法。.HITS是IBMAlmaden研究中心開發(fā)的另一種鏈接分析算法。它認為每個WEB頁面都有被指向、作為權威(Authority)和指向其他頁面作為資源中心(Hub)的兩方面屬性,其取值分別用A(p)和H(p)表示。A(p)值為所有指向p的頁面q的中心權重H(q)之和,同樣,頁面p的中心權重H(p)值是所有p所指向的頁面q的權威權重A(q)之和,如下式:A(p)=£H(qi)(其中qi是所有鏈接到p的頁面)H(p)=£A(qi)(其中qi是所有頁面p所鏈接到的頁面)■鏈接分析方法常常和基于內(nèi)容的檢索方法相結合。盡管很多基于較小的數(shù)據(jù)規(guī)模(數(shù)十G)網(wǎng)頁數(shù)據(jù)的實驗并不能證明鏈接分析算法能夠提高檢索的性能。但是,很多人都相信,鏈接分析方法能夠反映WEB社會的一些最自然的屬性,應該能夠在大規(guī)模真實環(huán)境下提高檢索結果。Google的使用成功也增強了大家的信心砝碼。PageRank定義的是在WEB中頁面的訪問概率。訪問概率越大的頁面的PageRank值也越大。具體的計算公式是:Pr(t)=(1-d)/T+d(Pr(t1)/C(t1)+Pr(t2)/C(t2)+...+Pr(tn)/C(tn))即,每個頁面的PageRank(Pr)是無意中直接瀏覽到的概率和從上一頁中繼續(xù)訪問的概率總和。其中,T是節(jié)點(頁面)總數(shù),C(t)是從頁面t指出的超鏈接總數(shù),d稱為阻尼因子(dampingfactor),一般取值為0.85。概率Pr(t)反映了節(jié)點t的重要程度。(4)點擊率方法“鼠標投票”代表:DirectHit(5)分類和聚類
■分類:將一篇文章/文本自動的識別出來,按照先驗的類別進行匹配,確定?!鼍垲悾簩⒁唤M的文章/文本/信息進行相識性的比較,將比較相識的文章/文本/信息歸為同一組的技術。■模糊聚類:沒有先驗的聚類因子,完全按照算法來進行識別和類大小,類的多少,類的誤差等都是不確定因素。分類和聚類為什么出錯?關鍵在于一個模糊上。因為機器不像人擁有極強的認知能力,利用機器進行新聞分類和聚類所采用的做法通常都是我們說的模式識別,或者更精確的說其實是一種模糊特征識別。公車?;不能聯(lián)想:自相關性判斷方法的缺點分析標引停留在字符層次:蘋果:水果?公司?;不能區(qū)分同形異義詞行車單車腳踏車…公車?;不能聯(lián)想:自■基于內(nèi)容的理解■聯(lián)想功能及語義處理■相關反饋技術■提供信息導引功能2.3信息檢索的效果評價■評價指標體系:查全率、查準率、漏檢率、誤檢率■查全率(檢全率)檢全率=二檢出相關文獻"x100%
系統(tǒng)中相關文獻總量■查全率(檢全率)查準率(檢準率)檢準率=查準率(檢準率)檢準率=檢出相關文獻量
檢出文獻總量x100%淮好壺淀"為漏檢相關文獻量漏檢率漏檢率=X100%系統(tǒng)中相關文獻總量I口松玄誤檢文獻量誤檢率誤檢率=檢出文獻總量x100%影響檢索效果的主要因素■存儲檢索■信息系統(tǒng)組織結構、檢索系統(tǒng)功能問題■檢索策略、檢索方法問題提高檢索效果的措施■熟悉各種信息檢索系統(tǒng)特征■認真分析課題需求■靈活掌握檢索方法和提高制定檢索策略的能力網(wǎng)絡信息資源檢索效果評價■索引數(shù)據(jù)庫■信息組織管理評價指標■信息檢索功能評價指標■檢索結果評價指標■檢索界面的評價指標2.4信息檢索系統(tǒng)和工具類型:手工檢索系統(tǒng)、穿孔卡片檢索系統(tǒng)、縮微檢索系統(tǒng)、光盤檢索系統(tǒng)、計算機信息檢索系統(tǒng)、網(wǎng)絡信息檢索系統(tǒng)印刷型檢索工具的類型和結構■文獻檢索工具:目錄、題錄、索引、文摘■事實和數(shù)據(jù)檢索工具2.4計算機檢索系統(tǒng)的結構及工作原理■聯(lián)機■光盤■網(wǎng)絡■物理結構■邏輯結構:信息選擇與采集子系統(tǒng)、標引處理子系統(tǒng)、建庫子系統(tǒng)、詞表管理子系統(tǒng)、用戶接口子系統(tǒng)、提問處理|檢索匹配子系統(tǒng)(1)信息選擇與采集子系統(tǒng)?要求:快速、經(jīng)濟、廣泛、連續(xù)?功能:信息選擇與采集子系統(tǒng)將決定信息檢索系統(tǒng)中數(shù)據(jù)庫的類型及收錄范圍,是信息檢索與利用的起點。?工作方式對通常的計算機化檢索系統(tǒng)來說,信息選擇與采集主要由人工完成,但對于網(wǎng)絡信息檢索系統(tǒng)來說,則主要通過網(wǎng)絡搜索機器人Robot自動進行,并且可以定期更新。(2)標引處理子系統(tǒng)?功能標引(indexing)是指對文獻主題特征進行分析并使之顯性化,以便為存儲和檢索這兩個環(huán)節(jié)提供某種連接的文獻加工操作。標引處理子系統(tǒng)將決定著數(shù)據(jù)庫的標引深度(或網(wǎng)羅度)和檢索點,并直接影響到系統(tǒng)的檢索方式和檢索功能。?標引處理的類型——人工賦詞標引—機器標引——無標引(或全標引)?標引要求不漏標一全面不錯標一準確不濫標一簡練(3)建庫子系統(tǒng)主要作業(yè)內(nèi)容包括:?數(shù)據(jù)錄入?錯誤檢查與處理?數(shù)據(jù)格式轉換在程序控制下自動完成。例如,支持聯(lián)機檢索的數(shù)據(jù)庫一般要在主文檔基礎上再產(chǎn)生出主文檔索引、倒排文檔和詞典文檔。?文檔更新維護由程序控制,定期進行更新或上載數(shù)據(jù)。倒排文件(InvertedFile)每個文檔都可以用一系列關鍵詞來表示,從檢索目的來說,這些關鍵詞描述了文檔的內(nèi)容。只要找到文檔,便可以找到文檔中的關鍵詞。反過來,如果按關鍵詞建立到文檔的索引,便可以根據(jù)關鍵詞快速地檢索到相關文檔。具體地,關鍵詞被存儲在索引文件(indexfile)中(比如,按字母順序存儲),對于每個關鍵詞,都有一個指針鏈表,該表中的每個指針指向與該關鍵詞相關的某個文檔,所有指針鏈表構成置入文件(postingfile)。這種倒排文件的方法幾乎被當前所有的商用IR系統(tǒng)所采用[61]。詞表管理子系統(tǒng)在文本信息檢索系統(tǒng),各種詞表系統(tǒng)(如主題詞表、后控詞表等)通常作為一個重要成分而存在,詞表中的詞匯可以在用戶檢索信息時實現(xiàn)對檢索效果的有效控制。詞匯管理子系統(tǒng)有時也可獨立存在。?功能:管理維護系統(tǒng)中已有詞表的結構、詞匯,使它與標引、建庫、檢索等多個子系統(tǒng)相連接;支持用戶的各種詞匯查詢操作;輸出各種形式的詞匯數(shù)據(jù)或詞表產(chǎn)品等。?類型:主題詞表(Thesaurus)(受控詞匯檢索系統(tǒng))后控詞表(post-controlledvocabulary)(自然語言檢索系統(tǒng))用戶接口子系統(tǒng)?功能:用于人機交互,承擔用戶與系統(tǒng)之間的通訊任務。?界面風格(5種)命令/指令語言(commandlanguage)菜單選擇(menuselection)表格填充(formfill-in)直接操縱(directmanipulation)自然語言(naturallanguage)?接口技術(2種):字符用戶界面(CUICharacterUserInterface)圖形用戶界面(GUIGraphicUserInterface)WIMP(Window、Icon、Menu、Pointingdevice)提問處理/檢索匹配子系統(tǒng)(技術核心)?功能:負責處理用戶輸入的檢索詞或提問式,并將它們與數(shù)據(jù)庫中存儲的數(shù)據(jù)進行匹配運算,然后把運算結果返回給用戶。?主要操作流程:—接收用戶提問提問校驗對提問式進行語法、格式、用詞等的檢查。提問加工對源提問式進行解釋性或編譯性的加工,以便機器處理。常用的加工方法有:表展開法,逆波蘭法,準波蘭法,范式法等?!獧z索匹配將提問式與數(shù)據(jù)庫記錄進行匹配(精確匹配或局部匹配)。聯(lián)機檢索系統(tǒng)的工作原理■聯(lián)機數(shù)據(jù)庫?存取號基本索引字段輔助索引字段■文檔組織?順排文檔倒排文檔■檢索流程網(wǎng)絡檢索系統(tǒng)的結構及工作原理一般結構:自動索引程序、數(shù)據(jù)庫、檢索代理軟件2.5信息檢索模型模型信息檢索系統(tǒng)的形式化表示布爾檢索模型向量空間模型概率檢索模型其他信息檢索模型信息檢索的基本原理系統(tǒng)對信息集合與需求集合的匹配與選擇數(shù)學工具數(shù)學模型什么是模型?■模型是采用數(shù)學工具,對現(xiàn)實世界某種事物或某種運動的抽象描述■面對相同的輸入,模型的輸出應該能夠無限地逼近現(xiàn)實世界的輸出,例如:天氣的預測模型■模型和實現(xiàn)的區(qū)別:一個模型可以用多種方法實現(xiàn)例如,布爾模型可以倒排文檔(invertedfile)實現(xiàn),也可以用B-tree實現(xiàn)。信息檢索的數(shù)學模型:運用數(shù)學的語言和工具,對IR中的信息及其處理過程加以翻譯和抽象,表達為某種數(shù)學公式。信息檢索模型決定于:■從什么樣的視角去看待查詢式和文檔■基于什么樣的理論去看待查詢式和文檔的關系■如何計算查詢式和文檔之間的相似度信息檢索系統(tǒng)的形式化表示通常,可以把一個信息檢索系統(tǒng)形式化地描述為一個四元組:System=(D,T,Q,p)其中:D={d1,d2,d3……dn},表示系統(tǒng)中經(jīng)過標引的或直接采集的文獻集合;n為數(shù)據(jù)庫容量(n30)°T={t1,t2,t3……tm},表示系統(tǒng)所有可能存在的可檢項的集合;Q={q,q,q〔……q^},表示所有提問的集合;123kp:QXD-R,p稱為映射函數(shù)或匹配函數(shù),QXD是提問集合Q與文獻集合D的笛卡爾乘積,R為函數(shù)值的集合。信息檢索經(jīng)典模型1布爾模型(1950s末)布爾邏輯+集合論?擴展布爾模型(統(tǒng)一模型)(1980s初)2向量空間模型(VSMVectorSpaceModel)?模糊模型3概率模型(1980s末)1布爾模型■基于特征項的嚴格匹配模型。首先建立一個二值變量的集合,如果文本中出現(xiàn)了對應的特征項,則變量取'True”,否則取"False”。查詢由特征項和邏輯運算符(“AND”、“OR”、“NOT”)組成。文本查詢的匹配規(guī)則遵循布爾運算的法則。在六、七十年代的許多商用檢索系統(tǒng)DIALOG、STAIRS、MEDLARS就是基于布爾模型?!鯧nowledgeandmanagementnotcomputer.文檔表示-一個文檔被表示為關鍵詞的集合.查詢式表示-查詢式(Queries)被表示為關鍵詞的布爾組合,用“與或非”連接起來,并用括弧指示優(yōu)先次序.匹配-一個文檔當且僅當它能夠滿足布爾查詢式時,才將其檢索出來.不同的系統(tǒng)可以使用:?不同的去除停用詞(stopwordremoval)策略和stemming策略-索引中不同類型的輔助信息?不同的實現(xiàn)方法布爾模型的特點.優(yōu)點:簡單、易于理解,能處理結構化提問,易于表示同義關系(如:電腦OR計算機)和詞組(數(shù)據(jù)AND挖掘AND系統(tǒng));速度快。.缺點:不能表示特征項對文本的重要性(詞加權);缺乏定量分析(檢索結果評價)和靈活性以及不能表述模糊匹配。.例如:信息檢索and(智能or反饋).ClassicalBoolean的最大缺點:只有0和1,沒有ranking。要么返回大量結果,要么沒有結果。布爾模型被認為是功能最弱的方式,其主要問題在于不支持部分匹配,而完全匹配會導致太多或者太少的結果文檔被返回.ClassicalBoolean另一缺點:太僵化,在OR方式中,包含很多查詢詞的文檔和包含少數(shù)詞的文檔是等同的;在AND方式中,即使缺少一個詞,結果也是FALSE,等于一個詞也沒有.非常剛性:“與”意味著全部;“或”意味著任何一個?如果“我想要n個詞中m個詞同時出現(xiàn)的文檔”,怎么表示??不可能企望用戶自己規(guī)定m值?系統(tǒng)可以從m=n開始,然后逐漸減少m,但很麻煩.很難表示用戶復雜的需求.很難控制被檢索的文檔數(shù)量原則上講,所有被匹配的文檔都將被返回.很難對輸出進行排序不考慮索引詞的權重,所有文檔都以相同的方式和查詢相匹配.很難進行自動的相關反饋如果一篇文檔被用戶確認為相關或者不相關,怎樣相應地修改查詢式呢?擴展布爾模型extendedboolean■加權布爾檢索.以布爾算符的一種近似解釋系統(tǒng)為基礎.在各種擴展中,p-norm模型的運行結果是最符合實際的P-norm模型P-norm模型:參數(shù)討論.P=infinity時,等同于classicalboolean模型.P較低時(如在[2,5]內(nèi)),and方式中一個權值低的詞會使總體值大大降低,or方式中一個權值高的值會使總體值大大提高
.P=1時,變成vectorspacemodel,and和or方式實際上相同,公式變?yōu)閏osinesimilarity。.P-norm可以得到更大的靈活性。用戶可以指定某個子表達式的P值,例如一個較大的值表示對它要求比較嚴格。.P-norm是對boolean模型和vector模型的一個理論上的高度概括。擴展布爾模型的應用情況.在商用系統(tǒng)Topic中支持擴展布爾模型■擴展布爾模型可以取得比傳統(tǒng)布爾模型和向量空間模型更好的結果.使用這種模型的代價是需要更多的知識2向量空間模型(VSM)■向量空間模型(VectorSpaceModel)由Salton等人于20世紀60年代末提出,是一種簡便、高效的文本表示模型,其理論基礎是代數(shù)學。G.Salton等人領導和研制的試驗性系統(tǒng)SMART。.SMART是由CornellUniversity的GerardSalton開發(fā)的,是最早的文本檢索系統(tǒng)之一。.它具有以下特點:(1)自動建立索引;(2)自動生成聚類層次計算聚類中心;(3)進行查詢/文檔相似度計算并且根據(jù)文檔與查詢的相似程度對文檔排序;(4)將文檔以基于詞匯的向量空間表示;(5)根據(jù)用戶反饋自動提高對查詢的處理。.與布爾模型不同,向量空間模型把用戶的查詢要求和數(shù)據(jù)庫文檔信息表示成由檢索項構成的向量空間中的點(向量),而通過計算向量之間的距離來判定文檔和查詢之間的相似程度(例如,用它們之間夾角的余弦作為相似性度量)。然后,根據(jù)相似程度排列查詢結果。/Term3在向量空間模型中,首先要建立文本和用戶查詢的向量,然后進行查詢向量和文本向量的相似性計算。并可以在.匹配結果的基礎上進行相關反饋,優(yōu)化用戶的查詢。向量空間模型的關鍵在于特征向量的選取徵、征向量的權值兩個部分。相似度是一個函數(shù),它給出兩個向量之間的相似程度查詢式和文檔都是向量,各類相似度存在于:?兩個文檔之間?兩個查詢式之間?一個查詢式和一個文檔之間人們曾提出大量的相似度計算方法,因為最佳的相似度計算方法并不存在。通過計算查詢式和文檔之間的相似度,可以:-可以根據(jù)預定的重要程度對檢索出來的文檔進行排序-通過強制設定某個閾值,控制被檢索出來的文檔的數(shù)量-檢索結果可以被用于相關反饋中,以便對原始的查詢式進行修正。(例如:將文檔向量和查詢式向量進行結合)■用向量空間模型計算向量距離時,一般采用向量的夾角余弦來表示,兩個文檔之間相同的詞越多且這些詞的權重越高,則其距離越近?!鲇嬎銠嘀氐哪康氖且_突出每個索引項在文章中的重要程度.一般來講,某個詞在某文本中經(jīng)常出現(xiàn)且在其他文本中不常出現(xiàn),就說明該詞對該文本或該類文本更具有代表性,應具有更高的權重。另一方面,如果一個索引項在很多文檔中都出現(xiàn),那么這個索引項則不能很好地代表某一類文檔,其權重應較小。向量空間模型及其基本原理(1)文獻向量和文獻矩陣的構造(2)提問向量的構造(3)提問與文獻的匹配函數(shù)(4)相似度閾值的確定對向量空間模型的評價與分析?優(yōu)越性(相對于布爾模型)—VSM只是提供了一個理論框架,具有廣泛的適應性;——采用部分匹配策略;—檢索不是以倒排檔技術為基礎,而是基于聚類文檔;—檢索結果可以采用排序輸出方式。將文本和查詢簡化為特征項及權值集合的向量表示,從而把檢索操作變成向量空間上的向量運算。向量的權重可以通過簡單的統(tǒng)計來完成,即通過定量的分析對查詢和文本進行匹配。.該模型的權重計算方法能夠提高系統(tǒng)的檢索性能;.模型中使用的部分匹配方法能檢索出與用戶的查詢輸入條件“近似”的文檔;.在模型中用余弦方法進行距離度量,因此可以根據(jù)檢索出的結果與查詢條件的相關程度對結果進行排序。對向量空間模型的評價與分析(續(xù))?缺陷與不足—相似度計算量巨大;—對可檢項兩兩正交的假設不切合實際。.這一模型的基本假設是特征項之間無關(索引項是不相關的un-correlated(或者說是正交的orthogonal),形成一個向量空間(vectorspace),但很明顯在自然語言中,詞或短語之間存在著十分密切的聯(lián)系,所以這一假設對計算結果的可靠性造成一定的影響。例如,計算機科學文檔集.實際上,這些詞項是相互關聯(lián)的當你在一個文檔中看到“計算機”,非常有可能同時看到“科學”當你在一個文檔中看到“計算機”,有中等的可能性同時看到“商務”當你在一個文檔中看到“商務”,只有很少的機會同時看到“科學”在該模型中有一個假定:所有的索引項之間是相互獨立的。在權重計算公式中就沒有考慮索引項之間的相互關系,但人們發(fā)現(xiàn),在實踐中,這些檢索項的相互依賴性對系統(tǒng)的性能將造成影響。因為在某些文檔中,很多索引項都是相互依賴的,如果將它們不加選擇地應用于語料庫所有的文檔中,必將損害系統(tǒng)的性能。向量空間模型在文本信息處理中的應用:向量空間模型對信息檢索具有非常重要的理論貢獻。自1960s末至今,VSM獲得了廣泛的應用,并一直主導著文本信息處理領域的研究。VSM的價值在于將非結構化的文本信息表示為向量,這使得隨后的各種數(shù)學處理成為可能。目前,VSM在以下文本信息處理分支領域均有重要應用,并取得了良好的效果:?文本檢索(TextRetrieval)?文本分類(TextCategorization/Classification)?文本挖掘(TextMining)?文本過濾(TextFiltering)?文本可視化(TextVisualization)向量空間模型的發(fā)展:LatentSemanticIndexing(LSI).中心思想:解決一詞多義和同義詞問題,盡力挖掘語義信息?!鲇胏oncept(orfeature)代替term.輸入:term-by-documentmatrix.輸出:T:concept-by-termmatrixD:concept-by-documentmatrixS:elementsassignweightstoconcepts■實質(zhì)上起到了查詢擴展的作用概率模型■信息檢索系統(tǒng)與其他類型信息系統(tǒng)的主要區(qū)別在于信息檢索系統(tǒng)內(nèi)在的不確定性。對一個數(shù)據(jù)庫系統(tǒng)來說,要查詢的信息總是(至少對標準的應用來說)能被精確地映射到系統(tǒng)的查詢格式上,而且數(shù)據(jù)庫中的哪些元素能夠構成答案也能被精確定義。■而信息檢索系統(tǒng)中的情況顯然不同,所需要查詢的信息既不能被精確地表示,也沒有一個清晰的過程來判別一個數(shù)據(jù)對象是否就是所需要的。處理非確定性最成功的方法就是概率模型(ProbabilisticModel)0目前研究者已經(jīng)提出了很多不同的概率檢索模型,不過所有概率模型都存在著一般性的問題,即參數(shù)估計、查詢擴展和文檔、查詢的表示等。概率模型.主要針對信息檢索中相關性判斷的不確定性以及查詢信息表示的模糊性。它主要是基于概率排序原則:對于給定的用戶查詢Q,對所有的文本D計算概率P(R|D,Q)并從大到小進行排序。其中R表示文本D與查詢Q的相關性。文本D可以表示為D=(d1,d2,.「dN),N為特征個數(shù),di=1表示特征項i在文本中出現(xiàn);di=0表示特征項i在文本中不出現(xiàn)(文本的布爾表示)。貝葉斯定理.貝葉斯定理是計算概率的一種方法,即認為一個事件會不會發(fā)生取決于該事件在先驗分布中已經(jīng)發(fā)生過的次數(shù)。.貝葉斯定理指出,對于事件X和Y,已知Y的概率時X發(fā)生的概率(用p{X|Y}表示)等于已知X的概率時Y發(fā)生的概率(用p{Y|X}表示)乘以X的概率(p{X})再除以Y的概率(p{Y})。.如果一枚硬幣被連續(xù)拋100次,每次都是正面朝上,那么,拋第101次時,正面朝上的概率是多少?傳統(tǒng)統(tǒng)計學觀點的推論是:50%。.而貝葉斯概率論則認為:100次連續(xù)正面朝上,證明該硬幣不均衡或兩面均為正面,所以拋第101次時正面朝上的概率會大大高于50%。貝葉斯定理的公式表述:.p{X|Y}=p{X}Xp{Y|X}/p{Y}這個原理的大致意思:某件事情發(fā)生的概率大致可以由它過去發(fā)生的頻率近似地估計出來。基因研究、過濾電子郵件iThomasBayes,一位偉大的數(shù)學
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 未來商業(yè)空間設計趨勢與挑戰(zhàn)應對
- 國慶節(jié)中秋快樂活動方案
- 16《朱德扁擔》第二課時 說課稿-2024-2025學年語文二年級上冊統(tǒng)編版
- Unit 2 Healthy Lifestyle Reading and Thinking 說課稿-2023-2024學年高二英語人教版(2019)選擇性必修第三冊
- Module4 Unit1 It's red!(說課稿)-2024-2025學年外研版(一起)英語一年級上冊
- Unit 2 Different families Lesson 6(說課稿)-2024-2025學年人教PEP版(2024)英語三年級上冊
- 1《天地人》說課稿-2024-2025學年語文一年級上冊統(tǒng)編版
- 2024-2025學年高中信息技術 會考知識點說課稿
- 2024年六年級品社下冊《站在國際舞臺上》說課稿 遼師大版001
- 6 推動社會發(fā)展的印刷術(說課稿)-2024-2025學年六年級上冊科學教科版(2017版)
- 信息技術課程標準2023版:義務教育小學階段
- 2024年常德職業(yè)技術學院單招職業(yè)適應性測試題庫完整
- 天津市河東區(qū)2023-2024學年九年級上學期期末數(shù)學試題
- 工程防滲漏培訓課件
- 黑龍江省哈爾濱市2024年數(shù)學八年級下冊期末經(jīng)典試題含解析
- 牛津3000核心詞匯表注釋加音標1-4 完整版
- 高中英語以讀促寫教學策略與實踐研究課件
- 金屬表面處理中的冷噴涂技術
- 河北省石家莊市2023-2024學年高一上學期期末教學質(zhì)量檢測化學試題(解析版)
- 黑龍江省齊齊哈爾市2023-2024學年高一上學期1月期末英語試題(含答案解析)
- 綜合素質(zhì)能力提升培訓
評論
0/150
提交評論