版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第七章信息檢索模型2023/7/311信息存儲與檢索第七章信息檢索模型2023/7/311信息存儲與檢索第七章信息檢索模型7.1信息檢索模型概述7.2經(jīng)典的信息檢索模型7.3集合論檢索模型7.4代數(shù)檢索模型7.5概率檢索模型7.6結(jié)構(gòu)化文本檢索模型7.7超文本檢索模型2023/7/312信息存儲與檢索*第七章信息檢索模型7.1信息檢索模型概述2023/77.1信息檢索模型概述7.1.1信息檢索概述信息檢索是一門研究從一定規(guī)模的文檔庫中找出滿足用戶需求的信息的學(xué)問,它指的是對非結(jié)構(gòu)化或半結(jié)構(gòu)化信息的檢索,半結(jié)構(gòu)化信息檢索人們通常稱為文本信息檢索,而非結(jié)構(gòu)化信息檢索多指多媒體信息檢索。信息檢索是對信息集合與需求集合的匹配和選擇。
信息檢索基本原理:用戶通過一些列關(guān)鍵詞來闡明自己的信息需求,信息檢索系統(tǒng)則檢索與用戶查詢最為匹配的文獻,同時借助某種相關(guān)性指標(biāo)對檢索出的文獻進行排序。2023/7/313信息存儲與檢索*7.1信息檢索模型概述7.1.1信息檢索概述2023/7.1.2信息檢索模型1、定義信息檢索模型的核心問題是檢測哪些文獻相關(guān),哪些文獻不相關(guān),即判斷一篇文獻是否與用戶的查詢條件相關(guān),以及相關(guān)的程度。信息檢索的模型,就是運用數(shù)學(xué)的語言和工具,對信息檢索系統(tǒng)中的信息及其處理過程加以翻譯和抽象,表述為某種數(shù)學(xué)公式,再經(jīng)過演繹、推斷、解釋和實際檢驗,反過來指導(dǎo)信息檢索實踐。2023/7/314信息存儲與檢索*7.1.2信息檢索模型1、定義2023/7/314信息存儲2、信息檢索模型的組成(1)用戶的需求表示:包括用戶查詢信息的獲取與表示。(2)文檔的表示:文檔內(nèi)容的識別與表示。(3)匹配機制:用戶需求表示與文檔表示之間的查詢機制,以及它們之間相關(guān)性排序的準(zhǔn)則和函數(shù)表示。(4)反饋修正:對檢索結(jié)果進行優(yōu)化。7.1.2信息檢索模型2023/7/315信息存儲與檢索*2、信息檢索模型的組成7.1.2信息檢索模型2023/7/結(jié)構(gòu)化文本模型集合論模型文本檢索模型非重疊鏈表模型鄰近節(jié)點模型布爾模型向量模型概率模型瀏覽模型超文本模型基于本體的模型經(jīng)典模型超文本模型知識檢索模型擴展布爾模型模糊集合模型廣義向量模型潛語義標(biāo)引模型神經(jīng)網(wǎng)絡(luò)模型推理網(wǎng)絡(luò)模型信任度網(wǎng)絡(luò)模型代數(shù)模型概率模型3、信息檢索模型的類型7.1.2信息檢索模型2023/7/316信息存儲與檢索*結(jié)構(gòu)化文本模型集合論模型文非重疊鏈表模型布爾模型瀏覽模型基于7.2經(jīng)典的信息檢索模型7.2.1定義及假設(shè)定義:令t表示文檔集里所用不同標(biāo)引詞的數(shù)目,Ki表示一個標(biāo)引詞,K={K1,K2K3,…Kt}表示所有標(biāo)引詞的集合,對于文檔Dj中存在的標(biāo)引詞Ki,其權(quán)重Wij>0;對于文檔Dj中沒有的標(biāo)引詞Ki,其權(quán)重Wij=0。這樣就可以將文檔Dj表示成一個向量Dj=(W1j,W2j,W3j…Wtj),向量Dj的第i維就對應(yīng)項Ki在文檔Dj中的權(quán)重。2023/7/317信息存儲與檢索*7.2經(jīng)典的信息檢索模型7.2.1定義及假設(shè)2023/7.2.1定義及假設(shè)在經(jīng)典的信息檢索模型中,還存在以下一些普遍性假設(shè):(1)被檢索對象主要為文檔對象。(2)標(biāo)引詞是相互獨立的。(3)用戶檢索是根據(jù)文檔內(nèi)容的表示及所需信息的表示進行的。(4)所有文檔的內(nèi)容和所需信息的表示都是非精確的。2023/7/318信息存儲與檢索*7.2.1定義及假設(shè)在經(jīng)典的信息檢索模型中,還存在以下一7.2經(jīng)典的信息檢索模型7.2.2布爾檢索模型布爾(Boolean)模型是基于集合論和布爾代數(shù)的一種簡單檢索模型。用布爾表達(dá)式表示用戶提問,通過對文獻標(biāo)識與提問式的邏輯運算來檢索文獻。在傳統(tǒng)的布爾模型中,每一文獻用一組標(biāo)引詞表示。Dj=(K1,K2,K3,…,Km)表示文獻Dj,式中K1,K2,K3,…,Km表示文獻Dj中的所有標(biāo)引詞集合。
2023/7/319信息存儲與檢索*7.2經(jīng)典的信息檢索模型7.2.2布爾檢索模型20237.2.2布爾檢索模型文檔與標(biāo)引詞建立一個布爾關(guān)系。用若干標(biāo)引詞的布爾表達(dá)式來表達(dá)和解釋查詢Q。對于一個表示為Q=(K1ANDK2)OR(K3AND(NOTK4))的提問式,系統(tǒng)的響應(yīng)必須是這樣一組文獻集合:這些文獻中都含有標(biāo)引詞K1和K2,或者含有標(biāo)引詞K3但不含有標(biāo)引詞K4。常用的布爾邏輯組配運算符有:邏輯“與”(AND,常用符號“∧”表示)、邏輯“或”(OR,常用符號“∨”表示)、邏輯“非”(NOT,常用符號“-”表示)。2023/7/3110信息存儲與檢索*7.2.2布爾檢索模型文檔與標(biāo)引詞建立一個布爾關(guān)系。用若干布爾檢索模型在布爾檢索模型中標(biāo)引詞在文獻中要么出現(xiàn)、要么不出現(xiàn),因此標(biāo)引詞Ki在文檔Dj中的權(quán)重全部被設(shè)為二值數(shù)據(jù),即Wij∈(0,1)。用戶提交的查詢條件由若干個標(biāo)引詞用與、或、非等邏輯符號相聯(lián)結(jié),在布爾檢索模型中被表示成了布爾表達(dá)式Q=(K1,K2,…),其本質(zhì)可以表示為多個標(biāo)引詞權(quán)值的合取向量的析取Qi(Qi為表達(dá)式Q的任意合取向量),則文獻Dj和查詢Q的相關(guān)度表示為2023/7/3111信息存儲與檢索*布爾檢索模型在布爾檢索模型中標(biāo)引詞在文獻中要么出現(xiàn)、要么不出布爾檢索模型如要檢索“布爾檢索或概率檢索但不包括向量檢索”方面的文檔,其相應(yīng)的查詢表達(dá)式為:Q=檢索and(布爾or概率not向量),那么Q可以在其相應(yīng)的(檢索,布爾,概率,向量)標(biāo)引詞向量上取(1,1,0,0)(1,0,1,0)(1,1,1,0),那么文檔Dj的向量如果與這中間一個相等,那么即可認(rèn)為他們之間存在相似關(guān)系,而這種相互關(guān)系也是布爾值,即sim(Q,Dj)只能為0或1。這也就是布爾模型的局限性所在,描述所有關(guān)系都是布爾值,而現(xiàn)實中文檔與標(biāo)引字或者標(biāo)引字與查詢語句之間的關(guān)系都不可能只是有關(guān)系或者沒關(guān)系,換句話說布爾模型中無法描述關(guān)系的密切程度。
2023/7/3112信息存儲與檢索*布爾檢索模型如要檢索“布爾檢索或概率檢索但不包括向量檢索”方簡單實例:Q=病毒AND(計算機OR電腦)ANDNOT醫(yī)D1:…據(jù)報道,計算機病毒近日猖獗…D2:…小王雖然是學(xué)醫(yī)的,但對研究電腦病毒也很感興趣,最近發(fā)明了一種…D3:…計算機程序發(fā)現(xiàn)了愛滋病病毒的傳播途徑…D4:…最近我的電腦中病毒了…請問:哪些文檔會被檢索出來?2023/7/3113信息存儲與檢索*簡單實例:2023/7/3113信息存儲與檢索*布爾檢索模型Boolean模型存在著一些缺陷:第一,它的檢索策略是基于二元判定標(biāo)準(zhǔn)(例如,對于檢索來說一篇文檔只有相關(guān)和不相關(guān)兩種狀態(tài)),缺乏文檔分級(rank)的概念,限制了檢索功能。第二,雖然布爾表達(dá)式具有精確的語義,但常常很難將用戶的信息需求轉(zhuǎn)換為布爾表達(dá)式,實際上大多數(shù)檢索用戶發(fā)現(xiàn)在把他們所需的查詢信息轉(zhuǎn)換為布爾時并不是那么容易。2023/7/3114信息存儲與檢索*布爾檢索模型Boolean模型存在著一些缺陷:2023/7/7.2經(jīng)典的信息檢索模型7.2.3向量空間模型向量模型通過分派非二值權(quán)重給查詢和文檔中的標(biāo)引詞來實現(xiàn)檢索目標(biāo)。這些權(quán)重用于計算系統(tǒng)中的每個文檔與用戶的查詢請求的相似程度,向量模型通過對文檔按照相似程度降序排列的方式,來實現(xiàn)文檔與查詢項的部分匹配。這樣做的結(jié)果中的文檔排列順序比通過布爾模型得到的結(jié)果要合理得多。2023/7/3115信息存儲與檢索*7.2經(jīng)典的信息檢索模型7.2.3向量空間模型2027.2.3向量空間模型定義:
在向量空間模型中,標(biāo)引詞Ki在文檔Dj中的權(quán)重Wij是一個大于0的非二值數(shù)。文檔Dj可以看做是一個向量:
Dj=(W1j,W2j,W3j………Wtj)其中,t是文檔集中所有標(biāo)引詞的數(shù)目。
用戶查詢中的標(biāo)引詞也是有權(quán)重的,設(shè)Wiq是用戶檢索提問式(查詢)Q的標(biāo)引詞Ki的權(quán)重,且Wiq≥0,則查詢向量Q被定義成:
Q=(W1q,W2q,W3q…………Wtq)。衡量文檔和查詢的相關(guān)度轉(zhuǎn)化成計算文檔向量和查詢向量之間的相似度。一般使用文檔向量和查詢向量之間的夾角余弦值來計算它們之間的相似度。2023/7/3116信息存儲與檢索*7.2.3向量空間模型定義:2023/7/3116信息存7.2.3向量空間模型WijK1k2…KnD101…0D210.8…0.5……………Dn0.20…1文檔向量空間的表示:文檔D1(W11,W21,…Wn1)查詢Q(W1q,W2q,…Wnq)文檔D2(W12,W22,…Wn2)特征項1特征項2特征項3文檔向量空間模型:2023/7/3117信息存儲與檢索*7.2.3向量空間模型WijK1k2…KnD101…0D
文檔和文檔之間的相似度Sim可以表示如下:文檔和查詢之間的相似度Sim可以表示如下:7.2.3向量空間模型2023/7/3118信息存儲與檢索*文檔和文檔之間的相似度Sim可以表示如下:文檔和查詢之例子D1=2K1+3K2+5K3D2=3K1+7K2+K3Q=0K1+0K2+2K3文檔D1=2K1+3K2+5K3查詢Q=0K1+0K2+2K3文檔D2=3K1+7K2+K3特征項1特征項2特征項32023/7/3119信息存儲與檢索*例子D1=2K1+3K2+5K3文檔D1=2K1標(biāo)引詞的權(quán)重計算(TF-IDF)N為文檔集合,ni為包含標(biāo)引詞Ki的文檔篇數(shù),TFij表示標(biāo)引詞Ki在文檔Dj中出現(xiàn)的頻數(shù),則文檔Dj中標(biāo)引詞Ki的標(biāo)準(zhǔn)化頻率Fij為Fij=TFij/maxjTFij最大值是通過計算文檔Dj中出現(xiàn)的所有標(biāo)引詞來獲得的。如果標(biāo)引詞Ki沒有出現(xiàn)在文檔Dj中,則Fij=0。標(biāo)引詞Ki的IDF為IDFi=log(N/ni)標(biāo)引詞Ki在文檔Dj中的權(quán)重Wij=Fij*IDFi7.2.3向量空間模型2023/7/3120信息存儲與檢索*標(biāo)引詞的權(quán)重計算(TF-IDF)7.2.3向量空間模型2TF-IDF舉例說明文本:“俄羅斯頻繁發(fā)生恐怖事件,俄羅斯的安全部門加大打擊恐怖主義的力度。”TFIDFTF-IDFTFIDFTF-IDF俄羅斯2較高高安全1中等高恐怖的2較高高部門1較低低的2非常低很低加大1較低低頻繁1較低低打擊1中等高發(fā)生1較低低主義1較低低事件1較低低力度1中等高2023/7/3121信息存儲與檢索*TF-IDF舉例說明文本:“俄羅斯頻繁發(fā)生恐怖事7.2.3向量空間模型向量空間模型的主要優(yōu)點:對標(biāo)引詞的權(quán)重進行了改進,其權(quán)重的計算可以通過統(tǒng)計的辦法自動完成,使問題的繁雜性大為降低,從而改進了檢索效率。把文檔和查詢本身簡化為標(biāo)引詞及其權(quán)重集合的向量表示,把對文檔內(nèi)容和查詢要求的處理簡化為向量空間中向量的運算。根據(jù)文檔和查詢之間的相似度對文獻進行排序,有效地提高了檢索效率??梢詫崿F(xiàn)文檔自動分類。2023/7/3122信息存儲與檢索*7.2.3向量空間模型向量空間模型的主要優(yōu)點:2023/向量空間模型的主要缺點:(1)標(biāo)引詞仍然被認(rèn)為是相互獨立,會丟掉大量的文本結(jié)構(gòu)信息,降低語義準(zhǔn)確性。(2)相似度的計算量大,當(dāng)有新文檔加入時,必須重新計算詞的權(quán)值。7.2.3向量空間模型2023/7/3123信息存儲與檢索*向量空間模型的主要缺點:7.2.3向量空間模型2023/7.2經(jīng)典的信息檢索模型7.2.4概率模型1、基本思想用戶提出了查詢,就有一個由相關(guān)文檔構(gòu)成的集合,該集合只包括與查詢完全相關(guān)的文檔而不包括其他不相關(guān)的文檔,稱該集合為理想結(jié)果集合,記為R。如果知道R的特征,就可以找到所有的相關(guān)文檔,排除所有的無關(guān)文檔。因此,可以把查詢看成一個尋找R的特征的過程。2023/7/3124信息存儲與檢索*7.2經(jīng)典的信息檢索模型7.2.4概率模型2023/7.2.4概率模型
在第一次查詢時并不知道R的特征,只能去估計R的特征來進行查詢。第一次查詢完成后,可以讓用戶判斷一下檢索到的文檔哪些是相關(guān)文檔,根據(jù)用戶的判斷,可以更精確地估計R的特征。然后系統(tǒng)利用該信息重新定義理想結(jié)果集合的概率描述;重復(fù)以上操作,就會越來越接近真正的結(jié)果文檔集。估計R的特征進行檢索用戶判斷2023/7/3125信息存儲與檢索*7.2.4概率模型在第一次查詢時并不知道R的7.2.4概率模型2、相關(guān)概念貝葉斯定理:詞條的獨立假設(shè):P(AB)=P(A)P(B)
當(dāng)且僅當(dāng)A與B相互獨立.若文檔中的各個索引詞相互獨立,則有P(Dj)=P(k1)…P(kt)
2023/7/3126信息存儲與檢索*7.2.4概率模型2、相關(guān)概念2023/7/3126信息7.2.4概率模型3、定義:對于概率檢索模型而言,標(biāo)引詞Ki在文檔Dj中的權(quán)重Wij∈{0,1},同時用戶查詢中的標(biāo)引詞Wiq∈{0,1},查詢Q是標(biāo)引詞空間的一個子集,用R表示已知的相關(guān)文獻集,用表示R的補集,條件概率P(R∣Dj)表示文檔Dj與查詢Q相關(guān)的概率,條件概率P(∣Dj)表示文檔Dj與查詢Q不相關(guān)的概率。文獻Dj與查詢Q的相似度Sim(Dj,Q)可以定義為兩者的比值,即:2023/7/3127信息存儲與檢索*7.2.4概率模型3、定義:2023/7/3127信息存7.2.4概率模型Sim(Dj,Q)可以近似的表示為:因為經(jīng)典的信息檢索模型中假設(shè)標(biāo)引詞之間無相關(guān)關(guān)系,是獨立的,則Sim(Dj,Q)可以表示為:取對數(shù),在相同背景下,忽略對所有因子保持恒定不變的因子,則有這是概率模型中排序計算的主要表達(dá)式。
2023/7/3128信息存儲與檢索*7.2.4概率模型Sim(Dj,Q)可以近似的表示為:27.2.4概率模型對我們的初始估計R集合相關(guān)的概率賦予初始值:ni為包含標(biāo)引詞Ki的文獻數(shù)目;N為集合中的文獻總數(shù)。初始值確定后,根據(jù)與查詢Q相關(guān)的大小進行初步排序,取前若干個文檔作為相關(guān)查詢集合。之后通過如下方法進行改進。2023/7/3129信息存儲與檢索*7.2.4概率模型對我們的初始估計R集合相關(guān)的概率賦予初7.2.4概率模型用V表示概率模型初步檢出并經(jīng)過排序的文檔子集,Vi表示V中包含索引詞ki的文檔集合。根據(jù)V和Vi中包含標(biāo)引詞Ki的文獻數(shù)目來改進初始值,通過如下假設(shè)完成:根據(jù)已檢索出的文獻中標(biāo)引詞Ki的分布來估計的根據(jù)未檢索出的文獻都是不相關(guān)的來估計這樣就形成了一個檢索和學(xué)習(xí)的迭代過程,也就是概率檢索模型。2023/7/3130信息存儲與檢索*7.2.4概率模型用V表示概率模型對較小的V和Vi,如V=1,Vi=0,上述計算會出現(xiàn)問題,所以做以下改進:也可以為:7.2.4概率模型2023/7/3131信息存儲與檢索*對較小的V和Vi,如V=1,Vi=0,上述計算會出現(xiàn)問題,所7.3集合論檢索模型7.3.1模糊集合檢索模型從信息檢索的本質(zhì)上講,文檔和提問之間的匹配處理是一個近似過程,系統(tǒng)中的每一個標(biāo)引詞都對應(yīng)著一個模糊的命中文檔集合,而每一篇文檔對于這個命中集合來說,又都具有各自不同的隸屬度值(通常是小于1的)。隸屬度用詞頻加權(quán)法、反文獻頻率加權(quán)法、詞頻-反文獻頻率加權(quán)法等方法確定。將標(biāo)引詞和它在對應(yīng)文獻中的隸屬度一起作為集合論標(biāo)引的一個有序?qū)?。檢索時通過匹配運算,得到檢索提問詞在每篇文獻中的隸屬度,根據(jù)隸屬度的大小對文獻排序。
2023/7/3132信息存儲與檢索*7.3集合論檢索模型7.3.1模糊集合檢索模型20237.3集合論檢索模型模糊集合論對經(jīng)典集合論的推廣,主要表現(xiàn)在它把元素屬于集合的概念模糊化,承認(rèn)論域上存在既不完全屬于某集合、又不完全不屬于某集合的元素,即變經(jīng)典集合論“絕對的”屬于概念為“相對的”屬于概念;同時,又進一步把屬于概念數(shù)量化,承認(rèn)論域上的不同元素對于同一集合具有不同的隸屬程度,引入了隸屬度(membership)的概念。模糊集合的嚴(yán)格定義可以表述如下:論域U到實區(qū)間[0,1]的任一映射μA:U→[0,1],對于任意x∈U,x→μA(x)都確定U上的一個模糊集合A,μA稱做A的隸屬函數(shù),μA(x)為元素x對A的隸屬度。2023/7/3133信息存儲與檢索*7.3集合論檢索模型模糊集合論對經(jīng)
假設(shè)U={0,1,2,...,9}為代表一個家庭中,所可能擁有子女個數(shù)的集合,令三個模糊集合定義為A:子女?dāng)?shù)眾多,B:子女?dāng)?shù)適中,C:子女?dāng)?shù)很少,其歸屬函數(shù)的定義如表所示。
子女?dāng)?shù)子女眾多(A)子女適中(B)子女很少(C)00011001200.20.8300.70.24010.150.10.7060.30.2070.800810091002023/7/3134信息存儲與檢索*假設(shè)U={0,1,2,...,9}模糊集合理論對于表示和解決現(xiàn)實社會中存在的許多模糊和不精確問題非常有效,并已在許多領(lǐng)域取得廣泛應(yīng)用,其中就包括在信息檢索領(lǐng)域中的成功應(yīng)用。以下選擇奧加娃(Y.Ogawa)等人提出的模糊檢索模型,對其基本原理進行介紹。(1)標(biāo)引詞關(guān)聯(lián)矩陣(2)文檔的隸屬度(3)用戶提問及表示7.3.1模糊集合檢索模型2023/7/3135信息存儲與檢索*模糊集合理論對于表示和解決現(xiàn)實社會中存在的許多模糊和不精確問(1)標(biāo)引詞關(guān)聯(lián)矩陣所謂標(biāo)引詞關(guān)聯(lián)矩陣,是指以標(biāo)引詞集合K中的元素作為行、列,標(biāo)引詞之間語義關(guān)系作為元素值的一個詞-詞矩陣。假設(shè)關(guān)聯(lián)矩陣用Ct*t表示,矩陣元素cil表示標(biāo)引詞ki、kl之間的關(guān)聯(lián)因子,其值用如下公式計算:Cil=nil/(ni+nl–nil)式中,ni、nl分別表示文檔集合D中含有索引詞ki和kl的文檔數(shù),而nil表示D中同時含有索引詞ki、kl的文檔數(shù)。7.3.1模糊集合檢索模型2023/7/3136信息存儲與檢索*(1)標(biāo)引詞關(guān)聯(lián)矩陣7.3.1模糊集合檢索模型2023/77.3.1模糊集合檢索模型(2)文檔的隸屬度在信息檢索處理中,對于每一個標(biāo)引詞來說,都存在一個模糊的文檔集合與之相關(guān)。定義與標(biāo)引詞ki相關(guān)的模糊文檔集合為Di,對于任一文檔dj,其隸屬于集合Di的隸屬度值可以通過下式計算:μij=1-∏(1-cil
)如果文檔dj的詞與Ki有聯(lián)系,那么該文檔屬于與Ki相關(guān)聯(lián)的模糊集。無論何時,文檔dj中只要存在一個索引詞Kl與索引詞Ki有強聯(lián)系(如cil=1),那么μij=1,并且我們說索引Ki對于文檔dj來說是一個好的模糊索引。相反,當(dāng)dj中的所有索引詞都與Ki幾乎都沒有聯(lián)系時,我們說索引Ki對于文檔dj來說不是一個好的模糊索引。2023/7/3137信息存儲與檢索*7.3.1模糊集合檢索模型(2)文檔的隸屬度2023/7(3)用戶提問及表示在模糊檢索模型中,用戶的檢索提問仍像布爾模型一樣,用布爾邏輯式表達(dá)。進一步地,布爾表達(dá)式還要轉(zhuǎn)換為等價的析取范式形式。舉例來說,查詢寫成這樣的離散的標(biāo)準(zhǔn)形式,其中每一組都是關(guān)聯(lián)于三元組(ka,kb,kc)的一個(0,1)權(quán)重向量。這些(0,1)權(quán)重向量都是
的連續(xù)組件。設(shè)cci為第i個連續(xù)組件的一個引用。那么,其中p是中連續(xù)組件的個數(shù)。2023/7/3138信息存儲與檢索*(3)用戶提問及表示2023/7/3138信息存儲與檢索*集合論檢索模型考慮查詢,設(shè)為關(guān)聯(lián)于索引的文檔模糊集。作為示例,我們不妨設(shè)該集合由所有隸屬度值大于某一閾值K的文檔組成。進而,設(shè)是的補集。模糊集與(非)相關(guān)聯(lián)。相似地,我們可以定義與、相關(guān)聯(lián)的模糊集、。由于所有的集合都是模糊集,因此一個文檔dj屬于集合,即使其文本中根本沒有提到。2023/7/3139信息存儲與檢索*集合論檢索模型考慮查詢查詢模糊集合是所有與查詢組件相關(guān)聯(lián)的模糊集的并集。文檔dj關(guān)于模糊查詢集的隸屬度計算如下:2023/7/3140信息存儲與檢索*查詢模糊集合是所有與查詢組件相關(guān)聯(lián)的模糊集的并集。文7.3集合論檢索模型7.3.2擴展布爾模型布爾模型和向量空間模型相結(jié)合,先做布爾過濾,然后進行排序:首先進行布爾查詢將全部滿足布爾查詢的文檔匯集成一個文檔用向量空間法對布爾檢索結(jié)果進行排序布爾過濾排序布爾查詢式向量空間模型查詢式文檔結(jié)果2023/7/3141信息存儲與檢索*7.3集合論檢索模型7.3.2擴展布爾模型布爾過濾排序擴展布爾模型假定文獻集合中的文獻Dj僅用兩個標(biāo)引詞Kx和Ky標(biāo)引,并且Kx和Ky允許被賦予一定的權(quán)值,其權(quán)值分別為Wx,j、Wy,j,權(quán)值的取值范圍為[0,1],權(quán)值越接近于1,說明該詞越能反映文本的內(nèi)容,反之,反映文本的內(nèi)容差一些。為了簡單起見,用x,y分別表示權(quán)值Wx,j、Wy,j。我們采用二維圖來表示文獻的提問,用距離的概念表示文獻與提問的相似度。(0,0)B(1,0)A(0,1)C(1,1)D(x,y)2023/7/3142信息存儲與檢索*擴展布爾模型假定文獻集合中的文獻Dj僅用兩個標(biāo)引詞Kx和Ky擴展布爾模型中的“或”關(guān)系對于析取提問Q=Kx∨Ky,只有A、B、C三點所代表的文獻才是最理想的,對于任一文獻Dj而言當(dāng)它離A、B、C三點越接近時說明相似度越大,因而Dj到點(0,0)的矢量距離可以用來度量與提問Q的相似度,為了使相似度控制在0和1之間,相似度可以規(guī)范化為:最不期望的點(0,0)B(1,0)A(0,1)C(1,1)D(x,y)x∨y2023/7/3143信息存儲與檢索*擴展布爾模型中的“或”關(guān)系對于析取提問Q=Kx∨Ky,只有A擴展布爾模型中“與”關(guān)系對于合取提問Q=Kx∧Ky,只有C點才是最理想的文獻,則Dj到C點的矢量距離為:它可以作為衡量文獻與提問之間相似度的一個尺度,則相似度可以規(guī)范化為:(0,0)B(1,0)A(0,1)C(1,1)D(x,y)x∧y最期望的點2023/7/3144信息存儲與檢索*擴展布爾模型中“與”關(guān)系對于合取提問Q=Kx∧Ky,只有C點觀察如果x出現(xiàn)在文檔Dj中,則x在文檔Dj中具有權(quán)重1,否則為0。當(dāng)Dj包含x和y時,Sim(Qand,Dj)=sim(Qor,Dj)=1當(dāng)Dj既不包含x也不包含y時,Sim(Qand,Dj)=Sim(Qor,Dj)=0當(dāng)Dj包含x和y二者之一時,
Sim(Qand,Dj)=1?0.51/2=0.293Sim(Qor,Dj)=0.51/2=0.7072023/7/3145信息存儲與檢索*觀察如果x出現(xiàn)在文檔Dj中,則x在文檔Dj中具有權(quán)重1,否7.4代數(shù)檢索模型7.4.1廣義向量空間模型廣義向量空間模型以標(biāo)引詞向量是線性獨立而不是兩兩正交的為基礎(chǔ),提出了標(biāo)引詞間的相互依賴性,該依賴性由標(biāo)引詞同時出現(xiàn)的模式導(dǎo)出。在廣義向量空間模型中,標(biāo)引詞向量由一組更小分量組成的正交基向量來表示,詞與詞之間的關(guān)系直接由基向量表示。2023/7/3146信息存儲與檢索*7.4代數(shù)檢索模型7.4.1廣義向量空間模型2023/7.4.1廣義向量空間模型假定集合中的標(biāo)引詞的集合為{k1,k2,…kt},wi,j是標(biāo)引詞Ki在文獻Dj中的權(quán)值,如果所有的權(quán)值wi,j都是二值的,t個標(biāo)引詞生成2t個互不相同的最小項,每個最小項中只能出現(xiàn)一個標(biāo)引詞Ki,則在文檔內(nèi)部同時出現(xiàn)的所有可能的模式可以用2t最小項的集合來表示。其中m1=(0,0,…,0),m2=(1,0,…,0),…m2t=(1,1,…,1),函數(shù)gi(mj)返回最小項mj中的索引詞ki的權(quán)值{0,1}。因此最小項m2(i=1,g1(m2)=1;i>1,gi(m2)=0)指出了包含唯一標(biāo)引詞K1的文獻。最小項m2t=(1,1,…,1)指出了包含所有標(biāo)引詞的文獻。2023/7/3147信息存儲與檢索*7.4.1廣義向量空間模型假定集合中的標(biāo)引詞的集合為{k1廣義向量空間模型對于所有的i≠j,有mi·mj=0,因此,根據(jù)定義,mi向量集合是兩兩正交的,所以mi向量集合可以作為廣義向量空間模型的正交基。廣義向量空間模型的中心思想是引入了與最小項集合相關(guān)聯(lián)的兩兩正交向量mi的集合,并采用該向量集合作為目標(biāo)子空間的基。也可以說,當(dāng)標(biāo)引詞在文檔集合內(nèi)部同時出現(xiàn)時,就可以推導(dǎo)出這些標(biāo)引詞之間的相互依賴關(guān)系。2023/7/3148信息存儲與檢索*廣義向量空間模型對于所有的i≠j,有mi·mj=0,因此,根廣義向量空間模型為了確定標(biāo)引詞ki的標(biāo)引向量ki,我們對最小項mr的向量相加求和,則:公式中索引詞ki的值為1并且已經(jīng)標(biāo)準(zhǔn)化。對于每一個mr向量,可以定義一個關(guān)聯(lián)因子ci,r用于計算此索引詞ki在文檔Dj中的權(quán)值wi,j之和。2023/7/3149信息存儲與檢索*廣義向量空間模型為了確定標(biāo)引詞ki的標(biāo)引向量ki,我們對最小7.4.2潛語義標(biāo)引模型問題引入自然語言文本中的詞匯(術(shù)語)具有一詞多義和一義多詞的特點。由于一詞多義,基于精確匹配的檢索算法會報告許多用戶不要的東西:處理什么地方處理舊家具?你去把那個叛徒處理了處理自然語言很難由于一義多詞,基于精確匹配的檢索算法又會遺漏許多用戶想要的東西。“互聯(lián)網(wǎng)”,“萬維網(wǎng)”,“因特網(wǎng)”,“國際互聯(lián)網(wǎng)”等2023/7/3150信息存儲與檢索*7.4.2潛語義標(biāo)引模型問題引入2023/7/3150信息設(shè)Doc1,Doc2,Doc3是三個文件,一些標(biāo)引詞在這三個文件中的出現(xiàn)情況如下表:Doc1Doc2Doc3AccessXdocumentXretrievalXXinformationX*X*theoryXdatabaseXIndexingXcomputerX*X*假定用"information"和“computer”作為主題詞進行檢索,
那么Doc2和Doc3與之精確匹配,
因而中選.然而,Doc2是用戶并不想要的文件,Doc1才是想要的查不出來,不想要的倒查了出來.這說明精確匹配不能很好地反映用戶的意圖。2023/7/3151信息存儲與檢索*設(shè)Doc1,Doc2,Doc3是三個文件,一些標(biāo)引詞在這LSA的提出如果能基于自然語言理解來做這件事,那一切問題就都沒有了。問題是:自然語言理解的目前水平還是有限度的;即使用自然語言理解,效率也會很低我們希望找到一種辦法,既能反映術(shù)語之間內(nèi)在的相關(guān)性,又具有較高的效率。1990年,來自UniversityofChicago、BellCommunicationsResearch和UniversityofWesternOntario的ScottDeerwester、ThomasK.Landauer等五位學(xué)者共同提出了潛在語義分析(LatentSemanticAnalysis,縮寫為LSA)這一自然語言處理的方法。2023/7/3152信息存儲與檢索*LSA的提出如果能基于自然語言理解來做這件事,那一切問題就詞匯—文檔LSA將自然語言中的每個文檔視為以詞匯為維度的空間中的一個點,認(rèn)為一個包含語義的文檔出現(xiàn)在這種空間中,它的分布絕對不是隨機的,而是服從某種語義結(jié)構(gòu)。同樣地,也將每個詞匯視為以文檔為維度的空間中的一個點。文檔是由詞匯組成的,而詞匯又要放到文檔中去理解,體現(xiàn)了一種“詞匯-文檔”雙重概率關(guān)系。2023/7/3153信息存儲與檢索*詞匯—文檔LSA將自然語言中的每個文檔視為以詞匯為維度的空間潛在語義標(biāo)引模型LSA假設(shè)文本中存在某種潛在的語義結(jié)構(gòu),這種潛在的語義結(jié)構(gòu)隱含在文本中詞語的上下文使用模式中,可通過利用統(tǒng)計方法獲得。其核心思想是通過奇異值分解,將文檔向量和詞向量投影到一個低維空間,使得相互之間有關(guān)聯(lián)的文獻即使沒有相同的詞時也能獲得相同的向量表示。LSA技術(shù)主要包括以下幾個步驟:(1)詞-文檔矩陣的構(gòu)建與優(yōu)化。
(2)奇異值分解SVD-降維(3)基于潛在語義空間模型的查詢2023/7/3154信息存儲與檢索*潛在語義標(biāo)引模型LSA假設(shè)文本中存在某(1)詞-文檔矩陣的構(gòu)建LSA模型中,文檔庫是用詞-文檔矩陣Amn來表示的。m為文檔庫中不同詞的個數(shù),一個詞對應(yīng)矩陣A中的一行;n表示文檔庫中的文檔數(shù),每個文檔對應(yīng)矩陣A中的一列;aij表示第i個詞在第j個文檔中出現(xiàn)的頻率TF。第一個詞在各個文檔中出現(xiàn)的頻率第一文檔中各個詞出現(xiàn)的頻率2023/7/3155信息存儲與檢索*(1)詞-文檔矩陣的構(gòu)建LSA模型中,文(2)奇異值分解SVD-降維矩陣的奇異值分解(SVD)計算是矩陣的一種重要計算,其SVD原理說明如下:設(shè)U∈Rm*n和V∈Rm*n,使得其中,UT為矩陣U的轉(zhuǎn)置,U為m×r矩陣,UTU=I(I表示單位矩陣),V為r×n矩陣,VTV=I,r為矩陣A的秩。∑r為對角矩陣,表示為且有σ1≥σ2≥σ3≥……≥σr>0。這里,σi稱為矩陣A的奇異值,U的列向量和V的列向量分別稱為A的左、右奇異向量。即:2023/7/3156信息存儲與檢索*(2)奇異值分解SVD-降維矩陣的奇異值分解(SVD)計算是(2)奇異值分解SVD-降維
取U和V的前k(k<min(m,n))列,使得:
Ak是詞-文檔矩陣A的近似表示,實際上是一個低維的語義空間,一方面消減了原詞-文檔矩陣中包含的“噪聲”因素,凸顯了詞與文檔之間的語義關(guān)系,另一方面縮減了詞、文檔向量維數(shù),使得文檔檢索效率得以大大提高。Uk
和Vk的行向量分別表示詞向量和文檔向量。k是語義空間的維數(shù),其大小直接關(guān)系到檢索質(zhì)量和檢索效率的高低,過小會丟失有用信息,達(dá)不到區(qū)分文獻或標(biāo)引詞的目的;過大則捕獲不了詞與詞之間的關(guān)聯(lián)性,達(dá)不到語義檢索的目的,同時也提高不了檢索速度。2023/7/3157信息存儲與檢索*(2)奇異值分解SVD-降維取U和例子SVD:2023/7/3158信息存儲與檢索*例子SVD:2023/7/3158信息存儲與檢索*(3)基于潛在語義空間模型的查詢對查詢式的要求潛語義檢索允許用戶提交類似于自然語言的查詢條件,而不一定必須是幾個分離的詞匯。查詢式越長,提供的信息需求越充分,越明確。對查詢式的處理同對文檔的處理一樣,根據(jù)用戶查詢語句中各詞語的出現(xiàn)頻率生成查詢矢量q,其中,第i個元素qi的數(shù)值表示了第i個詞語在查詢語句中出現(xiàn)的頻率。對q進行截斷奇異值分解,使其可以和文本矩陣V進行比較。得到:Vq=q’*U*∑
得出的Vq即為提問式q在k維語義空間內(nèi)的坐標(biāo)向量。這樣,詞匯、文本、提問式三者的坐標(biāo)向量,構(gòu)成了我們所需的隱含語義空間。檢索過程檢索過程就是把查詢式的集合視為是一個虛擬的文件,檢索的任務(wù)是把這個虛擬的文件和其他文件做相似性比較,挑選最相似的出來。2023/7/3159信息存儲與檢索*(3)基于潛在語義空間模型的查詢對查詢式的要求2023/7/小結(jié)潛在語義標(biāo)引方法利用統(tǒng)計計算的方法來尋找并導(dǎo)出概念索引,克服因文檔詞語多義性和同義性困擾而帶來的棘手難題,從而進行更有效的信息檢索。通過奇異值分解計算和取k-秩近似矩陣,一方面,消減了原始索引詞--文檔矩陣中包含的索引詞之間的“斜交”噪聲,更加凸現(xiàn)出詞和文檔之間隱含的語義結(jié)構(gòu);另一方面,在與原始矩陣所體現(xiàn)的特征信息盡量保持一致的基礎(chǔ)上,又使得索引詞、文檔向量空間大大縮減,簡化了計算復(fù)雜性。初步的理論分析和研究試驗表明,作為一種自動的語義索引方法,LSA所得到的處理結(jié)果是令人鼓舞的。2023/7/3160信息存儲與檢索*小結(jié)潛在語義標(biāo)引方法利用統(tǒng)計計算的方法來尋找并導(dǎo)出概念索引,7.4.3神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)模型被描繪成一個三層結(jié)構(gòu):第一層為用戶提問詞語結(jié)點;第二層為文檔詞語結(jié)點:第三層為文檔結(jié)點。每一個節(jié)點表示一個處理單元,相當(dāng)于神經(jīng)元;節(jié)點間連線起到神經(jīng)元突觸的作用;而連線的權(quán)值則用來模擬神經(jīng)元之間的連接強度。
1、神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)2023/7/3161信息存儲與檢索*7.4.3神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)模型被描繪成一個三層結(jié)構(gòu):2、信息檢索處理過程首先由第一層的提問詞語結(jié)點啟動,提問詞語結(jié)點ka、kb和kc分別向?qū)?yīng)的第二層文檔詞語結(jié)點發(fā)出信息。緊跟著文檔詞語結(jié)點ka、kb和kc又產(chǎn)生信息并向第三層的相關(guān)文檔結(jié)點傳送。文檔結(jié)點會在收到文檔詞語結(jié)點發(fā)送的信號后產(chǎn)生新的信號并返回到文檔詞語結(jié)點,而且這種相互作用的信號傳遞過程將會重復(fù)進行直到信號不斷衰減而終止。2023/7/3162信息存儲與檢索*2、信息檢索處理過程首先由第一層的提問詞語結(jié)點啟動,提問詞語神經(jīng)網(wǎng)絡(luò)模型提問結(jié)點向文檔詞語結(jié)點發(fā)送信號,其作用強度分量由向量模型中提問詞的權(quán)值派生出來:文檔詞語結(jié)點向文檔結(jié)點傳遞信號,其作用分量由向量模型中文檔詞語的權(quán)值派生出來:2023/7/3163信息存儲與檢索*神經(jīng)網(wǎng)絡(luò)模型提問結(jié)點向文檔詞語結(jié)點發(fā)送信號,其作用強度分量由7.5概率檢索模型7.5.1推理網(wǎng)絡(luò)檢索模型推理網(wǎng)絡(luò)模型(InferenceNetworkModel)建立在Bayesian可信度網(wǎng)絡(luò)理論基礎(chǔ)之上,1990年由美國學(xué)者H.R.Turtle和W.B.Croft最早提出。貝葉斯(Bayesian)網(wǎng)絡(luò)是概率理論的一個主要研究分支。通常,貝葉斯網(wǎng)絡(luò)可以看作是一個有向無環(huán)圖(DirectedAcyclicGraph,DAG)。2023/7/3164信息存儲與檢索*7.5概率檢索模型7.5.1推理網(wǎng)絡(luò)檢索模型2023/貝葉斯網(wǎng)絡(luò)圖中的結(jié)點一般用來表示隨機變量,有向邊用于描述隨機變量之間的因果關(guān)系,它由表示原因的隨機變量(父結(jié)點)指向代表結(jié)果的隨機變量(子結(jié)點),而因果關(guān)系影響力的大?。ɑ驒?quán)值)則用條件概率來表示。圖中沒有父結(jié)點的結(jié)點稱為根(Root)。
2023/7/3165信息存儲與檢索*貝葉斯網(wǎng)絡(luò)圖中的結(jié)點一般用來表示隨機變量,有向邊用于描述隨機貝葉斯網(wǎng)絡(luò)貝葉斯網(wǎng)絡(luò)可以用聯(lián)合概率分布的方式表達(dá)結(jié)點之間的依賴關(guān)系。式中P(x1)稱為網(wǎng)絡(luò)的先驗概率,它由具體應(yīng)用系統(tǒng)的已有知識和語義來定義或決定;其余各項則稱為條件概率;2023/7/3166信息存儲與檢索*貝葉斯網(wǎng)絡(luò)貝葉斯網(wǎng)絡(luò)可以用聯(lián)合概率分布的方式表達(dá)結(jié)點之間的推理網(wǎng)絡(luò)模型推理網(wǎng)絡(luò)模型是這樣來理解和處理信息檢索問題的:首先把文檔、索引詞和用戶提問等信息項都看作是隨機變量,并分別對應(yīng)到Bayesian網(wǎng)絡(luò)中的不同節(jié)點,不同節(jié)點之間的關(guān)聯(lián)關(guān)系通過有向邊來表示。在此基礎(chǔ)上,把文檔內(nèi)容和用戶提問的匹配過程轉(zhuǎn)化為一個從文檔節(jié)點到提問節(jié)點的推理過程,以文檔節(jié)點作為推理的起點,給定文檔節(jié)點的先驗概率、索引詞節(jié)點的條件概率,通過一系列中間環(huán)節(jié)的概率計算,最后即可計算出用戶提問被滿足的后驗概率。將這個概率值作為文檔與用戶查詢提問的匹配程度,并根據(jù)匹配程度的大小對文檔進行排序。2023/7/3167信息存儲與檢索*推理網(wǎng)絡(luò)模型推理網(wǎng)絡(luò)模型是這樣來理解和處理信息檢索問題的:2文獻DjK1K2KiKtQQ2Q1文獻Dj…………andOROR2023/7/3168信息存儲與檢索*文獻DjK1K2KiKtQQ2Q1文獻Dj…………andOR7.5、概率檢索模型7.5.2信任度網(wǎng)絡(luò)檢索模型信任度網(wǎng)絡(luò)模型(BeliefNetworkModel)和推理網(wǎng)絡(luò)模型具有共同的理論基礎(chǔ),是基于Bayesian網(wǎng)絡(luò)理論的另一個概率論檢索模型,1996年由B.A.Ribeiro-Neto和R.Muntz共同提出。信任度網(wǎng)絡(luò)模型與推理網(wǎng)絡(luò)模型具有不同的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。在信任網(wǎng)絡(luò)模型中,文檔部分和用戶提問部分在網(wǎng)絡(luò)中是被分離開的。這樣的設(shè)計一方面簡化了信任度網(wǎng)絡(luò)的建模任務(wù),另一方面也導(dǎo)致了兩個模型在性能上的一些差異。目前,尚未有基于信任度網(wǎng)絡(luò)模型開發(fā)的試驗或?qū)嵱孟到y(tǒng)。理論上的分析結(jié)論是,信任度網(wǎng)絡(luò)模型具有更強的通用和擴展性能。2023/7/3169信息存儲與檢索*7.5、概率檢索模型7.5.2信任度網(wǎng)絡(luò)檢索模型2023/信任度網(wǎng)絡(luò)模型文獻D1K1K2KiKt查詢Q…………文獻Dj文獻Dt用戶查詢和文獻都被模型化為標(biāo)引詞的子集。2023/7/3170信息存儲與檢索*信任度網(wǎng)絡(luò)模型文獻D1K1K2KiKt查詢Q…………文獻Dj7.6結(jié)構(gòu)化文本檢索模型結(jié)構(gòu)化文本指和表達(dá)的思想內(nèi)容相對應(yīng),在物理形式上有明顯的組織結(jié)構(gòu)和層次關(guān)系的文本,一般在文本信息中按照元素的包含關(guān)系加入文本的結(jié)構(gòu)信息。結(jié)構(gòu)化文本檢索將文本中的內(nèi)容信息與文獻結(jié)構(gòu)信息相結(jié)合的檢索模型。文本的結(jié)構(gòu)化分析標(biāo)記語言方法非重疊鏈表方法基于鄰接節(jié)點的方法2023/7/3171信息存儲與檢索*7.6結(jié)構(gòu)化文本檢索模型結(jié)構(gòu)化文本2023/7/3171信7.6.1標(biāo)記語言結(jié)構(gòu)化文本方法基本思想用語言來定義和說明文本的結(jié)構(gòu),這些語言對文本結(jié)構(gòu)化的基本手段是設(shè)置標(biāo)記,使用一些附加的具有文本語法的標(biāo)記將文本格式化,描述文本的格式、結(jié)構(gòu)、語義和屬性。如SGML、HTML、XMLSGML(StandardGeneralizedMarkupLanguage,標(biāo)準(zhǔn)通用標(biāo)記語言)HTML(HypertextMarkupLanguage,超文本標(biāo)記語言)XML(ExtensibleMarkupLanguage,可擴展標(biāo)記語言)2023/7/3172信息存儲與檢索*7.6.1標(biāo)記語言結(jié)構(gòu)化文本方法基本思想2023/7/31HTML句法結(jié)構(gòu)2023/7/3173信息存儲與檢索*HTML句法結(jié)構(gòu)2023/7/3173信息存儲與檢索*HTML句法結(jié)構(gòu)Google首頁的部分源代碼<html><head><METAHTTP-EQUIV="content-type"CONTENT="text/html;charset=GB2312"><title>Google</title>...</head>標(biāo)記(Tag)是用一對尖括號“<>”括起來的文本串。2023/7/3174信息存儲與檢索*HTML句法結(jié)構(gòu)Google首頁的部分源代碼2023/7/3三個元素一起構(gòu)成完整的HTML文檔結(jié)構(gòu)模板,所有的HTML文檔都應(yīng)該遵循這個模板:<HTML><HEAD>Headerelement</HEAD><BODY>bodyofDocument</BODY></HTML>
<title>text</title>:這個元素是文檔的抬頭,類似書籍的頁眉。<table></table>表示表格。2023/7/3175信息存儲與檢索*三個元素一起構(gòu)成完整的HTML文檔結(jié)構(gòu)模板,所有的HTML文XML示例
<?xmlversion="1.0"encoding="ISO-8859-1"?>
<bookstore>
<bookcatalog="Programming">
<titlelang="en">C++ProgrammingLanguage</title>
<author>BjarneStroustrup</author>
<year>1998</year>
<price>98.0</price>
</book>
<bookcatalog="Networking">
<titlelang="en">TCP/IPIllustrated</title>
<author>RichardStevens</author>
<year>1996</year>
<price>56.0</price>
</book>
</bookstore>2023/7/3176信息存儲與檢索*XML示例<?xmlversion="1.0"enco標(biāo)記語言結(jié)構(gòu)化文本方法標(biāo)記語言結(jié)構(gòu)化方法可以有效地按文本格式分解文本本身,是面向文本格式的,對于文本內(nèi)容難于表達(dá),不能有效查詢到用戶需求的知識,因此,并不是面向問題的。輔助信息和知識檢索方法先將用戶提問語句進行分詞處理,然后通過倒排文檔索引在文本中搜索,查找到包含用戶需要的信息和知識。2023/7/3177信息存儲與檢索*標(biāo)記語言結(jié)構(gòu)化文本方法標(biāo)記語言結(jié)構(gòu)化方法可以有效地按文本格式7.6.2非重疊鏈表結(jié)構(gòu)化文本方法基本思想把文檔中的整個文本分為無重疊的文本區(qū)域,并用鏈表鏈接起來。鏈表0:章鏈表1:節(jié)鏈表2:小節(jié)非重疊鏈表結(jié)構(gòu)化方法從文本的自身結(jié)構(gòu)將文本格式結(jié)構(gòu)化,但是對于一些非文字文本沒有嚴(yán)格的描述方法。2023/7/3178信息存儲與檢索*7.6.2非重疊鏈表結(jié)構(gòu)化文本方法基本思想鏈表0:章鏈表17.6.3基于鄰接節(jié)點的方法基本思想在相同文本中定義獨立的分層索引結(jié)構(gòu),每個索引結(jié)構(gòu)是一個嚴(yán)格的層次結(jié)構(gòu),由章、節(jié)、小節(jié)、段和行組成,其中每個結(jié)構(gòu)組員稱為節(jié)點。每個節(jié)點與一個文本區(qū)域相關(guān)。兩個不同層次結(jié)構(gòu)可能涉及到兩個重疊的文本區(qū)域?!鹿?jié)小節(jié)2023/7/3179信息存儲與檢索*7.6.3基于鄰接節(jié)點的方法基本思想…………章節(jié)小節(jié)2027.7超文本檢索模型WWW檢索模型類型基于超文本的瀏覽模型基于搜索引擎的關(guān)鍵字檢索模型基于超鏈接的鏈接結(jié)構(gòu)分析模型小知識:SEO(SearchengineOptimization)2023/7/3180信息存儲與檢索*7.7超文本檢索模型WWW檢索模型類型小知識:SEO(Se7.7.1瀏覽模型
指基于超文本文件結(jié)構(gòu)的信息瀏覽。即用戶在閱讀超文本文檔時,利用文檔中的超鏈接從一個網(wǎng)頁轉(zhuǎn)向另一個相關(guān)網(wǎng)頁。在順“鏈”而行的過程中發(fā)現(xiàn)、搜索信息。個人用戶在網(wǎng)絡(luò)瀏覽的過程中常常創(chuàng)建書簽或熱鏈表,來將一些常用的、優(yōu)秀的站點地址記錄下來,組織成目錄以備今后之需。2023/7/3181信息存儲與檢索*7.7.1瀏覽模型指基于超文本文件結(jié)構(gòu)的信息瀏2023/7/3182信息存儲與檢索*2023/7/3182信息存儲與檢索*2023/7/3183信息存儲與檢索*2023/7/3183信息存儲與檢索*瀏覽模型存在問題偶然發(fā)現(xiàn):盲目、不可預(yù)見失控:由網(wǎng)絡(luò)的超鏈接控制迷航:在順連而行中偏離檢索目標(biāo)2023/7/3184信息存儲與檢索*瀏覽模型存在問題2023/7/3184信息存儲與檢索*7.7.2超鏈接分析模型合理利用鏈接信息對提高檢索的查全率和查準(zhǔn)率起著重要的作用。2023/7/3185信息存儲與檢索*7.7.2超鏈接分析模型合理利用鏈接信息對提高檢索的查全7.7.2超鏈接分析模型基本思想:鏈接信息與被鏈接的對象之間存在著某種可信的映射關(guān)系,一個頁面被其他站點引用的次數(shù)基本上反映了該頁面的受歡迎程度。1、PageRank算法
PageRank算法是由Google公司兩個創(chuàng)始人SergeyBrin及LarryPage提出的一種搜索引擎排序算法。先給每個網(wǎng)頁賦予一個PageRank值,那么對于用戶查詢串分詞后得到關(guān)鍵字的集合,Q=(k1,k2,…,kn),通過搜索引擎中的索引器,得到一個匹配的網(wǎng)頁集合PageSet=(pi,pk,pm,pn,…),然后對(pi,pk,pm,pn,…)中的網(wǎng)頁按PageRank值高低進行排序,把排序高的前面K個網(wǎng)頁返回給用戶。2023/7/3186信息存儲與檢索*7.7.2超鏈接分析模型基本思想:鏈接信息與被鏈接的對象之Google的PageRank
Google的PageRank根據(jù)網(wǎng)站的外部鏈接和內(nèi)部鏈接的數(shù)量和質(zhì)量來衡量網(wǎng)站的價值。PageRank背后的概念是每個到頁面的鏈接都是對該頁面的一次投票,被鏈接的越多,就意味著被其他網(wǎng)站投票越多。這個就是所謂的“鏈接流行度”——衡量多少人愿意將他們的網(wǎng)站和你的網(wǎng)站掛鉤。PageRank這個概念引自學(xué)術(shù)中一篇論文的被引述的頻度——即被別人引述的次數(shù)越多,一般判斷這篇論文的權(quán)威性就越高。此外,PageRank還會評估每個投票網(wǎng)頁的重要性,因為某些網(wǎng)頁的投票被認(rèn)為具有較高的價值,這樣,它所鏈接的網(wǎng)頁就能獲得較高的價值。重要網(wǎng)頁獲得的PageRank(網(wǎng)頁排名)較高。2023/7/3187信息存儲與檢索*Google的PageRankGoogle簡單算法:
例如一個由4個頁面組成的小團體:A,B,C和D。如果所有頁面都鏈向A,那么A的PR(PageRank)值將是B,C及D的和。PR(A)=PR(B)+PR(C)+PR(D)PageRank會將網(wǎng)頁B上指向網(wǎng)頁A的鏈接解釋為由網(wǎng)頁B對網(wǎng)頁A所投的一票,而不是計算直接的鏈接數(shù)。這樣,PageRank根據(jù)網(wǎng)頁收到的投票數(shù)來評估其重要性。PageRank算法2023/7/3188信息存儲與檢索*簡單算法:
例如一個由4個頁面組成的小團體:A,BGoogle有一套自動化方法來計算這些投票。Google的PageRank分值從0到10;PageRank為10表示最佳,但非常少見,類似里氏震級(Richterscale),PageRank級別也不是線性的,而是按照一種指數(shù)刻度。這是一種奇特的數(shù)學(xué)術(shù)語,意思是PageRank4不是比PageRank3好一級——而可能會好6到7倍。因此,一個PageRank5的網(wǎng)頁和PageRank8的網(wǎng)頁之間的差距會比你可能認(rèn)為的要大的多。2023/7/3189信息存儲與檢索*Google有一套自動化方法來計算這些投票。Google的PPageRank算法繼續(xù)假設(shè)B也鏈接到C,并且D也鏈接到包括A的3個頁面。一個頁面不能投票2次。所以B給每個頁面半票。以同樣的邏輯,D投出的票只有三分之一算到了A的PageRank上。根據(jù)鏈出總數(shù)平分一個頁面的PR值。
2023/7/3190信息存儲與檢索*PageRank算法繼續(xù)假設(shè)B也鏈接到C,并且D也鏈接到包括最后,所有這些被換算為一個百分比再乘上一個系數(shù)q。由于沒有頁面的PageRank會是0。所以,Google通過數(shù)學(xué)系統(tǒng)給了每個頁面一個最小值1?q。所以一個頁面的PageRank是由其他頁面的PageRank計算得到。Google不斷的重復(fù)計算每個頁面的PageRank。如果您給每個頁面一個隨機PageRank值(非0),那么經(jīng)過不斷的重復(fù)計算,這些頁面的PR值會趨向于正常和穩(wěn)定。PageRank算法2023/7/3191信息存儲與檢索*最后,所有這些被換算為一個百分比再乘上一個系數(shù)q。由于沒有頁PageRank算法完整的算法:這個方程式引入了隨機瀏覽的概念,即有人上網(wǎng)無聊隨機打開一些頁面,點一些鏈接。一個頁面的PageRank值也影響了它被隨機瀏覽的概率。為了便于理解,這里假設(shè)上網(wǎng)者不斷點網(wǎng)頁上的鏈接,最終到了一個沒有任何鏈出頁面的網(wǎng)頁,這時候上網(wǎng)者會隨機到另外的網(wǎng)頁開始瀏覽。為了對那些有鏈出的頁面公平,d=0.15的算法被用到了所有頁面上,估算頁面可能被上網(wǎng)者放入書簽的概率。所以,這個等式如下:p1,p2,…,pN是被研究的頁面,M(pi)是鏈入pi頁面的數(shù)量,L(pj)是pj鏈出頁面的數(shù)量,而N是所有頁面的數(shù)量。2023/7/3192信息存儲與檢索*PageRank算法完整的算法:2023/7/3192信息存PageRank算法1LarryPage和SergeyBrin在個別場合描述了PageRank最初的算法。這就是式中:PR(A):網(wǎng)頁A頁的PageRank值;PR(Ti):鏈接到A頁的網(wǎng)頁Ti的PageRank值;C(Ti):網(wǎng)頁Ti的出站鏈接數(shù)量;d:阻尼系數(shù),0<d<1。2023/7/3193信息存儲與檢索*PageRank算法1LarryPage和SergeyPageRank思想的簡單表述:如果網(wǎng)頁T存在一個指向網(wǎng)頁A的連接,則表明T的所有者認(rèn)為A比較重要,從而把T的一部分重要性得分賦予A。這個重要性得分值為:PR(T)/C(T)其中PR(T)為T的PageRank值,C(T)為T的出鏈數(shù),則A的PageRank值為一系列類似于T的頁面重要性得分值的累加。2023/7/3194信息存儲與檢索*PageRank思想的簡單表述:2023/7/3194信息存例如:現(xiàn)在求網(wǎng)頁W的PageRank(p),已知有三個網(wǎng)頁A、B、C鏈接到W,這三個網(wǎng)頁的PageRank(p)值分別為8、5、3,它們的出度(即從此網(wǎng)頁鏈出的網(wǎng)頁數(shù))分別為4、5、2,而總網(wǎng)頁數(shù)有4個,設(shè)d=0.85,那么網(wǎng)頁W的PageRank:2023/7/3195信息存儲與檢索*例如:現(xiàn)在求網(wǎng)頁W的PageRank(p),已知有三個網(wǎng)頁A兩個技術(shù)問題網(wǎng)頁A、B、C的PR值是未知的,首先要分別計算出A、B、C的PR值,而要得到A、B、C的PR值,必須先得到所有鏈入到網(wǎng)頁A的網(wǎng)頁的PR值,還有所有鏈入到網(wǎng)頁B的網(wǎng)頁的PR值,以及所有鏈入到網(wǎng)頁C的網(wǎng)頁的PR值。鏈接A、B、C的網(wǎng)頁也有很多,萬維網(wǎng)彼此互聯(lián),且通常鏈入一個網(wǎng)頁的網(wǎng)頁遠(yuǎn)多于三個,這樣想得到一個網(wǎng)頁的PR值而產(chǎn)生的計算似乎沒有止境。為了PageRank算法收斂,通常采用的方法是冪法(PowerMethod)。2023/7/3196信息存儲與檢索*兩個技術(shù)問題網(wǎng)頁A、B、C的PR值是未知的,首先要分別計算出理論問題的解決計算搜索結(jié)果的網(wǎng)頁排名過程中需要用到網(wǎng)頁本身的排名,拉里·佩奇(LarryPage)和謝爾蓋·布林(SergeyBrin)把這個問題變成了一個二維矩陣相乘的問題,并且用迭代的方法解決了這個問題。他們先假定所有網(wǎng)頁的排名是相同的,并且根據(jù)這個初始值,算出各個網(wǎng)頁的第一次迭代排名,然后再根據(jù)第一次迭代排名算出第二次的排名。他們兩人從理論上證明了不論初始值如何選取,這種算法都保證了網(wǎng)頁排名的估計值能收斂到他們的真實值。2023/7/3197信息存儲與檢索*理論問題的解決計算搜索結(jié)果的網(wǎng)頁排名過程中需要用到網(wǎng)頁本身的實際問題的解決因為互聯(lián)網(wǎng)上網(wǎng)頁的數(shù)量是巨大的,上面提到的二維矩陣從理論上講有網(wǎng)頁數(shù)目平方之多個元素。如果我們假定有十億個網(wǎng)頁,那么這個矩陣就有一百億億個元素。這樣大的矩陣相乘,計算量是非常大的。拉里和謝爾蓋兩人利用稀疏矩陣計算的技巧,大大的簡化了計算量,并實現(xiàn)了這個網(wǎng)頁排名算法。今天Google的工程師把這個算法移植到并行的計算機中,進一步縮短了計算時間,使網(wǎng)頁更新的周期比以前短了許多。
2023/7/3198信息存儲與檢索*實際問題的解決因為互聯(lián)網(wǎng)上網(wǎng)頁的數(shù)量是巨大的,上面提到的二維影響googlePageRank的因素
1、與PR高的網(wǎng)站做鏈接
2、內(nèi)容質(zhì)量高的網(wǎng)站鏈接
3、加入搜索引擎分類目錄
4、加入免費開源目錄
5、你的鏈接出現(xiàn)在流量大、知名度高、頻繁更新的重要網(wǎng)站上6、google對PDF格式的文件比較看重7、安裝Google工具條
8、域名和tilte標(biāo)題出現(xiàn)關(guān)鍵詞與meta標(biāo)簽等9、反向連接數(shù)量和反向連接的等級10、Google抓取您網(wǎng)站的頁面數(shù)量11、導(dǎo)出鏈接數(shù)量2023/7/3199信息存儲與檢索*影響googlePageRank的因素1、與PR高的網(wǎng)HITS(Hyperlink-InducedTopicSearch)超鏈接主題查找算法通過對網(wǎng)絡(luò)中鏈接的分析,利用頁面的被引用次數(shù)及其鏈接數(shù)目來決定不同網(wǎng)頁的價值。HITS算法是基于主題來衡量網(wǎng)頁的重要程度,相對不同主題,同一網(wǎng)頁的重要程度也是不同的。例如,百度對于主題“搜索引擎”和主題“湖南SEO”的重要程度是不同的。例如:Google、Baidu、Yahoo!、sogou、soso等這些搜索引擎相對于主題“搜索引擎”來說就是權(quán)威網(wǎng)頁(authority),因為這些網(wǎng)頁會被大量的超鏈接指向。/post/Hits-Algorithm.html這個頁面鏈接了這些權(quán)威網(wǎng)頁(authority),則這個頁面可以稱為主題“搜索引擎”的中心網(wǎng)頁(hub)。2、HITS算法2023/7/31100信息存儲與檢索*HITS(Hyperlink-InducedTopicS2023/7/31101信息存儲與檢索*2023/7/31101信息存儲與檢索*HITS算法HITS算法發(fā)現(xiàn),在很多情況下,同一主題下的權(quán)威網(wǎng)頁(authority)之間并不存在相互的鏈接。所以,權(quán)威網(wǎng)頁(authority)通常都是通過中心網(wǎng)頁(hub)發(fā)生關(guān)聯(lián)的?;舅枷耄阂粋€好的Hub網(wǎng)頁指向很多Authority網(wǎng)頁,一個好的Authority網(wǎng)頁也有很多好的Hub網(wǎng)頁指向它。Authority網(wǎng)頁是相對某主題來說權(quán)威的網(wǎng)頁,Hub網(wǎng)頁是指向很多相對某主題來說權(quán)威網(wǎng)頁的網(wǎng)頁。2023/7/31102信息存儲與檢索*HITS算法HITS算法發(fā)現(xiàn),在很多情況下,同一主題下的權(quán)威HITS算法HITS算法通過兩個評價權(quán)值——內(nèi)容權(quán)威度(Authority)和鏈接權(quán)威度(Hub)來對網(wǎng)頁質(zhì)量進行評估。內(nèi)容權(quán)威度與網(wǎng)頁自身直接提供內(nèi)容信息的質(zhì)量相關(guān),被越多網(wǎng)頁所引用的網(wǎng)頁,其內(nèi)容權(quán)威度越高;鏈接權(quán)威度與網(wǎng)頁提供的超鏈接頁面的質(zhì)量相關(guān),引用越多高質(zhì)量頁面的網(wǎng)頁,其鏈接權(quán)威度越高。HITS算法認(rèn)為對每一個網(wǎng)頁應(yīng)該將其內(nèi)容權(quán)威度和鏈接權(quán)威度分開來考慮,在對網(wǎng)頁內(nèi)容權(quán)威度做出評價的基礎(chǔ)上再對頁面的鏈接權(quán)威度進行評價,然后給出該頁面的綜合評價。2023/7/31103信息存儲與檢索*HITS算法HITS算法通過兩個評價權(quán)值——內(nèi)容權(quán)威度(AuHITS算法算法思路:(1)將查詢q提交給傳統(tǒng)的基于關(guān)鍵字匹配的搜索引擎。搜索引擎返回很多網(wǎng)頁,從中取前n個網(wǎng)頁作為根集(rootset),用S表示。S滿足如下3個條件:S中網(wǎng)頁數(shù)量相對較小。S中網(wǎng)頁大多數(shù)是與查詢q相關(guān)的網(wǎng)頁。S中網(wǎng)頁包含較多的權(quán)威網(wǎng)頁。
(2)通過向S中加入被S引用的網(wǎng)頁和引用S的網(wǎng)頁將S擴展成一個更大的集合。(3)對擴展集里的每個文檔進行中心權(quán)重H和權(quán)威權(quán)重A的計算。(4)返回一張排好序的網(wǎng)頁列表,列表中的網(wǎng)頁有些具有較高的中心權(quán)重,有些則具有較高的權(quán)威權(quán)重,這樣用戶自己就可以選出他們認(rèn)為是最好的那種類型的網(wǎng)頁(K
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 現(xiàn)代商務(wù)場合下的著裝與舉止規(guī)范
- 居然之家國慶節(jié)活動方案
- 現(xiàn)代農(nóng)業(yè)旅游產(chǎn)業(yè)鏈構(gòu)建與農(nóng)業(yè)可持續(xù)發(fā)展
- 未來生態(tài)社區(qū)的規(guī)劃與水環(huán)境關(guān)系探討
- 災(zāi)害預(yù)防教育在學(xué)校的推廣與應(yīng)用
- 匯報邏輯清晰度職場的制勝法寶
- 6 飛向藍(lán)天的恐龍說課稿-2023-2024學(xué)年四年級下冊語文統(tǒng)編版
- 2023九年級物理上冊 第四章 探究電流4.3 導(dǎo)體對電流阻礙作用說課稿 (新版)教科版
- 2 送元二使安西(說課稿)- 2024-2025學(xué)年部編版語文六年級上冊
- 2024-2025學(xué)年高中數(shù)學(xué) 第一章 集合與常用邏輯用語 1.4.2 充要條件說課稿 新人教A版必修第一冊001
- 2024年公安機關(guān)理論考試題庫附答案【考試直接用】
- 課題申報參考:共同富裕進程中基本生活保障的內(nèi)涵及標(biāo)準(zhǔn)研究
- 2025年浙江嘉興桐鄉(xiāng)市水務(wù)集團限公司招聘10人高頻重點提升(共500題)附帶答案詳解
- 食品企業(yè)如何做好蟲鼠害防控集
- 2025中國聯(lián)通北京市分公司春季校園招聘高頻重點提升(共500題)附帶答案詳解
- 康復(fù)醫(yī)學(xué)科患者隱私保護制度
- 環(huán)保工程信息化施工方案
- 狂犬病暴露后預(yù)防處置
- 紅色中國風(fēng)2025蛇年介紹
- 2024年安徽省高考地理試卷真題(含答案逐題解析)
- 高中學(xué)校開學(xué)典禮方案
評論
0/150
提交評論