構(gòu)造一個(gè)檢索系統(tǒng)_第1頁(yè)
構(gòu)造一個(gè)檢索系統(tǒng)_第2頁(yè)
構(gòu)造一個(gè)檢索系統(tǒng)_第3頁(yè)
構(gòu)造一個(gè)檢索系統(tǒng)_第4頁(yè)
構(gòu)造一個(gè)檢索系統(tǒng)_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)學(xué)建模(A)構(gòu)造一個(gè)檢索系統(tǒng)組號(hào):第三組摘 要 學(xué)術(shù)論文是我們不可缺少的學(xué)習(xí)、研究的參考資料。對(duì)于怎樣將論文的合理地分類管理和快速準(zhǔn)確地檢索成了一個(gè)重要的研究項(xiàng)目。 針對(duì)問(wèn)題要求:怎樣科學(xué)合理地將論文進(jìn)行分類并且能夠通過(guò)關(guān)鍵字快速準(zhǔn)確地檢索到相應(yīng)地論文,我們使用不同地檢索算法,建立了兩個(gè)不同地模型。模型一 矩陣模型,通過(guò)ASCII 碼將字符數(shù)字化,同時(shí)構(gòu)造出字符串的ASCII累加值,并利用矩陣記錄關(guān)鍵字的相應(yīng)的ASCII碼值序列;根據(jù)矩陣維數(shù)的大小,能科學(xué)有效地把論文分類并且大大提高了檢索地速度;建立關(guān)鍵字相關(guān)度,按相關(guān)度大小進(jìn)行論文的輸出,提高了檢索的準(zhǔn)確性。 模型二,模擬網(wǎng)頁(yè)制作中的搜索

2、引擎與信息獲取技術(shù)建立模型。為了模型的推廣,首先對(duì)所要查找的文章進(jìn)行文件預(yù)處理,這樣就保證輸入的關(guān)鍵詞能有效的檢索到有關(guān)的文章。借用向量模型中的求解關(guān)鍵詞在文檔中的權(quán)重計(jì)算方法。這樣更能快速且準(zhǔn)確的搜索到與關(guān)鍵字有關(guān)的文章。然后把錄入信息庫(kù)中的文檔進(jìn)行倒序構(gòu)造。倒排文件構(gòu)造除了在搜索速度上具有較好的性能以外,維護(hù)起來(lái)葉比較簡(jiǎn)單。利用順序查找法算法進(jìn)行倒序文件的搜索。最后用加權(quán)后的總指標(biāo)來(lái)評(píng)定搜索引擎的性能。關(guān) 鍵 詞: 符號(hào)數(shù)字化 矩陣模型 相關(guān)度 文件預(yù)處理 文檔倒序構(gòu)造 算法 總指標(biāo)一、問(wèn)題的重述 根據(jù)某次學(xué)術(shù)會(huì)議所收到的150篇學(xué)術(shù)論文的關(guān)鍵詞(key words),將這些論文按照關(guān)鍵字

3、分類,并構(gòu)造一個(gè)檢索系統(tǒng),使得當(dāng)給出所要查找文獻(xiàn)的一組關(guān)鍵詞,例如(eigenvalue problem,inverse,solvability)或(risk perceptions,mental models,bias,synergistic risk),即可從上述150篇中找出有關(guān)的文章;進(jìn)一步要求使用的方法應(yīng)能適用于文獻(xiàn)數(shù)量更大的。除少量明顯錯(cuò)誤外,關(guān)鍵詞(包括大小寫)均原文照錄。二、基本假設(shè) 1、為了檢索地快速有效,我們不再區(qū)分大小寫字母;2、在有限地論文中,相連的ASCII累加值相等的字符串出現(xiàn)的概率是很小的,即可以忽略不計(jì);3、用戶在輸入關(guān)鍵詞時(shí),我們認(rèn)為關(guān)鍵詞的重要程度和輸入順序

4、同方向變化,即最重要的放在最前面。三、主要變量符號(hào)說(shuō)明為了便于描述問(wèn)題,我們用一些符號(hào)來(lái)代替問(wèn)題中涉及的一些基本變量。其他一些變量將在文中說(shuō)明。 文章的編號(hào) 字符串的ASCII累加值 關(guān)鍵字的相應(yīng)的ASCII碼值序列 第篇論文關(guān)鍵字的總相關(guān)度 為信息庫(kù)中文檔的數(shù)目 關(guān)鍵詞在文檔中的權(quán)重 兩個(gè)文檔的相似程度 搜索引擎的總指標(biāo): 表示對(duì)這篇文章進(jìn)行倒排處理后所得的結(jié)果四、問(wèn)題的分析題目中主要提到檢索系統(tǒng)的三個(gè)要求:一是將學(xué)術(shù)論文進(jìn)行科學(xué)合理地分類;二是輸入關(guān)鍵字時(shí),能夠快速準(zhǔn)確地檢索到相應(yīng)地論文;三是所建模型可以大量推廣,應(yīng)用到文獻(xiàn)數(shù)量更大的情行。我們分析認(rèn)為,論文科學(xué)合理地進(jìn)行分類,不僅僅是為了

5、管理上的方便,更大程度上是為了提高檢索的速度;論文篇數(shù)和關(guān)鍵字都比較多,系統(tǒng)能夠準(zhǔn)確地記錄下所有信息,所需要地存儲(chǔ)空間也較大。因此,關(guān)鍵字進(jìn)行數(shù)字化,并用一個(gè)個(gè)矩陣記錄下來(lái)顯得格外重要。一是助于關(guān)鍵字的位置符號(hào)化,利于數(shù)據(jù)管理,關(guān)鍵字與論文的統(tǒng)一,不會(huì)與其它論文混淆;二是節(jié)省了存儲(chǔ)的空間。系統(tǒng)能夠準(zhǔn)確而不遺漏地將相關(guān)地論文檢索出來(lái),其輸出的信息量也比較大,對(duì)于用戶來(lái)說(shuō)不易于篩選。因此,建立關(guān)鍵字相關(guān)度,并按從大到小排序輸出,才能更大地提高準(zhǔn)確性。五、模型建立與求解模型一、矩陣模型及相關(guān)度(一) 準(zhǔn)備工作:為了更好的建立模型一,我們做了如下準(zhǔn)備工作:1. 字符處理:為了簡(jiǎn)化模型,我們將字符a,b

6、,cz不區(qū)分大小寫重新附上ASCII碼值如下: aA1bB2cC3. . . . .zZ26為了便于研究,對(duì)于特殊符號(hào),如破折號(hào)、羅馬數(shù)字等,我們統(tǒng)一附值為0。2. 關(guān)鍵字順序處理:為了給模型帶來(lái)方便,我們將每一篇論文中的關(guān)鍵字按字符串的個(gè)數(shù)重新排列如下: 1Drazin inverse,moore-penrose inverse,reverse order law; 2applications ,Nonlinear approximation problems; 3 Hermite element,Wilson element,Carey element,P1 element,Nonnest

7、ed multilevel preconditioning method; 3. ASCII碼累加值的定義:字符串的ASCII累加值等于字符串的各個(gè)字符的ASCII碼值之和。例如,Matlab這個(gè)字符串ASCII碼值累加值為:。4. 關(guān)鍵字的位置符號(hào)化:設(shè)第篇論文的關(guān)鍵字的個(gè)數(shù)為,其中第個(gè)關(guān)鍵字的字符串個(gè)數(shù)為,取,第個(gè)關(guān)鍵字的第個(gè)字符串計(jì)為;例如,第篇論文中,關(guān)鍵字的個(gè)數(shù)為,第個(gè)關(guān)鍵字的字符串個(gè)數(shù)為,第1個(gè)關(guān)鍵字的第2個(gè)字符串為,。5. 關(guān)鍵字的數(shù)字化:分別計(jì)算第篇論文第個(gè)關(guān)鍵字的第個(gè)字符串的ASCII累加值;并用維向量記錄,不足元素記為0。同樣以第1篇論文為例,因此,;同理可以計(jì)算出,。6、

8、關(guān)鍵字的數(shù)字化存儲(chǔ)和論文的分類:通過(guò)前面的準(zhǔn)備工作,我們建立矩陣用來(lái)記錄第篇論文的關(guān)鍵字的相應(yīng)的ASCII碼值序列:(1)因此,我們很容易得到第1篇論文關(guān)鍵字的字符串相應(yīng)的ASCII碼值序列:同理,我們將篇論文的關(guān)鍵字按照的準(zhǔn)備工作的第2步進(jìn)行處理,并把重新排列后的數(shù)據(jù)帶入(1)式中,分別得到個(gè)記錄關(guān)鍵字的ASCII碼值序列矩陣: 。由于每一篇論文的關(guān)鍵字個(gè)數(shù)和每個(gè)關(guān)鍵字的字符串個(gè)數(shù)都不可能完全相等,那么記錄論文關(guān)鍵字ASCII碼值序列矩陣的維數(shù)也是不完全相等。它們的維數(shù)是由決定的。為了提高以后論文的收索速度,我們按照()的大小,把論文分成類,并將它們存儲(chǔ)到數(shù)據(jù)庫(kù)中。7、關(guān)鍵字的收索原理:(1

9、)當(dāng)用戶輸入一個(gè)關(guān)鍵字時(shí),可能是一個(gè)或者多個(gè)字符串,計(jì)算機(jī)立即計(jì)算的字符串個(gè)數(shù) 和每個(gè)字符串相應(yīng)的ASCII累加值 ,并用矩陣臨時(shí)記錄。 (2)計(jì)算機(jī)檢索:利用維數(shù)相等原理,提取出維數(shù)為的ASCII碼值序列矩陣,若存在并且元素之間連續(xù),則可以從數(shù)據(jù)庫(kù)中調(diào)出第篇論文給以用戶篩選。例如,輸入order law這一個(gè)關(guān)鍵字,則計(jì)算機(jī)會(huì)立刻計(jì)算出,此刻會(huì)調(diào)出維數(shù)為的ASCII碼值序列矩陣,通過(guò)對(duì)比,中,第1篇論文符合用戶關(guān)鍵字的要求。(二)模型的建立:由于用戶輸入的關(guān)鍵字可能是一個(gè)或若干個(gè),而且每個(gè)關(guān)鍵字都可能是一個(gè)或若干個(gè)字符串。所以,為了評(píng)價(jià)出關(guān)鍵字收索的準(zhǔn)確性和論文輸出順序,我們建立了關(guān)鍵字相關(guān)

10、度: (2) 式中 ,、表示和的元素個(gè)數(shù)。因此,第篇論文符合用戶輸入的個(gè)關(guān)鍵字的總相關(guān)度為:(3)最后,計(jì)算機(jī)計(jì)算出每篇論文符合用戶的關(guān)鍵字的總相關(guān)度。(三)模型的求解:在檢索論文時(shí),速度和準(zhǔn)確性是相當(dāng)重要的。利用關(guān)鍵字進(jìn)行檢索時(shí),提高速度的有效方法是:對(duì)用戶輸入的關(guān)鍵字進(jìn)行快速計(jì)算關(guān)鍵字字?jǐn)?shù)和每個(gè)關(guān)鍵字的字符串大小,??;根據(jù)向量維數(shù)大小,要使得,就必須有,因此第類論文就可以排除掉了;如果每一類論文的篇數(shù)基本相同,那么收索速度由原來(lái)的提高到。而提高收索的準(zhǔn)確性方法是:計(jì)算機(jī)快速計(jì)算用戶輸入的關(guān)鍵字的ASCII累加值序列;再?gòu)牡?類論文中進(jìn)行查找,根據(jù)上訴模型一的(2)(3)式,可以快速計(jì)算出剩

11、下各篇論文符合用戶的關(guān)鍵字的總相關(guān)度。最后對(duì)從大到小進(jìn)行排序,并從數(shù)據(jù)庫(kù)中將標(biāo)號(hào)為的論文按照總相關(guān)度的大小進(jìn)行輸出,以供用戶篩選。模型二、模擬網(wǎng)頁(yè)搜索引擎模型1、模型提出的背景:我們知道基本的查詢方式可以通過(guò)順序掃描文本的方式來(lái)進(jìn)行,這種查詢方式叫作順序查找或在線查詢。在用戶查詢的時(shí)候,直接在文檔中進(jìn)行字符串的匹配。但這種在線分析方法只適用于文檔比較小的情況(比如只有幾兆),且它的搜索速度比較慢。對(duì)于信息庫(kù)中的文本,另外一種查詢的方法是先對(duì)文檔進(jìn)行預(yù)處理,然后再用索引的基本技術(shù)進(jìn)行搜索。這樣會(huì)大大提高搜索的速度。本模型提出的索引的基本技術(shù)是倒排文件的搜索。2、模型的原理:模型二的建立分為四個(gè)步

12、驟:第一:把要搜索的文本進(jìn)行文本預(yù)處理;第二:構(gòu)造倒排文件:第三:進(jìn)行倒排文件的搜索;第四:對(duì)搜索結(jié)果進(jìn)行篩選。3、模型的準(zhǔn)備:(一) 文本預(yù)處理 就本題而言不需要對(duì)其進(jìn)行文本預(yù)處理,因?yàn)楸绢}在檢索時(shí)給出就是一些關(guān)鍵字,但為了模型的推廣我們引入“文本預(yù)處理”這個(gè)概念。文本預(yù)處理就是我們對(duì)所給的文章進(jìn)行一定的處理而得到的由關(guān)鍵詞所組成的詞匯樹(shù)。 我們知道不是所有的單詞都能等同地表示一個(gè)文本的語(yǔ)義。在書面語(yǔ)言中,一些詞匯與其他詞匯相比能夠表達(dá)更多的意思。一般來(lái)說(shuō),名詞是最能夠表達(dá)文檔內(nèi)容的。這樣就有必要對(duì)文檔進(jìn)行預(yù)處理,以決定對(duì)哪些詞匯建立索引。在對(duì)文檔進(jìn)行預(yù)處理的過(guò)程中,還有一些其他有用的文本操

13、作,比如無(wú)用詞匯的刪除、詞干提取技術(shù)、詞典的生成和文本的壓縮等。 文本預(yù)處理的過(guò)程可以分為如下五個(gè)步驟:i. 文本的詞法分析:它主要是處理文本中的數(shù)字、連接符、標(biāo)點(diǎn)符號(hào)和字符的大小寫。詞法分析的過(guò)程是將字符串(文檔中的文本)轉(zhuǎn)換成詞條的過(guò)程,這些詞條可能被用來(lái)作為索引詞條。因此詞法分析的主要目的就是識(shí)別文本中的詞條。在對(duì)英文進(jìn)行分詞的過(guò)程中,要對(duì)空格分隔符、數(shù)字、連字符、標(biāo)點(diǎn)符號(hào)進(jìn)行處理。(由于假設(shè)不區(qū)分字符的大小寫,因此不需要對(duì)字符的大小寫進(jìn)行處理)ii. 無(wú)用詞匯的刪除:它主要是過(guò)濾掉那些對(duì)于信息獲取過(guò)程來(lái)說(shuō)區(qū)分能力底的詞匯。在信息庫(kù)的文檔中太頻繁出現(xiàn)的單詞將不會(huì)成為具有良好區(qū)分能力的詞匯

14、,即無(wú)用詞匯。在選擇索引詞條的時(shí)候,這些詞條常被過(guò)濾掉。一般說(shuō)來(lái),冠次、介詞、連詞等都可以算作無(wú)用詞匯。iii. 詞干提?。核饕侨コ~綴(前綴和后綴),這樣可以允許所獲取的文檔包含一些查詢?cè)~條的變換形式。所謂詞干是指將詞的詞綴(前綴和后綴)刪除后剩下的部分。因此可以將文檔中的詞匯用它們的詞干來(lái)代替。iv. 索引詞條/詞干的選擇:在選擇的時(shí)候通常按照單詞的習(xí)慣用法,實(shí)際上名詞往往要比形容詞、副詞和動(dòng)詞包含更多的語(yǔ)義;通常我們選擇句子中的名詞來(lái)作為索引詞條。對(duì)于兩個(gè)或兩個(gè)以上的名詞我們可以先設(shè)置一個(gè)閾值,然后計(jì)算文本中詞匯之間的距離,如果該距離小于閾值,則將這些詞匯放在一起構(gòu)成名詞組。v. 構(gòu)

15、造詞條的分類結(jié)構(gòu),例如詞典或者結(jié)構(gòu)抽取,利用它可以進(jìn)行查詢的擴(kuò)展。(二)倒排文件的構(gòu)造 所有已知的單詞都防在一棵樹(shù)結(jié)構(gòu)中。在構(gòu)造倒排索引的時(shí)候,對(duì)于每個(gè)讀入的單詞,首先在該樹(shù)結(jié)構(gòu)中查找,如果沒(méi)有找到,就在該樹(shù)中加入一個(gè)空的詞匯出現(xiàn)情況列表;否則將該詞匯的新位置加入到樹(shù)中對(duì)應(yīng)詞匯出現(xiàn)情況列表的末尾。在對(duì)要加入的文本中的每個(gè)單詞都處理完以后,該樹(shù)將被寫到磁盤上。 在實(shí)際操作中,索引一般被分成兩個(gè)文件存放。第一個(gè)文件順序存放詞匯出現(xiàn)情況列表,第二個(gè)文件以字典序存放樹(shù)中的詞匯,還為每個(gè)詞匯存放一個(gè)指向第一個(gè)文件中該單詞對(duì)應(yīng)的詞匯出現(xiàn)情況列表的指針。這樣的話,第二個(gè)文件由于比較小而可以在搜索的時(shí)候放在內(nèi)

16、存中。倒排索引的例子見(jiàn)下圖:2.Nonlinear approximation problems,applications3 11 13 27 37 48文本詞匯樹(shù)(三)倒排文件的搜索 倒排文件的搜索算法一般分成三個(gè)步驟:第一:詞匯查找:將查詢串中的單詞和模式分割成獨(dú)立的部分,短語(yǔ)和近視查詢串被分割成單個(gè)詞匯;第二:查找詞匯出現(xiàn)情況:獲取與查詢串中所有詞匯相關(guān)的出現(xiàn)情況列表:第三:詞匯出現(xiàn)情況的操作:主要是通過(guò)對(duì)上一步中獲取的詞匯出現(xiàn)情況的操作實(shí)現(xiàn)短語(yǔ)查詢。(四)順序查找法 該查詢的一般過(guò)程是,給定一個(gè)長(zhǎng)度為的模式和長(zhǎng)度為的文本,在該文本中尋找所有出現(xiàn)模式的位置。我們采用的是算法。 在介紹算法

17、之前,先給出如下函數(shù):當(dāng)時(shí)當(dāng)此集合不空時(shí)其他情況 2.1 其中, 表示當(dāng)模式中第個(gè)字符與文本串中相應(yīng)字符“失配”時(shí),在模式串中需重新和文本串中該字符進(jìn)行比較的字符的位置。 假設(shè)以指針和分別指示文本串和模式串中待比較的字符(和的初值均為1)。若在匹配的過(guò)程中(表示文本串的第個(gè)字符,表示模式串的第個(gè)字符),則和分別增1,否則退到的位置再比較,若相等,則指針各自增1,否則再退到下一個(gè)值的位置,依此類推,直至出現(xiàn)下列兩種情況:一種是退到某個(gè)值時(shí)字符比較相等,此時(shí)指針各自增1繼續(xù)進(jìn)行匹配;另一種時(shí)退到值為零(即模式的第一個(gè)字符“失配”),此時(shí)需將模式串繼續(xù)向右滑動(dòng)一個(gè)位置,即從文本串的下一個(gè)字符起和模式

18、串重新匹配。(五)借用向量模型 在性兩模型中,信息獲取系統(tǒng)如果涉及個(gè)關(guān)鍵詞,則建立維的向量空間,每一維都代表不同的關(guān)鍵此方法,信息庫(kù)中的文本以及用戶的查詢都通過(guò)該空間中的向量來(lái)表示。查詢向量中的權(quán)重表示對(duì)應(yīng)關(guān)鍵詞對(duì)于用戶來(lái)說(shuō)的重要程度,一般來(lái)說(shuō)權(quán)重1表示期望在文檔中出現(xiàn)的詞條,而0表示不希望出現(xiàn)的詞條。而詞條的權(quán)重一般基于詞條在文檔中出現(xiàn)的頻率。利用多種詞條權(quán)重的計(jì)算方法。定義關(guān)鍵詞在文檔中的權(quán)重如下: (2.2) 其中,為關(guān)鍵詞在文檔中出現(xiàn)的頻率即詞頻;為信息庫(kù)中文檔的數(shù)目;為信息庫(kù)中包含詞條的文檔的個(gè)數(shù);為文檔中所有關(guān)鍵詞的個(gè)數(shù)。(六)搜索引擎的主要指標(biāo) 搜索引擎的主要指標(biāo)由響應(yīng)時(shí)間、召回

19、率、相似度。 (1)響應(yīng)時(shí)間:為了說(shuō)明響應(yīng)時(shí)間,我們引入時(shí)間頻度和時(shí)間復(fù)雜度。時(shí)間頻度指一個(gè)算法中的語(yǔ)句執(zhí)行次數(shù)。設(shè)為問(wèn)題的規(guī)模,則記為時(shí)間頻度。若有某個(gè)輔助函數(shù),使得當(dāng)趨近于無(wú)窮大時(shí),的極限值為不等于零的常數(shù),則稱是的同數(shù)量級(jí)函數(shù)。記作,稱 為算法的漸進(jìn)時(shí)間復(fù)雜度,簡(jiǎn)稱時(shí)間復(fù)雜度。時(shí)間復(fù)雜度反映了響應(yīng)時(shí)間。給定一個(gè)長(zhǎng)度為的模式和長(zhǎng)度為的文本,利用順序查找法的算法的時(shí)間復(fù)雜度為。 (2)召回率:利用精度和召回率可以度量所獲取的文檔在相關(guān)性方面是否滿足了用戶的需求。表2-1給出了在信息獲取系統(tǒng)中所獲取的文檔與用戶及整個(gè)信息庫(kù)的關(guān)系。其中,表示信息庫(kù)中文檔的數(shù)量,為信息庫(kù)中與用戶查詢相關(guān)的文檔,表

20、示信息庫(kù)中與用戶查詢不相關(guān)的文檔,為用戶該此查詢所獲取的文檔,而為信息庫(kù)中在該次查詢中未被獲取的文檔。表2-1 相關(guān)文檔的集合定義文檔集合相關(guān)不相關(guān)所獲取的文檔集合為獲取的文檔集合 從表中可以得到信息獲取系統(tǒng)的評(píng)價(jià): 精度: 召回率: (2.3) 基于該表,就可以計(jì)算精度召回率的值。 (3)相似度:對(duì)于包含個(gè)詞條的查詢向量和一個(gè)文檔向量來(lái)說(shuō),它們之間的相似度可以通過(guò)2.4公式來(lái)計(jì)算: (2.4)4、模型的建立 在模型的原理中,我們有提過(guò)將給的文章進(jìn)行預(yù)處理。也就是提取出我們要查找的關(guān)鍵詞。針對(duì)本文就不需要了。然后我們把信息庫(kù)中的文章進(jìn)行倒排文件處理。表示對(duì)這篇文章進(jìn)行倒排處理后所得的結(jié)果。接著

21、我們?cè)谟脩羲阉鹘缑孑斎腙P(guān)鍵字。計(jì)算機(jī)通過(guò)順序查找法找到相關(guān)文章,由常識(shí)可以知道也許搜索的相關(guān)文章不止一篇,這時(shí)我們按照關(guān)鍵詞在文檔中的權(quán)重進(jìn)行排序。查找出來(lái)的文章與要查找的文章的相似度越大排序就越靠前。最后通過(guò)搜索引擎的主要指標(biāo)(響應(yīng)時(shí)間、召回率、相似度)寫出其總指標(biāo): (2.5)其中,為加權(quán)系數(shù)。總指標(biāo)是對(duì)模型的搜索引擎的一個(gè)評(píng)價(jià)。下面我們舉個(gè)例子來(lái)說(shuō)明我們整個(gè)模型。(一) 提取關(guān)鍵詞設(shè)有兩篇文章1和40 1文章1的內(nèi)容:Drazin inverse,moore-penrose inverse,reverse order law;40文章40的內(nèi)容:Inverse singular valu

22、e problem,inverse eigenvalue problem;由于文章中給出的已經(jīng)是關(guān)鍵詞,因此我們不需要進(jìn)行預(yù)處理。文章1的關(guān)鍵詞為:Drazin inverse moore penrose inverse reverse order law文章40的關(guān)鍵詞為:Inverse singular value problem inverse eigenvalue problem(二)建立倒排文件有了關(guān)鍵詞后,我們就可以建立倒排索引了。上面的對(duì)應(yīng)關(guān)系是:“文章號(hào)”對(duì)“文章中所有關(guān)鍵詞”。倒排索引把這個(gè)關(guān)系倒過(guò)來(lái),變成:“關(guān)鍵詞”對(duì)“擁有該關(guān)鍵詞的所有文章號(hào)”。文章1,40經(jīng)過(guò)倒排后變成

23、 關(guān)鍵詞   文章號(hào)Drazin 1eigenvalue 40Inverse 1,40law 1moore 1order 1penrose 1problem 40reverse 1singular 40value 40 通常僅知道關(guān)鍵詞在哪些文章中出現(xiàn)還不夠,我們還需要知道關(guān)鍵詞在文章中出現(xiàn)次數(shù)和出現(xiàn)的位置,通常有兩種位置:a)字符位置,即記錄該詞是文章中第幾個(gè)字符(優(yōu)點(diǎn)是關(guān)鍵詞亮顯時(shí)定位快);b)關(guān)鍵詞位置,即記錄該詞是文章中第幾個(gè)關(guān)鍵詞(優(yōu)點(diǎn)是節(jié)約索引空間、詞組(phase)查詢快)因此加上“出現(xiàn)頻率”和“出現(xiàn)位置”信息后,我們的索引結(jié)構(gòu)變?yōu)椋宏P(guān)鍵詞 

24、0;  文章號(hào)出現(xiàn)頻率    出現(xiàn)位置Drazin 11 1eigenvalue 401 6Inverse 12,402 2,5,1,5law 11 8moore 11 3order 11 7penrose 11 4problem 402 4,7reverse 11 6singular 401 2value 401 3以Inverse這行為例我們說(shuō)明一下該結(jié)構(gòu):Inverse在文章1中出現(xiàn)了2次,文章40中出現(xiàn)了2次,它的出現(xiàn)位置為“2,5,1,5”這表示什么呢?我們需要結(jié)合文章號(hào)和出現(xiàn)頻率來(lái)分析,文章1中出現(xiàn)了2次,那么“2,5”就表示Inverse在文章1中出現(xiàn)的兩個(gè)位置,文章40中出現(xiàn)了2次,而“1,5”就表示Inverse是文章40中出現(xiàn)的兩個(gè)位置。以上通過(guò)簡(jiǎn)單的例子說(shuō)明倒

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論