【畢業(yè)學(xué)位論文】(Word原稿)基于PARADISE平臺的論文檢索系統(tǒng)_第1頁
【畢業(yè)學(xué)位論文】(Word原稿)基于PARADISE平臺的論文檢索系統(tǒng)_第2頁
【畢業(yè)學(xué)位論文】(Word原稿)基于PARADISE平臺的論文檢索系統(tǒng)_第3頁
【畢業(yè)學(xué)位論文】(Word原稿)基于PARADISE平臺的論文檢索系統(tǒng)_第4頁
【畢業(yè)學(xué)位論文】(Word原稿)基于PARADISE平臺的論文檢索系統(tǒng)_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

本科生畢業(yè)論文 題目 :基于 臺 的 論文檢索系統(tǒng) 名: 學(xué) 號: 院 系: 信息科學(xué)技術(shù)學(xué)院 專 業(yè): 計算機(jī)科學(xué)與技術(shù)系 指導(dǎo)教師: 副教授 二一七年四月十七日 摘要: 本文基于天網(wǎng)實驗室的 索引擎平臺,500 多篇論文為數(shù)據(jù),搭建成一個論文搜索系統(tǒng),最終目的是通過論文之間的引用關(guān)系,獲得其他引用這篇論文的作者對這篇論文的評價,形 成一個小的評價段落,以及 而使得我們能夠從專業(yè)級的角度獲得這篇論文的內(nèi)容以及優(yōu)劣。 我們首先 面抓取了文章之間的引 用關(guān)系,然后通過一個算法獲得對一篇文章評價的候選句子集,根據(jù)這些句子的重要程度進(jìn)行排序,獲得一個評價短文。并且構(gòu)建了一個語言模型,通過這些候選句子集對原文的句子進(jìn)行評分,取得分最高的幾個句子,獲得原文基于影響的概括。 關(guān)鍵詞 搜索引擎 , 論文評價 , 語言模型 , 法 , 基于影響的概括 3 n on 500 in of we a of is to of on We on a we a we in 4 目錄 第 1章 引言 . 5 . 5 . 2 . 2 . 2 . 3 臺搭建搜索平臺 . 3 . 3 第 2章 數(shù)據(jù)的收集 . 5 . 5 . 6 . 7 第 3章 生成評論集 . 10 . 10 . 11 第 4章 建立模型并生成基于影響的概括 . 13 我們所有的數(shù) 據(jù) . 13 . 13 . 14 . 15 第 5章 搭建搜索引擎 . 16 . 16 . 17 . 18 . 19 . 19 . 20 . 21 第 6章 實驗結(jié)果與分析 . 22 . 22 . 22 第 7章 后續(xù)工作 . 26 第 8章 致謝 . 27 參考文獻(xiàn) . 28 5 第 1 章 引言 究 背景 如今,全世界范圍內(nèi)學(xué)術(shù)活動日益積極,所產(chǎn)生的論文也在不斷增多,因此,如何搜索到自己所需要的論文,以及自動獲取一些關(guān)于論文的信息,是客觀需要的。 學(xué)術(shù)檢索,絕不簡簡單單的檢索出所要查找的論文,這樣就和普通的通用搜索引擎如 術(shù)檢索, 應(yīng)該 更側(cè)重于深層次的內(nèi)容挖掘 。 例如,可以通過一篇論文所引用的文章以及所屬領(lǐng)域 ,尋找出這個文章所在領(lǐng)域的主要論文,這對了解一篇論文的背景知識以及理解一個領(lǐng)域的發(fā)展非常重要。 在 et 2007, 005 中提到了文獻(xiàn)檢索現(xiàn)在主要 的發(fā)展方向, 有以下幾點: 是從語言模型的角度,讓人們更加準(zhǔn)確的找到所需要的論文。 及一些較權(quán)威的作者,幫助讀者了解相關(guān)知識。 3.從 度,挖掘出一些知識,最常見的,就是通過一篇論文的被引用次數(shù)確定它的排名以及影響力。 我們知道,國外的 生在第一年 的學(xué)習(xí) 之后都是要通過 試的,考試的形式一般是 先讀幾十篇論文,然后根據(jù)這些論文的內(nèi)容進(jìn)行答辯。這時候,他們 往往很想知道別人是如何評價這篇論文的,這篇論 文有什么優(yōu)點和缺點,有什么后續(xù)的研究等等。這就像我們準(zhǔn)備去一個地方旅游,不僅需要該景點本身的介紹(有點類似于摘要),往往更想知道去過這個地方的人都是如何評價這些地方的。通過對這篇論文的評價,我們可以從更專業(yè)并且更加廣闊的角度獲得這篇論文的一些信息,并且可以知道 在 這篇論文 工作 之后可以做哪些事情。 基于上面的觀點,我們就準(zhǔn) 備做出這樣一個知識提取系統(tǒng),通過這個系統(tǒng),可以自動獲得別人對這篇論文的評價 999 , 以及論文中的一些較有影響力的信息,從而幫助人們更好的理解這篇論文。 整 體 流程如 圖表 1所示 。 在 008中,作者利用 法建立了一個模型,生成了一篇論文基于影響的概括,但是它并沒有強(qiáng)調(diào)評論的重要性( 這里 的評論,是指別的作者對它引用的一篇文章的評論),它只講評論當(dāng)成一個中間狀態(tài),當(dāng)成一個求得基于影響的概括的手段。實際上,這些評論和最終經(jīng)過 法形成的概括是同等重要的,有時候,它甚至比后者更加清晰易懂。本文相對于 008的優(yōu)點是,賦予 評論以及概括同等重要 的意義 ,并且形成了一個實際的系統(tǒng)供人使用,而不僅僅是用于研究。 2 作 內(nèi)容 取所需要的論文數(shù)據(jù) 要進(jìn)行論文搜索,首先需要一批實驗數(shù)據(jù),我是從 抓取下來的。之所以選擇從這上面抓取,是因為我們不僅需要論文的 需要從中自動提取摘要、引用等信息,而這本身就應(yīng)該是一個挺復(fù)雜的算法了,而且不是我們工作的目的,而上述網(wǎng)站已經(jīng)人工的將論文的摘要、引用信息提取了出來,并且對于每一個引用還有相應(yīng)的鏈接,因此會節(jié)省我們抓取數(shù)據(jù)所要 花費(fèi)的工作量。最終 我們 將抓取的數(shù)據(jù)存儲在 得一篇論文的評價并較好的顯示出來 我們這個系統(tǒng)的主要工作是通過別的論文對原論文的評 論 ,來獲得一些不 能直接從原論文中獲得的信息,因此,最基礎(chǔ)的,就是如何獲得這些評 論 。關(guān)于這一點,我們通過上面的數(shù)據(jù)收集工作,會獲得一個論文之間的引用圖,然后通過引用的倒置,能夠獲得引用一篇論文的所有文章,然后,通過一個算法,可以從這些文章中提取出對原文進(jìn)行評價的句子。最終,為了便于使用者觀看,還需要對這些句子進(jìn)行一些整理,進(jìn)行排序、整理成一個段落出來 。 論文 1 正文 引用 1 引用 2 論文 2 正文 引用 1 引用 2 源論文 句子 1 句子 2 句子 3 句子 4 . 引用 評論 引用 評論 評論 基于影響的概括 圖表 1 論文檢索和挖掘系統(tǒng)框架 3 得一篇論文基于影響的總結(jié)段落 在獲得對原文進(jìn)行評 論 的句子之后,將原文劃分成一個一個的句子,我們利用了 法 (參看 et 2009的 ) ,對這些句子進(jìn)行打分,這里分?jǐn)?shù)的高低,代表了原文中每一個句子影響程度的高低,顯然,影響越大的句子,在別的文章中提及的越多,其分?jǐn)?shù)就越高。最后,我們?nèi)∫欢〝?shù)量得分最高的句子,組成一個段落,這個段落是對原文的一個概括,而且會獲摘要所不能獲得的一些信息 。 于 臺搭建搜索平臺 我們基于 索引擎平臺搭建成了一個關(guān)于 全文搜索系統(tǒng)。 預(yù)處理, 建立 索引,檢索,前臺四部分組成。由于我們的數(shù)據(jù)是論文,并且已經(jīng)轉(zhuǎn)化為了 處理這一部就 略去 了,需要繼承一個建立索引的類,并且修改一些前臺的接口就可以了,這樣就搭建成了一個論文搜索系統(tǒng)。這一過程也體現(xiàn)出了 中包括預(yù)處理、索引、檢索、語言模型、排序、壓縮等等所有的模塊都可以自己選擇或者自己重新定義來完成。 驗的意義 我們在讀一篇論文之前,一般能簡單的看到它的摘要、作者等信息。而在讀完一篇論文之后,我們能獲得什么信息呢?主要有以下幾種: 1) 這篇文章做了什么事情,這可以從摘要中獲得。 2) 這 篇文章中涉及到 的 核心算法,這個只有在細(xì)致的讀完了這篇文章之后才能理解,應(yīng)該是沒法依靠輔助來獲得的。 3) 這篇文章哪些部分比較重要,哪些部分比較好,哪些部分需要改正,我們可以從哪些方向進(jìn)行擴(kuò)展 。 對于第三點,如果完全自己理解 ,可能會比較困難,而且對讀者自己的要求也比較高,可能要讀了很多 這方面的背景知識、后續(xù)論文等等才可能獲得,而通過我們做的這個系統(tǒng),就可以幫助大家更簡單的獲得一些從文章中不能直接獲得的 信息 。 一般來說,作者 如果 想 從自己的角度歸納 本文的大體內(nèi)容,通過 閱讀 摘要,我們可以看到作者寫這篇文章大體做了什么。 但是文章中很有可能有一些作者沒有發(fā)現(xiàn),或者作者當(dāng)前沒有重視但是以后被別人發(fā)掘出來很重要的意義。通過將那些對文章進(jìn)行引用的句子,與本文建模,對原文中的句子進(jìn)行排序,從而獲得文章中一些有特殊意義,影響較大的句子,這樣,我們可以獲得文章中最重要的 4 信息,而這些重要信息和摘要的區(qū)別就是,它們不是作者提出來的,而是別的作者在讀了這篇文章以及其他的文章,經(jīng)過很多思考之后,總結(jié)出來的這篇文章最重要的地方 。 此外,別的文章中對原文進(jìn)行評論的句子 et 2004,本身就是很重要的信息,可以讓我們知道原文都做了 哪 些后續(xù)工作,或者 哪 些部分比較好,哪些部分需要改正 。 簡單來說 ,我們這個系統(tǒng)的意義,就是通過數(shù)據(jù)挖掘的方法,獲得一些直接從原論文很難發(fā)現(xiàn)的信息,并且結(jié)合 統(tǒng),以搜索引擎的方式呈現(xiàn)出來,便于大家檢索查找 。 5 第 2 章 數(shù)據(jù)的收集 我們這個系統(tǒng)的目的是為了方便讀者理解論文,因此除了需要基本的論文的需要提取發(fā)表期 刊、作者、摘要、被 引 用次數(shù),引用文章這些信息。其中,發(fā)表期刊、作者以及被引用次數(shù)是用來在后面獲得 及行排序的時候加權(quán)用的,顯而易見,較好的期刊,較有名的作者,引用次數(shù)較高的文章,它做出的評價應(yīng)該要重要一些(當(dāng)然,這里只是預(yù)留著為以后的擴(kuò)展用,而我們的系統(tǒng)實際上并沒有用到作者的知名度信息)。當(dāng)然,其中最重要的是提取引用的信息。我們的目標(biāo)是通過獲得每篇文章所引用過的文章,建立 一個映射表,然后將映射表倒置過來,從而獲得每篇文章被哪些文章 引用 過 。 何提 取數(shù) 據(jù) 首先,是如何提取文章的摘要等各種信息了。本來我是準(zhǔn)備直接從文章中提取的,隨著工作的深入,發(fā)現(xiàn)這樣做有很多的缺點,首先,從 本身就可以當(dāng)做一個畢業(yè)設(shè)計來做了,會消耗大量的時間,但卻不一定能夠達(dá)到工作的目的;其次,最重要的是,在每一篇文章里, 者,文章名,發(fā)表期刊,年份)的形式表現(xiàn)出來的,例如 : G. H. J. J. M. . A PI 15:93 100, 2003. 而 我 們存儲每篇文章的時候, 是以期刊作為文件夾,以文章 標(biāo)題 作文文件名來存儲的,例如這篇論文,以下面的形式存儲的 。 因此,我們需要從上面的那句話中提取會議名以及文章名,才能獲得文章之間的引用關(guān)系,建立一個 。 這之中 即使 是相差一個空格都不行,會直接導(dǎo)致整個系統(tǒng)的失敗 。 于是,我們想出了一個簡單的辦法。可以看到,在 ,每 6 一篇論文的格式都是規(guī)整的,從上面可以很容易的提取出摘要、文章名、期刊等信息,可以下載到 的文件;更重要的是,對于論文的引用信息,在該網(wǎng)頁上 給 出了一個超鏈接,點擊之后就可以進(jìn)入引用的文章 的信息。因此,可以利用遞歸的方法,進(jìn)入引用的文章,從中提取出會議名以及文章名,這樣,每篇文章的引用就可以形成上面的格式,并且是完全正確的,方便我們建立引用映射表 。 接著,要設(shè)定遞歸的種子以及遞歸的層數(shù)。因為我們的實驗所需要的數(shù)據(jù)最好是在一個領(lǐng)域里面的 相同 方向的論文,并且需要引用關(guān)系較緊密的,以便于后續(xù)的工作,因此,這里采用 于每一篇文章遞歸三層。如果遞歸四層,就會太多了。假設(shè)一篇文章 有 十個引用,那么遞歸四層,就會導(dǎo)致 每 從 議中抓取一篇文章,就需要抓取 1000 篇相應(yīng)的其他文 章,這個數(shù)量實在是太大了;如果遞歸兩層,就會導(dǎo)致每篇文章只能抓取其引用的文章,這樣引用的層次較淺,很有可能導(dǎo)致最后引用倒置時,每一篇文章只被一兩篇文章引用,這樣不利于我們的實驗 。 最后,我們需要將 是利用 具來實現(xiàn)的 。 這個工具不支持對文件夾的遞歸操作,因此,我用 了一個腳本,通過遞歸操作,可以將一個 面的所有 按照原來的相對路徑存在 面 。 據(jù)抓取的過 程 確定 好 抓取數(shù)據(jù)的大 體方法,下面開始正式抓取數(shù)據(jù)。所用的工具比較簡單,就是利用 的 具, 下載 網(wǎng)頁 并 進(jìn)行分析。另外我們這里利用了第三方庫 種正則表達(dá)式非常適合從網(wǎng)頁中進(jìn)行模式匹配并且提取出數(shù)據(jù)。有了前面的兩項工具,我們只需要分析好網(wǎng)頁的模式,盡量正確的提取數(shù)據(jù)既可以了 。 需要注意的是,由于網(wǎng)頁并不是完全規(guī)整的,因此,有時候,對于同一個數(shù)據(jù),往往要寫多種匹配的公式才可以,這其中,最麻煩的當(dāng)屬提取引用部分了(我們不僅要提取引用,還要提取這個引用對應(yīng)得 而遞歸進(jìn)入提取它的論文名) 。 以 提取作者信息為例 : u 我們需要從上面 的 公式中提取出作者名,需要以下幾步: (1) 利用 式寫一個正則表達(dá)式匹配上面的文本 7 s*(s* , 其中引號中的內(nèi)容為匹配的正則表達(dá)式,注意其中的一對小括號,其中的內(nèi)容就是我們需要提取的信息 (2) 利用 數(shù),將結(jié)果存入 面 這樣,文章中所有匹配上面正則表達(dá)式的字符串,其中的作者信息(即上面括號中的內(nèi)容),都會存在 還需要注意的一點就是,由于網(wǎng)頁 的不規(guī)整性 ,所以要排除一些錯誤的情況。還有一些文章,確實沒有摘要、引用或者其他信息(這些文章多出現(xiàn)在引用鏈的頂層,主要是一些書籍等參考資料,所以也比較正常),遇到這些情況我們就不抓取下來了 。 據(jù)的存儲及解 析 在將數(shù)據(jù)從網(wǎng)頁下載下來之后,需要存儲起來。首先,對于 能存在文件系統(tǒng)里,按正常的方式存儲 。對于其他的信息,這里選擇存儲在B(簡記為 里面。 的 優(yōu) 點是可移動性,不用 像 且讀取數(shù)據(jù)時較快。對于每一篇文章的基本信息 照 表格 1中的 形式存入 表格 1 一個整數(shù) 符流 ,存儲元數(shù)據(jù)信息,按如 下格式: *8 *得這些基本信息之后,我們還要 根據(jù)這些元信息,陸續(xù) 建立一些 ,用于存儲其他信息, 如 表格 2: 表格 2 文件名 論文 篇論文的全部文本內(nèi) 容 論文 于存儲 一 篇 論文 所引用的所有文 章 論文 于存儲 一 篇論文被哪些文章所引 用 論 文 儲最終要顯示在頁面上的文章的評 價 論文 儲最終要顯示在頁面上的基于影響的文章的概括 其中 通過將 式轉(zhuǎn)化為 后獲得的。 從上面的元數(shù)據(jù)中,我們可以獲得每 篇 論文所引用的論文的名稱,這樣,我們可以通過這些名稱,來獲得這個論文所引用的所有論文的 且存儲到數(shù)據(jù)庫中 。獲得 其進(jìn)行倒置,就可以獲得 這 里之所以選擇 因為它有以下這些優(yōu)點: 嵌入式( 它直接鏈接到應(yīng)用程序中,與應(yīng)用程序運(yùn)行于同樣的地址空間中,因此,無論是在網(wǎng)絡(luò)上不同計算機(jī)之間還是在同一臺計算機(jī)的不同進(jìn)程之間,數(shù)據(jù)庫操作并不要求進(jìn)程間通訊。 中包括 C、 C+、 有的數(shù)據(jù)庫操作都在程序庫內(nèi)部發(fā)生。 對于我們這個系統(tǒng),后臺程序是由 C+完成,而前臺程序是由 成,他們都會共同訪問一些文件,通過存儲在 解決了不同語言之間兼容的問題。 輕便靈活( 它可以運(yùn)行于幾乎所有的 作系統(tǒng)以及多種嵌入式實時操作系統(tǒng)之下。 它并不 9 需要搭建一個數(shù)據(jù)庫服務(wù)器,以用戶、服務(wù)器形式訪問數(shù)據(jù)庫,而是以函數(shù)調(diào)用的形式。 一旦 端用戶一般根本感覺不到有一個數(shù)據(jù)庫系統(tǒng)存在。 這樣提高了我們的系統(tǒng)的實用性,當(dāng)用戶需要自己搭建一個我們的論文系統(tǒng)時,不用再去搭建數(shù)據(jù)庫服務(wù)器,進(jìn)行各種繁瑣的配置。 10 第 3 章 生成 評論集 上面的 工作完成 之后,我們獲得了所 有 的 基本信息,其中,最重要的,獲得了 ,該表的 一篇論文 A 的 引用 A 的所有論文 下面我們就要結(jié)合前面獲得的數(shù)據(jù),包括論文的文本、元數(shù)據(jù),來獲得一篇論文的評論集 。 得評價的候選句子 集 通過 ,我們可以獲得一個集合 2,.,其中 A 進(jìn)行了引用。我們相信,如果 進(jìn)行了引用,那么 進(jìn)行了評價。一般有以下幾種情況 : 1) 的論文 名 2) 的作者 名 3) 在 果 么通常在文章中會利用 k來對 4) 對于 (3)的情況,有時候并不只是對 能文章中的一句話代表的是好幾篇文章的工作概括,因此會出現(xiàn)“ i,k,j”這種類型的符號來對 且出現(xiàn)的概率很高 。 5) 如果 進(jìn)行了評論,那么通常它的前一句話和后一句話也會出現(xiàn)評價的信 息 通過上面的 5 點,我們就可以獲得了 對 A 進(jìn)行評價的句子,從而獲得了一個候選句子集,里面的每一句話都不同程度的對 。 11 圖表 2 如 圖表 2 所示流程, 具體實現(xiàn)的時候,先要將 句子進(jìn)行劃分為一個句子序列 .,然后遍歷這個句子序列,對于每一個句子,按照上面的前 四 條規(guī)則進(jìn)行評判,如果滿足其中任意一條,則這個句子是候選句子集合中的一個,并將其前后兩個句子也合到一起,添加的候選句子集合中 。 最終,得到對 e1,e2,.,這里面可能會有一些評價來自同一篇論文 。 得評論段落 獲得了候選句子集之后,我們需要 對其進(jìn)行適當(dāng)?shù)呐判?,從中選出較好的幾個句子,最終顯示在頁面上。由于不同的人,對這篇論文的評價可能也不太一樣,因此,就不能簡單的按照這些評價句子與原文的相似度來進(jìn)行打分排序了,因為這樣會造成和原文觀點相近的評分較高,不是我們希望獲得的結(jié)果。實際上,有時候越是和原文的觀點不同,反而可能越重要,它可能是對這篇文章的批判,也有可能是原文的作者在寫 有發(fā)現(xiàn)的一些問題,這對我們尋找后續(xù)工作時可能會非常重 要 。 我們在提取數(shù)據(jù)的同時,會獲得每一篇文章的 表這篇文章被引用的次數(shù),一般 ,一個較好的文章,被引用的次數(shù)也應(yīng)當(dāng)比較多,因此,對于每一個評價,根據(jù)它所在文章的被引用次數(shù)進(jìn)行排序,可以獲得較為專業(yè), 12 也較為合理的結(jié)果 。 同時,需要注意的是,如果一個篇論文的被引用次數(shù)很高,而且它又有兩段評論原文的句子時,那么這兩段會一起出現(xiàn)在最終的結(jié)果里,在這里我們就需要對結(jié)果進(jìn)行調(diào)整,保證在權(quán)重相同的情況下,盡可能選擇盡量不同的文章的評論 。 13 第 4 章 建 立 模 型并 生成 基于影響的概括 通過獲得了對源論文的評論集合,下面就可以與源論文建立模型來獲得基于影響的概括。所謂基于影響的概括,簡單來說,就 是某句話與評論之間的關(guān)系越緊密,那么這句話的影響力就越大。最終將影響力最大的幾個句子合在一起,就形成了基于影響的概括。 模之前我們所有的數(shù) 據(jù) 在建模之前,我們先來看看我們已經(jīng)獲得了哪些數(shù)據(jù): (1)所有論文集合 D,以及 成一個單詞表 V,并且可以統(tǒng)計出每個單詞 (w,D) (2)對于一篇論文 d,將其劃分為多個句子 (3)已經(jīng)獲得了這 篇 論文進(jìn)行評論的所有句子 , 把他們的集合成為 C( 下面,我們就可以參照 對 里的打分,主要是基于詞頻以及相似度來做的。 模算 法 首先,為任何一個句子打分的公式 s)如下: 從信息理論的觀點,其中 ( | )即為 以被解釋為通過句子 示 基于影響的段落, 需要從文章中刪除的信息量。顯然,其值越小,也越能代表文章以及其他文章對它的評價的意思(因為它只要刪除較少的信息) 可以看出,公 式中最重要的是求出 )|( 和 )|( 。 c o r e)|(l o g)|()|(l o g)|()|()( 14 對于公式( 1), 其中, ),( 示一個單詞 w 在句子 )|( s為平滑參數(shù)。我們假設(shè)s為 |s|的 (1)式可以看成 是 可見, 示 與這個句子的關(guān)系則較少。s等于 |s|時,表示二者一樣,各占 1/2。我在這里將 。 對于公式 (2),其中 ),( 示一個單詞 w 在當(dāng)前要求的這篇論文中出現(xiàn)的次數(shù),而 )|( 示單詞 中出現(xiàn)的概率。C為平滑參數(shù)。我們?nèi)匀患僭O(shè)s|的 (2)式可以看成 可見, 示這個單詞 的關(guān)系越大,而 時,則與論文本身關(guān)系較大??梢钥闯?,極端的情況,當(dāng) 時,則 我們獲得的那些評價都沒有關(guān)系了,因此獲得的句子實際上對其他論文也沒有什么影響了。因此,對于本實驗,應(yīng)當(dāng)將 法的實現(xiàn) 具體實現(xiàn)算法時,會出現(xiàn)一些問題:我們假設(shè)一篇論文可以劃分成 1000 個句子,每個句子有 20 個不同單詞,我們總共有 2000篇論文,那就有 4億個單詞。那么, 對于每一個句子 s,我們在進(jìn)行上面的算法時,需要進(jìn)行如下一步 這就需要對這 4 億個單詞進(jìn)行遍歷一遍,并且分別計算括號中的那一步。而每篇論文有 1000個句子,就相當(dāng)于要計算 4000 億次 , 這個計算量對我們來說太龐大了,因此,我在這里選取了一個簡便一點的方法,就是在上面的一步時,并不是對整個單詞空間進(jìn)行計算,而只是對論文 中出現(xiàn)的所有單詞進(jìn)行遍歷計算打分。 可以看出,對于一個既不在 d 中又不在 C 中的單詞 , )|( = 此,上面的公式只是理 論的公式,具體應(yīng)用時,只需要對 中出現(xiàn)的單詞進(jìn)行計算即可,這就節(jié)省了大量的計算量。 整個流程如 圖表 3,需 )|(1 )|( )|(1 )|( )|(l o g)|()|(l o g)|( sI )1(| )|(),()|(s )2(| )|(),()|(d 15 要用到 圖表 2 中的前三 步 算法獲得的評論列表。這里之所以不用 圖表 2 的最終結(jié)果,是因為我們需要更多的信息,信息越多,獲得的概括越具有影響力。 圖表 得基于影響的概 括 通過上面的模型,可以對 后 根據(jù)所得分?jǐn)?shù)進(jìn)行從 大 到小排序。這里因為每篇論文只有 1000 左右的句子,數(shù)量級并不是很大,就自己寫了一個簡單的冒泡排序 算法來排序。之后, 選擇其中得分最高的 合在一起,就獲得了原文基于影響的概括了。從整個建模的過程中也可以看出,所謂基于影響,就是通過 那 些對 A 進(jìn)行評價的句子集 C,分別獲得 這些句子的相似程度,與其相似程度最高的,證明這個句子被其他 作者提及的最多,影響最大。而這個概括與摘要的區(qū)別就是,影響較大的句子,可能原來的作者并沒有想到,因此在摘要中并沒有提及(正所謂無心插柳柳成蔭);而摘要中提及的部分,影響可能反而沒有那么大 。 圖表 3 16 第 5 章 搭建搜索引擎 本 章 內(nèi)容主要介紹如何利用 索引擎平臺來搭建我們的論文檢索系統(tǒng)。通過這段內(nèi)容,我們可以了解到 用的基本過程,最終我們會發(fā)現(xiàn),如果想搭建其他方向的搜索引擎,使用 構(gòu)簡 介 統(tǒng),全稱是 是網(wǎng)絡(luò)實驗室搜索引擎組耗時一年多 在 一個國家 863項目 支持下開發(fā)的 ,其目的是建立一個搜索引擎平臺,將搜索引擎的各個部分模塊化,使得這個搜索引擎不 只 針對專一的某一個領(lǐng)域,而是可以針對各個領(lǐng)域。其功能有點類似于 其不同的是 編寫的。 以下幾大的模塊 ,見 表格 3。 表格 3 1) 于對網(wǎng)頁進(jìn)行去噪、消重以及編碼轉(zhuǎn)換等處理,如果是 針 對 這一步驟就可以省略了。 ( 2) 索引模塊,用于將需要檢索的部分建立倒排索引。具體 ( 3) 可以利用 于每一個詞,去倒排索引里面查找包含它的文檔 頁中為 從而完成檢索。 ( 4) 前臺模塊,完成一個類似于天網(wǎng)搜索引擎的前臺界面。除了 顯示 結(jié)果之外,還進(jìn)行摘要處理。這 個地方需要 注意 的就是與 分有一定的結(jié)合,會在后面提到。 除了以上 4個大的模塊之外

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論