![網(wǎng)絡(luò)檢索系統(tǒng)的設(shè)計(jì)方案_第1頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/29/b9f4b01f-84d3-45a1-94b2-7e587a3a8c0d/b9f4b01f-84d3-45a1-94b2-7e587a3a8c0d1.gif)
![網(wǎng)絡(luò)檢索系統(tǒng)的設(shè)計(jì)方案_第2頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/29/b9f4b01f-84d3-45a1-94b2-7e587a3a8c0d/b9f4b01f-84d3-45a1-94b2-7e587a3a8c0d2.gif)
![網(wǎng)絡(luò)檢索系統(tǒng)的設(shè)計(jì)方案_第3頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/29/b9f4b01f-84d3-45a1-94b2-7e587a3a8c0d/b9f4b01f-84d3-45a1-94b2-7e587a3a8c0d3.gif)
![網(wǎng)絡(luò)檢索系統(tǒng)的設(shè)計(jì)方案_第4頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/29/b9f4b01f-84d3-45a1-94b2-7e587a3a8c0d/b9f4b01f-84d3-45a1-94b2-7e587a3a8c0d4.gif)
![網(wǎng)絡(luò)檢索系統(tǒng)的設(shè)計(jì)方案_第5頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/29/b9f4b01f-84d3-45a1-94b2-7e587a3a8c0d/b9f4b01f-84d3-45a1-94b2-7e587a3a8c0d5.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于 lucene 的網(wǎng)絡(luò)教學(xué)資源檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)李勇1王移芝2(1. 北京理工大學(xué),北京 100081;2. 北京交通大學(xué),北京 100044)摘要在網(wǎng)絡(luò)教學(xué)資源平臺(tái)中加入資源搜索功能,有利于學(xué)習(xí)者快速定位學(xué)習(xí)資源。本文在開(kāi)源搜索引擎lucene 的基礎(chǔ)上,設(shè)計(jì)并實(shí)現(xiàn)一個(gè)網(wǎng)絡(luò)教學(xué)資源檢索系統(tǒng)。首先介紹如何用 xml來(lái)組織網(wǎng)絡(luò)教學(xué)資源,接著分析了系統(tǒng)的功能目標(biāo)和體系結(jié)構(gòu), 最后對(duì)系統(tǒng)的索引構(gòu)建和檢索系統(tǒng)實(shí)現(xiàn)中的關(guān)鍵技術(shù)進(jìn)行探討。關(guān)鍵詞網(wǎng)絡(luò)教育;教學(xué)資源;資源檢索;lucene;xml 1 前言隨著網(wǎng)絡(luò)教育迅速發(fā)展, 各種形式的網(wǎng)絡(luò)教學(xué)資源日趨豐富,信息的種類也在不斷的擴(kuò)展。一方面越來(lái)越多的
2、非結(jié)構(gòu)化信息不斷出現(xiàn),如文本、圖像、動(dòng)畫(huà)、音頻、視頻等,這些資源都屬于非結(jié)構(gòu)化數(shù)據(jù),與之相應(yīng)的網(wǎng)絡(luò)教學(xué)資源的組織卻不盡如人意,找到所需要的教學(xué)資源是一件費(fèi)時(shí)費(fèi)力的事。另一方面大量的冗余信息、過(guò)載信息使得用戶難以準(zhǔn)確快速地找到他所需求的信息和資源。在此背景下,本文結(jié)合校重點(diǎn)教改項(xiàng)目“數(shù)字媒體資源建設(shè)的研究與實(shí)踐”,其總體思想是開(kāi)發(fā)以xml 為結(jié)構(gòu)和內(nèi)容載體的數(shù)字媒體資源庫(kù),并將其以豐富的表現(xiàn)形式在瀏覽器中顯示出來(lái)。筆者在本文中主要討論如何在數(shù)字媒體資源平臺(tái)中加入中英文搜索引擎。使用 lucene 和 xml技術(shù)設(shè)計(jì)并實(shí)現(xiàn)一個(gè)web搜索引擎,可對(duì)數(shù)字媒體資源平臺(tái)中的全部文本、圖片、視頻、動(dòng)畫(huà)等資源
3、進(jìn)行搜索,以便學(xué)生和教師用戶快速定位和找到所需要的數(shù)字媒體資源。lucene 不是一個(gè)完整的全文索引應(yīng)用,而是一個(gè)用java 寫(xiě)的全文索引引擎工具包,它可以方便地嵌入到各種應(yīng)用中實(shí)現(xiàn)針對(duì)應(yīng)用的全文索引、檢索功能??梢园?lucene 當(dāng)成一個(gè)支持全文索引的數(shù)據(jù)庫(kù)系統(tǒng)1。 其組織結(jié)構(gòu)如圖 1 所示。lucene 包含了大量的抽象類、接口、文檔類型等,需要根據(jù)具體應(yīng)用來(lái)定義實(shí)現(xiàn),本文通過(guò)擴(kuò)充lucene 包來(lái)完成中文的全文檢索功能。圖 1 lucene 系統(tǒng)的結(jié)構(gòu)組織圖2 系統(tǒng)功能目標(biāo)設(shè)計(jì)本文實(shí)現(xiàn)的教學(xué)資源搜索引擎主要由四大功能模塊組成:(1)存儲(chǔ)模塊:本系統(tǒng)在資源的組織上,將資源的相關(guān)信息用xm
4、l文件來(lái)存放,使其獨(dú)立于各種平臺(tái),以便數(shù)據(jù)能夠方便地進(jìn)行傳遞。把搜索到的信息也存進(jìn)單一的 xml 文檔中,相對(duì)于每個(gè)獨(dú)立文件,它可以減少索引程序進(jìn)行文件定位和打開(kāi)關(guān)閉文件所需要的時(shí)間,這在數(shù)據(jù)量比較大的時(shí)候效果特別明顯2。 資源存儲(chǔ)描述如圖2 所示。在系統(tǒng)中,對(duì)資源源數(shù)據(jù)描述包括資源描述、知識(shí)點(diǎn)描述、關(guān)鍵詞描述、試題描述、用戶信息描述。資源 描述是對(duì)系統(tǒng)中各種資源的描述信息包括資源id、資源關(guān)鍵字、資源章節(jié)、資源類型、資源存放路徑等信息;資源信息的描述采用了 ims 的內(nèi)容包裝規(guī)范,這種規(guī)范的優(yōu)點(diǎn)是可以清晰地描述資源的結(jié)構(gòu)及相關(guān)資源的存儲(chǔ)位置,同時(shí)具有很高的擴(kuò)充性,為搜索引擎的應(yīng)用提供了方便。
5、(2)文檔分析模塊:該模塊主要針對(duì)xml文件,其主要功能是把xml標(biāo)簽去掉。(3)索引模塊: 主要負(fù)責(zé)新建索引、更新索引,以及維護(hù)數(shù)據(jù)索引。索引程序需要對(duì) xml文檔中的文本、圖像、動(dòng)畫(huà)、音頻、視頻等數(shù)據(jù)進(jìn)行索引,為索引程序的運(yùn)行過(guò)程建立運(yùn)行日志,并存盤。(4)檢索模塊:以 web頁(yè)面作為用戶檢索的界面,對(duì)數(shù)據(jù)進(jìn)行檢索,支持高級(jí)查詢,對(duì)檢索結(jié)果提供方便的查看方式。圖 2 資源描述 xsd文件的直觀圖3 系統(tǒng)結(jié)構(gòu)圖與 xml 處理3.1 系統(tǒng)結(jié)構(gòu)圖圖 3 搜索引擎結(jié)構(gòu)圖lucene本身只是一個(gè)組件,而非一個(gè)完整的應(yīng)用,所以若想讓lucene在數(shù)字媒體資源平臺(tái)上運(yùn)行,需在 lucene 基礎(chǔ)上進(jìn)行
6、必要的二次開(kāi)發(fā)。 在本系統(tǒng)中利用 jsp+javabean 技術(shù),構(gòu)建搜索引擎模式。jsp 負(fù)責(zé)頁(yè)面處理,數(shù)據(jù)和邏輯處理 則由 javabeans完成3。圖 3 為搜索引擎的結(jié)構(gòu)圖。3.2 xml 文檔處理根據(jù)系統(tǒng)詞典,用mm 法對(duì)資源關(guān)鍵字和描述分詞后,接著要建立索引,lucene 對(duì)文件進(jìn)行索引使用的是 indexwrite類。因?yàn)?lucene 本身只能對(duì) txt文件和 html 文件進(jìn)行索引,所以要對(duì)其它的文檔進(jìn)行索引,還必須擴(kuò)展lucene的文 件內(nèi)容分析器2。資源文件的信息以xml文檔存儲(chǔ), xml 中有大量的標(biāo)記,如在“04”中的“ ”和“”對(duì)搜索來(lái)說(shuō)是噪音信息,這些標(biāo)記必須首先
7、去掉,才能進(jìn)行進(jìn)一步的處理。其基本原理是在碰到“”或“”標(biāo)記,找到后,將“”或“”之間的內(nèi)容在一張標(biāo)記詞表中檢索,這張?jiān)~表包括了課件文件中的大部分標(biāo)記。如果檢索成功,則去除這些標(biāo)記。4 lucene檢索系統(tǒng)的實(shí)現(xiàn)4.1 索引構(gòu)建索引構(gòu)建模塊將上述處理后的數(shù)據(jù)源xml文檔轉(zhuǎn)化為 lucene 所能使用的索引文件 (document)。將一條數(shù)據(jù)信息添加到索引文件中,首先創(chuàng)建了類document的一個(gè)實(shí)例,它由一個(gè)或者多個(gè)的域組成。其域?yàn)閷?shí)際文檔的一些屬性。比如對(duì)于 xml數(shù)據(jù)源中一條網(wǎng)絡(luò)教學(xué)資源的信息記錄,它的域可能包括資源名稱、資源描述、資源關(guān)鍵字、資源所屬目錄等。 不同類型的 field 來(lái)
8、控制文檔的哪些內(nèi)容應(yīng)該索引, 哪些內(nèi)容應(yīng)該存儲(chǔ)。 其次向文檔中添加域, 每個(gè)域包含兩個(gè)屬性,分別是域的名字和域的內(nèi)容。本系統(tǒng)中分別是res_name 和 res_desc,存儲(chǔ)需要索引的資源名稱和描述。最后把準(zhǔn)備好的文檔添加到了索引當(dāng)中。當(dāng)把索引文檔都添加到索引中后,要關(guān)閉索引,這樣才保證把添加的文檔寫(xiě)回到硬盤上。創(chuàng)建索引最重要的類是indexwriter,其構(gòu)造器有 3 個(gè)參數(shù),分別為存儲(chǔ)索引文件的路徑、分詞器及布爾變量,用于控制是重建索引,還是復(fù)用原有索引4。修改該索引器所使用的語(yǔ)言分析器,使其支持中文分詞。本系統(tǒng)采用了基于字典的前向最大匹配法(mm 法)的中文分詞器,并且在生成索引器時(shí)將
9、支持此中文分詞器作為參數(shù)傳遞給索引器,成為索引器的成員, 使其在索引過(guò)程中使用 該語(yǔ)言分析器進(jìn)行分詞。 indexwriter方法即為 indexwriter (“rsindex”,new mmsstandardanalyzer() ,true )。4.2 檢索系統(tǒng)的實(shí)現(xiàn)用戶在搜索頁(yè)面中輸入需要查詢的關(guān)鍵字后, 將關(guān)鍵字送到 lucene 的查詢分析器中。這里的查詢分析器使用的是lucene 核心中的 query2parse 類,對(duì)用戶提交 的查詢關(guān)鍵字組成的邏輯表達(dá)式進(jìn)行分析。對(duì)己建索引的搜索進(jìn)行搜索,在類中建立一個(gè)新的方法search (string ),參數(shù) indexdir為索引建立的
10、目錄,querystring為查詢的字符串,這里搜索過(guò)程主要用到兩個(gè)對(duì)象indexsearcher 和 query。indexsearcher 用 來(lái)找到索引數(shù)據(jù), query 用來(lái)處理搜索請(qǐng)求5。然后被調(diào)用進(jìn)入 lucene 的搜索入口,再對(duì)索引進(jìn)行查詢,然后返回查詢結(jié)果。檢索時(shí),用戶提交檢索關(guān)鍵字, 先調(diào)用的 lucene 查詢分析器分析用戶提交的查詢,然后調(diào)用 indexsearcher 類進(jìn)行搜索,就是按查詢分析器所形成的查詢條件 query 對(duì) lucene索引進(jìn)行搜索匹配,在經(jīng)過(guò)lucene的排序后返回結(jié)果為類, 可以通過(guò)它再訪問(wèn)document索引文件 field中的內(nèi)容,最 后
11、輸入用戶查詢、調(diào)用檢索器, 將檢索器返回的查詢結(jié)果即多個(gè)hits分頁(yè)顯示在 web 結(jié)果頁(yè)面6。在本系統(tǒng)中,用戶可以通過(guò)關(guān)鍵字、 資源類型檢索相關(guān)資源, 單擊“檢索資源”,顯示資源檢索結(jié)果頁(yè)面。5 總結(jié)本網(wǎng)絡(luò)教學(xué)資源檢索系統(tǒng)是基于lucene 開(kāi)放源代碼技術(shù)的二次開(kāi)發(fā)利用,在查詢方式、檢索結(jié)果處理和分類檢索等方面有較大的改進(jìn)。同時(shí),它放棄了傳統(tǒng)教學(xué)資源搜索引擎的基于數(shù)據(jù)庫(kù)匹配的查詢方式,采用了 xml來(lái)組織存放資源的相關(guān)信息。該方法不僅采用了基于字典的前向最大匹配法分詞檢索技術(shù),還支持動(dòng)態(tài)更新 lucene 文檔索引等許多新技術(shù)。當(dāng)然,本系統(tǒng)在許多方面仍需要改進(jìn),如對(duì)查詢條件中“or”語(yǔ)法的支持、 更智能的中文切分與信息過(guò)濾等,這些有待于進(jìn)一步的開(kāi)發(fā)和深入探討。參考文獻(xiàn)1 王莉云,王華,陳剛,姚乃明;基于的lucene 全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)j 計(jì)算機(jī)工程與設(shè)計(jì), 2007(12)2 李 毅,楊善林,劉業(yè)政,顧鐵軍基于xml的網(wǎng)絡(luò)課件環(huán)境中搜索引擎的實(shí)現(xiàn) j.武漢理工大學(xué)學(xué)報(bào), 2003(6)3 晁岳峰,曹作良,郭英玲基于 lucene 的搜索引擎在遠(yuǎn)程教育平臺(tái)中的實(shí)現(xiàn)j 天津理工大學(xué)學(xué)報(bào), 2005(12)4lucene官方網(wǎng)站 http ://lucene /. 2007-10-11 5
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度股份回購(gòu)協(xié)議書(shū)版:跨國(guó)公司中國(guó)區(qū)股份回購(gòu)與員工福利保障合同
- 二零二五年度電子合同系統(tǒng)在線爭(zhēng)議解決服務(wù)合同
- 2025年度私人墓地買賣及墓園維護(hù)合同
- 二零二五年度醫(yī)療健康領(lǐng)域科技成果轉(zhuǎn)化合同
- 二零二五年度打工人簽訂競(jìng)業(yè)協(xié)議財(cái)產(chǎn)保全與創(chuàng)業(yè)指導(dǎo)合同
- 2025年度教育培訓(xùn)機(jī)構(gòu)勞動(dòng)合同解除協(xié)議示范
- 二零二五年度私人代表公司購(gòu)車車輛停放管理合同
- 2025年度試用期解除勞動(dòng)合同協(xié)議
- 2025年度美容院美容院加盟入股經(jīng)營(yíng)合同
- 2025年分期付款婚姻咨詢合同
- 小學(xué)數(shù)學(xué)分?jǐn)?shù)四則混合運(yùn)算300題帶答案
- 林下野雞養(yǎng)殖建設(shè)項(xiàng)目可行性研究報(bào)告
- 心肺復(fù)蘇術(shù)課件2024新版
- 大型商場(chǎng)招商招租方案(2篇)
- 2024年交管12123學(xué)法減分考試題庫(kù)和答案
- 臨床下肢深靜脈血栓的預(yù)防和護(hù)理新進(jìn)展
- 2024年山東泰安市泰山財(cái)金投資集團(tuán)有限公司招聘筆試參考題庫(kù)含答案解析
- 英語(yǔ)主語(yǔ)從句省公開(kāi)課一等獎(jiǎng)全國(guó)示范課微課金獎(jiǎng)?wù)n件
- 年度工作總結(jié)與計(jì)劃會(huì)議
- 醫(yī)保按病種分值付費(fèi)(DIP)院內(nèi)培訓(xùn)
- 近五年重慶中考物理試題及答案2023
評(píng)論
0/150
提交評(píng)論