版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
分布式搜索引擎研究
關(guān)鍵詞分布,搜索引擎,遠程教育,HJ-YHS隨著Internet迅速發(fā)展,WWW(WorldWideWeb簡稱WWW)已成為一個巨大的信息空間,為用戶提供了極具價值的信息資源。而面對大量的信息資源,通過瀏覽器一步步瀏覽已十分不便,如何快捷、準確地從WWW上獲取所需信息,成為至關(guān)重要的問題。搜索引擎的出現(xiàn),大大提高了人們搜集信息的能力。然而,現(xiàn)有的搜索引擎在搜索效率、信息維護、信息重復、網(wǎng)絡及站點、負載等方面還存在著問題和困難。目前,從體系結(jié)構(gòu)上看,大部分搜索引擎是集中式的。即從Internet上取回頁面,經(jīng)過分析、處理后將所有的索引信息集中存儲在某個站點,用戶通過訪問該站點實現(xiàn)查詢。它們之間通常沒有什么協(xié)作,各自獨立搜索和處理信息,造成了大量的重復工作和嚴重的帶寬浪費,有時甚至能造成網(wǎng)絡阻塞。這種體系結(jié)構(gòu)難以適應網(wǎng)絡規(guī)模的日益擴大,業(yè)界已紛紛提出建立分布式搜索引擎的策略。1分布式搜索引擎分布式搜索引擎是根據(jù)地域、主題、IP地址及其它的劃分標準將全網(wǎng)分成若干個自治區(qū)域,在每個自治區(qū)域內(nèi)設立一個檢索服務器,而每個檢索服務器由信息搜索機器人、索引搜索軟件數(shù)據(jù)庫和代理三部分組成。信息搜索機器人負責本自治區(qū)域內(nèi)的信息搜索,并建立索引信息存入索引數(shù)據(jù)庫。代理負責向用戶提供查詢接口,并與其它代理進行互換,實現(xiàn)檢索服務器之間的信息交換,且查詢可以重定向,即如果一個索引數(shù)據(jù)庫沒有滿足查詢要求,它可以將查詢請求發(fā)送到其它檢索服務器上。1.1分布式搜索引擎體系結(jié)構(gòu)它與集中式搜索引擎相比有以下優(yōu)點:各檢索服務器之間相互共享資源,站點只向本自治區(qū)域內(nèi)的信息搜索機器人提供信息,減輕了網(wǎng)絡及各站點的負載。各代理之間的相互協(xié)作及查詢重定向使得提供的服務更完善。與Web本身的分布式特性相適應,具有良好的可擴充性,便于維護。索引信息劃分到各自的索引數(shù)據(jù)庫中,使得各索引數(shù)據(jù)庫相對較小,查詢的響應時間相對較短。部分檢索服務器發(fā)生故障時,其它部分能正常工作。Web服務器集群是一種典型的分布式處理系統(tǒng)。所謂Web集群就是采用高速網(wǎng)絡,將原來獨立的若干個服務器聯(lián)結(jié)起來,作為一個整體提供服務,把到達的請求分配到集群中的各個后臺服務器上,讓它們分攤負載及I/O,通過并行處理提高性能。此時涉及到請求分配器及負載平衡的技術(shù)問題。請求分配器集中所有用戶的請求,然后將這些請求分配到各檢索服務器中進行并行處理。目前此技術(shù)的實現(xiàn)方法主要有IPTranslation、TCPProxy、DynamicDNS和HTTPRedirection,相應的典型產(chǎn)品有Cisco的LocalDirector、DistributedDirector、IBM的NetworkDispatcher、UIUCNCSA的ScalableWebServer等。目前請求分配器多采用TCPProxy技術(shù)。每個請求都由客戶程序發(fā)起建立一個獨立的TCP連接,應答結(jié)束后由服務器拆除該連接。在TCPProxy技術(shù)中,請求分配器主要完成以下任務接收用戶的信息請求,并將其轉(zhuǎn)發(fā)給檢索服務器;接收檢索服務器返回的查詢結(jié)果,并將其轉(zhuǎn)發(fā)給客戶;如果一端中斷TCP連接,立即中斷另一端的TCP連接。為了提高請求分配器的效率和吞吐能力多采用多線程和多路阻塞式I/O技術(shù),如Microsoft的InternetInformationServer和Netscape的EnterpriseServer就是采用這兩種技術(shù)。請求分配器的連接監(jiān)聽進程接收到一個來自客戶機的TCP連接后,立即在內(nèi)存中生成一個Worker進程。此后的工作,包括建立與服務器的TCP連接、接收和發(fā)送數(shù)據(jù)、拆除連接等,均由該線程完成。應答結(jié)束后,請求分配器立即從內(nèi)存中刪除該線程。多路阻塞式I/O是通過調(diào)用Select原語實現(xiàn)的,每個Worker進程用這種方法同時監(jiān)聽與客戶機和服務器的兩個TCP連接。接收數(shù)據(jù)時,如果沒有數(shù)據(jù)到達,Select使線程處于一種開銷極小的休眠狀態(tài),一旦有數(shù)據(jù)到達,立即退出休眠狀態(tài),啟動接收過程接收數(shù)據(jù)。發(fā)送數(shù)據(jù)也如此。負載平衡一般是通過請求分配器選擇目標檢索服務器來實現(xiàn)的。目前常用的請求分配算法主要有“輪轉(zhuǎn)法”、“最少連接法”和“最快連接法”三種。為有效提高請求分配器算法效率,并使算法能夠適應異構(gòu)服務器集群,應使請求分配器知道每臺檢索服務器的處理能力,并能夠?qū)邮盏拿恳挥脩粽埱蟮膬?nèi)容進行分析,同時應能夠準確地跟蹤各個服務器的負載情況。Web服務器的集群技術(shù)使得處理能力更強,I/O帶寬加大,擴展性好,可靠性高,且容易管理,成本降低。常見的并行Web服務器集群主要有兩種組成方式:以Cisco的LocalDirector為代表的“隔離式”,采用“最少連接法”或“最快連接法”進行請求分配。以NCSA的ScalableWebServer為代表的“非隔離式”,采用“輪轉(zhuǎn)法”進行請求分配。無論哪種方式,都要求后臺服務器上的Web信息的訪問路徑和內(nèi)容要完全一樣。二者的區(qū)別在于這些服務器在Internet上對用戶是否可見?!案綦x式”集群采用類似于Proxy技術(shù),只有請求分配器具有一個對外的IP地址,所有的用戶請求都發(fā)往請求分配器,然后再由請求分配器將請求發(fā)到集群中的各后臺服務器去處理,返回結(jié)果也由請求分配器返回給客戶。“非隔離式”集群中的每臺服務器都有獨立的IP地址,請求分配經(jīng)過動態(tài)DNS等實現(xiàn),對請求的應答不通過請求分配器,而直接由服務器傳給客戶。2分布式搜索引擎實例以江蘇省邗江中學遠程教育信息資源搜索系統(tǒng)——遠航搜索系統(tǒng)(簡稱HJ-YHS)為例。社會的不斷進步和科學技術(shù)的發(fā)展,教育的各個方面包括教育思想、觀念、教育手段及方式都應作出相應改革。傳統(tǒng)的教育方式遠遠不能滿足時代發(fā)展的需要。信息時代教學的一個重要手段就是引入基于WWW的交互式遠程教育。而Internet上資源分散,數(shù)據(jù)類型多,地址變動大,要想迅速找到所需信息并不容易。因此,要將Internet上的信息資源進行集中、分類、整理,建立基于WWW的信息資源導航庫,讓用戶根據(jù)自己的需求快速找到所需資源。HJ-YHS就是基于以上背景而進行開發(fā)設計,旨在通過建立分布式搜索引擎技術(shù),提高遠程教育中信息資源的搜索效率和精度。1.2.1應用體系總體結(jié)構(gòu)及功能實現(xiàn)HJ-YHS系統(tǒng)以WindowsNT4.0為開發(fā)平臺,采用ASP(ActiveServerPage)實現(xiàn)查詢頁面的動態(tài)生成及結(jié)果顯示,后臺的Web服務器采用IIS4.0,數(shù)據(jù)庫服務器采用SQLServer7.0以提供數(shù)據(jù)服務,Web客戶端安裝95/98操作系統(tǒng)及IE4.0等瀏覽器,開發(fā)工具使用VisualInterDev6.0或VB6.0等。HJ-YHS特點是:以教育信息、學術(shù)內(nèi)容為主,服務對象為各類中學和教育部門,信息資源也以學術(shù)水準為選擇條件。按預先定義好的專題,有選擇性的搜索相關(guān)網(wǎng)頁,避免無關(guān)的Web網(wǎng)頁,并將索引信息存入索引數(shù)據(jù)庫。對產(chǎn)生的大量初步檢索結(jié)果進行分析、歸類,根據(jù)用戶交互反饋信息進一步縮小檢索范圍,提高檢索精度。2.1.1HJ-YHS體系結(jié)構(gòu):2.1.2系統(tǒng)功能模塊:網(wǎng)頁搜索模塊:負責定期啟動網(wǎng)頁搜集系統(tǒng),根據(jù)給定的站點名在指定的范圍內(nèi)搜集信息。信息分析模塊:對搜集到的網(wǎng)頁進行分析、整理,提取關(guān)鍵字和摘要,將索引信息存入索引數(shù)據(jù)庫。資源上載模塊:接收客戶端的上載文件,并將文件上載至Web服務器端特定目錄中,同時將有關(guān)信息添加到索引數(shù)據(jù)庫中,該模塊只允許擁有相應權(quán)限的用戶使用。ASP信息檢索模塊:由用戶查詢界面啟動,提供三種查詢方式:即基于關(guān)鍵字的查詢、學科分類查詢和按年級查詢?;趦?nèi)容的查詢根據(jù)用戶提交的信息產(chǎn)生二級查詢界面,進一步明確搜索意向,然后綜合所有用戶信息對網(wǎng)頁的全文進行查詢;基于學科分類和年級的查詢可根據(jù)用戶的需求,在指定范圍內(nèi)進行檢索。動態(tài)頁面生成模塊:按相關(guān)度大小輸出結(jié)果。動態(tài)生成的頁面中給出查詢產(chǎn)生的頁面標題,URL地址,內(nèi)容摘要等。靜態(tài)頁面生成模塊:按學科專業(yè)目錄分類。靜態(tài)頁面生成模塊根據(jù)目錄生成不同分類的靜態(tài)頁面綜上所述,基于分布式搜索引擎技術(shù)的優(yōu)點,及全球互聯(lián)網(wǎng)上信息資源的迅速增加,在遠程教育領(lǐng)域內(nèi),分布式搜索引擎技術(shù)將會得到更廣泛的發(fā)展。參考文獻
1朱義軍,馬范援,白英彩.分布式搜索引擎與Z39.50協(xié)議.世界網(wǎng)絡與多媒體,Jan.1999
2翁惠
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工程建設項目招標合同樣本
- 住宅室內(nèi)設計施工合同
- 住宅建造合同模板
- 電梯設備安裝與定期檢修協(xié)議
- 上海市內(nèi)銷商品房出售合同
- 2024年個人土地交易合同模板
- 2024意外傷害賠償協(xié)議書范例
- 影視廣告制作合同
- 合伙協(xié)議與法律規(guī)定沖突時的解決途徑
- 2024年技師合同書
- 大學動植物檢疫考試(習題卷7)
- 漢語拼音字母表(A4打印版)
- 幼兒園大班語言《騎著恐龍去上學》課件
- 無償劃轉(zhuǎn)國有股權(quán)及資產(chǎn)的可行性論證報告(附無償劃轉(zhuǎn)協(xié)議)
- 公務車司機年度工作總結(jié) 公務用車駕駛員個人總結(jié)
- 第二版《高中物理題型筆記》上冊
- 上海市大學生安全教育(2022級)學習通課后章節(jié)答案期末考試題庫2023年
- 蘇軾生平及創(chuàng)作整理
- 柴油發(fā)電機組應急預案
- 語文《猜猜他是誰》教案
- 繪本:讓誰先吃好呢
評論
0/150
提交評論