下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
學科信息門戶建設中深層網頁資源采集的方法與策略
隨著網絡技術的日益發(fā)展,網絡信息資源正以人們難以想象的速度增長,網絡也日漸成為人們獲取信息的主要途徑之一。搜索引擎為人們從海量網絡信息資源中查找所需信息提供了便捷途徑,但由于其返回的信息資源在查準率和查全率上都無法得到保證,人們經常會得到許多無用信息,反而降低了信息資源的使用效能。因此學科信息門戶順應時代發(fā)展需要應運而生,用戶可通過學科信息門戶快捷、有效地發(fā)現高質量的網絡信息,同時使他們盡可能多地獲得有價值的信息和信息資源。本文認為高質量學科信息門戶建設應注重深層網頁資源的收集與整合利用,并應重視深層網頁資源采集的方法與策略。1學科門戶網站建設現狀學科信息門戶(SubjectInformationGateway,SIG)是“提供可檢索和可瀏覽的互聯(lián)網資源目錄的聯(lián)機服務系統(tǒng),一般集中于某一相關的學科領域,提供對經圖書館工作人員遴選和按學科組織的互聯(lián)網資源的利用。”[1]它致力于將特定學科領域的信息資源、工具與服務集成到一個整體中,為用戶提供一個方便的信息檢索和服務入口。從本質上講,學科信息門戶是含有不同分類主題的網頁及相關鏈接的網上圖書館。主要特點是有較多的人工參與,通過質量標準規(guī)范資源的選擇,并提供對資源的豐富描述;提供依據學科體系結構和資源類型分類的瀏覽和檢索入口;有對資源的管理和長期發(fā)展的政策、元數據應用與標引規(guī)范、資源共享與互操作機制等[2]。
自1996年DESIRE一期工程開始,學科信息門戶就在歐洲范圍內逐漸普及,一大批面向數學、工程科學、醫(yī)學、社會科學的學科信息門戶相繼建立,到2001年DESIRE項目進入第二期時,學科信息門戶已經在世界范圍內呈“燎原”之勢,在美洲、歐洲、大洋洲廣泛實施。并且在2000年以后逐漸從單個的研究項目向大規(guī)模的建設項目轉化,模塊化的功能組件又使學科信息門戶呈現出豐富多彩的形態(tài),并且在組織上、商業(yè)模式上同其他的企業(yè)信息門戶、知識門戶相互交融,出現了形式和內容的統(tǒng)一態(tài)勢[3]。國際上比較權威的學科信息門戶網站有英國的RDN、SOSIG,歐洲的RENARDUS,美國的LII等。
隨著國外大規(guī)模的學科信息門戶建設以及國內學者對學科信息門戶的研究,學科信息門戶建設的思想和理念逐步為國內業(yè)界接受。國內最早是上海圖書館于1999年開始建設的“數字圖書館資源總匯表”,現在已發(fā)展成為“數字圖書館”資源門戶。2002年3月開始至今,在中科院知識創(chuàng)新工程科技基礎設施建設專項“國家科學數字圖書館(CSDL)項目”的子項目資助下,我國已建成的有生命科學、化學、數字物理、資源環(huán)境、圖書情報、長江流域資源生態(tài)環(huán)境、天然藥物、微生物、科技政策與管理等9個學科信息門戶和中心門戶[4]。熱點門戶是國家科技圖書文獻中心組織建設的一個網絡信息資源門戶類服務欄目,目前已建成納米科技、認知科學、食物與營養(yǎng)、艾滋病預防與控制等四個熱點門戶。其它的學科信息門戶還有武漢理工大學圖書館的“材料復合新技術信息門戶”,中國林業(yè)科學研究院科技信息所和中國林科院圖書館合作建設的“林業(yè)學科信息門戶”等。
國內學科信息門戶在軟件平臺的完善性、數據標準化、數據共享性、高質量信息資源數量、描述對象數量等方面存在著一定的不足[5],有些學科信息門戶缺乏高質量的有效網絡信息資源。除材料復合新技術信息門戶、數字圖書館資源門戶、微生物特色學科信息門戶、青藏高原研究專題信息門戶等能管理網絡信息資源和本地實體信息資源外,其它門戶均只鏈接網絡信息資源。這種現狀不利于信息資源的整合、服務和信息資源開發(fā),不能適應數字圖書館集成服務的發(fā)展方向,也不能滿足用戶對信息資源一站式服務的要求。2深層網頁資源的價值由于目前標準的搜索引擎只能發(fā)現互聯(lián)網上的靜態(tài)網頁并建立索引,無法對被深埋在動態(tài)產生的網站之下的大量信息資源進行搜索。因此,有許多信息由于其身處網絡深層而無法被發(fā)現。對于這些處在網絡深層的信息資源,有學者稱其為不可視網絡、隱蔽網絡[6](invisibleweb,hiddenweb)、深層網頁資源(DeepWeb,DeepInternet)[7]。
自1994年Dr.JillEllswonh提出Invisibleweb這個概念以來,國外針對深層網頁資源的研究相當熱烈,且成果眾多。內容涉及理論研究、檢索軟件、搜索引擎等,形式有專著、論文、軟件及博客等。深層網頁資源的潛在價值及商機還引起了商界的重視,2004年9月14日下午,微軟亞洲研究院負責互聯(lián)網搜索和數據挖掘的馬維英向記者演示微軟在網絡搜索技術方面的三大新近展,其中一個就是從表層萬維網到深層萬維網,充分利用大量隱藏的高質量信息[7]。雅虎推出了“內容獲取項目”,該項目意在為公共數據庫中的數十億個網頁提供搜索索引[8]。與此形成鮮明對比的是,國內學者并不太重視這個問題,相關論述較少,極少有學科信息門戶網站將這部分極具學術研究價值的網絡信息資源作為特色信息資源加以收集整合。
根據BrightPlanet對深層網頁資源的范圍、數量及相關性調查結果表明,深層網頁資源有以下特點[9]:
(1)信息量大。深層網頁的信息量達7500TB,是WWW資源的400~550倍。它擁有近5500億個文檔,而表層網絡只有10億個。2000年深層網頁站點已超過20萬個,2004年達到30.7萬個,其中60個最大的深層網頁站點收集的信息約有750GB,超過表層網絡范圍40倍。
(2)利用率高。深層網頁站點的訪問率很高,月訪問量是表層網絡站點的150%,且經常被其它網絡資源鏈接;但是許多典型的深層網頁站點不為大眾所熟知。(3)發(fā)展迅速。深層網頁資源是互聯(lián)網上新生信息增長最大的一個種類,2000年~2004年間增長了3-7倍。
(4)信息質量高。深層網頁站點傾向于學科范圍更狹窄、內容更深入的方向發(fā)展。信息內容與每個所需信息、市場及領域具有較高的關聯(lián)性,且大部分(54%)深層網頁資源存放在專題數據庫(topic-spe-cificdatabases)中,經統(tǒng)計分析其高質量內容比表層網絡多1000-2000倍。
(5)免費開放。95%的深層網頁資源對公眾免費開放,即無需支付費用或訂購使用。付費資源前3位分別是DBTOnline、Lexis-Nexis和DIALOG,占付費資源的71%;免費開放資源的前3位分別是美國國家氣象數據中心(NationalClimaticDataCentre)、美國國家航空與宇航局(NASA)和美國國家海洋數據中心(NationalOceanographicDataCenter),占開放資源的92%。
因此,將這部分資源收集整理到學科信息門戶網站中來,有利于進一步提升學科信息門戶網站的學術指導價值、利用價值,對于當前學科門戶網站的建設是非常有意義的。3深層網頁資源采集的方式學科信息門戶建設,要從大量的網絡資源中選出有價值的資源,要在較短的期限內達到信息的規(guī)模效應,在人員的安排上僅靠有限的學科專家和相關的專業(yè)人員是難以達到預期目的的。因此,深層網頁資源的采集應遵循多元化策略,主要可采取以下措施:
3.1人工采集
由工作人員查閱各種文獻、瀏覽互聯(lián)網或向有關專業(yè)人員請教獲得相應的信息源,定期對這些信息源進行跟蹤檢索獲取數據。人工采集方式的工作效率較低,而且所收集的信息不全,帶有一定的隨機性和隨意性。常用的信息源有:(1)對公眾免費開放的數據庫資源,如PubMed、GenBank、DOAJ等。(2)目錄指南(directories),如Librarians'IndextotheIntemet中的invisibleweb資源。(3)搜索“InvisibleWeb”的網站,如TheInvisibleWebDirectory、Directsearch、CompletPlanet(BrightPlanet公司經營的網站)、InfoMine、A等。(4)專業(yè)搜索引擎:Incywincy、Singingfish、GoogleNews、Scirus、S等。(4)利用普通搜索引擎如Google、Yahoo!Search、Yahoo!Directory和Teoma等搜索,檢索策略為“主題詞或關鍵詞+database”,這樣就可以搜索到這些搜索引擎所收錄的該主題詞或關鍵詞方面的相關數據庫鏈接。如toxicchemicalsdatabase。
3.2自動化采集
即利用蜘蛛或機器人自動到網站去搜索。由于絕大多數深層網頁資源為蜘蛛程序無法訪問或索引的數據庫,自動化采集深層網頁資源需要使用專門的深層網頁數據挖掘軟件。
門戶網站建設可計劃自行研發(fā)具有自主知識產權的深層網頁資源采集軟件,但技術難度較大,會占用學科門戶網站建設過程中大量的人力資源和財政資金,對普通圖書館或機構來說不是最佳方案。另一種方式是采用專用商業(yè)軟件,這類軟件可實現對深層網頁資源的檢索,它可以將用戶的檢索請求同時推送到多個相關網絡數據庫中進行檢索,而后把結果送回給用戶。如BrightPlanet開發(fā)用于檢索深層網頁資源的專業(yè)軟件LexiBot2.0,用戶可將其下載到自己的計算機上,采用關鍵詞串檢索,可同時對2200多個網站和數據庫進行檢索,檢索過程可采用后臺操作模式,不影響用戶做另外事務。目前BrightPlanet公司已停止銷售該軟件,取而代之的是DQM2(BrightPlanet'sDeepQueryManagerTM),可根據用戶的指令對超過70000個深層網頁專業(yè)數據庫同時進行檢索,并實時進行跟蹤和監(jiān)測為用戶返回最新研究進展提示,用戶也可根據自己的學科特色進行限制檢索,檢索到的結果可根據用戶需要進一步管理制作,后續(xù)資料可進行追加,是一個較為理想的門戶網站建設深層網頁資源采集軟件[10]。另外可供參考的還有普渡大學(PurdueUniversity)的EduMed,專門用于搜索醫(yī)學多媒體數據庫[11],該軟件前身是一個多媒體管理系統(tǒng)VDBMS。
自動化采集的工作效率較高,可以確保查全率。但所收集的資料良莠不齊,質量難以保證,而且所收集的信息量太大,容易使系統(tǒng)難以承載。4深層網頁資源的整合4.1網絡導航
即以網絡導航的形式將深層網頁資源信息發(fā)布到學科信息門戶網站,用戶通過門戶網站提供的鏈接即可訪問相應的深層網頁搜索引擎、目錄或數據庫。網絡資源的組織方法有按學科、資源類型、字順、主題樹和數據庫組織等,有學者認為后兩種方式相對科學、合理,用戶可通過主題瀏覽和關鍵詞查詢找到相應的網絡資源[12]。
4.2深層網頁資源的跨庫檢索整合
這是一種基于系統(tǒng)的整合方法,通過檢索軟件可實現對多種不同結構的數據庫同時檢索并返回檢索結果。這種跨平臺或異構平臺的開發(fā)與應用在國內已有一定的發(fā)展,在圖書館數字資源的集成檢索系統(tǒng)方面成功案例較多,如CALLS和北京大學圖書館共同開發(fā)的統(tǒng)一檢索平臺,該平臺提供了基于異構系統(tǒng)的跨庫檢索服務,用戶可按學科、按數據庫名稱、按文種同時檢索多個平臺上的多種資源,輸入一個檢索式,便可以看到多個數據庫的查詢結果,并可進一步得到詳細記錄和下載全文。目前,國內的微生物特色學科信息門戶的數據庫集成檢索引擎實現了網絡數據庫跨庫檢索,它可對945個生物信息學熱門數據庫同時進行跨庫整合檢索。
4.3深層網頁資源的保存
由于網絡資源的動態(tài)性,許多有價值的網站信息稍縱即逝,如果不加以及時保存這些信息將無法找到和再現。學科信息門戶網站如能根據學科專業(yè)特點保存相應的深層網頁資源,以某種方式呈現給本學科專業(yè)用戶,不僅可對這部分資源起到保存作用,而且能夠提高深層網頁資源的利用率實現其真正價值。
通過自動化采集軟件獲得的深層網頁資源,其保存是一種基于數據的整合方式,核心是數據加工要標準化,與其它網絡數據的組織和處理要同步接軌,也就是要將廣泛應用于網絡數據加工處理的元數據應用到深層網頁資源中來,這樣有利于整個學科信息門戶資源的統(tǒng)一整合利用。2003年度ALCTS(AssociationforLibraryCollection&TechnicalService)的年度會議項目“MetadataHarvesting:UsingtheOpenArchivesInitiativeProtocoltoExposetheDeepWeb”,提出利用OAI協(xié)議把元數據的思想應用于深層網頁,利用元數據來標注深層網頁資源,可獲得更高的檢索效率[13]。這個會議精神給學科門戶網站建設過程中開展深層網頁資源的整合工作提供了技術設想。
對深層網頁資源進行加工整合應遵循以下策略:(1)標準化策略。要求提供規(guī)范和深入的知識化描述,能夠支持開發(fā)集成和個性化定制服務。標準化是實現跨學科信息門戶互操作和數據共享的基礎,是實現學科門戶可持續(xù)發(fā)展的必然要求。(2)開放性策略。要求在信息結構、元數據描述、知識組織體系、用戶界面、用戶使用后管理等各個層面具有良好的開放性機制,支持個性化定制和開放集成。(3)及時性策略。要求信息的更新和維護必須及時、準確、有效。(4)權威性策略。要求優(yōu)化選擇學科信息門戶的深層網頁資源,以保證門戶的資源質量。
4.4深層網頁資源整合涉及的法律問題
因為主頁對網站的重要性不可低估,人們習慣于將重要的廣告放置在主頁上,以此實現應有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 升學宴家長致辭(匯編15篇)
- 魯抗醫(yī)藥2024年度向特定對象發(fā)行A股股票方案的論證分析報告
- 前臺行政工作總結(15篇)
- 二年級語文教學工作計劃4篇
- 學生通訊錄系統(tǒng)課程設計
- 湖南常德市2024年九年級(上)物理期末模擬試卷附參考答案
- 同學聚會校長致辭【五篇】
- 做銷售合同范本(2篇)
- 《職場溝通》電子教案 項目三 職場溝通傾聽技能準備
- 2025年會計、審計及稅務服務項目建議書
- 電力建設施工質量驗收及評定規(guī)程-第1部分:土建工程
- 醫(yī)院消防安全知識試題及答案
- 高中體育足球教案
- 2025屆內蒙古赤峰市、呼和浩特市高考考前模擬物理試題含解析
- 三年級數學(上)計算題專項練習附答案
- 臨床醫(yī)學內科學消化系統(tǒng)疾病教案脂肪性肝病教案
- 2024年江蘇省南通市中考英語試卷(含答案解析)
- 期末練習(試題)-2024-2025學年譯林版(三起)(2024)英語三年級上冊
- 成人中心靜脈導管(CVC)堵塞風險評估及預防-2024團體標準
- DL∕T 5342-2018 110kV~750kV架空輸電線路鐵塔組立施工工藝導則
- 安全治本攻堅三年行動方案及重大事故隱患會議紀要(完整版)
評論
0/150
提交評論