建立數(shù)據(jù)驅(qū)動的e-Science圖書館服務機遇和挑戰(zhàn)_第1頁
建立數(shù)據(jù)驅(qū)動的e-Science圖書館服務機遇和挑戰(zhàn)_第2頁
建立數(shù)據(jù)驅(qū)動的e-Science圖書館服務機遇和挑戰(zhàn)_第3頁
建立數(shù)據(jù)驅(qū)動的e-Science圖書館服務機遇和挑戰(zhàn)_第4頁
建立數(shù)據(jù)驅(qū)動的e-Science圖書館服務機遇和挑戰(zhàn)_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

建立數(shù)據(jù)驅(qū)動的e-Science圖書館服務機遇和挑戰(zhàn)

e-Science是信息時代科學研究環(huán)境和活動的典型表現(xiàn)[1]。這種建立在先進網(wǎng)格技術基礎之上的數(shù)字化科研新環(huán)境,通過網(wǎng)絡技術及相關中間件實現(xiàn)程序,形成環(huán)形的科學知識流,具有可重復的周期性,創(chuàng)建完畢的數(shù)據(jù)或知識由機構(gòu)存儲庫或個人知識存儲庫存儲后再調(diào)用[2],它突破了時間、空間障礙,使得科研人員不必考慮資源的存儲地和提供者,就可自由使用分布在其他遠程計算機上的科學數(shù)據(jù)資源,協(xié)同組織開展科學研究。在e-Science環(huán)境下,動態(tài)、交互、協(xié)同的網(wǎng)絡化、數(shù)字化使基于網(wǎng)絡化的信息交流、組織、分析、合作成為科研活動的核心紐帶和新形式,更有利于催生新的發(fā)現(xiàn),從而加速科學發(fā)展的進程。人類基因組計劃的成功實施和完成以及空間科學、全球環(huán)境等研究,都是e-Science環(huán)境科學研究發(fā)展的范例。在e-Science環(huán)境下,科研用戶的信息需求和科研模式發(fā)生的根本性改變給圖書館帶來了新的重要發(fā)展機遇和挑戰(zhàn)。因此,建立e-Science下新的服務理念和技術平臺,已成為現(xiàn)代科學圖書館發(fā)展的趨勢。筆者將結(jié)合美國麻省理工學院(MIT)圖書館服務項目實踐活動,提出一些建立數(shù)據(jù)驅(qū)動的e-Science圖書館服務的粗淺看法。1e-Science環(huán)境下科學數(shù)據(jù)存儲與開放共享的現(xiàn)狀1.1科學數(shù)據(jù)產(chǎn)出呈指數(shù)級增長科學數(shù)據(jù)包括科研論文、專利、研究報告、實驗觀測數(shù)據(jù)和元數(shù)據(jù)、參考資料、照片和圖表、學術類多媒體資源等,不僅包括公開出版和可公開獲取的數(shù)據(jù),還包括很多的灰色科學數(shù)據(jù)。近年來,隨著各國的科技投入增大,科學觀測和分析能力已得到快速的提升,導致科學數(shù)據(jù)的產(chǎn)生和積累呈指數(shù)級增長。僅以科學實驗數(shù)據(jù)增長為例,最近MIT圖書館員調(diào)查了該校一些重要領域科學家的數(shù)據(jù)量,發(fā)現(xiàn)16個案例中的科學家每年產(chǎn)生數(shù)據(jù)總量大約為41000TB(即4.1×10[16]B),如物理系教授的數(shù)據(jù)量為20600TB,神經(jīng)影像學教授為5.4TB,氣候變化研究的科學家產(chǎn)生200TB[3]。研究還發(fā)現(xiàn),與過去5年相比,每個學科的數(shù)據(jù)量都增加了5-10倍以上[3]。在e-Science環(huán)境下,科學數(shù)據(jù)面臨著存取、傳輸和數(shù)據(jù)管理三個方面的挑戰(zhàn)[4]。1.2科學數(shù)據(jù)共享和長期保存的重要舉措科學數(shù)據(jù)共享和長期保存已被視為各國促進科技創(chuàng)新的重要舉措。美國鼓勵科學數(shù)據(jù)實現(xiàn)全面開放,歐洲國家對科研信息化和數(shù)據(jù)管理也非常重視。我國也在積極推行e-Science下科學數(shù)據(jù)的開放獲取。為促進科學數(shù)據(jù)的開放共享,許多國際知名研究基金會要求所資助的研究項目將科研數(shù)據(jù)向公眾開放,例如,美國國家科學基金會(NSF)于2010年已明確規(guī)定,今后基金申請都必須要提交數(shù)據(jù)的長期保存和開放獲取計劃[5]。2009年11月,41位諾貝爾獎獲得者聯(lián)名發(fā)出致美國國會的公開信,支持研究成果公共獲取法案;目前已有24個國家的150多個機構(gòu)參加了國際高能物理界推出的學術期刊開放出版計劃——SCOAP3計劃[6]。實現(xiàn)科學數(shù)據(jù)的共享和有效管理不僅僅是要將數(shù)據(jù)存入適當?shù)闹R庫中,更重要的是通過數(shù)據(jù)開放共享促進科學新發(fā)現(xiàn)和開展高效的合作研究。1.3科學數(shù)據(jù)保存的進展和現(xiàn)狀目前科學數(shù)據(jù)存儲和共享已取得許多重要進展。一些大型國際合作項目實現(xiàn)了使用層結(jié)構(gòu)系統(tǒng)(tieredsystem)或計算機集群進行數(shù)據(jù)存儲和共享。一些出版商要求研究人員將發(fā)表文章的科學數(shù)據(jù)存到指定的官方數(shù)據(jù)庫中保存并共享。如在生物學雜志上發(fā)表文章,作者被要求文章投稿前將基因測序結(jié)果遞交GenBank數(shù)據(jù)庫。另外,一些官方專業(yè)機構(gòu)和學協(xié)會也推出了相應的學科數(shù)據(jù)知識庫(DataReposity,DR),如:Pubchem(化學),Genbank、PDB(蛋白質(zhì)數(shù)據(jù)庫)、SIMBAD(天文學領域)、GEON(地學)等。但這些科學數(shù)據(jù)庫平臺的數(shù)據(jù)格式并不統(tǒng)一,也并非都采用了元數(shù)據(jù),如GenBank的缺點是數(shù)據(jù)主要是平面文件而不是元數(shù)據(jù),格式單調(diào),并不適合保存生物交叉學科領域的數(shù)據(jù)。因此,數(shù)據(jù)不規(guī)范和缺少跨學科的統(tǒng)一平臺是當前科學數(shù)據(jù)存儲共享的主要障礙。事實上,還有一些研究人員仍在使用廉價的備份系統(tǒng)進行數(shù)據(jù)備份,或?qū)⒋罅康目茖W數(shù)據(jù)分散保存于不同的計算機、文件夾中,效率低、安全性差。有部分研究人員把數(shù)據(jù)存于Google、Amazon、Microsoft或一些網(wǎng)上引用管理工具上,因而難以保障科學數(shù)據(jù)的安全和長期保存。1.4e-Science下圖書館積極促進科學數(shù)據(jù)的存取和服務圖書館的重要職能之一是長期保存人類重要文化遺產(chǎn)。在e-Science環(huán)境科學數(shù)據(jù)指數(shù)級增長的時代,科學圖書館在發(fā)揮其科學數(shù)據(jù)保存和服務上具有不可替代的地位和作用。現(xiàn)代大型科學圖書館擁有豐富的電子資源和技術平臺、龐大讀者群和完善的學習培訓系統(tǒng)等。因此,建立e-Science下數(shù)據(jù)存儲共享模式是圖書館服務的重要內(nèi)容和責任。如何建立合適的數(shù)據(jù)保存機制以長期存儲科學數(shù)據(jù),正確選擇和有效使用網(wǎng)絡獲取和共享這些數(shù)據(jù)是科學研究的重要需求,也給數(shù)字圖書館服務提出了新問題,為圖書館e-Science下開拓新的數(shù)據(jù)存儲和開放共享服務提供了契機。在這種新形勢下,國內(nèi)外許多大學和研究機構(gòu)圖書館已紛紛建立自己的機構(gòu)存貯數(shù)據(jù)庫(InstitutionalRepository,IR),如MIT圖書館的DSpace數(shù)據(jù)庫、普林斯頓大學圖書館的DataSpace數(shù)字化數(shù)據(jù)倉庫[7]。香港大學、廈門大學、浙江大學等高校圖書館、中國科學院部分圖書館也紛紛建立了機構(gòu)知識庫。但這些機構(gòu)知識庫往往只收集本機構(gòu)部分最終研究數(shù)據(jù),如何完全解決研究的中間過程和機構(gòu)以外的全部科學數(shù)據(jù)的開放存取,仍是一個需要長期探討的問題。下面筆者結(jié)合e-Science下MIT圖書館的數(shù)據(jù)服務做一些討論。2MIT圖書館的科學數(shù)據(jù)管理與服務在e-Science環(huán)境下,科研產(chǎn)生的科學數(shù)據(jù)分布在全球各個機構(gòu)中,所以必須對這些分布式的數(shù)據(jù)進行整合①。MIT圖書館數(shù)據(jù)管理項目組針對科研人員科學數(shù)據(jù)產(chǎn)出特點,經(jīng)過數(shù)年的不斷探索,已建立起較為完善的e-Science科學數(shù)據(jù)采集、管理、保存、利用等數(shù)據(jù)驅(qū)動的e-Science圖書館綜合服務新模式,建立了著名的DSpace圖書館數(shù)字資源存儲系統(tǒng)——DSpace(DSpace@MIT,)、開放獲取服務與學術出版服務模式和開放課件服務OCW(OpenCourseWare,/about)等,積極進行科學數(shù)據(jù)的動態(tài)監(jiān)測研究和管理服務探索。2.1DSpace圖書館數(shù)字資源存儲系統(tǒng)早在20世紀90年代后期,MIT圖書館就注意到了各個院系、研究所、實驗室產(chǎn)生了大量復雜的、數(shù)字化的、不同格式的科學數(shù)據(jù)和學術出版物,而科學家和學生們在收集、整理、保管這些數(shù)據(jù)資料時要花費相當多的時間和精力,共享數(shù)據(jù)也非常困難。于是MIT圖書館成立了數(shù)據(jù)管理項目組,開始研究建立一種基于數(shù)字機構(gòu)存儲(IR)的服務。2002年成功開發(fā)出全球第一個機構(gòu)知識庫(IR)——DSpace數(shù)字資源存儲系統(tǒng),并將其BSD開放源代碼技術向全球公開[8-9]。DSpace是一種個性化的開放獲取平臺和服務模式。不同于一般的文獻管理系統(tǒng),它是一個專門的數(shù)字資產(chǎn)(DigitalAssets)管理系統(tǒng),其特點為基于存儲的資產(chǎn)管理,以事件觸發(fā)構(gòu)建的工作流機制,以分級權(quán)限控制的管理體系,具有高度的靈活性、可用性和可自定義性。該系統(tǒng)采用元數(shù)據(jù)描述、采用句柄系統(tǒng)實現(xiàn)數(shù)據(jù)的長期保存獲取,采用開放源軟件,支持各種標準協(xié)議,可以收集、存儲、索引、保存和重新發(fā)布任何數(shù)字格式、層次結(jié)構(gòu)的、已經(jīng)和未經(jīng)出版的本地永久標識性研究數(shù)據(jù),又可通過DSpace聯(lián)盟建立虛擬館藏[10]。聯(lián)盟的館藏對于用戶完全透明,用戶通過WEB界面訪問元數(shù)據(jù),根據(jù)標準協(xié)議進入不同院校的系統(tǒng),并發(fā)送資源請求,通過本地的存儲過程自動獲取有關的文檔備份。系統(tǒng)具有文獻發(fā)現(xiàn)功能和強大的統(tǒng)一檢索平臺,以實現(xiàn)學術資源的共享。用戶通過登錄指定的平臺向DSpace提交數(shù)據(jù),DSpace可保存任何格式的數(shù)字資源,包括論文、圖書、圖書章節(jié)、數(shù)據(jù)集、學習資源、圖像、3D圖像、地圖、樂譜、設計圖、預印本、錄音記錄、音樂錄音、軟件、技術報告、論著、視頻、工作文檔等[8],每年能存儲MIT研究人員完成的1萬多份數(shù)字化科研成果。MIT圖書館數(shù)據(jù)管理項目組承擔全部數(shù)據(jù)的存檔管理、系統(tǒng)維護、軟件升級和用戶使用指導等服務。2.2開放獲取服務與學術出版服務新模式MIT科學數(shù)據(jù)開放獲取項目組的工作還包括解答有關數(shù)據(jù)管理、寫作與學術論文出版相關咨詢,與出版商爭取相關權(quán)益,建立開放獲取政策,執(zhí)行DSpace數(shù)據(jù)提交服務,推動MIT的開放獲取服務等。在每年新教工和學生入學時,項目組成員負責相關出版政策和DSpace數(shù)據(jù)系統(tǒng)的培訓。通過與出版商的談判協(xié)商,DSpace數(shù)據(jù)庫實現(xiàn)了對注冊用戶的學術文章免費開放并可在網(wǎng)絡上獲取。MIT是美國第一所全校范圍內(nèi)采取該模式的大學。據(jù)統(tǒng)計,2009年10月-2010年10月下載論文超過63000篇。目前有SPIE、管理科學季刊、伯克利電子出版社以及前沿基礎研究出版社等出版社與MIT建立了開放獲取政策[11],已有9家同行評議期刊的出版商允許麻省理工學院用戶從其網(wǎng)站上免費獲取該??蒲腥藛T的研究論文。2010年5月,MIT圖書館創(chuàng)立了“開放獲取出版基金(OAAPSF)”,用于資助MIT作者在開放獲取期刊上發(fā)表論文[12]。此外,MIT圖書館于2002年實現(xiàn)了開放式課程OCW,當年在網(wǎng)絡上公布了500門課程,這種通過網(wǎng)絡共享專業(yè)知識的方式,立即在全球高校和研究機構(gòu)引起了積極的反響,至2007年,OCW開放課件已達到1800門。MIT圖書館數(shù)據(jù)管理項目組積極為科研人員推介DSpace系統(tǒng),讓他們認識到DSpace系統(tǒng)的優(yōu)勢,而非強制性地要求其將研究成果存入DSpace。MIT圖書館數(shù)據(jù)組還專門開展了一系列項目(課題),研究新的科學數(shù)據(jù)管理服務模式,主要思路就是通過建立主動服務的模式,有效利用各種已成熟的可長期保存的專業(yè)科學數(shù)據(jù)知識庫,最大限度地幫助科研人員有效管理和開放共享科學數(shù)據(jù)。3數(shù)據(jù)驅(qū)動e-Science圖書館服務策略的幾點思考e-Science環(huán)境下建立基于多存取模式下的數(shù)據(jù)驅(qū)動服務模式,包括科學數(shù)據(jù)最大化的長期獲取和共享服務,已成為科學圖書館服務的重要內(nèi)容。我們應當開展對數(shù)據(jù)驅(qū)動相關服務的專項課題研究,分析重要學科數(shù)據(jù)存儲和共享的特點、需求,針對已有科學數(shù)據(jù)知識庫的現(xiàn)狀和問題,建立和完善圖書館數(shù)據(jù)服務模式。在技術層面,應考慮在圖書館數(shù)字資源平臺上建立科學數(shù)據(jù)共享管理服務平臺,將機構(gòu)知識庫(IR)和已有科學數(shù)據(jù)知識庫(DR)以及其他數(shù)據(jù)門戶(portal)、數(shù)據(jù)庫(database)整合,率先從數(shù)據(jù)存儲和共享需求大的學科入手,如生物學等,對學科科學數(shù)據(jù)知識庫進行分類管理和導航,使科研人員能夠有效使用已有的專業(yè)科學數(shù)據(jù)庫資源??赏ㄟ^“跨庫檢索”,實現(xiàn)數(shù)據(jù)資源共享的“一站式”服務。在這方面,完全可參考MIT的DSpace和OCW系統(tǒng),積極建立基于圖書館優(yōu)勢的技術網(wǎng)絡數(shù)據(jù)存儲獲取平臺,建立類似DSpace聯(lián)盟的虛擬館藏,提供圖書館特色服務的支撐平臺。在特色服務層面,圖書館要建立面向科研用戶的數(shù)據(jù)驅(qū)動的服務,首先要了解科研用戶工作流和數(shù)據(jù)生命周期,明確數(shù)據(jù)服務的時機和服務的數(shù)據(jù)類型,找到新的服務點,從而建立起數(shù)據(jù)驅(qū)動的e-Science服務模式。如圖1所示,一個科研項目從立項到完成的全過程中,研究人員對數(shù)據(jù)的獲取、存貯和共享行為存在著工作流中的數(shù)據(jù)生命周期。具體而言,始于數(shù)據(jù)收集、數(shù)據(jù)發(fā)現(xiàn),經(jīng)過數(shù)據(jù)分析、處理,再到衍生新數(shù)據(jù)和原始數(shù)據(jù)存檔,周而復始,構(gòu)成科學數(shù)據(jù)的生命周期[13]。換句話說,數(shù)據(jù)收集是科學研究的起點,而新數(shù)據(jù)的存儲則關系到科學數(shù)據(jù)的共享、新的發(fā)現(xiàn)。圖書館數(shù)據(jù)服務組協(xié)助用戶形成數(shù)據(jù)管理計劃的最佳時機是研究項目開始,這個調(diào)研時期對數(shù)據(jù)的需求量較大。科研用戶產(chǎn)生了大量數(shù)據(jù),需要建檔存貯的時候,也是圖書館數(shù)據(jù)管理服務的最佳介入時機。圖1工作流中的數(shù)據(jù)生命周期(引自DeelmanE[14])針對上述科研用戶工作流和數(shù)據(jù)生命周期,結(jié)合我們的體會,筆者提出以下幾點建議:首先,圖書館應建立長期科學數(shù)值服務管理項目,專門進行e-Science下學科科學數(shù)據(jù)知識庫的動態(tài)收集,重點整理、分析和跟蹤可持續(xù)和可長期保存與開放獲取的專業(yè)數(shù)據(jù)知識庫,進行知識庫的評估、管理、推介、導航服務。其次,在科學數(shù)據(jù)共享管理服務平臺上,應及時發(fā)布和更新科學數(shù)據(jù)知識庫信息,確保為科研用戶提供最新的和最準確的數(shù)據(jù)知識庫及相關信息。第三,服務需涵蓋整個數(shù)據(jù)生命周期。一個新的課題或新的研究人員,往往對于e-Science下的科學數(shù)據(jù)知識庫和一些特殊數(shù)值型數(shù)據(jù)庫不是十分了解,圖書館學科館員應及時了解用戶的數(shù)據(jù)需求,幫助用戶發(fā)現(xiàn)或建議最佳數(shù)據(jù)知識庫,使他們能夠及時準確地從科學數(shù)據(jù)知識庫和機構(gòu)庫中獲取所需數(shù)據(jù)。還可以協(xié)助用戶提前建立一個粗放和易于管理的數(shù)據(jù)計劃框架,對于項目中間和結(jié)束時產(chǎn)生的大量數(shù)據(jù)及時存取,為用戶提供指導。筆者認為,建立數(shù)據(jù)驅(qū)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論