




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于OAI和METS遠(yuǎn)程收集數(shù)據(jù)的方法和流程
趙陽清華大學(xué)圖書館學(xué)位論文項(xiàng)目組2007.09.27南京主要內(nèi)容:“CALIS學(xué)位論文全文數(shù)據(jù)庫”服務(wù)體系架構(gòu)基于OAI和METS數(shù)據(jù)收割模式基于OAI和METS數(shù)據(jù)收割實(shí)施步驟NOW“CALIS學(xué)位論文數(shù)據(jù)庫”服務(wù)體系架構(gòu)參建館本地系統(tǒng)CALIS數(shù)字圖書館門戶計(jì)費(fèi)中心認(rèn)證中心資源調(diào)度中心CALIS-OID解析中心紙本掃描加工CALIS中心學(xué)位論文提交與發(fā)布系統(tǒng)DRM閱讀器讀者DRM數(shù)字版權(quán)保護(hù)瀏覽器CALIS高校學(xué)位論文數(shù)據(jù)庫分中心CALIS學(xué)位論文參建館本地系統(tǒng)涉及到三個(gè)層面:本館層面滿足提交、審核、編目、標(biāo)準(zhǔn)化、回溯、發(fā)布、檢索、管理、存儲等需求符合相關(guān)標(biāo)準(zhǔn)、規(guī)范開放架構(gòu)CALIS子項(xiàng)目(分中心)層面納入“CALIS高校學(xué)位論文數(shù)據(jù)庫”服務(wù)體系CALIS中心層面納入“CALIS高等教育數(shù)字圖書館”服務(wù)體系學(xué)位論文參建館本地系統(tǒng)結(jié)構(gòu)圖Web檢索全文檢索引擎專業(yè)編目文檔標(biāo)準(zhǔn)化論文回溯發(fā)布管理論文元數(shù)據(jù)庫論文(PDF)對象庫服務(wù)接口層應(yīng)用層存儲層學(xué)位論文提交與發(fā)布系統(tǒng)安全通信層DRM版權(quán)保護(hù)系統(tǒng)(PDF)紙本掃描加工系統(tǒng)MQ服務(wù)器METS接口模塊OAI-DP服務(wù)器認(rèn)證接口計(jì)費(fèi)接口CLRCOpenURL接口對象安全訪問接口CALIS-OID本地解析學(xué)位論文參建館本地系統(tǒng)結(jié)構(gòu)圖12345678讀者瀏覽器DRM閱讀器Web審核Web提交參建館本地系統(tǒng)與CALIS子項(xiàng)目中心的互操作關(guān)系服務(wù)接口層安全通信層MQ服務(wù)器METS接口模塊OAI收割服務(wù)器CALIS-OID訪問數(shù)字對象請求中心論文元數(shù)據(jù)倉庫論文(前16頁)對象倉庫倉儲層服務(wù)接口層應(yīng)用層存儲層學(xué)位論文提交與發(fā)布系統(tǒng)安全通信層DRM數(shù)字版權(quán)保護(hù)系統(tǒng)MQ服務(wù)器METS接口模塊OAI-DP服務(wù)器認(rèn)證接口計(jì)費(fèi)接口CLRCOpenURL接口對象安全訪問接口CALIS-OID本地解析12345678參建館CALIS學(xué)位論文分中心學(xué)位論文提交與發(fā)布系統(tǒng)與CALIS中心的互操作關(guān)系CALIS中心CALIS-OID解析中心認(rèn)證中心計(jì)費(fèi)中心資源調(diào)度中心CALIS數(shù)字圖書館服務(wù)門戶服務(wù)接口層應(yīng)用層存儲層學(xué)位論文提交與發(fā)布系統(tǒng)安全通信層DRM數(shù)字版權(quán)保護(hù)系統(tǒng)MQ服務(wù)器METS接口模塊OAI-DP服務(wù)器認(rèn)證接口計(jì)費(fèi)接口CLRCOpenURL接口對象安全訪問接口CALIS-OID本地解析12345678參建館本地系統(tǒng)升級的主要接口OAI和METS數(shù)據(jù)收割接口,實(shí)現(xiàn)元數(shù)據(jù)和對象數(shù)據(jù)的收集;CALIS_OID解析接口,實(shí)現(xiàn)數(shù)字對象的解析和獲取;數(shù)字對象安全下載接口,實(shí)現(xiàn)數(shù)字對象的安全下載;CALISODL接口,實(shí)現(xiàn)CADLIS各系統(tǒng)之間的統(tǒng)一檢索;CADLIS認(rèn)證/計(jì)費(fèi)接口,實(shí)現(xiàn)認(rèn)證計(jì)費(fèi)。本地系統(tǒng)升級的主要接口主要內(nèi)容:“CALIS學(xué)位論文全文數(shù)據(jù)庫”服務(wù)體系架構(gòu)基于OAI和METS數(shù)據(jù)收割模式基于OAI和METS數(shù)據(jù)收割實(shí)施步驟NOW基于于OAI和和METS數(shù)數(shù)據(jù)據(jù)收收割割模模式式模式式一一::OAI-DP/METS-DP+MQ聯(lián)聯(lián)動動模式式二二::僅采采用用OAI-DP模式式一一::OAI-DP/METS-DP+MQ聯(lián)動動---收收割割方方式式(1)實(shí)時(shí)時(shí)自自動動收收割割元數(shù)數(shù)據(jù)據(jù)通通過過OAI-DP發(fā)發(fā)布布。。OAI-DP所所發(fā)發(fā)布布出出來來的的OAIRecord采采用用““CALISOAIRecordV1.0”數(shù)數(shù)據(jù)據(jù)格格式式;;本地地系系統(tǒng)統(tǒng)的的數(shù)數(shù)字字對對象象通通過過METS-DP+MQ發(fā)發(fā)布布。。METS-DP負(fù)負(fù)責(zé)責(zé)將將數(shù)數(shù)字字對對象象封封裝裝成成METS數(shù)數(shù)據(jù)據(jù)包包,,然然后后通通過過MQ服服務(wù)務(wù)器器發(fā)發(fā)布布出出去去,,數(shù)數(shù)據(jù)據(jù)格格式式記記為為““CALISMETSRecordV1.0”;;元數(shù)數(shù)據(jù)據(jù)和和數(shù)數(shù)字字對對象象之之間間的的關(guān)關(guān)系系通通過過OAIRecord中中的的CALIS_OBJ:objInfo子子元元素素所所包包含含的的MetaID進(jìn)進(jìn)行行關(guān)關(guān)聯(lián)聯(lián);;學(xué)位位論論文文中中心心系系統(tǒng)統(tǒng)接接收收到到OAI-DP或或METS-DP+MQ請請求求,,自自動動收收割割參參建建館館本本地地系系統(tǒng)統(tǒng)中中的的數(shù)數(shù)據(jù)據(jù);;模式式一一::OAI-DP/METS-DP+MQ聯(lián)動動---收收割割方方式式(2)手動動收收割割用OAI數(shù)數(shù)據(jù)據(jù)導(dǎo)導(dǎo)出出工工具具將將OAI-DP中中的的元元數(shù)數(shù)據(jù)據(jù)導(dǎo)導(dǎo)出出成成為為包包含含OAIRecord數(shù)數(shù)據(jù)據(jù)的的XML文文件件,,該該文文件件稱稱為為OAI記記錄錄文文件件,,數(shù)數(shù)據(jù)據(jù)格格式式為為““CALISOAIRecordV1.0”;;用METS數(shù)數(shù)據(jù)據(jù)導(dǎo)導(dǎo)出出工工具具將將METS-DP中中的的數(shù)數(shù)字字對對象象數(shù)數(shù)據(jù)據(jù)導(dǎo)導(dǎo)出出成成為為包包含含METSRecord數(shù)數(shù)據(jù)據(jù)的的XML文文件件,,該該文文件件稱稱為為METS記記錄錄文文件件,,數(shù)數(shù)據(jù)據(jù)格格式式記記為為““CALISMETSRecordV1.0”;本地系統(tǒng)統(tǒng)管理員員手工將將上述兩兩類文件件通過FTP上上傳至CALIS學(xué)位位論文中中心,由由其完成成數(shù)據(jù)匯匯總、統(tǒng)統(tǒng)計(jì)工作作;模式一::OAI-DP/METS-DP+MQ聯(lián)動---數(shù)據(jù)據(jù)格式(元數(shù)據(jù)據(jù))CALISRECORDV1.0用于維護(hù)護(hù)元數(shù)據(jù)據(jù)與METS一致的四四項(xiàng)信息息模式一::OAI-DP/METS-DP+MQ聯(lián)動---數(shù)據(jù)據(jù)格式(對象數(shù)數(shù)據(jù))模式一::OAI-DP/METS-DP+MQ聯(lián)動---實(shí)實(shí)際收割割測試2006.03月---2006.07月月學(xué)位論文文和特色色庫項(xiàng)目目驗(yàn)收前前,采用用模式一方式收割割學(xué)位論文文本地系統(tǒng)統(tǒng)在部分分參建館館完成升升級、數(shù)數(shù)據(jù)遷移移和發(fā)布布工作;;在廠商和和參建館館配合下下,CALIS技術(shù)中中心和學(xué)學(xué)位論文文子項(xiàng)目目組共同同進(jìn)行數(shù)數(shù)據(jù)收割割;參加測試試的學(xué)校校:TPI:中國人人民大學(xué)學(xué),中國國農(nóng)業(yè)大大學(xué)TRS:清華大大學(xué)北大方正正:北京京大學(xué)杭州麥達(dá)達(dá):北京京大學(xué)醫(yī)醫(yī)學(xué)院模式一::OAI-DP/METS-DP+MQ聯(lián)動---實(shí)實(shí)際收割割測試收割結(jié)果果實(shí)時(shí)自動動收割::本地系統(tǒng)統(tǒng)和數(shù)據(jù)據(jù)都存在在問題中心系統(tǒng)統(tǒng)對本地地系統(tǒng)的的自動收收割難以以有效進(jìn)進(jìn)行手工收割割:本地系統(tǒng)統(tǒng)能順利利提交數(shù)數(shù)據(jù)但所上傳傳的數(shù)據(jù)據(jù)仍存在在問題本地系統(tǒng)統(tǒng)存在的的主要問問題系統(tǒng)bugs數(shù)據(jù)問題題模式一::OAI-DP/METS-DP+MQ聯(lián)動---實(shí)際收收割測試試(系統(tǒng)bugs)OAI-DP本本身的bugs比較容易易發(fā)現(xiàn)。。但本地地管理員員仍缺乏乏有效易易用的工工具;METS-DP本身的的bug問題以以及MQ配置問問題難以由本本地管理理員自行行發(fā)現(xiàn);OAI-DP+METS-DP+MQ聯(lián)動動問題廠商技術(shù)術(shù)人員和和本地管管理員都都難以測測試和發(fā)發(fā)現(xiàn);其他問題題著錄和導(dǎo)導(dǎo)入工具具不完備備;本地DP所在機(jī)機(jī)器軟硬硬件系統(tǒng)統(tǒng)的不穩(wěn)穩(wěn)定;DP本身身的穩(wěn)定定性和可可靠性問問題;METS包傳輸輸丟包問問題;模式一::OAI-DP/METS-DP+MQ聯(lián)動---實(shí)際際收割測測試(數(shù)據(jù)問問題)數(shù)據(jù)不符符合schema導(dǎo)出的OAI和和METS包文文件,其其數(shù)據(jù)不不符合schema數(shù)據(jù)必備備性問題題很多數(shù)據(jù)據(jù)項(xiàng)缺乏乏,不符符合子項(xiàng)項(xiàng)目組的的數(shù)據(jù)規(guī)規(guī)范性要要求CALIS元數(shù)數(shù)據(jù)schema本身身不支持持必備性性機(jī)制,,而廠商商本地系系統(tǒng)也未未能提供供相應(yīng)的的必備性性檢測功功能數(shù)據(jù)內(nèi)容容不一致致問題((尤其是是OAI記錄和和METS記錄錄之間的的不一致致)OAI記記錄中的的about內(nèi)內(nèi)容不合合邏輯如:有時(shí)時(shí)間戳或或類型而而沒有calis-oid;;有calis-oid而沒沒有時(shí)間間戳。元數(shù)據(jù)時(shí)時(shí)間戳應(yīng)應(yīng)該不小小于數(shù)字字對象時(shí)時(shí)間戳;;更新數(shù)數(shù)字對象象時(shí)應(yīng)同同時(shí)更新新元數(shù)據(jù)據(jù)時(shí)間戳戳,才能能保證聯(lián)聯(lián)動收割割時(shí)對這這條記錄錄重收。。METS包中的的時(shí)間戳戳應(yīng)與OAI-about中中的時(shí)間間戳一致致等。數(shù)據(jù)的語語義問題題張冠李戴戴模式一::OAI-DP/METS-DP+MQ聯(lián)動---實(shí)實(shí)際收割割測試(問題原原因)本地系統(tǒng)統(tǒng)的著錄錄工具問問題單條入庫庫的元數(shù)數(shù)據(jù)和數(shù)數(shù)字對象象在必備備性、一一致性等等方面存存在問題題。本地系統(tǒng)統(tǒng)的批量量導(dǎo)入工工具問題題批量入庫庫的元數(shù)數(shù)據(jù)和數(shù)數(shù)字對象象在必備備性、一一致性等等方面存存在問題題;批量導(dǎo)入入的數(shù)據(jù)據(jù)的時(shí)間間戳都為為同一個(gè)個(gè)時(shí)間點(diǎn)點(diǎn),這給給OAI-DP帶來很很大壓力力。統(tǒng)計(jì)結(jié)果果的一致致性問題題本地OAI-DP、METS-DP實(shí)際發(fā)發(fā)布的記記錄數(shù)與與本地系系統(tǒng)的數(shù)數(shù)據(jù)庫查查詢模塊塊提供的的記錄數(shù)數(shù)不一致致,給管管理員造造成困惑惑?!蓛?nèi)內(nèi)部檢索索機(jī)制不不一致因因素所造造成。本地系統(tǒng)統(tǒng)缺乏有有效的““數(shù)據(jù)質(zhì)質(zhì)量檢測測工具/模塊””在OAI-DP和METS-DP發(fā)發(fā)布之前前,系統(tǒng)統(tǒng)本身對對數(shù)據(jù)沒沒有進(jìn)行行這種質(zhì)質(zhì)量檢測測(包括括必備性性、一致致性等))。管理員無無法自行行發(fā)現(xiàn)上上面的““數(shù)據(jù)問問題”。。模式二::僅采用用OAI-DP收收割為解決模模式一收收割中的的系統(tǒng)和和數(shù)據(jù)問問題,CALIS管理理中心于于2006年10月招招集廠商商開會,提出模模式二;廠商依據(jù)據(jù)規(guī)范要要求,改改進(jìn)和完完善系統(tǒng)統(tǒng);模式二:收割割方式實(shí)時(shí)自動動收割手動收割割模式二::僅采用用OAI-DP收收割---收收割方式式(1)實(shí)時(shí)自動動收割元數(shù)據(jù)和和數(shù)字對對象僅通過OAI-DP發(fā)布布。發(fā)布布出來的的OAIRecord采用用“CALISOAIRecordV2.0”數(shù)據(jù)據(jù)格式;;學(xué)位論文文中心系系統(tǒng)接收收到OAI-DP或或METS-DP+MQ請求求,自動動收割參參建館本本地系統(tǒng)統(tǒng)中的數(shù)數(shù)據(jù);手動收割割用新的OAI數(shù)數(shù)據(jù)導(dǎo)出出工具將將本地系系統(tǒng)中的的元數(shù)據(jù)據(jù)和數(shù)字字對象合合并為一一條OAI記錄錄導(dǎo)出為為OAI記錄文文件。該該文件中中的數(shù)據(jù)據(jù)格式為為“CALISOAIRecordV2.0”;METS-DP中的數(shù)數(shù)字對象象數(shù)據(jù)無無需再單單獨(dú)導(dǎo)出出;本地系統(tǒng)統(tǒng)管理員員手工將將上述兩兩類文件件通過FTP上上傳至CALIS學(xué)位位論文中中心,由由其完成成數(shù)據(jù)匯匯總、統(tǒng)統(tǒng)計(jì)工作作;模式二::僅采用用OAI-DP收收割---收收割方式式(2)模式二::僅采用用OAI-DP收收割---數(shù)數(shù)據(jù)格式式CALISRecordV1CALISRecordV2模式二::僅采用用OAI-DP收收割---數(shù)數(shù)據(jù)格式式CALISRecordV2,無Mets模式二::僅采用用OAI-DP收收割---實(shí)實(shí)際收割割測試2007.09月參加測試試的學(xué)校校:TPI:中國農(nóng)農(nóng)業(yè)大學(xué)學(xué)TRS:清華大大學(xué)北大方正正:北京京大學(xué)杭州麥達(dá)達(dá):北京京大學(xué)醫(yī)醫(yī)學(xué)院比較:模模式式一與模模式二----在系統(tǒng)統(tǒng)部署和和維護(hù)方方面類型模式1模式2說明部署內(nèi)容部署OAI-DP服務(wù)器部署METS-DP服務(wù)器部署MQ服務(wù)器只需部署OAI-DP服務(wù)器前者部署、培訓(xùn)、管理成本都較大數(shù)據(jù)校驗(yàn)和錯(cuò)誤排查OAI文件METS文件OAI文件和METS文件對應(yīng)關(guān)系(如相關(guān)文件個(gè)數(shù)一致、ID一致等)OAI文件(可含METS數(shù)據(jù))對兩類文件之間的對應(yīng)關(guān)系的問題,模式1排查工作量很大,排查難度很大系統(tǒng)故障排查OAI-DP服務(wù)器METS-DP服務(wù)器、MQ服務(wù)器以上三個(gè)系統(tǒng)之間的聯(lián)動OAI-DP服務(wù)器前者工作量和難度(尤其是系統(tǒng)之間聯(lián)動)都很大廠商技術(shù)支持工作量較大,當(dāng)出現(xiàn)復(fù)雜問題時(shí),需廠商和CALIS全力配合才能發(fā)現(xiàn)大為降低比較:模模式式一與模模式二----優(yōu)缺點(diǎn)點(diǎn)比較類型模式1模式2優(yōu)點(diǎn)OAI-DP無需考慮大容量數(shù)據(jù)記錄的傳輸問題,因此,模式1對OAI-DP在性能和超時(shí)處理等方面的要求較低;只需部署與OAI-DP,無需部署METS-DP和MQ服務(wù)器;OAI記錄和METS記錄不再分離,一般不會出現(xiàn)一致性問題;系統(tǒng)出現(xiàn)故障或數(shù)據(jù)出現(xiàn)問題時(shí),管理員利用相關(guān)工具能夠自己檢測出來;缺點(diǎn)需要部署METS-DP和MQ服務(wù)器,需要這兩個(gè)服務(wù)器與OAI-DP服務(wù)器聯(lián)動;OAI記錄和METS記錄之間的一致性較難維護(hù);特別是:當(dāng)上述三個(gè)服務(wù)器聯(lián)動出現(xiàn)故障或者當(dāng)OAI記錄和METS
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 法律服務(wù)行業(yè)法律顧問服務(wù)協(xié)議
- 產(chǎn)業(yè)園物業(yè)服務(wù)合同
- 古詩文登高解讀與教學(xué)方案設(shè)計(jì)
- 個(gè)人權(quán)益保護(hù)網(wǎng)絡(luò)平臺使用協(xié)議
- 企業(yè)級網(wǎng)絡(luò)安全預(yù)防預(yù)案
- 裝修工程擔(dān)保合同
- 《宋代書法欣賞:大學(xué)書法藝術(shù)課程教案》
- 在線教育行業(yè)分析模擬試題集
- 股權(quán)擔(dān)保協(xié)議書規(guī)范
- 企業(yè)社會責(zé)任年度演講致辭草稿
- 服裝倉庫管理制度及流程
- 架子工安全教育培訓(xùn)試題(附答案)
- 《高血壓5項(xiàng)化驗(yàn)》課件
- 一中師德考核評估制度
- 肋骨骨折護(hù)理個(gè)案查房
- 分布式網(wǎng)絡(luò)處理方案
- CNAS-CL02-A001:2023 醫(yī)學(xué)實(shí)驗(yàn)室質(zhì)量和能力認(rèn)可準(zhǔn)則的應(yīng)用要求
- 血管外科護(hù)理課件
- 鐵路機(jī)車檢修坑施工方案
- 數(shù)字化轉(zhuǎn)型中的知識管理
- 安徽高中畢業(yè)生登記表
評論
0/150
提交評論