網(wǎng)絡(luò)數(shù)據(jù)存檔的存在問題_第1頁
網(wǎng)絡(luò)數(shù)據(jù)存檔的存在問題_第2頁
網(wǎng)絡(luò)數(shù)據(jù)存檔的存在問題_第3頁
網(wǎng)絡(luò)數(shù)據(jù)存檔的存在問題_第4頁
網(wǎng)絡(luò)數(shù)據(jù)存檔的存在問題_第5頁
已閱讀5頁,還剩26頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、網(wǎng)絡(luò)數(shù)據(jù)存檔的存在問題B.Kahle2000.3原始出處:.au/hans0602.ppt bluerye(DXY)譯網(wǎng)絡(luò)數(shù)據(jù)存檔的存在問題 “網(wǎng)絡(luò)站點無論隊一個機構(gòu)的數(shù)字資產(chǎn),還是對于一個國家的信息和文化遺傳都起著越來越重要的作用”(JISC 2002.4) “許多歷史上的信息,生來就是數(shù)字化的。這點不同于早期的電視,因為它并沒有記錄?!?Brewster Kahle 2002.3)網(wǎng)絡(luò)存檔的存在問題 澳大利亞 美國 北歐國家:丹麥 芬蘭 瑞典 其他國家:英國 法國 日本 國際網(wǎng)絡(luò)數(shù)據(jù)的存檔庫 例如:“wayback Machine”三個會議 數(shù)據(jù)儲存圖書

2、館的未來 達(dá)姆施塔特德國 2001.9 國際數(shù)據(jù)網(wǎng)絡(luò)存檔大會 東京 2002.1 DPC論壇:網(wǎng)絡(luò)數(shù)據(jù)存檔 倫敦 2002.3 會議網(wǎng)站 http:/www.bnf.fr/pages/infopro/dliECDL2001.htm http:/www.ndl.go.jp/enews/sympoeng.html http:/www.jisc.ac.uk/dner/preservation/webforum.html存在問題 儲存數(shù)字化信息的合法性? 版權(quán)? 是否允許訪問和對公眾開放? 選擇一部分還是全部儲存? 多長時間更新介質(zhì)?何時更新? 如何在多變的網(wǎng)絡(luò)中獲得信息?技術(shù)上面臨的挑戰(zhàn) 嵌入的外部

3、鏈接和可執(zhí)行程序 不變的名稱和數(shù)據(jù)標(biāo)識 復(fù)制控制 內(nèi)容隨時間的變化 表層網(wǎng)頁和深層網(wǎng)頁澳大利亞(潘多拉檔案庫) NLA:.au/pandora 仍沒有合法地位 儲存公有的出版物 選擇性儲存 ( 澳大利亞電子刊物,組織化站點, 政府出版物,短期資源) 允許公眾訪問 NDB條款澳大利亞(潘多拉檔案庫) 1700個標(biāo)題(2001.11) 增長率:每月40站點 重新整理:每月35站點 ADRI(澳大利亞數(shù)字資源確認(rèn)) 獨特的確認(rèn)方法 自身處理系統(tǒng)美國(雅典娜議檔案庫)議會圖書館 將互聯(lián)網(wǎng)資源制圖,可視化檔案庫 可通過網(wǎng)頁訪問資源 版權(quán)的合法性正在論證階段 選擇性收錄

4、對公眾公開LC/IA 領(lǐng)航計劃-“Election 2000” 將網(wǎng)上和議會資源庫共享 目標(biāo):圖書館:選擇收集和分類站點;建造原型訪問站點網(wǎng)絡(luò)檔案庫:在整理和歸檔站點的過程中學(xué)習(xí)經(jīng)驗 800多個站點(在這些站點中包括150多個選擇后的站點和主要) 數(shù)據(jù)量有2-3萬億字節(jié) 每日歸檔(2000.82001.1)丹麥 皇家圖書館,哥本哈根 出版物的儲存有一定法律權(quán)限 非動態(tài)的靜態(tài)出版物有限的站點 只允許皇家圖書館,國立圖書館和大學(xué)圖書館訪問 只歸檔靜態(tài)站點(專論和過刊) 奧爾胡斯會在每天夜里為國立和大學(xué)圖書館提供鏡像站點丹麥(統(tǒng)計數(shù)字) 9000 網(wǎng)絡(luò)出版物 (2001.6)31為專論,69為過刊6

5、7.5來自公共部門和圖書館,32.5來自私立部門 工作人員中有0.5是技術(shù)人員,0.8是圖書管理員瑞典皇家圖書館 每年若干次對本國站點進(jìn)行掃描不選擇,收錄一切包括所有網(wǎng)頁,所有電子刊物,所有新聞包括.se-,.com,.org,.net在內(nèi)的所有使用瑞典地址和電話號碼的網(wǎng)站。只歸檔但不允許訪問。瑞典 軟件 使用Whois軟件鑒定本國的站點 使用COMBINE Robot軟件收錄站點自動從超鏈接中收集文章同時收錄圖片和聲音文件全自動化無需人為幫助瑞典檔案庫(Kulturarw3) http:/www.kb.se/kw3 所有資源都作為一個多部分的MIME一個元數(shù)據(jù)儲存在一個文件里面 文件命名:3

6、3個字符以及記錄時間 截至到2001.9:從97000個網(wǎng)絡(luò)服務(wù)器中活得110,000,000文件,總計3000G字節(jié)的數(shù)據(jù)量 儲存在磁盤和碟片中,用分等儲存管理(HSM)管理文件瑞典檔案庫(Kulturarw3) 直到2002.7,只有部分法定權(quán)限(一些固定的網(wǎng)絡(luò)文件) 2001.12,數(shù)據(jù)核查聯(lián)合會的確認(rèn)計劃被認(rèn)為違法。于是改計劃被叫停了。 2002.7,修改后的瑞典版權(quán)法,給予了瑞典皇家圖書館以收集本國網(wǎng)站和公開檔案庫的合法地位芬蘭 國際圖書館 使用了和瑞典類似的方案,最初只是負(fù)責(zé)本國范圍之內(nèi)。 具有收集數(shù)據(jù)資源的合法性和版權(quán) 使用芬蘭的來自NEDLIB的軟件收集數(shù)據(jù)。 檔案元數(shù)據(jù) 使用

7、MD5校驗和的方法控制復(fù)制,這種方法較為權(quán)威而且具有唯一的認(rèn)證碼 配合時間標(biāo)識作為一種挽救措施芬蘭現(xiàn)行的數(shù)據(jù)收集情況 2001-2002年度的數(shù)據(jù)采集始于2001.8止于2002.4從29,000,000個URL中收集了9,400,000個文件壓縮后的文件總計340G字節(jié)儲存在國際超級計算中心提供的介質(zhì)上硬件:SunE450服務(wù)器芬蘭現(xiàn)行的數(shù)據(jù)收集情況 項目的經(jīng)驗:“NEDLIB數(shù)據(jù)收集系統(tǒng)可以除了任何網(wǎng)絡(luò)空間(美國除外),配合完備的硬件,提供了足夠的儲存空間”(Juha Haleka,“Finish Team”項目的主持人)北歐網(wǎng)絡(luò)檔案庫 北歐國際圖書館聯(lián)合計劃 不取決于數(shù)據(jù)是用哪個軟件收集

8、的NEDLIB(芬蘭 挪威 丹麥)COMBINE(瑞典) 選擇挪威的搜索引擎(FAST) 軟件:從100種不同MIME轉(zhuǎn)換稱HTML格式識別大部分歐洲語言 預(yù)算:260,000歐元(AUS 475,000)相同的網(wǎng)頁(表層)芬蘭芬蘭丹麥丹麥1.500,000 HTML1000,000 GIF550,000 JPEG36,500 PDF11,800 plain text6,000 word 5,300 JAVAetc59.3%Text/HTML37.9%Image(GIF,JPEG,PNG)1.7%PDF1.1%其他格式英國 英國圖書館“Domain.uk” 計劃(始于2002) 選擇了100個

9、英國站點 給備選的站點發(fā)現(xiàn)以活得批準(zhǔn) 每3個星期重新訪問 使用“Bluesquirrel Web whacker”軟件 定期檢查鏈接、變化和丟失有意圖提高規(guī)模(2004 競標(biāo))英國 UKOLN 研究計劃“uk.domain”估計大小應(yīng)該有3,000,000個站點,24,000,000左右的網(wǎng)頁。 Wellcome Library和JISC正致力于尋找解決網(wǎng)絡(luò)數(shù)據(jù)存檔的出路。醫(yī)學(xué)網(wǎng)站2002.3提供咨詢,2002.10 完成數(shù)據(jù)2002.8 初步報告,最后報告會散布在整體里。德國 檔案庫(德國藏書)收集目標(biāo)資料的經(jīng)驗兩次不完全的快速掃描(2000.12,2000.2)法國 檔案庫(法國藏書) 2

10、001:進(jìn)行了兩次小規(guī)模嘗試,收集了16,000左右的音樂、視頻等多媒體站點。結(jié)果并不是令人滿意 一些非預(yù)期的特點 過大的站點正計劃用兩種不同的機器進(jìn)行一次新的更為可行的研究。2001.6修改了允許儲存的法律,但是扔未獲得國會通過。日本 國家議會圖書館 WARP(Web Archiving Program) 初步是實行選擇性獲得數(shù)據(jù) 日本版權(quán)法有了一些大的變化,有可能獲準(zhǔn)進(jìn)行一些更加深入的數(shù)據(jù)收集工作。國際檔案庫 1996年由Brewster Kahle以賣出WAIS獲得的15,000,000美元建立國際檔案庫。 非營利組織發(fā)起者包括:AT&T實驗室,Compaq,Xerox PARC,Quantum DLT,國家科學(xué)基金 1996年后開始?xì)w檔網(wǎng)頁,包括19031973的電影資料國際檔案庫 每兩個月完全掃描一次 機器排除,一些新聞、個人、照片。 完全拷貝了亞歷山大港的檔案庫 在不同的洲復(fù)制?!皬?fù)制是最好的保存方法” 版權(quán)?“也許這嚴(yán)重的侵害了合法的版權(quán)”(Lawrence Lessig,斯坦福的IP法和互聯(lián)網(wǎng)空間專家)國際檔案庫(“wayback machine”) 以收集和歸檔國際互聯(lián)網(wǎng)公共網(wǎng)頁為目標(biāo) 包括大部分的圖像數(shù)據(jù) 2001.10發(fā)部 對公眾完全開放 每天2萬用戶,每

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論