標(biāo)準(zhǔn)解讀

《GB/T 33994-2017 信息和文獻(xiàn) WARC文件格式》是中國(guó)國(guó)家標(biāo)準(zhǔn)之一,它規(guī)定了用于長(zhǎng)期保存網(wǎng)頁(yè)和其他數(shù)字資源的WARC(Web ARChive)文件格式。該標(biāo)準(zhǔn)主要參考國(guó)際互聯(lián)網(wǎng)檔案館提出的相關(guān)規(guī)范,并結(jié)合國(guó)內(nèi)實(shí)際情況進(jìn)行了適應(yīng)性調(diào)整,旨在為我國(guó)的信息資源長(zhǎng)期保存提供技術(shù)支持。

WARC文件格式是一種用于存儲(chǔ)網(wǎng)絡(luò)爬蟲(chóng)抓取結(jié)果或其他類型數(shù)字內(nèi)容的數(shù)據(jù)封裝格式。與早期使用的ARC文件格式相比,WARC增加了更多元化的記錄類型支持以及更豐富的元數(shù)據(jù)描述能力,能夠更好地滿足不同應(yīng)用場(chǎng)景下對(duì)數(shù)字資源歸檔的需求。

根據(jù)該標(biāo)準(zhǔn)定義,一個(gè)完整的WARC文件由一系列連續(xù)排列的WARC記錄組成,每個(gè)WARC記錄又包含了若干個(gè)部分:版本號(hào)、記錄頭、可選的內(nèi)容塊等。其中,記錄頭使用鍵值對(duì)形式來(lái)表示關(guān)于該條記錄的各種屬性信息;而內(nèi)容塊則用來(lái)存放實(shí)際捕獲到的數(shù)據(jù)內(nèi)容。此外,還允許在記錄之間插入填充字節(jié)以確保特定位置上的邊界對(duì)齊要求得到滿足。

對(duì)于每種類型的WARC記錄(如“響應(yīng)”、“請(qǐng)求”、“重定向”等),標(biāo)準(zhǔn)都給出了詳細(xì)的結(jié)構(gòu)說(shuō)明及示例,以便于開(kāi)發(fā)者理解和實(shí)現(xiàn)相應(yīng)的讀寫功能。同時(shí),為了保證WARC文件能夠在不同系統(tǒng)間進(jìn)行互操作,《GB/T 33994-2017》也明確了編碼規(guī)則、壓縮算法選擇等方面的指導(dǎo)原則。


如需獲取更多詳盡信息,請(qǐng)直接參考下方經(jīng)官方授權(quán)發(fā)布的權(quán)威標(biāo)準(zhǔn)文檔。

....

查看全部

  • 現(xiàn)行
  • 正在執(zhí)行有效
  • 2017-07-12 頒布
  • 2018-02-01 實(shí)施
?正版授權(quán)
GB/T 33994-2017信息和文獻(xiàn)WARC文件格式_第1頁(yè)
GB/T 33994-2017信息和文獻(xiàn)WARC文件格式_第2頁(yè)
GB/T 33994-2017信息和文獻(xiàn)WARC文件格式_第3頁(yè)
GB/T 33994-2017信息和文獻(xiàn)WARC文件格式_第4頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余28頁(yè)可下載查看

下載本文檔

GB/T 33994-2017信息和文獻(xiàn)WARC文件格式-免費(fèi)下載試讀頁(yè)

文檔簡(jiǎn)介

ICS3524030

A14..

中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)

GB/T33994—2017/ISO285002009

:

信息和文獻(xiàn)WARC文件格式

Informationanddocumentation—WARCfileformat

(ISO28500:2009,IDT)

2017-07-12發(fā)布2018-02-01實(shí)施

中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局發(fā)布

中國(guó)國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)

GB/T33994—2017/ISO285002009

:

前言

本標(biāo)準(zhǔn)按照給出的規(guī)則起草

GB/T1.1—2009。

本標(biāo)準(zhǔn)使用翻譯法等同采用信息和文獻(xiàn)文件格式

ISO28500:2009《WARC》。

與本標(biāo)準(zhǔn)中規(guī)范性引用的國(guó)際文件有一致性對(duì)應(yīng)關(guān)系的我國(guó)文件如下

:

數(shù)據(jù)元和交換格式信息交換日期和時(shí)間表示法

———GB/T7408—2005(ISO8601:2000,

IDT)。

本標(biāo)準(zhǔn)做了下列編輯性修改

:

增加了縮略語(yǔ)見(jiàn)

———:LWS、MIME、US-ASCII(3.2);

為了增強(qiáng)易讀性在保留國(guó)際標(biāo)準(zhǔn)中示例的基礎(chǔ)上將部分示例替換為國(guó)內(nèi)示例見(jiàn)附錄

———,,(B)。

本標(biāo)準(zhǔn)由全國(guó)信息與文獻(xiàn)標(biāo)準(zhǔn)化技術(shù)委員會(huì)提出并歸口

(SAC/TC4)。

本標(biāo)準(zhǔn)起草單位國(guó)家圖書(shū)館中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心中國(guó)國(guó)防科技信息中心中國(guó)科技信息研

:、、、

究所北京萬(wàn)方數(shù)據(jù)股份有限公司

、。

本標(biāo)準(zhǔn)主要起草人毛雅君李春明吳振新真溱曲云鵬張曉丹張?zhí)m楊賀敦文杰張彪

:、、、、、、、、、。

GB/T33994—2017/ISO285002009

:

引言

每天網(wǎng)站和網(wǎng)頁(yè)從互聯(lián)網(wǎng)上產(chǎn)生或消失十多年來(lái)記憶存儲(chǔ)組織嘗試用網(wǎng)絡(luò)規(guī)模工具如網(wǎng)絡(luò)

,。,(

爬蟲(chóng)尋找最適宜采集并跟蹤記錄海量的重要信息的方法與此同時(shí)記憶存儲(chǔ)組織對(duì)保存非網(wǎng)絡(luò)抓取

)。,

的數(shù)字化資源的需求也與日俱增如整套電子期刊或環(huán)境感應(yīng)設(shè)備生成的數(shù)據(jù)出現(xiàn)了一種需求即

(,)。,

希望能有一種文件格式通過(guò)一個(gè)文件簡(jiǎn)單并安全地承載大量組成文件的數(shù)據(jù)對(duì)象以便進(jìn)行存儲(chǔ)管

,,、

理和交換

。

網(wǎng)絡(luò)存檔文件格式提供了一個(gè)由多個(gè)資源記錄數(shù)據(jù)對(duì)象連接成一個(gè)長(zhǎng)

WARC(WebARChive,)()

文件的協(xié)議其中每個(gè)資源記錄由一組簡(jiǎn)單文本標(biāo)頭和任意數(shù)據(jù)內(nèi)容塊構(gòu)成格式是文

,。WARCARC

件格式的擴(kuò)展格式將作為組織管理和儲(chǔ)存采集來(lái)自網(wǎng)絡(luò)和其他數(shù)以億計(jì)的數(shù)字資源的一種

。WARC、

標(biāo)準(zhǔn)可用于構(gòu)建收割如網(wǎng)絡(luò)爬蟲(chóng)一種開(kāi)源軟件管理訪問(wèn)和交換內(nèi)容等各種應(yīng)用

,(Heritrix,)、、。

除了用記錄的原始內(nèi)容外擴(kuò)展的格式還容納相關(guān)的二次級(jí)內(nèi)容如分配的元數(shù)據(jù)

ARC,WARC,、

縮減的重復(fù)檢測(cè)活動(dòng)后期轉(zhuǎn)換及大型資源的切分等

、。

GB/T33994—2017/ISO285002009

:

信息和文獻(xiàn)WARC文件格式

1范圍

本標(biāo)準(zhǔn)規(guī)定了文件格式

WARC:

存儲(chǔ)來(lái)自于主流互聯(lián)網(wǎng)應(yīng)用層協(xié)議如和的有效載荷內(nèi)容和控制信息

———(HTTP、DNSFTP);

存儲(chǔ)與其他已存儲(chǔ)數(shù)據(jù)如主題分類語(yǔ)言編碼相關(guān)的任意元數(shù)據(jù)

———(、、);

支持?jǐn)?shù)據(jù)壓縮且保證數(shù)據(jù)記錄的完整性

———,;

存儲(chǔ)來(lái)自收割協(xié)議的全部控制信息如請(qǐng)求標(biāo)頭信息而不僅僅是響應(yīng)信息

———(),;

存儲(chǔ)與其他已存儲(chǔ)數(shù)據(jù)相關(guān)的數(shù)據(jù)轉(zhuǎn)換結(jié)果

———;

存儲(chǔ)與其他已存儲(chǔ)數(shù)據(jù)相關(guān)的重復(fù)監(jiān)測(cè)活動(dòng)當(dāng)相同或者大體相似的資源出現(xiàn)時(shí)可以減少存

———(,

儲(chǔ)消耗

);

在不中斷當(dāng)前功能的情況下進(jìn)行擴(kuò)展

———;

支持對(duì)超長(zhǎng)記錄在所需處進(jìn)行截?cái)嗷蚍侄尾僮?/p>

———。

2規(guī)范性引用文件

下列文件對(duì)于本文件的應(yīng)用是必不可少的凡是注日期的引用文件僅注日期的版本適用于本文

。,

件凡是不注日期的引用文件其最新版本包括所有的修改單適用于本文件

。,()。

數(shù)據(jù)元和交換格式信息交換日期和時(shí)間表示法

ISO8601(Dataelementsandinterchange

formats—Informationinterchange—Representationofdatesandtimes)

域名實(shí)現(xiàn)及標(biāo)準(zhǔn)

RFC1035(Domainnames—Implementationandspecification)

地址架構(gòu)

RFC1884IPV6(IPVersion6AddressingArchitecture)

多用途互聯(lián)網(wǎng)郵件擴(kuò)展第部分互聯(lián)網(wǎng)消息正文的格式

RFC2045(MIME)1:[Multipurpose

InternetMailExtensions(MIME)PartOne:FormatofInternetMessageBodies]

分離域名解析系統(tǒng)信息

RFC2540(DNS)[DetachedDomainNameSystem(DNS)Information]

超文本傳輸協(xié)議

RFC2616—HTTP/1.1(HypertextTransferProtocol—HTTP/1.1)

互聯(lián)網(wǎng)消息格式

RFC2822(InternetMessageFormat)

的一種轉(zhuǎn)換格式

RFC3629UTF-8———ISO10646(UTF-8,atransformationformatofISO10646)

溫馨提示

  • 1. 本站所提供的標(biāo)準(zhǔn)文本僅供個(gè)人學(xué)習(xí)、研究之用,未經(jīng)授權(quán),嚴(yán)禁復(fù)制、發(fā)行、匯編、翻譯或網(wǎng)絡(luò)傳播等,侵權(quán)必究。
  • 2. 本站所提供的標(biāo)準(zhǔn)均為PDF格式電子版文本(可閱讀打?。?,因數(shù)字商品的特殊性,一經(jīng)售出,不提供退換貨服務(wù)。
  • 3. 標(biāo)準(zhǔn)文檔要求電子版與印刷版保持一致,所以下載的文檔中可能包含空白頁(yè),非文檔質(zhì)量問(wèn)題。

評(píng)論

0/150

提交評(píng)論