版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)與檔案管理上海大學(xué)圖書情報(bào)檔案系2013年12月《大數(shù)據(jù)與檔案管理》1.大數(shù)據(jù)概述1.大數(shù)據(jù)概述除了上帝
任何人都必須用數(shù)據(jù)來說話除了上帝
任何人都必須用數(shù)據(jù)來說話1.1大數(shù)據(jù)的定義大數(shù)據(jù)是指其大小超出了典型數(shù)據(jù)庫軟件的采集、存儲(chǔ)、管理和分析等能力的數(shù)據(jù)集。
——麥肯錫研究院(MGI)大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。——高德納(GartnerGroup)大數(shù)據(jù)指的是如此大而復(fù)雜以致現(xiàn)有的數(shù)據(jù)管理工具或傳統(tǒng)數(shù)據(jù)處理手段無法處理的數(shù)據(jù)集?!S基百科(Wikipedia)1.1大數(shù)據(jù)的定義康奈爾大學(xué)計(jì)算機(jī)科學(xué)家JonKleinberg稱,“大數(shù)據(jù)這個(gè)術(shù)語本身很模糊,但在某些方面卻又非常具體,大數(shù)據(jù)是可能改造一切的一種過程的標(biāo)簽”。對(duì)于處在探索期的大數(shù)據(jù)研究來說,與其準(zhǔn)確地予以限定性分析,倒不如更多地將精力放在對(duì)其特征、內(nèi)涵的探尋和運(yùn)用的研究之中。從研究者角度而言,與其尋找一個(gè)公認(rèn)的定義,倒不如去分析這樣的問題:當(dāng)大數(shù)據(jù)來臨時(shí),就某一具體的業(yè)務(wù)(如數(shù)字檔案館、電子文件等)而言,我們是否可以富有想象力地回答,大數(shù)據(jù)究竟會(huì)對(duì)某一特定領(lǐng)域帶來何種影響,以及人們面對(duì)這些影響所獲得的機(jī)遇是什么?這才是我們跨學(xué)科研究的旨義所在,而這無疑具有更加重要的意義?!洞髷?shù)據(jù)與檔案管理》1.2大數(shù)據(jù)的特征(4V)1.2大數(shù)據(jù)的特征(4V)大量(Volume)數(shù)據(jù)中的數(shù)據(jù)不再以幾個(gè)GB或幾個(gè)TB來衡量,而是以PB(1千個(gè)T)、EB(1百萬個(gè)T)或ZB(10億個(gè)T)為計(jì)量單位。IDC2011年6月報(bào)告顯示,全球數(shù)據(jù)量在2011年已達(dá)到1.8ZB,“如果把所有這些數(shù)據(jù)都刻錄存入普通DVD光盤里,光盤的高度將等同于從地球到月球一個(gè)半來回,也就是720000英里。相當(dāng)于每位美國人每分鐘寫3條Twitter,而且還要不停地寫2.6976萬年”。大量(Volume)速度(Velocity)大數(shù)據(jù)往往以高速實(shí)時(shí)數(shù)據(jù)流的形式動(dòng)態(tài)產(chǎn)生,具有很強(qiáng)的時(shí)效性。2010年,據(jù)英國研究咨詢公司Coda預(yù)測(cè),移動(dòng)網(wǎng)絡(luò)數(shù)據(jù)流量在未來五年有望增長40倍,用戶上傳的內(nèi)容將爆發(fā)式增長。對(duì)大數(shù)據(jù)的處理速度要非常快。傳統(tǒng)數(shù)據(jù)倉庫系統(tǒng)、BI應(yīng)用都是批處理方式,但對(duì)于大數(shù)據(jù)應(yīng)用,必須進(jìn)行實(shí)時(shí)數(shù)據(jù)流處理。比如對(duì)于災(zāi)難的預(yù)測(cè),需要很快地對(duì)發(fā)生的程度、影響的區(qū)域范圍等進(jìn)行量化。速度(Velocity)多樣(Variety)一是數(shù)據(jù)來源多,隨著科技的發(fā)展,大數(shù)據(jù)數(shù)據(jù)來源和承載方式多種多樣,如微博、社交網(wǎng)站、傳感器等,數(shù)據(jù)處于分散狀態(tài)。二是數(shù)據(jù)類型多,包括結(jié)構(gòu)化數(shù)據(jù)(如企業(yè)、行業(yè)內(nèi)數(shù)據(jù))、半結(jié)構(gòu)化數(shù)據(jù)(物聯(lián)網(wǎng)數(shù)據(jù))、非結(jié)構(gòu)化數(shù)據(jù)(互聯(lián)網(wǎng)數(shù)據(jù)),并且據(jù)Gartner預(yù)計(jì),2012年“半結(jié)構(gòu)和非結(jié)構(gòu)化的數(shù)據(jù),諸如文檔、表格、網(wǎng)頁、音頻、圖像和視頻等將占全球網(wǎng)絡(luò)數(shù)據(jù)量的85%左右”。多樣(Variety)價(jià)值(Value)由于大量有用與可能沒用的數(shù)據(jù)并存,因此大數(shù)據(jù)可謂是“遍地都是金子,又遍地都是沙子”。一方面,大數(shù)據(jù)的價(jià)值密度較低,以視頻監(jiān)控為例,在連續(xù)不斷的監(jiān)控流中,可能僅有一兩秒的影像是有用的數(shù)據(jù)。另一方面,雖然單條數(shù)據(jù)并無多大價(jià)值,但龐大的數(shù)據(jù)量則是一座“富礦”,將已有的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行融合、分析后,將會(huì)從中挖掘出極高的價(jià)值。特別是競(jìng)爭(zhēng)激烈的商業(yè)領(lǐng)域,數(shù)據(jù)正成為企業(yè)的新型資產(chǎn),企業(yè)都在追求數(shù)據(jù)價(jià)值的最大化。價(jià)值(Value)1.3大數(shù)據(jù)的認(rèn)識(shí)誤區(qū)大數(shù)據(jù)之大并不僅僅指容量在大數(shù)據(jù)的認(rèn)識(shí)上,很多人存在這么一個(gè)誤區(qū):只有幾百TB乃至PB的數(shù)據(jù)才能稱之為大數(shù)據(jù)。事實(shí)上,“大數(shù)據(jù)并非總是說有數(shù)百個(gè)TB才算得上,根據(jù)實(shí)際使用情況,有時(shí)候數(shù)百個(gè)GB的數(shù)據(jù)也可稱為大數(shù)據(jù),這主要看它的第三個(gè)維度,也就是速度或時(shí)間維度”。事實(shí)上,解決一個(gè)問題的數(shù)據(jù)規(guī)模有一個(gè)閾值?!皵?shù)據(jù)少于這個(gè)閾值,問題解決不了;達(dá)到這個(gè)閾值,就可以解決以前解決不了的大問題;而數(shù)據(jù)規(guī)模超過這個(gè)閾值,對(duì)解決問題也沒有更多的幫助”。1.3大數(shù)據(jù)的認(rèn)識(shí)誤區(qū)大數(shù)據(jù)之大并不僅僅指容量今天的大數(shù)據(jù)將不再是明天的大數(shù)據(jù)當(dāng)前,大數(shù)據(jù)的定義是相對(duì)于目前的技術(shù)和資源而言的,隨著時(shí)間的推移,處理數(shù)據(jù)的工具和技術(shù)、原始存儲(chǔ)空間和處理能力的提升,大數(shù)據(jù)的界定也必然會(huì)發(fā)生變化。今天的大數(shù)據(jù)明天可能不再被認(rèn)為是大數(shù)據(jù),就像10年前的大數(shù)據(jù)在如今看來什么都不是一樣,大數(shù)據(jù)會(huì)繼續(xù)演進(jìn)下去。如今,在數(shù)據(jù)容量、速度、多樣性、復(fù)雜度等方面被認(rèn)為是不可能的或無法想象的事情、幾年過后情況會(huì)完全不同,這是一個(gè)多年不變的定律,在大數(shù)據(jù)時(shí)代也同樣適用。今天的大數(shù)據(jù)將不再是明天的大數(shù)據(jù)大數(shù)據(jù)的價(jià)值在于分析與應(yīng)用很多人認(rèn)為,正是由于大數(shù)據(jù)的大容量、高速和多樣性,才使得他們比其他數(shù)據(jù)更具有優(yōu)勢(shì)且更重要。然而,“大”和“數(shù)據(jù)”都不是大數(shù)據(jù)中最重要的。事實(shí)上,擁有任何一個(gè)數(shù)據(jù)集,無論它們多大或者多小,其自身都不會(huì)帶來任何價(jià)值。被收集來的數(shù)據(jù)如果從不使用,不會(huì)比存放在閣樓或地下室的垃圾更有價(jià)值。大數(shù)據(jù)的價(jià)值體現(xiàn)在如何分析它們,并采取怎樣的措施來提升本身的業(yè)務(wù)水平。換言之,數(shù)據(jù)即服務(wù)。大數(shù)據(jù)的價(jià)值在于分析與應(yīng)用大數(shù)據(jù)是一種服務(wù)變革本質(zhì)而言,大數(shù)據(jù)是信息爆炸時(shí)代對(duì)數(shù)據(jù)核心價(jià)值的再挖掘,其中綜合運(yùn)用到去冗降噪技術(shù)、語義引擎、可視化分析等,因此被很多專業(yè)人士認(rèn)為是繼云計(jì)算、物聯(lián)網(wǎng)之后IT行業(yè)的又一次顛覆性變革。事實(shí)上,大數(shù)據(jù)“不僅僅是技術(shù)變革,更實(shí)質(zhì)上的是計(jì)算機(jī)服務(wù)時(shí)代的來臨,對(duì)數(shù)據(jù)的抽絲剝繭、總結(jié)結(jié)論更體現(xiàn)了計(jì)算機(jī)行業(yè)正從技術(shù)供應(yīng)型轉(zhuǎn)為服務(wù)供應(yīng)。大數(shù)據(jù)是一種服務(wù)變革1.4大數(shù)據(jù)與云計(jì)算、數(shù)據(jù)挖掘的區(qū)別首先,本質(zhì)上,云計(jì)算改變了IT,而大數(shù)據(jù)則改變了業(yè)務(wù)。云計(jì)算的目的是通過互聯(lián)網(wǎng)更好地調(diào)用、擴(kuò)展和管理計(jì)算及存儲(chǔ)資源和能力,因而從根本上改變了單位的IT架構(gòu)。大數(shù)據(jù)使得企業(yè)從“業(yè)務(wù)驅(qū)動(dòng)”轉(zhuǎn)變?yōu)椤皵?shù)據(jù)驅(qū)動(dòng)”,從而改變了企業(yè)的業(yè)務(wù)架構(gòu)。其次,云計(jì)算與大數(shù)據(jù)的目標(biāo)受眾不同。云計(jì)算的主要推動(dòng)力量是存儲(chǔ)及計(jì)算設(shè)備的生產(chǎn)廠商和擁有計(jì)算及存儲(chǔ)資源的企業(yè),因此云計(jì)算是賣給CIO的技術(shù)和產(chǎn)品,是一個(gè)進(jìn)階的IT解決方案。大數(shù)據(jù)的直接受益者不是IT部門,而是業(yè)務(wù)部門,產(chǎn)業(yè)發(fā)展的主要推動(dòng)力量是從事數(shù)據(jù)存儲(chǔ)于處理的軟件廠商和擁有大量數(shù)據(jù)的企業(yè),因此是賣給CEO、業(yè)務(wù)層的產(chǎn)品。1.4大數(shù)據(jù)與云計(jì)算、數(shù)據(jù)挖掘的區(qū)別首先,本質(zhì)上,云計(jì)算改《大數(shù)據(jù)與檔案管理》換言之,云計(jì)算與大數(shù)據(jù)實(shí)際上是工具和用途的關(guān)系。云計(jì)算為大數(shù)據(jù)提供強(qiáng)大的存儲(chǔ)和計(jì)算能力,更加迅速地處理大數(shù)據(jù)的豐富信息,并更方面的提供服務(wù);來自大數(shù)據(jù)的業(yè)務(wù)需求,能為云計(jì)算的落地找到更多更好的實(shí)際應(yīng)用。如果說云計(jì)算為數(shù)據(jù)資產(chǎn)提供了保管、訪問的場(chǎng)所和渠道,那么如何盤活數(shù)據(jù)資產(chǎn),使其為國家治理、企業(yè)決策乃至個(gè)人生活服務(wù),則是大數(shù)據(jù)的核心議題。換言之,云計(jì)算與大數(shù)據(jù)實(shí)際上是工具和用途的關(guān)系。云計(jì)算為大數(shù)總之,大數(shù)據(jù)處理會(huì)利用到云計(jì)算領(lǐng)域的很多技術(shù),但大數(shù)據(jù)并非完全依賴于云計(jì)算;反過來,云計(jì)算之上也并非只有大數(shù)據(jù)這一種應(yīng)用,“云計(jì)算和大數(shù)據(jù)共同引領(lǐng)以數(shù)據(jù)為原料,計(jì)算為能源的又一次生產(chǎn)力的大解放,甚至可以與以蒸汽機(jī)的使用和電氣的使用為代表的第一次工業(yè)革命和第二次工業(yè)革命相媲美”??傊?,大數(shù)據(jù)處理會(huì)利用到云計(jì)算領(lǐng)域的很多技術(shù),但大數(shù)據(jù)并非完首先在數(shù)據(jù)量上,傳統(tǒng)的數(shù)據(jù)挖掘通常是存儲(chǔ)在數(shù)據(jù)庫或者文件中的數(shù)據(jù),數(shù)據(jù)量相對(duì)較小,一般為TB級(jí)以下,大數(shù)據(jù)技術(shù)能實(shí)現(xiàn)對(duì)PB量級(jí)數(shù)據(jù)的處理,因此,大數(shù)據(jù)時(shí)代將實(shí)現(xiàn)從樣本數(shù)據(jù)到全體數(shù)據(jù)處理的轉(zhuǎn)變。其次,在數(shù)據(jù)特性上,傳統(tǒng)的數(shù)據(jù)挖掘一般只能對(duì)結(jié)構(gòu)化信息進(jìn)行處理,處理的信息大多是非實(shí)時(shí)信息,大數(shù)據(jù)技術(shù)能夠?qū)崿F(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化特別是非結(jié)構(gòu)化信息的處理,處理的信息大多是實(shí)時(shí)信息。最后,兩者的分析手段與方法也有差別,傳統(tǒng)數(shù)據(jù)挖掘的主要算法以統(tǒng)計(jì)學(xué)為基礎(chǔ),分類和預(yù)測(cè)是兩種常見的數(shù)據(jù)分析形式,主要包括探索性數(shù)據(jù)分析(ExploratoryDataAnalysis,EDA)和驗(yàn)證性數(shù)據(jù)分析(ConfirmatoryDataAnalysis,CDA),而大數(shù)據(jù)挖掘不僅僅需要統(tǒng)計(jì)學(xué)方法,還大量使用了機(jī)器學(xué)習(xí)、人工智能、知識(shí)圖譜等算法。大數(shù)據(jù)與數(shù)據(jù)挖掘首先在數(shù)據(jù)量上,傳統(tǒng)的數(shù)據(jù)挖掘通常是存儲(chǔ)在數(shù)據(jù)庫或者文件中的大數(shù)據(jù)時(shí)代的來臨,標(biāo)志著傳統(tǒng)數(shù)據(jù)挖掘方法已經(jīng)不再適應(yīng)日新月異的數(shù)據(jù)環(huán)境,在數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析以及可視化等諸多方面捉襟見肘。當(dāng)然,大數(shù)據(jù)這一概念之所以能夠引發(fā)共識(shí)成為當(dāng)前熱點(diǎn),最為重要的是,各個(gè)行業(yè)領(lǐng)域具有了對(duì)大數(shù)據(jù)分析和利用的巨大現(xiàn)實(shí)需求和具體應(yīng)用需求。顯然,這些都不是傳統(tǒng)數(shù)據(jù)挖掘所能解決的,而這也正是是眾多IT企業(yè)將大數(shù)據(jù)定義為現(xiàn)有處理工具或手段無法處理的數(shù)據(jù)集的原因所在。大數(shù)據(jù)時(shí)代的來臨,標(biāo)志著傳統(tǒng)數(shù)據(jù)挖掘方法已經(jīng)不再適應(yīng)日新月異1.5大數(shù)據(jù)應(yīng)用1.5大數(shù)據(jù)應(yīng)用大數(shù)據(jù)在商業(yè)中的應(yīng)用大數(shù)據(jù)就像貨幣或黃金一樣,是一種新型的經(jīng)濟(jì)資產(chǎn)?!?012.1達(dá)沃斯世界經(jīng)濟(jì)論壇《大數(shù)據(jù),大影響》大數(shù)據(jù)在商業(yè)中的應(yīng)用大數(shù)據(jù)就像貨幣或黃金一樣,是一種新型的經(jīng)大數(shù)據(jù)在社會(huì)管理中的應(yīng)用大數(shù)據(jù)在社會(huì)管理中的應(yīng)用“Google登革熱趨勢(shì)”,利用搜索數(shù)據(jù)近乎實(shí)時(shí)地估計(jì)登革熱在全球的傳播情況。(藍(lán)色——該系統(tǒng)估計(jì)數(shù)據(jù);橙色——巴西官方統(tǒng)計(jì)數(shù)據(jù))“Google登革熱趨勢(shì)”,利用搜索數(shù)據(jù)近乎實(shí)時(shí)地估計(jì)登革熱美國流感傳染率的官方數(shù)據(jù)與基于Twitter的數(shù)據(jù)比較美國流感傳染率的官方數(shù)據(jù)與基于Twitter的數(shù)據(jù)比較1.6大數(shù)據(jù)發(fā)展(宏觀)1.6大數(shù)據(jù)發(fā)展(宏觀)在大數(shù)據(jù)發(fā)展上,美國是第一個(gè)吃“螃蟹”的國家。美國的大數(shù)據(jù)計(jì)劃萌芽于“數(shù)據(jù)開放運(yùn)動(dòng)”,2009年5月21日,Data.Gov上線發(fā)布,在其目標(biāo)和使命陳述中指出,Data.Gov的主要目標(biāo)是“開放聯(lián)邦政府的數(shù)據(jù),通過鼓勵(lì)新的創(chuàng)意,讓數(shù)據(jù)走出政府、得到更多的創(chuàng)新型運(yùn)用。Data.Gov致力于政府透明,全力把政府推向一個(gè)前所未有的開放高度。它帶來的開放將鞏固我們國家的民主,提高政府的效率和效能”。美國在大數(shù)據(jù)發(fā)展上,美國是第一個(gè)吃“螃蟹”的國家。美國的大數(shù)據(jù)計(jì)《大數(shù)據(jù)與檔案管理》2012年3月29日,奧巴馬政府發(fā)布《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,旨在提高從海量、復(fù)雜的數(shù)據(jù)中獲取真知灼見的能力,加速在科學(xué)與工程領(lǐng)域創(chuàng)新步伐,增強(qiáng)國家安全,轉(zhuǎn)變教育和學(xué)習(xí)模式。根據(jù)這個(gè)計(jì)劃,美國政府將開發(fā)及加強(qiáng)大數(shù)據(jù)系統(tǒng),使之能夠進(jìn)行數(shù)據(jù)采集、保留、存儲(chǔ)、管理、分析,以及分發(fā)大數(shù)據(jù)分析的結(jié)論。對(duì)此,奧巴馬政府組建了“大數(shù)據(jù)高級(jí)指導(dǎo)小組”,以協(xié)調(diào)政府在大數(shù)據(jù)領(lǐng)域的兩億多美元投資。此舉標(biāo)志著,美國把應(yīng)對(duì)大數(shù)據(jù)技術(shù)革命帶來的機(jī)遇和挑戰(zhàn),上升到國家戰(zhàn)略層面,形成了全體動(dòng)員格局。2012年3月29日,奧巴馬政府發(fā)布《大數(shù)據(jù)研究和發(fā)展計(jì)劃》《大數(shù)據(jù)與檔案管理》2010年1月,英國政府的數(shù)據(jù)開放網(wǎng)站正式出臺(tái):Data.Gov.uk。除去地理信息之外,該網(wǎng)站公布了3000多項(xiàng)民生數(shù)據(jù)。而這個(gè)時(shí)候,美國的D雖然已經(jīng)運(yùn)營了半年多,卻還僅僅只有1000多項(xiàng)民生數(shù)據(jù)。2010年5月,戴維.卡梅倫出任首相后,提出了“數(shù)據(jù)權(quán)”(RighttoData)的概念,指出“數(shù)據(jù)權(quán)”是信息時(shí)代每一個(gè)公民都擁有的一項(xiàng)基本權(quán)利,并承諾要在全社會(huì)普及“數(shù)據(jù)權(quán)”。2012年11月,英國政府發(fā)布新的政府?dāng)?shù)字化戰(zhàn)略,旨在使政府服務(wù)實(shí)現(xiàn)“默認(rèn)數(shù)字化”,承諾2015年前開放有關(guān)交通運(yùn)輸、天氣和健康方面的核心公共數(shù)據(jù)庫,并投資1000萬英鎊建立世界上首個(gè)“開放數(shù)據(jù)研究所”(OpenDataInstitute)。英國2010年1月,英國政府的數(shù)據(jù)開放網(wǎng)站正式出臺(tái):Data.G2013年6月,日本公布了新的IT戰(zhàn)略——?jiǎng)?chuàng)建最尖端IT國家宣言,全面闡述了2013-2020年期間以發(fā)展開放公共數(shù)據(jù)和大數(shù)據(jù)為核心的日本新IT國家戰(zhàn)略。值得注意的是,在日本的大數(shù)據(jù)產(chǎn)業(yè)發(fā)展中,很多專業(yè)人士提出“在進(jìn)一步充分利用匿名化技術(shù),制定合理、活用的大數(shù)據(jù)規(guī)則”的前提下,要修改并進(jìn)一步完善個(gè)人信息保護(hù)法規(guī)。2013年8月,澳大利亞政府信息管理辦公室(AGIMO)發(fā)布了《公共服務(wù)大數(shù)據(jù)戰(zhàn)略》,該戰(zhàn)略以六條“大數(shù)據(jù)原則”(數(shù)據(jù)屬國有資產(chǎn);從設(shè)計(jì)著手保護(hù)隱私;數(shù)據(jù)完整性與程序透明度;技巧、資源共享;與業(yè)界和學(xué)界合作;強(qiáng)化開放數(shù)據(jù))為支撐,旨在推動(dòng)公共行業(yè)利用大數(shù)據(jù)分析進(jìn)行服務(wù)改革,制定更好的公共政策,保護(hù)公民隱私,使澳大利亞在該領(lǐng)域躋身全球領(lǐng)先水平。日本、澳大利亞2013年6月,日本公布了新的IT戰(zhàn)略——?jiǎng)?chuàng)建最尖端IT國家我國的大數(shù)據(jù)戰(zhàn)略(國家層面)2013.2,國務(wù)院《關(guān)于推進(jìn)物聯(lián)網(wǎng)有序健康發(fā)展的指導(dǎo)意見》發(fā)布,提出要“加快傳感器網(wǎng)絡(luò)、智能終端、大數(shù)據(jù)處理、智能分析、服務(wù)集成等關(guān)鍵技術(shù)研發(fā)創(chuàng)新”。2012.3.29(與美國大數(shù)據(jù)計(jì)劃同日),我國科技部發(fā)布“‘十二五’國家科技計(jì)劃信息技術(shù)領(lǐng)域2013年度備選項(xiàng)目征集指南”,將大數(shù)據(jù)研究列在首位。2011.11,工業(yè)和信息化部發(fā)布的《物聯(lián)網(wǎng)“十二五”發(fā)展規(guī)劃》發(fā)展規(guī)劃中,把信息處理技術(shù)作為4項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程之一被提出,其中包括了海量數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分。此外,2013年兩會(huì)期間,有人大代表建議把大數(shù)據(jù)上升為國家戰(zhàn)略。我國的大數(shù)據(jù)戰(zhàn)略(國家層面)2012.11,廣東省頒布了《廣東省實(shí)施大數(shù)據(jù)戰(zhàn)略工作方案》,率先啟動(dòng)了大數(shù)據(jù)戰(zhàn)略,擬在財(cái)政、環(huán)保、招投標(biāo)等領(lǐng)域率先開展數(shù)據(jù)公開試點(diǎn),逐步推進(jìn),通過互聯(lián)網(wǎng)等形式發(fā)布并公開數(shù)據(jù)。2013.7月,上海市政府有關(guān)部門發(fā)布了《推進(jìn)大數(shù)據(jù)研究與發(fā)展三年行動(dòng)計(jì)劃(2013一2015年)》,將重點(diǎn)選取金融證券、互聯(lián)網(wǎng)、數(shù)字生活、公共設(shè)施、制造和電力等具有迫切需求的行業(yè),開展大數(shù)據(jù)行業(yè)應(yīng)用研發(fā),探索“數(shù)據(jù)、平臺(tái)、應(yīng)用、終端”四位一體的新型商業(yè)模式,促進(jìn)產(chǎn)業(yè)發(fā)展。2013.8月,重慶市政府印發(fā)《重慶市大數(shù)據(jù)行動(dòng)計(jì)劃》,明確提出將搶抓全球大數(shù)據(jù)戰(zhàn)略資源,將大數(shù)據(jù)產(chǎn)業(yè)培育成全市重要的戰(zhàn)略性新興產(chǎn)業(yè)。我國的大數(shù)據(jù)戰(zhàn)略(地方層面)2012.11,廣東省頒布了《廣東省實(shí)施大數(shù)據(jù)戰(zhàn)略工作方案》我們的確正在起航,在龐大的新數(shù)據(jù)來源的支持下,量化的前進(jìn)步伐將會(huì)踏遍學(xué)術(shù)、商業(yè)和政府領(lǐng)域,沒有一個(gè)領(lǐng)域可以不被觸及?!鸫髮W(xué)量化社會(huì)科學(xué)研究所主任GaryKing大數(shù)據(jù)正構(gòu)成我們明天的新大陸,從2012年開始,我們將從大陸時(shí)代,移民進(jìn)入大數(shù)據(jù)時(shí)代?!袊缈圃盒畔⒒芯恐行拿貢L、《互聯(lián)網(wǎng)周刊》主編姜奇平一個(gè)檔案工作者應(yīng)是首先想到未來的人。——國際檔案理事會(huì)主席馬丁.博倫斯2.大數(shù)據(jù)時(shí)代的檔案館我們的確正在起航,在龐大的新數(shù)據(jù)來源的支持下,量化的前進(jìn)步伐對(duì)于數(shù)據(jù)的理解,首先源于數(shù)據(jù)一種資源。大數(shù)據(jù)時(shí)代,數(shù)據(jù)的資源特性更加明顯,成為一種“戰(zhàn)略性原料”,奧巴馬則將數(shù)據(jù)定義為“未來的石油”,是與陸權(quán)、海權(quán)、空權(quán)同等重要的“國家核心資產(chǎn)”。從資源語境去理解大數(shù)據(jù)時(shí)代的檔案館,具有兩層含義:2.1資源維度對(duì)于數(shù)據(jù)的理解,首先源于數(shù)據(jù)一種資源。大數(shù)據(jù)時(shí)代,數(shù)據(jù)的資源(1)檔案館數(shù)據(jù)資源總量龐大且增長迅速。
2008年我國各級(jí)國家檔案館共保存檔案1.93億卷,較上年增加1769萬卷,增幅達(dá)10%,而到2011年各級(jí)國家檔案館館藏已達(dá)3.3億卷,到2020年,各級(jí)國家檔案館館藏將達(dá)到6億多卷。2012年底,北京市和各區(qū)縣檔案館共完成紙質(zhì)檔案數(shù)字化8759.5頁,接收電子檔案48TB,市檔案館已完成紙質(zhì)檔案數(shù)字化4397萬頁,占館藏的63%。上海17區(qū)縣檔案館檔案數(shù)字化共超過3.6億頁,占館藏50%以上,部分區(qū)縣達(dá)90%以上。2009年底,ERA接收的電子文件實(shí)際總量已達(dá)到77TB,此后平均每季度至少采集10TB的電子文件,2011年3月達(dá)到了108.2TB,2011年底達(dá)到124TB。2.1.1檔案館具有“大數(shù)據(jù)”的特征(1)檔案館數(shù)據(jù)資源總量龐大且增長迅速。2
(2)檔案館數(shù)據(jù)資源種類繁雜,結(jié)構(gòu)多樣在檔案館的數(shù)據(jù)資源中,既有數(shù)字化的紙質(zhì)檔案、接收進(jìn)館的電子文件、音視頻數(shù)據(jù)庫等,也有用戶利用信息、服務(wù)數(shù)據(jù)等數(shù)據(jù)資源,這些數(shù)據(jù)資源分布在不同的系統(tǒng)中,格式、特征等形式多樣,組織方式各異,而各館之間更是差異明顯,從而形成了大量的異構(gòu)數(shù)據(jù)。
(3)檔案館數(shù)據(jù)資源價(jià)值豐裕度、凝聚度很高
作為國家和社會(huì)精心保存的歷史記錄,毫無疑問,檔案這種數(shù)據(jù)資源具有很高的價(jià)值。與絕大部分?jǐn)?shù)據(jù)資源“價(jià)值總量高、價(jià)值密度低”的特性相比,“檔案是一種最真實(shí)、最可靠、最具權(quán)威性與憑證性的原生信息資源”,可以說是整個(gè)社會(huì)數(shù)據(jù)資源中最為精華的部分。(2)檔案館數(shù)據(jù)資源種類繁雜,結(jié)構(gòu)多樣毫無疑問,檔案館是社會(huì)信息家族的“大戶”,也具備大數(shù)據(jù)的特征。然而,大數(shù)據(jù)時(shí)代背景下,社會(huì)需要一個(gè)什么樣的檔案館,是無所作為從而在大數(shù)據(jù)時(shí)代進(jìn)一步邊緣化,抑或借助大數(shù)據(jù)重新回到“上帝”身邊?檔案館又需要怎樣的“大數(shù)據(jù)”,是固守以前檔案資源建設(shè)的老路,還是樹立大數(shù)據(jù)觀從而更好地契合時(shí)代脈搏?這需要檔案館重新審視自己的目標(biāo)定位。2.1.2大數(shù)據(jù)視閾的數(shù)字記憶資源庫毫無疑問,檔案館是社會(huì)信息家族的“大戶”,顯然,作為社會(huì)記憶的建構(gòu)者與保存者,大數(shù)據(jù)時(shí)代,數(shù)字記憶的保存應(yīng)是檔案館的社會(huì)自覺與文化擔(dān)當(dāng),構(gòu)建一個(gè)“基于互聯(lián)網(wǎng)的,以檔案數(shù)字資源為主體,以文本、圖片、音頻、視頻等為形式,為中華民族集體記憶的建構(gòu)和傳承提供文獻(xiàn)支撐的‘中國記憶’數(shù)字資源庫”
將成為我們新的目標(biāo)與使命。顯然,作為社會(huì)記憶的建構(gòu)者與保存者,大數(shù)據(jù)時(shí)代,數(shù)字記憶的保一方面,各級(jí)國家檔案館是集中統(tǒng)一保管黨和國家檔案的科學(xué)文化事業(yè)機(jī)構(gòu),是永久保管檔案的基地,是社會(huì)各界利用檔案史料的中心。因此,作為一種機(jī)構(gòu)性存在與制度性安排,國家檔案館的公益性、服務(wù)性、公平性、永久性等特征,使得檔案館成為人們心目中最系統(tǒng)、最可信賴的數(shù)據(jù)資源庫。另一方面,檔案館在數(shù)據(jù)處理上具有豐富的經(jīng)驗(yàn)??疾鞌?shù)據(jù)生命周期,涉及到數(shù)據(jù)生成、采集、傳輸、處理、分析、應(yīng)用等階段,而這也恰恰是檔案館熟悉的業(yè)務(wù)范疇,因此檔案館可以通過模擬或借鑒傳統(tǒng)檔案處理的整套業(yè)務(wù)規(guī)范或流程來指導(dǎo)海量數(shù)據(jù)集的處理,檔案館“對(duì)知識(shí)規(guī)范性控制的思想和技術(shù)方法恰巧在大數(shù)據(jù)領(lǐng)域有了用武之地”。一方面,各級(jí)國家檔案館是集中統(tǒng)一保管黨和國家檔案的科學(xué)文化事大數(shù)據(jù)時(shí)代,檔案館應(yīng)從狹義檔案資源觀向“大檔案觀”轉(zhuǎn)變,盡可能地收集全面數(shù)據(jù)、完整數(shù)據(jù)和綜合數(shù)據(jù),更多地關(guān)注一些底層化、碎片化、復(fù)雜化的信息,從而構(gòu)建一幅反映國家和社會(huì)變遷的實(shí)時(shí)全景圖。在進(jìn)一步推進(jìn)紙質(zhì)檔案數(shù)字化、加快電子文件接收進(jìn)館的基礎(chǔ)上,檔案館要有意識(shí)地收集一些諸如電子郵件、網(wǎng)頁、社交媒體等價(jià)值重大、形式多樣的數(shù)據(jù)資源,從而實(shí)現(xiàn)檔案資源全媒體保存,真正建立覆蓋人民群眾的、滿足長遠(yuǎn)需要的檔案資源體系。大數(shù)據(jù)時(shí)代,檔案館應(yīng)從狹義檔案資源觀向“大檔案觀”轉(zhuǎn)變,盡數(shù)據(jù)一直存在,那么如今又何以稱為大數(shù)據(jù)呢?這主要是因?yàn)閿?shù)據(jù)集如此龐大、復(fù)雜以致現(xiàn)有的數(shù)據(jù)管理工具或傳統(tǒng)數(shù)據(jù)處理手段無法處理。因此,從技術(shù)角度講,大數(shù)據(jù)的產(chǎn)生是這個(gè)時(shí)代的產(chǎn)物。事實(shí)上,白宮大數(shù)據(jù)白皮書《FactSheet:BigDataAcrosstheFederalGovernment》中對(duì)NARA的規(guī)劃也主要是從技術(shù)層面進(jìn)行:為十億電子記錄(CI-BER)的網(wǎng)絡(luò)基礎(chǔ)設(shè)施是一個(gè)聯(lián)合機(jī)構(gòu)主辦的測(cè)試平臺(tái),這個(gè)多機(jī)構(gòu)主辦的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,對(duì)國家檔案館87萬多樣化的數(shù)字記錄的文件和信息的收集,可稱為計(jì)算研究所的文藝復(fù)興。這個(gè)試驗(yàn)臺(tái)將評(píng)估技術(shù)和方法,超大規(guī)模數(shù)據(jù)收集,以支持可持續(xù)的訪問。2.2技術(shù)維度數(shù)據(jù)一直存在,那么如今又何以稱為大數(shù)據(jù)呢?這主要是因?yàn)閿?shù)據(jù)集從技術(shù)維度而言,大數(shù)據(jù)技術(shù)將從三個(gè)方面實(shí)現(xiàn)檔案資源與用戶需求的雙向理想控制。從技術(shù)維度而言,大數(shù)據(jù)技術(shù)將從三個(gè)方面實(shí)現(xiàn)檔案資源與用戶需求大數(shù)據(jù)時(shí)代的到來,表征著信息資源的有效開發(fā)利用,從“谷歌流感趨勢(shì)”到阿里巴巴的“信用貸款”,無一不是基于大數(shù)據(jù)的海量資源挖掘與開發(fā)??梢哉f,面對(duì)海量數(shù)據(jù),誰能更好地分析挖掘,誰就能真正搶占大數(shù)據(jù)時(shí)代的先機(jī)。對(duì)于檔案館而言,數(shù)據(jù)分析成為檔案館知識(shí)服務(wù)體系創(chuàng)新及完善的重要支撐。大數(shù)據(jù)時(shí)代,信息服務(wù)競(jìng)爭(zhēng)加劇及用戶需求提升推動(dòng)著檔案館從常規(guī)分析向廣度、深度分析轉(zhuǎn)變,利用語義分析、人工智能、機(jī)器學(xué)習(xí)、知識(shí)圖譜等大數(shù)據(jù)技術(shù)從海量資源中分析潛在的價(jià)值決定著大數(shù)據(jù)時(shí)代檔案館的發(fā)展水平及方向,這也意味著檔案館的傳統(tǒng)業(yè)務(wù)將向數(shù)據(jù)分析、數(shù)據(jù)挖掘方向轉(zhuǎn)移,對(duì)海量資源的分析與處理將成為檔案館的主要業(yè)務(wù)。2.2.1檔案資源挖掘大數(shù)據(jù)時(shí)代的到來,表征著信息資源的有效開發(fā)利用,從“谷歌流感人類行為93%是可以預(yù)測(cè)的——復(fù)雜網(wǎng)絡(luò)權(quán)威阿拉巴西大數(shù)據(jù)應(yīng)用是以用戶數(shù)據(jù)為起點(diǎn)的,那些能幫助你更確切地知道用戶是誰的數(shù)據(jù)對(duì)大數(shù)據(jù)應(yīng)用來說是最重要的?!⒗锇桶痛髷?shù)據(jù)委員會(huì)會(huì)長車品覺2.2.2用戶數(shù)據(jù)挖掘人類行為93%是可以預(yù)測(cè)的2.2.2用戶數(shù)據(jù)挖掘當(dāng)前,社會(huì)對(duì)檔案館知識(shí)服務(wù)、智慧服務(wù)的要求更為苛刻,相關(guān)服務(wù)需求已經(jīng)開始顯現(xiàn)或訴諸于用戶日常行為中,檔案館能否精準(zhǔn)感知將影響到服務(wù)價(jià)值實(shí)現(xiàn)和用戶認(rèn)同提升。根據(jù)用戶服務(wù)數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù),對(duì)檔案館用戶身份記錄、借閱記錄等結(jié)構(gòu)化數(shù)據(jù)及存儲(chǔ)行為、搜索方式、行為軌跡乃至SNS上的言行記錄等半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行深入分析,將有效發(fā)現(xiàn)用戶隱性訴求,改善和提高服務(wù)方案,從而更好地提升檔案館的服務(wù)。事實(shí)上,檔案部門已有初步嘗試,NARA通過分析用戶對(duì)館藏目錄的點(diǎn)擊率,選取點(diǎn)擊率高的檔案進(jìn)行數(shù)字化,進(jìn)而開展深層次的信息服務(wù),取得了很好的效果。當(dāng)前,社會(huì)對(duì)檔案館知識(shí)服務(wù)、智慧服務(wù)的要求更為苛刻,相關(guān)服務(wù)無論是檔案資源還是用戶數(shù)據(jù),往往以孤立的數(shù)據(jù)和分散的鏈接這種形式存在,“數(shù)據(jù)的共性、網(wǎng)絡(luò)的整體特征隱藏在數(shù)據(jù)網(wǎng)絡(luò)中,大數(shù)據(jù)往往以復(fù)雜關(guān)聯(lián)的數(shù)據(jù)網(wǎng)絡(luò)這樣一種獨(dú)特的形式存在,因此要理解大數(shù)據(jù)就要對(duì)大數(shù)據(jù)后面的網(wǎng)絡(luò)進(jìn)行深入分析”
。例如啤酒和尿布,兩個(gè)原本互不沾邊的事物,通過數(shù)據(jù)分析進(jìn)行的重組則產(chǎn)生了意想不到的效果。對(duì)于檔案館而言,對(duì)關(guān)系尤其是檔案之間、用戶之間及檔案與用戶之間關(guān)系的精確洞察將使得關(guān)聯(lián)服務(wù)、精準(zhǔn)服務(wù)、跟蹤服務(wù)成為可能,從而實(shí)現(xiàn)用戶需求與檔案價(jià)值的雙向理想控制。在關(guān)系洞察的基礎(chǔ)上,對(duì)檔案館自身管理、機(jī)構(gòu)發(fā)展、社會(huì)服務(wù)等方面的趨勢(shì)預(yù)測(cè)成為可能,從而更好地實(shí)現(xiàn)優(yōu)化與監(jiān)管。2.2.3關(guān)系洞察及趨勢(shì)預(yù)測(cè)無論是檔案資源還是用戶數(shù)據(jù),往往以孤立的數(shù)據(jù)和分散的鏈接這種革命的意義在于,它能改變?nèi)藗兊乃季S方式,成為變革世界的源泉,而這也正如圖靈獎(jiǎng)得主JimGray在《第四范式——數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》所言,大數(shù)據(jù)不僅僅是數(shù)據(jù)量的劇增,也不僅僅是信息技術(shù)的飛躍,而可能是人類對(duì)客觀世界認(rèn)知飛躍的前奏。作為一場(chǎng)“引爆信息社會(huì)的哥白尼式革命”,大數(shù)據(jù)時(shí)代的到來,將從多個(gè)方面變革傳統(tǒng)的檔案館思維模式,為檔案館管理、服務(wù)及業(yè)務(wù)理念帶來顛覆性的變化。2.3思維維度革命的意義在于,它能改變?nèi)藗兊乃季S方式,成為變革世界的源泉,大數(shù)據(jù)時(shí)代是弘揚(yáng)理性精神的時(shí)代,決策行為將日益基于數(shù)據(jù)分析,而不是像過去更多地依賴于經(jīng)驗(yàn)甚至直覺。耶魯大學(xué)法學(xué)教授丹尼爾.埃斯蒂認(rèn)為,“基于數(shù)據(jù)驅(qū)動(dòng)的決策方法,政府將更加有效率、更加開放、更加負(fù)責(zé),引導(dǎo)政府前進(jìn)的將是基于實(shí)證的事實(shí),而不是意識(shí)形態(tài),也不是利益集團(tuán)在政府決策過程中施加的影響”。為了提升檔案管理的科學(xué)水平,檔案館必須實(shí)現(xiàn)從經(jīng)驗(yàn)驅(qū)動(dòng)到循數(shù)管理的轉(zhuǎn)變,讓“數(shù)據(jù)說出未來”。例如,在我國的數(shù)字檔案館建設(shè)中,數(shù)字化的比例及規(guī)模成為重要的衡量標(biāo)準(zhǔn)。然而,是否有必要全文數(shù)字化?數(shù)字化內(nèi)容及形式的選擇?這些都值得我們認(rèn)真商榷,反觀NARA,根據(jù)用戶點(diǎn)擊率來決定數(shù)字化內(nèi)容,無疑可以給我們很大的啟發(fā)。2.3.1管理思維:從經(jīng)驗(yàn)驅(qū)動(dòng)到循數(shù)管理大數(shù)據(jù)時(shí)代是弘揚(yáng)理性精神的時(shí)代,決策行為將日益基于數(shù)據(jù)分析,長期以來,我國檔案館采取的是“供給導(dǎo)向”的發(fā)展模式,往往從自身業(yè)務(wù)供給的角度出發(fā),有什么樣的內(nèi)容就提供什么樣的服務(wù),用戶常常面臨著“提供的服務(wù)不需要,需要的服務(wù)找不到”的尷尬。隨著大數(shù)據(jù)在其他領(lǐng)域應(yīng)用優(yōu)勢(shì)的不斷凸顯,用戶對(duì)檔案館精品化、多元化、個(gè)性化的服務(wù)需求越來越強(qiáng)烈,如果繼續(xù)采取無所作為、固守原狀的鴕鳥政策,那么檔案館將會(huì)失去未來的發(fā)展機(jī)會(huì),甚至?xí)ゴ嬖诘囊饬x。檔案館服務(wù)理念要實(shí)現(xiàn)從供給導(dǎo)向到需求導(dǎo)向的轉(zhuǎn)變,確立用戶在其服務(wù)體系中的主體地位,以用戶為中心,以需求為導(dǎo)向,利用大數(shù)據(jù)對(duì)用戶行為中的信息進(jìn)行挖掘,尋找其隱性需求,實(shí)現(xiàn)資源密集型向服務(wù)主導(dǎo)型的轉(zhuǎn)變。2.3.2服務(wù)思維:從供給導(dǎo)向到需求導(dǎo)向長期以來,我國檔案館采取的是“供給導(dǎo)向”的發(fā)展模式,往往從自在以往的檔案館業(yè)務(wù)工作中,一般的服務(wù)思維都是出現(xiàn)問題—邏輯分析—找出因果關(guān)系—提出解決方案,從而實(shí)現(xiàn)問題求解,可稱之為逆向思維模式。大數(shù)據(jù)時(shí)代最大的轉(zhuǎn)變是,放棄對(duì)因果關(guān)系的渴求,取而代之關(guān)注相互關(guān)系,只要知道“是什么”,而不需要知道“為什么”,也就是從追尋“因果律”走向?qū)徱暋跋嚓P(guān)性”。這一轉(zhuǎn)變將使我們以一種嶄新的視角去理解檔案館的業(yè)務(wù)工作,即收集數(shù)據(jù)—量化分析—找出相互關(guān)系—提出優(yōu)化方案,使用戶問題解決方案從成功躍至卓越,可稱之為正向思維模式。這種相互關(guān)系的運(yùn)用,一方面使得數(shù)據(jù)內(nèi)在關(guān)聯(lián)得到深入挖掘,促進(jìn)資源的集成創(chuàng)新,從而實(shí)現(xiàn)檔案數(shù)據(jù)資源的增值開發(fā),另一方面使得檔案館“捕捉現(xiàn)在,預(yù)測(cè)未來”成為可能,通過開展跟蹤服務(wù)、知識(shí)關(guān)聯(lián)服務(wù)從而提升個(gè)性化服務(wù)的水平。2.3.3業(yè)務(wù)思維:從因果關(guān)系到相互關(guān)系在以往的檔案館業(yè)務(wù)工作中,一般的服務(wù)思維都是出現(xiàn)問題—邏輯分只有無限探索和拓展,觸碰整個(gè)檔案行業(yè)的局限,……我們才能逃脫死水一潭的狀態(tài),這種狀態(tài)盡管平靜、舒適,但卻暮氣沉沉,行將落伍。我們需要想方設(shè)法把自我滿足的封閉的檔案界轉(zhuǎn)變成與當(dāng)代社會(huì)同步、對(duì)社會(huì)有益、并具有活力的檔案界,否則的話,我們就會(huì)在數(shù)字時(shí)代變成毫無用處的化石?!猅.庫克歷史不會(huì)重演,卻自有其韻律,如果洞悉其中的規(guī)律,那么檔案館的未來,或許就掌握在大數(shù)據(jù)的手中。只有無限探索和拓展,觸碰整個(gè)檔案行業(yè)的局限,……我們才能逃脫[1]邁爾-舍恩伯格,庫克耶著,周濤譯.大數(shù)據(jù)時(shí)代——生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013[2]BillFranks著,黃海譯.駕馭大數(shù)據(jù).北京:人民郵電出版社,2013.[3]涂子沛.大數(shù)據(jù):正在到來的數(shù)據(jù)革命,以及它如何改變政府、商業(yè)與我們的生活[M].桂林:廣西師范大學(xué)出版社,2012[4]Bigdata:Thenextfrontierforinnovation,competition,andproductivity,MckinseyGlobalInstitute,2012.6[5]BigDataforDevelopment:Challenges&Opportunities,UNGlobalPulse,2012.5[6]BigDataAcrosstheFederalGovernment,ExecutiveOfficeofthePresident,2012.3本演講參考了國內(nèi)外作者的相關(guān)成果,特此致謝![1]邁爾-舍恩伯格,庫克耶著,周濤譯.大數(shù)據(jù)時(shí)代——生活、謝謝!謝謝!演講完畢,謝謝觀看!演講完畢,謝謝觀看!大數(shù)據(jù)與檔案管理上海大學(xué)圖書情報(bào)檔案系2013年12月《大數(shù)據(jù)與檔案管理》1.大數(shù)據(jù)概述1.大數(shù)據(jù)概述除了上帝
任何人都必須用數(shù)據(jù)來說話除了上帝
任何人都必須用數(shù)據(jù)來說話1.1大數(shù)據(jù)的定義大數(shù)據(jù)是指其大小超出了典型數(shù)據(jù)庫軟件的采集、存儲(chǔ)、管理和分析等能力的數(shù)據(jù)集。
——麥肯錫研究院(MGI)大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。——高德納(GartnerGroup)大數(shù)據(jù)指的是如此大而復(fù)雜以致現(xiàn)有的數(shù)據(jù)管理工具或傳統(tǒng)數(shù)據(jù)處理手段無法處理的數(shù)據(jù)集。——維基百科(Wikipedia)1.1大數(shù)據(jù)的定義康奈爾大學(xué)計(jì)算機(jī)科學(xué)家JonKleinberg稱,“大數(shù)據(jù)這個(gè)術(shù)語本身很模糊,但在某些方面卻又非常具體,大數(shù)據(jù)是可能改造一切的一種過程的標(biāo)簽”。對(duì)于處在探索期的大數(shù)據(jù)研究來說,與其準(zhǔn)確地予以限定性分析,倒不如更多地將精力放在對(duì)其特征、內(nèi)涵的探尋和運(yùn)用的研究之中。從研究者角度而言,與其尋找一個(gè)公認(rèn)的定義,倒不如去分析這樣的問題:當(dāng)大數(shù)據(jù)來臨時(shí),就某一具體的業(yè)務(wù)(如數(shù)字檔案館、電子文件等)而言,我們是否可以富有想象力地回答,大數(shù)據(jù)究竟會(huì)對(duì)某一特定領(lǐng)域帶來何種影響,以及人們面對(duì)這些影響所獲得的機(jī)遇是什么?這才是我們跨學(xué)科研究的旨義所在,而這無疑具有更加重要的意義。《大數(shù)據(jù)與檔案管理》1.2大數(shù)據(jù)的特征(4V)1.2大數(shù)據(jù)的特征(4V)大量(Volume)數(shù)據(jù)中的數(shù)據(jù)不再以幾個(gè)GB或幾個(gè)TB來衡量,而是以PB(1千個(gè)T)、EB(1百萬個(gè)T)或ZB(10億個(gè)T)為計(jì)量單位。IDC2011年6月報(bào)告顯示,全球數(shù)據(jù)量在2011年已達(dá)到1.8ZB,“如果把所有這些數(shù)據(jù)都刻錄存入普通DVD光盤里,光盤的高度將等同于從地球到月球一個(gè)半來回,也就是720000英里。相當(dāng)于每位美國人每分鐘寫3條Twitter,而且還要不停地寫2.6976萬年”。大量(Volume)速度(Velocity)大數(shù)據(jù)往往以高速實(shí)時(shí)數(shù)據(jù)流的形式動(dòng)態(tài)產(chǎn)生,具有很強(qiáng)的時(shí)效性。2010年,據(jù)英國研究咨詢公司Coda預(yù)測(cè),移動(dòng)網(wǎng)絡(luò)數(shù)據(jù)流量在未來五年有望增長40倍,用戶上傳的內(nèi)容將爆發(fā)式增長。對(duì)大數(shù)據(jù)的處理速度要非???。傳統(tǒng)數(shù)據(jù)倉庫系統(tǒng)、BI應(yīng)用都是批處理方式,但對(duì)于大數(shù)據(jù)應(yīng)用,必須進(jìn)行實(shí)時(shí)數(shù)據(jù)流處理。比如對(duì)于災(zāi)難的預(yù)測(cè),需要很快地對(duì)發(fā)生的程度、影響的區(qū)域范圍等進(jìn)行量化。速度(Velocity)多樣(Variety)一是數(shù)據(jù)來源多,隨著科技的發(fā)展,大數(shù)據(jù)數(shù)據(jù)來源和承載方式多種多樣,如微博、社交網(wǎng)站、傳感器等,數(shù)據(jù)處于分散狀態(tài)。二是數(shù)據(jù)類型多,包括結(jié)構(gòu)化數(shù)據(jù)(如企業(yè)、行業(yè)內(nèi)數(shù)據(jù))、半結(jié)構(gòu)化數(shù)據(jù)(物聯(lián)網(wǎng)數(shù)據(jù))、非結(jié)構(gòu)化數(shù)據(jù)(互聯(lián)網(wǎng)數(shù)據(jù)),并且據(jù)Gartner預(yù)計(jì),2012年“半結(jié)構(gòu)和非結(jié)構(gòu)化的數(shù)據(jù),諸如文檔、表格、網(wǎng)頁、音頻、圖像和視頻等將占全球網(wǎng)絡(luò)數(shù)據(jù)量的85%左右”。多樣(Variety)價(jià)值(Value)由于大量有用與可能沒用的數(shù)據(jù)并存,因此大數(shù)據(jù)可謂是“遍地都是金子,又遍地都是沙子”。一方面,大數(shù)據(jù)的價(jià)值密度較低,以視頻監(jiān)控為例,在連續(xù)不斷的監(jiān)控流中,可能僅有一兩秒的影像是有用的數(shù)據(jù)。另一方面,雖然單條數(shù)據(jù)并無多大價(jià)值,但龐大的數(shù)據(jù)量則是一座“富礦”,將已有的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行融合、分析后,將會(huì)從中挖掘出極高的價(jià)值。特別是競(jìng)爭(zhēng)激烈的商業(yè)領(lǐng)域,數(shù)據(jù)正成為企業(yè)的新型資產(chǎn),企業(yè)都在追求數(shù)據(jù)價(jià)值的最大化。價(jià)值(Value)1.3大數(shù)據(jù)的認(rèn)識(shí)誤區(qū)大數(shù)據(jù)之大并不僅僅指容量在大數(shù)據(jù)的認(rèn)識(shí)上,很多人存在這么一個(gè)誤區(qū):只有幾百TB乃至PB的數(shù)據(jù)才能稱之為大數(shù)據(jù)。事實(shí)上,“大數(shù)據(jù)并非總是說有數(shù)百個(gè)TB才算得上,根據(jù)實(shí)際使用情況,有時(shí)候數(shù)百個(gè)GB的數(shù)據(jù)也可稱為大數(shù)據(jù),這主要看它的第三個(gè)維度,也就是速度或時(shí)間維度”。事實(shí)上,解決一個(gè)問題的數(shù)據(jù)規(guī)模有一個(gè)閾值。“數(shù)據(jù)少于這個(gè)閾值,問題解決不了;達(dá)到這個(gè)閾值,就可以解決以前解決不了的大問題;而數(shù)據(jù)規(guī)模超過這個(gè)閾值,對(duì)解決問題也沒有更多的幫助”。1.3大數(shù)據(jù)的認(rèn)識(shí)誤區(qū)大數(shù)據(jù)之大并不僅僅指容量今天的大數(shù)據(jù)將不再是明天的大數(shù)據(jù)當(dāng)前,大數(shù)據(jù)的定義是相對(duì)于目前的技術(shù)和資源而言的,隨著時(shí)間的推移,處理數(shù)據(jù)的工具和技術(shù)、原始存儲(chǔ)空間和處理能力的提升,大數(shù)據(jù)的界定也必然會(huì)發(fā)生變化。今天的大數(shù)據(jù)明天可能不再被認(rèn)為是大數(shù)據(jù),就像10年前的大數(shù)據(jù)在如今看來什么都不是一樣,大數(shù)據(jù)會(huì)繼續(xù)演進(jìn)下去。如今,在數(shù)據(jù)容量、速度、多樣性、復(fù)雜度等方面被認(rèn)為是不可能的或無法想象的事情、幾年過后情況會(huì)完全不同,這是一個(gè)多年不變的定律,在大數(shù)據(jù)時(shí)代也同樣適用。今天的大數(shù)據(jù)將不再是明天的大數(shù)據(jù)大數(shù)據(jù)的價(jià)值在于分析與應(yīng)用很多人認(rèn)為,正是由于大數(shù)據(jù)的大容量、高速和多樣性,才使得他們比其他數(shù)據(jù)更具有優(yōu)勢(shì)且更重要。然而,“大”和“數(shù)據(jù)”都不是大數(shù)據(jù)中最重要的。事實(shí)上,擁有任何一個(gè)數(shù)據(jù)集,無論它們多大或者多小,其自身都不會(huì)帶來任何價(jià)值。被收集來的數(shù)據(jù)如果從不使用,不會(huì)比存放在閣樓或地下室的垃圾更有價(jià)值。大數(shù)據(jù)的價(jià)值體現(xiàn)在如何分析它們,并采取怎樣的措施來提升本身的業(yè)務(wù)水平。換言之,數(shù)據(jù)即服務(wù)。大數(shù)據(jù)的價(jià)值在于分析與應(yīng)用大數(shù)據(jù)是一種服務(wù)變革本質(zhì)而言,大數(shù)據(jù)是信息爆炸時(shí)代對(duì)數(shù)據(jù)核心價(jià)值的再挖掘,其中綜合運(yùn)用到去冗降噪技術(shù)、語義引擎、可視化分析等,因此被很多專業(yè)人士認(rèn)為是繼云計(jì)算、物聯(lián)網(wǎng)之后IT行業(yè)的又一次顛覆性變革。事實(shí)上,大數(shù)據(jù)“不僅僅是技術(shù)變革,更實(shí)質(zhì)上的是計(jì)算機(jī)服務(wù)時(shí)代的來臨,對(duì)數(shù)據(jù)的抽絲剝繭、總結(jié)結(jié)論更體現(xiàn)了計(jì)算機(jī)行業(yè)正從技術(shù)供應(yīng)型轉(zhuǎn)為服務(wù)供應(yīng)。大數(shù)據(jù)是一種服務(wù)變革1.4大數(shù)據(jù)與云計(jì)算、數(shù)據(jù)挖掘的區(qū)別首先,本質(zhì)上,云計(jì)算改變了IT,而大數(shù)據(jù)則改變了業(yè)務(wù)。云計(jì)算的目的是通過互聯(lián)網(wǎng)更好地調(diào)用、擴(kuò)展和管理計(jì)算及存儲(chǔ)資源和能力,因而從根本上改變了單位的IT架構(gòu)。大數(shù)據(jù)使得企業(yè)從“業(yè)務(wù)驅(qū)動(dòng)”轉(zhuǎn)變?yōu)椤皵?shù)據(jù)驅(qū)動(dòng)”,從而改變了企業(yè)的業(yè)務(wù)架構(gòu)。其次,云計(jì)算與大數(shù)據(jù)的目標(biāo)受眾不同。云計(jì)算的主要推動(dòng)力量是存儲(chǔ)及計(jì)算設(shè)備的生產(chǎn)廠商和擁有計(jì)算及存儲(chǔ)資源的企業(yè),因此云計(jì)算是賣給CIO的技術(shù)和產(chǎn)品,是一個(gè)進(jìn)階的IT解決方案。大數(shù)據(jù)的直接受益者不是IT部門,而是業(yè)務(wù)部門,產(chǎn)業(yè)發(fā)展的主要推動(dòng)力量是從事數(shù)據(jù)存儲(chǔ)于處理的軟件廠商和擁有大量數(shù)據(jù)的企業(yè),因此是賣給CEO、業(yè)務(wù)層的產(chǎn)品。1.4大數(shù)據(jù)與云計(jì)算、數(shù)據(jù)挖掘的區(qū)別首先,本質(zhì)上,云計(jì)算改《大數(shù)據(jù)與檔案管理》換言之,云計(jì)算與大數(shù)據(jù)實(shí)際上是工具和用途的關(guān)系。云計(jì)算為大數(shù)據(jù)提供強(qiáng)大的存儲(chǔ)和計(jì)算能力,更加迅速地處理大數(shù)據(jù)的豐富信息,并更方面的提供服務(wù);來自大數(shù)據(jù)的業(yè)務(wù)需求,能為云計(jì)算的落地找到更多更好的實(shí)際應(yīng)用。如果說云計(jì)算為數(shù)據(jù)資產(chǎn)提供了保管、訪問的場(chǎng)所和渠道,那么如何盤活數(shù)據(jù)資產(chǎn),使其為國家治理、企業(yè)決策乃至個(gè)人生活服務(wù),則是大數(shù)據(jù)的核心議題。換言之,云計(jì)算與大數(shù)據(jù)實(shí)際上是工具和用途的關(guān)系。云計(jì)算為大數(shù)總之,大數(shù)據(jù)處理會(huì)利用到云計(jì)算領(lǐng)域的很多技術(shù),但大數(shù)據(jù)并非完全依賴于云計(jì)算;反過來,云計(jì)算之上也并非只有大數(shù)據(jù)這一種應(yīng)用,“云計(jì)算和大數(shù)據(jù)共同引領(lǐng)以數(shù)據(jù)為原料,計(jì)算為能源的又一次生產(chǎn)力的大解放,甚至可以與以蒸汽機(jī)的使用和電氣的使用為代表的第一次工業(yè)革命和第二次工業(yè)革命相媲美”??傊髷?shù)據(jù)處理會(huì)利用到云計(jì)算領(lǐng)域的很多技術(shù),但大數(shù)據(jù)并非完首先在數(shù)據(jù)量上,傳統(tǒng)的數(shù)據(jù)挖掘通常是存儲(chǔ)在數(shù)據(jù)庫或者文件中的數(shù)據(jù),數(shù)據(jù)量相對(duì)較小,一般為TB級(jí)以下,大數(shù)據(jù)技術(shù)能實(shí)現(xiàn)對(duì)PB量級(jí)數(shù)據(jù)的處理,因此,大數(shù)據(jù)時(shí)代將實(shí)現(xiàn)從樣本數(shù)據(jù)到全體數(shù)據(jù)處理的轉(zhuǎn)變。其次,在數(shù)據(jù)特性上,傳統(tǒng)的數(shù)據(jù)挖掘一般只能對(duì)結(jié)構(gòu)化信息進(jìn)行處理,處理的信息大多是非實(shí)時(shí)信息,大數(shù)據(jù)技術(shù)能夠?qū)崿F(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化特別是非結(jié)構(gòu)化信息的處理,處理的信息大多是實(shí)時(shí)信息。最后,兩者的分析手段與方法也有差別,傳統(tǒng)數(shù)據(jù)挖掘的主要算法以統(tǒng)計(jì)學(xué)為基礎(chǔ),分類和預(yù)測(cè)是兩種常見的數(shù)據(jù)分析形式,主要包括探索性數(shù)據(jù)分析(ExploratoryDataAnalysis,EDA)和驗(yàn)證性數(shù)據(jù)分析(ConfirmatoryDataAnalysis,CDA),而大數(shù)據(jù)挖掘不僅僅需要統(tǒng)計(jì)學(xué)方法,還大量使用了機(jī)器學(xué)習(xí)、人工智能、知識(shí)圖譜等算法。大數(shù)據(jù)與數(shù)據(jù)挖掘首先在數(shù)據(jù)量上,傳統(tǒng)的數(shù)據(jù)挖掘通常是存儲(chǔ)在數(shù)據(jù)庫或者文件中的大數(shù)據(jù)時(shí)代的來臨,標(biāo)志著傳統(tǒng)數(shù)據(jù)挖掘方法已經(jīng)不再適應(yīng)日新月異的數(shù)據(jù)環(huán)境,在數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析以及可視化等諸多方面捉襟見肘。當(dāng)然,大數(shù)據(jù)這一概念之所以能夠引發(fā)共識(shí)成為當(dāng)前熱點(diǎn),最為重要的是,各個(gè)行業(yè)領(lǐng)域具有了對(duì)大數(shù)據(jù)分析和利用的巨大現(xiàn)實(shí)需求和具體應(yīng)用需求。顯然,這些都不是傳統(tǒng)數(shù)據(jù)挖掘所能解決的,而這也正是是眾多IT企業(yè)將大數(shù)據(jù)定義為現(xiàn)有處理工具或手段無法處理的數(shù)據(jù)集的原因所在。大數(shù)據(jù)時(shí)代的來臨,標(biāo)志著傳統(tǒng)數(shù)據(jù)挖掘方法已經(jīng)不再適應(yīng)日新月異1.5大數(shù)據(jù)應(yīng)用1.5大數(shù)據(jù)應(yīng)用大數(shù)據(jù)在商業(yè)中的應(yīng)用大數(shù)據(jù)就像貨幣或黃金一樣,是一種新型的經(jīng)濟(jì)資產(chǎn)。——2012.1達(dá)沃斯世界經(jīng)濟(jì)論壇《大數(shù)據(jù),大影響》大數(shù)據(jù)在商業(yè)中的應(yīng)用大數(shù)據(jù)就像貨幣或黃金一樣,是一種新型的經(jīng)大數(shù)據(jù)在社會(huì)管理中的應(yīng)用大數(shù)據(jù)在社會(huì)管理中的應(yīng)用“Google登革熱趨勢(shì)”,利用搜索數(shù)據(jù)近乎實(shí)時(shí)地估計(jì)登革熱在全球的傳播情況。(藍(lán)色——該系統(tǒng)估計(jì)數(shù)據(jù);橙色——巴西官方統(tǒng)計(jì)數(shù)據(jù))“Google登革熱趨勢(shì)”,利用搜索數(shù)據(jù)近乎實(shí)時(shí)地估計(jì)登革熱美國流感傳染率的官方數(shù)據(jù)與基于Twitter的數(shù)據(jù)比較美國流感傳染率的官方數(shù)據(jù)與基于Twitter的數(shù)據(jù)比較1.6大數(shù)據(jù)發(fā)展(宏觀)1.6大數(shù)據(jù)發(fā)展(宏觀)在大數(shù)據(jù)發(fā)展上,美國是第一個(gè)吃“螃蟹”的國家。美國的大數(shù)據(jù)計(jì)劃萌芽于“數(shù)據(jù)開放運(yùn)動(dòng)”,2009年5月21日,Data.Gov上線發(fā)布,在其目標(biāo)和使命陳述中指出,Data.Gov的主要目標(biāo)是“開放聯(lián)邦政府的數(shù)據(jù),通過鼓勵(lì)新的創(chuàng)意,讓數(shù)據(jù)走出政府、得到更多的創(chuàng)新型運(yùn)用。Data.Gov致力于政府透明,全力把政府推向一個(gè)前所未有的開放高度。它帶來的開放將鞏固我們國家的民主,提高政府的效率和效能”。美國在大數(shù)據(jù)發(fā)展上,美國是第一個(gè)吃“螃蟹”的國家。美國的大數(shù)據(jù)計(jì)《大數(shù)據(jù)與檔案管理》2012年3月29日,奧巴馬政府發(fā)布《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,旨在提高從海量、復(fù)雜的數(shù)據(jù)中獲取真知灼見的能力,加速在科學(xué)與工程領(lǐng)域創(chuàng)新步伐,增強(qiáng)國家安全,轉(zhuǎn)變教育和學(xué)習(xí)模式。根據(jù)這個(gè)計(jì)劃,美國政府將開發(fā)及加強(qiáng)大數(shù)據(jù)系統(tǒng),使之能夠進(jìn)行數(shù)據(jù)采集、保留、存儲(chǔ)、管理、分析,以及分發(fā)大數(shù)據(jù)分析的結(jié)論。對(duì)此,奧巴馬政府組建了“大數(shù)據(jù)高級(jí)指導(dǎo)小組”,以協(xié)調(diào)政府在大數(shù)據(jù)領(lǐng)域的兩億多美元投資。此舉標(biāo)志著,美國把應(yīng)對(duì)大數(shù)據(jù)技術(shù)革命帶來的機(jī)遇和挑戰(zhàn),上升到國家戰(zhàn)略層面,形成了全體動(dòng)員格局。2012年3月29日,奧巴馬政府發(fā)布《大數(shù)據(jù)研究和發(fā)展計(jì)劃》《大數(shù)據(jù)與檔案管理》2010年1月,英國政府的數(shù)據(jù)開放網(wǎng)站正式出臺(tái):Data.Gov.uk。除去地理信息之外,該網(wǎng)站公布了3000多項(xiàng)民生數(shù)據(jù)。而這個(gè)時(shí)候,美國的D雖然已經(jīng)運(yùn)營了半年多,卻還僅僅只有1000多項(xiàng)民生數(shù)據(jù)。2010年5月,戴維.卡梅倫出任首相后,提出了“數(shù)據(jù)權(quán)”(RighttoData)的概念,指出“數(shù)據(jù)權(quán)”是信息時(shí)代每一個(gè)公民都擁有的一項(xiàng)基本權(quán)利,并承諾要在全社會(huì)普及“數(shù)據(jù)權(quán)”。2012年11月,英國政府發(fā)布新的政府?dāng)?shù)字化戰(zhàn)略,旨在使政府服務(wù)實(shí)現(xiàn)“默認(rèn)數(shù)字化”,承諾2015年前開放有關(guān)交通運(yùn)輸、天氣和健康方面的核心公共數(shù)據(jù)庫,并投資1000萬英鎊建立世界上首個(gè)“開放數(shù)據(jù)研究所”(OpenDataInstitute)。英國2010年1月,英國政府的數(shù)據(jù)開放網(wǎng)站正式出臺(tái):Data.G2013年6月,日本公布了新的IT戰(zhàn)略——?jiǎng)?chuàng)建最尖端IT國家宣言,全面闡述了2013-2020年期間以發(fā)展開放公共數(shù)據(jù)和大數(shù)據(jù)為核心的日本新IT國家戰(zhàn)略。值得注意的是,在日本的大數(shù)據(jù)產(chǎn)業(yè)發(fā)展中,很多專業(yè)人士提出“在進(jìn)一步充分利用匿名化技術(shù),制定合理、活用的大數(shù)據(jù)規(guī)則”的前提下,要修改并進(jìn)一步完善個(gè)人信息保護(hù)法規(guī)。2013年8月,澳大利亞政府信息管理辦公室(AGIMO)發(fā)布了《公共服務(wù)大數(shù)據(jù)戰(zhàn)略》,該戰(zhàn)略以六條“大數(shù)據(jù)原則”(數(shù)據(jù)屬國有資產(chǎn);從設(shè)計(jì)著手保護(hù)隱私;數(shù)據(jù)完整性與程序透明度;技巧、資源共享;與業(yè)界和學(xué)界合作;強(qiáng)化開放數(shù)據(jù))為支撐,旨在推動(dòng)公共行業(yè)利用大數(shù)據(jù)分析進(jìn)行服務(wù)改革,制定更好的公共政策,保護(hù)公民隱私,使澳大利亞在該領(lǐng)域躋身全球領(lǐng)先水平。日本、澳大利亞2013年6月,日本公布了新的IT戰(zhàn)略——?jiǎng)?chuàng)建最尖端IT國家我國的大數(shù)據(jù)戰(zhàn)略(國家層面)2013.2,國務(wù)院《關(guān)于推進(jìn)物聯(lián)網(wǎng)有序健康發(fā)展的指導(dǎo)意見》發(fā)布,提出要“加快傳感器網(wǎng)絡(luò)、智能終端、大數(shù)據(jù)處理、智能分析、服務(wù)集成等關(guān)鍵技術(shù)研發(fā)創(chuàng)新”。2012.3.29(與美國大數(shù)據(jù)計(jì)劃同日),我國科技部發(fā)布“‘十二五’國家科技計(jì)劃信息技術(shù)領(lǐng)域2013年度備選項(xiàng)目征集指南”,將大數(shù)據(jù)研究列在首位。2011.11,工業(yè)和信息化部發(fā)布的《物聯(lián)網(wǎng)“十二五”發(fā)展規(guī)劃》發(fā)展規(guī)劃中,把信息處理技術(shù)作為4項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程之一被提出,其中包括了海量數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分。此外,2013年兩會(huì)期間,有人大代表建議把大數(shù)據(jù)上升為國家戰(zhàn)略。我國的大數(shù)據(jù)戰(zhàn)略(國家層面)2012.11,廣東省頒布了《廣東省實(shí)施大數(shù)據(jù)戰(zhàn)略工作方案》,率先啟動(dòng)了大數(shù)據(jù)戰(zhàn)略,擬在財(cái)政、環(huán)保、招投標(biāo)等領(lǐng)域率先開展數(shù)據(jù)公開試點(diǎn),逐步推進(jìn),通過互聯(lián)網(wǎng)等形式發(fā)布并公開數(shù)據(jù)。2013.7月,上海市政府有關(guān)部門發(fā)布了《推進(jìn)大數(shù)據(jù)研究與發(fā)展三年行動(dòng)計(jì)劃(2013一2015年)》,將重點(diǎn)選取金融證券、互聯(lián)網(wǎng)、數(shù)字生活、公共設(shè)施、制造和電力等具有迫切需求的行業(yè),開展大數(shù)據(jù)行業(yè)應(yīng)用研發(fā),探索“數(shù)據(jù)、平臺(tái)、應(yīng)用、終端”四位一體的新型商業(yè)模式,促進(jìn)產(chǎn)業(yè)發(fā)展。2013.8月,重慶市政府印發(fā)《重慶市大數(shù)據(jù)行動(dòng)計(jì)劃》,明確提出將搶抓全球大數(shù)據(jù)戰(zhàn)略資源,將大數(shù)據(jù)產(chǎn)業(yè)培育成全市重要的戰(zhàn)略性新興產(chǎn)業(yè)。我國的大數(shù)據(jù)戰(zhàn)略(地方層面)2012.11,廣東省頒布了《廣東省實(shí)施大數(shù)據(jù)戰(zhàn)略工作方案》我們的確正在起航,在龐大的新數(shù)據(jù)來源的支持下,量化的前進(jìn)步伐將會(huì)踏遍學(xué)術(shù)、商業(yè)和政府領(lǐng)域,沒有一個(gè)領(lǐng)域可以不被觸及?!鸫髮W(xué)量化社會(huì)科學(xué)研究所主任GaryKing大數(shù)據(jù)正構(gòu)成我們明天的新大陸,從2012年開始,我們將從大陸時(shí)代,移民進(jìn)入大數(shù)據(jù)時(shí)代?!袊缈圃盒畔⒒芯恐行拿貢L、《互聯(lián)網(wǎng)周刊》主編姜奇平一個(gè)檔案工作者應(yīng)是首先想到未來的人?!獓H檔案理事會(huì)主席馬丁.博倫斯2.大數(shù)據(jù)時(shí)代的檔案館我們的確正在起航,在龐大的新數(shù)據(jù)來源的支持下,量化的前進(jìn)步伐對(duì)于數(shù)據(jù)的理解,首先源于數(shù)據(jù)一種資源。大數(shù)據(jù)時(shí)代,數(shù)據(jù)的資源特性更加明顯,成為一種“戰(zhàn)略性原料”,奧巴馬則將數(shù)據(jù)定義為“未來的石油”,是與陸權(quán)、海權(quán)、空權(quán)同等重要的“國家核心資產(chǎn)”。從資源語境去理解大數(shù)據(jù)時(shí)代的檔案館,具有兩層含義:2.1資源維度對(duì)于數(shù)據(jù)的理解,首先源于數(shù)據(jù)一種資源。大數(shù)據(jù)時(shí)代,數(shù)據(jù)的資源(1)檔案館數(shù)據(jù)資源總量龐大且增長迅速。
2008年我國各級(jí)國家檔案館共保存檔案1.93億卷,較上年增加1769萬卷,增幅達(dá)10%,而到2011年各級(jí)國家檔案館館藏已達(dá)3.3億卷,到2020年,各級(jí)國家檔案館館藏將達(dá)到6億多卷。2012年底,北京市和各區(qū)縣檔案館共完成紙質(zhì)檔案數(shù)字化8759.5頁,接收電子檔案48TB,市檔案館已完成紙質(zhì)檔案數(shù)字化4397萬頁,占館藏的63%。上海17區(qū)縣檔案館檔案數(shù)字化共超過3.6億頁,占館藏50%以上,部分區(qū)縣達(dá)90%以上。2009年底,ERA接收的電子文件實(shí)際總量已達(dá)到77TB,此后平均每季度至少采集10TB的電子文件,2011年3月達(dá)到了108.2TB,2011年底達(dá)到124TB。2.1.1檔案館具有“大數(shù)據(jù)”的特征(1)檔案館數(shù)據(jù)資源總量龐大且增長迅速。2
(2)檔案館數(shù)據(jù)資源種類繁雜,結(jié)構(gòu)多樣在檔案館的數(shù)據(jù)資源中,既有數(shù)字化的紙質(zhì)檔案、接收進(jìn)館的電子文件、音視頻數(shù)據(jù)庫等,也有用戶利用信息、服務(wù)數(shù)據(jù)等數(shù)據(jù)資源,這些數(shù)據(jù)資源分布在不同的系統(tǒng)中,格式、特征等形式多樣,組織方式各異,而各館之間更是差異明顯,從而形成了大量的異構(gòu)數(shù)據(jù)。
(3)檔案館數(shù)據(jù)資源價(jià)值豐裕度、凝聚度很高
作為國家和社會(huì)精心保存的歷史記錄,毫無疑問,檔案這種數(shù)據(jù)資源具有很高的價(jià)值。與絕大部分?jǐn)?shù)據(jù)資源“價(jià)值總量高、價(jià)值密度低”的特性相比,“檔案是一種最真實(shí)、最可靠、最具權(quán)威性與憑證性的原生信息資源”,可以說是整個(gè)社會(huì)數(shù)據(jù)資源中最為精華的部分。(2)檔案館數(shù)據(jù)資源種類繁雜,結(jié)構(gòu)多樣毫無疑問,檔案館是社會(huì)信息家族的“大戶”,也具備大數(shù)據(jù)的特征。然而,大數(shù)據(jù)時(shí)代背景下,社會(huì)需要一個(gè)什么樣的檔案館,是無所作為從而在大數(shù)據(jù)時(shí)代進(jìn)一步邊緣化,抑或借助大數(shù)據(jù)重新回到“上帝”身邊?檔案館又需要怎樣的“大數(shù)據(jù)”,是固守以前檔案資源建設(shè)的老路,還是樹立大數(shù)據(jù)觀從而更好地契合時(shí)代脈搏?這需要檔案館重新審視自己的目標(biāo)定位。2.1.2大數(shù)據(jù)視閾的數(shù)字記憶資源庫毫無疑問,檔案館是社會(huì)信息家族的“大戶”,顯然,作為社會(huì)記憶的建構(gòu)者與保存者,大數(shù)據(jù)時(shí)代,數(shù)字記憶的保存應(yīng)是檔案館的社會(huì)自覺與文化擔(dān)當(dāng),構(gòu)建一個(gè)“基于互聯(lián)網(wǎng)的,以檔案數(shù)字資源為主體,以文本、圖片、音頻、視頻等為形式,為中華民族集體記憶的建構(gòu)和傳承提供文獻(xiàn)支撐的‘中國記憶’數(shù)字資源庫”
將成為我們新的目標(biāo)與使命。顯然,作為社會(huì)記憶的建構(gòu)者與保存者,大數(shù)據(jù)時(shí)代,數(shù)字記憶的保一方面,各級(jí)國家檔案館是集中統(tǒng)一保管黨和國家檔案的科學(xué)文化事業(yè)機(jī)構(gòu),是永久保管檔案的基地,是社會(huì)各界利用檔案史料的中心。因此,作為一種機(jī)構(gòu)性存在與制度性安排,國家檔案館的公益性、服務(wù)性、公平性、永久性等特征,使得檔案館成為人們心目中最系統(tǒng)、最可信賴的數(shù)據(jù)資源庫。另一方面,檔案館在數(shù)據(jù)處理上具有豐富的經(jīng)驗(yàn)。考察數(shù)據(jù)生命周期,涉及到數(shù)據(jù)生成、采集、傳輸、處理、分析、應(yīng)用等階段,而這也恰恰是檔案館熟悉的業(yè)務(wù)范疇,因此檔案館可以通過模擬或借鑒傳統(tǒng)檔案處理的整套業(yè)務(wù)規(guī)范或流程來指導(dǎo)海量數(shù)據(jù)集的處理,檔案館“對(duì)知識(shí)規(guī)范性控制的思想和技術(shù)方法恰巧在大數(shù)據(jù)領(lǐng)域有了用武之地”。一方面,各級(jí)國家檔案館是集中統(tǒng)一保管黨和國家檔案的科學(xué)文化事大數(shù)據(jù)時(shí)代,檔案館應(yīng)從狹義檔案資源觀向“大檔案觀”轉(zhuǎn)變,盡可能地收集全面數(shù)據(jù)、完整數(shù)據(jù)和綜合數(shù)據(jù),更多地關(guān)注一些底層化、碎片化、復(fù)雜化的信息,從而構(gòu)建一幅反映國家和社會(huì)變遷的實(shí)時(shí)全景圖。在進(jìn)一步推進(jìn)紙質(zhì)檔案數(shù)字化、加快電子文件接收進(jìn)館的基礎(chǔ)上,檔案館要有意識(shí)地收集一些諸如電子郵件、網(wǎng)頁、社交媒體等價(jià)值重大、形式多樣的數(shù)據(jù)資源,從而實(shí)現(xiàn)檔案資源全媒體保存,真正建立覆蓋人民群眾的、滿足長遠(yuǎn)需要的檔案資源體系。大數(shù)據(jù)時(shí)代,檔案館應(yīng)從狹義檔案資源觀向“大檔案觀”轉(zhuǎn)變,盡數(shù)據(jù)一直存在,那么如今又何以稱為大數(shù)據(jù)呢?這主要是因?yàn)閿?shù)據(jù)集如此龐大、復(fù)雜以致現(xiàn)有的數(shù)據(jù)管理工具或傳統(tǒng)數(shù)據(jù)處理手段無法處理。因此,從技術(shù)角度講,大數(shù)據(jù)的產(chǎn)生是這個(gè)時(shí)代的產(chǎn)物。事實(shí)上,白宮大數(shù)據(jù)白皮書《FactSheet:BigDataAcrosstheFederalGovernment》中對(duì)NARA的規(guī)劃也主要是從技術(shù)層面進(jìn)行:為十億電子記錄(CI-BER)的網(wǎng)絡(luò)基礎(chǔ)設(shè)施是一個(gè)聯(lián)合機(jī)構(gòu)主辦的測(cè)試平臺(tái),這個(gè)多機(jī)構(gòu)主辦的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,對(duì)國家檔案館87萬多樣化的數(shù)字記錄的文件和信息的收集,可稱為計(jì)算研究所的文藝復(fù)興。這個(gè)試驗(yàn)臺(tái)將評(píng)估技術(shù)和方法,超大規(guī)模數(shù)據(jù)收集,以支持可持續(xù)的訪問。2.2技術(shù)維度數(shù)據(jù)一直存在,那么如今又何以稱為大數(shù)據(jù)呢?這主要是因?yàn)閿?shù)據(jù)集從技術(shù)維度而言,大數(shù)據(jù)技術(shù)將從三個(gè)方面實(shí)現(xiàn)檔案資源與用戶需求的雙向理想控制。從技術(shù)維度而言,大數(shù)據(jù)技術(shù)將從三個(gè)方面實(shí)現(xiàn)檔案資源與用戶需求大數(shù)據(jù)時(shí)代的到來,表征著信息資源的有效開發(fā)利用,從“谷歌流感趨勢(shì)”到阿里巴巴的“信用貸款”,無一不是基于大數(shù)據(jù)的海量資源挖掘與開發(fā)??梢哉f,面對(duì)海量數(shù)據(jù),誰能更好地分析挖掘,誰就能真正搶占大數(shù)據(jù)時(shí)代的先機(jī)。對(duì)于檔案館而言,數(shù)據(jù)分析成為檔案館知識(shí)服務(wù)體系創(chuàng)新及完善的重要支撐。大數(shù)據(jù)時(shí)代,信息服務(wù)競(jìng)爭(zhēng)加劇及用戶需求提升推動(dòng)著檔案館從常規(guī)分析向廣度、深度分析轉(zhuǎn)變,利用語義分析、人工智能、機(jī)器學(xué)習(xí)、知識(shí)圖譜等大數(shù)據(jù)技術(shù)從海量資源中分析潛在的價(jià)值決定著大數(shù)據(jù)時(shí)代檔案館的發(fā)展水平及方向,這也意味著檔案館的傳統(tǒng)業(yè)務(wù)將向數(shù)據(jù)分析、數(shù)據(jù)挖掘方向轉(zhuǎn)移,對(duì)海量資源的分析與處理將成為檔案館的主要業(yè)務(wù)。2.2.1檔案資源挖掘大數(shù)據(jù)時(shí)代的到來,表征著信息資源的有效開發(fā)利用,從“谷歌流感人類行為93%是可以預(yù)測(cè)的——復(fù)雜網(wǎng)絡(luò)權(quán)威阿拉巴西大數(shù)據(jù)應(yīng)用是以用戶數(shù)據(jù)為起點(diǎn)的,那些能幫助你更確切地知道用戶是誰的數(shù)據(jù)對(duì)大數(shù)據(jù)應(yīng)用來說是最重要的?!⒗锇桶痛髷?shù)據(jù)委員會(huì)會(huì)長車品覺2.2.2用戶數(shù)據(jù)挖掘人類行為93%是可以預(yù)測(cè)的2.2.2用戶數(shù)據(jù)挖掘當(dāng)前,社會(huì)對(duì)檔案館知識(shí)服務(wù)、智慧服務(wù)的要求更為苛刻,相關(guān)服務(wù)需求已經(jīng)開始顯現(xiàn)或訴諸于用戶日常行為中,檔案館能否精準(zhǔn)感知將影響到服務(wù)價(jià)值實(shí)現(xiàn)和用戶認(rèn)同提升。根據(jù)用戶服務(wù)數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù),對(duì)檔案館用戶身份記錄、借閱記錄等結(jié)構(gòu)化數(shù)據(jù)及存儲(chǔ)行為、搜索方式、行為軌跡乃至SNS上的言行記錄等半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行深入分析,將有效發(fā)現(xiàn)用戶隱性訴求,改善和提高服務(wù)方案,從而更好地提升檔案館的服務(wù)。事實(shí)上,檔案部門已有初步嘗試,NARA通過分析用戶對(duì)館藏目錄的點(diǎn)擊率,選取點(diǎn)擊率高的檔案進(jìn)行數(shù)字化,進(jìn)而開展深層次的信息服務(wù),取得了很好的效果。當(dāng)前,社會(huì)對(duì)檔案館知識(shí)服務(wù)、智慧服務(wù)的要求更為苛刻,相關(guān)服務(wù)無論是檔案資源還是用戶數(shù)據(jù),往往以孤立的數(shù)據(jù)和分散的鏈接這種形式存在,“數(shù)據(jù)的共性、網(wǎng)絡(luò)的整體特征隱藏
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高一地理教師2024年個(gè)人工作總結(jié)
- 2025年跨境商業(yè)信用保險(xiǎn)協(xié)議
- 2024年教師教學(xué)年終工作總結(jié)
- 2025年社區(qū)義診活動(dòng)計(jì)劃
- 液壓油知識(shí)培訓(xùn)課件
- 鋼筋基礎(chǔ)知識(shí)培訓(xùn)課件
- 水泥試驗(yàn)知識(shí)培訓(xùn)課件
- 烘焙麻薯知識(shí)培訓(xùn)課件
- 理論基礎(chǔ)知識(shí)培訓(xùn)課件
- 機(jī)艙知識(shí)培訓(xùn)課件
- 中心城區(qū)給水工程專項(xiàng)規(guī)劃文本
- 304不銹鋼焊接熱裂原因及解決方法計(jì)劃
- 社會(huì)調(diào)查方法與調(diào)研報(bào)告撰寫培訓(xùn)
- 個(gè)人房屋租賃合同電子版下載(標(biāo)準(zhǔn)版)
- 福建省泉州市2019-2020學(xué)年高二上學(xué)期期末物理試卷(含答案)
- 高中生物學(xué)科思維導(dǎo)圖(人教版必修二)
- 城市軌道交通安全管理課件(完整版)
- 監(jiān)理日志表(標(biāo)準(zhǔn)模版)
- 視頻監(jiān)控系統(tǒng)PPT幻燈片課件(PPT 168頁)
- GM∕T 0045-2016 金融數(shù)據(jù)密碼機(jī)技術(shù)規(guī)范
- 人力資源部年度工作計(jì)劃表(超級(jí)詳細(xì)版)
評(píng)論
0/150
提交評(píng)論