大數(shù)據(jù)時(shí)代數(shù)字圖書館_第1頁
大數(shù)據(jù)時(shí)代數(shù)字圖書館_第2頁
大數(shù)據(jù)時(shí)代數(shù)字圖書館_第3頁
大數(shù)據(jù)時(shí)代數(shù)字圖書館_第4頁
大數(shù)據(jù)時(shí)代數(shù)字圖書館_第5頁
已閱讀5頁,還剩77頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)時(shí)代數(shù)字圖書館第一頁,共82頁。

1

23提綱

大數(shù)據(jù)與數(shù)字圖書館:為

何要提出這個(gè)命題?

大數(shù)據(jù)對(duì)數(shù)字圖書館的挑

戰(zhàn):為何總是信息革命?

對(duì)策探討:數(shù)字圖書館

向業(yè)務(wù)流程上游移動(dòng)第二頁,共82頁。3?

大數(shù)據(jù)與數(shù)字圖書館第三頁,共82頁。?

數(shù)字圖書館受到廣泛的重視,

成績斐然?

數(shù)字圖書館的建設(shè)與需求存在

差距大數(shù)據(jù)與數(shù)字圖書館?

什么是大數(shù)據(jù)?大數(shù)據(jù)在哪里?第四頁,共82頁。根據(jù)IDC監(jiān)測,全球數(shù)據(jù)量大約每兩年翻一番,意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量,預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,相較于2010年,數(shù)據(jù)量將增長近30倍。

指數(shù)型增長的海量數(shù)據(jù)圖片來源:IBM;Cisco;comScore;MapReduce;Radicati

Group;Twitter;You

Tube第五頁,共82頁。?

什么是大數(shù)據(jù)?第六頁,共82頁。?準(zhǔn)確化(Veracity):浪里淘沙卻又彌足珍貴11/26/2012?社會(huì)80%的數(shù)據(jù)到底掌握哪里?政府、企業(yè)?今天的數(shù)字圖書館在業(yè)務(wù)流程的哪一端??“大數(shù)據(jù)”是一個(gè)用來描述海量的結(jié)構(gòu)化和非

結(jié)構(gòu)化數(shù)據(jù)的流行短語,這些數(shù)據(jù)的容量非常

巨大以至于很難用傳統(tǒng)的數(shù)據(jù)庫和軟件技術(shù)進(jìn)

行存儲(chǔ)、管理和處理。?大數(shù)據(jù)的特性可以用4V描述?大量化(Volume):存儲(chǔ)大;計(jì)算量大?多樣化(Variety):來源多;格式多?快速化(Velocity):增長速度快;處理速度要求快第七頁,共82頁。大數(shù)據(jù)的四個(gè)主要特征圖片來源:國金證券研究所第八頁,共82頁。?

大數(shù)據(jù)在哪里?第九頁,共82頁。

業(yè)務(wù)流程數(shù)據(jù)含天文望遠(yuǎn)鏡拍攝的圖像、視頻數(shù)據(jù)、氣象學(xué)里面的衛(wèi)星云圖數(shù)據(jù)等

科學(xué)大數(shù)據(jù)

含數(shù)據(jù)庫等

社會(huì)大數(shù)據(jù)

含SNS、微博、新聞

媒體、視頻網(wǎng)站、電

子商務(wù)、招聘信息等

個(gè)人大數(shù)據(jù)含個(gè)人實(shí)時(shí)位置、狀態(tài)、見聞、言論等

企業(yè)大數(shù)據(jù)含物聯(lián)網(wǎng)、聯(lián)通、移動(dòng)、電信等通信和互

聯(lián)網(wǎng)運(yùn)營商等

Big

Data

2011年產(chǎn)生與復(fù)制的信息量

超過1.8ZB

5年中增長了9倍第十頁,共82頁。?

數(shù)字圖書館的成就斐然第十一頁,共82頁。11/26/2012我國數(shù)字圖書館的成就斐然?

結(jié)構(gòu)化學(xué)術(shù)資源內(nèi)容豐富,結(jié)構(gòu)完整。包

括電子圖書、電子期刊、電子報(bào)紙、數(shù)據(jù)

庫、音視頻資源、網(wǎng)絡(luò)資源在內(nèi)的海量數(shù)

字資源?

數(shù)字圖書館將資源進(jìn)行有序組織,在一定

程度上突破了時(shí)間和空間的限制,為學(xué)術(shù)

界便捷地獲取信息與知識(shí)、社會(huì)數(shù)字閱讀第十二頁,共82頁。11/26/2012我國數(shù)字圖書館的成就斐然?

數(shù)字圖書館為社會(huì)構(gòu)建了一個(gè)資源共享的

公共服務(wù)平臺(tái),它集館藏、服務(wù)和人為一

體,延伸了傳統(tǒng)圖書館的服務(wù)功能?

我國的數(shù)字圖書館多數(shù)是聯(lián)合建設(shè)型圖書

館,多以政府投資的形式開展,注重館際

合作,共同爭取經(jīng)費(fèi)支持,以實(shí)現(xiàn)資源的

合理布局與共享第十三頁,共82頁。?

數(shù)字圖書館的建設(shè)與需求存在差距第十四頁,共82頁。數(shù)字圖書館與實(shí)體館資源同質(zhì)?數(shù)字圖書館處理的問題是數(shù)據(jù)資源數(shù)字化、音頻視頻信息的轉(zhuǎn)換、存貯和檢索以及多媒體信息技術(shù)的擴(kuò)展深化,但缺乏對(duì)海量數(shù)據(jù)的加工處理與管理服務(wù)。?從長遠(yuǎn)發(fā)展的角度來看,數(shù)字圖書館應(yīng)該進(jìn)行數(shù)字資源的深層次開發(fā),拓展對(duì)原始數(shù)據(jù)的挖掘、采集、組織、保存與利用,開拓一條數(shù)據(jù)資源主導(dǎo)型的發(fā)展新模式。?技術(shù)上的差距并不難彌補(bǔ),最大的差距是收集數(shù)據(jù)的意識(shí)。我們收集數(shù)據(jù)的意識(shí)不強(qiáng),對(duì)于數(shù)據(jù)在決策當(dāng)中的重要性認(rèn)識(shí)不夠,這才是數(shù)字圖書館最大的制約因素。第十五頁,共82頁。數(shù)字圖書館與實(shí)體館用戶同質(zhì)?因數(shù)字圖書館資源內(nèi)容多數(shù)為館藏資源的數(shù)字化,實(shí)體館用戶同質(zhì)的現(xiàn)象較為普遍。一些數(shù)字圖書館系統(tǒng)自成體系?走出實(shí)體館的象牙塔,實(shí)現(xiàn)不同用戶群體的信息共享與利用第十六頁,共82頁。11/26/2012

數(shù)字圖書館非結(jié)構(gòu)化數(shù)據(jù)空白大數(shù)據(jù)可以分成二種類型:?一是結(jié)構(gòu)化數(shù)據(jù)即行數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來實(shí)現(xiàn)的數(shù)據(jù)。?二是半結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù)這種數(shù)據(jù)包括電子郵件、辦公處理文檔,以及許多存儲(chǔ)在Web上的信息及圖像、音頻和視頻等可以被感知的信息。第十七頁,共82頁。?企業(yè)中80%是非結(jié)構(gòu)化或半結(jié)構(gòu)化的。世界結(jié)構(gòu)化數(shù)據(jù)增長率大概是32%,而非結(jié)構(gòu)化數(shù)據(jù)增長則是63%。至2012年,非結(jié)構(gòu)化數(shù)據(jù)占有比例將達(dá)到互聯(lián)網(wǎng)整個(gè)數(shù)據(jù)量的75%以上。?這些非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生往往伴隨著社交網(wǎng)絡(luò)、移動(dòng)計(jì)算和傳感器等新的渠道和技術(shù)的不斷涌現(xiàn)和應(yīng)用。?數(shù)字圖書館中,多數(shù)為數(shù)據(jù)庫建設(shè),非結(jié)構(gòu)化的數(shù)據(jù)內(nèi)容所占比重非常低。缺乏大數(shù)據(jù)的分析,數(shù)字圖書館很難融入企業(yè)等用戶群體的細(xì)節(jié)服務(wù)。數(shù)字圖書館非結(jié)構(gòu)化數(shù)據(jù)空白第十八頁,共82頁??茖W(xué)研究的變化要求數(shù)字圖書館大數(shù)據(jù)的支撐?科學(xué)研究的不斷變化轉(zhuǎn)型對(duì)數(shù)字圖書館的大數(shù)據(jù)利用提出了要求。?然而,數(shù)字圖書館缺乏大數(shù)據(jù)的利用,這無法迎合科學(xué)研究的變化要求。第十九頁,共82頁。11/26/2012研究變化了:數(shù)據(jù)驅(qū)動(dòng)的研究?????面向問題的研究面向數(shù)字與模擬的研究面向決策支持的研究面向創(chuàng)新驅(qū)動(dòng)的研究越來越依賴數(shù)據(jù)第二十頁,共82頁。11/26/2012學(xué)術(shù)交流模式已經(jīng)變化了

(學(xué)術(shù)交流融合)第二十一頁,共82頁。11/26/2012

傳統(tǒng)學(xué)術(shù)交流的四要素:

登記-鑒定-發(fā)現(xiàn)-保存?

Registration-establishing

the

intellectual

priority

of

an

idea,

concept,

or

research;?

Certification-certifying

the

quality

of

the

research

and/or

the

validity

of

the

claimed

finding;?

Awareness-ensuring

the

dissemination

and

accessibility

of

research,

providing

a

means

by

which

researchers

can

become

aware

of

new

research;

and?

Archiving-preserving

the

intellectual

heritage

for

future

use第二十二頁,共82頁。數(shù)字圖書館面臨新的研究需求

?

?

?

?

?

?11/26/2012E-Science海量數(shù)據(jù)科教結(jié)合協(xié)同創(chuàng)新產(chǎn)學(xué)研結(jié)合第四范式第二十三頁,共82頁。創(chuàng)新主體的轉(zhuǎn)移要求大數(shù)據(jù)?十八大報(bào)告指出,要更加注重協(xié)同創(chuàng)新,要構(gòu)建以企業(yè)為主體、市場為導(dǎo)向、產(chǎn)學(xué)研相結(jié)合的技術(shù)創(chuàng)新體系?產(chǎn)業(yè)轉(zhuǎn)型升級(jí)依賴于科技創(chuàng)新。這個(gè)過程萌芽于科學(xué)發(fā)現(xiàn),生長于成果轉(zhuǎn)化,科學(xué)發(fā)現(xiàn)就成了科技創(chuàng)新的原點(diǎn)?發(fā)現(xiàn)隱秘的消費(fèi)規(guī)律;微博和手機(jī)的普及、社交網(wǎng)絡(luò)的廣泛應(yīng)用使得以往幾乎不可能完成的一些人群活動(dòng)規(guī)律研究成為可能。例如人群在物理上如何移動(dòng)??全球多家互聯(lián)網(wǎng)巨頭都意識(shí)到“大數(shù)據(jù)”時(shí)代來臨的重要意義?;萜?、IBM、微軟等紛紛通過收購“大數(shù)據(jù)”相關(guān)廠商來實(shí)現(xiàn)技術(shù)整合。Gartner研究表明,全球500強(qiáng)中85%的企業(yè)將無法利用他們的大數(shù)據(jù)第二十四頁,共82頁。國際上的大數(shù)據(jù)開發(fā)趨勢強(qiáng)勁?2009年,歐洲一些領(lǐng)先的研究型圖書館和科技信息研究機(jī)構(gòu)建立了伙伴關(guān)系致力于改善在互聯(lián)網(wǎng)上獲取科學(xué)數(shù)據(jù)的簡易性。?2010年7月,聯(lián)合國發(fā)布了《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機(jī)遇(Big

Data

for

Development:

Challenges

&Opportunities)》白皮書,指出大數(shù)據(jù)對(duì)于全世界是一個(gè)歷史性的機(jī)遇,可以利用大數(shù)據(jù)造福人類。?2012年1月,瑞士達(dá)沃斯召開的世界經(jīng)濟(jì)論壇上,大數(shù)據(jù)是主題之一,會(huì)上發(fā)布的報(bào)告《大數(shù)據(jù),大影響:國際化發(fā)展的新機(jī)遇(Big

Data,

Big

Impact:New

Possibilitiesfor

International

Development

)》

宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類別,就像貨幣或黃金一樣。第二十五頁,共82頁。11/26/2012國際上的大數(shù)據(jù)開發(fā)趨勢強(qiáng)勁?

2009年5月,美國政府成立了名為Data.Gov的公共數(shù)據(jù)開放的門戶網(wǎng)站;?

2010年12月,奧巴馬政府出臺(tái)了《規(guī)劃數(shù)字化未來》的專門報(bào)告,把數(shù)據(jù)收集和使用的工作提到了戰(zhàn)略的高度。?

2012年3月,美國政府發(fā)布了《大數(shù)據(jù)研究和發(fā)展計(jì)劃》

,此項(xiàng)帶有2億多美元推動(dòng)資金的倡議,旨在通過推動(dòng)和改善與大數(shù)據(jù)相關(guān)的收集、組織和分析工具及技術(shù),提升從海量和復(fù)雜的數(shù)據(jù)集中獲取知識(shí)和洞察分析能力。奧巴馬則強(qiáng)調(diào)政府必須和公司、大學(xué)合作結(jié)盟,全民動(dòng)員來應(yīng)對(duì)“大數(shù)據(jù)”時(shí)代的挑戰(zhàn)。?

2012年5月,美國行政管理和預(yù)算局發(fā)布了《數(shù)字政府:

建立一個(gè)面向21世紀(jì)的平臺(tái)來更好服務(wù)美國人民(DigitalGovernment:

Building

a

21st

Century

Platform

to

Better

Servethe

American

People)》行政指令,旨在實(shí)現(xiàn)“隨時(shí)、隨地、任何設(shè)備”都能獲得政府信息資源,提高全社會(huì)服務(wù)的質(zhì)量。第二十六頁,共82頁。圖片來源:

McKinsey

Global

Institute:“Big

Data

The

next

frontier

forinnovation,

competition

and

productivity”(2011

5

月)麥肯錫評(píng)估報(bào)告中指出,大數(shù)據(jù)的應(yīng)用每年潛在可為美國醫(yī)療健康業(yè)和歐洲發(fā)達(dá)經(jīng)濟(jì)體政府分別節(jié)省3000億美金和2500億歐元的開支。利用個(gè)人位置信息潛在可創(chuàng)造出1000億美金的消費(fèi)者剩余。在國際社會(huì)的強(qiáng)力驅(qū)動(dòng)下,我國在大數(shù)據(jù)開放方面還有待進(jìn)一步的努力。

大數(shù)據(jù)的市場空間及對(duì)社會(huì)的貢獻(xiàn)第二十七頁,共82頁。?任何人在任何時(shí)間、任何地點(diǎn),可以獲得所需要的任何知識(shí),這是數(shù)字圖書館建設(shè)的美好愿景。?而當(dāng)前,多數(shù)數(shù)字圖書館服務(wù)系統(tǒng)都是基于門戶網(wǎng)站開展的服務(wù)。少數(shù)數(shù)字圖書館的服務(wù)范圍已從互聯(lián)網(wǎng)向移動(dòng)通信網(wǎng)、廣播電視網(wǎng)等網(wǎng)絡(luò)平臺(tái)逐步拓展,開展了移動(dòng)圖書館等新媒體服務(wù)建設(shè),但服務(wù)功能有限。?我國數(shù)字圖書館對(duì)用戶信息需求與信息獲取習(xí)慣的變化還不夠敏感,缺乏創(chuàng)新理念與服務(wù)機(jī)制,缺乏與業(yè)務(wù)流程的融合數(shù)字圖書館處在象牙塔遠(yuǎn)離創(chuàng)新前沿第二十八頁,共82頁。?

大數(shù)據(jù)對(duì)數(shù)字圖書館的挑戰(zhàn)第二十九頁,共82頁。11/26/2012

為何總是信息革命??

數(shù)字圖書館缺乏大數(shù)據(jù),導(dǎo)致

數(shù)字圖書館處在象牙塔?

科學(xué)研究的變化,要求數(shù)字圖

書館適應(yīng)新的需求?

創(chuàng)新主體的轉(zhuǎn)移,要求數(shù)字圖

書館適應(yīng)企業(yè)界的需要?

用戶信息素養(yǎng)的變化,要求數(shù)

字圖書館適應(yīng)社會(huì)搜尋的需要?

國際上圖書館的變化?

對(duì)數(shù)字圖書館的競爭第三十頁,共82頁。?

原生大數(shù)據(jù)的缺乏,與實(shí)體圖書館資源和用戶同質(zhì)現(xiàn)象?

非結(jié)構(gòu)化數(shù)據(jù)缺乏,數(shù)字圖書館通常都是在數(shù)據(jù)庫里存在的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)如聲音、視頻、音頻、圖片等可視可聽的數(shù)據(jù)空白?

數(shù)字圖書館中的數(shù)據(jù)則是在各種國內(nèi)外數(shù)據(jù)庫里存在的結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)的缺乏導(dǎo)致數(shù)字圖書館處在象牙塔中。數(shù)字圖書館缺乏大數(shù)據(jù),導(dǎo)致數(shù)字圖書館處在象牙塔第三十一頁,共82頁??茖W(xué)研究的變化,要求數(shù)字圖書館適應(yīng)新的需求?

現(xiàn)在越來越多新的學(xué)科領(lǐng)域,完全建立在大量數(shù)

據(jù)的基礎(chǔ)上,比如系統(tǒng)生物學(xué)(Systems

Biology)

、宏生態(tài)學(xué)(Macroecology)、基因組學(xué)(pure

Genomics)等。?

美國國家科學(xué)基金會(huì)和美國國家衛(wèi)生研究院將對(duì)大數(shù)據(jù)進(jìn)行聯(lián)合招標(biāo),旨在改進(jìn)核心科學(xué)與技術(shù)手段,提高從各種大型數(shù)據(jù)集中提取重要信息并對(duì)其進(jìn)行有效管理、分析和可視化能力,加速科技成果的產(chǎn)生,并帶領(lǐng)國家進(jìn)入一些全新的、以往不可企及的研究領(lǐng)域。第三十二頁,共82頁。33?

李國杰院士認(rèn)為:“長期以來,許多領(lǐng)域都是在用小數(shù)據(jù)做科學(xué)實(shí)驗(yàn),找出一個(gè)模型和規(guī)律?,F(xiàn)在越來越復(fù)雜,有一堆數(shù)據(jù)看上去沒有規(guī)律。科學(xué)家要找到新的研究方法,這種模式和方法的改變需要探索。要研究大數(shù)據(jù)的問題在哪兒,在應(yīng)用中發(fā)現(xiàn)什么技術(shù)難題,這些有針對(duì)性的問題,不是憑空想出來的,是需要實(shí)踐總結(jié)出來的?!?

從目前來看,大數(shù)據(jù)技術(shù)主要涵蓋的領(lǐng)域有可視化分析、數(shù)據(jù)挖掘算法、預(yù)測性分析能力、語義引擎、數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理等?

因此,數(shù)字圖書館應(yīng)適應(yīng)科學(xué)研究變化的新領(lǐng)域、新技術(shù)與新需求,推動(dòng)數(shù)字圖書館的發(fā)展第三十三頁,共82頁。創(chuàng)新主體的轉(zhuǎn)移,要求數(shù)字圖書館適應(yīng)企業(yè)界的需要?

黨的十八大:

要構(gòu)建以企業(yè)為主體、市場為

導(dǎo)向、產(chǎn)學(xué)研相結(jié)合的技術(shù)創(chuàng)新體系(2012年

11月8日)?

全國科技創(chuàng)新大會(huì),推進(jìn)科技與經(jīng)濟(jì)結(jié)合(2012年7月6日)?

技術(shù)創(chuàng)新企業(yè)主體地位第三十四頁,共82頁。大數(shù)據(jù)概覽圖片來源:互聯(lián)網(wǎng)

國金證券研究所第三十五頁,共82頁。11/26/2012?

從上圖的大數(shù)據(jù)概覽中可以看到企業(yè)作為創(chuàng)新主體的重要

作用。?

企業(yè)應(yīng)用還是大數(shù)據(jù)的主要推動(dòng)者。生物、醫(yī)學(xué)、天文、

環(huán)境、物理、工程、經(jīng)濟(jì)、互聯(lián)網(wǎng)等諸多領(lǐng)域涉及大數(shù)據(jù)

的處理和應(yīng)用。?

自2005年以來,IBM投資160億美元進(jìn)行了30次與大數(shù)據(jù)有

關(guān)的收購,促使其業(yè)績穩(wěn)定高速增長。2012年,IBM股價(jià)

突破200美元大關(guān),3年之內(nèi)翻了3倍。華爾街早就開始招

聘精通數(shù)據(jù)分析的天文學(xué)家和理論數(shù)學(xué)家來設(shè)計(jì)金融產(chǎn)品

。IBM現(xiàn)在是全球數(shù)學(xué)博士的最大雇主,數(shù)學(xué)家正在將其

數(shù)據(jù)分析的才能應(yīng)用于石油勘探、醫(yī)療健康等各個(gè)領(lǐng)域。

eBay通過數(shù)據(jù)挖掘可以精確計(jì)算出廣告中的每一個(gè)關(guān)鍵字

為公司帶來的回報(bào)。第三十六頁,共82頁。?

大數(shù)據(jù)應(yīng)用也早已在商業(yè)領(lǐng)域應(yīng)用。金蝶他們參與搭建的全國中小企業(yè)信息平臺(tái),匯集了4000萬家企業(yè),通過對(duì)這些企業(yè)海量數(shù)據(jù)的挖掘和分析,能對(duì)經(jīng)濟(jì)運(yùn)行狀況作出準(zhǔn)確的預(yù)警?

在微觀經(jīng)濟(jì)領(lǐng)域,“大數(shù)據(jù)”的作用也越發(fā)凸顯。天氣預(yù)報(bào)的信息和數(shù)據(jù)可以幫助農(nóng)業(yè)的種植者在特定季節(jié)中避免遭受氣象災(zāi)害?

在企業(yè)管理上,大數(shù)據(jù)可以用來決策下一步的投資、戰(zhàn)略部署、產(chǎn)品研發(fā)。”第三十七頁,共82頁。用戶信息素養(yǎng)的變化,要求數(shù)字圖書館適應(yīng)社會(huì)搜尋的需要?

今天的圖書館用戶研究不像從前?

從大量的數(shù)據(jù)中分析潛在的價(jià)值決定著大數(shù)據(jù)時(shí)代的圖書館的發(fā)展水平及方向。?

隨著個(gè)性化、學(xué)科化等越來越專業(yè)、編輯服務(wù)的實(shí)施與出現(xiàn),用戶的服務(wù)要求也日益提高?

在大數(shù)據(jù)時(shí)代,圖書館的數(shù)據(jù)處理范圍、方式、對(duì)象、目的等將發(fā)生巨大的變化?

在大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)增值第三十八頁,共82頁。11/26/2012圖書館需要融于社區(qū)第三十九頁,共82頁。國際上圖書館的變化?

ARL報(bào)告第四十頁,共82頁。11/26/2012

We

have

seen

in

recent

years

it

can

be

argued

that:?

Many

users

now

have

the

skills

and

access

to

technologies

to

find

and

access

resources

which

previously

were

mediated

by

librarians.?

We

are

seeing

a

decrease

in

the

importance

of

finding

via

metadata

and

an

increase

in

the

importance

of

social

discovery.第四十一頁,共82頁。11/26/2012Focussing

on

the

technologicaldevelopments

we

have

seen

in

recentyears

it

can

be

argued

that:?

Many

users

now

have

the

skills

and

access

totechnologies

to

find

and

access

resourceswhich

previously

were

mediated

by

librarians.?

We

are

seeing

a

decrease

in

the

importance

offinding

via

metadata

and

an

increase

in

theimportance

of

social

discovery.第四十二頁,共82頁。11/26/2012?

We

are

seeing

a

decrease

in

the

importance

oflibraries

providing

access

to

trusted

resources.Instead

users

now

wish

to

access

resourcesthey

find

in

the

wild

but

will

need

to

be

ableto

evaluate

such

resources.?

We

are

seeing

a

decrease

in

an

unquestioningbelief

in

the

value

of

libraries

and

librariansand

a

need

for

the

sector

to

be

able

todemonstrate

value

and

pro-actively

marketthemselves.第四十三頁,共82頁。對(duì)數(shù)字圖書館的競爭?

對(duì)于社會(huì)中以知識(shí)存貯、利用與開發(fā)為己任的

圖書館來說,在這個(gè)“大數(shù)據(jù)”時(shí)代如何提高

海量增長的文獻(xiàn)處理能力,搜尋新的數(shù)據(jù)計(jì)算、

知識(shí)發(fā)現(xiàn)及信息服務(wù)的新途徑,面臨挑戰(zhàn)?

數(shù)字圖書館應(yīng)由靜態(tài)發(fā)展轉(zhuǎn)向動(dòng)態(tài)發(fā)展,將數(shù)字圖書館與產(chǎn)業(yè)、社區(qū)結(jié)合在一起第四十四頁,共82頁。?

數(shù)字圖書館的對(duì)策探

討:向業(yè)務(wù)流程上游移動(dòng)第四十五頁,共82頁。數(shù)字圖書館的對(duì)策探討?

非結(jié)構(gòu)化大數(shù)據(jù)開發(fā)?

分布式大數(shù)據(jù)開發(fā)?

大數(shù)據(jù)開發(fā)相關(guān)技術(shù)?

領(lǐng)域大數(shù)據(jù)開發(fā)?

原生大數(shù)據(jù)開發(fā)?

特藏大數(shù)據(jù)開發(fā)第四十六頁,共82頁。大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)急劇增長?

大數(shù)據(jù)時(shí)代的數(shù)據(jù)膨脹導(dǎo)致圖書館無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、處理和管理。?

這些數(shù)據(jù)主要有兩類情況:一類是原有數(shù)據(jù)種類量的增加另一類是過去我們沒有關(guān)心或沒有能力關(guān)心的數(shù)據(jù):如社交媒體、實(shí)時(shí)位置、智能設(shè)備、傳感器計(jì)量等復(fù)雜業(yè)務(wù)數(shù)據(jù)第四十七頁,共82頁。

非結(jié)構(gòu)化大數(shù)據(jù)開發(fā)

大數(shù)據(jù)環(huán)境下,圖片、音頻、視頻、XML、HTML、辦公文檔、各類報(bào)表等非結(jié)構(gòu)化數(shù)據(jù)大量增加。圖片來源:甲骨文公司(《從非結(jié)構(gòu)化數(shù)據(jù)到大數(shù)據(jù)(Big

Data)》)第四十八頁,共82頁。非結(jié)構(gòu)化大數(shù)據(jù)開發(fā)?

大數(shù)據(jù)分析經(jīng)常會(huì)用到存儲(chǔ)數(shù)據(jù)庫來快速處理大量記錄的數(shù)據(jù)流通。一、結(jié)構(gòu)化數(shù)據(jù):?

海量數(shù)據(jù)的查詢、統(tǒng)計(jì)、更新等操作效率低二、非結(jié)構(gòu)化數(shù)據(jù)?

圖片、視頻、word、pdf、ppt等文件存儲(chǔ)?

以多種物理的和邏輯的格式存儲(chǔ)的,而且儲(chǔ)存地點(diǎn)具有分散

性,其內(nèi)容可能存儲(chǔ)于圖書館內(nèi)部的不同設(shè)備之中以及圖書

館外部。?

不利于檢索、查詢和存儲(chǔ)三、

半結(jié)構(gòu)化數(shù)據(jù)?

轉(zhuǎn)換為結(jié)構(gòu)化存儲(chǔ)?

按照非結(jié)構(gòu)化存儲(chǔ)第四十九頁,共82頁。圖片來源:甲骨文公司(《從非結(jié)構(gòu)化數(shù)據(jù)到大數(shù)據(jù)(Big

Data)》)結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理

甲骨文公司的大數(shù)據(jù)解決方案:第五十頁,共82頁。

分布式大數(shù)據(jù)開發(fā)?

如何從海量數(shù)據(jù)中發(fā)現(xiàn)特定知識(shí),如何高效地處理海量數(shù)

據(jù),幾乎是任何一個(gè)信息分析機(jī)構(gòu)要面對(duì)的問題。大規(guī)模

非結(jié)構(gòu)化數(shù)據(jù)的激增,需要分布式大規(guī)模數(shù)據(jù)庫的開發(fā)。

目前,如果不談架構(gòu)層面上傳統(tǒng)的IaaS、PaaS與SaaS,就

數(shù)以分布式與虛擬化為主要代表的云計(jì)算技術(shù)被普遍接受。圖片來源:中信證券,張新峰,大數(shù)據(jù)(Big

Data)專題研究報(bào)告《大數(shù)據(jù)大市場大機(jī)遇》第五十一頁,共82頁。分布式大數(shù)據(jù)開發(fā)?

目前,云數(shù)據(jù)管理技術(shù)因其低成本、去中心化、

可無限水平擴(kuò)展、可無間歇在線擴(kuò)展和海量數(shù)

據(jù)管理能力,在很多領(lǐng)域取得明顯成功,如

Google,Amazon,國內(nèi)的淘寶等?;谠萍夹g(shù)

的分布式大規(guī)模數(shù)據(jù)庫將全面替代主流關(guān)系數(shù)

據(jù)庫的呼聲越來越高。?

分布式計(jì)算技術(shù)可對(duì)海量數(shù)據(jù)進(jìn)行分析以實(shí)時(shí)

得出答案。云計(jì)算是分布式計(jì)算、并行計(jì)算和

網(wǎng)格計(jì)算的發(fā)展,是實(shí)時(shí)分析與NoSQL數(shù)據(jù)功

能的結(jié)合。第五十二頁,共82頁。

分布式大數(shù)據(jù)開發(fā)?

云計(jì)算的數(shù)據(jù)存儲(chǔ)技術(shù)主要有Google的非開源的GFS(

Google

file

system)

和Hadoop的GFS

開源實(shí)現(xiàn)HDFS

(

Hadoop

distributed

file

system)

。?

以Google為代表的云計(jì)算以其應(yīng)用簡單、高效得到了廣泛

認(rèn)可。它通過在分布式文件系統(tǒng)GFS基礎(chǔ)之上的MapReduce

編程模型以及廉價(jià)集群的建立,解決了許多大規(guī)模數(shù)據(jù)的

計(jì)算問題。?

由雅虎資助的開源項(xiàng)目Hadoop,是一個(gè)類似于Google

云計(jì)

算的技術(shù)平臺(tái),專注于海量數(shù)據(jù)存儲(chǔ)、處理的分布式系統(tǒng),同時(shí)提供了基于Java的MapReduce框架,能夠?qū)⒎植际綉?yīng)用部署到大型廉價(jià)集群上。與此同時(shí),Hadoop在圖書館也得到了應(yīng)用。例如,Nutch搜索引擎中的分布式搜索、索引等。第五十三頁,共82頁。

以Hadoop云計(jì)算平臺(tái)為例?

Hadoop是Apache開源組織的一個(gè)分布式計(jì)算開

源框架,它基于廉價(jià)PC服務(wù)器,專注于海量數(shù)

據(jù)存儲(chǔ)、處理的分布式系統(tǒng)。?

Hadoop具備低廉的硬件成本、開源的軟件體系、

較強(qiáng)的靈活性、允許用戶自己修改代碼等特點(diǎn),

同時(shí)能支持海量數(shù)據(jù)存儲(chǔ)和計(jì)算任務(wù)。?

Hadoop提供由Java

實(shí)現(xiàn)的Map-Reduce技術(shù)框

架,能夠?qū)⒎植际綉?yīng)用部署到廉價(jià)服務(wù)器上。

同時(shí)為應(yīng)用程序提供了一組穩(wěn)定可靠的接口。?

Hadoop框架中最核心的設(shè)計(jì)是Map-Reduce和

HDFS。第五十四頁,共82頁。

Map-Reduce分布式計(jì)算?

Hadoop

中的Map-Reduce是一個(gè)軟件框架,基于它寫出來的應(yīng)用

程序能夠運(yùn)行在大型集群上,并以一種可靠容錯(cuò)的方式并行處理

大規(guī)模的數(shù)據(jù)集。?

Map-Reduce

模型使用函數(shù)Map分割數(shù)據(jù)和函數(shù)Reduce合并數(shù)據(jù)。圖片來源:《云計(jì)算與大數(shù)據(jù)----

新一代第五十五頁,共82頁。數(shù)字圖書館體系結(jié)構(gòu)預(yù)測用戶行為日志、微博HDFS用戶信息NoSQLDataBase大數(shù)據(jù)集縮減

針對(duì)用戶的

最佳推送

批處理查詢、借閱

信息內(nèi)容推送

用戶管理

數(shù)字圖書館用戶信

系統(tǒng)

息系統(tǒng)技術(shù)架構(gòu)客戶端應(yīng)用層(SAAS)

應(yīng)用

平臺(tái)門戶網(wǎng)站、用戶管理、搜索引擎等數(shù)據(jù)處理接口數(shù)據(jù)分塊、數(shù)據(jù)合并、Map、Reduce集群

VM主機(jī)

Hadoop

Map-Reduce

HDFS負(fù)載均衡、容錯(cuò)機(jī)制、資源管理平臺(tái)層(PAAS)基礎(chǔ)設(shè)施層(IAAS)虛擬化層

計(jì)算/

存儲(chǔ)/

網(wǎng)絡(luò)/

應(yīng)用/

服務(wù)器

虛擬化實(shí)體層CUP/存儲(chǔ)/網(wǎng)絡(luò)/IO/計(jì)算/其他資源第五十六頁,共82頁。大數(shù)據(jù)開發(fā)的相關(guān)技術(shù)?

大數(shù)據(jù)開發(fā)是建立在一個(gè)獲取、組織和分析范式之上的:?

1、獲取:大數(shù)據(jù)開發(fā)方案必須能夠以高速度獲得海量數(shù)據(jù)。這通常要通過服務(wù)器群集來傳播大量文檔和存儲(chǔ),每個(gè)服務(wù)器都在各自的本地磁盤上存儲(chǔ)整體數(shù)據(jù)的一個(gè)子集,雖然有很多方案,但Hadoop和NoSQL是提供這一功能兩個(gè)最基本的技術(shù)。?

2、組織:從大規(guī)模的非結(jié)構(gòu)化數(shù)據(jù)中識(shí)別和提取有用的信息,而不移動(dòng)這些數(shù)據(jù)的組織能力是十分必要的。Hadoop

Map-Reduce框架通過分布在群集中的所有服務(wù)器上處理工作來提供這一功能。通過各節(jié)點(diǎn)返回主節(jié)點(diǎn)的高度綜合的數(shù)據(jù)可以被其他統(tǒng)計(jì)工具分析或載入傳統(tǒng)的數(shù)據(jù)倉儲(chǔ)中。第五十七頁,共82頁。NoSQL非關(guān)系型數(shù)據(jù)庫?

NoSQL=Not

Only

SQL?

NoSQL在很多情況下又叫做云數(shù)據(jù)庫。處理數(shù)據(jù)的模式完全是分布于各種低成本PC服務(wù)器和存儲(chǔ)磁盤。?

NoSQL結(jié)構(gòu)解決了關(guān)鍵數(shù)據(jù)集成的統(tǒng)一接口問題,強(qiáng)調(diào)高吞吐、高并發(fā)、高可用、高分區(qū)容錯(cuò)性。?

不用將數(shù)據(jù)進(jìn)行歸類組織,能處理各種類型的文檔,數(shù)據(jù)格式靈活多變,沒有標(biāo)準(zhǔn),模型簡單。?

大部分?jǐn)?shù)據(jù)關(guān)系僅需建立一次,數(shù)據(jù)結(jié)構(gòu)和結(jié)構(gòu)之間的關(guān)系穩(wěn)定,不再經(jīng)常變化;變化的只是數(shù)據(jù)值第五十八頁,共82頁。大數(shù)據(jù)開發(fā)的相關(guān)技術(shù)?

3、分析:經(jīng)過組織的大數(shù)據(jù)可以被傳統(tǒng)的數(shù)據(jù)

分析工具分析,如加載匯總數(shù)據(jù)到數(shù)據(jù)倉儲(chǔ)。目

前已有專門的大數(shù)據(jù)處理引擎,提供基于數(shù)據(jù)庫

分析(In-database)和內(nèi)存分析(In-memory)。?

數(shù)據(jù)庫分析進(jìn)行動(dòng)態(tài)數(shù)據(jù)管理,目的在于分析和報(bào)告數(shù)據(jù)運(yùn)行情況、減少數(shù)據(jù)移動(dòng)和促進(jìn)更好的數(shù)據(jù)管理。使用可擴(kuò)展的數(shù)據(jù)庫架構(gòu),進(jìn)行庫內(nèi)分析,可以減少數(shù)據(jù)準(zhǔn)備的時(shí)間,構(gòu)建、導(dǎo)出和更新分析模型。?

內(nèi)存分析可以迅速解決大數(shù)據(jù)的復(fù)雜分析問題,使用內(nèi)存和多用數(shù)據(jù)接口快速運(yùn)行復(fù)雜的新計(jì)算。用戶可即時(shí)對(duì)數(shù)據(jù)檢索和可視化、構(gòu)建和導(dǎo)出分析模型并完成具體業(yè)務(wù)和挑戰(zhàn)。這些都是在分布式的內(nèi)存中進(jìn)行的,而非在一個(gè)磁盤中。第五十九頁,共82頁。一、支持對(duì)象存儲(chǔ)的統(tǒng)一存儲(chǔ)技術(shù)?

文件+元數(shù)據(jù)=對(duì)象?

元數(shù)據(jù)通常稱為“關(guān)于數(shù)據(jù)的數(shù)據(jù)”,是有效管理、共享和存儲(chǔ)信息的最重要因素,可以實(shí)現(xiàn)大數(shù)據(jù)的集成和循環(huán)利用。?

大數(shù)據(jù)時(shí)代增長幅度最大的非結(jié)構(gòu)化數(shù)據(jù),將通過互聯(lián)網(wǎng)協(xié)議以文件或?qū)ο蟮男问教峁_@些數(shù)據(jù)可增長至成百上千的拍字節(jié)和數(shù)十億個(gè)對(duì)象,?

除了需要更大的文件系統(tǒng)和可擴(kuò)展的模塊存儲(chǔ)系統(tǒng)外,還需要對(duì)文件、模塊和對(duì)象數(shù)據(jù)存儲(chǔ)進(jìn)行融合。通過消除數(shù)據(jù)保護(hù)的備份成本,數(shù)據(jù)分析的ETL(提取、轉(zhuǎn)換和加載)成本以及文件、模塊和對(duì)象存儲(chǔ)孤島的管理成本來提高存儲(chǔ)效率。其它大數(shù)據(jù)相關(guān)技術(shù)第六十頁,共82頁。?

數(shù)據(jù)挖掘技術(shù)可以對(duì)關(guān)系數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),

或是文本、圖形、圖像數(shù)據(jù)等半結(jié)構(gòu)化數(shù)據(jù),甚

至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)進(jìn)行采集。三、可視化技術(shù)?

由于難以以數(shù)據(jù)的形式清晰地進(jìn)行觀察海量信息,

所以要通過直觀、生動(dòng)的可視化圖形對(duì)數(shù)據(jù)進(jìn)行

展示數(shù)據(jù)的關(guān)系和結(jié)構(gòu)。大數(shù)據(jù)時(shí)代迅速增長的

非結(jié)構(gòu)化數(shù)據(jù)也需要可視化技術(shù)向用戶展現(xiàn)。?

非結(jié)構(gòu)化數(shù)據(jù)的可視化編輯系統(tǒng)用超圖模型的方

法,將傳統(tǒng)方法所不能表示的非結(jié)構(gòu)化數(shù)據(jù)用超

圖模型統(tǒng)一表示,并能在數(shù)據(jù)庫中有效的存儲(chǔ),

而且提供給用戶一個(gè)交互式的界面。

其它大數(shù)據(jù)相關(guān)技術(shù)二、數(shù)據(jù)挖掘技術(shù)第六十一頁,共82頁??梢暬P(guān)系圖第六十二頁,共82頁。資料來源:國金證券(《大數(shù)據(jù)引領(lǐng)我們走向數(shù)據(jù)智能化時(shí)代——BigData專題報(bào)告》)領(lǐng)域大數(shù)據(jù)開發(fā)第六十三頁,共82頁。領(lǐng)域大數(shù)據(jù)開發(fā)?

政府投入大數(shù)據(jù)開發(fā),形成示范效應(yīng),以推動(dòng)大數(shù)據(jù)的發(fā)展。?

在民生領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù),提升服務(wù)能力和運(yùn)作效率,以及個(gè)性化的服務(wù),比如醫(yī)療、衛(wèi)生、教育等部門;?

在安防領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù),提高應(yīng)急處置能力和安全防范能力;?

在金融、電信等領(lǐng)域投資建立大數(shù)據(jù)的處理分析手段,實(shí)現(xiàn)綜合治理、業(yè)務(wù)開拓等目標(biāo)。第六十四頁,共82頁。三峽工程長江中下

游干旱臺(tái)風(fēng)

梅花

日本核輻射氣象輿情監(jiān)測

?對(duì)氣候的影響

極端天氣頻發(fā),有多少

是人為之禍?公眾對(duì)氣

象部門的氣象服務(wù)有了

全新的期待。依托數(shù)據(jù)中心與云服務(wù)平臺(tái),拓爾思大數(shù)據(jù)管理系統(tǒng)還原熱點(diǎn)氣象事件引發(fā)的網(wǎng)絡(luò)輿情,總結(jié)氣象部門應(yīng)對(duì)氣象危機(jī)的得失,為氣象部門開拓氣象服務(wù)新領(lǐng)域、提升氣象服務(wù)水平提供參考。中國氣象局大數(shù)據(jù)管理資料來源:北京拓爾思公司(《理解大數(shù)據(jù),實(shí)踐大數(shù)據(jù)》)第六十五頁,共82頁。氣象信息月度走勢圖年度熱門氣象事件排行榜全國氣象輿情熱度概覽氣象口碑媒體分布圖中國氣象局大數(shù)據(jù)管理

借助數(shù)據(jù)中心的大數(shù)據(jù)與云服務(wù)平臺(tái),拓爾思大

數(shù)據(jù)管理系統(tǒng)為氣象局提供了全面的多維度分析。資料來源:北京拓爾思公司(《理解大數(shù)據(jù),實(shí)踐大數(shù)據(jù)》第六十六頁,共82頁。原生大數(shù)據(jù)開發(fā)?

原生數(shù)字資源被普遍認(rèn)為是在產(chǎn)生之初無相同物理替代形態(tài)的數(shù)字信息。由于

原生數(shù)字資源

沒有其他的存儲(chǔ)形式,原生大數(shù)據(jù)的開發(fā)、采集、組織和保存工作更需得到圖書館重視。?

OCLC對(duì)于原生數(shù)字資源的分類有:數(shù)碼照片、數(shù)字文檔、網(wǎng)絡(luò)存檔、數(shù)字手稿、電子記錄、靜態(tài)數(shù)據(jù)集、動(dòng)態(tài)數(shù)據(jù)、數(shù)字藝術(shù)、數(shù)字媒體出版物。第六十七頁,共82頁。

原生大數(shù)據(jù)開發(fā)1、數(shù)碼照片

使用數(shù)碼相機(jī)拍攝的數(shù)碼照片是增長最快的

一種原生數(shù)據(jù)。保存的重點(diǎn)在于將其以當(dāng)前的

主流形式拷貝在同時(shí)時(shí)期的可持久使用的媒介

上。為保護(hù)照片的完整和原始,還要注意色彩

空間與壓縮。2、數(shù)字文檔

如今基本所有的文檔文件都是以數(shù)字形式創(chuàng)建的。是否保持其紙本或數(shù)字形式是一個(gè)基本而又重要的問題。以創(chuàng)建文檔的軟件區(qū)分這些數(shù)字文檔,繼續(xù)保留如PDF等標(biāo)準(zhǔn)格式的文檔。第六十八頁,共82頁。原生大數(shù)據(jù)開發(fā)3、網(wǎng)站存檔

機(jī)構(gòu)可以自己通過互聯(lián)網(wǎng)捕捉網(wǎng)絡(luò)快照,以獲得集中的存檔:國家圖書館可以對(duì)該國的網(wǎng)站進(jìn)行存檔;大學(xué)可以對(duì)某領(lǐng)域內(nèi)容進(jìn)行存檔。這些檔案可能集中于某一特定主題或事件??梢詫⑦@些檔案以ISO標(biāo)準(zhǔn)WARC文件格式保存;可以通過互聯(lián)網(wǎng)檔案的開源開發(fā)工具來抓取和訪問內(nèi)容。第六十九頁,共82頁。原生大數(shù)據(jù)開發(fā)4、數(shù)字手稿可向手稿提供者推薦修改、組織、命名文件的方法和保存文件的格式與媒介。大多數(shù)收集來的手稿只需稍作處理以保障內(nèi)容即可。只有極少數(shù)作者的手稿值得進(jìn)行仿真重建以作收藏。5、電子記錄這類記錄包括政府文件和公司、機(jī)構(gòu)、組織檔案。這類數(shù)據(jù)多處于文字處理格式的資料中,包括電子郵件、數(shù)據(jù)庫、電子表格、說明和其他類型的文件。由于其中一些只能通過專用軟件讀取,所以最好能從專有格式中將其抽取出來。第七十頁,共82頁。原生大數(shù)據(jù)開發(fā)6、靜態(tài)數(shù)據(jù)集靜態(tài)數(shù)據(jù)集是建立在研究過程中,并且是未來研究的基礎(chǔ)。但靜態(tài)數(shù)據(jù)集的創(chuàng)建往往沒有考慮保存和以后訪問的問題,一些數(shù)據(jù)集需要特殊的軟件和文件才能使用。因此,樣品的性質(zhì)、收集數(shù)據(jù)的方法、軟件的使用等背景信息都應(yīng)予以保留。7、動(dòng)態(tài)數(shù)據(jù)動(dòng)態(tài)數(shù)據(jù)是指在系統(tǒng)應(yīng)用中隨時(shí)間變化而改變的數(shù)據(jù),例如社交網(wǎng)絡(luò)上的大量社會(huì)信息??梢酝ㄟ^建立動(dòng)態(tài)數(shù)據(jù)中心和自動(dòng)化管理平臺(tái),進(jìn)行基于分布式數(shù)據(jù)庫的即時(shí)管理。第七十一頁,共82頁。

原生大數(shù)據(jù)開發(fā)8、數(shù)字藝術(shù)

數(shù)字藝術(shù)可以是數(shù)字?jǐn)z影等簡單形式,也可以是混合媒介的、動(dòng)態(tài)的、更為復(fù)雜的形式。9、數(shù)字媒體出版物

它們定期以數(shù)字形式發(fā)表。如音樂、電影、

視頻和游戲等商業(yè)出版物可以被放入其它可

替代的媒介中。對(duì)于一些類似早期電影的已

經(jīng)失去商業(yè)價(jià)值的內(nèi)容,由于版權(quán)和許可問

題,圖書館很難采取行動(dòng)防止其在老化和衰

減過程中流失。第七十二頁,共82頁。特藏大數(shù)據(jù)管理?

大數(shù)據(jù)環(huán)境下,一個(gè)圖書館沒有必要也不可能將它的全部館藏?cái)?shù)字化。?

但圖書館必須將優(yōu)先對(duì)在某一方面形成了一定規(guī)模的、結(jié)構(gòu)比較完整的文獻(xiàn)資源特別是原生信息資源,進(jìn)行有系統(tǒng)、有組織地開發(fā)整理,以真正發(fā)揮數(shù)字圖書館的規(guī)模效益。?

例如美國國會(huì)圖書館的“美國記憶”項(xiàng)目,收集整理了照片、手稿、海報(bào)、樂譜、地圖、錄音、動(dòng)態(tài)圖像等記載美國歷史文化的特藏。第七十三頁,共82頁。特藏大數(shù)據(jù)管理?

OCLC于2010年11月發(fā)布的調(diào)查結(jié)果顯示,館藏空間、原生資源和數(shù)字化問題是館藏大數(shù)據(jù)管理的三大最具挑戰(zhàn)性的問題。?

經(jīng)過長時(shí)間的努力,仍有一半的檔案收集不在線,用戶需求仍然無法滿足;雖然減少了許多積壓,而幾乎同樣多的在繼續(xù)增長;原生數(shù)字資源管理仍處于起步階段。第七十四頁,共82頁。特藏大數(shù)據(jù)管理1、數(shù)字化?

完善大規(guī)模特色館藏?cái)?shù)字化模式,包括選擇合適的資源、安全保護(hù)與操作、創(chuàng)建可持續(xù)元數(shù)據(jù)等;?

確定要數(shù)字化的不可多得的好書的范圍,挑出那些有開放存取許可的;?

確定完成合作項(xiàng)目主體的最重要的差距所在。第七十五頁,共82頁。

特藏大數(shù)據(jù)管理2、原生數(shù)字檔案資料?

定義原生數(shù)字檔案資料的特征,作為“特

色館藏”的重要依據(jù);?

制定一套合理的基本步驟和一個(gè)長期計(jì)劃,

管理原生數(shù)字檔案資料;?

為原生數(shù)字檔案資料的選擇、管理和保存

開發(fā)使用案例和成本模型。第七十六頁,共82頁。特藏大數(shù)據(jù)管理3、館藏?

確定限制合作館藏發(fā)展的障礙,將關(guān)鍵特色和預(yù)期效果有效結(jié)合;?

風(fēng)險(xiǎn)性資料4、人員5、長期保存第七十七頁,共82頁。?????

向業(yè)務(wù)流程上游移動(dòng)數(shù)字圖書館參與業(yè)務(wù)大循環(huán)與數(shù)據(jù)供應(yīng)商合作與出版合作與企業(yè)合作我高興看到:CALIS啟動(dòng)科學(xué)數(shù)據(jù)項(xiàng)目,中國科技

信息研究所啟動(dòng)科技報(bào)告項(xiàng)目,國家圖書館啟動(dòng)

國家記憶項(xiàng)目。我希望國家加大對(duì)這些項(xiàng)目的支

持力度。通過探索,積累經(jīng)驗(yàn),為圖書館迎接大

數(shù)據(jù)時(shí)代做出貢獻(xiàn)!11/26/2012第七十八頁,共82頁。??????本演講參考了國內(nèi)外作者的

著作,特此致謝![1]

Big

Data

The

Next

Frontier

for

Innovation,

Competition,

andProductive,

McKinsey

Global

Institute,

2011.5[2]

Big

Data

for

Development:

Challenges

&

Opportunities,

UN

GlobalPulse,

2012.5[3]Digital

Government:

Building

a

21st

Century

Platform

to

Better

Servethe

American

People,

the

office

of

Management

and

Budger,

2012.5[4]

Obama

Administration

Unveils

“Big

Data”Initiative:

Announces

$200Million

in

New

R&DInvestments,

Executive

Office

of

the

President,

2012.3[5]

Big

Data

Across

the

Federal

Government,

Executive

Office

of

thePresident,

2012.3?[6]Big

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論