版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)技術(shù)–導(dǎo)論周可k.zhou@華中科技大學(xué)1內(nèi)容什么是大數(shù)據(jù)研究背景深入思考23什么是大數(shù)據(jù)定義1:
大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合(維基百科定義)Bigdatausuallyincludesdatasetswithsizesbeyondtheabilityofcommonly-usedsoftwaretoolstocapture,curate,manage,andprocessthedatawithinatolerableelapsedtime.---Wiki4什么是大數(shù)據(jù)定義2:3VBigDataarehigh-volume,high-velocity,and/orhigh-varietyinformationassetsthatrequirenewformsofprocessingtoenableenhanceddecisionmaking,insightdiscoveryandprocessoptimization--Gartner
大數(shù)據(jù)的4V特性VolumeVolumeVarietyVolume模態(tài)多樣VeracityVolume真?zhèn)坞y辨VelocityVolume速度極快體量巨大文本視頻圖片音頻到2020年,數(shù)據(jù)總量達40ZB,人均5.2TB分享的內(nèi)容條目超過25億個/天,增加數(shù)據(jù)超過500TB/天5大數(shù)據(jù)及其4V特征海量數(shù)據(jù)規(guī)模(volume):TB級PB級快速處理(velocity):快速數(shù)據(jù)流轉(zhuǎn)和動態(tài)數(shù)據(jù)體系多樣數(shù)據(jù)類型(variety):數(shù)據(jù)類型繁雜巨大數(shù)據(jù)價值(value):價值稀疏、多樣、不確定值得關(guān)注的大數(shù)據(jù)的若干研究方向分布式數(shù)據(jù)存儲與管理:對大數(shù)據(jù)進行存儲與管理數(shù)據(jù)挖掘與商務(wù)智能:對大數(shù)據(jù)規(guī)律進行挖掘與發(fā)現(xiàn)物聯(lián)網(wǎng)與CPS:產(chǎn)生與形成大數(shù)據(jù)云計算及服務(wù)平臺:存儲和處理大數(shù)據(jù)及其業(yè)務(wù)關(guān)注點:海量數(shù)據(jù)處理=>分布式存儲與管理=>云計算=>
數(shù)據(jù)挖掘與分析=>海量業(yè)務(wù)處理=>大服務(wù)7什么是大數(shù)據(jù)定義3:
當(dāng)數(shù)據(jù)的規(guī)模和性能要求成為數(shù)據(jù)管理分析系統(tǒng)的重要設(shè)計和決定因素時,這樣的數(shù)據(jù)就被稱為大數(shù)據(jù)不是簡單地以數(shù)據(jù)規(guī)模來界定大數(shù)據(jù),要考慮數(shù)據(jù)查詢與分析的復(fù)雜程度以目前計算機硬件的發(fā)展水平看針對簡單查詢(如關(guān)鍵字搜索),數(shù)據(jù)量為TB至PB級時可稱為大數(shù)據(jù)針對復(fù)雜查詢(如數(shù)據(jù)挖掘),數(shù)據(jù)量為GB至TB級時即可稱為大數(shù)據(jù)8什么是大數(shù)據(jù)定義4:
大數(shù)據(jù)有兩個基本特征不同于傳統(tǒng)的數(shù)據(jù)集:
1.大數(shù)據(jù)不一定存儲于固定的數(shù)據(jù)庫,而是分布在不同地方的網(wǎng)絡(luò)空間
2.大數(shù)據(jù)以半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)為主,具有較高的復(fù)雜性。內(nèi)容什么是大數(shù)據(jù)研究背景深入思考9克強指數(shù)(Likeqiangindex):耗電量鐵路貨運量銀行貸款發(fā)放量英國著名政經(jīng)雜志《經(jīng)濟學(xué)人》認為:克強指數(shù)比官方GDP數(shù)字更能反映中國經(jīng)濟的現(xiàn)實狀況?;ㄆ煦y行在編制時將各自權(quán)重分別設(shè)定為40%、25%和35%。12大數(shù)據(jù)涉及諸多不同的領(lǐng)域
用戶生成數(shù)據(jù)DeepWeb數(shù)據(jù)多模態(tài)內(nèi)容數(shù)據(jù)天文氣象基因醫(yī)學(xué)經(jīng)濟物理其他領(lǐng)域網(wǎng)絡(luò)與關(guān)系數(shù)據(jù)13大數(shù)據(jù)的價值科研價值1998年圖靈獎得主、數(shù)據(jù)庫技術(shù)奠基人JimGray認為數(shù)據(jù)驅(qū)動的研究將是第四種科學(xué)研究范式”TheFourthParadigm:Data-IntensiveScientificDiscovery”大數(shù)據(jù)已為多個不同學(xué)科的研究工作提供了寶貴機遇經(jīng)濟價值麥肯錫全球研究院:大數(shù)據(jù)可為世界經(jīng)濟創(chuàng)造巨大價值,提高企業(yè)和公共部門的生產(chǎn)率和競爭力,并為消費者創(chuàng)造巨大的經(jīng)濟利益著名Gartner公司:到2015年,采用大數(shù)據(jù)和海量信息管理的公司將在各項財務(wù)指標(biāo)上,超過未做準備的競爭對手20%工業(yè)價值分析使用:揭示隱藏其中的信息,例如零售業(yè)中對門店銷售、地理和社會信息的分析能提升對客戶的理解二次開發(fā):創(chuàng)造出新產(chǎn)品和服務(wù)。例如Facebook通過結(jié)合大量用戶信息,定制出高度個性化的用戶體驗,并創(chuàng)造出一種新的廣告模式社會價值例如:2009年淘寶網(wǎng)推出淘寶CPI來反映網(wǎng)絡(luò)購物的消費趨勢和價格動態(tài)其他價值…DataisthenextIntelInside.Thefuturebelongstothecompaniesandpeoplethatturndataintoproducts.----著名出版公司O‘Reilly的創(chuàng)始人TimO‘Reilly深網(wǎng)挖掘深空探索2012年我國神州九號進入太空深海探測2012年我國蛟龍?zhí)柼綔y水下7000米實現(xiàn)大數(shù)據(jù)價值的
深度挖據(jù)和高度利用!大數(shù)據(jù)的戰(zhàn)略意義大數(shù)據(jù)的深度資源挖掘與價值利用是國家戰(zhàn)略從深空
+
深海深網(wǎng)14大數(shù)據(jù)的現(xiàn)實需求:感知現(xiàn)在15感知現(xiàn)在:歷史數(shù)據(jù)與當(dāng)前數(shù)據(jù)的融合,潛在線索與模式的挖掘,
事件、群體與社會發(fā)展?fàn)顟B(tài)的感知中國發(fā)展指數(shù)(物價、環(huán)境、健康)需求:掌握現(xiàn)狀,如淘寶CPI、環(huán)境指數(shù)難點:PB級社會媒體數(shù)據(jù),百億級日志數(shù)據(jù),結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)關(guān)聯(lián),歷史與流式數(shù)據(jù)并存犯罪線索挖掘需求:發(fā)現(xiàn)線索,如罪犯行為軌跡難點:PB級日志數(shù)據(jù)、EB級監(jiān)控數(shù)據(jù)中發(fā)現(xiàn)嫌疑人及其行為模式猶如大海撈針問題與挑戰(zhàn):數(shù)據(jù)規(guī)模巨大、模態(tài)多樣、關(guān)聯(lián)復(fù)雜、真?zhèn)坞y辨
現(xiàn)有數(shù)據(jù)處理方法感知度量難、特征融合難、模式挖掘難15大數(shù)據(jù)的現(xiàn)實需求:預(yù)測未來聯(lián)合國“全球脈動”(GlobalPulse):利用網(wǎng)絡(luò)大數(shù)據(jù)預(yù)測失業(yè)率與疾病爆發(fā)等現(xiàn)象,利用數(shù)字化的早期預(yù)警信號來提前指導(dǎo)援助項目。問題與挑戰(zhàn):數(shù)據(jù)交互性強、實時性強、動態(tài)演變,導(dǎo)致傳統(tǒng)數(shù)據(jù)計算方法:
數(shù)據(jù)生命周期的割裂、時效性與準確性難以兼顧、演變趨勢難以預(yù)測基于Twitter數(shù)據(jù)的選舉結(jié)果預(yù)測:通過對Twitter等網(wǎng)上公開數(shù)據(jù)的實時感知、動態(tài)獲取與綜合分析,結(jié)合仿真調(diào)控,預(yù)測大選結(jié)果。預(yù)測未來:全量數(shù)據(jù)、流式數(shù)據(jù)、離線數(shù)據(jù)的關(guān)聯(lián)分析,態(tài)勢與效應(yīng)的判定與調(diào)控,揭示事物發(fā)展的演變規(guī)律,進而對事物發(fā)展趨勢進行預(yù)測1617美國的大數(shù)據(jù)規(guī)劃-大數(shù)據(jù)上升為國家意志2012年3月29日,美國聯(lián)邦政府整合6個部門宣布2億美元的“BigDataResearchandDevelopmentInitiative”促進采集、存儲、維護、管理、分析和共享海量數(shù)據(jù)的核心技術(shù);利用以上技術(shù)來加速科學(xué)與工程發(fā)現(xiàn)的步伐,強化國家安全,改變教育和學(xué)習(xí);培養(yǎng)開發(fā)和使用大數(shù)據(jù)技術(shù)的人力資源。CoreTechnologiesforAdvancingBigDataScience&EngineeringDatatoDecisions1000GenomesProjectDataAvailableonCloudScientificDiscoveryThroughAdvancedComputingBigDataforEarthSystemScienceXDATA18歐盟的大數(shù)據(jù)規(guī)劃-基礎(chǔ)設(shè)施是先導(dǎo)Horizon2020-TheFrameworkProgrammeforResearchandInnovation面向大數(shù)據(jù)的數(shù)據(jù)信息化基礎(chǔ)設(shè)施(E-Infrastructure)是優(yōu)先資助領(lǐng)域GRDI2020-GlobalResearchDataInfrastructures建立針對科研大數(shù)據(jù)的基礎(chǔ)設(shè)施,實現(xiàn)數(shù)據(jù)管理系統(tǒng)、數(shù)字數(shù)據(jù)圖書館、研究圖書館、數(shù)據(jù)工具和研究團體的整合FP7Call8IntelligentInformationManagement-BigData預(yù)算5千萬歐元,2012-1-17截止目標(biāo):提升發(fā)現(xiàn)、分析、開采、使用大數(shù)據(jù)及其基礎(chǔ)設(shè)施的能力通過對大數(shù)據(jù)收集與分析創(chuàng)造更大價值探索基于大規(guī)?;ヂ?lián)數(shù)據(jù)資源與專用基礎(chǔ)設(shè)施的新型科學(xué)研究面向大數(shù)據(jù)的人力資源開發(fā)19學(xué)術(shù)界對大數(shù)據(jù)的關(guān)注2012年1月,NaturePhysics上出版??癈omplexity”特別指出大數(shù)據(jù)為科學(xué)研究,特別是復(fù)雜性科學(xué)的研究提供了史無前例的機遇2008年,Nature出版??癇igData”從互聯(lián)網(wǎng)技術(shù)、互聯(lián)網(wǎng)經(jīng)濟學(xué)、超級計算、環(huán)境科學(xué)、生物醫(yī)藥等多個方面介紹了大數(shù)據(jù)所帶來的技術(shù)挑戰(zhàn)2011年,Science刊登專刊“DealingwithData”討論了數(shù)據(jù)洪流(Datadeluge)所帶來的挑戰(zhàn),也特別指出倘若能夠更有效地組織和使用這些數(shù)據(jù),人們將得到更多的機會發(fā)揮科學(xué)技術(shù)對社會發(fā)展的巨大推動作用2012年4月,歐洲信息學(xué)與數(shù)學(xué)研究協(xié)會會刊ERCIMNews上出版??癇igData”討論了大數(shù)據(jù)時代的數(shù)據(jù)管理、數(shù)據(jù)密集型研究的創(chuàng)新數(shù)據(jù)庫技術(shù)等問題,并介紹了歐洲科研機構(gòu)開展的研究活動和取得的創(chuàng)新性進展20大數(shù)據(jù)會議/WorkshopBDA:InternationalConferenceonBigDataAnalyticshttp://cs.du.ac.in/BDA2012/bda12.html2012:12月24-26日,印度;第1屆BigMine:WorkshoponBigData,StreamsandHeterogeneousSourceMining:Algorithms,Systems,ProgrammingModelsandApplications/2012:與SIGKDD合辦;8月12日,北京;第1屆BigDataEurope系列會議/展示大數(shù)據(jù)實踐與方案;加強業(yè)界人員交流2012:
Zurich,Vienna,Paris,Frankfurt,London2013:Stockholm,Warsaw,IstanbulBigDataAnalytics2012http://www.whitehallmedia.co.uk/bda/6月20日,倫敦學(xué)術(shù)會議工業(yè)會議內(nèi)容什么是大數(shù)據(jù)研究背景深入思考2224大數(shù)據(jù)總量增長態(tài)勢25目前大數(shù)據(jù)的規(guī)模IDC公司發(fā)布的數(shù)字宇宙研究報告稱:全球信息總量每兩年就會增長一倍,2011年全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量為1.8ZB(1021)。IDC認為,到下一個十年(2020年),全球所有IT部門擁有服務(wù)器的總量將會比現(xiàn)在多出10倍,所管理的數(shù)據(jù)將會比現(xiàn)在多出50倍。預(yù)計到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量2011年企業(yè)創(chuàng)造、采集、管理和儲存信息的成本已經(jīng)下降到2005年的1/6,而同期企業(yè)關(guān)于數(shù)據(jù)的總投資自2005年以來卻反而上升了50%。數(shù)據(jù)成本的下降助推了數(shù)據(jù)量的增長,而新的數(shù)據(jù)源和數(shù)據(jù)采集技術(shù)的出現(xiàn)則大大增加了未來數(shù)據(jù)的類型,數(shù)據(jù)類型的增加導(dǎo)致現(xiàn)有數(shù)據(jù)空間維度增加,極大地增加了未來大數(shù)據(jù)的復(fù)雜度。26目前大數(shù)據(jù)規(guī)模─示例天文觀測數(shù)據(jù):SloanDigitalSkySurvey:2000年部署幾周收集的數(shù)據(jù)比歷史上收集的數(shù)據(jù)還多每晚收集200G的數(shù)據(jù),已收集了140TB=1.4x105GB的數(shù)據(jù)LargeSynopticSurveyTelescope:2016年完成部署每5天可收集105GB的數(shù)據(jù)物理實驗數(shù)據(jù):LargeHadronCollider:2010年一年產(chǎn)生13PB=1.3x107GB數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù):Facebook:用戶超7億,每月上傳10億照片,每天生成3x105GB日志數(shù)據(jù)淘寶:有3.7億會員,在線商品8.8億,每天交易數(shù)千萬,產(chǎn)生2x104GB數(shù)據(jù)IBM估計:全球每天生成2.5EB=2.5x109GB數(shù)據(jù),90%的已有數(shù)據(jù)是過去兩年生成的Cisco預(yù)測:到2013年,互聯(lián)網(wǎng)上的數(shù)據(jù)將達到667EB=6.67x1011GB27收集的數(shù)據(jù)還沒有實現(xiàn)高度共享和深度利用
2.超大規(guī)模:為保證可靠性,需要存儲數(shù)據(jù)副本,實際存儲的數(shù)據(jù)量數(shù)倍于凈數(shù)據(jù)量
3.時空屬性:包含時間與位置信息
4.模糊高維:數(shù)據(jù)未必精確和完整:傳感器誤差,網(wǎng)絡(luò)中斷……
5.數(shù)據(jù)維度高:例如一次體檢可以得到數(shù)百項生命體征數(shù)據(jù)大數(shù)據(jù)特點28大數(shù)據(jù)與常規(guī)數(shù)據(jù)的對比常規(guī)數(shù)據(jù)范圍廣模態(tài)多增長快關(guān)聯(lián)繁數(shù)據(jù)規(guī)模較小模態(tài)屬性受限增長速度較慢關(guān)聯(lián)相對簡單稠密與稀疏共存冗余與缺失并在動態(tài)與靜態(tài)互現(xiàn)顯式與隱藏均有特性問題描述與存儲的挑戰(zhàn)分析與理解的挑戰(zhàn)挖掘與預(yù)測的挑戰(zhàn)挑戰(zhàn)大數(shù)據(jù)應(yīng)用目標(biāo)相對比較明確數(shù)據(jù)結(jié)構(gòu)相對比較簡單時序長持續(xù)時間較短處理方法通常為模型化、參數(shù)化
錢學(xué)森“綜合集成”理論的啟示
一個科學(xué)新領(lǐng)域------開放的復(fù)雜巨系統(tǒng)及其方法論錢學(xué)森-戴汝為:“綜合集成”(meta-synthesis)科學(xué)方法論
“綜合集成”可以解讀為從定性到定量的科學(xué)研討廳(hallforworkshop)“綜合集成”方法論:1+1>2[J].自然雜志,1990大數(shù)據(jù)時代的軟件服務(wù)工程
拓新“綜合集成的迭代整合”科學(xué)方法論“綜合集成”可拓展為以科研社交網(wǎng)絡(luò)的民主形式,從定性到定量的科研整合“定性”:是指面向領(lǐng)域或主題、運用專家的定性智慧,建立大數(shù)據(jù)處理知識的聚類,形成少數(shù)幾種可能的大數(shù)據(jù)價值服務(wù)的基本解決方案及其本體。
面向領(lǐng)域或主題的大數(shù)據(jù)服務(wù)的共性需求解決方案“定量”:細化解決方案本體,對同類或異類方案之間的關(guān)聯(lián),通過語義互操作構(gòu)造與管理的關(guān)聯(lián)計算,建立大數(shù)據(jù)處理的基本知識;隨著時間與空間的變化,不斷吸收與迭代整合:來自歷史大數(shù)據(jù)的知識與基于運行時反射機理的用戶網(wǎng)頁個性化標(biāo)注的相關(guān)內(nèi)容,動態(tài)演化生長
形成面向領(lǐng)域或主題的大數(shù)據(jù)服務(wù)的富知識從定性到定量整合的科學(xué)研討廳(hallforworkshop)
:支撐領(lǐng)域或主題大數(shù)據(jù)處理知識的規(guī)模化整合及其演化的PaaS(平臺作為服務(wù)),并接入面向多樣價值目標(biāo)的異域異構(gòu)大數(shù)據(jù)服務(wù)SaaS(軟件作為服務(wù))綜合與互操作實現(xiàn)。
PaaS+SaaS厚積簿發(fā):面向領(lǐng)域或主題的富知識,實現(xiàn)在線流式大數(shù)據(jù)分析的可伸縮、可選擇的按需價值服務(wù)科學(xué)家與鞋匠所見略同“定性”:鞋匠按手工方式做鞋,因各人尺寸各異,覺得鞋子采用個案生產(chǎn),天經(jīng)地義;但做到第10000雙時,感悟復(fù)雜中存在簡單,幾十種鞋碼足以滿足大眾個
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高中物理第九章固體液體和物態(tài)變化第2節(jié)液體課件新人教版選修3-
- 高考數(shù)學(xué)全真模擬試題第12625期
- 【中考考點基礎(chǔ)練】第11章 內(nèi)能與熱機 2025年物理中考總復(fù)習(xí)(福建)(含答案)
- 2024年山東省泰安市中考地理試題含答案
- 2024至2030年中國無菌設(shè)備數(shù)據(jù)監(jiān)測研究報告
- 2024至2030年中國數(shù)碼固體立體聲全自動播放器數(shù)據(jù)監(jiān)測研究報告
- 2024至2030年中國微電腦控制抽真空精密加酸機數(shù)據(jù)監(jiān)測研究報告
- 2024至2030年中國引線式熱敏電阻器行業(yè)投資前景及策略咨詢研究報告
- 2010-2012年液態(tài)豆奶行業(yè)市場研究與競爭力分析報告
- 2024至2030年中國土堿行業(yè)投資前景及策略咨詢研究報告
- 影視廣告策劃與制作課件
- 粉塵清掃記錄
- 大數(shù)據(jù)技術(shù)原理與應(yīng)用 完整版課件
- 接地裝置隱蔽工程驗收記錄
- (完整)舌尖上的中國ppt
- 創(chuàng)新創(chuàng)業(yè)路演PPT
- 第5課 耕牛-戰(zhàn)馬 課件 八年級上冊
- 觀看公安民警違紀警示教育片心得體會三篇
- 再生水清水池施工技術(shù)措施
- 人教版四年級語文上冊精美課件第一單元習(xí)作推薦一個好地方
- 深基坑專項施工方案(專家論證)
評論
0/150
提交評論