大數(shù)據(jù)技術(shù)領(lǐng)域若干關(guān)鍵問題_第1頁
大數(shù)據(jù)技術(shù)領(lǐng)域若干關(guān)鍵問題_第2頁
大數(shù)據(jù)技術(shù)領(lǐng)域若干關(guān)鍵問題_第3頁
大數(shù)據(jù)技術(shù)領(lǐng)域若干關(guān)鍵問題_第4頁
大數(shù)據(jù)技術(shù)領(lǐng)域若干關(guān)鍵問題_第5頁
已閱讀5頁,還剩87頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)技術(shù)領(lǐng)域

若干關(guān)鍵問題西北大學(xué)信息科學(xué)與技術(shù)學(xué)院陳莉教授/博導(dǎo)chenli@2014.4.242025/3/26NWU智能信息處理研究所2風(fēng)云變幻中……題序

何為大數(shù)據(jù)(BIGDATA)?

Verylargedata?Massivedata?Bigdata?2025/3/26NWU智能信息處理研究所4大數(shù)據(jù)(BigData)超大規(guī)模數(shù)據(jù)?海量數(shù)據(jù)?“verylarge”大?還是“big”大?——相對(duì)于當(dāng)時(shí)的CPU和存儲(chǔ)技術(shù)水平,均指數(shù)據(jù)規(guī)模很大“超大規(guī)模數(shù)據(jù)庫”(VLDB)這個(gè)詞是20世紀(jì)70年代中期出現(xiàn)的。VLDB會(huì)議1975年發(fā)起。數(shù)百萬條記錄即超大規(guī)?!昂A繑?shù)據(jù)”則是21世紀(jì)初出現(xiàn)的詞,越來越多的應(yīng)用建立在多源數(shù)據(jù)集成基礎(chǔ)之上時(shí),數(shù)據(jù)規(guī)模急劇擴(kuò)大,數(shù)據(jù)類型由關(guān)系數(shù)據(jù),到非結(jié)構(gòu)化的、半結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是指在獲得數(shù)據(jù)之前無法預(yù)知其結(jié)構(gòu)的數(shù)據(jù),如文本、圖像、視頻等。包含數(shù)千萬個(gè)文檔、數(shù)百萬張照片或者工程設(shè)計(jì)圖的數(shù)據(jù)集很平常,關(guān)系數(shù)據(jù)庫無法有效管理這些數(shù)據(jù),如何快速訪問數(shù)據(jù)成為核心挑戰(zhàn)。以Hadoop為代表的分布式文件系統(tǒng)和MapReduce計(jì)算框架應(yīng)運(yùn)而生2008年9月《科學(xué)》(Science)雜志發(fā)表了一篇文章“BigData:ScienceinthePetabyteEra”,“大數(shù)據(jù)”這個(gè)詞開始傳播所謂大數(shù)據(jù),泛指規(guī)模達(dá)到幾百TB,甚至PB級(jí)的數(shù)據(jù),廣泛出現(xiàn)在科學(xué)研究,Web集成、多媒體等諸多領(lǐng)域中大數(shù)據(jù)是伴隨數(shù)據(jù)獲取技術(shù)的發(fā)展,Web2.0、WSN(傳感網(wǎng))和CPS(物聯(lián)網(wǎng))等應(yīng)用的快速普及而提出的概念2025/3/26NWU智能信息處理研究所5從歷史的視角——“超大規(guī)模數(shù)據(jù)”指表示和處理的是GB級(jí)別的數(shù)據(jù),主要研究關(guān)系數(shù)據(jù)模型的高效實(shí)現(xiàn)技術(shù)、事務(wù)管理與故障恢復(fù)技術(shù)、索引與查詢優(yōu)化技術(shù)等,創(chuàng)建了一套關(guān)系數(shù)據(jù)庫的理論與技術(shù)體系,已在商業(yè)上取得了成功。“海量數(shù)據(jù)”指表示和處理的數(shù)據(jù)是TB級(jí)的數(shù)據(jù),主要研究各種非結(jié)構(gòu)化數(shù)據(jù)的有效管理、多數(shù)據(jù)源的集成問題。涉及如何統(tǒng)一表達(dá)非結(jié)構(gòu)化數(shù)據(jù),如何實(shí)現(xiàn)基于語義的非結(jié)構(gòu)化數(shù)據(jù)的集成和檢索,如何解決與應(yīng)用緊密相關(guān)的功能與數(shù)據(jù)管理系統(tǒng)融合等問題。我國(guó)“核心電子器件、高端通用芯片及基礎(chǔ)軟件產(chǎn)品”(“核高基”)科技重大專項(xiàng)也將非結(jié)構(gòu)化數(shù)據(jù)管理作為需要重點(diǎn)突破的關(guān)鍵技術(shù)加以重點(diǎn)支持。

“大數(shù)據(jù)”指表示和處理的數(shù)據(jù)是PB級(jí)別及其以上的數(shù)據(jù)。大數(shù)據(jù)并非單指數(shù)據(jù)量之大。如果說海量數(shù)據(jù)主要從存儲(chǔ)角度考慮問題,則大數(shù)據(jù)除了數(shù)據(jù)存儲(chǔ),還包括數(shù)據(jù)處理、感知等。

2025/3/26NWU智能信息處理研究所6大數(shù)據(jù)形成于……用電子顯微鏡重建大腦中的突觸網(wǎng)絡(luò),1立方毫米大腦的圖像數(shù)據(jù)就超過1PB據(jù)IDC統(tǒng)計(jì),2011年全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量為1.8ZB(1021),其中75%來自于個(gè)人(主要是圖片、視頻和音樂),遠(yuǎn)遠(yuǎn)超過人類有史以來所有印刷材料的數(shù)據(jù)總量(200PB)谷歌公司通過大規(guī)模集群和MapReduce軟件,每個(gè)月處理的數(shù)據(jù)量超過400PB百度每天大約要處理幾十PB數(shù)據(jù)Facebook注冊(cè)用戶超過10億,每月上傳的照片超過10億張,每天生成300TB以上的日志數(shù)據(jù)淘寶網(wǎng)會(huì)員超過3.7億,在線商品超過8.8億,每天交易數(shù)千萬筆,產(chǎn)生約20TB數(shù)據(jù);雅虎的總存儲(chǔ)容量超過100PB每個(gè)人類基因數(shù)據(jù):300GB~700GB;基因定位和分析所需時(shí)間:1000+機(jī)時(shí):1000個(gè)基因分析需要114年各類移動(dòng)設(shè)備產(chǎn)生了大量的大數(shù)據(jù);傳感網(wǎng)和物聯(lián)網(wǎng)的蓬勃發(fā)展形成大數(shù)據(jù)集合各城市的視頻監(jiān)控每時(shí)每刻都在采集巨量的流媒體數(shù)據(jù)勞斯萊斯公司對(duì)全世界數(shù)以萬計(jì)的飛機(jī)引擎進(jìn)行實(shí)時(shí)監(jiān)控,每年傳送PB量級(jí)的數(shù)據(jù)……

數(shù)據(jù)形成的過程:被動(dòng)產(chǎn)生——主動(dòng)產(chǎn)生——自動(dòng)產(chǎn)生2025/3/26NWU智能信息處理研究所7移動(dòng)互聯(lián)網(wǎng):即時(shí)通迅微信是騰訊公司推出免費(fèi)即時(shí)通訊服務(wù)的聊天軟件??梢酝ㄟ^手機(jī)、平板、網(wǎng)頁快速發(fā)送語音、視頻、圖片和文字。微信提供公眾平臺(tái)、朋友圈、消息推送等功能,用戶可以通過搖一搖、搜索號(hào)碼、附近的人、掃二維碼方式添加好友和關(guān)注公眾平臺(tái),同時(shí)微信幫將內(nèi)容分享給好友以及將用戶看到的精彩內(nèi)容分享到微信朋友圈。

2025/3/26NWU智能信息處理研究所8表1存儲(chǔ)容量單位2025/3/26NWU智能信息處理研究所9表2

9GBDVD光盤/1TB2.5寸硬盤保存1.8ZB數(shù)據(jù)比較

1.8ZB數(shù)據(jù)如果用9GB的DVD盤來保存,疊加起來的高度超過26萬公里,大約是地球到月球距離的2/3;如果用1TB的2.5寸磁盤保存,疊加起來的高度超過1.7萬公里,接近地球周長(zhǎng)的一半;

每位美國(guó)人每分鐘寫3條Twitter微博,不停地寫2.6976萬年;

事實(shí)上,多數(shù)磁盤的容量可能還不到1TB,存儲(chǔ)這些數(shù)據(jù)的磁盤是十分驚人的數(shù)字。2025/3/26NWU智能信息處理研究所10大數(shù)據(jù)的概念定義1

大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合?!S基百科

Bigdatausuallyincludesdatasetswithsizesbeyondtheabilityofcommonly-usedsoftwaretoolstocapture,curate,manage,andprocessthedatawithinatolerableelapsedtime.——Wiki2025/3/26NWU智能信息處理研究所11大數(shù)據(jù)定義2——“3V”

BigDataarehigh-volume,high-velocity,and/orhigh-varietyinformationassetsthatrequirenewformsofprocessingtoenableenhanceddecisionmaking,insightdiscoveryandprocessoptimization.——Gartner大數(shù)據(jù)指:Volume(規(guī)模大,數(shù)據(jù)已從TB級(jí)別躍升至PB級(jí)別)+Variety(類型多,從普通的文字、視頻、圖片到逐漸增多的地理位置信息等,類型紛繁,已無規(guī)律可循)+Velocity(變化快,即時(shí)處理成為趨勢(shì))——IBM2025/3/26NWU智能信息處理研究所12大數(shù)據(jù)定義3當(dāng)數(shù)據(jù)的規(guī)模和性能要求成為數(shù)據(jù)管理分析系統(tǒng)的重要設(shè)計(jì)和決定因素時(shí),這樣的數(shù)據(jù)就被稱為大數(shù)據(jù)。不是簡(jiǎn)單地以數(shù)據(jù)規(guī)模來界定大數(shù)據(jù),要考慮數(shù)據(jù)查詢與分析的復(fù)雜程度以目前計(jì)算機(jī)硬件的發(fā)展水平看針對(duì)簡(jiǎn)單查詢(如關(guān)鍵字搜索),數(shù)據(jù)量為TB至PB級(jí)時(shí)可稱為大數(shù)據(jù)針對(duì)復(fù)雜查詢(如數(shù)據(jù)挖掘),數(shù)據(jù)量為GB至TB級(jí)時(shí)即可稱為大數(shù)據(jù)2025/3/26NWU智能信息處理研究所13大數(shù)據(jù)定義4大數(shù)據(jù)有兩個(gè)不同于傳統(tǒng)數(shù)據(jù)集的基本特征:

1.大數(shù)據(jù)不一定存儲(chǔ)于固定的數(shù)據(jù)庫,而是分布在不同的網(wǎng)絡(luò)空間;2.大數(shù)據(jù)以半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)為主,具有較高的復(fù)雜性。2025/3/26NWU智能信息處理研究所14大數(shù)據(jù)定義5-7為了更經(jīng)濟(jì)地從高頻率獲取的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價(jià)值,而設(shè)計(jì)的新一代架構(gòu)和技術(shù)。——IDC大數(shù)據(jù)——“4V”觀點(diǎn)一

Volume+

Variety+Velocity+Value(創(chuàng)造價(jià)值)大數(shù)據(jù)——“4V”觀點(diǎn)二Volume+

Variety+Velocity+Value(價(jià)值密度低,以視頻為例,在連續(xù)不間斷監(jiān)控過程中,有用的數(shù)據(jù)也許只有一兩秒)

2025/3/26NWU智能信息處理研究所15主要內(nèi)容數(shù)據(jù)科學(xué)與大數(shù)據(jù)大數(shù)據(jù)的主要研究領(lǐng)域大數(shù)據(jù)技術(shù)主要研究?jī)?nèi)容大數(shù)據(jù)技術(shù)的若干關(guān)鍵問題2014年大數(shù)據(jù)十大發(fā)展趨勢(shì)預(yù)測(cè)一、數(shù)據(jù)科學(xué)與大數(shù)據(jù)數(shù)據(jù)科學(xué)是關(guān)于數(shù)據(jù)的科學(xué)——旨在研究數(shù)據(jù)的各種類型、狀態(tài)、屬性及變化形式和變化規(guī)律,揭示自然界和人類行為現(xiàn)象和規(guī)律,亦稱數(shù)據(jù)學(xué)。2025/3/26NWU智能信息處理研究所17數(shù)據(jù)科學(xué)與第四范式2007年美國(guó)總統(tǒng)科學(xué)技術(shù)顧問委員會(huì)(President’sCouncilofAdvisorsonScienceandTechnology,PCAST)的報(bào)告以及英國(guó)e-Science計(jì)劃前首席科學(xué)家托尼·海(TonyHey)的著作《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》(TheFourthParadigm:DataintensiveScientificDiscovery)都揭示出數(shù)據(jù)分析已經(jīng)成為繼實(shí)驗(yàn)、理論和計(jì)算之后的第四種科學(xué)發(fā)現(xiàn)基礎(chǔ),成為產(chǎn)生經(jīng)濟(jì)價(jià)值的新源泉。2025/3/26NWU智能信息處理研究所18數(shù)據(jù)科學(xué)(DataScience)

圖靈獎(jiǎng)獲得者JimGray:2007年在演講中提出“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(Data-IntensiveScientificDiscovery)”將成為科學(xué)研究的第四范式

實(shí)驗(yàn)科學(xué)

理論科學(xué)

計(jì)算科學(xué)

數(shù)據(jù)科學(xué)卡耐基·梅隆大學(xué)等相繼提出了“數(shù)據(jù)密集型超級(jí)計(jì)算(dataintensivesupercomputing)”和“數(shù)據(jù)密集型可擴(kuò)展計(jì)算(dataintensivescalablecomputing)”的概念世界著名存儲(chǔ)技術(shù)公司EMC:提出了“DataScience”的概念,“DataScienceteamswillbecomethedrivingforceforsuccesswithbigdataanalytics”李國(guó)杰院士:“數(shù)據(jù)科學(xué)”研究的對(duì)象是什么?計(jì)算機(jī)科學(xué)是關(guān)于算法的科學(xué),而數(shù)據(jù)科學(xué)是關(guān)于數(shù)據(jù)的科學(xué)——數(shù)據(jù)學(xué)“數(shù)據(jù)科學(xué)”成為一個(gè)新興的研究領(lǐng)域——2012年大數(shù)據(jù)成為熱點(diǎn)2025/3/26NWU智能信息處理研究所19數(shù)據(jù)科學(xué)研究的基本框架“大數(shù)據(jù)”

大數(shù)據(jù)(Bigdata)是指無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合?!S基百科大數(shù)據(jù)4V特征VolumeVolumeVarietyVolume模態(tài)多樣VeracityVolume真?zhèn)坞y辨VelocityVolume速度極快體量巨大文本視頻圖片音頻到2020年,數(shù)據(jù)總量達(dá)40ZB,人均5.2TB分享的內(nèi)容條目超過25億個(gè)/天,增加數(shù)據(jù)超過500TB/天202025/3/26NWU智能信息處理研究所20212025/3/26NWU智能信息處理研究所21大數(shù)據(jù)與常規(guī)數(shù)據(jù)常規(guī)數(shù)據(jù)范圍廣模態(tài)多增長(zhǎng)快關(guān)聯(lián)繁數(shù)據(jù)規(guī)模較小模態(tài)屬性受限增長(zhǎng)速度較慢關(guān)聯(lián)相對(duì)簡(jiǎn)單稠密與稀疏共存冗余與缺失并在動(dòng)態(tài)與靜態(tài)互現(xiàn)顯式與隱藏均有特性問題描述與存儲(chǔ)的挑戰(zhàn)分析與理解的挑戰(zhàn)挖掘與預(yù)測(cè)的挑戰(zhàn)挑戰(zhàn)大數(shù)據(jù)應(yīng)用目標(biāo)相對(duì)比較明確數(shù)據(jù)結(jié)構(gòu)相對(duì)比較簡(jiǎn)單時(shí)序長(zhǎng)持續(xù)時(shí)間較短處理方法通常為模型化、參數(shù)化2025/3/26NWU智能信息處理研究所22美國(guó)的大數(shù)據(jù)規(guī)劃—大數(shù)據(jù)上升為國(guó)家意志2012年3月29日,美國(guó)聯(lián)邦政府整合6個(gè)部門宣布2億美元的“BigDataResearchandDevelopmentInitiative”促進(jìn)采集、存儲(chǔ)、維護(hù)、管理、分析和共享海量數(shù)據(jù)的核心技術(shù);利用以上技術(shù)來加速科學(xué)與工程發(fā)現(xiàn)的步伐,強(qiáng)化國(guó)家安全,改變教育和學(xué)習(xí);培養(yǎng)開發(fā)和使用大數(shù)據(jù)技術(shù)的人力資源。CoreTechnologiesforAdvancingBigDataScience&EngineeringDatatoDecisions1000GenomesProjectDataAvailableonCloudScientificDiscoveryThroughAdvancedComputingBigDataforEarthSystemScienceXDATA2025/3/26NWU智能信息處理研究所23美國(guó)政府六個(gè)部門啟動(dòng)的“大數(shù)據(jù)研究與發(fā)展計(jì)劃”,絕大多數(shù)研究項(xiàng)目都是應(yīng)對(duì)大數(shù)據(jù)帶來的技術(shù)挑戰(zhàn)國(guó)防部高級(jí)研究計(jì)劃局(DARPA)的大數(shù)據(jù)研究項(xiàng)目包括:多尺度異常檢測(cè)項(xiàng)目,旨在解決大規(guī)模數(shù)據(jù)集的異常檢測(cè)和特征化;網(wǎng)絡(luò)內(nèi)部威脅計(jì)劃,旨在通過分析傳感器和其他來源的信息,進(jìn)行網(wǎng)絡(luò)威脅和非常規(guī)戰(zhàn)爭(zhēng)行為的自動(dòng)識(shí)別;MachineReading項(xiàng)目,旨在實(shí)現(xiàn)人工智能的應(yīng)用和發(fā)展學(xué)習(xí)系統(tǒng),對(duì)自然文本進(jìn)行知識(shí)插入。能源部(DOE)的大數(shù)據(jù)研究項(xiàng)目包括:機(jī)器學(xué)習(xí)、數(shù)據(jù)流的實(shí)時(shí)分析、非線性隨機(jī)的數(shù)據(jù)縮減技術(shù)和可擴(kuò)展的統(tǒng)計(jì)分析技術(shù)。生物和環(huán)境研究計(jì)劃的目標(biāo)是大氣輻射測(cè)量等氣候研究設(shè)施;系統(tǒng)生物學(xué)知識(shí)庫項(xiàng)目是對(duì)微生物、植物等生物群落功能的數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)。國(guó)家人文基金會(huì)(NEH)項(xiàng)目包括:分析大數(shù)據(jù)的變化對(duì)人文社會(huì)科學(xué)的影響,如數(shù)字化的書籍和報(bào)紙數(shù)據(jù)庫,從網(wǎng)絡(luò)搜索,傳感器和手機(jī)記錄交易數(shù)據(jù)。國(guó)家科學(xué)基金會(huì)(NSF)的大數(shù)據(jù)項(xiàng)目的重點(diǎn)也是圍繞突破關(guān)鍵技術(shù),包括:從大量、多樣、分散和異構(gòu)的數(shù)據(jù)集中提取有用信息的核心技術(shù);開發(fā)一種以統(tǒng)一的理論框架為原則的統(tǒng)計(jì)方法和可伸縮的網(wǎng)絡(luò)模型算法,以區(qū)別適合隨機(jī)性網(wǎng)絡(luò)的方法。242025/3/26NWU智能信息處理研究所24歐盟的大數(shù)據(jù)規(guī)劃—基礎(chǔ)設(shè)施是先導(dǎo)Horizon2020-TheFrameworkProgrammeforResearchandInnovation面向大數(shù)據(jù)的數(shù)據(jù)信息化基礎(chǔ)設(shè)施(E-Infrastructure)是優(yōu)先資助領(lǐng)域GRDI2020-GlobalResearchDataInfrastructures建立針對(duì)科研大數(shù)據(jù)的基礎(chǔ)設(shè)施,實(shí)現(xiàn)數(shù)據(jù)管理系統(tǒng)、數(shù)字?jǐn)?shù)據(jù)圖書館、研究圖書館、數(shù)據(jù)工具和研究團(tuán)體的整合FP7Call8IntelligentInformationManagement-BigData預(yù)算5千萬歐元,2012-1-17截止目標(biāo):提升發(fā)現(xiàn)、分析、開采、使用大數(shù)據(jù)及其基礎(chǔ)設(shè)施的能力通過對(duì)大數(shù)據(jù)收集與分析創(chuàng)造更大價(jià)值探索基于大規(guī)模互聯(lián)數(shù)據(jù)資源與專用基礎(chǔ)設(shè)施的新型科學(xué)研究面向大數(shù)據(jù)的人力資源開發(fā)2025/3/26NWU智能信息處理研究所25大數(shù)據(jù)涉及諸多不同的領(lǐng)域

天文氣象基因醫(yī)學(xué)經(jīng)濟(jì)物理其他領(lǐng)域用戶生成數(shù)據(jù)DeepWeb數(shù)據(jù)多模態(tài)內(nèi)容數(shù)據(jù)網(wǎng)絡(luò)與關(guān)系數(shù)據(jù)2025/3/26NWU智能信息處理研究所26大數(shù)據(jù)的價(jià)值科研價(jià)值圖靈獎(jiǎng)得主、數(shù)據(jù)庫技術(shù)奠基人JimGray認(rèn)為數(shù)據(jù)驅(qū)動(dòng)的研究將是第四種科學(xué)研究范式”TheFourthParadigm:Data-IntensiveScientificDiscovery”大數(shù)據(jù)已為多個(gè)不同學(xué)科的科學(xué)研究工作提供了寶貴機(jī)遇經(jīng)濟(jì)價(jià)值麥肯錫全球研究院:大數(shù)據(jù)可為世界經(jīng)濟(jì)創(chuàng)造巨大價(jià)值,提高企業(yè)和公共部門的生產(chǎn)率和競(jìng)爭(zhēng)力,并為消費(fèi)者創(chuàng)造巨大的經(jīng)濟(jì)利益著名Gartner公司:到2015年,采用大數(shù)據(jù)和海量信息管理的公司將在各項(xiàng)財(cái)務(wù)指標(biāo)上,超過未做準(zhǔn)備的競(jìng)爭(zhēng)對(duì)手20%工業(yè)價(jià)值分析使用:揭示隱藏其中的信息,例如零售業(yè)中對(duì)門店銷售、地理和社會(huì)信息的分析能提升對(duì)客戶的理解二次開發(fā):創(chuàng)造出新產(chǎn)品和服務(wù)。例如Facebook通過結(jié)合大量用戶信息,定制出高度個(gè)性化的用戶體驗(yàn),并創(chuàng)造出一種新的廣告模式社會(huì)價(jià)值例如:2009年淘寶網(wǎng)推出淘寶CPI來反映網(wǎng)絡(luò)購物的消費(fèi)趨勢(shì)和價(jià)格動(dòng)態(tài)其他價(jià)值…DataisthenextIntelInside.Thefuturebelongstothecompaniesandpeoplethatturndataintoproducts.----著名出版公司O‘Reilly的創(chuàng)始人TimO‘Reilly大數(shù)據(jù)處理技術(shù)的主要推動(dòng)者IBM、Oracle、微軟、谷歌、亞馬遜、Facebook等跨國(guó)巨頭是發(fā)展大數(shù)據(jù)處理技術(shù)的主要推動(dòng)者;IBM投資160億美元進(jìn)行了30次與大數(shù)據(jù)有關(guān)的收購,促使其業(yè)績(jī)穩(wěn)定高速增長(zhǎng)。2012年,IBM股價(jià)突破200美元大關(guān),3年之內(nèi)翻了3倍;IBM成為全球數(shù)學(xué)博士的最大雇主,數(shù)學(xué)家正在將其數(shù)據(jù)分析的才能應(yīng)用于石油勘探、醫(yī)療健康等各個(gè)領(lǐng)域;華爾街早已開始招聘精通數(shù)據(jù)分析的天文學(xué)家和理論數(shù)學(xué)家來設(shè)計(jì)金融產(chǎn)品;eBay通過數(shù)據(jù)挖掘可以精確計(jì)算出廣告中的每一個(gè)關(guān)鍵字為公司帶來的回報(bào)。通過對(duì)廣告投放的優(yōu)化,2007年以來eBay產(chǎn)品銷售的廣告費(fèi)降低了99%,而頂級(jí)賣家占總銷售額的百分比卻上升至32%;目前推動(dòng)大數(shù)據(jù)研究的動(dòng)力主要是企業(yè)經(jīng)濟(jì)效益,巨大的經(jīng)濟(jì)利益驅(qū)使大企業(yè)不斷擴(kuò)大數(shù)據(jù)處理規(guī)模。應(yīng)用價(jià)值佐證美國(guó)印地安那大學(xué)和英國(guó)曼徹斯特大學(xué)的學(xué)者通過提取Twitter上的非結(jié)構(gòu)化數(shù)據(jù)分析公眾情緒,再將情緒曲線與道瓊斯工業(yè)指數(shù)進(jìn)行對(duì)照分析,發(fā)現(xiàn)可以提前3~4天預(yù)測(cè)股市大盤走勢(shì)?;诖?,他們已經(jīng)推出了歐洲第一只基于社交媒體的對(duì)沖基金;英國(guó)的科學(xué)家根據(jù)Twitter的數(shù)據(jù)來跟蹤流感的爆發(fā)?;谟脩舭l(fā)布信息中的關(guān)鍵詞,如“我頭痛”,并結(jié)合用戶的發(fā)布地點(diǎn),按區(qū)域與英國(guó)衛(wèi)生部的官方數(shù)據(jù)進(jìn)行比較,最終建立起一個(gè)預(yù)測(cè)模型。2012年初的瑞士達(dá)沃斯論壇上,一份題為《大數(shù)據(jù),大影響》(BigData,BigImpact)的報(bào)告宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類別,就像貨幣或黃金一樣。《華爾街日?qǐng)?bào)》在文章《科技變革即將引領(lǐng)新的經(jīng)濟(jì)繁榮》中更是大膽預(yù)測(cè):“我們?cè)俅翁幱谌龍?chǎng)宏大技術(shù)變革的開端,他們可能足以匹敵20世紀(jì)的那場(chǎng)變革,這三場(chǎng)變革的震中都在美國(guó),他們分別是大數(shù)據(jù)、智能制造和無線網(wǎng)絡(luò)革命。”29學(xué)術(shù)界對(duì)大數(shù)據(jù)的關(guān)注2012年1月,NaturePhysics上出版專刊“Complexity”特別指出大數(shù)據(jù)為科學(xué)研究,特別是復(fù)雜性科學(xué)的研究提供了史無前例的機(jī)遇2008年,Nature出版專刊“BigData”從互聯(lián)網(wǎng)技術(shù)、互聯(lián)網(wǎng)經(jīng)濟(jì)學(xué)、超級(jí)計(jì)算、環(huán)境科學(xué)、生物醫(yī)藥等多個(gè)方面介紹了大數(shù)據(jù)所帶來的技術(shù)挑戰(zhàn)2011年,Science刊登??癉ealingwithData”討論了數(shù)據(jù)洪流(Datadeluge)所帶來的挑戰(zhàn),也特別指出倘若能夠更有效地組織和使用這些數(shù)據(jù),人們將得到更多的機(jī)會(huì)發(fā)揮科學(xué)技術(shù)對(duì)社會(huì)發(fā)展的巨大推動(dòng)作用2012年4月,歐洲信息學(xué)與數(shù)學(xué)研究協(xié)會(huì)會(huì)刊ERCIMNews上出版??癇igData”討論了大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理、數(shù)據(jù)密集型研究的創(chuàng)新數(shù)據(jù)庫技術(shù)等問題,并介紹了歐洲科研機(jī)構(gòu)開展的研究活動(dòng)和取得的創(chuàng)新性進(jìn)展2025/3/26NWU智能信息處理研究所29302025/3/26NWU智能信息處理研究所30大數(shù)據(jù)會(huì)議/Workshop學(xué)術(shù)會(huì)議工業(yè)會(huì)議2025/3/26NWU智能信息處理研究所31國(guó)內(nèi)現(xiàn)狀2012年2月14日工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃中,信息處理技術(shù)作為四項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程之一已經(jīng)被提出來,其中包括了海量數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、圖像視頻智能分析——大數(shù)據(jù)的重要組成部分;另外三項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程,包括信息感知技術(shù)、信息傳輸技術(shù)、信息安全技術(shù),也都與大數(shù)據(jù)密切相關(guān)973立項(xiàng)(2013):大數(shù)據(jù)計(jì)算的基礎(chǔ)研究;面向三元空間的感知、認(rèn)知和智能控制863立項(xiàng)(2013):面向大數(shù)據(jù)先進(jìn)存儲(chǔ)結(jié)構(gòu)及關(guān)鍵技術(shù);面向大數(shù)據(jù)的智能存儲(chǔ)體系結(jié)構(gòu)及關(guān)鍵技術(shù)和模型框架;海量WEB數(shù)據(jù)提取分析和管理系統(tǒng)平臺(tái)開發(fā)NSFC:F02大數(shù)據(jù)管理與分析F03:大數(shù)據(jù)技術(shù)與應(yīng)用中的挑戰(zhàn)性科學(xué)問題二、大數(shù)據(jù)的主要研究領(lǐng)域科學(xué)—技術(shù)—工程—應(yīng)用2025/3/26NWU智能信息處理研究所33大數(shù)據(jù)的主要研究領(lǐng)域大數(shù)據(jù)科學(xué):旨在發(fā)現(xiàn)和驗(yàn)證大數(shù)據(jù)的規(guī)律及其與自然和社會(huì)活動(dòng)之間的關(guān)系。

大數(shù)據(jù)工程:指大數(shù)據(jù)的規(guī)劃、建設(shè)、運(yùn)營(yíng)、管理的系統(tǒng)工程。大數(shù)據(jù)應(yīng)用:針對(duì)不同行業(yè)與領(lǐng)域業(yè)務(wù)需求,展開數(shù)據(jù)特征與業(yè)務(wù)特征的研究,進(jìn)行大數(shù)據(jù)應(yīng)用分類與技術(shù)需求分析,構(gòu)建從“需求分析——業(yè)務(wù)模型——數(shù)據(jù)模型——數(shù)據(jù)采集——數(shù)據(jù)分析——總結(jié)反饋——數(shù)據(jù)分析”的全生命周期應(yīng)用模型。大數(shù)據(jù)技術(shù):旨在從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù)。大數(shù)據(jù)技術(shù)將被設(shè)計(jì)用于在成本可承受(economically)的條件下,通過非??焖伲╲elocity)的采集、發(fā)現(xiàn)和分析,從大量的(volumes)、多類別(variety)的數(shù)據(jù)中提取價(jià)值(value),將是IT領(lǐng)域新一代的技術(shù)架構(gòu)和相關(guān)技術(shù)。大數(shù)據(jù)研究的三個(gè)關(guān)鍵問題

在“數(shù)據(jù)科學(xué)”領(lǐng)域,大數(shù)據(jù)管理及處理能力已經(jīng)成為大數(shù)據(jù)技術(shù)研究的關(guān)鍵。由于數(shù)據(jù)的異質(zhì)異構(gòu)、無結(jié)構(gòu)及不可信等特征,大數(shù)據(jù)管理和分析研究需要解決可表示、可處理和可靠性三個(gè)關(guān)鍵問題。關(guān)鍵問題——可表示問題

例如,互聯(lián)網(wǎng)中的數(shù)據(jù)具有異質(zhì)、異構(gòu)、無結(jié)構(gòu)發(fā)展趨勢(shì);非結(jié)構(gòu)化數(shù)據(jù)在互聯(lián)網(wǎng)大數(shù)據(jù)中占有的比例大幅增加;美國(guó)弗雷斯特研究公司Forrester)分析師在2010年《政府今天所面臨的挑戰(zhàn)》報(bào)告中預(yù)計(jì):“數(shù)據(jù)將會(huì)在今后的5年內(nèi)增加8倍,其中非結(jié)構(gòu)化數(shù)據(jù)在各組織機(jī)構(gòu)的數(shù)據(jù)中所占份額超過70%到80%,并且這些非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)速度是結(jié)構(gòu)化數(shù)據(jù)的10~50倍”。從數(shù)據(jù)管理的角度看,非結(jié)構(gòu)化數(shù)據(jù)很難按照統(tǒng)一的模型進(jìn)行分析處理,比結(jié)構(gòu)化數(shù)據(jù)處理難得多。因此,如何有效地表示這些非結(jié)構(gòu)化數(shù)據(jù)成為首要問題??商幚韱栴}——數(shù)據(jù)規(guī)模急劇擴(kuò)張,遠(yuǎn)遠(yuǎn)超越現(xiàn)有計(jì)算機(jī)處理能力圖靈獎(jiǎng)獲得者吉姆·格雷(JimGray)和IDC公司曾預(yù)測(cè),全球數(shù)據(jù)量每18個(gè)月翻一番。目前全球數(shù)據(jù)的存儲(chǔ)和處理能力已遠(yuǎn)落后于數(shù)據(jù)的增長(zhǎng)幅度。例如,淘寶網(wǎng)每日新增的交易數(shù)據(jù)達(dá)10TB;eBay分析平臺(tái)日處理數(shù)據(jù)量高達(dá)100PB,超過了美國(guó)納斯達(dá)克交易所全天的數(shù)據(jù)處理量;沃爾瑪是最早利用大數(shù)據(jù)分析并因此受益的企業(yè)之一,曾創(chuàng)造了“啤酒與尿布”的經(jīng)典商業(yè)案例?,F(xiàn)在沃爾瑪每小時(shí)處理100萬件交易,將有大約2.5PB的數(shù)據(jù)存入數(shù)據(jù)庫,此數(shù)據(jù)量是美國(guó)國(guó)會(huì)圖書館的167倍;微軟花了20年,耗費(fèi)數(shù)百萬美元完成的Office拼寫檢查功能,谷歌公司則利用大量統(tǒng)計(jì)數(shù)據(jù)直接分析實(shí)現(xiàn)??商幚韱栴}——數(shù)據(jù)處理需求的多樣化逐漸顯現(xiàn)

相比支撐單業(yè)務(wù)類型的數(shù)據(jù)處理業(yè)務(wù),公共數(shù)據(jù)處理平臺(tái)需要處理的大數(shù)據(jù)涉及在線/離線、線性/非線性,流數(shù)據(jù)和圖數(shù)據(jù)等多種復(fù)雜混合計(jì)算方式。例如,2011年Facebook首度公開其新數(shù)據(jù)處理分析平臺(tái)PUMA,通過對(duì)數(shù)據(jù)多處理環(huán)節(jié)區(qū)分優(yōu)化,相比之前單純采用Hadoop和Hive進(jìn)行處理的技術(shù),數(shù)據(jù)分析周期從2天降到10秒之內(nèi),效率提高數(shù)萬倍。手段:云計(jì)算、高性能計(jì)算、大數(shù)據(jù)分析處理技術(shù)等可靠性問題——大數(shù)據(jù)的可靠性,既需要數(shù)據(jù)清洗、去冗等技術(shù)提取有價(jià)值數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)質(zhì)量高效管理;也涉及實(shí)現(xiàn)對(duì)數(shù)據(jù)的安全訪問和隱私保護(hù),是大數(shù)據(jù)可靠性的關(guān)鍵需求?;ヂ?lián)網(wǎng)開放性,使大數(shù)據(jù)在數(shù)據(jù)輸入時(shí)的質(zhì)量確保和數(shù)據(jù)輸出時(shí)的隱私保護(hù)面臨考驗(yàn)?;ヂ?lián)網(wǎng)的數(shù)據(jù)采集和發(fā)布更靈活,容易將各種類型的不確定數(shù)據(jù)大量引入系統(tǒng),造成數(shù)據(jù)中含有各種各樣的錯(cuò)誤和誤差,體現(xiàn)為數(shù)據(jù)不正確、不精確、不完全、過時(shí)陳舊或者重復(fù)冗余。據(jù)高德納公司(Gartner)統(tǒng)計(jì),在全球財(cái)富1000強(qiáng)公司中有超過25%的公司關(guān)鍵數(shù)據(jù)不正確或不精確;在美國(guó)企業(yè)中有1%~30%的公司數(shù)據(jù)存在各類錯(cuò)誤和誤差,僅就醫(yī)療數(shù)據(jù)而言,有13.6%~81%的關(guān)鍵數(shù)據(jù)遺缺或陳舊;數(shù)據(jù)是企業(yè)降低成本、損失和增加收入不可或缺的工具。英國(guó)BT公司(BritishTelecom)因使用數(shù)據(jù)質(zhì)量工具而創(chuàng)造的企業(yè)效益每年高達(dá)6億英鎊。用戶在享受數(shù)據(jù)價(jià)值的同時(shí),也面臨日益嚴(yán)重的安全威脅和隱私風(fēng)險(xiǎn)。趨勢(shì)科技稱2011年為數(shù)據(jù)泄露年,國(guó)內(nèi)CSDN網(wǎng)站被曝600萬用戶的數(shù)據(jù)庫信息數(shù)據(jù)保護(hù)不妥,導(dǎo)致用戶密碼泄露。據(jù)安全機(jī)構(gòu)統(tǒng)計(jì),此次隱私信息泄露涉及5000萬互聯(lián)網(wǎng)用戶。著名社會(huì)網(wǎng)絡(luò)Facebook的Beacon廣告系統(tǒng)可以追蹤到5500萬用戶在其他網(wǎng)站的活動(dòng),嚴(yán)重威脅用戶隱私信息。2025/3/26NWU智能信息處理研究所39大數(shù)據(jù)技術(shù)的研究面臨挑戰(zhàn)數(shù)據(jù)規(guī)模導(dǎo)致難以應(yīng)對(duì)的存儲(chǔ)量和計(jì)算量數(shù)據(jù)規(guī)模導(dǎo)致傳統(tǒng)算法失效大數(shù)據(jù)復(fù)雜的數(shù)據(jù)關(guān)聯(lián)性導(dǎo)致高復(fù)雜度的計(jì)算基本原則應(yīng)用需求為導(dǎo)向領(lǐng)域交叉為橋梁計(jì)算技術(shù)為支撐

通過并行計(jì)算、分布式處理以及集群計(jì)算技術(shù)來實(shí)現(xiàn)大數(shù)據(jù)量處理及多機(jī)分布式并行處理,以滿足應(yīng)用的需求。Allmodelsarewrong,andincreasinglyyoucansucceedwithoutthem.2025/3/26NWU智能信息處理研究所40

核心——南京大學(xué)黃宜華教授2025/3/26NWU智能信息處理研究所41行業(yè)應(yīng)用開發(fā)層行業(yè)應(yīng)用系統(tǒng)和服務(wù)大數(shù)據(jù)應(yīng)用開發(fā)環(huán)境和工具大數(shù)據(jù)應(yīng)用和服務(wù)集成框架和接口大數(shù)據(jù)應(yīng)用測(cè)試環(huán)境和工具大數(shù)據(jù)應(yīng)用發(fā)布和運(yùn)行環(huán)境2025/3/26NWU智能信息處理研究所42應(yīng)用算法/技術(shù)層研究社會(huì)網(wǎng)絡(luò)排名與推薦系統(tǒng)個(gè)性化推薦技術(shù)商業(yè)智能媒體分析檢索Web挖掘與搜索3維建模與科學(xué)計(jì)算可視化生物多樣性信息學(xué)自然語言處理其他2025/3/26NWU智能信息處理研究所43社會(huì)網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)(CommunityDetection)網(wǎng)絡(luò)建模(NetworkModeling)中心分析和影響力建模(CentralityAnalysisandInfluenceModeling)分類推薦(ClassificationandRecommendation)隱私安全(Privacy,SpamandSecurity)等2025/3/26NWU智能信息處理研究所44排名與推薦系統(tǒng)常規(guī)排名(Ranking)多樣性排名(DiversifiedRanking)基于內(nèi)容的推薦(Content-basedRecommendation)基于標(biāo)簽的推薦(Tag-basedRecommendation)協(xié)同過濾推薦(CollaborativeFilteringRecommendation)……2025/3/26NWU智能信息處理研究所45多媒體分析檢索大規(guī)模圖像檢索(ImageRetrieval)大規(guī)模圖像分類(ImageClassification)目標(biāo)檢測(cè)(ObjectRecognition)視頻異常行為檢測(cè)(AbnormalEventDetection)……2025/3/26NWU智能信息處理研究所46WEB搜索與數(shù)據(jù)挖掘深度Web搜索(DeepWebSearch,精確化、智能化、綜合化信息搜索)頁面分類(DocumentClassification)頁面聚類(DocumentCluster)網(wǎng)頁摘要(DocumentAutomaticSummarization)場(chǎng)景引擎:將用戶行為抽象為與具體業(yè)務(wù)相關(guān)聯(lián)的場(chǎng)景……2025/3/26NWU智能信息處理研究所47自然語言處理機(jī)器翻譯(MachineTranslation)情感分析(SentimentAnalysis)輿情分析(PublicOpinionAnalysis)智能輸入(SmartInput)問答系統(tǒng)(QA)……2025/3/26NWU智能信息處理研究所48三維建模與大數(shù)據(jù)可視化計(jì)算地質(zhì)建模與分析(GeologicalModelingandAnalysis)電影渲染(MovieRendering)大規(guī)模數(shù)據(jù)可視化計(jì)算與分析(ScaleVisualAnalytics)……2025/3/26NWU智能信息處理研究所49基礎(chǔ)算法/技術(shù)層研究大數(shù)據(jù)并行化機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法研究大數(shù)據(jù)處理并行化學(xué)習(xí)和挖掘算法不同并行模型下并行化學(xué)習(xí)和挖掘算法并行化機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具和平臺(tái)

研究表明:基于大數(shù)據(jù)集的機(jī)器學(xué)習(xí)會(huì)取得更好的學(xué)習(xí)效果,這已是目前機(jī)器學(xué)習(xí)領(lǐng)域的共識(shí)。機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法分類(Classification)大規(guī)模支持向量機(jī)(LargeScaleSVM)神經(jīng)網(wǎng)絡(luò)(NeuralNetwork)與深度計(jì)算樸素貝葉斯(Na?veBayes)決策樹(DecisionTrees)聚類(Clustering)關(guān)聯(lián)規(guī)則挖掘……參數(shù)估計(jì)(ParametersEstimation)高維度數(shù)據(jù)降維(DimensionReduction)集成學(xué)習(xí)(EnsembleLearning)大圖數(shù)據(jù)算法圖聚類圖分類/圖劃分圖模式匹配(子圖同構(gòu)、最大公共子圖…)2025/3/26NWU智能信息處理研究所50四、大數(shù)據(jù)技術(shù)若干關(guān)鍵問題大數(shù)據(jù)獲取、表示及傳輸領(lǐng)域應(yīng)用/服務(wù)需求/計(jì)算模型并行架構(gòu)與計(jì)算平臺(tái)集群多核GPU及其集成云計(jì)算技術(shù)并行編程模型與計(jì)算框架MapReduceBSP并行計(jì)算框架大數(shù)據(jù)存儲(chǔ)技術(shù)預(yù)處理索引查詢數(shù)據(jù)表示與存儲(chǔ)管理DFS大數(shù)據(jù)智能處理技術(shù)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘基礎(chǔ)算法和應(yīng)用2025/3/26NWU智能信息處理研究所512025/3/26NWU智能信息處理研究所52大數(shù)據(jù)獲取獲取極為困難——大數(shù)據(jù)在國(guó)家企業(yè)和社會(huì)層面成為重要的戰(zhàn)略資源;數(shù)據(jù)成為新的戰(zhàn)略制高點(diǎn),是人們搶奪的新焦點(diǎn);數(shù)據(jù)不斷成為機(jī)構(gòu)的資產(chǎn),成為提升機(jī)構(gòu)和公司競(jìng)爭(zhēng)力的有力武器建立多個(gè)領(lǐng)域的數(shù)據(jù)共享平臺(tái),包括氣象、地震、林業(yè)、農(nóng)業(yè)、海洋、人口與健康、地球系統(tǒng)科學(xué)數(shù)據(jù)等,數(shù)據(jù)共享應(yīng)擴(kuò)展到企業(yè)層面需要學(xué)科間的交叉融合——增強(qiáng)學(xué)科內(nèi)、學(xué)科之間以及學(xué)術(shù)界與工業(yè)界之間的合作與交流等新型數(shù)據(jù)源——互聯(lián)網(wǎng)、云計(jì)算和物聯(lián)網(wǎng)的迅猛發(fā)展,無所不在的移動(dòng)設(shè)備、RFID、無線傳感器每分每秒都在產(chǎn)生數(shù)據(jù),數(shù)以億計(jì)用戶的互聯(lián)網(wǎng)服務(wù)時(shí)刻在產(chǎn)生巨量的交互數(shù)據(jù)數(shù)據(jù)所有權(quán),既是技術(shù)問題,也有法理問題解決途徑——保護(hù)多方利益的前提下解決數(shù)據(jù)共享問題

隨處可見的攝像頭、傳感器、GPS定位等設(shè)備,會(huì)感知人們的位置等信息,借助大數(shù)據(jù)分析技術(shù)可以輕易獲得其行蹤規(guī)律,給人們生活帶來威脅;“云”的經(jīng)濟(jì)性,推動(dòng)了海量并行處理破解密碼的可能性;“云”商云集,使人們寄希望于他們是道德圣人,否則損失將是災(zāi)害性的!2025/3/26NWU智能信息處理研究所53大數(shù)據(jù)表示關(guān)系數(shù)據(jù)庫曾經(jīng)是萬能的關(guān)系數(shù)據(jù)模型醫(yī)院信息管理系統(tǒng)(HIS)臨床信息系統(tǒng)(CIS)醫(yī)學(xué)影像信息系統(tǒng)(PACS)ICU監(jiān)護(hù)系統(tǒng)電子病歷遠(yuǎn)程健康監(jiān)護(hù)平臺(tái)用藥管理系統(tǒng)虛擬醫(yī)院2025/3/26NWU智能信息處理研究所54大數(shù)據(jù)表示——新型數(shù)據(jù)模型研究關(guān)系模型無法表達(dá)非結(jié)構(gòu)化數(shù)據(jù)的復(fù)雜結(jié)構(gòu)面向?qū)ο竽P蛯⒕哂邢嗤o態(tài)結(jié)構(gòu)、動(dòng)態(tài)行為和約束條件的對(duì)象抽象為一類。能夠根據(jù)客觀世界的本來面貌描述各種對(duì)象,能夠表達(dá)對(duì)象間各種復(fù)雜關(guān)系。但缺乏堅(jiān)實(shí)的理論基礎(chǔ),并且實(shí)現(xiàn)復(fù)雜分層式數(shù)據(jù)模型基于語義描述、底層特征和原始數(shù)據(jù),但不能很好地表達(dá)各類非結(jié)構(gòu)化數(shù)據(jù)的各組成部分的關(guān)系以及各類數(shù)據(jù)之間的關(guān)系需要建立一種將非結(jié)構(gòu)化數(shù)據(jù)的文本描述性信息與特征等信息整體表達(dá),并且能夠描述各種非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一的新型數(shù)據(jù)模型(如ResourceDescriptionFramework,RDF研究)2025/3/26NWU智能信息處理研究所55大數(shù)據(jù)存儲(chǔ)云計(jì)算技術(shù)是最理想的解決方案!?2025/3/26NWU智能信息處理研究所56并行架構(gòu)與計(jì)算平臺(tái)技術(shù)共享內(nèi)存架構(gòu)技術(shù)

多核+GPU分布式內(nèi)存架構(gòu)技術(shù)

集群混合式架構(gòu)技術(shù)

集群+多核集群+GPU大數(shù)據(jù)應(yīng)用/云計(jì)算支撐平臺(tái)技術(shù)云計(jì)算架構(gòu)及其平臺(tái)研究云存儲(chǔ)技術(shù)并行計(jì)算系統(tǒng)可靠性及容錯(cuò)恢復(fù)技術(shù)數(shù)據(jù)訪問隱私保護(hù)和安全技術(shù)目前國(guó)際上學(xué)術(shù)界和工業(yè)界主要從系統(tǒng)軟件、體系結(jié)構(gòu)、分布式系統(tǒng)等方面進(jìn)行了改進(jìn)和優(yōu)化!內(nèi)存數(shù)據(jù)庫及編譯器優(yōu)化等技術(shù)增加內(nèi)存、增加處理器、協(xié)處理器和增加I/O通道MapReduce或Hadoop架構(gòu)2025/3/26NWU智能信息處理研究所57并行編程模型與計(jì)算框架研究MapReduce應(yīng)用及改進(jìn)Hadoop性能優(yōu)化MapReduce并行計(jì)算框架改進(jìn)MapReduce在不同架構(gòu)上的實(shí)現(xiàn)(如眾核、GPU等)BSP(bulksynchronizedparallel)基于BSP模型的并行處理框架大圖數(shù)據(jù)并行處理框架研究:基于圖劃分的分布式存儲(chǔ)pregel(Google)Trinity(微軟)CUDA,MPI,OpenMP提升可編程性定制式并行計(jì)算框架混合式并行計(jì)算模型和框架2025/3/26NWU智能信息處理研究所58大數(shù)據(jù)存儲(chǔ)技術(shù)研究大數(shù)據(jù)預(yù)處理技術(shù)研究大數(shù)據(jù)采集與傳輸清洗過濾和質(zhì)量管理技術(shù)研究壓縮技術(shù)研究大數(shù)據(jù)索引和查詢技術(shù)研究靜態(tài)記錄型索引技術(shù)流式/增量式記錄型索引技術(shù)大數(shù)據(jù)表的高效關(guān)系型操作并行化查詢技術(shù)圖數(shù)據(jù)表示與查詢技術(shù)靜態(tài)圖數(shù)據(jù)的表示、存儲(chǔ)和查詢流式/增量式圖數(shù)據(jù)的表示、存儲(chǔ)與查詢查詢語言接口與技術(shù)SQL./NoSQL查詢語言接口并行查詢執(zhí)行機(jī)制混合式數(shù)據(jù)表示及存儲(chǔ)機(jī)制研究

存儲(chǔ)管理模型研究數(shù)據(jù)表示與查詢等技術(shù)分布式數(shù)據(jù)庫技術(shù)

Hbase性能優(yōu)化查詢與索引技術(shù)分布式存儲(chǔ)技術(shù)分布式文件系統(tǒng)

HDFS系統(tǒng)優(yōu)化2025/3/26NWU智能信息處理研究所59大數(shù)據(jù)處理技術(shù)并行機(jī)器學(xué)習(xí)/數(shù)據(jù)挖掘算法研究分類算法SVM;NN;GA;EA;……聚類算法關(guān)聯(lián)發(fā)現(xiàn)參數(shù)估計(jì)高維度數(shù)據(jù)降維大圖數(shù)據(jù)挖掘算法:圖聚類,圖分類,圖模式匹配等……集成學(xué)習(xí)深度學(xué)習(xí)……“大數(shù)據(jù)+簡(jiǎn)單模型”?2025/3/26NWU智能信息處理研究所60大圖數(shù)據(jù)挖掘算法圖查詢:復(fù)雜對(duì)象識(shí)別、社交網(wǎng)絡(luò)和WEB網(wǎng)絡(luò)、生物數(shù)據(jù)分析、軟件代碼剽竊檢測(cè);子圖查詢:凝聚子圖查詢、極大團(tuán)、n-極大團(tuán)、n-宗派、K-極大核圖聚類:預(yù)處理、數(shù)據(jù)挖掘圖分類:預(yù)處理、數(shù)據(jù)挖掘圖模式匹配:應(yīng)用于生物學(xué)、生物化學(xué)、警覺、圖像和視頻、模式匹配等;圖同構(gòu)、子圖同構(gòu)、最大公共子圖算法、近似算法(傳播算法、譜算法、優(yōu)化算法等);靜態(tài)圖匹配或動(dòng)態(tài)圖匹配等2025/3/26NWU智能信息處理研究所61社會(huì)計(jì)算研究?jī)?nèi)容2025/3/26NWU智能信息處理研究所62社會(huì)計(jì)算研究?jī)?nèi)容2025/3/26NWU智能信息處理研究所63群體智慧2025/3/26NWU智能信息處理研究所64群體智慧2025/3/26NWU智能信息處理研究所65群體智慧2025/3/26NWU智能信息處理研究所66群體智慧社會(huì)計(jì)算的由來社會(huì)計(jì)算微博——話題跟蹤?輿情分析?情感挖掘?微博數(shù)據(jù)處理技術(shù)研究微博(微信)數(shù)據(jù)分析及分析軟件研發(fā)是又一熱點(diǎn)。(從運(yùn)營(yíng)角度:如監(jiān)測(cè)用戶粘度、規(guī)模、活躍度、流量等信息;聽眾數(shù)、轉(zhuǎn)播數(shù)、轉(zhuǎn)發(fā)率、平均評(píng)論次數(shù);發(fā)布微博的方式:網(wǎng)頁、手機(jī)、客戶端;用戶的背景資料分析,地域、年齡、性別、學(xué)歷、職業(yè)、行業(yè)、薪酬情況等;從營(yíng)銷角度:用戶分析,用戶引導(dǎo)等等)。2025/3/26NWU智能信息處理研究所71例:數(shù)字腳印與城市計(jì)算隨著感知、計(jì)算、通訊技術(shù)的日新月異,記錄人類日常行為軌跡、物理世界的動(dòng)態(tài)變化以及人類與虛擬世界交互等的數(shù)字印跡正以前所未有的規(guī)模積累和擴(kuò)張,形成了大數(shù)據(jù),可把這些數(shù)據(jù)稱為“數(shù)字腳印”。數(shù)字腳印除了出租車GPS軌跡、基于位置的移動(dòng)社交網(wǎng)絡(luò)數(shù)據(jù)和移動(dòng)智能電話記錄等外,常見的還有城市公共自行車租借記錄、乘客公共交通刷卡記錄、城市居民家庭和機(jī)構(gòu)用電用水記錄等。城市計(jì)算可概括為通過城市感知、數(shù)據(jù)挖掘、智能提取和服務(wù)提供四大環(huán)節(jié)來建立一個(gè)生態(tài)循環(huán)系統(tǒng)。2025/3/26NWU智能信息處理研究所72城市計(jì)算與大數(shù)據(jù)城市計(jì)算是一門新興的交叉領(lǐng)域,是計(jì)算機(jī)學(xué)科與傳統(tǒng)城市規(guī)劃、交通、能源、經(jīng)濟(jì)、環(huán)境和社會(huì)學(xué)等多個(gè)領(lǐng)域在城市空間的交匯?;究蚣馨ǔ鞘懈兄皵?shù)據(jù)捕獲、數(shù)據(jù)管理、城市數(shù)據(jù)分析和服務(wù)提供;城市感知:利用城市現(xiàn)有的資源(如手機(jī)、傳感器、車輛和人等),在不干擾人們生活的前提下自動(dòng)感知城市的韻律;海量異構(gòu)數(shù)據(jù)的管理:城市產(chǎn)生的數(shù)據(jù)模態(tài)多,屬性差別大。如:氣象——空間點(diǎn)數(shù)據(jù),道路——空間圖數(shù)據(jù),人的移動(dòng)——軌跡數(shù)據(jù)(時(shí)間+空間),交通流量——流數(shù)據(jù),社交網(wǎng)上用戶發(fā)布的信息——文本或圖像數(shù)據(jù);異構(gòu)數(shù)據(jù)的協(xié)同計(jì)算:(1)從不同的數(shù)據(jù)源中獲取相互增強(qiáng)的知識(shí)是新的課題。(2)在保證知識(shí)提取深度的同時(shí),提高分析效率,從而滿足眾多實(shí)時(shí)性要求較高的應(yīng)用(如空氣質(zhì)量預(yù)測(cè)、異常事件監(jiān)測(cè)等)是難題。(3)數(shù)據(jù)維度增加導(dǎo)致了數(shù)據(jù)稀疏性問題。虛實(shí)結(jié)合的混合式系統(tǒng):城市計(jì)算催生了混合系統(tǒng),如云加端模式,即信息產(chǎn)生在物理世界,通過終端設(shè)備被收集到云端(虛擬世界)分析和處理,最后云再將提取的知識(shí)作為服務(wù)提供給物理世界的終端用戶。2025/3/26NWU智能信息處理研究所73城市計(jì)算的基本框架2025/3/26NWU智能信息處理研究所74城市計(jì)算的主要技術(shù)傳感器技術(shù):傳感器網(wǎng)絡(luò)、主動(dòng)參與式感知、被動(dòng)群體感知數(shù)據(jù)管理技術(shù):流數(shù)據(jù)管理、軌跡管理、圖數(shù)據(jù)管理、時(shí)空索引等數(shù)據(jù)挖掘技術(shù):異構(gòu)數(shù)據(jù)互增強(qiáng)、稀疏數(shù)據(jù)處理等優(yōu)化技術(shù):最優(yōu)路徑等混合數(shù)據(jù)的可視化技術(shù):結(jié)果顯示應(yīng)用:城市規(guī)劃、智能交通、環(huán)境監(jiān)測(cè)與管理、社交娛樂、能源消耗、城市經(jīng)濟(jì)、城市安全和應(yīng)急響應(yīng)等2025/3/26NWU智能信息處理研究所75數(shù)字腳印與城市計(jì)算研究出租車GPS數(shù)字腳?。翰煌瑫r(shí)刻的城市熱點(diǎn)檢測(cè)、城市區(qū)域的功能特性分類、路徑規(guī)劃、出租車司機(jī)尋客策略、異常軌跡檢測(cè)、城市道路交通流量預(yù)測(cè)等;移動(dòng)社交網(wǎng)絡(luò)數(shù)字腳?。?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論