大數(shù)據(jù)與云計(jì)算黃哲學(xué)_第1頁(yè)
大數(shù)據(jù)與云計(jì)算黃哲學(xué)_第2頁(yè)
大數(shù)據(jù)與云計(jì)算黃哲學(xué)_第3頁(yè)
大數(shù)據(jù)與云計(jì)算黃哲學(xué)_第4頁(yè)
大數(shù)據(jù)與云計(jì)算黃哲學(xué)_第5頁(yè)
已閱讀5頁(yè),還剩59頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)與云計(jì)算:

--信息技術(shù)發(fā)展的新紀(jì)元

黃哲學(xué)博士深圳大學(xué)特聘教授大數(shù)據(jù)技術(shù)與應(yīng)用研究所所長(zhǎng)大綱大數(shù)據(jù)與云計(jì)算云計(jì)算大數(shù)據(jù)平臺(tái)與技術(shù)創(chuàng)新大數(shù)據(jù)平臺(tái)產(chǎn)業(yè)化與應(yīng)用案例什么是大數(shù)據(jù)對(duì)數(shù)據(jù)的使用者來(lái)講,如果數(shù)據(jù)集超出了使用者所擁有的信息處理和分析的能力,就給使用者帶來(lái)了大數(shù)據(jù)問(wèn)題大數(shù)據(jù)V特征Volume數(shù)據(jù)規(guī)模大Velocity數(shù)據(jù)變化數(shù)據(jù)快Variety數(shù)據(jù)屬性復(fù)雜Value價(jià)值大數(shù)據(jù)的特點(diǎn)并不只是數(shù)據(jù)規(guī)模大數(shù)據(jù)的量呈現(xiàn)指數(shù)增長(zhǎng)2009年至2020年將增加44倍數(shù)據(jù)的體量從0.8zettabytes增加到35ZB生成和采集的數(shù)據(jù)將按指數(shù)增長(zhǎng)根據(jù)麥肯錫預(yù)計(jì)美國(guó)超過(guò)1000雇員的公司,平均每個(gè)公司存有200TB的數(shù)據(jù),很多行業(yè)的公司,如銀行、電訊、互聯(lián)網(wǎng)、政府部門(mén)等,平均存儲(chǔ)的數(shù)據(jù)超過(guò)1個(gè)PB。大數(shù)據(jù)的多樣性Variety不同的數(shù)據(jù)格式,數(shù)據(jù)類型和數(shù)據(jù)結(jié)構(gòu)文本、數(shù)字、圖像、音頻、視頻、時(shí)間序列、社會(huì)媒體數(shù)據(jù)、高維矩陣數(shù)據(jù)等靜態(tài)數(shù)據(jù)vs.流數(shù)據(jù)同一個(gè)應(yīng)用可以生成和采集不同類型的數(shù)據(jù)為了提取知識(shí)盡可能多地綜合不同類型的相關(guān)數(shù)據(jù)大數(shù)據(jù)的速度Velocity數(shù)據(jù)的采集速度的加快導(dǎo)致處理時(shí)間都需要有相應(yīng)的提高在線數(shù)據(jù)分析(OnlineDataAnalytics)決策的延誤

商機(jī)的消失實(shí)例網(wǎng)上營(yíng)銷(E-Promotions):基于用戶當(dāng)前的位置和過(guò)往的交易數(shù)據(jù)預(yù)測(cè)用戶的喜好在合適的時(shí)間和地點(diǎn)發(fā)送用戶感興趣的產(chǎn)品和店鋪健康監(jiān)控(Healthcaremonitoring):利用穿戴式的傳感器監(jiān)控用戶的生理和活動(dòng)數(shù)據(jù)及時(shí)提供需要的醫(yī)療服務(wù)大數(shù)據(jù)的價(jià)值(Value)未來(lái)大數(shù)據(jù)的產(chǎn)業(yè)規(guī)模將會(huì)至少以萬(wàn)億美元來(lái)進(jìn)行衡量,大數(shù)據(jù)將會(huì)給信息技術(shù)領(lǐng)域帶來(lái)一個(gè)新的增長(zhǎng)點(diǎn)。美國(guó)醫(yī)療保健每年產(chǎn)值達(dá)3000億美金每年生產(chǎn)率增長(zhǎng)約0.7%制造業(yè)最多可節(jié)省50%的產(chǎn)品研發(fā)、組裝成本最多可節(jié)約7%的營(yíng)運(yùn)資金美國(guó)零售業(yè)凈利率增長(zhǎng)可能高達(dá)60%+每年生產(chǎn)率增長(zhǎng)0.5-1.0%歐洲公共部門(mén)管理每年2500億歐元每年生產(chǎn)率增長(zhǎng)約0.7%全球個(gè)人定位數(shù)據(jù)1000億+的服務(wù)供應(yīng)商收入為終端用戶帶來(lái)高達(dá)7000億美的價(jià)值大數(shù)據(jù)的產(chǎn)生數(shù)據(jù)的發(fā)展和創(chuàng)新將不再是如何生成和采集數(shù)據(jù)具備對(duì)采集的數(shù)據(jù)進(jìn)行管理、分析、總結(jié)、可視化展示和知識(shí)發(fā)現(xiàn)的能力已經(jīng)成為新的挑戰(zhàn)社會(huì)媒體網(wǎng)絡(luò)(每個(gè)人都在產(chǎn)生數(shù)據(jù))科學(xué)儀器

(采集不同類型的數(shù)據(jù))移動(dòng)終端

(個(gè)人地理信息數(shù)據(jù))傳感器網(wǎng)絡(luò)(測(cè)量不同類型的數(shù)據(jù))大數(shù)據(jù)的技術(shù)挑戰(zhàn)存儲(chǔ)–分布式、低成本傳輸–能力、成本處理–集成、融合、處理分析–能力、效率挖掘–方法、能力、技術(shù)、平臺(tái)應(yīng)用能耗互聯(lián)網(wǎng)與電訊行業(yè)需求某互聯(lián)網(wǎng)公司100多在線游戲,4億在線游戲用戶在線系統(tǒng)記錄每個(gè)游戲用戶在線玩游戲的詳細(xì)數(shù)據(jù),包括游戲、時(shí)間、動(dòng)作、結(jié)果等,TB級(jí)數(shù)據(jù)分析需求:用戶行分類與預(yù)測(cè),用戶行為客戶群劃分用戶挽留、用戶獎(jiǎng)勵(lì)和級(jí)別提升某電信公司深度包檢測(cè)(DPI)大數(shù)據(jù)分析,研究客戶互聯(lián)網(wǎng)行為模型,流量分析,數(shù)據(jù)套餐設(shè)計(jì)百萬(wàn)人口城市,每天數(shù)據(jù)量TB級(jí)云計(jì)算云計(jì)算是一種新的大規(guī)模分布式計(jì)算模式通過(guò)網(wǎng)絡(luò)和資源虛擬技術(shù),實(shí)現(xiàn)計(jì)算及存儲(chǔ)資源集中管理,面向用戶提供服務(wù)云計(jì)算可以解決目前計(jì)算機(jī)使用的諸多問(wèn)題,是計(jì)算技術(shù)發(fā)展的一個(gè)新的里程碑2023/2/412傳統(tǒng)計(jì)算機(jī)的問(wèn)題

使用成本高資源分散資源不足資源浪費(fèi)高能耗環(huán)境污染云計(jì)算的優(yōu)點(diǎn)

成本低易于普及可擴(kuò)展能力高節(jié)能環(huán)保

云計(jì)算的五個(gè)基本特征按需自助服務(wù)(On-demandself-service)廣泛的網(wǎng)絡(luò)接入(Broadnetworkaccess)資源池(Resourcepooling)快速?gòu)椥曰≧apidelasticity)可度量的服務(wù)(MeasuredService)2023/2/413云環(huán)境(ACloud)云指的是一個(gè)遙遠(yuǎn)的計(jì)算環(huán)境,這個(gè)環(huán)境是用來(lái)為計(jì)算環(huán)境外的用戶提供可擴(kuò)展和可度量的計(jì)算資源。用戶可能不知道具體的云環(huán)境在哪里。如用戶在深圳,云環(huán)境可能在內(nèi)蒙古。2023/2/414云環(huán)境的計(jì)算資源物理服務(wù)器—CPU,內(nèi)存,外存(磁盤(pán)、磁帶)虛擬服務(wù)器—CPU,內(nèi)存,外存軟件服務(wù)

(應(yīng)用)2023/2/415物理服務(wù)器虛擬服務(wù)器軟件服務(wù)虛擬化是云計(jì)算的核心技術(shù)虛擬化技術(shù)可以將一個(gè)物理服務(wù)器當(dāng)作多個(gè)虛擬服務(wù)器使用,多個(gè)用戶共享物理服務(wù)器的資源,但用戶對(duì)虛擬服務(wù)器的體驗(yàn)是獨(dú)立的計(jì)算機(jī)。用戶不需要了解物理服務(wù)器虛擬服務(wù)器的運(yùn)行由物理服務(wù)器統(tǒng)一管理和維護(hù),虛擬機(jī)用戶不需要維護(hù)。當(dāng)某虛擬機(jī)用戶需求變化時(shí),物理服務(wù)器的資源可以自動(dòng)擴(kuò)展。2023/2/416彈性化和可擴(kuò)展性彈性化是云計(jì)算的重要特征,計(jì)算資源彈性化可以使云環(huán)境的計(jì)算能力隨著用戶需求變化而增加或減少。水平擴(kuò)展向外擴(kuò)展Scaleout—增加資源向內(nèi)收縮Scalein—減少資源垂直擴(kuò)展向上擴(kuò)展Scaleup—提升CPU和內(nèi)存向下收縮Scaledown–降低CPU和內(nèi)存2023/2/417云服務(wù)器面向服務(wù)ServiceOrientation云計(jì)算的獨(dú)特特征是服務(wù)導(dǎo)向或面向服務(wù),就是將計(jì)算和存儲(chǔ)資源作為服務(wù)供用戶使用服務(wù)的收費(fèi)方式是誰(shuí)使用誰(shuí)付錢(qián),例如:付使用存儲(chǔ)服務(wù)的費(fèi)用付使用CPU的費(fèi)用付使用數(shù)據(jù)庫(kù)軟件的費(fèi)用用戶不擁有這些資源,因此不需維護(hù)它們2023/2/418云計(jì)算的三種基本服務(wù)模式云設(shè)施服務(wù)CloudInfrastructureasaService(IaaS)云平臺(tái)服務(wù)CloudPlatformasaService(PaaS)軟件作為服務(wù)CloudSoftwareasaService(SaaS)2023/2/419云計(jì)算架構(gòu)CloudArchitecture2023/2/420虛擬化計(jì)算服務(wù)ComputingService存儲(chǔ)服務(wù)StorageServiceDBMSMapReduceGoogleAppEngineCRMERPCAD/CAMPOSWindowsAzureInfrastructureasaService(IaaS)PlatformasaService(PaaS)SoftwareasaService(SaaS)物理資源云服務(wù)應(yīng)用的部署模型公有云Publiccloud私有云Privatecloud社區(qū)云Communitycloud混合云Hybridcloud2023/2/421大綱大數(shù)據(jù)與云計(jì)算云計(jì)算大數(shù)據(jù)平臺(tái)與技術(shù)創(chuàng)新大數(shù)據(jù)平臺(tái)產(chǎn)業(yè)化與應(yīng)用案例挑戰(zhàn)性的技術(shù)問(wèn)題數(shù)據(jù)融合(fusion)數(shù)據(jù)集成(integration)挑戰(zhàn)病人健康醫(yī)療數(shù)據(jù)沒(méi)有有效的數(shù)據(jù)集成就不能進(jìn)行有效的綜合數(shù)據(jù)分析挑戰(zhàn)性的科學(xué)問(wèn)題成千上萬(wàn)個(gè)屬性超高維問(wèn)題百萬(wàn)以上甚至超億個(gè)記錄混合數(shù)據(jù)類型缺省值/噪聲相關(guān)性問(wèn)題UnbalanceSubspacepropertyUninformativeness12nn-1n-2n-3n-4f1f2f3f4f5…大數(shù)據(jù)集的挑戰(zhàn)(BigDataMatrix)超高維數(shù)據(jù)聚類算法研究對(duì)屬性變量做分組歸并,產(chǎn)生組變量對(duì)組變量和屬性變量分層加權(quán)重?cái)U(kuò)展軟子空間聚類算法EWKM,在聚類過(guò)程中自動(dòng)計(jì)算組變量權(quán)重值和屬性變量權(quán)重值最后得到以組變量為主的子空間聚類結(jié)果組變量相當(dāng)于在高空看數(shù)據(jù),大輪廓清晰屬性變量相當(dāng)于在低空看數(shù)據(jù),細(xì)節(jié)清晰組變量屬性變量SRF:基于MapReduce大數(shù)據(jù)隨機(jī)森林算法Layer寬度優(yōu)先、大規(guī)模分層建樹(shù)策略大數(shù)據(jù)隨機(jī)森林算法研究成果屬性加權(quán)抽樣隨機(jī)森林算法,用于超高維數(shù)據(jù)分類,平均精度提高20%。與澳大利亞聯(lián)邦稅務(wù)總局?jǐn)?shù)據(jù)挖掘首席科學(xué)家GrahamWilliams合作,將隨機(jī)森林算法用于ATO繳稅分類建模。分布式高可擴(kuò)展隨機(jī)森林分類算法,實(shí)現(xiàn)了對(duì)千萬(wàn)個(gè)客戶記錄、千個(gè)變量、100GB規(guī)模數(shù)據(jù)的建模能力。將分布式隨機(jī)森林算法發(fā)布到國(guó)際著名的統(tǒng)計(jì)分析平臺(tái)R系統(tǒng)上,擴(kuò)大國(guó)際影響力。研究成果國(guó)際化推廣研究成果國(guó)際化應(yīng)用隨機(jī)森林模型并行化實(shí)現(xiàn)屬性加權(quán)抽樣隨機(jī)森林模型云計(jì)算與大數(shù)據(jù)分析數(shù)據(jù)挖掘是從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的方法和過(guò)程,是解決各種科學(xué)和應(yīng)用問(wèn)題的重要手段由于數(shù)據(jù)的快速增長(zhǎng),傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)和軟件正面臨極大的瓶頸銀行:人民銀行征信系統(tǒng)收錄了自然人6.4億人的信貸記錄金融:南方基金公司有近1000萬(wàn)客戶資料需要分析電訊:廣東中國(guó)移動(dòng)每天產(chǎn)生2TB通話記錄數(shù)據(jù)零售:Wal-Mart每天產(chǎn)生2.6億個(gè)交易記錄,其數(shù)據(jù)中心存儲(chǔ)4PB的交易數(shù)據(jù)互聯(lián)網(wǎng):Amazon有5900萬(wàn)活躍客戶,超過(guò)42TB的客戶數(shù)據(jù)2023/2/428云計(jì)算的優(yōu)點(diǎn)是處理海量數(shù)據(jù)的能力,為大數(shù)據(jù)挖掘提供了新的計(jì)算平臺(tái)云計(jì)算海量數(shù)據(jù)處理的核心技術(shù)2023/2/429虛擬文件系統(tǒng)數(shù)據(jù)劃分GFS(Google)HDFS(Hadoop)MapReduce編程模型算法編程Map和Reduce兩個(gè)基本操作大規(guī)模分布計(jì)算可擴(kuò)展性運(yùn)行時(shí)系統(tǒng)程序運(yùn)行負(fù)載平衡任務(wù)調(diào)度容錯(cuò)MapReduce編程模型主節(jié)點(diǎn)節(jié)點(diǎn)節(jié)點(diǎn)節(jié)點(diǎn)節(jié)點(diǎn)節(jié)點(diǎn)用戶編程文件文件文件文件文件輸出輸出文件劃分Map運(yùn)算Reduce運(yùn)算結(jié)果輸出程序?qū)懗蒑ap和Reduce兩步運(yùn)算1.

Map統(tǒng)計(jì)單個(gè)文本詞頻2.

Reduce綜合所有文本的詞頻(Map)(Reduce)MapReduce

管道式運(yùn)算2023/2/431MRMRMRMRK-均值聚類對(duì)象分簇MapReduceMRMRMRMRMRMRMRMR輸出輸入?????收斂?重新計(jì)算簇中心點(diǎn)基于云計(jì)算的大數(shù)據(jù)分析平臺(tái)區(qū)域智能數(shù)據(jù)中心區(qū)域智能數(shù)據(jù)中心支持多種終端訪問(wèn)以區(qū)域性智能數(shù)據(jù)中心及高速互聯(lián)網(wǎng)為基礎(chǔ)設(shè)施以互聯(lián)網(wǎng)服務(wù)體系為架構(gòu)以大數(shù)據(jù)存儲(chǔ)、處理、挖掘和交互式可視化分析等關(guān)鍵技術(shù)為支撐通過(guò)多樣化移動(dòng)智能終端及移動(dòng)互聯(lián)網(wǎng)為用戶提供數(shù)據(jù)存儲(chǔ)、管理及分析服務(wù)。關(guān)鍵技術(shù)云計(jì)算引擎高性能海量數(shù)據(jù)挖掘算法庫(kù)工作流引擎支撐海量數(shù)據(jù)處理、挖掘與分析運(yùn)算提供海量復(fù)雜數(shù)據(jù)處理、分析與挖掘高可擴(kuò)展算法數(shù)據(jù)處理分析流程圖形化設(shè)計(jì)數(shù)據(jù)處理分析流程自動(dòng)執(zhí)行資源調(diào)度及優(yōu)化OpenAPI提供數(shù)據(jù)挖掘平臺(tái)與第三方應(yīng)用系統(tǒng)的擴(kuò)展接口支撐海量數(shù)據(jù)存儲(chǔ)與管理云存儲(chǔ)大數(shù)據(jù)分析平臺(tái)云計(jì)算大數(shù)據(jù)挖掘平臺(tái)110臺(tái)服務(wù)器,840CPU核,550TB存儲(chǔ)容量構(gòu)建云計(jì)算大數(shù)據(jù)挖掘平臺(tái),具備TB級(jí)數(shù)據(jù)存儲(chǔ)、處理與分析能力,為大數(shù)據(jù)挖掘技術(shù)與系統(tǒng)開(kāi)發(fā)和測(cè)試提供實(shí)驗(yàn)支撐環(huán)境。數(shù)據(jù)庫(kù):MySQL5.0商用版云存儲(chǔ):Hadoop、Casendral數(shù)據(jù)挖掘軟件:Alphaminer、R平臺(tái)規(guī)模軟件環(huán)境平臺(tái)功能大數(shù)據(jù)云存儲(chǔ)與管理分布式并行數(shù)據(jù)挖掘任務(wù)執(zhí)行可視化數(shù)據(jù)分析執(zhí)行引擎云計(jì)算數(shù)據(jù)挖掘算法庫(kù)基于MapReduce模型,實(shí)現(xiàn)了11個(gè)常用數(shù)據(jù)挖掘算法分布式并行化。K-MeansK-ModesW-K-MeansEWKM聚類算法DecisionTreeRandomForestsLDA分類算法LogisticRegressionRandomForestRegression回歸算法FP-Growth關(guān)聯(lián)規(guī)則部分算法的測(cè)試性能已達(dá)到TB級(jí)數(shù)據(jù)的處理能力。K-Means算法性能數(shù)據(jù)規(guī)模:1TB,1千萬(wàn)條數(shù)據(jù)*1萬(wàn)維執(zhí)行效率:初始10個(gè)聚類中心,一次迭代時(shí)間約30分鐘RandomForests算法性能數(shù)據(jù)規(guī)模:110GB,1千萬(wàn)條數(shù)據(jù)*1千維執(zhí)行效率:建立20棵樹(shù)約36分鐘針對(duì)傳統(tǒng)數(shù)據(jù)挖掘算法不能處理大數(shù)據(jù)的挑戰(zhàn),開(kāi)發(fā)基于云計(jì)算的高可擴(kuò)展并行數(shù)據(jù)挖掘算法庫(kù),突破TB級(jí)數(shù)據(jù)處理瓶頸。大數(shù)據(jù)處理流程--醫(yī)保數(shù)據(jù)案例1型糖尿病性神經(jīng)炎(原始記錄)糖尿病性神經(jīng)炎(ICD國(guó)際疾病分類標(biāo)準(zhǔn))內(nèi)分泌,營(yíng)養(yǎng)和代謝疾?。↖CD國(guó)際疾病分類標(biāo)準(zhǔn))疾病匹配疾病分類疾病分類在線數(shù)據(jù)分析通過(guò)儀表盤(pán)圖形化的KPI指標(biāo)支持全局的運(yùn)營(yíng)表現(xiàn)和局部細(xì)節(jié)的鉆取分析快速了解業(yè)務(wù)運(yùn)營(yíng)的各項(xiàng)指標(biāo)實(shí)施獲取告警信息定制化的應(yīng)用開(kāi)發(fā)移動(dòng)終端上的商務(wù)智能分析平臺(tái)系統(tǒng)框架基于瀏覽器的BI分析平臺(tái)基于智能移動(dòng)終端的BI分析平臺(tái)海量數(shù)據(jù)可視化大數(shù)據(jù)分析與挖掘平臺(tái)智能數(shù)據(jù)中心基于WEB的數(shù)據(jù)分析流程設(shè)計(jì)工具基于WEBD數(shù)據(jù)管理工具創(chuàng)新點(diǎn):與搜索引擎區(qū)別主要功能海量數(shù)據(jù)分析海量信息檢索處理對(duì)象各類型海量數(shù)據(jù)網(wǎng)頁(yè)任務(wù)目標(biāo)挖掘新知識(shí)、分類模型等已有信息的查詢與集成應(yīng)用目標(biāo)智能決策支持信息查詢核心技術(shù)機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、分布式計(jì)算網(wǎng)頁(yè)爬蟲(chóng)、索引、快速查詢應(yīng)用領(lǐng)域新興領(lǐng)域(互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、電子商務(wù)、醫(yī)藥研發(fā)、氣象預(yù)測(cè))教育、軍事、情報(bào)、互聯(lián)網(wǎng)vs.大數(shù)據(jù)分析平臺(tái)搜索引擎創(chuàng)新點(diǎn):與云服務(wù)區(qū)別主要功能海量數(shù)據(jù)存儲(chǔ)與分析服務(wù)云服務(wù)處理對(duì)象各類型海量數(shù)據(jù)PaaS,SaaS應(yīng)用任務(wù)目標(biāo)挖掘新知識(shí)、分類模型等提供低成本計(jì)算服務(wù)應(yīng)用目標(biāo)智能決策支持支持中小企業(yè)IT應(yīng)用相互關(guān)系應(yīng)用云計(jì)算技術(shù)提供數(shù)據(jù)分析服務(wù)支撐數(shù)據(jù)分析服務(wù)vs.云服務(wù)平臺(tái)大數(shù)據(jù)分析平臺(tái)創(chuàng)新點(diǎn):與傳統(tǒng)BI區(qū)別應(yīng)用模式互聯(lián)網(wǎng)服務(wù)解決方案軟件解決方案技術(shù)支撐智能數(shù)據(jù)中心、互聯(lián)網(wǎng)大型BI軟件及昂貴硬件服務(wù)器擴(kuò)展性彈性擴(kuò)展擴(kuò)展性差TOC按需付費(fèi)解決方案,價(jià)格昂貴,成本極高應(yīng)用領(lǐng)域新興領(lǐng)域(互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、電子商務(wù))傳統(tǒng)領(lǐng)域(金融、保險(xiǎn)、電信、零售)適用性大型企業(yè)(BI私有云)中小企業(yè)(BISaaS)大型企業(yè)vs.BIServiceBIRuntimeBIServerVisualization傳統(tǒng)BI大數(shù)據(jù)分析平臺(tái)大綱大數(shù)據(jù)與云計(jì)算云計(jì)算大數(shù)據(jù)平臺(tái)與技術(shù)創(chuàng)新大數(shù)據(jù)平臺(tái)產(chǎn)業(yè)化與應(yīng)用案例大數(shù)據(jù)信息服務(wù)產(chǎn)業(yè)鏈金融傳統(tǒng)應(yīng)用領(lǐng)域新型應(yīng)用領(lǐng)域互聯(lián)網(wǎng)智慧城市電子商務(wù)現(xiàn)代物流制造零售通信智能電網(wǎng)大數(shù)據(jù)信息服務(wù)業(yè)的機(jī)遇大數(shù)據(jù)是新興技術(shù)和戰(zhàn)略性產(chǎn)業(yè),各國(guó)都處在同一起跑線,原始創(chuàng)新機(jī)遇大;我國(guó)數(shù)據(jù)資源豐富,應(yīng)用需求巨大,有條件實(shí)現(xiàn)跨越性發(fā)展,走在世界前列大數(shù)據(jù)分析平臺(tái)產(chǎn)業(yè)化大數(shù)據(jù)分析平臺(tái)技術(shù)及產(chǎn)業(yè)化優(yōu)勢(shì):降低企業(yè)應(yīng)用成本,技術(shù)積累和專業(yè)化服務(wù),培育新的大數(shù)據(jù)分析和信息服務(wù)產(chǎn)業(yè)。孵化面向不同行業(yè)的專業(yè)咨詢公司、大數(shù)據(jù)分析公司和信息服務(wù)公司。電信大數(shù)據(jù)分析案例MBB數(shù)據(jù)及預(yù)處理MBB(MobileBroadband)數(shù)據(jù)通過(guò)移動(dòng)互聯(lián)網(wǎng)訪問(wèn)網(wǎng)絡(luò)的日志數(shù)據(jù),該數(shù)據(jù)為運(yùn)行商的原始數(shù)據(jù)。2進(jìn)制編碼,有標(biāo)準(zhǔn)的協(xié)議,需要根據(jù)協(xié)議進(jìn)行解碼。規(guī)模大,一個(gè)中等規(guī)模的城市每天產(chǎn)生數(shù)TB的MBB數(shù)據(jù)MBB數(shù)據(jù)預(yù)處理根據(jù)MBB數(shù)據(jù)協(xié)議進(jìn)行解碼,一般由設(shè)備供應(yīng)商提供。解碼后得到的數(shù)據(jù)payload字段是二進(jìn)制編碼,其他字段都是文本。Payload是應(yīng)用程序在互聯(lián)網(wǎng)上的傳輸協(xié)議,每個(gè)協(xié)議都有具體的格式。對(duì)該部分內(nèi)容的解析叫做DPI(DeepPacketInspection)。MBB數(shù)據(jù)格式(小部分屬性)AAL514bytesOuterIP20bytesOuter

UDP8bytesGTPU8bytesInnerIP20bytesInnerTCP20bytesPayload1400bytesMBB數(shù)據(jù)重要字段解釋序號(hào)名稱意義1srcip外層源IP2dstip外層目的IP3type_idstring業(yè)務(wù)類型,如Streaming,Web_Browsing等4service_id服務(wù)類型,如PPStream,HTTP等5detail_id詳情,如PPStream_UDP,HTTP等6imsi國(guó)際移動(dòng)用戶識(shí)別碼,儲(chǔ)存在SIM卡中,可用于區(qū)別移動(dòng)用戶的有效信息7imei國(guó)際移動(dòng)裝備辨識(shí)碼,用于識(shí)別每臺(tái)手機(jī)8rnc_id基站編號(hào)9cell_id小區(qū)編號(hào)10setup_timeRNC建立時(shí)間11access_timeRNC連接時(shí)間12quit_timeRNC斷開(kāi)時(shí)間13terminal終端用戶上網(wǎng)位置和行為分析抽象數(shù)據(jù)模型(U,L,A)U

-

IMEI和IMSI共同標(biāo)示一個(gè)用戶L

-

通過(guò)小區(qū)編號(hào)cell_id標(biāo)識(shí)A

-

通過(guò)詳情detail_id作為用戶的行為標(biāo)識(shí)用戶上網(wǎng)位置和行為分析(續(xù)1)LocationgroupsActiongroupsLocation_group6302953122620502Action_group11PPStreamSkype_IMIcecastAction_group12POP3KooWoIMAPLocation_group7452531697118746Action_group69158_VChatHTTPTongDaXinAction_group7POP3_SSLIMAP_SSLPPVA_Control_dataγδη結(jié)果展示地點(diǎn)組和行為組的關(guān)系在地點(diǎn)主題1,用戶的行為主題主要集中在行為主題6某個(gè)地點(diǎn)組對(duì)應(yīng)某個(gè)行為組的概率分布,其中列代表地點(diǎn)組,行代表行為組,顏色越深表示概率值越大,顏色越淺表示概率值越小

基于位置的推薦模型基于位置的行為推薦當(dāng)用戶出現(xiàn)在某個(gè)地方,推薦可能感興趣的k個(gè)應(yīng)用k精度139%542%1054%1569%2070%2571%3084%算法準(zhǔn)確率貝葉斯網(wǎng)絡(luò)62.0%決策樹(shù)32.9%模型預(yù)測(cè)準(zhǔn)確度與k的關(guān)系其他方法預(yù)測(cè)準(zhǔn)確度當(dāng)k取到15以上,我們的方法比傳統(tǒng)的分類方法具有更高的推薦預(yù)測(cè)準(zhǔn)確率電力行業(yè)大數(shù)據(jù)分析案例智能電網(wǎng)大數(shù)據(jù)自動(dòng)化數(shù)據(jù)采集裝置在智能電網(wǎng)中大量采用東莞大工業(yè)的電力用戶達(dá)兩萬(wàn)多家每十五分鐘采集電壓、電流、功率等數(shù)據(jù)每月平均數(shù)據(jù)量達(dá)85GB用電行為模式的客戶分群選取客戶不同維度的數(shù)據(jù)進(jìn)行客戶分群日周月用電模式用戶行業(yè)背景用戶地理信息用戶電力設(shè)備信息地區(qū)宏觀經(jīng)濟(jì)數(shù)據(jù)通過(guò)對(duì)客戶分群,獲取用戶不同的用電模式工作日雙班制,三班制,四班制周末長(zhǎng)短周輪休夜間用電高峰行業(yè)間用電模式比較不同地區(qū)不同行業(yè)用電模式比較節(jié)假日及用電模式趨勢(shì)預(yù)測(cè)用戶行業(yè)背景用電模式用戶地理信息電力用戶客戶分群用戶類型分布行業(yè)類別總計(jì)金屬制品業(yè)3456通信設(shè)備、計(jì)算機(jī)及其他電子設(shè)備制造業(yè)2983塑料制品業(yè)2918紡織服裝、鞋、帽制造業(yè)1682電氣機(jī)械及器材制造業(yè)1393紡織業(yè)1147橡膠制品業(yè)1123家具制造業(yè)971造紙及紙制品業(yè)926工藝品及其他制造業(yè)874文教體育用品制造業(yè)866皮革、毛皮、羽毛(絨)及其制品業(yè)840通用設(shè)備制造業(yè)833專用設(shè)備制造業(yè)826印刷業(yè)和記錄媒介的復(fù)制745非金屬礦物制品業(yè)514行業(yè)類別總計(jì)化學(xué)原料及化學(xué)制品制造業(yè)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論