大數(shù)據(jù)與云計算黃哲學(xué)_第1頁
大數(shù)據(jù)與云計算黃哲學(xué)_第2頁
大數(shù)據(jù)與云計算黃哲學(xué)_第3頁
大數(shù)據(jù)與云計算黃哲學(xué)_第4頁
大數(shù)據(jù)與云計算黃哲學(xué)_第5頁
已閱讀5頁,還剩59頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)與云計算:

--信息技術(shù)發(fā)展的新紀(jì)元

黃哲學(xué)博士深圳大學(xué)特聘教授大數(shù)據(jù)技術(shù)與應(yīng)用研究所所長大綱大數(shù)據(jù)與云計算云計算大數(shù)據(jù)平臺與技術(shù)創(chuàng)新大數(shù)據(jù)平臺產(chǎn)業(yè)化與應(yīng)用案例什么是大數(shù)據(jù)對數(shù)據(jù)的使用者來講,如果數(shù)據(jù)集超出了使用者所擁有的信息處理和分析的能力,就給使用者帶來了大數(shù)據(jù)問題大數(shù)據(jù)V特征Volume數(shù)據(jù)規(guī)模大Velocity數(shù)據(jù)變化數(shù)據(jù)快Variety數(shù)據(jù)屬性復(fù)雜Value價值大數(shù)據(jù)的特點并不只是數(shù)據(jù)規(guī)模大數(shù)據(jù)的量呈現(xiàn)指數(shù)增長2009年至2020年將增加44倍數(shù)據(jù)的體量從0.8zettabytes增加到35ZB生成和采集的數(shù)據(jù)將按指數(shù)增長根據(jù)麥肯錫預(yù)計美國超過1000雇員的公司,平均每個公司存有200TB的數(shù)據(jù),很多行業(yè)的公司,如銀行、電訊、互聯(lián)網(wǎng)、政府部門等,平均存儲的數(shù)據(jù)超過1個PB。大數(shù)據(jù)的多樣性Variety不同的數(shù)據(jù)格式,數(shù)據(jù)類型和數(shù)據(jù)結(jié)構(gòu)文本、數(shù)字、圖像、音頻、視頻、時間序列、社會媒體數(shù)據(jù)、高維矩陣數(shù)據(jù)等靜態(tài)數(shù)據(jù)vs.流數(shù)據(jù)同一個應(yīng)用可以生成和采集不同類型的數(shù)據(jù)為了提取知識盡可能多地綜合不同類型的相關(guān)數(shù)據(jù)大數(shù)據(jù)的速度Velocity數(shù)據(jù)的采集速度的加快導(dǎo)致處理時間都需要有相應(yīng)的提高在線數(shù)據(jù)分析(OnlineDataAnalytics)決策的延誤

商機(jī)的消失實例網(wǎng)上營銷(E-Promotions):基于用戶當(dāng)前的位置和過往的交易數(shù)據(jù)預(yù)測用戶的喜好在合適的時間和地點發(fā)送用戶感興趣的產(chǎn)品和店鋪健康監(jiān)控(Healthcaremonitoring):利用穿戴式的傳感器監(jiān)控用戶的生理和活動數(shù)據(jù)及時提供需要的醫(yī)療服務(wù)大數(shù)據(jù)的價值(Value)未來大數(shù)據(jù)的產(chǎn)業(yè)規(guī)模將會至少以萬億美元來進(jìn)行衡量,大數(shù)據(jù)將會給信息技術(shù)領(lǐng)域帶來一個新的增長點。美國醫(yī)療保健每年產(chǎn)值達(dá)3000億美金每年生產(chǎn)率增長約0.7%制造業(yè)最多可節(jié)省50%的產(chǎn)品研發(fā)、組裝成本最多可節(jié)約7%的營運資金美國零售業(yè)凈利率增長可能高達(dá)60%+每年生產(chǎn)率增長0.5-1.0%歐洲公共部門管理每年2500億歐元每年生產(chǎn)率增長約0.7%全球個人定位數(shù)據(jù)1000億+的服務(wù)供應(yīng)商收入為終端用戶帶來高達(dá)7000億美的價值大數(shù)據(jù)的產(chǎn)生數(shù)據(jù)的發(fā)展和創(chuàng)新將不再是如何生成和采集數(shù)據(jù)具備對采集的數(shù)據(jù)進(jìn)行管理、分析、總結(jié)、可視化展示和知識發(fā)現(xiàn)的能力已經(jīng)成為新的挑戰(zhàn)社會媒體網(wǎng)絡(luò)(每個人都在產(chǎn)生數(shù)據(jù))科學(xué)儀器

(采集不同類型的數(shù)據(jù))移動終端

(個人地理信息數(shù)據(jù))傳感器網(wǎng)絡(luò)(測量不同類型的數(shù)據(jù))大數(shù)據(jù)的技術(shù)挑戰(zhàn)存儲–分布式、低成本傳輸–能力、成本處理–集成、融合、處理分析–能力、效率挖掘–方法、能力、技術(shù)、平臺應(yīng)用能耗互聯(lián)網(wǎng)與電訊行業(yè)需求某互聯(lián)網(wǎng)公司100多在線游戲,4億在線游戲用戶在線系統(tǒng)記錄每個游戲用戶在線玩游戲的詳細(xì)數(shù)據(jù),包括游戲、時間、動作、結(jié)果等,TB級數(shù)據(jù)分析需求:用戶行分類與預(yù)測,用戶行為客戶群劃分用戶挽留、用戶獎勵和級別提升某電信公司深度包檢測(DPI)大數(shù)據(jù)分析,研究客戶互聯(lián)網(wǎng)行為模型,流量分析,數(shù)據(jù)套餐設(shè)計百萬人口城市,每天數(shù)據(jù)量TB級云計算云計算是一種新的大規(guī)模分布式計算模式通過網(wǎng)絡(luò)和資源虛擬技術(shù),實現(xiàn)計算及存儲資源集中管理,面向用戶提供服務(wù)云計算可以解決目前計算機(jī)使用的諸多問題,是計算技術(shù)發(fā)展的一個新的里程碑2023/2/412傳統(tǒng)計算機(jī)的問題

使用成本高資源分散資源不足資源浪費高能耗環(huán)境污染云計算的優(yōu)點

成本低易于普及可擴(kuò)展能力高節(jié)能環(huán)保

云計算的五個基本特征按需自助服務(wù)(On-demandself-service)廣泛的網(wǎng)絡(luò)接入(Broadnetworkaccess)資源池(Resourcepooling)快速彈性化(Rapidelasticity)可度量的服務(wù)(MeasuredService)2023/2/413云環(huán)境(ACloud)云指的是一個遙遠(yuǎn)的計算環(huán)境,這個環(huán)境是用來為計算環(huán)境外的用戶提供可擴(kuò)展和可度量的計算資源。用戶可能不知道具體的云環(huán)境在哪里。如用戶在深圳,云環(huán)境可能在內(nèi)蒙古。2023/2/414云環(huán)境的計算資源物理服務(wù)器—CPU,內(nèi)存,外存(磁盤、磁帶)虛擬服務(wù)器—CPU,內(nèi)存,外存軟件服務(wù)

(應(yīng)用)2023/2/415物理服務(wù)器虛擬服務(wù)器軟件服務(wù)虛擬化是云計算的核心技術(shù)虛擬化技術(shù)可以將一個物理服務(wù)器當(dāng)作多個虛擬服務(wù)器使用,多個用戶共享物理服務(wù)器的資源,但用戶對虛擬服務(wù)器的體驗是獨立的計算機(jī)。用戶不需要了解物理服務(wù)器虛擬服務(wù)器的運行由物理服務(wù)器統(tǒng)一管理和維護(hù),虛擬機(jī)用戶不需要維護(hù)。當(dāng)某虛擬機(jī)用戶需求變化時,物理服務(wù)器的資源可以自動擴(kuò)展。2023/2/416彈性化和可擴(kuò)展性彈性化是云計算的重要特征,計算資源彈性化可以使云環(huán)境的計算能力隨著用戶需求變化而增加或減少。水平擴(kuò)展向外擴(kuò)展Scaleout—增加資源向內(nèi)收縮Scalein—減少資源垂直擴(kuò)展向上擴(kuò)展Scaleup—提升CPU和內(nèi)存向下收縮Scaledown–降低CPU和內(nèi)存2023/2/417云服務(wù)器面向服務(wù)ServiceOrientation云計算的獨特特征是服務(wù)導(dǎo)向或面向服務(wù),就是將計算和存儲資源作為服務(wù)供用戶使用服務(wù)的收費方式是誰使用誰付錢,例如:付使用存儲服務(wù)的費用付使用CPU的費用付使用數(shù)據(jù)庫軟件的費用用戶不擁有這些資源,因此不需維護(hù)它們2023/2/418云計算的三種基本服務(wù)模式云設(shè)施服務(wù)CloudInfrastructureasaService(IaaS)云平臺服務(wù)CloudPlatformasaService(PaaS)軟件作為服務(wù)CloudSoftwareasaService(SaaS)2023/2/419云計算架構(gòu)CloudArchitecture2023/2/420虛擬化計算服務(wù)ComputingService存儲服務(wù)StorageServiceDBMSMapReduceGoogleAppEngineCRMERPCAD/CAMPOSWindowsAzureInfrastructureasaService(IaaS)PlatformasaService(PaaS)SoftwareasaService(SaaS)物理資源云服務(wù)應(yīng)用的部署模型公有云Publiccloud私有云Privatecloud社區(qū)云Communitycloud混合云Hybridcloud2023/2/421大綱大數(shù)據(jù)與云計算云計算大數(shù)據(jù)平臺與技術(shù)創(chuàng)新大數(shù)據(jù)平臺產(chǎn)業(yè)化與應(yīng)用案例挑戰(zhàn)性的技術(shù)問題數(shù)據(jù)融合(fusion)數(shù)據(jù)集成(integration)挑戰(zhàn)病人健康醫(yī)療數(shù)據(jù)沒有有效的數(shù)據(jù)集成就不能進(jìn)行有效的綜合數(shù)據(jù)分析挑戰(zhàn)性的科學(xué)問題成千上萬個屬性超高維問題百萬以上甚至超億個記錄混合數(shù)據(jù)類型缺省值/噪聲相關(guān)性問題UnbalanceSubspacepropertyUninformativeness12nn-1n-2n-3n-4f1f2f3f4f5…大數(shù)據(jù)集的挑戰(zhàn)(BigDataMatrix)超高維數(shù)據(jù)聚類算法研究對屬性變量做分組歸并,產(chǎn)生組變量對組變量和屬性變量分層加權(quán)重擴(kuò)展軟子空間聚類算法EWKM,在聚類過程中自動計算組變量權(quán)重值和屬性變量權(quán)重值最后得到以組變量為主的子空間聚類結(jié)果組變量相當(dāng)于在高空看數(shù)據(jù),大輪廓清晰屬性變量相當(dāng)于在低空看數(shù)據(jù),細(xì)節(jié)清晰組變量屬性變量SRF:基于MapReduce大數(shù)據(jù)隨機(jī)森林算法Layer寬度優(yōu)先、大規(guī)模分層建樹策略大數(shù)據(jù)隨機(jī)森林算法研究成果屬性加權(quán)抽樣隨機(jī)森林算法,用于超高維數(shù)據(jù)分類,平均精度提高20%。與澳大利亞聯(lián)邦稅務(wù)總局?jǐn)?shù)據(jù)挖掘首席科學(xué)家GrahamWilliams合作,將隨機(jī)森林算法用于ATO繳稅分類建模。分布式高可擴(kuò)展隨機(jī)森林分類算法,實現(xiàn)了對千萬個客戶記錄、千個變量、100GB規(guī)模數(shù)據(jù)的建模能力。將分布式隨機(jī)森林算法發(fā)布到國際著名的統(tǒng)計分析平臺R系統(tǒng)上,擴(kuò)大國際影響力。研究成果國際化推廣研究成果國際化應(yīng)用隨機(jī)森林模型并行化實現(xiàn)屬性加權(quán)抽樣隨機(jī)森林模型云計算與大數(shù)據(jù)分析數(shù)據(jù)挖掘是從數(shù)據(jù)中發(fā)現(xiàn)知識的方法和過程,是解決各種科學(xué)和應(yīng)用問題的重要手段由于數(shù)據(jù)的快速增長,傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)和軟件正面臨極大的瓶頸銀行:人民銀行征信系統(tǒng)收錄了自然人6.4億人的信貸記錄金融:南方基金公司有近1000萬客戶資料需要分析電訊:廣東中國移動每天產(chǎn)生2TB通話記錄數(shù)據(jù)零售:Wal-Mart每天產(chǎn)生2.6億個交易記錄,其數(shù)據(jù)中心存儲4PB的交易數(shù)據(jù)互聯(lián)網(wǎng):Amazon有5900萬活躍客戶,超過42TB的客戶數(shù)據(jù)2023/2/428云計算的優(yōu)點是處理海量數(shù)據(jù)的能力,為大數(shù)據(jù)挖掘提供了新的計算平臺云計算海量數(shù)據(jù)處理的核心技術(shù)2023/2/429虛擬文件系統(tǒng)數(shù)據(jù)劃分GFS(Google)HDFS(Hadoop)MapReduce編程模型算法編程Map和Reduce兩個基本操作大規(guī)模分布計算可擴(kuò)展性運行時系統(tǒng)程序運行負(fù)載平衡任務(wù)調(diào)度容錯MapReduce編程模型主節(jié)點節(jié)點節(jié)點節(jié)點節(jié)點節(jié)點用戶編程文件文件文件文件文件輸出輸出文件劃分Map運算Reduce運算結(jié)果輸出程序?qū)懗蒑ap和Reduce兩步運算1.

Map統(tǒng)計單個文本詞頻2.

Reduce綜合所有文本的詞頻(Map)(Reduce)MapReduce

管道式運算2023/2/431MRMRMRMRK-均值聚類對象分簇MapReduceMRMRMRMRMRMRMRMR輸出輸入?????收斂?重新計算簇中心點基于云計算的大數(shù)據(jù)分析平臺區(qū)域智能數(shù)據(jù)中心區(qū)域智能數(shù)據(jù)中心支持多種終端訪問以區(qū)域性智能數(shù)據(jù)中心及高速互聯(lián)網(wǎng)為基礎(chǔ)設(shè)施以互聯(lián)網(wǎng)服務(wù)體系為架構(gòu)以大數(shù)據(jù)存儲、處理、挖掘和交互式可視化分析等關(guān)鍵技術(shù)為支撐通過多樣化移動智能終端及移動互聯(lián)網(wǎng)為用戶提供數(shù)據(jù)存儲、管理及分析服務(wù)。關(guān)鍵技術(shù)云計算引擎高性能海量數(shù)據(jù)挖掘算法庫工作流引擎支撐海量數(shù)據(jù)處理、挖掘與分析運算提供海量復(fù)雜數(shù)據(jù)處理、分析與挖掘高可擴(kuò)展算法數(shù)據(jù)處理分析流程圖形化設(shè)計數(shù)據(jù)處理分析流程自動執(zhí)行資源調(diào)度及優(yōu)化OpenAPI提供數(shù)據(jù)挖掘平臺與第三方應(yīng)用系統(tǒng)的擴(kuò)展接口支撐海量數(shù)據(jù)存儲與管理云存儲大數(shù)據(jù)分析平臺云計算大數(shù)據(jù)挖掘平臺110臺服務(wù)器,840CPU核,550TB存儲容量構(gòu)建云計算大數(shù)據(jù)挖掘平臺,具備TB級數(shù)據(jù)存儲、處理與分析能力,為大數(shù)據(jù)挖掘技術(shù)與系統(tǒng)開發(fā)和測試提供實驗支撐環(huán)境。數(shù)據(jù)庫:MySQL5.0商用版云存儲:Hadoop、Casendral數(shù)據(jù)挖掘軟件:Alphaminer、R平臺規(guī)模軟件環(huán)境平臺功能大數(shù)據(jù)云存儲與管理分布式并行數(shù)據(jù)挖掘任務(wù)執(zhí)行可視化數(shù)據(jù)分析執(zhí)行引擎云計算數(shù)據(jù)挖掘算法庫基于MapReduce模型,實現(xiàn)了11個常用數(shù)據(jù)挖掘算法分布式并行化。K-MeansK-ModesW-K-MeansEWKM聚類算法DecisionTreeRandomForestsLDA分類算法LogisticRegressionRandomForestRegression回歸算法FP-Growth關(guān)聯(lián)規(guī)則部分算法的測試性能已達(dá)到TB級數(shù)據(jù)的處理能力。K-Means算法性能數(shù)據(jù)規(guī)模:1TB,1千萬條數(shù)據(jù)*1萬維執(zhí)行效率:初始10個聚類中心,一次迭代時間約30分鐘RandomForests算法性能數(shù)據(jù)規(guī)模:110GB,1千萬條數(shù)據(jù)*1千維執(zhí)行效率:建立20棵樹約36分鐘針對傳統(tǒng)數(shù)據(jù)挖掘算法不能處理大數(shù)據(jù)的挑戰(zhàn),開發(fā)基于云計算的高可擴(kuò)展并行數(shù)據(jù)挖掘算法庫,突破TB級數(shù)據(jù)處理瓶頸。大數(shù)據(jù)處理流程--醫(yī)保數(shù)據(jù)案例1型糖尿病性神經(jīng)炎(原始記錄)糖尿病性神經(jīng)炎(ICD國際疾病分類標(biāo)準(zhǔn))內(nèi)分泌,營養(yǎng)和代謝疾?。↖CD國際疾病分類標(biāo)準(zhǔn))疾病匹配疾病分類疾病分類在線數(shù)據(jù)分析通過儀表盤圖形化的KPI指標(biāo)支持全局的運營表現(xiàn)和局部細(xì)節(jié)的鉆取分析快速了解業(yè)務(wù)運營的各項指標(biāo)實施獲取告警信息定制化的應(yīng)用開發(fā)移動終端上的商務(wù)智能分析平臺系統(tǒng)框架基于瀏覽器的BI分析平臺基于智能移動終端的BI分析平臺海量數(shù)據(jù)可視化大數(shù)據(jù)分析與挖掘平臺智能數(shù)據(jù)中心基于WEB的數(shù)據(jù)分析流程設(shè)計工具基于WEBD數(shù)據(jù)管理工具創(chuàng)新點:與搜索引擎區(qū)別主要功能海量數(shù)據(jù)分析海量信息檢索處理對象各類型海量數(shù)據(jù)網(wǎng)頁任務(wù)目標(biāo)挖掘新知識、分類模型等已有信息的查詢與集成應(yīng)用目標(biāo)智能決策支持信息查詢核心技術(shù)機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、分布式計算網(wǎng)頁爬蟲、索引、快速查詢應(yīng)用領(lǐng)域新興領(lǐng)域(互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、電子商務(wù)、醫(yī)藥研發(fā)、氣象預(yù)測)教育、軍事、情報、互聯(lián)網(wǎng)vs.大數(shù)據(jù)分析平臺搜索引擎創(chuàng)新點:與云服務(wù)區(qū)別主要功能海量數(shù)據(jù)存儲與分析服務(wù)云服務(wù)處理對象各類型海量數(shù)據(jù)PaaS,SaaS應(yīng)用任務(wù)目標(biāo)挖掘新知識、分類模型等提供低成本計算服務(wù)應(yīng)用目標(biāo)智能決策支持支持中小企業(yè)IT應(yīng)用相互關(guān)系應(yīng)用云計算技術(shù)提供數(shù)據(jù)分析服務(wù)支撐數(shù)據(jù)分析服務(wù)vs.云服務(wù)平臺大數(shù)據(jù)分析平臺創(chuàng)新點:與傳統(tǒng)BI區(qū)別應(yīng)用模式互聯(lián)網(wǎng)服務(wù)解決方案軟件解決方案技術(shù)支撐智能數(shù)據(jù)中心、互聯(lián)網(wǎng)大型BI軟件及昂貴硬件服務(wù)器擴(kuò)展性彈性擴(kuò)展擴(kuò)展性差TOC按需付費解決方案,價格昂貴,成本極高應(yīng)用領(lǐng)域新興領(lǐng)域(互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、電子商務(wù))傳統(tǒng)領(lǐng)域(金融、保險、電信、零售)適用性大型企業(yè)(BI私有云)中小企業(yè)(BISaaS)大型企業(yè)vs.BIServiceBIRuntimeBIServerVisualization傳統(tǒng)BI大數(shù)據(jù)分析平臺大綱大數(shù)據(jù)與云計算云計算大數(shù)據(jù)平臺與技術(shù)創(chuàng)新大數(shù)據(jù)平臺產(chǎn)業(yè)化與應(yīng)用案例大數(shù)據(jù)信息服務(wù)產(chǎn)業(yè)鏈金融傳統(tǒng)應(yīng)用領(lǐng)域新型應(yīng)用領(lǐng)域互聯(lián)網(wǎng)智慧城市電子商務(wù)現(xiàn)代物流制造零售通信智能電網(wǎng)大數(shù)據(jù)信息服務(wù)業(yè)的機(jī)遇大數(shù)據(jù)是新興技術(shù)和戰(zhàn)略性產(chǎn)業(yè),各國都處在同一起跑線,原始創(chuàng)新機(jī)遇大;我國數(shù)據(jù)資源豐富,應(yīng)用需求巨大,有條件實現(xiàn)跨越性發(fā)展,走在世界前列大數(shù)據(jù)分析平臺產(chǎn)業(yè)化大數(shù)據(jù)分析平臺技術(shù)及產(chǎn)業(yè)化優(yōu)勢:降低企業(yè)應(yīng)用成本,技術(shù)積累和專業(yè)化服務(wù),培育新的大數(shù)據(jù)分析和信息服務(wù)產(chǎn)業(yè)。孵化面向不同行業(yè)的專業(yè)咨詢公司、大數(shù)據(jù)分析公司和信息服務(wù)公司。電信大數(shù)據(jù)分析案例MBB數(shù)據(jù)及預(yù)處理MBB(MobileBroadband)數(shù)據(jù)通過移動互聯(lián)網(wǎng)訪問網(wǎng)絡(luò)的日志數(shù)據(jù),該數(shù)據(jù)為運行商的原始數(shù)據(jù)。2進(jìn)制編碼,有標(biāo)準(zhǔn)的協(xié)議,需要根據(jù)協(xié)議進(jìn)行解碼。規(guī)模大,一個中等規(guī)模的城市每天產(chǎn)生數(shù)TB的MBB數(shù)據(jù)MBB數(shù)據(jù)預(yù)處理根據(jù)MBB數(shù)據(jù)協(xié)議進(jìn)行解碼,一般由設(shè)備供應(yīng)商提供。解碼后得到的數(shù)據(jù)payload字段是二進(jìn)制編碼,其他字段都是文本。Payload是應(yīng)用程序在互聯(lián)網(wǎng)上的傳輸協(xié)議,每個協(xié)議都有具體的格式。對該部分內(nèi)容的解析叫做DPI(DeepPacketInspection)。MBB數(shù)據(jù)格式(小部分屬性)AAL514bytesOuterIP20bytesOuter

UDP8bytesGTPU8bytesInnerIP20bytesInnerTCP20bytesPayload1400bytesMBB數(shù)據(jù)重要字段解釋序號名稱意義1srcip外層源IP2dstip外層目的IP3type_idstring業(yè)務(wù)類型,如Streaming,Web_Browsing等4service_id服務(wù)類型,如PPStream,HTTP等5detail_id詳情,如PPStream_UDP,HTTP等6imsi國際移動用戶識別碼,儲存在SIM卡中,可用于區(qū)別移動用戶的有效信息7imei國際移動裝備辨識碼,用于識別每臺手機(jī)8rnc_id基站編號9cell_id小區(qū)編號10setup_timeRNC建立時間11access_timeRNC連接時間12quit_timeRNC斷開時間13terminal終端用戶上網(wǎng)位置和行為分析抽象數(shù)據(jù)模型(U,L,A)U

-

IMEI和IMSI共同標(biāo)示一個用戶L

-

通過小區(qū)編號cell_id標(biāo)識A

-

通過詳情detail_id作為用戶的行為標(biāo)識用戶上網(wǎng)位置和行為分析(續(xù)1)LocationgroupsActiongroupsLocation_group6302953122620502Action_group11PPStreamSkype_IMIcecastAction_group12POP3KooWoIMAPLocation_group7452531697118746Action_group69158_VChatHTTPTongDaXinAction_group7POP3_SSLIMAP_SSLPPVA_Control_dataγδη結(jié)果展示地點組和行為組的關(guān)系在地點主題1,用戶的行為主題主要集中在行為主題6某個地點組對應(yīng)某個行為組的概率分布,其中列代表地點組,行代表行為組,顏色越深表示概率值越大,顏色越淺表示概率值越小

基于位置的推薦模型基于位置的行為推薦當(dāng)用戶出現(xiàn)在某個地方,推薦可能感興趣的k個應(yīng)用k精度139%542%1054%1569%2070%2571%3084%算法準(zhǔn)確率貝葉斯網(wǎng)絡(luò)62.0%決策樹32.9%模型預(yù)測準(zhǔn)確度與k的關(guān)系其他方法預(yù)測準(zhǔn)確度當(dāng)k取到15以上,我們的方法比傳統(tǒng)的分類方法具有更高的推薦預(yù)測準(zhǔn)確率電力行業(yè)大數(shù)據(jù)分析案例智能電網(wǎng)大數(shù)據(jù)自動化數(shù)據(jù)采集裝置在智能電網(wǎng)中大量采用東莞大工業(yè)的電力用戶達(dá)兩萬多家每十五分鐘采集電壓、電流、功率等數(shù)據(jù)每月平均數(shù)據(jù)量達(dá)85GB用電行為模式的客戶分群選取客戶不同維度的數(shù)據(jù)進(jìn)行客戶分群日周月用電模式用戶行業(yè)背景用戶地理信息用戶電力設(shè)備信息地區(qū)宏觀經(jīng)濟(jì)數(shù)據(jù)通過對客戶分群,獲取用戶不同的用電模式工作日雙班制,三班制,四班制周末長短周輪休夜間用電高峰行業(yè)間用電模式比較不同地區(qū)不同行業(yè)用電模式比較節(jié)假日及用電模式趨勢預(yù)測用戶行業(yè)背景用電模式用戶地理信息電力用戶客戶分群用戶類型分布行業(yè)類別總計金屬制品業(yè)3456通信設(shè)備、計算機(jī)及其他電子設(shè)備制造業(yè)2983塑料制品業(yè)2918紡織服裝、鞋、帽制造業(yè)1682電氣機(jī)械及器材制造業(yè)1393紡織業(yè)1147橡膠制品業(yè)1123家具制造業(yè)971造紙及紙制品業(yè)926工藝品及其他制造業(yè)874文教體育用品制造業(yè)866皮革、毛皮、羽毛(絨)及其制品業(yè)840通用設(shè)備制造業(yè)833專用設(shè)備制造業(yè)826印刷業(yè)和記錄媒介的復(fù)制745非金屬礦物制品業(yè)514行業(yè)類別總計化學(xué)原料及化學(xué)制品制造業(yè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論