![大數(shù)據(jù)平臺規(guī)劃項目解決方案_第1頁](http://file4.renrendoc.com/view/a910ae8e79e64c06cf5a672b7402568b/a910ae8e79e64c06cf5a672b7402568b1.gif)
![大數(shù)據(jù)平臺規(guī)劃項目解決方案_第2頁](http://file4.renrendoc.com/view/a910ae8e79e64c06cf5a672b7402568b/a910ae8e79e64c06cf5a672b7402568b2.gif)
![大數(shù)據(jù)平臺規(guī)劃項目解決方案_第3頁](http://file4.renrendoc.com/view/a910ae8e79e64c06cf5a672b7402568b/a910ae8e79e64c06cf5a672b7402568b3.gif)
![大數(shù)據(jù)平臺規(guī)劃項目解決方案_第4頁](http://file4.renrendoc.com/view/a910ae8e79e64c06cf5a672b7402568b/a910ae8e79e64c06cf5a672b7402568b4.gif)
![大數(shù)據(jù)平臺規(guī)劃項目解決方案_第5頁](http://file4.renrendoc.com/view/a910ae8e79e64c06cf5a672b7402568b/a910ae8e79e64c06cf5a672b7402568b5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據(jù)平臺規(guī)劃項目解決方案大數(shù)據(jù)平臺規(guī)劃項目解決方案議題第2頁大數(shù)據(jù)平臺概述大數(shù)據(jù)平臺架構多類型數(shù)據(jù)集成大數(shù)據(jù)混合式存儲架構IaaS層:資源管理和模塊化數(shù)據(jù)中心PaaS層:大數(shù)據(jù)平臺SaaS層:行業(yè)解決方案議題第2頁大數(shù)據(jù)平臺概述大數(shù)據(jù)平臺架構多類型數(shù)據(jù)集成大數(shù)據(jù)混大數(shù)據(jù)平臺概述第3頁
大數(shù)據(jù)平臺主要通過集成中國聯(lián)通內(nèi)部運營支撐系統(tǒng)和外部數(shù)據(jù),包括交易型大數(shù)據(jù)(BigTransactionData)和交互型大數(shù)據(jù)(BigInteractionData),通過多種云計算的技術將之集成和處理,向中國聯(lián)通內(nèi)部和外部企業(yè)客戶提供有極大商業(yè)價值的信息支撐和智能解決方案。大數(shù)據(jù)平臺概述第3頁大數(shù)據(jù)平臺主要通過集成中國大數(shù)據(jù)服務能夠在哪些方面為企業(yè)客戶提供價值?第4頁營銷精準廣告實時營銷效果評估優(yōu)化客戶服務客戶需求洞察客戶滿意度管理客戶忠誠度管理渠道渠道選址渠道業(yè)績管理客戶接觸管理合作渠道欺詐監(jiān)測風險控制物流其它物流監(jiān)控物流優(yōu)化物流預測關鍵點監(jiān)控預警績效監(jiān)控…使整個企業(yè)進入大數(shù)據(jù)智能時代大數(shù)據(jù)服務能夠在哪些方面為企業(yè)客戶提供價值?第4頁營銷精準廣大數(shù)據(jù)服務面向的三類企業(yè)客戶第5頁DataWarehouseasaServiceStep2Step3
面向起步型企業(yè),數(shù)據(jù)規(guī)模較小,并且難以負擔建設分析型系統(tǒng)的投入成本,沒有深入的分析需求,手工即可分析。隨著企業(yè)成長可以使用更高級的服務面向成熟一些的中小型企業(yè),數(shù)據(jù)規(guī)模中等,單獨建設系統(tǒng)加上管理系統(tǒng)維護團隊以及購買分析軟件的單位用戶成本較高,有分析需求和分析人員AnalyticsasaServiceIntelligenceasaService面向中型企業(yè),管理上走向成熟,數(shù)據(jù)規(guī)模中等,除了有較深入的分析需求外,還有對行業(yè)深度了解和預測的需求大數(shù)據(jù)服務面向的三類企業(yè)客戶第5頁DataWarehous大數(shù)據(jù)平臺的三種服務交付方式第6頁大數(shù)據(jù)服務DataWarehouseasaServiceAnalyticsasaServiceIntelligenceasaService大數(shù)據(jù)平臺的三種服務交付方式第6頁大數(shù)據(jù)服務DataWarDataWarehouseasaService數(shù)據(jù)倉儲即服務第7頁為企業(yè)提供數(shù)據(jù)倉庫SaaS服務,幫助企業(yè)將數(shù)據(jù)進行清洗、校驗和梳理,為企業(yè)提供適合的數(shù)據(jù)存儲和數(shù)據(jù)庫解決方案,以及提供數(shù)據(jù)訪問接口和數(shù)據(jù)安全管理等,為企業(yè)的分析型應用提供支撐基礎設施以服務的方式提供企業(yè)分析型系統(tǒng)構建所需的硬件,包括服務器、存儲、網(wǎng)絡設備等數(shù)據(jù)倉庫解決方案根據(jù)企業(yè)的數(shù)據(jù)類型和應用方向選擇合適的數(shù)據(jù)存儲解決方案,包括數(shù)據(jù)庫等實施服務同時提供數(shù)據(jù)倉庫實施服務,解決中小企業(yè)缺乏數(shù)據(jù)倉庫領域的專門人才及維護這樣一個團隊的高成本問題DataWarehouseasaService數(shù)據(jù)倉DataWarehouseasaService的服務交付方式第8頁多類型數(shù)據(jù)集成大數(shù)據(jù)存儲數(shù)據(jù)訪問接口管理大數(shù)據(jù)的“多類型數(shù)據(jù)集成”模塊將企業(yè)的業(yè)務數(shù)據(jù)從企業(yè)的IT系統(tǒng)中抽取出來,經(jīng)過清洗、規(guī)整、校驗等環(huán)節(jié),以及根據(jù)需要進行初步的匯總,進入大數(shù)據(jù)存儲;根據(jù)數(shù)據(jù)類型和處理需求,選擇合適的存儲方案,包括RDBMS,Hadoop等;大數(shù)據(jù)存儲中的數(shù)據(jù)通過訪問接口提供給企業(yè)的IT部門,供企業(yè)多種使用方式;企業(yè)的業(yè)務系統(tǒng)IT人員通過接口使用數(shù)據(jù)DataWarehouseasaService的服務AnalyticsasaService分析平臺即服務第9頁為企業(yè)提供分析平臺SaaS服務,基于企業(yè)托管的數(shù)據(jù)倉庫提供報表、及多種分析工具,包括即席分析、數(shù)據(jù)挖掘、垂直解決方案等,幫助企業(yè)實現(xiàn)基于大數(shù)據(jù)的智能決策和智能管理等。報表以服務的方式提供企業(yè)所需的KPI及反映企業(yè)各方面運營狀況的的指標和報表,圖形化展現(xiàn)和多種訪問方式分析工具提供企業(yè)所需的即席分析和數(shù)據(jù)挖掘等分析工具,使企業(yè)能夠靈活的對業(yè)務進行分析垂直解決方案提供一些典型的垂直解決方案,如客戶統(tǒng)一視圖,精準營銷等,針對企業(yè)典型的業(yè)務場景提供解決方案AnalyticsasaService分析平臺即服務第AnalyticsasaService的服務交付方式第10頁多類型數(shù)據(jù)集成大數(shù)據(jù)存儲大數(shù)據(jù)分析平臺企業(yè)的業(yè)務系統(tǒng)管理人員和業(yè)務分析人員通過portal使用分析平臺報表分析工具垂直解決方案在企業(yè)基于大數(shù)據(jù)平臺建設的數(shù)據(jù)倉庫的基礎上,提供KPI&Dashboard,報表工具,分析工具,以及行業(yè)垂直解決方案;提供企業(yè)的分析解決方案結合企業(yè)的實際需求進行的解決方案實施服務;企業(yè)的管理人員、業(yè)務分析人員等可以通過web、手機或其它移動設備訪問大數(shù)據(jù)平臺的門戶,以便隨時了解企業(yè)的關鍵指標和進行深度業(yè)務分析;AnalyticsasaService的服務交付方式第IntelligenceasaService智能即服務第11頁基于中國聯(lián)通具有的大數(shù)據(jù)資源,經(jīng)過去隱私化,為企業(yè)提供行業(yè)解決方案和市場及其它信息咨詢服務等。將中國聯(lián)通的大數(shù)據(jù)資源轉化為商業(yè)價值,服務于各個行業(yè)的企業(yè)客戶。行業(yè)解決方案為典型行業(yè),如零售、廣告、電子商務等行業(yè)的企業(yè)客戶提供解決方案,解決這些企業(yè)運營中面臨的典型業(yè)務問題信息咨詢服務向企業(yè)客戶提供基于中國聯(lián)通大數(shù)據(jù)的咨詢服務和分析報告,通過最權威的數(shù)據(jù)反映行業(yè)趨勢,使企業(yè)準確判斷行業(yè)趨勢,預測未來走向IntelligenceasaService智能即服IntelligenceasaService的服務交付方式第12頁多類型數(shù)據(jù)集成大數(shù)據(jù)存儲大數(shù)據(jù)分析平臺企業(yè)的業(yè)務系統(tǒng)管理人員和業(yè)務分析人員通過portal使用分析平臺行業(yè)解決方案行業(yè)分析報告在大數(shù)據(jù)平臺的基礎上面向企業(yè)客戶提供典型行業(yè)解決方案,并通過專業(yè)市場和管理咨詢服務團隊提供咨詢服務,根據(jù)實際業(yè)務需求,并充分利用大數(shù)據(jù)的優(yōu)勢,快速開發(fā)需要的業(yè)務問題解決方案;根據(jù)企業(yè)的需求,基于大數(shù)據(jù)資源,定制提供行業(yè)級的分析報告,為企業(yè)預測未來趨勢提供最具科學依據(jù)的參考。IntelligenceasaService的服務交付議題第13頁大數(shù)據(jù)平臺概述大數(shù)據(jù)平臺架構多類型數(shù)據(jù)集成大數(shù)據(jù)混合式存儲架構IaaS層:資源管理和模塊化數(shù)據(jù)中心PaaS層:大數(shù)據(jù)平臺SaaS層:行業(yè)解決方案議題第13頁大數(shù)據(jù)平臺概述大數(shù)據(jù)平臺架構多類型數(shù)據(jù)集成大數(shù)據(jù)系統(tǒng)邊界第14頁大數(shù)據(jù)平臺中國聯(lián)通省級BOSS系統(tǒng)中國聯(lián)通省級CRM系統(tǒng)中國聯(lián)通電子渠道系統(tǒng)中國聯(lián)通集中化大數(shù)據(jù)平臺企業(yè)客戶的業(yè)務系統(tǒng)網(wǎng)絡數(shù)據(jù)采集中國聯(lián)通用戶上網(wǎng)數(shù)據(jù)采集中國聯(lián)通信令數(shù)據(jù)采集系統(tǒng)點擊流數(shù)據(jù)采集S1S2S3S4S5S9S7S8I1I6I2I3中國聯(lián)通SMS/MMS等渠道I4I5S6系統(tǒng)邊界第14頁大數(shù)據(jù)平臺中國聯(lián)通省級BOSS系統(tǒng)中國聯(lián)通省源數(shù)據(jù)接口S1-S8第15頁接口名稱接口方向接口數(shù)據(jù)接口方式S1中國聯(lián)通省級BOSS系統(tǒng)—>大數(shù)據(jù)平臺用戶資料、CDR、賬單、業(yè)務訂購等文件S2中國聯(lián)通省級CRM系統(tǒng)—>大數(shù)據(jù)平臺客服數(shù)據(jù)等文件S3中國聯(lián)通電子渠道系統(tǒng)—>大數(shù)據(jù)平臺業(yè)務辦理、詳單查詢、賬單查詢等用戶行為文件S4中國聯(lián)通用戶上網(wǎng)數(shù)據(jù)采集—>大數(shù)據(jù)平臺用戶手機上網(wǎng)行為數(shù)據(jù)數(shù)據(jù)流S5中國聯(lián)通信令數(shù)據(jù)采集系統(tǒng)—>大數(shù)據(jù)平臺信令數(shù)據(jù)數(shù)據(jù)流S6企業(yè)客戶的業(yè)務系統(tǒng)—>大數(shù)據(jù)平臺業(yè)務數(shù)據(jù)文件、數(shù)據(jù)流S7網(wǎng)絡數(shù)據(jù)采集—>大數(shù)據(jù)平臺網(wǎng)頁內(nèi)容等數(shù)據(jù)S8點擊流數(shù)據(jù)采集—>大數(shù)據(jù)平臺用戶訪問外部網(wǎng)頁的點擊流數(shù)據(jù)文件S9中國聯(lián)通集中化大數(shù)據(jù)平臺—>大數(shù)據(jù)平臺經(jīng)分數(shù)據(jù)文件源數(shù)據(jù)接口S1-S8第15頁接口名稱接口方向接口數(shù)據(jù)接口方式互動接口第16頁接口名稱接口方向接口數(shù)據(jù)接口方式I1大數(shù)據(jù)平臺—>中國聯(lián)通省級BOSS系統(tǒng)營銷相關信息等文件I2大數(shù)據(jù)平臺—>中國聯(lián)通省級CRM系統(tǒng)客戶特征視圖、客服優(yōu)化或營銷相關信息等文件I3大數(shù)據(jù)平臺—>中國聯(lián)通電子渠道系統(tǒng)大數(shù)據(jù)平臺業(yè)務推薦、內(nèi)容推薦等信息文件I4大數(shù)據(jù)平臺—>企業(yè)客戶的業(yè)務系統(tǒng)業(yè)務解決方案相關信息文件、數(shù)據(jù)流I5大數(shù)據(jù)平臺—>中國聯(lián)通SMS/MMS等渠道營銷信息數(shù)據(jù)流I6大數(shù)據(jù)平臺—中國聯(lián)通集中化大數(shù)據(jù)平臺支撐經(jīng)分系統(tǒng)的數(shù)據(jù)文件互動接口第16頁接口名稱接口方向接口數(shù)據(jù)接口方式I1大數(shù)據(jù)平三級平臺架構第17頁一級大數(shù)據(jù)平臺二級大數(shù)據(jù)平臺省級數(shù)據(jù)集成平臺一級大數(shù)據(jù)平臺數(shù)據(jù)中心二級大數(shù)據(jù)平臺數(shù)據(jù)中心A接口機接口機MDCN廣域網(wǎng)MDCN廣域網(wǎng)數(shù)據(jù)中心BA省大數(shù)據(jù)采集和集成系統(tǒng)B省大數(shù)據(jù)采集和集成系統(tǒng)某省大數(shù)據(jù)采集和集成系統(tǒng)三級平臺架構第17頁一級大數(shù)據(jù)平臺二級大數(shù)據(jù)平臺省級數(shù)據(jù)集成三級平臺功能架構第18頁內(nèi)部源系統(tǒng)數(shù)據(jù)接口網(wǎng)絡數(shù)據(jù)采集其它數(shù)據(jù)接口結構化數(shù)據(jù)集成非結構化數(shù)據(jù)集成流數(shù)據(jù)集成省級數(shù)據(jù)集成平臺二級大數(shù)據(jù)平臺二級區(qū)域大數(shù)據(jù)混合式存儲與處理一級大數(shù)據(jù)存儲平臺二級PaaS平臺二級SaaS平臺一級PaaS平臺一級SaaS平臺一級大數(shù)據(jù)平臺三級平臺功能架構第18頁內(nèi)部源系統(tǒng)數(shù)據(jù)接口網(wǎng)絡數(shù)據(jù)采集其它數(shù)三級平臺功能架構(續(xù))第19頁省級數(shù)據(jù)集成平臺主要對數(shù)據(jù)進行采集、清洗、轉換,以及初步的匯總;對結構化數(shù)據(jù),保持其初始的數(shù)據(jù)粒度,并進行映射,統(tǒng)一數(shù)據(jù)模型;對非結構化數(shù)據(jù),進行處理,轉化為結構化數(shù)據(jù);對流數(shù)據(jù),進行實時處理;二級大數(shù)據(jù)平臺包括多個數(shù)據(jù)中心,主要對區(qū)域性的數(shù)據(jù)進行加工,并向區(qū)域性的企業(yè)提供解決方案;多數(shù)據(jù)中心覆蓋不同的區(qū)域,主要向該區(qū)域的企業(yè)客戶提供服務;向一級平臺提供接口,并接受一級平臺對數(shù)據(jù)處理需求的調(diào)度;一級大數(shù)據(jù)平臺主要對數(shù)據(jù)進行跨區(qū)域的匯總,并提供標準的解決方案,供各區(qū)域在此基礎上定制各自的解決方案;三級平臺功能架構(續(xù))第19頁省級數(shù)據(jù)集成平臺主要對數(shù)據(jù)進行二級大數(shù)據(jù)平臺功能架構第20頁DataSourceDataIntegration結構化數(shù)據(jù)集成BigdataPlatform流數(shù)據(jù)集成非結構化數(shù)據(jù)集成HadoopRDBMSColumnDBNOSQLAnalyticCapability用戶價值使用行為地理位置上網(wǎng)行為消費行為內(nèi)容偏好時間特征社交網(wǎng)絡影響力…Vertical/IndustrySolution實時營銷客戶忠誠度管理渠道選址內(nèi)容定制推送
…電信行業(yè)解決方案廣電行業(yè)解決方案電子商務行業(yè)解決方案公共安全行業(yè)解決方案物聯(lián)網(wǎng)行業(yè)解決方案PortalWebMobileWidgetInfoPush省級數(shù)據(jù)集成平臺Web數(shù)據(jù)其它外部數(shù)據(jù)安全管理用戶管理生命周期管理資源管理SystemManagement開發(fā)管理二級大數(shù)據(jù)平臺功能架構第20頁DataSourceData二級平臺各層的功能第21頁數(shù)據(jù)集成層從省級數(shù)據(jù)集成平臺獲取已經(jīng)清洗和初步集成的結構化數(shù)據(jù),包括聯(lián)通內(nèi)部系統(tǒng)提供的結構化數(shù)據(jù),以及從非結構化數(shù)據(jù)轉化而來的結構化數(shù)據(jù);對非結構化數(shù)據(jù)處理,轉化為結構化數(shù)據(jù),并在省級數(shù)據(jù)集成平臺之間及區(qū)域二級大數(shù)據(jù)平臺之間進行同步;對相關的流數(shù)據(jù)進行處理;大數(shù)據(jù)存儲層根據(jù)數(shù)據(jù)特點和應用的需求,將大數(shù)據(jù)進行混合式的存儲和處理,滿足上層應用的需求;二級平臺各層的功能第21頁數(shù)據(jù)集成層二級平臺各層的功能(續(xù))第22頁大數(shù)據(jù)平臺分析能力層提供基礎分析能力和解決方案的開發(fā)環(huán)境和運行環(huán)境;提供豐富的基礎分析能力,可以在此基礎上快速開發(fā)解決方案;解決方案層提供垂直解決方案和行業(yè)解決方案;解決方案可以獨立開發(fā)也可以在一級解決方案模板的基礎上進行二次開發(fā);訪問門戶層提供多種訪問方式,包括web、移動設備、widget、SMS、MMS等;統(tǒng)一的訪問入口和鑒權;系統(tǒng)管理包括安全管理、用戶管理、開發(fā)管理、應用生命周期管理、元數(shù)據(jù)管理等;二級平臺各層的功能(續(xù))第22頁大數(shù)據(jù)平臺分析能力層集成架構第23頁DataSourceDataIntegration結構化數(shù)據(jù)集成BigdataPlatform流數(shù)據(jù)集成非結構化數(shù)據(jù)集成HadoopRDBMSColumnDBNOSQLAnalyticCapability用戶價值使用行為地理位置上網(wǎng)行為消費行為內(nèi)容偏好時間特征社交網(wǎng)絡影響力…Vertical/IndustrySolution實時營銷客戶忠誠度管理渠道選址內(nèi)容定制推送
…電信行業(yè)解決方案廣電行業(yè)解決方案電子商務行業(yè)解決方案公共安全行業(yè)解決方案物聯(lián)網(wǎng)行業(yè)解決方案PortalWebMobileWidgetInfoPush企業(yè)內(nèi)部系統(tǒng)數(shù)據(jù)Web數(shù)據(jù)其它外部數(shù)據(jù)安全管理用戶管理生命周期管理資源管理SystemManagement資源管理多類型數(shù)據(jù)的集成工具Hadoop、關系型數(shù)據(jù)庫、列數(shù)據(jù)庫等多種數(shù)據(jù)存儲解決方案大數(shù)據(jù)平臺垂直解決方案、行業(yè)解決方案大數(shù)據(jù)平臺、數(shù)據(jù)可視化工具大數(shù)據(jù)平臺集成架構第23頁DataSourceDataIntegr議題第24頁大數(shù)據(jù)平臺概述大數(shù)據(jù)平臺架構多類型數(shù)據(jù)集成大數(shù)據(jù)混合式存儲架構IaaS層:資源管理和模塊化數(shù)據(jù)中心PaaS層:大數(shù)據(jù)平臺SaaS層:行業(yè)解決方案議題第24頁大數(shù)據(jù)平臺概述大數(shù)據(jù)平臺架構多類型數(shù)據(jù)集成大數(shù)據(jù)數(shù)據(jù)集成在大數(shù)據(jù)平臺中的位置第25頁DataSourceDataIntegration結構化數(shù)據(jù)集成BigdataPlatform流數(shù)據(jù)集成非結構化數(shù)據(jù)集成HadoopRDBMSColumnDBNOSQLAnalyticCapability用戶價值使用行為地理位置上網(wǎng)行為消費行為內(nèi)容偏好時間特征社交網(wǎng)絡影響力…Vertical/IndustrySolution實時營銷客戶忠誠度管理渠道選址內(nèi)容定制推送
…電信行業(yè)解決方案廣電行業(yè)解決方案電子商務行業(yè)解決方案公共安全行業(yè)解決方案物聯(lián)網(wǎng)行業(yè)解決方案PortalWebMobileWidgetInfoPush省級數(shù)據(jù)集成平臺Web數(shù)據(jù)其它外部數(shù)據(jù)安全管理用戶管理生命周期管理資源管理SystemManagement開發(fā)管理數(shù)據(jù)集成在大數(shù)據(jù)平臺中的位置第25頁DataSourceD省級數(shù)據(jù)集成和二級大數(shù)據(jù)平臺數(shù)據(jù)集成的關系第26頁內(nèi)部源系統(tǒng)數(shù)據(jù)接口網(wǎng)絡數(shù)據(jù)采集其它數(shù)據(jù)接口省級數(shù)據(jù)集成平臺二級大數(shù)據(jù)平臺結構化數(shù)據(jù)集成數(shù)據(jù)獲取數(shù)據(jù)清洗數(shù)據(jù)轉換非結構化數(shù)據(jù)集成流數(shù)據(jù)集成數(shù)據(jù)獲取數(shù)據(jù)清洗數(shù)據(jù)匯總混合式大數(shù)據(jù)存儲,結構化數(shù)據(jù)處理統(tǒng)一數(shù)據(jù)接口對于來自中國聯(lián)通內(nèi)部的數(shù)據(jù),包括CDR等,在省級數(shù)據(jù)集成平臺僅進行清洗和轉換,在二級大數(shù)據(jù)平臺進行匯總;非結構化數(shù)據(jù)的處理在省級平臺進行簡單的清洗和轉換,在二級大數(shù)據(jù)平臺轉換為結構化數(shù)據(jù);第三方的數(shù)據(jù)接口和數(shù)據(jù)集成統(tǒng)一在二級大數(shù)據(jù)平臺;數(shù)據(jù)獲取數(shù)據(jù)清洗數(shù)據(jù)轉換非結構化數(shù)據(jù)集成數(shù)據(jù)結構化標簽同步第三方數(shù)據(jù)集成數(shù)據(jù)獲取數(shù)據(jù)清洗數(shù)據(jù)轉換數(shù)據(jù)匯總省級數(shù)據(jù)集成和二級大數(shù)據(jù)平臺數(shù)據(jù)集成的關系第26頁內(nèi)部源系統(tǒng)數(shù)據(jù)集成的類型第27頁從實時性角度劃分實時或準實時通常用于支持時間敏感型應用,要求數(shù)據(jù)以實時或準實時的方式處理,單位時間內(nèi)處理的數(shù)據(jù)量較大;非實時用于支持非時間敏感型應用,處理周期通常按日、周、月、年,以批量處理的方式滿足這部分需求;從數(shù)據(jù)類型角度劃分結構化數(shù)據(jù)即行數(shù)據(jù),存儲在數(shù)據(jù)庫里,可以用二維表結構來邏輯表達實現(xiàn)的數(shù)據(jù),例如業(yè)務支撐系統(tǒng)產(chǎn)生的CDR等數(shù)據(jù)等。非結構化數(shù)據(jù),包括文本、圖片、圖像音頻、視頻信息等。不能以傳統(tǒng)的數(shù)據(jù)庫進行存儲和處理。數(shù)據(jù)集成的類型第27頁從實時性角度劃分大數(shù)據(jù)平臺支持的多類型數(shù)據(jù)集成第28頁非實時的結構化和非結構化數(shù)據(jù)集成12流數(shù)據(jù)集成大數(shù)據(jù)平臺支持的多類型數(shù)據(jù)集成第28頁非實時的結構化和非結構傳統(tǒng)的BI系統(tǒng)數(shù)據(jù)ETL存在的難題第29頁高擴容成本數(shù)據(jù)處理的類型數(shù)據(jù)處理的性能目前ETL工具產(chǎn)品主要是單機版串行系統(tǒng),任務無法并行實現(xiàn),在處理海量數(shù)據(jù)時,其性能、擴展性都存在瓶頸。因此,數(shù)據(jù)倉庫承擔了大部分轉換任務。隨著數(shù)據(jù)量的不斷擴大,經(jīng)分數(shù)據(jù)倉庫也存在性能壓力大、擴展性瓶頸等問題。存儲成本和壓力比較高,僅能處理結構化的數(shù)據(jù),大量的網(wǎng)絡信令、互聯(lián)網(wǎng)信息等非結構化數(shù)據(jù)的存儲和分析需求難以滿足隨著用戶數(shù)的增長和新的數(shù)據(jù)源的引入,數(shù)據(jù)量也不斷增長,ETL處理能力的擴容成本很高傳統(tǒng)的BI系統(tǒng)數(shù)據(jù)ETL存在的難題第29頁高擴容成本數(shù)據(jù)處理基于云計算的非實時并行數(shù)據(jù)集成的特點第30頁2134分布式存儲,高效并行處理能力支持垂直擴展和水平擴展,擴展能力近似線性多機容錯低廉的軟硬件要求,能夠較大程度上降低硬件成本基于云計算的非實時并行數(shù)據(jù)集成的特點第30頁2134分布式存核心技術——分布式存儲第31頁采用分布式文件系統(tǒng)存儲HDFS作為云計算數(shù)據(jù)集成系統(tǒng)的存儲系統(tǒng)。HDFS有著高容錯性的特點,并且設計用來部署在低廉的硬件上。而且它提供高傳輸率來訪問應用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應用程序。HDFS對外屏蔽了分布式存儲的細節(jié),如數(shù)據(jù)備份、失效節(jié)點恢復、并發(fā)等,使用戶可以像操作本地文件系統(tǒng)一樣操作分布式文件系統(tǒng)。HDFS中一個文件一旦創(chuàng)建、寫入、關閉之后就不需要修改了。這個假定簡化了數(shù)據(jù)一致的問題和高吞吐量的數(shù)據(jù)訪問。支持并發(fā)的讀寫文件。支持添加刪除文件等操作。支持數(shù)據(jù)備份,失效節(jié)點恢復,高容錯性。數(shù)據(jù)備份數(shù)量為多份核心技術——分布式存儲第31頁采用分布式文件系統(tǒng)存儲HDFSHadoop概述第32頁HadoopDistributedFileSystem,簡稱HDFS,是一個分布式文件系統(tǒng)。HDFS有著高容錯性的特點,并且設計用來部署在低廉的硬件上。而且它提供高吞吐量來訪問應用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應用程序。HDFS放寬了POSIX的要求這樣可以實現(xiàn)流的形式訪問文件系統(tǒng)中的數(shù)據(jù)。Hadoop概述第32頁HadoopDistributed核心技術——基于Map/Reduce的并行計算第33頁Map/Reduce是一個用于大規(guī)模數(shù)據(jù)并行處理的編程模型。指定一個Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce(化簡)函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組。
核心技術——基于Map/Reduce的并行計算第33頁Map并行計算的流程第34頁提交任務根據(jù)輸入文件大小個數(shù)等確定子任務建立任務池子節(jié)點領取任務返回結果Map/Reduce運算模式本地優(yōu)先的運算策略:分配任務時采取本地優(yōu)先的原則具有可控性的負載均衡:每個子節(jié)點根據(jù)自身硬件情況配置最大的可執(zhí)行任務數(shù)并行計算的流程第34頁提交任務根據(jù)輸入文件大小個數(shù)等確定子任基于云計算的并行數(shù)據(jù)集成模塊的功能架構第35頁基于云計算的并行數(shù)據(jù)集成由基礎功能層和集成環(huán)境層組成。圖、云計算并行ETL系統(tǒng)的功能架構基礎功能包括:數(shù)據(jù)抽取、數(shù)據(jù)處理、數(shù)據(jù)裝載和數(shù)據(jù)探索。數(shù)據(jù)抽?。菏菍⑼獠刻峁┑臄?shù)據(jù)抽取到ETL平臺提供的分布式文件系統(tǒng)中,以便后續(xù)處理使用,包括文件抽取和數(shù)據(jù)庫抽取兩種方式。數(shù)據(jù)處理:實現(xiàn)了對分布式文件系統(tǒng)上的數(shù)據(jù)進行并行化的處理功能,包括數(shù)據(jù)清洗、轉換、匯總等功能。數(shù)據(jù)裝載:對于處理完畢的數(shù)據(jù),加載到相應的數(shù)據(jù)倉庫中。數(shù)據(jù)探索:數(shù)據(jù)探索是擴展功能,包括樣本數(shù)據(jù)查看和統(tǒng)計。主要是為了便于開發(fā)人員在開發(fā)環(huán)境進行設計時,提取部分樣本數(shù)據(jù)進行查看,以了解數(shù)據(jù)格式、數(shù)據(jù)分布特征和數(shù)據(jù)質(zhì)量相關情況。基于云計算的并行數(shù)據(jù)集成模塊的功能架構第35頁基于云計算的并集成環(huán)境第36頁集成環(huán)境包括:開發(fā)環(huán)境、執(zhí)行環(huán)境和管理環(huán)境。開發(fā)環(huán)境:是ETL處理程序開發(fā)者進行操作的主要環(huán)境。包括:數(shù)據(jù)定義、操作流開發(fā)和任務調(diào)度計劃開發(fā)等功能。執(zhí)行環(huán)境:執(zhí)行環(huán)境要能保證工作任務能正常、高效的運行,并對處理過程進行監(jiān)控。管理環(huán)境:進行云計算并行ETL系統(tǒng)穩(wěn)定運營的管理工作,包括:安全管理、日志管理、數(shù)據(jù)生命周期管理和元數(shù)據(jù)管理等。集成環(huán)境第36頁集成環(huán)境包括:開發(fā)環(huán)境、執(zhí)行環(huán)境和管理環(huán)境與傳統(tǒng)ETL比較——容錯性與擴展性容錯性子任務出錯后自動重跑失敗一定次數(shù)后掛起連續(xù)出錯節(jié)點加入黑名單擴展性具有熱擴展能力,新節(jié)點可動態(tài)部署新節(jié)點加入后,可將原來的存儲重新平衡分布,減輕存儲壓力,同時新節(jié)點馬上參與任務的運算,提高運算效率與傳統(tǒng)ETL比較——容錯性與擴展性容錯性子任務出錯后自動物理部署第38頁主節(jié)點主節(jié)點備份節(jié)點用戶接入節(jié)點大數(shù)據(jù)存儲子節(jié)點子節(jié)點子節(jié)點云化數(shù)據(jù)集成平臺數(shù)據(jù)庫FTP數(shù)據(jù)服務器物理部署第38頁主節(jié)點主節(jié)點用戶接入節(jié)點大數(shù)據(jù)存儲子節(jié)點子節(jié)將文本類非結構化數(shù)據(jù)轉化為結構化數(shù)據(jù)第39頁分詞庫爬取基準url分類日志URL比對陌生URL已知URL手機上網(wǎng)行為分析熱詞庫爬取內(nèi)容,分詞,根據(jù)規(guī)則將分詞入分詞庫爬取內(nèi)容,與分詞庫根據(jù)規(guī)則匹配,找出對應url類別讀庫入庫匹配入庫入庫讀庫如何將提取到的URL轉化為可解讀的信息是手機上網(wǎng)行為分析的關鍵。這里采用了百度等搜索引擎的先進文本解析技術。將文本類非結構化數(shù)據(jù)轉化為結構化數(shù)據(jù)第39頁分詞庫爬取基準u核心技術——中文分詞第40頁正向最大匹配法逆向最大匹配法最少切分中文自然語言處理技術
中文分詞技術屬于自然語言處理技術范疇,對于一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計算機也能理解?其處理過程就是分詞算法。
現(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。
基于字符串匹配的分詞方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個「充分大的」機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。通常采用幾種方法的綜合算法。核心技術——中文分詞第40頁正向最大匹配法逆向最大匹配法最少中文分詞的核心難點第41頁歧義識別
歧義是指同樣的一句話,可能有兩種或者更多的切分方法。新詞識別新詞,專業(yè)術語稱為未登錄詞。也就是那些在字典中都沒有收錄過,但又確實能稱為詞的那些詞。新詞中除了人名以外,還有機構名、地名、產(chǎn)品名、商標名、簡稱、省略語等都是很難處理的問題,而且這些又正好是人們經(jīng)常使用的詞,因此對于文本解析來說,分詞系統(tǒng)中的新詞識別十分重要。目前新詞識別準確率已經(jīng)成為評價一個分詞系統(tǒng)好壞的重要標志之一。分詞的準確性TextinhereTextinhere分詞的速度云計算技術可以很好的解決準確性和速度之間的矛盾,使可以保證準確率的復雜的算法的應用成為可能中文分詞的核心難點第41頁歧義識別分詞的準確性Textin核心技術——基于數(shù)據(jù)挖掘的文本分類,將非結構化數(shù)據(jù)轉化為結構化數(shù)據(jù)第42頁文本分類通過計算機對文本集按照一定的分類體系或標準進行自動分類標記文本分類一般包括了文本的表達、分類器的選擇與訓練、分類結果的評價與反饋等過程;其中文本的表達又可細分為文本預處理、索引和統(tǒng)計(分詞)、特征抽取等步驟;預處理將原始語料格式化為同一格式,便于后續(xù)的統(tǒng)一處理;分詞將文檔分解為基本處理單元,同時降低后續(xù)處理的開銷;統(tǒng)計詞頻統(tǒng)計,項(單詞、概念)與分類的相關概率;特征抽取從文檔中抽取出反映文檔主題的特征分類器分類器的訓練評價分類器的測試結果分析核心技術——基于數(shù)據(jù)挖掘的文本分類,將非結構化數(shù)據(jù)轉化為結構文本分類的核心挖掘算法第43頁
統(tǒng)計學習方法需要一批由人工進行了準確分類的文檔作為學習的材料(稱為訓練集),計算機從這些文檔重挖掘出一些能夠有效分類的規(guī)則,這個過程稱為訓練,而總結出的規(guī)則集合常常被稱為分類器。訓練完成之后,需要對計算機從來沒有見過的文檔進行分類時,便使用這些分類器來進行。
常用的分類算法為:決策樹,Rocchio,樸素貝葉斯,神經(jīng)網(wǎng)絡,支持向量機Rocchio算法樸素貝葉斯算法(NaiveBayes)Rocchio算法是文本分類的最基本算法。思路是把一個類別里的樣本文檔各項取個平均值(例如把所有“體育”類文檔中詞匯“籃球”出現(xiàn)的次數(shù)取個平均值,再把“裁判”取個平均值,依次做下去),可以得到一個新的向量,形象的稱之為“質(zhì)心”,質(zhì)心就成了這個類別最具代表性的向量表示。再有新文檔需要判斷的時候,比較新文檔和質(zhì)心有多么相似(判斷他們之間的距離)就可以確定新文檔屬不屬于這個類。改進的Rocchio算法不僅考慮屬于這個類別的文檔(稱為正樣本),也考慮不屬于這個類別的文檔數(shù)據(jù)(稱為負樣本),計算出來的質(zhì)心盡量靠近正樣本同時盡量遠離負樣本。Rocchio算法的局限性是它做了兩個很致命的假設,使得它的性能不佳。一是它認為一個類別的文檔僅僅聚集在一個質(zhì)心的周圍,實際情況往往不是如此(這樣的數(shù)據(jù)稱為線性不可分的);二是它假設訓練數(shù)據(jù)是絕對正確的,因為它沒有任何定量衡量樣本是否含有噪聲的機制,因而也就對錯誤數(shù)據(jù)毫無抵抗力。貝葉斯算法關注的是文檔屬于某類別概率。文檔屬于某個類別的概率等于文檔中每個詞屬于該類別的概率的綜合表達式。而每個詞屬于該類別的概率又在一定程度上可以用這個詞在該類別訓練文檔中出現(xiàn)的次數(shù)(詞頻信息)來粗略估計,因而使得整個計算過程成為可行的。使用樸素貝葉斯算法時,在訓練階段的主要任務就是估計這些值。首先對于每一個樣本中的元素要計算先驗概率。其次要計算一個樣本對于每個分類的概率,概率最大的分類將被采納。所以其中P(d|Ci)=P(w1|Ci)P(w2|Ci)…P(wi|Ci)P(w1|Ci)…P(wm|Ci)(式1)P(w|C)=元素w在分類為C的樣本中出現(xiàn)次數(shù)/數(shù)據(jù)整理后的樣本中元素的總數(shù)(式2)文本分類的核心挖掘算法第43頁統(tǒng)計學習方法需文本分類的核心挖掘算法(續(xù))第44頁
支持向量機(SupportVectorMachine)是Cortes和Vapnik于1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應用到函數(shù)擬合等其他機器學習問題中。支持向量機算法(SupportVectorMachine)支持向量機方法是建立在統(tǒng)計學習理論的VC維理論和結構風險最小原理基礎上的,根據(jù)有限的樣本信息在模型的復雜性(即對特定訓練樣本的學習精度,Accuracy)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力(或稱泛化能力)。SVM方法有很堅實的理論基礎,SVM訓練的本質(zhì)是解決一個二次規(guī)劃問題(QuadrupleProgramming,指目標函數(shù)為二次函數(shù),約束條件為線性約束的最優(yōu)化問題),得到的是全局最優(yōu)解,這使它有著其他統(tǒng)計學習技術難以比擬的優(yōu)越性。SVM分類器的文本分類效果很好,是最好的分類器之一。同時使用核函數(shù)將原始的樣本空間向高維空間進行變換,能夠解決原始樣本線性不可分的問題。其缺點是核函數(shù)的選擇缺乏指導,難以針對具體問題選擇最佳的核函數(shù);另外SVM訓練速度極大地受到訓練集規(guī)模的影響,計算開銷比較大。SVM分類器的優(yōu)點在于通用性較好,且分類精度高、分類速度快、分類速度與訓練樣本個數(shù)無關,在查準和查全率方面都略優(yōu)于一般算法。文本分類的核心挖掘算法(續(xù))第44頁支持向量多類型數(shù)據(jù)集成第45頁非實時的結構化和非結構化數(shù)據(jù)集成12流數(shù)據(jù)集成多類型數(shù)據(jù)集成第45頁非實時的結構化和非結構化數(shù)據(jù)集成12流流數(shù)據(jù)的特點第46頁流數(shù)據(jù)是一組順序、大量、快速、連續(xù)到達的數(shù)據(jù)序列,一般情況下,數(shù)據(jù)流可被視為一個隨時間延續(xù)而無限增長的動態(tài)數(shù)據(jù)集合。實時到達次序獨立規(guī)模宏大很難二次處理流數(shù)據(jù)主流技術有開源S4分布式流計算平臺,Sybase提供的Alteri事件流處理器,
Streambase的CEP系統(tǒng)。流數(shù)據(jù)的特點第46頁流數(shù)據(jù)是一組順序、大量、快速、連續(xù)到達的流數(shù)據(jù)處理的關鍵技術——S4分布式流計算平臺第47頁S4是一個通用的、可擴展性良好、具有部分容錯能力、支持插件的分布式流計算平臺,在該平臺上程序員可以很方便地開發(fā)處理流數(shù)據(jù)的應用。編鍵的數(shù)據(jù)事件被分類、路由到各處理單元(ProcessingElements,PEs),處理單元處理這些事件,做出如下事情之一或全部:(1)發(fā)出一個或多個可能被其他PE處理的事件。(2)發(fā)布結果。這種架構類似提供了封裝和地址透明語義的Actor模式,因此允許應用在大規(guī)模并發(fā)的同時暴露簡單的編程接口給應用開發(fā)者。S4是一個低延遲,彈性流數(shù)據(jù)處理引擎。S4是MapReduce和Actors模型衍生的結合體。流數(shù)據(jù)處理的關鍵技術——S4分布式流計算平臺第47頁S4是一S4的特點第48頁S4是一個通用的、可擴展性良好、具有部分容錯能力、支持插件的分布式流計算平臺,其設計特點有以下幾項:Actor模型S4架構采用了Actor模式,這種模式提供了封裝和地址透明語義,因此在允許應用大規(guī)模并發(fā)的同時,也提供了簡單的編程接口。分布式對稱結構S4參照了MapReduce模式。為了簡化部署和運維,從而達到更好地穩(wěn)定性和擴展性,S4采用了對等架構,集群中的所有處理節(jié)點都是等同的,沒有中心控制。這種架構將使得集群的擴展性很好,處理節(jié)點的總數(shù)理論上無上限;同時,S4將沒有單點容錯的問題。
可插入式架構S4系統(tǒng)使用Java開發(fā),采用了極富層次的模塊化編程,每個通用功能點都盡量抽象出來作為通用模塊,而且盡可能讓各模塊實現(xiàn)可定制化。部分容錯能力設計基于Zookeeper服務的集群管理層將會自動路由事件從失效節(jié)點到其他節(jié)點。除非顯式保存到持久性存儲,否則節(jié)點故障時,節(jié)點上處理事件的狀態(tài)會丟失。面對對象型節(jié)點間通信采用“PlainOldJavaObjects”(POJOs)模式,應用開發(fā)者不需要寫Schemas或用哈希表來在節(jié)點間發(fā)送Tuples。S4的特點第48頁S4是一個通用的、可擴展性良好、具有部分容技術原理第49頁系統(tǒng)組成之ProcessingNodes(PNs):PN是邏輯節(jié)點——負責事件監(jiān)聽、輸入事件處理、發(fā)射輸出事件使用基于鍵值的哈希函數(shù)發(fā)送事件(一個事件可能發(fā)給多個PE)PN使用PEC(Processingelementcontainer)根據(jù)event調(diào)用對應的PE特殊的PE對象:無屬性值的PEprototype,用作初始化和PE的克隆每個keyedPE傳給有且僅有一個PN
通信層:集群管理:進行failover、邏輯節(jié)點到物理節(jié)點的映射、硬件失敗管理等提供Java\C++等的API、支持部分網(wǎng)絡協(xié)議使用ZooKeeper進行協(xié)同(coordinate)管理系統(tǒng)組成之PrecessingElemens(PEs):基本計算單元;一個計算單元實例由四個部分標識:功能functionality、
接受(消耗)的事件Typesofvents(鍵值)屬性Keyedattributes、
(屬性)值Value(oftheekyedattributes)特殊的keylessPE——無屬性PE,接受所有滿足類型限制的的事件,通常處于輸入層StandardPE:完成count、join、aggregate等功能。PE的生存使用TTL控制。
技術原理第49頁系統(tǒng)組成之ProcessingNodes(流數(shù)據(jù)處理的其它商用產(chǎn)品——
IBMStreamBaseCEP第50頁StreamBase復雜時間處理系統(tǒng)(CEP),使用管理高速、實時數(shù)據(jù)流新技術,是一個流數(shù)據(jù)處理引擎。StreamBase應用Java開辟,IDE是基于Eclipse進行二次開辟,功能很是強大。StreamBase也供給了相當多的Operator、Functor以及其他組件來幫助構建應用流程規(guī)則。HeartbeatsMonitoring流數(shù)據(jù)處理的其它商用產(chǎn)品——
IBMStreamBase流數(shù)據(jù)處理的其它商用產(chǎn)品——
SybaseAleriEventStreamProcessor第51頁響應快,延遲低 實時處理并分析高速的事件流事件處理延遲介于數(shù)毫秒或數(shù)秒之間風險管理人員可以實時評估風險、利潤和損失支持流分析和提醒本地的C/C++引擎、適配器和分析可提供極低的延遲和高吞吐量發(fā)布-訂閱體系結構可在整個集群節(jié)點中進行擴展針對現(xiàn)代的多核、多線程64位硬件進行了優(yōu)化
集成速度更快 最有效地利用開發(fā)資源,并實現(xiàn)新的資本市場應用,即最大限度地節(jié)省開發(fā)時間和資源業(yè)界最類似于SQL的事件處理語言大量的現(xiàn)成適配器可擴展性完整的SDK,包括C/C++、C#、Java、Perl和Python可擴展的用戶定義函數(shù)(UDF)快速測試和配置團隊商機 流數(shù)據(jù)處理的其它商用產(chǎn)品——
SybaseAleriEv流數(shù)據(jù)集成的應用場景——信令數(shù)據(jù)處理第52頁信令數(shù)據(jù)采集S4流數(shù)據(jù)處理平臺位置信息捕捉開關機行為捕捉通話行為捕捉短信行為捕捉手機上網(wǎng)行為捕捉靜態(tài)分析模型用戶特征、網(wǎng)絡狀況…動態(tài)觸發(fā)規(guī)則管理、渠道選擇、反饋捕捉….實時分析實時營銷網(wǎng)絡優(yōu)化…….
信令數(shù)據(jù)由于數(shù)據(jù)量巨大,盡管蘊含巨大的價值,在傳統(tǒng)的平臺上難以實時處理,并且硬件成本高昂。通過流數(shù)據(jù)處理平臺可以充分捕捉用戶的實時行為,并進行實時的處理,以支持實時營銷和分析等多種業(yè)務場景。流數(shù)據(jù)集成的應用場景——信令數(shù)據(jù)處理第52頁信令數(shù)據(jù)采集S4議題第53頁大數(shù)據(jù)平臺概述大數(shù)據(jù)平臺架構多類型數(shù)據(jù)集成大數(shù)據(jù)混合式存儲架構IaaS層:資源管理和模塊化數(shù)據(jù)中心PaaS層:大數(shù)據(jù)平臺SaaS層:行業(yè)解決方案議題第53頁大數(shù)據(jù)平臺概述大數(shù)據(jù)平臺架構多類型數(shù)據(jù)集成大數(shù)據(jù)VDC虛擬數(shù)據(jù)中心的IT合理化思路Spare
BaySpare
Pool更少的服務器數(shù)量更少的機房占用更少的機柜占用更少網(wǎng)絡端口占用無需高可用集群軟件跨平臺高可用統(tǒng)一平臺管理,大量節(jié)約學習管理成本利用更節(jié)能的高密度服務器替換原有的高能耗的PC服務器和小型機服務器記外圍設備大量減少,降低整體設備機空調(diào)能耗。利用一套統(tǒng)一的云平臺管理系統(tǒng)管理所有的服務器,取代了原有多種系統(tǒng)多種平臺高可用軟件利用簡單方便的WEB進行本地及遠程管理。利用云平臺管理系統(tǒng)主動到偵測故障服務器自動關閉/隔離故障服務器自動遷移故障服務器特征文件自動恢復故障服務器應用節(jié)約成本超低能耗簡化管理自動切換第54頁VDC虛擬數(shù)據(jù)中心的IT合理化思路Spare
BaySpa資源供給IaaS架構相對于傳統(tǒng)IT架構的優(yōu)勢第55頁資源管理平臺資源需求IaaS架構低成本:使用高密度低能耗的云服務器自動化工具降低管理和運維成本資源共享:動態(tài)、異構、共享的資源池打破應用孤島更高的資源利用率,節(jié)能減排易于部署和管理自動化的資源部署和調(diào)度引擎異構資源統(tǒng)一的管理平臺高伸縮性和高可擴展性資源動態(tài)伸縮,削峰填谷,滿足高峰期的資源請求能夠處理大規(guī)模業(yè)務高可用性虛擬機遷移和HA等特性在減少傳統(tǒng)高可用投資的同時保證系統(tǒng)可靠性自動的故障檢測、告警與恢復資源供給IaaS架構相對于傳統(tǒng)IT架構的優(yōu)勢第55頁資源管理通過IaaS架構實現(xiàn)IT資源合理化運營成本大幅減低,每臺服務器每年減少1000美金②部署周期縮小,新系統(tǒng)部署時間提高240倍可靠性提高,故障恢復速度提高24倍,減少43小時宕機時間IDC建設APP
業(yè)務服務存儲陣列VDC建設VPS服務存儲虛擬化資源分配調(diào)度能力提高服務器利用率虛擬化的蔓延因素1.版權2.空間3.時間4.管理150臺虛擬機因為虛擬機的泛濫浪費50000到15000美元的成本服務目錄管理資源搶占與回收虛擬機存儲網(wǎng)絡應用系統(tǒng)中間件物理機報表與計費服務實例監(jiān)控資源分配自動部署第56頁通過IaaS架構實現(xiàn)IT資源合理化運營成本大幅減低,每臺服務IaaS架構的實現(xiàn):資源管理平臺和基礎設施云化第57頁資源管理平臺簡化管理,自動切換基礎設施云化
節(jié)約成本,超低能耗Spare
BaySpare
Pool+IaaS架構的實現(xiàn):資源管理平臺和基礎設施云化第57頁資源管1、資源管理平臺第58頁資源管理平臺可以整合數(shù)據(jù)中心的計算資源、存儲資源和網(wǎng)絡資源,為IT資源的統(tǒng)一整合、管理與分配提供有力的技術支持,為各種業(yè)務提供所需資源的快速部署、動態(tài)調(diào)度和彈性伸縮能力,并針對業(yè)務系統(tǒng)的用戶提供自服務機制,實現(xiàn)資源的最大化利用與服務的最快交付。資源管理平臺致力于幫助企業(yè)構建安全可靠、資源共享的云數(shù)據(jù)中心,實現(xiàn)業(yè)務計算能力與IT資源的剝離,讓底層的IT基礎設施以服務的方式按需提供,從而滿足業(yè)務的多變性并促進業(yè)務的高速發(fā)展。1、資源管理平臺第58頁資源管理平臺可以整合數(shù)據(jù)中心的計算資資源管理平臺的邏輯結構第59頁資源管理平臺資源管理平臺的邏輯結構第59頁資源管理平臺資源管理平臺的功能模塊第60頁資源管理平臺虛擬化功能模塊安全功能模塊模板管理功能模塊監(jiān)控功能模塊運營管理功能模塊資源管理功能模塊存儲功能模塊網(wǎng)絡功能模塊資源管理平臺的功能模塊第60頁資源管理平臺虛擬化功能模塊安全資源管理平臺的特點第61頁資源實例全生命周期管理層級的多租戶架構與用戶自服務快速自動部署與自動彈性伸縮多數(shù)據(jù)中心異構資源的支持各種虛擬化系統(tǒng)+物理系統(tǒng)+小型機系統(tǒng)+為各種業(yè)務提供基礎設施資源的自動部署配置資源管理平臺的特點第61頁資源實例層級的多租戶架構快速自動部資源管理平臺的端到端工作流程第62頁普通用戶1、申請服務實例自服務門戶服務目錄4、服務實例的操作(使用、更改、監(jiān)控、管理)2、審批流程3、資源分配/自動部署資源分配策略:選擇最優(yōu)資源+資源實例全生命周期管理5、資源到期回收6、報表與計費計費賬單統(tǒng)計報表資源管理員1、添加資源2、創(chuàng)建服務模板虛擬機存儲網(wǎng)絡小型機分區(qū)中間件物理機管理員普通用戶1、建立用戶組與用戶(角色、權限、配額)運營管理員2、發(fā)布服務模板提供服務目錄3、計費賬務管理3、資源監(jiān)控資源管理平臺的端到端工作流程第62頁普通用戶1、申請服務實例2、基礎設施云化63倉儲式數(shù)據(jù)中心數(shù)據(jù)中心遷移數(shù)據(jù)中心改造倉儲式數(shù)據(jù)中心數(shù)據(jù)中心遷移數(shù)據(jù)中心合并2012201320142015老舊數(shù)據(jù)中心合并,成立新型綠色數(shù)據(jù)中心;改善區(qū)域數(shù)據(jù)中心,降低PUE值服務器采購向著節(jié)能,高效發(fā)展;2、基礎設施云化63倉儲式數(shù)據(jù)中心數(shù)據(jù)中心遷移數(shù)據(jù)中心改造倉基礎設施云化可降低能耗、節(jié)約電力成本第64頁每月花銷①資料來源亞馬遜數(shù)據(jù)中心觀察:①每月$2.3Million相關電力成本開銷②當服務器成本降低時電力成本呈現(xiàn)持平或上升趨勢建設成本運維成本建設投資中最大的是電力系統(tǒng)設備,占50%
運營維護成本中,電費支出比重最高基礎設施云化可降低能耗、節(jié)約電力成本第64頁每月花銷①資料通過基礎設施云化構建綠色數(shù)據(jù)中心第65頁年份PUE目標IDC建設/改造IDC電力成本20113.0015億20122.430%13.2億20132.050%12億20141.670%9.75
億20151.690%8.7億PUE3.0通常PUE2.4最佳實踐PUE2.0100%0%PUE1.6制冷非IT電源消耗節(jié)省IT電源消耗溫度控制優(yōu)化風量控制優(yōu)化壓力控制優(yōu)化智能冷卻數(shù)據(jù)中心評估場地布置調(diào)整設備機柜優(yōu)化布線路由優(yōu)化場地優(yōu)化IT設備供電改造電源路由改造_UPS系統(tǒng)改造_電源改造IT系統(tǒng)環(huán)境綠色數(shù)據(jù)中心通過基礎設施云化構建綠色數(shù)據(jù)中心第65頁年份PUE目標ID新一代綠色智能數(shù)據(jù)中心:模塊化數(shù)據(jù)中心第66頁建設單元內(nèi)景透視圖建設單元外景鳥瞰圖模塊單元整體設計理念模塊模組DK建設單元(細胞)(組織)(個體)(社會)象生物的發(fā)育一樣嚴謹、自然、合理建設基地倉儲式數(shù)據(jù)中心的優(yōu)勢裝配流程化高度靈活性模塊化擴展低能耗高效快速部署低成本未來達成的目的:建設高起點、大規(guī)模、低成本、節(jié)能的數(shù)據(jù)中心,解決基地省份、核心城市的機房需求。通過數(shù)據(jù)中心安全、穩(wěn)定、可靠運行,最終實現(xiàn)全網(wǎng)的低成本高效運營。提升企業(yè)核心競爭力。新一代綠色智能數(shù)據(jù)中心:模塊化數(shù)據(jù)中心第66頁建設單元內(nèi)景透議題第67頁大數(shù)據(jù)平臺概述大數(shù)據(jù)平臺架構多類型數(shù)據(jù)集成大數(shù)據(jù)混合式存儲架構IaaS層:資源管理和模塊化數(shù)據(jù)中心PaaS層:大數(shù)據(jù)平臺SaaS層:行業(yè)解決方案議題第67頁大數(shù)據(jù)平臺概述大數(shù)據(jù)平臺架構多類型數(shù)據(jù)集成大數(shù)據(jù)大數(shù)據(jù)混合式存儲架構概述第68頁數(shù)據(jù)應用混合式架構存儲和處理技術在大數(shù)據(jù)與傳統(tǒng)BI系統(tǒng)的區(qū)別在于引入了大量新的數(shù)據(jù)源,除了傳統(tǒng)的結構化批處理數(shù)據(jù)(如CDR等),還包括大量的非結構化數(shù)據(jù)和實時性很強的流數(shù)據(jù),如文本、點擊流、信令數(shù)據(jù)等;這些新數(shù)據(jù)源的引入促進了應用的發(fā)展,使一些原來無法實現(xiàn)的應用成為可能,包括實時數(shù)據(jù)分析、基于文本的網(wǎng)絡數(shù)據(jù)分析等,這些應用有著極為廣泛的應用場景;為了使大數(shù)據(jù)能夠有效的支撐應用,大數(shù)據(jù)的存儲和處理技術就尤為關鍵。針對不同類型的數(shù)據(jù)采取不同的處理技術,并在大數(shù)據(jù)平臺上根據(jù)應用的需求進行整合,是大數(shù)據(jù)混合式存儲架構的核心目標,也是大數(shù)據(jù)平臺的核心模塊。大數(shù)據(jù)混合式存儲架構概述第68頁數(shù)據(jù)應用混合式存儲和在大數(shù)據(jù)從傳統(tǒng)的分析型和交易型系統(tǒng)通用的數(shù)據(jù)庫逐步向分析型系統(tǒng)專用的數(shù)據(jù)庫轉變第69頁傳統(tǒng)的數(shù)據(jù)庫,如OracleDB,IBMDB2等,是交易型系統(tǒng)和分析型系統(tǒng)通用的數(shù)據(jù)庫,以行的方式存儲,在面向大數(shù)據(jù)的處理能力上有擴展能力和處理性能的瓶頸;為了滿足大數(shù)據(jù)處理的需求,大數(shù)據(jù)的處理逐步向列數(shù)據(jù)庫(包括一體機)和MPP數(shù)據(jù)庫(包括一體機)等分析型系統(tǒng)專用的數(shù)據(jù)庫轉變。從傳統(tǒng)的分析型和交易型系統(tǒng)通用的數(shù)據(jù)庫逐步向分析型系統(tǒng)專用的關鍵技術——列數(shù)據(jù)庫第70頁列式數(shù)據(jù)庫是以列相關存儲架構進行數(shù)據(jù)存儲的數(shù)據(jù)庫,主要適合與批量數(shù)據(jù)處理和即席查詢。相對應的是行式數(shù)據(jù)庫,數(shù)據(jù)以行相關的存儲體系架構進行空間分配,主要適合與小批量的數(shù)據(jù)處理,常用于聯(lián)機事務型數(shù)據(jù)處理。傳統(tǒng)的行式數(shù)據(jù)庫數(shù)據(jù)是按行存儲的沒有索引的查詢使用大量I/O建立索引和物化視圖需要花費大量的時間和資源面對查詢的需求,數(shù)據(jù)庫必須大量膨脹才能滿足性能需求適用于分析型系統(tǒng)的列式數(shù)據(jù)庫數(shù)據(jù)是按列存儲,每一列單獨存放數(shù)據(jù)既是索引只訪問查詢涉及的列,大量降低系統(tǒng)I/O每個列由一個線索來處理,滿足并發(fā)的查詢數(shù)據(jù)類型一致,數(shù)據(jù)特征相似,便于壓縮關鍵技術——列數(shù)據(jù)庫第70頁列式數(shù)據(jù)庫是以列相關存儲架構進行列式數(shù)據(jù)庫與行式數(shù)據(jù)庫在分析型系統(tǒng)中的性能對比第71頁列式數(shù)據(jù)庫與行式數(shù)據(jù)庫在分析型系統(tǒng)中的性能對比第71頁列數(shù)據(jù)庫的商用產(chǎn)品——SybaseIQ第72頁列數(shù)據(jù)庫的商用產(chǎn)品——SybaseIQ第72頁列數(shù)據(jù)庫的商用產(chǎn)品——HPVertica第73頁Vertica每一列數(shù)據(jù)獨立存儲在磁盤上的連續(xù)塊上。查詢數(shù)據(jù)時,Vertica只需要取得那些需要的列,而不是被選擇行的所有的列數(shù)據(jù)。由于大多數(shù)的決策分析系統(tǒng)只是列的子集,Vertica垂直分區(qū)的方法極大地節(jié)省了DiskI/O。從而實現(xiàn)數(shù)據(jù)性能的50x-1000x倍的提高。Vertiaca是一個基于列數(shù)據(jù)庫技術的分析數(shù)據(jù)庫解決方案。列數(shù)據(jù)庫的商用產(chǎn)品——HPVertica第73頁Verti關鍵技術——MPP數(shù)據(jù)庫第74頁并行數(shù)據(jù)庫系統(tǒng)是新一代高性能的數(shù)據(jù)庫系統(tǒng),是在MPP和集群并行計算環(huán)境的基礎上建立的數(shù)據(jù)庫系統(tǒng)。并行數(shù)據(jù)庫系統(tǒng)的目標是高性能和高可用性,通過多個處理節(jié)點并行執(zhí)行數(shù)據(jù)庫任務,提高整個數(shù)據(jù)庫系統(tǒng)的性能和可用性。高性能并行數(shù)據(jù)庫系統(tǒng)基于多處理節(jié)點的物理結構,將數(shù)據(jù)庫管理技術與并行處理技術有機結合,來實現(xiàn)系統(tǒng)的高性能。高可用性高可用性可以同時在硬件和軟件兩個方面提供保障。在硬件方面,通過冗余的處理節(jié)點、存儲設備、網(wǎng)絡鏈路等硬件措施,可以保證當系統(tǒng)中某節(jié)點部分或完全失效時,其它的硬件設備可以接手其處理,對外提供持續(xù)服務。在軟件方面,通過狀態(tài)監(jiān)控與跟蹤、互相備份、日志等技術手段,可以保證當前系統(tǒng)中某節(jié)點部分或完全失效時,由它所進行的處理或由它所掌控的資源可以無損失或基本無損失地轉移到其它節(jié)點,并由其它節(jié)點繼續(xù)對外提供服務。關鍵技術——MPP數(shù)據(jù)庫第74頁并行數(shù)據(jù)庫系統(tǒng)是新一代高性能Share-nothing架構第75頁常見的OLTP數(shù)據(jù)庫系統(tǒng)常常采用sharedeverything架構來做集群,例如oracleRAC架構,數(shù)據(jù)存儲共享,節(jié)點間內(nèi)存可以相互訪問。sharednothing架構(MPP),主機,操作系統(tǒng),內(nèi)存,存儲都是自我控制的,不存在共享。主要由masterhost,segmenthost,interconnect三大部分組成。MPP數(shù)據(jù)庫通過將數(shù)據(jù)分布到多個節(jié)點上來實現(xiàn)規(guī)模數(shù)據(jù)的存儲。數(shù)據(jù)庫的瓶頸經(jīng)常發(fā)生在I/O方面,mpp數(shù)據(jù)庫采用分而治之的辦法,將數(shù)據(jù)規(guī)律的分布到節(jié)點上,充分利用segment主機的IO能力,以此讓系統(tǒng)達到最大的IO能力(主要是帶寬)。每個表都是分布在所有節(jié)點上的。Masterhost首先通過對表的某個或多個列進行hash運算,然后根據(jù)hash結果將表的數(shù)據(jù)分布到segmenthost中。整個過程中masterhost不存放任何用戶數(shù)據(jù),只是對客戶端進行訪問控制和存儲表分布邏輯的元數(shù)據(jù)。Share-nothing架構第75頁常見的OLTP數(shù)據(jù)庫商用產(chǎn)品——IBMNetezzaAppliance第76頁AdvancedAnalyticsLoaderETLBIApplicationsFPGAMemoryCPUFPGAMemoryCPUFPGAMemoryCPUHostsHostDisk
EnclosuresS-Blades?Network
FabricODBC/
JDBCNetezza系統(tǒng)性能的主要優(yōu)勢來自其獨特的AMPP處理架構,該架構將SMP前端與一個無共享的MPP后端相結合完成查詢處理。該架構將經(jīng)過精心挑選的各個組件集成在一起組成了平衡的整體系統(tǒng)。通過每個處理組件對多個數(shù)據(jù)流進行操作,并盡早過濾掉多余的數(shù)據(jù)。最多可有多達一千多個MPP處理組件共同工作,有效分解和處理工作負荷。商用產(chǎn)品——IBMNetezzaAppliance第76商用產(chǎn)品——EMCGreenplum第77頁大規(guī)模并行處理MPP無共享架構普通服務器平臺(服務器、網(wǎng)絡)通過軟件提升處理能力商用產(chǎn)品——EMCGreenplum第77頁大規(guī)模并行處理大數(shù)據(jù)存儲和處理的關鍵技術——Hadoop第78頁HadoopDistributedFileSystem,簡稱HDFS,是一個分布式文件系統(tǒng)。HDFS有著高容錯性的特點,并且設計用來部署在低廉的硬件上。而且它提供高吞吐量來訪問應用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應用程序。HDFS放寬了POSIX的要求這樣可以實現(xiàn)流的形式訪問文件系統(tǒng)中的數(shù)據(jù)。大數(shù)據(jù)存儲和處理的關鍵技術——Hadoop第78頁Hadoo大數(shù)據(jù)存儲和處理的關鍵技術——NoSQL第79頁NoSQL,指的是非關系型的數(shù)據(jù)庫。NoSQL致力于解決計算機體系結構在數(shù)據(jù)存儲方面龐大的水平擴展需求。Google的BigTable和Amazon的Dynamo使用的就是NoSQL型數(shù)據(jù)庫。主流的NoSQL開源技術和產(chǎn)品有Membase,MongoDB。一些互聯(lián)網(wǎng)巨頭也開發(fā)了自己的數(shù)據(jù)庫。Hypertable是一個開源、高性能、可伸縮的數(shù)據(jù)庫,它采用與Google的Bigtable相似的模型。ApacheCassandra是一套開源分布式Key-Value存儲系統(tǒng)。它最初由Facebook開發(fā),用于儲存特別大的數(shù)據(jù)。Facebook目前在使用此系統(tǒng)。大數(shù)據(jù)存儲和處理的關鍵技術——NoSQL第79頁NoSQL,NoSQL的產(chǎn)品——Membase第80頁Membase容易安裝、操作,可以從單節(jié)點方便的擴展到集群,而且為memcached(有線協(xié)議的兼容性)實現(xiàn)了即插即用功能,在應用方面為開發(fā)者和經(jīng)營者提供了一個比較低的門檻。做為緩存解決方案,Memcached已經(jīng)在不同類型的領域(特別是大容量的Web應用)有了廣泛的使用,其中Memcached的部分基礎代碼被直接應用到了Membase服務器的前端。Membase是NoSQL家族的一個新的重量級的成員。Membase是開源項目,源代碼采用了Apache2.0的使用許可。主要特點兼容Memcache的訪問協(xié)議,text、binary兩種協(xié)議都支持功能好,通過添加效勞器來橫向擴展效勞,同時效勞才能根本是線性添加的,可以滿足業(yè)務需求。安裝方便、使用簡單、擴展容易,管理界面美觀。過時數(shù)據(jù)可自動刪除,有可持久化存儲方案的優(yōu)點。支持跨機房的Membase集群,支持多數(shù)據(jù)中心。NoSQL的產(chǎn)品——Membase第80頁Membase容NOSQL的產(chǎn)品——MongoDB第81頁MongoDB是一個介于關系數(shù)據(jù)庫和非關系數(shù)據(jù)庫之間的產(chǎn)品,是非關系數(shù)據(jù)庫當中功能最豐富,最像關系數(shù)據(jù)庫的產(chǎn)品。MongoDB是一個基于分布式文件存儲的數(shù)據(jù)庫。由C++語言編寫。旨在為WEB應用提供可擴展的高性能數(shù)據(jù)存儲解決方案。特點:高性能、易部署、易使用,存儲數(shù)據(jù)非常方便。NOSQL的產(chǎn)品——MongoDB第81頁MongoDB是一大數(shù)據(jù)存儲和處理的關鍵技術——流數(shù)據(jù)處理引擎第82頁實時到達次序獨立規(guī)模宏大很難二次處理流數(shù)據(jù)流數(shù)據(jù)處理的技術主要包括開源的S4平臺,以及商用產(chǎn)品IBMStreamBaseCEP等;S4是一個通用的、可擴展性良好、具有部分容錯能力、支持插件的分布式流計算平臺,在該平臺上程序員可以很方便地開發(fā)處理流數(shù)據(jù)的應用;IBMStreamBase復雜時間處理系統(tǒng)(CEP),使用管理高速、實時數(shù)據(jù)流新技術,是一個流數(shù)據(jù)處理引擎。StreamBase應用Java開辟,IDE是基于Eclipse進行二次開辟,功能很是強大。StreamBase也供給了相當多的Operator、Functor以及其他組件來幫助構建應用流程規(guī)則。大數(shù)據(jù)存儲和處理的關鍵技術——流數(shù)據(jù)處理引擎第82頁實時次序大數(shù)據(jù)平臺的邏輯數(shù)據(jù)架構第83頁接口數(shù)據(jù)結構化數(shù)據(jù)(CDR、賬務、用戶資料等)文本數(shù)據(jù)(網(wǎng)頁內(nèi)容、客服記錄等)流數(shù)據(jù)(信令數(shù)據(jù))數(shù)據(jù)集成清洗轉換結構化數(shù)據(jù)
非結構化數(shù)據(jù)轉換為結構化
實時處理大數(shù)據(jù)存儲和處理平臺客戶級匯總中間級匯總匯總指標級匯總客戶級關聯(lián)中間級關聯(lián)關聯(lián)指標級關聯(lián)…位置模型挖掘模型特征模型規(guī)則管理應用數(shù)據(jù)報表類專題類即席分析類實時分析類大數(shù)據(jù)平臺的邏輯數(shù)據(jù)架構第83頁接口數(shù)據(jù)結構化數(shù)據(jù)文本數(shù)據(jù)流混合式存儲架構第84頁接口數(shù)據(jù)結構化數(shù)據(jù)(CDR、賬務、用戶資料等)文本數(shù)據(jù)(網(wǎng)頁內(nèi)容、客服記錄等)流數(shù)據(jù)(信令數(shù)據(jù))數(shù)據(jù)集成清洗轉換結構化數(shù)據(jù)
非結構化數(shù)據(jù)轉換為結構化
實時處理大數(shù)據(jù)存儲和處理平臺客戶級匯總中間級匯總匯總指標級匯總客戶級關聯(lián)中間級關聯(lián)關聯(lián)指標級關聯(lián)…位置模型挖掘模型特征模型實時規(guī)則管理應用數(shù)據(jù)報表類專題類即席分析類實時分析類Hadoop流數(shù)據(jù)處理列數(shù)據(jù)庫/MPP數(shù)據(jù)庫混合式存儲架構第84頁接口數(shù)據(jù)結構化數(shù)據(jù)文本數(shù)據(jù)流數(shù)據(jù)數(shù)據(jù)集混合式存儲架構(續(xù))第85頁根據(jù)數(shù)據(jù)的特點(結構化與非結構化)和處理需求(實時與非實時)采用不同的數(shù)據(jù)存儲和處理技術;結構化數(shù)據(jù)集成(主要是記錄級的處理)、非結構化數(shù)據(jù)處理、及部分數(shù)據(jù)挖掘可以在Hadoop平臺實現(xiàn),充分利用Hadoop在低成本、并行處理批量數(shù)據(jù)方面的優(yōu)勢;流數(shù)據(jù)的實時處理和實時規(guī)則管理采用流數(shù)據(jù)的處理方式,滿足實時分析的需求和實時規(guī)則的觸發(fā)管理;結構化數(shù)據(jù)(包括結構化后的文本數(shù)據(jù)等非結構化數(shù)據(jù))的匯總、關聯(lián)、以及應用數(shù)據(jù)都存儲在列數(shù)據(jù)庫或MPP數(shù)據(jù)庫中,充分發(fā)揮列數(shù)據(jù)庫和MPP數(shù)據(jù)庫在列處理性能上的優(yōu)勢;混合式存儲架構(續(xù))第85頁根據(jù)數(shù)據(jù)的特點(結構化與非結構化議題第86頁大數(shù)據(jù)平臺概述大數(shù)據(jù)平臺架構多類型數(shù)據(jù)集成大數(shù)據(jù)混合式存儲架構IaaS層:資源管理和模塊化數(shù)據(jù)中心PaaS層:大數(shù)據(jù)平臺SaaS層:行業(yè)解決方案議題第86頁大數(shù)據(jù)平臺概述大數(shù)據(jù)平臺架構多類型數(shù)據(jù)集成大數(shù)據(jù)—Platfrom
as
a
Service,平臺即服務PaaS平臺:應用開發(fā)、部署、運營的平臺PaaS平臺概述—PlatfromasaService,平臺即服務Pa大數(shù)據(jù)的PaaS平臺的用戶是第三方應用開發(fā)商,在整個大數(shù)據(jù)平臺建設的過程中,為多個應用開發(fā)商提供統(tǒng)一的開發(fā)環(huán)境和應用運行環(huán)境,解決了傳統(tǒng)分析型系統(tǒng)架構的問題:為什么要打造大數(shù)據(jù)PaaS平臺?重復開發(fā)數(shù)據(jù)冗余運維困難數(shù)據(jù)泄密?底層基礎功能重復開發(fā),技術要求上不能統(tǒng)一,導致后續(xù)有新需求時改進、維護困難(需要使用不同技術、修改多處等);?實現(xiàn)技術及接口的不統(tǒng)一,不能對各應用開發(fā)商的應用進行統(tǒng)一的監(jiān)控、運維管理;?應用數(shù)據(jù)冗余,各應用開發(fā)商根據(jù)自己的需求生成各種和其他應用開發(fā)商之間冗余的數(shù)據(jù),沒有統(tǒng)一的數(shù)據(jù)規(guī)劃和控制;?應用數(shù)據(jù)安全性,各應用開發(fā)商都需要能訪問基礎數(shù)據(jù)、生成應用所需匯總數(shù)據(jù),接觸基礎數(shù)據(jù)的人太多,可能會導致基礎數(shù)據(jù)泄密;優(yōu)勢大數(shù)據(jù)的PaaS平臺的用戶是第三方應用開發(fā)商,在整個大數(shù)據(jù)平PaaS平臺的目標把應用中不涉及業(yè)務邏輯的底層基礎能力(用戶、資源、權限、日志、任務等),以及基礎分析能力,通過統(tǒng)一的服務方式進行提供,減少重復開發(fā)工作量;可以引入多個應用開發(fā)商,讓應用開發(fā)商把主要精力放在應用業(yè)務邏輯上,促進應用百花齊放、優(yōu)勝劣汰;提供統(tǒng)一的應用運行平臺;規(guī)范應用的開發(fā)、發(fā)布、部署、運維的流程及技術要求,利于對應用進行統(tǒng)一的監(jiān)控和運維管理;提供統(tǒng)一運行環(huán)境提供統(tǒng)一開發(fā)環(huán)境PaaS平臺的目標把應用中不涉及業(yè)務邏輯的底層基礎能力(用戶PaaS平臺提供的核心開發(fā)支撐能力第90頁數(shù)據(jù)訪問及處理引擎工作流引擎數(shù)據(jù)挖掘引擎數(shù)據(jù)可視化引擎基礎功能模塊提供完整的數(shù)據(jù)支撐,包括不同粒度的數(shù)據(jù)以及數(shù)據(jù)處理引擎提供包含多種統(tǒng)計分析和數(shù)據(jù)挖掘的引擎,以及引擎運行平臺提供數(shù)據(jù)可視化工具,包括多種圖形化工具并支持多種數(shù)據(jù)源接口提供工作流引擎,為解決方案提供流程支撐,以及流程中的分析集成PaaS平臺提供的核心開發(fā)支撐能力第90頁數(shù)據(jù)訪問及處理引擎能力一:統(tǒng)一數(shù)據(jù)訪問和處理引擎?實現(xiàn)統(tǒng)一的數(shù)據(jù)訪問接口,應用不再直接連接大數(shù)據(jù)存儲層中的數(shù)據(jù)庫或非結構化數(shù)據(jù),而是通過數(shù)據(jù)訪問模塊訪問其中的數(shù)據(jù);?實現(xiàn)統(tǒng)一的數(shù)據(jù)存儲接口,應用通過調(diào)用數(shù)據(jù)存儲模塊來存儲數(shù)據(jù)或非結構化文件,不直接訪問大數(shù)據(jù)存儲層中的數(shù)據(jù)源;統(tǒng)一數(shù)據(jù)存儲統(tǒng)一數(shù)據(jù)訪問統(tǒng)一數(shù)據(jù)訪問、統(tǒng)一數(shù)據(jù)存儲指的是對業(yè)務數(shù)據(jù),不包括元數(shù)據(jù)。能力一:統(tǒng)一數(shù)據(jù)訪問和處理引擎?實現(xiàn)統(tǒng)一的數(shù)據(jù)訪問接口,應用基礎支撐能力一:統(tǒng)一數(shù)據(jù)訪問和處理引擎(續(xù))第92頁應用層任務解析任務調(diào)度任務執(zhí)行任務管理統(tǒng)一數(shù)據(jù)訪問數(shù)據(jù)訪問服務數(shù)據(jù)獲取語義服務大數(shù)據(jù)存儲RDBMSHadoopNosql數(shù)據(jù)訪問和處理引擎在統(tǒng)一數(shù)據(jù)訪問的基礎上進行任務管理,包括任務解析、調(diào)度和執(zhí)行;任務解析將應用發(fā)來的數(shù)據(jù)請求進行解析,形成數(shù)據(jù)處理任務。根據(jù)應用預設的優(yōu)先級,將任務進行調(diào)度和執(zhí)行,并將結果反饋回應用;任務的解析和執(zhí)行不直接訪問大數(shù)據(jù)存儲,而是經(jīng)過統(tǒng)一數(shù)據(jù)訪問模塊進行;基礎支撐能力一:統(tǒng)一數(shù)據(jù)訪問和處理引擎(續(xù))第92頁應用層任數(shù)據(jù)支撐示例——用戶六維全息視圖基本信息消費行為通話行為位置信息手機上網(wǎng)行為信息服務使用行為客服使用行為支付行為購物行為第三方導入信息特征分析、模式發(fā)現(xiàn)偏好分析、關聯(lián)預測時間序列模式分析聯(lián)系圖譜分析、群體識別和特征分析長期跟蹤分析、發(fā)現(xiàn)變動、預警異?!?/p>
用戶全息視圖整合所有電信業(yè)務相關數(shù)據(jù),以及移動互聯(lián)網(wǎng)使用數(shù)據(jù),同時結合第三方提供的數(shù)據(jù)形成最為完整的用戶信息視圖;
在此基礎上提供深度挖掘的多種方法,為全方位發(fā)掘客戶特征提供支撐能力。六維視圖時間空間價值行為偏好社交第93頁數(shù)據(jù)支撐示例——用戶六維全息視圖基本信息消費行為通話行為位置基礎支撐能力二:數(shù)據(jù)挖掘引擎第94頁預處理數(shù)據(jù)準備樣本集管理數(shù)據(jù)準備分類算法數(shù)據(jù)挖掘建模聚類算法回歸算法時間序列關聯(lián)分析…模型評估評估指標管理模型驗證用戶追蹤模型優(yōu)化多模型對比模型迭代管理統(tǒng)一數(shù)據(jù)訪問數(shù)據(jù)訪問服務數(shù)據(jù)獲取語義服務數(shù)據(jù)挖掘引擎數(shù)據(jù)挖掘引擎包括數(shù)據(jù)挖掘涉及的五個主要環(huán)節(jié),數(shù)據(jù)準備、建模、模型評估、模型應用、模型優(yōu)化。模型應用應用數(shù)據(jù)管理應用結果輸出基礎支撐能力二:數(shù)據(jù)挖掘引擎第94頁預處理數(shù)據(jù)準備樣本集管理基礎支撐能力三:工作流引擎第95頁
工作流是一系列相互銜接、自動進行或人工執(zhí)行的業(yè)務活動或任務,它根據(jù)一系列過程規(guī)則、文檔、信息或任務能夠在不同的執(zhí)行者之間進行傳遞與執(zhí)行。
工作流引擎支持工作流的定義,創(chuàng)建工作流實例,并按照預定義的工作流邏輯和流程規(guī)則推進工作流實例。
通過工作流模板簡化開發(fā)工作:業(yè)務場景分析流程營銷活動管理流程產(chǎn)品策劃流程基礎支撐能力三:工作流引擎第95頁工作流是一基礎支撐能力四:數(shù)據(jù)可視化引擎第96頁
通過集成數(shù)據(jù)可視化工具,提供豐富的圖形展現(xiàn)和交互分析能力,無需定制開發(fā),快速形成應用。231豐富的圖形展現(xiàn)交互式分析集成地圖展現(xiàn)區(qū)域D區(qū)域A區(qū)域B區(qū)域C區(qū)域E區(qū)域F區(qū)域G關注該內(nèi)容的用戶最密集的區(qū)域基礎支撐能力四:數(shù)據(jù)可視化引擎第96頁通過集
P
a
a
S平臺數(shù)據(jù)服務數(shù)據(jù)倉庫元數(shù)據(jù)庫分布式文件存儲應用應用應用應用應用語義服務數(shù)據(jù)獲取
/存儲服務用戶管理安全管理運維管理服務管理監(jiān)控管理基礎/業(yè)務服務元數(shù)據(jù)服務ACT引擎DPT引擎離線開發(fā)環(huán)境應用容器
日志
組件
KPI
組件統(tǒng)一接觸組件…組件IaaS事件服務流程服務事件監(jiān)控事件引擎流程監(jiān)控流程引擎Eclipse
N
e
t
b
e
a
n
sBISDK……平臺監(jiān)控管理
在線開發(fā)環(huán)境應用管理
……PaaS平臺的開發(fā)和運行環(huán)境架構 P數(shù)據(jù)服務數(shù)據(jù)倉庫元數(shù)據(jù)庫分布式文件存儲應用應用應用應用應1、準備數(shù)據(jù)生成
?應用開發(fā)者使用
“開發(fā)者工作臺”
中的“DPT配置”
功能設計應用的
數(shù)據(jù)存儲模型、
應用數(shù)據(jù)生成流
程、生成邏輯等;2、構建數(shù)據(jù)展示
?應用開發(fā)者使用
“離線開發(fā)工
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司與員工勞動合同范本(5篇)
- 2025年協(xié)作合同范本之培訓事項
- 2025年醫(yī)院衛(wèi)生耗材采購銷售合同規(guī)范文本
- 2025年人防使用權策劃管理合同書
- 2025年醫(yī)院安全整改協(xié)議書范例
- 2025年過熱蒸汽干燥設備項目規(guī)劃申請報告模板
- 2025年光盤數(shù)據(jù)備份協(xié)議
- 2025年鑄造造型材料項目規(guī)劃申請報告模板
- 2025年舞臺燈具項目申請報告模范
- 2025年農(nóng)業(yè)生產(chǎn)資料購銷合同范文合同樣本
- 塑料成型模具設計(第2版)江昌勇課件0-導論
- 《西藏度亡經(jīng)》及中陰解脫竅決(收藏)
- POWERPOINT教學案例優(yōu)秀6篇
- 2022年內(nèi)蒙古包頭市中考英語試卷含解析
- 五年級下冊《Lesson 11 Shopping in Beijing》教案冀教版三年級起點小學英語-五年級英語教案
- 2023年楊凌職業(yè)技術學院單招面試題庫及答案解析
- 績效考核管理醫(yī)院績效分配方案包括實施細則考核表
- stm32f103c8t6最小系統(tǒng)客戶-中文手冊
- 大學成績單(大專)
- 追溯紅色記憶,感受紅色精神,社會實踐活動記錄表
- GB/T 15234-1994塑料平托盤
評論
0/150
提交評論