大數(shù)據(jù)平臺解決方案規(guī)劃_第1頁
大數(shù)據(jù)平臺解決方案規(guī)劃_第2頁
大數(shù)據(jù)平臺解決方案規(guī)劃_第3頁
大數(shù)據(jù)平臺解決方案規(guī)劃_第4頁
大數(shù)據(jù)平臺解決方案規(guī)劃_第5頁
已閱讀5頁,還剩134頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、大數(shù)據(jù)平臺處理方案規(guī)劃天云科技11月第1頁第2頁議題大數(shù)據(jù)平臺概述大數(shù)據(jù)平臺架構(gòu)多類型數(shù)據(jù)集成大數(shù)據(jù)混合式存放架構(gòu)IaaS層:資源管理和模塊化數(shù)據(jù)中心PaaS層:大數(shù)據(jù)平臺SaaS層:行業(yè)處理方案 第2頁第3頁大數(shù)據(jù)平臺概述 大數(shù)據(jù)平臺主要經(jīng)過集成中國聯(lián)通內(nèi)部運行支撐系統(tǒng)和外部數(shù)據(jù),包含交易型大數(shù)據(jù)(Big Transaction Data)和交互型大數(shù)據(jù)(Big Interaction Data),經(jīng)過各種云計算技術(shù)將之集成和處理,向中國聯(lián)通內(nèi)部和外部企業(yè)客戶提供有極大商業(yè)價值信息支撐和智能處理方案。第3頁第4頁大數(shù)據(jù)服務(wù)能夠在哪些方面為企業(yè)客戶提供價值?風(fēng)險控制物流其它物流監(jiān)控物流優(yōu)化物流

2、預(yù)測關(guān)鍵點監(jiān)控預(yù)警績效監(jiān)控使整個企業(yè)進入大數(shù)據(jù)智能時代第4頁第5頁大數(shù)據(jù)服務(wù)面向三類企業(yè)客戶Data Warehouse as a ServiceStep 2Step 3 面向起步型企業(yè),數(shù)據(jù)規(guī)模較小,而且難以負擔(dān)建設(shè)分析型系統(tǒng)投入成本,沒有深入分析需求,手工即可分析。伴隨企業(yè)成長能夠使用更高級服務(wù)面向成熟一些中小型企業(yè),數(shù)據(jù)規(guī)模中等,單獨建設(shè)系統(tǒng)加上管理系統(tǒng)維護團體以及購置分析軟件單位用戶成本較高,有分析需求和分析人員Analytics as a ServiceIntelligenceas a Service面向中型企業(yè),管理上走向成熟,數(shù)據(jù)規(guī)模中等,除了有較深入分析需求外,還有對行業(yè)深度了

3、解和預(yù)測需求第5頁第6頁大數(shù)據(jù)平臺三種服務(wù)交付方式大數(shù)據(jù)服務(wù)Data Warehouse as a ServiceAnalytics as a ServiceIntelligence as a Service第6頁第7頁Data Warehouse as a Service數(shù)據(jù)倉儲即服務(wù)為企業(yè)提供數(shù)據(jù)倉庫SaaS服務(wù),幫助企業(yè)將數(shù)據(jù)進行清洗、校驗和梳理,為企業(yè)提供適合數(shù)據(jù)存放和數(shù)據(jù)庫處理方案,以及提供數(shù)據(jù)訪問接口和數(shù)據(jù)安全管理等,為企業(yè)分析型應(yīng)用提供支撐基礎(chǔ)設(shè)施以服務(wù)方式提供企業(yè)分析型系統(tǒng)構(gòu)建所需硬件,包含服務(wù)器、存放、網(wǎng)絡(luò)設(shè)備等數(shù)據(jù)倉庫處理方案依據(jù)企業(yè)數(shù)據(jù)類型和應(yīng)用方向選擇適當(dāng)數(shù)據(jù)存放處理方

4、案,包含數(shù)據(jù)庫等實施服務(wù)同時提供數(shù)據(jù)倉庫實施服務(wù),處理中小企業(yè)缺乏數(shù)據(jù)倉庫領(lǐng)域?qū)iT人才及維護這么一個團體高成本問題第7頁第8頁Data Warehouse as a Service服務(wù)交付方式多類型數(shù)據(jù)集成大數(shù)據(jù)存放數(shù)據(jù)訪問接口管理大數(shù)據(jù)“多類型數(shù)據(jù)集成”模塊將企業(yè)業(yè)務(wù)數(shù)據(jù)從企業(yè)IT系統(tǒng)中抽取出來,經(jīng)過清洗、規(guī)整、校驗等步驟,以及依據(jù)需要進行初步匯總,進入大數(shù)據(jù)存放;依據(jù)數(shù)據(jù)類型和處理需求,選擇適當(dāng)存放方案,包含RDBMS,Hadoop等;大數(shù)據(jù)存放中數(shù)據(jù)經(jīng)過訪問接口提供給企業(yè)IT部門,供企業(yè)各種使用方式;企業(yè)業(yè)務(wù)系統(tǒng)IT人員經(jīng)過接口使用數(shù)據(jù)第8頁第9頁Analytics as a Servi

5、ce分析平臺即服務(wù)為企業(yè)提供分析平臺SaaS服務(wù),基于企業(yè)托管數(shù)據(jù)倉庫提供報表、及各種分析工具,包含即席分析、數(shù)據(jù)挖掘、垂直處理方案等,幫助企業(yè)實現(xiàn)基于大數(shù)據(jù)智能決議和智能管理等。報表以服務(wù)方式提供企業(yè)所需KPI及反應(yīng)企業(yè)各方面運行情況指標(biāo)和報表,圖形化展現(xiàn)和各種訪問方式分析工具提供企業(yè)所需即席分析和數(shù)據(jù)挖掘等分析工具,使企業(yè)能夠靈活對業(yè)務(wù)進行分析垂直處理方案提供一些經(jīng)典垂直處理方案,如客戶統(tǒng)一視圖,精準(zhǔn)營銷等,針對企業(yè)經(jīng)典業(yè)務(wù)場景提供處理方案第9頁第10頁Analytics as a Service服務(wù)交付方式多類型數(shù)據(jù)集成大數(shù)據(jù)存放大數(shù)據(jù)分析平臺企業(yè)業(yè)務(wù)系統(tǒng)管理人員和業(yè)務(wù)分析人員經(jīng)過por

6、tal使用分析平臺報表分析工具垂直處理方案在企業(yè)基于大數(shù)據(jù)平臺建設(shè)數(shù)據(jù)倉庫基礎(chǔ)上,提供KPI&Dashboard,報表工具,分析工具,以及行業(yè)垂直處理方案;提供企業(yè)分析處理方案結(jié)合企業(yè)實際需求進行處理方案實施服務(wù);企業(yè)管理人員、業(yè)務(wù)分析人員等能夠經(jīng)過web、手機或其它移動設(shè)備訪問大數(shù)據(jù)平臺門戶,方便隨時了解企業(yè)關(guān)鍵指標(biāo)和進行深度業(yè)務(wù)分析;第10頁第11頁Intelligence as a Service 智能即服務(wù)基于中國聯(lián)通含有大數(shù)據(jù)資源,經(jīng)過去隱私化,為企業(yè)提供行業(yè)處理方案和市場及其它信息咨詢服務(wù)等。將中國聯(lián)通大數(shù)據(jù)資源轉(zhuǎn)化為商業(yè)價值,服務(wù)于各個行業(yè)企業(yè)客戶。行業(yè)處理方案為經(jīng)典行業(yè),如零售

7、、廣告、電子商務(wù)等行業(yè)企業(yè)客戶提供處理方案,處理這些企業(yè)運行中面臨經(jīng)典業(yè)務(wù)問題信息咨詢服務(wù)向企業(yè)客戶提供基于中國聯(lián)通大數(shù)據(jù)咨詢服務(wù)和分析匯報,經(jīng)過最權(quán)威數(shù)據(jù)反應(yīng)行業(yè)趨勢,使企業(yè)準(zhǔn)確判斷行業(yè)趨勢,預(yù)測未來走向第11頁第12頁Intelligence as a Service服務(wù)交付方式多類型數(shù)據(jù)集成大數(shù)據(jù)存放大數(shù)據(jù)分析平臺企業(yè)業(yè)務(wù)系統(tǒng)管理人員和業(yè)務(wù)分析人員經(jīng)過portal使用分析平臺行業(yè)處理方案行業(yè)分析匯報在大數(shù)據(jù)平臺基礎(chǔ)上面向企業(yè)客戶提供經(jīng)典行業(yè)處理方案,并經(jīng)過專業(yè)市場和管理咨詢服務(wù)團體提供咨詢服務(wù),依據(jù)實際業(yè)務(wù)需求,并充分利用大數(shù)據(jù)優(yōu)勢,快速開發(fā)需要業(yè)務(wù)問題處理方案;依據(jù)企業(yè)需求,基于大數(shù)據(jù)

8、資源,定制提供行業(yè)級分析匯報,為企業(yè)預(yù)測未來趨勢提供最具科學(xué)依據(jù)參考。第12頁第13頁議題大數(shù)據(jù)平臺概述大數(shù)據(jù)平臺架構(gòu)多類型數(shù)據(jù)集成大數(shù)據(jù)混合式存放架構(gòu)IaaS層:資源管理和模塊化數(shù)據(jù)中心PaaS層:大數(shù)據(jù)平臺SaaS層:行業(yè)處理方案 第13頁第14頁系統(tǒng)邊界大數(shù)據(jù)平臺中國聯(lián)通省級BOSS系統(tǒng)中國聯(lián)通省級CRM系統(tǒng)中國聯(lián)通電子渠道系統(tǒng)中國聯(lián)通集中化大數(shù)據(jù)平臺企業(yè)客戶業(yè)務(wù)系統(tǒng)網(wǎng)絡(luò)數(shù)據(jù)采集中國聯(lián)通用戶上網(wǎng)數(shù)據(jù)采集中國聯(lián)通信令數(shù)據(jù)采集系統(tǒng)點擊流數(shù)據(jù)采集S1S2S3S4S5S9S7S8I1I6I2I3中國聯(lián)通SMS/MMS等渠道I4I5S6第14頁第15頁源數(shù)據(jù)接口S1-S8接口名稱接口方向接口數(shù)據(jù)接

9、口方式S1中國聯(lián)通省級BOSS系統(tǒng)大數(shù)據(jù)平臺用戶資料、CDR、賬單、業(yè)務(wù)訂購等文件S2中國聯(lián)通省級CRM系統(tǒng)大數(shù)據(jù)平臺客服數(shù)據(jù)等文件S3中國聯(lián)通電子渠道系統(tǒng)大數(shù)據(jù)平臺業(yè)務(wù)辦理、詳單查詢、賬單查詢等用戶行為文件S4中國聯(lián)通用戶上網(wǎng)數(shù)據(jù)采集大數(shù)據(jù)平臺用戶手機上網(wǎng)行為數(shù)據(jù)數(shù)據(jù)流S5中國聯(lián)通信令數(shù)據(jù)采集系統(tǒng)大數(shù)據(jù)平臺信令數(shù)據(jù)數(shù)據(jù)流S6企業(yè)客戶業(yè)務(wù)系統(tǒng)大數(shù)據(jù)平臺業(yè)務(wù)數(shù)據(jù)文件、數(shù)據(jù)流S7網(wǎng)絡(luò)數(shù)據(jù)采集大數(shù)據(jù)平臺網(wǎng)頁內(nèi)容等數(shù)據(jù)S8點擊流數(shù)據(jù)采集大數(shù)據(jù)平臺用戶訪問外部網(wǎng)頁點擊流數(shù)據(jù)文件S9中國聯(lián)通集中化大數(shù)據(jù)平臺大數(shù)據(jù)平臺經(jīng)分數(shù)據(jù)文件第15頁第16頁互動接口接口名稱接口方向接口數(shù)據(jù)接口方式I1大數(shù)據(jù)平臺中國聯(lián)通

10、省級BOSS系統(tǒng)營銷相關(guān)信息等文件I2大數(shù)據(jù)平臺中國聯(lián)通省級CRM系統(tǒng)客戶特征視圖、客服優(yōu)化或營銷相關(guān)信息等文件I3大數(shù)據(jù)平臺中國聯(lián)通電子渠道系統(tǒng)大數(shù)據(jù)平臺業(yè)務(wù)推薦、內(nèi)容推薦等信息文件I4大數(shù)據(jù)平臺企業(yè)客戶業(yè)務(wù)系統(tǒng)業(yè)務(wù)處理方案相關(guān)信息文件、數(shù)據(jù)流I5大數(shù)據(jù)平臺中國聯(lián)通SMS/MMS等渠道營銷信息數(shù)據(jù)流I6大數(shù)據(jù)平臺中國聯(lián)通集中化大數(shù)據(jù)平臺支撐經(jīng)分系統(tǒng)數(shù)據(jù)文件第16頁第17頁三級平臺架構(gòu)一級大數(shù)據(jù)平臺二級大數(shù)據(jù)平臺省級數(shù)據(jù)集成平臺一級大數(shù)據(jù)平臺數(shù)據(jù)中心二級大數(shù)據(jù)平臺數(shù)據(jù)中心A接口機接口機MDCN廣域網(wǎng)MDCN廣域網(wǎng)數(shù)據(jù)中心BA省大數(shù)據(jù)采集和集成系統(tǒng)B省大數(shù)據(jù)采集和集成系統(tǒng)某省大數(shù)據(jù)采集和集成系統(tǒng)

11、第17頁第18頁三級平臺功效架構(gòu)內(nèi)部源系統(tǒng)數(shù)據(jù)接口網(wǎng)絡(luò)數(shù)據(jù)采集其它數(shù)據(jù)接口結(jié)構(gòu)化數(shù)據(jù)集成非結(jié)構(gòu)化數(shù)據(jù)集成流數(shù)據(jù)集成省級數(shù)據(jù)集成平臺二級大數(shù)據(jù)平臺二級區(qū)域大數(shù)據(jù)混合式存放與處理一級大數(shù)據(jù)存放平臺二級PaaS平臺二級SaaS平臺一級PaaS平臺一級SaaS平臺一級大數(shù)據(jù)平臺第18頁第19頁三級平臺功效架構(gòu)(續(xù))省級數(shù)據(jù)集成平臺主要對數(shù)據(jù)進行采集、清洗、轉(zhuǎn)換,以及初步匯總;對結(jié)構(gòu)化數(shù)據(jù),保持其初始數(shù)據(jù)粒度,并進行映射,統(tǒng)一數(shù)據(jù)模型;對非結(jié)構(gòu)化數(shù)據(jù),進行處理,轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù);對流數(shù)據(jù),進行實時處理;二級大數(shù)據(jù)平臺包含多個數(shù)據(jù)中心,主要對區(qū)域性數(shù)據(jù)進行加工,并向區(qū)域性企業(yè)提供處理方案;多數(shù)據(jù)中心覆蓋不

12、一樣區(qū)域,主要向該區(qū)域企業(yè)客戶提供服務(wù);向一級平臺提供接口,并接收一級平臺對數(shù)據(jù)處理需求調(diào)度;一級大數(shù)據(jù)平臺主要對數(shù)據(jù)進行跨區(qū)域匯總,并提供標(biāo)準(zhǔn)處理方案,供各區(qū)域在此基礎(chǔ)上定制各自處理方案;第19頁第20頁二級大數(shù)據(jù)平臺功效架構(gòu)Data SourceData Integration結(jié)構(gòu)化數(shù)據(jù)集成Big data Platform流數(shù)據(jù)集成非結(jié)構(gòu)化數(shù)據(jù)集成HadoopRDBMSColumn DBNOSQLAnalytic Capability用戶價值使用行為地理位置上網(wǎng)行為消費行為內(nèi)容偏好時間特征社交網(wǎng)絡(luò)影響力Vertical/Industry Solution實時營銷客戶忠誠度管理渠道選址內(nèi)容

13、定制推送電信行業(yè)處理方案廣電行業(yè)處理方案電子商務(wù)行業(yè)處理方案公共安全行業(yè)處理方案物聯(lián)網(wǎng)行業(yè)處理方案PortalWebMobileWidgetInfo Push省級數(shù)據(jù)集成平臺Web數(shù)據(jù)其它外部數(shù)據(jù)安全管理用戶管理生命周期管理資源管理System Management開發(fā)管理第20頁第21頁二級平臺各層功效數(shù)據(jù)集成層從省級數(shù)據(jù)集成平臺獲取已經(jīng)清洗和初步集成結(jié)構(gòu)化數(shù)據(jù),包含聯(lián)通內(nèi)部系統(tǒng)提供結(jié)構(gòu)化數(shù)據(jù),以及從非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化而來結(jié)構(gòu)化數(shù)據(jù);對非結(jié)構(gòu)化數(shù)據(jù)處理,轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),并在省級數(shù)據(jù)集成平臺之間及區(qū)域二級大數(shù)據(jù)平臺之間進行同時;對相關(guān)流數(shù)據(jù)進行處理;大數(shù)據(jù)存放層依據(jù)數(shù)據(jù)特點和應(yīng)用需求,將大數(shù)據(jù)

14、進行混合式存放和處理,滿足上層應(yīng)用需求;第21頁第22頁二級平臺各層功效(續(xù))大數(shù)據(jù)平臺分析能力層提供基礎(chǔ)分析能力和處理方案開發(fā)環(huán)境和運行環(huán)境;提供豐富基礎(chǔ)分析能力,能夠在此基礎(chǔ)上快速開發(fā)處理方案;處理方案層提供垂直處理方案和行業(yè)處理方案;處理方案能夠獨立開發(fā)也能夠在一級處理方案模板基礎(chǔ)上進行二次開發(fā);訪問門戶層提供各種訪問方式,包含web、移動設(shè)備、widget、SMS、MMS等;統(tǒng)一訪問入口和鑒權(quán);系統(tǒng)管理包含安全管理、用戶管理、開發(fā)管理、應(yīng)用生命周期管理、元數(shù)據(jù)管理等;第22頁第23頁集成架構(gòu)Data SourceData Integration結(jié)構(gòu)化數(shù)據(jù)集成Big data Platf

15、orm流數(shù)據(jù)集成非結(jié)構(gòu)化數(shù)據(jù)集成HadoopRDBMSColumn DBNOSQLAnalytic Capability用戶價值使用行為地理位置上網(wǎng)行為消費行為內(nèi)容偏好時間特征社交網(wǎng)絡(luò)影響力Vertical/Industry Solution實時營銷客戶忠誠度管理渠道選址內(nèi)容定制推送電信行業(yè)處理方案廣電行業(yè)處理方案電子商務(wù)行業(yè)處理方案公共安全行業(yè)處理方案物聯(lián)網(wǎng)行業(yè)處理方案PortalWebMobileWidgetInfo Push企業(yè)內(nèi)部系統(tǒng)數(shù)據(jù)Web數(shù)據(jù)其它外部數(shù)據(jù)安全管理用戶管理生命周期管理資源管理System Management資源管理多類型數(shù)據(jù)集成工具Hadoop、關(guān)系型數(shù)據(jù)庫、列數(shù)

16、據(jù)庫等各種數(shù)據(jù)存放處理方案大數(shù)據(jù)平臺垂直處理方案、行業(yè)處理方案大數(shù)據(jù)平臺、數(shù)據(jù)可視化工具大數(shù)據(jù)平臺第23頁第24頁議題大數(shù)據(jù)平臺概述大數(shù)據(jù)平臺架構(gòu)多類型數(shù)據(jù)集成大數(shù)據(jù)混合式存放架構(gòu)IaaS層:資源管理和模塊化數(shù)據(jù)中心PaaS層:大數(shù)據(jù)平臺SaaS層:行業(yè)處理方案 第24頁第25頁數(shù)據(jù)集成在大數(shù)據(jù)平臺中位置Data SourceData Integration結(jié)構(gòu)化數(shù)據(jù)集成Big data Platform流數(shù)據(jù)集成非結(jié)構(gòu)化數(shù)據(jù)集成HadoopRDBMSColumn DBNOSQLAnalytic Capability用戶價值使用行為地理位置上網(wǎng)行為消費行為內(nèi)容偏好時間特征社交網(wǎng)絡(luò)影響力Vert

17、ical/Industry Solution實時營銷客戶忠誠度管理渠道選址內(nèi)容定制推送電信行業(yè)處理方案廣電行業(yè)處理方案電子商務(wù)行業(yè)處理方案公共安全行業(yè)處理方案物聯(lián)網(wǎng)行業(yè)處理方案PortalWebMobileWidgetInfo Push省級數(shù)據(jù)集成平臺Web數(shù)據(jù)其它外部數(shù)據(jù)安全管理用戶管理生命周期管理資源管理System Management開發(fā)管理第25頁第26頁省級數(shù)據(jù)集成和二級大數(shù)據(jù)平臺數(shù)據(jù)集成關(guān)系內(nèi)部源系統(tǒng)數(shù)據(jù)接口網(wǎng)絡(luò)數(shù)據(jù)采集其它數(shù)據(jù)接口省級數(shù)據(jù)集成平臺二級大數(shù)據(jù)平臺結(jié)構(gòu)化數(shù)據(jù)集成數(shù)據(jù)獲取數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換非結(jié)構(gòu)化數(shù)據(jù)集成流數(shù)據(jù)集成數(shù)據(jù)獲取數(shù)據(jù)清洗數(shù)據(jù)匯總混合式大數(shù)據(jù)存放,結(jié)構(gòu)化數(shù)據(jù)處理

18、統(tǒng)一數(shù)據(jù)接口對于來自中國聯(lián)通內(nèi)部數(shù)據(jù),包含CDR等,在省級數(shù)據(jù)集成平臺僅進行清洗和轉(zhuǎn)換,在二級大數(shù)據(jù)平臺進行匯總;非結(jié)構(gòu)化數(shù)據(jù)處理在省級平臺進行簡單清洗和轉(zhuǎn)換,在二級大數(shù)據(jù)平臺轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù);第三方數(shù)據(jù)接口和數(shù)據(jù)集成統(tǒng)一在二級大數(shù)據(jù)平臺;數(shù)據(jù)獲取數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換非結(jié)構(gòu)化數(shù)據(jù)集成數(shù)據(jù)結(jié)構(gòu)化標(biāo)簽同時第三方數(shù)據(jù)集成數(shù)據(jù)獲取數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)匯總第26頁第27頁數(shù)據(jù)集成類型從實時性角度劃分實時或準(zhǔn)實時通慣用于支持時間敏感型應(yīng)用,要求數(shù)據(jù)以實時或準(zhǔn)實時方式處理,單位時間內(nèi)處理數(shù)據(jù)量較大;非實時用于支持非時間敏感型應(yīng)用,處理周期通常按日、周、月、年,以批量處理方式滿足這部分需求;從數(shù)據(jù)類型角度劃分結(jié)構(gòu)

19、化數(shù)據(jù)即行數(shù)據(jù),存放在數(shù)據(jù)庫里,能夠用二維表結(jié)構(gòu)來邏輯表示實現(xiàn)數(shù)據(jù),比如業(yè)務(wù)支撐系統(tǒng)產(chǎn)生CDR等數(shù)據(jù)等。非結(jié)構(gòu)化數(shù)據(jù),包含文本、圖片、圖像音頻、視頻信息等。不能以傳統(tǒng)數(shù)據(jù)庫進行存放和處理。第27頁第28頁大數(shù)據(jù)平臺支持多類型數(shù)據(jù)集成非實時結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集成12流數(shù)據(jù)集成第28頁第29頁傳統(tǒng)BI系統(tǒng)數(shù)據(jù)ETL存在難題高擴容成本數(shù)據(jù)處理類型數(shù)據(jù)處理性能當(dāng)前ETL工具產(chǎn)品主要是單機版串行系統(tǒng),任務(wù)無法并行實現(xiàn),在處理海量數(shù)據(jù)時,其性能、擴展性都存在瓶頸。所以,數(shù)據(jù)倉庫負擔(dān)了大部分轉(zhuǎn)換任務(wù)。伴隨數(shù)據(jù)量不停擴大,經(jīng)分數(shù)據(jù)倉庫也存在性能壓力大、擴展性瓶頸等問題。 存放成本和壓力比較高,僅能處理結(jié)構(gòu)化

20、數(shù)據(jù),大量網(wǎng)絡(luò)信令、互聯(lián)網(wǎng)信息等非結(jié)構(gòu)化數(shù)據(jù)存放和分析需求難以滿足 伴隨用戶數(shù)增加和新數(shù)據(jù)源引入,數(shù)據(jù)量也不停增加,ETL處理能力擴容成本很高第29頁第30頁基于云計算非實時并行數(shù)據(jù)集成特點2134分布式存放,高效并行處理能力支持垂直擴展和水平擴展,擴展能力近似線性多機容錯低廉軟硬件要求,能夠較大程度上降低硬件成本第30頁第31頁關(guān)鍵技術(shù)分布式存放采取分布式文件系統(tǒng)存放HDFS作為云計算數(shù)據(jù)集成系統(tǒng)存放系統(tǒng)。HDFS有著高容錯性特點,而且設(shè)計用來布署在低廉硬件上。而且它提供高傳輸率來訪問應(yīng)用程序數(shù)據(jù),適合那些有著超大數(shù)據(jù)集應(yīng)用程序。HDFS對外屏蔽了分布式存放細節(jié),如數(shù)據(jù)備份、失效節(jié)點恢復(fù)、并

21、發(fā)等,使用戶能夠像操作當(dāng)?shù)匚募到y(tǒng)一樣操作分布式文件系統(tǒng)。HDFS中一個文件一旦創(chuàng)建、寫入、關(guān)閉之后就不需要修改了。這個假定簡化了數(shù)據(jù)一致問題和高吞吐量數(shù)據(jù)訪問。支持并發(fā)讀寫文件。支持添加刪除文件等操作。支持數(shù)據(jù)備份,失效節(jié)點恢復(fù),高容錯性。數(shù)據(jù)備份數(shù)量為多份第31頁第32頁Hadoop概述Hadoop Distributed File System,簡稱HDFS,是一個分布式文件系統(tǒng)。HDFS有著高容錯性特點,而且設(shè)計用來布署在低廉硬件上。而且它提供高吞吐量來訪問應(yīng)用程序數(shù)據(jù),適合那些有著超大數(shù)據(jù)集應(yīng)用程序。HDFS放寬了POSIX要求這么能夠?qū)崿F(xiàn)流形式訪問文件系統(tǒng)中數(shù)據(jù)。第32頁第33頁關(guān)

22、鍵技術(shù)基于Map/Reduce并行計算Map/Reduce是一個用于大規(guī)模數(shù)據(jù)并行處理編程模型。指定一個Map(映射)函數(shù),用來把一組鍵值對映射成一組新鍵值對,指定并發(fā)Reduce(化簡)函數(shù),用來確保全部映射鍵值對中每一個共享相同鍵組。 第33頁第34頁并行計算流程提交任務(wù)依據(jù)輸入文件大小個數(shù)等確定子任務(wù)建立任務(wù)池子節(jié)點領(lǐng)取任務(wù)返回結(jié)果Map/Reduce運算模式當(dāng)?shù)貎?yōu)先運算策略:分配任務(wù)時采取當(dāng)?shù)貎?yōu)先標(biāo)準(zhǔn)含有可控性負載均衡:每個子節(jié)點依據(jù)本身硬件情況配置最大可執(zhí)行任務(wù)數(shù)第34頁第35頁基于云計算并行數(shù)據(jù)集成模塊功效架構(gòu)基于云計算并行數(shù)據(jù)集成由基礎(chǔ)功效層和集成環(huán)境層組成。圖、云計算并行ETL

23、系統(tǒng)功效架構(gòu)基礎(chǔ)功效包含: 數(shù)據(jù)抽取、數(shù)據(jù)處理、數(shù)據(jù)裝載和數(shù)據(jù)探索。數(shù)據(jù)抽?。菏菍⑼獠刻峁?shù)據(jù)抽取到ETL平臺提供分布式文件系統(tǒng)中,方便后續(xù)處理使用,包含文件抽取和數(shù)據(jù)庫抽取兩種方式。數(shù)據(jù)處理:實現(xiàn)了對分布式文件系統(tǒng)上數(shù)據(jù)進行并行化處理功效,包含數(shù)據(jù)清洗、轉(zhuǎn)換、匯總等功效。數(shù)據(jù)裝載:對于處理完成數(shù)據(jù),加載到對應(yīng)數(shù)據(jù)倉庫中。數(shù)據(jù)探索:數(shù)據(jù)探索是擴展功效,包含樣本數(shù)據(jù)查看和統(tǒng)計。主要是為了便于開發(fā)人員在開發(fā)環(huán)境進行設(shè)計時,提取部分樣本數(shù)據(jù)進行查看,以了解數(shù)據(jù)格式、數(shù)據(jù)分布特征和數(shù)據(jù)質(zhì)量相關(guān)情況。第35頁第36頁集成環(huán)境 集成環(huán)境包含:開發(fā)環(huán)境、執(zhí)行環(huán)境和管理環(huán)境。開發(fā)環(huán)境:是ETL處理程序開發(fā)者進

24、行操作主要環(huán)境。包含:數(shù)據(jù)定義、操作流開發(fā)和任務(wù)調(diào)度計劃開發(fā)等功效。執(zhí)行環(huán)境:執(zhí)行環(huán)境要能確保工作任務(wù)能正常、高效運行,并對處理過程進行監(jiān)控。管理環(huán)境:進行云計算并行ETL系統(tǒng)穩(wěn)定運行管理工作,包含:安全管理、日志管理、數(shù)據(jù)生命周期管理和元數(shù)據(jù)管理等。第36頁與傳統(tǒng)ETL比較 容錯性與擴展性第37頁第38頁物理布署主節(jié)點主節(jié)點備份節(jié)點用戶接入節(jié)點大數(shù)據(jù)存放子節(jié)點子節(jié)點子節(jié)點云化數(shù)據(jù)集成平臺數(shù)據(jù)庫FTP數(shù)據(jù)服務(wù)器第38頁第39頁將文本類非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)分詞庫爬取基準(zhǔn)url分類日志URL比對陌生URL已知URL手機上網(wǎng)行為分析熱詞庫爬取內(nèi)容,分詞,依據(jù)規(guī)則將分詞入分詞庫爬取內(nèi)容,與分詞

25、庫依據(jù)規(guī)則匹配,找出對應(yīng)url類別讀庫入庫匹配入庫入庫讀庫怎樣將提取到URL轉(zhuǎn)化為可解讀信息是手機上網(wǎng)行為分析關(guān)鍵。這里采取了baidu等搜索引擎先進文本解析技術(shù)。第39頁第40頁關(guān)鍵技術(shù)漢字分詞正向最大匹配法逆向最大匹配法最少切分漢字自然語言處理技術(shù) 漢字分詞技術(shù)屬于自然語言處理技術(shù)范圍,對于一句話,人能夠經(jīng)過自己知識來明白哪些是詞,哪些不是詞,但怎樣讓計算機也能了解?其處理過程就是分詞算法。 現(xiàn)有分詞算法可分為三大類:基于字符串匹配分詞方法、基于了解分詞方法和基于統(tǒng)計分詞方法。 基于字符串匹配分詞方法又叫做機械分詞方法,它是按照一定策略將待分析漢字串與一個充分大機器詞典中詞條進行配,若在詞

26、典中找到某個字符串,則匹配成功(識別出一個詞)。按照掃描方向不一樣,串匹配分詞方法能夠分為正向匹配和逆向匹配;按照不一樣長度優(yōu)先匹配情況,能夠分為最大(最長)匹配和最?。ㄗ疃蹋┢ヅ?;按照是否與詞性標(biāo)注過程相結(jié)合,又能夠分為單純分詞方法和分詞與標(biāo)注相結(jié)合一體化方法。通常采取幾個方法綜合算法。第40頁第41頁漢字分詞關(guān)鍵難點歧義識別歧義是指一樣一句話,可能有兩種或者更多切分方法。新詞識別新詞,專業(yè)術(shù)語稱為未登錄詞。也就是那些在字典中都沒有收錄過,但又確實能稱為詞那些詞。新詞中除了人名以外,還有機構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡稱、省略語等都是極難處理問題,而且這些又恰好是人們經(jīng)常使用詞,所以對于文本

27、解析來說,分詞系統(tǒng)中新詞識別十分主要。當(dāng)前新詞識別準(zhǔn)確率已經(jīng)成為評價一個分詞系統(tǒng)好壞主要標(biāo)志之一。分詞準(zhǔn)確性Text in hereText in here分詞速度云計算技術(shù)能夠很好處理準(zhǔn)確性和速度之間矛盾,使能夠確保準(zhǔn)確率復(fù)雜算法應(yīng)用成為可能第41頁第42頁關(guān)鍵技術(shù)基于數(shù)據(jù)挖掘文本分類,將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)文本分類經(jīng)過計算機對文本集按照一定分類體系或標(biāo)準(zhǔn)進行自動分類標(biāo)識文本分類普通包含了文本表示、 分類器選擇與訓(xùn)練、 分類結(jié)果評價與反饋等過程;其漢字本表示又可細分為文本預(yù)處理、索引和統(tǒng)計(分詞)、特征抽取等步驟;評價分類器測試結(jié)果分析第42頁第43頁文本分類關(guān)鍵挖掘算法 統(tǒng)計學(xué)習(xí)方

28、法需要一批由人工進行了準(zhǔn)確分類文檔作為學(xué)習(xí)材料(稱為訓(xùn)練集),計算機從這些文檔重挖掘出一些能夠有效分類規(guī)則,這個過程稱為訓(xùn)練,而總結(jié)出規(guī)則集合經(jīng)常被稱為分類器。訓(xùn)練完成之后,需要對計算機從來沒有見過文檔進行分類時,便使用這些分類器來進行。 慣用分類算法為:決議樹,Rocchio,樸素貝葉斯,神經(jīng)網(wǎng)絡(luò),支持向量機Rocchio算法樸素貝葉斯算法(Naive Bayes)Rocchio算法是文本分類最基本算法。思緒是把一個類別里樣本文檔各項取個平均值(比如把全部 “體育”類文檔中詞匯“籃球”出現(xiàn)次數(shù)取個平均值,再把“裁判”取個平均值,依次做下去),能夠得到一個新向量,形象稱之為“質(zhì)心”,質(zhì)心就成了

29、這個類別最具代表性向量表示。再有新文檔需要判斷時候,比較新文檔和質(zhì)心有多么相同(判斷他們之間距離)就能夠確定新文檔屬不屬于這個類。 改進Rocchio算法不但考慮屬于這個類別文檔(稱為正樣本),也考慮不屬于這個類別文檔數(shù)據(jù)(稱為負樣本),計算出來質(zhì)心盡可能靠近正樣本同時盡可能遠離負樣本。Rocchio算法不足是它做了兩個很致命假設(shè),使得它性能不佳。一是它認為一個類別文檔僅僅聚集在一個質(zhì)心周圍,實際情況往往不是如此(這么數(shù)據(jù)稱為線性不可分);二是它假設(shè)訓(xùn)練數(shù)據(jù)是絕對正確,因為它沒有任何定量衡量樣本是否含有噪聲機制,因而也就對錯誤數(shù)據(jù)毫無抵抗力。貝葉斯算法關(guān)注是文檔屬于某類別概率。文檔屬于某個類別

30、概率等于文檔中每個詞屬于該類別概率綜合表示式。而每個詞屬于該類別概率又在一定程度上 能夠用這個詞在該類別訓(xùn)練文檔中出現(xiàn)次數(shù)(詞頻信息)來粗略預(yù)計,因而使得整個計算過程成為可行。使用樸素貝葉斯算法時,在訓(xùn)練階段主要任務(wù)就是預(yù)計這些值。首先對于每一個樣本中元素要計算先驗概率。其次要計算一個樣本對于每個分類概率,概率最大分類將被采納。所以其中P(d| Ci)=P(w1|Ci) P(w2|Ci) P(wi|Ci) P(w1|Ci) P(wm|Ci) (式1)P(w|C)=元素w在分類為C樣本中出現(xiàn)次數(shù)/數(shù)據(jù)整理后樣本中元素總數(shù)(式2)第43頁第44頁文本分類關(guān)鍵挖掘算法(續(xù)) 支持向量機(Suppor

31、t Vector Machine)是Cortes和Vapnik于1995年首先提出,它在處理小樣本、非線性及高維模式識別中表現(xiàn)出許多特有優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合等其它機器學(xué)習(xí)問題中。支持向量機算法(Support Vector Machine)支持向量機方法是建立在統(tǒng)計學(xué)習(xí)理論VC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上,依據(jù)有限樣本信息在模型復(fù)雜性(即對特定訓(xùn)練樣本學(xué)習(xí)精度,Accuracy)和學(xué)習(xí)能力(即無錯誤地識別任意樣本能力)之間尋求最正確折衷,以期取得最好推廣能力(或稱泛化能力)。SVM 方法有很堅實理論基礎(chǔ),SVM 訓(xùn)練本質(zhì)是處理一個二次規(guī)劃問題(Quadruple Programmi

32、ng,指目標(biāo)函數(shù)為二次函數(shù),約束條件為線性約束最優(yōu)化問題),得到是全局最優(yōu)解,這使它有著其它統(tǒng)計學(xué)習(xí)技術(shù)難以比擬優(yōu)越性。 SVM 分類器文本分類效果很好,是最好分類器之一。同時使用核函數(shù)將 原始樣本空間向高維空間進行變換,能夠處理原始樣本線性不可分問題。其缺點是核函數(shù)選擇缺乏指導(dǎo),難以針對詳細問題選擇最正確核函數(shù);另外SVM 訓(xùn)練速度極大地受到訓(xùn)練集規(guī)模影響,計算開銷比較大。SVM分類器優(yōu)點在于通用性很好,且分類精度高、分類速度快、分類速度與訓(xùn)練樣本個數(shù)無關(guān),在查準(zhǔn)和查全率方面都略優(yōu)于普通算法。第44頁第45頁多類型數(shù)據(jù)集成非實時結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集成12流數(shù)據(jù)集成第45頁第46頁流數(shù)據(jù)特點

33、流數(shù)據(jù)是一組次序、大量、快速、連續(xù)抵達數(shù)據(jù)序列,普通情況下,數(shù)據(jù)流可被視為一個隨時間延續(xù)而無限增加動態(tài)數(shù)據(jù)集合。實時抵達次序獨立規(guī)模宏大極難二次處理流數(shù)據(jù)主流技術(shù)有開源S4分布式流計算平臺,Sybase提供Alteri事件流處理器, StreambaseCEP系統(tǒng)。第46頁第47頁流數(shù)據(jù)處理關(guān)鍵技術(shù)S4分布式流計算平臺S4是一個通用、可擴展性良好、含有部分容錯能力、支持插件分布式流計算平臺,在該平臺上程序員能夠很方便地開發(fā)處理流數(shù)據(jù)應(yīng)用。編鍵數(shù)據(jù)事件被分類、路由到各處理單元(Processing Elements,PEs),處理單元處理這些事件,做出以下事情之一或全部: (1)發(fā)出一個或多個可

34、能被其它PE處理事件。(2)公布結(jié)果。這種架構(gòu)類似提供了封裝和地址透明語義Actor模式,所以允許應(yīng)用在大規(guī)模并發(fā)同時暴露簡單編程接口給應(yīng)用開發(fā)者。S4是一個低延遲,彈性流數(shù)據(jù)處理引擎。S4是MapReduce 和 Actors模型衍生結(jié)合體。第47頁第48頁S4特點S4是一個通用、可擴展性良好、含有部分容錯能力、支持插件分布式流計算平臺,其設(shè)計特點有以下幾項:Actor 模型S4架構(gòu)采取了Actor模式,這種模式提供了封裝和地址透明語義,所以在允許應(yīng)用大規(guī)模并發(fā)同時,也提供了簡單編程接口。分布式對稱結(jié)構(gòu)S4參考了MapReduce模式。為了簡化布署和運維,從而到達更加好地穩(wěn)定性和擴展性,S4

35、采取了對等架構(gòu),集群中全部處理節(jié)點都是等同,沒有中心控制。這種架構(gòu)將使得集群擴展性很好,處理節(jié)點總數(shù)理論上無上限;同時,S4將沒有單點容錯問題。 可插入式架構(gòu)S4系統(tǒng)使用Java開發(fā),采取了極富層次模塊化編程,每個通用功效點都盡可能抽象出來作為通用模塊,而且盡可能讓各模塊實現(xiàn)可定制化。部分容錯能力設(shè)計基于Zookeeper服務(wù)集群管理層將會自動路由事件從失效節(jié)點到其它節(jié)點。除非顯式保留到持久性存放,不然節(jié)點故障時,節(jié)點上處理事件狀態(tài)會丟失。面對對象型節(jié)點間通信采取“Plain Old Java Objects”(POJOs)模式,應(yīng)用開發(fā)者不需要寫Schemas 或用哈希表來在節(jié)點間發(fā)送Tup

36、les。第48頁第49頁技術(shù)原理系統(tǒng)組成之Processing Nodes(PNs):PN是邏輯節(jié)點負責(zé)事件監(jiān)聽、輸入事件處理、發(fā)射輸出事件使用基于鍵值哈希函數(shù)發(fā)送事件(一個事件可能發(fā)給多個PE)PN使用PEC(Processing element container)依據(jù)event調(diào)用對應(yīng)PE特殊PE對象:無屬性值PE prototype,用作初始化和PE克隆每個keyed PE傳給有且僅有一個PN通信層:集群管理:進行failover、邏輯節(jié)點到物理節(jié)點映射、硬件失敗管理等提供JavaC+等API、支持部分網(wǎng)絡(luò)協(xié)議使用ZooKeeper進行協(xié)同(coordinate)管理系統(tǒng)組成之Prec

37、essing Elemens(PEs):基本計算單元;一個計算單元實例由四個部分標(biāo)識:功效functionality、接收(消耗)事件Types of vents(鍵值)屬性Keyed attributes、(屬性)值Value(of the ekyed attributes)特殊keyless PE無屬性PE,接收全部滿足類型限制事件,通常處于輸入層Standard PE:完成count、join、aggregate等功效。PE生存使用TTL控制。第49頁第50頁流數(shù)據(jù)處理其它商用產(chǎn)品IBM StreamBase CEPStreamBase復(fù)雜時間處理系統(tǒng)(CEP),使用管理高速、實時數(shù)據(jù)流

38、新技術(shù),是一個流數(shù)據(jù)處理引擎。StreamBase應(yīng)用Java開辟,IDE是基于Eclipse進行二次開辟,功效很是強大。StreamBase也供給了相當(dāng)多 Operator、Functor以及其它組件來幫助構(gòu)建應(yīng)用流程規(guī)則。HeartbeatsMonitoring第50頁第51頁流數(shù)據(jù)處理其它商用產(chǎn)品Sybase Aleri Event Stream Processor響應(yīng)快,延遲低實時處理并分析高速事件流事件處理延遲介于數(shù)毫秒或數(shù)秒之間風(fēng)險管理人員能夠?qū)崟r評定風(fēng)險、利潤和損失支持流分析和提醒當(dāng)?shù)?C/C+ 引擎、適配器和分析可提供極低延遲和高吞吐量公布-訂閱體系結(jié)構(gòu)可在整個集群節(jié)點中進行擴

39、展針對當(dāng)代多核、多線程 64 位硬件進行了優(yōu)化集成速度更加快最有效地利用開發(fā)資源,并實現(xiàn)新資本市場應(yīng)用,即最大程度地節(jié)約開發(fā)時間和資源業(yè)界最類似于 SQL 事件處理語言大量現(xiàn)成適配器可擴展性完整 SDK,包含 C/C+、C#、Java、Perl 和 Python可擴展用戶定義函數(shù) (UDF)快速測試和配置團體商機第51頁第52頁流數(shù)據(jù)集成應(yīng)用場景信令數(shù)據(jù)處理信令數(shù)據(jù)采集S4流數(shù)據(jù)處理平臺位置信息捕捉開關(guān)機行為捕捉通話行為捕捉短信行為捕捉手機上網(wǎng)行為捕捉靜態(tài)分析模型用戶特征、網(wǎng)絡(luò)情況動態(tài)觸發(fā)規(guī)則管理、渠道選擇、反饋捕捉.實時分析實時營銷網(wǎng)絡(luò)優(yōu)化. 信令數(shù)據(jù)因為數(shù)據(jù)量巨大,盡管蘊含巨大價值,在傳統(tǒng)

40、平臺上難以實時處理,而且硬件成本高昂。經(jīng)過流數(shù)據(jù)處理平臺能夠充分捕捉用戶實時行為,并進行實時處理,以支持實時營銷和分析等各種業(yè)務(wù)場景。第52頁第53頁議題大數(shù)據(jù)平臺概述大數(shù)據(jù)平臺架構(gòu)多類型數(shù)據(jù)集成大數(shù)據(jù)混合式存放架構(gòu)IaaS層:資源管理和模塊化數(shù)據(jù)中心PaaS層:大數(shù)據(jù)平臺SaaS層:行業(yè)處理方案 第53頁第54頁VDC虛擬數(shù)據(jù)中心IT合理化思緒Spare BaySpare Pool更少服務(wù)器數(shù)量更少機房占用更少機柜占用更少網(wǎng)絡(luò)端口占用無需高可用集群軟件跨平臺高可用統(tǒng)一平臺管理,大量節(jié)約學(xué)習(xí)管理成本利用更節(jié)能高密度服務(wù)器替換原有高能耗PC服務(wù)器和小型機服務(wù)器記外圍設(shè)備大量降低,降低整體設(shè)備機空

41、調(diào)能耗。利用一套統(tǒng)一云平臺管理系統(tǒng)管理全部服務(wù)器,取代了原有各種系統(tǒng)各種平臺高可用軟件利用簡單方便WEB進行當(dāng)?shù)丶斑h程管理。利用云平臺管理系統(tǒng)主動到偵測故障服務(wù)器自動關(guān)閉/隔離故障服務(wù)器自動遷移故障服務(wù)器特征文件自動恢復(fù)故障服務(wù)器應(yīng)用節(jié)約成本超低能耗簡化管理自動切換第54頁第55頁資源供給IaaS架構(gòu)相對于傳統(tǒng)IT架構(gòu)優(yōu)勢資源管理平臺資源需求IaaS 架構(gòu)低成本:使用高密度低能耗云服務(wù)器自動化工具降低管理和運維成本資源共享:動態(tài)、異構(gòu)、共享資源池打破應(yīng)用孤島更高資源利用率,節(jié)能減排易于布署和管理自動化資源布署和調(diào)度引擎異構(gòu)資源統(tǒng)一管理平臺高伸縮性和高可擴展性資源動態(tài)伸縮,削峰填谷,滿足高峰期資

42、源請求能夠處理大規(guī)模業(yè)務(wù)高可用性虛擬機遷移和HA等特征在降低傳統(tǒng)高可用投資同時確保系統(tǒng)可靠性自動故障檢測、告警與恢復(fù)第55頁第56頁經(jīng)過IaaS架構(gòu)實現(xiàn)IT資源合理化運行成本大幅減低,每臺服務(wù)器每年降低1000美金布署周期縮小,新系統(tǒng)布署時間提升240倍可靠性提升,故障恢復(fù)速度提升24倍,降低43小時宕機時間IDC 建設(shè)APP 業(yè)務(wù)服務(wù)存放陣列VDC 建設(shè)VPS 服務(wù)存放虛擬化資源分配調(diào)度能力提升服務(wù)器利用率虛擬化蔓延原因 1.版權(quán)2.空間3.時間4.管理150臺虛擬機因為虛擬機泛濫浪費50000到15000美元成本服務(wù)目錄管理資源搶占與回收虛擬機存放網(wǎng)絡(luò)應(yīng)用系統(tǒng)中間件物理機報表與計費服務(wù)實例

43、監(jiān)控資源分配自動布署第56頁第57頁IaaS架構(gòu)實現(xiàn):資源管理平臺和基礎(chǔ)設(shè)施云化資源管理平臺簡化管理,自動切換基礎(chǔ)設(shè)施云化節(jié)約成本,超低能耗Spare BaySpare Pool+第57頁第58頁1、資源管理平臺資源管理平臺能夠整合數(shù)據(jù)中心計算資源、存放資源和網(wǎng)絡(luò)資源,為IT資源統(tǒng)一整合、管理與分配提供有力技術(shù)支持,為各種業(yè)務(wù)提供所需資源快速布署、動態(tài)調(diào)度和彈性伸縮能力,并針對業(yè)務(wù)系統(tǒng)用戶提供自服務(wù)機制,實現(xiàn)資源最大化利用與服務(wù)最快交付。資源管理平臺致力于幫助企業(yè)構(gòu)建安全可靠、資源共享云數(shù)據(jù)中心,實現(xiàn)業(yè)務(wù)計算能力與IT資源剝離,讓底層IT基礎(chǔ)設(shè)施以服務(wù)方式按需提供,從而滿足業(yè)務(wù)多變性并促進業(yè)務(wù)

44、高速發(fā)展。第58頁第59頁資源管理平臺邏輯結(jié)構(gòu)資源管理平臺第59頁第60頁資源管理平臺功效模塊資源管理平臺虛擬化功效模塊安全功效模塊模板管理功效模塊監(jiān)控功效模塊運行管理功效模塊資源管理功效模塊存放功效模塊網(wǎng)絡(luò)功效模塊第60頁第61頁資源管理平臺特點資源實例全生命周期管理層級多租戶架構(gòu)與用戶自服務(wù)快速自動布署與自動彈性伸縮多數(shù)據(jù)中心異構(gòu)資源支持各種虛擬化系統(tǒng)+ 物理系統(tǒng)+ 小型機系統(tǒng) +為各種業(yè)務(wù)提供基礎(chǔ)設(shè)施資源自動布署配置第61頁第62頁資源管理平臺端到端工作流程普通用戶1、申請服務(wù)實例自服務(wù)門戶服務(wù)目錄4、服務(wù)實例操作(使用、更改、監(jiān)控、管理)2、審批流程3、資源分配 / 自動布署資源分配策

45、略:選擇最優(yōu)資源+資源實例全生命周期管理5、資源到期回收6、報表與計費計費賬單統(tǒng)計報表資源管理員1、添加資源2、創(chuàng)建服務(wù)模板虛擬機存放網(wǎng)絡(luò)小型機分區(qū)中間件物理機管理員普通用戶1、建立用戶組與用戶(角色、權(quán)限、配額)運行管理員2、公布服務(wù)模板提供服務(wù)目錄3、計費賬務(wù)管理3、資源監(jiān)控第62頁第63頁2、基礎(chǔ)設(shè)施云化倉儲式數(shù)據(jù)中心數(shù)據(jù)中心遷移數(shù)據(jù)中心改造倉儲式數(shù)據(jù)中心數(shù)據(jù)中心遷移數(shù)據(jù)中心合并破舊數(shù)據(jù)中心合并,成立新型綠色數(shù)據(jù)中心;改進區(qū)域數(shù)據(jù)中心,降低PUE值服務(wù)器采購向著節(jié)能,高效發(fā)展;第63頁第64頁基礎(chǔ)設(shè)施云化可降低能耗、節(jié)約電力成本每個月花銷 資料起源亞馬遜數(shù)據(jù)中心觀察: 每個月 $2.3

46、Million 相關(guān)電力成本開銷 當(dāng)服務(wù)器成本降低時電力成本展現(xiàn)持平或上升趨勢建設(shè)成本運維成本 建設(shè)投資中最大是電力系統(tǒng)設(shè)備,占50% 運行維護成本中,電費支出比重最高第64頁第65頁經(jīng)過基礎(chǔ)設(shè)施云化構(gòu)建綠色數(shù)據(jù)中心年份PUE 目標(biāo)IDC 建設(shè)/改造IDC電力成本3.0015 億2.430%13.2 億2.050%12 億1.670%9.75 億1.690%8.7 億PUE3.0通常PUE 2.4最正確實踐 PUE 2.0100%0%PUE 1.6制冷非IT電源消耗節(jié)約IT電源消耗溫度控制優(yōu)化風(fēng)量控制優(yōu)化壓力控制優(yōu)化智能冷卻 數(shù)據(jù)中心評定場地布置調(diào)整設(shè)備機柜優(yōu)化布線路由優(yōu)化場地優(yōu)化IT設(shè)備供電

47、改造電源路由改造_UPS系統(tǒng)改造_電源改造IT系統(tǒng)環(huán)境綠色數(shù)據(jù)中心第65頁第66頁新一代綠色智能數(shù)據(jù)中心:模塊化數(shù)據(jù)中心建設(shè)單元內(nèi)景透視圖建設(shè)單元外景鳥瞰圖模塊單元整體設(shè)計理念模塊模組DK建設(shè)單元(細胞)(組織)(個體)(社會)象生物發(fā)育一樣嚴謹、自然、合理建設(shè)基地倉儲式數(shù)據(jù)中心優(yōu)勢裝配流程化高度靈活性模塊化擴展低能耗高效快速布署低成本未來達成目標(biāo):建設(shè)高起點、大規(guī)模、低成本、節(jié)能數(shù)據(jù)中心,處理基地省份、關(guān)鍵城市機房需求 。經(jīng)過數(shù)據(jù)中心安全、穩(wěn)定、可靠運行,最終實現(xiàn)全網(wǎng)低成本高效運行。提升企業(yè)關(guān)鍵競爭力。第66頁第67頁議題大數(shù)據(jù)平臺概述大數(shù)據(jù)平臺架構(gòu)多類型數(shù)據(jù)集成大數(shù)據(jù)混合式存放架構(gòu)IaaS

48、層:資源管理和模塊化數(shù)據(jù)中心PaaS層:大數(shù)據(jù)平臺SaaS層:行業(yè)處理方案 第67頁第68頁大數(shù)據(jù)混合式存放架構(gòu)概述數(shù)據(jù)應(yīng)用混合式架構(gòu)存放和處理技術(shù)在大數(shù)據(jù)與傳統(tǒng)BI系統(tǒng)區(qū)分在于引入了大量新數(shù)據(jù)源,除了傳統(tǒng)結(jié)構(gòu)化批處理數(shù)據(jù)(如CDR等),還包含大量非結(jié)構(gòu)化數(shù)據(jù)和實時性很強流數(shù)據(jù),如文本、點擊流、信令數(shù)據(jù)等;這些新數(shù)據(jù)源引入促進了應(yīng)用發(fā)展,使一些原來無法實現(xiàn)應(yīng)用成為可能,包含實時數(shù)據(jù)分析、基于文本網(wǎng)絡(luò)數(shù)據(jù)分析等,這些應(yīng)用有著極為廣泛應(yīng)用場景;為了使大數(shù)據(jù)能夠有效支撐應(yīng)用,大數(shù)據(jù)存放和處理技術(shù)就尤為關(guān)鍵。針對不一樣類型數(shù)據(jù)采取不一樣處理技術(shù),并在大數(shù)據(jù)平臺上依據(jù)應(yīng)用需求進行整合,是大數(shù)據(jù)混合式存放

49、架構(gòu)關(guān)鍵目標(biāo),也是大數(shù)據(jù)平臺關(guān)鍵模塊。第68頁第69頁從傳統(tǒng)分析型和交易型系統(tǒng)通用數(shù)據(jù)庫逐步向分析型系統(tǒng)專用數(shù)據(jù)庫轉(zhuǎn)變傳統(tǒng)數(shù)據(jù)庫,如Oracle DB,IBM DB2等,是交易型系統(tǒng)和分析型系統(tǒng)通用數(shù)據(jù)庫,以行方式存放,在面向大數(shù)據(jù)處理能力上有擴展能力和處理性能瓶頸;為了滿足大數(shù)據(jù)處理需求,大數(shù)據(jù)處理逐步向列數(shù)據(jù)庫(包含一體機)和MPP數(shù)據(jù)庫(包含一體機)等分析型系統(tǒng)專用數(shù)據(jù)庫轉(zhuǎn)變。第69頁第70頁關(guān)鍵技術(shù)列數(shù)據(jù)庫列式數(shù)據(jù)庫是以列相關(guān)存放架構(gòu)進行數(shù)據(jù)存放數(shù)據(jù)庫,主要適合與批量數(shù)據(jù)處理和即席查詢。相對應(yīng)是行式數(shù)據(jù)庫,數(shù)據(jù)以行相關(guān)存放體系架構(gòu)進行空間分配,主要適合與小批量數(shù)據(jù)處理,慣用于聯(lián)機事務(wù)型

50、數(shù)據(jù)處理。傳統(tǒng)行式數(shù)據(jù)庫數(shù)據(jù)是按行存放沒有索引查詢使用大量I/O建立索引和物化視圖需要花費大量時間和資源面對查詢需求,數(shù)據(jù)庫必須大量膨脹才能滿足性能需求適合用于分析型系統(tǒng)列式數(shù)據(jù)庫數(shù)據(jù)是按列存放,每一列單獨存放數(shù)據(jù)既是索引只訪問查詢包括列,大量降低系統(tǒng)I/O每個列由一個線索來處理,滿足并發(fā)查詢數(shù)據(jù)類型一致,數(shù)據(jù)特征相同,便于壓縮第70頁第71頁列式數(shù)據(jù)庫與行式數(shù)據(jù)庫在分析型系統(tǒng)中性能對比第71頁第72頁列數(shù)據(jù)庫商用產(chǎn)品Sybase IQ第72頁第73頁列數(shù)據(jù)庫商用產(chǎn)品HP VerticaVertica 每一列數(shù)據(jù)獨立存放在磁盤上連續(xù)塊上。查詢數(shù)據(jù)時,Vertica只需要取得那些需要列,而不是被

51、選擇行全部列數(shù)據(jù)。因為大多數(shù)決議分析系統(tǒng)只是列子集,Vertica垂直分區(qū)方法極大地節(jié)約了Disk I/O。從而實現(xiàn)數(shù)據(jù)性能50 x-1000 x倍提升。Vertiaca 是一個基于列數(shù)據(jù)庫技術(shù)分析數(shù)據(jù)庫處理方案。第73頁第74頁關(guān)鍵技術(shù)MPP數(shù)據(jù)庫并行數(shù)據(jù)庫系統(tǒng)是新一代高性能數(shù)據(jù)庫系統(tǒng),是在MPP和集群并行計算環(huán)境基礎(chǔ)上建立數(shù)據(jù)庫系統(tǒng)。并行數(shù)據(jù)庫系統(tǒng)目標(biāo)是高性能和高可用性,經(jīng)過多個處理節(jié)點并行執(zhí)行數(shù)據(jù)庫任務(wù),提升整個數(shù)據(jù)庫系統(tǒng)性能和可用性。高性能并行數(shù)據(jù)庫系統(tǒng)基于多處理節(jié)點物理結(jié)構(gòu),將數(shù)據(jù)庫管理技術(shù)與并行處理技術(shù)有機結(jié)合,來實現(xiàn)系統(tǒng)高性能。高可用性高可用性能夠同時在硬件和軟件兩個方面提供保障

52、。在硬件方面,經(jīng)過冗余處理節(jié)點、存放設(shè)備、網(wǎng)絡(luò)鏈路等硬件辦法,能夠確保當(dāng)系統(tǒng)中某節(jié)點部分或完全失效時,其它硬件設(shè)備能夠接手其處理,對外提供連續(xù)服務(wù)。在軟件方面,經(jīng)過狀態(tài)監(jiān)控與跟蹤、相互備份、日志等技術(shù)伎倆,能夠確保當(dāng)前系統(tǒng)中某節(jié)點部分或完全失效時,由它所進行處理或由它所掌控資源能夠無損失或基本無損失地轉(zhuǎn)移到其它節(jié)點,并由其它節(jié)點繼續(xù)對外提供服務(wù)。第74頁第75頁Share-nothing 架構(gòu)常見OLTP數(shù)據(jù)庫系統(tǒng)經(jīng)常采取shared everything架構(gòu)來做集群,比如oracle RAC架構(gòu),數(shù)據(jù)存放共享,節(jié)點間內(nèi)存能夠相互訪問。shared nothing架構(gòu)(MPP),主機,操作系統(tǒng)

53、,內(nèi)存,存放都是自我控制,不存在共享。主要由master host,segment host,interconnect三大部分組成。MPP數(shù)據(jù)庫經(jīng)過將數(shù)據(jù)分布到多個節(jié)點上來實現(xiàn)規(guī)模數(shù)據(jù)存放。數(shù)據(jù)庫瓶頸經(jīng)常發(fā)生在I/O方面,mpp數(shù)據(jù)庫采取分而治之方法,將數(shù)據(jù)規(guī)律分布到節(jié)點上,充分利用segment主機IO能力,以此讓系統(tǒng)到達最大IO能力(主要是帶寬)。每個表都是分布在全部節(jié)點上。Master host首先經(jīng)過對表某個或多個列進行hash運算,然后依據(jù)hash結(jié)果將表數(shù)據(jù)分布到segment host中。整個過程中master host不存放任何用戶數(shù)據(jù),只是對客戶端進行訪問控制和存放表分布邏輯

54、元數(shù)據(jù)。第75頁第76頁商用產(chǎn)品IBM Netezza ApplianceAdvanced AnalyticsLoaderETLBIApplicationsFPGAMemoryCPUFPGAMemoryCPUFPGAMemoryCPUHostsHostDiskEnclosuresS-BladesNetworkFabricODBC/JDBCNetezza系統(tǒng)性能主要優(yōu)勢來自其獨特AMPP處理架構(gòu),該架構(gòu)將SMP前端與一個無共享MPP后端相結(jié)合完成查詢處理。該架構(gòu)將經(jīng)過精心挑選各個組件集成在一起組成了平衡整體系統(tǒng)。經(jīng)過每個處理組 件對多個數(shù)據(jù)流進行操作,并盡早過濾掉多出數(shù)據(jù)。最多可有多達一千多個M

55、PP處理組件共同工作,有效 分解和處理工作負荷。 第76頁第77頁商用產(chǎn)品EMC Greenplum大規(guī)模并行處理MPP無共享架構(gòu)普通服務(wù)器平臺(服務(wù)器、網(wǎng)絡(luò))經(jīng)過軟件提升處理能力第77頁第78頁大數(shù)據(jù)存放和處理關(guān)鍵技術(shù)HadoopHadoop Distributed File System,簡稱HDFS,是一個分布式文件系統(tǒng)。HDFS有著高容錯性特點,而且設(shè)計用來布署在低廉硬件上。而且它提供高吞吐量來訪問應(yīng)用程序數(shù)據(jù),適合那些有著超大數(shù)據(jù)集應(yīng)用程序。HDFS放寬了POSIX要求這么能夠?qū)崿F(xiàn)流形式訪問文件系統(tǒng)中數(shù)據(jù)。第78頁第79頁大數(shù)據(jù)存放和處理關(guān)鍵技術(shù)NoSQLNoSQL,指是非關(guān)系型數(shù)據(jù)

56、庫。NoSQL致力于處理計算機體系結(jié)構(gòu)在數(shù)據(jù)存放方面龐大水平擴展需求。Google BigTable 和Amazon Dynamo使用就是NoSQL型數(shù)據(jù)庫。主流NoSQL開源技術(shù)和產(chǎn)品有Membase,MongoDB。一些互聯(lián)網(wǎng)巨頭也開發(fā)了自己數(shù)據(jù)庫。Hypertable是一個開源、高性能、可伸縮數(shù)據(jù)庫,它采取與GoogleBigtable相同模型。Apache Cassandra是一套開源分布式Key-Value存放系統(tǒng)。它最初由Facebook開發(fā),用于儲存尤其大數(shù)據(jù)。Facebook當(dāng)前在使用此系統(tǒng)。第79頁第80頁NoSQL產(chǎn)品Membase Membase輕易安裝、操作,能夠從單節(jié)

57、點方便擴展到集群,而且為memcached(有線協(xié)議兼容性)實現(xiàn)了即插即用功效,在應(yīng)用方面為開 發(fā)者和經(jīng)營者提供了一個比較低門檻。做為緩存處理方案,Memcached已經(jīng)在不一樣類型領(lǐng)域(尤其是大容量Web應(yīng)用)有了廣泛使用,其中 Memcached部分基礎(chǔ)代碼被直接應(yīng)用到了Membase服務(wù)器前端。Membase 是 NoSQL 家族一個新重量級組員。Membase是開源項目,源代碼采取了Apache2.0使用許可。主要特點兼容Memcache訪問協(xié)議,text、binary兩種協(xié)議都支持功效好,經(jīng)過添加效勞器來橫向擴展效勞,同時效勞才能根本是線性添加,能夠滿足業(yè)務(wù)需求。安裝方便、使用簡單、

58、擴展輕易,管理界面美觀。過時數(shù)據(jù)可自動刪除,有可持久化存放方案優(yōu)點。支持跨機房Membase集群,支持多數(shù)據(jù)中心。第80頁第81頁NOSQL產(chǎn)品MongoDBMongoDB是一個介于關(guān)系數(shù)據(jù)庫和非關(guān)系數(shù)據(jù)庫之間產(chǎn)品,是非關(guān)系數(shù)據(jù)庫當(dāng)中功效最豐富,最像關(guān)系數(shù)據(jù)庫產(chǎn)品。MongoDB是一個基于分布式文件存放數(shù)據(jù)庫。由C+語言編寫。意在為WEB應(yīng)用提供可擴展高性能數(shù)據(jù)存放處理方案。特點:高性能、易布署、易使用,存放數(shù)據(jù)非常方便。第81頁第82頁大數(shù)據(jù)存放和處理關(guān)鍵技術(shù)流數(shù)據(jù)處理引擎實時抵達次序獨立規(guī)模宏大極難二次處理流數(shù)據(jù)流數(shù)據(jù)處理技術(shù)主要包含開源S4平臺,以及商用產(chǎn)品IBM StreamBase

59、CEP等;S4是一個通用、可擴展性良好、含有部分容錯能力、支持插件分布式流計算平臺,在該平臺上程序員能夠很方便地開發(fā)處理流數(shù)據(jù)應(yīng)用;IBM StreamBase復(fù)雜時間處理系統(tǒng)(CEP),使用管理高速、實時數(shù)據(jù)流新技術(shù),是一個流數(shù)據(jù)處理引擎。StreamBase應(yīng)用Java開辟,IDE是基于Eclipse進行二次開辟,功效很是強大。StreamBase也供給了相當(dāng)多 Operator、Functor以及其它組件來幫助構(gòu)建應(yīng)用流程規(guī)則。第82頁第83頁大數(shù)據(jù)平臺邏輯數(shù)據(jù)架構(gòu)接口數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)(CDR、賬務(wù)、用戶資料等)文本數(shù)據(jù)(網(wǎng)頁內(nèi)容、客服統(tǒng)計等)流數(shù)據(jù)(信令數(shù)據(jù))數(shù)據(jù)集成清洗轉(zhuǎn)換結(jié)構(gòu)化數(shù)據(jù)

60、非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化 實時處理大數(shù)據(jù)存放和處理平臺客戶級匯總中間級匯總匯總指標(biāo)級匯總客戶級關(guān)聯(lián)中間級關(guān)聯(lián)關(guān)聯(lián)指標(biāo)級關(guān)聯(lián)位置模型挖掘模型特征模型規(guī)則管理應(yīng)用數(shù)據(jù)報表類專題類即席分析類實時分析類第83頁第84頁混合式存放架構(gòu)接口數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)(CDR、賬務(wù)、用戶資料等)文本數(shù)據(jù)(網(wǎng)頁內(nèi)容、客服統(tǒng)計等)流數(shù)據(jù)(信令數(shù)據(jù))數(shù)據(jù)集成清洗轉(zhuǎn)換結(jié)構(gòu)化數(shù)據(jù) 非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化 實時處理大數(shù)據(jù)存放和處理平臺客戶級匯總中間級匯總匯總指標(biāo)級匯總客戶級關(guān)聯(lián)中間級關(guān)聯(lián)關(guān)聯(lián)指標(biāo)級關(guān)聯(lián)位置模型挖掘模型特征模型實時規(guī)則管理應(yīng)用數(shù)據(jù)報表類專題類即席分析類實時分析類Hadoop流數(shù)據(jù)處理列數(shù)據(jù)庫/MPP數(shù)據(jù)庫第84頁第

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論