大云大數(shù)據(jù)平臺(tái)及應(yīng)用_第1頁(yè)
大云大數(shù)據(jù)平臺(tái)及應(yīng)用_第2頁(yè)
大云大數(shù)據(jù)平臺(tái)及應(yīng)用_第3頁(yè)
大云大數(shù)據(jù)平臺(tái)及應(yīng)用_第4頁(yè)
大云大數(shù)據(jù)平臺(tái)及應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

“大云”大數(shù)據(jù)平臺(tái)及應(yīng)用中國(guó)移動(dòng)通信研究院

郭磊濤2013年11月電信運(yùn)營(yíng)商具有更多的數(shù)據(jù)移動(dòng)互聯(lián)網(wǎng)服務(wù)商電信運(yùn)營(yíng)商SNS博客電商視頻圖片音樂(lè)簽到問(wèn)答點(diǎn)評(píng)優(yōu)惠券專業(yè)SNS微博消息論壇2G、3G、4G、WIFI除了像移動(dòng)互聯(lián)網(wǎng)服務(wù)商那樣關(guān)注“結(jié)果”,電信運(yùn)營(yíng)商還需要關(guān)注“過(guò)程”!新聞地圖典型的應(yīng)用場(chǎng)景之一:大數(shù)據(jù)批處理系統(tǒng)目標(biāo):針對(duì)海量結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的ETL操作。從各種數(shù)據(jù)源獲取數(shù)據(jù),并進(jìn)行清洗、轉(zhuǎn)換、去重、缺值補(bǔ)充等操作。通常采用MapReduce等并行計(jì)算技術(shù)。技術(shù)要求舉例:針對(duì)海量數(shù)據(jù)實(shí)時(shí)離線批處理運(yùn)算(ETL),通常時(shí)間要求較為寬松,如幾個(gè)小時(shí)級(jí)別。數(shù)據(jù)ETL運(yùn)算種類多,靈活性強(qiáng),通常具有很強(qiáng)的定制化特征數(shù)據(jù)通常需要導(dǎo)出到數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù),提供報(bào)表能力需要靈活的調(diào)度的系統(tǒng),便于系統(tǒng)需要和其他業(yè)務(wù)系統(tǒng)混合部署,提高資源利用水平例圖:分時(shí)段匯總的業(yè)務(wù)場(chǎng)景典型的應(yīng)用場(chǎng)景之二:大數(shù)據(jù)查詢系統(tǒng)目標(biāo):針對(duì)海量結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的精確定位、區(qū)段掃描等條件查詢操作,用于網(wǎng)絡(luò)優(yōu)化、帳詳單查詢、故障定位、搜索引擎等業(yè)務(wù)場(chǎng)景。采集預(yù)處理計(jì)算1計(jì)算2融合處理大數(shù)據(jù)庫(kù)大數(shù)據(jù)庫(kù)原始數(shù)據(jù)消息營(yíng)業(yè)廳系統(tǒng)營(yíng)業(yè)廳1營(yíng)業(yè)廳2營(yíng)業(yè)廳3營(yíng)業(yè)廳4例圖:帳詳單查詢系統(tǒng)技術(shù)要求舉例:針對(duì)海量數(shù)據(jù)實(shí)施交互式查詢,返回時(shí)間在1秒鐘左右。針對(duì)海量大數(shù)據(jù)規(guī)模實(shí)施查詢,數(shù)據(jù)規(guī)??梢赃_(dá)到100TB-10PB規(guī)模。數(shù)據(jù)插入通常采用批處理方式,而查詢通常帶有條件,通常返回結(jié)果數(shù)較少系統(tǒng)具備較高的并發(fā)性,支持大量用戶同時(shí)查詢,依然可以在給定時(shí)間出口返回結(jié)果數(shù)據(jù)具有很高的可靠性和可用性要求典型的應(yīng)用場(chǎng)景之三:大數(shù)據(jù)挖掘系統(tǒng)目標(biāo):針對(duì)海量結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的進(jìn)行深度挖掘。通常需要根據(jù)業(yè)務(wù)需求設(shè)計(jì)模型、訓(xùn)練集并選擇算法(分類、聚類、關(guān)聯(lián)、非結(jié)構(gòu)化)。通常會(huì)使用各種分布式數(shù)據(jù)挖掘工具和算法人群1其它人群例圖:客戶分類識(shí)別應(yīng)用技術(shù)要求舉例:針對(duì)海量數(shù)據(jù)實(shí)施全量數(shù)據(jù)挖掘,規(guī)模達(dá)到10TB-PB規(guī)模。處理時(shí)間沒(méi)有嚴(yán)格要求,通常達(dá)到幾個(gè)小時(shí),甚至更長(zhǎng)時(shí)間需要支持各種并行計(jì)算模式,如MapReduce、BSP等數(shù)據(jù)挖掘系統(tǒng)需要較好的用戶界面,用戶通常具備業(yè)務(wù)知識(shí),但是未必具備開發(fā)經(jīng)驗(yàn)系統(tǒng)可以和其他系統(tǒng)混合部署數(shù)據(jù)具有一定的可靠性和可用性要求中國(guó)移動(dòng)“大云”

云計(jì)算平臺(tái)IT基礎(chǔ)資源對(duì)象存儲(chǔ)BC-oNest數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)HugeTable系統(tǒng)監(jiān)控和管理CloudMaster平臺(tái)安全管理CloudSecurity并行數(shù)據(jù)挖掘工具集BC-PDM文件中間件BC-NAS并行數(shù)據(jù)抽取轉(zhuǎn)換BC-ETLEMailIDC服務(wù)…經(jīng)分KPI集中運(yùn)算結(jié)算系統(tǒng)云計(jì)算資源池系統(tǒng)搜索引擎BC-SE經(jīng)分系統(tǒng)ETL/DM信令系統(tǒng)物聯(lián)網(wǎng)應(yīng)用彈性計(jì)算BC-EC彈性塊存儲(chǔ)BC-Blockstore商務(wù)智能平臺(tái)數(shù)據(jù)管理/分析類計(jì)算/存儲(chǔ)資源池BC-Hadoop數(shù)據(jù)存儲(chǔ)和分析平臺(tái)IaaS產(chǎn)品PaaS產(chǎn)品“大云”產(chǎn)品K-V數(shù)據(jù)庫(kù)BC-kvDB消息隊(duì)列BC-Queue實(shí)時(shí)交易類分布式內(nèi)存引擎

BC-DME分布式SQL數(shù)據(jù)庫(kù)BC-RDBBC-BSP數(shù)據(jù)并行框架能力開放平臺(tái)其他平臺(tái)中間件數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)HugeTable并行數(shù)據(jù)挖掘工具集BC-PDMBC-Hadoop數(shù)據(jù)存儲(chǔ)和分析平臺(tái)K-V數(shù)據(jù)庫(kù)BC-kvDB分布式SQL數(shù)據(jù)庫(kù)BC-RDBBC-BSP數(shù)據(jù)并行框架BC-Hadoop:對(duì)開源Hadoop/HBase進(jìn)行擴(kuò)展和增強(qiáng),為大云其他組件提供基本的存儲(chǔ)計(jì)算能力?;贖adoop1.0的NameNode/JobTrackerHA,HBaseCoprocessor優(yōu)化,管理工具整合等Hadoop數(shù)據(jù)存儲(chǔ)與分析RS級(jí)別結(jié)果匯聚線程池管理ZookeeperJobTracker(VirtualIP)JT-0001JT-0002JT-0003基于Ambari的Hadoop監(jiān)控管理工具ApacheAmbari是對(duì)Hadoop進(jìn)行部署、監(jiān)控和管理的開源項(xiàng)目Puppet部署hadoop服務(wù)Ganglia收集hadoop服務(wù)數(shù)據(jù)與生成圖表Nagios監(jiān)控集群服務(wù)狀態(tài)并報(bào)警基于Ambari的Hadoop監(jiān)控管理工具TODO:啟用MRv1JT/HMasterHA刪除節(jié)點(diǎn)節(jié)點(diǎn)異構(gòu)配置(Ambari-3531)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)(HugeTable)基于Hadoop的海量結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng),利用低成本硬件提供高性能的數(shù)據(jù)加載、索引查詢和并行分析能力,對(duì)外提供易于應(yīng)用集成的數(shù)據(jù)訪問(wèn)接口大容量:支持PB級(jí)別的數(shù)據(jù)存儲(chǔ)能力低成本:基于PC架構(gòu),不需要外接集中存儲(chǔ)設(shè)備高性能:秒級(jí)別索引查詢、數(shù)據(jù)并行掃描可靠性:數(shù)據(jù)冗余備份永不丟失可定制:根據(jù)應(yīng)用需求選擇索引類型及存儲(chǔ)引擎接口豐富:提供標(biāo)準(zhǔn)的JDBC/ODBC/SQL接口;提串行Scan接口和分布式MapReduce接口外圍工具:支持?jǐn)?shù)據(jù)、性能、故障、配置、日志管理功能;支持外部數(shù)據(jù)并行加載;支持?jǐn)?shù)據(jù)快速備份、恢復(fù)單條查詢等(少量數(shù)據(jù))實(shí)時(shí)性要求高的分析查詢SQL(數(shù)據(jù)量滿足impala內(nèi)存限制條件)

復(fù)雜SQL語(yǔ)句或者掃描大表全表(大規(guī)模數(shù)據(jù)聚合查詢等占用空間超過(guò)了impala內(nèi)存能力)圖計(jì)算平臺(tái)(BC-BSP)BC-BSP:針對(duì)社交網(wǎng)絡(luò)分析、用戶精準(zhǔn)營(yíng)銷、搜索引擎PageRank計(jì)算等圖計(jì)算領(lǐng)域的數(shù)據(jù)挖掘需求而研發(fā)的并行計(jì)算框架,針對(duì)迭代計(jì)算,計(jì)算效率優(yōu)于MapReduce框架/cmri/并行數(shù)據(jù)挖掘工具集(BC-PDM)任務(wù)任務(wù)分解…M1M2MiR1Rj子任務(wù)block1數(shù)據(jù)分割block1block1block2block2block2block3block3block3M1M2MiR1R2…R2…RjBC-BSPHugeTableMapReduce并行數(shù)據(jù)挖掘各種海量數(shù)據(jù)處理、挖掘應(yīng)用數(shù)據(jù)交換并行數(shù)據(jù)探索WebGUI/工作流引擎SQL腳本CLI命令行應(yīng)用用戶權(quán)限管理數(shù)據(jù)交換:支持與RDB直接交換數(shù)據(jù)、支持CSV格式數(shù)據(jù)數(shù)據(jù)ETL:支持?jǐn)?shù)據(jù)清洗、轉(zhuǎn)換、集成等7大類45種ETL數(shù)據(jù)探索:支持?jǐn)?shù)據(jù)統(tǒng)計(jì)、變量分析、分布特征探索等數(shù)據(jù)挖掘算法:支持分類、聚類、關(guān)聯(lián)分析等3大類共15種算法社交網(wǎng)絡(luò)分析:支持網(wǎng)絡(luò)特征分析、社團(tuán)發(fā)現(xiàn)和演化、社團(tuán)展示等支持SaaS服務(wù)模式:Web瀏覽器使用,并可支持應(yīng)用共享支持豐富的用戶UI:

支持Web圖形化方式創(chuàng)建數(shù)據(jù)分析邏輯,支持SQL腳本方式,支持CLI命令行方式支持二次開發(fā):JavaAPI、WebServiceBC-PDM:支持SaaS模式的海量數(shù)據(jù)并行處理、分析與挖掘系統(tǒng)。適用于經(jīng)營(yíng)決策、用戶行為分析、精準(zhǔn)營(yíng)銷、網(wǎng)絡(luò)優(yōu)化、移動(dòng)互聯(lián)網(wǎng)等領(lǐng)域的智能數(shù)據(jù)分析與挖掘應(yīng)用主要特點(diǎn)并行數(shù)據(jù)ETL社交網(wǎng)絡(luò)分析廣域網(wǎng)K-V數(shù)據(jù)庫(kù)(BC-KVDB)BC-KVDB:根據(jù)訂購(gòu)關(guān)系存儲(chǔ)、用戶個(gè)人信息存儲(chǔ)等應(yīng)用需求和相關(guān)規(guī)范,增強(qiáng)系統(tǒng)操作維護(hù)功能、優(yōu)化性能并提高系統(tǒng)可靠性。提供一個(gè)高并發(fā)、高可擴(kuò)展的鍵值對(duì)存儲(chǔ)系統(tǒng)。數(shù)據(jù)連續(xù)范圍分區(qū),類似HBase不依賴DFS,數(shù)據(jù)直接讀寫本地多個(gè)磁盤QueryCache&BlockCache通過(guò)Region數(shù)據(jù)的多副本,保證數(shù)據(jù)的高可靠實(shí)現(xiàn)多個(gè)主節(jié)點(diǎn)的互備元數(shù)據(jù)與用戶數(shù)據(jù)隔離存儲(chǔ)實(shí)現(xiàn)用戶認(rèn)證和授權(quán)SQL數(shù)據(jù)庫(kù)(BC-RDB)BC-RDB是基于MySQL的分布式數(shù)據(jù)庫(kù),系統(tǒng)由多個(gè)安全組(safegroup)和一個(gè)分布式事務(wù)管理器組成。采用“兩階段提交協(xié)議即2PC”來(lái)實(shí)現(xiàn)分布式事務(wù)“大云”應(yīng)用案例之一:大數(shù)據(jù)ETL業(yè)務(wù)流程現(xiàn)網(wǎng)時(shí)間(min)云ETL時(shí)間(min)加速比例時(shí)間減少絕對(duì)值(小時(shí))1465011534.0358.32270015711.7218.88210012931.6213.49180011501.5610.810150012251.224.6114903251.512.8現(xiàn)網(wǎng)3.2天,減少為0.8天節(jié)約近2.5天現(xiàn)網(wǎng)90分鐘減少為10分鐘僅為1/10現(xiàn)網(wǎng)時(shí)間(min)云ETL時(shí)間(min)MR時(shí)間云ETL腳本加速比例時(shí)間減少絕對(duì)值(小時(shí))流程39010無(wú)9.001.3流程413059403.251.5流程56014無(wú)4.280.8流程68025無(wú)2.500.9流程713047無(wú)2.761.9滾詳單類出月表類帳詳單系統(tǒng)存儲(chǔ)數(shù)量急劇膨脹,傳統(tǒng)架構(gòu)難以滿足當(dāng)前業(yè)務(wù)運(yùn)營(yíng)要求,系統(tǒng)面臨擴(kuò)容難題“大云”應(yīng)用案例之二:大數(shù)據(jù)查詢業(yè)務(wù)采集預(yù)處理計(jì)算1計(jì)算2融合處理HugeTable表2HugeTable表1原始數(shù)據(jù)消息營(yíng)業(yè)廳系統(tǒng)營(yíng)業(yè)廳1營(yíng)業(yè)廳2營(yíng)業(yè)廳3營(yíng)業(yè)廳4某地市應(yīng)用,每個(gè)月帳詳單總體數(shù)據(jù)量10TB話單通過(guò)HTLoad工具批量加載帳詳單查詢通過(guò)SQL或Native

API接口進(jìn)行復(fù)雜分析則通過(guò)MR接口進(jìn)行HugeTable支持?jǐn)?shù)據(jù)按照J(rèn)oinkey預(yù)先進(jìn)行數(shù)據(jù)劃分,減少join過(guò)程中數(shù)據(jù)在節(jié)點(diǎn)間的拷貝應(yīng)用效果:加載:支持?jǐn)?shù)據(jù)并行加載,數(shù)據(jù)加載保證完整性和可靠性;查

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論