大云大數(shù)據(jù)平臺及應用_第1頁
大云大數(shù)據(jù)平臺及應用_第2頁
大云大數(shù)據(jù)平臺及應用_第3頁
大云大數(shù)據(jù)平臺及應用_第4頁
大云大數(shù)據(jù)平臺及應用_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

“大云”大數(shù)據(jù)平臺及應用中國移動通信研究院

郭磊濤2013年11月電信運營商具有更多的數(shù)據(jù)移動互聯(lián)網(wǎng)服務商電信運營商SNS博客電商視頻圖片音樂簽到問答點評優(yōu)惠券專業(yè)SNS微博消息論壇2G、3G、4G、WIFI除了像移動互聯(lián)網(wǎng)服務商那樣關注“結(jié)果”,電信運營商還需要關注“過程”!新聞地圖典型的應用場景之一:大數(shù)據(jù)批處理系統(tǒng)目標:針對海量結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的ETL操作。從各種數(shù)據(jù)源獲取數(shù)據(jù),并進行清洗、轉(zhuǎn)換、去重、缺值補充等操作。通常采用MapReduce等并行計算技術。技術要求舉例:針對海量數(shù)據(jù)實時離線批處理運算(ETL),通常時間要求較為寬松,如幾個小時級別。數(shù)據(jù)ETL運算種類多,靈活性強,通常具有很強的定制化特征數(shù)據(jù)通常需要導出到數(shù)據(jù)庫、數(shù)據(jù)倉庫,提供報表能力需要靈活的調(diào)度的系統(tǒng),便于系統(tǒng)需要和其他業(yè)務系統(tǒng)混合部署,提高資源利用水平例圖:分時段匯總的業(yè)務場景典型的應用場景之二:大數(shù)據(jù)查詢系統(tǒng)目標:針對海量結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的精確定位、區(qū)段掃描等條件查詢操作,用于網(wǎng)絡優(yōu)化、帳詳單查詢、故障定位、搜索引擎等業(yè)務場景。采集預處理計算1計算2融合處理大數(shù)據(jù)庫大數(shù)據(jù)庫原始數(shù)據(jù)消息營業(yè)廳系統(tǒng)營業(yè)廳1營業(yè)廳2營業(yè)廳3營業(yè)廳4例圖:帳詳單查詢系統(tǒng)技術要求舉例:針對海量數(shù)據(jù)實施交互式查詢,返回時間在1秒鐘左右。針對海量大數(shù)據(jù)規(guī)模實施查詢,數(shù)據(jù)規(guī)??梢赃_到100TB-10PB規(guī)模。數(shù)據(jù)插入通常采用批處理方式,而查詢通常帶有條件,通常返回結(jié)果數(shù)較少系統(tǒng)具備較高的并發(fā)性,支持大量用戶同時查詢,依然可以在給定時間出口返回結(jié)果數(shù)據(jù)具有很高的可靠性和可用性要求典型的應用場景之三:大數(shù)據(jù)挖掘系統(tǒng)目標:針對海量結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的進行深度挖掘。通常需要根據(jù)業(yè)務需求設計模型、訓練集并選擇算法(分類、聚類、關聯(lián)、非結(jié)構(gòu)化)。通常會使用各種分布式數(shù)據(jù)挖掘工具和算法人群1其它人群例圖:客戶分類識別應用技術要求舉例:針對海量數(shù)據(jù)實施全量數(shù)據(jù)挖掘,規(guī)模達到10TB-PB規(guī)模。處理時間沒有嚴格要求,通常達到幾個小時,甚至更長時間需要支持各種并行計算模式,如MapReduce、BSP等數(shù)據(jù)挖掘系統(tǒng)需要較好的用戶界面,用戶通常具備業(yè)務知識,但是未必具備開發(fā)經(jīng)驗系統(tǒng)可以和其他系統(tǒng)混合部署數(shù)據(jù)具有一定的可靠性和可用性要求中國移動“大云”

云計算平臺IT基礎資源對象存儲BC-oNest數(shù)據(jù)倉庫系統(tǒng)HugeTable系統(tǒng)監(jiān)控和管理CloudMaster平臺安全管理CloudSecurity并行數(shù)據(jù)挖掘工具集BC-PDM文件中間件BC-NAS并行數(shù)據(jù)抽取轉(zhuǎn)換BC-ETLEMailIDC服務…經(jīng)分KPI集中運算結(jié)算系統(tǒng)云計算資源池系統(tǒng)搜索引擎BC-SE經(jīng)分系統(tǒng)ETL/DM信令系統(tǒng)物聯(lián)網(wǎng)應用彈性計算BC-EC彈性塊存儲BC-Blockstore商務智能平臺數(shù)據(jù)管理/分析類計算/存儲資源池BC-Hadoop數(shù)據(jù)存儲和分析平臺IaaS產(chǎn)品PaaS產(chǎn)品“大云”產(chǎn)品K-V數(shù)據(jù)庫BC-kvDB消息隊列BC-Queue實時交易類分布式內(nèi)存引擎

BC-DME分布式SQL數(shù)據(jù)庫BC-RDBBC-BSP數(shù)據(jù)并行框架能力開放平臺其他平臺中間件數(shù)據(jù)倉庫系統(tǒng)HugeTable并行數(shù)據(jù)挖掘工具集BC-PDMBC-Hadoop數(shù)據(jù)存儲和分析平臺K-V數(shù)據(jù)庫BC-kvDB分布式SQL數(shù)據(jù)庫BC-RDBBC-BSP數(shù)據(jù)并行框架BC-Hadoop:對開源Hadoop/HBase進行擴展和增強,為大云其他組件提供基本的存儲計算能力?;贖adoop1.0的NameNode/JobTrackerHA,HBaseCoprocessor優(yōu)化,管理工具整合等Hadoop數(shù)據(jù)存儲與分析RS級別結(jié)果匯聚線程池管理ZookeeperJobTracker(VirtualIP)JT-0001JT-0002JT-0003基于Ambari的Hadoop監(jiān)控管理工具ApacheAmbari是對Hadoop進行部署、監(jiān)控和管理的開源項目Puppet部署hadoop服務Ganglia收集hadoop服務數(shù)據(jù)與生成圖表Nagios監(jiān)控集群服務狀態(tài)并報警基于Ambari的Hadoop監(jiān)控管理工具TODO:啟用MRv1JT/HMasterHA刪除節(jié)點節(jié)點異構(gòu)配置(Ambari-3531)數(shù)據(jù)倉庫系統(tǒng)(HugeTable)基于Hadoop的海量結(jié)構(gòu)化數(shù)據(jù)存儲系統(tǒng),利用低成本硬件提供高性能的數(shù)據(jù)加載、索引查詢和并行分析能力,對外提供易于應用集成的數(shù)據(jù)訪問接口大容量:支持PB級別的數(shù)據(jù)存儲能力低成本:基于PC架構(gòu),不需要外接集中存儲設備高性能:秒級別索引查詢、數(shù)據(jù)并行掃描可靠性:數(shù)據(jù)冗余備份永不丟失可定制:根據(jù)應用需求選擇索引類型及存儲引擎接口豐富:提供標準的JDBC/ODBC/SQL接口;提串行Scan接口和分布式MapReduce接口外圍工具:支持數(shù)據(jù)、性能、故障、配置、日志管理功能;支持外部數(shù)據(jù)并行加載;支持數(shù)據(jù)快速備份、恢復單條查詢等(少量數(shù)據(jù))實時性要求高的分析查詢SQL(數(shù)據(jù)量滿足impala內(nèi)存限制條件)

復雜SQL語句或者掃描大表全表(大規(guī)模數(shù)據(jù)聚合查詢等占用空間超過了impala內(nèi)存能力)圖計算平臺(BC-BSP)BC-BSP:針對社交網(wǎng)絡分析、用戶精準營銷、搜索引擎PageRank計算等圖計算領域的數(shù)據(jù)挖掘需求而研發(fā)的并行計算框架,針對迭代計算,計算效率優(yōu)于MapReduce框架/cmri/并行數(shù)據(jù)挖掘工具集(BC-PDM)任務任務分解…M1M2MiR1Rj子任務block1數(shù)據(jù)分割block1block1block2block2block2block3block3block3M1M2MiR1R2…R2…RjBC-BSPHugeTableMapReduce并行數(shù)據(jù)挖掘各種海量數(shù)據(jù)處理、挖掘應用數(shù)據(jù)交換并行數(shù)據(jù)探索WebGUI/工作流引擎SQL腳本CLI命令行應用用戶權(quán)限管理數(shù)據(jù)交換:支持與RDB直接交換數(shù)據(jù)、支持CSV格式數(shù)據(jù)數(shù)據(jù)ETL:支持數(shù)據(jù)清洗、轉(zhuǎn)換、集成等7大類45種ETL數(shù)據(jù)探索:支持數(shù)據(jù)統(tǒng)計、變量分析、分布特征探索等數(shù)據(jù)挖掘算法:支持分類、聚類、關聯(lián)分析等3大類共15種算法社交網(wǎng)絡分析:支持網(wǎng)絡特征分析、社團發(fā)現(xiàn)和演化、社團展示等支持SaaS服務模式:Web瀏覽器使用,并可支持應用共享支持豐富的用戶UI:

支持Web圖形化方式創(chuàng)建數(shù)據(jù)分析邏輯,支持SQL腳本方式,支持CLI命令行方式支持二次開發(fā):JavaAPI、WebServiceBC-PDM:支持SaaS模式的海量數(shù)據(jù)并行處理、分析與挖掘系統(tǒng)。適用于經(jīng)營決策、用戶行為分析、精準營銷、網(wǎng)絡優(yōu)化、移動互聯(lián)網(wǎng)等領域的智能數(shù)據(jù)分析與挖掘應用主要特點并行數(shù)據(jù)ETL社交網(wǎng)絡分析廣域網(wǎng)K-V數(shù)據(jù)庫(BC-KVDB)BC-KVDB:根據(jù)訂購關系存儲、用戶個人信息存儲等應用需求和相關規(guī)范,增強系統(tǒng)操作維護功能、優(yōu)化性能并提高系統(tǒng)可靠性。提供一個高并發(fā)、高可擴展的鍵值對存儲系統(tǒng)。數(shù)據(jù)連續(xù)范圍分區(qū),類似HBase不依賴DFS,數(shù)據(jù)直接讀寫本地多個磁盤QueryCache&BlockCache通過Region數(shù)據(jù)的多副本,保證數(shù)據(jù)的高可靠實現(xiàn)多個主節(jié)點的互備元數(shù)據(jù)與用戶數(shù)據(jù)隔離存儲實現(xiàn)用戶認證和授權(quán)SQL數(shù)據(jù)庫(BC-RDB)BC-RDB是基于MySQL的分布式數(shù)據(jù)庫,系統(tǒng)由多個安全組(safegroup)和一個分布式事務管理器組成。采用“兩階段提交協(xié)議即2PC”來實現(xiàn)分布式事務“大云”應用案例之一:大數(shù)據(jù)ETL業(yè)務流程現(xiàn)網(wǎng)時間(min)云ETL時間(min)加速比例時間減少絕對值(小時)1465011534.0358.32270015711.7218.88210012931.6213.49180011501.5610.810150012251.224.6114903251.512.8現(xiàn)網(wǎng)3.2天,減少為0.8天節(jié)約近2.5天現(xiàn)網(wǎng)90分鐘減少為10分鐘僅為1/10現(xiàn)網(wǎng)時間(min)云ETL時間(min)MR時間云ETL腳本加速比例時間減少絕對值(小時)流程39010無9.001.3流程413059403.251.5流程56014無4.280.8流程68025無2.500.9流程713047無2.761.9滾詳單類出月表類帳詳單系統(tǒng)存儲數(shù)量急劇膨脹,傳統(tǒng)架構(gòu)難以滿足當前業(yè)務運營要求,系統(tǒng)面臨擴容難題“大云”應用案例之二:大數(shù)據(jù)查詢業(yè)務采集預處理計算1計算2融合處理HugeTable表2HugeTable表1原始數(shù)據(jù)消息營業(yè)廳系統(tǒng)營業(yè)廳1營業(yè)廳2營業(yè)廳3營業(yè)廳4某地市應用,每個月帳詳單總體數(shù)據(jù)量10TB話單通過HTLoad工具批量加載帳詳單查詢通過SQL或Native

API接口進行復雜分析則通過MR接口進行HugeTable支持數(shù)據(jù)按照Joinkey預先進行數(shù)據(jù)劃分,減少join過程中數(shù)據(jù)在節(jié)點間的拷貝應用效果:加載:支持數(shù)據(jù)并行加載,數(shù)據(jù)加載保證完整性和可靠性;查

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論