電信運營商大數(shù)據(jù)平臺和應用實踐_第1頁
電信運營商大數(shù)據(jù)平臺和應用實踐_第2頁
電信運營商大數(shù)據(jù)平臺和應用實踐_第3頁
電信運營商大數(shù)據(jù)平臺和應用實踐_第4頁
電信運營商大數(shù)據(jù)平臺和應用實踐_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、電信運行商大數(shù)據(jù)平臺和應用實踐第1頁提要電信運行商大數(shù)據(jù)面臨挑戰(zhàn)“大云”大數(shù)據(jù)平臺研發(fā)和實踐第2頁移動互聯(lián)網(wǎng)用戶流量激增,手機數(shù)據(jù)化、寬帶化趨勢顯著時間分布移動互聯(lián)網(wǎng):通信功效 = 80:20數(shù)據(jù)起源:GSMA 流量分布用戶分布數(shù)據(jù)起源:Infoma 數(shù)據(jù)起源:Cisco 全球移動互聯(lián)網(wǎng)用戶數(shù)量激增,已3倍于固定互聯(lián)網(wǎng)用戶數(shù)量移動互聯(lián)網(wǎng)流量激增,底,移動數(shù)據(jù)流量占比超出13%移動互聯(lián)網(wǎng)應用使用時間激增,是使用通信服務時間4倍中國移動互聯(lián)網(wǎng)發(fā)展有相類似趨勢,截至6月,中國手機網(wǎng)民已達4.6億,上六個月移動互聯(lián)網(wǎng)接入流量同比增加62.6%(CNNIC、工信部)第3頁4G、M2M將大大加緊移動網(wǎng)絡數(shù)

2、據(jù)業(yè)務和流量增加4G網(wǎng)絡將占到全球流量20%,年將超出3G網(wǎng)絡流量,20將占據(jù)超出2/3移動網(wǎng)絡流量。2013-20,4G流量年復合增加率到達82.2%。20數(shù)據(jù)業(yè)務收入占運行商份額47.3%ABI Research 2013.09數(shù)據(jù)起源:Ericsson .119月Verizon LTE網(wǎng)絡建成不到2年,用戶到達11M,占Verizon用戶總數(shù)約12%,流量消耗占全網(wǎng)流量35%以上。年1月,4G流量占比50%,年11月,4G流量超出64%,視頻是主要業(yè)務,全球4G終端產(chǎn)生數(shù)據(jù)流量是非4G終端8倍,每個月數(shù)據(jù)流量超出10EB 1EB=1000PB (Cisco VNI )M2M終端數(shù)量大幅度

3、增加4G驅(qū)動流量增加,M2M設備數(shù)量靠近智能終端數(shù)據(jù)起源:ABI Research 第4頁數(shù)據(jù)業(yè)務成為運行商收入新增加點Verizon 2013Q3ARPU同比增加7.1%,比公布4G時增加21%。SKT 20Q3 4GARPU增加比綜合ARPU增加超32%,競爭對手KT則到達40%。荷蘭全部電信運行商數(shù)據(jù)業(yè)務收入占比同比增加14%,全部來自語音業(yè)務下降。全球移動互聯(lián)網(wǎng)業(yè)務收入增加23.4%,到達3千億美元。其中,Q4美國運行商數(shù)據(jù)收入超出語音收入。ABI Research Feb.第5頁面對巨大流量,移動運行商面臨強大挑戰(zhàn)移動互聯(lián)網(wǎng)服務商電信運行商SNS博客電商視頻圖片音樂簽到問答點評優(yōu)惠券

4、專業(yè)SNS微博消息論壇2G、3G、4G、WIFI 新聞地圖管道數(shù)據(jù)類型多樣、數(shù)據(jù)巨大、處理速度要求高,同時也存在質(zhì)量問題,是電信運行商大數(shù)據(jù)主要起源超出7.1億用戶超出100萬基站每分鐘超出800萬通話天天信令數(shù)據(jù)超出1PB每秒上網(wǎng)流量超出40GB經(jīng)分系統(tǒng)數(shù)據(jù)規(guī)??拷?0PB第6頁需要融合巨大管道數(shù)據(jù)和業(yè)務數(shù)據(jù)網(wǎng)絡優(yōu)化決議支持精準營銷業(yè)務創(chuàng)新A+Abis信令Mc信令Gn+Gb信令Gn-IuPS信令Wifi、Radius信令4G X2等信令語音等業(yè)務數(shù)據(jù)DNS 數(shù)據(jù)即使結構化業(yè)務數(shù)據(jù)即使價值含量很高,不過管道數(shù)據(jù)卻提供了用戶數(shù)據(jù)消費、社交網(wǎng)絡、行為軌跡、內(nèi)容偏好等業(yè)務數(shù)據(jù)中無法提供主要信息,這對

5、用戶刻畫、套餐設計、用戶體驗提升等個人和企業(yè)產(chǎn)品設計所需依據(jù)都有巨大幫助日志結構化數(shù)據(jù)+需要建立采集、存放、分析、交互等全方位能力,其中既包含傳統(tǒng)已經(jīng)具備能力,也包含需要新建大數(shù)據(jù)能力第7頁互聯(lián)網(wǎng)企業(yè)通常采取混合架構處理大數(shù)據(jù)問題/wp-content/uploads/10/Tully-SparkSummit4.pdfBy Tim Tully (Distinguished Engineer/Architect, Yahoo)互聯(lián)網(wǎng)企業(yè)當前主要采取Hadoop、Streaming、RDBMS、NoSQL等技術應對大數(shù)據(jù)4V挑戰(zhàn),比如Yahoo針對日志數(shù)據(jù)進行兩種處理,并與業(yè)務系統(tǒng)結合(后期嘗試S

6、park技術)示例:Yahoo數(shù)據(jù)處理流程第8頁大數(shù)據(jù)技術在互聯(lián)網(wǎng)企業(yè)得到成功應用Google在全球多個數(shù)據(jù)中心大規(guī)?;旌喜际鸷驼{(diào)度數(shù)據(jù)處理能力,系統(tǒng)利用率高達80%+,MapReduce系統(tǒng)天天處理1000PB左右輸入數(shù)據(jù),支撐其關鍵業(yè)務,包含搜索、廣告、地圖、郵件、小區(qū)等業(yè)務。針對不一樣數(shù)據(jù)處理需求提供各種數(shù)據(jù)處理系統(tǒng)。伴隨技術能力提升,將大數(shù)據(jù)處理能力服務化。Facebook以Hadoop為基礎建設了包含流計算、實時計算、離線分析在內(nèi)各種大數(shù)據(jù)系統(tǒng)系統(tǒng)。天天要處理25億條消息、用戶點擊Like按鈕次數(shù)到達27億次、上傳3億張照片。Graph Search能夠檢索10億用戶、2400億圖片

7、和1萬億次訪問。當前已經(jīng)支持多區(qū)域數(shù)據(jù)同時。Facebook Puma天天處理超出200億事件,延遲小于30秒Amazon為被托管應用提供了多租戶、按使用付費大數(shù)據(jù)服務,整合了非結構化(S3)、結構化(RDS、SimpleDB、DynamoDB)數(shù)據(jù),經(jīng)過并行計算EMR能力,將數(shù)據(jù)放入RedShift用于最終數(shù)據(jù)展現(xiàn)等目標。Twitter利用Hadoop和Pig工具完成數(shù)據(jù)批量分析,并進行決議支持和數(shù)據(jù)挖掘,利用Storm天天實時推送1億活躍用戶5億消息第9頁提要電信運行商大數(shù)據(jù)面臨挑戰(zhàn)“大云”大數(shù)據(jù)平臺研發(fā)和實踐第10頁面向結構化數(shù)據(jù),非結構化處理效率低基于昂貴硬件(小型機+磁盤陣列)或一體

8、機硬件平臺兼容性差:在跨代硬件或跨廠商硬件環(huán)境下經(jīng)常無法布署擴展性到達PB級之上可選廠商較少,易綁定具備結構化/非結構化混合分析能力,大數(shù)據(jù)多為非結構化基于消費級硬件,以長期化硬件故障為設計出發(fā)點,不依賴高性能、高可靠性硬件保障系統(tǒng)性能和可靠性。基于通用硬件,平臺兼容性好,可跨代,跨廠商硬件布署擴展性高,業(yè)內(nèi)有上萬節(jié)點級布署案例,大陸有千節(jié)點級布署transactionDBMSETLDWAnalysisClusterUnstructureStreamMultiple data sources(MapReduce)傳統(tǒng)數(shù)據(jù)分析處理基于云計算大數(shù)據(jù)處理Distributed architectur

9、eTraditional DB/DW TBPBEB ZBMPP DW+HadoopAnalysis云計算是挖掘大數(shù)據(jù)價值關鍵基礎第11頁中國移動“大云”2.5 云計算平臺IT基礎資源 對象存放BC-oNest數(shù)據(jù)倉庫系統(tǒng)BC-HugeTable系統(tǒng)監(jiān)控和管理CloudMaster平臺安全管理CloudSecurity移動互聯(lián)網(wǎng)業(yè)務平臺IDC服務經(jīng)分集中化結算系統(tǒng)云計算資源池系統(tǒng)并行數(shù)據(jù)挖掘工具集BC-PDM并行數(shù)據(jù)抽取轉換BC-ETL搜索引擎BC-SE經(jīng)分系統(tǒng)ETL/DM信令系統(tǒng)物聯(lián)網(wǎng)應用彈性計算BC-EC彈性塊存放BC-EBS商務智能平臺BI-PaaS數(shù)據(jù)管理/分析類計算/存放資源池BC-H

10、adoop 數(shù)據(jù)存放和分析平臺IaaS 產(chǎn)品PaaS 產(chǎn)品“大云”產(chǎn)品實時交易類SQL數(shù)據(jù)庫BC-RDBBC-BSP 數(shù)據(jù)并行框架內(nèi)存處理引擎BC-DMEK-V數(shù)據(jù)庫BC-kvDB2.0產(chǎn)品體系2.5新增產(chǎn)品2.5功效增強第12頁BC-Hadoop:開源小區(qū)有很多Hadoop公布,不過沒有一項能夠滿足大云現(xiàn)有數(shù)據(jù)分析需求。BC-Hadoop將所需特征打包形成獨特大數(shù)據(jù)平臺產(chǎn)品大數(shù)據(jù)基礎平臺(BC-Hadoop & BC-HBase)IAAS分析PAAS交易PAAS云計算管理大規(guī)模:支持4000節(jié)點組成單個大數(shù)據(jù)集群高性能:提供聚合IO訪問能力,線性擴展多租戶:提供多用戶計算和存放能力相對隔離伎

11、倆高可用:提供Hadoop主控節(jié)點,即NameNode和Job Tracker高可用能力標準接口:消除開源Hadoop升級造成接口不兼容,提供向下兼容接口MapReduce 并行計算框架HDFS 分布式文件系統(tǒng)HBase 分布式NoSQL數(shù)據(jù)庫監(jiān)控和管理工具BC-Hadoop應用,包含HugeTable、PDM、BC-SE等/cmri/第13頁圖計算平臺(BC-BSP)IAAS分析PAAS交易PAAS云計算管理產(chǎn)品特征搜索引擎PageRank、最短路徑等算法需大量迭代計算,基于MR實現(xiàn)含有較大數(shù)據(jù)同時開銷;BSP并行計算模型更適于圖、矩陣計算;支持大規(guī)模集群,能夠到達4000節(jié)點支持海量數(shù)據(jù)計

12、算,用戶迭代步驟能夠設定提供用戶開發(fā)接口,首先能夠與BC-PDM系統(tǒng)整合,首先也能夠單獨使用BC-BSP:針對社交網(wǎng)絡 分析、用戶精準營銷、搜索引擎PageRank計算等圖計算領域數(shù)據(jù)挖掘需求而研發(fā)并行計算框架,針對迭代計算,計算效率優(yōu)于MapReduce框架/cmri/第14頁海量結構化數(shù)據(jù)存放系統(tǒng)(HugeTable)基于Hadoop海量結構化數(shù)據(jù)存放系統(tǒng),利用低成本硬件提供高性能數(shù)據(jù)加載、索引查詢和并行分析能力,對外提供易于應用集成數(shù)據(jù)訪問接口大容量:支持PB級別數(shù)據(jù)存放能力低成本:基于PC架構,不需要外接集中存放設備高性能:秒級別索引查詢、數(shù)據(jù)并行掃描可靠性:數(shù)據(jù)冗余備份永不丟失;全系

13、統(tǒng)無單點可定制:依據(jù)應用需求選擇索引類型及存放引擎接口豐富:提供標準JDBC/ODBC/ SQL接口;提串行Scan接口和分布式MapReduce接口外圍工具:支持數(shù)據(jù)、性能、故障、配置、日志管理功效;支持外部數(shù)據(jù)并行加載;支持數(shù)據(jù)快速備份、恢復IAAS分析PAAS交易PAAS云計算管理第15頁分布式NoSQL數(shù)據(jù)庫(BC-KVDB)BC-RDB:依據(jù)訂購關系存放(閱讀基地)、用戶個人信息存放(彩云)等應用需求和相關規(guī)范,增強系統(tǒng)操作維護功效、優(yōu)化性能并提升系統(tǒng)可靠性。提供一個高并發(fā)、高可擴展鍵值對存放系統(tǒng)。大規(guī)模:支持1000節(jié)點組網(wǎng)形成統(tǒng)一數(shù)據(jù)庫高性能:支持讀寫緩存,提供告訴數(shù)據(jù)讀寫能力,

14、支持高性能硬件優(yōu)化一致性:支持數(shù)據(jù)強一致性和最終一致性可靠性:數(shù)據(jù)冗余備份永不丟失;全系統(tǒng)無單點數(shù)據(jù)模式:提供支持schema定義復雜數(shù)據(jù)定義外圍工具:支持數(shù)據(jù)、性能、故障、配置、日志管理功效;支持外部數(shù)據(jù)并行加載;支持數(shù)據(jù)快速備份、恢復IAAS分析PAAS交易PAAS云計算管理第16頁分布式關系數(shù)據(jù)庫(BC-RDB)IAAS分析PAAS交易PAAS云計算管理BC-RDB是一款分布式關系數(shù)據(jù)庫。即含有關系數(shù)據(jù)庫特征,同時具備可擴展、高可用特征。主要應用于海量數(shù)據(jù)實時在線交易處理系統(tǒng)。BC-RDB支持SQL92,傳統(tǒng)交易型應用可實現(xiàn)平滑遷移高擴展性采取share nothing架構,能夠動態(tài)水平

15、擴展,設計容量64節(jié)點高可用性存放采取節(jié)點內(nèi)置硬盤,提供三副本,保障數(shù)據(jù)及服務高可用性分布式事務支持采取兩階段提交分布式事務,確保多節(jié)點數(shù)據(jù)之間完整性和一致性,同時確保用戶操作事務性海量數(shù)據(jù)高性能處理多節(jié)點并行計算和多節(jié)點并行加載技術使得在海量數(shù)據(jù)存放下取得高性能。低成本采取X86集群架構,存放采取節(jié)點內(nèi)置大容量硬盤,可搭建在廉價PC機集群上,成本遠遠低于UNIX系統(tǒng)集群能夠布署于自帶硬盤x86服務器,不需要小型機和磁盤陣列第17頁并行數(shù)據(jù)挖掘系統(tǒng)(BC-PDM)任務任務分解M 1M 2M iR 1R j子任務block1數(shù)據(jù)分割block1block1block2block2block2bl

16、ock3block3block3M 1M 2M iR 1R 2R 2R jHadoopDFSHugeTableMapReduce并行數(shù)據(jù)挖掘各種海量數(shù)據(jù)處理、挖掘應用數(shù)據(jù)交換并行數(shù)據(jù)探索Web GUI/工作流引擎SQL腳本CLI命令行應用用戶權限管理 高效豐富數(shù)據(jù)ETL操作:支持數(shù)據(jù)清洗、轉換、集成等7大類45種ETL海量數(shù)據(jù)挖掘算法:支持分類、聚類、關聯(lián)分析等3大類共15種算法海量數(shù)據(jù)探索能力:支持數(shù)據(jù)統(tǒng)計、變量分析、分布特征探索等大規(guī)模社交網(wǎng)絡分析:支持網(wǎng)絡特征分析、社團發(fā)覺和演化、社團展示等多模式數(shù)據(jù)接口:支持與RDB直接交換數(shù)據(jù)、支持Hive、CSV格式數(shù)據(jù)支持SaaS服務模式:Web

17、瀏覽器使用,并可支持應用共享支持豐富用戶UI: 支持Web圖形化方式創(chuàng)建數(shù)據(jù)分析邏輯,支持SQL腳本方式,支持CLI命令行方式支持二次開發(fā):Java API、Web ServiceBC-PDM:支持SaaS模式海量數(shù)據(jù)并行處理、分析與挖掘系統(tǒng)。適合用于經(jīng)營決議、用戶行為分析、精準營銷、網(wǎng)絡優(yōu)化、移動互聯(lián)網(wǎng)等領域智能數(shù)據(jù)分析與挖掘應用主要特點并行數(shù)據(jù)ETL社交網(wǎng)絡分析廣域網(wǎng)IAAS分析PAAS交易PAAS云計算管理第18頁商務智能平臺(BI-PAAS)產(chǎn)品定位利用云計算強大并行計算和分布存放能力,結合ETL 、 DM 、工作流技術,構建一個BI Paas平臺,提供強大在線分析和支持決議工具集,以

18、方便用戶快速定制、組裝、搭建對應商務智能信息分析系統(tǒng)產(chǎn)品特征BI PaaS系統(tǒng)主要包含二部分:開發(fā)套件:開發(fā)套件包含ETL設計器、報表設計器、集成器等一系列圖形開發(fā)工具集,將各類BI能力以元數(shù)據(jù)描述方式進行封裝,供開發(fā)者進行離線BI應用開發(fā)。BI PaaS Server:包含應用層、平臺層、BI能力層、基礎設施層、資源層。支撐BI應用布署、運行。IAAS分析PAAS交易PAAS云計算管理第19頁“大云”應用案例之一:大數(shù)據(jù)ETL業(yè)務流程現(xiàn)網(wǎng)時間(min)云ETL時間(min)加速百分比時間降低絕對值(小時)14650 1153 4.0358.322700 1571 1.7218.882100

19、12931.6213.491800 11501.5610.8101500 12251.224.611490 325 1.512.8現(xiàn)網(wǎng)3.2天,降低為0.8天節(jié)約近2.5天現(xiàn)網(wǎng)90分鐘降低為10分鐘僅為1/10現(xiàn)網(wǎng)時間(min)云ETL時間(min)MR時間云ETL腳本加速百分比時間降低絕對值(小時)流程390 10 無9.001.3流程4130 59 403.251.5流程560 14 無4.280.8流程680 25無2.500.9流程7130 47 無2.761.9滾詳單類出月表類第20頁帳詳單系統(tǒng)存放數(shù)量急劇膨脹,傳統(tǒng)架構難以滿足當前業(yè)務運行要求,系統(tǒng)面臨擴容難題“大云”應用案例之二:

20、大數(shù)據(jù)查詢業(yè)務采集預處理計算1計算2融合處理HugeTable表2HugeTable表1原始數(shù)據(jù)消息營業(yè)廳系統(tǒng)營業(yè)廳1營業(yè)廳2營業(yè)廳3營業(yè)廳4某地市應用,每個月帳詳單總體數(shù)據(jù)量10TB話單經(jīng)過HTLoad工具批量加載帳詳單查詢經(jīng)過SQL或Native API接口進行復雜分析則經(jīng)過MR接口進行HugeTable支持數(shù)據(jù)按照Join key預先進行數(shù)據(jù)劃分,降低join過程中數(shù)據(jù)在節(jié)點間拷貝應用效果:加載:支持數(shù)據(jù)并行加載,數(shù)據(jù)加載確保完整性和可靠性;查詢:在高并發(fā)條件下,數(shù)據(jù)查詢性能普通可到達網(wǎng)絡IO(對于千兆以太網(wǎng)單節(jié)點可達1GB)或磁盤IO瓶頸;更新:可支持單條或批量數(shù)據(jù)增刪改查操作,聚合更

21、新帶寬可達網(wǎng)絡IO極限;壓縮:對數(shù)據(jù)內(nèi)容進行高效壓縮,節(jié)約磁盤、網(wǎng)絡IO,節(jié)約存放空間;第21頁“大云”應用案例之三:大數(shù)據(jù)挖掘業(yè)務新業(yè)務提升模型:經(jīng)過客戶細分與手機報業(yè)務匹配,實現(xiàn)準確營銷。Kmeans算法,10節(jié)點云平臺。效果:業(yè)務1用戶滲透率提升48%,業(yè)務1收入提升64%業(yè)務1用戶數(shù)提升76%3個地市企業(yè)直接使用BC-PDM建模,驗證BC-PDM在功效、性能、易用性上能滿足現(xiàn)網(wǎng)需求,應用效果顯著地市企業(yè)1地市企業(yè)2外來工其它客戶識別模型:C45分類算法,6節(jié)點云平臺。模型準確性很好,極大提升了營銷效率,也極大節(jié)約了成本地市企業(yè)3欠費風險監(jiān)控與個人客戶信用度應用:8節(jié)點云平臺。首次第二次第一批第二次第二批參加試點用戶數(shù)500050008000降低工單量136443702444欠費情況2923.1630609.817071.38欠費人數(shù)1491148676回收金額60410136561463621、降低了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論