曙光Xdata大數(shù)據(jù)平臺(tái)介紹_第1頁(yè)
曙光Xdata大數(shù)據(jù)平臺(tái)介紹_第2頁(yè)
曙光Xdata大數(shù)據(jù)平臺(tái)介紹_第3頁(yè)
曙光Xdata大數(shù)據(jù)平臺(tái)介紹_第4頁(yè)
曙光Xdata大數(shù)據(jù)平臺(tái)介紹_第5頁(yè)
已閱讀5頁(yè),還剩60頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、曙光Xdata大數(shù)據(jù)平臺(tái)介紹大數(shù)據(jù)應(yīng)用場(chǎng)景1大數(shù)據(jù)系統(tǒng)架構(gòu)2算法及適用場(chǎng)景3大數(shù)據(jù)解決方案4XData系列產(chǎn)品5成功案例分享6大數(shù)據(jù)應(yīng)用場(chǎng)景大數(shù)據(jù)系統(tǒng)架構(gòu)追求自下而上的穩(wěn)定,數(shù)據(jù)價(jià)值則追求自上而下的價(jià)值挖掘大數(shù)據(jù)本身,是在海量行業(yè)數(shù)據(jù)的基礎(chǔ)上,去偽存真,解決某一個(gè)特定的問(wèn)題項(xiàng)目2項(xiàng)目3大數(shù)據(jù)依附于某一行業(yè),解決行業(yè)實(shí)際問(wèn)題,才能體現(xiàn)出大數(shù)據(jù)的價(jià)值項(xiàng)目1大數(shù)據(jù)項(xiàng)目實(shí)施技術(shù)層面業(yè)務(wù)層面從業(yè)務(wù)的角度進(jìn)行數(shù)據(jù)深入分析挖掘,找出業(yè)務(wù)規(guī)律,從而進(jìn)行業(yè)務(wù)層面的改進(jìn)并列關(guān)系需要對(duì)多類型異構(gòu)大量的數(shù)據(jù)進(jìn)行處理,采用傳統(tǒng)的方法不能滿足所有需求,需要有一個(gè)高性能、高穩(wěn)定、高擴(kuò)展的平臺(tái)進(jìn)行支撐整合行業(yè)生產(chǎn)、運(yùn)營(yíng)、營(yíng)銷

2、、管理等多方面的數(shù)據(jù)從企業(yè)不同層級(jí)人員、不同業(yè)務(wù)支撐方向兩個(gè)方面,進(jìn)行全面數(shù)據(jù)應(yīng)用分析挖掘大數(shù)據(jù)思維大數(shù)據(jù)系統(tǒng)挑戰(zhàn)數(shù)據(jù)展示的挑戰(zhàn)如何穩(wěn)定的收集多源異構(gòu)的數(shù)據(jù)及整合內(nèi)部數(shù)據(jù)數(shù)據(jù)源的挑戰(zhàn)數(shù)據(jù)分析的挑戰(zhàn)如何根據(jù)具體業(yè)務(wù)需求,定制針對(duì)性的分析模型如何根據(jù)不同的客戶群體,用不同的形式展示數(shù)據(jù)大數(shù)據(jù)應(yīng)用場(chǎng)景1大數(shù)據(jù)系統(tǒng)架構(gòu)2算法及適用場(chǎng)景3大數(shù)據(jù)解決方案4XData系列產(chǎn)品5成功案例分享6大數(shù)據(jù)系統(tǒng)實(shí)現(xiàn)要素?cái)?shù)據(jù)展示數(shù)據(jù)分析數(shù)據(jù)來(lái)源數(shù)據(jù)交換數(shù)據(jù)收集數(shù)據(jù)清洗傳統(tǒng)數(shù)據(jù)分析架構(gòu)業(yè)務(wù)處理服務(wù)器Oracle業(yè)務(wù)處理服務(wù)器SQL ServerWeb服務(wù)器中央數(shù)據(jù)庫(kù)服務(wù)器數(shù)據(jù)抽取清洗轉(zhuǎn)換服務(wù)器分析服務(wù)器數(shù)據(jù)集市數(shù)據(jù)集市多

3、維分析工具報(bào)表工具數(shù)據(jù)挖掘工具以數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市的形式存在;面對(duì)日常報(bào)表出數(shù)據(jù),滿足管理匯報(bào)需要;根據(jù)業(yè)務(wù)需求進(jìn)行數(shù)據(jù)提取,如財(cái)務(wù)收入等;對(duì)單業(yè)務(wù)的分析較好,對(duì)跨業(yè)務(wù)的分析較弱;缺乏深入去挖掘數(shù)據(jù),缺乏全局的分析思維;在企業(yè)運(yùn)行方面,高投入、低產(chǎn)出;傳統(tǒng)BI基于大數(shù)據(jù)的系統(tǒng)架構(gòu)數(shù)據(jù)接入采集代理后端日志清洗內(nèi)部數(shù)據(jù)數(shù)據(jù)源互聯(lián)網(wǎng)資料外部數(shù)據(jù)Web Services數(shù)據(jù)消費(fèi)DashBoard實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)統(tǒng)計(jì)數(shù)據(jù)分析其他應(yīng)用緩存重用存儲(chǔ)計(jì)算數(shù)據(jù)服務(wù)基于流式計(jì)算的實(shí)時(shí)清洗數(shù)據(jù)緩存集群HadoopSparkNoSQL數(shù)據(jù)質(zhì)量監(jiān)控大數(shù)據(jù)應(yīng)用場(chǎng)景1大數(shù)據(jù)系統(tǒng)架構(gòu)2算法及適用場(chǎng)景3大數(shù)據(jù)解決方案4XData系

4、列產(chǎn)品5成功案例分享6數(shù)據(jù)分析決策樹神經(jīng)網(wǎng)絡(luò)邏輯斯蒂回歸預(yù)測(cè)響應(yīng)用戶特征分析個(gè)性化推薦降維分析聚類決策樹ALS聚類協(xié)同過(guò)濾SVMPCA集成算法分類SVMlinear regressionnaive Bayes聚類k-meansbisecting k-meansGMM推薦ALSSVDCollaborative filtering降維PCALDA其他sequential pattern model evaluation6am-9am9am-12pm12pm-5pm5pm-7pm7pm-11pm11pm-6am10%20%30%6am-9am9am-12pm12pm-5pm5pm-7pm7pm-11

5、pm11pm-6am10%20%30%6am-9am9am-12pm12pm-5pm5pm-7pm7pm-11pm11pm-6am10%20%30%ComputerSmartphonesTablet6am-9am9am-12pm12pm-5pm5pm-7pm7pm-11pm11pm-6am30%20%10%TV大數(shù)據(jù)應(yīng)用場(chǎng)景1大數(shù)據(jù)系統(tǒng)架構(gòu)2算法及適用場(chǎng)景3大數(shù)據(jù)解決方案4XData系列產(chǎn)品5成功案例分享6項(xiàng)目需求需要根據(jù)具體項(xiàng)目的需求,進(jìn)行此部分內(nèi)容整理,包括客戶需求、系統(tǒng)架構(gòu)設(shè)計(jì)等大數(shù)據(jù)應(yīng)用場(chǎng)景1大數(shù)據(jù)系統(tǒng)架構(gòu)2算法及適用場(chǎng)景3大數(shù)據(jù)解決方案4XData系列產(chǎn)品5成功案例分享6Xdata產(chǎn)

6、品體系ParaStor/HDFSXData-ETLXData-SDHXData-MPPXData-AUSXData-MBMXData-EDUXData-ETL多源異構(gòu)數(shù)據(jù)匯聚XData-MPP并行數(shù)據(jù)庫(kù)管理集群XData-SDH曙光發(fā)行版HadoopXData-AUS交互分析平臺(tái)XData-MBM有線大數(shù)據(jù)分析平臺(tái)XData-EDU大數(shù)據(jù)教學(xué)實(shí)訓(xùn)平臺(tái)ParaStor/HDFS大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)XData-SDH大數(shù)據(jù)分析系統(tǒng)數(shù)據(jù)質(zhì)量管理數(shù)據(jù)安全管理數(shù)據(jù)復(fù)用管理數(shù)據(jù)生命周期管理主數(shù)據(jù)統(tǒng)一編碼資源管理與調(diào)度系統(tǒng)并行計(jì)算引擎批處理引擎內(nèi)存計(jì)算引擎并行數(shù)據(jù)庫(kù)中間件流處理引擎系統(tǒng)管理曙光XData-ET

7、L工具箱NoSQL數(shù)據(jù)庫(kù)關(guān)系型數(shù)據(jù)庫(kù) 分布式文件系統(tǒng)NewSQL數(shù)據(jù)庫(kù)數(shù)據(jù)訪問(wèn)接口(SQL/JDBC/CLI)分析挖掘算法庫(kù)(Mahout/MLib/Petuum)元數(shù)據(jù)管理監(jiān)控管理任務(wù)管理調(diào)度管理自定義報(bào)表基礎(chǔ)數(shù)據(jù)管理XData管理系統(tǒng)日志數(shù)據(jù)解析圖像識(shí)別搜索視頻指紋搜索可視化管理用戶行為分析文本挖掘檢索語(yǔ)音識(shí)別搜索個(gè)性化推薦XData-SDH一體機(jī)產(chǎn)品功能全方位狀態(tài)監(jiān)控展現(xiàn)集群的CPU、溫度、電源狀態(tài)、網(wǎng)絡(luò)可用性等多種監(jiān)控信息智能化服務(wù)管理服務(wù)故障檢測(cè)及修復(fù)智能化參數(shù)優(yōu)化建議基礎(chǔ)數(shù)據(jù)管理可視化元數(shù)據(jù)自定義節(jié)點(diǎn)接入數(shù)據(jù)管理任務(wù)管理監(jiān)控任務(wù)操作任務(wù)批量執(zhí)行統(tǒng)一用戶管理多方式用戶認(rèn)證用戶權(quán)限管理

8、數(shù)據(jù)導(dǎo)入功能SFTP/FTP和HDFS/Hbase數(shù)據(jù)之間互導(dǎo)Oracle/DB2/mysql和HDFS/Hbase之間數(shù)據(jù)互導(dǎo)充分釋放硬件的潛力根據(jù)集群資源的支撐能力,同時(shí)保證集群的性能,系統(tǒng)會(huì)自動(dòng)限制集群作業(yè)的提交ParaStor分布式文件系統(tǒng)2010年單一系統(tǒng)16PB2013年中國(guó)區(qū)NAS IDC排名第32014年中國(guó)區(qū)NASIDC排名第2015年上半年中國(guó)區(qū) NASIDC排名第11100+用戶成功應(yīng)用累計(jì)銷售容量260+PB總體架構(gòu)索引控制器索引控制器索引控制器索引控制器數(shù)據(jù)控制器數(shù)據(jù)控制器數(shù)據(jù)控制器管理控制器管理控制器管理網(wǎng)數(shù)據(jù)控制器數(shù)據(jù)控制器數(shù)據(jù)控制器歸檔/回遷數(shù)據(jù)遷移數(shù)據(jù)遷移并發(fā)

9、讀寫并發(fā)讀寫并發(fā)讀寫元數(shù)據(jù)讀寫Linux、Windows、MAC客戶端/NFS/CIFS/POSIX API/HDFS/HTTP/FTP/REST/SOAP/SNMPParaStor產(chǎn)品特征產(chǎn)品特性易擴(kuò)展高性能高可靠易管理多功能糾刪碼節(jié)點(diǎn)分區(qū)分級(jí)存儲(chǔ)配額管理WORM磁盤分組歸檔自動(dòng)功耗控制糾刪碼冗余 N+M:bN+M的理解N:數(shù)據(jù)對(duì)象個(gè)數(shù)M:校驗(yàn)對(duì)象個(gè)數(shù)D1D2D3D4N=4,M=2P1P2D1D2D3D4P1P2D1D2D3D4P1P2M:允許故障的磁盤數(shù)目b的理解允許故障的節(jié)點(diǎn)數(shù)4+2:1Node1DPNode2DPNode3DNode4DNode6Node5Node1DPNode2DPN

10、ode3DNode4D4+2:2可進(jìn)行數(shù)據(jù)修復(fù)的最小節(jié)點(diǎn)數(shù):b(N+M)/M + b系統(tǒng)亮點(diǎn) 節(jié)點(diǎn)分區(qū)010203040506070809101112131415161718192021222324252627282930A區(qū)B區(qū)b最大為4,節(jié)點(diǎn)規(guī)模較大時(shí),也只能允許故障4個(gè)節(jié)點(diǎn)?劃分多個(gè)分區(qū),縮小節(jié)點(diǎn)故障域30個(gè)節(jié)點(diǎn),4+4:2A區(qū)16個(gè)節(jié)點(diǎn),B區(qū)14個(gè)節(jié)點(diǎn)冗余度:2個(gè)節(jié)點(diǎn)(b=2)b:每個(gè)節(jié)點(diǎn)分區(qū)中允許故障的節(jié)點(diǎn)數(shù)系統(tǒng)亮點(diǎn) 磁盤分組FailFailG1G2G3G44131211101423222120243332313034434241404453525150546362616064737

11、271707483828180849392919095040302010M最大為4,磁盤數(shù)目較大時(shí),也只能允許故障4個(gè)磁盤?劃分多個(gè)分組,縮小磁盤故障域分區(qū)內(nèi)包含50個(gè)磁盤分為4個(gè)磁盤分組,G1=G2=13,G3=G4=12冗余度:3個(gè)磁盤(M=3)M:每個(gè)磁盤分組中允許故障的磁盤數(shù)系統(tǒng)亮點(diǎn) 分級(jí)存儲(chǔ) 熱數(shù)據(jù)區(qū)冷數(shù)據(jù)區(qū)新建文件創(chuàng)建時(shí)間長(zhǎng)訪問(wèn)頻度低訪問(wèn)頻度高節(jié)點(diǎn)1SSD/10K SAS + SATA節(jié)點(diǎn)2SSD/10K SAS + SATA節(jié)點(diǎn)內(nèi)分級(jí)在線存儲(chǔ)區(qū)高性能存儲(chǔ)節(jié)點(diǎn)SSD/10K SAS近線/離線存儲(chǔ)區(qū)大容量存儲(chǔ)節(jié)點(diǎn) SATA節(jié)點(diǎn)間分級(jí)FILE1FILE2FILE3FILE4FILE5F

12、ILE6數(shù)據(jù)控制器數(shù)據(jù)控制器數(shù)據(jù)控制器索引控制器索引控制器索引控制器索引控制器數(shù)據(jù)控制器數(shù)據(jù)控制器數(shù)據(jù)控制器管理控制器管理控制器客戶端管理網(wǎng)歸檔數(shù)據(jù)遷移并發(fā)讀寫并發(fā)讀寫并發(fā)讀寫數(shù)據(jù)遷移元數(shù)據(jù)讀寫高性能在線存儲(chǔ)高性價(jià)比近線存儲(chǔ)歸檔至離線存儲(chǔ)根據(jù)訪問(wèn)頻率、文件大小、路徑名規(guī)則等策略進(jìn)行文件分級(jí)數(shù)據(jù)全生命周期管理系統(tǒng)亮點(diǎn) 配額管理存儲(chǔ)池FS2FS1Group2Group1user1user2user3user4多粒度多層次配額設(shè)置基于文件系統(tǒng)基于目錄基于用戶組基于用戶300TB40TB60TB50TBdir1dir2dir3dir450TB100TB40TB60TB50TB50TB100TB200T

13、B200TB軟硬閾值限定文件數(shù)量軟閾值容量軟閾值文件數(shù)量硬閾值容量硬閾值 給出告警 可以繼續(xù)寫入 無(wú)法寫入系統(tǒng)亮點(diǎn) 自動(dòng)功耗控制 活躍區(qū)休眠區(qū)休眠區(qū)客戶端WindowsUNIX/LINUXMAC數(shù)據(jù)節(jié)點(diǎn)按分區(qū)使用, 分為活躍區(qū)和休眠區(qū) 活躍區(qū)提供讀寫訪問(wèn) 活躍區(qū)故障,切換活躍區(qū) 待訪問(wèn)數(shù)據(jù)位于休眠區(qū),自動(dòng)切換 為活躍區(qū) 活躍區(qū)到達(dá)容量閾值,切換活躍區(qū) 在視頻監(jiān)控、衛(wèi)星遙感等海量離線存儲(chǔ)應(yīng)用中,可以顯著降低系統(tǒng)功耗休眠區(qū)活躍區(qū)活躍區(qū)*WORM(Write Once Read Many) 全局WORM時(shí)鐘,確保WORM時(shí)間不受硬件時(shí)鐘影響,且不受篡改 支持手動(dòng)將寫入數(shù)據(jù)置于WORM狀態(tài) 支持設(shè)置自

14、動(dòng)將寫入數(shù)據(jù)置于WORM狀態(tài)的時(shí)間 支持對(duì)WORM文件內(nèi)容進(jìn)行追加寫入操作 支持設(shè)置WORM文件的過(guò)期時(shí)間 支持WORM日志,記錄存儲(chǔ)系統(tǒng)中的WORM行為。Client寫設(shè)置WORM后,文件只讀讀系統(tǒng)亮點(diǎn) WORMXData-MPP并行數(shù)據(jù)庫(kù)數(shù)據(jù)副本1數(shù)據(jù)副本2數(shù)據(jù)節(jié)點(diǎn)雙副本配置計(jì)算節(jié)點(diǎn) 冗余配置管理網(wǎng)絡(luò)業(yè)務(wù)數(shù)據(jù)網(wǎng)絡(luò) 支持雙網(wǎng)絡(luò)集群管理服務(wù)管理任務(wù)管理數(shù)據(jù)寫入數(shù)據(jù)查詢以太網(wǎng)客戶端備份存儲(chǔ)XData-MPP一體機(jī)亮點(diǎn)架構(gòu)易于擴(kuò)展業(yè)界主流架構(gòu),MPPsharednothing增加節(jié)點(diǎn),線性提升加載、查詢性能數(shù)據(jù)安全用戶角色權(quán)限管理可靠性服務(wù)節(jié)點(diǎn)多備,提升性能、節(jié)點(diǎn)故障不影響對(duì)外服務(wù)的連續(xù)性數(shù)據(jù)雙副

15、本,保證數(shù)據(jù)可靠性關(guān)鍵節(jié)點(diǎn)冗余部署,元數(shù)據(jù)高可用并行處理透明數(shù)據(jù)自動(dòng)分區(qū)處理,均勻分布在多個(gè)節(jié)點(diǎn),節(jié)點(diǎn)間無(wú)共享、無(wú)I/O沖突數(shù)據(jù)處理就近原則,減少網(wǎng)絡(luò)開(kāi)銷靈活性支持自定義查詢執(zhí)行計(jì)劃數(shù)據(jù)存儲(chǔ)組織支持節(jié)點(diǎn)動(dòng)態(tài)伸縮應(yīng)用簡(jiǎn)單sql訪問(wèn)方式,減少用戶學(xué)習(xí)成本多種系統(tǒng)訪問(wèn)工具,增加系統(tǒng)易用性圖形化管理界面,易于進(jìn)行系統(tǒng)運(yùn)維和系統(tǒng)狀態(tài)查詢系統(tǒng)特點(diǎn)線性擴(kuò)展性價(jià)比高多網(wǎng)絡(luò)無(wú)單點(diǎn)瓶頸節(jié)點(diǎn)對(duì)等Shared-Nothing MPP架構(gòu)X86-64服務(wù)器,硬件無(wú)依賴多網(wǎng)絡(luò)通路,管理、數(shù)據(jù)網(wǎng)絡(luò)分離計(jì)算節(jié)點(diǎn)按需配置,無(wú)master節(jié)點(diǎn)瓶頸節(jié)點(diǎn)角色對(duì)等,均可接受客戶端連接自動(dòng)化部署類SQL訪問(wèn)應(yīng)用無(wú)縫對(duì)接使用方便擴(kuò)展容易自

16、動(dòng)化安裝部署、簡(jiǎn)潔快速兼容SQL92、SQL99,學(xué)習(xí)成本低標(biāo)準(zhǔn)接口JDBC、ODBC、C+、Python圖形化、命令行任務(wù)提交在線擴(kuò)展、按需分配節(jié)點(diǎn),用戶透明網(wǎng)絡(luò)切換副本恢復(fù)節(jié)點(diǎn)多備副本切換雙網(wǎng)絡(luò)管理,自動(dòng)切換機(jī)制雙副本數(shù)據(jù),自動(dòng)恢復(fù)機(jī)制服務(wù)節(jié)點(diǎn)多備,持續(xù)對(duì)外服務(wù)查詢自動(dòng)切換副本,屏蔽故障數(shù)據(jù)監(jiān)控告警圖形化管理自動(dòng)優(yōu)化圖形化界面,管理系統(tǒng)應(yīng)用集群狀態(tài)監(jiān)控,多種告警機(jī)制運(yùn)行參數(shù)調(diào)整,優(yōu)化系統(tǒng)負(fù)載數(shù)據(jù)分布策略 多種數(shù)據(jù)分布策略 事實(shí)數(shù)據(jù)分片存儲(chǔ)round-robin、hash,、range、list支持系統(tǒng)規(guī)模動(dòng)態(tài)伸縮 A1B大表分片小表復(fù)制 配置數(shù)據(jù)全復(fù)制大量DML操作一致性控制A1BA1BA

17、1BXData-MPP測(cè)試測(cè)試情況數(shù)據(jù)導(dǎo)入性能到達(dá)了第一梯隊(duì)SDH基準(zhǔn)測(cè)試性能也達(dá)到了跟主要競(jìng)爭(zhēng)對(duì)手相同,kmeans性能也進(jìn)入第一梯隊(duì)MPP的性能給用戶帶了驚喜改變了用戶的看法,展現(xiàn)了團(tuán)隊(duì)的技術(shù)實(shí)力參與廠商:阿里、360、華為、浪潮;浪潮出局應(yīng)用特征針對(duì)海量結(jié)構(gòu)化數(shù)據(jù)關(guān)聯(lián)分析進(jìn)行優(yōu)化;可以應(yīng)用在公安、安全、電力等行業(yè);14小時(shí)85分鐘測(cè)試性能數(shù)據(jù)分析數(shù)據(jù)查詢47.3s5.43s46s0.35s47.6s4.67s數(shù)據(jù)采集流程 RDMSServer log中間件數(shù)據(jù)源互聯(lián)網(wǎng)資料本地日志 采集集群存儲(chǔ)配置監(jiān)控配置系統(tǒng)設(shè)置執(zhí)行任務(wù) 處理集群運(yùn)行配置解析處理配置集群系統(tǒng)設(shè)置執(zhí)行線程執(zhí)行線程執(zhí)行線程執(zhí)

18、行線程任務(wù)調(diào)度 表信息設(shè)置表歸檔設(shè)置列式數(shù)據(jù)庫(kù) 數(shù)據(jù)訪問(wèn)接口WebService 數(shù)據(jù)存儲(chǔ)配置數(shù)據(jù)格式配置HDFS文件系統(tǒng) 批處理模式處理批處理架構(gòu) 流處理監(jiān)控系統(tǒng)采集集群監(jiān)控處理集群監(jiān)控接收消息監(jiān)控處理任務(wù)監(jiān)控370TB/天120萬(wàn)條記錄/s百億條記錄秒級(jí)返回XData-AUS交互分析系統(tǒng)XData-AUS是曙光推出的面向多行業(yè)海量數(shù)據(jù)高速、全自由度的交互分析系統(tǒng)?;趦?nèi)存計(jì)算、流式計(jì)算和分布式搜索引擎技術(shù),具有如下特點(diǎn):采用統(tǒng)一的數(shù)據(jù)平臺(tái),對(duì)跨部門多系統(tǒng)的數(shù)據(jù)進(jìn)行整合,統(tǒng)一管理采用自動(dòng)發(fā)現(xiàn)技術(shù)構(gòu)建存儲(chǔ)分析集群,可對(duì)集群規(guī)模進(jìn)行靈活控制實(shí)時(shí)數(shù)據(jù)接入框架,支持異構(gòu)多源環(huán)境下的數(shù)據(jù)實(shí)時(shí)采集同步快

19、速檢索和分析,實(shí)現(xiàn)對(duì)百億級(jí)數(shù)據(jù)集的實(shí)時(shí)檢索和切面分析預(yù)置行業(yè)業(yè)務(wù)分析指標(biāo),提供全業(yè)務(wù)的個(gè)體和群體用戶畫像AUS系統(tǒng)架構(gòu)用戶UI及開(kāi)發(fā)工具包核心計(jì)算引擎數(shù)據(jù)索引引擎數(shù)據(jù)接入框架 SIEM APM DWECA 數(shù)據(jù)分析組件數(shù)據(jù)分析語(yǔ)言(MDL)UI數(shù)據(jù)分析引擎APISDK統(tǒng)計(jì)分析通路分析預(yù)測(cè)分析分類/聚類XData-AUS性能分析運(yùn)行時(shí)間(分鐘)平均解析入庫(kù)速度入庫(kù)數(shù)據(jù)量入庫(kù)記錄數(shù)速度30052.3GB/h261GB14.73w/s標(biāo)準(zhǔn)X86架構(gòu)服務(wù)器:6核*2.4GB,6*480GB SSD硬盤,128GB內(nèi)存測(cè)試數(shù)據(jù)量為25億條,總計(jì)約261GB測(cè)試表明:每小時(shí)可入庫(kù)52GB數(shù)據(jù),檢索和聚合分

20、析均可在1s內(nèi)完成檢索類型返回結(jié)果數(shù)量影響數(shù)據(jù)量返回時(shí)間單記錄查詢11 20ms數(shù)據(jù)范圍查詢2w2w 1s聚合分析(avg)10500w 100ms聚合排行分析(avg)502000w 150ms聚合排行分析(avg)502y 200ms某線上系統(tǒng)性能指標(biāo)類型描述數(shù)據(jù)記錄數(shù)2.2億條單記錄大小1KB單條數(shù)據(jù)查詢8ms數(shù)據(jù)過(guò)濾查詢1s,返回2000千萬(wàn)條記錄某項(xiàng)目測(cè)試指標(biāo) 測(cè)試背景及內(nèi)容 數(shù)據(jù)類型中國(guó)地面逐小時(shí)資料,txt格式每條記錄95個(gè)字段,包括風(fēng)、降水量、溫度、濕度、氣壓、云等要素信息1主要面向大數(shù)據(jù)的實(shí)時(shí)檢索分析能力進(jìn)行測(cè)試,包括數(shù)據(jù)檢索、實(shí)時(shí)統(tǒng)計(jì)分析、實(shí)時(shí)交互分析、穩(wěn)定性、容錯(cuò)性和高并

21、發(fā)等能力測(cè)試 數(shù)據(jù)規(guī)模2012年6月30日地面觀測(cè)樣例數(shù)據(jù),112493條基于提供的樣例數(shù)據(jù),生成60億條測(cè)試數(shù)據(jù)2 測(cè)試場(chǎng)景 數(shù)據(jù)導(dǎo)入 數(shù)據(jù)導(dǎo)入的性能 高并發(fā)場(chǎng)景下,快速提取填圖數(shù)據(jù)的能力獲取長(zhǎng)時(shí)間序列要素?cái)?shù)據(jù)的能力統(tǒng)計(jì)分析 ,要素信息的聚合統(tǒng)計(jì)能力,數(shù)據(jù)更新,可以實(shí)時(shí)反映在聚合結(jié)果中3某項(xiàng)目測(cè)試指標(biāo)測(cè)試項(xiàng)期望性能并發(fā)數(shù)測(cè)試結(jié)果數(shù)據(jù)加載20萬(wàn)/分鐘44537條/秒,約267萬(wàn)條/分鐘 長(zhǎng)時(shí)間序列數(shù)據(jù)查詢查詢結(jié)果2s內(nèi)返回87ms、63ms、83ms、72ms、85ms汛期降水量歷史排名分析查詢結(jié)果2s內(nèi)返回234ms、273ms、253ms、245ms、231ms汛期降水量排行查詢結(jié)果2s內(nèi)

22、返回310ms、325ms、276ms、423ms、313ms日降水量超過(guò)閾值日期查詢查詢結(jié)果2s內(nèi)返回487ms、525ms、576ms、523ms、513ms汛期降水量超閾值天數(shù)查詢結(jié)果2s內(nèi)返回688ms、862ms、486ms、548ms、686ms降水量極值(最大值、最小值)及平均值分析查詢結(jié)果2s內(nèi)返回9001.14s、1.19s、1.20s、1.37s、1.42s日最高溫度歷史排名查詢結(jié)果2s內(nèi)返回332ms、299ms、325ms、313ms、319ms日平均溫度排名查詢結(jié)果2s內(nèi)返回221ms、203ms、215ms、178ms、192ms日最高氣溫超過(guò)閾值日期查詢查詢結(jié)果2

23、s內(nèi)返回903ms、895ms、919ms、892ms、839ms日最高氣溫超過(guò)閾值天數(shù)查詢結(jié)果2s內(nèi)返回267ms、372ms、351ms、278ms、301ms降水要素填圖數(shù)據(jù)獲取500并發(fā)1s內(nèi)返回結(jié)果,900并發(fā)2s內(nèi)返回結(jié)果9001.8s全要素填圖數(shù)據(jù)獲取5s內(nèi)返回結(jié)果3.9s歷年周期要素分析數(shù)據(jù)獲取276ms系統(tǒng)業(yè)務(wù)運(yùn)維目的對(duì)行業(yè)糾紛進(jìn)行調(diào)解客戶個(gè)性化數(shù)據(jù)提取用途用戶行為的分析用戶行為的審計(jì)系統(tǒng)響應(yīng)時(shí)間統(tǒng)計(jì)系統(tǒng)請(qǐng)求數(shù)量統(tǒng)計(jì)運(yùn)維數(shù)據(jù)恢復(fù),當(dāng)主機(jī)發(fā)生數(shù)據(jù)災(zāi)難的時(shí)候,使用audit數(shù)據(jù)來(lái)恢復(fù)在災(zāi)難期間丟失或者損壞的數(shù)據(jù)實(shí)現(xiàn)形式使用統(tǒng)一的信息記錄格式強(qiáng)制記錄跟蹤信息記錄機(jī)制對(duì)應(yīng)用透明統(tǒng)一收

24、集和傳輸服務(wù)之間的調(diào)用關(guān)系問(wèn)題的快速定位調(diào)試應(yīng)用邏輯商業(yè)決策的依據(jù)多維度分析和展現(xiàn)準(zhǔn)實(shí)時(shí)信息查詢集中存儲(chǔ)和備份XData-EDU大數(shù)據(jù)實(shí)訓(xùn)系統(tǒng)網(wǎng)絡(luò)拓?fù)銱adoop集群網(wǎng)絡(luò)交換機(jī)千兆以太網(wǎng)教學(xué)平臺(tái)實(shí)驗(yàn)管理系統(tǒng)節(jié)點(diǎn)教學(xué)投影儀學(xué)生教師教學(xué)web客戶端管理節(jié)點(diǎn)數(shù)據(jù)節(jié)點(diǎn)網(wǎng)絡(luò)交換機(jī)學(xué)生web客戶端Xdata-EDU IDE開(kāi)發(fā)曙光XData-EDU大數(shù)據(jù)實(shí)訓(xùn)平臺(tái)XData-EDU優(yōu)勢(shì)教學(xué)一體化設(shè)備:提供完整的開(kāi)發(fā)運(yùn)行環(huán)境以及詳細(xì)文檔支持實(shí)驗(yàn)開(kāi)發(fā)平臺(tái):IDE開(kāi)發(fā)環(huán)境,封裝有JDK,Hadoop各組間依賴包,預(yù)置實(shí)驗(yàn)參考代碼實(shí)驗(yàn)運(yùn)行平臺(tái):學(xué)生可以通過(guò)Web界面上傳程序包并運(yùn)行,平臺(tái)提供結(jié)果查看和錯(cuò)誤反饋教學(xué)管

25、理平臺(tái):提供整個(gè)平臺(tái)的管理功能,包括用戶、資源、課程、實(shí)驗(yàn)過(guò)程管理等運(yùn)維管理平臺(tái):監(jiān)控、告警、服務(wù)管理、參數(shù)配置等功能XData-MBM有線運(yùn)營(yíng)商大數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)思路XDataMBM是面向廣媒運(yùn)營(yíng)商的數(shù)據(jù)分析系統(tǒng)。基于分布式搜索引擎技術(shù),提供對(duì)廣媒行業(yè)海量數(shù)據(jù)資產(chǎn)的檢索和分析服務(wù)。采用統(tǒng)一的數(shù)據(jù)平臺(tái),對(duì)不同部門各個(gè)系統(tǒng)的數(shù)據(jù)進(jìn)行整合,統(tǒng)一管理采用自動(dòng)發(fā)現(xiàn)技術(shù)構(gòu)建存儲(chǔ)分析集群,可對(duì)集群規(guī)模進(jìn)行靈活控制實(shí)時(shí)數(shù)據(jù)接入框架,支持異構(gòu)多源環(huán)境下的數(shù)據(jù)實(shí)時(shí)采集同步快速檢索和分析,實(shí)現(xiàn)對(duì)億級(jí)數(shù)據(jù)集的實(shí)時(shí)檢索和切面分析集成廣媒業(yè)務(wù)分析指標(biāo),提供全業(yè)務(wù)的個(gè)體和群體用戶畫像設(shè)計(jì)思路靈活的數(shù)據(jù)接入框架,整合多源數(shù)

26、據(jù)支持異構(gòu)存儲(chǔ)系統(tǒng)存儲(chǔ)容器類型:FTP、Oracle、MSSql、ES、CSV。數(shù)據(jù)同步配置增量同步、周期調(diào)度、同步拓?fù)浣Y(jié)構(gòu)數(shù)據(jù)解析、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗實(shí)時(shí)數(shù)據(jù)寫入接口RESTful、Java、Python設(shè)計(jì)思路集成業(yè)務(wù)分析指標(biāo)靈活組合過(guò)濾條件,任意維度數(shù)據(jù)抽取任意時(shí)間尺度分析提供全業(yè)務(wù)的個(gè)體和群體用戶畫像收視分析、訂購(gòu)分析、支付分析、消費(fèi)分析、工單分析應(yīng)用場(chǎng)景實(shí)時(shí)行為的精準(zhǔn)分析為實(shí)時(shí)推薦系統(tǒng)提供數(shù)據(jù) 統(tǒng)計(jì)支持結(jié)合節(jié)目標(biāo)簽化,定位收 視趨勢(shì)用戶收視行為分析精準(zhǔn)市場(chǎng)營(yíng)銷用戶標(biāo)簽化(全面數(shù)據(jù)下)主動(dòng)服務(wù)(挽留)精準(zhǔn)營(yíng)銷市場(chǎng)分析全面運(yùn)維數(shù)據(jù)監(jiān)控預(yù)警網(wǎng)絡(luò)惡化 主動(dòng)網(wǎng)優(yōu)及運(yùn)維 促進(jìn)網(wǎng)絡(luò)資源合理分配,提

27、高建設(shè)準(zhǔn)確性和投資準(zhǔn)確性 結(jié)合行為系統(tǒng),分析用戶行為XData-MBM展示系統(tǒng)大數(shù)據(jù)應(yīng)用場(chǎng)景1大數(shù)據(jù)系統(tǒng)架構(gòu)2算法及適用場(chǎng)景3大數(shù)據(jù)解決方案4XData系列產(chǎn)品5成功案例分享6XData部分成功案例北京市公安局某省通信管理局中國(guó)農(nóng)業(yè)銀行中國(guó)銀聯(lián)青海鹽湖所國(guó)家信息安全評(píng)測(cè)中心北京交通發(fā)展研究中心東莞公安天津市政府采購(gòu)中心溫州智慧交通氣象局公服中心解放軍理工大學(xué)河北聯(lián)合大學(xué)珠江數(shù)碼意爾康中科院信息工程研究所重慶醫(yī)科大學(xué)中航信貝爾信新華社同濟(jì)大學(xué)河南移動(dòng)北京市公安局某省通信管理局中國(guó)農(nóng)業(yè)銀行中國(guó)銀聯(lián)青海鹽湖所國(guó)家信息安全評(píng)測(cè)中心北京交通發(fā)展研究中心東莞公安溫州智慧交通氣象局公服中心解放軍理工大學(xué)河北

28、聯(lián)合大學(xué)珠江數(shù)碼意爾康中科院信息工程研究所重慶醫(yī)科大學(xué)中航信貝爾信新華社同濟(jì)大學(xué)河南移動(dòng)珠江數(shù)碼大數(shù)據(jù)分析系統(tǒng)分析場(chǎng)景收視行為分析越秀分公司收視情況分析近一個(gè)月共有20006人觀看,共觀看了17218997分鐘,人均觀看時(shí)長(zhǎng)861分鐘,共有2625680次觀看記錄觀看人數(shù)趨勢(shì)分析,每周六都是低谷觀看喜好珠江數(shù)碼大數(shù)據(jù)分析系統(tǒng)分析場(chǎng)景收視行為分析中央一臺(tái)高清收視情況分析最近30天觀看人數(shù)趨勢(shì)和時(shí)間分布情況用戶觀看設(shè)備數(shù)排行及用戶地理分布情況用戶觀看次數(shù)排行及觀看節(jié)目偏好珠江數(shù)碼大數(shù)據(jù)分析系統(tǒng)分析場(chǎng)景收視行為分析2016年春節(jié)聯(lián)歡晚會(huì)收視情況分析觀看人數(shù)趨勢(shì)和時(shí)間分布情況(4小時(shí)為單位,支持任意粒度)用戶觀看次數(shù)排行及用戶地理分布情況珠江數(shù)碼大數(shù)據(jù)分析系統(tǒng)分析場(chǎng)景訂購(gòu)行為分析訂購(gòu)產(chǎn)品數(shù)量分析過(guò)去5年訂購(gòu)產(chǎn)品數(shù)量品牌排行過(guò)去5年數(shù)字電視用戶和互動(dòng)電視用戶訂購(gòu)產(chǎn)品數(shù)量趨勢(shì)數(shù)字電視用戶和互動(dòng)電視用戶訂購(gòu)產(chǎn)品排行曙光助力民航業(yè)低成本迎接大數(shù)據(jù)挑戰(zhàn)Kafka流計(jì)算框架YARNHBaseHDFS OS TOSF/JCFAPPLogTAM AgentTLH/MCSS/SIHAirline GUI/IBE/eTerm客戶需求業(yè)務(wù)需求對(duì)行業(yè)糾

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論