華為FusionInsight大數(shù)據(jù)平臺方案介紹_第1頁
華為FusionInsight大數(shù)據(jù)平臺方案介紹_第2頁
華為FusionInsight大數(shù)據(jù)平臺方案介紹_第3頁
華為FusionInsight大數(shù)據(jù)平臺方案介紹_第4頁
華為FusionInsight大數(shù)據(jù)平臺方案介紹_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、華為FusionInsight大數(shù)據(jù)平臺讓數(shù)據(jù)“慧”說話產(chǎn)業(yè)趨勢邁入大數(shù)據(jù)時代大數(shù)據(jù)應(yīng)用場景IT產(chǎn)業(yè)快速發(fā)展移動互聯(lián)70+億 用戶 接近全球人口總數(shù) 78% CAGR 數(shù)據(jù)增長大數(shù)據(jù)數(shù)據(jù)即資產(chǎn)未來5年,企業(yè)間的競爭在數(shù)據(jù)層面云計算云成為新一代IT基礎(chǔ)設(shè)施 56%中小型企業(yè)購買云服務(wù)社交社交即業(yè)務(wù)86% 企業(yè)在社交媒體上開展業(yè)務(wù) 邁入大數(shù)據(jù)時代1000+PB24億網(wǎng)民1天產(chǎn)生的數(shù)據(jù)63% GAGR非結(jié)構(gòu)化數(shù)據(jù)增長率數(shù)據(jù)摩爾定律:Y=C2XX代表時間,Y代表用戶的信息分享量,C代表現(xiàn)在時刻的分享信息量30+TB交易量3000+萬筆/天1PB/SCERN:核爆產(chǎn)生數(shù)據(jù)的速度華為對大數(shù)據(jù)的理解本質(zhì):物

2、理世界在數(shù)字世界的映像目標(biāo):更多維度的數(shù)據(jù),挖掘事務(wù)背后的因果關(guān)系企業(yè)提高競爭力,應(yīng)該掌握和分析更多的數(shù)據(jù)大數(shù)據(jù)可以幫助企業(yè)更準(zhǔn)確預(yù)判客戶需求,洞察市場,產(chǎn)品創(chuàng)新。金融:實時征信,精準(zhǔn)小微貸,防欺詐電信:流量經(jīng)營、客戶維挽、套餐包精準(zhǔn)營銷公安:同行車輛、碰撞分析、電商:亞馬遜推出“預(yù)判發(fā)貨”媒資:Netflix推出紙牌屋電視劇傳統(tǒng)媒體互聯(lián)網(wǎng)1.0互聯(lián)網(wǎng)2.0/3.0顧客的力量和選擇公司的力量和聲音客戶占據(jù)主動金融:大數(shù)據(jù)讓銀行更了解客戶與識別潛在風(fēng)險王五作為某銀行客戶,需要申請一張新的信用卡實時征信、精準(zhǔn)營銷、在線明細(xì)、精準(zhǔn)小微貸、24周大數(shù)據(jù)平臺客戶信息系統(tǒng)交易系統(tǒng)信用系統(tǒng)根據(jù)拜訪客戶需要進(jìn)

3、行裁減金融:大數(shù)據(jù)支撐金融從降成本向業(yè)務(wù)創(chuàng)新邁進(jìn)互聯(lián)網(wǎng)等技術(shù)應(yīng)用讓數(shù)據(jù)獲取成本降低,但數(shù)據(jù)挖掘成本還很高階段一階段二階段三卸載模式離線批處理海量特征全量建模實時業(yè)務(wù)創(chuàng)新業(yè)務(wù)根據(jù)拜訪客戶需要進(jìn)行裁減運營商:在用戶數(shù)據(jù)方面相較互聯(lián)網(wǎng)擁有天然優(yōu)勢User Data in Telecom NetworksUser Profile Comparison Basic Information(Gender, Age)Preference(Interesting, Habits)Social relation(Family, Contacts)Telcos VS Internet SPsSuggestion

4、For TelcosHave done little, be potential to pursue advancers from InternetDoing well, but can do better!Knows more than competitors, should mine more.Internet SP could get user data in these 4 layersTelcos could get data in all 7 layers!Context(Location, Presence, emotion)Good base of network awaren

5、ess, could do muchcategories of User Profile運營商擁有數(shù)據(jù)源的優(yōu)勢,已經(jīng)做了很多數(shù)據(jù)分析的工作,但可以做的更好客戶移動互聯(lián)網(wǎng)數(shù)據(jù)內(nèi)容興趣標(biāo)簽金融、汽車、綜藝、美容、旅游、娛樂、體育、房產(chǎn)等自有業(yè)務(wù)偏好信息手機(jī)游戲、手機(jī)動漫、手機(jī)閱讀等網(wǎng)絡(luò)輿情熱點關(guān)注釣魚島、遼寧號、十八大等位置軌跡家庭位置、工作場所、移動軌跡、常去地點等終端使用特征 IMEI、終端類型、是否支持GPRS、是否支持WLAN、上次換機(jī)時間、換機(jī)周期、換機(jī)次數(shù)、是否定制終端等使用時間特征上網(wǎng)集中時間段、平均每次上網(wǎng)時間、平均每天上網(wǎng)次數(shù)、使用最長時間等行為偏好即時通訊、微博、炒股、上網(wǎng)、聽

6、歌、閱讀、游戲等OTT業(yè)務(wù)使用應(yīng)用軟件偏好、網(wǎng)站偏好等根據(jù)拜訪客戶需要進(jìn)行裁減運營商:大數(shù)據(jù)支撐運營商向Digital Telco轉(zhuǎn)型服務(wù)器網(wǎng)絡(luò)存儲安全工程消費信息位置信息關(guān)系信息日常跟蹤服務(wù)數(shù)據(jù)業(yè)務(wù)內(nèi)容合作方運營電話短信video網(wǎng)絡(luò)數(shù)據(jù)用戶數(shù)據(jù)業(yè)務(wù)數(shù)據(jù)數(shù)據(jù)獲取 To C:用戶市場To B:企業(yè)市場To Self:內(nèi)部個性化,智能化,長尾業(yè)務(wù)數(shù)據(jù)開放,企業(yè)智能。輔助決策,提升效率。數(shù)據(jù)存儲數(shù)據(jù)分析與公共信息結(jié)合政府交通社交搜索與社交信息結(jié)合123基于電信自有數(shù)據(jù)數(shù)據(jù)挖掘根據(jù)拜訪客戶需要進(jìn)行裁減公安:大數(shù)據(jù)實現(xiàn)在海量數(shù)據(jù)中快速發(fā)現(xiàn)價值信息道路自動發(fā)現(xiàn)治安管理社會關(guān)系發(fā)現(xiàn)犯罪預(yù)警根據(jù)拜訪客戶需要

7、進(jìn)行裁減公安:以大數(shù)據(jù)為支柱的智慧警務(wù)成為警務(wù)發(fā)展的潮流智慧指揮智慧偵查智慧情報資源管理平臺計算資源池網(wǎng)絡(luò)資源池存儲資源池智慧警務(wù)更高效的情報收集更方便的數(shù)據(jù)共享更精準(zhǔn)的犯罪預(yù)防更有效的情報處理根據(jù)拜訪客戶需要進(jìn)行裁減主流數(shù)據(jù)處理技術(shù)及數(shù)據(jù)處理技術(shù)趨勢大數(shù)據(jù)處理技術(shù)數(shù)據(jù)處理技術(shù)與架構(gòu)發(fā)展趨勢傳統(tǒng)數(shù)據(jù)倉庫SQL、UPFSQL執(zhí)行引擎行存、磁盤、單機(jī)/SE集群I/O存在瓶頸擴(kuò)展能力差實時性差非結(jié)構(gòu)化數(shù)據(jù)存儲無法支持復(fù)雜計算數(shù)據(jù)處理能力弱UPF: User-defined Process FunctionSE: Share EverythingSN:Share Nothing并行批處理/Hadoop

8、SQL、Java、Python多種計算模型(MR、圖計算、)HDFS、SN分布式解決“大、雜”多類型數(shù)據(jù)復(fù)雜計算模型靈活編程接口MPP數(shù)據(jù)倉庫SQL、UPF向量迭代、并行列存、SN分布式內(nèi)存分析數(shù)據(jù)庫SQL、UPFMicroEngine、并行列存、內(nèi)存流處理引擎CQL、規(guī)則網(wǎng)狀算子執(zhí)行內(nèi)存解決“大、快”結(jié)構(gòu)化數(shù)據(jù)快速查詢、交互式實時查詢One sizes fit all單一架構(gòu)One sizes fit domain分離架構(gòu)(四套系統(tǒng))One stack rules them all融合架構(gòu)(四套變一套)統(tǒng)一持久層,數(shù)據(jù)減少移動統(tǒng)一管理,實現(xiàn)資源共享和管理自動化同一數(shù)據(jù)可同時進(jìn)行批處理、流處理

9、以及查詢多種計算模型解決“快、雜”異構(gòu)流數(shù)據(jù)實時處理MPP DB高級編程接口批計算流計算分布式文件系統(tǒng)資源管理開發(fā)IDE系統(tǒng)管理數(shù)據(jù)挖掘算法/建模/其他工具 Hadoop已成為大數(shù)據(jù)事實標(biāo)準(zhǔn)第一階段(20052009年):模仿Google的“三駕馬車”,主導(dǎo)者是Yahoo!,Facebook等互聯(lián)網(wǎng)廠商,相關(guān)項目第二階段(2009年):模仿Google的“新三駕馬車”,主導(dǎo)者是Cloudera、Hortonworks等Hadoop發(fā)行版廠商,IBM、EMC、Intel、Huawei等傳統(tǒng)IT廠商開始集成Hadoop,Haoop進(jìn)入企業(yè)市場,相關(guān)項目第三階段(2012年):博采眾長,吸納AMP

10、Lab、流計算等成果,通過配套工具構(gòu)筑大數(shù)據(jù)領(lǐng)域生態(tài)系統(tǒng),形成事實標(biāo)準(zhǔn);相關(guān)項目。6大Hadoop 發(fā)行版廠商Cloudera、Hortonworks、MapR、 IBM 、EMC、Huawei揭開Hadoop神秘的面紗Hadoop是Apache基金會的一個項目總稱,主要由HDFS和MapReduce組成。 HDFS是對Google GFS的開源實現(xiàn),MapReduce是對Google MapReduce的開源實現(xiàn)。 Hadoop 來源于其創(chuàng)始人Doug Cutting的兒子給一頭黃色大象取的名字。Hadoop最初只與網(wǎng)頁索引有關(guān),迅速發(fā)展成為分析大數(shù)據(jù)的領(lǐng)先平臺。Hadoop 框架與實例HD

11、FS 分布式文件系統(tǒng)Hadoop 框架HCatalog元數(shù)據(jù)管理HBase分布式列數(shù)據(jù)庫HiveSQL查詢語言Pig流數(shù)據(jù)處理語言MapReduce分布式數(shù)據(jù)處理框架&集群資源管理協(xié)調(diào)服務(wù),分布式鎖ZooKeepereHadoop Common分布式文件系統(tǒng)和通用I/O的組件與接口數(shù)據(jù)源數(shù)據(jù)倉庫日志文件媒體文件RSS分布式數(shù)據(jù)存儲HDFS, 分布式數(shù)據(jù)處理數(shù)據(jù)應(yīng)用QueriesAnalyticsSearchDatameerSqoop、Flume、Hadoop 實例HBase MapReduceHadoop 核心組件: HDFS 和 MapReduce海量數(shù)據(jù)的分布式存儲海量數(shù)據(jù)的分布式處理大數(shù)

12、據(jù)處理技術(shù)日新月異,更高效的計算框架不斷涌現(xiàn)HDFSHadoop 1.0MapReduce集群資源管理 & 分布式數(shù)據(jù)處理HDFSHadoop 2.0YARN 集群資源管理批處理Off-line computation交互計算Tez (Hive/Pig)批處理M-R流處理Storm,S4,迭代計算Spark其它Graph Spark :迭代計算模型Spark是UC Berkeley AMP 實驗室基于map reduce算法實現(xiàn)的分布式計算框架,輸出和結(jié)果保存在內(nèi)存中,不需要頻繁讀寫HDFS,數(shù)據(jù)處理效率更高Spark適用于近線或準(zhǔn)實時、數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)應(yīng)用場景Hadoop:兩步計算,磁盤存

13、儲Spark:多步計算,內(nèi)存存儲VSSpark:大數(shù)據(jù)技術(shù)新方向Spark SQLSpark vs HadoopHadoop /Spark /是否開源成熟的開源項目開源,2013年8月申請成為Apache孵化項目文件系統(tǒng)HDFS支持HDFS、MESOS、S3等文件系統(tǒng),可以直接將spark集成到hadoop上,可以從hdfs讀取和寫入文件中間結(jié)果存儲存儲到磁盤內(nèi)存存儲Job定義Map-Reduce 兩步計算DAG的Job定義,支持多步計算開發(fā)語言JavaScala、Java 、Python易用性Java API,無交互式界面提供豐富的Scala, Java,Python API及交互式Shel

14、l來提高可用性容錯性數(shù)據(jù)冗余,任務(wù)失敗重計算Checkpoint機(jī)制,RDD支持重計算性能頻繁讀寫磁盤,低數(shù)據(jù)緩存內(nèi)存,高應(yīng)用場景適用于大數(shù)據(jù)量,迭代次數(shù)少,無時延要求的業(yè)務(wù)適用于中等數(shù)據(jù)量(TB級),需要多次操作特定數(shù)據(jù)集,且頻繁迭代計算的數(shù)據(jù)業(yè)務(wù)場合未來發(fā)展第2代hadoop,融合的分布式計算框架可插拔的job調(diào)度器/緩存管理策略Spark大數(shù)據(jù)棧-構(gòu)建MLbase、Tachyon、GraphXStrom:流式數(shù)據(jù)處理引擎Hadoop:分批處理Storm:實時處理Storm 廣泛應(yīng)用于實時分析,在線機(jī)器學(xué)習(xí),持續(xù)計算等領(lǐng)域。VSStorm 框架及實例Storm框架Storm實例華為大數(shù)據(jù)解

15、決方案方案介紹FusionInsight產(chǎn)品定位: 企業(yè)級大數(shù)據(jù)處理、分析挖掘平臺運營商金融政府FusionInsight 大數(shù)據(jù)平臺數(shù)據(jù)服務(wù)離/近線計算內(nèi)存計算并行數(shù)據(jù)庫MPPDB實時流計算征信推薦明細(xì)(影像)偽控數(shù)據(jù)采集數(shù)據(jù)集成數(shù)據(jù)探索分析結(jié)果呈現(xiàn)數(shù)據(jù)分析敏捷完全開放的架構(gòu),性能線性擴(kuò)展豐富的工具支持,開發(fā)運維高效強(qiáng)大的SQL能力,業(yè)務(wù)移植便捷智慧全量建模,深刻洞察自研算法,高效精準(zhǔn)可信全組件HA、異地容災(zāi)、金融等保 開放共贏,可信賴的合作伙伴FusionInsight產(chǎn)品架構(gòu)概述FusionInsight的Hadoop層提供大數(shù)據(jù)處理環(huán)境,基于社區(qū)開源軟件增強(qiáng),按照場景選擇業(yè)界最佳實踐

16、FusionInsight的DataFarm層提供支撐端到端數(shù)據(jù)洞察,構(gòu)建數(shù)據(jù)到信息到知識到智慧的數(shù)據(jù)供應(yīng)鏈, 其中包括相對獨立的數(shù)據(jù)集成服務(wù)Porter,數(shù)據(jù)挖掘服務(wù)Miner和數(shù)據(jù)服務(wù)框架FarmerFusionInsight Manager是一個分布式系統(tǒng)管理框架,管理員可以從單一接入點操控分布式集群,包括系統(tǒng)管理(OM/NTP/災(zāi)備)、數(shù)據(jù)安全管理HIVE/Impala/ElkHDFS/HBaseM/RSparkPorterMinerDataFarmHadoopSolr系統(tǒng)管理FarmerManagerHadoop APIPlugin APIOpenAPI/SDK應(yīng)用服務(wù)層REST/S

17、NMP/SyslogDataInformationKnowledgewisdomYarn/ Zookeeper 安全管理MPP DBStorm為業(yè)務(wù)進(jìn)行優(yōu)化的統(tǒng)一開放大數(shù)據(jù)平臺,數(shù)據(jù)處理敏捷高效智慧可信敏捷FusionInsight用100開源的核心支持混合負(fù)載,從批量、交互查詢、數(shù)據(jù)挖掘,到實時流和查詢等各種場景開放式存儲格式(Rcfile/ORCfile/Parquet),以避免鎖定私有文件格式所有的組件都通過Manager提供的插件框架來按需安裝開源 輕度增強(qiáng)開源深度增強(qiáng)開源孵化特性自研DSLIDE分布式計算框架HDFS/HBaseStormMapReduce/TezPigHiveYAR

18、N/ZookeeperSparkFlumeSqoopIntegrationBatch ProcessingInteractiveQuerySearchMachine LearningEvent StreamProcessImpalaSolrMLLIB分布式存儲StreamingCalculation基礎(chǔ)設(shè)施Standard ServerIMC ServerStorage ServerPluggable AcceleratorNetworkOnline QuerySparkStreamingCQLPhoenixElkHiGraphCTBaseMPP DB組件特性優(yōu)化HBase二級索引CTBase

19、MOBHDFS文件塊同分布NameNode啟動加速MapReduce任務(wù)優(yōu)先級調(diào)度容器重用SparkSpark SQL增強(qiáng)Spark Core增強(qiáng)。豐富的工具支持,業(yè)務(wù)開發(fā)運維高效便捷智慧可信敏捷HBaseRecoverable Connection ManagerSchema DataEnhance Hbase SDKtry table = new HTable(conf, TABLE); / 1. Generate RowKey. . / 2. Create Put instance. Put put = new Put(rowKey); / 3. Convert columns into

20、 qualifiers(Need to consider merging cold columns). / 3.1. Add hot columns. . / 3.2. Merge cold columns. . put.add(COLUMN_FAMILY, Bytes.toBytes(QA), hotCol); / 3.3. Add cold columns. put.add(COLUMN_FAMILY, Bytes.toBytes(QB), coldCols); / 4. Put into HBase. table.put(put); catch (IOException e) / Han

21、dle IOE. Need to re-create connections under some scenarios.try table = new ClusterTable(conf, CLUSTER_TABLE); / 1. Create CTRow instance. CTRow row = new CTRow(); / 2. Add columns. . / 3. Put into HBase. table.put(TABLE, row); catch (IOException e) / Does not care connection re-creation.HBase原生API增

22、強(qiáng)APIHBase APIStormDef Input:public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) public void nextTuple() public void declareOutputFields(OutputFieldsDeclarer declarer) Def logic:public void execute(Tuple tuple, BasicOutputCollector collector) public void declareOutputF

23、ields(OutputFieldsDeclarer ofd) Def Output: public void execute(Tuple tuple, BasicOutputCollector collector) public void declareOutputFields(OutputFieldsDeclarer ofd) Def Topology:public static void main(String args) throws Exception Def Input:Create Input Stream kafkareaderDef logic:Insert into fil

24、terstr select * from kafkareader where name=“HUAWEI”;Def Output:Create Output Stream kafkawriterDef Topology:Submit application test;Storm原生APICQL:CQL SDKStorm API豐富的二次開發(fā)接口增強(qiáng)Step2:配置集群拓?fù)銼tep3:配置集群參數(shù)自動完成安裝配置集群節(jié)點狀態(tài)集群服務(wù)狀態(tài)HBase RS狀態(tài)便捷的運維管理DB文件服務(wù)器MR/spark/Hive任務(wù)提交目標(biāo)系統(tǒng)HDFS/HiveHBaseRDMS數(shù)據(jù)數(shù)據(jù)FTP/SFTP/NFSJDB

25、C強(qiáng)大的數(shù)據(jù)加載工具M(jìn)Q接入子系統(tǒng)containers系統(tǒng)管理ManagerHadoop其他外部系統(tǒng)外部應(yīng)用RediszookeeperBLU管理服務(wù)管理Redis管理ALBHadoop APIFusionInsight Farmer高效的大數(shù)據(jù)應(yīng)用開發(fā)運行平臺強(qiáng)大的SQL支持能力,業(yè)務(wù)開發(fā)移植方便智慧可信敏捷通用SQL標(biāo)準(zhǔn)接口,全面兼容傳統(tǒng)SQL和Hadoop的HQL全面支持JDBC、ODBC接口,并提供豐富的擴(kuò)展接口如PL/C,PL/Jaca,PL/Python靈活的存儲格式HDFS(ORC、Parquet),HBase(KV)基于插件式方案構(gòu)建基于Spark SQL框架的差異化語法解析器

26、和性能優(yōu)化器實現(xiàn)標(biāo)準(zhǔn)SQL的TPC-DS用例99個全部通過。滿足客戶常用的標(biāo)準(zhǔn)SQL訴求SparkSQL增強(qiáng)查詢、報表、統(tǒng)計DataHDFSSQL 引擎SQL 引擎SQL 執(zhí)行器Loader ManagerELK結(jié)構(gòu)化數(shù)據(jù)分析挖掘、機(jī)器學(xué)習(xí)半/非結(jié)構(gòu)化數(shù)據(jù)分析挖掘平臺;流處理平臺;非結(jié)構(gòu)化處理平臺;SQL 執(zhí)行器SQL 執(zhí)行器FusionInsight HDELK:SQL on Hadoop超百萬維數(shù)據(jù)分析挖掘平臺,深刻洞察數(shù)據(jù)價值智慧可信敏捷FusionInsight Miner數(shù)據(jù)探索并行化機(jī)器學(xué)習(xí)算法庫(HIMM/Mahout/MLlib/HiGraph)建模分析行業(yè)應(yīng)用使能器(Enab

27、ler)金融行業(yè)模型使能套件電信行業(yè)模型使能套件通用使能套件(標(biāo)簽管理、推薦引擎)特征工程數(shù)據(jù)處理平臺端到端分析平臺一站式平臺支撐數(shù)據(jù)分析全流程 ,讓大數(shù)據(jù)探索和洞察變得簡單特征工程/社交化特征復(fù)用,基于分布式內(nèi)存計算,支持超百萬維度特征分析圖形化控件開發(fā)過程封裝成圖形化算子,無需任何代碼高性能算法庫自研HiGraph算法庫, 比開源Mllib算法庫快35倍開放性與R無縫對接, 支持與SAS、SPSS等對接業(yè)務(wù)驅(qū)動提供基于業(yè)務(wù)問題驅(qū)動的閉環(huán)解決方案自研數(shù)據(jù)挖掘算法庫HiGraph,提升數(shù)據(jù)挖掘效率智慧可信敏捷自研算法集算法名稱HiGraph(目前提供60多個算法,其中50以上為華為自研算法,包

28、括對現(xiàn)有算法的優(yōu)化以及完全自研算法)LR based SGDLR based TRONALSSVD+AproiroDBScanFastunfold。相比開源MLLIB提速3X以上可信產(chǎn)品:全面的產(chǎn)品安全性智慧可信敏捷系統(tǒng)安全數(shù)據(jù)安全認(rèn)證安全完全開源組件增強(qiáng)操作系統(tǒng)安全加固用戶組件權(quán)限控制用戶權(quán)限認(rèn)證管理數(shù)據(jù)完整性校驗組件數(shù)據(jù)加密首家符合國家金融等級保護(hù)的大數(shù)據(jù)平臺可信產(chǎn)品:完備的產(chǎn)品可靠性智慧可信敏捷系統(tǒng)可靠性數(shù)據(jù)可靠性所有組件無單點故障跨數(shù)據(jù)中心容災(zāi)所有管理節(jié)點HA軟硬件健康狀態(tài)監(jiān)控網(wǎng)絡(luò)平面隔離第三方備份系統(tǒng)集成關(guān)鍵數(shù)據(jù)掉電保護(hù)硬盤熱插拔首家支持1000+km容災(zāi)的大數(shù)據(jù)平臺可信開發(fā)流程:安

29、全活動嵌入IPD開發(fā)流程智慧可信敏捷安全活動DCP/TR檢查點IPD安全活動融入決策檢查點,合同和技術(shù)評審/其他評審或檢查點安全需求安全設(shè)計安全開發(fā)安全測試安全交付和維護(hù)安全需求分析安全威脅分析安全架構(gòu)/特性設(shè)計開源及第三方軟件選型代碼安全檢視代碼安全掃描報告安全測試方案和用例安全測試報告(包括開源軟件)安全補(bǔ)?。ê_源軟件及第三方軟件)軟件外包(安全需求傳遞, 設(shè)計評審,代碼安全審查,安全測試驗收)配置管理 (代碼,文檔,研發(fā)工具,開源軟件) 安全基線、規(guī)范、標(biāo)準(zhǔn)、指導(dǎo)書ConceptTR1PlanTR2TR3DevelopmentTR4TR4ATR5QualifyTR6LaunchGALi

30、fecycleCharterCDCPPDCPADCP部分Hadoop開源風(fēng)險舉例智慧可信敏捷序號安全風(fēng)險華為安全紅線要求1不安全加密算法:包括加密算法和隨機(jī)數(shù)生成 例如:zookeeper里面某些認(rèn)證相關(guān)代碼使用了java.util.Random弱隨機(jī)函數(shù)禁止使用公司認(rèn)定的不安全的密碼算法,出于行業(yè)標(biāo)準(zhǔn)遵從、與第三方對接、向下兼容的場景例外。不安全密碼算法: 1)分組密碼算法:Blowfish, DES, DESX, RC2, Skipjack, 2TDEA, TEA 2)流密碼算法: SEAL, CYLINK_MEK, RC4 (128 bits) 3)哈希算法: SHA0, MD2, MD

31、4, MD5, RIPEMD, RIPEMD-128;SHA-1禁止用于數(shù)字簽名的場景 4)數(shù)字簽名算法:RSA (1024 bits)、DSA (1024 bits)、ECDSA(160bits) 5)密鑰交換算法:DH ( 1024 bits)2Web無需認(rèn)證即可訪問 ,例如:HDFS,Hbase等組件的Web服務(wù)可以直接訪問,不需要是集群的合法用戶。對于每一個需要授權(quán)訪問的請求,必須核實用戶的會話標(biāo)識是否合法、用戶是否被授權(quán)執(zhí)行這個操作。3XSS注入保護(hù)不足 ,例如:webhdfs頁面的路徑輸入框存在腳本注入問題在服務(wù)器端對所有來自不可信數(shù)據(jù)源的數(shù)據(jù)進(jìn)行校驗,拒絕任何沒有通過校驗的數(shù)據(jù)。

32、若輸出到客戶端的數(shù)據(jù)來自不可信的數(shù)據(jù)源,則須對該數(shù)據(jù)進(jìn)行相應(yīng)的編碼或轉(zhuǎn)義。4審計日志記錄不全 ,例如:Hive的metastore,社區(qū)版本完全沒有審計日志管理面所有對系統(tǒng)產(chǎn)生影響的用戶活動、操作指令必須記錄日志,日志內(nèi)容要能支撐事后的審計,記錄包括用戶ID、時間、事件類型、被訪問資源的名稱、訪問發(fā)起端地址或標(biāo)識、訪問結(jié)果等;日志要有訪問控制,只有管理員才能有刪除權(quán)限。5認(rèn)證憑據(jù)等敏感信息打印 ,例如:hbase、hdfs等的debug日志打印了TGT信息產(chǎn)品安全敏感數(shù)據(jù)(如:個人用戶使用的口令、操作維護(hù)用途的口令、用于網(wǎng)絡(luò)通信協(xié)議協(xié)商的身份認(rèn)證Key等)不得在日志中明文記錄。開放共贏,可信賴

33、合作伙伴智慧可信敏捷2014年,金融大數(shù)據(jù)聯(lián)盟成立2015年,上海聯(lián)通合作創(chuàng)新展示中心揭幕2015年,大數(shù)據(jù)聯(lián)合解決方案發(fā)布全球布局、全面覆蓋大數(shù)據(jù)領(lǐng)域關(guān)鍵技術(shù)西安研究所:Hadoop產(chǎn)品化(IT)ELK/MPP DB(高斯實驗室)深圳研發(fā)基地/香港:大數(shù)據(jù)洞察平臺(IT)大數(shù)據(jù)解決方案(IT)數(shù)據(jù)挖掘算法(諾亞實驗室)印度研究所:Hadoop(中央軟件院)數(shù)據(jù)可視化(中央軟件院)MOLAP(中央軟件院)美研所:Spark (中央軟件院)ELK/MPP DB(高斯實驗室)大數(shù)據(jù)系統(tǒng)加速(香農(nóng)實驗室)歐研所:分布式內(nèi)存DB(中央軟件院)分布式計算算法(中央軟件院)杭州研究所:Hadoop(中央軟

34、件院)Spark(中央軟件院)流計算(中央軟件院)加研所:Yarn/大規(guī)模調(diào)度硬件加速(中央硬件院)金融大數(shù)據(jù)分析(IT)俄研所:大數(shù)據(jù)算法(香農(nóng)實驗室)融合開放、深度回饋社區(qū)4實踐經(jīng)驗華為大數(shù)據(jù)成功實踐招商銀行:構(gòu)筑大數(shù)據(jù)平臺向互聯(lián)網(wǎng)金融轉(zhuǎn)型銀行業(yè)務(wù)競爭激烈,急需以金融數(shù)據(jù)分析、挖掘為基礎(chǔ)的產(chǎn)品預(yù)測、創(chuàng)新和風(fēng)險評估,提升自身競爭力面對金融數(shù)據(jù)量和種類不斷增加,傳統(tǒng)數(shù)據(jù)倉庫僅適合結(jié)構(gòu)化數(shù)據(jù)處理,擴(kuò)展性差、擴(kuò)容成本高,無法滿足大數(shù)據(jù)時代要求客戶挑戰(zhàn)解決方案企業(yè)級大數(shù)據(jù)平臺:高可靠、高安全、易管理、易開發(fā)第一家支持金融等保、第一家支持1000公里以上異地容災(zāi) 的海量數(shù)據(jù)分析和挖掘平臺,無縫銜接企業(yè)

35、應(yīng)用擁有內(nèi)核級開發(fā)的工程團(tuán)隊和咨詢、定制化的服務(wù)能力客戶價值統(tǒng)一的全量數(shù)據(jù)分析和挖掘平臺豐富的創(chuàng)新業(yè)務(wù):在線明細(xì),精準(zhǔn)營銷,實時征信 小微貸獲客預(yù)測,比傳統(tǒng)方式提升40倍的轉(zhuǎn)化率;或有金融資產(chǎn)預(yù)測誤差率降低一倍;信用卡征信由原來的15天減少到2-5秒鐘支持線性擴(kuò)容,擴(kuò)容成本低招商銀行是中國第一家企業(yè)創(chuàng)辦的股份制商業(yè)銀行,一直秉承“創(chuàng)新、穩(wěn)健、服務(wù)”的核心價值觀,“因您而變,因勢而變”的經(jīng)營理念,不斷創(chuàng)新著金融產(chǎn)品和服務(wù),已經(jīng)迅速發(fā)展成中國第六大商業(yè)銀行,躋身全球前100家大銀行之列。應(yīng)用1:在線歷史明細(xì)查詢X86服務(wù)器X86服務(wù)器X86服務(wù)器X86服務(wù)器HDFSZooKeeperHBase/C

36、TBaseFusionInsight HDFusionInsight Farmer業(yè)務(wù)請求接入和分發(fā)分布式應(yīng)用容器歷史明細(xì)查詢業(yè)務(wù)邏輯電話銀行95555系統(tǒng)網(wǎng)點柜員系統(tǒng)在線歷史明細(xì)查詢解決方案:華為提供:FusionInsight Farmer數(shù)據(jù)服務(wù)平臺 + FusionInsight HD基礎(chǔ)數(shù)據(jù)平臺解決方案,客戶只需專注歷史明細(xì)查詢業(yè)務(wù)的編寫FusionInsight Farmer數(shù)據(jù)服務(wù)平臺支持多業(yè)務(wù)系統(tǒng)并發(fā)訪問,實現(xiàn)實時歷史明細(xì)查詢能力FusionInsight Farmer數(shù)據(jù)服務(wù)平臺同時支持Socket、Web業(yè)務(wù)請求接入和分發(fā),與招行業(yè)務(wù)系統(tǒng)無縫銜接創(chuàng)新的CTBase方案,獨有

37、的表聚簇和多級索引支持HBase多表關(guān)聯(lián)查詢的能力HBase同時支持SQL、Java API編程接口,適應(yīng)客戶的編程習(xí)慣Manager統(tǒng)一管理Loader數(shù)據(jù)集成FusionInsight歷史明細(xì)查詢業(yè)務(wù)邏輯歷史明細(xì)查詢業(yè)務(wù)邏輯應(yīng)用2:全量多維度客戶行為分析X86服務(wù)器X86服務(wù)器X86服務(wù)器X86服務(wù)器HDFSZooKeeperHBase/CTBaseMiner 數(shù)據(jù)洞察特征管理銀行零售客戶分析MRYARNHiveMahout算法庫建模分析數(shù)據(jù)可視化用戶特征刻畫小微貸傾向分析銀行對公客戶分析企業(yè)輿情分析金融關(guān)系發(fā)現(xiàn)或有資產(chǎn)預(yù)測企業(yè)特征刻畫企業(yè)結(jié)算關(guān)系Manager統(tǒng)一管理HadoopLoader數(shù)據(jù)集成全量多維客戶行為分析解決方案:華為提供:FusionInsight Miner數(shù)據(jù)洞察平臺 + FusionInsight HD基礎(chǔ)數(shù)據(jù)平臺的解決方案,客戶只需專注客戶行為分析業(yè)務(wù)的編寫FusionInsight Miner數(shù)據(jù)洞察平臺基于大數(shù)據(jù)全量建模分析,可以挖掘出14000維客戶特征,實現(xiàn)多維客戶行為并發(fā)分析FusionInsight Miner數(shù)據(jù)洞察平臺采用機(jī)器自動學(xué)習(xí)機(jī)制,大大提高分析準(zhǔn)確度客戶行為分析結(jié)果存儲在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論