系統(tǒng)性能指標和測試結(jié)果說明_第1頁
系統(tǒng)性能指標和測試結(jié)果說明_第2頁
系統(tǒng)性能指標和測試結(jié)果說明_第3頁
系統(tǒng)性能指標和測試結(jié)果說明_第4頁
系統(tǒng)性能指標和測試結(jié)果說明_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

系統(tǒng)性能指標和測試結(jié)果說明性能測試報告測試目標運營商手機上網(wǎng)記錄查詢系統(tǒng)案例,以某運營商為例,日均上網(wǎng)記錄數(shù)近10億條,每月數(shù)據(jù)量近9TB,移動互聯(lián)網(wǎng)用戶快速增加,智能終端迅速普及、戶均流量顯著增長,上網(wǎng)記錄數(shù)據(jù)將進一步猛增,每6個月,流量翻一番,如此大的數(shù)據(jù)量已經(jīng)超越了傳統(tǒng)關(guān)系型數(shù)據(jù)庫可管理的容量上限,關(guān)系型數(shù)據(jù)庫上對大規(guī)模數(shù)據(jù)進行操作會造成系統(tǒng)性能嚴重下降。通過本測試,驗證星環(huán)科技成熟穩(wěn)定的商用Hadoop平臺,是否可以有效解決數(shù)據(jù)采集、加載、存儲、查詢、分析等問題。測試內(nèi)容1)存儲節(jié)點數(shù)和存儲量驗證;2)并發(fā)加載數(shù)據(jù)的效率驗證;3)分別選取簡單查詢(短信話單查詢),單表統(tǒng)計(某天某客戶通話次數(shù)),大表關(guān)聯(lián)統(tǒng)計(統(tǒng)計指定用戶的上網(wǎng)記錄)三個應(yīng)用場景驗證產(chǎn)品性能。測試環(huán)境軟硬件環(huán)境配置如下:表9-1服務(wù)器配置服務(wù)器推薦配置及說明節(jié)點數(shù)量300+臺服務(wù)器CPU兩路6核處理器2*E5-2620內(nèi)存64GBECCDDR3硬盤2個600G的SAS硬盤,15000RPM,RAID1,作為系統(tǒng)盤12個2TB的SATA硬盤,7200RPM,不做RAID1網(wǎng)絡(luò)雙電口萬兆(10Gbps)以太網(wǎng)卡部署環(huán)境如下:表9-2集群配置PC服務(wù)器300多臺NameNode節(jié)點3臺DataNode節(jié)點278臺Zookeeper節(jié)點7臺集群監(jiān)控節(jié)點1臺入庫服務(wù)節(jié)點24臺Web查詢應(yīng)用服務(wù)節(jié)點20臺網(wǎng)絡(luò)拓撲情況如下:圖9-1拓撲結(jié)構(gòu)圖測試過程和結(jié)果1)現(xiàn)有HDFS集群已被占用10.5PB,3個副本,壓縮率在1/3左右,因此實際HBase表數(shù)據(jù)也已經(jīng)有3.5PB左右。目前數(shù)據(jù)存放6個月,每天導入日志數(shù)據(jù)在21TB左右,每月導入新增日志數(shù)據(jù)量為630TB,近一個月為常用熱數(shù)據(jù),數(shù)據(jù)量增長較快。2)并發(fā)加載數(shù)據(jù)的效率TranswarpHyperbase集群每秒平均達到1500萬記錄/秒,峰值時達到5000萬/秒,集群導入性能沒有問題。3)支持并發(fā)查詢數(shù)目:遠高于100000請求/秒上網(wǎng)記錄查詢速度:不高于1秒(含用戶訪問查詢頁面的時間)場景一:短信話單查詢圖9-3話單查詢表測試相關(guān)表數(shù)據(jù)量表名條數(shù)CDR_GSM_133114402798測試語句SELECT*FROMCDR_GSM_13WHEREUSER_ID=?;場景說明使用程序查詢指定USER_ID的短信話單TranswarpSQL性能并發(fā):5000單SQL平均執(zhí)行時間:12msTranswarpHyperbaseAPI性能并發(fā):>30W單SQL平均執(zhí)行時間:3ms場景二:某天某客戶通話次數(shù):測試相關(guān)表數(shù)據(jù)量表名條數(shù)CDR_GSM_13,cdr_gsm_stat3114402798,430293346測試語句SELECTcount(*)FROMCDR_GSM_13C,cdr_gsm_statGWHEREc.user_id=g.user_idandg.type=’1’andg.date=’20151212’g.user_id=?;場景說明統(tǒng)計某天某客戶通話次數(shù)TranswarpSQL性能并發(fā):2000單SQL平均執(zhí)行時間:130msTranswarpHyperbaseAPI性能并發(fā):>10W單SQL平均執(zhí)行時間:90ms場景三:關(guān)聯(lián)統(tǒng)計相關(guān)測試,統(tǒng)計制定用戶的上網(wǎng)記錄圖9-4上網(wǎng)記錄表測試相關(guān)表數(shù)據(jù)量表名條數(shù)CDR_GSM_13,cdr_gsm_stat3114402798,430293346測試語句SELECTcount(*)FROMCDR_GSM_13C,cdr_gsm_statGWHEREc.user_id=g.user_idandg.type=’1’andg.user_id=?;場景說明使用程序統(tǒng)計指定USER_ID的上網(wǎng)記錄TranswarpSQL性能并發(fā):3000單SQL平均執(zhí)行時間:150msTranswarpHyperbaseAPI性能并發(fā):>10W單SQL平均執(zhí)行時間:80msTPC-DS測試報告測試目標通過國際標準測試TPC-DS測試,驗證星環(huán)TDH產(chǎn)品符合數(shù)據(jù)倉庫需要,能夠滿足數(shù)倉業(yè)務(wù)使用要求。測試內(nèi)容標準事務(wù)性能管理委員會(TPC)是目前最知名的數(shù)據(jù)管理系統(tǒng)評測基準標準化組織。在過去二十多年間,該機構(gòu)發(fā)布了多款數(shù)據(jù)庫評測基準。TPC-DS是TPC發(fā)布的標準測試場景之一,用于驗證數(shù)據(jù)庫產(chǎn)品是否符合數(shù)據(jù)倉庫的業(yè)務(wù)需要。TPC-DS采用星型、雪花型等多維數(shù)據(jù)模式。它包含7張事實表,17張緯度表平均每張表含有18列。其工作負載包含99個SQL查詢,覆蓋SQL99和2003的核心部分以及OLAP。這個測試集包含對大數(shù)據(jù)集的統(tǒng)計、報表生成、聯(lián)機查詢、數(shù)據(jù)挖掘等復(fù)雜應(yīng)用,測試用的數(shù)據(jù)和值是有傾斜的,與真實數(shù)據(jù)一致。可以說TPC-DS是與真實場景非常接近的一個測試集,也是難度較大的一個測試集。TPC-DS的這個特點跟大數(shù)據(jù)的分析挖掘應(yīng)用非常類似。Hadoop等大數(shù)據(jù)分析技術(shù)也是對海量數(shù)據(jù)進行大規(guī)模的數(shù)據(jù)分析和深度挖掘,也包含交互式聯(lián)機查詢和統(tǒng)計報表類應(yīng)用,同時大數(shù)據(jù)的數(shù)據(jù)質(zhì)量也較低,數(shù)據(jù)分布是真實而不均勻的。因此TPC-DS成為客觀衡量多個不同Hadoop版本以及SQLonHadoop技術(shù)的最佳測試集。這個基準測試有以下幾個主要特點:1)一共99個測試案例,遵循SQL99和SQL2003的語法標準,SQL案例比較復(fù)雜2)分析的數(shù)據(jù)量大,并且測試案例是在回答真實的商業(yè)問題3)測試案例中包含各種業(yè)務(wù)模型(如分析報告型,迭代式的聯(lián)機分析型,數(shù)據(jù)挖掘型等)4)幾乎所有的測試案例都有很高的IO負載和CPU計算需求TPC-DS標準測試集99個案例,詳見本建議書附錄部分《TPC-DS測試集99query說明》測試環(huán)境測試過程和結(jié)果量收遷移驗證性測試報告測試目標通過選取多個量收系統(tǒng)典型實際應(yīng)用場景測試,驗證星環(huán)TDH產(chǎn)品能夠?qū)崿F(xiàn)量收系統(tǒng)各類功能應(yīng)用,能夠較好的滿足量收系統(tǒng)遷移要求。測試內(nèi)容本文檔記載了較為詳細的測試案例,內(nèi)容包括量收系統(tǒng)功能各類型的技術(shù)和業(yè)務(wù)場景,包含六個方向應(yīng)用。具體分別是:1)大數(shù)據(jù)量數(shù)據(jù)加載,計算及匯總,此方向取“范圍段加載ETL”。2)高并行計算,復(fù)雜計算,大表關(guān)聯(lián),此方向取“收入寬表計算ETL”。3)大數(shù)據(jù)量,高并發(fā)查詢。此方向取“量收日統(tǒng)計表查詢”。4)Cognos復(fù)雜邏輯應(yīng)用。此方向取“淡旺季報表統(tǒng)計”。5)大表的update和delete類SQL計算。此方向取“營業(yè)客戶數(shù)據(jù)加載計算ETL”。6)Oracle存儲過程運算。此方向取“報刊在Oracle中存儲過程”。測試環(huán)境表9-5耗時日期報表名稱開始時間結(jié)束時間持續(xù)時間1持續(xù)時間220160305ORACLE_STOREPROCEDURE.SQL2016/3/516:12:022016/3/516:12:0420:00:0220160305LSRTJBCX.SQL2016/3/516:11:512016/3/516:11:5650:00:0520160305DWJCX.SQL2016/3/516:04:392016/3/516:05:04250:00:2520160305YYKHSJJZETL.SQL2016/3/516:18:062016/3/516:19:11650:01:0520160305SRKBETL.SQL2016/3/516:12:102016/3/516:18:003500:05:5020160305FWDJZETL.SQL2016/3/516:05:102016/3/516:11:443940:06:34串行執(zhí)行集群Workload:圖9-2性能展示圖1并行執(zhí)行情況并行執(zhí)行總耗時如下:表9-7耗時日期報表名稱開始時間結(jié)束時間持續(xù)時間1持續(xù)時間220160305FWDJZETL.SQL2016/3/516:51:252016/3/516:58:484430:07:2320160305SRKBETL.SQL2016/3/516:51:262016/3/516:57:563900:06:3020160305YYKHSJJZETL.SQL2016/3/516:51:252016/3/516:52:39740:01:1420160305DWJCX.SQL2016/3/516:51:252016/3/516:51:57320:00:3220160305LSRTJBCX.SQL2016/3/516:51:252016/3/516:51:3160:00:0620160305ORACLE_STOREPROCEDURE.SQL2016/3/516:51:252016/3/516:51:2830:00:03并行執(zhí)行workload:圖9-3性能展示圖2生產(chǎn)表數(shù)據(jù)規(guī)模表9-8生產(chǎn)表表名記錄數(shù)備注pims_pdata.tb_peo_postcollpric237097843pims_pdata.tb_peo_postderatepric18352483pims_pdata.tb_peo_postderate17841320pims_pdata.tb_prt_custlevel6267607pims_pdata.tb_fct_sum_det_p_m5792946pims_pdata.tb_peo_winpostdelv3125115pims_pdata.tb_peo_winpostdelvpric3125115pims_pdata.tb_sum_peopostbusn494603pims_pdata.tb_prt_custinfo183046pims_pdata.tb_sum_peonmlpost131378pims_pdata.tb_prt_cporgmgtlev117247pims_pdata.tb_prt_cporg117006pims_pdata.tb_peo_postcoll100000pims_pdata.tb_peo_prtcin83046pims_pdata.tb_cde_cpbusntyp_union10000pims_pdata.tb_fct_kadd10000pims_pdata.tb_fct_operdaily10000pims_pdata.tb_fct_mdak4552pims_pdata.tb_cde_cpbusntyp1547pims_pdata.tb_sum_peopostadjust1173pims_pdata.tb_cde_dailyreport757pims_pdata.tb_cde_operdaily682pims_pdata.tb_cde_country258pims_pdata.tb_fct_sector152pims_pdata.tb_fct_vip_s_range_m100pims_pdata.tb_cde_prictyp43pims_pdata.tb_cde_dim30pims_pdata.tb_cde_custtyp11pims_pdata.tb_cde_custpay7pims_pdata.tb_cde_custsett6pims_pdata.tb_cde_postattr5pims_pdata.tb_prt_cporg_union4pims_pdata.tb_cde_busnchnl3pims__cgnos_log_r0Logpims_pdata.tb_fct_vip_range_m0結(jié)果表pims_pdata.tb_peo_postdelv0空表pims_pdata.tb_peo_postdelvpric0空表pims_pdata.tb_prt_cporgmgtlevvw0tb_prt_cporgmgtlev的視圖pims_pdata.tb_sum_dppt0結(jié)果表測試結(jié)果所有六個測試案例,包含存儲過程案例,經(jīng)過較少的腳本修改(腳本修改量小于1%),就能夠直接在新的TDH環(huán)境中運行,且運行結(jié)果正確無誤,驗證了量收遷移到TDH的技術(shù)可行性。某銀行性能測試報告測試目標運行某銀行數(shù)據(jù)分析業(yè)務(wù),以驗證星環(huán)TranswarpDataHub平臺的性能指標。測試內(nèi)容選取某銀行高并發(fā)的理財查詢業(yè)務(wù),以及相關(guān)業(yè)務(wù)場景進行測試,包括現(xiàn)有在DB2、DPF、以及Teradata上面的應(yīng)用,進行性能比對。測試環(huán)境測試環(huán)境采用5臺X86服務(wù)器,搭建星環(huán)TranswarpDataHub大數(shù)據(jù)平臺,進行測試。表9-9測試表測試機器(BIGL1TMP)(BIGL2TMP)(BIGL3TMP)(BIGL4TMP)(BIGL5TMP)CPU2C/6核,E5-2620磁盤2TB*8塊內(nèi)存96GB集群部署:表9-10集群部署B(yǎng)IGL1TMPZookeeper,NameNode,JournalNode,ResourceManager,NodeManager,HBaseMaster,InceptorMetastoreBIGL2TMPZookeeper,NameNode,JournalNode,NodeManager,HBaseMasterBIGL3TMPJournalNode,DataNode,NodeManager,HBaseMaster,HBaseRegionServer,InceptorServerBIGL4TMPDataNode,NodeManager,HBaseRegionServer,RStudioBIGL5TMPZookeeper,DataNode,NodeManager,HBaseRegionServer測試過程和結(jié)果數(shù)據(jù)加載與導入:將文件較為均勻的分到集群的各個機器上,編寫HDFS上傳腳本,同時向HDFS上傳數(shù)據(jù),通過記錄上傳時間和上傳文件大小來計算數(shù)據(jù)并發(fā)加載的速度。測試步驟如下:表9-11場景1場景1說明客戶基本信息查詢測試相關(guān)表數(shù)據(jù)量表名條數(shù)FIN_CUST_INFO_BASE31144027測試語句SELECT*FROMFIN_CUST_INFO_BASEWHERECUSTNO=?;TranswarpSQL性能并發(fā):7000單SQL平均執(zhí)行時間:11msTranswarpHyperbaseAPI性能TPS:>12W單SQL平均執(zhí)行時間:3ms表9-12場景2場景2說明客戶擴展信息查詢測試相關(guān)表數(shù)據(jù)量表名條數(shù)FIN_CUST_INFO_BASE31144027FIN_CUST_INFO_SUB36767776FIN_CONFINPROFILE_BASE31147467FIN_CUST_CMANAGER15639749FIN_CUST_ORG36767888測試語句SELECTBASE.CUSTNO,BASE.CUSTNAME,BASE.SEX,SUB.AGEPART,SUB.DEPOSITBALAVGL3MPART,CON.DEPOSITBALAVGL3M,CON.FASSETBAL,CMAN.CEMPID,ORG.ORGIDFROMFIN_CUST_INFO_BASEBASEINNERJOINFIN_CUST_INFO_SUBSUBONBASE.CUSTNO=SUB.CUSTNOINNERJOINFIN_CONFINPROFILE_BASECONONCON.CUSTNO=BASE.CUSTNOINNERJOINFIN_CUST_CMANAGERCMANONCMAN.CUSTNO=BASE.CUSTNOINNERJOINFIN_CUST_ORGORGONORG.CUSTNO=BASE.CUSTNOWHEREBASE.CUSTNO=?;TranswarpSQL性能并發(fā):2400單SQL平均執(zhí)行時間:150msTranswarpHyperbaseAPI性能TPS:>6W單SQL平均執(zhí)行時間:6ms表9-12場景3場景3說明客戶銷售線索查詢測試相關(guān)表數(shù)據(jù)量表名條數(shù)FIN_LEADOPPS6738750FIN_CAMPLEADTEM1896FIN_CUST_FMANAGER2150712FIN_CUST_INFO_BASE31144027測試語句SELECTLEA.RECCREATEDATE,LEA.CLTID,LEA.CUSTNO,LEA.LEADOPPPHASE,LEA.USERID,LEA.ORGID,LEA.RECCREATEUID,CAM.CLTNAME,CAM.EXECUTEDATE,F(xiàn)M.FEMPID,BASE.CUSTNAME,BASE.CUSTTYPE,BASE.SEXFROMFIN_LEADOPPSLEAINNERJOINFIN_CAMPLEADTEMCAMONCAM.CLTID=LEA.CLTIDINNERJOINFIN_CUST_FMANAGERFMONFM.CUSTNO=LEA.CUSTNOINNERJOINFIN_CUST_INFO_BASEBASEONBASE.CUSTNO=LEA.CUSTNOWHEREFM.FEMPID=?;TranswarpSQL性能并發(fā):1500單SQL平均執(zhí)行時間:180msTranswarpHyperbaseAPI性能TPS:>3W單SQL平均執(zhí)行時間:15ms表9-13場景4場景4說明客戶金融資產(chǎn)統(tǒng)計測試相關(guān)表數(shù)據(jù)量表名條數(shù)FIN_CONFINPROFILE_BASE31147467FIN_CUST_INFO_SUB36767776FIN_CUST_ORG36767888測試語句SELECTSUB.FASSETBALPART,SUM(CON.FASSETBAL)/10000ASFASSETBAL,SUM(CON.FASSETBALMAX)/10000ASFASSETBALMAX,SUM(CON.FASSETBALAVGMMAX)/10000ASFASSETBALAVGMMAXFROMFIN_CONFINPROFILE_BASECONINNERJOINFIN_CUST_INFO_SUBSUBONSUB.CUSTNO=CON.CUSTNOINNERJOINFIN_CUST_ORGORGONORG.CUSTNO=CON.CUSTNOWHEREORG.ORGID=?GROUPBYSUB.FASSETBALPARTORDERBYSUB.FASSETBALPART;TranswarpSQL性能并發(fā):400單SQL平均執(zhí)行時間:170ms數(shù)據(jù)挖掘測試使用商戶信息表(XWXS_EPOS_MCHNT_INFO)和交易流水表(XWXS_EPOS_TRANS)在RStudio上做了POS機分布建模、用戶流失預(yù)警與用戶聚類三個案例。北京地區(qū)POS機分布建模根據(jù)商戶信息和交易流水記錄為POS機交易建模,生成POS機分布圖、POS機刷卡次數(shù)熱點圖、POS機刷卡金額熱點圖。根據(jù)上面的建模結(jié)果,可以為銀行決策提供理論依據(jù),主要意義在于:1) 關(guān)注刷卡次數(shù)多的地區(qū),可以在相關(guān)地區(qū)增加相應(yīng)ATM取款機。2) 關(guān)注刷卡金額大的地區(qū),可以在相關(guān)地區(qū)增加銀行服務(wù)點。3) 在刷卡次數(shù)多,金額大的地區(qū)推廣信用卡,增加銀行其他業(yè)務(wù)。4) 避開消費聚集區(qū),推廣投放行銀行廣告,增加投放效果。圖9-4刷卡金額密度圖圖9-5刷卡次數(shù)密度圖除此之外,挑選了一批在現(xiàn)有系統(tǒng)中運行時間較長或無法成功運行的業(yè)務(wù)場景用于TDH的測試。更新售后客戶產(chǎn)品表:表9-14客戶產(chǎn)品表測試相關(guān)表數(shù)據(jù)量表名條數(shù)FIN_CUST_INFO_BASE31718753FIN_CONDEPOSIT45028847FIN_CONFINPROFILE_DETAIL31725027FIN_OPRODUCTSALEINF6780729FIN_OPRODUCTDEF165XWXS_EPOS_MCHNT_INFO367618MC_YW_PARA57場景描述定期根據(jù)多張表統(tǒng)計更新客戶產(chǎn)品表業(yè)務(wù)運行腳本測試步驟將數(shù)據(jù)load到內(nèi)存表中進行計算,計算結(jié)果保存到一張內(nèi)存表中TDH運行腳本TDH運行時間耗時205秒當前生產(chǎn)運行時間約一個小時統(tǒng)計兩張交易大表一天的交易信息:表9-15交易表測試相關(guān)表數(shù)據(jù)量表名條數(shù)P_ACTM_M_DEP_CURR_BASE_TRANS172490929/1897400219M_NIN_AML_V_MDS_TRANS203552016/2239072176場景描述兩大表join業(yè)務(wù)運行腳本測試步驟兩張表各從生產(chǎn)環(huán)境拉下40天數(shù)據(jù),線下等比將數(shù)據(jù)擴展到1年,測試SQL的時間參數(shù)為實際生產(chǎn)數(shù)據(jù)的時間TDH運行腳本測試結(jié)果耗7.5s當前生產(chǎn)運行時間無法成功運行統(tǒng)計兩張交易大表一段時間內(nèi)的交易信息:表9-16交易表測試相關(guān)表數(shù)據(jù)量表名條數(shù)P_ACTM_M_DEP_CURR_BASE_TRANS172490929/1897400219M_NIN_AML_V_MDS_TRANS203552016/2239072176場景描述兩大表join測試步驟兩張表各從生產(chǎn)環(huán)境拉下40天數(shù)據(jù),線下等比將數(shù)據(jù)擴展到1年,測試SQL的時間參數(shù)為實際生產(chǎn)數(shù)據(jù)的時間運行腳本測試結(jié)果一天內(nèi):7.5s十二天內(nèi):25s線上全量數(shù)據(jù):50sDPF一天內(nèi):第一次20~40s,后續(xù)6s十二天內(nèi):第一次66s,后續(xù)25s線上全量數(shù)據(jù):第一次110s,后續(xù)2.5~3m更新金融資產(chǎn)月報詳細信息表:表9-17月報表測試相關(guān)表數(shù)據(jù)量表名條數(shù)FIN_CONFINPROFILE_DETAIL31725027FIN_CONFINPROFIEL_BASE31735287場景描述大批量數(shù)據(jù)計算、更新業(yè)務(wù)運行腳本測試步驟將數(shù)據(jù)load到內(nèi)存表進行計算,同時更新到Hyperbase表中TDH運行腳本TDH運行時間耗時284秒當前生產(chǎn)運行時間約20~25分鐘更新金融資產(chǎn)月報基礎(chǔ)表:表9-18基礎(chǔ)表測試相關(guān)表數(shù)據(jù)量表名條數(shù)FIN_CONFINPROFILE_BASE31735287場景描述大批量數(shù)據(jù)計算、更新業(yè)務(wù)運行腳本測試步驟更新Hyperbase表,更新數(shù)據(jù)量16434731條TDH運行腳本TDH運行時間耗時96秒當前生產(chǎn)運行時間約20~25分鐘系統(tǒng)配置方案硬件系統(tǒng)配置建議基礎(chǔ)Hadoop平臺集群配置規(guī)劃根據(jù)此次大數(shù)據(jù)平臺的建設(shè)要求,大數(shù)據(jù)平臺需要滿足全量3PB數(shù)據(jù)的存儲要求,根據(jù)數(shù)據(jù)的特點,大概30%為結(jié)構(gòu)化數(shù)據(jù),70%為非結(jié)構(gòu)化數(shù)據(jù),并以此進行估算。其中:1)結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)量為:3PB*30%=0.9PB=922TB(結(jié)構(gòu)化數(shù)據(jù)全部進入數(shù)據(jù)倉庫)對于結(jié)構(gòu)化數(shù)據(jù)存儲容量要求為:922TB*(3+1+0.5)/3*1.3=1798TB注:對結(jié)構(gòu)化數(shù)據(jù),采用3倍副本冗余存儲,1倍中間結(jié)果余留,0.5倍索引存儲空間,3倍數(shù)據(jù)壓縮,0.3倍空間余留。2)非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)量為:3PB*70%=2.1PB=2151TB對于非結(jié)構(gòu)化數(shù)據(jù)存儲要求為:2151TB*3=6453TB非結(jié)構(gòu)化數(shù)據(jù)采用3倍副本冗余存儲。3)全量數(shù)據(jù)存儲容量要求為:1798TB(結(jié)構(gòu)化數(shù)據(jù))+6453TB(非結(jié)構(gòu)化數(shù)據(jù))=8251TBDataNode單節(jié)點存儲容量推薦配置為:4TB*12=48TB基礎(chǔ)Hadoop平臺DataNode節(jié)點數(shù)為:8251TB/48TB=172節(jié)點因此,DataNode服務(wù)器推薦配置為:表10-1推薦配置服務(wù)器推薦配置及說明節(jié)點數(shù)量172個節(jié)點CPU兩路8核處理器E5-2650v3或以上內(nèi)存128GBECCDDR4硬盤2個600G的SAS硬盤,15000RPM,RAID1,作為系統(tǒng)盤12個4TB的SATA硬盤,7200RPM,不做RAID1網(wǎng)絡(luò)雙電口萬兆(10Gbps)以太網(wǎng)卡另外:對于此次搭建的大規(guī)模Hadoop集群,需要單獨規(guī)劃Zookeeper9個節(jié)點,NameNode2個節(jié)點,ResourceManager2個節(jié)點,HMaster5個節(jié)點,總共9+2+2+5=18個節(jié)點綜上所述,基礎(chǔ)Hadoop平臺節(jié)點規(guī)模如下:表10-2節(jié)點規(guī)模角色節(jié)點數(shù)量(X86服務(wù)器數(shù)量)功能簡述DataNode172存儲/計算節(jié)點NameNode2管理節(jié)點Zookeeper9Hadoop分布式系統(tǒng)中的高可靠的協(xié)調(diào)系統(tǒng)ResourceManager2負責集群中所有資源的統(tǒng)一管理和分配HMaster5為RegionServer分配region負責RegionServer的負載均衡總共190針對NameNode,Zookeeper,ResourceManager,HMaster等角色的功能和性能要求,服務(wù)器建議采用如下配置:表10-3推薦配置服務(wù)器推薦配置及說明節(jié)點數(shù)量18個節(jié)點CPU兩路8核處理器E5-2650v3或以上內(nèi)存256GBECCDDR4硬盤2個300G的SAS硬盤,15000RPM,RAID1,作為系統(tǒng)盤10個300GB的SAS硬盤,15000RPM,不做RAID1網(wǎng)絡(luò)雙電口萬兆(10Gbps)以太網(wǎng)卡數(shù)據(jù)倉庫集群配置規(guī)劃根據(jù)此次大數(shù)據(jù)平臺的建設(shè)要求,大數(shù)據(jù)平臺需要滿足全量3PB數(shù)據(jù)的存儲要求,根據(jù)數(shù)據(jù)的特點,大概30%為結(jié)構(gòu)化數(shù)據(jù),70%為非結(jié)構(gòu)化數(shù)據(jù),并以此進行估算。其中:結(jié)構(gòu)化數(shù)據(jù)922TB*(3+1+0.5)/3*1.3=1798TB(結(jié)構(gòu)化數(shù)據(jù)全部進入數(shù)據(jù)倉庫)DataNode單節(jié)點存儲容量推薦配置為:2TB*12=24TB基礎(chǔ)Hadoop平臺DataNode節(jié)點數(shù)為:1798TB/24TB=75節(jié)點因此,DataNode服務(wù)器推薦配置為:表10-4推薦配置服務(wù)器推薦配置及說明節(jié)點數(shù)量75個節(jié)點CPU兩路8核處理器E5-2650V3或以上內(nèi)存128GBECCDDR4硬盤2個600G的SAS硬盤,15000RPM,RAID1,作為系統(tǒng)盤12個2TB的SATA硬盤,7200RPM,不做RAID1網(wǎng)絡(luò)雙電口萬兆(10Gbps)以太網(wǎng)卡固態(tài)硬盤(可選)800GB或1.2TBPCIeSSD(例如IntelP3600SeriesPCI-eSSD)另外:對于此次搭建的大規(guī)模Hadoop集群,需要單獨規(guī)劃Zookeeper7個節(jié)點,NameNode2個節(jié)點,ResourceManager2個節(jié)點,HMaster5個節(jié)點,總共7+2+2+5=16個節(jié)點綜上所述,基礎(chǔ)Hadoop平臺節(jié)點規(guī)模如下:表10-5節(jié)點規(guī)模角色節(jié)點數(shù)量(X86服務(wù)器數(shù)量)功能簡述DataNode75存儲/計算節(jié)點NameNode2管理節(jié)點Zookeeper7Hadoop分布式系統(tǒng)中的高可靠的協(xié)調(diào)系統(tǒng)ResourceManager2負責集群中所有資源的統(tǒng)一管理和分配HMaster5為RegionServer分配region負責RegionServer的負載均衡總共91針對NameNode,Zookeeper,ResourceManager,HMaster等角色的功能和性能要求,服務(wù)器建議采用如下配置:表10-6推薦配置服務(wù)器推薦配置及說明節(jié)點數(shù)量16個節(jié)點CPU兩路8核處理器E5-2650v3或以上內(nèi)存256GBECCDDR4硬盤2個300G的SAS硬盤,15000RPM,RAID1,作為系統(tǒng)盤10個300GB的SAS硬盤,15000RPM,不做RAID1網(wǎng)絡(luò)雙電口萬兆(10Gbps)以太網(wǎng)卡集群規(guī)模綜述表10-7集群規(guī)模集群名稱集群用途集群規(guī)?;A(chǔ)Hadoop集群進行全量數(shù)據(jù)存儲,進行數(shù)據(jù)清洗、轉(zhuǎn)換工作。190臺數(shù)據(jù)倉庫集群存儲結(jié)構(gòu)化數(shù)據(jù),并提供高復(fù)雜度、高負載的計算、分析任務(wù),提供數(shù)據(jù)倉庫、數(shù)據(jù)集市等功能91臺總共281臺開發(fā)集群配置建議表10-8開發(fā)集群配置服務(wù)器推薦配置及說明CPU兩路8核處理器2*E5-2650v3或以上內(nèi)存128GBECCDDR3硬盤10個2TB的SATA硬盤,7200RPM,不使用RAID;2個300G的SAS硬盤,15000RPM,RAID1,作為系統(tǒng)盤網(wǎng)絡(luò)雙電口千兆(1Gbps)以太網(wǎng)卡固態(tài)硬盤(可選)800GB或1.2TBPCIeSSD(例如IntelP3600SeriesPCI-eSSD)測試集群配置建議表10-9測試集群配置服務(wù)器推薦配置及說明CPU兩路8核處理器2*E5-2650v3或以上內(nèi)存128GBECCDDR3硬盤10個2TB的SATA硬盤,7200RPM,不使用RAID;2個300G的SAS硬盤,15000RPM,RAID1,作為系統(tǒng)盤網(wǎng)絡(luò)雙電口萬兆(10Gbps)以太網(wǎng)卡固態(tài)硬盤(可選)800GB或1.2TBPCIeSSD(例如IntelP3600SeriesPCI-eSSD)軟件配置建議表10-10軟件配置服務(wù)器推薦配置及說明操作系統(tǒng)LINUX(紅旗)操作系統(tǒng)大數(shù)據(jù)基礎(chǔ)平臺軟件星環(huán)TDH產(chǎn)品,281節(jié)點自有數(shù)據(jù)挖掘分析工具星環(huán)Discover(含并行化R算法庫)商用數(shù)據(jù)挖掘分析工具推薦SAS/SPSS等(建議甲方單獨采購)數(shù)據(jù)整合平臺軟件Trinity(ETL、元數(shù)據(jù)管理、數(shù)據(jù)整合)自有可視化BI工具iRecharts、Cognos(利舊)商用可視化BI工具QlikView/Tableau(建議甲方單獨采購)自有互聯(lián)網(wǎng)數(shù)據(jù)采集軟件iRIS自有大數(shù)據(jù)語義分析軟件iNLP商用大數(shù)據(jù)語義分析軟件推薦SASTextMiner等(建議甲方單獨采購)工作流引擎開源免費:Activiti規(guī)則引擎開源免費:Drools表10-11TDH軟件配置銀行(金融)平臺軟件配置建議軟件組件名稱軟件功能說明備注TranswarpInceptor星環(huán)分布式內(nèi)存計算引擎,完整支持SQL99,SQL’2003,全面兼容OraclePL/SQL以及DB2存儲過程。TranswarpHyperbase星環(huán)分布式NoSQL數(shù)據(jù)庫,支持海量數(shù)據(jù)高并發(fā)數(shù)據(jù)寫入與查詢,提供多種索引功能、提供圖計算、分布式事務(wù)等功能支持。TranswarpDissover星環(huán)分布式分析挖掘引擎,提供6000多種數(shù)據(jù)挖掘、統(tǒng)計分析、機器學習算法。TranswarpStream星環(huán)實時流數(shù)據(jù)處理引擎,支持對高吞吐量的實時數(shù)據(jù)進行快速的計算。TranswarpHadoop星環(huán)分布式存儲系統(tǒng),提供高吞吐量的數(shù)據(jù)寫入,提供穩(wěn)定、高效的數(shù)據(jù)存儲與計算功能。TranswarpManager星環(huán)TranswarpDataHub平臺圖形化的管理工具。軟硬件配置總表表10-12軟硬件配置總表軟件部分推薦配置及說明數(shù)量操作系統(tǒng)LINUX(紅旗)操作系統(tǒng)(建議甲方單獨采購)281大數(shù)據(jù)基礎(chǔ)平臺軟件星環(huán)TDH產(chǎn)品,281節(jié)點281自有數(shù)據(jù)挖掘分析工具星環(huán)Discover(含并行化R算法庫)281商用數(shù)據(jù)挖掘分析工具推薦SAS/SPSS等(建議甲方單獨采購)1數(shù)據(jù)整合平臺軟件Trinity(ETL、元數(shù)據(jù)管理、數(shù)據(jù)整合)1自有可視化BI工具iRecharts、Cognos(利舊)1商用可視化BI工具QlikView/Tableau(建議甲方單獨采購)1自有互聯(lián)網(wǎng)數(shù)據(jù)采集軟件iRIS1自有大數(shù)據(jù)語義分析軟件iNLP1商用大數(shù)據(jù)語義分析軟件推薦SASTextMiner等(建議甲方單獨采購)1工作流引擎開源免費:Activiti1規(guī)則引擎開源免費:Drools1硬件部分推薦配置及說明數(shù)量PC服務(wù)器兩路8核CPU 2*E5-2650v3;內(nèi)存分別為128GB(DataNode)、256GB(NameNode等)ECCDDR3;硬盤10個4TB的SATA硬盤,7200RPM,2個300G的SAS硬盤,15000RPM;雙電口千兆(1Gbps)以太網(wǎng)卡190PC服務(wù)器兩路8核CPU 2*E5-2650v3;內(nèi)存分別為128GB(DataNode)、256GB(NameNode等)ECCDDR3;硬盤10個2TB的SATA硬盤,7200RPM,2個300G的SAS硬盤,15000RPM;雙電口千兆(1Gbps)以太網(wǎng)卡固態(tài)硬盤800GB或1.2TBPCIeSSD91網(wǎng)絡(luò)拓撲圖10-1網(wǎng)絡(luò)拓撲圖建議配置12個一級TOR萬兆交換機(48端口),3個二級TOR萬兆交換機(48端口)。任意兩臺服務(wù)器之間的帶寬為2Gbps。規(guī)劃24個機柜,每個機柜部署12個2U服務(wù)器,每臺服務(wù)器以雙網(wǎng)口鏈路聚合上聯(lián)集群交換機,后續(xù)隨著集群規(guī)模的擴展可增設(shè)核心數(shù)據(jù)層交換機,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論