大數(shù)據(jù)技術(shù)應(yīng)用實(shí)施方案建議-V10_第1頁(yè)
大數(shù)據(jù)技術(shù)應(yīng)用實(shí)施方案建議-V10_第2頁(yè)
大數(shù)據(jù)技術(shù)應(yīng)用實(shí)施方案建議-V10_第3頁(yè)
大數(shù)據(jù)技術(shù)應(yīng)用實(shí)施方案建議-V10_第4頁(yè)
大數(shù)據(jù)技術(shù)應(yīng)用實(shí)施方案建議-V10_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)技術(shù)大數(shù)據(jù)技術(shù)應(yīng)用實(shí)施方案建議應(yīng)用實(shí)施方案建議信息技術(shù)管理部2013年6月1目錄 我行新一代數(shù)據(jù)集成平臺(tái)能力要求 業(yè)內(nèi)大數(shù)據(jù)技術(shù)的特性及應(yīng)用研究 我行大數(shù)據(jù)技術(shù)的應(yīng)用策略2新一代管理分析類(lèi)應(yīng)用需求3運(yùn)營(yíng)與信息安全運(yùn)行日志存儲(chǔ)與分析安全日志存儲(chǔ)與分析營(yíng)銷(xiāo)支持加強(qiáng)客戶洞察分析,實(shí)現(xiàn)靈活深入的客戶細(xì)分;科學(xué)的客戶行為及渠道經(jīng)營(yíng)分析報(bào)告與決策全面的計(jì)劃預(yù)算管理 價(jià)值導(dǎo)向的管理會(huì)計(jì);流程化的財(cái)務(wù)會(huì)計(jì)體系 集成高效的財(cái)務(wù)運(yùn)作 及時(shí)、準(zhǔn)確的財(cái)務(wù)報(bào)告風(fēng)險(xiǎn)管理 滿足新協(xié)議合規(guī)和內(nèi)部管理需要的全面風(fēng)險(xiǎn)管理體系市場(chǎng)風(fēng)險(xiǎn)、信用風(fēng)險(xiǎn)、操作風(fēng)險(xiǎn)等全面的風(fēng)險(xiǎn)計(jì)量;風(fēng)險(xiǎn)建模監(jiān)管合規(guī)支持全面整合的反洗錢(qián)和欺詐風(fēng)險(xiǎn)管理;監(jiān)

2、管合規(guī)長(zhǎng)時(shí)間保存數(shù)據(jù)需求;審計(jì)供數(shù);非結(jié)構(gòu)化數(shù)據(jù)保存數(shù)據(jù)管控支持?jǐn)?shù)據(jù)完整、全面(廣度、深度);數(shù)據(jù)可信;數(shù)據(jù)易用;數(shù)據(jù)生命周期管理應(yīng)用需求新一代管理分析類(lèi)應(yīng)用對(duì)于大數(shù)據(jù)處理分析技術(shù)提出了高要求新一代數(shù)據(jù)集成平臺(tái)數(shù)據(jù)特點(diǎn)與挑戰(zhàn)4Volume數(shù)量大 數(shù)據(jù)內(nèi)容豐富(賬戶信息、賬戶明細(xì)、流水信息等) 數(shù)據(jù)存儲(chǔ)周期長(zhǎng)(監(jiān)管要求保存20年) PB級(jí)的海量數(shù)據(jù)Variety種類(lèi)多 數(shù)據(jù)類(lèi)型多樣,包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),如交易數(shù)據(jù)、日志數(shù)據(jù)、影像視頻數(shù)據(jù)等等Velocity速度快 近實(shí)時(shí)數(shù)據(jù)處理(即席數(shù)據(jù)分析) 實(shí)時(shí)訪問(wèn)(如歷史數(shù)據(jù)查詢) 流式數(shù)據(jù)計(jì)算(如反欺詐)大數(shù)據(jù)時(shí)代,技術(shù)面臨著Volume

3、、Variety、Velocity 3V的挑戰(zhàn)目錄 我行新一代數(shù)據(jù)集成平臺(tái)能力要求 業(yè)內(nèi)大數(shù)據(jù)技術(shù)的特性及應(yīng)用研究 技術(shù)特性研究 技術(shù)應(yīng)用研究 我行大數(shù)據(jù)技術(shù)的應(yīng)用策略5大數(shù)據(jù)技術(shù)一覽圖6大數(shù)據(jù)技術(shù)主要包含應(yīng)用領(lǐng)域(如商務(wù)智能)、基礎(chǔ)設(shè)施領(lǐng)域(結(jié)構(gòu)化數(shù)據(jù)庫(kù)技術(shù)、分析型數(shù)據(jù)技術(shù)等)和基礎(chǔ)技術(shù)領(lǐng)域的各種相關(guān)技術(shù)。重點(diǎn)調(diào)研的相關(guān)大數(shù)據(jù)存儲(chǔ)技術(shù)產(chǎn)品調(diào)研基于商用硬件的分布式數(shù)據(jù)庫(kù)技術(shù)HADOOP技術(shù)對(duì)于大數(shù)據(jù)技術(shù)、產(chǎn)品的調(diào)研分兩類(lèi)進(jìn)行,即關(guān)系型數(shù)據(jù)庫(kù)與非關(guān)系型技術(shù),前者以基于X86的MPP技術(shù)為代表,后者以HADOOP技術(shù)為代表大數(shù)據(jù)技術(shù)特性研究結(jié)論8分析維度X86 MPPHADOOP數(shù)據(jù)特性僅支持結(jié)構(gòu)

4、化數(shù)據(jù)支持非結(jié)構(gòu)化、半結(jié)構(gòu)化、結(jié)構(gòu)化數(shù)據(jù)擴(kuò)展性可擴(kuò)展至數(shù)百節(jié)點(diǎn)可擴(kuò)展至數(shù)千個(gè)節(jié)點(diǎn)數(shù)據(jù)可靠性每份數(shù)據(jù)只有一個(gè)備份每份數(shù)據(jù)可有多個(gè)備份產(chǎn)品成熟度介于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)與HADOOP之間新技術(shù),產(chǎn)品與技術(shù)均不成熟易開(kāi)發(fā)性相對(duì)容易與傳統(tǒng)數(shù)據(jù)庫(kù)差異較大,開(kāi)發(fā)復(fù)雜運(yùn)維管理缺少統(tǒng)一的運(yùn)維管理工具復(fù)雜,缺少統(tǒng)一的運(yùn)維管理工具人員技能要求一般,僅需熟悉傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)高,需要對(duì)產(chǎn)品、技術(shù)及程序設(shè)計(jì)有深入理解基于X86的MPP技術(shù)與傳統(tǒng)分析型數(shù)據(jù)庫(kù)的差異不大,但是提供了良好的擴(kuò)展性,適合替代現(xiàn)有技術(shù)進(jìn)行關(guān)系型數(shù)據(jù)的分析HADOOP技術(shù)支持的數(shù)據(jù)類(lèi)型多,擴(kuò)展性強(qiáng),適合海量非結(jié)構(gòu)化的數(shù)據(jù)分析,但技術(shù)不成熟,需逐步試點(diǎn)目

5、錄 我行新一代數(shù)據(jù)集成平臺(tái)能力要求 業(yè)內(nèi)大數(shù)據(jù)技術(shù)的特性及應(yīng)用研究 技術(shù)特性研究 技術(shù)應(yīng)用研究 我行大數(shù)據(jù)技術(shù)的應(yīng)用策略9美國(guó)銀行大數(shù)據(jù)技術(shù)應(yīng)用情況10技術(shù)類(lèi)型產(chǎn)品系統(tǒng)/機(jī)柜數(shù)集群容量 (PB)數(shù)據(jù)量 (PB)應(yīng)用領(lǐng)域使用案例專(zhuān)有一體機(jī)Teradata2453.1數(shù)據(jù)倉(cāng)庫(kù)企業(yè)/集中式數(shù)據(jù)倉(cāng)庫(kù)Netezza80+2.81.1數(shù)據(jù)集市OLAPExadata10+10.08數(shù)據(jù)集市(OLAP 和 OLTP混合)全球人力資源部、CRC(客戶報(bào)告中心:22TB)、AMT基于商用硬件的分布式數(shù)據(jù)庫(kù)Vertica20.570.34數(shù)據(jù)集市OLAPHadoop技術(shù)Cloudera Hadoop若干1.61.6

6、ETL集團(tuán)DW 、電子商務(wù)、信用風(fēng)險(xiǎn)數(shù)據(jù)暫存與歸檔銀行卡系統(tǒng)過(guò)期數(shù)據(jù)歸檔;集團(tuán)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)歸檔信息安全數(shù)據(jù)庫(kù)、防火墻、應(yīng)用程序等日志存儲(chǔ)與分析風(fēng)險(xiǎn)分析定量風(fēng)險(xiǎn)技術(shù) (最大的Hadoop應(yīng)用集群,173臺(tái)機(jī)器,1.6PB未壓縮數(shù)據(jù))、欺詐檢測(cè)沙箱分析美國(guó)銀行在數(shù)據(jù)集市領(lǐng)域大量使用X86 MPP技術(shù),HADOOP主要用于ETL、數(shù)據(jù)歸檔、日志分析及風(fēng)險(xiǎn)分析等應(yīng)用美國(guó)銀行未來(lái)大數(shù)據(jù)技術(shù)應(yīng)用11產(chǎn)品美國(guó)銀行的最佳定位戰(zhàn)略性產(chǎn)品IBM Netezza 純分析性的工作量的首選解決方案。高性能和高擴(kuò)展性。費(fèi)用較低,比 Exadata 或 Teradata 更容易進(jìn)行管理。并發(fā)性方面的局限,使其適用于數(shù)據(jù)市場(chǎng)

7、,或可能適合小型部門(mén)的數(shù)據(jù)倉(cāng)庫(kù)。 是Oracle Exadata 適用于 I/O 要求極為嚴(yán)苛并需要 20 TB 以上的交易/分析混合工作量。能夠處理同一系統(tǒng)中的多種工作量。也可視為適用于 20 TB 以上的分析數(shù)據(jù)庫(kù)(目前運(yùn)行的是標(biāo)準(zhǔn) Oracle 數(shù)據(jù)庫(kù)),因?yàn)樗?Netezza 更容易移植是Vertica (HP) 作為一種新興的主要候選方案,可替代 Netezza 和 Exadata,為大型數(shù)據(jù)市場(chǎng)或部門(mén)數(shù)據(jù)倉(cāng)庫(kù)(20 TB 以上)提供基于商品的列式數(shù)據(jù)庫(kù)。通過(guò)創(chuàng)新的寫(xiě)優(yōu)存儲(chǔ)和讀優(yōu)存儲(chǔ)以及經(jīng)驗(yàn)證的 PB 級(jí)別,擴(kuò)展架構(gòu)。在美國(guó)銀行進(jìn)行了兩項(xiàng)重大且成功的實(shí)施。 是Sybase IQ (

8、SAP) 列存儲(chǔ)的首個(gè)商業(yè)實(shí)施。穩(wěn)定、成熟的產(chǎn)品。許可交易使部署不受任何限制。通過(guò)標(biāo)準(zhǔn)的 x86 服務(wù)器和 SAN 運(yùn)行。以前不屬于擴(kuò)展解決方案,且在這方面仍未經(jīng)過(guò)驗(yàn)證。計(jì)劃作為 5-20 TB 數(shù)據(jù)市場(chǎng)的首選商品方案。 是Teradata行業(yè)標(biāo)準(zhǔn),適用于大型、要求高和復(fù)雜的企業(yè)數(shù)據(jù)倉(cāng)庫(kù),此類(lèi)數(shù)據(jù)倉(cāng)庫(kù)需要復(fù)雜的工作量管理和其他高級(jí)功能。高度專(zhuān)有化、昂貴且不易獲得支持。美國(guó)銀行的使用應(yīng)僅限于 W 數(shù)據(jù)倉(cāng)庫(kù),以及可能需要與 W 進(jìn)行極高水平集成的某些數(shù)據(jù)市場(chǎng)。 是SAP HANA 最佳用途是為運(yùn)行 SAP 軟件的應(yīng)用程序?qū)崿F(xiàn)加速。對(duì)于一般的非 SAP 工作量,不必采用此解決方案。亦沒(méi)有證據(jù)證明,H

9、ANA 在 SAP 前端之外的市場(chǎng)廣受歡迎。否ParAccel產(chǎn)品的發(fā)展速度非??臁9?yīng)商聲稱(chēng)自己在 POC 方面無(wú)人可及。創(chuàng)新的架構(gòu)和光纖通信。這是此表中唯一一個(gè)仍歸小型獨(dú)立供應(yīng)商所有的解決方案。需要考慮供應(yīng)商的規(guī)模、穩(wěn)定性和長(zhǎng)期生存能力。盡管技術(shù)令人印象深刻,但目前沒(méi)有計(jì)劃將 ParAccel 作為戰(zhàn)略性產(chǎn)品。否結(jié)構(gòu)化數(shù)據(jù)分析領(lǐng)域,Netezza、Exadata、Vertica、Teradata及Sybase IQ是美國(guó)銀行未來(lái)的戰(zhàn)略產(chǎn)品國(guó)內(nèi)銀行同業(yè) 中國(guó)銀行 采用HADOOP實(shí)現(xiàn)系統(tǒng)日志的分析 中國(guó)農(nóng)業(yè)銀行 進(jìn)行歷史數(shù)據(jù)的歸檔 中國(guó)銀聯(lián) 歷史數(shù)據(jù)歸檔12目前中行、農(nóng)行、銀聯(lián)等都已經(jīng)開(kāi)始了

10、基于HADOOP技術(shù)的應(yīng)用探索及規(guī)劃淘寶大數(shù)據(jù)技術(shù)應(yīng)用情況13應(yīng)用領(lǐng)域n 批處理: ETL數(shù)據(jù)分析,OLAP大數(shù)據(jù)量分析主要使用Hive 點(diǎn)擊流日志分析; 搜索排行榜和其他搜索相關(guān)的業(yè)務(wù) 機(jī)器學(xué)習(xí)n 數(shù)據(jù)生命周期管理: 歸檔存儲(chǔ):n 歷史訂單明細(xì)查詢n 應(yīng)用規(guī)模 3000多個(gè)節(jié)點(diǎn),36PB數(shù)據(jù),20多個(gè)事業(yè)群,150多用戶組,3000多用戶。Hadoop應(yīng)用發(fā)展歷程淘寶數(shù)據(jù)服務(wù)平臺(tái)架構(gòu)淘寶采用HADOOP技術(shù)構(gòu)建了完整的數(shù)據(jù)倉(cāng)庫(kù)及處理分析平臺(tái)大數(shù)據(jù)技術(shù)應(yīng)用研究結(jié)論14關(guān)系型數(shù)據(jù)領(lǐng)域非關(guān)系型數(shù)據(jù)領(lǐng)域Teradata主要用于數(shù)據(jù)倉(cāng)庫(kù)X86 MPP技術(shù)在數(shù)據(jù)集市中得到廣泛應(yīng)用HADOOP技術(shù)在如下領(lǐng)

11、域得到廣泛應(yīng)用數(shù)據(jù)歸檔存儲(chǔ)ELT半結(jié)構(gòu)化數(shù)據(jù)分析隨著HADOOP技術(shù)快速發(fā)展,其對(duì)關(guān)系型數(shù)據(jù)的處理支持也越來(lái)越強(qiáng),關(guān)系型與非關(guān)系型數(shù)據(jù)的處理技術(shù)邊界已經(jīng)日漸模糊,后續(xù)應(yīng)用HADOOP技術(shù)可能實(shí)現(xiàn)統(tǒng)一的數(shù)據(jù)處理分析平臺(tái)目錄 我行新一代數(shù)據(jù)集成平臺(tái)能力要求 業(yè)內(nèi)大數(shù)據(jù)技術(shù)的發(fā)展及應(yīng)用研究 我行大數(shù)據(jù)技術(shù)的應(yīng)用策略15我行大數(shù)據(jù)技術(shù)應(yīng)用規(guī)劃建議我行大數(shù)據(jù)技術(shù)應(yīng)用規(guī)劃建議技術(shù)應(yīng)用領(lǐng)域建議技術(shù)應(yīng)用領(lǐng)域建議ORACLE滿足OLTP類(lèi)應(yīng)用需求X86 MPP在某些非關(guān)鍵應(yīng)用領(lǐng)域作為T(mén)ERADATA的替代技術(shù),降低應(yīng)用成本;復(fù)雜的歷史數(shù)據(jù)查詢(如:多表關(guān)聯(lián),查詢條件可自由組合的查詢)Teradata核心數(shù)據(jù)倉(cāng)庫(kù)

12、應(yīng)用海量、多維度的復(fù)雜數(shù)據(jù)分析HADOOP技術(shù)歷史數(shù)據(jù)歸檔; 簡(jiǎn)單歷史數(shù)據(jù)查詢(查詢條件固定的單表查詢);半結(jié)構(gòu)化數(shù)據(jù)分析;RDW區(qū)(ORACLE Exadata)SOR區(qū) (X86 MPP)ADW &CM區(qū)(TERADATA)LDS區(qū)(X86 MPP+HADOOP)HDS-歸檔區(qū)(HADOOP)HDS-訪問(wèn)區(qū)(HADOOP+X86 MPP)Staging區(qū)第三階段引入基于X86平臺(tái)的商用硬件的分布什數(shù)據(jù)庫(kù)產(chǎn)品,以較合理的性價(jià)比,提高海量數(shù)據(jù)的計(jì)算能力與時(shí)俱進(jìn)、積極應(yīng)用總體規(guī)劃、分步實(shí)施制定計(jì)劃、穩(wěn)步推進(jìn)第二階段第一階段引入遵行HADOOP技術(shù)標(biāo)準(zhǔn)的HADOOP技術(shù)產(chǎn)品,實(shí)現(xiàn):海量結(jié)構(gòu)

13、化歷史數(shù)據(jù)的歸檔保存信息安全日志的存儲(chǔ)與分析擴(kuò)展HADOOP技術(shù)的應(yīng)用范圍:電商數(shù)據(jù)分析其他場(chǎng)景我行大數(shù)據(jù)技術(shù)應(yīng)用實(shí)施路徑建議不斷豐富大數(shù)據(jù)技術(shù)上的應(yīng)用功能,形成我行完善的大數(shù)據(jù)技術(shù)應(yīng)用體系。17HADOOP技術(shù)選擇方案比較18詳細(xì)見(jiàn):比較項(xiàng) 方案方案一:采用免費(fèi)開(kāi)源發(fā)行版Cloudera Hadoop方案二:采用商業(yè)開(kāi)源發(fā)行版(如Cloudera、Hortonworks)方案三:采用閉源的HADOOP技術(shù)產(chǎn)品(如Intel Hadoop、IBM BigInsights、EMC Pivotal HD)是否關(guān)鍵指標(biāo)成熟度與穩(wěn)定性高高中是應(yīng)用案例與規(guī)模多多少是產(chǎn)品和服務(wù)成本低中高是運(yùn)行維護(hù)成本高中中是行內(nèi)技術(shù)儲(chǔ)備要求高中中是國(guó)內(nèi)支持力量弱一般稍強(qiáng)是服務(wù)支持響應(yīng)時(shí)間長(zhǎng)較長(zhǎng)一般是運(yùn)行風(fēng)險(xiǎn)高中中是廠商依賴(lài)程度低中高否開(kāi)放程度高高低否產(chǎn)品按需定制的靈活度高中低否大數(shù)據(jù)技術(shù)應(yīng)用初步實(shí)施計(jì)劃19階段主題開(kāi)始時(shí)間結(jié)束時(shí)間第一階段引入X86分布式數(shù)據(jù)庫(kù),分擔(dān)Teradata批量數(shù)據(jù)處理壓力,合理降低成本已完成第二階段HADO

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論