大數(shù)據(jù)處理技術參考架構(共21頁)_第1頁
大數(shù)據(jù)處理技術參考架構(共21頁)_第2頁
大數(shù)據(jù)處理技術參考架構(共21頁)_第3頁
大數(shù)據(jù)處理技術參考架構(共21頁)_第4頁
大數(shù)據(jù)處理技術參考架構(共21頁)_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、精選優(yōu)質文檔-傾情為你奉上大數(shù)據(jù)處理技術參考架構二一五年十二月目 錄專心-專注-專業(yè)1. 背景隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)由海量拓展為多樣,在注重計算速度的同時更加關注挖掘有價值的數(shù)據(jù)。以IOE體系為核心的數(shù)據(jù)計算和存儲方式越來越不能滿足目前大數(shù)據(jù)處理在性能和成本上的綜合要求。為適應對大數(shù)據(jù)處理的要求,眾多的分布式計算平臺隨之興起,在對眾多分布式計算平臺進行權衡的同時,增強自主創(chuàng)新能力,以滿足人民銀行對信息技術安全可控的要求。在核心應用自主研發(fā)、核心知識自主掌控的氛圍下,保障大數(shù)據(jù)技術達到靈活可用的目標,確保數(shù)據(jù)和信息的有效、及時,確保信息系統(tǒng)的可靠、靈活。同時,充分的利用開源產(chǎn)品透明公開的關鍵

2、信息,做到對技術細節(jié)的掌控和驗證,開源產(chǎn)品的特點也更能夠激發(fā)開發(fā)者的熱情并推進技術的快速變革。在“互聯(lián)網(wǎng)+”的戰(zhàn)略布局下,當利用信息通信技術把互聯(lián)網(wǎng)和包括金融行業(yè)在內(nèi)的相關行業(yè)結合起來時,能夠更加合理和充分的利用大數(shù)據(jù)技術促進互聯(lián)網(wǎng)金融的健康發(fā)展。當前互聯(lián)網(wǎng)金融的格局中,由傳統(tǒng)金融機構和非金融機構組成。傳統(tǒng)金融機構的發(fā)展方向主要為傳統(tǒng)金融業(yè)務的互聯(lián)網(wǎng)創(chuàng)新以及電商化創(chuàng)新、手機APP服務等;非金融機構的發(fā)展方向則主要是指利用互聯(lián)網(wǎng)技術進行金融運作的電子商務企業(yè)、P2P模式的網(wǎng)絡借貸平臺,眾籌模式的網(wǎng)絡投資平臺或掌上理財服務,以及第三方支付平臺等。在金融行業(yè)新興業(yè)態(tài)下,為促進互聯(lián)網(wǎng)金融的健康發(fā)展,為

3、全面提升互聯(lián)網(wǎng)金融服務能力和普惠水平,為有效防范互聯(lián)網(wǎng)金融風險及其外溢效應而提供技術支撐。在金融領域,新生業(yè)態(tài)層出不窮,金融機構日益多樣化,金融資產(chǎn)的流動性快速上升,金融體系的關聯(lián)度、復雜度大幅提高。金融業(yè)的快速發(fā)展和創(chuàng)新,使貨幣政策操作環(huán)境、傳導渠道發(fā)生重大變化。在數(shù)據(jù)的處理分析上,對原有的宏觀審慎分析框架及其有效性、準確性提出了挑戰(zhàn)。2. 技術目標 獲得最優(yōu)系統(tǒng)價值,滿足大數(shù)據(jù)的處理性能,節(jié)約系統(tǒng)建設成本。 充分利用開源產(chǎn)品,做到對技術細節(jié)的掌控和驗證,以保障大數(shù)據(jù)技術達到靈活可用。 增強自主創(chuàng)新能力,滿足人民銀行對信息技術安全可控的要求。 有效提供技術支撐,適應金融行業(yè)新興業(yè)態(tài)下對大數(shù)據(jù)

4、技術的需要。 3. 技術要求在滿足海量數(shù)據(jù)高效處理的同時,對用戶的訪問能夠保持較高的實時性,快速響應用戶的請求。采用的大數(shù)據(jù)技術架構能夠支持水平擴展(Scale-out),適應未來五年對大數(shù)據(jù)存儲和處理的需要。采用的大數(shù)據(jù)技術架構能夠支持故障的檢測和自動快速恢復,確保系統(tǒng)的高可用性。在滿足大數(shù)據(jù)業(yè)務場景性能要求的同時,采用更加經(jīng)濟的大數(shù)據(jù)技術解決方案。4. 大數(shù)據(jù)處理業(yè)務場景以統(tǒng)計分析類的業(yè)務場景為例,針對大數(shù)據(jù)的處理主要經(jīng)過采集、存儲、校驗、審核、匯總、計算、分析挖掘等過程,在數(shù)據(jù)粒度上,既要包逐筆的標準化源數(shù)據(jù),還要包括不同層次的總量指標數(shù)據(jù),從而實現(xiàn)對統(tǒng)計體系業(yè)務的全覆蓋、無遺漏。統(tǒng)計分

5、析類大數(shù)據(jù)處理、報表展現(xiàn)和信息發(fā)布的典型流程如下圖所示:統(tǒng)計分析類業(yè)務的特點主要包括: 在每個處理環(huán)節(jié)中,均能夠為業(yè)務操作員提供實時的業(yè)務處理情況或處理結果的查詢。 校驗、匯總、計算等環(huán)節(jié)中,所涉及到的運算規(guī)則均定義在數(shù)據(jù)庫或配置文件中,在執(zhí)行處理之前,需要獲取運算規(guī)則。 在報表數(shù)據(jù)生成或信息發(fā)布環(huán)節(jié),能夠提供逐筆數(shù)據(jù)、指標數(shù)據(jù)、匯總數(shù)據(jù)和報表數(shù)據(jù)的實時查詢,并能夠通過BI工具訪問以上數(shù)據(jù)。 統(tǒng)計類的數(shù)據(jù)查詢多為綜合查詢,條件通??捎捎脩粼诓樵兦岸ㄖ?,有查詢響應實時性、查詢條件多樣性、查詢多表關聯(lián)性的特點。 能夠靈活的通過數(shù)據(jù)挖掘技術對數(shù)據(jù)進行價值分析,例如:R語言。 能夠靈活的使用數(shù)據(jù)可視化

6、技術對數(shù)據(jù)進行互動展現(xiàn),例如:EChars。統(tǒng)計系統(tǒng)業(yè)務量以每月增量40億筆進行估算(以每筆1KB估算,約4TB/月增量數(shù)據(jù);每筆數(shù)據(jù)平均包含20個字段),現(xiàn)有存量數(shù)據(jù)大約在20TB。 增量數(shù)據(jù)在當月5-8日進行校驗、審核等處理,數(shù)據(jù)處理過程希望在T+0完成。實時查詢業(yè)務為用戶隨機進行。在使用數(shù)據(jù)進行分布式計算時,一般情況當月4TB的數(shù)據(jù)全部參與計算。比較復雜場景之一是邏輯校驗部分的算法,按不同的規(guī)則,有的規(guī)則會使用到當月的全部增量數(shù)據(jù)參與校驗,有的規(guī)則會按金融機構維度使用當前機構的歷史數(shù)據(jù)參與校驗。5. 大數(shù)據(jù)處理技術對比目前對海量數(shù)據(jù)進行分布式處理的技術主要分為兩類: MPP(Massiv

7、ely Parallel Processing)大規(guī)模并行處理技術;MPP技術大多用于數(shù)據(jù)倉庫領域,是將任務并行的分散到多個服務器節(jié)點上,在每個節(jié)點上計算完成后,將各自部分的結果匯總在一起得到最終的結果的一項技術,典型的代表例如:Teradata,HP Vertica,EMC Greenplum,GBase,Oracle Exadata等。 Apache Hadoop、Spark技術。Hadoop&Spark是由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構,它所解決的核心問題是,通過部署在低廉的硬件上的、可以協(xié)同工作的軟件組件,來完成分布式數(shù)據(jù)存儲、高吞吐量數(shù)據(jù)訪問、以及高負載的分布式計算。近

8、些年在眾多行業(yè)都得到廣泛應用。5.1. MPP與Hadoop&Spark技術對比集群規(guī)模上,MPP技術支持近百個節(jié)點(中國大陸很少有100+節(jié)點的案例)。Hadoop&Spark技術支持幾千個節(jié)點。擴容影響上,MPP技術擴容通常導致停機、服務中斷;數(shù)據(jù)需要重新分布,性能嚴重下降。Hadoop&Spark技術擴容無需停機、服務不中斷;數(shù)據(jù)無需重新分布,新數(shù)據(jù)自動被分配到新的節(jié)點中,性能沒有影響。數(shù)據(jù)分布方式上,MPP技術以預定義數(shù)據(jù)分布策略,按列進行散列或輪詢分布;真實數(shù)據(jù)通常有傾斜,將導致數(shù)據(jù)不均勻分布,對計算效率影響較大。Hadoop&Spark技術中,數(shù)據(jù)按預配置的塊大小自動均勻分布,通過

9、blockmap映射表查詢數(shù)據(jù)位置;數(shù)據(jù)分布均勻、擴容無需停機。處理數(shù)據(jù)量上,MPP技術在數(shù)十TB級別。Hadoop&Spark技術在PB級別。容錯能力上,MPP技術不存放中間結果,出錯時需要重新執(zhí)行整個任務。Hadoop&Spark技術存放中間結果,出錯時只需要重新運行出錯的子任務并發(fā)能力上,MPP技術多用于分析型應用場景,數(shù)據(jù)裝載時建立索引較慢;通常不超過數(shù)百個并發(fā)。Hadoop&Spark技術數(shù)據(jù)裝載快,采用公平調度/配額調度;可支持上億用戶并發(fā)數(shù)據(jù)插入、查詢、檢索。數(shù)據(jù)存儲對象,MPP技術支持結構化數(shù)據(jù),Hadoop&Spark技術支持結構化、半結構化、非結構化數(shù)據(jù)。應用運算邏輯實現(xiàn)方

10、式上,MPP技術SQL語言,Hadoop&Spark技術支持SQL2003、部分PL/SQL、R、Java、Scala等。數(shù)據(jù)訪問接口,MPP技術支持JDBC、ODBC,Hadoop&Spark技術支持JDBC、ODBC、R語言接口等。MPPHadoop&Spark集群規(guī)模近百個節(jié)點(中國大陸很少有100+節(jié)點的案例)幾千個節(jié)點動態(tài)擴展運算能力擴容通常導致停機、服務中斷;數(shù)據(jù)需要重新分布,性能嚴重下降。擴容無需停機、服務不中斷;擴容時數(shù)據(jù)無需重新分布,新數(shù)據(jù)自動被分配到新的節(jié)點中,性能沒有影響。數(shù)據(jù)分布方式數(shù)據(jù)以預定義的分布策略,按列進行散列或輪詢分布;真實數(shù)據(jù)通常有傾斜,將導致數(shù)據(jù)不均勻分布

11、,對計算效率影響較大。數(shù)據(jù)以預定義的塊大小自動均勻分布,通過blockmap映射表查詢數(shù)據(jù)位置;數(shù)據(jù)分布均勻、擴容無需停機。處理數(shù)據(jù)量數(shù)十TBPB容錯能力不存放中間結果,出錯時需要重新執(zhí)行整個任務存放中間結果,出錯時只需要重新運行出錯的子任務并發(fā)能力用于分析型應用場景,數(shù)據(jù)裝載時建立索引較慢;通常不超過數(shù)百個并發(fā)。數(shù)據(jù)裝載快,采用公平調度/配額調度;可支持上億用戶并發(fā)數(shù)據(jù)插入、查詢、檢索。數(shù)據(jù)存儲對象結構化數(shù)據(jù)結構化、半結構化、非結構化數(shù)據(jù)應用運算邏輯實現(xiàn)方式SQL語言SQL2003、部分PL/SQL、 R、Java、Scala等數(shù)據(jù)訪問接口JDBC、ODBCJDBC、ODBC、R語言接口等索

12、引支持支持(rowkey索引、二維索引、全文關鍵字索引)5.2. Hadoop&Spark技術優(yōu)勢存儲、處理、分析PB級別的結構化、半結構化、非結構化數(shù)據(jù)。低成本運算能力,使用低成本的存儲和服務器構建,僅花費40%左右價格,便可以達到甚至超越IOE架構的性能。動態(tài)擴展運算能力,擴容無需停機、服務不中斷,數(shù)據(jù)無需重新分布,新數(shù)據(jù)自動被分配到新的節(jié)點中,性能沒有影響。高擴展能力,集群規(guī)模可擴展至幾千個節(jié)點 。高容錯能力,數(shù)據(jù)處理過程中存放中間結果,出錯時只需要重新運行出錯的子任務。應用運算邏輯,支持Java、R語言、Scala 、SQL2003等。5.3. Hadoop框架對比Apache Had

13、oopCloudera CDHHortonworks HDP開源程度完全開源部分開源(包含免費版/企業(yè)版)完全開源(包含免費版/企業(yè)版)技術支持無每年按節(jié)點數(shù)量收費每年按節(jié)點數(shù)量收費集群部署復雜容易容易集群監(jiān)控較易容易容易集群管理較易容易容易專有代碼依賴無有(如:管理工具)無主要特點Apache Hadoop已經(jīng)形成生態(tài)系統(tǒng),除了包含HDFS、YARN、MapReduce,還包含了很多其他Apache項目,如:HBase、Hive、ZooKeeper、Ambari、Sqoop等等,使用者可以根據(jù)需要自由組合。通過添加專有代碼實現(xiàn)的Cloudera Manager完成集群的部署和管理,并對集群的

14、節(jié)點及服務進行實時監(jiān)控。所有解決方案都通過Apache Software Foundation以項目形式開發(fā),HDP內(nèi)無需專用擴展。避免隨著擴展而背離主干,以及隨之而來的兼容性問題。5.4. Hadoop使用情況根據(jù)咨詢機構Wikibon在2014年進行的一項調查,部署Hadoop的機構中,僅有25%是付費用戶,而有51%是基于Hadoop的開源版本自行開發(fā),還有24%的用戶則是使用Cloudera、Hortonworks等Hadoop開發(fā)商推出的免費版本。5.5. Hadoop血緣關系IBM BigInsights是基于Apache Hadoop框架的存儲,管理和分析Internet級別數(shù)據(jù)

15、量的半結構化和非結構化數(shù)據(jù)的方案,具備企業(yè)級管理、工作流管理、安全管理、可視化挖掘與展現(xiàn)等能力,能與現(xiàn)有基礎設施和大數(shù)據(jù)流計算技術集成。產(chǎn)品設計思路是基于Apache Hadoop框架,在保持完全100% Apache Hadoop兼容的情況下,加入IBM的項目和研究開發(fā)的分析能力。整體架構如下圖所示:EMC Pivotal HD是EMC公司進行自主研發(fā)的Hadoop商業(yè)化產(chǎn)品,在2013年2月獨立推出的商業(yè)發(fā)行版(2013年以前EMC 和MapR公司在Hadoop領域為合作伙伴)。Pivotal HD產(chǎn)品包括Hadoop 2.0的MapReduce和HDFS,可以利用Hive、HBase、P

16、ig開發(fā)語言、Yarn資源管理、Mahout分析工具和Zookeeper工具等。還包括Hardware Virtual Extensions(HVE)組件,它可以讓Hadoop群知道自己是建立在虛擬機還是物理服務器上。整體架構如下圖所示:MapR 是MapR Technologies公司于2011年正式發(fā)布的產(chǎn)品,目標是使Hadoop變?yōu)橐粋€速度更快、可靠性更高、更易于管理、使用更加方便的分布式計算服務和存儲平臺,同時性能也不斷提高。它將極大的擴大了Hadoop的使用范圍和方式。它包含了開源社區(qū)許多流行的工具和功能,例如Hbase、Hive。它還100%與Apache Hadoop的API兼容

17、。目前有M3(免費版)和M5(收費版)兩個版本。整體架構如下圖所示:天云趨勢科技Hadoop解決方案主要基于Hortonworks 發(fā)行版,同時也提供了對Cloudera Hadoop發(fā)行版的支持。整體架構如下圖所示:音智達Hadoop解決方案基于Cloudera Hadoop發(fā)行版。整體架構如下圖所示:浪潮Hadoop解決方案基于Intel Hadoop發(fā)行版。整體架構如下圖所示:華為FusionInsight Hadoop是完全基于Apache Hadoop組件構建的Hadoop產(chǎn)品,在Apache Hadoop版本的基礎上對HBase、HDFS和MapReduce等組件增加了HA、查詢和

18、分析功能,進行了性能優(yōu)化,并及時回饋Hadoop社區(qū),保持版本同步,接口與社區(qū)版本完全一致。整體架構如下圖所示:星環(huán)科技Transwarp Data Hub(TDH)基于Apache Hadoop組件構建,并在此基礎之上研發(fā)了交互式SQL分析引擎Inceptor、實時NoSQL數(shù)據(jù)庫Hyperbase和Transwarp Manager等引擎。同時支持R語言數(shù)據(jù)挖掘、機器學習、實時流處理、全文搜索和圖計算和系統(tǒng)安裝及集群配置功能。整體架構如下圖所示:5.6. 行業(yè)大數(shù)據(jù)應用場景對比分析基于MPP的數(shù)據(jù)倉庫Hadoop & Spark阿里云工商銀行Teradata信息庫建設銀行Teradata交

19、通銀行Teradata廣發(fā)銀行Oracle中國銀聯(lián)風險控制與交易查詢(Cloudera)實時查詢采用Hadoop-HBase民生銀行大數(shù)據(jù)分析平臺(星環(huán)科技)實時查詢采用基于Hadoop-HBase的星環(huán)Hyperbase恒豐銀行數(shù)據(jù)倉庫(星環(huán)科技)實時查詢采用基于Hadoop-HBase的星環(huán)Hyperbase北京銀行歷史明細數(shù)據(jù)查詢、司法查詢(東方國信)上海銀行核心系統(tǒng)及數(shù)據(jù)分析天弘基金核心系統(tǒng)及數(shù)據(jù)分析眾安保險核心系統(tǒng)及數(shù)據(jù)分析新華保險精準營銷分析(Cloudera)中國聯(lián)通通話及短信息記錄輿情分析(東方國信)美團網(wǎng)大數(shù)據(jù)分析平臺(Apache)實時查詢采用Hadoop-HBase和My

20、SQL6. 大數(shù)據(jù)處理參考架構6.1. 參考架構結合統(tǒng)計分析Web應用的數(shù)據(jù)處理典型場景,在Hadoop&Spark開源框架中,分布式文件系統(tǒng)HDFS、資源調度引擎YARN、內(nèi)存計算引擎Spark、挖掘分析引擎SparkR、分布式遷移引擎Sqoop等較為符合統(tǒng)計類應用場景。分布式文件系統(tǒng)HDFS,是Hadoop體系中數(shù)據(jù)存儲管理的基礎,也是高度容錯的系統(tǒng),能檢測和應對硬件故障,用于在低成本的通用硬件上運行。資源調度引擎YARN,是通用資源管理系統(tǒng),可以為上層應用提供統(tǒng)一的資源管理和調度。計算引擎MapReduce,用以進行大數(shù)據(jù)量的計算。Hadoop的MapReduce與Common、HDFS

21、一起,構成了Hadoop發(fā)展初期的三個組件。分布式數(shù)據(jù)倉庫Hive是建立在Hadoop基礎上的數(shù)據(jù)倉庫架構,為數(shù)據(jù)倉庫的管理提供的主要功能包括:數(shù)據(jù)ETL工具、數(shù)據(jù)存儲管理和大型數(shù)據(jù)集的查詢和分析能力。分布式協(xié)作服務ZooKeeper,提供了統(tǒng)一命名服務、狀態(tài)同步服務、集群管理、分布式應用配置項的管理等。ZooKeeper通過封裝好復雜、易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩(wěn)定的服務提供給用戶。分布式遷移引擎Sqoop主要作用是在結構化數(shù)據(jù)存儲與Hadoop之間進行數(shù)據(jù)交換。Sqoop可以將一個關系型數(shù)據(jù)庫(如:MySQL、DB2等)中的數(shù)據(jù)導入Hadoop的HDFS、Hive中

22、,也可以將HDFS、Hive中的數(shù)據(jù)導入關系型數(shù)據(jù)庫中。內(nèi)存計算引擎Spark是與Hadoop相似的開源集群計算環(huán)境,Spark啟用了內(nèi)存分布數(shù)據(jù)集,基于內(nèi)存進行分布式計算,除了能夠提供交互式查詢外,還可以優(yōu)化迭代工作負載。配置管理監(jiān)控服務Ambari是基于Web的工具,用于配置、管理和監(jiān)視Hadoop集群,并支持HDFS、MapReduce、Hive、ZooKeeper、Sqoop等框架。Ambari還提供了集群狀況儀表盤,以及查看MapReduce、Hive應用程序的能力,以友好的用戶界面對它們的性能進行診斷。下圖基于Apache Hadoop的開源框架,給出了大數(shù)據(jù)處理的參考架構。統(tǒng)計類

23、系統(tǒng)數(shù)據(jù)處理流程主要包括以下步驟:采集(解壓報文等文件操作)-校驗(每筆數(shù)據(jù)各字段的格式校驗、各筆數(shù)據(jù)之間的邏輯關系校驗等)-審核(與歷史數(shù)據(jù)的比對,同期/上期;或執(zhí)行自定義審核SQL、算法等)-匯總計算(指標計算、數(shù)據(jù)匯總等)-查詢-數(shù)據(jù)分析-報表-信息發(fā)布。結合統(tǒng)計類系統(tǒng)的處理流程,對于現(xiàn)有系統(tǒng)的數(shù)據(jù),可以通過分布式遷移引擎Sqoop將數(shù)據(jù)同步至分布式文件系統(tǒng)HDFS中加以分析利用。對于采集數(shù)據(jù)的校驗審核、匯總計算等應用功能,可以通過分布式數(shù)據(jù)倉庫Hive或直接內(nèi)存計算引擎Spark進行異步計算和處理。對于數(shù)據(jù)處理過程中的狀態(tài)跟蹤和監(jiān)控以及簡要的信息發(fā)布,可以通過分布式數(shù)據(jù)庫HBase直接

24、從HDFS中獲取相應的信息。6.2. 與JavaEE體系對比通過下圖的對比不難看出,大數(shù)據(jù)處理參考架構中的各類引擎主要是拓展JavaEE體系中業(yè)務邏輯層與數(shù)據(jù)持久層對大數(shù)據(jù)的支撐。6.3. 參考架構運行狀態(tài)通過下圖的能夠看出,參考架構在運行時,各引擎在主機節(jié)點中均會有對應的進程,YARN的集群在運行時提供了資源的調度和管理,ZooKeeper的集群在運行時為各引擎提供了高可用的保障。Spark引擎中的進程分為Master和Worker,當節(jié)點故障時,由協(xié)作服務ZooKeeper進行Master切換,保障Spark的持續(xù)可用。7. 總結與思考大數(shù)據(jù)是指不用隨機分析法(如:抽樣調查)這樣的捷徑,而

25、采用所有數(shù)據(jù)進行分析處理。大數(shù)據(jù)的主要特點包括:海量的、高增長率的(Volume),數(shù)據(jù)處理模式的高效性(Velocity),數(shù)據(jù)來源、種類的多樣化(Variety),待探勘的數(shù)據(jù)價值(Value)。從業(yè)務角度來看,在數(shù)據(jù)來源和種類多樣化的環(huán)境中為了能夠更加深入的對數(shù)據(jù)價值進行探勘,還需要注重以下幾方面:1. 數(shù)據(jù)來源的準確。大數(shù)據(jù)應用的核心是挖掘數(shù)據(jù)價值,而挖掘數(shù)據(jù)價值的前提是數(shù)據(jù)來源的準確性。沒有準確的數(shù)據(jù)來源,很難得到有價值的結果。2. 數(shù)據(jù)質量的持久。為了充分挖掘大數(shù)據(jù)的價值,業(yè)務系統(tǒng)必須持久的保證數(shù)據(jù)質量。高質量的數(shù)據(jù)不僅僅體現(xiàn)在質量管控,更要有持續(xù)的治理。業(yè)務系統(tǒng)中需要有完善的數(shù)據(jù)

26、質量管理流程,能夠作用于數(shù)據(jù)生命周期的不同階段。3. 數(shù)據(jù)標準的一致。大數(shù)據(jù)在挖掘分析之前需要先將數(shù)據(jù)標準化,利用標準化后的數(shù)據(jù)進行分析。單個業(yè)務系統(tǒng)內(nèi)部的數(shù)據(jù)標準化主要體現(xiàn)在數(shù)據(jù)無量綱化處理,即:解決數(shù)據(jù)的可比性(如:指標數(shù)據(jù)的定性轉定量處理)。多個業(yè)務系統(tǒng)之間的數(shù)據(jù)標準化主要體現(xiàn)在數(shù)據(jù)的公共維度所遵循標準的一致性上。業(yè)務系統(tǒng)在規(guī)劃階段,必須充分使用人民銀行公共代碼規(guī)范,將業(yè)務數(shù)據(jù)的公共維度與規(guī)范統(tǒng)一,并遵循人民銀行信息技術標準體系。4. 數(shù)據(jù)價值的探索。在大數(shù)據(jù)時代中業(yè)務系統(tǒng)已經(jīng)逐漸由功能是價值轉變?yōu)閿?shù)據(jù)是價值,對大數(shù)據(jù)價值的挖掘是探索性的。大數(shù)據(jù)的出現(xiàn)填補了無數(shù)的空白,面對海量的、高增長

27、率的、種類多樣化的大數(shù)據(jù)僅采用傳統(tǒng)的數(shù)據(jù)分析方法是不夠的,需要采用大數(shù)據(jù)的思維模式,例如:由傳統(tǒng)的因果思維轉變?yōu)橄嚓P思維,深入的探索數(shù)據(jù)的關聯(lián)性。從而能夠更加有效的進行預測分析、輔助決策,為央行履職提供更強有力的支撐。面對海量、高增長率、多樣化信息資產(chǎn)的諸多特點,在技術上我們需要引入新的處理模式以具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力。結合統(tǒng)計分析類業(yè)務在數(shù)據(jù)處理和數(shù)據(jù)展現(xiàn)環(huán)節(jié)的特點進行分析以及對原型系統(tǒng)的測試情況,數(shù)據(jù)處理環(huán)節(jié)采用Hadoop&Spark技術較為適宜,主要包括:采集(解壓報文、每筆數(shù)據(jù)各字段的格式校驗等文件操作)、校驗(各字段的合規(guī)校驗、數(shù)據(jù)之間的邏輯關系校驗等)、審核(

28、與歷史數(shù)據(jù)比對,同期/上期;或執(zhí)行審核SQL、算法等)、匯總計算(指標計算、數(shù)據(jù)匯總等) 各環(huán)節(jié)處理情況監(jiān)控、以及挖掘分析(基于全量數(shù)據(jù))、數(shù)據(jù)存儲(TBPB)、數(shù)據(jù)整合加工和數(shù)據(jù)分發(fā)。數(shù)據(jù)展現(xiàn)環(huán)節(jié)采用關系型數(shù)據(jù)庫集群技術較為適宜,主要包括:報表、綜合查詢(具有實時、多表關聯(lián)、自定義條件或表樣的特點)、多維分析(如:維度表、事實表)。在研發(fā)能力方面,現(xiàn)有的技術團隊在Hadoop&Spark技術方面的技能和經(jīng)驗比較欠缺,特別是大數(shù)據(jù)相關的技術正處于成長階段,技術團隊豐富的實踐經(jīng)驗尤為重要,否則難以快速響應和處理突發(fā)問題。具有大數(shù)據(jù)處理需求的系統(tǒng)在建設過程中,可以考慮通過與實施經(jīng)驗豐富的、有較強的

29、自主研發(fā)能力的大數(shù)據(jù)技術平臺廠商或技術團隊進行合作。一方面,能夠通過借鑒外界成熟的實踐經(jīng)驗,來應對研發(fā)能力不足所帶來的風險;另一方面,能夠引入外界技術力量對系統(tǒng)研發(fā)過程進行指導,促進大數(shù)據(jù)技術團隊的組建。附錄:名詞解釋大數(shù)據(jù):由維克托邁爾-舍恩伯格和肯尼斯庫克耶在2008年8月提出,大數(shù)據(jù)指不用隨機分析法(如:抽樣調查)這樣的捷徑,而采用所有數(shù)據(jù)進行分析處理。全球最具權威的IT研究與顧問咨詢機構Gartner將大數(shù)據(jù)定義為,需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。IBM提出大數(shù)據(jù)的5V特點,Volume(大量)、Velocity(高速)、

30、Variety(多樣)、Value(價值)和Veracity(真實性)。2015年8月國務院在促進大數(shù)據(jù)發(fā)展行動綱要中指出,大數(shù)據(jù)是以容量大、類型多、存取速度快、應用價值高為主要特征的數(shù)據(jù)集合,正快速發(fā)展為對數(shù)量巨大、來源分散、格式多樣的數(shù)據(jù)進行采集、存儲和關聯(lián)分析,從中發(fā)現(xiàn)新知識、創(chuàng)造新價值、提升新能力的新一代信息技術和服務業(yè)態(tài)?;ヂ?lián)網(wǎng)+:“互聯(lián)網(wǎng)+”是把互聯(lián)網(wǎng)的創(chuàng)新成果與經(jīng)濟社會各領域深度融合,推動技術進步、效率提升和組織變革,提升實體經(jīng)濟創(chuàng)新力和生產(chǎn)力,形成更廣泛的以互聯(lián)網(wǎng)為基礎設施和創(chuàng)新要素的經(jīng)濟社會發(fā)展新形態(tài)。IOE:指服務器提供商IBM,數(shù)據(jù)庫提供商Oracle,存儲設備提供商EM

31、C的簡稱?;ヂ?lián)網(wǎng)金融:是傳統(tǒng)金融機構與互聯(lián)網(wǎng)企業(yè)利用互聯(lián)網(wǎng)技術和信息通信技術實現(xiàn)資金融通、支付、投資和信息中介服務的新型金融業(yè)務模式。P2P借貸:peer to peer網(wǎng)絡借貸的一種模式,包括個體網(wǎng)絡借貸(即P2P網(wǎng)絡借貸)和網(wǎng)絡小額貸款。個體網(wǎng)絡借貸是指個體和個體之間通過互聯(lián)網(wǎng)平臺實現(xiàn)的直接借貸。眾籌:股權眾籌融資,主要是指通過互聯(lián)網(wǎng)形式進行公開小額股權融資的活動。股權眾籌融資必須通過股權眾籌融資中介機構平臺(互聯(lián)網(wǎng)網(wǎng)站或其他類似的電子媒介)進行。第三方支付平臺:指一些和產(chǎn)品所在國家以及國內(nèi)外各大銀行簽約、并具備一定實力和信譽保障的第三方獨立機構提供的交易支持平臺。x86架構:由Intel推出的一種復雜指令集,用于控制

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論