案例恒豐銀行——基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)倉庫應(yīng)用建設(shè)一點資訊_第1頁
案例恒豐銀行——基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)倉庫應(yīng)用建設(shè)一點資訊_第2頁
案例恒豐銀行——基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)倉庫應(yīng)用建設(shè)一點資訊_第3頁
案例恒豐銀行——基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)倉庫應(yīng)用建設(shè)一點資訊_第4頁
案例恒豐銀行——基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)倉庫應(yīng)用建設(shè)一點資訊_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、案例】恒豐銀行基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)倉庫應(yīng)用建設(shè)一點資訊 數(shù)據(jù)猿導(dǎo)讀恒豐銀行探索采用大數(shù)據(jù)技術(shù)構(gòu)建統(tǒng)一的 企業(yè)級數(shù)據(jù)管理平臺,重構(gòu)數(shù)據(jù)倉庫應(yīng)用,減少數(shù)據(jù)重復(fù)加 工與存儲,促進信息管理應(yīng)用的數(shù)據(jù)融合共享,提高數(shù)據(jù)處 理總體效率,提升數(shù)據(jù)分析和應(yīng)用創(chuàng)新能力,正逐步取得預(yù) 期的成效。在論壇現(xiàn)場,也將頒發(fā)“技術(shù)創(chuàng)新獎”、“應(yīng)用創(chuàng)新 獎”、“最佳實踐獎”、“優(yōu)秀案例獎”四大類案例獎本文長度為 9800 字,建議閱讀 20 分鐘隨著利率市場化進程加快、互聯(lián) 網(wǎng)金融業(yè)態(tài)的發(fā)展,傳統(tǒng)銀行與實體經(jīng)濟的業(yè)務(wù)橫向聯(lián)系與 深度融合進展迅速,業(yè)務(wù)數(shù)據(jù)的內(nèi)容不斷豐富,數(shù)據(jù)規(guī)模也 不斷增長。伴隨著商業(yè)銀行業(yè)務(wù)的快速發(fā)展,傳統(tǒng)

2、數(shù)據(jù)倉庫 技術(shù)架構(gòu)面臨越來越大的挑戰(zhàn),其表現(xiàn)如下: ( 1)大部分傳 統(tǒng)數(shù)據(jù)倉庫對分布式并行計算模式的支持不夠,難以實現(xiàn)處 理能力的水平彈性擴展,依賴于服務(wù)器硬件的升級實現(xiàn)處理 能力擴容,不僅成本非常高昂,而且受到服務(wù)器硬件升級周 期較長的限制。(2)商業(yè)銀行因業(yè)務(wù)復(fù)雜性和多樣性的原因, 現(xiàn)存的數(shù)據(jù)應(yīng)用系統(tǒng)種類較多。在單個數(shù)據(jù)庫系統(tǒng)處理能力 有限的情況下, 普遍存在應(yīng)用各自獨立建設(shè), 缺乏統(tǒng)籌規(guī)劃, 系統(tǒng)間數(shù)據(jù)處理職責劃分不合理、口徑不一致,存在大量的 重復(fù)加工和數(shù)據(jù)冗余的問題。 ( 3)傳統(tǒng)數(shù)據(jù)倉庫軟件主要面 向數(shù)據(jù)分析型應(yīng)用,無法兼顧實時營銷與實時風(fēng)險管理等高 并發(fā)、低延遲應(yīng)用場景需要,較

3、難處理非結(jié)構(gòu)化數(shù)據(jù),難以 快速實現(xiàn)業(yè)務(wù)團隊的數(shù)據(jù)探索、數(shù)據(jù)挖掘與業(yè)務(wù)建模需求。 以 Hadoop/Spark 為代表的大數(shù)據(jù)技術(shù)發(fā)展迅猛,為解決傳 統(tǒng)架構(gòu)的瓶頸帶來了新思維。以大數(shù)據(jù)技術(shù)為基礎(chǔ)的數(shù)據(jù)管 理平臺與傳統(tǒng)數(shù)據(jù)庫軟件相比,具備如下優(yōu)勢: ( 1)更低的 成本投入能夠基于 X86 服務(wù)器彈性水平擴展, 通過節(jié)點冗余 增加容錯能力,多核計算資源能充分利用,相比小型機方案 成本低廉;利用本地磁盤做存儲,節(jié)省昂貴的集中存儲設(shè)備 投入;軟件產(chǎn)品和服務(wù)的價格更低。 ( 2)更強的整體處理能 力消除集中存儲的帶寬瓶頸,可采用 SSD 介質(zhì)加速隨機讀 寫速度 ,獲得極高的 IO 處理能力;針對并行計算

4、需求設(shè)計, 采用異步無鎖的高并發(fā)服務(wù)框架,提供可線性增長的數(shù)據(jù)并 行處理能力,可提供高并發(fā)低延遲數(shù)據(jù)處理服務(wù)。 (3)更優(yōu) 的資源管理和調(diào)度機制可提供彈性的租戶資源管理體系,防 止不同應(yīng)用之間的資源過度競爭,在不同時間段為各應(yīng)用按 需調(diào)配資源,利于在一個統(tǒng)一的數(shù)據(jù)平臺上構(gòu)建多個應(yīng)用系 統(tǒng)。處于業(yè)務(wù)發(fā)展的新階段恒豐銀行,更需要一個低成本可 線性擴展的數(shù)據(jù)處理平臺,解決企業(yè)多個數(shù)據(jù)應(yīng)用形成數(shù)據(jù) 孤島,數(shù)據(jù)資源難以共享、數(shù)據(jù)標準不一、存在大量冗余數(shù) 據(jù)的問題。恒豐銀行在進行充分的可行性分析后,基于大數(shù) 據(jù)平臺重構(gòu)優(yōu)化了數(shù)據(jù)倉庫及關(guān)聯(lián)應(yīng)用。同時基于統(tǒng)一的企 業(yè)公共數(shù)據(jù)模型上構(gòu)建發(fā)展各應(yīng)用集市和分析集市

5、,減少數(shù) 據(jù)的重復(fù)加工和各數(shù)據(jù)應(yīng)用的開發(fā)成本。最后,構(gòu)建了包容 實時數(shù)據(jù)應(yīng)用和數(shù)據(jù)分析型應(yīng)用的統(tǒng)一軟硬件技術(shù)架構(gòu),同 時滿足聯(lián)機數(shù)據(jù)查詢和海量數(shù)據(jù)分析需求,提高數(shù)據(jù)應(yīng)用的 開發(fā)效率和增強了服務(wù)器資源有效利用率,減少了應(yīng)用總體 開發(fā)和部署成本。周期 /節(jié)奏 2015 年 7 月,恒豐銀行正式啟 動大數(shù)據(jù)平臺建設(shè)項目。 2015 年底完成需求梳理、架構(gòu)與 應(yīng)用規(guī)劃。 2016 年 1 月,在開源軟件、國產(chǎn)大數(shù)據(jù)平臺的 基礎(chǔ)上,恒豐銀行自主設(shè)計開發(fā)建設(shè)企業(yè)級大數(shù)據(jù)應(yīng)用平臺, 利用全新的大數(shù)據(jù)平臺技術(shù)全面重構(gòu)了企業(yè)數(shù)據(jù)倉庫應(yīng)用。 2016 年 5 月在企業(yè)數(shù)據(jù)倉庫公共數(shù)據(jù)集市成果基礎(chǔ)上,結(jié) 合大數(shù)據(jù)技

6、術(shù)服務(wù)能力,升級改造原有的渠道、授信管理、 審計、客戶管理等系統(tǒng), 在客戶服務(wù)、 風(fēng)險管理、 內(nèi)部管控、 營銷管理等多個業(yè)務(wù)領(lǐng)域開發(fā)基于大數(shù)據(jù)平臺的創(chuàng)新。 2017 年延續(xù)大數(shù)據(jù)思維,將打造更加智能化的技術(shù)平臺,整合深 度學(xué)習(xí)、知識圖譜、情感計算等前沿人工智能技術(shù),自主研 發(fā)智能決策引擎產(chǎn)品,與渠道和產(chǎn)品系統(tǒng)充分整合,為恒豐 銀行業(yè)務(wù)發(fā)展植入更加智慧的數(shù)據(jù)大腦。 客戶名稱 /所屬分類 恒豐銀行 /大數(shù)據(jù)技術(shù)服務(wù)任務(wù) /目標商業(yè)銀行業(yè)務(wù)快速發(fā)展 對數(shù)據(jù)應(yīng)用的時效性和處理能力提出了更高要求,傳統(tǒng)數(shù)據(jù) 倉庫技術(shù)普遍存在升級成本高、不能彈性擴容、并發(fā)處理能 力較低的問題。探索采用大數(shù)據(jù)技術(shù)構(gòu)建統(tǒng)一的企

7、業(yè)級數(shù)據(jù)管理平臺,重構(gòu)數(shù)據(jù)倉庫應(yīng)用,減少數(shù)據(jù)重復(fù)加工與冗余存 儲,促進信息管理應(yīng)用的數(shù)據(jù)融合共享,提高數(shù)據(jù)處理總體 效率,提升數(shù)據(jù)分析和深度應(yīng)用能力,正逐漸成為商業(yè)銀行 IT 建設(shè)的熱點方向。 利用大數(shù)據(jù)技術(shù)可有效構(gòu)建以數(shù)據(jù)倉庫 應(yīng)用為核心、彈性擴容、資源相對隔離、多應(yīng)用共存的分布 式集群數(shù)據(jù)管理平臺, 有效解決長期積累的問題: (1) 解決平 臺處理能力不足,應(yīng)用分散問題分布式并行數(shù)據(jù)處理解決超 大數(shù)據(jù)集的可計算難題,加速統(tǒng)計分析應(yīng)用的響應(yīng)速度;提 供可統(tǒng)一調(diào)度的超大硬件資源池,多個上層應(yīng)用和數(shù)據(jù)倉庫 可共存于一套集群環(huán)境,極低成本快速實現(xiàn)企業(yè)應(yīng)用之間數(shù) 據(jù)的共享與融合,減少數(shù)據(jù)跨系統(tǒng)復(fù)制導(dǎo)

8、致的數(shù)據(jù)批處理時 延,減少多個應(yīng)用數(shù)據(jù)庫獨立部署帶來冗余的數(shù)據(jù)存儲成本。(2) 強化數(shù)據(jù)倉庫核心應(yīng)用地位, 實現(xiàn)企業(yè)數(shù)據(jù)治理目標數(shù)據(jù) 倉庫應(yīng)用承擔更多的基礎(chǔ)與共性數(shù)據(jù)加工職能,有利于聚合 應(yīng)用共性需求,有效管控和實施數(shù)據(jù)標準,統(tǒng)一關(guān)鍵指標計 算口徑,易于實現(xiàn)數(shù)據(jù)治理目標。同時,建立統(tǒng)一的數(shù)據(jù)處 理任務(wù)調(diào)度平臺,多個數(shù)據(jù)應(yīng)用可以和數(shù)據(jù)倉庫應(yīng)用整合, 統(tǒng)一配置數(shù)據(jù)批處理任務(wù)和調(diào)度依賴關(guān)系,復(fù)用數(shù)據(jù)倉庫建 立的企業(yè)數(shù)據(jù)模型資源,更清晰劃分數(shù)據(jù)處理職責邊界,減 少數(shù)據(jù)重復(fù)加工和開發(fā)成本,縮短各應(yīng)用數(shù)據(jù)批處理時間, 實現(xiàn)各系統(tǒng)每日盡早開放服務(wù)。挑戰(zhàn)大數(shù)據(jù)技術(shù)是一種新型 的技術(shù),從接觸概念、了解技術(shù)到大數(shù)

9、據(jù)平臺落地,會遇到 了多方面的挑戰(zhàn),主要體現(xiàn)在大數(shù)據(jù)產(chǎn)品的選擇、平臺架構(gòu) 與應(yīng)用的規(guī)劃,人員培養(yǎng)三個方面。大數(shù)據(jù)產(chǎn)品選型以 Hadoop/Spark 為代表的大規(guī)模數(shù)據(jù)處理技術(shù)為超越傳統(tǒng)數(shù) 據(jù)庫的處理局限性提供了先進的并行計算和資源調(diào)度框架。 但也應(yīng)該看到大數(shù)據(jù)相關(guān)技術(shù)還在發(fā)展的初級階段,開源版 本產(chǎn)品在滿足企業(yè)級應(yīng)用場景的需求時,還存在明顯的局限 性。高并發(fā)低延遲、應(yīng)用開發(fā)成本低、平臺功能完善是恒豐 銀行大數(shù)據(jù)產(chǎn)品選型的基本需求,軟件產(chǎn)品在系統(tǒng)架構(gòu)設(shè)計 上應(yīng)盡量突破開源版本的技術(shù)局限性,吸取傳統(tǒng)數(shù)據(jù)庫技術(shù) 的成功設(shè)計經(jīng)驗,才能更好地滿足企業(yè)應(yīng)用場景的需求。選 擇的大數(shù)據(jù)產(chǎn)品應(yīng)滿足以下特點:

10、(1 )兼顧大數(shù)據(jù)批量處理 和小樣本數(shù)據(jù)精確查詢統(tǒng)計的性能需求系統(tǒng)應(yīng)該在全量數(shù) 據(jù)并行處理和小樣本數(shù)據(jù)快速過濾兩種場景都有高性能表 現(xiàn),同時能并發(fā)處理盡量多的小樣本數(shù)據(jù)計算需求。 ( 2)優(yōu) 化的數(shù)據(jù)存儲與訪問管理模型支持表索引、數(shù)據(jù)分片 (sharding)/ 分區(qū) (partition) 、行列混合存儲、 數(shù)據(jù)塊分布統(tǒng)計、 復(fù)制表等概念,減少數(shù)據(jù)插入、更新和訪問的總體 IO 時間 成本。(3 )有效合理利用資源減少 JVM Inbox/OutBox 與多 層數(shù)據(jù)復(fù)制引發(fā)的內(nèi)存膨脹, 盡量避免出現(xiàn) JVM GC 引發(fā)的 性能抖動,減少跨網(wǎng)絡(luò)節(jié)點的大量數(shù)據(jù)廣播,避免不必要的 重復(fù)計算。(4)易

11、于開發(fā)和原有應(yīng)用盡量平滑遷移支持 SQL2003 標準,在 TPC-H 、 TPC-DS 基準測試上有良好表 現(xiàn),對主流傳統(tǒng)數(shù)據(jù)庫的專用特性 (如 Oracle 存儲過程) 提 供了必要的兼容性支持, 在 API 設(shè)計和開發(fā)工具軟件支持等 方面減少系統(tǒng)遷移和新項目開發(fā)成本。 ( 5)高度容錯能力同 時支持 Erasure Code1.5 副本和 3 副本以上的數(shù)據(jù)容錯和快 速修復(fù);消除全系統(tǒng)軟硬件單點故障,任何單點失效都有容 錯部件接管服務(wù)職能。 ( 6)友好的運維監(jiān)控界面,提供外部 集成接口集成化的運維監(jiān)控管理頁面,同時可為行內(nèi)集中監(jiān) 控系統(tǒng)提供軟件部件實時狀態(tài)信息與故障告警服務(wù)接口;可 以

12、跟蹤當前作業(yè)任務(wù)進度和資源使用情況??稍敿毘掷m(xù)記錄 SQL 執(zhí)行計劃和實際成本消耗, 統(tǒng)計分析資源消耗較多的熱 點 SQL 。( 7)支持在線擴容系統(tǒng)能夠動態(tài)不停機擴容,可自 動實現(xiàn)數(shù)據(jù)自動重分布,擴容時現(xiàn)有系統(tǒng)可以不間斷正常運 行。平臺架構(gòu)與應(yīng)用規(guī)劃大數(shù)據(jù)產(chǎn)品源自廣泛的開源技術(shù), 是多種分布式存儲、計算引擎與資源調(diào)度的有機組合。架構(gòu) 與規(guī)劃的難點在于需要架構(gòu)設(shè)計人員清楚地了解各類存儲 引擎的適用場景,對應(yīng)用并發(fā)、時效性、資源消耗等需求有 明確的認識,合理地組合各類存儲,設(shè)計數(shù)據(jù)流轉(zhuǎn),才能發(fā) 揮大數(shù)據(jù)技術(shù)的優(yōu)勢。同時,需要對上層應(yīng)用進行分類,針 對不同的分類要分配不同的計算、存儲資源,細化資源

13、隔離 與管控的粒度,充分合理地利用硬件資源。人才培養(yǎng)大數(shù)據(jù) 平臺技術(shù)平臺比傳統(tǒng)數(shù)據(jù)庫技術(shù)復(fù)雜得多,對開發(fā)實施團隊 的技術(shù)理解能力要求很高,參與人員的技術(shù)培訓(xùn)和輔導(dǎo)是個 長期的過程。按人員專長成立了技術(shù)架構(gòu)設(shè)計、基礎(chǔ)環(huán)境支 持、應(yīng)用項目開發(fā)、性能測試與系統(tǒng)優(yōu)化、數(shù)據(jù)模型設(shè)計、 數(shù)據(jù)分析與建模、 數(shù)據(jù)標準治理等多個專業(yè)小組, 各施其職、 通力協(xié)作。由于項目使用的大數(shù)據(jù)技術(shù)較新,基礎(chǔ)軟件產(chǎn)品 也處于迭代開發(fā)中。恒豐銀行致力于打造一個學(xué)習(xí)型組織, 加強包括行內(nèi)員工和合作開發(fā)公司員工的技術(shù)培訓(xùn),對大數(shù) 據(jù)應(yīng)用開發(fā)的難點編寫培訓(xùn)教程和制定開發(fā)規(guī)范,建立微信 學(xué)習(xí)群,不定期的分享開發(fā)經(jīng)驗和剖析不良的實現(xiàn)案例

14、,做 好了分層知識傳導(dǎo),幫助大家在實施開發(fā)過程少走彎路。實 施過程 /解決方案技術(shù)平臺能力要求企業(yè)應(yīng)用數(shù)據(jù)能力按數(shù) 據(jù)處理時效性可分為: (1) 離線批處理。 T+1 日時效性的數(shù)據(jù) 應(yīng)用,在企業(yè)內(nèi)部目前占大多數(shù),包括傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用 和 CRM 等系統(tǒng)應(yīng)用等。 (2) 準實時應(yīng)用。能夠在生產(chǎn)數(shù)據(jù)產(chǎn) 生后 1 分鐘處理完的應(yīng)用,一般形成生產(chǎn)系統(tǒng)是松耦合的旁 路數(shù)據(jù)流關(guān)系。主要基于大數(shù)據(jù)的流處理技術(shù)實現(xiàn),一般設(shè) 置一定的數(shù)據(jù)采樣時間間隔,通過系統(tǒng)在線日志數(shù)據(jù)采集或 網(wǎng)絡(luò)報文旁路方式提取業(yè)務(wù)發(fā)生數(shù)據(jù),為交易監(jiān)控、風(fēng)險預(yù) 警、客戶服務(wù)提供接近實時的處理能力。 (3) 實時應(yīng)用。能夠 在生產(chǎn)數(shù)據(jù)產(chǎn)生

15、后的 1 秒內(nèi)甚至幾毫秒內(nèi)完成的應(yīng)用,主要 與生產(chǎn)系統(tǒng)形成協(xié)同服務(wù)支持關(guān)系,通過企業(yè)內(nèi)部服務(wù)同步 調(diào)用或異步消息事件處理方式實現(xiàn)與客戶交互或交易過程 中基于大數(shù)據(jù)的深度加工處理能力。典型實現(xiàn)方式是構(gòu)建實 時流處理與實時事件總線相結(jié)合的實時處理架構(gòu),構(gòu)建渠道 端的異步事件處理能力。典型的應(yīng)用場景有實時交易反欺詐、 個性化場景營銷服務(wù)等。從技術(shù)支撐能力按從易到難順序可 以分為如下階段: (1) 支撐海量數(shù)據(jù)存儲和低延遲聯(lián)機查詢。 將企業(yè)主要數(shù)據(jù)匯聚到一個平臺上,支持大并發(fā)的低延遲聯(lián) 機查詢,這也是一般企業(yè)應(yīng)用大數(shù)據(jù)能力的初步目標。 (2) 支持統(tǒng)計分析應(yīng)用。包括即席業(yè)務(wù)統(tǒng)計報表、多維業(yè)務(wù)數(shù)據(jù) 分析

16、、客戶群體細分等應(yīng)用,一般可替代傳統(tǒng)數(shù)據(jù)倉庫的主 體功能。 (3)數(shù)據(jù)探索與業(yè)務(wù)預(yù)測。 支持業(yè)務(wù)分析團隊的數(shù)據(jù) 探索和業(yè)務(wù)建模實驗,實現(xiàn)諸如業(yè)務(wù)趨勢預(yù)測、客戶行為預(yù) 測等高階應(yīng)用。 (4) 決策支持能力。通過應(yīng)用決策樹、規(guī)則推 理引擎、運籌優(yōu)化技術(shù),實現(xiàn)客戶定價、風(fēng)險預(yù)警等領(lǐng)域特 定業(yè)務(wù)問題的機器自動化流程管理和簡單人機交互方式的 輔助業(yè)務(wù)決策支持應(yīng)用。 (5) 自主學(xué)習(xí)能力。 通過引入深度學(xué) 習(xí)網(wǎng)絡(luò)、知識圖譜、遺傳演化等智能技術(shù)構(gòu)建相對復(fù)雜的機 器智能學(xué)習(xí)體系,能從海量數(shù)據(jù)中提煉高價值信息,構(gòu)建自 主訓(xùn)練與反饋、可不斷從最新數(shù)據(jù)中調(diào)整演化的智能業(yè)務(wù)模 型體系。企業(yè)數(shù)據(jù)管理平臺功能層次數(shù)據(jù)管理

17、平臺按企業(yè)數(shù) 據(jù)能力需求的功能實現(xiàn),可分為如下層次: (1) 數(shù)據(jù)存儲層。 對應(yīng)不同應(yīng)用需求場景和業(yè)務(wù)數(shù)據(jù)特點 (更新頻度、 生命期、 數(shù)據(jù)價值密度) ,可整合不同的底層存儲技術(shù)和不同的數(shù)據(jù) 庫引擎,實現(xiàn)多樣化的數(shù)據(jù)存儲服務(wù)。 (2) 資源管理層。構(gòu)建在最新的大數(shù)據(jù)技術(shù)基礎(chǔ)上,具備靈活的資源管理和并行計 算調(diào)度能力,實現(xiàn)多種數(shù)據(jù)管理組件協(xié)同服務(wù)的分布式協(xié)作 軟件框架。 (3) 數(shù)據(jù)匯聚層。滿足生產(chǎn)系統(tǒng)日志準實時采集、 異構(gòu)數(shù)據(jù)源并行抽取和大容量數(shù)據(jù)發(fā)送轉(zhuǎn)儲需求的數(shù)據(jù)移 動技術(shù)架構(gòu), T+1 、T+0 數(shù)據(jù)適配多種技術(shù)場景實現(xiàn)從源端 流轉(zhuǎn)并集中存儲到大數(shù)據(jù)管理平臺的數(shù)據(jù)存儲層。(4) 流式處理層

18、。構(gòu)建實時流處理計算層,包括實時流處理引擎、高效 的流數(shù)據(jù)緩存層和計算組件(包括分類、匯總、過濾、路由 等多種功能)。(5)圖計算層。通過圖計算引擎,實現(xiàn)關(guān)系網(wǎng) 絡(luò)數(shù)據(jù)的抽象、 存儲和快速統(tǒng)計計算需求。 (6) 數(shù)據(jù)挖掘功能 層。貼近數(shù)據(jù)存儲的數(shù)據(jù)挖掘算法功能層,由并行計算能力 強、集成度較高的分布式機器學(xué)習(xí)和數(shù)據(jù)挖掘軟件框架實現(xiàn), 為應(yīng)用程序提供簡單 API 調(diào)用接口, 也支持在其上構(gòu)建業(yè)務(wù) 數(shù)據(jù)探索軟件層。 (7) 數(shù)據(jù)管理應(yīng)用組件層。 需要自主開發(fā)完 善的數(shù)據(jù)管理組件,包括元數(shù)據(jù)管理、數(shù)據(jù)標準化管理、數(shù) 據(jù)生命期管理、數(shù)據(jù)開放權(quán)限管理和審批流程、跨數(shù)據(jù)集群 的準實時數(shù)據(jù)復(fù)制、完善的系統(tǒng)運

19、行監(jiān)測與告警等。技術(shù)平 臺與產(chǎn)品選型 Apache Hadoop 是針對大規(guī)模分布式數(shù)據(jù)而 開發(fā)的軟件框架,已經(jīng)成為企業(yè)管理大數(shù)據(jù)的基礎(chǔ)支撐技術(shù)。 然而開源 Hadoop 仍然面臨一些挑戰(zhàn):首先,開源 Hadoop 技術(shù)在對 GB 到 TB 級數(shù)據(jù)的處理效率較低。其次,只有對 海量的數(shù)據(jù)進行高效的分析及利用才能將大數(shù)據(jù)中存在的 巨大潛在價值轉(zhuǎn)換為實際的商業(yè)價值,這就需要完備的決策 分析工具集運行在大數(shù)據(jù)平臺架構(gòu)之上,企業(yè)亟需完備的解 決方案來加速大數(shù)據(jù)應(yīng)用的業(yè)務(wù)創(chuàng)新。恒豐銀行從企業(yè)應(yīng)用 角度出發(fā),通過對國內(nèi)外眾多主流大數(shù)據(jù)平臺產(chǎn)品的技術(shù)能 力和實現(xiàn)細節(jié)詳細了解、對比、篩選,并對候選產(chǎn)品進行嚴

20、格的 POC 測試,最終選擇了更符合恒豐銀行需求的國產(chǎn) TDH 大數(shù)據(jù)平臺產(chǎn)品。 針對上層應(yīng)用的需求, 恒豐銀行利用 HBase 對二進制數(shù)據(jù)的高并發(fā)存儲服務(wù)能力實現(xiàn)非結(jié)構(gòu)化 數(shù)據(jù)的高效存儲,采用 ElasticSearch 發(fā)揮文本數(shù)據(jù)的快速 全文檢索能力?;谏虡I(yè)數(shù)據(jù)可視化套件或開源的 D3.js 或 Echart.js 等 Web 圖形組件開發(fā)業(yè)務(wù)可視化分析應(yīng)用,結(jié)合 大數(shù)據(jù)內(nèi)存分析技術(shù),實現(xiàn)業(yè)務(wù)團隊自主數(shù)據(jù)探索和可視化 即席分析。 應(yīng)用 Discover,Mahout 、MLlib 等支持分布式并行 計算的機器學(xué)習(xí)軟件框架構(gòu)建更高效的數(shù)據(jù)挖掘人機交互 環(huán)境,提升業(yè)務(wù)建模效率。利用 St

21、orm 、 Spark-Streaming 等實時流處理技術(shù),結(jié)合專家推理引擎、運籌優(yōu)化與機器學(xué) 習(xí)算法等數(shù)據(jù)智能技術(shù),構(gòu)建支持渠道自動化交互場景的實 時營銷和實時風(fēng)控應(yīng)用。按應(yīng)用場景分離的數(shù)據(jù)處理集群架 構(gòu)按照應(yīng)用場景需求的差異,基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)管理平 臺可分為四大數(shù)據(jù)應(yīng)用集群,并可在其上構(gòu)建不同的應(yīng)用系 統(tǒng)和公共應(yīng)用數(shù)據(jù)服務(wù): (1)在線應(yīng)用集群。主要面向在線 數(shù)據(jù)應(yīng)用系統(tǒng),有高并發(fā)低延遲應(yīng)用服務(wù)響應(yīng)要求。 ( 2)歷史數(shù)據(jù)分析集群。主要面向數(shù)據(jù)歷史數(shù)據(jù)分析應(yīng)用、分支機 構(gòu)數(shù)據(jù)開放、業(yè)務(wù)團隊數(shù)據(jù)自主探索和數(shù)據(jù)挖掘建模。 ( 3) 非結(jié)構(gòu)化應(yīng)用集群。主要針對非結(jié)構(gòu)化數(shù)據(jù)的存儲、全文檢 索

22、和處理(包括文本分析、圖像識別等)需求。 ( 4)實時流 處理和日志分析集群。主要針對實時流處理應(yīng)用,特點是大 規(guī)??焖賹懭胄枨?,原始流數(shù)據(jù)的生命期較短,快進快出, 一般可采用批處理模式進一步壓縮提煉形成歷史統(tǒng)計數(shù)據(jù), 用于實時流數(shù)據(jù)的機器學(xué)習(xí)與模式識別。數(shù)據(jù)倉庫應(yīng)用體系 建設(shè) 1. 結(jié)構(gòu)化數(shù)據(jù)分層技術(shù)架構(gòu)基于大數(shù)據(jù)平臺構(gòu)建數(shù)據(jù) 倉庫結(jié)構(gòu)化數(shù)據(jù)應(yīng)用的整體架構(gòu)包括如下層級結(jié)構(gòu):1) 源系統(tǒng)結(jié)構(gòu)化數(shù)據(jù):源系統(tǒng)按大數(shù)據(jù)平臺的供數(shù)規(guī)范要求提供表 數(shù)據(jù)文本和標志文件。 2)文件交換區(qū) FSA :文件的交換中樞, 含源系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)(主要是外 部數(shù)據(jù))。 3)源數(shù)據(jù)緩存區(qū) ODM

23、:結(jié)構(gòu)化數(shù)據(jù)接入,在線數(shù) 據(jù)平臺的源數(shù)據(jù)歷史層 HDM 、基礎(chǔ)數(shù)據(jù)模型層的數(shù)據(jù)來源。 4)源數(shù)據(jù)歷史層 HDM :源數(shù)據(jù)緩存區(qū)數(shù)據(jù)接入。 5)基礎(chǔ)數(shù)據(jù) 模型層 FDM :源數(shù)據(jù)按數(shù)據(jù)倉庫模型加工后存儲, 源數(shù)據(jù)緩 存區(qū)數(shù)據(jù)接入,公共數(shù)據(jù)模型層 CDM 的主要數(shù)據(jù)來源。僅 大數(shù)據(jù)平臺各數(shù)據(jù)層數(shù)據(jù)存儲和內(nèi)部流轉(zhuǎn)用。 6) 公共數(shù)據(jù)模 型層 CDM :聚焦客戶營銷和風(fēng)險管理等業(yè)務(wù)領(lǐng)域公共需求 的銀行信息資產(chǎn)加工和存儲,源數(shù)據(jù)緩存區(qū)、基礎(chǔ)數(shù)據(jù)模型 層數(shù)據(jù)接入,數(shù)據(jù)服務(wù)接口的主要數(shù)據(jù)來源。 7) 數(shù)據(jù)服務(wù)接口 DSI :在線數(shù)據(jù)平臺的對外數(shù)據(jù)服務(wù)接口, 源數(shù)據(jù)歷史層、 公共數(shù)據(jù)模型層數(shù)據(jù)接入, BI 應(yīng)

24、用集市的數(shù)據(jù)來源。 8)歷史 數(shù)據(jù)服務(wù)接口:歷史數(shù)據(jù)平臺的對外數(shù)據(jù)服務(wù)接口,源數(shù)據(jù) 歷史層、公共數(shù)據(jù)模型層數(shù)據(jù)接入,各類查詢應(yīng)用的數(shù)據(jù)來 源。 9)綜合監(jiān)管集市:包括銀監(jiān)標準化 EAST 應(yīng)用在內(nèi)的綜 合監(jiān)管集市,數(shù)據(jù)服務(wù)接口的數(shù)據(jù)接入,綜合監(jiān)管應(yīng)用的數(shù) 據(jù)來源。 10) 數(shù)據(jù)分析集市: BI 統(tǒng)計分析類應(yīng)用所在的數(shù)據(jù) 集市,公共數(shù)據(jù)匯總層 ADM 的加工和存儲,數(shù)據(jù)服務(wù)接口 的數(shù)據(jù)接入。 11) 統(tǒng)一調(diào)度平臺:大數(shù)據(jù)平臺 ETL 過程的統(tǒng) 一作業(yè)調(diào)度監(jiān)控,包括:調(diào)度、監(jiān)控、日志、處理四部份內(nèi) 容。 2.應(yīng)用遷移數(shù)據(jù)倉庫應(yīng)用遷移主要包括在線數(shù)據(jù)平臺與 歷史數(shù)據(jù)平臺兩部分(不包含非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用

25、) 。應(yīng)用遷 移的主要目標是建設(shè)在線數(shù)據(jù)平臺、歷史數(shù)據(jù)平臺,設(shè)計公 共數(shù)據(jù)模型, 并實現(xiàn)包括銀監(jiān)標準化 EAST 等內(nèi)建監(jiān)管報送 應(yīng)用的數(shù)據(jù)切換。整體設(shè)計思路分為數(shù)據(jù)移植、在線數(shù)據(jù)平 臺、歷史數(shù)據(jù)平臺、銀監(jiān)標準化 EAST 應(yīng)用遷移四個部分。 (1 )數(shù)據(jù)移植流程利用 Sqoop 技術(shù)連接原數(shù)據(jù)倉庫抽取數(shù) 據(jù)到 hdfs 文件系統(tǒng);將原數(shù)據(jù)倉庫的數(shù)據(jù)抽取到 hdfs 文件 系統(tǒng)后,在大數(shù)據(jù)平臺中構(gòu)建映射在這些數(shù)據(jù)文件上的外表, 其表結(jié)構(gòu)與原數(shù)據(jù)倉庫表結(jié)構(gòu)一致;在構(gòu)建外表后,數(shù)據(jù)平 臺已可以查詢到原數(shù)據(jù)倉庫的數(shù)據(jù), 為構(gòu)建數(shù)據(jù)平臺的 HDM 層源數(shù)據(jù)備份,還需將這部分的數(shù)據(jù)進行還原操作。( 2)

26、在 線數(shù)據(jù)平臺在線數(shù)據(jù)平臺集中了源數(shù)據(jù)緩沖層、源數(shù)據(jù)歷史 層、基礎(chǔ)數(shù)據(jù)模型層和公共數(shù)據(jù)模型層。源數(shù)據(jù)緩沖層作為 外部業(yè)務(wù)系統(tǒng)數(shù)據(jù)接入層,單日緩存業(yè)務(wù)系統(tǒng)每日數(shù)據(jù),供 歷史明細層程序處理已存入基礎(chǔ)數(shù)據(jù)平臺?;A(chǔ)數(shù)據(jù)模型層 保留了留原數(shù)據(jù)倉庫部分基礎(chǔ)數(shù)據(jù)模型,以支持公共數(shù)據(jù)模 型及其他應(yīng)用數(shù)據(jù)需求,保存模型歷史數(shù)據(jù)。公共數(shù)據(jù)模型 層,為數(shù)據(jù)倉庫的主體數(shù)據(jù)體,是支撐數(shù)據(jù)匯總、數(shù)據(jù)分析 的多緯度數(shù)據(jù)集市。 ( 3)歷史數(shù)據(jù)平臺歷史數(shù)據(jù)平臺是在線 數(shù)據(jù)平臺的數(shù)據(jù)備份,每日數(shù)據(jù)同步。歷史數(shù)據(jù)平臺源數(shù)據(jù) 備份結(jié)構(gòu)與在線數(shù)據(jù)平臺一致,保存永久數(shù)據(jù)。歷史數(shù)據(jù)平 臺公共數(shù)據(jù)模型備份結(jié)構(gòu)與在線數(shù)據(jù)平臺一致,保存永久

27、數(shù) 據(jù)。并依托公共數(shù)據(jù)模型的歷史,構(gòu)建歷史數(shù)據(jù)查詢服務(wù)模 型接口。( 4)銀監(jiān)標準化 EAST 等應(yīng)用遷移 EAST 等系統(tǒng)改 造內(nèi)容主要是數(shù)據(jù)連接改造 ( JDBC-hadoop )和參數(shù)配置調(diào) 整,不包括系統(tǒng)功能和流程。由于 EAST 等系統(tǒng)數(shù)據(jù)結(jié)構(gòu)為 Oracle 表,存儲過程為 Oracle 存儲過程,需根據(jù)大數(shù)據(jù)平 臺的特性對表結(jié)構(gòu)進行重構(gòu),支持大數(shù)據(jù)平臺的存儲過程格 式,并進行數(shù)據(jù)移植。 3.公共數(shù)據(jù)集市建設(shè)恒豐銀行當前數(shù) 據(jù)倉庫存在應(yīng)用離散、冗余數(shù)據(jù)加工、資源緊張等問題。所 以,公共數(shù)據(jù)模型的建設(shè)需要統(tǒng)一需求管控,建立更大的項 目資源池,減少重復(fù)開發(fā),規(guī)劃應(yīng)用方向;統(tǒng)一計算口徑,

28、 減少數(shù)據(jù)冗余和數(shù)據(jù)復(fù)制,減少重復(fù)數(shù)據(jù)加工;同時,能夠滿足不同應(yīng)用場景的共性需求,穩(wěn)妥推進新技術(shù)應(yīng)用。在主 題模型領(lǐng)域,根據(jù)主題 +業(yè)務(wù)方式進行數(shù)據(jù)存儲,以具體業(yè) 務(wù)為依據(jù)提練主題要素,涵蓋客戶、事件、產(chǎn)品、作業(yè)、財 務(wù)績效、資產(chǎn)管理、市場與公共元信息(如費率、利率與匯 率)。依據(jù)可重用性、安全性、高可用性、可管理性、可擴 展性、高性能的設(shè)計原則, 采取總體規(guī)劃、 分層實現(xiàn)的方式。 構(gòu)建公共模型層,數(shù)據(jù)來源主要包括行內(nèi)數(shù)據(jù)、同業(yè)數(shù)據(jù)和 外部數(shù)據(jù)三大部分:行內(nèi)數(shù)據(jù):行內(nèi)的業(yè)務(wù)系統(tǒng)、管理系統(tǒng) 數(shù)據(jù):核心、企貸、個貸、囯結(jié)等數(shù)十個源系統(tǒng)。九大類數(shù) 據(jù)整合為公共數(shù)據(jù)模型七大主題,根據(jù)相應(yīng)主題+業(yè)務(wù)劃分

29、對源數(shù)據(jù)進行重新整合分類歸總。同業(yè)數(shù)據(jù):同業(yè)數(shù)據(jù)包括 監(jiān)管當局和其他銀行披露的各項業(yè)務(wù)指標:規(guī)模數(shù)據(jù)、盈利 數(shù)據(jù)、風(fēng)險數(shù)據(jù)。外部數(shù)據(jù):從外部采購或抓取的數(shù)據(jù),如 公司、司法、輿情、宏觀數(shù)據(jù)。 4. 數(shù)據(jù)治理目標實現(xiàn)利用大 數(shù)據(jù)平臺提供的數(shù)據(jù)處理能力,針對數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)標 準管理、元數(shù)據(jù)管理三個方面建立了一套完善的數(shù)據(jù)生命周 期管理體系,建立統(tǒng)一的數(shù)據(jù)口徑和數(shù)據(jù)規(guī)范。數(shù)據(jù)質(zhì)量管 理:通過組件化的腳本對多數(shù)據(jù)源數(shù)據(jù)進行數(shù)據(jù)質(zhì)量檢查, 將存在數(shù)據(jù)結(jié)構(gòu)、字段分隔符、記錄換行符、數(shù)據(jù)編碼格式 等問題的臟數(shù)據(jù)在入庫前過濾出來,并通過數(shù)據(jù)入庫稽核的 方式,將不符合表結(jié)構(gòu)定義的臟數(shù)據(jù)單獨輸出到臟數(shù)據(jù)記錄

30、表,支持表的字段閾值以及質(zhì)量檢測條件(如統(tǒng)計值,約束 條件)等的定義,結(jié)合工作流調(diào)度引擎將數(shù)據(jù)質(zhì)量檢測貫穿 在整個 ETL 過程中, 并提供告警信息, 通知運維人員進行處 理。數(shù)據(jù)標準管理:結(jié)合數(shù)據(jù)治理成果,將數(shù)據(jù)標準定義納 入系統(tǒng)管理,并以此為基礎(chǔ),提供數(shù)據(jù)質(zhì)量自動化檢測的依 據(jù)。元數(shù)據(jù)管理:提供行內(nèi)數(shù)據(jù)資產(chǎn)概覽,開放元數(shù)據(jù)查詢 管理應(yīng)用,提供數(shù)據(jù)血緣分析和追溯能力。 5. 數(shù)據(jù)探索與業(yè) 務(wù)建模通過 Rstudio 和其他面向業(yè)務(wù)用戶的圖形化工具,可 進行可視化交互式數(shù)據(jù)挖掘與統(tǒng)計分析,深度挖掘數(shù)據(jù)價值 并建立業(yè)務(wù)數(shù)據(jù)模型,實現(xiàn)分析和預(yù)測功能,增強企業(yè)的決 策判斷力,提高商業(yè)智能化水平,提升

31、客戶體驗,快速響應(yīng) 市場變化。在可視化交互式數(shù)據(jù)挖掘工具基礎(chǔ)上,恒豐銀行 構(gòu)建了業(yè)務(wù)模型實驗室應(yīng)用,通過實現(xiàn)了一個集模型開發(fā)、 模型驗證、策略分析等業(yè)務(wù)功能于一體的環(huán)境,使得業(yè)務(wù)模 型和策略的開發(fā)、維護、優(yōu)化以及升級等工作更加標準化, 實現(xiàn)一定程度的自動化,提高了業(yè)務(wù)建模的整體效率。 6. 開 發(fā)專業(yè)數(shù)據(jù)集市與創(chuàng)新應(yīng)用恒豐銀行詳細規(guī)劃了各管理分 析領(lǐng)域的業(yè)務(wù)應(yīng)用場景,形成了營銷主題、風(fēng)險主題、客戶 主題、資訊主題等專業(yè)共享數(shù)據(jù)集市,為具體管理分析域的 業(yè)務(wù)應(yīng)用提供了基礎(chǔ)明細層、共享加工層、結(jié)果數(shù)據(jù)存儲和 對外服務(wù)接口。同時針對各業(yè)務(wù)條線和經(jīng)營單位關(guān)注點,進 一步加工面向業(yè)務(wù)分析用途的主題匯總寬

32、表,以此為基礎(chǔ)結(jié) 合公共數(shù)據(jù)集市明細表開放,構(gòu)建業(yè)務(wù)部門分析集市和各分 行數(shù)據(jù)集市。在基于大數(shù)據(jù)技術(shù)的創(chuàng)新應(yīng)用開發(fā)方面,大數(shù) 據(jù)平臺上已經(jīng)陸續(xù)構(gòu)建了業(yè)務(wù)可視化分析平臺、精準營銷、 全面風(fēng)險預(yù)警、客戶關(guān)系管理、移動銷售作業(yè)系統(tǒng)、財富管 理系統(tǒng)、大數(shù)據(jù)資訊平臺、交易反欺詐、信用卡交易監(jiān)測、 用戶行為分析、客戶生命周期管理、運營風(fēng)險監(jiān)測等 30 多 個上層應(yīng)用,充分發(fā)揮大數(shù)據(jù)平臺在海量數(shù)據(jù)計算、非結(jié)構(gòu) 化數(shù)據(jù)處理、實時流數(shù)據(jù)處理、內(nèi)存計算與列式存儲等領(lǐng)域 的能力與優(yōu)勢。 7.全方位提升金融服務(wù)能力為提升對實體經(jīng) 濟的金融服務(wù)支撐能力,恒豐銀行積極整合包括行業(yè)、市場 相關(guān)的外部數(shù)據(jù),構(gòu)建業(yè)務(wù)發(fā)展規(guī)劃平臺,聚焦新興產(chǎn)業(yè)、 三農(nóng)和小微企業(yè),配備合理的信貸資源和人力資源,主動提 供一站式的綜合金融解決方案?;诤阖S銀行專業(yè)的產(chǎn)業(yè)經(jīng) 濟研究能力,我們也規(guī)劃通過移動互聯(lián)應(yīng)用,向企業(yè)提供專 業(yè)的行業(yè)研究和市場分析情報,通過自建產(chǎn)業(yè)鏈交易撮合平臺、020服務(wù)平臺,降低企業(yè)交易成本與產(chǎn)品庫存,加速資金周轉(zhuǎn)。通過與核心企業(yè)、電商平臺合作,整合實體經(jīng)濟交 易數(shù)據(jù),共建服務(wù)于特定區(qū)域和產(chǎn)業(yè)鏈的大數(shù)據(jù)應(yīng)用。運用 集團授信、平臺項目授信等多種授信管理創(chuàng)新模式,實現(xiàn)對 三農(nóng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論