金融大數(shù)據(jù)平臺的應(yīng)用場景_第1頁
金融大數(shù)據(jù)平臺的應(yīng)用場景_第2頁
金融大數(shù)據(jù)平臺的應(yīng)用場景_第3頁
金融大數(shù)據(jù)平臺的應(yīng)用場景_第4頁
金融大數(shù)據(jù)平臺的應(yīng)用場景_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、金融大數(shù)據(jù)平臺的應(yīng)用場景目錄 TOC o 1-3 h z u HYPERLINK l _Toc490675209 1大數(shù)據(jù)在銀行的應(yīng)用場景 PAGEREF _Toc490675209 h 5 HYPERLINK l _Toc490675210 1.1 大類應(yīng)用 PAGEREF _Toc490675210 h 5 HYPERLINK l _Toc490675211 1.1.1營銷類模型 PAGEREF _Toc490675211 h 5 HYPERLINK l _Toc490675212 1.1.2風(fēng)控類模型 PAGEREF _Toc490675212 h 5 HYPERLINK l _Toc4

2、90675213 1.1.3綜合評價模型 PAGEREF _Toc490675213 h 5 HYPERLINK l _Toc490675214 1.2 細(xì)分應(yīng)用 PAGEREF _Toc490675214 h 5 HYPERLINK l _Toc490675215 1.2.1客戶風(fēng)險畫像 PAGEREF _Toc490675215 h 5 HYPERLINK l _Toc490675216 1.2.2客戶綜合評級 PAGEREF _Toc490675216 h 6 HYPERLINK l _Toc490675217 1.2.3客戶綜合預(yù)授信 PAGEREF _Toc490675217 h 6

3、 HYPERLINK l _Toc490675218 1.2.4客戶風(fēng)險定價 PAGEREF _Toc490675218 h 6 HYPERLINK l _Toc490675219 1.2.5客戶利潤貢獻(xiàn)評價 PAGEREF _Toc490675219 h 6 HYPERLINK l _Toc490675220 1.2.6客戶綜合營銷分析 PAGEREF _Toc490675220 h 6 HYPERLINK l _Toc490675221 1.2.7客戶流失分析 PAGEREF _Toc490675221 h 6 HYPERLINK l _Toc490675222 1.2.8貸后實時監(jiān)控分析

4、 PAGEREF _Toc490675222 h 6 HYPERLINK l _Toc490675223 1.2.9欺詐風(fēng)險防范 PAGEREF _Toc490675223 h 7 HYPERLINK l _Toc490675224 2大數(shù)據(jù)建模平臺Data Insight PAGEREF _Toc490675224 h 8 HYPERLINK l _Toc490675225 2.1 概述 PAGEREF _Toc490675225 h 8 HYPERLINK l _Toc490675226 2.1.1體系結(jié)構(gòu) PAGEREF _Toc490675226 h 8 HYPERLINK l _To

5、c490675227 2.2 DataInsight主要特性 PAGEREF _Toc490675227 h 9 HYPERLINK l _Toc490675228 2.2.1一體化的大數(shù)據(jù)挖掘應(yīng)用平臺 PAGEREF _Toc490675228 h 9 HYPERLINK l _Toc490675229 2.2.2并行化大數(shù)據(jù)挖掘運行平臺 PAGEREF _Toc490675229 h 9 HYPERLINK l _Toc490675230 2.2.3高效的大數(shù)據(jù)挖掘落地平臺 PAGEREF _Toc490675230 h 10 HYPERLINK l _Toc490675231 2.3 D

6、ataInsight主要功能 PAGEREF _Toc490675231 h 10 HYPERLINK l _Toc490675232 2.3.1模型工作流 PAGEREF _Toc490675232 h 10 HYPERLINK l _Toc490675233 2.3.2可視化數(shù)據(jù)探索 PAGEREF _Toc490675233 h 11 HYPERLINK l _Toc490675234 2.3.3并行化算法 PAGEREF _Toc490675234 h 12 HYPERLINK l _Toc490675235 2.3.4多建模語言支持 PAGEREF _Toc490675235 h 1

7、4 HYPERLINK l _Toc490675236 2.3.5模型應(yīng)用管理 PAGEREF _Toc490675236 h 15 HYPERLINK l _Toc490675237 2.3.6模型即服務(wù) PAGEREF _Toc490675237 h 16 HYPERLINK l _Toc490675238 3大數(shù)據(jù)分析展示平臺Discovery PAGEREF _Toc490675238 h 18 HYPERLINK l _Toc490675239 3.1 平臺架構(gòu) PAGEREF _Toc490675239 h 18 HYPERLINK l _Toc490675240 3.1.1數(shù)據(jù)引

8、擎 PAGEREF _Toc490675240 h 20 HYPERLINK l _Toc490675241 3.1.2BI Server PAGEREF _Toc490675241 h 21 HYPERLINK l _Toc490675242 3.1.3交互分析模塊 PAGEREF _Toc490675242 h 21 HYPERLINK l _Toc490675243 3.1.4API PAGEREF _Toc490675243 h 22 HYPERLINK l _Toc490675244 3.2 平臺特性 PAGEREF _Toc490675244 h 22 HYPERLINK l _T

9、oc490675245 3.3 交互式體驗 PAGEREF _Toc490675245 h 23 HYPERLINK l _Toc490675246 3.3.1構(gòu)建數(shù)據(jù)視圖 PAGEREF _Toc490675246 h 23 HYPERLINK l _Toc490675247 3.3.2圖表類型 PAGEREF _Toc490675247 h 24 HYPERLINK l _Toc490675248 4案例介紹 PAGEREF _Toc490675248 h 26 HYPERLINK l _Toc490675249 4.1 某大型銀行卡收單專業(yè)化服務(wù)公司 PAGEREF _Toc490675

10、249 h 26 HYPERLINK l _Toc490675250 4.1.1持卡人特征歸納 PAGEREF _Toc490675250 h 26 HYPERLINK l _Toc490675251 4.1.2持卡人交易行為預(yù)測 PAGEREF _Toc490675251 h 27 HYPERLINK l _Toc490675252 4.1.3商圈聚類 PAGEREF _Toc490675252 h 27 HYPERLINK l _Toc490675253 4.2 某商業(yè)銀行 PAGEREF _Toc490675253 h 27 HYPERLINK l _Toc490675254 4.2.1

11、優(yōu)質(zhì)不良客戶分類 PAGEREF _Toc490675254 h 27 HYPERLINK l _Toc490675255 4.2.2員工賬戶監(jiān)測預(yù)警 PAGEREF _Toc490675255 h 30大數(shù)據(jù)在銀行的應(yīng)用場景大類應(yīng)用營銷類模型此類模型主要客戶細(xì)分為基礎(chǔ),建立客戶的360度視圖,建立應(yīng)用于客戶營銷的業(yè)務(wù)模型,如:商戶交易分析模型、商戶行業(yè)分析模型、商戶綜合利潤貢獻(xiàn)模型、客戶刷卡交易分析模型、產(chǎn)品推薦模型等。風(fēng)控類模型該類模型主要用于信貸業(yè)務(wù)和欺詐防范,并與目前的征信建設(shè)相結(jié)合,如:商戶評分模型及審批規(guī)則、行業(yè)風(fēng)險識別模型、人行征信報告評分模型、個人信用分析模型、風(fēng)險定價模型、風(fēng)

12、險客戶預(yù)警模型、貸后實時監(jiān)控模型、反欺詐模型等。綜合評價模型該類模型以之前的相關(guān)模型為基礎(chǔ),并通過規(guī)則引擎整合多個模型,進行加工處理,并根據(jù)不同業(yè)務(wù)需求產(chǎn)生不同的客戶綜合評價,如:客戶綜合利潤貢獻(xiàn)模型、POS商戶綜合評價模型、綜合預(yù)授信模型、綜合風(fēng)險判斷模型等。細(xì)分應(yīng)用客戶風(fēng)險畫像依據(jù)客戶內(nèi)部數(shù)據(jù),結(jié)合各種外部數(shù)據(jù)源,排查不良信息,綜合決策,建立客戶全方位畫像,并進行綜合評分,最大程度挖掘優(yōu)質(zhì)客戶,排除潛在風(fēng)險客戶,從客戶前期篩選上進行風(fēng)險前移客戶綜合評級 結(jié)合客戶的交易情況和購買理財產(chǎn)品狀況,并結(jié)合客戶的個人信用綜合分析,對商戶建立綜合評級,并進一步應(yīng)用于我司的各種貸款產(chǎn)品中??蛻艟C合預(yù)授信

13、針對客戶的綜合評級,結(jié)合不同業(yè)務(wù)類型,利用大數(shù)據(jù)評分和決策引擎規(guī)則判斷,對潛在貸款客戶進行預(yù)授信額度的試算,方便后期業(yè)務(wù)營銷,同時可將業(yè)務(wù)風(fēng)險前置??蛻麸L(fēng)險定價針對客戶的綜合評級,對不同信用級別的客戶采取不同的定價策略,以收益覆蓋風(fēng)險為原則,優(yōu)化我司相關(guān)業(yè)務(wù)產(chǎn)品的定價。客戶利潤貢獻(xiàn)評價綜合分析客戶在我行的存量業(yè)務(wù),進行利潤貢獻(xiàn)度評判,方便我行后期深度營銷客戶??蛻艟C合營銷分析通過客戶關(guān)系深度挖掘和持有業(yè)務(wù)深入分析,判斷最適合營銷給客戶的產(chǎn)品,同時結(jié)合我司的優(yōu)勢產(chǎn)品政策,加大綜合營銷力度,為營銷客戶提供全面支持,避免盲目營銷的情況??蛻袅魇Х治鐾ㄟ^大數(shù)據(jù)挖掘,如客戶在我司POS業(yè)務(wù)變動情況,交易

14、頻次、交易時間等多種綜合指標(biāo),對客戶的流失情況進行分析和綜合預(yù)測,判斷潛在流失客戶,并增加營銷力度,采取相應(yīng)措施,最大程度上挽救客戶。貸后實時監(jiān)控分析利用內(nèi)部數(shù)據(jù)和引入的外部數(shù)據(jù),通過規(guī)則引擎的實時抓取和判斷,對已放款客戶的貸后情況進行實時分析,并進行區(qū)分高風(fēng)險、中風(fēng)險、低風(fēng)險客戶,并進行預(yù)警推送。欺詐風(fēng)險防范 通過建立黑名單、灰名單機會,完善相應(yīng)的規(guī)則引擎,對虛假交易、套現(xiàn)、電商詐騙等欺詐交易行為進行自動分析、挖掘,通過機器學(xué)習(xí)的方式提高銀聯(lián)商務(wù)防范風(fēng)險業(yè)務(wù)的能力。大數(shù)據(jù)建模平臺Data Insight概述大數(shù)據(jù)挖掘是大數(shù)據(jù)中非常重要的一個組成部分。只有從大數(shù)據(jù)中挖掘出價值,大數(shù)據(jù)才有意義。

15、明略DataInsight是一款企業(yè)級的大數(shù)據(jù)挖掘平臺產(chǎn)品,通過應(yīng)用先進的大數(shù)據(jù)技術(shù),幫助企業(yè)實現(xiàn)了海量數(shù)據(jù)上的數(shù)據(jù)挖掘,獲取隱藏在大數(shù)據(jù)下的知識,為企業(yè)創(chuàng)造新的業(yè)務(wù)價值。與常見的只能進行單機挖掘的產(chǎn)品不同,明略DataInsight基于Apache Spark架構(gòu),使得數(shù)據(jù)挖掘能夠真正并行化起來,能夠真正的在海量數(shù)據(jù)機上進行數(shù)據(jù)挖掘。突破了傳統(tǒng)數(shù)據(jù)挖掘工具只能在單機上建模的缺陷,使得企業(yè)大數(shù)據(jù)挖掘成為了可能。體系結(jié)構(gòu)明略DataInsight從上到下分為3層,分別是接口層,調(diào)度層和運行層。其中:接口層:用來與用戶和外部系統(tǒng)進行交互。接口層提供了可視化建模工具以及模型應(yīng)用系統(tǒng)界面,供用戶創(chuàng)建模

16、型和對生產(chǎn)環(huán)境中的模型進行管理。此外,還提供了Restful API供其他外部系統(tǒng)進行模型服務(wù)調(diào)用。調(diào)度層:調(diào)度層負(fù)責(zé)調(diào)度模型作業(yè)的運行。一個模型作業(yè)由若干任務(wù)組成,每個任務(wù)的執(zhí)行環(huán)境和執(zhí)行次序都不一樣。調(diào)度層負(fù)責(zé)將任務(wù)發(fā)往合適的執(zhí)行器中運行,并負(fù)責(zé)任務(wù)之間的通信和錯誤處理等功能。運行層:運行層負(fù)責(zé)真正的運行一個任務(wù),運行層是基于Spark并行架構(gòu)的,在Spark中啟動了多個運行器(Runner)來負(fù)責(zé)最終任務(wù)的執(zhí)行。這兒的運行器可以是普通的Spark任務(wù),也可以是R或者Python的容器。DataInsight主要特性一體化的大數(shù)據(jù)挖掘應(yīng)用平臺明略DataInsight提供高效的建模工具幫助

17、企業(yè)在大數(shù)據(jù)上進行數(shù)據(jù)挖掘,同時提供模型應(yīng)用系統(tǒng)幫助企業(yè)整合從模型開發(fā)到模型上線的大數(shù)據(jù)挖掘落地的全過程,真正使得大數(shù)據(jù)挖掘能在企業(yè)輕松落地。明略DataInsight從企業(yè)業(yè)務(wù)落地出發(fā),幫助企業(yè)有效的管理大數(shù)據(jù)挖掘的各個階段,不單單為企業(yè)提供了高效的建模工具,同時也提供模型應(yīng)用管理系統(tǒng)幫助企業(yè)管理已經(jīng)建立好的模型,降低了模型部署、更新等維護的成本。明略DataInsight是基于大數(shù)據(jù)平臺的產(chǎn)品,這就意味著明略DataInsight的實驗環(huán)境和生產(chǎn)環(huán)境融為一體。在實驗環(huán)境中建立的模型可以很方便的在生產(chǎn)環(huán)境中應(yīng)用,降低了模型的部署和遷移成本。并行化大數(shù)據(jù)挖掘運行平臺大數(shù)據(jù)時代的特點是數(shù)據(jù)量規(guī)模

18、巨大,傳統(tǒng)的單機算法已經(jīng)無法滿足大數(shù)據(jù)時代的需要,因此需要使用并行算法來處理和計算大數(shù)據(jù)。明略DataInsight是一款基于Apache Spark架構(gòu)的真正意義上的大數(shù)據(jù)挖掘平臺,其通過Spark提供的高性能內(nèi)存迭代計算引擎在多個節(jié)點上并行挖掘,解決了單機節(jié)點無法挖掘海量數(shù)據(jù)的問題,同時提高了挖掘速度。明略DataInsight自主研發(fā)了大量并行運行在Spark之上的數(shù)據(jù)挖掘算法。這些算法覆蓋了數(shù)據(jù)挖掘工作中最常用的算法種類。用戶可以非常方便的在明略DataInsight中使用這些算法來創(chuàng)建模型。在大數(shù)據(jù)挖掘?qū)嵺`中,使用并行化的數(shù)據(jù)挖掘算法只是整個挖掘工作中的一部分,更多的工作集中在數(shù)據(jù)預(yù)

19、處理方面。在大數(shù)據(jù)環(huán)境下,單機處理海量數(shù)據(jù)顯然是不現(xiàn)實的。明略DataInsight提供了多種數(shù)據(jù)預(yù)處理的并行化算法,幫助用戶高效的對數(shù)據(jù)進行處理。高效的大數(shù)據(jù)挖掘落地平臺明略DataInsight專注于提高企業(yè)大數(shù)據(jù)挖掘的效率。在大數(shù)據(jù)挖掘?qū)嵺`中,往往70%-80%的時間和精力耗費在數(shù)據(jù)探索和數(shù)據(jù)處理上面。因此,提高數(shù)據(jù)探索和數(shù)據(jù)處理的效率會大大加速整個大數(shù)據(jù)挖掘的落地速度。明略DataInsight提供了交互式可視化的數(shù)據(jù)探索工具。明略DataInsight幫助用戶實時對數(shù)據(jù)進行探索,來指引其尋找更好的解決方法。同時,明略DataInsight提供了大量的圖表形式供用戶更加直觀的感受數(shù)據(jù),

20、尋找數(shù)據(jù)中的規(guī)律。在數(shù)據(jù)處理方面,明略DataInsight除了提供大量的并行化數(shù)據(jù)處理算法之外,還對SQL進行了良好的支持。用戶可以通過SQL語句對建模的中間結(jié)果進行各種操作,這樣,具有SQL技能的用戶可以零學(xué)習(xí)成本的使用SQL對數(shù)據(jù)進行各種探索和處理。DataInsight主要功能模型工作流企業(yè)大數(shù)據(jù)挖掘是一項系統(tǒng)性的工程,其涉及到從數(shù)據(jù)整合、數(shù)據(jù)探索、數(shù)據(jù)處理、模型建立、模型評估、模型調(diào)優(yōu)等一系列的過程。因此,單一的步驟是不足以表示大數(shù)據(jù)挖掘全過程。明略DataInsight中使用工作流的概念來表示整個建模過程。在明略DataInsight中,每個建模步驟都看做一個算子,每個算子接受若干

21、輸入,并且產(chǎn)生若干輸出。每個算子的輸出都可以作為其他算子的輸入,這樣,整個建模過程就可以形成一幅有向無環(huán)圖。建模過程的目的就變成了將原始的輸入通過一系列算子組合得到最終的業(yè)務(wù)結(jié)果。建模過程是一個不斷嘗試不斷探索的過程。用戶從原始數(shù)據(jù)出發(fā),經(jīng)過對數(shù)據(jù)的探索和處理,應(yīng)用合適的算法,最終形成業(yè)務(wù)上可用的模型。在建模的過程中,會有很多嘗試性的步驟,用戶可以通過在模型工作流中添加分支的方法來進行不同方法的嘗試。當(dāng)模型開發(fā)完畢后,用戶可以從模型中生成應(yīng)用,這樣就可以在生產(chǎn)環(huán)境中使用應(yīng)用來產(chǎn)生業(yè)務(wù)結(jié)果。應(yīng)用從本質(zhì)上來看依然是工作流,記錄了原始數(shù)據(jù)如何一步一步的變?yōu)樽罱K的業(yè)務(wù)結(jié)果的過程,所不同的是,應(yīng)用中的工

22、作流只保留了產(chǎn)生業(yè)務(wù)結(jié)果的必要步驟,不再保留用戶在建模時所做的嘗試性的工作??梢暬瘮?shù)據(jù)探索對數(shù)據(jù)的理解是數(shù)據(jù)挖掘過程中的重中之重。只有理解數(shù)據(jù),才能知道如何從數(shù)據(jù)中挖掘出有價值的信息。數(shù)據(jù)探索的過程同時也是數(shù)據(jù)預(yù)處理的過程,用戶在探索數(shù)據(jù)時,需要將多種數(shù)據(jù)進行關(guān)聯(lián),并且對數(shù)據(jù)進行不同形式的轉(zhuǎn)換,甚至使用多種算法來對數(shù)據(jù)進行嘗試性的挖掘,來探索數(shù)據(jù)的意義。在形成最終模型之前,用戶需要通過大量的實驗來找到一條切實可行的挖掘方法。在用戶進行實驗時,對實驗的時效性要求非常高。用戶希望能夠盡快試錯,排除那些不可靠的方法,快速的找到可行的方法。明略DataInsight提供了交互式數(shù)據(jù)探索工具供用戶對數(shù)據(jù)

23、進行實驗性的探索工作。明略DataInsight通過先進的大數(shù)據(jù)技術(shù),縮短了數(shù)據(jù)探索的時間,幫助用戶實時的對數(shù)據(jù)進行探索和實驗。同時,明略DataInsight通過可視化的方法,提供了常用的數(shù)據(jù)統(tǒng)計和分析的圖表,供用戶能夠直觀的從圖形中發(fā)掘數(shù)據(jù)背后的意義。并行化算法明略DataInsight是基于Spark架構(gòu)的并行化數(shù)據(jù)挖掘平臺。明略DataInsight自主研發(fā)了大量的并行化數(shù)據(jù)挖掘算法,這些算法解決了單機算法不能挖掘大數(shù)據(jù)的問題,極大的方便了用戶在大數(shù)據(jù)上的數(shù)據(jù)挖掘。 此外,明略DataInsight是一款覆蓋整個建模過程的產(chǎn)品。除了數(shù)據(jù)挖掘的算法之外,明略DataInsight還提供了

24、若干數(shù)據(jù)處理的并行化算法,同樣也可以在模型工作流的算子中使用,對數(shù)據(jù)進行并行化的處理。明略DataInsight支持的并行化算法列表如下:算法名稱算法類型SVM分類算法Logistic Regression分類算法Native Bayes分類算法Decision Tree分類算法Gradient Boosted Decision Tree分類算法Random Forest分類算法K近鄰分類算法Lasso Regression回歸算法Ridge Regression回歸算法Linear Regression回歸算法Gradient Boosted Regression回歸算法Regression

25、 Tree回歸算法DBScan聚類算法Hierachy聚類聚類算法Fuzzy聚類聚類算法K-means聚類算法PCA/KPCA特征變換LDA/KDA特征變換ARMA/ARIMA趨勢分析LS-SVM趨勢分析GPR(高斯過程回歸)趨勢分析Item based CF推薦算法User based CF推薦算法Alternating Least Squares推薦算法LDA自然語言處理Word2Vec自然語言處理FPGrowth頻繁模式&關(guān)聯(lián)規(guī)則BIDE頻繁模式&關(guān)聯(lián)規(guī)則Apriori頻繁模式&關(guān)聯(lián)規(guī)則相關(guān)性分析數(shù)理統(tǒng)計分布統(tǒng)計數(shù)理統(tǒng)計標(biāo)準(zhǔn)向量化算法數(shù)據(jù)預(yù)處理算法Hash向量化算法數(shù)據(jù)預(yù)處理算法標(biāo)準(zhǔn)歸一

26、化算法數(shù)據(jù)預(yù)處理算法去均值歸一化算法數(shù)據(jù)預(yù)處理算法極差歸一化算法數(shù)據(jù)預(yù)處理算法類別符號平衡采樣算法數(shù)據(jù)預(yù)處理算法隨機采樣算法數(shù)據(jù)預(yù)處理算法均勻采樣算法數(shù)據(jù)預(yù)處理算法均值/方差/協(xié)方差基礎(chǔ)數(shù)據(jù)計算模塊自定義計算方法基礎(chǔ)數(shù)據(jù)計算模塊多建模語言支持明略DataInsight是一款基于Spark的并行化大數(shù)據(jù)挖掘產(chǎn)品。用戶除了使用DataInsight中提供的算法和模型進行建模之外,還可以使用其他外部語言進行建模。目前,明略DataInsight提供Python和R供用戶自定義算子。明略DataInsight中的模型可以由不同語言的元素組合而成。用戶可以使用DataInsight原生的算法或者模型,也

27、可以使用通過Python或R自定義的算法和模型,這樣,極大的提高了建模的靈活性。此外,由于DataInsight中提供了外部語言,用戶可以直接通過這些外部語言來對數(shù)據(jù)進行探索。Python和R中都包含了大量的優(yōu)秀的繪圖工具,用戶可以直接使用這些工具在DataInsight中進行繪圖。模型應(yīng)用管理明略DataInsight是一款關(guān)注企業(yè)大數(shù)據(jù)挖掘落地全過程的產(chǎn)品。除了傳統(tǒng)數(shù)據(jù)挖掘軟件提供的建模工具之外,明略DataInsight還對建立完成模型的后續(xù)使用進行管理,幫助用戶更好的在生產(chǎn)環(huán)境中應(yīng)用模型,以實現(xiàn)期望的業(yè)務(wù)目標(biāo)。在企業(yè)生產(chǎn)實踐中,模型效果是會隨著時間而不斷衰減的,而且存在模型失效的問題。

28、為了保持模型的效果,就必須對模型進行有效的維護。在傳統(tǒng)數(shù)據(jù)挖掘?qū)嵺`中,有專門的建模團隊來負(fù)責(zé)模型維護,每一次模型維護都要經(jīng)歷模型重部署,重上線的過程,效率十分低下。明略DataInsight中,最終應(yīng)用于生產(chǎn)的模型稱為應(yīng)用。明略DataInsight通過應(yīng)用更新功能使用新數(shù)據(jù)重新訓(xùn)練應(yīng)用,使得衰減效應(yīng)變緩。應(yīng)用每次更新完,都會產(chǎn)生一個新的應(yīng)用版本,這樣同一應(yīng)用會保留多個版本,這些版本的輸入輸出都保持一致,用戶可以任選其中一個版本來產(chǎn)生最終的結(jié)果。應(yīng)用更新是一種簡單而有效的方法,但是當(dāng)數(shù)據(jù)發(fā)生了較大的變化時,簡單的更新應(yīng)用已不能維持模型效果,此時,需要深入到應(yīng)用細(xì)節(jié)對應(yīng)用進行調(diào)整。明略DataI

29、nsight可以將應(yīng)用還原為工作流,用戶可以在開發(fā)環(huán)境中打開工作流,在已有的工作流之上重新建模,直到模型效果滿足業(yè)務(wù)需求。模型即服務(wù)明略DataInsight作為一款企業(yè)級的大數(shù)據(jù)挖掘平臺,通過Restful API向企業(yè)其他生產(chǎn)系統(tǒng)提供服務(wù),外部系統(tǒng)可以通過調(diào)用Restful API實現(xiàn)模型的運行和更新等操作。這樣,明略DataInsight可以作為企業(yè)統(tǒng)一的模型服務(wù)平臺,為企業(yè)各個生產(chǎn)系統(tǒng)進行復(fù)雜的數(shù)據(jù)挖掘計算,提供各個生產(chǎn)系統(tǒng)所需的業(yè)務(wù)數(shù)據(jù)。例如,明略DataInsight可以通過人群畫像模型對客戶進行畫像,將畫像結(jié)果提供給企業(yè)BI系統(tǒng),在企業(yè)BI系統(tǒng)中結(jié)合其他數(shù)據(jù)一起繪制最終的業(yè)務(wù)報表

30、。根據(jù)用戶在API中指定的輸入和輸出,明略DataInsight中相應(yīng)的應(yīng)用就可以從輸入中讀取原始數(shù)據(jù),進過數(shù)據(jù)挖掘的復(fù)雜計算后,將結(jié)果數(shù)據(jù)存放到用戶指定的輸出中,這樣就完成了一次數(shù)據(jù)挖掘任務(wù)。明略DataInsight支持多種輸入輸出,包括基于大數(shù)據(jù)的HIVE、HBASE、HDFS等,還包括傳統(tǒng)關(guān)系型數(shù)據(jù)庫,如Oracle、Mysql等,也包括一些NoSQL數(shù)據(jù)庫,如MongoDB、Redis等。明略DataInsight支持的API如下:功能API說明運行應(yīng)用/application/run運行應(yīng)用的一個版本。需要指明應(yīng)用版本的ID,運行的輸入、輸出,以及用戶token。系統(tǒng)從輸入中獲取數(shù)

31、據(jù),經(jīng)過計算后將輸出結(jié)果存儲到用戶指定的輸出對象中。該API返回一個任務(wù)ID,用戶可以使用該ID進行后續(xù)操作更新應(yīng)用/application/update更新應(yīng)用,生成一個新的應(yīng)用版本。用戶指明需要更新的應(yīng)用ID,新版本名稱、輸入的數(shù)據(jù)和用戶Token。系統(tǒng)通過輸入數(shù)據(jù)新生成一個應(yīng)用版本。該API返回一個任務(wù)ID和一個版本ID。停止任務(wù)/task/kill用戶傳入任務(wù)ID來停止一個正在運行中的任務(wù)。查詢狀態(tài)/task/status用戶傳入任務(wù)ID來查詢?nèi)蝿?wù)的狀態(tài)。狀態(tài)包括任務(wù)正在運行、運行成功、運行失敗和已停止。通過查詢?nèi)蝿?wù)狀態(tài)來決定下一步操作。通過明略DataInsight提供的API,用戶

32、可以在自己的系統(tǒng)中進行調(diào)用。例如,用戶將一個應(yīng)用加入工作流中,通過run命令運行一個應(yīng)用,然后不斷查詢狀態(tài),直到狀態(tài)變?yōu)橐淹瓿?,再繼續(xù)下一步工作。由于輸入輸出都是由用戶指定,因此,用戶可以很方便的在工作流中加入數(shù)據(jù)挖掘的步驟。大數(shù)據(jù)分析展示平臺Discovery隨著大數(shù)據(jù)時代的帶來,急劇膨脹的數(shù)據(jù)規(guī)模、對細(xì)粒度數(shù)據(jù)探索的需求,以及對決策時效性的需求愈加旺盛,傳統(tǒng)的BI方案在解決數(shù)據(jù)規(guī)模、分析的時效性、數(shù)據(jù)粒度方面越發(fā)顯得困難。傳統(tǒng)的BI方案已經(jīng)很難滿足當(dāng)前業(yè)務(wù)需求,基于深入分析株洲所大數(shù)據(jù)分析展示平臺的業(yè)務(wù)需求特點和技術(shù)需求的基礎(chǔ)上,選擇基于海量數(shù)據(jù)的商務(wù)智能解決方案,以滿足業(yè)務(wù)和技術(shù)要求。平

33、臺架構(gòu)Discovery是基于Hadoop技術(shù)框架的大數(shù)據(jù)商業(yè)智能平臺,旨在幫助用戶挖掘大數(shù)據(jù)環(huán)境下的數(shù)據(jù)價值,解決傳統(tǒng)BI工具在大數(shù)據(jù)環(huán)境下無法使用的困境。Discovery是B/S架構(gòu),基于大數(shù)據(jù)技術(shù)構(gòu)建,可同時支持大數(shù)據(jù)平臺和傳統(tǒng)的RDBMS;提供文本文件、JDBC、Cube、Search等多類型的數(shù)據(jù)源支持;Discovery平臺架構(gòu)如下:Discovery各個部分的主要功能如下:模塊組件主要功能數(shù)據(jù)源ERP/CRM支持對接客戶已有系統(tǒng)CDH/Hortonworks支持對接其他商用發(fā)行版RDBMS支持對接常用的關(guān)系型數(shù)據(jù)庫Excel/CSV支持常用的文本文件格式數(shù)據(jù)預(yù)處理MOLAP C

34、ube配置多維OLAP Cube的維度、指標(biāo)、數(shù)據(jù)更新方式等Search Index配置針對非結(jié)構(gòu)化數(shù)據(jù)的索引數(shù)據(jù)引擎OLAP Engine支持ROLAP、MOLAP兩種OLAP分析,為上層交互提供Roll up、Drill down、Slice & Dice等支撐AD-hoc Engine針對關(guān)系型數(shù)據(jù)庫提供的查詢引擎,支持常見的RDBMS、Hive、Impala等Search Engine針對非結(jié)構(gòu)化數(shù)據(jù)提供的搜索引擎,支持對文本、圖片等非結(jié)構(gòu)化數(shù)據(jù)的檢索分析,同時也支持對結(jié)構(gòu)化數(shù)據(jù)進行明細(xì)粒度的分析。BI ServerSecurityBI Server提供針對訪問連接(Https)、身份

35、認(rèn)證等安全保證的功能,確保數(shù)據(jù)安全不外泄。Administration針對Dashboard、圖表、數(shù)據(jù)預(yù)處理、分享等的權(quán)限控制,同時支持細(xì)粒度的數(shù)據(jù)訪問權(quán)限控制。Business logic提供針對工作流、配置等的業(yè)務(wù)流程管理。Repository管理數(shù)據(jù)庫、表、Cube、索引等。交互分析引擎Report Engine通過可視化界面創(chuàng)建到CSV、RDBMS、Cube和Index的連接,Drag & Drop數(shù)據(jù)源中的維度和指標(biāo),選擇圖表展現(xiàn)樣式,生成chart。Discovery基于D3渲染圖表,可支持大部分常用的展現(xiàn)形式并支持自定義。Dashboard Designer將Report En

36、gine生成的圖組裝為Dashboard,并提供自定義樣式等的接口。APIDiscovery對外提供的Dashboard接口和Report接口,方便第三方App將Dashboard和Report整合可視化將API下引擎提供的各類功能封裝為基于Html5的網(wǎng)頁,支持pc、mobile等展現(xiàn)和下載、分享。數(shù)據(jù)引擎Discovery的數(shù)據(jù)引擎包括OLAP、Ad-hoc和Search三部分,分別面向基于Cube的查詢、即席查詢和明細(xì)搜索三種業(yè)務(wù)場景,并由BI Server進行統(tǒng)一調(diào)度。Discovery的OLAP引擎以Discovery的多維數(shù)據(jù)庫為核心,旨在對原始數(shù)據(jù)進行抽取,轉(zhuǎn)換和加載,支撐Dis

37、covery的在線分析,是Discovery必不可少的一部分。Discovery的OLAP引擎同時支持ROLAP和MOLAP兩種模式,并且基于Hadoop生態(tài)系統(tǒng)進行了針對性的優(yōu)化。OLAP引擎支持使用離線Cube進行數(shù)據(jù)存儲,支持Cube數(shù)據(jù)定時全量以及增量更新。 Discovery的Ad-hoc引擎基于大數(shù)據(jù)生態(tài)體系的SQL引擎構(gòu)建,支持在海量數(shù)據(jù)集上進行分鐘級別的即席查詢。 Discovery的Search引擎支持對數(shù)據(jù)進行raw data級別的探索發(fā)現(xiàn),在可觀的時間延遲內(nèi),支持對原始數(shù)據(jù)集進行靈活的數(shù)據(jù)探索分析。BI ServerBI Server支持對Discovery平臺內(nèi)的元數(shù)據(jù)

38、、權(quán)限等進行統(tǒng)一授權(quán)管理。BI Server可支持行列級別的數(shù)據(jù)權(quán)限管理。交互分析模塊Discovery的分析模塊以Dashboard為分析的載體,每個分析中可向Dashboard內(nèi)加入任意數(shù)量的組件和控件。所有分析中的操作均通過拖拽和點擊完成,無需寫SQL。 支持任意維度和指標(biāo)的切換,可以對已有的表樣字段進行切換,從而進行自由分析。任意維度和指標(biāo)切換的功能保障了當(dāng)查看分析的人員在查看分析時,如果針對已有的表樣產(chǎn)生額外的分析需求或改變了已有的分析需求,不需要重新制作分析,而可以直接通過切換維度和指標(biāo)實現(xiàn)。 可以選擇數(shù)據(jù)快速創(chuàng)建表格或者圖表以使數(shù)據(jù)可視化、添加過濾條件篩選數(shù)據(jù),即時排序,使數(shù)據(jù)分

39、析更快捷。APIDiscovery提供靈活的數(shù)據(jù)接口,對于有一定開發(fā)能力或者已有可視化工具的客戶,Discovery可以通過標(biāo)準(zhǔn)的數(shù)據(jù)接口對外輸出經(jīng)過處理和分析的數(shù)據(jù),幫組用戶快速的生成定制報表。平臺特性基于大數(shù)據(jù)技術(shù)的優(yōu)異性能Discovery是一款真正支持海量大數(shù)據(jù)的BI產(chǎn)品。經(jīng)過測試,Discovery對于分組匯總表的計算,百億條數(shù)據(jù)規(guī)模,匯總計算均在3s內(nèi)完成。對于明細(xì)表的展示,均在1s內(nèi)即可完成。數(shù)據(jù)模型建立簡單Discovery支持直接連接RDBMS或者Hadoop數(shù)據(jù)倉庫、ROLAP和MOLAP連接Hadoop數(shù)據(jù)倉庫,通過簡單的Drag & Drop即可實現(xiàn)數(shù)據(jù)模型的建立。開放

40、架構(gòu)方便集成Discovery可以結(jié)合數(shù)據(jù)倉庫使用,也可以直接連接ERP/CRM等業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源,擴展現(xiàn)有系統(tǒng)的功能,更好的利用現(xiàn)有IT資產(chǎn)。Discovery采用開放的SOA架構(gòu),提供了豐富的API接口,能夠方便地融合進其他應(yīng)用系統(tǒng),能方便實現(xiàn)與第三方系統(tǒng)的用戶和權(quán)限整合。易于非技術(shù)人員使用傳統(tǒng)BI的繁雜之處主要體現(xiàn)在兩個方面:技術(shù)人員需要花費大量時間準(zhǔn)備數(shù)據(jù)以及業(yè)務(wù)人員基于數(shù)據(jù)偶得的一些分析需求實現(xiàn)過程復(fù)雜。Discovery基于明略MDP產(chǎn)品、結(jié)合BI的需求,提供完整的ETL工具協(xié)助用戶自行進行數(shù)據(jù)準(zhǔn)備,大大降低了非IT人員使用產(chǎn)品的門檻。實施周期短、維護簡單由于Discovery特有

41、的數(shù)據(jù)準(zhǔn)備模塊,除去原始需求溝通時間,技術(shù)人員在實施時無需花費過多的時間來進行數(shù)據(jù)處理,而Discovery特有的建模流程能夠極大的減少需求多變導(dǎo)致的數(shù)據(jù)準(zhǔn)備和溝通交流時間,真正做到了了實施周期短,后期也無需投入過多的人力和時間來維護系統(tǒng),解決需求上的變動。交互式體驗構(gòu)建數(shù)據(jù)視圖視圖是從一個或多個實際表中獲得的,用于產(chǎn)生視圖的表叫做該視圖的基表。一個視圖就是行和列的集合,一般由以下組件組成:標(biāo)題、軸、區(qū)、單元格和標(biāo)記。提供以下幾個功能模塊來幫助用戶構(gòu)建數(shù)據(jù)視圖:拖動字段用戶可以通過將字段從數(shù)據(jù)窗口拖到視圖中來構(gòu)建數(shù)據(jù)視圖。用戶可將字段拖到視圖中的各種活動區(qū)域,或者將字段放置在功能面板上。若要從

42、功能面板移除字段,可將該字段從面板拖出,或點擊字段后的“X”標(biāo)簽。篩選用戶可使用篩選器來縮小視圖中的數(shù)據(jù)范圍。通過選擇特定維度成員或特定度量范圍,可以定義出具體的篩選器。例如,可在顯示四個不同地區(qū)產(chǎn)品銷售額的視圖上進行篩選,篩選后只顯示用戶關(guān)心的兩個地區(qū)。排序支持計算排序和手動排序。用戶可使用排序進一步完善自己的視圖,并精確提取所需要的信息。采用計算排序方式排序時,出現(xiàn)在工作表上的每個維度都可獨立于任何其他維度進行排序。采用手動排序時,可以重新安排表中維度成員的順序,方法是拖動這些維度成員,并控制這些成員在表中的排列順序。圖表類型Discovery中的圖表使用Echarts+D3組合方案實現(xiàn)。ECharts基于HTML5 Canvas,是一個開源的純JavaScript圖表庫,有比較完備的基礎(chǔ)圖表類型,因此選擇ECharts作為Discovery基礎(chǔ)圖表類型的圖表庫。D3是基于JavaScript技術(shù)實現(xiàn)的圖表的函數(shù)庫,故D3也常被稱做D3.js。D3.js提供了大量原生的可視化效果,非帯適合根據(jù)實際可視化

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論