金融大數(shù)據(jù)信用風(fēng)險(xiǎn)控制項(xiàng)目解決方案說明書_第1頁(yè)
金融大數(shù)據(jù)信用風(fēng)險(xiǎn)控制項(xiàng)目解決方案說明書_第2頁(yè)
金融大數(shù)據(jù)信用風(fēng)險(xiǎn)控制項(xiàng)目解決方案說明書_第3頁(yè)
金融大數(shù)據(jù)信用風(fēng)險(xiǎn)控制項(xiàng)目解決方案說明書_第4頁(yè)
金融大數(shù)據(jù)信用風(fēng)險(xiǎn)控制項(xiàng)目解決方案說明書_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

金融大數(shù)據(jù)信用風(fēng)險(xiǎn)控制項(xiàng)目解決方案說明書XX科技股份有限公司編制目錄一、項(xiàng)目存在問題及需解決問題 31. 存在問題 32. 需解決問題 3二、解決方案 41. 分布式文件存儲(chǔ)(HDFS) 42. 分布式數(shù)據(jù)庫(kù)(HBASE) 53. 分布式計(jì)算框架(MapReduce) 54. 分布式消息訂閱(Kafka) 5三、開發(fā)范圍 61. 用戶注冊(cè) 62. 用戶登錄 73. 權(quán)限管理 74. 系統(tǒng)管理 85. 運(yùn)維管理 86. API 97. 頁(yè)面展示 9

項(xiàng)目存在問題及需解決問題存在問題數(shù)據(jù)采集問題數(shù)據(jù)存儲(chǔ)問題數(shù)據(jù)預(yù)處理問題數(shù)據(jù)挖掘問題可視化展現(xiàn)問題需解決問題數(shù)據(jù)采集“金融大數(shù)據(jù)信用風(fēng)險(xiǎn)控制平臺(tái)”首先需要收集各種金融數(shù)據(jù),它們可能是結(jié)構(gòu)化的,也可能是半結(jié)構(gòu)化或非結(jié)構(gòu)化的;既可能來自銀行內(nèi)部的各業(yè)務(wù)系統(tǒng),也可能由外部提供;既可以是靜態(tài)的(如屬性數(shù)據(jù)),也可以是動(dòng)態(tài)的(如行為數(shù)據(jù))。而金融數(shù)據(jù)采集產(chǎn)品就是根據(jù)業(yè)務(wù)需要,將這些數(shù)據(jù)采集到“金融大數(shù)據(jù)信用風(fēng)險(xiǎn)控制項(xiàng)目”中。數(shù)據(jù)存儲(chǔ)Hadoop集群通過將數(shù)據(jù)分配到多個(gè)集群節(jié)點(diǎn)上并進(jìn)行并行處理,因此尤為適合對(duì)大數(shù)據(jù)的存儲(chǔ)和分析。Hadoop集群通過添加節(jié)點(diǎn)數(shù)量來有效的擴(kuò)展集群,因此具有極好的可擴(kuò)展性;Hadoop軟件都是開源的,也不必購(gòu)買昂貴的高檔服務(wù)器,因此具有很好的性價(jià)比。Hadoop集群將數(shù)據(jù)分片發(fā)送至多個(gè)節(jié)點(diǎn)保存,因此具有極高的容錯(cuò)性。數(shù)據(jù)預(yù)處理采集到金融數(shù)據(jù)來自多種數(shù)據(jù)源,大多存在著不完整性和不一致性,無法直接用于數(shù)據(jù)挖掘或嚴(yán)重影響數(shù)據(jù)挖掘的效率。因此在進(jìn)行數(shù)據(jù)挖掘之前,通過使用數(shù)據(jù)預(yù)處理工具,靈活對(duì)原始數(shù)據(jù)的清理、變換、集成等處理,可以減少挖掘所需數(shù)據(jù)量,縮短所需時(shí)間,并極大提高數(shù)據(jù)挖掘的質(zhì)量。數(shù)據(jù)挖掘數(shù)據(jù)挖掘是通過分析數(shù)據(jù)、從大量數(shù)據(jù)中尋找其潛在規(guī)律的技術(shù)。利用預(yù)測(cè)、關(guān)聯(lián)、分類、聚類、時(shí)序分析等技術(shù),數(shù)據(jù)挖掘可以從海量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)??梢暬宫F(xiàn)數(shù)據(jù)挖掘得到的結(jié)果,往往數(shù)據(jù)量巨大、關(guān)聯(lián)關(guān)系復(fù)雜、維度多以及雙向互動(dòng)需求等。解決方案解決方案架構(gòu)系統(tǒng)開發(fā)平臺(tái)使用Hadoop大數(shù)據(jù)開發(fā)平臺(tái)。Hadoop是一個(gè)高度可擴(kuò)展的存儲(chǔ)平臺(tái),可以存儲(chǔ)和分發(fā)橫跨數(shù)百個(gè)并行操作的廉價(jià)的服務(wù)器數(shù)據(jù)集群。能擴(kuò)展到處理大量的數(shù)據(jù),能提供成百上千TB的數(shù)據(jù)節(jié)點(diǎn)上運(yùn)行的應(yīng)用程序。Hadoop能夠有效的在幾分鐘內(nèi)處理TB級(jí)的數(shù)據(jù)。相比關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)更具有優(yōu)勢(shì)。它適用于任何規(guī)模的非結(jié)構(gòu)化數(shù)據(jù)持續(xù)增長(zhǎng)的企業(yè),將幫助電信運(yùn)營(yíng)商持續(xù)提高用戶體驗(yàn)。系統(tǒng)采用面向?qū)ο蟮能浖O(shè)計(jì)方法,把整個(gè)系統(tǒng)看作是多個(gè)離散對(duì)象的組合。系統(tǒng)設(shè)計(jì)時(shí),首先把業(yè)務(wù)流程分解成功能模塊及其業(yè)務(wù)實(shí)體對(duì)象,然后根據(jù)業(yè)務(wù)流程分析對(duì)于這些業(yè)務(wù)實(shí)體對(duì)象的操作方法,形成業(yè)務(wù)處理對(duì)象,最后把各個(gè)功能模塊關(guān)聯(lián)起來,形成系統(tǒng)。軟件設(shè)計(jì)是一個(gè)將需求轉(zhuǎn)變?yōu)檐浖倪^程,系統(tǒng)通過逐步求精使得設(shè)計(jì)陳述逐漸接近于源代碼。系統(tǒng)程序采用MVC的設(shè)計(jì)思想,將展現(xiàn)邏輯、控制邏輯、業(yè)務(wù)處理邏輯分離。系統(tǒng)采用參數(shù)化的設(shè)計(jì)思想,定義和管理系統(tǒng)的實(shí)體及配置,調(diào)整實(shí)體以適應(yīng)外部變化。系統(tǒng)采用J2EE技術(shù)保證程序邏輯實(shí)現(xiàn)的平臺(tái)無關(guān)性,并便于安裝部署。系統(tǒng)采用AJAX技術(shù),提高客戶操作的交互性,保證實(shí)際使用的易用性。系統(tǒng)采用echarts可視化框架實(shí)現(xiàn)數(shù)據(jù)展示。關(guān)鍵技術(shù)分布式文件存儲(chǔ)(HDFS)HDFS(HadoopDistributedFileSystem),作為GoogleFileSystem(GFS)的實(shí)現(xiàn),是Hadoop項(xiàng)目的核心子項(xiàng)目,是分布式計(jì)算中數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ),是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的,可以運(yùn)行于廉價(jià)的商用服務(wù)器上。它所具有的高容錯(cuò)、高可靠性、高可擴(kuò)展性、高獲得性、高吞吐率等特征為海量數(shù)據(jù)提供了不怕故障的存儲(chǔ),為超大數(shù)據(jù)集(LargeDataSet)的應(yīng)用處理帶來了很多便利。分布式數(shù)據(jù)庫(kù)(HBASE)HBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫(kù),該技術(shù)來源于FayChang所撰寫的Google論文“Bigtable:一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)”。就像Bigtable利用了Google文件系統(tǒng)(FileSystem)所提供的分布式數(shù)據(jù)存儲(chǔ)一樣,HBase在Hadoop之上提供了類似于Bigtable的能力。HBase是Apache的Hadoop項(xiàng)目的子項(xiàng)目。HBase不同于一般的關(guān)系數(shù)據(jù)庫(kù),它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)。另一個(gè)不同的是HBase基于列的而不是基于行的模式。分布式計(jì)算框架(MapReduce)MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。概念"Map(映射)"和"Reduce(歸約)",是它們的主要思想,都是從函數(shù)式編程語(yǔ)言里借來的,還有從矢量編程語(yǔ)言里借來的特性。它極大地方便了編程人員在不會(huì)分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng)上。當(dāng)前的軟件實(shí)現(xiàn)是指定一個(gè)Map(映射)函數(shù),用來把一組鍵值對(duì)映射成一組新的鍵值對(duì),指定并發(fā)的Reduce(歸約)函數(shù),用來保證所有映射的鍵值對(duì)中的每一個(gè)共享相同的鍵組。分布式消息訂閱(Kafka)Kafka是由Apache軟件基金會(huì)開發(fā)的一個(gè)開源流處理平臺(tái),由Scala和Java編寫。Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),它可以處理消費(fèi)者在網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)。這種動(dòng)作(網(wǎng)頁(yè)瀏覽,搜索和其他用戶的行動(dòng))是在現(xiàn)代網(wǎng)絡(luò)上的許多社會(huì)功能的一個(gè)關(guān)鍵因素。這些數(shù)據(jù)通常是由于吞吐量的要求而通過處理日志和日志聚合來解決。對(duì)于像Hadoop一樣的日志數(shù)據(jù)和離線分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論