“1+X”大數(shù)據(jù)平臺(tái)運(yùn)維職業(yè)技能等級(jí)證書課件(中級(jí))課件 第20、21章 金融行業(yè)運(yùn)維項(xiàng)目實(shí)戰(zhàn)、典型大數(shù)據(jù)平臺(tái)監(jiān)控運(yùn)維實(shí)戰(zhàn)_第1頁
“1+X”大數(shù)據(jù)平臺(tái)運(yùn)維職業(yè)技能等級(jí)證書課件(中級(jí))課件 第20、21章 金融行業(yè)運(yùn)維項(xiàng)目實(shí)戰(zhàn)、典型大數(shù)據(jù)平臺(tái)監(jiān)控運(yùn)維實(shí)戰(zhàn)_第2頁
“1+X”大數(shù)據(jù)平臺(tái)運(yùn)維職業(yè)技能等級(jí)證書課件(中級(jí))課件 第20、21章 金融行業(yè)運(yùn)維項(xiàng)目實(shí)戰(zhàn)、典型大數(shù)據(jù)平臺(tái)監(jiān)控運(yùn)維實(shí)戰(zhàn)_第3頁
“1+X”大數(shù)據(jù)平臺(tái)運(yùn)維職業(yè)技能等級(jí)證書課件(中級(jí))課件 第20、21章 金融行業(yè)運(yùn)維項(xiàng)目實(shí)戰(zhàn)、典型大數(shù)據(jù)平臺(tái)監(jiān)控運(yùn)維實(shí)戰(zhàn)_第4頁
“1+X”大數(shù)據(jù)平臺(tái)運(yùn)維職業(yè)技能等級(jí)證書課件(中級(jí))課件 第20、21章 金融行業(yè)運(yùn)維項(xiàng)目實(shí)戰(zhàn)、典型大數(shù)據(jù)平臺(tái)監(jiān)控運(yùn)維實(shí)戰(zhàn)_第5頁
已閱讀5頁,還剩61頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第20章金融行業(yè)運(yùn)維項(xiàng)目實(shí)戰(zhàn)第一部分:項(xiàng)目背景和流程PART

011Confidential秘密0102項(xiàng)目背景介紹項(xiàng)目流程Confidential秘密0102項(xiàng)目背景介紹項(xiàng)目流程Confidential秘密項(xiàng)目背景介紹隨著小額貸款的興起,越來越多的P2P網(wǎng)絡(luò)借貸平臺(tái)出現(xiàn)了。網(wǎng)絡(luò)借貸指的是借貸過程中,資料與資金、合同、手續(xù)等全部通過網(wǎng)絡(luò)實(shí)現(xiàn),它是隨著互聯(lián)網(wǎng)的發(fā)展和民間借貸的興起而發(fā)展起來的一種新的金融模式。由于P2P網(wǎng)貸很大程度上具有民間金融的屬性,其借、貸行為較傳統(tǒng)的投資理財(cái)渠道有其獨(dú)到的優(yōu)勢(shì)。正因?yàn)榇耍W(wǎng)貸吸引了大量資金,同時(shí)其借款人主題是個(gè)人,以信用借款為主,面對(duì)社會(huì)籌集資金。相較企業(yè)借款而言,個(gè)人借款信息不易核實(shí),還款來源不穩(wěn)定,參與者的信用風(fēng)險(xiǎn)給平臺(tái)良好運(yùn)營(yíng)帶來較大的不確定性。Confidential秘密項(xiàng)目背景介紹Confidential秘密0102項(xiàng)目背景介紹項(xiàng)目流程Confidential秘密項(xiàng)目流程本章所用數(shù)據(jù)源包含字段較多,在對(duì)貸款用戶進(jìn)行信息、行為模式分析時(shí),只需要關(guān)注重點(diǎn)字段,因此需要對(duì)這些關(guān)鍵字段進(jìn)行提取。源數(shù)據(jù)中這些關(guān)鍵字段可能存在空值、字段值不合理等,我們要對(duì)這些數(shù)據(jù)進(jìn)行清洗。本章中,使用Spark計(jì)算框架對(duì)清洗后的數(shù)據(jù)進(jìn)行分析,分析完畢后將分析結(jié)果導(dǎo)入到MySql數(shù)據(jù)庫中進(jìn)行可視化。最后對(duì)結(jié)果進(jìn)行綜合分析。Confidential秘密第二部分:數(shù)據(jù)說明及導(dǎo)入PART

022Confidential秘密01

數(shù)據(jù)說明及導(dǎo)入02清洗與預(yù)處理Confidential秘密0102數(shù)據(jù)說明及導(dǎo)入清洗與預(yù)處理Confidential秘密數(shù)據(jù)說明Confidential秘密0102數(shù)據(jù)說明及導(dǎo)入清洗與預(yù)處理Confidential秘密清洗與預(yù)處理清洗流程如下Confidential秘密清洗與預(yù)處理提取關(guān)鍵字段。共887379行清字段缺失記錄。清洗0行清洗重復(fù)數(shù)據(jù)。清洗0行清洗“貸款編號(hào)”。清洗0行清洗“貸款金額”。清洗0行檢查“貸款等級(jí)”。不需清洗檢查“貸款子等級(jí)”。不需清洗清洗“工作年限”。清洗60977行清洗“房屋狀態(tài)”。清洗51行清洗“年收入”。清洗0行清洗“收入是否核實(shí)”。清洗256729行剩余569266行Confidential秘密第三部分:數(shù)據(jù)分析PART

033Confidential秘密0102借款金額分布借款等級(jí)分布03借款金額與借款等級(jí)關(guān)系04借款金額與工作年限、年收入關(guān)系05借款金額與房屋所有狀態(tài)關(guān)系Confidential秘密借款金額分析分析借款金額的分布情況,了解主流客戶需求。借款金額區(qū)間劃分原則如下:010005000100002000050000更多分析結(jié)果:Confidential秘密借款等級(jí)分布Confidential秘密不同的借款等級(jí)意味著不同的借款利率,等級(jí)越高,借款利率越高。借款利率與借款金額、還款時(shí)間都有關(guān)系。本項(xiàng)目的源數(shù)據(jù)中借款等級(jí)位于A-G之間,每個(gè)等級(jí)又分為5個(gè)子等級(jí),我們分析每個(gè)子等級(jí)的人數(shù)分布。部分結(jié)果如下:借款金額與借款等級(jí)關(guān)聯(lián)關(guān)系客戶需求與借款金額、借款等級(jí)密切相關(guān),兩者之間的相互關(guān)系成為P2P運(yùn)營(yíng)者關(guān)心的重點(diǎn)。部分結(jié)果如下:Confidential秘密借款金額與工作年限關(guān)系一般情況下,客戶年收入會(huì)隨著工作年限的增加而增長(zhǎng),相較于收入較低的客戶,其借款風(fēng)險(xiǎn)會(huì)更低。部分結(jié)果如下:Confidential秘密借款金額與年收入關(guān)系年收入更直觀反映客戶的還款能力,需要重點(diǎn)關(guān)注。本項(xiàng)目將年收入按以下區(qū)間劃分:0

1萬美元部分結(jié)果如下:5萬-10萬美元10萬-20萬美元大于20萬美元Confidential秘密借款金額與房屋所有狀態(tài)關(guān)系房屋所有狀態(tài)也是客戶財(cái)務(wù)狀況的直接反映。分析其房屋所有情況,可以幫助網(wǎng)貸平臺(tái)有效規(guī)避風(fēng)險(xiǎn)。部分結(jié)果如下:MORTGAGE:按揭RENT:租住

OWN:自有住房

OTHER:其他Confidential秘密第四部分:數(shù)據(jù)可視化PART

044Confidential秘密可視化流程可視化圖表能更好地揭示數(shù)據(jù)間的關(guān)系,方便我們進(jìn)行分析。本項(xiàng)目使用Flask+Echarts技術(shù)進(jìn)行數(shù)據(jù)可視化。Confidential秘密可視化結(jié)果由此圖表可以看出,借款金額位于1萬-2萬美元之間的人數(shù)最多,其次是2萬-5萬區(qū)間,沒有出現(xiàn)5萬美元以上的借款;

1000美元以下的借款人數(shù)也較少。Confidential秘密可視化結(jié)果由圖表可以看出,借款等級(jí)位于C級(jí)別的人數(shù)最多,并且每個(gè)級(jí)別的子等級(jí)分布較均勻。Confidential秘密可視化結(jié)果由圖表可以看出,B、C

級(jí)別在各個(gè)借款區(qū)間都

占絕大多數(shù),D級(jí)別次之;利率最高的G級(jí)別在各個(gè)

借款區(qū)間均占極少數(shù)。Confidential秘密可視化結(jié)果由圖表可以看出,小于1年工作經(jīng)歷的人在各區(qū)間借款人數(shù)中都占絕大多數(shù),說明該網(wǎng)貸平臺(tái)的絕大部分客戶可能為學(xué)生;同時(shí)工作時(shí)間大于10年的客戶也有一定比例。Confidential秘密可視化結(jié)果由圖表可以看出,該網(wǎng)貸平臺(tái)的客戶絕大多數(shù)為年收入在10000-20000美元,較高收入的客戶比較少。這也反映出收入較低的人群,對(duì)于網(wǎng)貸的需求較多;收入較高的人群,一般很少會(huì)通過網(wǎng)貸滿足經(jīng)濟(jì)需求。Confidential秘密可視化結(jié)果由此圖表可以看出,

MORTGAGE(按揭)和RENT(租?。┓课莸娜巳涸诖司W(wǎng)貸平臺(tái)借款較多;有用自主住房OWN狀態(tài)的客戶較少。Confidential秘密第五部分:綜合分析PART

055Confidential秘密綜合分析Confidential秘密由上述的可視化結(jié)果我們可以看到,該網(wǎng)貸平臺(tái)面向的多為收入較低(年收入10000-20000美元)的客戶,其工作年限較短,一般沒有自主住房,滿足這些特征的人群出現(xiàn)經(jīng)濟(jì)狀況無法滿足生活需求的幾率較大,需求金額在10000-20000美元的人數(shù)較多,借款金額基本為一年的年收入。對(duì)于這樣的客戶群,可以在在借款時(shí)可以著重參考個(gè)人的信用檔案,對(duì)于信用度較低的客戶可以提高借款門檻,降低借款額;借款后通過多種渠道進(jìn)行溝通,降低還款風(fēng)險(xiǎn)。本章小結(jié)Confidential秘密通過本章的學(xué)習(xí),讀者應(yīng)該掌握:√大數(shù)據(jù)分析處理的流程√使用Spark技術(shù)進(jìn)行數(shù)據(jù)分析的方法√使用Flask框架+Echarts插件進(jìn)行數(shù)據(jù)可視化的方法Thanks!Confidential秘密第21章典型大數(shù)據(jù)平臺(tái)監(jiān)控運(yùn)維實(shí)戰(zhàn)第一部分:項(xiàng)目背景和流程PART

011Confidential秘密0102項(xiàng)目背景介紹項(xiàng)目流程03實(shí)驗(yàn)環(huán)境Confidential秘密0102項(xiàng)目背景介紹項(xiàng)目流程03實(shí)驗(yàn)環(huán)境Confidential秘密項(xiàng)目背景介紹Confidential秘密實(shí)驗(yàn)任務(wù):開啟Ganglia監(jiān)控hadoop集群本地?cái)?shù)據(jù)上傳到分布式文件系統(tǒng)HDFS用數(shù)據(jù)倉庫Hive查詢數(shù)據(jù)兩個(gè)操作中Ganglia監(jiān)控到的狀態(tài)0102項(xiàng)目背景介紹項(xiàng)目流程03實(shí)驗(yàn)環(huán)境Confidential秘密項(xiàng)目流程開啟G

a

n

g

l

i

a上傳數(shù)據(jù)記錄集群狀態(tài)查詢數(shù)據(jù)Confidential秘密01項(xiàng)目背景介紹實(shí)驗(yàn)環(huán)境03項(xiàng)目流程02Confidential秘密0102集群環(huán)境安裝ganglia所需依賴03監(jiān)控端安裝gmeta,gmondganglia-web,nginx,php04被監(jiān)控端安裝gmond實(shí)驗(yàn)環(huán)境Confidential秘密第二部分:數(shù)據(jù)說明及導(dǎo)入PART

022Confidential秘密0102數(shù)據(jù)說明數(shù)據(jù)導(dǎo)入Confidential秘密0102數(shù)據(jù)說明數(shù)據(jù)導(dǎo)入Confidential秘密數(shù)據(jù)說明本章實(shí)驗(yàn)提供一個(gè)包含30萬條記錄的網(wǎng)站用戶行為數(shù)據(jù)集。數(shù)據(jù)集內(nèi)容如下:Confidential秘密02數(shù)據(jù)導(dǎo)入01數(shù)據(jù)說明Confidential秘密數(shù)據(jù)導(dǎo)入開啟Ganglia監(jiān)控hadoop集群修改ganglia-monitor的配置文件主節(jié)點(diǎn)配置修改Hadoop的配置文件重啟所有服務(wù)服務(wù)頁面查看各機(jī)器節(jié)點(diǎn)信息Confidential秘密本地?cái)?shù)據(jù)上傳到分布式文件系統(tǒng)HDFS創(chuàng)建目錄,將數(shù)據(jù)集放入目錄數(shù)據(jù)預(yù)處理上傳操作Confidential秘密第三部分:用數(shù)據(jù)倉庫Hive查詢數(shù)據(jù)PART

033Confidential秘密0102準(zhǔn)備工作查詢操作Confidential秘密準(zhǔn)備工作Confidential秘密在Hive上創(chuàng)建數(shù)據(jù)庫啟動(dòng)MySQL數(shù)據(jù)庫[hadoop@master~]$

service

mysql

start[hadoop@master~]$

cd/usr/local/hive[hadoop@master

hive]$./bin/hive#啟動(dòng)Hive啟動(dòng)成功以后,就進(jìn)入了“hive>”命令提示符狀態(tài),可以輸入類似SQL語句的HiveQL語句。下面,我們要在Hive中創(chuàng)建一個(gè)數(shù)據(jù)庫dblab,命令如下:hive>create

database

dblab;OKTime

taken:

1.471

secondshive>

use

dblab;OKTime

taken:

0.119

seconds查詢操作Confidential秘密在數(shù)據(jù)庫dblab中創(chuàng)建一個(gè)外部表bigdata_user,它包含字段(id,uid,item_id,behavior_type,item_category,date,province),在hive命令提示符下輸入如下命令:hive>

CREATE

EXTERNAL

TABLE

dblab.bigdata_user(id

INT,uidSTRING,item_id

STRING,behavior_type

INT,item_categorySTRING,visit_date

DATE,province

STRING)

COMMENT

"Welcome

toxmu

dblab!"

ROW

FORMAT

DELIMITED

FIELDS

TERMINATED

BY

"\t"STORED

AS

TEXTFILE

LOCATION

"/bigdatacase/dataset";查詢操作Confidential秘密上面已經(jīng)成功把HDFS中的“/bigdatacase/dataset”目錄下的數(shù)據(jù)加載到了數(shù)據(jù)倉庫Hive中,我們現(xiàn)在可以使用下面命令查詢:hive>

select

*

from

bigdata_user

limit

10;OK110001082285259775140762014-12-08河北2100010824368907155032014-12-12四川3100010824368907155032014-12-12新疆41000108253616768197622014-12-02山東510001082151466952152322014-12-12香港61000108253616768497622014-12-02江蘇710001082290088061155032014-12-12寧夏8100010822983975241108942014-12-12重慶市91000108232104252165132014-12-12廣西10100010823233397431108942014-12-12云南Time

taken:

8.347

seconds,

Fetched:

10

row(s)第三部分:上傳和查詢操作中Ganglia監(jiān)控到的狀態(tài)PART

044Confidential秘密上傳數(shù)據(jù)前后集群狀態(tài)變化上傳操作前ganglia監(jiān)控到的hadoop的整體狀態(tài)上傳操作后ganglia監(jiān)控到的hadoop的整體狀態(tài)Confidential秘密上傳數(shù)據(jù)前后集群狀態(tài)變化上傳前ganglia監(jiān)控到的hadoop中master節(jié)點(diǎn)的狀態(tài)上傳后ganglia監(jiān)控到的hadoop中master節(jié)點(diǎn)的狀態(tài)Conf

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論