《機(jī)器學(xué)習(xí)-Python實(shí)戰(zhàn)(微課版)》課件 綜合案例3-信用違約預(yù)測(cè)_第1頁(yè)
《機(jī)器學(xué)習(xí)-Python實(shí)戰(zhàn)(微課版)》課件 綜合案例3-信用違約預(yù)測(cè)_第2頁(yè)
《機(jī)器學(xué)習(xí)-Python實(shí)戰(zhàn)(微課版)》課件 綜合案例3-信用違約預(yù)測(cè)_第3頁(yè)
《機(jī)器學(xué)習(xí)-Python實(shí)戰(zhàn)(微課版)》課件 綜合案例3-信用違約預(yù)測(cè)_第4頁(yè)
《機(jī)器學(xué)習(xí)-Python實(shí)戰(zhàn)(微課版)》課件 綜合案例3-信用違約預(yù)測(cè)_第5頁(yè)
已閱讀5頁(yè),還剩22頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

信用違約預(yù)測(cè)通過(guò)本章學(xué)習(xí)可以,你將能夠:了解信用違約預(yù)測(cè)分析的基本流程;了解邏輯回歸和隨機(jī)森林算法在實(shí)際業(yè)務(wù)應(yīng)用中的方法;能夠提升采用隨機(jī)森林算法解決實(shí)際問(wèn)題的能力。學(xué)習(xí)目標(biāo)案例背景介紹數(shù)據(jù)預(yù)處理模型訓(xùn)練信用風(fēng)險(xiǎn)已經(jīng)成為了今年金融市場(chǎng)的重要主題之一,銀行作為貸方,隨時(shí)都面臨著借貸者違約的風(fēng)險(xiǎn)。傳統(tǒng)的專(zhuān)家規(guī)則在金融科技時(shí)代逐漸過(guò)時(shí),機(jī)器學(xué)習(xí)和金融業(yè)務(wù)的交叉也延伸到信貸領(lǐng)域。違約預(yù)測(cè)就是其中一重要應(yīng)用。本案例基于信貸業(yè)務(wù)場(chǎng)景中一個(gè)月內(nèi)的抽樣數(shù)據(jù),數(shù)據(jù)集有34個(gè)維度,Target表示客戶(hù)在接下來(lái)一個(gè)月是否有違約。模型生成后可使用當(dāng)前月的數(shù)據(jù)預(yù)測(cè)接下來(lái)一個(gè)月客戶(hù)是否會(huì)違約。案例背景數(shù)據(jù)集來(lái)源于開(kāi)源數(shù)據(jù)集,主要包含用戶(hù)的基礎(chǔ)信息、資產(chǎn)信息和信用征信息等,共計(jì)34個(gè)維度。最終的目標(biāo)是對(duì)用戶(hù)是否違約進(jìn)行預(yù)測(cè)。數(shù)據(jù)集介紹違約預(yù)測(cè)只有違約和沒(méi)有預(yù)約兩種結(jié)果,是個(gè)二分類(lèi)問(wèn)題。針對(duì)二分類(lèi)問(wèn)題,可使用的算法有邏輯斯諦回歸、樸素貝葉斯、支持向量機(jī)、樹(shù)模型等。考慮到實(shí)驗(yàn)的完整性和實(shí)用性,本案例選用業(yè)界常用的邏輯斯諦回歸(廣義線性模型)和隨機(jī)森林(集成樹(shù)模型)來(lái)做對(duì)比。考慮到樣本極度不均衡,模型評(píng)價(jià)選用綜合指標(biāo)f1_score。方案介紹本實(shí)驗(yàn)在python3-jupyter環(huán)境下完成,同時(shí)需要安裝seaborn和imblearn:seaborn:基于matplotlib的高級(jí)APIimblearn:處理樣本不均衡問(wèn)題的第三方庫(kù)使用pip安裝命令如下:pipinstallseabornpipinstallimblearn實(shí)驗(yàn)環(huán)境準(zhǔn)備數(shù)據(jù)挖掘流程整體數(shù)據(jù)挖掘流程分為如下幾步:案例背景介紹數(shù)據(jù)預(yù)處理模型訓(xùn)練數(shù)據(jù)預(yù)處理

–讀取數(shù)據(jù)##讀取數(shù)據(jù)importpandasaspdimportnumpyasnpImport

warningswarnings.filterwarnings("ignore")df=pd.read_csv('D:/credit_default/dataset.csv',encoding='utf-8')df.head()數(shù)據(jù)預(yù)處理–

相關(guān)性分析#統(tǒng)計(jì)各特征的缺失率df_missing_stat=pd.DataFrame(df.isnull().sum()/df.shape[0],

columns=['missing_rate']).reset_index()df_missing_stat.sort_values(by='missing_rate',

ascending=False)[:15]數(shù)據(jù)預(yù)處理–

缺失值處理配偶年收入箱圖數(shù)據(jù)預(yù)處理–

數(shù)據(jù)洞察(1)配偶月均收入箱圖數(shù)據(jù)預(yù)處理–數(shù)據(jù)洞察(2)中位數(shù)填補(bǔ)缺失值中位數(shù)填補(bǔ)異常值數(shù)據(jù)預(yù)處理–異常值處理將數(shù)據(jù)集作9:1的切分(傳統(tǒng)的使用二八分或者三七分,但此處樣本量有5959條,測(cè)試集保留500多條就可以評(píng)價(jià)模型),訓(xùn)練集共5259條負(fù)樣本,104條正樣本;測(cè)試集共584條負(fù)樣本,12條正樣本。數(shù)據(jù)預(yù)處理–數(shù)據(jù)集拆分引入相關(guān)庫(kù)并對(duì)輸入作標(biāo)準(zhǔn)化#引入StandardScaler標(biāo)準(zhǔn)化工具庫(kù)fromsklearn.preprocessingimportStandardScalerfromsklearn.model_selectionimportStratifiedKFold,StratifiedShuffleSplit#分層分割fromsklearn.metricsimportmake_scorer,fbeta_score,recall_score,f1_score#對(duì)訓(xùn)練集和測(cè)試集做標(biāo)準(zhǔn)化std_scaler=StandardScaler().fit(df_after_dummy[x_cols])X_train_std=std_scaler.transform(X_train)X_test_std=std_scaler.transform(X_test)數(shù)據(jù)預(yù)處理–標(biāo)準(zhǔn)化案例背景介紹數(shù)據(jù)預(yù)處理模型訓(xùn)練及優(yōu)化使用sklearn.linear_model.LogisticRegression分類(lèi)器,優(yōu)化算法選用雙線性訓(xùn)練數(shù)據(jù),并設(shè)置最大迭代次數(shù)為500。使用LogisticRegression建模對(duì)正樣本過(guò)采樣LogisticRegression優(yōu)化(1)LogisticRegression中可調(diào)的參數(shù)有正則化系數(shù)(C)、正則化系數(shù)(penalty)、優(yōu)化算法(solver)、類(lèi)型權(quán)重參數(shù)(class_weight)、樣本權(quán)重參數(shù)(sample_weight)等。這里調(diào)節(jié)常用的C和solver兩個(gè)參數(shù),使用網(wǎng)格搜索法。LogisticRegression優(yōu)化(2)在測(cè)試集上的效果輸出如下結(jié)果從模型在訓(xùn)練集和測(cè)試集上的表現(xiàn)看,測(cè)試集的f1得分為0.19,比訓(xùn)練集上低了,模型出現(xiàn)過(guò)擬合,初步推斷,一部分是特征比較少、數(shù)據(jù)量不足導(dǎo)致的,特別是過(guò)抽樣會(huì)加大過(guò)擬合風(fēng)險(xiǎn)。如果需要提升模型性能需要進(jìn)一步增加樣本、嘗試其他算法來(lái)擬合數(shù)據(jù)。下面嘗試使用隨機(jī)森林。LogisticRegression評(píng)估使用RandomForest建模先初始化幾個(gè)參數(shù)擬合嘗試下RandomForest優(yōu)化對(duì)n_estimators進(jìn)行搜索輸出如下結(jié)果:模型持久化對(duì)最優(yōu)模型進(jìn)行保存輸出如下結(jié)果:本實(shí)驗(yàn)主要學(xué)習(xí)了使用Python進(jìn)行數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析,使用seaborn做可視化分析,使用SM

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論