《金融大數(shù)據(jù)分析》-課件 第13章 聚類分析_第1頁
《金融大數(shù)據(jù)分析》-課件 第13章 聚類分析_第2頁
《金融大數(shù)據(jù)分析》-課件 第13章 聚類分析_第3頁
《金融大數(shù)據(jù)分析》-課件 第13章 聚類分析_第4頁
《金融大數(shù)據(jù)分析》-課件 第13章 聚類分析_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第13章聚類分析本章的學(xué)習(xí)目標(biāo)為:理解聚類分析的使用范圍?熟悉如何使用K均值方法實(shí)現(xiàn)聚類分析?熟悉使用程序?qū)崿F(xiàn)聚類分析案例:貸款違約?在監(jiān)督學(xué)習(xí)的章節(jié)中,我們討論過如何用監(jiān)督學(xué)習(xí)的方法對貸款違約進(jìn)行預(yù)測。使用監(jiān)督學(xué)習(xí)方法的前提是我們需要一些標(biāo)記過的數(shù)據(jù)作為例子以供模型來學(xué)習(xí)。在貸款違約的案例中,作為例子的數(shù)據(jù)中有貸款者的信息,也有貸款是否違約的信息。案例:貸款違約假設(shè),如表13.1我們沒有貸款是否違約的信息,能否通過貸款者以及貸款特點(diǎn)等數(shù)據(jù)來對貸款的風(fēng)險(xiǎn)進(jìn)行分類呢?表13.1貸款數(shù)據(jù)聚類分析方法:簡介聚類分析(Clustering)是一類對無標(biāo)識數(shù)據(jù)進(jìn)行分類的無監(jiān)督學(xué)習(xí)方法。例如,如果違約與未違約的人群在我們的特征有著顯著的區(qū)別,那么我們可能有方法通過這些區(qū)別將數(shù)據(jù)分到不同的子集中。聚類分析的目標(biāo)則是使用算法通過我們已有的特征來對數(shù)據(jù)進(jìn)行分類。在貸款違約的例子中,我們需要將數(shù)據(jù)分成兩個(gè)聚類(即違約人群和未違約人群)。但是在其他應(yīng)用中,我們可能需要對數(shù)據(jù)區(qū)分到更多的聚類中。聚類分析方法:K均值法

圖13.1:聚類分析聚類分析方法:K均值法???均值方法中的??表示的是聚類的數(shù)量。如果我們需要將數(shù)據(jù)分到違約與不違約的兩類中,那么??=2。而圖13.1中的數(shù)據(jù)則適合將??設(shè)為3

圖13.1:聚類分析K均值法:定義首先我們需要定義什么是好的分類。通常來說,好的分類可以令每個(gè)分類中數(shù)據(jù)的差別最小化。因?yàn)槲覀兊臄?shù)據(jù)中沒有標(biāo)簽??變量。因此,我們只能通過特征變量??來定義數(shù)據(jù)中的差別。最常用的定義方法數(shù)據(jù)點(diǎn)之間距離的兩個(gè)數(shù)據(jù)之間的平方歐幾里德距離。兩個(gè)數(shù)據(jù)點(diǎn)??(??),??(??)的距離定義如下:

K均值法:定義

K均值法:算法流程以下算法可以讓我們很快的找到較好的分類又不至于消耗太多的計(jì)算資源:

?將所有數(shù)據(jù)點(diǎn)隨機(jī)分到??個(gè)聚類中重復(fù)?以下步驟,直到分類停止變化:?對于每個(gè)聚類??,計(jì)算出聚類??的中心點(diǎn),即:?將每個(gè)數(shù)據(jù)點(diǎn)重新分類,每個(gè)數(shù)據(jù)點(diǎn)的新分類為與其擁有最近中心點(diǎn)的聚類

K均值法:步驟?圖13.2展示的是??均值聚類方法的步驟。

圖13.2:K聚類分析步驟K均值法:步驟在第一步,聚類明顯有嚴(yán)重的問題。許多相鄰的數(shù)據(jù)點(diǎn)被分到兩個(gè)不同的子集中,同時(shí)許多相隔很遠(yuǎn)的數(shù)據(jù)被分到了同一個(gè)子集中。這是因?yàn)槠鹗嫉姆诸愂请S機(jī)的。接下來的每一步中,分類質(zhì)量都在不斷提高。同時(shí),每個(gè)聚類的中心點(diǎn)(如三角形所示)也慢慢分離

K均值法:缺點(diǎn)?K均值方法能夠在無標(biāo)簽的情況下為我們提供快速且有效數(shù)據(jù)分類的算法。但該算法也有許多短板:在許多數(shù)據(jù)中,子集的分類不會像我們生成的數(shù)據(jù)那樣明顯。我們用K均值方法只能達(dá)到局部最好的分類,而不是整體最好的分類。分類的效果隨著我們隨機(jī)初始化的取值不同而變化。因此,我們最好進(jìn)行多次隨機(jī)初始化并進(jìn)行分類,并選取多次分類中效果最好的一個(gè)。

K均值法:缺點(diǎn)該方法對我們每個(gè)特征變量的方差特別敏感。最好在分類前先將方差進(jìn)行縮放。這樣不同特征的距離更具有可比性。?K均值方法需要我們首先確定聚類的數(shù)量??。在很多問題中,我們需要多少聚類并不是特別明確。在圖13.3中,我們選擇了??=5而不是3。因此許多貌似應(yīng)屬于同一類的數(shù)據(jù)被強(qiáng)行分到了兩個(gè)不同的子集里。在這種情況下,我們可以考慮另一種聚類方法(層次聚類)。

K均值法:缺點(diǎn)圖13.3:錯(cuò)誤的K值圖13.3展示了選擇錯(cuò)誤K值的分類結(jié)果。K均值法:程序代碼?我們使用貸款違約數(shù)據(jù)為例。在本例子中,我們不使用之前在監(jiān)督學(xué)習(xí)章節(jié)中的目標(biāo)變量isDefault(即貸款違約變量)。我們試圖僅僅使用四個(gè)特征變量對數(shù)據(jù)進(jìn)行聚類。最后,我們檢驗(yàn)聚類的結(jié)果是否能給我們提供一些有用的信息?!?/p>

K均值法:程序代碼導(dǎo)入庫使用pandas存儲數(shù)據(jù)。導(dǎo)入sklearn.preprocessing庫中的StandardScaler類,用于數(shù)據(jù)標(biāo)準(zhǔn)化。導(dǎo)入sklearn.cluster模塊中的KMeans類,用于數(shù)據(jù)聚類分析。

K均值法:程序代碼數(shù)據(jù)讀取及處理讀取名為’train_sample_small.csv’的CSV文件中的數(shù)據(jù),并將其存儲在train_sample變量中。定義一個(gè)特征列表fea_cols,包含四個(gè)特征名稱’employmentYear’,‘homeOwnership’,‘a(chǎn)nnualIncome’,‘dti’

K均值法:程序代碼數(shù)據(jù)讀取及處理使用中位數(shù)來填補(bǔ)缺失值

K均值法:程序代碼數(shù)據(jù)讀取及處理創(chuàng)建一個(gè)StandardScaler對象,用于對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理使用scaler的fit方法計(jì)算數(shù)據(jù)集train_sample的平均值和標(biāo)準(zhǔn)偏差

K均值法:程序代碼數(shù)據(jù)讀取及處理使用transform方法對train_sample中的特征數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理(處理后的特征都是平均值為0,標(biāo)準(zhǔn)方差為1)將標(biāo)準(zhǔn)化處理后的數(shù)據(jù)train_x_standardized轉(zhuǎn)化為DataFrame格式,并將結(jié)果存儲train_x_standardized中,同時(shí)定義列名為特征列表fea_cols

K均值法:程序代碼數(shù)據(jù)讀取及處理從原始數(shù)據(jù)中選擇fea_cols中定義的列,用于后續(xù)的聚類分析。

K均值法:程序代碼進(jìn)行KMeans聚類分析創(chuàng)建KMeans對象用于聚類分析,設(shè)置聚類數(shù)為2,隨機(jī)狀態(tài)為0。?使用特征變量對kmeans進(jìn)行訓(xùn)練,并將結(jié)果添加到原始DataFrame中作為新的列‘cluster’,表示每個(gè)樣本的聚類標(biāo)簽。K均值法:程序代碼進(jìn)行KMeans聚類分析?對聚類后的數(shù)據(jù)進(jìn)行分組,計(jì)算每組的‘isDefault’列的平均值,并生成新的DataFrame顯示聚類結(jié)果。K均值法:程序代碼?結(jié)果分析我們要求程序根據(jù)四個(gè)特征(‘employmentYear’,‘homeOwnership’,‘a(chǎn)nnualIncome’,‘dti’),對樣本進(jìn)行了聚類。因?yàn)槲覀儧]有使用目標(biāo)變量isDefault(是否違約),因此這一過程是無監(jiān)督學(xué)習(xí)。但是我們的聚類同樣含有isDefault的信息。我們檢驗(yàn)聚類結(jié)果中貸款違約的概率。

K均值法:程序代碼?結(jié)果分析?不難發(fā)現(xiàn),編號1的聚類中違約率基本為0。而編號為0的聚類樣本的違約率是0.21??梢?,雖然在模型訓(xùn)練的過程中,我們沒有可供學(xué)習(xí)的樣本,無監(jiān)督學(xué)習(xí)仍然可以幫助我們得到有用的信息。

聚類分析:習(xí)題?請闡述K均值分析方法與K

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論