版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、金融(jnrng)數(shù)據(jù)挖掘案例分析課程設(shè)計(jì)報(bào)告(bogo)題 目:基于貝葉斯分類技術(shù)(jsh)的貸款風(fēng)險(xiǎn)預(yù)測(cè)學(xué)生姓名: 學(xué) 號(hào): 系別班級(jí): 專業(yè)(方向): 指導(dǎo)教師: 年 月日基于(jy)貝葉斯分類技術(shù)的貸款風(fēng)險(xiǎn)預(yù)測(cè)摘要(zhiyo)本文主要研究了樸素貝葉斯算法在貸款風(fēng)險(xiǎn)預(yù)測(cè)上對(duì)策應(yīng)用。是一種基于最大后驗(yàn)概率的最優(yōu)樸素貝葉斯在貸款風(fēng)險(xiǎn)的預(yù)測(cè)。思想是以訓(xùn)練集樣本在不同樸素貝葉斯的后驗(yàn)概率作為反饋信息(xnx),從訓(xùn)練樣本中選取部分最優(yōu)樣本,拋棄部分含有噪音的樣本,作為最優(yōu)的樸素貝葉斯算法。關(guān)鍵詞: 樸素貝葉斯 ;貸款風(fēng)險(xiǎn);預(yù)測(cè)。AbstractThis paper mainly studies
2、 the application of Countermeasures of naive Bayes algorithm in the loan risk prediction. Is a kind of forecast based on the maximum posterior probability optimal naive Bias on loan risk. Thought is the training set samples in different Bayesian posterior probability as the feedback information,sele
3、ct the part of the optimal sample from the training samples, discard somenoisy samples, as naive Bayes optimal.Keywords: naive Bias; loan risk; prediction.引言: HYPERLINK /view/62273.htm t _blank 貸款風(fēng)險(xiǎn)通常是對(duì)貸款人而言的。從 HYPERLINK /view/62273.htm t _blank 貸款人角度來考察,貸款風(fēng)險(xiǎn)是指貸款人在經(jīng)營(yíng)貸款業(yè)務(wù)過程中面臨的各種損失發(fā)生的可能性。 HYPERLINK /
4、view/62273.htm t _blank 貸款風(fēng)險(xiǎn)是可以度量的,貸款風(fēng)險(xiǎn)具有可測(cè)性,可以通過綜合考察一些因素,在貸款發(fā)放之前或之后,測(cè)算出 HYPERLINK /view/3366773.htm t _blank 貸款本息按期收回的概率。所謂 HYPERLINK /view/5563326.htm t _blank 貸款風(fēng)險(xiǎn)度就是指衡量貸款風(fēng)險(xiǎn)程度大小的尺度,貸款風(fēng)險(xiǎn)度是一個(gè)可以測(cè)算出來的具體的 HYPERLINK /view/2154943.htm t _blank 量化指標(biāo),它通常大于零小于1,貸款風(fēng)險(xiǎn)度越大,說明 HYPERLINK /view/3366773.htm t _bla
5、nk 貸款本息按期收回的可能性越小,反之,貸款風(fēng)險(xiǎn)度越小,說明貸款本息按期收回的可能性越大。1.樸素貝葉斯分類預(yù)測(cè)方法 貝葉斯分類(fn li)算法是統(tǒng)計(jì)學(xué)的一種 HYPERLINK /view/8348989.htm t _blank 分類(fn li)方法,它可以預(yù)測(cè)類成員關(guān)系的可能性,如給定樣本屬于一個(gè)特定類的概率。通過分類算法的比較研究發(fā)現(xiàn),一種稱作樸素貝葉斯分類的簡(jiǎn)單貝葉斯分類算法可以與判定樹和神經(jīng)網(wǎng)絡(luò)分類算法相媲美。用于大型數(shù)據(jù)庫(kù),貝葉斯分類也已表現(xiàn)出高準(zhǔn)確率與高速度。樸素貝葉斯分類假定一個(gè)屬于值對(duì)給丁磊的影響?yīng)毩⒂谄渌麑傩缘闹怠_@一假定稱作類條件獨(dú)立。做此假定是為了簡(jiǎn)化所需計(jì)算(
6、j sun),并在此意義下成為“樸素的”。1.1貝葉斯定理 設(shè)X是類標(biāo)號(hào)未知的數(shù)據(jù)樣本。設(shè)為某種假定,如數(shù)據(jù)樣本屬于某特定的類。對(duì)于分類問題,我們希望確定給定觀測(cè)數(shù)據(jù)樣本,假定成立的概率。是后驗(yàn)概率,或條件下的后驗(yàn)概率。例如,假定數(shù)據(jù)樣本域由水果組成,用他們的顏色和形狀描述。假定表示紅色和圓的,表示假定是蘋果,則反映當(dāng)我們看到是紅色并使圓的時(shí),我們對(duì)是蘋果的確信程度。作為對(duì)比,是先驗(yàn)概率,或得先驗(yàn)概率。對(duì)于以上的例子,它是任意給定的數(shù)據(jù)樣本為蘋果的概率,而不管數(shù)據(jù)樣本看上去如何。后驗(yàn)概率比先驗(yàn)概率基于更多的信息(如背景知識(shí))。是獨(dú)立于的。類似的,是條件下,的后驗(yàn)概率。即是說它是已知是蘋果,是紅
7、色并且是圓的概率。是的先驗(yàn)概率。使用上面的例子,它是由水果集取出一個(gè)數(shù)據(jù)樣本是紅的和圓的的概率。貝葉斯定理就是提供了一中由,,和計(jì)算后驗(yàn)概率的方法。貝葉斯定理是:(1)1.2 樸素(p s)貝葉斯分類樸素(p s)貝葉斯分類或簡(jiǎn)單貝葉斯分類的工作過程如下:每個(gè)數(shù)據(jù)樣本(yngbn)用一個(gè)維特征向量表示,分別描述對(duì)個(gè)屬性樣本的個(gè)度量。假定有個(gè)類。給定一個(gè)未知的數(shù)據(jù)樣本(即沒有類標(biāo)號(hào)),分類法將預(yù)測(cè)屬于具有最高后驗(yàn)概率(條件下)的類。即是說,樸素貝葉斯分類將位置的樣本分配給類,當(dāng)且僅當(dāng) 這樣,最大化。其中最大的對(duì)應(yīng)的類成為最大后驗(yàn)假定。根據(jù)貝葉斯定理(1) (2)由于對(duì)于所有類為常熟,只需要最大即
8、可。如果類的先驗(yàn)概率未知,則通常假定這些類是等概率的,即,并據(jù)此對(duì)最大化。否額,可最大化。注意,類的先驗(yàn)概率可以用計(jì)算,其中是類中的訓(xùn)練樣本數(shù),而是訓(xùn)練樣本總數(shù)。給定具有許多屬性的數(shù)據(jù)集,計(jì)算的開銷可能非常大。為降低計(jì)算的開銷,可以做類條件獨(dú)立的樸素假定。給定樣本的類標(biāo)號(hào),假定屬性值相互條件獨(dú)立,即在屬性間不存在依賴關(guān)系。這樣 (3)概率可以由訓(xùn)練樣本估值。其中如果是分類屬性,則,其中是在屬性上具有值的類的訓(xùn)練樣本數(shù),而是中的訓(xùn)練樣本數(shù)。2 基于貝葉斯分類(fn li)的貸款風(fēng)險(xiǎn)預(yù)測(cè)本文以某企業(yè)的裝款為案例來說明貝葉斯分類預(yù)測(cè)(yc)一個(gè)未知樣本的分類工作過程。2.1 描述(mio sh)數(shù)據(jù)
9、數(shù)據(jù)樣本表示對(duì)企業(yè)還款能力產(chǎn)生的影響,用一個(gè)7維特征向量表示, 分別描述為以下7個(gè)變量因素:資產(chǎn)報(bào)酬率,企業(yè)規(guī)模,核心企業(yè)信用度,上下游企業(yè)合作密切度,營(yíng)業(yè)活動(dòng)收益質(zhì)量,有形資產(chǎn)債務(wù)率,還款風(fēng)險(xiǎn),由于要考察的是貸款企業(yè)的還款風(fēng)險(xiǎn) 因此,目標(biāo)類為還款風(fēng)險(xiǎn),整理,收集所得數(shù)據(jù)庫(kù)的主要屬性見表1表1屬性名取值資產(chǎn)投資率企業(yè)規(guī)模核心企業(yè)信用度上下游合作密切度營(yíng)業(yè)活動(dòng)收益質(zhì)量有形資產(chǎn)債務(wù)率還貸風(fēng)險(xiǎn)15,815,90,9040,40高,低 2.2 預(yù)處理數(shù)據(jù)某銀行2007年申請(qǐng)貸款企業(yè)的信息數(shù)據(jù)在表2中。數(shù)據(jù)樣本用屬性資產(chǎn)報(bào)酬率、企業(yè)規(guī)模、核心企業(yè)信用度、上下游企業(yè)合作密切度、營(yíng)業(yè)活動(dòng)收益質(zhì)量、有形資產(chǎn)債
10、務(wù)率、還帶風(fēng)險(xiǎn)描述。把表2中的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)樣本,根據(jù)表2中數(shù)據(jù),預(yù)測(cè)未知樣本某個(gè)申請(qǐng)貸款企業(yè)(資產(chǎn)報(bào)酬率=“15”,企業(yè)規(guī)模=“大”,核心企業(yè)信用度=“高”,上下游合作密切度=“中”,營(yíng)業(yè)活動(dòng)收益質(zhì)量=“90”,有形資產(chǎn)債務(wù)率=“40”)的還貸風(fēng)險(xiǎn)。表2序號(hào)資產(chǎn)報(bào)酬率企業(yè)規(guī)模核心企業(yè)信用度上下游企業(yè)合作密切度營(yíng)業(yè)活動(dòng)收益質(zhì)量有形資產(chǎn)債務(wù)率還貸風(fēng)險(xiǎn)115中高高9040低28-15中高高9040低38-15大高低9040高49040高515小高中9040低78-15小低中9040低88大低中9040高99040高1015大高高9040低1115中低高9040低1215小低低9040高138-1
11、5大低中9040高148-15小高低9040低2.3 挖掘(wju)數(shù)據(jù)要預(yù)測(cè)(yc)(資產(chǎn)(zchn)報(bào)酬率=“15”,企業(yè)規(guī)模=“大”,核心企業(yè)信用度=“高”,上下游合作密切度=“中”,營(yíng)業(yè)活動(dòng)收益質(zhì)量=“90”,有形資產(chǎn)債務(wù)率=“40”)的還貸風(fēng)險(xiǎn),需要最大化。訓(xùn)練數(shù)據(jù)集包含資產(chǎn)報(bào)酬率、企業(yè)規(guī)模、核心企業(yè)信用度、上下游企業(yè)合作密切度、營(yíng)業(yè)活動(dòng)收益質(zhì)量、有形資產(chǎn)債務(wù)、還貸風(fēng)險(xiǎn)這幾個(gè)屬性,其中還貸風(fēng)險(xiǎn)為類標(biāo)號(hào)屬性,有兩個(gè)取值高,低。設(shè)對(duì)應(yīng)類還貸風(fēng)險(xiǎn)=“高”,而對(duì)應(yīng)類還貸風(fēng)險(xiǎn)=“低”。每個(gè)類的先驗(yàn)概率可以根據(jù)訓(xùn)練樣本計(jì)算:為計(jì)算(j sun),我們計(jì)算下面(xi mian)的條件概率:使用以上
12、概率(gil),得到顯而易見,的可能性最大,因此,對(duì)于樣本,樸素貝葉斯分類預(yù)測(cè)還款風(fēng)險(xiǎn)=“低”。利用挖掘軟件得出(d ch)如下結(jié)果:圖1 依賴(yli)關(guān)系網(wǎng)絡(luò)視圖通過圖1可以(ky)知道“還款風(fēng)險(xiǎn)”主要受“上下游企業(yè)合作密切度”和“營(yíng)業(yè)活動(dòng)收益質(zhì)量”屬性影響。圖2 最強(qiáng)連接圖2說明影響“還款風(fēng)險(xiǎn)”最主要的屬性是“營(yíng)業(yè)收益質(zhì)量”。圖3 屬性(shxng)配置文件視圖圖4 屬性(shxng)特征視圖 由圖3圖4可以(ky)看出,在“還款風(fēng)險(xiǎn)”屬性值為“低”的記錄中,營(yíng)業(yè)活動(dòng)收益質(zhì)量=“90”,上下游企業(yè)合作密切度=“高” 的記錄比較多。圖5 屬性對(duì)比視圖圖5可以看出,“營(yíng)業(yè)活動(dòng)收益質(zhì)量”=“9
13、0”更傾向于“還款風(fēng)險(xiǎn)”=“低”; “上下游企業(yè)合作密切度”=“高”更傾向于“還款風(fēng)險(xiǎn)”=“低”。3.結(jié)論樸素貝葉斯分類算法成立的前提是屬性獨(dú)立假定,即假定各屬性之間互相獨(dú)立, 這一假定稱作類條件獨(dú)立。作此假定是為了簡(jiǎn)化所需計(jì)算,并在此意義下稱為“樸素的”。貝葉斯分類的效率如何?理論上講,與其他所有分類算法相比,貝葉斯分類具有最小的出錯(cuò)率。然而,實(shí)踐中并非總是如此。這是由于對(duì)其應(yīng)用的假定 (如類條件獨(dú)立)是不容易達(dá)到的。然而,種種實(shí)驗(yàn)研究表明,與判定樹和神經(jīng)網(wǎng)絡(luò)分類算法相比,在某些領(lǐng)域該分類算法可以與之媲美,在處理海量數(shù)據(jù)時(shí)也表現(xiàn)出了較高的分類準(zhǔn)確性和運(yùn)算性能。在本文金融供應(yīng)鏈中信用風(fēng)險(xiǎn)的各變量之間也存在一定的關(guān)系。比如資產(chǎn)報(bào)酬率和營(yíng)業(yè)活動(dòng)收益質(zhì)量等,從結(jié)果看來,樸素貝葉斯仍在金融供應(yīng)鏈信用風(fēng)險(xiǎn)預(yù)測(cè)中取得了很好的效果,這樣也就促進(jìn)了金融機(jī)構(gòu)在發(fā)放貸款時(shí)候的信用管理,為金融機(jī)構(gòu)和中小企業(yè)之間合作
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 招標(biāo)合同的相關(guān)法律規(guī)定
- 2024年版的勞務(wù)派遣協(xié)議書:詳細(xì)合同樣本
- 2024年物業(yè)公司轉(zhuǎn)讓協(xié)議
- 投資雙方協(xié)議書樣本
- 土地使用權(quán)購(gòu)買合同樣本
- 綠色蔬菜交易合同參考
- 房產(chǎn)租賃與抵押借款協(xié)議
- 教職工培訓(xùn)進(jìn)修協(xié)議書范例
- 施工合同情勢(shì)變更導(dǎo)致的工程質(zhì)量問題分析
- 建筑工地施工勞務(wù)承包協(xié)議書
- 慢病防控知識(shí)培訓(xùn)
- 工貿(mào)行業(yè)安全生產(chǎn)培訓(xùn)試題及答案
- 2024年臨床課題研究風(fēng)險(xiǎn)處置預(yù)案
- 智能監(jiān)控在腳手架中的應(yīng)用
- 醫(yī)院陪護(hù)服務(wù)質(zhì)量評(píng)分標(biāo)準(zhǔn)
- 農(nóng)業(yè)旅游商業(yè)計(jì)劃書
- 兒童危重癥患者的護(hù)理
- 金融市場(chǎng)2024年的金融監(jiān)管和市場(chǎng)波動(dòng)
- 2024普通高中物理課程標(biāo)準(zhǔn)解讀
- 2024年廣西玉林市自來水有限公司招聘筆試參考題庫(kù)含答案解析
- 2022年度食品安全負(fù)責(zé)人考試題庫(kù)(含答案)
評(píng)論
0/150
提交評(píng)論