




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、金融(jnrng)數(shù)據(jù)挖掘案例分析課程設(shè)計報告(bogo)題 目:基于貝葉斯分類技術(shù)(jsh)的貸款風險預(yù)測學(xué)生姓名: 學(xué) 號: 系別班級: 專業(yè)(方向): 指導(dǎo)教師: 年 月日基于(jy)貝葉斯分類技術(shù)的貸款風險預(yù)測摘要(zhiyo)本文主要研究了樸素貝葉斯算法在貸款風險預(yù)測上對策應(yīng)用。是一種基于最大后驗概率的最優(yōu)樸素貝葉斯在貸款風險的預(yù)測。思想是以訓(xùn)練集樣本在不同樸素貝葉斯的后驗概率作為反饋信息(xnx),從訓(xùn)練樣本中選取部分最優(yōu)樣本,拋棄部分含有噪音的樣本,作為最優(yōu)的樸素貝葉斯算法。關(guān)鍵詞: 樸素貝葉斯 ;貸款風險;預(yù)測。AbstractThis paper mainly studies
2、 the application of Countermeasures of naive Bayes algorithm in the loan risk prediction. Is a kind of forecast based on the maximum posterior probability optimal naive Bias on loan risk. Thought is the training set samples in different Bayesian posterior probability as the feedback information,sele
3、ct the part of the optimal sample from the training samples, discard somenoisy samples, as naive Bayes optimal.Keywords: naive Bias; loan risk; prediction.引言: HYPERLINK /view/62273.htm t _blank 貸款風險通常是對貸款人而言的。從 HYPERLINK /view/62273.htm t _blank 貸款人角度來考察,貸款風險是指貸款人在經(jīng)營貸款業(yè)務(wù)過程中面臨的各種損失發(fā)生的可能性。 HYPERLINK /
4、view/62273.htm t _blank 貸款風險是可以度量的,貸款風險具有可測性,可以通過綜合考察一些因素,在貸款發(fā)放之前或之后,測算出 HYPERLINK /view/3366773.htm t _blank 貸款本息按期收回的概率。所謂 HYPERLINK /view/5563326.htm t _blank 貸款風險度就是指衡量貸款風險程度大小的尺度,貸款風險度是一個可以測算出來的具體的 HYPERLINK /view/2154943.htm t _blank 量化指標,它通常大于零小于1,貸款風險度越大,說明 HYPERLINK /view/3366773.htm t _bla
5、nk 貸款本息按期收回的可能性越小,反之,貸款風險度越小,說明貸款本息按期收回的可能性越大。1.樸素貝葉斯分類預(yù)測方法 貝葉斯分類(fn li)算法是統(tǒng)計學(xué)的一種 HYPERLINK /view/8348989.htm t _blank 分類(fn li)方法,它可以預(yù)測類成員關(guān)系的可能性,如給定樣本屬于一個特定類的概率。通過分類算法的比較研究發(fā)現(xiàn),一種稱作樸素貝葉斯分類的簡單貝葉斯分類算法可以與判定樹和神經(jīng)網(wǎng)絡(luò)分類算法相媲美。用于大型數(shù)據(jù)庫,貝葉斯分類也已表現(xiàn)出高準確率與高速度。樸素貝葉斯分類假定一個屬于值對給丁磊的影響?yīng)毩⒂谄渌麑傩缘闹?。這一假定稱作類條件獨立。做此假定是為了簡化所需計算(
6、j sun),并在此意義下成為“樸素的”。1.1貝葉斯定理 設(shè)X是類標號未知的數(shù)據(jù)樣本。設(shè)為某種假定,如數(shù)據(jù)樣本屬于某特定的類。對于分類問題,我們希望確定給定觀測數(shù)據(jù)樣本,假定成立的概率。是后驗概率,或條件下的后驗概率。例如,假定數(shù)據(jù)樣本域由水果組成,用他們的顏色和形狀描述。假定表示紅色和圓的,表示假定是蘋果,則反映當我們看到是紅色并使圓的時,我們對是蘋果的確信程度。作為對比,是先驗概率,或得先驗概率。對于以上的例子,它是任意給定的數(shù)據(jù)樣本為蘋果的概率,而不管數(shù)據(jù)樣本看上去如何。后驗概率比先驗概率基于更多的信息(如背景知識)。是獨立于的。類似的,是條件下,的后驗概率。即是說它是已知是蘋果,是紅
7、色并且是圓的概率。是的先驗概率。使用上面的例子,它是由水果集取出一個數(shù)據(jù)樣本是紅的和圓的的概率。貝葉斯定理就是提供了一中由,,和計算后驗概率的方法。貝葉斯定理是:(1)1.2 樸素(p s)貝葉斯分類樸素(p s)貝葉斯分類或簡單貝葉斯分類的工作過程如下:每個數(shù)據(jù)樣本(yngbn)用一個維特征向量表示,分別描述對個屬性樣本的個度量。假定有個類。給定一個未知的數(shù)據(jù)樣本(即沒有類標號),分類法將預(yù)測屬于具有最高后驗概率(條件下)的類。即是說,樸素貝葉斯分類將位置的樣本分配給類,當且僅當 這樣,最大化。其中最大的對應(yīng)的類成為最大后驗假定。根據(jù)貝葉斯定理(1) (2)由于對于所有類為常熟,只需要最大即
8、可。如果類的先驗概率未知,則通常假定這些類是等概率的,即,并據(jù)此對最大化。否額,可最大化。注意,類的先驗概率可以用計算,其中是類中的訓(xùn)練樣本數(shù),而是訓(xùn)練樣本總數(shù)。給定具有許多屬性的數(shù)據(jù)集,計算的開銷可能非常大。為降低計算的開銷,可以做類條件獨立的樸素假定。給定樣本的類標號,假定屬性值相互條件獨立,即在屬性間不存在依賴關(guān)系。這樣 (3)概率可以由訓(xùn)練樣本估值。其中如果是分類屬性,則,其中是在屬性上具有值的類的訓(xùn)練樣本數(shù),而是中的訓(xùn)練樣本數(shù)。2 基于貝葉斯分類(fn li)的貸款風險預(yù)測本文以某企業(yè)的裝款為案例來說明貝葉斯分類預(yù)測(yc)一個未知樣本的分類工作過程。2.1 描述(mio sh)數(shù)據(jù)
9、數(shù)據(jù)樣本表示對企業(yè)還款能力產(chǎn)生的影響,用一個7維特征向量表示, 分別描述為以下7個變量因素:資產(chǎn)報酬率,企業(yè)規(guī)模,核心企業(yè)信用度,上下游企業(yè)合作密切度,營業(yè)活動收益質(zhì)量,有形資產(chǎn)債務(wù)率,還款風險,由于要考察的是貸款企業(yè)的還款風險 因此,目標類為還款風險,整理,收集所得數(shù)據(jù)庫的主要屬性見表1表1屬性名取值資產(chǎn)投資率企業(yè)規(guī)模核心企業(yè)信用度上下游合作密切度營業(yè)活動收益質(zhì)量有形資產(chǎn)債務(wù)率還貸風險15,815,90,9040,40高,低 2.2 預(yù)處理數(shù)據(jù)某銀行2007年申請貸款企業(yè)的信息數(shù)據(jù)在表2中。數(shù)據(jù)樣本用屬性資產(chǎn)報酬率、企業(yè)規(guī)模、核心企業(yè)信用度、上下游企業(yè)合作密切度、營業(yè)活動收益質(zhì)量、有形資產(chǎn)債
10、務(wù)率、還帶風險描述。把表2中的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)樣本,根據(jù)表2中數(shù)據(jù),預(yù)測未知樣本某個申請貸款企業(yè)(資產(chǎn)報酬率=“15”,企業(yè)規(guī)模=“大”,核心企業(yè)信用度=“高”,上下游合作密切度=“中”,營業(yè)活動收益質(zhì)量=“90”,有形資產(chǎn)債務(wù)率=“40”)的還貸風險。表2序號資產(chǎn)報酬率企業(yè)規(guī)模核心企業(yè)信用度上下游企業(yè)合作密切度營業(yè)活動收益質(zhì)量有形資產(chǎn)債務(wù)率還貸風險115中高高9040低28-15中高高9040低38-15大高低9040高49040高515小高中9040低78-15小低中9040低88大低中9040高99040高1015大高高9040低1115中低高9040低1215小低低9040高138-1
11、5大低中9040高148-15小高低9040低2.3 挖掘(wju)數(shù)據(jù)要預(yù)測(yc)(資產(chǎn)(zchn)報酬率=“15”,企業(yè)規(guī)模=“大”,核心企業(yè)信用度=“高”,上下游合作密切度=“中”,營業(yè)活動收益質(zhì)量=“90”,有形資產(chǎn)債務(wù)率=“40”)的還貸風險,需要最大化。訓(xùn)練數(shù)據(jù)集包含資產(chǎn)報酬率、企業(yè)規(guī)模、核心企業(yè)信用度、上下游企業(yè)合作密切度、營業(yè)活動收益質(zhì)量、有形資產(chǎn)債務(wù)、還貸風險這幾個屬性,其中還貸風險為類標號屬性,有兩個取值高,低。設(shè)對應(yīng)類還貸風險=“高”,而對應(yīng)類還貸風險=“低”。每個類的先驗概率可以根據(jù)訓(xùn)練樣本計算:為計算(j sun),我們計算下面(xi mian)的條件概率:使用以上
12、概率(gil),得到顯而易見,的可能性最大,因此,對于樣本,樸素貝葉斯分類預(yù)測還款風險=“低”。利用挖掘軟件得出(d ch)如下結(jié)果:圖1 依賴(yli)關(guān)系網(wǎng)絡(luò)視圖通過圖1可以(ky)知道“還款風險”主要受“上下游企業(yè)合作密切度”和“營業(yè)活動收益質(zhì)量”屬性影響。圖2 最強連接圖2說明影響“還款風險”最主要的屬性是“營業(yè)收益質(zhì)量”。圖3 屬性(shxng)配置文件視圖圖4 屬性(shxng)特征視圖 由圖3圖4可以(ky)看出,在“還款風險”屬性值為“低”的記錄中,營業(yè)活動收益質(zhì)量=“90”,上下游企業(yè)合作密切度=“高” 的記錄比較多。圖5 屬性對比視圖圖5可以看出,“營業(yè)活動收益質(zhì)量”=“9
13、0”更傾向于“還款風險”=“低”; “上下游企業(yè)合作密切度”=“高”更傾向于“還款風險”=“低”。3.結(jié)論樸素貝葉斯分類算法成立的前提是屬性獨立假定,即假定各屬性之間互相獨立, 這一假定稱作類條件獨立。作此假定是為了簡化所需計算,并在此意義下稱為“樸素的”。貝葉斯分類的效率如何?理論上講,與其他所有分類算法相比,貝葉斯分類具有最小的出錯率。然而,實踐中并非總是如此。這是由于對其應(yīng)用的假定 (如類條件獨立)是不容易達到的。然而,種種實驗研究表明,與判定樹和神經(jīng)網(wǎng)絡(luò)分類算法相比,在某些領(lǐng)域該分類算法可以與之媲美,在處理海量數(shù)據(jù)時也表現(xiàn)出了較高的分類準確性和運算性能。在本文金融供應(yīng)鏈中信用風險的各變量之間也存在一定的關(guān)系。比如資產(chǎn)報酬率和營業(yè)活動收益質(zhì)量等,從結(jié)果看來,樸素貝葉斯仍在金融供應(yīng)鏈信用風險預(yù)測中取得了很好的效果,這樣也就促進了金融機構(gòu)在發(fā)放貸款時候的信用管理,為金融機構(gòu)和中小企業(yè)之間合作
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國機箱主板市場調(diào)查研究報告
- 2025至2030年中國抗生素瓶鋁塑組合蓋市場分析及競爭策略研究報告
- 2025━2030年非螺紋管配件行業(yè)深度研究報告
- 2025年中國接觸網(wǎng)數(shù)據(jù)處理系統(tǒng)市場調(diào)查研究報告
- 2025━2030年廣告色膏行業(yè)深度研究報告
- 2025━2030年中國鑄鐵水箱項目投資可行性研究報告
- 2025━2030年中國內(nèi)置電容陶瓷諧振器項目投資可行性研究報告
- 2025-2035年全球及中國速凍冷鮮隧道式冷凍柜行業(yè)市場發(fā)展現(xiàn)狀及發(fā)展前景研究報告
- 2025年精細藥液過濾器項目發(fā)展計劃
- 2025年數(shù)字壓力檢測儀器合作協(xié)議書
- 2025年黑龍江省高職單招《語文》備考重點試題庫(含真題)
- 《抖音營銷教程》課件
- 貴州省安順市2025屆高三年級第四次監(jiān)測考試2月語文試題及參考答案
- 2025屆山東核電校園招聘正式啟動筆試參考題庫附帶答案詳解
- 2025年度教育培訓(xùn)機構(gòu)股權(quán)合作協(xié)議范本
- 2025屆江蘇省無錫市江陰實驗中學(xué)中考聯(lián)考歷史試題含解析
- 光伏電站設(shè)備故障預(yù)防措施
- 公路工程標準施工招標文件(2018年版)
- DL∕T 5776-2018 水平定向鉆敷設(shè)電力管線技術(shù)規(guī)定
- (正式版)SH∕T 3548-2024 石油化工涂料防腐蝕工程施工及驗收規(guī)范
- 調(diào)機品管理規(guī)定
評論
0/150
提交評論