版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、2021/3/171聚類分析聚類分析聚類分析的基本思想聚類分析的基本思想相似度的度量相似度的度量五種系統(tǒng)聚類法五種系統(tǒng)聚類法系統(tǒng)聚類方法的系統(tǒng)聚類方法的SPSSSPSS實現(xiàn)實現(xiàn)K-K-均值聚類法的均值聚類法的SPSSSPSS實現(xiàn)實現(xiàn)2021/3/172聚類分析原理聚類分析原理聚類分析的對象聚類分析的對象 1.對樣本進行分類對樣本進行分類 2.對指標或變量進行分類對指標或變量進行分類聚類分析方法聚類分析方法 1.系統(tǒng)聚類法系統(tǒng)聚類法(分層聚類分層聚類) 2.動態(tài)聚類法動態(tài)聚類法(K-均值聚類均值聚類)2021/3/173系統(tǒng)聚類法與聚類步驟流程圖系統(tǒng)聚類法與聚類步驟流程圖 初始分類初始分類: ;
2、,2211nnxGxGxGnk 若若 與與 距離最小距離最小, ,合并為一類合并為一類iGjG1nkKk no輸出分類結(jié)果輸出分類結(jié)果yes類與類之間距離定類與類之間距離定義的不同導致不同義的不同導致不同的系統(tǒng)聚類方法的系統(tǒng)聚類方法2021/3/174yes動態(tài)聚類法動態(tài)聚類法(K-均值聚類均值聚類)與聚類步驟流程圖與聚類步驟流程圖尋找尋找K K個凝聚點個凝聚點: :iKiixxx,21若若 則則 ; ;得得),(min),(1ijlKjiklxxdxxd0klGx 00201,KGGG計算各類的重心計算各類的重心: :Kxxx,21若若 則則 ; ;得得),(min),(1jlKjklxxd
3、xxdklGx KGGG,21計算各類的重心計算各類的重心: :Kxxx,21重心改變重心改變輸出分類結(jié)果輸出分類結(jié)果no2021/3/175相似度的度量(樣本間的距離)相似度的度量(樣本間的距離)歐式距離馬氏距離明氏距離)()(),(2jijijiXXXXXXd)()(),(12jijijiXXSXXXXdqqpkkjkiijxxqd11)()()()(),(12XXSXXGXd一點到總體的馬氏距離一點到總體的馬氏距離樣本離差陣樣本離差陣2021/3/176相似度的度量(指標間的相似系數(shù))相似度的度量(指標間的相似系數(shù))夾角余弦相關系數(shù)Oab2021/3/177指標1與指標2間的夾角余弦nk
4、nkkknkkkxxxxC1121222112112)(pnnnppxxxxxxxxx212221212111,1X2XpX2021/3/178指標1與指標2間的相關系數(shù)21112222111221112)()()(nknkkknkkkxxxxxxxxR2021/3/179五種系統(tǒng)聚類方法五種系統(tǒng)聚類方法最短距離法(最短距離法(nearest neighbor)最長距離法(最長距離法(furthest neighbor)重心法(重心法( centroid clustering )),(min),(,jiGXGXqpXXdGGdqjpi ),(max),(,jiGXGXqpXXdGGdqjpi
5、),(),(qpqpXXdGGd 2021/3/1710類平均法類平均法(Average linkage) piqjGXGXjiqpqpXXdnnGGd),(1),( piqjGXGXjiqpqpXXdnnGGd),(1),(222021/3/1711離差平法和法(離差平法和法(wards method)qpqpqpSSSGGd ),(2 pnipippippXXXXS1)()( qniqiqqiqqXXXXS1)()( qpnniqpqipqpqipqpXXXXS1)()(反映反映 聚集程度聚集程度pG反映反映 聚集程度聚集程度qG2021/3/1712聚類方法的聚類方法的SPSS實現(xiàn)實現(xiàn)A
6、nalyze Classify K-means cluster(動態(tài)聚類法動態(tài)聚類法) Hierarchical cluster(系統(tǒng)聚類法)系統(tǒng)聚類法)2021/3/17132021/3/1714Hierarchical cluster窗口窗口2021/3/1715樣本聚類樣本聚類2021/3/1716譜系聚類圖譜系聚類圖2021/3/17172021/3/1718可選可選可選可選點擊點擊2021/3/1719點擊點擊2021/3/17202021/3/17212021/3/17222021/3/17232021/3/17242021/3/1725Vertical IcicleVertica
7、l IcicleXXXXXXXXXXXXXXXX XXXXXX XXX XXXXXX XXX X XXXX X X X XXXNumber of clusters12345衛(wèi)生機構(gòu)數(shù) 高校數(shù) 新增固定資產(chǎn) 城鎮(zhèn)可支配收入 農(nóng)村純收入 人均GDPCase2021/3/1726例題例題2005年全國各省市自治區(qū)社會均衡發(fā)展狀況研究樣本聚類與變量聚類結(jié)果2021/3/17272021/3/1728K-means cluster窗口窗口2021/3/17292021/3/17302021/3/1731科研案例科研案例王宇王宇,范英范英,魏一鳴魏一鳴.人力資本對區(qū)域可人力資本對區(qū)域可持續(xù)發(fā)展的實證研究持
8、續(xù)發(fā)展的實證研究. 數(shù)理統(tǒng)計與管數(shù)理統(tǒng)計與管理理. 2006,25(2):149-1552021/3/1732摘要摘要本文以我國31個省、直轄市、自治區(qū)為單位,應用聚類分析法對各地區(qū)的人力資本、經(jīng)濟發(fā)展、環(huán)境狀況進行分析,試圖探討人力資本對我國區(qū)域可持續(xù)發(fā)展的影響和途徑。結(jié)果表明,目前我國區(qū)域環(huán)境壓力隨著經(jīng)濟的發(fā)展而不斷擴大,并逐步進入減速發(fā)展階段,各地區(qū)應加大對人力資本的投資力度,實現(xiàn)經(jīng)濟的騰飛和環(huán)境保護力度的增強,最終實現(xiàn)我國區(qū)域的可持續(xù)發(fā)展。2021/3/1733加拿大環(huán)境基金組織的加拿大環(huán)境基金組織的“真富指數(shù)真富指數(shù)”可持續(xù)發(fā)展可持續(xù)發(fā)展社會社會金融金融人力資本人力資本生產(chǎn)生產(chǎn)自然自
9、然2021/3/1734財富來源構(gòu)成財富來源構(gòu)成2021/3/1735本文研究目的本文研究目的本文的研究目的在于把互相差異的自然地理區(qū)域根據(jù)不同的屬性(經(jīng)濟、人力資本和環(huán)境)用聚類方法進行分類和歸納,著重分析在加入人力資因素后,我國可持續(xù)發(fā)展在不同評價指標上表現(xiàn)出的不同特征,揭示各區(qū)域內(nèi)可持續(xù)發(fā)展的基本情況和協(xié)調(diào)程度,從而得出人力資本對我國區(qū)域可持續(xù)發(fā)展的影響途徑和貢獻程度。2021/3/1736可持續(xù)發(fā)展評價指標生態(tài)保護生態(tài)保護指標體系指標體系環(huán)境水平環(huán)境水平經(jīng)濟發(fā)展經(jīng)濟發(fā)展 產(chǎn)業(yè)結(jié)構(gòu)產(chǎn)業(yè)結(jié)構(gòu)教育教育環(huán)境治理環(huán)境治理人力資本人力資本環(huán)境狀況環(huán)境狀況環(huán)境保護環(huán)境保護經(jīng)濟指標經(jīng)濟指標保健保健大氣
10、污染大氣污染2021/3/1737經(jīng)濟發(fā)展指標的分類經(jīng)濟發(fā)展指標的分類 ABDC2021/3/1738人力資本狀況分類人力資本狀況分類ABDC2021/3/1739環(huán)境指標聚類分析環(huán)境指標聚類分析ABDC2021/3/1740環(huán)境治理情況分類環(huán)境治理情況分類ABDC2021/3/1741結(jié)果分析與討論結(jié)果分析與討論2021/3/1742庫茨涅茨庫茨涅茨(Kuznets)曲線曲線2021/3/1743判別分析判別分析判別分析的基本思想判別分析的基本思想距離判別法距離判別法Bayes判別法判別法Fisher判別法判別法逐步判別法逐步判別法判別分析的判別分析的SPSSSPSS實現(xiàn)實現(xiàn)2021/3/1
11、744判別分析的基本思想判別分析的基本思想2021/3/17451G111211nxxx問題描述問題描述2G2G222221nxxx 屬于哪一類?屬于哪一類?x11Sx22Sx1G 11 2G 22 2021/3/1746距離判別法的基本原理距離判別法的基本原理 ),(),(),(),(,),(),(,21212211GxdGxdGxdGxdGxGxdGxdGx若若待待判判,若若若若)()(),(11111 xxGxd)()(),(21222 xxGxd馬氏距離馬氏距離2021/3/1747距離判別法的線性判別準則距離判別法的線性判別準則 21axxGxdGxdxW)()()(),(),( 5
12、 . 0)(21112 0)(0)(,0)(,21xWxWGxxWGx若若待待判判,若若若若2)(212021/3/1748 與與 的估計的估計 1111111niixnx 1122221niixnx )(212121SSnn 2021/3/1749理論判別函數(shù)與樣本判別函數(shù)理論判別函數(shù)與樣本判別函數(shù)aXXXSSXW)()()()()(21121 aW)()()()(211 a2)(21XXXa2021/3/1750BayesBayes判別法的基本原理判別法的基本原理已知 與 的 和各自總體的分布密度函數(shù)由公式計算: ,最大后驗概率準則1G2G2211)(,)(qGpqGp )(),(21Xf
13、Xf)(1 GP)(2 GP )()()()()()(21212211GPGPGPGPGGPGPG若若待待判判若若若若2021/3/1751兩個正態(tài)總體的兩個正態(tài)總體的BayesBayes判別準則判別準則 與 的先驗概率: 與 的密度函數(shù):1G2G2111nnnq 2122nnnq 1G2G)()(21exp)2(1)(1112121 XXXfp)()(21exp)2(1)(2122122 XXXfp2021/3/1752判別函數(shù):判別法則: )ln()()ln()()ln()(12122121qqWqqWGqqWG若若待待判判若若若若aXXXSSXW)()()()()(21121 2021/
14、3/1753多組正態(tài)數(shù)據(jù)的多組正態(tài)數(shù)據(jù)的判別判別 11 G 22 G 33 G 44 G1p2p3p4p(x)1f(x)2f(x)3f(x)4f2021/3/1754后驗概率后驗概率 41(x)(x)x(iiikkkfpfpGp )(x)(x21exp)x(1kkkkpGp kkkkkpGpln5 . 0 x)()x(11 2021/3/1755判別法判別法研究問題的角度基本思想 線性投影變換 降維 2021/3/1756二維降一維圖示二維降一維圖示1x2xyz2021/3/17572021/3/1758判別式可分準則判別式可分準則組內(nèi)離差平方和Wuuxuxuyyijiijijiij 22)(
15、)( iiijiijiijSxxxxW)(2021/3/1759組間離差平方和Buuxuxunyyniiiiii 22)()()( xxxxnBiiii2021/3/1760 的選擇uWuuBuu max)1( WuuBuuL 1 Wuu2021/3/1761 設 是 的特征值 若 是 的最大特征值, 是對應的特征向量,則第一判別函數(shù)是: 1 BW1 puuuu112111ppxuxuxuxuy121211111 21 BW1 2021/3/1762判別效率判別效率判別函數(shù)的選擇判別函數(shù)的選擇 iir 118 . 01 r8 . 021 iimmr 2021/3/1763一維一維判別法則判別法
16、則 212211yyyyGxyyyyGx若若若若ppxuxuxuxuy12121111 2021/3/1764多維多維判別法則判別法則 ),(),(),(),(,),(),(,21212211GydGydGydGydGxGydGydGx若若待判,待判,若若若若)()(),(11111yySyyGydy )()(),(21222yySyyGxdy 2021/3/1765線性線性判別與判別與判別的區(qū)別判別的區(qū)別正態(tài)性前提假設正態(tài)性前提假設等方差性等方差性 2021/3/1766使用判別分析應注意的問題使用判別分析應注意的問題 1. 每組至少每組至少20個樣本個樣本 2. 變量與樣本量比為變量與樣本
17、量比為1:5 1. Wilks lambda 檢驗檢驗 2. 交叉驗證交叉驗證 性性(ANOVA)2021/3/1767等協(xié)方差陣假設的等協(xié)方差陣假設的Boxs檢驗檢驗),(11 pN),(22 pN1n 樣本樣本2n 樣本樣本3n 樣本樣本Kn 樣本樣本),(33 pN),(KKpN 零假設零假設K 212021/3/1768檢驗統(tǒng)計量檢驗統(tǒng)計量 KiiiiKSnnSSSknkn12111ln) 1()(1ln)(M)1)(1(21M)1(2 Kppd 相相等等)(不不等等iiiinKpKppnKnnKpppd)1)(1(6)1(132111)1)(1(6132212knnnn 21統(tǒng)計量的
18、漸進分布統(tǒng)計量的漸進分布2021/3/1769單個變量單個變量 的可分性的可分性(ANOVA),(211 N),(212 N1n 樣本樣本2n 樣本樣本Kn 樣本樣本),(21 KN零假設零假設K11211 1X111211,nxxx222221,nxxx1,21KnKKxxx2021/3/1770總平方和分解總平方和分解 KiiiKinjiijKinjijxxnxxxxii12112112)()()(BWTSSS 2021/3/1771檢驗統(tǒng)計量檢驗統(tǒng)計量統(tǒng)計量的分布統(tǒng)計量的分布)()1(knSkSFWB ), 1(knkFF 2021/3/1772評價判別模型評價判別模型Wilks lam
19、bda 檢驗檢驗 ),(1 pN),(2 pN1n 樣本樣本2n 樣本樣本3n 樣本樣本Kn 樣本樣本),(3 pN),( KpN 零假設零假設K 212021/3/1773總平方和分解總平方和分解 KiiiiiijKinjiijijKinjijxxxxnxxxxxxxxii11111)()()(BWTSSS2021/3/1774檢驗統(tǒng)計量檢驗統(tǒng)計量統(tǒng)計量的漸進分布統(tǒng)計量的漸進分布)1(ln)(211(2 KpKpn TWKnKpSS , 1,2021/3/1775評價判別模型評價判別模型交叉驗證交叉驗證留一個樣本在外原則留一個樣本在外原則2021/3/1776逐步判別法逐步判別法依據(jù)某種檢依
20、據(jù)某種檢驗法則逐步驗法則逐步篩選若干判篩選若干判別能力強的別能力強的指標變量指標變量基本步驟基本步驟利用選取的利用選取的變量以及變量以及Fisher判別判別法建立判別法建立判別法則法則2021/3/1777逐步篩選流程圖逐步篩選流程圖1 ix2ix3ix選入過程選入過程剔除過程剔除過程4ix5ix6ix2ix7ix2021/3/1778檢驗各總體協(xié)方差陣相等檢驗各總體協(xié)方差陣相等Fisher判別判別Logistic回歸回歸Bayes判別判別Fisher判別判別Logistic回歸回歸2021/3/1779檢驗各總體均值相等檢驗各總體均值相等判別是顯著的判別是顯著的判別不顯著判別不顯著2021/
21、3/1780單個變量均值相等的檢驗單個變量均值相等的檢驗(方差分析方差分析)單變量的判單變量的判別是顯著的別是顯著的單變量的單變量的判別不顯判別不顯著著,采用逐采用逐步判別步判別2021/3/1781判別分析的判別分析的SPSSSPSS實現(xiàn)實現(xiàn) Analyze Classify Discriminant 2021/3/17822021/3/1783點擊點擊1 1點擊點擊2 22021/3/1784點擊點擊2021/3/1785填寫填寫點擊點擊2021/3/1786選取選取點擊點擊2021/3/1787可選可選點擊點擊2021/3/1788點擊點擊點擊點擊點擊點擊點擊點擊2021/3/1789點
22、擊點擊2021/3/1790可選可選點擊點擊點擊點擊可選可選點擊點擊2021/3/1791點擊點擊2021/3/1792例題例題(估計金融機構(gòu)正常運轉(zhuǎn)的概率估計金融機構(gòu)正常運轉(zhuǎn)的概率)Detecting ailing financial and business establishments is an important function of audit and control. Table 1 gives some of the operating financial ratios of 33 firms that went bankrupt after 2 years and 33 t
23、hat remained solvent during the same period. Three financial ratios were available for each firm:2021/3/1793金融機構(gòu)監(jiān)管的判別分析結(jié)果assetstotalearningretainedX 1assetstotaltaxesandinterestbeforeearningX 2assetstotalsalesX 3 yearsaftersolventifyearsafterbankruptifY2120Response Variable2021/3/1794科研案例科研案例葛超豪葛超豪,
24、葛學健葛學健.銀行信貸風險評估計量模型銀行信貸風險評估計量模型探討探討.統(tǒng)計與決策統(tǒng)計與決策.2005,12:24-26任志娟任志娟. SPSS中判別分析方法的正確使用中判別分析方法的正確使用.統(tǒng)計與決策統(tǒng)計與決策.2006 (2): 157-1572021/3/1795摘要摘要 本文運用和對銀行信貸風險作計量評估,詳細介紹了模型的數(shù)學原理,指標和數(shù)據(jù)的前期處理,并建立了信用評級的判別函數(shù).通過對估計樣本和檢驗樣本的分類精度的分析和討論,可知兩種模型對信用風險評估均具有較高的科學性和精度.在此基礎上,我們編寫了應用程序以便于金融機構(gòu)建立內(nèi)部信用風險評估體系,促進銀行信貸資產(chǎn)質(zhì)量的提高.2021
25、/3/17962021/3/1797指標選擇過程指標選擇過程根據(jù)相關性原理,從“企業(yè)景氣調(diào)查”65個基本指標和72個派生指標中,定性篩選歸并出19個具有代表性的復合指標,然后再采用逐步判別的方法并反復利用上述結(jié)論,獲得如.2021/3/17982021/3/1799數(shù)據(jù)處理過程數(shù)據(jù)處理過程原始數(shù)據(jù)矩陣中不同指標一般都有各自不同的量綱和數(shù)量級單位,這對預測精度影響較大.為了使不同量綱、不同數(shù)量級的數(shù)據(jù)能進行比較,我們首先應對數(shù)據(jù)進行變換使數(shù)據(jù)具有較好的數(shù)學性質(zhì).我們對數(shù)據(jù)進行三次變換.首先將某些指標的數(shù)據(jù),使各指標均在取值較大時對企業(yè)等級貢獻較大.其次進行變化.通過標準化后,每列數(shù)據(jù)的均值為0、
26、方差為1,并能在抽取樣本改變時保持相對穩(wěn)定性.最后我們將原始數(shù)據(jù)的值域化,此變化能使各指標規(guī)格化,減少數(shù)據(jù)的波動.2021/3/17100聚類分析聚類分析.參照企業(yè)信用等級分類標準,將企業(yè)信用等級分為五級,分別稱為AAA、AA、A、B 和C.為了提高樣本的代表性,我們對289 個原始樣本數(shù)據(jù)進行多次聚類,最終選出了AAA 級21 組,AA 級36 組,A 級20 組,B級6 組,C 級8 組,共計91 個具有典型代表意義的特征企業(yè)樣本.由此可得出5 級分類的標準特征模版.對待估測的企業(yè),可通過計算其與5類標準模版的離差進行信用等級分類.2021/3/17101判別分析判別分析采用Bayes判別
27、法,得:2021/3/17102待判樣本待判樣本2021/3/171032021/3/17104Classifying a potential business-school graduate studentsThe admission officer of a business school has used an “index” of under graduate grade point average (CPA) and graduate management aptitude test (GMAT) score to help decide which applicants shoul
28、d be admitted to the schools graduate programs.2021/3/17105Pairs of x1=GPA, x2=GMAT values for groups of recent applicants have been categorized as G1: admitted; G2: not admitted; G3: borderline. Suppose a new applicant has an undergraduate GPA of x1=3.21 and a GMAT score of x2=497. Let us classify
29、this applicant using discriminant analysis. 2021/3/17106Log DeterminantsLog Determinants24.87925.30423.62524.855groupnot admittedadmittedborderlinePooled within-groupsRankLogDeterminantThe ranks and natural logarithms of determinantsprinted are those of the group covariance matrices.Test ResultsTest
30、 Results16.6272.6736146732.9.014Boxs MApprox.df1df2Sig.FTests null hypothesis of equal population covariance matrices.2021/3/17107EigenvaluesEigenvalues5.618a96.796.7.921.190a3.3100.0.399Function12Eigenvalue % of VarianceCumulative %CanonicalCorrelationFirst 2 canonical discriminant functions were u
31、sed in theanalysis.a. W Wi il lk ks s L La am mb bd da a.127168.1894.000.84014.1681.000Test of Function(s)1 through 22WilksLambdaChi-squaredfSig.2021/3/17108Canonical Discriminant Function CoefficientsCanonical Discriminant Function Coefficients4.995-1.878.009.014-19.061-1.464GAPGMAT(Constant)12Func
32、tionUnstandardized coefficientsF Fu un nc ct ti io on ns s a at t G Gr ro ou up p C Ce en nt tr ro oi id ds s-2.810.3262.769.245-.275-.643groupnot admittedadmittedborderline12FunctionUnstandardized canonical discriminantfunctions evaluated at group means2021/3/17109Prior Probabilities for GroupsPrio
33、r Probabilities for Groups.3292828.000.3653131.000.3062626.0001.0008585.000groupnot admittedadmittedborderlineTotalPriorUnweightedWeightedCases Used in AnalysisClassification StatisticsC Cl la as ss si if fi ic ca at ti io on n F Fu un nc ct ti io on n C Co oe ef ff fi ic ci ie en nt ts s77.812105.82892.296.166.212.173-134.760-240.740-177.994G
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度旅游車輛租賃與旅游產(chǎn)品設計合同3篇
- 2025版智慧城市交通管理系統(tǒng)建設合同范本二零二五4篇
- 2025年度智慧醫(yī)療設備銷售代理合同2篇
- 2025版南京租賃房屋租賃押金退還合同4篇
- 2025年度農(nóng)業(yè)科技示范園區(qū)建設合同8篇
- 2025年個人房產(chǎn)測繪與房地產(chǎn)營銷服務合同
- 二零二五年度高端定制實木地板采購供應合同4篇
- 2025年度鎳礦出口退稅與物流服務合同范本4篇
- 二零二五年度新型暖氣材料研發(fā)與應用推廣合同范本4篇
- 2025年度門面租賃合同租賃保證金管理范本4篇
- (高清版)TDT 1056-2019 縣級國土資源調(diào)查生產(chǎn)成本定額
- 環(huán)境監(jiān)測對環(huán)境保護的意義
- 2023年數(shù)學競賽AMC8試卷(含答案)
- 神經(jīng)外科課件:神經(jīng)外科急重癥
- 2024年低壓電工證理論考試題庫及答案
- 2023年十天突破公務員面試
- 《瘋狂動物城》中英文對照(全本臺詞)
- 醫(yī)院住院醫(yī)師規(guī)范化培訓證明(樣本)
- 小學六年級語文閱讀理解100篇(及答案)
- 氣功修煉十奧妙
- 安徽省物業(yè)服務標準
評論
0/150
提交評論