第16章聚類分析與判別分析_第1頁
第16章聚類分析與判別分析_第2頁
第16章聚類分析與判別分析_第3頁
第16章聚類分析與判別分析_第4頁
第16章聚類分析與判別分析_第5頁
已閱讀5頁,還剩79頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第十六章聚類分析和判別分析第一節(jié)聚類分析一、聚類分析概述

1.聚類分析的基本思想通過對描述事物特征的各種數(shù)理表現(xiàn)的分析比較,將性質(zhì)相近的事物歸在同一類,而將性質(zhì)差別比較大的歸在不同類。即同類內(nèi)事物之間的性質(zhì)差別較小,類與類之間事物的性質(zhì)差別較大。聚類分析和判別分析都是研究事物分類的統(tǒng)計學(xué)方法。聚類分析是在事物分類面貌尚不清楚,甚至連總共分幾類也不確定的情況下討論事物的分類問題,是“無師可循”的方法;判別分析根據(jù)已知其類別的樣品,總結(jié)出類別的判斷法,用以判斷未知類別的新樣品的類別,是“有法可依”的方法。2.聚類方法用于聚類分析的原始觀察資料可匯成表16-1的形式。編號年齡性別血壓膽固醇濃度血液中鈉含量血液中鉀含量1322310.6430.0252231120.5590.0773431320.6560.0474691110.8490.0745162310.8340.0546502220.8280.0657742120.7930.0388431120.6270.0419342310.6680.03510472120.8960.076聚類分析可以分為兩大類:

Q型聚類,又稱樣品聚類,是指將n個樣品歸類的方法,其目的是找出樣品間的共性;

R型聚類,又稱指標(biāo)聚類,是指將m個指標(biāo)歸類的方法,其目的是將指標(biāo)降維從而選擇有代表性的指標(biāo)。聚類分析的方法:(1)系統(tǒng)聚類可以對指標(biāo)聚類,也可以對小樣本的樣品聚類。

(2)K類中心聚類適用于對大樣本的樣品聚類。

(3)兩步聚類(Two-stepClustering),是智能聚類方法的一種,用于解決海量數(shù)據(jù)、復(fù)雜類別結(jié)構(gòu)的聚類分析問題,以樣品作為聚類對象。3.聚類統(tǒng)計量描述樣品或指標(biāo)間關(guān)系親屬程度的統(tǒng)計量稱為聚類統(tǒng)計量,常用的聚類統(tǒng)計量分為距離和相似系數(shù)。4.變量的類型和標(biāo)準(zhǔn)化聚類分析的變量有分類變量和數(shù)值變量。這兩類變量在聚類時采用的距離測量方式完全不同,數(shù)值變量一般使用歐氏平方距離,而分類變量則使用χ2或列聯(lián)系數(shù)作為距離指標(biāo)。二、系統(tǒng)聚類系統(tǒng)聚類是最常用的一種聚類方法,可進(jìn)行指標(biāo)聚類,也可對樣品聚類。系統(tǒng)聚類首先定義樣品間距離及類與類之間的距離,然后先將n個變量或樣品看成n類,然后將性質(zhì)相近(距離最小或相關(guān)系數(shù)絕對值最大)的2類合并成為1個新類,此時聚成n-1類,再計算新類與其他類的距離,再從各類中找到最接近的2類合并成一類,此時聚成n-2類,以此類推,直至所有的變量或樣品聚成一類為止。類間距離:1、組間距離法2、組內(nèi)距離法3、最短距離法4、最長距離法5、重心法6、中位數(shù)距離法7、離差平方和法(2)樣品聚類。定義樣品之間的距離為歐氏距離平方,類與類之間的距離為組間距離。用SPSS15.0軟件進(jìn)行樣品的系統(tǒng)聚類,聚類結(jié)果如圖16-2。從圖看,可以將學(xué)生分三類為7號、4號、其他號學(xué)生。(1)變量聚類。用SPSS15.0軟件進(jìn)行變量的系統(tǒng)聚類,聚類結(jié)果圖可以看出,變量若分兩類,為x5、其他變量;若分三類,為x6、x5、其他變量;若分四類,為x6、x5、x3、其他變量。

教材中此處使用歐氏距離平方應(yīng)為不當(dāng),使用相關(guān)系數(shù)為宜三、K類中心聚類對樣品聚類時,如果樣本量很大,用系統(tǒng)聚類法計算的工作量極大,做出的樹狀圖也十分復(fù)雜,不便分析。這時可以使用K類中心聚類進(jìn)行聚類。K類中心聚類是一種對樣品進(jìn)行聚類的方法,它在SPSS中的聚類命令為QuickCluster,故又稱快速聚類。

K類中心聚類算法的基本思想是將每一個樣品分配給最近的中心(均值)的類中。該方法要求用戶事先指定要將樣品分為多少類(如K類),然后先將所有樣品分成K個初始類,并計算初始類的中心坐標(biāo),再通過計算歐氏距離將所有樣品進(jìn)行重新分類,分類的原則是將樣品分給離中心最近的類中,然后再重新計算中心坐標(biāo),再重新分類,如此下去,直到所有的樣品都不能再分配為止。四、兩步聚類兩步聚類是智能聚類方法的一種,它以樣品作為聚類對象,聚類的變量可以同時接納數(shù)值變量和分類變量,它是真正的在利用統(tǒng)計量作為距離指標(biāo)進(jìn)行聚類,同時又可以根據(jù)一定的統(tǒng)計標(biāo)準(zhǔn)來“自動地”建議甚至于確定最佳的類別數(shù),結(jié)果的正確性更有保障。兩步聚類是分成兩個步驟完成聚類的,第一個步驟是預(yù)聚類,首先對記錄進(jìn)行初步的歸類(允許的最大類別數(shù)由使用者自己指定);第二個步驟是正式聚類,在這個步驟中對第一步中完成的初步聚類按照一定的統(tǒng)計標(biāo)準(zhǔn)確定聚類的類別數(shù)量,然后進(jìn)行再聚類并確定最終的聚類方案。通過兩步聚類法可以了解每類樣品的特征,為制定決策提供參考。在兩步聚類的每一個階段中,都會計算反映現(xiàn)有分類是否適合現(xiàn)有數(shù)據(jù)的統(tǒng)計指標(biāo):AIC(AkaikeInformationCriterion)和BIC(SchwartzBayesianCriterion)準(zhǔn)則,這兩個指標(biāo)越小,說明聚類效果越好,兩步聚類算法會根據(jù)AIC和BIC的大小,以及類間最短距離的變化情況來確定最優(yōu)的聚類類別數(shù)?!纠?6-3】表16-3是患有某疾病患者的病例數(shù)據(jù),性別中1、2分別表示男、女,血壓中1、2、3分別表示低、中、高,膽固醇濃度中1、2分別表示正常、高。試對病人的情況進(jìn)行歸類,并描述每類病人的特征。表16-320例患者病例數(shù)據(jù)編號年齡性別血壓膽固醇濃度血液中鈉含量血液中鉀含量編號年齡性別血壓膽固醇濃度血液中鈉含量血液中鉀含量1322310.6430.02511431110.5260.0272231120.5590.07712601220.7770.0513431320.6560.04713411120.7670.0694691110.8490.07414492220.7900.0495162310.8340.05415222220.6770.0796502220.8280.06516612120.5590.0317742120.7930.03817282220.5640.0728431120.6270.04118471120.5970.0699342310.6680.03519471120.7390.05610472120.8960.07620232320.7930.031通過分析,兩類病人的特征可以描述如下:第一類:女性、年齡較小、鈉含量高、鉀含量低。膽固醇含量高者居多,血壓無明顯特征。第二類:男性、年齡較大、鈉含量低、鉀含量高。膽固醇含量也以高者居多血壓以低血壓者為主。解:自動聚類,最重要的指標(biāo)是BIC值,即Bayes信息準(zhǔn)則,其數(shù)值越小代表分類效果越好,BICChange列反映相鄰兩種結(jié)果的BIC值之差,可以看到BIC的值以聚為2類時最小,在聚到4類以后,BIC的下降就不明顯。綜合觀察,認(rèn)為應(yīng)聚為2~4類。實(shí)驗(yàn)16-1~16-2示例1、數(shù)據(jù)錄入格式2、變量聚類(選擇統(tǒng)計項(xiàng)目)實(shí)驗(yàn)16-1~16-2示例系統(tǒng)聚類2、變量聚類(導(dǎo)入變量及設(shè)置聚類類型)1.導(dǎo)入變量2.設(shè)置聚類類型3.默認(rèn)顯示項(xiàng)目4.實(shí)驗(yàn)16-1~16-2示例變量聚類2、變量聚類(選擇聚類過程表)1.2.3.實(shí)驗(yàn)16-1~16-2示例聚類明細(xì)表2、變量聚類(選擇圖示)3.1.2.實(shí)驗(yàn)16-1~16-2示例樹狀圖冰狀圖2、變量聚類(選擇聚類方法及聚類統(tǒng)計量)4.2.3.5.1.實(shí)驗(yàn)16-1~16-2示例組間環(huán)繞2、變量聚類(結(jié)果分析1-----樣本統(tǒng)計及聚類過程)實(shí)驗(yàn)16-1~16-2示例2、變量聚類(結(jié)果分析2-----冰柱圖)實(shí)驗(yàn)16-1~16-2示例2、變量聚類(結(jié)果分析3-----樹狀圖)實(shí)驗(yàn)16-1~16-2示例3、樣品聚類(選擇統(tǒng)計項(xiàng)目)實(shí)驗(yàn)16-1~16-2示例3、樣品聚類(導(dǎo)入變量及設(shè)置聚類類型)選樣品聚類!保存信息!實(shí)驗(yàn)16-1~16-2示例3、樣品聚類(導(dǎo)入變量及設(shè)置聚類類型)可選默認(rèn)實(shí)驗(yàn)16-1~16-2示例分類成員3、樣品聚類(選擇聚類過程表)實(shí)驗(yàn)16-1~16-2示例聚類明細(xì)表3、樣品聚類(選擇圖示)實(shí)驗(yàn)16-1~16-2示例3、樣品聚類(選擇聚類方法及聚類統(tǒng)計量)實(shí)驗(yàn)16-1~16-2示例3、樣品聚類(結(jié)果分析1-----聚類過程)實(shí)驗(yàn)16-1~16-2示例3、樣品聚類(結(jié)果分析2-----樹狀圖)實(shí)驗(yàn)16-1~16-2示例4、K類中心聚類實(shí)驗(yàn)16-1~16-2示例4、K類中心聚類(導(dǎo)入變量及設(shè)置聚類方法)1.導(dǎo)入變量2.設(shè)置初始中心個數(shù)3.迭代且聚類4.實(shí)驗(yàn)16-1~16-2示例4、K類中心聚類(選擇分析項(xiàng)目)2.1.選擇分析項(xiàng)目實(shí)驗(yàn)16-1~16-2示例4、K類中心聚類(設(shè)置迭代)1.使用流動中心2.迭代次數(shù)收斂標(biāo)準(zhǔn)4.1.V實(shí)驗(yàn)16-1~16-2示例4、K類中心聚類(保存信息)2.3.4.實(shí)驗(yàn)16-1~16-2示例1.4、K類中心聚類(結(jié)果分析1-----分類表)實(shí)驗(yàn)16-1~16-2示例4、K類中心聚類(結(jié)果分析2-----中心移動信息)實(shí)驗(yàn)16-1~16-2示例4、K類中心聚類(結(jié)果分析3-----方差分析)實(shí)驗(yàn)16-1~16-2示例4、K類中心聚類(分類表輸出)實(shí)驗(yàn)16-1~16-2示例實(shí)驗(yàn)16-3示例1、數(shù)據(jù)錄入格式實(shí)驗(yàn)16-3示例2、統(tǒng)計操作(選擇統(tǒng)計項(xiàng)目)實(shí)驗(yàn)16-3示例2、統(tǒng)計操作(導(dǎo)入變量)1.分別導(dǎo)入分類變量與數(shù)值變量2.實(shí)驗(yàn)16-3示例2、統(tǒng)計操作(設(shè)置圖表)2.類內(nèi)百分比圖分類餅圖等級變量重要性3.1.實(shí)驗(yàn)16-3示例3.2.分類描述聚類頻率信息準(zhǔn)則1.2、統(tǒng)計操作(設(shè)置輸出項(xiàng))實(shí)驗(yàn)16-3示例1.2.3.選默認(rèn)項(xiàng)2、統(tǒng)計操作(設(shè)置異常點(diǎn)處理、內(nèi)存配置與標(biāo)準(zhǔn)化數(shù)值性資料)TwoStepCluster實(shí)驗(yàn)16-3示例3、結(jié)果分析(分類結(jié)果及統(tǒng)計圖表)FrequenciesClusterProfiles實(shí)驗(yàn)16-3示例3、結(jié)果分析(指標(biāo)特性描述)實(shí)驗(yàn)16-3示例3、結(jié)果分析(指標(biāo)特性圖示)實(shí)驗(yàn)16-3示例3、結(jié)果分析(指標(biāo)特性統(tǒng)計分析)實(shí)驗(yàn)16-3示例3、結(jié)果分析(分類結(jié)果輸出)應(yīng)用實(shí)例一、牛黃解毒丸分類問題(一)指標(biāo)的選擇

【樣品來源】由醫(yī)藥公司購買了18個廠家生產(chǎn)的牛黃解毒片,并根據(jù)藥典制作了標(biāo)準(zhǔn)模擬樣本(第19號),制作標(biāo)準(zhǔn)藥片的各味中藥均從醫(yī)藥站購買,并經(jīng)專家驗(yàn)證鑒別為真品。

【指標(biāo)選擇】按照牛黃解毒片的處方,并根據(jù)方解中各味中藥的君、臣、佐、使位置,考慮各味藥的權(quán)重,選擇與質(zhì)量關(guān)系密切的11種測定值為聚類的指標(biāo)(因素)。分別為:X1(膽酸)、X2(去氧膽酸)、X3(膽紅素)、X4(大黃)、X5(總蒽甙大黃)、X6(結(jié)合型大黃酸)、X7(黃芩甙)、X8(石膏)、X9(冰片)、X10(雄黃)、X11(皂甙指數(shù))。詳見下表。

牛黃解毒片各項(xiàng)指標(biāo)的測定值X1X2X3X4X5X6X7X8X9X10X1110.20.30.53020.90.585.3718.342.5611.6172820.20.492.43030.70.750.867.753.4712.38172830.510.245.2648.346.60.636.2915.374.0111.89172840.140.171.3528.130.80.734.268.646.611.53177150.540.513.5837.542.60.835.293.515.2315.44177160.810.534.5835.939.80.794.65.524.4112.17186470.210.171.3336360.393.592.754.569.92172880.840.393.41042.60.764.785.267.5610.92172890.830.524.3939.935.70.415.613.384.1873.021749100.19001416.40.211.2633.260.147.121771110.290.123.721223.40.185.243.797.0811.381728120.380.533.8440.333.60.275.075.654.4611.911687130.590.511.091529.80.354.474.525.713.071648140.310.342.41329.10.464.974.216.6611.891728150.680.755.331328.70.193.42.667.3114.41574160.360.523.3712.528.70.285.592.297.7414.011728170.630.484.0534.643.20.324.6412.766.4411.671728180.520.686.6312.3250.525.262.525.3211.671915190.770.410.3545.446.10.825.896.446.8611.451793(二)聚類

CASE0510152025LabelNum+---------+---------+---------+---------+---------+Case1414-+-+Case1616-++-+Case1111---++-+Case1313-----++-+Case1212---+---++-----+Case1717---+||Case44---+-----++---+Case77---+||Case11-------------+-+|Case22-------------+|Case1515-------------------+Case55-+-----++-----------+Case66-++-+||Case33-------++---+||Case1919---------++---+|+-----------------+Case88-------------++-+||Case1818-----------------+||Case99-------------------------------+|Case1010-------------------------------------------------+第二類中含有標(biāo)準(zhǔn)片,故為質(zhì)量較好的類;

9、10號獨(dú)立成類,為較差的類;第一類為質(zhì)量一般的類。(三)分析(四)與其他分析方法的綜合五、討論1.聚類分析方法的選擇

(1)聚類類型如果是樣品聚類,上述三種方法都可以;如果是變量聚類,只能選擇系統(tǒng)聚類法。

(2)樣本量對于樣品聚類:如果n<100,三種方法都可以用,但優(yōu)先考慮系統(tǒng)聚類法,因?yàn)檐浖峁┑南到y(tǒng)聚類法的距離計算方法、類間距離定義方法、數(shù)據(jù)標(biāo)準(zhǔn)化的方法最豐富,而且樹狀圖直觀形象,易于理解;如果n>1000,那么應(yīng)考慮快速聚類法或兩步聚類法;樣本量介于100~1000之間,理論上三種方法都可以,但結(jié)果的展示會比較困難,如樹狀圖不能再直接觀察了。

(3)參與聚類的變量類型如果都是數(shù)值變量,則三種方法都可以選擇;如果包含分類變量,應(yīng)該使用兩步聚類法或?qū)⒎诸愖兞刻幚砗笠暈閿?shù)值變量再聚類。

(4)是否指定類別數(shù)量兩步聚類法按照一定的統(tǒng)計標(biāo)準(zhǔn)自動給出類別的數(shù)量,系統(tǒng)聚類法可以產(chǎn)生一定類別范圍的聚類結(jié)果,而快速聚類法要求使用者必須事先給出聚類的類別數(shù)。最重要的一個原則就是聚類結(jié)果的可解釋性

五、討論2.聚類結(jié)果的檢驗(yàn)

(1)聚類分析的結(jié)果在各個類別中所包含的樣本或指標(biāo)數(shù)量應(yīng)大致相當(dāng),除非針對特定的目的(如異常值發(fā)現(xiàn)),如果某一聚類結(jié)果過于集中在某一類,就有理由懷疑結(jié)果的“有用性”;

(2)可以對同一數(shù)據(jù)集使用不同的方法進(jìn)行聚類,比較兩個聚類結(jié)果。如果兩個結(jié)果在類別數(shù)量、樣品所屬類別、類別特征等方面有很大差異,則有理由懷疑聚類結(jié)果的“穩(wěn)定性”。這是目前較好的聚類結(jié)果驗(yàn)證方法之一。

(3)如果數(shù)據(jù)量比較大,可以把一個數(shù)據(jù)集按照一定比例(如1:1)隨機(jī)拆成兩個,然后分別對兩個數(shù)據(jù)集用同一方法進(jìn)行聚類。如果兩個結(jié)果在類別數(shù)量、類別特征等方面有很大差異,則有理由懷疑聚類結(jié)果的“可靠性”。五、討論3.聚類結(jié)果的解釋和描述

(1)變量對于結(jié)果的重要性

在快速聚類中,以聚類結(jié)果為分組變量,對各變量進(jìn)行單因素的方差分析,以F值的大小說明變量的相對重要性;兩步聚類法也可以參考,如例16-3的結(jié)果,數(shù)值變量可以做方差分析,分類變量可以做檢驗(yàn)。

(2)對于類別特征的描述主要通過描述性統(tǒng)計量和各種統(tǒng)計圖形來進(jìn)行,但也可結(jié)合統(tǒng)計檢驗(yàn)的結(jié)果。在樣本量較大的情況下,如果變量在各分類間差別沒有統(tǒng)計學(xué)意義,那么可以考慮剔除該變量。五、討論4.變量的標(biāo)準(zhǔn)化和共線性問題

(1)參與聚類的變量之間差異比較大時,應(yīng)先做標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)化的方法除了前面講到的標(biāo)準(zhǔn)正態(tài)變換外,還有很多,可以根據(jù)實(shí)際情況對原始數(shù)據(jù)進(jìn)行相應(yīng)變化。特別是當(dāng)樣品間的距離采用歐氏距離時,要求變量彼此獨(dú)立且方差齊。利用SPSS進(jìn)行快速聚類時,如果需要,應(yīng)先對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。

(2)變量的共線性在進(jìn)行樣品聚類時,如果兩個強(qiáng)相關(guān)的變量同時進(jìn)入聚類分析,就相當(dāng)于他們所代表的這一因素的權(quán)重遠(yuǎn)遠(yuǎn)高于其他變量,從而造成聚類結(jié)果的區(qū)分度不強(qiáng)或者意義不大。除非這樣的結(jié)果是我們所需要的,否則應(yīng)先對變量進(jìn)行預(yù)處理,通過變量聚類選擇一個代表性最好的變量,或利用因子分析提取公因子,然后再進(jìn)行聚類分析。第二節(jié)判別分析

判別分析(discriminantanalysis)是在已知研究對象分成若干類別,并已取得各類別的一批已知樣品的觀測數(shù)據(jù)的基礎(chǔ)上,建立判別函數(shù)和判別準(zhǔn)則,然后根據(jù)這個判別函數(shù)和判別準(zhǔn)則對未知類別的新樣品進(jìn)行判別分類的一種統(tǒng)計分析方法。

Fisher判別又稱典則判別,可用于兩類和多類判別。Fisher判別基本思想是根據(jù)類間距離最大,類內(nèi)距離最小的原則確定線性判別函數(shù),再根據(jù)建立的線性判別函數(shù)來判定待判樣品的類別。假設(shè)有g(shù)類,F(xiàn)isher判別要建立g-1個判別函數(shù),對于多類(g≥3)判別,其判別準(zhǔn)則相對復(fù)雜,所以Fisher判別法常用于兩類判別。一、Fisher判別分析法兩類判別的任務(wù)是根據(jù)這些已知類別的樣品,建立以下線性判別函數(shù):

1.判別函數(shù)的假設(shè)檢驗(yàn)

Wilks’λ

P<α

判別函數(shù)有統(tǒng)計學(xué)意義2.判別函數(shù)的考核回顧性考核前瞻性考核大小大ycyA類B類實(shí)驗(yàn)16-4示例1、數(shù)據(jù)錄入格式(第15例為待定樣本)實(shí)驗(yàn)16-4示例2、統(tǒng)計操作(選擇統(tǒng)計項(xiàng)目)判別分析實(shí)驗(yàn)16-4示例2、統(tǒng)計操作(導(dǎo)入變量、選回歸方法)2.選回歸方法1.自變量多時可選逐步回歸變量y設(shè)為分類變量后,須DefineRange設(shè)為1~2實(shí)驗(yàn)16-4示例2、統(tǒng)計操作(選擇統(tǒng)計描述)3.選判別函數(shù)類型2.1.選統(tǒng)計項(xiàng)4.實(shí)驗(yàn)16-4示例2、統(tǒng)計操作(先分類項(xiàng)目)3.選顯示項(xiàng)2.默認(rèn)先驗(yàn)概率用協(xié)方差陣1.選分類項(xiàng)4.實(shí)驗(yàn)16-4示例2、統(tǒng)計操作(選保存項(xiàng)目)3.2.默認(rèn)預(yù)測分類判別值分類概率1.選保存項(xiàng)4.實(shí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論