第五版(第六章)_第1頁
第五版(第六章)_第2頁
第五版(第六章)_第3頁
第五版(第六章)_第4頁
第五版(第六章)_第5頁
已閱讀5頁,還剩85頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第六章聚類分析1·

§6.1引言§6.2距離和相似系數(shù)§6.3系統(tǒng)聚類法§6.4動(dòng)態(tài)聚類法§6.1引言2 聚類分析:將分類對(duì)象分成若干類,相似的歸為同一類,不相似的歸為不同的類。 聚類分析和判別歸類有著不同的分類目的,彼此之間既有區(qū)別又有聯(lián)系。 聚類分析分為Q型(分類對(duì)象為樣品)和R型(分類對(duì)象為變量)兩種。相似性的不同定義3§6.2距離和相似系數(shù)4相似性度量:距離和相似系數(shù)。樣品之間的距離和相似系數(shù)有著各種不同的定義,而這些定義與變量的類型有著非常密切的關(guān)系。變量的測(cè)量尺度:間隔、有序和名義尺度。 間隔變量:變量用連續(xù)的量來表示,如長(zhǎng)度、重量、速度、溫度等。 有序變量:變量度量時(shí)不用明確的數(shù)量表示,而是用等級(jí)來表示,如某產(chǎn)品分為一等品、二等品、三等品等有次序關(guān)系。 名義變量:變量用一些類表示,這些類之間既無等級(jí)關(guān)系也無數(shù)量關(guān)系,如性別、職業(yè)、產(chǎn)品的型號(hào)等。 間隔變量也稱為定量變量,有序變量和名義變量統(tǒng)稱為定性變量或?qū)傩宰兞炕蚍诸愖兞俊?對(duì)于間隔變量,距離常用來度量樣品之間的相似性,相似系數(shù)常用來度量變量之間的相似性。 本章主要討論具有間隔尺度變量的樣品聚類分析方法。一、距離二、相似系數(shù)5一、距離6·設(shè)x=(x1,x2,?,xp)′和y=(y1,y2,?,yp)′為兩個(gè)樣品,定義的距離一般應(yīng)滿足如下三個(gè)條件:(i)非負(fù)性:d(x,y)≥0,d(x,y)=0當(dāng)且僅當(dāng)x=y;(ii)對(duì)稱性:d(x,y)=d(y,x);(iii)三角不等式:d(x,y)≤d(x,z)+d(z,y)。常用的距離71.明考夫斯基(Minkowski)距離2.蘭氏(Lance和Williams)距離3.馬氏距離1.明考夫斯基距離·明考夫斯基距離(簡(jiǎn)稱明氏距離):,稱為絕對(duì)值距離,常被這里q≥1?!っ魇暇嚯x的三種特殊形式:(i)當(dāng)q=1時(shí),形象地稱作“城市街區(qū)”距離;,(ii)當(dāng)q=2時(shí),這是歐氏距離,它是聚類分析中最常用的一個(gè)距離;(iii)當(dāng)q=∞時(shí),,稱為切比雪夫距離。8絕對(duì)值距離圖示92.蘭氏距離 當(dāng)所有的數(shù)據(jù)皆為正時(shí),可以定義x與y之間的蘭氏距離為 該距離與各變量的單位無關(guān),且適用于高度偏斜或含異常值的數(shù)據(jù)。113.馬氏距離x和y之間的馬氏距離為其中S為樣本協(xié)差陣。 聚類過程中的類一直變化著,S一般難以確定,除非有關(guān)于不同類的先驗(yàn)知識(shí)。因此,在實(shí)際聚類分析中,馬氏距離一般不是理想的距離。12名義尺度變量的一種距離定義13·例6.2.1某高校舉辦一個(gè)培訓(xùn)班,從學(xué)員的資料中得到這樣六個(gè)變量:x1:性別(男,女)x2:外語語種(英語,非英語)x3:專業(yè)(統(tǒng)計(jì),非統(tǒng)計(jì))x4:職業(yè)(教師,非教師)x5:居住處(校內(nèi),校外)x6:學(xué)位(碩士,學(xué)士)現(xiàn)有兩名學(xué)員:x=(男,英語,統(tǒng)計(jì),非教師,校外,學(xué)士)′y=(女,英語,非統(tǒng)計(jì),教師,校外,碩士)′一般地,若記m1:配合的變量數(shù)m2:不配合的變量數(shù)則它們之間的距離可定義為故按此定義,本例中x與y之間的距離為2/3。14二、相似系數(shù)15 變量之間的相似性度量,在一些應(yīng)用中要看相似系數(shù)的大小,而在另一些應(yīng)用中要看相似系數(shù)絕對(duì)值的大小。 相似系數(shù)(或其絕對(duì)值)越大,認(rèn)為變量之間的相似性程度就越高;反之,則越低。 聚類時(shí),比較相似的變量?jī)A向于歸為一類,不太相似的變量歸屬不同的類。變量間相似系數(shù)一般應(yīng)滿足的條件16·(1)cij=±1,當(dāng)且僅當(dāng)xi=axj+b,a(≠0)和b是常數(shù);(2)|cij|≤1,對(duì)一切i,j;(3)cij=cji,對(duì)一切i,j。兩個(gè)向量的夾角余弦171.夾角余弦·

變量xi與xj的夾角余弦定義為它是Rn中變量xi的觀測(cè)向量(x1i,x2i,?,xni)′與變量xj觀測(cè)向量(x1j,x2j,?,xnj)′之間夾角θij的余弦函數(shù),即cij(1)=cosθij。182.相關(guān)系數(shù)·

變量xi與xj的相關(guān)系數(shù)為·如果變量xi與xj是已標(biāo)準(zhǔn)化了的,則它們間的夾角余弦就是相關(guān)系數(shù)。19 相似系數(shù)除常用來度量變量之間的相似性外有時(shí)也用來度量樣品之間的相似性,同樣,距離有時(shí)也用來度量變量之間的相似性。由距離來構(gòu)造相似系數(shù)總是可能的,如令這里dij為第i個(gè)樣品與第j個(gè)樣品的距離,cij可作為相似系數(shù),用來度量樣品之間的相關(guān)性?!ぞ嚯x必須滿足定義距離的三個(gè)條件,所以不是總能由相似系數(shù)構(gòu)造。高爾(Gower)證明,當(dāng)相似系數(shù)矩陣(cij)為非負(fù)定時(shí),如令則dij滿足距離定義的三個(gè)條件。20§6.3系統(tǒng)聚類法21 系統(tǒng)聚類法(或?qū)哟尉垲惙ǎ┦峭ㄟ^一系列相繼的合并或相繼的分割來進(jìn)行的,分為聚集的和分割的兩種,適用于樣品數(shù)目n不是很大的情形。 聚集系統(tǒng)法的基本思想是:開始時(shí)將n個(gè)樣品各自作為一類,并規(guī)定樣品之間的距離和類與類之間的距離,然后將距離最近的兩類合并成一個(gè)新類,計(jì)算新類與其他類的距離;重復(fù)進(jìn)行兩個(gè)最近類的合并,每次減少一類,直至所有的樣品合并為一類。一開始每個(gè)樣品各自作為一類22 分割系統(tǒng)法的聚類步驟與聚集系統(tǒng)法正相反。由n個(gè)樣品組成一類開始,按某種最優(yōu)準(zhǔn)則將它分割成兩個(gè)盡可能遠(yuǎn)離的子類,再用同樣準(zhǔn)則將每一子類進(jìn)一步地分割成兩類,從中選一個(gè)分割最優(yōu)的子類,這樣類數(shù)將由兩類增加到三類。如此下去,直至所有n個(gè)樣品各自為一類或采用某種停止規(guī)則。 聚集系統(tǒng)法最為常用,本節(jié)著重介紹其中常用的六種方法并略提另兩種方法,所有這些聚類方法的區(qū)別在于類與類之間距離的定義不同。23§6.3系統(tǒng)聚類法24一、最短距離法二、最長(zhǎng)距離法三、類平均法四、重心法*五、中間距離法六、離差平方和法(Ward方法)*七、系統(tǒng)聚類法的統(tǒng)一八、系統(tǒng)聚類法的性質(zhì)九、使用圖形作聚類及對(duì)效果的評(píng)估十、對(duì)變量的聚類十一、類的個(gè)數(shù)一、最短距離法·定義類與類之間的距離為兩類最近樣品間的距離,即圖6.3.1 最短距離法:DKL=d2325最短距離法的聚類步驟(1)規(guī)定樣品之間的距離,計(jì)算n個(gè)樣品的距離矩陣D(0),它是一個(gè)對(duì)稱矩陣。 (2)選擇D(0)中的最小元素,設(shè)為DKL,則將GK和GL合并成一個(gè)新類,記為GM,即GM=GK∪GL。(3)計(jì)算新類GM與任一類GJ之間距離的遞推公式為26遞推公式的圖示理解27最短距離法的聚類步驟(續(xù))28在D(0)中,GK和GL所在的行和列合并成一個(gè)新行新列,對(duì)應(yīng)GM,該行列上的新距離值由上述遞推公式求得,其余行列上的距離值不變,這樣就得到新的距離矩陣,記作D(1)?!?4)對(duì)D(1)重復(fù)上述對(duì)D(0)的兩步得D(2),如此下去直至所有元素合并成一類為止?!と绻骋徊紻(m)中最小的元素不止一個(gè),則稱此現(xiàn)象為結(jié),對(duì)應(yīng)這些最小元素的類可以任選一對(duì)合并或同時(shí)合并。最短距離法最容易產(chǎn)生結(jié),且有一種挑選長(zhǎng)鏈狀聚類的傾向,稱為鏈接傾向。·

最短距離法不適合對(duì)分離得很差的群體進(jìn)行聚類。結(jié)的圖示:29一個(gè)最短距離法產(chǎn)生鏈接的例子(例6.3.4)30·例6.3.1設(shè)有五個(gè)樣品,每個(gè)只測(cè)量了一個(gè)指標(biāo),分別是1,2,6,8,11,試用最短距離法將它們分類。記G1={1},G2={2},G3={6},G4={8},G5={11},31樣品間采用絕對(duì)值距離。G1G2G3G4G5G10G210G3540G47620G5109530表6.3.1D(0

)其中G7=G3∪G4表6.3.2D(1

)G6G3G4G5G60G340G4620G59530其中G6=G1∪G2表6.3.3D(2

)G6G7G5G60G740G593032其中G6=G1∪G2表6.3.4D(3

)G6G8G60G84033圖6.3.2最短距離法樹形圖二、最長(zhǎng)距離法·類與類之間的距離定義為兩類最遠(yuǎn)樣品間的距離,即圖6.3.3 最長(zhǎng)距離法:DKL=d1534 最長(zhǎng)距離法與最短距離法的并類步驟完全相同,只是類間距離的遞推公式有所不同。遞推公式:35·

對(duì)例6.3.1采用最長(zhǎng)距離法。圖6.3.436最長(zhǎng)距離法樹形圖異常值的影響·

最長(zhǎng)距離法容易被異常值嚴(yán)重地扭曲。37三、類平均法有兩種定義。定義1:類GK和GL之間的距離定義為圖6.3.538類平均法·遞推公式:39·定義2:類GK和GL之間的平方距離定義為·遞推公式:·類平均法較好地利用了所有樣品之間的信息,在很多情況下它被認(rèn)為是一種比較好的系統(tǒng)聚類法。40·

例6.3.2

在例6.3.1中采用(使用平方距離的)類平G1G2G3G4G5G10G210G325160G4493640G5100812590均法進(jìn)行聚類。一開始將D(0)的每個(gè)元素都平方,并記作 。表6.3.541表6.3.6G6G3G4G5G60G320.50G442.540G590.52590表6.3.7G6G7G5G60G731.50G590.517042G6

G8G6

0G8

51.17

0表6.3.8G6G8G60G851.170圖6.3.643類平均法樹形圖四、重心法,則GK與·

設(shè)類GK和GL的重心(均值)分別為GL之間的平方距離定義為圖6.3.7 重心法44·

GM=GK∪GL的重心是其中nM=nK+nL為GM的樣品個(gè)數(shù)?!みf推公式:·與其他系統(tǒng)聚類法相比,重心法在處理異常值方面更穩(wěn)健,但是在別的方面一般不如類平均法或離差平方和法的效果好。45*五、中間距離法·設(shè)GM=GK∪GL,對(duì)于任一類GJ,考慮由DKJ,DLJ和DKL為邊長(zhǎng)組成的三角形,取DKL邊的中線作為DMJ。DMJ的計(jì)算公式為圖6.3.846中間距離法的幾何表示六、離差平方和法(Ward方法)(類內(nèi))離差平方和:類中各樣品到類重心(均值)的平方歐氏距離之和。設(shè)類GK和GL合并成新類GM,則GK,GL和GM的離差平方和分別是對(duì)固定的類內(nèi)樣品數(shù),它們反映了各自類內(nèi)樣品的分散程度。47類內(nèi)離差平方和的幾何解釋·

類內(nèi)離差平方和WK是類GK內(nèi)各點(diǎn)到類重心點(diǎn)

的直線距離之平方和。48·

定義GK和GL之間的平方距離為·

也可表達(dá)為?·離差平方和法使得兩個(gè)大的類傾向于有較大的距離,因而不易合并;相反,兩個(gè)小的類卻因傾向于有較小的距離而易于合并。這往往符合我們對(duì)聚類的實(shí)際要求。49圖6.3.950離差平方和法與重心法的聚類比較·遞推公式:·

對(duì)例6.3.1采用離差平方和法進(jìn)行聚類。圖6.3.1051離差平方和法樹形圖·

例6.3.3

表6.3.9列出了1999年全國(guó)31個(gè)省、直轄市和自治區(qū)的城鎮(zhèn)居民家庭平均每人全年消費(fèi)性支出的八個(gè)主要變量數(shù)

據(jù)。這八個(gè)變量是53x1:食品x2:衣著x3:家庭設(shè)備用品及服務(wù)x4:醫(yī)療保健x5:交通和通訊x6:娛樂教育文化服務(wù)x7:居住x8:雜項(xiàng)商品和服務(wù)分別用最短距離法、重心法和Ward方法對(duì)各地區(qū)作聚類分析。為同等地對(duì)待每一變量,在作聚類前,先對(duì)各變量作標(biāo)準(zhǔn)化變換。表6.3.9消費(fèi)性支出數(shù)據(jù)單位:元地區(qū)x1x2x3x4x5x6x7x8北京2959.19730.79749.41513.34467.871141.82478.42457.64天津2459.77495.47697.33302.87284.19735.97570.84305.08河北1495.63515.9362.37285.32272.95540.58364.91188.63山西1406.33477.77290.15208.57201.5414.72281.84212.1內(nèi)蒙古1303.97524.29254.83192.17249.81463.09287.87192.96遼寧1730.84553.9246.91279.81239.18445.2330.24163.86吉林1561.86492.42200.49218.36220.69459.62360.48147.76黑龍江1410.11510.71211.88277.11224.65376.82317.61152.85上海3712.31550.74893.37346.935271034.98720.33462.03江蘇2207.58449.37572.4211.92302.09585.23429.77252.54浙江2629.16557.32689.73435.69514.66795.87575.76323.36安徽1844.78430.29271.28126.33250.56513.18314151.39福建2709.46428.11334.12160.77405.14461.67535.13232.29江西1563.78303.65233.81107.9209.7393.99509.39160.12山東1675.75613.32550.71219.79272.59599.43371.62211.8454河南1427.65431.79288.55208.14217337.76421.31165.32湖北1783.43511.88282.84201.01237.6617.74523.52182.52湖南1942.23512.27401.39206.06321.29697.22492.6226.45廣東3055.17353.23564.56356.27811.88873.061082.82420.81廣西2033.87300.82338.65157.78329.06621.74587.02218.27海南2057.86186.44202.72171.79329.65477.17312.93279.19重慶2303.29589.99516.21236.55403.92730.05438.41225.8四川1974.28507.76344.79203.21240.24575.1430.36223.46貴州1673.82437.75461.61153.32254.66445.59346.11191.48云南2194.25537.01369.07249.54290.84561.91407.7330.95西藏2646.61839.7204.44209.11379.3371.04269.59389.33陜西1472.95390.89447.95259.51230.61490.9469.1191.34甘肅1525.57472.98328.9219.86206.65449.69249.66228.19青海1654.69437.77258.78303244.93479.53288.56236.51寧夏1375.46480.89273.84317.32251.08424.75228.73195.93新疆1608.82536.05432.46235.82250.28541.3344.85214.455圖6.3.11最短距離法56圖6.3.12 重心法57圖6.3.13離差平方和法58·從這三個(gè)樹形圖來看,只有Ward方法較好地符合了我們的實(shí)際聚類要求??蓪?1個(gè)地區(qū)分為以下三類: 第Ⅰ類:北京、浙江、上海和廣東。這些都是我國(guó)經(jīng)濟(jì)最發(fā)達(dá)、城鎮(zhèn)居民消費(fèi)水平最高的地區(qū)。第Ⅱ類:天津、江蘇、云南、重慶、河北、新疆、山東、湖北、四川、湖南、福建、廣西、海南和西藏。這些地區(qū)在我國(guó)基本上屬于經(jīng)濟(jì)發(fā)展水平和城鎮(zhèn)居民消費(fèi)水平中等的地區(qū)。第Ⅲ類:山西、甘肅、內(nèi)蒙古、遼寧、黑龍江、吉林、青海、寧夏、安徽、貴州、河南、陜西和江西。這些地區(qū)在我國(guó)基本上屬于經(jīng)濟(jì)欠發(fā)達(dá)地區(qū),城鎮(zhèn)居民的消費(fèi)水平也較低。·如果分為五類,則廣東和西藏將各自為一類。59*七、系統(tǒng)聚類法的統(tǒng)一·Lance和Williams于1967年將遞推公式統(tǒng)一為:其中αK,αL,β,γ是參數(shù),不同的系統(tǒng)聚類法,它們有不同的取值。表6.3.10列出了上述八種方法四個(gè)參數(shù)的取值。60表6.3.10系統(tǒng)聚類法參數(shù)表61八、系統(tǒng)聚類法的性質(zhì)621.單調(diào)性*2.空間的濃縮與擴(kuò)張3.一個(gè)說明性的例子1.單調(diào)性63 令Di是系統(tǒng)聚類法中第i次并類時(shí)的距離,如果一種系統(tǒng)聚類法能滿足D1≤D2≤D3≤?,則稱它具有單調(diào)性。 這種單調(diào)性符合系統(tǒng)聚類法的思想,先合并較相似的類,后合并較疏遠(yuǎn)的類。 最短距離法、最長(zhǎng)距離法、類平均法、離差平方和法、可變法和可變類平均法都具有單調(diào)性,但重心法和中間距離法不具有單調(diào)性。*2.空間的濃縮與擴(kuò)張64設(shè)A=(aij)和B=(bij)是兩個(gè)元素非負(fù)的同階矩陣,若aij≥bij(對(duì)切i,j),則記作A≥B。該記號(hào)僅在本節(jié)中使用。設(shè)有兩種系統(tǒng)聚類法,它們?cè)诘趇步的距離矩陣分別為Ai和Bi,i=0,1,?,n?1,若Ai≥Bi,i=1,?,n?1,則稱第一種方法比第種方法使空間擴(kuò)張,或第二種方法比第一種方法使空間濃縮。設(shè)聚類中的某步將類GK和GL合并成新類GM,由于接下來的一步在計(jì)算類之間的距離時(shí),老類之間的距離仍保持不變,故比較不同聚類法的聚類距離我們只需比較任一老類GJ到新類GM的距離即可。用D(*)表示用“*”方法聚類時(shí)的距離矩陣?!ひ灶惼骄榛鶞?zhǔn),有如下一些結(jié)論:(1)D(短)≤D(平),D(重)≤D(平)。(2)D(長(zhǎng))≥D(平)。 (3)當(dāng)0<β<1時(shí),D(變平)≤D(平);當(dāng)β<0時(shí),D(平)≥D(平)。 太濃縮的方法不夠靈敏,太擴(kuò)張的方法可能因靈敏度過高而容易失真。 類平均法比較適中,它既不太濃縮也不太擴(kuò)張,因此它在這方面是比較理想的。最短距離法是一種非常濃縮的方法,容易出現(xiàn)鏈接傾向。653.一個(gè)說明性的例子(例6.3.4)66·(1)采用最短距離法??梢运愕?67 當(dāng)聚成兩類時(shí),C1和C11組成一類,其余所有的點(diǎn)組成另一類,這里出現(xiàn)了鏈接現(xiàn)象; 當(dāng)聚成三類時(shí),C1和C11組成第Ⅰ類,其余的C點(diǎn)組成第Ⅱ類,所有的A點(diǎn)和B點(diǎn)組成第Ⅲ類。·(2)采用類平均法。經(jīng)算得: 當(dāng)聚成兩類時(shí),一類由所有C點(diǎn)構(gòu)成,另一類由所有A點(diǎn)和所有B點(diǎn)構(gòu)成; 當(dāng)聚成三類時(shí),A點(diǎn)群、B點(diǎn)群和C點(diǎn)群各自作為一類。九、使用圖形作聚類及對(duì)聚類效果的評(píng)估681.使用圖形作直觀的聚類2.使用圖形對(duì)聚類效果的評(píng)估1.使用圖形作直觀的聚類69當(dāng)p=2時(shí),可以直接在散點(diǎn)圖上進(jìn)行主觀的聚類,其效果未必遜于、甚至好于正規(guī)的聚類方法,特別是在尋找“自然的”類和符合我們實(shí)際需要的類方面。當(dāng)p=3時(shí),我們可使用統(tǒng)計(jì)軟件產(chǎn)生三維旋轉(zhuǎn)圖,通過旋轉(zhuǎn)三維坐標(biāo)軸從各個(gè)角度來觀測(cè)散點(diǎn)圖,作直觀的聚類。但由于其視覺效果及易操作性遠(yuǎn)不如平面散點(diǎn)圖,故實(shí)踐中很少采用。當(dāng)p≥3時(shí),有時(shí)我們可采用主成分分析或因子分析的技術(shù)將維數(shù)降至2(或3)維,然后再生成散點(diǎn)圖(或旋轉(zhuǎn)圖),從直覺上進(jìn)行主觀的聚類。尋找“自然的”類702.使用圖形對(duì)聚類效果的評(píng)估71經(jīng)聚類分析已將類分好之后,常常希望從統(tǒng)計(jì)的角度看一下聚類的效果:不同類之間是否分離得較好,同一類內(nèi)的樣品(或變量)是否彼此相似。通??赏ㄟ^構(gòu)造圖形作直觀的觀測(cè),所使用的圖形有如下兩種: (1)將p維數(shù)據(jù)畫于平面圖上,方法有平行(坐標(biāo))圖、星形圖、切爾諾夫臉譜圖、星座圖和安德魯曲線圖等; (2)使用費(fèi)希爾判別的降維方法,將p維數(shù)據(jù)降至2(或3)維再構(gòu)造散點(diǎn)圖(或旋轉(zhuǎn)圖)。 如果方法(2)能夠成功,則往往更值得推薦,尤其在樣品數(shù)很大的場(chǎng)合下?!だ?.3.5在例6.3.3中,為了從原始數(shù)據(jù)的直觀圖形上來看一下按Ward方法聚成三類的效果,使用JMP軟件的聚類結(jié)果中帶有的并排平行圖(或稱輪廓圖)。 平行圖中的八個(gè)變量軸相互平行等間隔,各變量軸上的坐標(biāo)是已標(biāo)準(zhǔn)化了的值。 前兩類中的高亮輪廓線分別屬于廣東和西藏,它們?cè)陬悆?nèi)顯得較為異類,需要時(shí)皆可自成一類。圖6.3.15

Ward方法所分三類的平行圖72圖6.3.16按圖6.3.13分三類的兩個(gè)判別函數(shù)得分的散點(diǎn)圖73圖6.3.17按圖6.3.13分五類的兩個(gè)判別函數(shù)得分的散點(diǎn)圖74十、對(duì)變量的聚類75·最短距離法、最長(zhǎng)距離法和類平均法都屬于連接方法,它們既可以用于樣品的聚類,也能夠用于變量的聚類。不過并非所有的系統(tǒng)聚類方法都適用于對(duì)變量的聚類。·例6.3.7對(duì)305名女中學(xué)生測(cè)量八個(gè)體型指標(biāo):76x1:身高x2:手臂長(zhǎng)x3:上肢長(zhǎng)x4:下肢長(zhǎng)表6.3.11x5:體重x6:頸圍x7:胸圍x8:胸寬各對(duì)變量之間的相關(guān)系數(shù)x1x2x3x4x5x6x7x8x11.000x20.8461.000x30.8050.8811.000x40.8590.8260.8011.000x50.4730.3760.3800.4361.000x60.3980.3260.3190.3290.7621.000x70.3010.2770.2370.3270.7300.5831.000x80.3820.4150.3450.3650.6290.5770.5391.000·單從該相關(guān)矩陣就可直觀地判斷出聚成兩類:{x1,x2,x3,x4}和{x5,x6,x7,x8},這兩類的特征明顯,其類內(nèi)變量分別都是身材方面的“縱向”指標(biāo)和“橫向”指標(biāo)。77分別用最短距離法、最長(zhǎng)距離法和(6.3.5)式的類平均法對(duì)變量進(jìn)行聚類,這三種方法的類與類之間的相似系數(shù)分別定義為兩類變量間的最大、最小和平均相關(guān)系數(shù),每次聚類時(shí)合并兩個(gè)相似系數(shù)最大的類。從圖6.3.18可見,聚成兩類:{x1,x2,x3,x4}和{x5,x6,x7,x8}。最短距離法和類平均法也都有與此相同的聚成兩類的結(jié)果。圖6.3.1878八個(gè)體型變量的最長(zhǎng)距離法樹形圖十一、類的個(gè)數(shù)79 如果能夠分成若干很分開的類,則類的個(gè)數(shù)就比較容易確定;反之,如果無論怎樣分都很難分成明顯分開的若干類,則類個(gè)數(shù)的確定可能就比較困難了。 確定類個(gè)數(shù)的常用方法有:1.給定一個(gè)閾值T。2.觀測(cè)樣品的散點(diǎn)圖。*3.使用統(tǒng)計(jì)量。1.給定一個(gè)閾值T80·通過觀測(cè)樹形圖,給出一個(gè)你認(rèn)為合適的閾值T,要求類與類之間的距離要大于T,有些樣品可能會(huì)因此而歸不了類或只能自成一類。這種方法有較強(qiáng)的主觀性,這是它的不足之處。2.觀測(cè)樣品的散點(diǎn)圖81如果樣品只有兩個(gè)(或三個(gè))變量,則可通過觀測(cè)數(shù)據(jù)的散點(diǎn)圖(或旋轉(zhuǎn)圖)來主觀確定類的個(gè)數(shù)。如果變量個(gè)數(shù)超過三個(gè),則可對(duì)每一可能考慮的聚類結(jié)果,將所有樣品的前兩個(gè)(或三個(gè))費(fèi)希爾判別函數(shù)得分制作成散點(diǎn)圖(或旋轉(zhuǎn)圖),目測(cè)類之間是否分離得較好。該圖既能幫助我們?cè)u(píng)估聚類效果的好壞,也能幫助我們判斷所定的類數(shù)目是否恰當(dāng)。例6.3.8在例6.3.6中,圖6.3.16顯示分為三類是合適的,圖6.3.17顯示分為五類也是合適的。最終到底分為幾類還需綜合考慮,該例分成三類似乎更符合實(shí)際的需要。*3.使用統(tǒng)計(jì)量82·

(1)R2統(tǒng)計(jì)量。(2)半偏R2統(tǒng)計(jì)量。(3)偽F統(tǒng)計(jì)量。(4)偽t統(tǒng)計(jì)量?!?.4動(dòng)態(tài)聚類法83 在系統(tǒng)聚類法中,對(duì)于那些先前已被“錯(cuò)誤”分類的樣品不再提供重新分類的機(jī)會(huì),而動(dòng)態(tài)聚類法(或稱逐步聚類法)卻允許樣品從一個(gè)類移動(dòng)到另一個(gè)類中。 動(dòng)態(tài)聚類法的計(jì)算量要比建立在距離矩陣基礎(chǔ)上的系統(tǒng)聚類法小得多。因此,使用動(dòng)態(tài)聚類法計(jì)算機(jī)所能承受的樣品數(shù)目n要遠(yuǎn)遠(yuǎn)超過使用系統(tǒng)聚類法所能承受的n。·動(dòng)態(tài)聚類法的基本思想是,選擇一批凝聚點(diǎn)或給出一個(gè)初始的分類,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論