數(shù)學(xué)35系統(tǒng)聚類(lèi)分析_第1頁(yè)
數(shù)學(xué)35系統(tǒng)聚類(lèi)分析_第2頁(yè)
數(shù)學(xué)35系統(tǒng)聚類(lèi)分析_第3頁(yè)
數(shù)學(xué)35系統(tǒng)聚類(lèi)分析_第4頁(yè)
數(shù)學(xué)35系統(tǒng)聚類(lèi)分析_第5頁(yè)
已閱讀5頁(yè),還剩67頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

§3.5系統(tǒng)聚類(lèi)分析俗話說(shuō):“物以類(lèi)聚,人以群分〞本節(jié)內(nèi)容*一聚類(lèi)分析的根本思想二聚類(lèi)要素的數(shù)據(jù)變換處理三聚類(lèi)分析的統(tǒng)計(jì)量四聚類(lèi)分析方法一聚類(lèi)分析的根本思想

聚類(lèi)分析又稱為簇分析,群分析,它是根據(jù)研究對(duì)象的特性進(jìn)行定量分類(lèi)的一種多元統(tǒng)計(jì)方法。根據(jù)分類(lèi)對(duì)象不同分為樣品聚類(lèi)〔Q型聚類(lèi)〕和變量聚類(lèi)〔R型聚類(lèi)〕。根本思想x年均氣溫

y0●●●●●●●●●●●年均降水量我們的研究對(duì)象的樣品〔或變量〕之間存在著不同程度的相似性,根據(jù)所獲得的多個(gè)觀測(cè)指標(biāo)尋找能度量樣本〔或變量〕之間親疏遠(yuǎn)近關(guān)系的統(tǒng)計(jì)量,然后根據(jù)這些統(tǒng)計(jì)量把這些樣品〔或變量〕分成假設(shè)干類(lèi)。技術(shù)路線如下:3聚類(lèi)分析的步驟〔1〕數(shù)據(jù)的變換處理〔2〕聚類(lèi)統(tǒng)計(jì)量的計(jì)算〔3〕選擇聚類(lèi)方法一聚類(lèi)分析的根本思想*二聚類(lèi)要素的數(shù)據(jù)變換處理三聚類(lèi)分析的統(tǒng)計(jì)量四聚類(lèi)分析方法表1聚類(lèi)對(duì)象與要素?cái)?shù)據(jù)

假設(shè)有n個(gè)聚類(lèi)的對(duì)象,每一個(gè)聚類(lèi)對(duì)象都有m個(gè)要素構(gòu)成。它們所對(duì)應(yīng)的要素?cái)?shù)據(jù)可用表1給出。平均值標(biāo)準(zhǔn)差地級(jí)市人均GDPx1第三產(chǎn)比重%x2許昌13036720鄭州24900040.2洛陽(yáng)33600031.8南陽(yáng)41900027.5平頂山52600025焦作63570023.2周口71300024.8安陽(yáng)82500026.2新鄉(xiāng)92200028.6商丘101500029.1信陽(yáng)111400031.4駐馬店121200030.7開(kāi)封131800033.3三門(mén)峽143600023.5濮陽(yáng)152100019.6漯河162600017.5鶴壁172900018濟(jì)源185020019.7均值2651426.1標(biāo)準(zhǔn)差114206.076二聚類(lèi)要素的數(shù)據(jù)變換處理1標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化由這種標(biāo)準(zhǔn)化方法所得到的新數(shù)據(jù),各要素的平均值為0,標(biāo)準(zhǔn)差為1,即有地級(jí)市人均GDP第三產(chǎn)比重%人均GDP第三產(chǎn)比重%許昌130367200.3373-1.0066鄭州24900040.21.9692.3177洛陽(yáng)33600031.80.83060.9353南陽(yáng)41900027.5-0.6580.2277平頂山52600025-0.0451-0.1838焦作63570023.20.8043-0.48周口71300024.8-1.1834-0.2167安陽(yáng)82500026.2-0.13260.0137新鄉(xiāng)92200028.6-0.39530.4087商丘101500029.1-1.00830.491信陽(yáng)111400031.4-1.09590.8695駐馬店121200030.7-1.2710.7543開(kāi)封131800033.3-0.74561.1822三門(mén)峽143600023.50.8306-0.4306濮陽(yáng)152100019.6-0.4829-1.0725漯河162600017.5-0.0451-1.4181鶴壁1729000180.2176-1.3358濟(jì)源185020019.72.074-1.056均值2651426.100標(biāo)準(zhǔn)差114206.07611標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化后數(shù)據(jù)2極差標(biāo)準(zhǔn)化經(jīng)過(guò)這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0,其余的數(shù)值均在0與1之間。地級(jí)市人均GDP第三產(chǎn)比重%人均GDP第三產(chǎn)比重許昌130367200.48080.1101鄭州24900040.20.96861.0000洛陽(yáng)33600031.80.62830.6300南陽(yáng)41900027.50.18320.4405平頂山526000250.36650.3304焦作63570023.20.62040.2511周口71300024.80.02620.3216安陽(yáng)82500026.20.34030.3833新鄉(xiāng)92200028.60.26180.4890商丘101500029.10.07850.5110信陽(yáng)111400031.40.05240.6123駐馬店121200030.70.00000.5815開(kāi)封131800033.30.15710.6960三門(mén)峽143600023.50.62830.2643濮陽(yáng)152100019.60.23560.0925漯河162600017.50.36650.0000鶴壁1729000180.44500.0220濟(jì)源185020019.71.00000.0969均值2651426.1標(biāo)準(zhǔn)差114206.076極差標(biāo)準(zhǔn)化后數(shù)據(jù)3總和標(biāo)準(zhǔn)化

這種標(biāo)準(zhǔn)化方法所得到的新數(shù)據(jù)滿足:4極大值標(biāo)準(zhǔn)化

經(jīng)過(guò)這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,其余各數(shù)值小于1。一聚類(lèi)分析的原理和根本思想二聚類(lèi)要素的數(shù)據(jù)變換處理*三聚類(lèi)分析的統(tǒng)計(jì)量四聚類(lèi)分析方法三聚類(lèi)分析的統(tǒng)計(jì)量〔一〕距離系數(shù)〔二〕相似系數(shù)用于對(duì)樣品進(jìn)行聚類(lèi)用于對(duì)變量進(jìn)行聚類(lèi)〔一〕距離系數(shù)1歐氏距離2絕對(duì)值距離3明科夫斯基距離4切比雪夫距離常用于Q型聚類(lèi)分析,將每個(gè)樣品看作m維空間中的一個(gè)點(diǎn),樣品之間的相似性程度用樣品點(diǎn)之間的距離來(lái)衡量。1.歐氏距離

最常選用的距離,多維空間中的幾何距離,以兩變量差值平方和的平方根為距離。第i行和第j行的歐氏距離為:將所有行的歐氏距離都算出來(lái),可以得到一個(gè)n×n的歐氏距離矩陣:D為對(duì)稱陣,根據(jù)D可對(duì)n個(gè)點(diǎn)進(jìn)行分類(lèi),距離近的點(diǎn)歸為一類(lèi),距離遠(yuǎn)的點(diǎn)歸為不同的類(lèi)。鄭州2濟(jì)源18開(kāi)封13洛陽(yáng)3三門(mén)峽14焦作6漯河16周口7信陽(yáng)11商丘10南陽(yáng)4新鄉(xiāng)9濮陽(yáng)15許昌1鶴壁17平頂山5安陽(yáng)8駐馬店12d152.絕對(duì)值距離

以兩變量絕對(duì)差值之和為距離:絕對(duì)值距離圖示鄭州2濟(jì)源18開(kāi)封13洛陽(yáng)3三門(mén)峽14焦作6漯河16周口7信陽(yáng)11商丘10南陽(yáng)4新鄉(xiāng)9濮陽(yáng)15許昌1鶴壁17平頂山5安陽(yáng)8駐馬店12L1L23明科夫斯基距離

以兩變量絕對(duì)差值的q次冪之和的q次根為距離:

q=1時(shí)為絕對(duì)距離,q=2時(shí)為歐氏距離。4切比雪夫距離1.夾角余弦2.相關(guān)系數(shù)〔二〕相似系數(shù)〔二〕相似系數(shù)1.夾角余弦它是指標(biāo)向量〔xi1,xi2,…,xin)和〔xj1,xj2,…,xjn)之間的夾角余弦。如果把兩兩指標(biāo)間的夾角余弦都計(jì)算出來(lái),便可構(gòu)成一個(gè)m×m階的夾角余弦矩陣:2.相關(guān)系數(shù)〔二〕相似系數(shù)29名兒童的血紅蛋白〔g/100ml〕與微量元素〔μg/100ml〕測(cè)定結(jié)果如下表:由于微量元素的測(cè)定本錢(qián)高、耗時(shí)長(zhǎng),故希望通過(guò)聚類(lèi)分析〔即R型指標(biāo)聚類(lèi)〕篩選代表性指標(biāo),以便更經(jīng)濟(jì)快捷地評(píng)價(jià)兒童的營(yíng)養(yǎng)狀態(tài)。一聚類(lèi)分析的根本思想二聚類(lèi)要素的數(shù)據(jù)變換處理三聚類(lèi)分析的統(tǒng)計(jì)量*四聚類(lèi)分析方法四系統(tǒng)聚類(lèi)方法1直接聚類(lèi)法2最短距離法3最長(zhǎng)距離法某地區(qū)9個(gè)農(nóng)業(yè)區(qū)的7項(xiàng)經(jīng)濟(jì)指標(biāo)數(shù)據(jù)

區(qū)代號(hào)人均耕地X1/(hm2·人-1)勞均耕地X2/(hm2·個(gè)-1)水田比重X3/%復(fù)種指數(shù)x4/%糧食單產(chǎn)x5/(kg·hm-2)人均糧食x6/(kg·人-1

)稻谷占糧食比重x7/%G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.179個(gè)農(nóng)業(yè)區(qū)之間的絕對(duì)值距離矩陣如下

1直接聚類(lèi)法原理先把各個(gè)分類(lèi)對(duì)象單獨(dú)視為一類(lèi),然后根據(jù)距離最小的原那么,依次選出一對(duì)分類(lèi)對(duì)象,并成新類(lèi)。如果其中一個(gè)分類(lèi)對(duì)象已歸于一類(lèi),那么把另一個(gè)也歸入該類(lèi);如果一對(duì)分類(lèi)對(duì)象正好屬于已歸的兩類(lèi),那么把這兩類(lèi)并為一類(lèi)。每一次歸并,都劃去該對(duì)象所在的行及與行序相同的列。經(jīng)過(guò)n-1次就可以把全局部類(lèi)對(duì)象歸為一類(lèi),這樣就可以根據(jù)歸并的先后順序作出聚類(lèi)譜系圖。G1G2G3G4G5G6G7G8G9G10G21.520G33.102.700G42.191.471.230G55.866.023.644.770G64.724.461.862.991.780G75.795.532.934.060.831.070G81.320.882.241.295.143.965.030G92.621.661.200.514.843.063.321.4000.510.830.881.231.521.783.10直接聚類(lèi)譜系圖

2最短距離法

原理最短距離聚類(lèi)法,是在原來(lái)的n×n距離矩陣的非對(duì)角元素中找出,把分類(lèi)對(duì)象Gp和Gq歸并為一新類(lèi)Gr,然后按計(jì)算公式計(jì)算原來(lái)各類(lèi)與新類(lèi)之間的距離,這樣就得到一個(gè)新的〔n-1〕階的距離矩陣;再?gòu)男碌木嚯x矩陣中選出最小者dij,把Gi和Gj歸并成新類(lèi);再計(jì)算各類(lèi)與新類(lèi)的距離,這樣一直下去,直至各分類(lèi)對(duì)象被歸為一類(lèi)為止。1·2·Gp·3·4dp3=min{d13,d23}=d13dp4=min{d14,d24}=d24G1G2G3G4G5G6G7G8G9G10G21.520G33.102.700G42.191.471.230G55.866.023.644.770G64.724.461.862.991.780G75.795.532.934.060.831.070G81.320.882.241.295.143.965.030G92.621.661.200.514.843.063.321.400D(1)表G10={G4,G9}0.51第一步,在9×9階距離矩陣D〔1〕中,非對(duì)角元素中最小者是d94=0.51,首先將第4區(qū)與第9區(qū)并為一類(lèi),記為G10={G4,G9}。分別計(jì)算G1,G2,G3,G5,G6,G7,G8與G10之間的距離,得到一個(gè)新的8×8的距離矩陣。d1,10=min{d14,d19}=min{2.19,2.62}=2.19d2,10=min{d24,d29}=min{1.47,1.66}=1.47d3,10=min{d34,d39}=min{1.23,1.20}=1.20d5,10=min{d54,d59}=min{4.77,4.84}=4.77d6,10=min{d64,d69}=min{2.99,3.06}=2.99d7,10=min{d74,d79}=min{4.06,3.32}=3.32d8,10=min{d84,d89}=min{1.29,1.40}=1.29第二步,在8×8階距離矩陣中:

G1G2G3G5G6G7G8G10

G10G21.520G33.102.700G55.866.023.640G64.724.461.861.780G75.795.532.930.831.070G81.320.882.245.143.965.030G102.191.471.204.772.993.321.290D(2)表0.83G11={G5,G7}分別計(jì)算G1,G2,G3,G6,G8,G10與G11之間的距離,得到一個(gè)新的7×7的距離矩陣。d1,11=min{d15,d17}=min{5.86,5.79}=5.79d2,11=min{d25,d27}=min{6.02,5.53}=5.53d3,11=min{d35,d37}=min{3.64,2.93}=2.93d6,11=min{d65,d67}=min{1.78,1.07}=1.07d8,11=min{d85,d87}=min{5.14,5.03}=5.03d10,11=min{d10,5,d10,7}=min{4.77,3.32}=3.32第三步,在7×7階距離矩陣中:

G12={G2,G8}G1G2G3G6G8G10G11

G10G21.520G33.102.700G64.724.461.860G81.320.882.243.960G102.191.471.202.991.290G115.795.532.931.075.033.320D(3)表0.88分別計(jì)算G1,G3,G6,G10,G11與G12的距離,可得到一個(gè)新的6×6階距離矩陣。d1,12=min{d12,d18}=min{1.52,1.32}=1.32d3,12=min{d32,d38}=min{2.70,2.24}=2.24d6,12=min{d62,d68}=min{4.46,3.96}=3.96d10,12=min{d10,2,d10,8}=min{1.47,1.29}=1.29d11,12=min{d11,2,d11,8}=min{5.53,5.03}=5.03第四步,在6×6階距離矩陣中:

G1G3G6G10G11G12

G10G33.100G64.721.860G102.191.202.990G115.792.931.073.320G121.322.243.961.295.030D(4)表G13={G6,G11}1.07分別計(jì)算G1,G3,G10,G12與G13的距離,可得到一個(gè)新的5×5階距離矩陣。d1,13=min{d16,d1,11}=min{4.72,5.79}=4.72d3,13=min{d36,d3,11}=min{1.86,2.93}=1.86d10,13=min{d10,6,d10,11}=min{2.99,3.32}=2.99d12,13=min{d12,6,d12,11}=min{3.96,5.03}=3.96第五步,在5×5階距離矩陣中:

G1G3G10

G12G13G10G33.100G102.191.200G121.322.241.290G134.721.862.993.960D(5)表G14={G3,G10}1.20分別計(jì)算G1,G12,G13與G14的距離,可得到一個(gè)新的4×4階距離矩陣。d1,14=min{d13,d1,10}=min{3.10,2.19}=2.19d12,14=min{d12,3,d12,10}=min{2.24,1.29}=1.29d13,14=min{d13,3,d13,10}=min{1.86,2.99}=1.86第六步,在4×4階距離矩陣中:

G1G12G13G14G10G121.320G134.723.960G142.191.291.860D(6)表G15={G12,G14}1.29分別計(jì)算G1,G13與G15的距離,可得到一個(gè)新的3×3階距離矩陣。d1,15=min{d1,12,d1,14}=min{1.32,2.19}=1.32d13,15=min{d13,12,d13,14}=min{3.96,1.86}=1.86第七步,在3×3階距離矩陣中:

G1G13G15G10G134.720G151.321.860D(7)表G16={G1,G15}1.32計(jì)算G13與G16的距離,可得到一個(gè)新的2×2階距離矩陣。d13,16=min{d13,1,d13,15}=min{4.72,1.86}=1.86第八步,在2×2階距離矩陣中:

D(8)表G17={G13,G16}G13G16G130G161.8601.86第九步,綜上聚類(lèi)過(guò)程得到譜系圖:最短距離聚類(lèi)譜系圖3最長(zhǎng)距離聚類(lèi)法最遠(yuǎn)距離聚類(lèi)法與最短距離聚類(lèi)法的區(qū)別在于計(jì)算原來(lái)的類(lèi)與新類(lèi)距離時(shí)采用的公式不同。最遠(yuǎn)距離聚類(lèi)法的計(jì)算公式是1·2·Gp·3·4dp3=max{d13,d23}=d23dp4=max{d14,d24}=d14G1G2G3G4G5G6G7G8G9G10G21.520G33.102.700G42.191.471.230G55.866.023.644.770G64.724.461.862.991.780G75.795.532.934.060.831.070G81.320.882.241.295.143.965.030G92.621.661.200.514.843.063.321.400D(1)表G10={G4,G9}0.51第一步,在9×9階距離矩陣D〔1〕中,非對(duì)角元素中最小者是d94=0.51,首先將第4區(qū)與第9區(qū)并為一類(lèi),記為G10={G4,G9}。分別計(jì)算G1,G2,G3,G5,G6,G7,G8與G10之間的距離,得到一個(gè)新的8×8的距離矩陣。d1,10=max{d14,d19}=max{2.19,2.62}=2.62d2,10=max{d24,d29}=max{1.47,1.66}=1.66d3,10=max{d34,d39}=max{1.23,1.20}=1.23d5,10=max{d54,d59}=max{4.77,4.84}=4.84d6,10=max{d64,d69}=max{2.99,3.06}=3.06d7,10=max{d74,d79}=max{4.06,3.32}=4.06d8,10=max{d84,d89}=max{1.29,1.40}=1.40第二步,在8×8階距離矩陣中:

G1G2G3G5G6G7G8G10

G10G21.520G33.102.700G55.866.023.640G64.724.461.861.780G75.795.532.930.831.070G81.320.882.245.143.965.030G102.621.661.234.843.064.061.400D(2)表0.83G11={G5,G7}分別計(jì)算G1,G2,G3,G6,G8,G10與G11之間的距離,得到一個(gè)新的7×7的距離矩陣。d1,11=max{d15,d17}=max{5.86,5.79}=5.86d2,11=max{d25,d27}=max{6.02,5.53}=6.02d3,11=max{d35,d37}=max{3.64,2.93}=3.64d6,11=max{d65,d67}=max{1.78,1.07}=1.78d8,11=max{d85,d87}=max{5.14,5.03}=5.14d10,11=max{d10,5,d10,7}=max{4.84,4.06}=4.84第三步,在7×7階距離矩陣中:

G12={G2,G8}G1G2G3G6G8G10G11

G10G21.520G33.102.700G64.724.461.860G81.320.882.243.960G102.621.661.233.061.400G115.866.023.641.785.144.840D(3)表0.88分別計(jì)算G1,G3,G6,G10,G11與G12的距離,可得到一個(gè)新的6×6階距離矩陣。d1,12=max{d12,d18}=max{1.52,1.32}=1.52d3,12=max{d32,d38}=max{2.70,2.24}=2.70d6,12=max{d62,d68}=max{4.46,3.96}=4.46d10,12=max{d10,2,d10,8}=max{1.66,1.40}=1.66d11,12=min{d11,2,d11,8}=min{6.02,5.14}=6.02第四步,在6×6階距離矩陣中:

G1G3G6G10G11G12

G10G33.100G64.721.860G102.621.233.060G115.863.641.784.840G121.522.704.461.666.020D(4)表G13={G3,G10}1.23分別計(jì)算G1,G6,G11,G12與G13的距離,可得到一個(gè)新的5×5階距離矩陣。d1,13=max{d13,d1,10}=max{3.10,2.62}=3.10d6,13=max{d63,d6,10}=max{1.86,3.06}=3.06d11,13=max{d11,3,d11,10}=max{1.78,4.84}=4.84d12,13=max{d12,3,d12,10}=max{2.70,1.66}=2.70第五步,在5×5階距離矩陣中:

G1G6G11

G12G13G10G64.720G115.861.780G121.524.466.020G133.103.064.842.700D(5)表G14={G1,G12}1.52分別計(jì)算G6,G11,G13與G14的距離,可得到一個(gè)新的4×4階距離矩陣。d6,14=max{d61,d6,12}=max{4.72,4.46}=4.72d11,14=max{d11,1,d11,12}=max{5.86,6.02}=6.02d13,14=max{d13,1,d13,12}=max{3.10,2.70}=3.10第六步,在4×4階距離矩陣中:

G

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論