




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
§3.5系統(tǒng)聚類分析俗話說:“物以類聚,人以群分〞本節(jié)內(nèi)容*一聚類分析的根本思想二聚類要素的數(shù)據(jù)變換處理三聚類分析的統(tǒng)計量四聚類分析方法一聚類分析的根本思想
聚類分析又稱為簇分析,群分析,它是根據(jù)研究對象的特性進行定量分類的一種多元統(tǒng)計方法。根據(jù)分類對象不同分為樣品聚類〔Q型聚類〕和變量聚類〔R型聚類〕。根本思想x年均氣溫
y0●●●●●●●●●●●年均降水量我們的研究對象的樣品〔或變量〕之間存在著不同程度的相似性,根據(jù)所獲得的多個觀測指標尋找能度量樣本〔或變量〕之間親疏遠近關系的統(tǒng)計量,然后根據(jù)這些統(tǒng)計量把這些樣品〔或變量〕分成假設干類。技術路線如下:3聚類分析的步驟〔1〕數(shù)據(jù)的變換處理〔2〕聚類統(tǒng)計量的計算〔3〕選擇聚類方法一聚類分析的根本思想*二聚類要素的數(shù)據(jù)變換處理三聚類分析的統(tǒng)計量四聚類分析方法表1聚類對象與要素數(shù)據(jù)
假設有n個聚類的對象,每一個聚類對象都有m個要素構(gòu)成。它們所對應的要素數(shù)據(jù)可用表1給出。平均值標準差地級市人均GDPx1第三產(chǎn)比重%x2許昌13036720鄭州24900040.2洛陽33600031.8南陽41900027.5平頂山52600025焦作63570023.2周口71300024.8安陽82500026.2新鄉(xiāng)92200028.6商丘101500029.1信陽111400031.4駐馬店121200030.7開封131800033.3三門峽143600023.5濮陽152100019.6漯河162600017.5鶴壁172900018濟源185020019.7均值2651426.1標準差114206.076二聚類要素的數(shù)據(jù)變換處理1標準差標準化由這種標準化方法所得到的新數(shù)據(jù),各要素的平均值為0,標準差為1,即有地級市人均GDP第三產(chǎn)比重%人均GDP第三產(chǎn)比重%許昌130367200.3373-1.0066鄭州24900040.21.9692.3177洛陽33600031.80.83060.9353南陽41900027.5-0.6580.2277平頂山52600025-0.0451-0.1838焦作63570023.20.8043-0.48周口71300024.8-1.1834-0.2167安陽82500026.2-0.13260.0137新鄉(xiāng)92200028.6-0.39530.4087商丘101500029.1-1.00830.491信陽111400031.4-1.09590.8695駐馬店121200030.7-1.2710.7543開封131800033.3-0.74561.1822三門峽143600023.50.8306-0.4306濮陽152100019.6-0.4829-1.0725漯河162600017.5-0.0451-1.4181鶴壁1729000180.2176-1.3358濟源185020019.72.074-1.056均值2651426.100標準差114206.07611標準差標準化后數(shù)據(jù)2極差標準化經(jīng)過這種標準化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0,其余的數(shù)值均在0與1之間。地級市人均GDP第三產(chǎn)比重%人均GDP第三產(chǎn)比重許昌130367200.48080.1101鄭州24900040.20.96861.0000洛陽33600031.80.62830.6300南陽41900027.50.18320.4405平頂山526000250.36650.3304焦作63570023.20.62040.2511周口71300024.80.02620.3216安陽82500026.20.34030.3833新鄉(xiāng)92200028.60.26180.4890商丘101500029.10.07850.5110信陽111400031.40.05240.6123駐馬店121200030.70.00000.5815開封131800033.30.15710.6960三門峽143600023.50.62830.2643濮陽152100019.60.23560.0925漯河162600017.50.36650.0000鶴壁1729000180.44500.0220濟源185020019.71.00000.0969均值2651426.1標準差114206.076極差標準化后數(shù)據(jù)3總和標準化
這種標準化方法所得到的新數(shù)據(jù)滿足:4極大值標準化
經(jīng)過這種標準化所得的新數(shù)據(jù),各要素的極大值為1,其余各數(shù)值小于1。一聚類分析的原理和根本思想二聚類要素的數(shù)據(jù)變換處理*三聚類分析的統(tǒng)計量四聚類分析方法三聚類分析的統(tǒng)計量〔一〕距離系數(shù)〔二〕相似系數(shù)用于對樣品進行聚類用于對變量進行聚類〔一〕距離系數(shù)1歐氏距離2絕對值距離3明科夫斯基距離4切比雪夫距離常用于Q型聚類分析,將每個樣品看作m維空間中的一個點,樣品之間的相似性程度用樣品點之間的距離來衡量。1.歐氏距離
最常選用的距離,多維空間中的幾何距離,以兩變量差值平方和的平方根為距離。第i行和第j行的歐氏距離為:將所有行的歐氏距離都算出來,可以得到一個n×n的歐氏距離矩陣:D為對稱陣,根據(jù)D可對n個點進行分類,距離近的點歸為一類,距離遠的點歸為不同的類。鄭州2濟源18開封13洛陽3三門峽14焦作6漯河16周口7信陽11商丘10南陽4新鄉(xiāng)9濮陽15許昌1鶴壁17平頂山5安陽8駐馬店12d152.絕對值距離
以兩變量絕對差值之和為距離:絕對值距離圖示鄭州2濟源18開封13洛陽3三門峽14焦作6漯河16周口7信陽11商丘10南陽4新鄉(xiāng)9濮陽15許昌1鶴壁17平頂山5安陽8駐馬店12L1L23明科夫斯基距離
以兩變量絕對差值的q次冪之和的q次根為距離:
q=1時為絕對距離,q=2時為歐氏距離。4切比雪夫距離1.夾角余弦2.相關系數(shù)〔二〕相似系數(shù)〔二〕相似系數(shù)1.夾角余弦它是指標向量〔xi1,xi2,…,xin)和〔xj1,xj2,…,xjn)之間的夾角余弦。如果把兩兩指標間的夾角余弦都計算出來,便可構(gòu)成一個m×m階的夾角余弦矩陣:2.相關系數(shù)〔二〕相似系數(shù)29名兒童的血紅蛋白〔g/100ml〕與微量元素〔μg/100ml〕測定結(jié)果如下表:由于微量元素的測定本錢高、耗時長,故希望通過聚類分析〔即R型指標聚類〕篩選代表性指標,以便更經(jīng)濟快捷地評價兒童的營養(yǎng)狀態(tài)。一聚類分析的根本思想二聚類要素的數(shù)據(jù)變換處理三聚類分析的統(tǒng)計量*四聚類分析方法四系統(tǒng)聚類方法1直接聚類法2最短距離法3最長距離法某地區(qū)9個農(nóng)業(yè)區(qū)的7項經(jīng)濟指標數(shù)據(jù)
區(qū)代號人均耕地X1/(hm2·人-1)勞均耕地X2/(hm2·個-1)水田比重X3/%復種指數(shù)x4/%糧食單產(chǎn)x5/(kg·hm-2)人均糧食x6/(kg·人-1
)稻谷占糧食比重x7/%G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.179個農(nóng)業(yè)區(qū)之間的絕對值距離矩陣如下
1直接聚類法原理先把各個分類對象單獨視為一類,然后根據(jù)距離最小的原那么,依次選出一對分類對象,并成新類。如果其中一個分類對象已歸于一類,那么把另一個也歸入該類;如果一對分類對象正好屬于已歸的兩類,那么把這兩類并為一類。每一次歸并,都劃去該對象所在的行及與行序相同的列。經(jīng)過n-1次就可以把全局部類對象歸為一類,這樣就可以根據(jù)歸并的先后順序作出聚類譜系圖。G1G2G3G4G5G6G7G8G9G10G21.520G33.102.700G42.191.471.230G55.866.023.644.770G64.724.461.862.991.780G75.795.532.934.060.831.070G81.320.882.241.295.143.965.030G92.621.661.200.514.843.063.321.4000.510.830.881.231.521.783.10直接聚類譜系圖
2最短距離法
原理最短距離聚類法,是在原來的n×n距離矩陣的非對角元素中找出,把分類對象Gp和Gq歸并為一新類Gr,然后按計算公式計算原來各類與新類之間的距離,這樣就得到一個新的〔n-1〕階的距離矩陣;再從新的距離矩陣中選出最小者dij,把Gi和Gj歸并成新類;再計算各類與新類的距離,這樣一直下去,直至各分類對象被歸為一類為止。1·2·Gp·3·4dp3=min{d13,d23}=d13dp4=min{d14,d24}=d24G1G2G3G4G5G6G7G8G9G10G21.520G33.102.700G42.191.471.230G55.866.023.644.770G64.724.461.862.991.780G75.795.532.934.060.831.070G81.320.882.241.295.143.965.030G92.621.661.200.514.843.063.321.400D(1)表G10={G4,G9}0.51第一步,在9×9階距離矩陣D〔1〕中,非對角元素中最小者是d94=0.51,首先將第4區(qū)與第9區(qū)并為一類,記為G10={G4,G9}。分別計算G1,G2,G3,G5,G6,G7,G8與G10之間的距離,得到一個新的8×8的距離矩陣。d1,10=min{d14,d19}=min{2.19,2.62}=2.19d2,10=min{d24,d29}=min{1.47,1.66}=1.47d3,10=min{d34,d39}=min{1.23,1.20}=1.20d5,10=min{d54,d59}=min{4.77,4.84}=4.77d6,10=min{d64,d69}=min{2.99,3.06}=2.99d7,10=min{d74,d79}=min{4.06,3.32}=3.32d8,10=min{d84,d89}=min{1.29,1.40}=1.29第二步,在8×8階距離矩陣中:
G1G2G3G5G6G7G8G10
G10G21.520G33.102.700G55.866.023.640G64.724.461.861.780G75.795.532.930.831.070G81.320.882.245.143.965.030G102.191.471.204.772.993.321.290D(2)表0.83G11={G5,G7}分別計算G1,G2,G3,G6,G8,G10與G11之間的距離,得到一個新的7×7的距離矩陣。d1,11=min{d15,d17}=min{5.86,5.79}=5.79d2,11=min{d25,d27}=min{6.02,5.53}=5.53d3,11=min{d35,d37}=min{3.64,2.93}=2.93d6,11=min{d65,d67}=min{1.78,1.07}=1.07d8,11=min{d85,d87}=min{5.14,5.03}=5.03d10,11=min{d10,5,d10,7}=min{4.77,3.32}=3.32第三步,在7×7階距離矩陣中:
G12={G2,G8}G1G2G3G6G8G10G11
G10G21.520G33.102.700G64.724.461.860G81.320.882.243.960G102.191.471.202.991.290G115.795.532.931.075.033.320D(3)表0.88分別計算G1,G3,G6,G10,G11與G12的距離,可得到一個新的6×6階距離矩陣。d1,12=min{d12,d18}=min{1.52,1.32}=1.32d3,12=min{d32,d38}=min{2.70,2.24}=2.24d6,12=min{d62,d68}=min{4.46,3.96}=3.96d10,12=min{d10,2,d10,8}=min{1.47,1.29}=1.29d11,12=min{d11,2,d11,8}=min{5.53,5.03}=5.03第四步,在6×6階距離矩陣中:
G1G3G6G10G11G12
G10G33.100G64.721.860G102.191.202.990G115.792.931.073.320G121.322.243.961.295.030D(4)表G13={G6,G11}1.07分別計算G1,G3,G10,G12與G13的距離,可得到一個新的5×5階距離矩陣。d1,13=min{d16,d1,11}=min{4.72,5.79}=4.72d3,13=min{d36,d3,11}=min{1.86,2.93}=1.86d10,13=min{d10,6,d10,11}=min{2.99,3.32}=2.99d12,13=min{d12,6,d12,11}=min{3.96,5.03}=3.96第五步,在5×5階距離矩陣中:
G1G3G10
G12G13G10G33.100G102.191.200G121.322.241.290G134.721.862.993.960D(5)表G14={G3,G10}1.20分別計算G1,G12,G13與G14的距離,可得到一個新的4×4階距離矩陣。d1,14=min{d13,d1,10}=min{3.10,2.19}=2.19d12,14=min{d12,3,d12,10}=min{2.24,1.29}=1.29d13,14=min{d13,3,d13,10}=min{1.86,2.99}=1.86第六步,在4×4階距離矩陣中:
G1G12G13G14G10G121.320G134.723.960G142.191.291.860D(6)表G15={G12,G14}1.29分別計算G1,G13與G15的距離,可得到一個新的3×3階距離矩陣。d1,15=min{d1,12,d1,14}=min{1.32,2.19}=1.32d13,15=min{d13,12,d13,14}=min{3.96,1.86}=1.86第七步,在3×3階距離矩陣中:
G1G13G15G10G134.720G151.321.860D(7)表G16={G1,G15}1.32計算G13與G16的距離,可得到一個新的2×2階距離矩陣。d13,16=min{d13,1,d13,15}=min{4.72,1.86}=1.86第八步,在2×2階距離矩陣中:
D(8)表G17={G13,G16}G13G16G130G161.8601.86第九步,綜上聚類過程得到譜系圖:最短距離聚類譜系圖3最長距離聚類法最遠距離聚類法與最短距離聚類法的區(qū)別在于計算原來的類與新類距離時采用的公式不同。最遠距離聚類法的計算公式是1·2·Gp·3·4dp3=max{d13,d23}=d23dp4=max{d14,d24}=d14G1G2G3G4G5G6G7G8G9G10G21.520G33.102.700G42.191.471.230G55.866.023.644.770G64.724.461.862.991.780G75.795.532.934.060.831.070G81.320.882.241.295.143.965.030G92.621.661.200.514.843.063.321.400D(1)表G10={G4,G9}0.51第一步,在9×9階距離矩陣D〔1〕中,非對角元素中最小者是d94=0.51,首先將第4區(qū)與第9區(qū)并為一類,記為G10={G4,G9}。分別計算G1,G2,G3,G5,G6,G7,G8與G10之間的距離,得到一個新的8×8的距離矩陣。d1,10=max{d14,d19}=max{2.19,2.62}=2.62d2,10=max{d24,d29}=max{1.47,1.66}=1.66d3,10=max{d34,d39}=max{1.23,1.20}=1.23d5,10=max{d54,d59}=max{4.77,4.84}=4.84d6,10=max{d64,d69}=max{2.99,3.06}=3.06d7,10=max{d74,d79}=max{4.06,3.32}=4.06d8,10=max{d84,d89}=max{1.29,1.40}=1.40第二步,在8×8階距離矩陣中:
G1G2G3G5G6G7G8G10
G10G21.520G33.102.700G55.866.023.640G64.724.461.861.780G75.795.532.930.831.070G81.320.882.245.143.965.030G102.621.661.234.843.064.061.400D(2)表0.83G11={G5,G7}分別計算G1,G2,G3,G6,G8,G10與G11之間的距離,得到一個新的7×7的距離矩陣。d1,11=max{d15,d17}=max{5.86,5.79}=5.86d2,11=max{d25,d27}=max{6.02,5.53}=6.02d3,11=max{d35,d37}=max{3.64,2.93}=3.64d6,11=max{d65,d67}=max{1.78,1.07}=1.78d8,11=max{d85,d87}=max{5.14,5.03}=5.14d10,11=max{d10,5,d10,7}=max{4.84,4.06}=4.84第三步,在7×7階距離矩陣中:
G12={G2,G8}G1G2G3G6G8G10G11
G10G21.520G33.102.700G64.724.461.860G81.320.882.243.960G102.621.661.233.061.400G115.866.023.641.785.144.840D(3)表0.88分別計算G1,G3,G6,G10,G11與G12的距離,可得到一個新的6×6階距離矩陣。d1,12=max{d12,d18}=max{1.52,1.32}=1.52d3,12=max{d32,d38}=max{2.70,2.24}=2.70d6,12=max{d62,d68}=max{4.46,3.96}=4.46d10,12=max{d10,2,d10,8}=max{1.66,1.40}=1.66d11,12=min{d11,2,d11,8}=min{6.02,5.14}=6.02第四步,在6×6階距離矩陣中:
G1G3G6G10G11G12
G10G33.100G64.721.860G102.621.233.060G115.863.641.784.840G121.522.704.461.666.020D(4)表G13={G3,G10}1.23分別計算G1,G6,G11,G12與G13的距離,可得到一個新的5×5階距離矩陣。d1,13=max{d13,d1,10}=max{3.10,2.62}=3.10d6,13=max{d63,d6,10}=max{1.86,3.06}=3.06d11,13=max{d11,3,d11,10}=max{1.78,4.84}=4.84d12,13=max{d12,3,d12,10}=max{2.70,1.66}=2.70第五步,在5×5階距離矩陣中:
G1G6G11
G12G13G10G64.720G115.861.780G121.524.466.020G133.103.064.842.700D(5)表G14={G1,G12}1.52分別計算G6,G11,G13與G14的距離,可得到一個新的4×4階距離矩陣。d6,14=max{d61,d6,12}=max{4.72,4.46}=4.72d11,14=max{d11,1,d11,12}=max{5.86,6.02}=6.02d13,14=max{d13,1,d13,12}=max{3.10,2.70}=3.10第六步,在4×4階距離矩陣中:
G
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 駱駝祥子人物性格分析教學教案:探究社會變遷與人性的掙扎
- 汽車租賃三方合同
- 農(nóng)作物種植技術手冊
- 圖表展示各類數(shù)據(jù)統(tǒng)計情況
- 小學生數(shù)學應用題的作文分析與實踐指導
- 留置擔保合同協(xié)議書
- 文學佳作圍城中的人物形象解讀
- 智能交通大數(shù)據(jù)平臺開發(fā)協(xié)議
- 企業(yè)戰(zhàn)略聯(lián)盟穩(wěn)定性評價與維護
- 產(chǎn)品推廣合作合同
- FZ/T 24011-2019羊絨機織圍巾、披肩
- 【課件】2.1.1植物細胞工程的基本技術課件-2021-2022學年高二下學期生物人教版選擇性必修3
- 35kV集電線路直埋施工組織設計方案
- 客戶來訪登記表
- 日產(chǎn)新軒逸電子手冊cvt
- 人教八年級下冊英語U5Do-you-remember-what-you-were-doing?課件
- 大連市小升初手冊
- 醫(yī)療垃圾管理及手衛(wèi)生培訓PPT課件
- 嚇數(shù)基礎知識共20
- 鋰電池安全知識培訓-課件
- 電子產(chǎn)品高可靠性裝聯(lián)工藝下
評論
0/150
提交評論