




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第二節(jié)第二節(jié) 聚類分析聚類分析 聚類分析Cluster Analysis是研討“物以類聚的一種多元統(tǒng)計(jì)方法。國內(nèi)有人稱它為群分析、點(diǎn)群分析、簇群分析等。一、聚類分析的根本概念一、聚類分析的根本概念l研討對樣品或目的進(jìn)展分類的一種多元統(tǒng)計(jì)方法,是根據(jù)研討對象的個(gè)體的特征進(jìn)展分類的方法。l聚類分析把分類對象按一定規(guī)那么分成假設(shè)干類,這些類非事先給定的,而是根據(jù)數(shù)據(jù)特征確定的。在同一類中這些對象在某種意義上趨向于彼此類似,而在不同類中趨向于不類似。l職能是建立一種能按照樣品或變量的類似程度進(jìn)展分類的方法。 聚類分析的根本思想是以為我們所研討的樣本或目的聚類分析的根本思想是以為我們所研討的樣本或目的變
2、量之間存在著程度不同的類似性親疏關(guān)系。于是變量之間存在著程度不同的類似性親疏關(guān)系。于是根據(jù)一批樣本的多個(gè)觀測目的,詳細(xì)找出一些彼此之間類似根據(jù)一批樣本的多個(gè)觀測目的,詳細(xì)找出一些彼此之間類似程度較大的樣本或目的聚合為一類,把另外一些彼此之程度較大的樣本或目的聚合為一類,把另外一些彼此之間類似程度較大的樣本或目的又聚合為另一類,關(guān)系親間類似程度較大的樣本或目的又聚合為另一類,關(guān)系親密的聚合到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的密的聚合到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位,直到把一切樣本或目的都聚合終了,把不同分類單位,直到把一切樣本或目的都聚合終了,把不同的類型一一劃分出來
3、,構(gòu)成一個(gè)由小到大的分類系統(tǒng)。最后的類型一一劃分出來,構(gòu)成一個(gè)由小到大的分類系統(tǒng)。最后把整個(gè)分類系統(tǒng)畫成一張譜系圖,用它把一切樣本或目的把整個(gè)分類系統(tǒng)畫成一張譜系圖,用它把一切樣本或目的間的親疏關(guān)系表示出來。這種方法是最常用的、最根本的一間的親疏關(guān)系表示出來。這種方法是最常用的、最根本的一種,稱為系統(tǒng)聚類分析。種,稱為系統(tǒng)聚類分析。l除此以外,還有動態(tài)聚類法、圖論聚類法、模糊聚類法、有序聚類法等。l聚類分析有兩種:一種是對樣本的分類,稱為Q型,另一種是對變量目的的分類,稱為R型。lR型聚類分析的主要作用:型聚類分析的主要作用:l 不但可以了解個(gè)別變量之間的親疏程度,不但可以了解個(gè)別變量之間的親
4、疏程度,而且可以了解各個(gè)變量組合之間的親疏程度。而且可以了解各個(gè)變量組合之間的親疏程度。l 根據(jù)變量的分類結(jié)果以及它們之間的關(guān)系,根據(jù)變量的分類結(jié)果以及它們之間的關(guān)系,可以選擇主要變量進(jìn)展可以選擇主要變量進(jìn)展Q型聚類分析或回歸分析。型聚類分析或回歸分析。R2為選擇規(guī)范為選擇規(guī)范lQ型聚類分析的主要作用:型聚類分析的主要作用:l 可以綜合利用多個(gè)變量的信息對樣本進(jìn)展可以綜合利用多個(gè)變量的信息對樣本進(jìn)展分析。分析。l 分類結(jié)果直觀,聚類譜系圖清楚地表現(xiàn)數(shù)分類結(jié)果直觀,聚類譜系圖清楚地表現(xiàn)數(shù)值分類結(jié)果。值分類結(jié)果。l 聚類分析所得到的結(jié)果比傳統(tǒng)分類方法更聚類分析所得到的結(jié)果比傳統(tǒng)分類方法更細(xì)致、全面
5、、合理。細(xì)致、全面、合理。l在課堂上主要討論在課堂上主要討論Q型聚類分析型聚類分析, Q型聚類常用型聚類常用的統(tǒng)計(jì)量是間隔的統(tǒng)計(jì)量是間隔.l那么那么Q型系統(tǒng)聚類法那么可以表述為:型系統(tǒng)聚類法那么可以表述為:l 把樣本看成把樣本看成n維空間的點(diǎn),而把變量看維空間的點(diǎn),而把變量看成成n維空間的坐標(biāo)軸,維空間的坐標(biāo)軸,m個(gè)樣本開場時(shí)自成一個(gè)樣本開場時(shí)自成一類,然后規(guī)定各類之間的間隔,將間隔最小的類,然后規(guī)定各類之間的間隔,將間隔最小的一對并成一類,然后再計(jì)算間隔,直到一切單一對并成一類,然后再計(jì)算間隔,直到一切單位全部合并為止。位全部合并為止。二、間隔和類似系數(shù)二、間隔和類似系數(shù) 在進(jìn)展聚類分析時(shí),
6、樣本間的類似系數(shù)和間隔有多種不同的定義,通常按特性來劃分。變量特征的測度尺度有三種類型: 間隔尺度由延續(xù)的實(shí)值變量表示 有序尺度沒有明確的數(shù)量表示,只需次序關(guān)系,如產(chǎn)品等級 名義尺度具有某種特性,如性別l從一組復(fù)雜數(shù)據(jù)產(chǎn)生一個(gè)相當(dāng)簡單的類構(gòu)造,必然要求進(jìn)展“相關(guān)性或“類似性的度量。在類似性度量的選擇中,經(jīng)常包含許多客觀上的思索,但最重要的思索是目的的性質(zhì)或觀測的尺度名義、次序、間隔以及相關(guān)知識。l課堂上主要討論的目的丈量為間隔尺度的情況。間隔間隔l每個(gè)樣本有p個(gè)目的,因此每個(gè)樣本可以看成p維空間中的一個(gè)點(diǎn),n個(gè)樣本就組成p維空間中的n個(gè)點(diǎn),這時(shí)很自然想到用間隔來度量n個(gè)樣本間的接近程度。l用
7、表示第i個(gè)樣本與第j個(gè)樣本之間的間隔。一切間隔應(yīng)滿足以下條件:kjidddjiddjidjidkjikijjiijijij, 0, 0對于一切,對于一切的指標(biāo)相同與樣本等價(jià)于樣本對于一切ijd常見的間隔有:常見的間隔有:lblock distance 絕對值間隔:絕對值間隔:leuclidean distance 歐式間隔歐式間隔lsquared euclidean distance 平方歐式間隔平方歐式間隔lchebychev distance 切比雪夫間隔切比雪夫間隔lminkowski distance 明考斯基間隔明考斯基間隔l 明氏間隔明氏間隔l當(dāng)當(dāng)q=1,2時(shí),為絕對值、歐式間隔;
8、時(shí),為絕對值、歐式間隔;l假設(shè)趨近無窮時(shí),那么為切比雪夫間隔假設(shè)趨近無窮時(shí),那么為切比雪夫間隔xxMaxjtittdptxxdjtit1ptjtitxxd1221ptjtitxxdptqjtitxxdq11明氏間隔在實(shí)踐的運(yùn)用很多,但有一些缺陷。明氏間隔在實(shí)踐的運(yùn)用很多,但有一些缺陷。例如觀測值的單位問題;目的間的相關(guān)問題,例如觀測值的單位問題;目的間的相關(guān)問題,因此改良得到以下兩種間隔:因此改良得到以下兩種間隔:lLanberra 蘭氏間隔lMahalanobis 馬氏間隔l以上都是樣本間間隔的定義。ptjtitjtitijxxxxpLd1)(|1)()()()()()(1)()(jijii
9、jXXSXXMd類似系數(shù)類似系數(shù)l夾角余弦l相關(guān)系數(shù)l變量間的間隔l利用類似系數(shù)來定義間隔l利用樣本協(xié)差陣來定義間隔l把變量Xi的n次觀測值看成n維空間的點(diǎn),在n維空間中定義m個(gè)變量間的間隔。l 夾角余弦 l兩變量的夾角余弦定義為: l 相關(guān)系數(shù) l兩變量的相關(guān)系數(shù)定義為: 三、系統(tǒng)聚類法根本步驟1. 選擇樣本間間隔的定義及類間間隔的定義;2. 計(jì)算n個(gè)樣本兩兩之間的間隔,得到間隔矩陣 3. 構(gòu)造個(gè)類,每類只含有一個(gè)樣本;4. 合并符合類間間隔定義要求的兩類為一個(gè)新類;5. 計(jì)算新類與當(dāng)前各類的間隔。假設(shè)類的個(gè)數(shù)為1,那么轉(zhuǎn)到步驟6,否那么回到步驟4;6.畫出聚類圖; 7.決議類的個(gè)數(shù)和類。
10、ijdD 系統(tǒng)聚類分析的方法系統(tǒng)聚類分析的方法l系統(tǒng)聚類法的聚類原那么決議于樣品間的間隔以及類間間隔的定義,類間間隔的不同定義就產(chǎn)生了不同的系統(tǒng)聚類分析方法。l以下用dij表示樣品X(i)和X(j)之間的間隔,當(dāng)樣品間的親疏關(guān)系采用類似系數(shù)Cij時(shí),令 ;l以下用D(p,q)表示類Gp和Gq之間的間隔。221ijijCd1.最短間隔法最短間隔法(SINgle method)2.最長間隔法最長間隔法(COMplete method)最長間隔最短間隔ABCDEF例例為了研討遼寧等5省1991年城鎮(zhèn)居民生活消費(fèi)情況的分布規(guī)律,根據(jù)調(diào)查資料做類型分類,用最短間隔做類間分類。數(shù)據(jù)如下:x1x2x3x4x
11、5x6x7x8遼寧17.9039.778.4912.9419.2711.052.0413.29浙江27.6850.3711.3513.3019.2514.592.7514.87河南39.4227.938.208.1416.179.421.559.76甘肅49.1627.989.019.3215.999.101.8211.35青海510.0628.6410.5210.0516.188.391.9610.81l將每一個(gè)省區(qū)視為一個(gè)樣本,先計(jì)算5個(gè)省區(qū)之間的歐式間隔,用D0表示間隔矩陣對稱陣,故給出下三角陣l因此將3.4合并為一類,為類6,替代了3、4兩類l類6與剩余的1、2、5之間的間隔分別為:l
12、 d(3,4)1=min(d31,d41)=min(13.80,13.12)=13.12l d(3,4)2=min(d32,d42)=min(24.63,24.06)=24.06l d(3,4)5=min(d35,d45)=min(3.51,2.21)=2.21021.251.354.2380.12020.206.2412.13063.2480.13067.11054321543210青海甘肅河南浙江遼寧Dl得到新矩陣l合并類6和類5,得到新類7l類7與剩余的1、2之間的間隔分別為:l d(5,6)1=min(d51,d61)=min(12.80,13.12)=12.80l d(5,6)2=m
13、in(d52,d62)=min(23.54,24.06)=23.54054.2380.1221. 25067.1106.242012.1310652161GGGGGGGGDl 得到新矩陣l合并類1和類2,得到新類8l此時(shí),我們有兩個(gè)不同的類:類7和類8。l它們的最近間隔ld(7,8) =min(d71,d72)=min(12.80,23.54)=12.80067.1154.232080.121072172GGGGGGDl得到矩陣l最后合并為一個(gè)大類。這就是按最短間隔定義類間間隔的系統(tǒng)聚類方法。最長間隔法類似!080.12807873GGGGD3.重心法重心法(CENtroid method)4
14、.類平均法類平均法(AVErage method)中間間隔5.離差平方和法離差平方和法(WARD)l根本思想來源于方差分析。它以為:假設(shè)分類正確,同類間根本思想來源于方差分析。它以為:假設(shè)分類正確,同類間的類差平方和應(yīng)較小,類與類之間的離差平方和應(yīng)較大的類差平方和應(yīng)較小,類與類之間的離差平方和應(yīng)較大.l詳細(xì)做法是,先將詳細(xì)做法是,先將n個(gè)樣本分成一類個(gè)樣本分成一類,然后每次減少一類然后每次減少一類,每減每減少一類離差平方和就要增大少一類離差平方和就要增大. 離差平方和法離差平方和法(WARD)系統(tǒng)聚類方法的一致系統(tǒng)聚類方法的一致 系統(tǒng)聚類法參數(shù)表系統(tǒng)聚類法參數(shù)表 類的個(gè)數(shù)確實(shí)定類的個(gè)數(shù)確實(shí)定l
15、由適當(dāng)?shù)拈撝荡_定;l根據(jù)數(shù)據(jù)點(diǎn)的分布直觀地確定類的個(gè)數(shù);l根據(jù)統(tǒng)計(jì)量確定分類個(gè)數(shù);類的個(gè)數(shù)確實(shí)定類的個(gè)數(shù)確實(shí)定l根據(jù)譜系圖確定分類個(gè)數(shù)的準(zhǔn)那么:l各類重心間的間隔必需很大;l類中保包含的元素不要太多;l類的個(gè)數(shù)必需符合實(shí)踐運(yùn)用;l假設(shè)采用幾種不同的聚類方法處置,那么在各種聚類圖中應(yīng)該發(fā)現(xiàn)一樣的類。四、系統(tǒng)聚類的參數(shù)選擇四、系統(tǒng)聚類的參數(shù)選擇聚類類別:聚類類別:統(tǒng)計(jì)統(tǒng)計(jì)圖:樹型譜系圖圖:樹型譜系圖 冰柱譜系圖冰柱譜系圖聚類方法聚類方法1.Between-groups linkage 類間平均法類間平均法 兩類間隔為兩類元素兩兩之間平均平方間隔兩類間隔為兩類元素兩兩之間平均平方間隔2.Within
16、-groups linkage 類內(nèi)平均法類內(nèi)平均法兩類間隔為合并后類中能夠元素兩兩之間平均平方間隔兩類間隔為合并后類中能夠元素兩兩之間平均平方間隔3.Nearest neighbor 最短間隔法最短間隔法 4. Furthest neighbor 最長間隔法最長間隔法5.Centroid clustering 重心法重心法 (歐式間隔歐式間隔)6.Median clustering 中間間隔法中間間隔法 (歐式間隔歐式間隔)7.Ward Method 離差平方法離差平方法 (歐式間隔歐式間隔)SPSS界面指南界面指南五、系統(tǒng)聚類法之例:地域按經(jīng)濟(jì)效益分類五、系統(tǒng)聚類法之例:地域按經(jīng)濟(jì)效益分類某年全國某年全國28個(gè)省區(qū)經(jīng)濟(jì)效益目的表,演
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 員工自己退休協(xié)議書
- 舊書捐贈協(xié)議書范文
- 異地合伙創(chuàng)業(yè)協(xié)議書
- 郵政離職保密協(xié)議書
- 轉(zhuǎn)租中介保密協(xié)議書
- 有關(guān)車禍理賠協(xié)議書
- 就業(yè)意向協(xié)議書注意
- 礦山項(xiàng)目收購協(xié)議書
- 期房轉(zhuǎn)讓協(xié)議書公證
- 政府投資協(xié)議書模板
- 江蘇省蘇州市2024-2025學(xué)年度第二學(xué)期七年級歷史期中模擬試卷(1)含答案
- 2024年山東省國控設(shè)計(jì)集團(tuán)有限公司招聘筆試真題
- 空調(diào)定期清洗消毒制度消毒
- 2024-2025學(xué)年下學(xué)期高二政治選必修2第三單元B卷
- 重慶市拔尖強(qiáng)基聯(lián)盟2024-2025學(xué)年高三下學(xué)期3月聯(lián)合考試歷史試題(含答案)
- 果園種植管理合作合同范本
- 居室空間設(shè)計(jì) 課件 項(xiàng)目四 起居室空間設(shè)計(jì)
- 【歷史】隋唐時(shí)期的科技與文化教學(xué)設(shè)計(jì) 2024-2025學(xué)年統(tǒng)編版七年級歷史下冊
- 勞務(wù)外包服務(wù)投標(biāo)方案(技術(shù)標(biāo))
- 中國水泥回轉(zhuǎn)窯行業(yè)發(fā)展監(jiān)測及投資方向研究報(bào)告
- 初中英語牛津深圳版單詞表(按單元順序)七年級至九年級
評論
0/150
提交評論