版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
統(tǒng)計(jì)學(xué)─從數(shù)據(jù)到結(jié)論第十一章聚類(lèi)分析分類(lèi)物以類(lèi)聚、人以群分;但根據(jù)什么分類(lèi)呢?如要想把中國(guó)的縣分類(lèi),就有多種方法可以按照自然條件來(lái)分,比如考慮降水、土地、日照、濕度等,也可考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);既可以用某一項(xiàng)來(lái)分類(lèi),也可以同時(shí)考慮多項(xiàng)指標(biāo)來(lái)分類(lèi)。聚類(lèi)分析對(duì)一個(gè)數(shù)據(jù),既可以對(duì)變量(指標(biāo))進(jìn)行分類(lèi)(相當(dāng)于對(duì)數(shù)據(jù)中的列分類(lèi)),也可以對(duì)觀測(cè)值(事件,樣品)來(lái)分類(lèi)(相當(dāng)于對(duì)數(shù)據(jù)中的行分類(lèi))。當(dāng)然,不一定事先假定有多少類(lèi),完全可以按照數(shù)據(jù)本身的規(guī)律來(lái)分類(lèi)。本章要介紹的分類(lèi)的方法稱(chēng)為聚類(lèi)分析(cluster
ysis)。對(duì)變量的聚類(lèi)稱(chēng)為R型聚類(lèi),而對(duì)觀測(cè)值聚類(lèi)稱(chēng)為
Q型聚類(lèi)。它們?cè)跀?shù)學(xué)上是無(wú)區(qū)別的。飲料數(shù)據(jù)(drink.txt
)16種飲料的熱量、
、鈉及價(jià)格四種變量如何度量距離遠(yuǎn)近?如果想要對(duì)100個(gè)學(xué)生進(jìn)行分類(lèi),而僅知道他們的數(shù)學(xué)成績(jī),則只好按照數(shù)學(xué)成績(jī)分類(lèi);這些成績(jī)?cè)谥本€上形成100個(gè)點(diǎn)。這樣就可以把接近的點(diǎn)放到一類(lèi)。如果還知道他們的物理成績(jī),這樣數(shù)學(xué)和物理成績(jī)就形成二維平面上的100個(gè)點(diǎn),也可以按照距離遠(yuǎn)近來(lái)分類(lèi)。如何度量距離遠(yuǎn)近?三維或者更的情況也是類(lèi)似;只不過(guò)三維以上的圖形無(wú)法直觀地畫(huà)出來(lái)而已。在飲料數(shù)據(jù)中,每種飲料都有四個(gè)變量值。這就是空間點(diǎn)的問(wèn)題了。兩個(gè)距離概念按照遠(yuǎn)近程度來(lái)聚類(lèi)需要明確兩個(gè)概念:一個(gè)是點(diǎn)和點(diǎn)之間的距離,一個(gè)是類(lèi)和類(lèi)之間的距離。點(diǎn)間距離有很多定義方式。最簡(jiǎn)單的是歐氏距離。當(dāng)然還有一些和距離相反但起同樣作用的概念,比如相似性等,兩點(diǎn)越相似度越大,就相當(dāng)于距離越短。兩個(gè)距離概念由一個(gè)點(diǎn)組成的類(lèi)是最基本的類(lèi);如果每一類(lèi)都由一個(gè)點(diǎn)組成,那么點(diǎn)間的距離就是類(lèi)間距離。但是如果某一類(lèi)包含不止一個(gè)點(diǎn),那么就要確定類(lèi)間距離,類(lèi)間距離是基于點(diǎn)間距離定義的:比如兩類(lèi)之間最近點(diǎn)之間的距離可以作為這兩類(lèi)之間的距離,也可以用兩類(lèi)中最遠(yuǎn)點(diǎn)之間的距離或各類(lèi)的中心之間的距離來(lái)作為類(lèi)間距離。兩個(gè)距離概念在計(jì)算時(shí),各種點(diǎn)間距離和類(lèi)間距離的選擇是通過(guò)統(tǒng)計(jì)的選項(xiàng)實(shí)現(xiàn)的。不同的選擇的結(jié)果會(huì)不同,但一般不會(huì)差太多。2iii(x
y
)向量x=(x1,…,xp)與y=(y1,…,yp)之間的距離或相似系數(shù):歐氏距離:Euclidean平方歐氏距離:Squared
Euclideani
ii(x
y
)2夾角余弦(相似系數(shù)1)
:cosine22iixyCxy(1)
cosxy
i
xi
yi
i
iChebychev:
Maxi|xi-yi|1(xi
yi
)
i
Minkowski:
當(dāng)變量的測(cè)量值相差懸殊時(shí),要先進(jìn)行標(biāo)準(zhǔn)化.如R為極差,s
為標(biāo)準(zhǔn)差,則標(biāo)準(zhǔn)化的數(shù)據(jù)為每個(gè)觀測(cè)值減去均值后再除以R或s.當(dāng)觀測(cè)值大于0時(shí),有人采用Lance和Williams的距離1
|
xi
yi
|ip xi
yi2
2iii
iCxy(2)
rxy
i
(x
x
)(
y
y)Block(絕對(duì)距離):i|xi-yi|Pearsoncorrelation(相似系數(shù)2):(xi
x
)(
yi
y
)
類(lèi)Gp與類(lèi)Gq之間的距離Dpq(d(xi,xj)表示點(diǎn)xi∈Gp和xj
∈Gq之間的距離)最短距離法:
最長(zhǎng)距離法:Dpq
min
d
(xi
,
xj
)重心法:離差平方和:(Wald)類(lèi)平均法:(中間距離,可變平均法,可變法等可參考各書(shū)).在用歐氏距離時(shí),
有
的遞推公式D1
(xixi
Gp
xp
)
'(xi
xp
),
D2
(xj
xq
)
'(x
j
xq
),x
j
Gq(xk
x
)
'(xi
x
)
Dpq
D12
D1
D2xk
Gp
GqD12
Dpq
max
d(xi
,
xj
)Dpq
min
d(xp
,
xq
)11pqD
n
n2
xi
Gp
x
j
Gq
d
(xi
,
xj
)最短距離(Nearest
Neighbor)x21?x12?x22?11x
?d13最長(zhǎng)距離(Furthest
Neighbor
)???11x
?x21????d12??????d1
d99組間平均連接(Between-group
Linkage)組內(nèi)平均連接法(Within-group
Linkage)d1
d2
d3
d4
d5
d66x21?x22?x11?x12?重心法(Centroid
clustering):均值點(diǎn)的距離??
x1,
y1
x2
,
y2
離差平方和法連接2,41,56,5(2
3)
((6
5.5)
(5(1
3)
(紅綠(2,4,6,5)8.75離差平方和增加8.75-2.5=6.25黃綠(6,5,1,5)14.75離差平方和增加14.75-8.5=6.25(2,4,1,5)10-10=0故按該方法的連接和
首先連接。有了上面的點(diǎn)間距離和類(lèi)間距離的概念,就可以介紹聚類(lèi)的方法了。這里介紹兩個(gè)簡(jiǎn)單的方法。11.2
事先要確定分多少類(lèi):k-均值聚類(lèi)前面,聚類(lèi)可以走著瞧,不一定事先確定有多少類(lèi);但是這里的k-均值聚類(lèi)(k-meanscluster,也叫快速聚類(lèi),quickcluster)卻要求你先說(shuō)好要分多少類(lèi)??雌饋?lái)有些,是吧假定你說(shuō)分3類(lèi),這個(gè)方法還進(jìn)一步要求你事先確定3
個(gè)點(diǎn)為“聚類(lèi)種子”(SPSS
自動(dòng)為你選);也就是說(shuō),把這3個(gè)點(diǎn)作為三類(lèi)中每一類(lèi)的基石。11.2
事先要確定分多少類(lèi):k-均值聚類(lèi)然后,根據(jù)和這三個(gè)點(diǎn)的距離遠(yuǎn)近,把所有點(diǎn)分成三類(lèi)。再把這三類(lèi)的中心(均值)作為新的基石或(原來(lái)“”就沒(méi)用了),再重新按照距離分類(lèi)。如此疊代下去,直到達(dá)到停止疊代的要求(比如,各類(lèi)最后變化不大了,或者疊代次數(shù)太多了)。顯然,前面的聚類(lèi)的選擇并不必太認(rèn)真,它們很可能最后還會(huì)分到同一類(lèi)中呢。下面用飲料例的數(shù)據(jù)來(lái)做k-均值聚類(lèi)。假定要把這16種飲料分成3類(lèi)。利用SPSS,只疊代了三次就達(dá)到目標(biāo)了(計(jì)算機(jī)選的
還可以)。這樣就可以得到最后的三類(lèi)的中心以及每類(lèi)有多少點(diǎn)Final
Cluster
CentersCluster123CALORIE203.1033.71107.34CAFFEINE1.654.163.49SODIUM13.0510.068.76PRICE3.152.692.94Number
ofCasesin
each
ClusterCluster12.00027.00037.000Valid16.000Missing.000根據(jù)需要,可以輸出哪些點(diǎn)分在一起。結(jié)果是:第一類(lèi)為飲料1、10;第二類(lèi)為飲料2、4、8、11、12、13、14;第三類(lèi)為剩下的飲料3、5、6、7、9、15、16。SPSS實(shí)現(xiàn)(聚類(lèi)分析)K-均值聚類(lèi)以數(shù)據(jù)drink.sav
為例,在SPSS
中選擇yze-Classify-K-Menas
Cluster,然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價(jià)格)選入Variables,在Number
of
Clusters處選擇3(想要分的類(lèi)數(shù)),如果想要知道哪種飲料分到哪類(lèi),則選Save,再選Cluster
Membership等。注意k-均值聚類(lèi)只能做Q型聚類(lèi),如要做R型聚類(lèi),需要把數(shù)據(jù)陣進(jìn)行轉(zhuǎn)置。11.2
事先不用確定分多少類(lèi):分層聚類(lèi)另一種聚類(lèi)稱(chēng)為分層聚類(lèi)或系統(tǒng)聚類(lèi)(hierarchical cluster)。開(kāi)始時(shí),有多少點(diǎn)就是多少類(lèi)。它第一步先把最近的兩類(lèi)(點(diǎn))合并成一類(lèi),然后再把剩下的最近的兩類(lèi)合并成一類(lèi);這樣下去,每次都少一類(lèi),直到最后只有一大類(lèi)為止。越是后來(lái)合并的類(lèi)距離就越遠(yuǎn)。對(duì)于飲料聚類(lèi)。SPSS輸出為111231415891011131415“冰柱圖”(icicle)例:5個(gè)樣品距離陣令Dk為系統(tǒng)聚類(lèi)法種第k次合并時(shí)的距離,如{Dk}為單調(diào)的,則稱(chēng)具有單調(diào)性.前面只有重心和中間距離法不具有單調(diào)性.D0
198最短距離法最長(zhǎng)距離法i步驟:階段D(0)D(1)D(2)D(3)D(4)bk(第k階段類(lèi)的集合)DkDk(1)(2)(3)(4)(5)00(1,3)(2)(4)(5)11(1,3)(2,4)(5)33(1,3)(2,4,5)45(1,3,2,4,5)69注:最短和最長(zhǎng)距離法結(jié)果一樣(一般不一定一樣)聚類(lèi)要注意的問(wèn)題聚類(lèi)結(jié)果主要受所選擇的變量影響如果去掉一些變量,或者增加一些變量,結(jié)果會(huì)很不同。相比之下,聚類(lèi)方法的選擇則不那么重要了。因此,聚類(lèi)之前一定要目標(biāo)明確。聚類(lèi)要注意的問(wèn)題另外就分成多少類(lèi)來(lái)說(shuō),也要有道理。只要你高興,從分層聚類(lèi)的計(jì)算機(jī)結(jié)果可以得到任何可能數(shù)量的類(lèi)。但是,聚類(lèi)的目的是要使各類(lèi)之間的距離盡可能地遠(yuǎn),而類(lèi)中點(diǎn)的距離盡可能的近,并且分類(lèi)結(jié)果還要有令人信服的解釋。這一點(diǎn)就不是數(shù)學(xué)可以解決的了。yzeSPSS實(shí)現(xiàn)(聚類(lèi)分析)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 贛州師范高等專(zhuān)科學(xué)?!斗课萁ㄖW(xué)課程實(shí)踐》2023-2024學(xué)年第一學(xué)期期末試卷
- 贛南醫(yī)學(xué)院《語(yǔ)音信息處理》2023-2024學(xué)年第一學(xué)期期末試卷
- 贛南科技學(xué)院《中小學(xué)體能訓(xùn)練與評(píng)價(jià)》2023-2024學(xué)年第一學(xué)期期末試卷
- 《瘧疾防治措施》課件
- 一次函數(shù)練習(xí)課課件
- 七年級(jí)語(yǔ)文上冊(cè)第三單元11論語(yǔ)十二章教案新人教版
- 三年級(jí)數(shù)學(xué)上冊(cè)4萬(wàn)以?xún)?nèi)的加法和減法二1加法練習(xí)課第1-2課時(shí)教學(xué)設(shè)計(jì)新人教版
- 三年級(jí)數(shù)學(xué)上冊(cè)教材梳理統(tǒng)計(jì)與可能性新人教版
- 三年級(jí)科學(xué)下冊(cè)第四單元磁鐵第5課磁力大小會(huì)變化嗎教學(xué)材料教科版
- 《如何制作專(zhuān)業(yè)化》課件
- 《無(wú)人駕駛航空試驗(yàn)區(qū)多主體運(yùn)營(yíng)管理規(guī)范》
- 2069-3-3101-002WKB產(chǎn)品判定準(zhǔn)則-外發(fā)
- 學(xué)校食堂炊事員安全培訓(xùn)
- 2024年中考語(yǔ)文【熱點(diǎn)重點(diǎn)難點(diǎn)】專(zhuān)練(上海專(zhuān)用)重點(diǎn)02議論文閱讀常見(jiàn)題型((原卷版+解析))
- 小區(qū)內(nèi)命案防控應(yīng)急預(yù)案
- 2024年內(nèi)蒙古交通集團(tuán)興安分公司招聘筆試參考題庫(kù)附帶答案詳解
- JTG C10-2007 公路勘測(cè)規(guī)范
- 河北鋼鐵集團(tuán)礦業(yè)有限公司承德柏泉鐵礦礦山地質(zhì)環(huán)境保護(hù)與土地復(fù)墾方案
- (高清版)TDT 1053-2017 農(nóng)用地質(zhì)量分等數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)
- 小學(xué)道德與法治課程標(biāo)準(zhǔn)與教材研究 課件 第七章 法治教育
- 聯(lián)合辦公協(xié)議書(shū)范本
評(píng)論
0/150
提交評(píng)論