研一spss復(fù)習(xí)資料 07-聚類分析_第1頁
研一spss復(fù)習(xí)資料 07-聚類分析_第2頁
研一spss復(fù)習(xí)資料 07-聚類分析_第3頁
研一spss復(fù)習(xí)資料 07-聚類分析_第4頁
研一spss復(fù)習(xí)資料 07-聚類分析_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

現(xiàn)代統(tǒng)計(jì)理論與方法第7章聚類分析編輯ppt聚類分析的基本概念7.1層次聚類分析中的Q型聚類7.2層次聚類分析中的R型聚類7.3快速聚類分析7.4編輯ppt7.1聚類分析的基本概念聚類分析是統(tǒng)計(jì)學(xué)中研究這種“物以類聚”問題的一種有效方法,它屬于統(tǒng)計(jì)分析的范疇。聚類分析的實(shí)質(zhì)是建立一種分類方法,它能夠?qū)⒁慌鷺颖緮?shù)據(jù)按照他們?cè)谛再|(zhì)上的親密程度在沒有先驗(yàn)知識(shí)的情況下自動(dòng)進(jìn)行分類。這里所說的類就是一個(gè)具有相似性的個(gè)體的集合,不同類之間具有明顯的區(qū)別。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個(gè)分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類。聚類分析所使用方法的不同,常常會(huì)得到不同的結(jié)論。不同研究者對(duì)于同一組數(shù)據(jù)進(jìn)行聚類分析,所得到的聚類數(shù)未必一致。編輯ppt變量的聚類分析類似于因素分析。兩者都可用于辨別變量的相關(guān)組別。不同在于,因素分析在合并變量的時(shí)候,是同時(shí)考慮所有變量之間的關(guān)系;而變量的聚類分析,則采用層次式的判別方式,根據(jù)個(gè)別變量之間的親疏程度逐次進(jìn)行聚類。聚類分析的方法主要有兩種,一是“快速聚類分析方法”(K-MeansClusterAnalysis),另一是“層次聚類分析方法”(HierarchicalClusterAnalysis)。如果觀察值的個(gè)數(shù)多或文件非常龐大(觀察值在200個(gè)以上),則宜采用快速聚類分析方法。編輯ppt組內(nèi)密度大組間差異大編輯ppt7.2層次聚類分析中的Q型聚類層次聚類分析是根據(jù)觀察值或變量之間的親疏程度,將最相似的對(duì)象結(jié)合在一起,以逐次聚合的方式將觀察值分類,直到最后所有樣本都聚成一類。層次聚類分析有兩種形式,一是對(duì)樣本(個(gè)案)進(jìn)行分類,稱為Q型聚類,它使具有共同特點(diǎn)的樣本聚齊在一起,以便對(duì)不同類的樣本進(jìn)行分析;另一是對(duì)研究對(duì)象的觀察變量進(jìn)行分類,稱為R型聚類。它使具有共同特征的變量聚在一起,以便從不同類中分別選出具有代表性的變量作分析,從而減少分析變量的個(gè)數(shù)。編輯ppt層次聚類分析中的Q型聚類,它使具有共同特點(diǎn)的樣本聚齊在一起,以便對(duì)不同類的樣本進(jìn)行分析。層次聚類分析中,測(cè)量樣本之間的親疏程度是關(guān)鍵。聚類的時(shí)候會(huì)涉及到兩種類型親疏程度的計(jì)算:一種是樣本數(shù)據(jù)之間的親疏程度,一種是樣本數(shù)據(jù)與小類、小類與小類之間的親疏程度。下面討論這兩種類型親疏程度的計(jì)算方法和公式。編輯ppt1.樣本距離測(cè)量方法(1)歐氏距離(EuclideanDistance)兩個(gè)樣本之間的歐氏距離是樣本各個(gè)變量值之差的平方和的平方根,計(jì)算公式為編輯ppt(2)歐氏距離平方(SquaredEuclideanDistance)

兩個(gè)樣本之間的歐氏距離平方是各樣本每個(gè)變量值之差的平方和,計(jì)算公式為編輯ppt(3)Chebychev距離兩個(gè)樣本之間的Chebychev距離是各樣本所有變量值之差絕對(duì)值中的最大值,計(jì)算公式為(4)Block距離兩個(gè)樣本之間的Block距離是各樣本所有變量值之差絕對(duì)值的總和,計(jì)算公式為編輯ppt(5)Minkowski距離兩個(gè)樣本之間的Minkowski距離是各樣本所有變量值之差絕對(duì)值的p次方的總和,再求p次方根。計(jì)算公式為編輯ppt2.樣本數(shù)據(jù)與小類、小類與小類之間的親疏程度測(cè)量方法所謂小類,是在聚類過程中根據(jù)樣本之間親疏程度形成的中間類,小類和樣本、小類與小類繼續(xù)聚合,最終將所有樣本都包括在一個(gè)大類中。在SPSS聚類運(yùn)算過程中,需要計(jì)算樣本與小類、小類與小類之間的親疏程度。編輯ppt(1)最短距離法(NearestNeighbor)以當(dāng)前某個(gè)樣本與已經(jīng)形成小類中的各樣本距離的最小值作為當(dāng)前樣本與該小類之間的距離。(2)最長距離法(FurthestNeighbor)以當(dāng)前某個(gè)樣本與已經(jīng)形成小類中的各樣本距離的最大值作為當(dāng)前樣本與該小類之間的距離。(3)類間平均鏈鎖法(Between-groupsLinkage)兩個(gè)小類間的距離為兩個(gè)小類內(nèi)所有樣本間的平均距離。編輯ppt(4)類內(nèi)平均鏈鎖法(Within-groupsLinkage)與小類間平均鏈鎖法類似,平均距離是對(duì)所有樣本對(duì)的距離求平均值,包括小類間的樣本對(duì)、小類內(nèi)的樣本對(duì)。(5)重心法(CentroidClustering)將兩小類間的距離定義成兩小類重心間的距離。每一小類的重心就是該類中所有樣本在各變量上的均值代表點(diǎn)。(6)離差平方和法(Ward’sMethod)小類合并的方法:在聚類過程中,使小類內(nèi)各個(gè)樣本的歐氏距離總平方和增加最小的兩小類合并成一類。編輯ppt變量的量綱不同,觀察值的數(shù)量級(jí)相差懸殊,會(huì)導(dǎo)致變量在距離中的作用不均衡,對(duì)聚類產(chǎn)生“厚此薄彼”的影響。聚類前要將數(shù)據(jù)標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化后的數(shù)據(jù)是無量綱的。數(shù)據(jù)的標(biāo)準(zhǔn)化編輯ppt編輯ppt菜單選項(xiàng):Analyze->Classify->HierarchicalCluster研究問題:打開數(shù)據(jù)文件“森林草原面積”根據(jù)4項(xiàng)指標(biāo),對(duì)21個(gè)國家進(jìn)行層次聚類(3類至五類)比較分析哪個(gè)分類效果較好編輯ppt7.3層次聚類分析中的R型聚類層次聚類分析中的R型聚類是對(duì)研究對(duì)象的觀察變量進(jìn)行分類,它使具有共同特征的變量聚在一起。以便可以從不同類中分別選出具有代表性的變量作分析,從而減少分析變量的個(gè)數(shù)。R型聚類的計(jì)算公式和Q型聚類的計(jì)算公式是類似的,不同的是R型聚類是對(duì)變量間進(jìn)行距離的計(jì)算,Q型聚類則是對(duì)樣本間進(jìn)行距離的計(jì)算。編輯ppt菜單選項(xiàng):Analyze->Classify->HierarchicalCluster研究問題:打開數(shù)據(jù)文件“企業(yè)經(jīng)濟(jì)指標(biāo)”將7項(xiàng)指標(biāo)按層次聚類法分為兩類或三類,分析分類結(jié)果是否合理編輯ppt7.4快速聚類分析SPSS層次聚類分析對(duì)計(jì)算機(jī)的要求比較高,在大樣本的情況下,可采用快速聚類分析的方法??焖倬垲惙治鍪怯捎脩糁付悇e數(shù)的大樣本資料的逐步聚類分析。它先對(duì)數(shù)據(jù)進(jìn)行初始分類,然后逐步調(diào)整,得到最終分類。快速聚類分析的實(shí)質(zhì)是K-Mean聚類。和層次聚類分析一致,快速聚類分析也以距離為樣本間親疏程度的標(biāo)志。但兩者的不同在于:層次聚類可以對(duì)不同的聚類類數(shù)產(chǎn)生一系列的聚類解,而快速聚類只能產(chǎn)生固定類數(shù)的聚類解,類數(shù)需要用戶事先指定。編輯ppt在快速聚類分析中,用戶可以自己指定初始的類中心點(diǎn)。如果用戶的經(jīng)驗(yàn)比較豐富,則可以指定比較合理的初始類中心點(diǎn),否則,需要增加迭代的次數(shù),以保證最終聚類結(jié)果的準(zhǔn)確性。編輯ppt快速聚類分析計(jì)算過程如下。首先需要用戶指定聚類成多少類(比如k類)。然后確定k個(gè)類的初始類中心點(diǎn)。SPSS會(huì)根據(jù)樣本數(shù)據(jù)的實(shí)際情況,選擇k個(gè)由代表性的樣本數(shù)據(jù)作為初始類中心。初始類中心也可以由用戶自行指定,需要指定K組樣本數(shù)據(jù)作為初始類中心點(diǎn)。計(jì)算所有樣本數(shù)據(jù)點(diǎn)到k個(gè)類中心點(diǎn)的歐氏距離,SPSS按照距k個(gè)類中心點(diǎn)距離最短原則,把所有樣本分派到各中心點(diǎn)所在的類中,形成一個(gè)新的k類,完成一次迭代過程。編輯ppt快速聚類分析計(jì)算過程(接上頁)SPSS重新確定k個(gè)類的中心點(diǎn)。SPSS計(jì)算每個(gè)類中各個(gè)變量的變量值均值,并以均值點(diǎn)作為新的類中心點(diǎn)。重復(fù)上面的兩步計(jì)算過程,直到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論