第10講_聚類分析_第1頁
第10講_聚類分析_第2頁
免費預覽已結束,剩余4頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第10講_聚類分析 spss統(tǒng)計分析從基礎到實踐 10.1 聚類分析簡介 spss統(tǒng)計分析從基礎到實踐 引例:爭論如何將一副一般紙牌中四種花色的a ,k,q,j共16張牌進行分類。 (1)給出一些分組狀況。 如:單張?zhí)?;同花套;黑紅套;同字套等。(2)有意義的分組依靠于“相像”的定義。 spss統(tǒng)計分析從基礎到實踐 (3)在聚類分析的大多數(shù)實際應用中,討論者 清晰了解如何區(qū)分“好”的分組與“壞”的 分組??煞窳谐鋈靠赡艿姆纸M,然后從中 選擇“最優(yōu)”分組,以供將來討論? 分組狀況: 16張牌分為一組有一種方法; 16張牌分為兩組有32767種方法; 16張牌分為三組有7141686種方法 由于

2、時間的限制,要從全部可能的分組中 找出最優(yōu)分組是不行能的。 可行的方案:建立算法,利用它們找到好的 ,但未必是最好的分組。 spss統(tǒng)計分析從基礎到實踐 聚類分析是對紀錄(或變量)進行分類的方法 實質: 根據(jù)距離的遠近將數(shù)據(jù)分成若干個類別,以 使得類別內數(shù)據(jù)的差異盡可能的小,類別間 差異盡可能的大。 兩個要點: (1)建立定量指標,描述對象之間的差異。 通過距離或相像性的方式來描述。 (2)建立將對象分類的算法。 一、相像性量度 spss統(tǒng)計分析從基礎到實踐 1、依據(jù)聚類的對象選擇相像性量度 對記錄(cases)聚類時,記錄之間的接近 程度常用某種距離表示; 對變量(variables)聚類時

3、,依據(jù)變量間 的相關系數(shù)或類似的聯(lián)系量度來分組。2、依據(jù)變量的特點選擇相像性量度 依據(jù)變量的性質(離散型、連續(xù)型、二值 型),測量值的尺度(名義尺度、挨次尺度、 標度尺度),以及討論課題的學問來選擇相 似性量度。 3、常用的距離量度 spss統(tǒng)計分析從基礎到實踐 i、連續(xù)變量的距離量度 spss統(tǒng)計分析從基礎到實踐 ii、頻數(shù)表資料的距離量度 spss統(tǒng)計分析從基礎到實踐 iii、二值型變量的距離量度 spss統(tǒng)計分析從基礎到實踐 其中a,b,c,d的含義如下 spss統(tǒng)計分析從基礎到實踐 例1:假定五個人具有以下特征:個人 身高(英寸) 體重(磅) 眼球顏色 頭發(fā)顏色 優(yōu)勢手 性別 1 2

4、3 4 5 68 73 67 64 76 140 185 165 120 210 綠 棕 藍 棕 棕 金 黑 金 黑 黑 右 右 右 右 左 女 男 男 女 男 spss統(tǒng)計分析從基礎到實踐 定義6個二值變量來表示6 個特征:xheight 1 0 1 0 1 0 身高 72 英寸 身高 72 英寸 棕色眼睛 其他 右手優(yōu)勢 左手優(yōu)勢 xhaircol 1 xsex 0 xweight 1 0 1 0 女性 男性 體重 150 磅 身高 150 磅 金色頭發(fā) 其他 xeyecol xhand 數(shù)據(jù)錄入見文件:p527li1.sav。 試求出5個人之間的相像系數(shù)和距離。 spss 統(tǒng)計分析從基礎

5、到實踐 spss操作命令:執(zhí)行【analyze】/【correlate】/【distances】命令 compute distances: between cases 計算記錄間的距離或相像系數(shù) (1)measure: similarities 計算相像系數(shù)矩陣 measures 復選框:binary 二值變量 選 simple matching 相像系數(shù)的計算方法 simple matching法計算公式為: 某兩人之間的相像系數(shù)=(a+d)/(a+b+c+d) 其中a,b,c,d含義如下: spss統(tǒng)計分析從基礎到實踐 (2)measure: dissimilarities計算距離矩陣 m

6、easures 復選框:binary 二值變量 選 euclidean distance 距離的計算方法 euclidean distance法計算公式為: 某兩人之間的距離= b c (b,c含義見上表) spss統(tǒng)計分析從基礎到實踐 spss輸出結果為: (1)相像系數(shù)矩陣proximity matrix simple matching measure 1 1 2 3 4 5 1.000 .167 .667 .667 .000 2 .167 1.000 .500 .500 .833 3 .667 .500 1.000 .333 .333 4 .667 .500 .333 1.000 .33

7、3 5 .000 .833 .333 .333 1.000 this is a sim ilarity matrix 依據(jù)相像系數(shù)的大小,可以斷言其次人與第 五人最相像,而第一人與第五人最不相像。 依據(jù)相像性數(shù)字將這五人分成相對接近的兩 組,則可得出(1,3,4)和(2,5)。 spss統(tǒng)計分析從基礎到實踐 (2)距離矩陣:proximity matrix euclidean d istance 1 1 2 3 4 5 .000 2.236 1.414 1.414 2.449 2 2.236 .000 1.732 1.732 1.000 3 1.414 1.732 .000 2.000 2.0

8、00 4 1.414 1.732 2.000 .000 2.000 5 2.449 1.000 2.000 2.000 .000 this is a dissim ilarity matrix spss統(tǒng)計分析從基礎到實踐 二、聚類算法 i、分層聚類法 spss: hierarchical cluster analysisii、重新定位聚類法(非分層聚類法) 流行的非分層聚類法k均值法 spss: k-means cluster analysis iii、智能聚類法 spss: twostep cluster analysis 10.2 分層(系統(tǒng))聚類法 spss統(tǒng)計分析從基礎到實踐 一、分

9、層聚類法的類別及其原理 1、聚集分層法: 從單個元素開頭,即在開頭時有多少個元 素就有多少個類別;將那些最相像的元素首先 分類,然后將類與類依據(jù)它們之間的相像性進 行合并;最終隨著相像性不斷下降,全部的類 融合為一個大類。 spss統(tǒng)計分析從基礎到實踐 2、分割分層法: 由全部元素組成的一個類開頭,將它分割 成兩個子類,使一個子類的元素“遠離”另 一個子類的元素;然后將這兩個類進一步分 割成不相像的類;這一過程始終進行到每個 元素單獨成為一類時為止。 這兩類方法的運算原理實際上是相同的,僅 僅是方向相反而已。spss中供應的是聚集分 層法。 spss統(tǒng)計分析從基礎到實踐 二、聚集分層算法的步驟

10、 1、從n個類(每類只含一個元素)和n*n對稱 距離(或相像性)矩陣d開頭;2、將距離最近的兩類合并為一個類別,從而n 類成為n-1個類別,計算新 產(chǎn)生的類別與其他 各個類別之間的距離或相像度,形成新的距 離(或相像性)矩陣; 3、重復步驟2,直到全部的元素在一個類別時 為止。 spss統(tǒng)計分析從基礎到實踐 三、兩個類別間距離的定義方法 1、最短距離法(nearest neighbor): 用兩個類別中各個元素間最短的距離來表示 兩個類別間的距離。 2、最長距離法(furthest neighbor): 用兩個類別中各個元素間最長的那個距離來 表示兩個類別間的距離。3、重心法(centroid clustering): 用兩個類別的重心間的距離來表示兩個類別 間的距離。 spss統(tǒng)計分析從基礎到實踐 4、組間平均距離法(between-groups linkage): 用兩個類別間各個元素兩兩間的距離的平均 來表示兩個類別

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論