spss聚類(lèi)分析結(jié)果解釋.ppt

上傳人：j*** IP屬地：四川上傳時(shí)間：2019-07-12 格式：PPT 頁(yè)數(shù)：83 大小：1.67MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩78頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第14章聚類(lèi)分析與判別分析,介紹： 1、聚類(lèi)分析 2、判別分析分類(lèi)學(xué)是人類(lèi)認(rèn)識(shí)世界的基礎(chǔ)科學(xué)。聚類(lèi)分析和判別分析是研究事物分類(lèi)的基本方法，廣泛地應(yīng)用于自然科學(xué)、社會(huì)科學(xué)、工農(nóng)業(yè)生產(chǎn)的各個(gè)領(lǐng)域。,14.1.1 聚類(lèi)分析,根據(jù)事物本身的特性研究個(gè)體分類(lèi)的方法，原則是同一類(lèi)中的個(gè)體有較大的相似性，不同類(lèi)中的個(gè)體差異很大。根據(jù)分類(lèi)對(duì)象的不同，分為樣品（觀測(cè)量）聚類(lèi)和變量聚類(lèi)兩種：樣品聚類(lèi)：對(duì)觀測(cè)量(Case)進(jìn)行聚類(lèi)（不同的目的選用不同的指標(biāo)作為分類(lèi)的依據(jù)，如選拔運(yùn)動(dòng)員與分課外活動(dòng)小組）變量聚類(lèi)：找出彼此獨(dú)立且有代表性的自變量，而又不丟失大部分信息。在生產(chǎn)活動(dòng)中不乏有變量聚類(lèi)的實(shí)例，如：衣服號(hào)碼（身長(zhǎng)、胸圍、褲長(zhǎng)、腰圍）、鞋的號(hào)碼。變量聚類(lèi)使批量生產(chǎn)成為可能。,14.1.2 判別分析,判別分析是根據(jù)表明事物特點(diǎn)的變量值和它們所屬的類(lèi)，求出判別函數(shù)。根據(jù)判別函數(shù)對(duì)未知所屬類(lèi)別的事物進(jìn)行分類(lèi)的一種分析方法。在自然科學(xué)和社會(huì)科學(xué)的各個(gè)領(lǐng)域經(jīng)常遇到需要對(duì)某個(gè)個(gè)體屬于哪一類(lèi)進(jìn)行判斷。如動(dòng)物學(xué)家對(duì)動(dòng)物如何分類(lèi)的研究和某個(gè)動(dòng)物屬于哪一類(lèi)、目、綱的判斷。不同：判別分析和聚類(lèi)分析不同的在于判別分析要求已知一系列反映事物特征的數(shù)值變量的值，并且已知各個(gè)體的分類(lèi)（訓(xùn)練樣本）。,14.1.3 聚類(lèi)分析與判別分析的SPSS過(guò)程,在AnalyzeClassify下： K-Means Cluster：觀測(cè)量快速聚類(lèi)分析過(guò)程 Hierarchical Cluster：分層聚類(lèi)（進(jìn)行觀測(cè)量聚類(lèi)和變量聚類(lèi)的過(guò)程 Discriminant：進(jìn)行判別分析的過(guò)程,14.2 快速樣本聚類(lèi)過(guò)程(Quick Cluster),使用 k 均值分類(lèi)法對(duì)觀測(cè)量進(jìn)行聚類(lèi) 可使用系統(tǒng)的默認(rèn)選項(xiàng)或自己設(shè)置選項(xiàng)，如分為幾類(lèi)、指定初始類(lèi)中心、是否將聚類(lèi)結(jié)果或中間數(shù)據(jù)數(shù)據(jù)存入數(shù)據(jù)文件等。快速聚類(lèi)實(shí)例(P342，data14-01a):使用系統(tǒng)的默認(rèn)值進(jìn)行：對(duì)運(yùn)動(dòng)員的分類(lèi)（分為4類(lèi)） AnalyzeClassifyK-Means Cluster Variables: x1,x2,x3 Label Case By: no Number of Cluster: 4 比較有用的結(jié)果：聚類(lèi)結(jié)果形成的最后四類(lèi)中心點(diǎn)(Final Cluster Centers) 和每類(lèi)的觀測(cè)量數(shù)目（Number of Cases in each Cluster）但不知每個(gè)運(yùn)動(dòng)員究竟屬于哪一類(lèi)？這就要用到Save選項(xiàng),14.2 快速樣本聚類(lèi)過(guò)程(Quick Cluster)中的選項(xiàng),使用快速聚類(lèi)的選擇項(xiàng)：類(lèi)中心數(shù)據(jù)的輸入與輸出：Centers選項(xiàng) 輸出數(shù)據(jù)選擇項(xiàng)：Save選項(xiàng) 聚類(lèi)方法選擇項(xiàng)：Method選項(xiàng) 聚類(lèi)何時(shí)停止選擇項(xiàng)：Iterate選項(xiàng) 輸出統(tǒng)計(jì)量選擇項(xiàng)：Option選項(xiàng),14.2 指定初始類(lèi)中心的聚類(lèi)方法例題P343,數(shù)據(jù)同上（data14-01a）：以四個(gè)四類(lèi)成績(jī)突出者的數(shù)據(jù)為初始聚類(lèi)中心(種子)進(jìn)行聚類(lèi)。類(lèi)中心數(shù)據(jù)文件data14-01b（但缺一列Cluster_，不能直接使用，要修改）。對(duì)運(yùn)動(dòng)員的分類(lèi)（還是分為4類(lèi)） AnalyzeClassifyK-Means Cluster Variables: x1,x2,x3 Label Case By: no Number of Cluster: 4 Center: Read initial from: data14-01b Save: Cluster membership和Distance from Cluster Center 比較有用的結(jié)果（可將結(jié)果與前面沒(méi)有初始類(lèi)中心比較）：聚類(lèi)結(jié)果形成的最后四類(lèi)中心點(diǎn)(Final Cluster Centers) 每類(lèi)的觀測(cè)量數(shù)目（Number of Cases in each Cluster）在數(shù)據(jù)文件中的兩個(gè)新變量qc1_1（每個(gè)觀測(cè)量最終被分配到哪一類(lèi)）和 qc1_2（觀測(cè)量與所屬類(lèi)中心點(diǎn)的距離）,14.3 分層聚類(lèi)(Hierarchical Cluster),分層聚類(lèi)方法：分解法:先視為一大類(lèi)，再分成幾類(lèi) 凝聚法:先視每個(gè)為一類(lèi),再合并為幾大類(lèi) 可用于觀測(cè)量(樣本)聚類(lèi)(Q型)和變量聚類(lèi)(R型) 一般分為兩步（自動(dòng),可從Paste的語(yǔ)句知道,P359）： Proximities：先對(duì)數(shù)據(jù)進(jìn)行的預(yù)處理(標(biāo)準(zhǔn)化和計(jì)算距離等) Cluster：然后進(jìn)行聚類(lèi)分析兩種統(tǒng)計(jì)圖：樹(shù)形圖(Dendrogram)和冰柱圖(Icicle) 各類(lèi)型數(shù)據(jù)的標(biāo)準(zhǔn)化、距離和相似性計(jì)算P348-354 定距變量、分類(lèi)變量、二值變量標(biāo)準(zhǔn)化方法p353：Z Scores、Range -1 to 1、 Range 0 to 1等,14.3.4 用分層聚類(lèi)法進(jìn)行觀測(cè)量聚類(lèi)實(shí)例P358,對(duì)20種啤酒進(jìn)行分類(lèi)(data14-02)，變量包括：Beername(啤酒名稱(chēng))、calorie(熱量)、sodium(鈉含量)、alcohol(酒精含量)、 cost(價(jià)格) AnalyzeClassify Hierarchical Cluster: Variables: calorie,sodium,alcohol, cost 成分和價(jià)格 Label Case By: Beername Cluster：Case, Q聚類(lèi) Display: 選中Statistics，單擊Statistics Agglomeration Schedule 凝聚狀態(tài)表 Proximity matrix：距離矩陣 Cluster membership：Single solution：4 顯示分為4類(lèi)時(shí)，各觀測(cè)量所屬的類(lèi) Method: Cluster (Furthest Neighbor), Measure-Interval (Squared Euclidean distance), Transform Value (Range 0-1/By variable (值-最小值)/極差) Plots: (Dendrogram) Icicle(Specified range of cluster, Start-1,Stop-4, by-1), Orientation (Vertical縱向作圖) Save: Cluster Membership(Single solution 4) 比較有用的結(jié)果：根據(jù)需要進(jìn)行分類(lèi)，在數(shù)據(jù)文件中的分類(lèi)新變量clu4_1等,14.3.5 用分層聚類(lèi)法進(jìn)行變量聚類(lèi),變量聚類(lèi)，是一種降維的方法，用于在變量眾多時(shí)尋找有代表性的變量，以便在用少量、有代表性的變量代替大變量集時(shí)，損失信息很少。與進(jìn)行觀測(cè)量聚類(lèi)雷同，不同點(diǎn)在于：選擇Variable而非Case Save選項(xiàng)失效，不建立的新變量,14.3.6 變量聚類(lèi)實(shí)例1 P366,上面啤酒分類(lèi)問(wèn)題data14-02。 AnalyzeClassify Hierarchical Cluster: Variables: calorie,sodium,alcohol, cost 成分和價(jià)格 Cluster：Variable, R聚類(lèi) Method： Cluster Method ：Furthest Neighbor Measure-Interval：Pearson Correlation Transform Values：Z Score （By Variable） Plots: Dendrogram 樹(shù)型圖 Statistics：Proximity matrix：相關(guān)矩陣比較有用的結(jié)果：根據(jù)相關(guān)矩陣和樹(shù)型圖，可知calorie(熱量)和alcohol(酒精含量)的相關(guān)系數(shù)最大，首先聚為一類(lèi)。從整體上看，聚為三類(lèi)是比較好的結(jié)果。至于熱量和酒精含量選擇哪個(gè)作為典型指標(biāo)代替原來(lái)的兩個(gè)變量，可以根據(jù)專(zhuān)業(yè)知識(shí)或測(cè)度的難易程度決定。,14.3.6 變量聚類(lèi)實(shí)例2 P368,有10個(gè)測(cè)試項(xiàng)目，分別用變量X1-X10表示，50名學(xué)生參加測(cè)試。想從10個(gè)變量中選擇幾個(gè)典型指標(biāo)。data14-03 AnalyzeClassify Hierarchical Cluster: Variables: X1-X10 Cluster：Variable, R聚類(lèi) Method： Cluster Method ：Furthest Neighbor Measure-Interval：Pearson Correlation Plots: Dendrogram 樹(shù)型圖 Statistics：Proximity matrix相關(guān)矩陣比較有用的結(jié)果：可以從樹(shù)型圖中看出聚類(lèi)過(guò)程。具體聚為幾類(lèi)最為合理，根據(jù)專(zhuān)業(yè)知識(shí)來(lái)定。而每類(lèi)中的典型指標(biāo)的選擇，可用p370的相關(guān)指數(shù)公式的計(jì)算，然后比較類(lèi)中各個(gè)變量間的相關(guān)指數(shù)，哪個(gè)大，就選哪個(gè)變量作為此類(lèi)的代表變量。,14.4 判別分析P374,判別分析的概念：是根據(jù)觀測(cè)到的若干變量值，判斷研究對(duì)象如何分類(lèi)的方法。要先建立判別函數(shù) Y=a1x1+a2x2+.anxn，其中:Y為判別分?jǐn)?shù)(判別值)，x1 x2.xn為反映研究對(duì)象特征的變量，a1 a2.an為系數(shù) SPSS對(duì)于分為m類(lèi)的研究對(duì)象，建立m個(gè)線性判別函數(shù)。對(duì)于每個(gè)個(gè)體進(jìn)行判別時(shí)，把觀測(cè)量的各變量值代入判別函數(shù)，得出判別分?jǐn)?shù)，從而確定該個(gè)體屬于哪一類(lèi)，或計(jì)算屬于各類(lèi)的概率，從而判別該個(gè)體屬于哪一類(lèi)。還建立標(biāo)準(zhǔn)化和未標(biāo)準(zhǔn)化的典則判別函數(shù)。具體見(jiàn)下面吳喜之教授有關(guān)判別分析的講義,補(bǔ)充：聚類(lèi)分析與判別分析,以下的講義是吳喜之教授有關(guān)聚類(lèi)分析與判別分析的講義，我覺(jué)得比書(shū)上講得清楚。先是聚類(lèi)分析一章再是判別分析一章,聚類(lèi)分析,分類(lèi),俗語(yǔ)說(shuō)，物以類(lèi)聚、人以群分。但什么是分類(lèi)的根據(jù)呢？比如，要想把中國(guó)的縣分成若干類(lèi)，就有很多種分類(lèi)法；可以按照自然條件來(lái)分，比如考慮降水、土地、日照、濕度等各方面；也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo)；既可以用某一項(xiàng)來(lái)分類(lèi)，也可以同時(shí)考慮多項(xiàng)指標(biāo)來(lái)分類(lèi)。,聚類(lèi)分析,對(duì)于一個(gè)數(shù)據(jù)，人們既可以對(duì)變量（指標(biāo)）進(jìn)行分類(lèi)(相當(dāng)于對(duì)數(shù)據(jù)中的列分類(lèi))，也可以對(duì)觀測(cè)值（事件，樣品）來(lái)分類(lèi)（相當(dāng)于對(duì)數(shù)據(jù)中的行分類(lèi)）。比如學(xué)生成績(jī)數(shù)據(jù)就可以對(duì)學(xué)生按照理科或文科成績(jī)（或者綜合考慮各科成績(jī)）分類(lèi)，當(dāng)然，并不一定事先假定有多少類(lèi)，完全可以按照數(shù)據(jù)本身的規(guī)律來(lái)分類(lèi)。本章要介紹的分類(lèi)的方法稱(chēng)為聚類(lèi)分析（cluster analysis）。對(duì)變量的聚類(lèi)稱(chēng)為R型聚類(lèi)，而對(duì)觀測(cè)值聚類(lèi)稱(chēng)為Q型聚類(lèi)。這兩種聚類(lèi)在數(shù)學(xué)上是對(duì)稱(chēng)的，沒(méi)有什么不同。,飲料數(shù)據(jù)（drink.sav ）,16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量,如何度量遠(yuǎn)近？,如果想要對(duì)100個(gè)學(xué)生進(jìn)行分類(lèi)，如果僅僅知道他們的數(shù)學(xué)成績(jī)，則只好按照數(shù)學(xué)成績(jī)來(lái)分類(lèi)；這些成績(jī)?cè)谥本€上形成100個(gè)點(diǎn)。這樣就可以把接近的點(diǎn)放到一類(lèi)。如果還知道他們的物理成績(jī)，這樣數(shù)學(xué)和物理成績(jī)就形成二維平面上的100個(gè)點(diǎn)，也可以按照距離遠(yuǎn)近來(lái)分類(lèi)。三維或者更高維的情況也是類(lèi)似；只不過(guò)三維以上的圖形無(wú)法直觀地畫(huà)出來(lái)而已。在飲料數(shù)據(jù)中，每種飲料都有四個(gè)變量值。這就是四維空間點(diǎn)的問(wèn)題了。,兩個(gè)距離概念,按照遠(yuǎn)近程度來(lái)聚類(lèi)需要明確兩個(gè)概念：一個(gè)是點(diǎn)和點(diǎn)之間的距離，一個(gè)是類(lèi)和類(lèi)之間的距離。點(diǎn)間距離有很多定義方式。最簡(jiǎn)單的是歐氏距離，還有其他的距離。當(dāng)然還有一些和距離相反但起同樣作用的概念，比如相似性等，兩點(diǎn)越相似度越大，就相當(dāng)于距離越短。由一個(gè)點(diǎn)組成的類(lèi)是最基本的類(lèi)；如果每一類(lèi)都由一個(gè)點(diǎn)組成，那么點(diǎn)間的距離就是類(lèi)間距離。但是如果某一類(lèi)包含不止一個(gè)點(diǎn)，那么就要確定類(lèi)間距離，類(lèi)間距離是基于點(diǎn)間距離定義的：比如兩類(lèi)之間最近點(diǎn)之間的距離可以作為這兩類(lèi)之間的距離，也可以用兩類(lèi)中最遠(yuǎn)點(diǎn)之間的距離作為這兩類(lèi)之間的距離；當(dāng)然也可以用各類(lèi)的中心之間的距離來(lái)作為類(lèi)間距離。在計(jì)算時(shí)，各種點(diǎn)間距離和類(lèi)間距離的選擇是通過(guò)統(tǒng)計(jì)軟件的選項(xiàng)實(shí)現(xiàn)的。不同的選擇的結(jié)果會(huì)不同，但一般不會(huì)差太多。,向量x=(x1, xp)與y=(y1, yp)之間的距離或相似系數(shù):,歐氏距離: Euclidean,平方歐氏距離: Squared Euclidean,夾角余弦(相似系數(shù)1) : cosine,Pearson correlation (相似系數(shù)2):,Chebychev: Maxi|xi-yi|,Block(絕對(duì)距離): Si|xi-yi|,Minkowski:,當(dāng)變量的測(cè)量值相差懸殊時(shí),要先進(jìn)行標(biāo)準(zhǔn)化. 如R為極差, s 為標(biāo)準(zhǔn)差, 則標(biāo)準(zhǔn)化的數(shù)據(jù)為每個(gè)觀測(cè)值減去均值后再除以R或s. 當(dāng)觀測(cè)值大于0時(shí), 有人采用Lance和Williams的距離,類(lèi)Gp與類(lèi)Gq之間的距離Dpq (d(xi,xj)表示點(diǎn)xi Gp和xj Gq之間的距離),最短距離法:,最長(zhǎng)距離法:,重心法:,離差平方和: (Wald),類(lèi)平均法:,(中間距離, 可變平均法,可變法等可參考各書(shū)). 在用歐氏距離時(shí), 有統(tǒng)一的遞推公式 (假設(shè)Gr是從Gp和Gq合并而來(lái)):,Lance和Williams給出(對(duì)歐氏距離)統(tǒng)一遞推公式: D2(k,r)=apD2(k,p)+aqD2(k,q)+bD2(p,q) +g|D2(k,p)-D2(k,q)| 前面方法的遞推公式可選擇參數(shù)而得: 方法 ai (i=p,q) b g 最短距離 0 -1/2 最長(zhǎng)距離 0 1/2 重心 ni/nr -apaq 0 類(lèi)平均 ni/nr 0 0 離差平方和(ni+nk)/ (nr+nk) -nk/ (nr+nk) 0 中間距離 1/2 -1/4 0 可變法 (1-b)/2 b(1) 0 可變平均 (1- b) ni/nr b(1) 0,有了上面的點(diǎn)間距離和類(lèi)間距離的概念，就可以介紹聚類(lèi)的方法了。這里介紹兩個(gè)簡(jiǎn)單的方法。,事先要確定分多少類(lèi)：k-均值聚類(lèi),前面說(shuō)過(guò)，聚類(lèi)可以走著瞧，不一定事先確定有多少類(lèi)；但是這里的k-均值聚類(lèi)（k-means cluster，也叫快速聚類(lèi)，quick cluster）卻要求你先說(shuō)好要分多少類(lèi)?？雌饋?lái)有些主觀，是吧！假定你說(shuō)分3類(lèi)，這個(gè)方法還進(jìn)一步要求你事先確定3個(gè)點(diǎn)為“聚類(lèi)種子”(SPSS軟件自動(dòng)為你選種子)；也就是說(shuō)，把這3個(gè)點(diǎn)作為三類(lèi)中每一類(lèi)的基石。然后，根據(jù)和這三個(gè)點(diǎn)的距離遠(yuǎn)近，把所有點(diǎn)分成三類(lèi)。再把這三類(lèi)的中心（均值）作為新的基石或種子（原來(lái)的“種子”就沒(méi)用了），重新按照距離分類(lèi)。如此疊代下去，直到達(dá)到停止疊代的要求（比如，各類(lèi)最后變化不大了，或者疊代次數(shù)太多了）。顯然，前面的聚類(lèi)種子的選擇并不必太認(rèn)真，它們很可能最后還會(huì)分到同一類(lèi)中呢。下面用飲料例的數(shù)據(jù)來(lái)做k-均值聚類(lèi)。,假定要把這16種飲料分成3類(lèi)。利用SPSS，只疊代了三次就達(dá)到目標(biāo)了（計(jì)算機(jī)選的種子還可以）。這樣就可以得到最后的三類(lèi)的中心以及每類(lèi)有多少點(diǎn),根據(jù)需要，可以輸出哪些點(diǎn)分在一起。結(jié)果是：第一類(lèi)為飲料1、10；第二類(lèi)為飲料2、4、8、11、12、13、14；第三類(lèi)為剩下的飲料3、5、6、7、9、15、16。,SPSS實(shí)現(xiàn)(聚類(lèi)分析),K-均值聚類(lèi) 以數(shù)據(jù)drink.sav為例，在SPSS中選擇AnalyzeClassifyK-Menas Cluster，然后把calorie（熱量）、caffeine（咖啡因）、sodium（鈉）、price（價(jià)格）選入Variables, 在Number of Clusters處選擇3（想要分的類(lèi)數(shù)），如果想要知道哪種飲料分到哪類(lèi)，則選Save，再選Cluster Membership等。注意k-均值聚類(lèi)只能做Q型聚類(lèi)，如要做R型聚類(lèi)，需要把數(shù)據(jù)陣進(jìn)行轉(zhuǎn)置。,事先不用確定分多少類(lèi)：分層聚類(lèi),另一種聚類(lèi)稱(chēng)為分層聚類(lèi)或系統(tǒng)聚類(lèi)（hierarchical cluster）。開(kāi)始時(shí)，有多少點(diǎn)就是多少類(lèi)。它第一步先把最近的兩類(lèi)（點(diǎn)）合并成一類(lèi)，然后再把剩下的最近的兩類(lèi)合并成一類(lèi)；這樣下去，每次都少一類(lèi)，直到最后只有一大類(lèi)為止。顯然，越是后來(lái)合并的類(lèi)，距離就越遠(yuǎn)。再對(duì)飲料例子來(lái)實(shí)施分層聚類(lèi)。,對(duì)于我們的數(shù)據(jù)，SPSS輸出的樹(shù)型圖為,聚類(lèi)要注意的問(wèn)題,聚類(lèi)結(jié)果主要受所選擇的變量影響。如果去掉一些變量，或者增加一些變量，結(jié)果會(huì)很不同。相比之下，聚類(lèi)方法的選擇則不那么重要了。因此，聚類(lèi)之前一定要目標(biāo)明確。另外就分成多少類(lèi)來(lái)說(shuō)，也要有道理。只要你高興，從分層聚類(lèi)的計(jì)算機(jī)結(jié)果可以得到任何可能數(shù)量的類(lèi)。但是，聚類(lèi)的目的是要使各類(lèi)距離盡可能的遠(yuǎn)，而類(lèi)中點(diǎn)的距離盡可能的近，而且分類(lèi)結(jié)果還要有令人信服的解釋。這一點(diǎn)就不是數(shù)學(xué)可以解決的了。,SPSS實(shí)現(xiàn)(聚類(lèi)分析),分層聚類(lèi) 對(duì)drink.sav數(shù)據(jù)在SPSS中選擇AnalyzeClassifyHierarchical Cluster, 然后把calorie（熱量）、caffeine（咖啡因）、sodium（鈉）、price（價(jià)格）選入Variables, 在Cluster選Cases（這是Q型聚類(lèi)：對(duì)觀測(cè)值聚類(lèi)），如果要對(duì)變量聚類(lèi)（R型聚類(lèi)）則選Variables, 為了畫(huà)出樹(shù)狀圖，選Plots，再點(diǎn)Dendrogram等。,啤酒成分和價(jià)格數(shù)據(jù)（data14-02),啤酒名熱量鈉含量酒精價(jià)格 Budweiser 144.00 19.00 4.70 .43 Schlitz 181.00 19.00 4.90 .43 Ionenbrau 157.00 15.00 4.90 .48 Kronensourc 170.00 7.00 5.20 .73 Heineken 152.00 11.00 5.00 .77 Old-milnaukee 145.00 23.00 4.60 .26 Aucsberger 175.00 24.00 5.50 .40 Strchs-bohemi 149.00 27.00 4.70 .42 Miller-lite 99.00 10.00 4.30 .43 Sudeiser-lich 113.00 6.00 3.70 .44 Coors 140.00 16.00 4.60 .44 Coorslicht 102.00 15.00 4.10 .46 Michelos-lich 135.00 11.00 4.20 .50 Secrs 150.00 19.00 4.70 .76 Kkirin 149.00 6.00 5.00 .79 Pabst-extra-l 68.00 15.00 2.30 .36 Hamms 136.00 19.00 4.40 .43 Heilemans-old 144.00 24.00 4.90 .43 Olympia-gold- 72.00 6.00 2.90 .46 Schlite-light 97.00 7.00 4.20 .47,StatisticsClassify Hierarchical Cluster: Variables:啤酒名和成分價(jià)格等 Cluster(Case, Q型聚類(lèi)) Display: (Statistics)(Agglomeration Schedule凝聚狀態(tài)表), (Proximity matrix), Cluster membership(Single solution, 4) Method: Cluster (Furthest Neighbor), Measure-Interval (Squared Euclidean distance), Transform Value (Range 0-1/By variable (值-最小值)/極差) Plots: (Dendrogram) Icicle(Specified range of cluster, Start-1,Stop-4, by-1), Orientation (Vertical) Save: Cluster Membership(Single solution 4),啤酒例子,下表(Proximity matrix)中行列交叉點(diǎn)為兩種啤酒之間各變量的歐氏距離平方和,凝聚過(guò)程:Coefficients為不相似系數(shù),由于是歐氏距離,小的先合并.,分為四類(lèi)的聚類(lèi)結(jié)果,冰柱圖(icicle),聚類(lèi)樹(shù)型圖,學(xué)生測(cè)驗(yàn)數(shù)據(jù)（data14-03) 50個(gè)學(xué)生，X1-X10個(gè)測(cè)驗(yàn)項(xiàng)目要對(duì)這10個(gè)變量進(jìn)行變量聚類(lèi)（ R 型聚類(lèi)），過(guò)程和Q型聚類(lèi)（觀測(cè)量聚類(lèi)，對(duì)cases)一樣,StatisticsClassify Hierarchical Cluster: Variables:x1-x10 Cluster(Variable, R型聚類(lèi)) Display: (Statistics) (Proximity matrix), Cluster membership(Single solution, 2) Method: Cluster (Furthest Neighbor), Measure-Interval (Pearson correlation，用Pearson相關(guān)系數(shù)), Plots: Icicle(All Cluster),學(xué)生測(cè)驗(yàn)例子,下表(Proximity matrix)中行列交叉點(diǎn)為兩個(gè)變量之間變量的歐氏距離平方和,分為兩類(lèi)的聚類(lèi)結(jié)果,冰柱圖(icicle),判別分析,判別,有一些昆蟲(chóng)的性別很難看出，只有通過(guò)解剖才能夠判別；但是雄性和雌性昆蟲(chóng)在若干體表度量上有些綜合的差異。于是統(tǒng)計(jì)學(xué)家就根據(jù)已知雌雄的昆蟲(chóng)體表度量（這些用作度量的變量亦稱(chēng)為預(yù)測(cè)變量）得到一個(gè)標(biāo)準(zhǔn)，并且利用這個(gè)標(biāo)準(zhǔn)來(lái)判別其他未知性別的昆蟲(chóng)。這樣的判別雖然不能保證百分之百準(zhǔn)確，但至少大部分判別都是對(duì)的，而且用不著殺死昆蟲(chóng)來(lái)進(jìn)行判別了。,判別分析(discriminant analysis),這就是本章要講的是判別分析。判別分析和前面的聚類(lèi)分析有什么不同呢？主要不同點(diǎn)就是，在聚類(lèi)分析中一般人們事先并不知道或一定要明確應(yīng)該分成幾類(lèi)，完全根據(jù)數(shù)據(jù)來(lái)確定。而在判別分析中，至少有一個(gè)已經(jīng)明確知道類(lèi)別的“訓(xùn)練樣本”，利用這個(gè)數(shù)據(jù)，就可以建立判別準(zhǔn)則，并通過(guò)預(yù)測(cè)變量來(lái)為未知類(lèi)別的觀測(cè)值進(jìn)行判別了。,判別分析例子,數(shù)據(jù)disc.sav:企圖用一套打分體系來(lái)描繪企業(yè)的狀況。該體系對(duì)每個(gè)企業(yè)的一些指標(biāo)（變量）進(jìn)行評(píng)分。這些指標(biāo)包括：企業(yè)規(guī)模(is)、服務(wù)(se)、雇員工資比例(sa)、利潤(rùn)增長(zhǎng)(prr)、市場(chǎng)份額(ms)、市場(chǎng)份額增長(zhǎng)(msr)、流動(dòng)資金比例(cp)、資金周轉(zhuǎn)速度(cs)等等。另外，有一些企業(yè)已經(jīng)被某雜志劃分為上升企業(yè)、穩(wěn)定企業(yè)和下降企業(yè)。我們希望根據(jù)這些企業(yè)的上述變量的打分和它們已知的類(lèi)別（三個(gè)類(lèi)別之一：group-1代表上升，group-2代表穩(wěn)定，group-3代表下降）找出一個(gè)分類(lèi)標(biāo)準(zhǔn)，以對(duì)沒(méi)有被該刊物分類(lèi)的企業(yè)進(jìn)行分類(lèi)。該數(shù)據(jù)有90個(gè)企業(yè)（90個(gè)觀測(cè)值），其中30個(gè)屬于上升型，30個(gè)屬于穩(wěn)定型，30個(gè)屬于下降型。這個(gè)數(shù)據(jù)就是一個(gè)“訓(xùn)練樣本”。,Disc.sav數(shù)據(jù),根據(jù)距離的判別（不用投影）,Disc.sav數(shù)據(jù)有8個(gè)用來(lái)建立判別標(biāo)準(zhǔn)(或判別函數(shù))的（預(yù)測(cè)）變量，另一個(gè)（group）是類(lèi)別。因此每一個(gè)企業(yè)的打分在這8個(gè)變量所構(gòu)成的8維空間中是一個(gè)點(diǎn)。這個(gè)數(shù)據(jù)有90個(gè)點(diǎn)，由于已經(jīng)知道所有點(diǎn)的類(lèi)別了，所以可以求得每個(gè)類(lèi)型的中心。這樣只要定義了如何計(jì)算距離，就可以得到任何給定的點(diǎn)（企業(yè)）到這三個(gè)中心的三個(gè)距離。顯然，最簡(jiǎn)單的辦法就是離哪個(gè)中心距離最近，就屬于哪一類(lèi)。通常使用的距離是所謂的Mahalanobis距離。用來(lái)比較到各個(gè)中心距離的數(shù)學(xué)函數(shù)稱(chēng)為判別函數(shù)(discriminant function).這種根據(jù)遠(yuǎn)近判別的方法，原理簡(jiǎn)單，直觀易懂。,Fisher判別法(先進(jìn)行投影),所謂Fisher判別法，就是一種先投影的方法。考慮只有兩個(gè)（預(yù)測(cè)）變量的判別分析問(wèn)題。假定這里只有兩類(lèi)。數(shù)據(jù)中的每個(gè)觀測(cè)值是二維空間的一個(gè)點(diǎn)。見(jiàn)圖（下一張幻燈片）。這里只有兩種已知類(lèi)型的訓(xùn)練樣本。其中一類(lèi)有38個(gè)點(diǎn)（用“o”表示），另一類(lèi)有44個(gè)點(diǎn)（用“*”表示）。按照原來(lái)的變量（橫坐標(biāo)和縱坐標(biāo)），很難將這兩種點(diǎn)分開(kāi)。于是就尋找一個(gè)方向，也就是圖上的虛線方向，沿著這個(gè)方向朝和這個(gè)虛線垂直的一條直線進(jìn)行投影會(huì)使得這兩類(lèi)分得最清楚?？梢钥闯觯绻蚱渌较蛲队?，判別效果不會(huì)比這個(gè)好。有了投影之后，再用前面講到的距離遠(yuǎn)近的方法來(lái)得到判別準(zhǔn)則。這種首先進(jìn)行投影的判別方法就是Fisher判別法。,逐步判別法(僅僅是在前面的方法中加入變量選擇的功能),有時(shí)，一些變量對(duì)于判別并沒(méi)有什么作用，為了得到對(duì)判別最合適的變量，可以使用逐步判別。也就是，一邊判別，一邊引進(jìn)判別能力最強(qiáng)的變量，這個(gè)過(guò)程可以有進(jìn)有出。一個(gè)變量的判別能力的判斷方法有很多種，主要利用各種檢驗(yàn)，例如Wilks Lambda、Raos V、The Squared Mahalanobis Distance、Smallest F ratio或The Sum of Unexplained Variations等檢驗(yàn)。其細(xì)節(jié)這里就不贅述了；這些不同方法可由統(tǒng)計(jì)軟件的各種選項(xiàng)來(lái)實(shí)現(xiàn)。逐步判別的其他方面和前面的無(wú)異。,Disc.sav例子,利用SPSS軟件的逐步判別法淘汰了不顯著的流動(dòng)資金比例(cp)，還剩下七個(gè)變量is，se，sa，prr，ms，msr，cs，得到兩個(gè)典則判別函數(shù)（Canonical Discriminant Function Coefficients）： 0.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023MSR-0.385CS-3.166 0.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.384,這兩個(gè)函數(shù)實(shí)際上是由Fisher判別法得到的向兩個(gè)方向的投影。這兩個(gè)典則判別函數(shù)的系數(shù)是下面的SPSS輸出得到的：,Disc.sav例子,根據(jù)這兩個(gè)函數(shù)，從任何一個(gè)觀測(cè)值（每個(gè)觀測(cè)值都有7個(gè)變量值）都可以算出兩個(gè)數(shù)。把這兩個(gè)數(shù)目當(dāng)成該觀測(cè)值的坐標(biāo)，這樣數(shù)據(jù)中的150個(gè)觀測(cè)值就是二維平面上的150個(gè)點(diǎn)。它們的點(diǎn)圖在下面圖中。,Disc.sav例子,從上圖可以看出，第一個(gè)投影（相應(yīng)于來(lái)自于第一個(gè)典則判別函數(shù)橫坐標(biāo)值）已經(jīng)能夠很好地分辨出三個(gè)企業(yè)類(lèi)型了。這兩個(gè)典則判別函數(shù)并不是平等的。其實(shí)一個(gè)函數(shù)就已經(jīng)能夠把這三類(lèi)分清楚了。SPSS的一個(gè)輸出就給出了這些判別函數(shù)（投影）的重要程度：,前面說(shuō)過(guò)，投影的重要性是和特征值的貢獻(xiàn)率有關(guān)。該表說(shuō)明第一個(gè)函數(shù)的貢獻(xiàn)率已經(jīng)是99%了，而第二個(gè)只有1%。當(dāng)然，二維圖要容易看一些。投影之后，再根據(jù)各點(diǎn)的位置遠(yuǎn)近算出具體的判別公式（SPSS輸出）：,Disc.sav例子,具體的判別公式（SPSS輸出），由一張分類(lèi)函數(shù)表給出：,該表給出了三個(gè)線性分類(lèi)函數(shù)的系數(shù)。把每個(gè)觀測(cè)點(diǎn)帶入三個(gè)函數(shù)，就可以得到分別代表三類(lèi)的三個(gè)值，哪個(gè)值最大，該點(diǎn)就屬于相應(yīng)的那一類(lèi)。當(dāng)然，用不著自己去算，計(jì)算機(jī)軟件的選項(xiàng)可以把這些訓(xùn)練數(shù)據(jù)的每一個(gè)點(diǎn)按照這里的分類(lèi)法分到某一類(lèi)。當(dāng)然，我們一開(kāi)始就知道這些訓(xùn)練數(shù)據(jù)的各個(gè)觀測(cè)值的歸屬，但即使是這些訓(xùn)練樣本的觀測(cè)值（企業(yè)）按照這里推導(dǎo)出的分類(lèi)函數(shù)來(lái)分類(lèi)，也不一定全都能夠正確劃分。,Disc.sav例子,下面就是對(duì)我們的訓(xùn)練樣本的分類(lèi)結(jié)果（SPSS）：,誤判和正確判別率,從這個(gè)表來(lái)看，我們的分類(lèi)能夠100%地把訓(xùn)練數(shù)據(jù)的每一個(gè)觀測(cè)值分到其本來(lái)的類(lèi)。該表分成兩部分；上面一半（Original）是用從全部數(shù)據(jù)得到的判別函數(shù)來(lái)判斷每一個(gè)點(diǎn)的結(jié)果（前面三行為判斷結(jié)果的數(shù)目，而后三行為相應(yīng)的百分比）。下面一半（Cross validated）是對(duì)每一個(gè)觀測(cè)值，都用缺少該觀測(cè)的全部數(shù)據(jù)得到的判別函數(shù)來(lái)判斷的結(jié)果。這里的判別結(jié)果是100%判別正確，但一般并不一定。,Disc.sav例子,如果就用這個(gè)數(shù)據(jù)，但不用所有的變量，而只用4個(gè)變量進(jìn)行判別：企業(yè)規(guī)模（is）、服務(wù)(se)、雇員工資比例(sa)、資金周轉(zhuǎn)速度(cs)。結(jié)果的圖形和判別的正確與否就不一樣了。下圖為兩個(gè)典則判別函數(shù)導(dǎo)出的150個(gè)企業(yè)的二維點(diǎn)圖。它不如前面的圖那么容易分清楚了,原先的圖,Disc.sav例子,下面是基于4個(gè)變量時(shí)分類(lèi)結(jié)果表：,這個(gè)表的結(jié)果是有87個(gè)點(diǎn)（96.7%）得到正確劃分，有3個(gè)點(diǎn)被錯(cuò)誤判別；其中第二類(lèi)有兩個(gè)被誤判為第一類(lèi)，有一個(gè)被誤判為第三類(lèi)。,判別分析要注意什么？,訓(xùn)練樣本中必須有所有要判別的類(lèi)型，分類(lèi)必須清楚，不能有混雜。要選擇好可能由于判別的預(yù)測(cè)變量。這是最重要的一步。當(dāng)然，在應(yīng)用中，選擇的余地不見(jiàn)得有多大。要注意數(shù)據(jù)是否有不尋常的點(diǎn)或者模式存在。還要看預(yù)測(cè)變量中是否有些不適宜的；這可以用單變量方差分析（ANOVA）和相關(guān)分析來(lái)驗(yàn)證。判別分析是為了正確地分類(lèi)，但同時(shí)也要注意使用盡可能少的預(yù)測(cè)變量來(lái)達(dá)到這個(gè)目的。使用較少的變量意味著節(jié)省資源和易于對(duì)結(jié)果進(jìn)行解釋。,判別分析要注意什么？,在計(jì)算中需要看關(guān)于各個(gè)類(lèi)的有關(guān)變量的均值是否顯著不同的檢驗(yàn)結(jié)果（在SPSS選項(xiàng)中選擇Wilks Lambda、Raos V、The Squared Mahalanobis Distance或The Sum of Unexplained Variations等檢驗(yàn)的計(jì)算機(jī)輸出），以確定是否分類(lèi)結(jié)果是僅僅由于隨機(jī)因素。此外成員的權(quán)數(shù)（SPSS用prior probability，即“先驗(yàn)概率”，和貝葉斯統(tǒng)計(jì)的先驗(yàn)概率有區(qū)別）需要考慮；一般來(lái)說(shuō)，加權(quán)要按照各類(lèi)觀測(cè)值的多少，觀測(cè)值少的就要按照比例多加權(quán)。對(duì)于多個(gè)判別函數(shù)，要弄清各自的重要性。注意訓(xùn)練樣本的正確和錯(cuò)誤分類(lèi)率。研究被誤分類(lèi)的觀測(cè)值，看是否可以找出原因。,SPSS選項(xiàng),打開(kāi)disc.sav數(shù)據(jù)。然后點(diǎn)擊AnalyzeClassifyDiscriminant，把group放入Grouping Variable，再定義范圍，即在Define Range輸入13的范圍。然后在Independents輸入所有想用的變量；但如果要用逐步判別，則不選Enter independents together，而選擇Use stepwise method，在方法（Method）中選挑選變量的準(zhǔn)則（檢驗(yàn)方法；默認(rèn)值為Wilks Lambda）。為了輸出Fisher分類(lèi)函數(shù)的結(jié)果可以在Statistics中的Function Coefficient選 Fisher和UnStandardized（點(diǎn)則判別函數(shù)系數(shù)），在Matrices中選擇輸出所需要的相關(guān)陣；還可以在Classify中的Display選summary table, Leave-one-out classification；注意在Classify選項(xiàng)中默認(rèn)的Prior Probability為All groups equal表示所有的類(lèi)都平等對(duì)待，而另一個(gè)選項(xiàng)為Compute from group sizes，即按照類(lèi)的大小加權(quán)。在Plots可選 Combined-groups, Territorial map等。,14.4.3 判別分析實(shí)例P379,鳶尾花數(shù)據(jù)(花瓣,花萼的長(zhǎng)寬) 5個(gè)變量:花瓣長(zhǎng)(slen),花瓣寬(swid), 花萼長(zhǎng)(plen), 花萼寬(pwid), 分類(lèi)號(hào)(1:Setosa, 2:Versicolor, 3:Virginica)(data14-04),StatisticsClassify Discriminant: Variables: independent (slen,swid,plen,pwid) Grouping(spno) Define range(min-1,max-3) Classify: prior probability(All group equal) use covariance matrix (Within-groups) Plots (Combined-groups, Separate-groups, Territorial map) Display (Summary table) Statistics: Descriptive (Means) Function Coefficients (Fishers, Unstandardi

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

spss聚類(lèi)分析結(jié)果解釋.ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

spss聚類(lèi)分析結(jié)果解釋.ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔