spss聚類(lèi)分析結(jié)果解釋.ppt_第1頁(yè)
spss聚類(lèi)分析結(jié)果解釋.ppt_第2頁(yè)
spss聚類(lèi)分析結(jié)果解釋.ppt_第3頁(yè)
spss聚類(lèi)分析結(jié)果解釋.ppt_第4頁(yè)
spss聚類(lèi)分析結(jié)果解釋.ppt_第5頁(yè)
已閱讀5頁(yè),還剩78頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第14章 聚類(lèi)分析與判別分析,介紹: 1、聚類(lèi)分析 2、判別分析 分類(lèi)學(xué)是人類(lèi)認(rèn)識(shí)世界的基礎(chǔ)科學(xué)。聚類(lèi)分析和判別分析是研究事物分類(lèi)的基本方法,廣泛地應(yīng)用于自然科學(xué)、社會(huì)科學(xué)、工農(nóng)業(yè)生產(chǎn)的各個(gè)領(lǐng)域。,14.1.1 聚類(lèi)分析,根據(jù)事物本身的特性研究個(gè)體分類(lèi)的方法,原則是同一類(lèi)中的個(gè)體有較大的相似性,不同類(lèi)中的個(gè)體差異很大。 根據(jù)分類(lèi)對(duì)象的不同,分為樣品(觀測(cè)量)聚類(lèi)和變量聚類(lèi)兩種: 樣品聚類(lèi):對(duì)觀測(cè)量(Case)進(jìn)行聚類(lèi)(不同的目的選用不同的指標(biāo)作為分類(lèi)的依據(jù),如選拔運(yùn)動(dòng)員與分課外活動(dòng)小組) 變量聚類(lèi):找出彼此獨(dú)立且有代表性的自變量,而又不丟失大部分信息。在生產(chǎn)活動(dòng)中不乏有變量聚類(lèi)的實(shí)例,如:衣服號(hào)碼(身長(zhǎng)、胸圍、褲長(zhǎng)、腰圍)、鞋的號(hào)碼。變量聚類(lèi)使批量生產(chǎn)成為可能。,14.1.2 判別分析,判別分析是根據(jù)表明事物特點(diǎn)的變量值和它們所屬的類(lèi),求出判別函數(shù)。根據(jù)判別函數(shù)對(duì)未知所屬類(lèi)別的事物進(jìn)行分類(lèi)的一種分析方法。 在自然科學(xué)和社會(huì)科學(xué)的各個(gè)領(lǐng)域經(jīng)常遇到需要對(duì)某個(gè)個(gè)體屬于哪一類(lèi)進(jìn)行判斷。如動(dòng)物學(xué)家對(duì)動(dòng)物如何分類(lèi)的研究和某個(gè)動(dòng)物屬于哪一類(lèi)、目、綱的判斷。 不同:判別分析和聚類(lèi)分析不同的在于判別分析要求已知一系列反映事物特征的數(shù)值變量的值,并且已知各個(gè)體的分類(lèi)(訓(xùn)練樣本)。,14.1.3 聚類(lèi)分析與判別分析的SPSS過(guò)程,在AnalyzeClassify下: K-Means Cluster: 觀測(cè)量快速聚類(lèi)分析過(guò)程 Hierarchical Cluster:分層聚類(lèi)(進(jìn)行觀測(cè)量聚類(lèi)和變量聚類(lèi)的過(guò)程 Discriminant:進(jìn)行判別分析的過(guò)程,14.2 快速樣本聚類(lèi)過(guò)程(Quick Cluster),使用 k 均值分類(lèi)法對(duì)觀測(cè)量進(jìn)行聚類(lèi) 可使用系統(tǒng)的默認(rèn)選項(xiàng)或自己設(shè)置選項(xiàng),如分為幾類(lèi)、指定初始類(lèi)中心、是否將聚類(lèi)結(jié)果或中間數(shù)據(jù)數(shù)據(jù)存入數(shù)據(jù)文件等。 快速聚類(lèi)實(shí)例(P342,data14-01a):使用系統(tǒng)的默認(rèn)值進(jìn)行:對(duì)運(yùn)動(dòng)員的分類(lèi)(分為4類(lèi)) AnalyzeClassifyK-Means Cluster Variables: x1,x2,x3 Label Case By: no Number of Cluster: 4 比較有用的結(jié)果:聚類(lèi)結(jié)果形成的最后四類(lèi)中心點(diǎn)(Final Cluster Centers) 和每類(lèi)的觀測(cè)量數(shù)目(Number of Cases in each Cluster) 但不知每個(gè)運(yùn)動(dòng)員究竟屬于哪一類(lèi)?這就要用到Save選項(xiàng),14.2 快速樣本聚類(lèi)過(guò)程(Quick Cluster)中的選項(xiàng),使用快速聚類(lèi)的選擇項(xiàng): 類(lèi)中心數(shù)據(jù)的輸入與輸出:Centers選項(xiàng) 輸出數(shù)據(jù)選擇項(xiàng):Save選項(xiàng) 聚類(lèi)方法選擇項(xiàng):Method選項(xiàng) 聚類(lèi)何時(shí)停止選擇項(xiàng):Iterate選項(xiàng) 輸出統(tǒng)計(jì)量選擇項(xiàng):Option選項(xiàng),14.2 指定初始類(lèi)中心的聚類(lèi)方法例題P343,數(shù)據(jù)同上(data14-01a):以四個(gè)四類(lèi)成績(jī)突出者的數(shù)據(jù)為初始聚類(lèi)中心(種子)進(jìn)行聚類(lèi)。類(lèi)中心數(shù)據(jù)文件data14-01b(但缺一列Cluster_,不能直接使用,要修改)。對(duì)運(yùn)動(dòng)員的分類(lèi)(還是分為4類(lèi)) AnalyzeClassifyK-Means Cluster Variables: x1,x2,x3 Label Case By: no Number of Cluster: 4 Center: Read initial from: data14-01b Save: Cluster membership和Distance from Cluster Center 比較有用的結(jié)果(可將結(jié)果與前面沒(méi)有初始類(lèi)中心比較): 聚類(lèi)結(jié)果形成的最后四類(lèi)中心點(diǎn)(Final Cluster Centers) 每類(lèi)的觀測(cè)量數(shù)目(Number of Cases in each Cluster) 在數(shù)據(jù)文件中的兩個(gè)新變量qc1_1(每個(gè)觀測(cè)量最終被分配到哪一類(lèi))和 qc1_2(觀測(cè)量與所屬類(lèi)中心點(diǎn)的距離),14.3 分層聚類(lèi)(Hierarchical Cluster),分層聚類(lèi)方法: 分解法:先視為一大類(lèi),再分成幾類(lèi) 凝聚法:先視每個(gè)為一類(lèi),再合并為幾大類(lèi) 可用于觀測(cè)量(樣本)聚類(lèi)(Q型)和變量聚類(lèi)(R型) 一般分為兩步(自動(dòng),可從Paste的語(yǔ)句知道,P359): Proximities:先對(duì)數(shù)據(jù)進(jìn)行的預(yù)處理(標(biāo)準(zhǔn)化和計(jì)算距離等) Cluster:然后進(jìn)行聚類(lèi)分析 兩種統(tǒng)計(jì)圖:樹(shù)形圖(Dendrogram)和冰柱圖(Icicle) 各類(lèi)型數(shù)據(jù)的標(biāo)準(zhǔn)化、距離和相似性計(jì)算P348-354 定距變量、分類(lèi)變量、二值變量 標(biāo)準(zhǔn)化方法p353:Z Scores、Range -1 to 1、 Range 0 to 1等,14.3.4 用分層聚類(lèi)法進(jìn)行觀測(cè)量聚類(lèi)實(shí)例P358,對(duì)20種啤酒進(jìn)行分類(lèi)(data14-02),變量包括:Beername(啤酒名稱(chēng))、calorie(熱量)、sodium(鈉含量)、alcohol(酒精含量)、 cost(價(jià)格) AnalyzeClassify Hierarchical Cluster: Variables: calorie,sodium,alcohol, cost 成分和價(jià)格 Label Case By: Beername Cluster:Case, Q聚類(lèi) Display: 選中Statistics,單擊Statistics Agglomeration Schedule 凝聚狀態(tài)表 Proximity matrix:距離矩陣 Cluster membership:Single solution:4 顯示分為4類(lèi)時(shí),各觀測(cè)量所屬的類(lèi) Method: Cluster (Furthest Neighbor), Measure-Interval (Squared Euclidean distance), Transform Value (Range 0-1/By variable (值-最小值)/極差) Plots: (Dendrogram) Icicle(Specified range of cluster, Start-1,Stop-4, by-1), Orientation (Vertical縱向作圖) Save: Cluster Membership(Single solution 4) 比較有用的結(jié)果:根據(jù)需要進(jìn)行分類(lèi),在數(shù)據(jù)文件中的分類(lèi)新變量clu4_1等,14.3.5 用分層聚類(lèi)法進(jìn)行變量聚類(lèi),變量聚類(lèi),是一種降維的方法,用于在變量眾多時(shí)尋找有代表性的變量,以便在用少量、有代表性的變量代替大變量集時(shí),損失信息很少。 與進(jìn)行觀測(cè)量聚類(lèi)雷同,不同點(diǎn)在于: 選擇Variable而非Case Save選項(xiàng)失效,不建立的新變量,14.3.6 變量聚類(lèi)實(shí)例1 P366,上面啤酒分類(lèi)問(wèn)題data14-02。 AnalyzeClassify Hierarchical Cluster: Variables: calorie,sodium,alcohol, cost 成分和價(jià)格 Cluster:Variable, R聚類(lèi) Method: Cluster Method :Furthest Neighbor Measure-Interval:Pearson Correlation Transform Values:Z Score (By Variable) Plots: Dendrogram 樹(shù)型圖 Statistics:Proximity matrix:相關(guān)矩陣 比較有用的結(jié)果:根據(jù)相關(guān)矩陣和樹(shù)型圖,可知calorie(熱量)和alcohol(酒精含量)的相關(guān)系數(shù)最大,首先聚為一類(lèi)。從整體上看,聚為三類(lèi)是比較好的結(jié)果。至于熱量和酒精含量選擇哪個(gè)作為典型指標(biāo)代替原來(lái)的兩個(gè)變量,可以根據(jù)專(zhuān)業(yè)知識(shí)或測(cè)度的難易程度決定。,14.3.6 變量聚類(lèi)實(shí)例2 P368,有10個(gè)測(cè)試項(xiàng)目,分別用變量X1-X10表示,50名學(xué)生參加測(cè)試。想從10個(gè)變量中選擇幾個(gè)典型指標(biāo)。data14-03 AnalyzeClassify Hierarchical Cluster: Variables: X1-X10 Cluster:Variable, R聚類(lèi) Method: Cluster Method :Furthest Neighbor Measure-Interval:Pearson Correlation Plots: Dendrogram 樹(shù)型圖 Statistics:Proximity matrix相關(guān)矩陣 比較有用的結(jié)果:可以從樹(shù)型圖中看出聚類(lèi)過(guò)程。具體聚為幾類(lèi)最為合理,根據(jù)專(zhuān)業(yè)知識(shí)來(lái)定。而每類(lèi)中的典型指標(biāo)的選擇,可用p370的相關(guān)指數(shù)公式的計(jì)算,然后比較類(lèi)中各個(gè)變量間的相關(guān)指數(shù),哪個(gè)大,就選哪個(gè)變量作為此類(lèi)的代表變量。,14.4 判別分析P374,判別分析的概念:是根據(jù)觀測(cè)到的若干變量值,判斷研究對(duì)象如何分類(lèi)的方法。 要先建立判別函數(shù) Y=a1x1+a2x2+.anxn,其中:Y為判別分?jǐn)?shù)(判別值),x1 x2.xn為反映研究對(duì)象特征的變量,a1 a2.an為系數(shù) SPSS對(duì)于分為m類(lèi)的研究對(duì)象,建立m個(gè)線性判別函數(shù)。對(duì)于每個(gè)個(gè)體進(jìn)行判別時(shí),把觀測(cè)量的各變量值代入判別函數(shù),得出判別分?jǐn)?shù),從而確定該個(gè)體屬于哪一類(lèi),或計(jì)算屬于各類(lèi)的概率,從而判別該個(gè)體屬于哪一類(lèi)。還建立標(biāo)準(zhǔn)化和未標(biāo)準(zhǔn)化的典則判別函數(shù)。 具體見(jiàn)下面吳喜之教授有關(guān)判別分析的講義,補(bǔ)充:聚類(lèi)分析與判別分析,以下的講義是吳喜之教授有關(guān)聚類(lèi)分析與判別分析的講義,我覺(jué)得比書(shū)上講得清楚。 先是聚類(lèi)分析一章 再是判別分析一章,聚類(lèi)分析,分類(lèi),俗語(yǔ)說(shuō),物以類(lèi)聚、人以群分。 但什么是分類(lèi)的根據(jù)呢? 比如,要想把中國(guó)的縣分成若干類(lèi),就有很多種分類(lèi)法; 可以按照自然條件來(lái)分, 比如考慮降水、土地、日照、濕度等各方面; 也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo); 既可以用某一項(xiàng)來(lái)分類(lèi),也可以同時(shí)考慮多項(xiàng)指標(biāo)來(lái)分類(lèi)。,聚類(lèi)分析,對(duì)于一個(gè)數(shù)據(jù),人們既可以對(duì)變量(指標(biāo))進(jìn)行分類(lèi)(相當(dāng)于對(duì)數(shù)據(jù)中的列分類(lèi)),也可以對(duì)觀測(cè)值(事件,樣品)來(lái)分類(lèi)(相當(dāng)于對(duì)數(shù)據(jù)中的行分類(lèi))。 比如學(xué)生成績(jī)數(shù)據(jù)就可以對(duì)學(xué)生按照理科或文科成績(jī)(或者綜合考慮各科成績(jī))分類(lèi), 當(dāng)然,并不一定事先假定有多少類(lèi),完全可以按照數(shù)據(jù)本身的規(guī)律來(lái)分類(lèi)。 本章要介紹的分類(lèi)的方法稱(chēng)為聚類(lèi)分析(cluster analysis)。對(duì)變量的聚類(lèi)稱(chēng)為R型聚類(lèi),而對(duì)觀測(cè)值聚類(lèi)稱(chēng)為Q型聚類(lèi)。這兩種聚類(lèi)在數(shù)學(xué)上是對(duì)稱(chēng)的,沒(méi)有什么不同。,飲料數(shù)據(jù)(drink.sav ),16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量,如何度量遠(yuǎn)近?,如果想要對(duì)100個(gè)學(xué)生進(jìn)行分類(lèi),如果僅僅知道他們的數(shù)學(xué)成績(jī),則只好按照數(shù)學(xué)成績(jī)來(lái)分類(lèi);這些成績(jī)?cè)谥本€上形成100個(gè)點(diǎn)。這樣就可以把接近的點(diǎn)放到一類(lèi)。 如果還知道他們的物理成績(jī),這樣數(shù)學(xué)和物理成績(jī)就形成二維平面上的100個(gè)點(diǎn),也可以按照距離遠(yuǎn)近來(lái)分類(lèi)。 三維或者更高維的情況也是類(lèi)似;只不過(guò)三維以上的圖形無(wú)法直觀地畫(huà)出來(lái)而已。在飲料數(shù)據(jù)中,每種飲料都有四個(gè)變量值。這就是四維空間點(diǎn)的問(wèn)題了。,兩個(gè)距離概念,按照遠(yuǎn)近程度來(lái)聚類(lèi)需要明確兩個(gè)概念:一個(gè)是點(diǎn)和點(diǎn)之間的距離,一個(gè)是類(lèi)和類(lèi)之間的距離。 點(diǎn)間距離有很多定義方式。最簡(jiǎn)單的是歐氏距離,還有其他的距離。 當(dāng)然還有一些和距離相反但起同樣作用的概念,比如相似性等,兩點(diǎn)越相似度越大,就相當(dāng)于距離越短。 由一個(gè)點(diǎn)組成的類(lèi)是最基本的類(lèi);如果每一類(lèi)都由一個(gè)點(diǎn)組成,那么點(diǎn)間的距離就是類(lèi)間距離。但是如果某一類(lèi)包含不止一個(gè)點(diǎn),那么就要確定類(lèi)間距離, 類(lèi)間距離是基于點(diǎn)間距離定義的:比如兩類(lèi)之間最近點(diǎn)之間的距離可以作為這兩類(lèi)之間的距離,也可以用兩類(lèi)中最遠(yuǎn)點(diǎn)之間的距離作為這兩類(lèi)之間的距離;當(dāng)然也可以用各類(lèi)的中心之間的距離來(lái)作為類(lèi)間距離。在計(jì)算時(shí),各種點(diǎn)間距離和類(lèi)間距離的選擇是通過(guò)統(tǒng)計(jì)軟件的選項(xiàng)實(shí)現(xiàn)的。不同的選擇的結(jié)果會(huì)不同,但一般不會(huì)差太多。,向量x=(x1, xp)與y=(y1, yp)之間的距離或相似系數(shù):,歐氏距離: Euclidean,平方歐氏距離: Squared Euclidean,夾角余弦(相似系數(shù)1) : cosine,Pearson correlation (相似系數(shù)2):,Chebychev: Maxi|xi-yi|,Block(絕對(duì)距離): Si|xi-yi|,Minkowski:,當(dāng)變量的測(cè)量值相差懸殊時(shí),要先進(jìn)行標(biāo)準(zhǔn)化. 如R為極差, s 為標(biāo)準(zhǔn)差, 則標(biāo)準(zhǔn)化的數(shù)據(jù)為每個(gè)觀測(cè)值減去均值后再除以R或s. 當(dāng)觀測(cè)值大于0時(shí), 有人采用Lance和Williams的距離,類(lèi)Gp與類(lèi)Gq之間的距離Dpq (d(xi,xj)表示點(diǎn)xi Gp和xj Gq之間的距離),最短距離法:,最長(zhǎng)距離法:,重心法:,離差平方和: (Wald),類(lèi)平均法:,(中間距離, 可變平均法,可變法等可參考各書(shū)). 在用歐氏距離時(shí), 有統(tǒng)一的遞推公式 (假設(shè)Gr是從Gp和Gq合并而來(lái)):,Lance和Williams給出(對(duì)歐氏距離)統(tǒng)一遞推公式: D2(k,r)=apD2(k,p)+aqD2(k,q)+bD2(p,q) +g|D2(k,p)-D2(k,q)| 前面方法的遞推公式可選擇參數(shù)而得: 方法 ai (i=p,q) b g 最短距離 0 -1/2 最長(zhǎng)距離 0 1/2 重心 ni/nr -apaq 0 類(lèi)平均 ni/nr 0 0 離差平方和(ni+nk)/ (nr+nk) -nk/ (nr+nk) 0 中間距離 1/2 -1/4 0 可變法 (1-b)/2 b(1) 0 可變平均 (1- b) ni/nr b(1) 0,有了上面的點(diǎn)間距離和類(lèi)間距離的概念,就可以介紹聚類(lèi)的方法了。這里介紹兩個(gè)簡(jiǎn)單的方法。,事先要確定分多少類(lèi):k-均值聚類(lèi),前面說(shuō)過(guò),聚類(lèi)可以走著瞧,不一定事先確定有多少類(lèi);但是這里的k-均值聚類(lèi)(k-means cluster,也叫快速聚類(lèi),quick cluster)卻要求你先說(shuō)好要分多少類(lèi)??雌饋?lái)有些主觀,是吧! 假定你說(shuō)分3類(lèi),這個(gè)方法還進(jìn)一步要求你事先確定3個(gè)點(diǎn)為“聚類(lèi)種子”(SPSS軟件自動(dòng)為你選種子);也就是說(shuō),把這3個(gè)點(diǎn)作為三類(lèi)中每一類(lèi)的基石。 然后,根據(jù)和這三個(gè)點(diǎn)的距離遠(yuǎn)近,把所有點(diǎn)分成三類(lèi)。再把這三類(lèi)的中心(均值)作為新的基石或種子(原來(lái)的“種子”就沒(méi)用了),重新按照距離分類(lèi)。 如此疊代下去,直到達(dá)到停止疊代的要求(比如,各類(lèi)最后變化不大了,或者疊代次數(shù)太多了)。顯然,前面的聚類(lèi)種子的選擇并不必太認(rèn)真,它們很可能最后還會(huì)分到同一類(lèi)中呢。下面用飲料例的數(shù)據(jù)來(lái)做k-均值聚類(lèi)。,假定要把這16種飲料分成3類(lèi)。利用SPSS,只疊代了三次就達(dá)到目標(biāo)了(計(jì)算機(jī)選的種子還可以)。這樣就可以得到最后的三類(lèi)的中心以及每類(lèi)有多少點(diǎn),根據(jù)需要,可以輸出哪些點(diǎn)分在一起。結(jié)果是:第一類(lèi)為飲料1、10;第二類(lèi)為飲料2、4、8、11、12、13、14;第三類(lèi)為剩下的飲料3、5、6、7、9、15、16。,SPSS實(shí)現(xiàn)(聚類(lèi)分析),K-均值聚類(lèi) 以數(shù)據(jù)drink.sav為例,在SPSS中選擇AnalyzeClassifyK-Menas Cluster, 然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價(jià)格)選入Variables, 在Number of Clusters處選擇3(想要分的類(lèi)數(shù)), 如果想要知道哪種飲料分到哪類(lèi),則選Save,再選Cluster Membership等。 注意k-均值聚類(lèi)只能做Q型聚類(lèi),如要做R型聚類(lèi),需要把數(shù)據(jù)陣進(jìn)行轉(zhuǎn)置。,事先不用確定分多少類(lèi):分層聚類(lèi),另一種聚類(lèi)稱(chēng)為分層聚類(lèi)或系統(tǒng)聚類(lèi)(hierarchical cluster)。開(kāi)始時(shí),有多少點(diǎn)就是多少類(lèi)。 它第一步先把最近的兩類(lèi)(點(diǎn))合并成一類(lèi),然后再把剩下的最近的兩類(lèi)合并成一類(lèi); 這樣下去,每次都少一類(lèi),直到最后只有一大類(lèi)為止。顯然,越是后來(lái)合并的類(lèi),距離就越遠(yuǎn)。再對(duì)飲料例子來(lái)實(shí)施分層聚類(lèi)。,對(duì)于我們的數(shù)據(jù),SPSS輸出的樹(shù)型圖為,聚類(lèi)要注意的問(wèn)題,聚類(lèi)結(jié)果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結(jié)果會(huì)很不同。 相比之下,聚類(lèi)方法的選擇則不那么重要了。因此,聚類(lèi)之前一定要目標(biāo)明確。 另外就分成多少類(lèi)來(lái)說(shuō),也要有道理。只要你高興,從分層聚類(lèi)的計(jì)算機(jī)結(jié)果可以得到任何可能數(shù)量的類(lèi)。但是,聚類(lèi)的目的是要使各類(lèi)距離盡可能的遠(yuǎn),而類(lèi)中點(diǎn)的距離盡可能的近,而且分類(lèi)結(jié)果還要有令人信服的解釋。這一點(diǎn)就不是數(shù)學(xué)可以解決的了。,SPSS實(shí)現(xiàn)(聚類(lèi)分析),分層聚類(lèi) 對(duì)drink.sav數(shù)據(jù)在SPSS中選擇AnalyzeClassifyHierarchical Cluster, 然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價(jià)格)選入Variables, 在Cluster選Cases(這是Q型聚類(lèi):對(duì)觀測(cè)值聚類(lèi)),如果要對(duì)變量聚類(lèi)(R型聚類(lèi))則選Variables, 為了畫(huà)出樹(shù)狀圖,選Plots,再點(diǎn)Dendrogram等。,啤酒成分和價(jià)格數(shù)據(jù)(data14-02),啤酒名 熱量 鈉含量 酒精 價(jià)格 Budweiser 144.00 19.00 4.70 .43 Schlitz 181.00 19.00 4.90 .43 Ionenbrau 157.00 15.00 4.90 .48 Kronensourc 170.00 7.00 5.20 .73 Heineken 152.00 11.00 5.00 .77 Old-milnaukee 145.00 23.00 4.60 .26 Aucsberger 175.00 24.00 5.50 .40 Strchs-bohemi 149.00 27.00 4.70 .42 Miller-lite 99.00 10.00 4.30 .43 Sudeiser-lich 113.00 6.00 3.70 .44 Coors 140.00 16.00 4.60 .44 Coorslicht 102.00 15.00 4.10 .46 Michelos-lich 135.00 11.00 4.20 .50 Secrs 150.00 19.00 4.70 .76 Kkirin 149.00 6.00 5.00 .79 Pabst-extra-l 68.00 15.00 2.30 .36 Hamms 136.00 19.00 4.40 .43 Heilemans-old 144.00 24.00 4.90 .43 Olympia-gold- 72.00 6.00 2.90 .46 Schlite-light 97.00 7.00 4.20 .47,StatisticsClassify Hierarchical Cluster: Variables:啤酒名和成分價(jià)格等 Cluster(Case, Q型聚類(lèi)) Display: (Statistics)(Agglomeration Schedule凝聚狀態(tài)表), (Proximity matrix), Cluster membership(Single solution, 4) Method: Cluster (Furthest Neighbor), Measure-Interval (Squared Euclidean distance), Transform Value (Range 0-1/By variable (值-最小值)/極差) Plots: (Dendrogram) Icicle(Specified range of cluster, Start-1,Stop-4, by-1), Orientation (Vertical) Save: Cluster Membership(Single solution 4),啤酒例子,下表(Proximity matrix)中行列交叉點(diǎn)為兩種啤酒之間各變量的歐氏距離平方和,凝聚過(guò)程:Coefficients為不相似系數(shù),由于是歐氏距離,小的先合并.,分為四類(lèi)的聚類(lèi)結(jié)果,冰柱圖(icicle),聚類(lèi)樹(shù)型圖,學(xué)生測(cè)驗(yàn)數(shù)據(jù)(data14-03) 50個(gè)學(xué)生,X1-X10個(gè)測(cè)驗(yàn)項(xiàng)目 要對(duì)這10個(gè)變量進(jìn)行變量聚類(lèi)( R 型聚類(lèi)),過(guò)程和Q型聚類(lèi)(觀測(cè)量聚類(lèi),對(duì)cases)一樣,StatisticsClassify Hierarchical Cluster: Variables:x1-x10 Cluster(Variable, R型聚類(lèi)) Display: (Statistics) (Proximity matrix), Cluster membership(Single solution, 2) Method: Cluster (Furthest Neighbor), Measure-Interval (Pearson correlation,用Pearson相關(guān)系數(shù)), Plots: Icicle(All Cluster),學(xué)生測(cè)驗(yàn)例子,下表(Proximity matrix)中行列交叉點(diǎn)為兩個(gè)變量之間變量的歐氏距離平方和,分為兩類(lèi)的聚類(lèi)結(jié)果,冰柱圖(icicle),判別分析,判別,有一些昆蟲(chóng)的性別很難看出,只有通過(guò)解剖才能夠判別; 但是雄性和雌性昆蟲(chóng)在若干體表度量上有些綜合的差異。于是統(tǒng)計(jì)學(xué)家就根據(jù)已知雌雄的昆蟲(chóng)體表度量(這些用作度量的變量亦稱(chēng)為預(yù)測(cè)變量)得到一個(gè)標(biāo)準(zhǔn),并且利用這個(gè)標(biāo)準(zhǔn)來(lái)判別其他未知性別的昆蟲(chóng)。 這樣的判別雖然不能保證百分之百準(zhǔn)確,但至少大部分判別都是對(duì)的,而且用不著殺死昆蟲(chóng)來(lái)進(jìn)行判別了。,判別分析(discriminant analysis),這就是本章要講的是判別分析。 判別分析和前面的聚類(lèi)分析有什么不同呢? 主要不同點(diǎn)就是,在聚類(lèi)分析中一般人們事先并不知道或一定要明確應(yīng)該分成幾類(lèi),完全根據(jù)數(shù)據(jù)來(lái)確定。 而在判別分析中,至少有一個(gè)已經(jīng)明確知道類(lèi)別的“訓(xùn)練樣本”,利用這個(gè)數(shù)據(jù),就可以建立判別準(zhǔn)則,并通過(guò)預(yù)測(cè)變量來(lái)為未知類(lèi)別的觀測(cè)值進(jìn)行判別了。,判別分析例子,數(shù)據(jù)disc.sav:企圖用一套打分體系來(lái)描繪企業(yè)的狀況。該體系對(duì)每個(gè)企業(yè)的一些指標(biāo)(變量)進(jìn)行評(píng)分。 這些指標(biāo)包括:企業(yè)規(guī)模(is)、服務(wù)(se)、雇員工資比例(sa)、利潤(rùn)增長(zhǎng)(prr)、市場(chǎng)份額(ms)、市場(chǎng)份額增長(zhǎng)(msr)、流動(dòng)資金比例(cp)、資金周轉(zhuǎn)速度(cs)等等。 另外,有一些企業(yè)已經(jīng)被某雜志劃分為上升企業(yè)、穩(wěn)定企業(yè)和下降企業(yè)。 我們希望根據(jù)這些企業(yè)的上述變量的打分和它們已知的類(lèi)別(三個(gè)類(lèi)別之一:group-1代表上升,group-2代表穩(wěn)定,group-3代表下降)找出一個(gè)分類(lèi)標(biāo)準(zhǔn),以對(duì)沒(méi)有被該刊物分類(lèi)的企業(yè)進(jìn)行分類(lèi)。 該數(shù)據(jù)有90個(gè)企業(yè)(90個(gè)觀測(cè)值),其中30個(gè)屬于上升型,30個(gè)屬于穩(wěn)定型,30個(gè)屬于下降型。這個(gè)數(shù)據(jù)就是一個(gè)“訓(xùn)練樣本”。,Disc.sav數(shù)據(jù),根據(jù)距離的判別(不用投影),Disc.sav數(shù)據(jù)有8個(gè)用來(lái)建立判別標(biāo)準(zhǔn)(或判別函數(shù))的(預(yù)測(cè))變量,另一個(gè)(group)是類(lèi)別。 因此每一個(gè)企業(yè)的打分在這8個(gè)變量所構(gòu)成的8維空間中是一個(gè)點(diǎn)。這個(gè)數(shù)據(jù)有90個(gè)點(diǎn), 由于已經(jīng)知道所有點(diǎn)的類(lèi)別了,所以可以求得每個(gè)類(lèi)型的中心。這樣只要定義了如何計(jì)算距離,就可以得到任何給定的點(diǎn)(企業(yè))到這三個(gè)中心的三個(gè)距離。 顯然,最簡(jiǎn)單的辦法就是離哪個(gè)中心距離最近,就屬于哪一類(lèi)。通常使用的距離是所謂的Mahalanobis距離。用來(lái)比較到各個(gè)中心距離的數(shù)學(xué)函數(shù)稱(chēng)為判別函數(shù)(discriminant function).這種根據(jù)遠(yuǎn)近判別的方法,原理簡(jiǎn)單,直觀易懂。,Fisher判別法(先進(jìn)行投影),所謂Fisher判別法,就是一種先投影的方法。 考慮只有兩個(gè)(預(yù)測(cè))變量的判別分析問(wèn)題。 假定這里只有兩類(lèi)。數(shù)據(jù)中的每個(gè)觀測(cè)值是二維空間的一個(gè)點(diǎn)。見(jiàn)圖(下一張幻燈片)。 這里只有兩種已知類(lèi)型的訓(xùn)練樣本。其中一類(lèi)有38個(gè)點(diǎn)(用“o”表示),另一類(lèi)有44個(gè)點(diǎn)(用“*”表示)。按照原來(lái)的變量(橫坐標(biāo)和縱坐標(biāo)),很難將這兩種點(diǎn)分開(kāi)。 于是就尋找一個(gè)方向,也就是圖上的虛線方向,沿著這個(gè)方向朝和這個(gè)虛線垂直的一條直線進(jìn)行投影會(huì)使得這兩類(lèi)分得最清楚??梢钥闯觯绻蚱渌较蛲队?,判別效果不會(huì)比這個(gè)好。 有了投影之后,再用前面講到的距離遠(yuǎn)近的方法來(lái)得到判別準(zhǔn)則。這種首先進(jìn)行投影的判別方法就是Fisher判別法。,逐步判別法(僅僅是在前面的方法中加入變量選擇的功能),有時(shí),一些變量對(duì)于判別并沒(méi)有什么作用,為了得到對(duì)判別最合適的變量,可以使用逐步判別。也就是,一邊判別,一邊引進(jìn)判別能力最強(qiáng)的變量, 這個(gè)過(guò)程可以有進(jìn)有出。一個(gè)變量的判別能力的判斷方法有很多種,主要利用各種檢驗(yàn),例如Wilks Lambda、Raos V、The Squared Mahalanobis Distance、Smallest F ratio或The Sum of Unexplained Variations等檢驗(yàn)。其細(xì)節(jié)這里就不贅述了;這些不同方法可由統(tǒng)計(jì)軟件的各種選項(xiàng)來(lái)實(shí)現(xiàn)。逐步判別的其他方面和前面的無(wú)異。,Disc.sav例子,利用SPSS軟件的逐步判別法淘汰了不顯著的流動(dòng)資金比例(cp),還剩下七個(gè)變量is,se,sa,prr,ms,msr,cs,得到兩個(gè)典則判別函數(shù)(Canonical Discriminant Function Coefficients): 0.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023MSR-0.385CS-3.166 0.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.384,這兩個(gè)函數(shù)實(shí)際上是由Fisher判別法得到的向兩個(gè)方向的投影。這兩個(gè)典則判別函數(shù)的系數(shù)是下面的SPSS輸出得到的:,Disc.sav例子,根據(jù)這兩個(gè)函數(shù),從任何一個(gè)觀測(cè)值(每個(gè)觀測(cè)值都有7個(gè)變量值)都可以算出兩個(gè)數(shù)。把這兩個(gè)數(shù)目當(dāng)成該觀測(cè)值的坐標(biāo),這樣數(shù)據(jù)中的150個(gè)觀測(cè)值就是二維平面上的150個(gè)點(diǎn)。它們的點(diǎn)圖在下面圖中。,Disc.sav例子,從上圖可以看出,第一個(gè)投影(相應(yīng)于來(lái)自于第一個(gè)典則判別函數(shù)橫坐標(biāo)值)已經(jīng)能夠很好地分辨出三個(gè)企業(yè)類(lèi)型了。這兩個(gè)典則判別函數(shù)并不是平等的。其實(shí)一個(gè)函數(shù)就已經(jīng)能夠把這三類(lèi)分清楚了。SPSS的一個(gè)輸出就給出了這些判別函數(shù)(投影)的重要程度:,前面說(shuō)過(guò),投影的重要性是和特征值的貢獻(xiàn)率有關(guān)。該表說(shuō)明第一個(gè)函數(shù)的貢獻(xiàn)率已經(jīng)是99%了,而第二個(gè)只有1%。當(dāng)然,二維圖要容易看一些。投影之后,再根據(jù)各點(diǎn)的位置遠(yuǎn)近算出具體的判別公式(SPSS輸出):,Disc.sav例子,具體的判別公式(SPSS輸出),由一張分類(lèi)函數(shù)表給出:,該表給出了三個(gè)線性分類(lèi)函數(shù)的系數(shù)。把每個(gè)觀測(cè)點(diǎn)帶入三個(gè)函數(shù),就可以得到分別代表三類(lèi)的三個(gè)值,哪個(gè)值最大,該點(diǎn)就屬于相應(yīng)的那一類(lèi)。當(dāng)然,用不著自己去算,計(jì)算機(jī)軟件的選項(xiàng)可以把這些訓(xùn)練數(shù)據(jù)的每一個(gè)點(diǎn)按照這里的分類(lèi)法分到某一類(lèi)。當(dāng)然,我們一開(kāi)始就知道這些訓(xùn)練數(shù)據(jù)的各個(gè)觀測(cè)值的歸屬,但即使是這些訓(xùn)練樣本的觀測(cè)值(企業(yè))按照這里推導(dǎo)出的分類(lèi)函數(shù)來(lái)分類(lèi),也不一定全都能夠正確劃分。,Disc.sav例子,下面就是對(duì)我們的訓(xùn)練樣本的分類(lèi)結(jié)果(SPSS):,誤判和正確判別率,從這個(gè)表來(lái)看,我們的分類(lèi)能夠100%地把訓(xùn)練數(shù)據(jù)的每一個(gè)觀測(cè)值分到其本來(lái)的類(lèi)。 該表分成兩部分;上面一半(Original)是用從全部數(shù)據(jù)得到的判別函數(shù)來(lái)判斷每一個(gè)點(diǎn)的結(jié)果(前面三行為判斷結(jié)果的數(shù)目,而后三行為相應(yīng)的百分比)。 下面一半(Cross validated)是對(duì)每一個(gè)觀測(cè)值,都用缺少該觀測(cè)的全部數(shù)據(jù)得到的判別函數(shù)來(lái)判斷的結(jié)果。 這里的判別結(jié)果是100%判別正確,但一般并不一定。,Disc.sav例子,如果就用這個(gè)數(shù)據(jù),但不用所有的變量,而只用4個(gè)變量進(jìn)行判別:企業(yè)規(guī)模(is)、服務(wù)(se)、雇員工資比例(sa)、資金周轉(zhuǎn)速度(cs)。結(jié)果的圖形和判別的正確與否就不一樣了。下圖為兩個(gè)典則判別函數(shù)導(dǎo)出的150個(gè)企業(yè)的二維點(diǎn)圖。它不如前面的圖那么容易分清楚了,原先的圖,Disc.sav例子,下面是基于4個(gè)變量時(shí)分類(lèi)結(jié)果表:,這個(gè)表的結(jié)果是有87個(gè)點(diǎn)(96.7%)得到正確劃分,有3個(gè)點(diǎn)被錯(cuò)誤判別;其中第二類(lèi)有兩個(gè)被誤判為第一類(lèi),有一個(gè)被誤判為第三類(lèi)。,判別分析要注意什么?,訓(xùn)練樣本中必須有所有要判別的類(lèi)型,分類(lèi)必須清楚,不能有混雜。 要選擇好可能由于判別的預(yù)測(cè)變量。這是最重要的一步。當(dāng)然,在應(yīng)用中,選擇的余地不見(jiàn)得有多大。 要注意數(shù)據(jù)是否有不尋常的點(diǎn)或者模式存在。還要看預(yù)測(cè)變量中是否有些不適宜的;這可以用單變量方差分析(ANOVA)和相關(guān)分析來(lái)驗(yàn)證。 判別分析是為了正確地分類(lèi),但同時(shí)也要注意使用盡可能少的預(yù)測(cè)變量來(lái)達(dá)到這個(gè)目的。使用較少的變量意味著節(jié)省資源和易于對(duì)結(jié)果進(jìn)行解釋。,判別分析要注意什么?,在計(jì)算中需要看關(guān)于各個(gè)類(lèi)的有關(guān)變量的均值是否顯著不同的檢驗(yàn)結(jié)果(在SPSS選項(xiàng)中選擇Wilks Lambda、Raos V、The Squared Mahalanobis Distance或The Sum of Unexplained Variations等檢驗(yàn)的計(jì)算機(jī)輸出),以確定是否分類(lèi)結(jié)果是僅僅由于隨機(jī)因素。 此外成員的權(quán)數(shù)(SPSS用prior probability,即“先驗(yàn)概率”,和貝葉斯統(tǒng)計(jì)的先驗(yàn)概率有區(qū)別)需要考慮;一般來(lái)說(shuō),加權(quán)要按照各類(lèi)觀測(cè)值的多少,觀測(cè)值少的就要按照比例多加權(quán)。 對(duì)于多個(gè)判別函數(shù),要弄清各自的重要性。 注意訓(xùn)練樣本的正確和錯(cuò)誤分類(lèi)率。研究被誤分類(lèi)的觀測(cè)值,看是否可以找出原因。,SPSS選項(xiàng),打開(kāi)disc.sav數(shù)據(jù)。然后點(diǎn)擊AnalyzeClassifyDiscriminant, 把group放入Grouping Variable,再定義范圍,即在Define Range輸入13的范圍。然后在Independents輸入所有想用的變量;但如果要用逐步判別,則不選Enter independents together,而選擇Use stepwise method, 在方法(Method)中選挑選變量的準(zhǔn)則(檢驗(yàn)方法;默認(rèn)值為Wilks Lambda)。 為了輸出Fisher分類(lèi)函數(shù)的結(jié)果可以在Statistics中的Function Coefficient選 Fisher和UnStandardized(點(diǎn)則判別函數(shù)系數(shù)) ,在Matrices中選擇輸出所需要的相關(guān)陣; 還可以在Classify中的Display選summary table, Leave-one-out classification;注意在Classify選項(xiàng)中默認(rèn)的Prior Probability為All groups equal表示所有的類(lèi)都平等對(duì)待,而另一個(gè)選項(xiàng)為Compute from group sizes,即按照類(lèi)的大小加權(quán)。 在Plots可選 Combined-groups, Territorial map等。,14.4.3 判別分析實(shí)例P379,鳶尾花數(shù)據(jù)(花瓣,花萼的長(zhǎng)寬) 5個(gè)變量:花瓣長(zhǎng)(slen),花瓣寬(swid), 花萼長(zhǎng)(plen), 花萼寬(pwid), 分類(lèi)號(hào)(1:Setosa, 2:Versicolor, 3:Virginica)(data14-04),StatisticsClassify Discriminant: Variables: independent (slen,swid,plen,pwid) Grouping(spno) Define range(min-1,max-3) Classify: prior probability(All group equal) use covariance matrix (Within-groups) Plots (Combined-groups, Separate-groups, Territorial map) Display (Summary table) Statistics: Descriptive (Means) Function Coefficients (Fishers, Unstandardi

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論