多元統(tǒng)計分析-聚類分析_第1頁
多元統(tǒng)計分析-聚類分析_第2頁
多元統(tǒng)計分析-聚類分析_第3頁
多元統(tǒng)計分析-聚類分析_第4頁
多元統(tǒng)計分析-聚類分析_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心1多元統(tǒng)計分析何曉群中國人民大學(xué)出版社第三章聚類分析§3.1聚類分析的思想§3.2相似性度量§3.3類和類的特征§3.4系統(tǒng)聚類法§3.5模糊聚類分析§3.6K-均值聚類和有序樣本聚類§3.7計算步驟與上機實現(xiàn)§3.8社會經(jīng)濟(jì)案例研究2023/3/132中國人民大學(xué)六西格瑪質(zhì)量管理研究中心2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心3§3.7計算步驟與上機實踐目錄上頁下頁返回結(jié)束本書以SPSS15.0軟件來說明前面講述的幾種聚類法的實現(xiàn)過程。具體步驟如下:*分析所需要研究的問題,確定聚類分析所需要的多元變量;*選擇對樣品聚類還是對指標(biāo)聚類;*選擇合適的聚類方法;*選擇所需的輸出結(jié)果。我們將實現(xiàn)過程用邏輯框圖表示為圖3.8。

2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心4§3.7計算步驟與上機實踐目錄上頁下頁返回結(jié)束2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心5§3.7計算步驟與上機實踐

§

3.7.1系統(tǒng)聚類法目錄上頁下頁返回結(jié)束3.7.1系統(tǒng)聚類法用SPSS軟件自帶的數(shù)據(jù)文件World95.sav來做一個實例分析。為了研究亞洲國家的經(jīng)濟(jì)發(fā)展水平和文化教育水平,以便于對亞洲國家進(jìn)行分類研究,這里我們進(jìn)行聚類分析(在World95.sav數(shù)據(jù)中篩選出亞洲國家,使用Data→SelectCases→Ifconditionissatisfied中選入region=3)。詳細(xì)步驟如下:(1)打開數(shù)據(jù)。使用菜單中File→Open命令,然后選中要分析的數(shù)據(jù)World95.sav。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心10§3.7.1系統(tǒng)聚類法目錄上頁下頁返回結(jié)束(2)在菜單中的選項中選擇Analyze→Classify命令,Classify命令下有兩個聚類分析命令,一是K-meanscluster(K--均值聚類),二是Hierarchicalcluster(系統(tǒng)聚類法)。這里我們選擇系統(tǒng)聚類法。(3)在系統(tǒng)聚類法中,我們看到Cluster下有兩個選項,Cases(樣品聚類或Q型聚類)和Variables(變量聚類或R型聚類)。這里我們選擇對樣品進(jìn)行聚類。(4)Display下面有兩個選項,分別是Statistics(統(tǒng)計量)、Plots(輸出圖形),我們可以選擇所需要輸出的統(tǒng)計量和圖形。

2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心12§3.7.1系統(tǒng)聚類法目錄上頁下頁返回結(jié)束(5)在系統(tǒng)聚類法中底下有四個按紐,分別是Statistics、Plots、Method、Save。(a)在Statistics中,有Agglomerationschedule(每一階段聚類的結(jié)果),Proximitymatrix(樣品間的相似性矩陣)。由Clustermembership可以指定聚類的個數(shù),none選項不指定聚類個數(shù),Singlesolution指定一個確定類的個數(shù),Rangeofsolution指定類的個數(shù)的范圍(如從分3類到分5類)。(b)在Plots中,有Dendrogram(譜系聚類圖,也稱樹狀聚類圖)、Icicle(冰柱圖)、Orientation指冰柱圖的方向(Horizontal水平方向、Vertical垂直方向)。(c)在Method中,Cluster可以選擇聚類方法,Measure中可以選擇計算的距離。(d)在Save中,可以選擇保存聚類結(jié)果。選好每個選項后,點“OK”就可以執(zhí)行了。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心17§3.7.1系統(tǒng)聚類法目錄上頁下頁返回結(jié)束在這個數(shù)據(jù)文件中,我們選擇的變量(Variables(s))有Urban(城市人口比例),Lifeexpf(女性平均壽命)、Lifeexpm(男性平均壽命)、Literacy(有讀寫能力的人所占比例)、Gdp_cap(人均國內(nèi)生產(chǎn)總值),以Country(國家或地區(qū))來標(biāo)識(LabelCases)本例中的17個亞洲國家或地區(qū),并以其他5個變量進(jìn)行Q型聚類分析,即對國家進(jìn)行聚類。這里我們將原始變量標(biāo)準(zhǔn)化(在Method選項下TransformValues的Standardize空白框內(nèi),選擇ZScores),在Statistics選項中選擇AgglomerationSchedule,聚類方法選擇組內(nèi)聯(lián)結(jié)法(Within-grouplinkage),計算距離選擇平方歐氏距離,輸出冰柱圖和樹狀聚類圖。得到的結(jié)果如下:2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心20§3.7.1系統(tǒng)聚類法目錄上頁下頁返回結(jié)束輸出結(jié)果中,表3.7表示接近度矩陣,是反映樣品之間相似性或者相異性的矩陣。本例中由于計算距離使用的是平方歐氏距離,所以樣品間距離越大,樣品越相異,如果我們計算距離選擇Pearson相關(guān)系數(shù),則接近度矩陣是相似性矩陣。由表中矩陣可以看出,Bangladesh(孟加拉國)與Cambodia(柬埔寨)的距離是最小的,因此它們最先聚為一類。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心21接近度矩陣目錄上頁下頁返回結(jié)束2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心22聚類冰柱圖目錄上頁下頁返回結(jié)束2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心23§3.7.1系統(tǒng)聚類法目錄上頁下頁返回結(jié)束圖3.12是冰柱圖,也是反映樣品聚類情況的圖,如果按照設(shè)定的類數(shù),在那類數(shù)的行上從左到右就可以找到各類所包含的樣品。比如我們希望分為三類,最左邊的類數(shù)應(yīng)選3,每個樣品右邊都有一列X,如果某個樣品右邊的X個數(shù)少于3,那么它和前面多于3個X的樣品聚為一類,如此下去,直到找到全部三類為止。例如,HongKong右邊的列只有兩個X,那么它就與Japan和Singapore聚為一類了,而China右邊的列只有一個X,那么從Taiwan到China又被聚為一類,后面樣品聚為另一類。

表3-8組內(nèi)連接法聚合表2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心25§3.7.1系統(tǒng)聚類法目錄上頁下頁返回結(jié)束表3.8是反映每一階段聚類的結(jié)果,Coefficients表示聚合系數(shù),第2列和第3列表示聚合的類,比如第一階段時(Stage=1)第2個樣品——Bangladesh(孟加拉國)與第3個樣品——Cambodia(柬埔寨)聚為一類,注意這時有16類(17-1=16)。因此某階段的分類數(shù)等于總的樣品數(shù)減去這個階段的序號。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心26聚合系數(shù)曲線目錄上頁下頁返回結(jié)束將表3-8的聚合系數(shù)利用Excel作出聚合系數(shù)隨分類數(shù)變化曲線,如圖3-13.

2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心27§3.7.1系統(tǒng)聚類法目錄上頁下頁返回結(jié)束圖3.13是聚合系數(shù)隨分類數(shù)變化的曲線。由圖可以看出,當(dāng)分類數(shù)為3或4時, 曲線變得比較平緩,這個分類數(shù)也符合我們分類的目的。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心28系統(tǒng)樹狀圖目錄上頁下頁返回結(jié)束2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心29圖3.14樹狀聚類圖,目錄上頁下頁返回結(jié)束圖3.14是樹狀聚類圖,從圖中可以由分類個數(shù)得到分類情況。如果我們選擇分類數(shù)為3,就從距離為10的地方往下切,得到分類結(jié)果如下。{1:孟加拉國、柬埔寨、阿富汗、印度、巴基斯坦};{2:香港、新加坡、日本};{3:泰國、越南、中國、印度尼西亞、馬來西亞、菲律賓、韓國、臺灣和朝鮮}。我們可以從經(jīng)濟(jì)發(fā)展水平和文化教育水平來理解所作的分類。第2類應(yīng)該是亞洲國家中經(jīng)濟(jì)發(fā)達(dá)程度最高的國家或地區(qū),第1類的經(jīng)濟(jì)水平和文教水平都比較低,第3類國家的經(jīng)濟(jì)水平和文教水平居中。

2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心30§3.7.2快速聚類法目錄上頁下頁返回結(jié)束同樣我們使用上面的數(shù)據(jù)文件World95.sav,從中篩選出亞洲國家,試圖將亞洲國家按經(jīng)濟(jì)和文教水平分為3類??梢允褂每焖倬垲惙▽悠愤M(jìn)行聚類。我們使用的變量有Country(國家或地區(qū))、Urban(城市人口比例),Lifeexpf(女性平均壽命)、Lifeexpm(男性平均壽命)、Literacy(有讀寫能力的人所占比例)、Gdp_cap(人均國內(nèi)生產(chǎn)總值),以Country來標(biāo)識本例中的17個亞洲國家或地區(qū),并以其他5個變量進(jìn)行Q型聚類分析,即對國家進(jìn)行聚類。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心31§3.7.2快速聚類法目錄上頁下頁返回結(jié)束在SPSS軟件中選擇Analyze→Classify→K-MeansCluster。進(jìn)入K-均值聚類對話框以后,將上面5個變量選入Variable,將Country用于標(biāo)識(Labelcasesby)。將分類數(shù)(Numberofclusters)定為3。我們可以在Option選項中選擇Initialclustercenter(最初分類重心),ANOVA(方差分析表),Clusterinformationforeachcase(每個樣品的分類信息)。得到如下分類結(jié)果:§3.7.2快速聚類法2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心33§3.7計算步驟與上機實踐目錄上頁下頁返回結(jié)束2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心34§3.7.2快速聚類法目錄上頁下頁返回結(jié)束輸出結(jié)果中表3.9表示最初各類的重心,也就是種子點。表3.10是樣品的分類情況。這里我們看到快速聚類法將亞洲國家或地區(qū)分為這樣3類。{1:阿富汗、孟加拉國、柬埔寨、中國、印度、印度尼西亞、馬來西亞、朝鮮、巴基斯坦、泰國、越南}。{2:香港、日本、新加坡}。{3:韓國、臺灣}。我們也可以對分類結(jié)果做分析。第1類國家或地區(qū)經(jīng)濟(jì)和文教衛(wèi)生水平較低。第2類國家或地區(qū)是亞洲國家或地區(qū)中的佼佼者,其經(jīng)濟(jì)發(fā)達(dá)程度和文教衛(wèi)生水平都是很高的。第3類國家或地區(qū)處于兩者中間。這個結(jié)果可以結(jié)合表3.13(最后各類的重心)來分析,我們看到第2類的人均GDP比另外兩組要高?!?.7.2快速聚類法2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心36§3.7.2快速聚類法目錄上頁下頁返回結(jié)束2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心37§3.7.2快速聚類法目錄上頁下頁返回結(jié)束表3.12是方差分析表,但是應(yīng)當(dāng)注意值只能作為描述所用,而不能根據(jù)該值判斷各類均值是否有顯著差異。通過方差分析表我們可以看出,有4個變量對分類貢獻(xiàn)顯著。

2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心38§3.7.3計算步驟與上機實踐

模糊聚類法目錄上頁下頁返回結(jié)束繼續(xù)使用上面的例子,希望將亞洲國家或地區(qū)分成3類進(jìn)行分析研究。這里我們使用S-Plus2000軟件。(略)2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心39§3.8社會經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心40§3.8社會經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束例3.5城鎮(zhèn)居民消費水平通常用表3.15中的八項指標(biāo)來描述,八項指標(biāo)間存在一定的線性相關(guān)。為研究城鎮(zhèn)居民的消費結(jié)構(gòu),需將相關(guān)性強的指標(biāo)歸并到一起,這實際就是對指標(biāo)聚類。原始數(shù)據(jù)列于表3.15。將原始數(shù)據(jù)錄入SPSS,并依次點擊“Analyze”→“Correlate”→“Bivariate”,打開BivariateCorrelations對話框,把八個變量選入Variables欄中,單擊“OK”,得到這八個指標(biāo)對應(yīng)的相關(guān)系數(shù),列于表3.16。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心45§3.8社會經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束§3.8社會經(jīng)濟(jì)案例研究表3.16中最大的相關(guān)系數(shù)為r4,8=0.837,將G4和G8并成一新類G9,然后計算G9與各類的相關(guān)系數(shù),再找最大的相關(guān)系數(shù),每次縮小一類得圖3-17。我們可以看出全國城鎮(zhèn)居民得消費結(jié)構(gòu)大致可以分為三個方面,一類是各種副食、日用品及交通通信、文化教育和住房等支出,這是在消費結(jié)構(gòu)中起主導(dǎo)作用的方面;其次是居民購買煙、酒、飲料及著裝支出;糧食和水電燃料是兩項很重要的消費指標(biāo),但目前在城鎮(zhèn)居民的消費中占的比例較小,可將它們歸并為同一類。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心47§3.8社會經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束§3.8社會經(jīng)濟(jì)案例研究上面介紹的幾種系統(tǒng)聚類方法,并類的原則和步驟基本一致,所不同的是類與類的距離有不同的定義。其實可以把這幾種方法統(tǒng)一起來,有利于在計算機上靈活地選擇更有意義的譜系圖。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心49§3.8社會經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束對例3.5,采用歐氏距離分別用類平均法、最短距離法、最長距離法把31個省市分類。類平均法聚類在SPSS中的操作為:點選“Analyze”→“Classify”→“HierarchicalCluster”,打開HierarchicalClusterAnalysis對話框,將八個聚類指標(biāo)選入Variables欄中,將表示地區(qū)的變量選入LabelCasesBy欄中,按“Plots”按鈕,在彈出的窗口中選中Dendrogram(譜系圖)選項,按“Continue”返回主對話框,在按“Method”按鈕,在ClusterMethod下拉菜單中選擇Between-groupslinkage(組間連接法,即類平均法)選項,返回主對話框后按“OK”即可得到聚類結(jié)果。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心50§3.8社會經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束最短距離法和最長距離法操作步驟與類平均法一樣,只不過要在ClusterMethod下拉菜單中分別選擇NearestNeighbor和FurthestNeighbor選項。圖3.18、圖3.19、圖3.20分別顯示了三種方法的分類結(jié)果。為便于對照,將三種方法分類的結(jié)果綜合列于表3.18。直觀看出,類平均法分為三類:{1,9,11,19}為第一類,{13,2,22,10}為第二類,其他為第三類;最短距離法分為兩類,{1,9,11,19}為一類,其余的省市歸為一大類;最長距離法也分為三類:{1,9,11,19}為第一類,{10,22,2,13,26}為第二類,其余的省市為第三類。很顯然,這三種方法的分類效果是有差異的。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心51§3.8社會經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束那么究竟采用哪一種分類為好呢?一種方法是根據(jù)分類問題本身的知識來決定取舍。另一種方法是將幾種方法的共性取出來,有爭議的樣品根據(jù)其實際情況再劃分。綜合考慮這兩點,筆者認(rèn)為從全國各省、市、區(qū)的消費情況來看,分為三類較為合適。由分類結(jié)果可以看出,類平均法和最長距離法的分類結(jié)果基本上一致,只是在西藏應(yīng)該劃入第二類還是第三類上存在差異,從表3.15的實際情來看,西藏的經(jīng)濟(jì)發(fā)展和消費水平與始終處在第二類的福建、天津、重慶和江蘇有較大差距,因此劃入第三類較為合適,即這個聚類分析用類平均法較為合適。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心52§3.8類平均法樹狀圖目錄上頁下頁返回結(jié)束§3.8最短距離法樹狀圖2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心54§3.8最長距離法樹狀圖目錄上頁下頁返回結(jié)束2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心56§3.8社會經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束例3.6我們?nèi)砸?005年31個省、市、自治區(qū)的城鎮(zhèn)居民月平均消費支出數(shù)據(jù)為例,在SPSS中利用K-均值法對31個省、市、自治區(qū)的城鎮(zhèn)居民消費水平進(jìn)行聚類分析。在SPSS中依次點擊“

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論