多元統(tǒng)計分析(聚類分析).doc_第1頁
多元統(tǒng)計分析(聚類分析).doc_第2頁
多元統(tǒng)計分析(聚類分析).doc_第3頁
多元統(tǒng)計分析(聚類分析).doc_第4頁
多元統(tǒng)計分析(聚類分析).doc_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

應(yīng)用多元統(tǒng)計分析第五章 聚類分析 主講:孔 幸 組員:楊海生 王晶晶 田艷霞 龔祿娃第五章 聚類分析習(xí)題5.8試使用系統(tǒng)聚類法和K-均值法分別對這些地區(qū)進(jìn)行聚類分析,并對結(jié)果進(jìn)行比較分析。將數(shù)據(jù)導(dǎo)入SPSS,分析得到以下結(jié)果:5.8.1 系統(tǒng)聚類分析(類平均法)1.系統(tǒng)聚類分析樹狀圖使用平均聯(lián)接(組間)的樹狀圖重新調(diào)整距離聚類合并圖5.8-1系統(tǒng)聚類法樹狀圖如圖5.8-1所示,選擇的聚類方法為類平均法,計算距離的方法(或相似性的度量方法)為歐氏距離平方。從樹狀圖可見,將16個地區(qū)分成4類:第一類:上海,經(jīng)濟(jì)相對發(fā)達(dá)地區(qū),農(nóng)民每人平均生活消費(fèi)支出情況的六個經(jīng)濟(jì)指標(biāo)相對于16個地區(qū)來說都比較大,說明上海農(nóng)民的平均生活消費(fèi)水平在16個地區(qū)中最高的。第二類:北京和浙江,經(jīng)濟(jì)中上等地區(qū),農(nóng)民每人平均生活消費(fèi)支出的六個經(jīng)濟(jì)指標(biāo)相對于其他的13個地區(qū)(除上海外)都比較高,說明北京和浙江地區(qū)農(nóng)民的平均生活消費(fèi)水平在16個地區(qū)中屬于中上等水平。第三類:天津、江蘇、遼寧、福建、江西、安徽、內(nèi)蒙古、黑龍江和吉林,經(jīng)濟(jì)中等地區(qū),這7個地區(qū)農(nóng)民的平均生活消費(fèi)水平在16個地區(qū)中屬于中等水平。第四類:河北、河南、山西和山東,經(jīng)濟(jì)中下等地區(qū),這4個地區(qū)農(nóng)民的平均生活消費(fèi)水平在16個地區(qū)中中下等水平,即在16個地區(qū)中是相對較低的。5.8.2 K-均值法通過上述的系統(tǒng)聚類分析(類平均法)我們發(fā)現(xiàn),16個地區(qū)農(nóng)民的平均生活消費(fèi)水平可以分成4類,因此,我們運(yùn)用K-均值法做快速聚類分析時,將16個地區(qū)聚成的類數(shù)設(shè)定為4類。在SPSS中的運(yùn)行結(jié)果解釋具體如下:1.首先分析方差分析表,見表5.8-1表5.8-1 方差分析表聚類誤差FSig.均方df均方df食品5127.237396.7841252.9760.000衣著100.666328.916123.4810.050燃料24.794311.122122.2290.137住房3015.5423124.8621224.1510.000交通和通訊341.567360.105125.6830.012娛樂教育文化4.53932.555121.7770.205從表5.8-1中可見,聚成的四類在食品、衣著、燃料、住房、交通和通訊以及娛樂教育文化六個經(jīng)濟(jì)指標(biāo)的均值間無差異的原假設(shè)下,出現(xiàn)目前值或更極端值的概率分別為0.000、0.050、0.137、0.000、0.012和0.205,故變量食品、衣著、住房以及交通和通訊在分類過程中均在統(tǒng)計學(xué)上有顯著性意義(P=0.000、0.050、0.000和0.012都小于或等于0.05),而燃料和娛樂教育文化變量無統(tǒng)計學(xué)上的顯著性意義(P=0.137和0.205大于0.05),因此,有必要在剔除燃料和娛樂教育文化變量后重新做聚類分析。剔除燃料和娛樂教育文化后重新做的聚類分析結(jié)果解釋如下:2.迭代過程分析表5.8-2 迭代過程中類中心得變化量迭代聚類中心內(nèi)的更改1234115.3050.00012.19522.66420.0000.0000.0000.000表5.8-2顯示了迭代過程的基本情況,它表明迭代到第二次時,類中心點已沒有太大變化達(dá)到收斂。3.給出個觀測量所屬的類及與所屬類中心的距離表5.8-3 各觀測量所屬類成員表地區(qū)聚類距離地區(qū)聚類距離北京115.305上海20.000天津424.186江蘇417.877河北312.195浙江115.305山西311.569安徽411.564內(nèi)蒙古418.423福建410.319遼寧414.599江西413.464吉林422.664山東319.847黑龍江312.010河南36.823表5.8-3中聚類列給出了觀測量所屬的類別,距離列給出了觀測量與所屬類中心的距離。4.給出聚類結(jié)果形成的中心的各變量值表5.8-4 最終的類中心表聚類1234食品180.13221.11106.65141.78衣著38.1738.6426.2328.15住房53.83115.6519.9825.09交通和通訊41.6850.8223.426.01結(jié)合表5.8-3和表5.8-4,我們可以看出16個地區(qū)被分成4類,第一類包括:北京和浙江,這一類的類中心食品、衣著、住房以及交通和通訊的經(jīng)濟(jì)指標(biāo)值分別為180.13、38.17、53.83和41.68,這類地區(qū)農(nóng)民每人平均生活消費(fèi)水平在16個地區(qū)中屬于中上等。第二類為上海,這一類的類中心食品、衣著、住房以及交通和通訊的經(jīng)濟(jì)指標(biāo)值分別為221.11、38.64、115.65和50.82,上海農(nóng)民每人平均生活消費(fèi)水平在16個地區(qū)中屬于最高的。第三類包括:河北、山西、黑龍江、山東和河南,這一類的類中心食品、衣著、住房以及交通和通訊的經(jīng)濟(jì)指標(biāo)值分別為106.65、26.23、19.98和23.4,這類地區(qū)農(nóng)民每人平均生活消費(fèi)水平在16個地區(qū)中屬于中等。第四類包括:天津、內(nèi)蒙古、遼寧、吉林、江蘇、安徽、福建和江西,這一類的類中心食品、衣著、住房以及交通和通訊的經(jīng)濟(jì)指標(biāo)值分別為141.78、28.15、25.09和26.01,這類地區(qū)農(nóng)民每人平均生活消費(fèi)水平在16個地區(qū)中是相對較低的。5.給出分類變量的方差分析表表5.8-5 方差分析表聚類誤差FSig.均方df均方df食品5127.237396.7841252.9760.000衣著100.666328.916123.4810.050住房3015.5423124.8621224.1510.000交通和通訊341.567360.105125.6830.012表5.8-5給出了分類變量的方差分析表,從表中可見用來聚類的4個變量食品、衣著、住房以及交通和通訊在分四類過程中,均有統(tǒng)計學(xué)上的顯著性意義(P=0.000、0.050、0.000和0.012都小于或等于0.05),表明用這4個變量將16各地區(qū)分成四類的快速聚類過程是成功的,聚類效果有統(tǒng)計學(xué)意義。綜上所述,將我國16個地區(qū)農(nóng)民支出情況的抽樣調(diào)查數(shù)據(jù)通過系統(tǒng)聚類分析和K-均值法聚類分析可以看出,運(yùn)用這兩種方法分析得出的結(jié)果基本上一致,但是也有兩點不同:(1)在系統(tǒng)分類法分析的結(jié)果中,將黑龍江地區(qū)與天津、內(nèi)蒙古和江西等地區(qū)歸為一類,而在K-均值法聚類分析結(jié)果中,將黑龍江地區(qū)與河南、河北、山東和山西等地區(qū)歸為一類。(2)在系統(tǒng)分類法分析的結(jié)果中,將上海地區(qū)分成第一類,北京和浙江地區(qū)分成第二類,天津、內(nèi)蒙古和江西等地區(qū)分成第三類,河南、河北、山東和山西等地區(qū)分成第四類;而在K-均值法聚類分析結(jié)果中,北京和浙江地區(qū)分成第一類,上海地區(qū)分成第二類,河南、河北、山東和山西等地區(qū)分成第三類,天津、內(nèi)蒙古和江西等地區(qū)分成第四類。習(xí)題5.9試?yán)脙煞N不同的聚類法對城市進(jìn)行聚類分析。將數(shù)據(jù)導(dǎo)入SPSS,分析得到以下結(jié)果:5.9.1系統(tǒng)聚類分析(類平均法)1. 系統(tǒng)聚類分析樹狀圖使用平均聯(lián)接(組間)的樹狀圖重新調(diào)整距離聚類合并圖5.9-1 系統(tǒng)聚類法樹狀圖如圖5.9-1所示,選擇的聚類方法為類平均法,計算距離的方法(或相似性的度量方法)為歐氏距離平方。從樹狀圖可見,將34個我國部分省會城市和計劃單列市分成4類:第一類:深圳,經(jīng)濟(jì)較發(fā)達(dá)城市。第二類:重慶和成都,經(jīng)濟(jì)中等城市第三類:上海和廣州,經(jīng)濟(jì)中上等城市第四類:長春、南昌、哈爾濱、昆明、石家莊、蘭州、西寧、南寧、太原、銀川、烏魯木齊、合肥、福州、海口、貴陽、鄭州、西安、沈陽、長沙、濟(jì)南、青島、武漢、杭州、寧波、南京、天津、大連、北京和廈門。經(jīng)濟(jì)中下等城市。5.9.2系統(tǒng)聚類分析(中間距離法)1.系統(tǒng)聚類分析樹狀圖使用中位數(shù)聯(lián)接的樹狀圖重新調(diào)整距離聚類合并圖5.9-2 系統(tǒng)聚類法樹狀圖如圖5.9-2所示,選擇的聚類方法為中間距離法,計算距離的方法(或相似性的度量方法)為歐氏距離平方。從樹狀圖可見,將34個我國部分省會城市和計劃單列市分成4類:第一類:深圳,經(jīng)濟(jì)較發(fā)達(dá)城市。第二類:重慶和成都,經(jīng)濟(jì)中等城市。第三類:杭州、寧波、南京、天津、沈陽、長沙、青島、濟(jì)南、武漢、大連、北京、廈門、上海和廣州。經(jīng)濟(jì)中上等城市。第四類:長春、南昌、哈爾濱、昆明、石家莊、蘭州、西寧、南寧、太原、銀川、烏魯木齊、合肥、福州、??凇①F陽、鄭州、和西安。經(jīng)濟(jì)發(fā)展相對緩慢城市。綜上所述,通過運(yùn)用兩種不同的系統(tǒng)聚類法(類平均法和中間距離法)對城市進(jìn)行聚類分析,我們可以看

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論