下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第五章聚類分析5.1 判別分析和聚類分析有何區(qū)別?答:即根據一定的判別準則,判定一個樣本歸屬于哪一類。具體而言,設有n個樣本,對每個樣本測得p項指標(變量)的數據,已知每個樣本屬于k個類別(或總體)中的某一類,通過找出一個最優(yōu)的劃分,使得不同類別的樣本盡可能地區(qū)別開,并判別該樣本屬于 哪個總體。聚類分析是分析如何對樣品(或變量)進行量化分類的問題。在聚類之前,我 們并不知道總體,而是通過一次次的聚類,使相近的樣品(或變量)聚合形成總體。通俗 來講,判別分析是在已知有多少類及是什么類的情況下進行分類,而聚類分析是在不知道 類的情況下進行分類。5.2 試述系統(tǒng)聚類的基本思想。答:系統(tǒng)聚類的基本思想
2、是:距離相近的樣品(或變量)先聚成類,距離相遠的后聚成類, 過程一直進行下去,每個樣品(或變量)總能聚到合適的類中。5.3 對樣品和變量進行聚類分析時,所構造的統(tǒng)計量分別是什么?簡要說明為什么這樣構造?答:對樣品進行聚類分析時,用距離來測定樣品之間的相似程度。因為我們把n個樣本看作p維空間的n個點。點之間的距離即可代表樣品間的相似度。常用的距離為 ,、,P、,、, q、1/q(一)閔可夫斯基距離:dj(q) ( Xik Xjk )q取不同值,分為(1)絕對距離(q 1)(2)歐氏距離(q 2)(3)切比雪夫距離(q )(二)馬氏距離(三)蘭氏距離對變量的相似性,我們更多地要了解變量的變化趨勢或
3、變化方向,因此用相關性進行衡量將變量看作p維空間的向量,一般用(一)夾角余弦(二)相關系數5.4 在進行系統(tǒng)聚類時,不同類間距離計算方法有何區(qū)別?選擇距離公式應遵循哪些原則?答:設dj表示樣品X與X之間距離,用D表示類G與G之間的距離。(1) .最短距離法(2)最長距離法2 1 2Dkr八 Dkp12I - I 81 0 4122Dkq2D pq(3)中間距離法其中(4)重心法 (5)類平均法(6)可變類平均法Dkr (1)(npD2p nqDkq)Dpq其中?是可變的Fr? <1 nr(7)可變法_ 2 1_ 2 _ 2_ 2,. 一 Dkr .(Dkp Dkq)Dpq其中?是可變的且
4、? <1(8)離差平方和法通常選擇距離公式應注意遵循以下的基本原則:(1)要考慮所選擇的距離公式在實際應用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。馬氏距離有消除量綱影響的作用。(2)要綜合考慮對樣本觀測數據的預處理和將要采用的聚類分析方法。如在進行聚類分析之前已經對變量作了標準化處理,則通常就可采用歐氏距離。(3)要考慮研究對象的特點和計算量的大小。 樣品間距離公式的選擇是一個比較復雜且?guī)?有一定主觀性的問題,我們應根據研究對象的特點不同做出具體分折。實際中,聚類分析 前不妨試探性地多選擇幾個距離公式分別進行聚類,然后對聚類分析的結果進行對比分析,以確定最合適的距離測度方法
5、。5.5 試述K均值法與系統(tǒng)聚類法的異同答:相同:K均值法和系統(tǒng)聚類法一樣,都是以距離的遠近親疏為標準進行聚類的。不同:系統(tǒng)聚類對不同的類數產生一系列的聚類結果,而均值法只能產生指定類數的聚類結果。具體類數的確定,離不開實踐經驗的積累;有時也可以借助系統(tǒng)聚類法以一部分樣品 為對象進行聚類,其結果作為 均值法確定類數的參考。5.6 試述K均值法與系統(tǒng)聚類有何區(qū)別?試述有序聚類法的基本思想。答:K均值法的基本思想是將每一個樣品分配給最近中心(均值)的類中。系統(tǒng)聚類對不 同的類數產生一系列的聚類結果,而K均值法只能產生指定類數的聚類結果。具體類數的確定,有時也可以借助系統(tǒng)聚類法以一部分樣品為對象進行
6、聚類,其結果作為K均值法確定類數的參考。有序聚類就是解決樣品的次序不能變動時的聚類分析問題。如果用X(i),X(2), ,X(n)表示n個有序的樣品,則每一類必須是這樣的形式,即 X(i),X(), ,X(j),其中1 i n,且j n, 簡記為Gi i,i 1, , j。在同一類中的樣品是次序相鄰的。一般的步驟是(1)計算直徑 D (i,j ) 。(2)計算最小分類損失函數Lp(l,k) 。(3)確定分類個數k。(4)最優(yōu)分 類。5.7 檢測某類產品的重量,抽了六個樣品, 每個樣品只測了一個指標,分別為1, 2, 3,6, 9, 11.試用最短距離法,重心法進行聚類分析。(1)用最短距離法進
7、行聚類分析。采用絕對值距離,計算樣品間距離陣DylY1< 0羽10雷210315430487630男1098520Oj 2 " El = 1由上表易知Dyw中最小元素是于是將Gl , G2,G三聚為一類,記為S計算距離陣"Y.T再031 3 0瑞6 3 01-1. 8 5 20yiy中最小元素是必占=2于是將與,G6聚為一類,記為Ga計算樣本距離陣二130Dy2Y中最小元素是于是將明,聚為一類,記為Gg因此,(2)用重心法進行聚類分析計算樣品間平方距離陣易知D'¥0Y中最小元素是于是將Gr ,仃2,Gm聚為一類,記為計算距離陣J1J身01616049
8、499081812540注:計算方法,其他以此類推???、門中最小元素是 吸*4于是將G.,優(yōu)聚為一類,記為%計算樣本距離陣-Y.Y再016 16064 64160公司每股總資流動每股凈資產凈利產周資產負負債凈資凈利潤增總資產編號收益率潤轉單債率比率產長率增長率111.090.210.0596.9870.531.86-44.0481.99211.960.590.7451.7890.734.957.0216.11300.030.03181.99100-2.98103.3321.18411.580.130.1746.0792.181.146.55-56.325-6.19-0.090.0343.382
9、.241.52-1713.5-3.366100.470.4868.4864.7-11.560.85710.490.110.3582.9899.871.02100.2330.32811.12-1.690.12132.14100-0.66-4454.39-62.7593.410.040.267.8698.511.25-11.25-11.43101.160.010.5443.71001.03-87.18-7.411130.220.160.487.3694.880.53729.41-9.97128.190.220.3830.311002.73-12.31-2.7713141595.79-5.216.5
10、50.5252.34 99.34 -5.420.350.9372.3184.052.14-24.18 -1.160.7956.2697.84.81-9816.52 -46.82115.95123.41-533.89-27.74解:令凈資產收益率為X1,每股凈利潤X2,總資產周轉率為X3,資產負債率為X4,流動負 債比率為X5,每股凈資產為X6,凈利潤增長率為X7,總資產增長率為X8,用spss對公司 聚類分析的步驟如下:a)系統(tǒng)聚類法:1 .在 SPSS®口中選擇 Analyze-Classify -Hierachical Cluster ,調出系統(tǒng)聚類分 析主界面,并將變量X1-X
11、8移入Variables框中。在Cluster欄中選擇Cases單 選按鈕,即對樣品進行聚類(若選擇Variables ,則對變量進行聚類)。在Display 欄中選擇Statistics 和Plots復選框,這樣在結果輸出窗口中可以同時得到聚類 結果統(tǒng)計量和統(tǒng)計圖。圖5.1系統(tǒng)分析法主界面2 .點擊Statistics 按鈕,設置在結果輸出窗口中給出的聚類分析統(tǒng)計量。我們選擇 Agglomeration schedule 與 Cluster Membership 中的 Range of solution 2-4,如圖5.2所示,點擊Continue按鈕,返回主界面。(其中,Agglomera
12、tion schedule 表示在結果中給出聚類過程表,顯示系統(tǒng)聚類 的詳細步驟;Proximity matrix表示輸出各個體之間的距離矩陣;ClusterMembership 表示在結果中輸出一個表,表中顯示每個個體被分配到的類別,Rangeof solution 2-4 即將所有個體分為2 至 4 類。)3 . 點擊 Plots 按鈕,設置結果輸出窗口中給出的聚類分析統(tǒng)計圖。選中Dendrogram復選框和Icicle 欄中的None單選按鈕,如圖5.3,即只給出聚類樹形圖,而不給出冰柱圖。單擊Continue 按鈕,返回主界面。圖 5.2 Statistics 子對話框圖 5.3 Pl
13、ots 子對話框4 .點擊Method按鈕,設置系統(tǒng)聚類的方法選項。Cluster Method下拉列表用于指定聚類的方法,這里選擇Between-group inkage (組間平均數連接距離);Measure欄用于選擇對距離和相似性的測度方法,選擇Squared Euclidean distance (歐氏距離);單擊Continue 按鈕,返回主界面。圖5.4 Method子對話框圖5.5 Save子對話框5 .點擊Save按鈕,指定保存在數據文件中的用于表明聚類結果的新變量。None表示不保存任何新變量;Single solution 表示生成一個分類變量,在其后的矩形框中輸入要分成的
14、類數;Range of solutions表示生成多個分類變量。這里我們選擇Range of solutions ,并在后面的兩個矩形框中分別輸入2 和 4,即生成三個新的分類變量,分別表明將樣品分為2 類、 3 類和 4 類時的聚類結果, 如圖 5.5。點擊Continue ,返回主界面。6 .點擊。骸鈕,運行系統(tǒng)聚類過程。聚類結果分析:2類,3類,4類時各個樣本所屬類別的情況,另外,從右邊的樹形圖也可以直觀地看到,若將15個公司分為2類,則 13獨自為一類,其余的為一類;若分為 3類,則公司8分離出來,自成一類。以此類推。表 5.1 各樣品所屬類別表圖 5.6 聚類樹形圖b) K均值法的步
15、驟如下:1. 在 SPSS®口中選擇 AnalyzefClassify -K-Means Cluster ,調出 K均值聚類分析主界面,并將變量X1-X8 移入 Variables 框中。在Method 框中選擇Iterateclassify ,即使用K-means算法不斷計算新的類中心,并替換舊的類中心(若選擇Classify only ,則根據初始類中心進行聚類,在聚類過程中不改變類中心)。在Numberof Cluster 后面的矩形框中輸入想要把樣品聚成的類數,這里我們輸入3,即將 15個公司分為3類。( Centers 按鈕,則用于設置迭代的初始類中心。如果不手工設置,則系
16、統(tǒng)會自動設置初始類中心,這里我們不作設置。)圖 5.7 K 均值聚類分析主界面2. 點擊 Iterate 按鈕,對迭代參數進行設置。Maximum Iterations 參數框用于設定K-means算法迭代的最大次數,輸入 10, Convergence Criterion參數框用于設定算法的收斂判據,輸入0,只要在迭代的過程中先滿足了其中的參數,則迭代過程就停止。單擊Continue ,返回主界面。5.8 Iterate 子對話框3. 點擊 Save 按鈕,設置保存在數據文件中的表明聚類結果的新變量。我們將兩個復選框都選中,其中Cluster membership 選項用于建立一個代表聚類結
17、果的變量,默認變量名為qcl_1 ; Distance from cluster center 選項建立一個新變量,代表各觀測量與其所屬類中心的歐氏距離。單擊Continue 按鈕返回。圖 5.9 Save 子對話框4. 點擊 Options 按鈕,指定要計算的統(tǒng)計量。選中Initial cluster centers 和Cluster information for each case 復選框。這樣,在輸出窗口中將給出聚類的初始類中心和每個公司的分類信息,包括分配到哪一類和該公司距所屬類中心的距離。單擊Continue 返回。圖 5.10 Options 子對話框5. 點擊。骸鈕,運行K均值
18、聚類分析程序。聚類結果分析:以下三表給出了各公司所屬的類及其與所屬類中心的距離,聚類形成的類的中心的各變量值以及各類的公司數。由以上表格可得公司13 與公司 8 各自成一類,其余的公司為一類。通過比較可知,兩種聚類方法得到的聚類結果完全一致。5.9 下表是某年我國16 個地區(qū)農民支出情況的抽樣調查數據,每個地區(qū)調查了反映每人平均生活消費支出情況的六個經濟指標。試通過統(tǒng)計分析軟件用不同的方法進行系統(tǒng)聚類分 析,并比較何種方法與人們觀察到的實際情況較接近。地區(qū)食品衣著燃料住房交通和通訊娛樂教育義化北京190.3343.779.7360.5449.019.04天津135.236.410.4744.1
19、636.493.94河北95.2122.839.322.4422.812.8山西104.7825.116.49.8918.173.25內蒙128.4127.638.9412.5823.992.27遼寧145.6832.8317.7927.2939.093.47吉林159.3733.3818.3711.8125.295.22黑龍江116.2229.5713.2413.7621.756.04上海221.1138.6412.53115.6550.825.89江蘇144.9829.1211.6742.627.35.74浙江169.9232.7512.7247.1234.355安徽135.1123.09
20、15.6223.5418.186.39福建144.9221.2616.9619.5221.756.73江西140.5421.517.6419.1915.974.94山東115.8430.2612.233.633.773.85河南101.1823.268.4620.220.54.3解:令食品支出為X1,衣著支出為X2,燃料支出為X3,住房支出為X4,交通和通訊支出為 X5,娛樂教育文化支出為X6,用spss對16各地區(qū)聚類分析的步驟如5.8題,不同的方法 在第4個步驟的Method子對話框中選擇不同的Cluster method 。1. Between-group inkage (組間平均數連接
21、距離)上表給出了把全國16個地區(qū)分為2類、3類和4類時,各地區(qū)所屬的類別,另外從右邊的 樹形圖也可以直觀地觀察到,若用組間平均數連接距離將這些地區(qū)分為3類,則9 (上海)獨自為一類,1 (北京)和11 (浙江)為一類,剩余地區(qū)為一類。2. Within-group linkage(組內平均連接距離)若用組內平均數連接距離將這些地區(qū)分為3類,則9 (上海)獨自為一類,1 (北京)獨自為一類,剩余地區(qū)為一類。3. Nearest neighbor (最短距離法)若用最短距離法將這些地區(qū)分為 3類,則9 (上海)獨自為一類,1 (北京)獨自為一類,剩余地區(qū)為一類。4. Furthest neighb
22、or (最遠距離法)若用最遠距離法將這些地區(qū)分為3 類,則 9(上海)獨自為一類,1(北京)和11(浙江)為一類,剩余地區(qū)為一類。5. Centroid cluster (重心法)若用重心法將這些地區(qū)分為3 類,則9(上海)獨自為一類,1(北京)和11(浙江)為一類,剩余地區(qū)為一類。6. Median cluster (中位數距離)若用中位數距離法將這些地區(qū)分為3 類,則9(上海)獨自為一類,1(北京)和11(浙江)為一類,剩余地區(qū)為一類。7. Ward method (離差平方和)若用離差平方和法將這些地區(qū)分為3 類,則9(上海), 1(北京)和11(浙江)為一類,2(天津) 、6(遼寧)、
23、7(吉林)、10(江蘇)、12(安徽)、13(福建)和14(江西)為一類,剩余地區(qū)為一類。5.10根據上題數據通過SPSSS計分析軟件進行快速聚類運算,并與系統(tǒng)聚類分析結果進行比較。解:快速聚類運算即K均值法聚類,具體步驟同5.8,聚類結果如下:蘇)、11 (浙江)、13 (福建)和14 (江西)為一類,剩余地區(qū)為一類。5.11下表是2003年我國省會城市和計劃單列市的主要經濟指標:人均 GD氏(元)、 人均工業(yè)產值X2 (元)、客運總量X3 (萬人)、貨運總量X4 (萬噸)、地方財政預算內收入X5 (億元)、固定資產投資總額X6 (億元)、在崗職工占總人口的比例X7 (%)、在崗職工人均 工
24、資額X8 (元)、城鄉(xiāng)居民年底儲蓄余額X9 (億元)。試通過統(tǒng)計分析軟件進行系統(tǒng)聚類分 析,并比較何種方法與人們觀察到的實際情況較接近。城巾305230675920037.2531644北京3188633168013082134672018.1864182天津2643343732350795934885118410001230104石家莊151341315938494169.564152422.1267太原1575215831297583319789660呼和浩1899111257350841552118213.1411255特56146314.1496142沈陽232681544666126
25、81557813110021081114.1756131大連2914527615407111700108912.1387K春186302104569994629483125017.1245115哈爾濱148257561645895187642371463868922721.2730605上海46586770837212194055167914801315.2219113南京2754743853794056404213416811511.2466146杭州3266749823717950876249313791310.2369106寧波32543479045558799101390合肥10621
26、1171460344641362458.3359111.1505福州2228121310968082506737687683廈門5359093126444130557023838.61902439711.1391南昌142219205572844543121003483143513.1602濟南2343722634581047642957758146630551214.1533青島247053550663054855908107012.1353104鄭州166741402397847663737881188166117.1373128武漢2127817083208062340610601063
27、10.1698長沙154468873916043407705297528852710825.2880372廣州48220554041959157191833475110982969.3105219深圳8996793187563981763390701658933617013178.31451132816.1481???6442145534330412995928458293245161181244189重慶7190507600276.5077279287911.1527149成都1791492893890788944185115.1218貴陽11046103501531840231813451
28、23314.1425昆明1621511601512686034265709114115.1350121西安131408913393926544695118.1348蘭州144591713622095581212030946810.1462西寧706656052788203787619175若用最短距離法將這些地區(qū)分為2 類,則 24(深圳)獨自為一類,剩余地區(qū)為一類。車艮川11787 11013 2146 2127 12 134 2“忙” 19397烏魯木南寧???2508 17137 2188 1275 41180 2。413052 3067 5931886 33168 013200 37.
29、0816504202531 644213467 2026433 43732 3507 9593418.1864 18285資料來源:中國統(tǒng)計年鑒2004解:用spss對37個地區(qū)聚類分析的步驟如 5.8題,不同的方法在第4個步驟的Method子 對話框中選擇不同的Cluster method 。1.Between-group inkage (組間平均數連接距離)從上面的樹形圖可以直觀地觀察到,若用組間平均數連接距離將這些地區(qū)分為3類,則24(深圳)獨自為一類,10 (上海)和16 (廈門)為一類,剩余地區(qū)為一類。2 .Within-group linkage(組內平均連接距離)若用組內平均數連接距離將這些地區(qū)分為 3類,則24 (上海)獨自為一類,27 (重慶)和28(成都)為一類,剩余地區(qū)為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度倉儲物流供應鏈管理與運輸服務合同3篇
- 2024版土地免租租賃合同范本
- 二零二五年度旋挖鉆機在城市地鐵建設中的應用合同3篇
- 二零二五年度豪華家裝主材代購服務協(xié)議3篇
- 專業(yè)版融資擔保協(xié)議2024年版詳盡條款一
- 2024年電商渠道聯(lián)合運營協(xié)議版B版
- 二零二五年度甲乙雙方合作供應新能源設備協(xié)議2篇
- 二零二五版汽車行業(yè)人才培訓股份購買與就業(yè)服務合同3篇
- 2024新疆瓜果種植基地與電商平臺合作分紅協(xié)議3篇
- 二零二五版礦產廢石采購及再生利用合作協(xié)議3篇
- 米-伊林《十萬個為什么》閱讀練習+答案
- 碎屑巖油藏注水水質指標及分析方法
- 【S洲際酒店婚禮策劃方案設計6800字(論文)】
- 醫(yī)養(yǎng)康養(yǎng)園項目商業(yè)計劃書
- 《穿越迷宮》課件
- 《C語言從入門到精通》培訓教程課件
- 2023年中國半導體行業(yè)薪酬及股權激勵白皮書
- 2024年Minitab全面培訓教程
- 社區(qū)電動車棚新(擴)建及修建充電車棚施工方案(純方案-)
- 項目推進與成果交付情況總結與評估
- 鐵路項目征地拆遷工作體會課件
評論
0/150
提交評論