版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、應(yīng)用多元統(tǒng)計分析實驗講義實驗項目五聚類分析實驗內(nèi)容、目標(biāo)及要求(一)實驗內(nèi)容聚類分析是一種研究事物分類的方法,其目的是把分類對象按一定的規(guī)則分為若干類,這些類不是事先給定的,而是根據(jù)數(shù)據(jù)的特征確定的。通俗的講,聚類分析法是用來對資料 做簡化的工作及分類,也就是把相似的個體(觀察量)歸于一群。例如汽車制造商可以通過聚類分析確定目前市場中競爭產(chǎn)品是哪些。下面從SPSS自帶數(shù)據(jù)car_sales.sav (SPSS/tutorial/sample)中選擇數(shù)據(jù)進行分析。(二)實驗?zāi)繕?biāo)SPSS軟件中系統(tǒng)聚類法和 K均值聚類的計算機操作及結(jié)果分析。(三)實驗要求要求學(xué)生能熟練應(yīng)用計算機軟件進行聚類分析,并
2、對結(jié)果進行分析,培養(yǎng)實際應(yīng)用能力。二、實驗準(zhǔn)備(一)運行環(huán)境說明電腦操作系統(tǒng)為Windows XP ,所需軟件為SPSS 16.0。(二)基礎(chǔ)數(shù)據(jù)設(shè)置說明將數(shù)據(jù)正確導(dǎo)入SPSS,設(shè)置相應(yīng)的變量值。應(yīng)用多元統(tǒng)計分析實驗講義三、實驗基本操作流程及說明(一)系統(tǒng)界面及說明同實驗一。(二)操作步驟1,選擇菜單項 AnalyzefClassify fHierachical Cluster ,打開 Hierachical Cluster Analysis 對話框,如錯誤!未找到引用源。將原始變量Price in thousands到Fuel efficiency移入Variables列表框框中,將標(biāo)志變量
3、Model移入Label Case by列表框框中。EDS鼠 ManiJactuier mdriL A 爵 Sales in tbousarids 含簞y resale yAjs Vehicle type t叩目 磅 Log-biansformedl sal ZscMe: 4.臺即舊籍 . Ncere: Type Ifztypi Zscote: Pnce in the .Zsc(Me: Engine sizt Zscwe: Horsepciwi , Nscor史 Wheefcase .iZscofe: Width |zwii TStatistics.Plots. MetticidI Save.
4、圖 5-1 Hierachical Cluster Analysis 對話框在Cluster欄中選擇 Cases單選按鈕,對樣品進行聚類(若選擇Variables,則對變量進行聚類)。在Display欄中選擇Statistics和Plots復(fù)選框,這樣在結(jié)果輸出窗口中可以同時得 到聚類結(jié)果統(tǒng)計量和統(tǒng)計圖。.點擊Plots按鈕,打開Plots子對話框,如圖5-5。設(shè)置結(jié)果輸出窗口中給出的聚類分 析統(tǒng)計圖。Dendrogram為聚類樹形圖,Icicle為冰柱圖。圖5-2 Plots子對話框這里我們選中 Dendrogram復(fù)選框和Icicle欄中的None單選按鈕,只輸出比較常用的聚 類樹形圖,而
5、不給出冰柱圖。.點擊Method按鈕,打開 Method子對話框,如圖 56,設(shè)置系統(tǒng)聚類的方法選項。Ckister Method: | Nearest neiiborMeasureC* Intervat| Squared Eudbdean distanceCounts:F-r: |2|I Oht-squdre measureBoot:三應(yīng)用多元統(tǒng)計分析實驗講義Hievairchical Clustei Analysis: Methoiir Binary-Transform Measures Absojute values Change signRgscale to 0-1 rangeTran
6、sform Values landardi- |z3By variableBy fass圖5-3 Method子對話框Cluster Method下拉列表用于指定類與類之間距離的測度方法,具體選項的含義參見教 材。Measure欄用于設(shè)置不同數(shù)據(jù)類型下的個體與個體之間距離的測度方法,其中,Interval中的方法適用于連續(xù)型變量,Counts中的方法適用于計數(shù)變量,Binary中的方法適用于二值變量。Transform Values選項欄用于當(dāng)原始數(shù)據(jù)不是同一數(shù)量級別的時候選擇對原始數(shù)據(jù)進行 標(biāo)準(zhǔn)化的方法。單選按鈕By variable表示針對變量進行標(biāo)準(zhǔn)化,適用于 Q型聚類;By case表
7、示針對觀測進行標(biāo)準(zhǔn)化,適用于R型聚類。這里我們選擇最為常用的Z分?jǐn)?shù)標(biāo)準(zhǔn)化法對原始數(shù)據(jù)進行標(biāo)準(zhǔn)化,其余選項均保持默認(rèn)。.點擊Save按鈕,打開 Save New Variables子對話框,指定保存在數(shù)據(jù)文件中的用于 表明聚類結(jié)果的新變量。None表示不保存任何新變量;Single solution表示生成一個分類變量,在其后的矩形框中輸入要分成的類數(shù);Range of solutions表示生成多個分類變量。這里我們選擇Range ofsolutions,并在后面的兩個矩形框中分別輸入2和4,即生成三個新的分類變量,分別表明將樣品分為2類、3類和4類時的聚類結(jié)果。.在主對話框中點擊 OK按鈕,
8、運行系統(tǒng)聚類過程,結(jié)果如表5-1和圖57所示。表5-1聚類過程表StageCluster CombinedCoefficierits6tags Cluster First AppearsNext StaggCluster 1Cluster 2Cluster 1Cluster 218110072671.5790043291.6250074162.31 BLI265352.51900861103 670401072S4.42U31s&234.5057599244774e0101011571Sq0應(yīng)用多元統(tǒng)計分析實驗講義Dendrograin using Single Link ageCASE051
9、01520Label+-十+Rescaled Distance Clu3ter ComkiLrL已2s卷 Log-wireless logwii * | 箝 Log-income Ininc :唳 Customer categary 含 Chum within last n:勘 Cluster N umbef of ( 砂 Dislarce of Cae fr寸Variable$:R Standardized multipl . | i曉 Standardized voice _#)- Standardized pdgint Standardized internt T ILabel Case
10、sOKPasteReetCancelHelpNumber of Clusters:CentersMethod Iterate and classifyIterata. Save.Classify onlvOption;.,AccordCaaEY MalibuGrand AmImpala Taurus MustangFocus CivicCavalier Corolla圖5-4樹狀圖B. K- means操作步驟及結(jié)果分析電信營銷商對客戶分類分析。telco_extra.sav.選擇菜單項 AnalyzefClassify fK-Means Cluster,打開 K-Means Cluster
11、Analysis 對話 框,如錯誤!未找到引用源。將原始變量x1x3移入Variables列表框框中,將標(biāo)志變量Region移入Label Case by列表框框中。X圖 5-5 K-Means Cluster Analysis 對話框在Method選項欄中選擇Iterate classify單選項,使用 K-means算法不斷計算新的類中 心,并替換舊的類中心;若選擇 Classify only ,則根據(jù)初始類中心進行聚類,在聚類過程中 不改變類中心。在Number of Cluster后面的輸入框中輸入想要把樣品聚成的類數(shù),這里我們輸入3,即將電信客戶分為3類。至于Centers按鈕,則用
12、于設(shè)置迭代的初始類中心。如果不用手工設(shè)置,則系統(tǒng)會自動 設(shè)置初始類中心,這里我們不作設(shè)置。.點擊Iterate按鈕,打開Iterate子對話框,對迭代參數(shù)進行設(shè)置。應(yīng)用多元統(tǒng)計分析實驗講義K-Means Cluster Analvsi: IterateMaximum Iterabons:Convergence Criterion:20- | C口ntinu司LUse running means圖5-6 Iterate子對話框Maximum Iterations輸入框用于設(shè)定 K-means算法迭代的最大次數(shù); Convergence Criterion輸入框用于設(shè)定算法的收斂判據(jù), 其值應(yīng)該介
13、于0和1之間。例如判據(jù)設(shè)置為0.02, 則當(dāng)一次完整的迭代不能使任何一個類中心距離的變動與原始類中心距離的比小于0.02時,迭代停止。設(shè)置完這兩個參數(shù)之后, 只要在迭代的過程中先滿足了其中的某一個條件,則迭代過程就停止。另外,如果選擇了 Use running means復(fù)選框,則每當(dāng)一個樣品被分配到一類時便要立 即重新計算新的類中心;如果不選該選項,則完成了所有樣品的重新分配之后才要計算新的 類中心,不選該選項會比較節(jié)省事件。這里我們保持該對話框的系統(tǒng)默認(rèn)選項。.點擊Options按鈕,打開Options子對話框,如錯誤!未找到引用源。對話中!中Statistics 選項欄中各選項的含義如下
14、:Initial cluster centers :在結(jié)果輸出窗口中給出聚類的初始類中心;ANOV A table :給出以聚類結(jié)果為控制變量的針對每個原始變量的單因素方差分析表;Cluster information for each case :在結(jié)果輸出窗口中給出每個樣品的分類信息,包括分 配到哪一類以及該觀測量距所屬類中心的距離。單擊Continue返回主對話框。.在主對話框中點擊 OK按鈕,運行K均值聚類分析程序。表5-2給出了 K 均值迭代的初始類中心坐標(biāo),由SPSS自動給定。表5-2 初始類中心表應(yīng)用多元統(tǒng)計分析實驗講義Cluster123Standardized log-lon
15、g distance248-1.7012Standardized log-toll free2.34-.20-.398tandardized log-equipment1.34-.65.59Standardized localling card2.49-.86-1.28Standardized log-wireless1.U-1.751 42Standardized multiple lines1J5-351P5Standardized voice mail1.511.511.51Standardized Raging1.581.G81.S8Standardized internet1.31-
16、7b1.31Standardized caller id1.04k04-J6Standardized call waiting1,0397Standardized call forwarding1.011.01-.99Standardized 3-way calling1.001.00-1.00Standardized electronic billing-11-.771.30表5-3給出了 K 均值迭代的過程,表中每一行代表每次迭代導(dǎo)致的類中心的變化量。從表中看出,每次迭代導(dǎo)致的類中心變化量在逐漸減少,第 18迭代導(dǎo)致的類中心的變化量 已經(jīng)為0,達到了收斂(我們在Iterate子對話框中設(shè)置
17、的收斂條件為“最大迭代次數(shù)為20和收斂判據(jù)為0”)。表5-3迭代過程Changim In Cluster CentersIteration12313.29B3.59C3.49121 016.4279313.57732C4204,240,180,1955119.125.108E9J82E-028.262E-022.654E-0215.8B2E-029.375E-023.196E-0285.353E-025.0B0E-021.S17E-02g3.461E-028.501 E-026.318E-02102.489E-0235S,333116.757E-02439287127.352E-023S8.1
18、7713.125.1397.823E-02147.565E-029 578E-021.383E-02154J90E-024.699E-021.502E-02161 375E-022.672E-02,000171.943E-023.S05E-02oao18000000,000應(yīng)用多元統(tǒng)計分析實驗講義表5-4給出了分類變量的方差分析表,檢驗各分析變量的均值在不同類中是否存在顯著 差異,這也是對我們的分類效果是否顯著的檢驗,檢驗的原假設(shè)是分析變量在不同類中不存在顯著差異。從表的結(jié)果來看,針對分析變量的方差分析的p值均小于0.05,需要拒絕原假設(shè),說明所選的聚類變量對于分類具有顯著作用。表 5-4 A
19、NOVAClusterErrorFSig.M日an SquaredfMeanSquaredfStandardized log-long distance13.0632.97B99713,397,000Standardized log-toll free43.418282047252.932.000Standardized log-equipment99.0562383202.999.000Standardized log-calling card6.3012JS4675B.4D2.002Standardized log-wireless52.6792.64629381.B73.000Stand
20、ardized multiple lines38 0322,92699741.084.000Standardized vclee mail236.3012,529997447.554.000Standard fred paging293.9922,402997743.34G.000Stgndardized internet123.4472,754937163.642,000Standardized caller id303.1042,384997302.474,000Standardized call waiting234.6742411937717.172.000Standardized call forwarding269.3432.42499766071 ,000Standardized 3-way calling282.39724769S7551.678,000Standardized electronic billing112782277B9971 45.301,000表5-5給出了最終的聚類中心結(jié)果。表5-5最終的類中心表Cluster123Standardized log-lona distance,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度建筑用鋼材料采購合同范本
- 二零二五年度房地產(chǎn)項目普法合同執(zhí)行與消費者權(quán)益保護合同3篇
- 2025版編劇聘用合同范本(原創(chuàng)劇本創(chuàng)作)3篇
- 2025年酒類團購服務(wù)及產(chǎn)品經(jīng)銷一體化合同
- 二零二五年度毛巾品牌授權(quán)及銷售合同
- 二零二五年度智慧社區(qū)土地租賃合同模板
- 2025年度個人交通事故損害賠償法律援助合同
- 課題申報參考:明清尺牘選本書畫文獻研究
- 2025年度個人信用保證保險合同范本大全2篇
- 課題申報參考:寧海古戲臺建造技藝與匠作譜系研究
- 基因突變和基因重組(第1課時)高一下學(xué)期生物人教版(2019)必修2
- 內(nèi)科學(xué)(醫(yī)學(xué)高級):風(fēng)濕性疾病試題及答案(強化練習(xí))
- 音樂劇好看智慧樹知到期末考試答案2024年
- 辦公設(shè)備(電腦、一體機、投影機等)采購 投標(biāo)方案(技術(shù)方案)
- 查干淖爾一號井環(huán)評
- 案卷評查培訓(xùn)課件模板
- 2024年江蘇省樣卷五年級數(shù)學(xué)上冊期末試卷及答案
- 波浪理論要點圖解完美版
- 金融交易數(shù)據(jù)分析與風(fēng)險評估項目環(huán)境敏感性分析
- 牛頓環(huán)與劈尖實驗論文
- 移動商務(wù)內(nèi)容運營(吳洪貴)任務(wù)四 其他平臺載體的運營方式
評論
0/150
提交評論