




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
關于作聚類分析標準化第1頁,課件共30頁,創(chuàng)作于2023年2月常言道:“物以類聚”,對事物分門別類進行研究,有利于我們做出正確的判斷。日常生活中,我們不自覺地用定性方法將人分為“好人”、“壞人”;按熟悉程度分為“朋友”、“熟人”、“陌生人”等等。數理統(tǒng)計中的數值分類有兩種問題:
判別分析:已知分類情況,將未知個體歸入正確類別
聚類分析:分類情況未知,對數據結構進行分類通過分類,有利于我們抓住重點,從總體上去把握事物,找出解決問題的方法。例如將股票進行分類,可以為我們投資提供參考。一、聚類分析(ClusterAnalysis)簡介 聚類分析是直接比較各事物之間的性質,將性質相近的歸為一類,將性質差別較大的歸入不同的類的分析技術。第2頁,課件共30頁,創(chuàng)作于2023年2月要做聚類分析,首先得按照我們聚類的目的,從對象中提取出能表現這個目的的特征指標;然后根據親疏程度進行分類。聚類分析根據分類對象的不同可分為Q型和R型兩大類Q型是對樣本進行分類處理,其作用在于:能利用多個變量對樣本進行分類分類結果直觀,聚類譜系圖能明確、清楚地表達其數值分類結果所得結果比傳統(tǒng)的定性分類方法更細致、全面、合理二、聚類對象第3頁,課件共30頁,創(chuàng)作于2023年2月R型是對變量進行分類處理,其作用在于:可以了解變量間及變量組合間的親疏關系可以根據變量的聚類結果及它們之間的關系,選擇主要變量進行回歸分析或Q型聚類分析聚類的主要過程一般可分為如下四個步驟:數據預處理(標準化)構造關系矩陣(親疏關系的描述)聚類(根據不同方法進行分類)確定最佳分類(類別數)以下我們結合實際例子分步進行討論。三、聚類過程與方法第4頁,課件共30頁,創(chuàng)作于2023年2月為什么要做數據變換→指標變量的量綱不同或數量級相差很大,為了使這些數據能放到一起加以比較,常需做變換。在SPSS中如何選擇標準化方法:→Analyze→Classify→HierachicalClusterAnalysis→Method然后從對話框中進行如下選擇1.數據預處理(標準化)例、下表給出了1982年全國28個省、市、自治區(qū)農民家庭收支情況,有六個指標,是利用調查資料進行聚類分析,為經濟發(fā)展決策提供依據。 (詳見文件1982“農民生活消費聚類.sav”)第5頁,課件共30頁,創(chuàng)作于2023年2月從TransformValues框中點擊向下箭頭,將出現如下可選項,從中選一即可:常用標準化方法(選項說明):None:不進行標準化,這是系統(tǒng)默認值第6頁,課件共30頁,創(chuàng)作于2023年2月ZScores:標準化變換為了便于后面的說明,作如下假設:均值表示為標準差表示為所有樣本表示為極差表示為第7頁,課件共30頁,創(chuàng)作于2023年2月作用:變換后的數據均值為0,標準差為1,消去了量綱的影響;當抽樣樣本改變時,它仍能保持相對穩(wěn)定性。Range–1to1:極差標準化變換作用:變換后的數據均值為0,極差為1,且|xij*|<1,消去了量綱的影響;在以后的分析計算中可以減少誤差的產生。第8頁,課件共30頁,創(chuàng)作于2023年2月Maximummagnitudeof1作用:變換后的數據最大值為1。Range0to1(極差正規(guī)化變換/規(guī)格化變換)第9頁,課件共30頁,創(chuàng)作于2023年2月作用:變換后的數據最小為0,最大為1,其余在區(qū)間[0,1]內,極差為1,無量綱。Meanof1作用:變換后的數據均值為1。第10頁,課件共30頁,創(chuàng)作于2023年2月Standarddeviationof1作用:變換后的數據標準差為1。第11頁,課件共30頁,創(chuàng)作于2023年2月在SPSS中如何選擇測度:→Analyze→Classify→HierachicalClusterAnalysis→Method然后從對話框中進行如下選擇2.構造關系矩陣描述變量或樣本的親疏程度的數量指標有兩種:相似系數——性質越接近的樣品,相似系數越接近于1或-1;彼此無關的樣品相似系數則接近于0,聚類時相似的樣品聚為一類距離——將每一個樣品看作m維空間的一個點,在這m維空間中定義距離,距離較近的點歸為一類。相似系數與距離有40多種,但常用的只是少數第12頁,課件共30頁,創(chuàng)作于2023年2月從Measure框中點擊Interval項的向下箭頭,將出現如左可選項,從中選一即可。常用測度(選項說明):Euclideandistance:歐氏距離 (二階Minkowski距離)第13頁,課件共30頁,創(chuàng)作于2023年2月SquaredEucideandistance:平方歐氏距離用途:聚類分析中用得最廣泛的距離 但與各變量的量綱有關,未考慮指標間的相關性,也未考慮各變量方差的不同用途:聚類分析中用得最廣泛的距離
第14頁,課件共30頁,創(chuàng)作于2023年2月Cosine:夾角余弦(相似性測度)用途:計算兩個向量在原點處的夾角余弦。當兩夾角為0o時,取值為1,說明極相似;當夾角為90o時,取值為0,說明兩者不相關。 取值范圍:0~1 Pearsoncorrelation:皮爾遜相關系數第15頁,課件共30頁,創(chuàng)作于2023年2月Chebychev:切比雪夫距離用途:計算兩個向量的皮爾遜相關系數用途:計算兩個向量的切比雪夫距離Block:絕對值距離(一階Minkowski度量) (又稱Manhattan度量或網格度量)用途:計算兩個向量的絕對值距離第16頁,課件共30頁,創(chuàng)作于2023年2月Minkowski:明科夫斯基距離用途:計算兩個向量的明科夫斯基距離Customized:自定義距離用途:計算兩個向量的自定義距離第17頁,課件共30頁,創(chuàng)作于2023年2月確定了樣品或變量間的距離或相似系數后,就要對樣品或變量進行分類。分類的一種方法是系統(tǒng)聚類法(又稱譜系聚類);另一種方法是調優(yōu)法(如動態(tài)聚類法就屬于這種類型)。此外還有模糊聚類、圖論聚類、聚類預報等多種方法。我們主要介紹系統(tǒng)聚類法(實際應用中使用最多)。系統(tǒng)聚類法的基本思想:令n個樣品自成一類,計算出相似性測度,此時類間距離與樣品間距離是等價的,把測度最小的兩個類合并;然后按照某種聚類方法計算類間的距離,再按最小距離準則并類;這樣每次減少一類,持續(xù)下去直到所有樣品都歸為一類為止。聚類過程可做成聚類譜系圖(Hierarchicaldiagram)。3.選擇聚類方法第18頁,課件共30頁,創(chuàng)作于2023年2月系統(tǒng)聚類法的聚類原則決定于樣品間的距離(或相似系數)及類間距離的定義,類間距離的不同定義就產生了不同的系統(tǒng)聚類分析方法。SPSS中如何選擇系統(tǒng)聚類法從ClusterMethod框中點擊向下箭頭,將出現如左可選項,從中選一即可。1)系統(tǒng)聚類法的產生第19頁,課件共30頁,創(chuàng)作于2023年2月Between-groupslinkage組間平均距離連接法特點:非最大距離,也非最小距離方法簡述:合并兩類的結果使所有的兩兩項對之間的平均距離最小。(項對的兩成員分屬不同類)Within-groupslinkage組內平均連接法方法簡述:兩類合并為一類后,合并后的類中所有項之間的平均距離最小3)常用系統(tǒng)聚類方法第20頁,課件共30頁,創(chuàng)作于2023年2月Nearestneighbor最近鄰法(最短距離法)特點:樣品有鏈接聚合的趨勢,這是其缺點,不適合一般數據的分類處理,除去特殊數據外,不提倡用這種方法。方法簡述:首先合并最近或最相似的兩項Furthestneighbor最遠鄰法(最長距離法)方法簡述:用兩類之間最遠點的距離代表兩類之間的距離,也稱之為完全連接法第21頁,課件共30頁,創(chuàng)作于2023年2月Centroidclustering重心聚類法特點:該距離隨聚類地進行不斷縮小。該法的譜系樹狀圖很難跟蹤,且符號改變頻繁,計算較煩。方法簡述:兩類間的距離定義為兩類重心之間的距離,對樣品分類而言,每一類中心就是屬于該類樣品的均值Medianclustering中位數法特點:圖形將出現遞轉,譜系樹狀圖很難跟蹤,因而這個方法幾乎不被人們采用。方法簡述:兩類間的距離既不采用兩類間的最近距離,也不采用最遠距離,而采用介于兩者間的距離第22頁,課件共30頁,創(chuàng)作于2023年2月Ward’smethod離差平方和法特點:實際應用中分類效果較好,應用較廣;要求樣品間的距離必須是歐氏距離。方法簡述:基于方差分析思想,如果分類合理,則同類樣品間離差平方和應當較小,類與類間離差平方和應當較大第23頁,課件共30頁,創(chuàng)作于2023年2月經過系統(tǒng)聚類法處理后,得到聚類樹狀譜系圖,Demirmen(1972)提出了應根據研究的目的來確定適當的分類方法,并提出了一些根據譜系圖來分類的準則:任何類都必須在臨近各類中是突出的,即各類重心間距離必須極大確定的類中,各類所包含的元素都不要過分地多分類的數目必須符合實用目的若采用幾種不同的聚類方法處理,則在各自的聚類圖中應發(fā)現相同的類四、譜系分類的確定第24頁,課件共30頁,創(chuàng)作于2023年2月SPSS中其他選項(通過實例演示)例、下表給出了1982年全國28個省、市、自治區(qū)農民家庭收支情況,有六個指標,是利用調查資料進行聚類分析,為經濟發(fā)展決策提供依據。 (詳見文件1982“農民生活消費聚類.sav”)第25頁,課件共30頁,創(chuàng)作于2023年2月生成樹形圖生成冰柱圖凝聚狀態(tài)表,顯示聚類過程各項間的距離矩陣類成員欄第26頁,課件共30頁,創(chuàng)作于2023年2月結果分析:(方法選擇如下)第27頁,課件共30頁,創(chuàng)作于2023年2月通過比較,可知離差平方和法(Ward’smethod)分類結果較好,將28各樣本分為三類:第一類包含6個元素:2、15、10、11、6、7第二類包含10個元素:8、17、28、12、13、18、14、20、21、22第三類包含9個元
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 全程優(yōu)化急診護理在急性心肌梗死患者中的應用價值
- 本科畢業(yè)論文完整范文(滿足查重要求)城市醫(yī)養(yǎng)結合養(yǎng)老模式研究
- 15 分離鹽和沙 教學設計-2024-2025學年三年級上冊科學冀人版
- 11 白樺 第一課時 教學設計 -2023-2024學年語文四年級下冊統(tǒng)編版
- DB3715-T 10-2022 日光溫室香瓜早熟栽培技術規(guī)程
- 2024-2025學年高中化學下學期《原電池》教學實錄
- 三農土地承包管理方案
- 11軍神(教學設計)-2024-2025學年語文五年級下冊統(tǒng)編版
- 2024年春七年級生物下冊 第四單元 第三章 第一節(jié) 呼吸道對空氣的處理教學實錄 (新版)新人教版
- 2 我學習我快樂(教學設計)-2024-2025學年道德與法治統(tǒng)編版三年級上冊
- 國家體育館QC成果之提高鋼結構現場焊縫的一次合格率
- 隊列訓練教程ppt課件(PPT 86頁)
- 國際商務(International Business)英文全套完整課件
- 《麻精藥品培訓》ppt課件
- JMP操作簡要培訓
- 高速鐵路隧道空氣動力學關鍵技術
- 立方智能停車場管理系統(tǒng)解決方案(課堂PPT)
- 員工廉潔協(xié)議
- 螺旋鉆孔樁試樁施工方案
- K3ERP業(yè)務藍圖
- 路燈桿,合桿,智慧路燈,強度計算校核說明書
評論
0/150
提交評論