聚類分析與判別_第1頁
聚類分析與判別_第2頁
聚類分析與判別_第3頁
聚類分析與判別_第4頁
聚類分析與判別_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

聚類分析與判別演示文稿本文檔共42頁;當前第1頁;編輯于星期六\15點6分(優(yōu)選)聚類分析與判別本文檔共42頁;當前第2頁;編輯于星期六\15點6分3454名成年女子14個部位的譜系聚類圖(類平均法)上體長y1手臂長y2下體長y12總體高y10身高y11前腰節(jié)y8后腰節(jié)y9胸圍y3腰圍y13臀圍y14頸圍y4前胸寬y6后背寬y7總肩寬y5

距離00.10.20.30.40.50.60.7

相關(guān)系數(shù)10.90.80.70.60.50.40.3本文檔共42頁;當前第3頁;編輯于星期六\15點6分問如何將下述卡通人物分類?本文檔共42頁;當前第4頁;編輯于星期六\15點6分管理實際中經(jīng)常會遇到類似的問題。一般地,設(shè)有p個指標(變量),n個對象,依據(jù)這n個對象在這p個指標下的數(shù)據(jù),對這n個對象進行聚類。設(shè)數(shù)據(jù)為指標:1,2,…,p對象1對象2…對象nP維空間中的一個點聚類問題,就是對p維空間中的n個點的聚類問題。本文檔共42頁;當前第5頁;編輯于星期六\15點6分一些要注意的問題變量(指標)并非越多越好。變量太多,就難以判斷聚類結(jié)果的實際意義。例如對企業(yè)按照技術(shù)能力的各項指標(變量)聚類,可以在技術(shù)能力等方面把企業(yè)分為不同的類別。但如果把企業(yè)相關(guān)的所有指標都包括進來,對分類結(jié)果的含義就難以判斷了。只要指標間有一定相關(guān)關(guān)系(不必高度相關(guān)),就可以對所觀察的一群個體分類(Q-型聚類)。從而可以對個體進行進一步研究。例如可以對消費者的偏好進行分類;可以依據(jù)不同地區(qū)的有關(guān)經(jīng)濟特征(變量)對地區(qū)進行分類;等等。如果指標(變量)過多,也可以對指標進行分類(R-型聚類),把含義相近的指標聚在一起,將所有指標分為若干類。本文檔共42頁;當前第6頁;編輯于星期六\15點6分10.1.2聚類分析的作法1.將數(shù)據(jù)標準化為了消除不同變量的單位對聚類的影響,應(yīng)當首先將所有的數(shù)據(jù)標準化。對上述數(shù)據(jù)矩陣X而言,按列進行標準化,就可解決不同數(shù)據(jù)單位問題。其中分別表示第j列數(shù)據(jù)的均值與標準差。本文檔共42頁;當前第7頁;編輯于星期六\15點6分2.計算對象之間的“距離”直觀地,應(yīng)將“相似”的對象分為一類,但如何刻畫“相似”。根據(jù)前面的討論,聚類實際上是對n維空間的點進行的,因此“相似”的點的“距離”也近。具體來說,先計算第i個對象與第j個對象之間的距離rij,就可得到對象之間“相似關(guān)系”矩陣:對象1對象2…對象n1,2,…,n對象,對象,…,對象對通常的距離而言,rij=rji,因此該矩陣為對稱矩陣。本文檔共42頁;當前第8頁;編輯于星期六\15點6分聚類分析中的“距離”(1)歐氏距離:歐氏距離的平方為(2)偏差距離:本文檔共42頁;當前第9頁;編輯于星期六\15點6分(3)明考夫斯基(Minkowski)距離(的q次方):(4)馬氏(Mahalanobis)距離(的平方):其中V是協(xié)方差矩陣。在聚類分析中,(1)、(2)中的常數(shù)因子(1/p)可以去掉,這樣它們就是明氏距離的特殊情況。在具體應(yīng)用時,可根據(jù)實際問題選用其中一種距離。本文檔共42頁;當前第10頁;編輯于星期六\15點6分(1)相關(guān)系數(shù):(2)余弦:相似系數(shù)本文檔共42頁;當前第11頁;編輯于星期六\15點6分3.選擇類與類之間的距離定義(1)類的定義:由1個以上(含1個)對象組成的集合。(2)類與類之間的距離,有如下幾種規(guī)定:①用“代表點”之間的距離表示,可以采用兩個類之間距離最近(或最遠)的點,分別作為這兩類的代表點。具體又可分為:最短距離:取距離最近的兩點間距離為兩類間的距離。最長距離:取距離最遠的兩點間距離為兩類間的距離。本文檔共42頁;當前第12頁;編輯于星期六\15點6分②用兩個類(設(shè)它們分別是類S和類T)中所有點之間距離(平方)的平均值,作為兩個類之間的距離(的平方):其中ns,nt分別是兩類中點的個數(shù)。dij是點i與點j之間的距離。這種方法的優(yōu)點在于,類間的距離不依賴于類內(nèi)的個別點。采用這種距離聚類的方法稱為組間連接法(Between-grouplinkage)。③按照某一規(guī)則,選擇類中的一點,作為該類的“代表點”,然后通過代表點間的距離計算類間距離。本文檔共42頁;當前第13頁;編輯于星期六\15點6分類間距離S1S3S2S4S5最短距離(singlelinkage)本文檔共42頁;當前第14頁;編輯于星期六\15點6分最長距離(completelinkage)類間距離S1S3S4S5本文檔共42頁;當前第15頁;編輯于星期六\15點6分類間距離S1S3S2S4S5平均距離(average)本文檔共42頁;當前第16頁;編輯于星期六\15點6分附:離差平方和法(WARD)基本思想來源于方差分析。它認為:如果分類正確,同類間的離差平方和應(yīng)較小,類與類之間的類差平方和(與距離有關(guān))應(yīng)較大.具體做法是,先將n個樣本分成一類,然后每次縮小一類,每縮小一類離差平方和就要增大.本文檔共42頁;當前第17頁;編輯于星期六\15點6分4.聚類思路:聚類是一個迭代過程,首先將每個對象本身作為一類,然后進行迭代,每次迭代都將距離最近(或最遠)的類合并成新的類,因此每次迭代類的數(shù)目將減少,直至最后所有的對象并為一類為止??梢杂孟旅娴膱D形形象地說明聚類過程采用不同的“距離”將得到不同的聚類效果。第1層次第2層次第3層次第4層次第5層次本文檔共42頁;當前第18頁;編輯于星期六\15點6分步驟:(1)把每一個點(對象)作為一類(稱為第一層的類)。(2)找出距離最?。ɑ蜃畲螅┑膁ij,從而得出距離最近(或最遠)的兩類i和j,把它們合并成層次更高的一類。如果有兩個距離dij和dst(例如d12和d56)同時達到最小(或最大),則同時把i、j并為一類,s、t并作一類。若i、j與s、t中有一個相同(例如d12=d26),則把這三類并作一類。對有更多小類之間距離同時最?。ɑ蜃畲螅┛深愃铺幚?。(3)重復(fù)(2),直至所有的點(對象)都并成同一類為止。如果做(2)之前的類是第k層次的類,進行(2)之后的類就是第k+1層的類。本文檔共42頁;當前第19頁;編輯于星期六\15點6分5.分類將各點(對象)聚類后,最后需要確定以第幾層的類作為最終的分類標準。通常使用如下的準則[1]:準則1:各類重心之間的距離必須較大(為此應(yīng)作假設(shè)檢驗)。準則2:各類所包含的元素個數(shù)都不過分地多。準則3:分類的數(shù)目應(yīng)該符合使用的目的。準則4:若采用幾種不同的聚類方法處理,則在各自的聚類圖上應(yīng)發(fā)現(xiàn)相同的類。但是,一般不使用第一層的類,這實際上是將每個元素各自作為一類;也不使用最后一個層次的類,這實際上是將所有元素作為同一類。這樣做失去了分類的意義。本文檔共42頁;當前第20頁;編輯于星期六\15點6分聚類分析的進一步說明聚類的另一種方式:反其道而行之。將前述的聚類過程反過來,先將所有點(對象)看成一類,然后按距離的遠近,逐步將類拆分成更細的類,直到最后每一點自己為一類為止。為了區(qū)分:前面的方法也稱為聚集法;這里的方法也稱為分解法。本文檔共42頁;當前第21頁;編輯于星期六\15點6分從上面的討論來看,我們是根據(jù)“距離”的遠近來分類,但須注意,距離的定義有多種,它們可能并不同于通常直觀的距離。因此有時需要將距離最“遠”的歸并為一類。例如如果取相關(guān)系數(shù)作為“距離”,則該“距離”越大,相應(yīng)的對象的相關(guān)程度就越高,因此宜將它們并為一類。但實際進行統(tǒng)計分析稱相關(guān)系數(shù)等為相似系數(shù),并取距離=(1-相似系數(shù)).本文檔共42頁;當前第22頁;編輯于星期六\15點6分我們上面討論的是對對象的分類,這相當于在下列矩陣中將每一行看成一點,然后考慮對這些點的分類。指標:1,2,…,p對象1對象2…對象n但有的實際問題,可能遇到較多的指標,因此為了清楚分類的實際意義,需要先對指標進行分類。這只須將上述矩陣中的每一列,看成n維空間的點,然后用前面的方法得到適當?shù)姆诸惣纯??;蛘邔⑸鲜龅姆椒☉?yīng)用與上面矩陣的轉(zhuǎn)置矩陣即可。本文檔共42頁;當前第23頁;編輯于星期六\15點6分12.2用SPSS做聚類分析概述聚類分析的方法:層次聚類法、迭代聚類法層次聚類法:就是上一節(jié)介紹的方法,又分為:聚集法(AgglomerativeMethod)和分解法(DivisiveMethod)。我們主要介紹層次聚類法,這也是最常用的聚類方法。聚類的結(jié)果可以用樹狀圖或冰柱圖表示。后面將結(jié)合例子說明這兩種表示方法。本文檔共42頁;當前第24頁;編輯于星期六\15點6分迭代聚類法(也稱為動態(tài)聚類法):這種方法需要指定聚類中心,這相當于指定各類的典型元素。指定聚類中心的方法:可以人為地取定各類的中心,也可由機器產(chǎn)生初始中心。然后通過迭代過程得到所有對象的分類。用一個簡單的例子來說明動態(tài)聚類法的工作過程。例如我們要把圖中的點分成兩類。本文檔共42頁;當前第25頁;編輯于星期六\15點6分迭代過程是:1、先指定兩個迭代(聚類)中心。2、計算每個點到迭代中心的“距離”,該點到哪個迭代中心的距離近,就將其劃分到那個迭代中心所在的那一類。3、修改迭代中心為各類的“重心”,再回到第2步。指定聚類中心第一次聚類本文檔共42頁;當前第26頁;編輯于星期六\15點6分計算各類的中心第二次聚類本文檔共42頁;當前第27頁;編輯于星期六\15點6分層次聚類法操作過程與例子例現(xiàn)有13個運動員,從體形、生理、心理三個方面對他們進行了測評,現(xiàn)在要根據(jù)測評的結(jié)果對這些運動員進行分類。數(shù)據(jù):見文件“判別運動員”本文檔共42頁;當前第28頁;編輯于星期六\15點6分本文檔共42頁;當前第29頁;編輯于星期六\15點6分對運動員聚類而非對指標聚類同時給出統(tǒng)計分析結(jié)果與作圖結(jié)果本文檔共42頁;當前第30頁;編輯于星期六\15點6分要求給出聚類進度表,將輸出凝聚過程中每一步的結(jié)果本文檔共42頁;當前第31頁;編輯于星期六\15點6分輸出樹狀圖輸出冰柱圖本文檔共42頁;當前第32頁;編輯于星期六\15點6分對分類變量對二值變量本文檔共42頁;當前第33頁;編輯于星期六\15點6分本文檔共42頁;當前第34頁;編輯于星期六\15點6分本文檔共42頁;當前第35頁;編輯于星期六\15點6分聚類步驟合并時類的距離合并了哪些元素合并過程中第一類的元素上一次在第幾步出現(xiàn)合并過程中第一類的元素下次出現(xiàn)在第幾步本文檔共42頁;當前第36頁;編輯于星期六\15點6分冰柱圖(垂直)本文檔共42頁;當前第37頁;編輯于星期六\15點6分PASWStatistics的冰柱圖本文檔共42頁;當前第38頁;編輯于星期六\15點6分本文檔共42頁;當前第39頁;編輯于星期六\15點6分PASWStatistics的輸出結(jié)果本文檔共42頁;當前

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論