【STATA教程】第12章-聚類分析課件_第1頁
【STATA教程】第12章-聚類分析課件_第2頁
【STATA教程】第12章-聚類分析課件_第3頁
【STATA教程】第12章-聚類分析課件_第4頁
【STATA教程】第12章-聚類分析課件_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第12章聚類分析第12章聚類分析

聚類分析13.1.1聚類分析的基本原理13.1.2層次聚類13.1.3K-均值聚類13.1.4聚類分析的Stata命令聚類分析13.1.1聚類分析的基本原理把“對象”分成不同的類別這些類不是事先給定的,而是直接根據(jù)數(shù)據(jù)的特征確定的把相似的東西放在一起,從而使得類別內部的“差異”盡可能小,而類別之間的“差異”盡可能大聚類分析就是按照對象之間的“相似”程度把對象進行分類什么是聚類分析?

(clusteranalysis)把“對象”分成不同的類別什么是聚類分析?

(cluster聚類分析的“對象”可以是所觀察的多個樣本,也可以是針對每個樣本測得的多個變量按照變量對所觀察的樣本進行分類稱為Q型聚類按照多項經(jīng)濟指標(變量)對不同的地區(qū)(樣本)進行分類按照樣本對多個變量進行分類,則稱為R型聚類按照不同地區(qū)的樣本數(shù)據(jù)對多個經(jīng)濟變量進行分類兩種聚類沒有什么本質區(qū)別,實際中人們更感興趣的通常是根據(jù)變量對樣本進行分類(Q型聚類)什么是聚類分析?

(兩種分類方式)聚類分析的“對象”可以是所觀察的多個樣本,也可以是針對每個樣按對象的“相似”程度分類根據(jù)樣本的觀測數(shù)據(jù)測度變量之間的相似性程度可以使用夾角余弦、Pearson相關系數(shù)等工具,也稱為相似系數(shù)變量間的相似系數(shù)越大,說明它們越相近根據(jù)變量來測度樣本之間的相似程度則使用“距離”把離得比較近的歸為一類,而離得比較遠的放在不同的類什么是聚類分析?

(按什么分類)按對象的“相似”程度分類什么是聚類分析?

(按什么分類)相似性的度量

(樣本點間距離的計算方法)

Euclidean距離SquaredEuclidean距離Block距離Chebychev距離Minkovski距離相似性的度量

(樣本點間距離的計算方法)Euclidean在對變量進行分類時,度量變量之間的相似性常用相似系數(shù),測度方法有相似性的度量

(變量相似系數(shù)的計算方法)

夾角余弦

Pearson相關系數(shù)

在對變量進行分類時,度量變量之間的相似性常用相似系數(shù),測度方層次聚類又稱系統(tǒng)聚類事先不確定要分多少類,而是先把每一個對象作為一類,然后一層一層進行分類根據(jù)運算的方向不同,層次聚類法又分為合并法和分解法,兩種方法的運算原理一樣,只是方向相反層次聚類

(hierarchicalcluster)層次聚類又稱系統(tǒng)聚類層次聚類

(hierarchicalc將每一個樣本作為一類,如果是k個樣本就分k成類按照某種方法度量樣本之間的距離,并將距離最近的兩個樣本合并為一個類別,從而形成了k-1個類別再計算出新產(chǎn)生的類別與其他各類別之間的距離,并將距離最近的兩個類別合并為一類。這時,如果類別的個數(shù)仍然大于1,則繼續(xù)重復這一步,直到所有的類別都合并成一類為止總是先把離得最近的兩個類進行合并合并越晚的類,距離越遠事先并不會指定最后要分成多少類,而是把所有可能的分類都列出,再視具體情況選擇一個合適的分類結果層次聚類

(合并法)將每一個樣本作為一類,如果是k個樣本就分k成類層次聚類

(合分解方法原理與合并法相反先把所有的對象(樣本或變量)作為一大類,然后度量對象之間的距離或相似程度,并將距離或相似程度最遠的對象分離出去,形成兩大類(其中的一類只有一個對象)再度量類別中剩余對象之間的距離或相似程度,并將最遠的分離出去,不斷重復這一過程,直到所有的對象都自成一類為止層次聚類

(分解法)分解方法原理與合并法相反層次聚類

(分解法)Nearestneighbor(最短距離法)—用兩個類別中各個數(shù)據(jù)點之間最短的那個距離來表示兩個類別之間的距離Furthestneighbor(最長距離法)—用兩個類別中各個數(shù)據(jù)點之間最長的那個距離來表示兩個類別之間的距離Centroidclustering(重心法)—用兩個類別的重心之間的距離來表示兩個類別之間的距離between-groupslinkage(組間平均距離法)—SPSS的默認方法。是用兩個類別中間各個數(shù)據(jù)點之間的距離的平均來表示兩個類別之間的距離Ward‘smethod(離差平方和法)—使各類別中的離差平方和較小,而不同類別之間的離差平方和較大類間距離的計算方法Nearestneighbor(最短距離法)—用兩個類別中層次聚類事先不需要確定要分多少類,聚類過程一層層進行,最后得出所有可能的類別結果,研究這根據(jù)具體情況確定最后需要的類別。該方法可以繪制出樹狀聚類圖,方便使用者直觀選擇類別,但其缺點是計算量較大,對大批量數(shù)據(jù)的聚類效率不高K-均值聚類事先需要確定要分的類別數(shù)據(jù),計算量要小得多,效率比層次聚類要高,也被稱為快速聚類(quickcluster)K-均值聚類

(K-meanscluster)層次聚類事先不需要確定要分多少類,聚類過程一層層進行,最后得第1步:確定要分的類別數(shù)目K需要研究者自己確定在實際應用中,往往需要研究者根據(jù)實際問題反復嘗試,得到不同的分類并進行比較,得出最后要分的類別數(shù)量第2步:確定K個類別的初始聚類中心要求在用于聚類的全部樣本中,選擇K個樣本作為K個類別的初始聚類中心與確定類別數(shù)目一樣,原始聚類中心的確定也需要研究者根據(jù)實際問題和經(jīng)驗來綜合考慮K-均值聚類

(步驟)第1步:確定要分的類別數(shù)目KK-均值聚類

(步驟)第3步:根據(jù)確定的K個初始聚類中心,依次計算每個樣本到K個聚類中心的距離歐氏距離,并根據(jù)距離最近的原則將所有的樣本分到事先確定的K個類別中第4步:根據(jù)所分成的K個類別,計算出各類別中每個變量的均值,并以均值點作為新的K個類別中心。根據(jù)新的中心位置,重新計算每個樣本到新中心的距離,并重新進行分類K-均值聚類

(步驟)第3步:根據(jù)確定的K個初始聚類中心,依次計算每個樣本到K個聚第5步:重復第4步,直到滿足終止聚類條件為止迭代次數(shù)達到研究者事先指定的最大迭代次數(shù)新確定的聚類中心點與上一次迭代形成的中心點的最大偏移量小于指定的量K-均值聚類法是根據(jù)事先確定的K個類別反復迭代直到把每個樣本分到指定的里類別中。類別數(shù)目的確定具有一定的主主觀性,究竟分多少類合適,需要研究者對研究問題的了解程度、相關知識和經(jīng)驗K-均值聚類

(步驟)第5步:重復第4步,直到滿足終止聚類條件為止K-均值聚類

(Stata命令matrixdissimilaritycluster、clustermatclusterkmeans、clusterkmediansclusterdendrogramStata命令matrixdissimilarity17本章結束,謝謝觀看!17本章結束,謝謝觀看!第12章聚類分析第12章聚類分析

聚類分析13.1.1聚類分析的基本原理13.1.2層次聚類13.1.3K-均值聚類13.1.4聚類分析的Stata命令聚類分析13.1.1聚類分析的基本原理把“對象”分成不同的類別這些類不是事先給定的,而是直接根據(jù)數(shù)據(jù)的特征確定的把相似的東西放在一起,從而使得類別內部的“差異”盡可能小,而類別之間的“差異”盡可能大聚類分析就是按照對象之間的“相似”程度把對象進行分類什么是聚類分析?

(clusteranalysis)把“對象”分成不同的類別什么是聚類分析?

(cluster聚類分析的“對象”可以是所觀察的多個樣本,也可以是針對每個樣本測得的多個變量按照變量對所觀察的樣本進行分類稱為Q型聚類按照多項經(jīng)濟指標(變量)對不同的地區(qū)(樣本)進行分類按照樣本對多個變量進行分類,則稱為R型聚類按照不同地區(qū)的樣本數(shù)據(jù)對多個經(jīng)濟變量進行分類兩種聚類沒有什么本質區(qū)別,實際中人們更感興趣的通常是根據(jù)變量對樣本進行分類(Q型聚類)什么是聚類分析?

(兩種分類方式)聚類分析的“對象”可以是所觀察的多個樣本,也可以是針對每個樣按對象的“相似”程度分類根據(jù)樣本的觀測數(shù)據(jù)測度變量之間的相似性程度可以使用夾角余弦、Pearson相關系數(shù)等工具,也稱為相似系數(shù)變量間的相似系數(shù)越大,說明它們越相近根據(jù)變量來測度樣本之間的相似程度則使用“距離”把離得比較近的歸為一類,而離得比較遠的放在不同的類什么是聚類分析?

(按什么分類)按對象的“相似”程度分類什么是聚類分析?

(按什么分類)相似性的度量

(樣本點間距離的計算方法)

Euclidean距離SquaredEuclidean距離Block距離Chebychev距離Minkovski距離相似性的度量

(樣本點間距離的計算方法)Euclidean在對變量進行分類時,度量變量之間的相似性常用相似系數(shù),測度方法有相似性的度量

(變量相似系數(shù)的計算方法)

夾角余弦

Pearson相關系數(shù)

在對變量進行分類時,度量變量之間的相似性常用相似系數(shù),測度方層次聚類又稱系統(tǒng)聚類事先不確定要分多少類,而是先把每一個對象作為一類,然后一層一層進行分類根據(jù)運算的方向不同,層次聚類法又分為合并法和分解法,兩種方法的運算原理一樣,只是方向相反層次聚類

(hierarchicalcluster)層次聚類又稱系統(tǒng)聚類層次聚類

(hierarchicalc將每一個樣本作為一類,如果是k個樣本就分k成類按照某種方法度量樣本之間的距離,并將距離最近的兩個樣本合并為一個類別,從而形成了k-1個類別再計算出新產(chǎn)生的類別與其他各類別之間的距離,并將距離最近的兩個類別合并為一類。這時,如果類別的個數(shù)仍然大于1,則繼續(xù)重復這一步,直到所有的類別都合并成一類為止總是先把離得最近的兩個類進行合并合并越晚的類,距離越遠事先并不會指定最后要分成多少類,而是把所有可能的分類都列出,再視具體情況選擇一個合適的分類結果層次聚類

(合并法)將每一個樣本作為一類,如果是k個樣本就分k成類層次聚類

(合分解方法原理與合并法相反先把所有的對象(樣本或變量)作為一大類,然后度量對象之間的距離或相似程度,并將距離或相似程度最遠的對象分離出去,形成兩大類(其中的一類只有一個對象)再度量類別中剩余對象之間的距離或相似程度,并將最遠的分離出去,不斷重復這一過程,直到所有的對象都自成一類為止層次聚類

(分解法)分解方法原理與合并法相反層次聚類

(分解法)Nearestneighbor(最短距離法)—用兩個類別中各個數(shù)據(jù)點之間最短的那個距離來表示兩個類別之間的距離Furthestneighbor(最長距離法)—用兩個類別中各個數(shù)據(jù)點之間最長的那個距離來表示兩個類別之間的距離Centroidclustering(重心法)—用兩個類別的重心之間的距離來表示兩個類別之間的距離between-groupslinkage(組間平均距離法)—SPSS的默認方法。是用兩個類別中間各個數(shù)據(jù)點之間的距離的平均來表示兩個類別之間的距離Ward‘smethod(離差平方和法)—使各類別中的離差平方和較小,而不同類別之間的離差平方和較大類間距離的計算方法Nearestneighbor(最短距離法)—用兩個類別中層次聚類事先不需要確定要分多少類,聚類過程一層層進行,最后得出所有可能的類別結果,研究這根據(jù)具體情況確定最后需要的類別。該方法可以繪制出樹狀聚類圖,方便使用者直觀選擇類別,但其缺點是計算量較大,對大批量數(shù)據(jù)的聚類效率不高K-均值聚類事先需要確定要分的類別數(shù)據(jù),計算量要小得多,效率比層次聚類要高,也被稱為快速聚類(quickcluster)K-均值聚類

(K-meanscluster)層次聚類事先不需要確定要分多少類,聚類過程一層層進行,最后得第1步:確定要分的類別數(shù)目K需要研究者自己確定在實際應用中,往往需要研究者根據(jù)實際問題反復嘗試,得到不同的分類并進行比較,得出最后要分的類別數(shù)量第2步:確定K個類別的初始聚類中心要求在用于聚類的全部樣本中,選擇K個樣本作為K個類別的初始聚類中心與確定類別數(shù)目一樣,原始聚類中心的確定也需要研究者根據(jù)實際問題和經(jīng)驗來綜合考慮K-均值聚類

(步驟)第1步:確定要分的類別數(shù)目KK-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論