應(yīng)用多元統(tǒng)計分析第五章聚類分析_第1頁
應(yīng)用多元統(tǒng)計分析第五章聚類分析_第2頁
應(yīng)用多元統(tǒng)計分析第五章聚類分析_第3頁
應(yīng)用多元統(tǒng)計分析第五章聚類分析_第4頁
應(yīng)用多元統(tǒng)計分析第五章聚類分析_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

應(yīng)用多元統(tǒng)計分析第五章聚類分析1第1頁,課件共66頁,創(chuàng)作于2023年2月2第五章把對象分類

——聚類分析第2頁,課件共66頁,創(chuàng)作于2023年2月3分類俗語說,物以類聚、人以群分。當(dāng)有一個分類指標(biāo)時,分類比較容易。但是當(dāng)有多個指標(biāo),要進行分類就不是很容易了。比如,要想把中國的縣分成若干類,可以按照自然條件來分:考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);第3頁,課件共66頁,創(chuàng)作于2023年2月4聚類分析由于不同的指標(biāo)項對重要程度或依賴關(guān)系是相互不同的,所以也不能用平均的方法,因為這樣會忽視相對重要程度的問題。所以需要進行多元分類,即聚類分析。最早的聚類分析是由考古學(xué)家在對考古分類中研究中發(fā)展起來的,同時又應(yīng)用于昆蟲的分類中,此后又廣泛地應(yīng)用在天氣、生物等方面。第4頁,課件共66頁,創(chuàng)作于2023年2月5聚類分析對于一個數(shù)據(jù),人們既可以對變量(指標(biāo))進行分類(相當(dāng)于對數(shù)據(jù)中的列分類),也可以對觀測值(事件,樣品)來分類(相當(dāng)于對數(shù)據(jù)中的行分類)。對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。這兩種聚類在數(shù)學(xué)上是對稱的,沒有什么不同。第5頁,課件共66頁,創(chuàng)作于2023年2月6聚類中選擇變量的要求和聚類分析的目標(biāo)密切相關(guān)反映了要分類對象的特征變量之間不應(yīng)該高度相關(guān)。第6頁,課件共66頁,創(chuàng)作于2023年2月7如何聚類?聚類分析就是要找出具有相近程度的點或類聚為一類;如何衡量這個“相近程度”?一種方法是用相似系數(shù),性質(zhì)越接近的樣品,它們的相似系數(shù)的絕對值越接近1,而彼此無關(guān)的樣品,它們的相似系數(shù)的絕對值越接近于零。比較相似的樣品歸為一類,不怎么相似的樣品歸為不同的類。另一種方法是將一個樣品看作p維空間的一個點,并在空間定義距離,距離越近的點歸為一類,距離較遠的點歸為不同的類。第7頁,課件共66頁,創(chuàng)作于2023年2月8距離和相似系數(shù)第8頁,課件共66頁,創(chuàng)作于2023年2月9距離什么是距離?首先我們看樣本數(shù)據(jù):一般滿足以下四個條件時,就稱為聚例:第9頁,課件共66頁,創(chuàng)作于2023年2月10常用距離——明氏距離Minkowski距離:當(dāng)q=1時:當(dāng)q=2時:當(dāng)q=∞時:第10頁,課件共66頁,創(chuàng)作于2023年2月11明氏距離的缺點距離的大小與個指標(biāo)的觀測單位有關(guān),具有一定的人為性。例如:對體重和身高進行測量,采用不同單位,其距離測量的結(jié)果不同。以歐氏距離為例。第11頁,課件共66頁,創(chuàng)作于2023年2月12當(dāng)長度=cm時:第12頁,課件共66頁,創(chuàng)作于2023年2月13當(dāng)長度=mm時:改進的方法:對數(shù)據(jù)進行標(biāo)準(zhǔn)化,然后再計算距離。第13頁,課件共66頁,創(chuàng)作于2023年2月14采用明氏距離需要注意的是:一定要采用相同量綱的變量。如果各變量的量綱不同,或當(dāng)各變量的量綱相同但各變量的測量值相差懸殊時,不能直接采用明氏距離。需要先對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,然后再用標(biāo)準(zhǔn)化處理后的數(shù)據(jù)計算距離。最常用的標(biāo)準(zhǔn)化處理方法是:第14頁,課件共66頁,創(chuàng)作于2023年2月15對指標(biāo)標(biāo)準(zhǔn)化的方法第15頁,課件共66頁,創(chuàng)作于2023年2月16明氏距離的缺點另一個缺點:它沒有考慮到指標(biāo)之間的相關(guān)性。改進的方法是:采用馬氏距離馬氏距離是1936年由印度數(shù)學(xué)家:馬哈拉比斯由協(xié)方差矩陣計算構(gòu)造的距離。第16頁,課件共66頁,創(chuàng)作于2023年2月17距離矩陣第17頁,課件共66頁,創(chuàng)作于2023年2月18相似系數(shù)研究樣品之間的關(guān)系,除了用距離表示外,還有相似系數(shù),顧名思義,相似系數(shù)是描寫樣品之間相似程度的一個量,常用的相似系數(shù)有:夾角余弦相關(guān)系數(shù)第18頁,課件共66頁,創(chuàng)作于2023年2月19相似系數(shù)夾角余弦—cosine盡管圖中AB和CD長度不一樣,但形狀相似。當(dāng)長度不是主要矛盾時,就可利用夾角余弦這樣的相似系數(shù)。第19頁,課件共66頁,創(chuàng)作于2023年2月20夾角余弦—cosine第20頁,課件共66頁,創(chuàng)作于2023年2月21相似矩陣第21頁,課件共66頁,創(chuàng)作于2023年2月22相關(guān)系數(shù)第22頁,課件共66頁,創(chuàng)作于2023年2月23相關(guān)系數(shù)矩陣把兩兩樣品的相關(guān)系數(shù)都計算出來,可形成樣品相關(guān)系數(shù)矩陣。第23頁,課件共66頁,創(chuàng)作于2023年2月24第24頁,課件共66頁,創(chuàng)作于2023年2月25聚類分析內(nèi)容系統(tǒng)聚類法有序樣品聚類法動態(tài)聚類法模糊聚類法圖論聚類法聚類預(yù)報法等。本章主要介紹常用的系統(tǒng)聚類法。第25頁,課件共66頁,創(chuàng)作于2023年2月26系統(tǒng)聚類法第26頁,課件共66頁,創(chuàng)作于2023年2月27系統(tǒng)聚類法的基本思想先將每個研究對象(樣品或指標(biāo))各自看成一類。然后根據(jù)對象間的相似度量,將h類中最相似的兩類合并,組成一個新類,這樣得到h-1類,再在這h-1類中找出最相似的兩類合并,得到h-2類,如此下去,直至將所有的對象并成一個大類為止。當(dāng)然,真的合并成一個類就失去了聚類的意義,所以上面的聚類過程應(yīng)該在某個類水平數(shù)(即未合并的類數(shù))停下來,最終的類就取這些未合并的類。決定聚類個數(shù)是一個很復(fù)雜的問題。第27頁,課件共66頁,創(chuàng)作于2023年2月28系統(tǒng)聚類法的步驟可選擇適當(dāng)?shù)木嚯x,計算距離把每個樣品看成一類,構(gòu)造n個類合并最近的兩類為一新類計算新類與當(dāng)前各類的距離判斷畫聚類圖根據(jù)實際情況,確定類和類的個數(shù)僅有一個類不是僅有一個類采用系統(tǒng)聚類法第28頁,課件共66頁,創(chuàng)作于2023年2月29系統(tǒng)聚類法正如樣品之間的距離可以有不同的定義方法一樣,類與類之間的距離也有各種定義。例如可以定義類與類之間的距離為兩類之間最近樣品的距離,或者定義為兩類之間最遠樣品的距離,也可以定義為兩類重心之間的距離等等。類與類之間用不同的方法定義距離,就產(chǎn)生了不同的系統(tǒng)聚類方法。第29頁,課件共66頁,創(chuàng)作于2023年2月30八種系統(tǒng)聚類方法最短距離法最長距離法中間距離法重心法類平均法可變類平均法可變法離差平方和法系統(tǒng)聚類分析盡管方法很多,但歸類的步驟基本上是一樣的,所不同的僅是類與類之間的距離有不同的定義方法,從而得到不同的計算距離的公式。這些公式在形式上不大一樣,但最后可將它們統(tǒng)一為一個公式,對上機計算帶來很大的方便。第30頁,課件共66頁,創(chuàng)作于2023年2月31系統(tǒng)聚類法最短距離法——NearestNeighborG1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6G3G4G5G6G3G4G501.5053.5075.520第31頁,課件共66頁,創(chuàng)作于2023年2月32系統(tǒng)聚類法最長距離法——FurthestNeighborG1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6G3G4G5G6G3G4G502.5063.5085.520第32頁,課件共66頁,創(chuàng)作于2023年2月系統(tǒng)聚類法-中間法33第33頁,課件共66頁,創(chuàng)作于2023年2月系統(tǒng)聚類法-中間法34G1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6

G3G4G5G6G3G4G501.7505.50

3.507.25

5.52第34頁,課件共66頁,創(chuàng)作于2023年2月35系統(tǒng)聚類法重心法——CentroidClustering重心法定義兩類之間的距離就是兩類重心的距離。設(shè)的重心(即該類樣品的均值)分別是(注意一般他們是p維向量),則

之間的距離是計算公式為:

具體計算過程見參考書2p78-79。第35頁,課件共66頁,創(chuàng)作于2023年2月36系統(tǒng)聚類法類平均法——Between-groupsLinkage重心法雖有很好的代表性,但并未充分利用個樣品的信息,因此給出類平均法,它定義兩類之間的距離平方為這兩類元素兩兩之間距離平方的平均,即:設(shè)聚類到某一步將第36頁,課件共66頁,創(chuàng)作于2023年2月37系統(tǒng)聚類法離差平方和法——Word’sMethodWord’s法的基本思想是來自于方差分析,如果分類正確,同類樣品的離差平方和應(yīng)當(dāng)較小,類與類的離差平方和應(yīng)當(dāng)較大。具體方法:先將n個樣品各自成一類,然后每次縮小一類;每縮小一類離差平方和就要增大,選擇使離差平方和增加最小的兩類合并,直到所有的樣品歸為一類為止。第37頁,課件共66頁,創(chuàng)作于2023年2月38系統(tǒng)聚類法

中樣品的離差平方和為:第38頁,課件共66頁,創(chuàng)作于2023年2月39系統(tǒng)聚類法如有五個樣品:1,2,3.5,7,9第一步:將五個樣品各自分成一類,顯然這時的類內(nèi)離差平方和S=0;第二步:將一切可能的任意兩樣品合并,計算所增加的離差平方和:如第39頁,課件共66頁,創(chuàng)作于2023年2月40G1G2G3G4G5G1G2G3G4G500.503.1251.12301812.56.12503224.512.12520此外,還有類內(nèi)平均法等。第40頁,課件共66頁,創(chuàng)作于2023年2月41SPSS中的聚類分析與過程第41頁,課件共66頁,創(chuàng)作于2023年2月42例9.1飲料數(shù)據(jù)(drink.sav)16種飲料的熱量、咖啡因、鈉及價格四種變量

第42頁,課件共66頁,創(chuàng)作于2023年2月43SPSS中的聚類分析Spss中的聚類功能常用的有兩種:快速聚類(迭代過程):

K-MeansCluster分層聚類:Hierarchical第43頁,課件共66頁,創(chuàng)作于2023年2月44HierarchicalCluster聚類分層聚類由兩種方法:分解法和凝聚法。分層聚類的功能:即可進行樣品的聚類,也可進行變量的聚類。分層聚類的原理:即我們前面介紹過的系統(tǒng)聚類方法的原理和過程。第44頁,課件共66頁,創(chuàng)作于2023年2月45HierarchicalCluster聚類分層聚類的中要進行以下的選擇:數(shù)據(jù)的標(biāo)準(zhǔn)化測度方法的選擇:距離方法的選擇或相似性、關(guān)聯(lián)程度的選擇。聚類方法的選擇:即以什么方法聚類,spss中提供了7中方法可進行選擇。輸出圖形的選擇:樹形圖或冰柱圖。第45頁,課件共66頁,創(chuàng)作于2023年2月46第46頁,課件共66頁,創(chuàng)作于2023年2月47歐氏平方距離、類平均法聚類快速聚類法聚類第47頁,課件共66頁,創(chuàng)作于2023年2月48歐氏平方距離、最短距離法聚類歐氏平方距離、最長距離法聚類第48頁,課件共66頁,創(chuàng)作于2023年2月49歐氏平方距離、重心法聚類歐氏平方距離、Word’s法聚類第49頁,課件共66頁,創(chuàng)作于2023年2月50聚類分析在市場細(xì)分中的應(yīng)用

要對消費者購物的態(tài)度進行分類,在前期研究的基礎(chǔ)上,確定6個態(tài)度變量。每個消費者要對有關(guān)購物態(tài)度的6個觀點進行評價:1表示非常不同意,7表示非常同意。V1——購物很有趣V2——購物不利于我的預(yù)算V3——購物總是與上飯店吃飯聯(lián)系在一起V4——購物時我盡量買的最好V5——我對購物不感興趣V6——購物時多比較價格可以節(jié)省很多錢(SPSS文件:購物態(tài)度聚類分析)第50頁,課件共66頁,創(chuàng)作于2023年2月511類:1、3、6、7、8、12、15、172類:2、5、9、11、13、203類:4、10、14、16、18、19第51頁,課件共66頁,創(chuàng)作于2023年2月52

第1類消費者對于V1和V3的評價相對較高,而對V5評價較低,因此可以稱其為“熱情的消費者”。

V1——購物很有趣V3——購物總是與上飯店吃飯聯(lián)系在一起V5——我對購物不感興趣第52頁,課件共66頁,創(chuàng)作于2023年2月53

第2類消費者正好與第1類相反,對于V1和V3的評價相對較低,而對V5評價較高,因此可以稱其為“冷淡的消費者”。V1——購物很有趣V3——購物總是與上飯店吃飯聯(lián)系在一起V5——我對購物不感興趣第53頁,課件共66頁,創(chuàng)作于2023年2月54

第3類消費者對于V2、V4和V6的評價相對較高,因此可以稱其為“經(jīng)濟型消費者”。V2——購物不利于我的預(yù)算V4——購物時我盡量買的最好V6——購物時多比較價格可以節(jié)省很多錢第54頁,課件共66頁,創(chuàng)作于2023年2月55K-MeansMethods-快速聚類第55頁,課件共66頁,創(chuàng)作于2023年2月56K-MeansMethods第56頁,課件共66頁,創(chuàng)作于2023年2月57K-MeansMethods第57頁,課件共66頁,創(chuàng)作于2023年2月58K-MeansCluster原理首先,選擇n個數(shù)值型變量參與聚類分析,最后要求的聚類數(shù)為k個;其次,由系統(tǒng)選擇k個(聚類的類數(shù))觀測量(也可由用戶指定)作為聚類的種子。第三,按照距離這些類中心的距離最小的原則把所有觀測量(樣品)分派到各類重心所在的類中去。第四,這樣每類中可能由若干個樣品,計算每個類中各個變量的均值,以此作為第二次迭代的中心;第五,然后根據(jù)這個中心重復(fù)第三、第四步,直到中心的迭代標(biāo)準(zhǔn)達到要求時,聚類過程結(jié)束。第58頁,課件共66頁,創(chuàng)作于2023年2月59K-MeansCluster聚類過程由Analyze——Classify

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論