第四章-聚類(lèi)分析-《應(yīng)用多元統(tǒng)計(jì)分析》-課件_第1頁(yè)
第四章-聚類(lèi)分析-《應(yīng)用多元統(tǒng)計(jì)分析》-課件_第2頁(yè)
第四章-聚類(lèi)分析-《應(yīng)用多元統(tǒng)計(jì)分析》-課件_第3頁(yè)
第四章-聚類(lèi)分析-《應(yīng)用多元統(tǒng)計(jì)分析》-課件_第4頁(yè)
第四章-聚類(lèi)分析-《應(yīng)用多元統(tǒng)計(jì)分析》-課件_第5頁(yè)
已閱讀5頁(yè),還剩40頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1一、聚類(lèi)分析的定義

聚類(lèi)分析是將樣品或變量進(jìn)行分類(lèi)的多元統(tǒng)計(jì)分析方法。其功能是建立一種分類(lèi)方法,它將一批樣品或變量,按照它們?cè)谛再|(zhì)上的親疏、相似程度進(jìn)行分類(lèi)。2二、聚類(lèi)分析的分類(lèi)按照分組的方法論基礎(chǔ)不同系統(tǒng)聚類(lèi)法動(dòng)態(tài)聚類(lèi)模糊聚類(lèi)圖論聚類(lèi)……按照分析對(duì)象不同R型聚類(lèi)Q型聚類(lèi)3符號(hào)說(shuō)明:對(duì)于n個(gè)樣品,每個(gè)樣品有p個(gè)變量,則觀測(cè)數(shù)據(jù)矩陣為其中,為第個(gè)樣品在第個(gè)變量上的觀測(cè)數(shù)據(jù)值;第個(gè)樣品觀測(cè)值由觀測(cè)數(shù)據(jù)矩陣的第行描述,第個(gè)變量觀測(cè)值由矩陣的第列描述。第二節(jié)樣品或變量親疏程度的測(cè)定4一、變量類(lèi)型與數(shù)據(jù)變換原始數(shù)據(jù)可能受量綱和數(shù)量級(jí)的影響。不同量綱、不同數(shù)量級(jí)的數(shù)據(jù)放在一起比較,聚類(lèi)效果可能受到影響。在聚類(lèi)分析處理過(guò)程中,有時(shí)需要先對(duì)原始數(shù)據(jù)矩陣進(jìn)行變換處理:中心化變換標(biāo)準(zhǔn)化變換規(guī)格化變換對(duì)數(shù)變換5二、多維空間的距離對(duì)樣品進(jìn)行分類(lèi)時(shí),通常采用距離來(lái)表示樣品之間的親疏程度。因此,需定義樣品之間的距離,即第個(gè)樣品與第個(gè)樣品之間的距離,記為。所定義的距離須滿足:正定性對(duì)稱(chēng)性三角不等式6二、多維空間的距離對(duì)于定量數(shù)據(jù)資料,常用的距離有:明氏距離蘭氏距離馬氏距離斜交空間距離

7二、多維空間的距離明氏距離第個(gè)樣品與第個(gè)樣品之間的明氏距離公式為

這里q為某一自然數(shù),由明氏距離可以得到幾個(gè)最常用、最直觀的距離:()8

當(dāng)時(shí),稱(chēng)為絕對(duì)值距離。當(dāng)時(shí),稱(chēng)為歐式距離。當(dāng)時(shí),稱(chēng)為切比雪夫距離。()()()二、多維空間的距離9蘭氏距離當(dāng)全部數(shù)據(jù)大于零,即時(shí),可以定義第個(gè)樣品與第個(gè)樣品之間的蘭氏距離為蘭氏距離是一個(gè)無(wú)量綱的量,其受極端值的影響較??;適用于具有高度偏倚的數(shù)據(jù)。()二、多維空間的距離10馬氏距離第個(gè)樣品與第個(gè)樣品之間的馬氏距離記為

其中,為樣本協(xié)差陣。馬氏距離的優(yōu)點(diǎn)是考慮到個(gè)變量之間的相關(guān)性,并且與各變量的單位無(wú)關(guān)。二、多維空間的距離11斜交空間距離定義第個(gè)樣品與第個(gè)樣品之間的斜交空間距離為其中,是變量與變量之間的相關(guān)系數(shù)。()二、多維空間的距離12三、相似系數(shù)對(duì)變量進(jìn)行聚類(lèi)分析,通常采用相似系數(shù)來(lái)表示變量之間的親疏程度。設(shè)表示變量與變量之間的相似系數(shù),則應(yīng)滿足下列條件:

(為非零常數(shù));,對(duì)一切成立;

,對(duì)一切成立。13越接近于1,則表示變量與變量之間關(guān)系越密切,越接近于0,則表示變量與變量之間關(guān)系越疏遠(yuǎn)。聚類(lèi)時(shí),關(guān)系密切的變量應(yīng)歸于同一類(lèi),關(guān)系疏遠(yuǎn)的變量歸于不同類(lèi)。常用的相似系數(shù)有夾角余弦和相關(guān)系數(shù)等。三、相似系數(shù)14夾角余弦在維空間中,變量與觀測(cè)值形成的向量與的夾角為,則夾角余弦為:

它是與兩個(gè)向量在原點(diǎn)處的夾角的余弦。三、相似系數(shù)15相關(guān)系數(shù)相關(guān)系數(shù)是數(shù)據(jù)作中心化或標(biāo)準(zhǔn)化處理后的夾角余弦,設(shè)表示變量與之間的相關(guān)系數(shù),則三、相似系數(shù)16指數(shù)相似系數(shù)設(shè)表示變量的樣本標(biāo)準(zhǔn)差,則變量與之間的指數(shù)相似系數(shù)為:指數(shù)相似系數(shù)不受變量量綱的影響。三、相似系數(shù)17相似系數(shù)的非參數(shù)方法非參數(shù)方法主要應(yīng)用于()大于零的情況,常用的相似系數(shù)有:

(1)

(2)(3)三、相似系數(shù)18四、距離以及相似系數(shù)的選擇原則在進(jìn)行數(shù)值分類(lèi)時(shí),應(yīng)注意相似性尺度的選擇,選擇的基本原則是:所選擇的相似性尺度在實(shí)際應(yīng)用中應(yīng)有明確的意義;根據(jù)原始數(shù)據(jù)的性質(zhì),選擇適當(dāng)?shù)淖儞Q方法,再根據(jù)不同的變換方法選擇不同的距離或相似系數(shù);適當(dāng)?shù)乜紤]計(jì)算量的大小。19基本思想把個(gè)樣品看成維空間(個(gè)變量)的個(gè)點(diǎn),而把每個(gè)變量看成維空間的坐標(biāo)軸,根據(jù)空間上點(diǎn)與點(diǎn)的距離來(lái)進(jìn)行分類(lèi)。

一、系統(tǒng)聚類(lèi)分析的基本思想和分析步驟20一、系統(tǒng)聚類(lèi)分析的基本思想和分析步驟基本步驟在樣品距離的基礎(chǔ)上,定義類(lèi)與類(lèi)之間的距離;將幾個(gè)樣品自成一類(lèi),然后每次將具有最小距離的兩類(lèi)合并,合并后重新計(jì)算類(lèi)與類(lèi)之間的距離;這個(gè)過(guò)程一直繼續(xù)到所有樣品歸為一類(lèi)為止。把這個(gè)過(guò)程作成一個(gè)聚類(lèi)譜系圖。21二、常用系統(tǒng)聚類(lèi)分析方法最短距離法最長(zhǎng)距離法中間距離法重心法類(lèi)平均法可變類(lèi)平均法可變法離差平方和法22二、常用系統(tǒng)聚類(lèi)分析方法最短距離法設(shè)表示樣品與之間的距離,表示類(lèi)與之間的距離。最短距離法是把兩個(gè)類(lèi)之間的距離定義為一個(gè)類(lèi)中的所有樣品與另—個(gè)類(lèi)中所有樣品之間距離中最近者。即類(lèi)與之間的距離定義為:23

(1)計(jì)算樣品之間的距離,得到n個(gè)樣品之間的距離矩陣為,這時(shí)每一個(gè)樣品自成一類(lèi),有,顯然該距離矩陣是一個(gè)對(duì)稱(chēng)矩陣。

(2)選擇非主對(duì)角線上最小元素,設(shè)為,則將對(duì)應(yīng)的兩個(gè)樣品與合并為一個(gè)新類(lèi),記為類(lèi),即?;静襟E二、常用系統(tǒng)聚類(lèi)分析方法24

(3)計(jì)算新類(lèi)與其他類(lèi)()之間的距離,并得到新的距離矩陣。其中新類(lèi)與其他類(lèi)()之間的距離為

(4)對(duì)重復(fù)進(jìn)行上述步驟,得到新的距離矩陣,對(duì)重復(fù)進(jìn)行上述步驟,得到新的距離矩陣,……,這樣一直下去,直到所有的樣品都?xì)w為一類(lèi)為止。

二、常用系統(tǒng)聚類(lèi)分析方法25最長(zhǎng)距離法最長(zhǎng)距離法與最短距離法在并類(lèi)步驟上是完全一致的,只是在定義類(lèi)與類(lèi)之間的距離是相反的,類(lèi)與類(lèi)之間的距離定義為兩類(lèi)之間所有樣品間距離最大者,即類(lèi)與之間的距離為:二、常用系統(tǒng)聚類(lèi)分析方法26中間距離法采用介于兩者之間的中間距離,即當(dāng)類(lèi)與合并為一新類(lèi)后,任一類(lèi)()與的中間距離定義為:二、常用系統(tǒng)聚類(lèi)分析方法27重心法在定義類(lèi)與類(lèi)的距離時(shí),把每一類(lèi)中所包括的樣品數(shù)目也考慮進(jìn)去,并把兩個(gè)類(lèi)重心之間的距離定義為類(lèi)與類(lèi)的距離,用這種距離分類(lèi)的方法就稱(chēng)為重心法。所謂每一類(lèi)的重心就是該類(lèi)樣品的均值。其中單個(gè)樣品的重心就是它本身,兩個(gè)樣品的類(lèi)的重心就是兩點(diǎn)連線的中點(diǎn)。二、常用系統(tǒng)聚類(lèi)分析方法28

設(shè)與合并為一新類(lèi),它們各含有、和個(gè)樣品,它們的重心分別為、和,其中

設(shè)某一類(lèi)()的重心為,與新類(lèi)的距離記為。若樣品間的采用歐氏距離,則有合并后新類(lèi)與其它類(lèi)距離平方的遞推公式為:二、常用系統(tǒng)聚類(lèi)分析方法29類(lèi)平均法不僅把每一類(lèi)中所包括的樣品數(shù)目考慮進(jìn)來(lái),而且把各樣品的信息都充分地考慮進(jìn)來(lái),把兩個(gè)類(lèi)之間的距離平方定義為兩類(lèi)元素兩兩之間距離平方的平均。二、常用系統(tǒng)聚類(lèi)分析方法30

設(shè)與合并為一新類(lèi),它們各含有、和個(gè)樣品,它與的距離定義為

二、常用系統(tǒng)聚類(lèi)分析方法31可變類(lèi)平均法將任一類(lèi)與的距離定義改為其中,是可變的,且,稱(chēng)為聚集強(qiáng)度系數(shù),隨著的取值的不同,會(huì)有不同的聚類(lèi)結(jié)果。一般的情況下,均取負(fù)值,絕對(duì)值越大,其擴(kuò)張性越強(qiáng),空間擴(kuò)張的性質(zhì)使分辨能力提高。二、常用系統(tǒng)聚類(lèi)分析方法32可變法將任一類(lèi)與的距離定義改為其中,是可變的,且,一般選取。二、常用系統(tǒng)聚類(lèi)分析方法33離差平方和法基本思想:基于方差分析的思想,如果類(lèi)分得合理,則同類(lèi)樣品之間離差平方和應(yīng)當(dāng)較小,類(lèi)與類(lèi)之間的離差平方和應(yīng)當(dāng)較大。二、常用系統(tǒng)聚類(lèi)分析方法34

設(shè)表示類(lèi)與之間的平方距離,則有其中,、、分別表示、、類(lèi)中的離差平方和。任一類(lèi)與新類(lèi)的距離遞推公式為三、系統(tǒng)聚類(lèi)分析方法的統(tǒng)一公式35三、系統(tǒng)聚類(lèi)分析方法的統(tǒng)一公式

由于上述聚類(lèi)方法的合并類(lèi)原則和步驟是完全一樣的,所不同的是類(lèi)與類(lèi)之間的距離公式有不同的定義,所以可得到不同的遞推公式。設(shè)與合并為一新類(lèi),當(dāng)采用歐氏距離時(shí),任一類(lèi)與新類(lèi)的距離為其中系數(shù)、、和對(duì)不同聚類(lèi)方法有不同的取值。36方法單調(diào)性說(shuō)明最短距離法0

單調(diào)最長(zhǎng)距離法0單調(diào)中間距離法0非單調(diào)重心法

0非單調(diào)類(lèi)平均法00單調(diào)可變法0單調(diào)可變類(lèi)平均法0單調(diào)離差平方和法

0單調(diào)37四、系統(tǒng)聚類(lèi)法的性質(zhì)及類(lèi)的確定系統(tǒng)聚類(lèi)法的性質(zhì)討論單調(diào)性空間擴(kuò)張與收縮常見(jiàn)的分類(lèi)數(shù)判斷方法適當(dāng)閾值判定數(shù)據(jù)散點(diǎn)圖直觀判斷38四、系統(tǒng)聚類(lèi)法的性質(zhì)及類(lèi)的確定畢爾曼(Bemirmen)1972年提出了一些根據(jù)譜系圖來(lái)分類(lèi)的準(zhǔn)則。準(zhǔn)則A:任何類(lèi)都必須在鄰近各類(lèi)中是突出的,即各類(lèi)重心之間距離必須很大。準(zhǔn)則B:確定的類(lèi)中,各類(lèi)所包含的元素都不要過(guò)分地多。準(zhǔn)則C:分類(lèi)的數(shù)目必須符合實(shí)用目的。準(zhǔn)則D:若采用幾種不同的聚類(lèi)方法處理,則在各自的聚類(lèi)圖中應(yīng)發(fā)現(xiàn)相同的類(lèi)。譜系分類(lèi)的確定39

一、基本思想首先按照一定的方法選取一批凝聚點(diǎn),然后讓樣品向最近的凝聚點(diǎn)靠近形成初始分類(lèi)。進(jìn)一步按最近距離的原則修改不合理的分類(lèi),直到分類(lèi)比較合理為止,這樣就形成了一個(gè)最終的分類(lèi)結(jié)果。40動(dòng)態(tài)聚類(lèi)過(guò)程圖

由圖可知,動(dòng)態(tài)聚類(lèi)過(guò)程主要有兩個(gè)方面:一是初始設(shè)定,包括凝聚點(diǎn)的選擇和初始分類(lèi)的確定;二是動(dòng)態(tài)聚類(lèi)方法,即修改初始分類(lèi),直到分類(lèi)合理。41二、選擇凝聚點(diǎn)和確定初始分類(lèi)選擇凝聚點(diǎn)凝聚點(diǎn)是一批有代表性的點(diǎn),待形成類(lèi)的中心。通常選擇凝聚點(diǎn)的方法有:憑經(jīng)驗(yàn)選擇凝聚點(diǎn);由K類(lèi)樣品的重心作為凝聚點(diǎn);用密度法選擇凝聚點(diǎn);人為規(guī)定分類(lèi)數(shù),并用前個(gè)樣品作為凝聚點(diǎn)。42初始分類(lèi)(1)人為地分類(lèi),憑經(jīng)驗(yàn)將樣品進(jìn)行初步分類(lèi);(2)選擇一批凝聚點(diǎn)以后,每個(gè)樣品按與其距離最近的凝聚點(diǎn)歸類(lèi);(3)選擇一批凝聚點(diǎn)后,每個(gè)凝聚點(diǎn)自成一類(lèi),將樣品依次歸入與其距離最近的凝聚點(diǎn)的那一類(lèi),并立即重新計(jì)算該類(lèi)的重心,以代替原來(lái)的凝聚點(diǎn),再計(jì)算下一個(gè)樣品的歸類(lèi),直至所有的樣品都劃到相應(yīng)的類(lèi)中為止;(4)用其它某種聚類(lèi)方法得到一個(gè)分類(lèi),這個(gè)分類(lèi)就可直接作為初始分類(lèi)。二、選擇凝聚點(diǎn)和確定初始分類(lèi)43(5)先將數(shù)據(jù)作標(biāo)準(zhǔn)化處理,用表示已標(biāo)準(zhǔn)化后的第i個(gè)樣品關(guān)于第j個(gè)變量的觀測(cè)值。令

如欲將全部樣品分為K類(lèi),對(duì)每一個(gè)樣品計(jì)算:

假設(shè)與這個(gè)數(shù)最接近的整數(shù)為k,則將第個(gè)樣品歸入到第k類(lèi)中去()。

二、選擇凝聚點(diǎn)和確定初始分類(lèi)44三、動(dòng)態(tài)聚類(lèi)方法按批修改法

當(dāng)樣品全部歸類(lèi)后才改變凝聚點(diǎn)?;静襟E為:選擇一批凝聚點(diǎn)(個(gè)數(shù)人為指定),并選定所用距離定義。將所有樣品按照與其距離最近的凝聚點(diǎn)歸類(lèi)。計(jì)算每一類(lèi)的重心,將重心作為新的凝聚點(diǎn),然后計(jì)算所有樣品與新凝聚點(diǎn)的距離,并將各個(gè)樣品歸入與新凝聚點(diǎn)距離最近的那一類(lèi)別。如果某一

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論