應(yīng)用多元分析聚類分析newnew_第1頁(yè)
應(yīng)用多元分析聚類分析newnew_第2頁(yè)
應(yīng)用多元分析聚類分析newnew_第3頁(yè)
應(yīng)用多元分析聚類分析newnew_第4頁(yè)
應(yīng)用多元分析聚類分析newnew_第5頁(yè)
已閱讀5頁(yè),還剩163頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

應(yīng)用多元分析聚類分析newnew第1頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月第六章聚類分析第2頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月系統(tǒng)聚類分析直觀,易懂??焖倬垲惪焖?,動(dòng)態(tài)。有序聚類保序(時(shí)間順序或大小順序)。第3頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

例對(duì)10位應(yīng)聘者做智能檢驗(yàn)。3項(xiàng)指標(biāo)X,Y和Z分別表示數(shù)學(xué)推理能力,空間想象能力和語(yǔ)言理解能力。其得分如下,選擇合適的統(tǒng)計(jì)方法對(duì)應(yīng)聘者進(jìn)行分類。應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424§6.1引言第4頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月第5頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月第6頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

我們直觀地來(lái)看,這個(gè)分類是否合理?計(jì)算4號(hào)和6號(hào)得分的離差平方和:

(21-20)2+(23-23)2+(22-22)2=1

計(jì)算1號(hào)和2號(hào)得分的離差平方和:

(28-18)2+(29-23)2+(28-18)2=236

計(jì)算1號(hào)和3號(hào)得分的離差平方和為482,由此可見一般,分類可能是合理的,歐氏距離很大的應(yīng)聘者沒(méi)有被聚在一起。由此,我們的問(wèn)題是如何來(lái)選擇樣品間相似的測(cè)度指標(biāo),如何將有相似性的類連接起來(lái)?第7頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

聚類分析根據(jù)一批樣品的許多觀測(cè)指標(biāo),按照一定的數(shù)學(xué)公式具體地計(jì)算一些樣品或一些參數(shù)(指標(biāo))的相似程度,把相似的樣品或指標(biāo)歸為一類,把不相似的歸為一類。例如對(duì)上市公司的經(jīng)營(yíng)業(yè)績(jī)進(jìn)行分類;據(jù)經(jīng)濟(jì)信息和市場(chǎng)行情,客觀地對(duì)不同商品、不同用戶及時(shí)地進(jìn)行分類。又例如當(dāng)我們對(duì)企業(yè)的經(jīng)濟(jì)效益進(jìn)行評(píng)價(jià)時(shí),建立了一個(gè)由多個(gè)指標(biāo)組成的指標(biāo)體系,由于信息的重疊,一些指標(biāo)之間存在很強(qiáng)的相關(guān)性,所以需要將相似的指標(biāo)聚為一類,從而達(dá)到簡(jiǎn)化指標(biāo)體系的目的。第8頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

思考:樣本點(diǎn)之間按什么刻畫相似程度思考:樣本點(diǎn)和小類之間按什么刻畫相似程度思考:小類與小類之間按什么來(lái)刻畫相似程度第9頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

變量測(cè)量尺度的類型為了將樣本進(jìn)行分類,就需要研究樣品之間的關(guān)系;而為了將變量進(jìn)行分類,就需要研究變量之間的關(guān)系。但無(wú)論是樣品之間的關(guān)系,還是變量之間的關(guān)系,都是用變量來(lái)描述的,變量的類型不同,描述方法也就不同。通常,變量按照測(cè)量它們的尺度不同,可以分為三類。

(1)間隔尺度。指標(biāo)度量時(shí)用數(shù)量來(lái)表示,其數(shù)值由測(cè)量或計(jì)數(shù)、統(tǒng)計(jì)得到,如長(zhǎng)度、重量、收入、支出等。一般來(lái)說(shuō),計(jì)數(shù)得到的數(shù)量是離散數(shù)量,測(cè)量得到的數(shù)量是連續(xù)數(shù)量。在間隔尺度中如果存在絕對(duì)零點(diǎn),又稱比例尺度。§2距離和相似系數(shù)第10頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

(2)有序尺度。指標(biāo)度量時(shí)沒(méi)有明確的數(shù)量表示,只有次序關(guān)系,或雖用數(shù)量表示,但相鄰兩數(shù)值之間的差距并不相等,它只表示一個(gè)有序狀態(tài)序列。如評(píng)價(jià)酒的味道,分成好、中、次三等,三等有次序關(guān)系,但沒(méi)有數(shù)量表示。

(3)名義尺度。指標(biāo)度量時(shí)既沒(méi)有數(shù)量表示也沒(méi)有次序關(guān)系,只有一些特性狀態(tài),如眼睛的顏色,化學(xué)中催化劑的種類等。在名義尺度中只取兩種特性狀態(tài)的變量是很重要的,如電路的開和關(guān),天氣的有雨和無(wú)雨,人口性別的男和女,醫(yī)療診斷中的“十”和“一”,市場(chǎng)交易中的買和賣等都是此類變量。第11頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月二、數(shù)據(jù)的變換處理

所謂數(shù)據(jù)變換,就是將原始數(shù)據(jù)矩陣中的每個(gè)元素,按照某種特定的運(yùn)算把它變成為一個(gè)新值,而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。

1、中心化變換中心化變換是一種坐標(biāo)軸平移處理方法,它是先求出每個(gè)變量的樣本平均值,再?gòu)脑紨?shù)據(jù)中減去該變量的均值,就得到中心化變換后的數(shù)據(jù)。設(shè)原始觀測(cè)數(shù)據(jù)矩陣為:第12頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

中心化變換的結(jié)果是使每列數(shù)據(jù)之和均為0,即每個(gè)變量的均值為0,而且每列數(shù)據(jù)的平方和是該列變量樣本方差的(n—1)倍,任何不同兩列數(shù)據(jù)之交叉乘積是這兩列變量樣本協(xié)方差的(n—1)倍,所以這是一種很方便地計(jì)算方差與協(xié)方差的變換。第13頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

2、極差規(guī)格化變換規(guī)格化變換是從數(shù)據(jù)矩陣的每一個(gè)變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每個(gè)變量的每個(gè)原始數(shù)據(jù)中減去該變量中的最小值,再除以極差,就得到規(guī)格化數(shù)據(jù)。即有:第14頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

經(jīng)過(guò)標(biāo)準(zhǔn)化變換處理后,每個(gè)變量即數(shù)據(jù)矩陣中每列數(shù)據(jù)的平均值為0,方差為1,且也不再具有量綱,同樣也便于不同變量之間的比較。變換后,數(shù)據(jù)短陣中任何兩列數(shù)據(jù)乘積之和是兩個(gè)變量相關(guān)系數(shù)的(n-1)倍,所以這是一種很方便地計(jì)算相關(guān)矩陣的變換。4.對(duì)數(shù)變換對(duì)數(shù)變換是將各個(gè)原始數(shù)據(jù)取對(duì)數(shù),將原始數(shù)據(jù)的對(duì)數(shù)值作為變換后的新值。即:第15頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

三、樣品間親疏程度的測(cè)度

研究樣品或變量的親疏程度的數(shù)量指標(biāo)有兩種,一種叫相似系數(shù),性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無(wú)關(guān)的變量或樣品它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類;另一種叫距離,它是將每一個(gè)樣品看作p維空間的一個(gè)點(diǎn),并用某種度量測(cè)量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)屬于不同的類。第16頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

變量之間的聚類即R型聚類分析,常用相似系數(shù)來(lái)測(cè)度變量之間的親疏程度。而樣品之間的聚類即Q型聚類分析,則常用距離來(lái)測(cè)度樣品之間的親疏程度。

注:變量聚類放到因子分析后面第17頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月一、距離

定義距離要求滿足第i個(gè)和第j個(gè)樣品之間的距離如下四個(gè)條件(距離可以自己定義,只要滿足距離的條件)第18頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月常用距離

設(shè)和是第i和j個(gè)樣品的觀測(cè)值,則二者之間的距離為:明氏距離1明氏距離第19頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

明考夫斯基距離主要有以下兩個(gè)缺點(diǎn):①明氏距離的值與各指標(biāo)的量綱有關(guān),而各指標(biāo)計(jì)量單位的選擇有一定的人為性和隨意性,各變量計(jì)量單位的不同不僅使此距離的實(shí)際意義難以說(shuō)清,而且,任何一個(gè)變量計(jì)量單位的改變都會(huì)使此距離的數(shù)值改變從而使該距離的數(shù)值依賴于各變量計(jì)量單位的選擇。②明氏距離的定義沒(méi)有考慮各個(gè)變量之間的相關(guān)性和重要性。實(shí)際上,明考夫斯基距離是把各個(gè)變量都同等看待,將兩個(gè)樣品在各個(gè)變量上的離差簡(jiǎn)單地進(jìn)行了綜合。第20頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月標(biāo)準(zhǔn)化變換標(biāo)準(zhǔn)化變換是對(duì)變量的數(shù)值和量綱進(jìn)行變換的一種數(shù)據(jù)處理方法。首先對(duì)每個(gè)變量進(jìn)行中心化變換,然后用該變量的標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化。即有:第21頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月2蘭氏(LaceWilliams)距離這是蘭思和維廉姆斯(Lance&Williams)所給定的一種距離,其計(jì)算公式為:

這是一個(gè)自身標(biāo)準(zhǔn)化的量,由于它對(duì)大的奇異值不敏感,這樣使得它特別適合于高度偏倚的數(shù)據(jù)。雖然這個(gè)距離有助于克服明氏距離的第一個(gè)缺點(diǎn),但它也沒(méi)有考慮指標(biāo)之間的相關(guān)性。第22頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

3

馬氏距離

這是印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(P.C.Mahalanobis)所定義的一種距離,其計(jì)算公式為:

分別表示第i個(gè)樣品和第j樣品的p指標(biāo)觀測(cè)值所組成的列向量,即樣本數(shù)據(jù)矩陣中第i個(gè)和第j個(gè)行向量的轉(zhuǎn)置,表示觀測(cè)變量之間的協(xié)方差短陣。在實(shí)踐應(yīng)用中,若總體協(xié)方差矩陣未知,則可用樣本協(xié)方差矩陣作為估計(jì)代替計(jì)算。第23頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

馬氏距離又稱為廣義歐氏距離。顯然,馬氏距離與上述各種距離的主要不同就是馬氏距離考慮了觀測(cè)變量之間的相關(guān)性。如果假定各變量之間相互獨(dú)立,即觀測(cè)變量的協(xié)方差矩陣是對(duì)角矩陣,則馬氏距離就退化為用各個(gè)觀測(cè)指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)進(jìn)行加權(quán)的歐氏距離。因此,馬氏距離不僅考慮了觀測(cè)變量之間的相關(guān)性,而且也考慮到了各個(gè)觀測(cè)指標(biāo)取值的差異程度,為了對(duì)馬氏距離和歐氏距離進(jìn)行一下比較,以便更清楚地看清二者的區(qū)別和聯(lián)系,現(xiàn)考慮一個(gè)例子。第24頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月例如,假設(shè)有一個(gè)二維正態(tài)總體,它的分布為:

第25頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

4斜交空間距離

由于各變量之間往往存在著不同的相關(guān)關(guān)系,用正交空間的距離來(lái)計(jì)算樣本間的距離易變形,所以可以采用斜交空間距離。

當(dāng)各變量之間不相關(guān)時(shí),斜交空間退化為歐氏距離。第26頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

二、相似系數(shù)

設(shè)和是第和個(gè)樣品的觀測(cè)值,則二者之間的相似系數(shù)應(yīng)滿足:第27頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

1、夾角余弦

夾角余弦時(shí)從向量集合的角度所定義的一種測(cè)度變量之間親疏程度的相似系數(shù)。設(shè)在n維空間的向量2、相關(guān)系數(shù)

第28頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月距離和相似系數(shù)選擇的原則一般說(shuō)來(lái),同一批數(shù)據(jù)采用不同的親疏測(cè)度指標(biāo),會(huì)得到不同的分類結(jié)果。產(chǎn)生不同結(jié)果的原因,主要是由于不同的親疏測(cè)度指標(biāo)所衡量的親疏程度的實(shí)際意義不同,也就是說(shuō),不同的親疏測(cè)度指標(biāo)代表了不同意義上的親疏程度。因此我們?cè)谶M(jìn)行聚類分析時(shí),應(yīng)注意親疏測(cè)度指標(biāo)的選擇。通常,選擇親疏測(cè)度指標(biāo)時(shí),應(yīng)注意遵循的基本原則主要有:第29頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月(1)所選擇的親疏測(cè)度指標(biāo)在實(shí)際應(yīng)用中應(yīng)有明確的意義。如在經(jīng)濟(jì)變量分析中,常用相關(guān)系數(shù)表示經(jīng)濟(jì)變量之間的親疏程度。第30頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月(2)親疏測(cè)度指標(biāo)的選擇要綜合考慮已對(duì)樣本觀測(cè)數(shù)據(jù)實(shí)施了的變換方法和將要采用的聚類分析方法。如在標(biāo)準(zhǔn)化變換之下,夾角余弦實(shí)際上就是相關(guān)系數(shù);又如若在進(jìn)行聚類分析之前已經(jīng)對(duì)變量的相關(guān)性作了處理,則通常就可采用歐氏距離,而不必選用斜交空間距離。此外,所選擇的親疏測(cè)度指標(biāo),還須和所選用的聚類分析方法一致。如聚類方法若選用離差平方和法,則距離只能選用歐氏距離。第31頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

(3)適當(dāng)?shù)乜紤]計(jì)算工作量的大小。如對(duì)大樣本的聚類問(wèn)題,不適宜選擇斜交空間距離,因采用該距離處理時(shí),計(jì)算工作量太大。樣品間或變量間親疏測(cè)度指標(biāo)的選擇是一個(gè)比較復(fù)雜且?guī)е饕?guī)性的問(wèn)題,我們應(yīng)根據(jù)研究對(duì)象的特點(diǎn)作具體分折,以選擇出合適的親疏測(cè)度指標(biāo)。實(shí)踐中,在開始進(jìn)行聚類分析時(shí),不妨試探性地多選擇幾個(gè)親疏測(cè)度指標(biāo),分別進(jìn)行聚類,然后對(duì)聚類分析的結(jié)果進(jìn)行對(duì)比分析,以確定出合適的親疏測(cè)度指標(biāo)。第32頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月0…┇┇┇┇0…0…

至此,我們已經(jīng)可以根據(jù)所選擇的距離構(gòu)成樣本點(diǎn)間的距離表,樣本點(diǎn)之間被連接起來(lái)。第33頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月樣本數(shù)據(jù)與小類、小類與小類之間的度量1、最短距離(NearestNeighbor)x21?x12?x22?x11?第34頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月2、最長(zhǎng)距離(FurthestNeighbor

)???x11?x21????第35頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月??????3、類平均距離(Between-groupLinkage)第36頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月1、組內(nèi)平均連接法(Within-groupLinkage)x21?x12?x22?x11?第37頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月重心法(Centroidclustering):均值點(diǎn)的距離??第38頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月離差平方和法連接2,41,56,5第39頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月紅綠(2,4,6,5)8.75

離差平方和增加8.75-2.5=6.25

黃綠(6,5,1,5)14.75離差平方和增加14.75-8.5=6.25黃紅(2,4,1,5)10-10=0故按該方法的連接和黃紅首先連接。第40頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月計(jì)劃學(xué)時(shí):4學(xué)時(shí)教學(xué)課型:理論課教學(xué)目的與要求:掌握系統(tǒng)聚類法的基本原理,幾種常見系統(tǒng)聚類法教學(xué)重點(diǎn):系統(tǒng)聚類分析的基本原理,幾種常見系統(tǒng)聚類法教學(xué)難點(diǎn):系統(tǒng)聚類分析的基本原理,幾種常見系統(tǒng)聚類法的應(yīng)用教學(xué)方法、手段與媒介:根據(jù)教材用多媒體課件課堂講授作業(yè):P2311-5教學(xué)過(guò)程與內(nèi)容:第41頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月§6.3系統(tǒng)聚類法1、根據(jù)樣品的特征,規(guī)定樣品之間的距離,共有個(gè)。將所有列表,記為D(0)表,該表是一張對(duì)稱表。所有的樣本點(diǎn)各自為一類。(一)步驟

開始各樣本自成一類,根據(jù)樣品的特征,規(guī)定樣品之間的距離和類與類間的距離,將距離最近的兩類合并為一個(gè)新類,計(jì)算新類與其他類的距離,重新合并距離最近的兩個(gè)類,每次減少一個(gè)類,直到所有的樣本被合并為一個(gè)類.第42頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月3、利用遞推公式計(jì)算新類與其它類之間的距離。分別刪除D(0)表的第p,q行和第p,q列,并新增一行和一列添上的結(jié)果,產(chǎn)生D(1)表。2、選擇D(0)表中最小的非零數(shù),不妨假設(shè)為,于是將和合并為一類,記為:第43頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月4、在D(1)表再選擇最小的非零數(shù),其對(duì)應(yīng)的兩類有構(gòu)成新類,再利用遞推公式計(jì)算新類與其它類之間的距離。分別刪除D(1)表的相應(yīng)的行和列,并新增一行和一列添上的新類和舊類之間的距離。結(jié)果,產(chǎn)生D(2)表。類推直至所有的樣本點(diǎn)歸為一類為止。第44頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月(二)常用的種類

1、最短距離法

步驟:(1)規(guī)定樣品間的距離,計(jì)算n個(gè)樣品間的距離矩陣D(0);

(3)計(jì)算新類與任一類之間距離的遞推公式為(2)選擇D(0)中最小元素,設(shè)為,則將和合并成一個(gè)新類,記為,即;第45頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月在中,和所在的行和列合并成一個(gè)新行新列,對(duì)應(yīng),該行列上的新距離值由(6.3.2)求得,其余行列上的距離值不變,得到新的距離陣,記作。(4)對(duì)重復(fù)上述對(duì)的兩步得,如此下去直至所有元素合并成一類為止.

注如果某一步中最小元素不止一個(gè),則稱此現(xiàn)象為結(jié),對(duì)應(yīng)這些最小元素的類可以任選一對(duì)合并或同時(shí)合并。第46頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

例6.3.1

設(shè)抽取五個(gè)樣品,每個(gè)樣品只有一個(gè)指標(biāo),它們是1,2,6,8,11。用最短距離法對(duì)5個(gè)樣品進(jìn)行分類。首先采用絕對(duì)距離計(jì)算距離矩陣:

0

10

540

7620

109530(1)求出距離陣第47頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

0

40

620

9530(2)中

,和被聚為新類,得.

第48頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月039040(3)中的最小元素是,合并為,計(jì)算與其它類間的距離得.第49頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月040(4)中的最小元素是,合并為,計(jì)算與其它類間的距離得.

(5)將合并為,所有5個(gè)樣品合并為一類.第50頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月各步聚類的結(jié)果:(1,2)(3)(4)(5)(1,2)(3,4)(5)(1,2)(3,4,5)(1,2,3,4,5)第51頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=sinnonorm;Proctreehorizontal;Run;第52頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

TheSASSystem00:25Wednesday,November10,20061TheCLUSTERProcedureSingleLinkageClusterAnalysisEigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulative117.30000001.00001.0000Root-Mean-SquareTotal-SampleStandardDeviation=4.159327MeanDistanceBetweenObservations=5.2ClusterHistoryNormTMiniNCL--ClustersJoined---FREQDiste4OB1OB220.19233OB3OB420.38462CL3OB530.57691CL4CL250.7692第53頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月第54頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月最長(zhǎng)距離法的遞推公式

假設(shè)第K類和第L類合并成第類,第M類與其它各舊類的距離按最長(zhǎng)距離法為:2、最長(zhǎng)距離法第55頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

用最長(zhǎng)距離法對(duì)5個(gè)樣品進(jìn)行分類。首先采用絕對(duì)距離計(jì)算距離矩陣:

0

10

540

7620

109530第56頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

0

50

720

10530(2)中

,和被聚為新類,得.

第57頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月0510050(3)中的最小元素是,合并為,計(jì)算與其它類間的距離得.第58頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月(4)中的最小元素是,合并為,計(jì)算與其它類間的距離得.0100

(5)將合并為,所有5個(gè)樣品合并為一類.第59頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=complete;Proctreehorizontal;Run;第60頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月TheSASSystem00:25Wednesday,November10,20062TheCLUSTERProcedureCompleteLinkageClusterAnalysisEigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulative117.30000001.00001.0000Root-Mean-SquareTotal-SampleStandardDeviation=4.159327MeanDistanceBetweenObservations=5.2ClusterHistoryNormTMaxiNCL--ClustersJoined---FREQDiste4OB1OB220.19233OB3OB420.38462CL3OB530.96151CL4CL251.9231第61頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月第62頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月例6.3.2

對(duì)305名女中學(xué)生測(cè)量八個(gè)體型指標(biāo):相關(guān)矩陣列于表6.3.5.用相關(guān)系數(shù)度量各對(duì)變量間的相似性。用最長(zhǎng)距離法進(jìn)行聚類。第63頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月表6.3.5各對(duì)變量間的相關(guān)系數(shù)1.0000.8461.0000.8050.8811.0000.8590.8260.8011.0000.4730.3760.3800.4361.0000.3980.3260.3190.3290.7621.0000.3010.2770.2370.3270.7300.5831.0000.3820.4150.3450.3650.6290.5770.5391.000第64頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月1.0000.8461.0000.8050.8811.0000.8590.8260.8011.0000.4730.3760.3800.4361.0000.3980.3260.3190.3290.7621.0000.3010.2770.2370.3270.7300.5831.0000.3820.4150.3450.3650.6290.5770.5391.000第65頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月1.0000.8051.0000.3010.2370.3270.7300.5831.0000.8590.8011.0000.4730.37604361.0000.3980.3190.3290.7621.0000.3820.3450.3650.6290.5770.5391.000第66頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月0.3650.3450.6290.5770.5391.0001.0000.8011.0000.3010.2370.7300.5831.0000.4360.3761.0000.3290.3190.7621.000第67頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月1.0000.2370.7300.5831.0000.3761.0000.3190.7621.0000.3450.6290.5770.5391.000第68頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月1.0000.2370.5831.0000.3191.0000.3450.5770.5391.000第69頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月0.3450.5391.0001.0000.2371.000第70頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月1.0000.2371.000第71頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月Dataexample632(type=distance);Arrayx(8)x1-x8;Inputv$x1-x8;Doi=1to8;x(i)=1-x(i);End;DropI;cards;X11.0000.8460.8050.8590.4730.3980.3010.382X20.8461.000......X30.8050.8811.000.....X40.8590.8260.8011.000....X50.4730.3760.3800.4361.000...X60.3980.3260.3190.3290.7621.000..X70.3010.2770.2370.3270.7300.5831.000.X80.3820.4150.3450.3650.6290.5770.5391.000;Procprintdata=example632;第72頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月Procclusterdata=example632method=com;varx1-x8;Idv;Proctreehorizontal;Idv;Run;第73頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月第74頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月3、中間距離法最長(zhǎng)距離最短距離中間距離第75頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月中間距離法的遞推公式第76頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

用中間距離法對(duì)5個(gè)樣品進(jìn)行分類。首先采用絕對(duì)距離計(jì)算距離平方矩陣:

0

10

6.252.250

362512.250

644930.2540

第77頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月第78頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

0

40

30.2512.250

56.2530.2540第79頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月四、類平均法

類平均法定義類間的距離是兩類間樣品的距離的平均數(shù)。對(duì)應(yīng)我們前面討論的組間類平均法的遞推公式

假設(shè)第K類和第L類合并成第類,第M類與其它各舊類的距離按最短距離法為:第80頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月第81頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月遞推公式:可變類平均法類間距離的另一定義第82頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月例6.3.1續(xù)

0

10

25160

493640

100812590

第83頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

0

20.50

42.540

90.52590第84頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

0

31.50

90.5170

第85頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月051.170第86頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=average;Proctreehorizontal;Run;第87頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月第88頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

分別為GK和GL的重心,類與類之間的距離定義為兩個(gè)類重心(類內(nèi)樣品平均值)間的平方距離。重心法,也稱為樣品的均值法。設(shè)GK和GL

為兩個(gè)類五、重心法第89頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月遞推公式:重心法在處理異常值方面比其他系統(tǒng)聚類法更穩(wěn)健第90頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

類似于方差分析的想法,如果類分得恰當(dāng),同類內(nèi)的樣品之間的離差平方和應(yīng)較小,而類間的離差平方和應(yīng)當(dāng)較大。

離差平方和法的思路是,當(dāng)k固定時(shí),選擇使S達(dá)到最小的分類。先讓n個(gè)樣品各自成一類,然后縮小一類,每縮小一類離差平方和就要增大,選擇使S2增加最小的兩類合并,直到所有的樣品歸為一類為止。離差平方和法定義類間的平方距離為六、離差平方和法第91頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月類內(nèi)離差平方和:類中各樣品到類重心(均值)的平方歐氏距離之和.

設(shè)類和合并成新類,則和的類內(nèi)離差平方和分別為:

第92頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

間的平方距離為:第93頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月00.512.524.550081840.5212.54.5000第94頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月013.528.1760.1701212.54.500第95頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月030.2560.17010.670第96頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月056.030第97頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月G1={1}G2={2}G4={8}G5={11}G3={6}G5G8G7G6D02648圖6.3.6離差平方和法樹形圖第98頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=wnonormnosquare;Proctreehorizontal;Run;第99頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月例6.3.3表6.3.14列出了1999年全國(guó)31個(gè)省、市和自治區(qū)的城鎮(zhèn)居民家庭平均每人全年消費(fèi)性支出的八個(gè)主要變量數(shù)據(jù).這八個(gè)變量為:第100頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月表6.3.14消費(fèi)性支出數(shù)據(jù)北京2959.19730.79749.41513.34467.871141.82478.42457.642459.77495.47697.33302.87284.19735.97570.84305.081495.63515.90362.37285.32272.95540.58364.91188.631406.33477.77290.15208.57201.50414.72281.84212.101303.97524.29254.83192.17249.81463.09287.87192.961730.84553.90246.91279.81239.18445.20330.24163.861561.86492.42200.49218.36220.69459.62360.48147.761410.11510.71211.88277.11224.65376.82317.61152.853712.31550.74893.37346.93527.001034.98720.33462.032207.58449.37572.40211.92302.09585.23429.77252.542629.16557.32689.73435.69514.66795.87575.76323.36天津河北山西內(nèi)蒙古遼寧吉林黑龍江上海江蘇浙江第101頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月安徽1844.78430.29271.28126.33250.56513.18314.00151.392709.46428.11334.12160.77405.14461.67535.13232.291563.78303.65233.81107.90209.70393.99509.39160.121675.75613.32550.71219.79272.59599.43371.62211.841427.65431.79288.55208.14217.00337.76421.31165.321783.43511.88282.84201.01237.60617.74523.52182.521942.23512.27401.39206.06321.29697.22492.60226.453055.17353.23564.56356.27811.88873.061082.82420.812033.87300.82338.65157.78329.06621.74587.02218.272057.86186.44202.72171.79329.65477.17312.93279.192303.29589.99516.21236.55403.92730.05438.41225.801974.28507.76344.97203.21240.24575.10430.36223.46福建江西山東河南湖北湖南廣東廣西海南重慶四川第102頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月貴州1673.82437.75461.61153.32254.66445.59346.11191.482194.25537.01369.07249.54290.84561.91407.70330.952646.61839.70204.44209.11379.30371.04269.59389.331472.95390.89447.95259.51230.61490.90469.10191.341525.57472.98328.90219.86206.65449.69249.66228.191654.69437.77258.78303.00244.93479.53288.56236.511375.46480.89273.84317.32251.08424.75228.73195.931608.82536.05432.46235.82250.28541.30344.85214.40云南西藏陜西甘肅青海寧夏新疆第103頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月dataexample633;inputregion$x1-x8;cards;

bj2959.19730.79749.41513.34467.871141.82478.42457.64tj2459.77495.47697.33302.87284.19735.97570.84305.08hb1495.63515.90362.37285.32272.95540.58364.91188.63sx1406.33477.77290.15208.57201.50414.72281.84212.10nmg1303.97524.29254.83192.17249.81463.09287.87192.96ln1730.84553.90246.91279.81239.18445.20330.24163.86jl1561.86492.42200.49218.36220.69459.62360.48147.76hlj1410.11510.71211.88277.11224.65376.82317.61152.85sh3712.31550.74893.37346.93527.001034.98720.33462.03js2207.58449.37572.40211.92302.09585.23429.77252.54zj2629.16557.32689.73435.69514.66795.87575.76323.36ah1844.78430.29271.28126.33250.56513.18314.00151.39fj2709.46428.11334.12160.77405.14461.67535.13232.29jx1563.78303.65233.81107.90209.70393.99509.39160.12sd1675.75613.32550.71219.79272.59599.43371.62211.84hn1427.65431.79288.55208.14217.00337.76421.31165.32hub1783.43511.88282.84201.01237.60617.74523.52182.52hun1942.23512.27401.39206.06321.29697.22492.60226.45gd3055.17353.23564.56356.27811.88873.061082.82420.81gx2033.87300.82338.65157.78329.06621.74587.02218.27hin2057.86186.44202.72171.79329.65477.17312.93279.19cq2303.29589.99516.21236.55403.92730.05438.41225.80sc1974.28507.76344.97203.21240.24575.10430.36223.46gz1673.82437.75461.61153.32254.66445.59346.11191.48yn2194.25537.01369.07249.54290.84561.91407.70330.95xz2646.61839.70204.44209.11379.30371.04269.59389.33shx1472.95390.89447.95259.51230.61490.90469.10191.34gs1525.57472.98328.90219.86206.65449.69249.66228.19qh1654.69437.77258.78303.00244.93479.53288.56236.51nx1375.46480.89273.84317.32251.08424.75228.73195.93xj1608.82536.05432.46235.82250.28541.30344.85214.40;run;

第104頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月procclusterdata=example633method=sinstdpesudo;idregion;proctreehorizontal;idregion;procclusterdata=example633method=censtdpesudo;idregion;proctreehorizontal;idregion;procclusterdata=example633method=wstdpesudo;idregion;proctreehorizontal;idregion;run;第105頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月

根據(jù)信息基礎(chǔ)設(shè)施的發(fā)展?fàn)顩r,對(duì)世界20個(gè)國(guó)家和地區(qū)進(jìn)行分類。這里選取了發(fā)達(dá)國(guó)家,新興工業(yè)化國(guó)家、拉美國(guó)家、亞洲開發(fā)國(guó)家、轉(zhuǎn)型國(guó)家等不同類型的20個(gè)國(guó)家的資料:

call-每千人擁有的電話線數(shù);

callmove—每千戶居民擁有的蜂窩移動(dòng)電話數(shù)

fee—高峰時(shí)期每三分鐘國(guó)際電話成本

computer—每千人擁有的計(jì)算機(jī)(每秒百萬(wàn)指令)

mips—每千人中的計(jì)算機(jī)功率(每秒百萬(wàn)指令)

net-每千人互聯(lián)網(wǎng)戶主數(shù)第106頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月datainfor;inputcountry$callmovefeecompmipsnet;cards;meiguo631.6161.90.364032607335.34riben498.4143.23.57176102236.26deguo557.670.60284ruidian684.1281.81.42461666029.39ruishi64493.51.982341362122.68xinjiapo498.4147.52.52841357813.49taiwan469.456.13.6811969111.72hanguo434.5733.369957951.66baxi81.916.33.02198760.52zhili138.68.201.43114111.28moxige92.29.82.613117510.35eluosi174.955.122411010.48bolan1696.53.684017961.45xiongyali262.249.42.666830673.09malaixiya195.588.44.195327341.25taiguo78.627.84.952216620.11yindu13.60.306.2821010.01faguo559.142.91.27201117024.76yingguo521.10122.50.982481446111.91;第107頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月procclusterdata=informethod=singlepseudostandardouttree=c;varcallmovefeecompmipsnet;idcountry;proctreegraphicshorizontal;第108頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月datab;setc;where_ncl_<=15;run;procsortdata=b;by_ncl_;procgplotdata=b;plot_psf_*_ncl__pst2_*_ncl__sprsq_*_ncl__rsq_*_ncl_;run;第109頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月其中method=single選項(xiàng)指出用最短距離法聚類。除此之外在SAS中可供選擇的方法還有:最長(zhǎng)距離法complete)類平均法(average)最小方差法(ward)重心法(centroid)離差平方和法(ward)中間距離法(median)可變類平均法flexible)outtree=b選項(xiàng)要求生成一個(gè)輸出數(shù)據(jù)集,用于畫樹狀圖的proctree可使用該數(shù)據(jù),可省略。Id語(yǔ)句指出聚類時(shí)的標(biāo)識(shí)變量,如果缺省,系統(tǒng)采用obn個(gè)案序號(hào)作為觀測(cè)的標(biāo)識(shí)。第110頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月pseudo選項(xiàng)要求計(jì)算偽F統(tǒng)計(jì)量和偽Std選項(xiàng)要求對(duì)數(shù)據(jù)進(jìn)行零均值及方差為1的標(biāo)準(zhǔn)化處理proctree是畫樹狀譜系圖的過(guò)程步,它是使用CLUSTER

過(guò)程的輸出數(shù)據(jù)來(lái)畫譜系圖。graphics指定畫譜系圖時(shí)使用高分辨率圖形。horizontal指定畫譜系圖時(shí)用水平橫畫。制聚類之前的數(shù)據(jù)處理,主要有noonrm—防止將數(shù)據(jù)規(guī)范化為單位均值和單位均方;standard—將變量進(jìn)行標(biāo)準(zhǔn)化,均值為零,標(biāo)準(zhǔn)差為1。統(tǒng)計(jì)量。第111頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月第112頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月計(jì)劃學(xué)時(shí):4學(xué)時(shí)教學(xué)課型:理論課教學(xué)目的與要求:掌握系統(tǒng)聚類法類數(shù)的選擇,系統(tǒng)聚類法的性質(zhì)教學(xué)重點(diǎn):系統(tǒng)聚類類數(shù)的選擇教學(xué)難點(diǎn):系統(tǒng)聚類類數(shù)的選擇原理,系統(tǒng)聚類法的性質(zhì)教學(xué)方法、手段與媒介:根據(jù)教材用多媒體課件課堂講授作業(yè):教學(xué)過(guò)程與內(nèi)容:第113頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月七、系統(tǒng)聚類法的統(tǒng)一統(tǒng)一距離的定義第114頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月系統(tǒng)聚類法的參數(shù)表方法最短距離法0最長(zhǎng)距離法0中間距離法0可變法0類平均法00可變類平均法0重心法0離差平房和0第115頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月系統(tǒng)聚類法的性質(zhì)1、單調(diào)性:

最短距離法、最長(zhǎng)距離法、可變法、類平均法、可變類平均法、離差平方和法具有單調(diào)性。2、空間的濃縮與擴(kuò)張

設(shè)有兩種系統(tǒng)聚類法,第i步的距離陣分別為A、B,若AB,則稱前一方法比后一方法擴(kuò)張,后一方法比前一方法濃縮。第116頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月(3)當(dāng)時(shí),D(變平)D(平);

時(shí),D(變平)D(平).

(1)D(短)D(平),D(重)D(平).(2)D(長(zhǎng))D(平).

第117頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月八、確定類的個(gè)數(shù)

在聚類分析過(guò)程中類的個(gè)數(shù)如何來(lái)確定才合適呢?這是一個(gè)十分困難的問(wèn)題,人們至今仍未找到令人滿意的方法。但是這個(gè)問(wèn)題又是不可回避的。下面我們介紹幾種方法。

1、給定閾值T

通過(guò)觀測(cè)聚類圖,給出一個(gè)合適的閾值T。要求類與類之間的距離不要超過(guò)T值。例如我們給定T=0.35,當(dāng)聚類時(shí),類間的距離已經(jīng)超過(guò)了0.35,則聚類結(jié)束。第118頁(yè),課件共168頁(yè),創(chuàng)作于2023年2月2、觀察樣本的散點(diǎn)圖3、使用統(tǒng)計(jì)量(1)統(tǒng)計(jì)量樣品總數(shù)n聚合類數(shù)k類類的樣品數(shù)類的重心所有樣品的總重心所有樣

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論