《應(yīng)用統(tǒng)計(jì)分析》課件-第9章 聚類分析_第1頁
《應(yīng)用統(tǒng)計(jì)分析》課件-第9章 聚類分析_第2頁
《應(yīng)用統(tǒng)計(jì)分析》課件-第9章 聚類分析_第3頁
《應(yīng)用統(tǒng)計(jì)分析》課件-第9章 聚類分析_第4頁
《應(yīng)用統(tǒng)計(jì)分析》課件-第9章 聚類分析_第5頁
已閱讀5頁,還剩69頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第9章聚類分析9.1聚類分析概述9.2聚類統(tǒng)計(jì)量9.3無量綱化方法9.4Q型系統(tǒng)聚類法9.5R型系統(tǒng)聚類法9.6快速聚類法9.7SPSS操作實(shí)例12引入案例——體操裁判打分傾向聚類案例背景第32屆夏季奧林匹克運(yùn)動(dòng)會(huì),即2020年東京奧運(yùn)會(huì),是由日本奧林匹克委員會(huì)舉辦的國際性運(yùn)動(dòng)會(huì),于2021年7月23日開幕、8月8日閉幕。其中,體操賽事受到了廣泛關(guān)注。體操比賽包括自由體操、鞍馬、吊環(huán)、跳馬、雙杠、單杠、高低杠、平衡木等,由裁判根據(jù)運(yùn)動(dòng)員的動(dòng)作呈現(xiàn)進(jìn)行打分。此次東京奧運(yùn)會(huì)上,因裁判判罰引起的爭議不少。按照國際體操聯(lián)合會(huì)的規(guī)定,在大型比賽中,每個(gè)項(xiàng)目的裁判員人數(shù)為9人,其中裁判長1人,A組裁判員2人(2人中包括技術(shù)助理1人),B組裁判員6人。裁判長的任務(wù)是指導(dǎo)和監(jiān)督本組裁判員的評分工作。A組裁判員主要是根據(jù)運(yùn)動(dòng)員的一套動(dòng)作的難度、特殊要求和加分等計(jì)算出起評分。B組裁判員主要是對運(yùn)動(dòng)員動(dòng)作的完成情況進(jìn)行扣分。另外,裁判組還包括記錄員:如果運(yùn)動(dòng)員越過邊線,記錄員及時(shí)用信號(hào)通知裁判長,裁判長將根據(jù)規(guī)則予以扣分。3引入案例——體操裁判打分傾向聚類數(shù)據(jù)說明研究者收集了中、美、法等7個(gè)國家的裁判和未經(jīng)嚴(yán)格訓(xùn)練的體育愛好者在評判體育比賽中對選手的評分情況。所收集的數(shù)據(jù)如圖9-1所示(詳細(xì)數(shù)據(jù)見附件表格)。根據(jù)評分上的差異可以將它們聚為適當(dāng)?shù)念悺>唧w聚類方法本章將會(huì)詳細(xì)介紹。第1節(jié)聚類分析概述9.1.1起源和基本思想9.1.2數(shù)據(jù)的適用范圍45聚類分析是根據(jù)“物以類聚”的道理,對樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法。分類問題是各個(gè)領(lǐng)域普遍存在的問題,如市場營銷學(xué)中進(jìn)行市場分層、人口學(xué)中研究人口生育分類模式、醫(yī)學(xué)中對各種疾病特征進(jìn)行分析等等,這些都需要對研究對象進(jìn)行分類。聚類分析是應(yīng)用非常廣泛的分類方法,它將性質(zhì)相近的個(gè)體分為一類,使得同類中的個(gè)體具有高度同質(zhì)性,不同類中的個(gè)體具有高度異質(zhì)性。9.1.1起源和基本思想6聚類分析起源于分類學(xué),在古老的分類學(xué)中,人們主要依靠經(jīng)驗(yàn)和專業(yè)知識(shí)來實(shí)現(xiàn)分類,很少利用數(shù)學(xué)工具進(jìn)行定量的分類。隨著人類科學(xué)技術(shù)的發(fā)展,人們對分類的要求越來越高,有時(shí)僅憑經(jīng)驗(yàn)和專業(yè)知識(shí)難以確切地進(jìn)行分類,于是逐漸將數(shù)學(xué)工具引用到了分類學(xué)中,形成了數(shù)值分類學(xué);之后又將多元分析的技術(shù)引入到數(shù)值分類學(xué),形成了聚類分析。聚類分析是無先驗(yàn)信息的分類方法;第10章將要介紹的判別分析是有先驗(yàn)信息,通過訓(xùn)練樣本集合的分類方法。9.1.1起源和基本思想7聚類分析的基本思想是認(rèn)為研究的樣本或變量之間存在著不同程度的相似性,根據(jù)一批樣本的多個(gè)觀測指標(biāo),具體找出一些能夠度量樣本或指標(biāo)之間相似程度的統(tǒng)計(jì)量,以這些統(tǒng)計(jì)量為劃分類型的依據(jù),把一些相似程度較大的樣本或變量歸為一類,把另外一些彼此之間相似程度較大的樣本或變量也歸為一類,關(guān)系密切(距離較近)的歸到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)(距離較遠(yuǎn))的歸到一個(gè)大的分類單位,直到把所有的樣本或變量都聚合完畢。聚類時(shí),由于目的、要求不同,因而會(huì)產(chǎn)生各種不同的聚類方法,包括由小類合并到大類的方法、由大類分解為小類的方法、靜態(tài)聚類法、動(dòng)態(tài)聚類法、按樣本聚類(Q)和按指標(biāo)聚類(R)。9.1.2數(shù)據(jù)的適用范圍8聚類分析的研究對象是樣品或指標(biāo),對定性數(shù)據(jù)和定類數(shù)據(jù)都適用。從目前的聚類方法看,大多數(shù)的方法是當(dāng)研究對象是樣品時(shí),基于數(shù)據(jù)間的距離來分析;當(dāng)研究對象是指標(biāo)時(shí),基于相似度來進(jìn)行分析。這要求所分析的數(shù)據(jù)必須是可以測度的,必須是定量的數(shù)據(jù),這導(dǎo)致傳統(tǒng)的聚類方法無法有效地處理定性數(shù)據(jù)。對定性數(shù)據(jù)進(jìn)行聚類分析處理,可以將定性數(shù)據(jù)看作離散型數(shù)據(jù),轉(zhuǎn)換為可以測度的數(shù)據(jù)后再進(jìn)行聚類分析,具體方法見9.2.3。第2節(jié)聚類統(tǒng)計(jì)量9.2.1Q型聚類統(tǒng)計(jì)量9.2.2R型聚類統(tǒng)計(jì)量9.2.3定性數(shù)據(jù)聚類統(tǒng)計(jì)量910設(shè)有n個(gè)樣本單位,每個(gè)樣本測得p項(xiàng)指標(biāo),則原始資料矩陣為聚類分析可采用不同類型的統(tǒng)計(jì)量,通常Q型聚類以距離作為統(tǒng)計(jì)量,R型聚類以相似系數(shù)作為統(tǒng)計(jì)量。9.2.1Q型聚類統(tǒng)計(jì)量11Q型聚類通常以距離作為統(tǒng)計(jì)量。每個(gè)樣本點(diǎn)有

p個(gè)變量,因此可以將

n個(gè)樣本點(diǎn)看作

p維空間的

n個(gè)點(diǎn),那么各個(gè)樣本點(diǎn)間的接近程度可以用距離來度量。以

dij作為第

i樣本點(diǎn)與第

j樣本點(diǎn)間的距離,距離越短表示兩樣本點(diǎn)之間的相似程度越高,常見的距離指標(biāo)有以下6個(gè)。歐氏距離(EuclideanDistance)絕對距離(ManhattanDistance)明考斯基距離(MinkowskiDistance)蘭氏距離(LanceandWilliamsDistance)馬氏距離(MahalanobisDistance)切比雪夫距離(ChebychevDistance)9.2.1Q型聚類統(tǒng)計(jì)量12歐氏距離(EuclideanDistance)定義9.1歐氏距離:也稱為歐幾里得度量(EuclideanMetric),是一個(gè)通常采用的距離定義,指在m維空間中兩個(gè)點(diǎn)之間的真實(shí)距離,或者向量的自然長度(即該點(diǎn)到原點(diǎn)的距離)。在二維和三維空間中的歐氏距離就是兩點(diǎn)之間的實(shí)際距離。其計(jì)算公式為:式中,dij為樣本點(diǎn)

i和樣本點(diǎn)

j之間的距離;xjk為第

i個(gè)樣本點(diǎn)在第

k個(gè)變量上的值。歐氏距離是聚類分析中用得最廣泛的距離。9.2.1Q型聚類統(tǒng)計(jì)量132.絕對距離(ManhattanDistance)定義9.2絕對距離:也稱為曼哈頓距離(ManhattanDistance),表示兩個(gè)點(diǎn)在標(biāo)準(zhǔn)坐標(biāo)系上的絕對軸距之和。其計(jì)算公式為:絕對值距離是另一個(gè)應(yīng)用很廣泛的距離。使用時(shí)要注意的一個(gè)問題是,它假設(shè)變量之間是不相關(guān)的,如果變量之間相關(guān),則聚類結(jié)果不可信。9.2.1Q型聚類統(tǒng)計(jì)量143.明考斯基距離(MinkowskiDistance)定義9.3明考斯基距離:兩個(gè)n維變量之間的明考斯基距離為:明考斯基距離是個(gè)通用的距離測度公式,當(dāng)q=1時(shí)為絕對值距離,當(dāng)q=2時(shí)為歐氏距離。9.2.1Q型聚類統(tǒng)計(jì)量154.蘭氏距離(LanceandWilliamsDistance)定義9.4蘭氏距離:是聚類分析中用于確定樣本間距離的一種常見方法,由Lance和Williams最早提出的。這個(gè)距離克服了量綱的影響,但沒有考慮指標(biāo)間的相關(guān)性。主要用于數(shù)理統(tǒng)計(jì)多元分析中心聚類。其計(jì)算公式為:9.2.1Q型聚類統(tǒng)計(jì)量165.馬氏距離(MahalanobisDistance)定義9.5馬氏距離:是由印度統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(P·C·Mahalanobis)提出的,表示數(shù)據(jù)的協(xié)方差距離。它是一種有效的計(jì)算兩個(gè)未知樣本集的相似度的方法。其計(jì)算公式為:式中,xi、xj分別為點(diǎn)i和點(diǎn)j在各個(gè)變量上的值所組成的向量;S-1為聚類變量協(xié)方差陣的逆矩陣。和前面所定義的距離測度所不同的是,馬氏距離考慮了聚類變量之間的相關(guān)。9.2.1Q型聚類統(tǒng)計(jì)量176.切比雪夫距離(ChebychevDistance)定義9.6切比雪夫距離:是向量空間中的一種度量,兩個(gè)點(diǎn)之間的距離定義是其各坐標(biāo)數(shù)值差絕對值的最大值。其計(jì)算公式為:9.2.2R型聚類統(tǒng)計(jì)量18R型聚類統(tǒng)計(jì)量以相似系數(shù)作為統(tǒng)計(jì)量。對于p維總體,由于它是由p個(gè)變量構(gòu)成的,而且變量之間一般都存在內(nèi)在聯(lián)系,因此往往可以用相似系數(shù)來度量p個(gè)變量之間的相似刻度。相似系數(shù)的絕對值越接近于1,表示指標(biāo)間的關(guān)系越密切;絕對值越接近于0,表示指標(biāo)間的關(guān)系越疏遠(yuǎn)。9.2.2R型聚類統(tǒng)計(jì)量19常見的相似系數(shù)及其公式如下(具體應(yīng)用見9.5節(jié))夾角余弦相關(guān)系數(shù)9.2.3定性數(shù)據(jù)聚類統(tǒng)計(jì)量20定性數(shù)據(jù)也可以看作離散型數(shù)據(jù),一般用描述性術(shù)語來區(qū)分?jǐn)?shù)值,通常包括名義數(shù)據(jù)和有序數(shù)據(jù)兩大類,所對應(yīng)的變量為定類變量和定序變量。因此,定性數(shù)據(jù)間的距離是無法準(zhǔn)確地測量的,可以說,傳統(tǒng)的聚類分析方法已經(jīng)無法直接對定性數(shù)據(jù)進(jìn)行處理。在目前的一些多元統(tǒng)計(jì)教材中,給出的關(guān)于定性數(shù)據(jù)的聚類方法分為以下兩種:定類變量和定序變量。9.2.3定性數(shù)據(jù)聚類統(tǒng)計(jì)量21定類變量定義9.7定類變量:彼此互斥,但不是有序數(shù)據(jù)的變量,又稱“名義變量”。例如,可用數(shù)字來對某五種基因型進(jìn)行編碼,但順序任意,任何計(jì)算(如計(jì)算平均值)均無意義。若兩個(gè)樣品xi、xj取值相同的變量數(shù)為a,全部變量數(shù)為b,則xi、xj的相似度用簡單匹配方法度量:然后通過對相似度閾值的設(shè)定來確定樣品之間的相似程度,從而得到聚類結(jié)果。9.2.3定性數(shù)據(jù)聚類統(tǒng)計(jì)量222.定序變量定義9.8定序變量:順序重要但值之間的差異不重要的變量。例如,要求患者用1~10分的評分來表達(dá)他們感受到的疼痛程度。7分意味著疼痛程度高于5分,5分高于3分。但7分和5分之間的差別可能與5分和3分之間的差別不同。這些值只是表示一個(gè)順序。定序?qū)傩缘拿總€(gè)屬性值都代表了一種秩序,因此,不論是用數(shù)字表示的還是用文字表示的,都可以表示成數(shù)字的形式。9.2.3定性數(shù)據(jù)聚類統(tǒng)計(jì)量232.定序變量例如,一個(gè)對象的某個(gè)屬性有“大”“中”“小”3個(gè)可能的屬性值,我們可以用相應(yīng)的1、2、3來替代這種文字?jǐn)⑹?。?dāng)轉(zhuǎn)換成對應(yīng)的整數(shù)之后,為了使每個(gè)屬性都有相同的權(quán)重,將通過以下公式將每個(gè)整數(shù)型的屬性值映射到[0,1]區(qū)間上。式中,x為整數(shù)型的屬性值;m為這個(gè)屬性總共有多少種可能的屬性。因此,對于上述例子,假如現(xiàn)在一個(gè)對象這個(gè)屬性對應(yīng)的屬性值為“中”,那么做歸一化之后的屬性值即為(2-1)/(3-1)=0.5。第3節(jié)無量綱化方法在原始數(shù)據(jù)矩陣中,同一變量單位不同會(huì)導(dǎo)致不同的距離。其次,不同變量的度量不一致,無法判斷哪個(gè)變量的值更大,哪個(gè)變量更重要,也就無法判斷距離的意義了。下面通過一個(gè)具體例子說明有量綱化所帶來的問題。249.3無量綱化方法25【例9.1】假設(shè)A、B、C三個(gè)案例在受教育年限和年收入兩個(gè)變量上的值如表9-2所示。年收入可以分別用萬元和元兩種單位計(jì)量,表9-3所示為分別用這兩種單位的簡單歐氏距離。9.3無量綱化方法26【例9.1】當(dāng)以萬元為單位時(shí),A和C之間的相似性最高,其次是A和B與B和C之間的相似性最低,受教育年限變量在距離測度中起了主導(dǎo)作用。當(dāng)年收入以元為單位計(jì)量時(shí),A和C之間的相似性變成了最低,A和B與B和C之間的相似性相同,年收入的差異在相似性測度中占了絕對主導(dǎo)作用。9.3無量綱化方法27為了克服有量綱化的影響,在計(jì)算聚類統(tǒng)計(jì)量之前,一般需要對數(shù)據(jù)作無量綱化處理。所謂無量綱化處理,是將原始數(shù)據(jù)矩陣中每個(gè)元素按照某種特定的運(yùn)算把它變成一個(gè)新值,且是數(shù)值的變化不依賴于原始數(shù)據(jù)中其他數(shù)據(jù)的新值。無量綱化方法主要有以下幾種:(1)極差正規(guī)化:(2)標(biāo)準(zhǔn)化變換:9.3無量綱化方法28

第4節(jié)Q類系統(tǒng)聚類法9.4.1最短距離法9.4.2最長距離法9.4.3中間距離法9.4.4重心距離法9.4.5類平均法9.4.6離差平方和法29Q型系統(tǒng)聚類法30Q型系統(tǒng)聚類法是對樣本進(jìn)行分類處理的聚類方法。在聚類分析的開始,每個(gè)樣本自成一類;然后,按照某種方法度量所有樣本之間的親疏程度,并把最相似的樣本首先聚成一小類;接下來,度量剩余的樣本和小類間的親疏程度,并將當(dāng)前最接近的樣本或小類再聚成一類;再接下來,再度量剩余的樣本和小類間的親疏程度,并將當(dāng)前最接近的樣本或小類再聚成一類;如此反復(fù),直到所有樣本聚成一類為止。Q型系統(tǒng)聚類法31聚類的具體步驟為:(1)對數(shù)據(jù)進(jìn)行變換處理,消除量綱;(2)構(gòu)造n個(gè)類,每個(gè)類只包含一個(gè)樣本計(jì)算;(3)計(jì)算n個(gè)樣本兩兩間的距離dij;(4)合并距離最近的兩類為一新類;(5)計(jì)算新類與當(dāng)前各類的距離,重復(fù)步驟(4);(6)畫聚類圖;(7)決定類的個(gè)數(shù)和類。其中,類與類之間的距離的確定方法主要有最短距離法、最長距離法、中間距離法、重心距離法、類平均法和離差平方和法。9.4.1最短距離法32以當(dāng)前一個(gè)小類與另外的小類中的各樣本距離中的最小值作為當(dāng)前小類與該小類之間的距離,并依次選擇“最近”的類聚集的方法,稱為最短距離法。下面以一個(gè)簡單例子說明最短距離法的聚類過程?!纠?.2】為了研究遼寧省等5省區(qū)某年城鎮(zhèn)居民生活消費(fèi)的分布規(guī)律,根據(jù)調(diào)査資料做類型劃分,具體數(shù)據(jù)如表9-4所示。9.4.1最短距離法33解:同理可得:9.4.1最短距離法34解:河南與甘肅的距離最近,先將二者(3和4)合為一類G6={G3,G4},則9.4.1最短距離法35解:河南、甘肅、青海并為一新類G7={G6,G5}={G3,G4,G6},則遼寧和浙江并為一類G8

={G1,G2},則9.4.1最短距離法36解:最終,再將G7和G8合并成一個(gè)類,由此完成了整個(gè)聚類過程。相應(yīng)的譜系圖如圖9-1所示,從中可以清楚地看到整個(gè)聚類的過程。本題計(jì)算出各項(xiàng)之間的距離后選取最短距離的項(xiàng)進(jìn)行聚類,根據(jù)SPSS計(jì)算得出的圖形可知,可以根據(jù)城鎮(zhèn)居民生活消費(fèi)的分布規(guī)律將5個(gè)省區(qū)分為2類或3類,即將{河南、甘肅、青海}、{遼寧、浙江}分別聚為一類或?qū)河南、甘肅、青海}、{遼寧}、{浙江}分別聚為一類。9.4.2最長距離法37最長距離法與最短距離法的聚類方式相同,所不同的是最長距離法是以當(dāng)前一個(gè)小類與另外的小類中的各樣本距離中的最大值作為當(dāng)前小類與該小類之間的距離?!纠?.3】對例9.2的數(shù)據(jù)以最長距離法聚類。9.4.2最長距離法38解:河南與甘肅的距離最近,先將二者(3和4)合為一類G6={G3,G4},則9.4.2最長距離法39解:河南、甘肅、青海并為一新類G7={G6,G5}={G3,G4,G6},則遼寧和浙江并為一類G8

={G1,G2},則9.4.3中間距離法40類與類之間的距離如果不取兩類元素之間的最短距離,也不取最長距離,而是用兩個(gè)類的中位數(shù)間的距離作為兩類的距離,則稱為中間距離法。例如,假定在聚類的過程中兩個(gè)類Gl和Gm合并成一個(gè)新類Gr

=(Gl,Gm),那么Gr和其他任意一類Gt的距離就定義為如圖9-2所示的三角形的中線的平方。類間距離為:需要注意的是,采用中間距離法進(jìn)行聚類時(shí),一般都采用距離(歐氏距離)的平方。9.4.4重心距離法41重心距離法將兩個(gè)類之間的距離定義為兩個(gè)類的重心之間的距離。聚類過程與前面三種方法相同。例如,假定在聚類的過程中兩個(gè)類Gl和Gm合并成一個(gè)新類Gr

=(Gl,Gm),那么Gr和其他任意一類Gt的距離就定義為如圖9-3所示的距離。類間距離為:9.4.5類平均法42類平均法將兩個(gè)類之間的距離定義為這兩個(gè)類中的樣本對(兩個(gè)元素)之間的平均距離。聚類過程也與前面的幾種方法相同。類間距離它利用了所有樣本對距離的信息,對所有樣本對的距離求平均值,包括小類之間的樣本對和小類內(nèi)的樣本對。9.4.6離差平方和法43離差平方和法是使小類內(nèi)各樣本的歐氏距離總離差平方和增加最小的兩小類合并為一類。其分類的思想和方差分析的思想類似,在分類過程中,使類內(nèi)元素間的離差平方和盡可能小,而類與類之間的離差平方和盡可能大。將q固定時(shí),要選擇使S達(dá)到極小的分類,一切可能的分法有:9.4.6離差平方和法44先將n個(gè)樣本各成一類,然后每次縮小一類,每縮小一類離差平方和就增大,選擇使離差平方和S增加最小的兩類合并,直至所有樣本歸為一類為止。類間距離為:第5節(jié)R型系統(tǒng)聚類法9.5.1最小系數(shù)法9.5.2最大系數(shù)法9.5.3中間系數(shù)法45R型系統(tǒng)聚類法的步驟與Q型系統(tǒng)聚類法的步驟相似,R型聚類方法以相似系數(shù)作為聚類統(tǒng)計(jì)量,按照相似系數(shù)的取值方法不同分為最小系數(shù)法、最大系數(shù)法和中間系數(shù)法三種方法。9.5.1最小系數(shù)法46計(jì)算相似系數(shù),形成相似系數(shù)矩陣,在相似系數(shù)矩陣中,將非對角線元素的最大者合并;計(jì)算新類與其他類之間的距離,計(jì)算時(shí)將新并類的兩類與其他類的相似系數(shù)的最小者作為新類和其他類的相似系數(shù),即,這就是最小系數(shù)法。【例9.4】為對某地區(qū)經(jīng)濟(jì)效益進(jìn)行綜合評價(jià),調(diào)査了該地區(qū)25個(gè)單位的6項(xiàng)指標(biāo),通過計(jì)算它們的樣本相關(guān)系數(shù)矩陣為:用最小系數(shù)法對這6個(gè)指標(biāo)進(jìn)行聚類。9.5.1最小系數(shù)法47解:第一,因?yàn)镃(0)中非對角線元素的最大者為0.9802,所以將G2與G3并為新類G7,用最小系數(shù)法計(jì)算G7與其他類的相關(guān)系數(shù),得C(1):第二,因?yàn)镃(1)中非對角線最大元素為0.7579,所以將G7與G1并為新類G8,用最小系數(shù)法計(jì)算G8與其他類的相關(guān)系數(shù),得C(2):9.5.1最小系數(shù)法48解:第三,因?yàn)镃(2)中非對角線最大元素為0.6802,所以將G5與G6并為新類G9,用最小系數(shù)法計(jì)算G9與其他類的相關(guān)系數(shù),得C(3):9.5.1最小系數(shù)法49解:第四,因?yàn)镃(3)中非對角線最大元素為0.3930,所以將G8與G9并為新類G10,用最小系數(shù)法計(jì)算G10與其他類的相關(guān)系數(shù),得C(4):最后將G4與G10聚為一類。整個(gè)聚類的過程如圖9-4所示。9.5.1最小系數(shù)法50根據(jù)相關(guān)系數(shù)的矩陣選取最小系數(shù)進(jìn)行聚類,根據(jù)SPSS計(jì)算所得的聚類圖可知,可以根據(jù)實(shí)際需求將這6項(xiàng)指標(biāo)聚為3類或2類。即將{X1,X2,X3},{X5,X6},{X4}各聚為一類或?qū)X1,X2,X3,X5,X6},{X4}各聚為一類。9.5.2最大系數(shù)法51最大系數(shù)法是把新并類的兩類與其他類的相似系數(shù)的最大者作為新類與其他類的相似系數(shù)。即。

【例9.5】已知5個(gè)變量的樣本相似系數(shù)矩陣為:用最大系數(shù)法對這5個(gè)指標(biāo)進(jìn)行聚類。9.5.2最大系數(shù)法52解:第一,因?yàn)镃(0)中最大的元素為0.72,所以將G2與G4并為新類G6,用最大系數(shù)法計(jì)算G6與其他類的相關(guān)系數(shù),得C(1):第二,因?yàn)镃(1)中最大的元素為0.62,所以將G1與G6并為新類G7,用最大系數(shù)法計(jì)算G7與其他類的相關(guān)系數(shù),得C(2):9.5.2最大系數(shù)法53解:第三,因?yàn)镃(2)中最大的元素為0.57,所以將G5與G7并為新類G8,用最大系數(shù)法計(jì)算G8與其他類的相關(guān)系數(shù),得C(3):9.5.2最大系數(shù)法54解:最后將G3和G8聚為一類,整個(gè)聚類的過程如圖9-5所示。根據(jù)相關(guān)系數(shù)的矩陣選取最大系數(shù)進(jìn)行聚類,根據(jù)SPSS計(jì)算所得的聚類圖可知,可以根據(jù)實(shí)際需求將這5項(xiàng)指標(biāo)聚為3類或2類。即將{X1,X2,X4},{X5},{X3}各聚為一類或?qū)X1,X2,X4,X5},{X3}各聚為一類。9.5.3中間系數(shù)法55中間系數(shù)法是把新并類的兩類與其他類的相似系數(shù)加權(quán)平均得到新并類和其他的類相似系數(shù),即。

【例9.6】對例9.5用中間系數(shù)法進(jìn)行聚類。9.5.3中間系數(shù)法56解:第一,因?yàn)镃(0)中最大的元素為0.72,所以將G2與G4并為新類G6,用平均系數(shù)法計(jì)算G6與其他類的相關(guān)系數(shù),得C(1):9.5.3中間系數(shù)法57解:第二,因?yàn)镃(1)中最大的元素為0.57,所以將G1與G5并為新類G7,用平均系數(shù)法計(jì)算G7與其他類的相關(guān)系數(shù),得C(2):9.5.3中間系數(shù)法58解:第三,因?yàn)镃(2)中最大的元素為0.315,所以將G6與G7并為新類G8,用平均系數(shù)法計(jì)算G8與其他類的相關(guān)系數(shù),得C(3):9.5.3中間系數(shù)法59解:最后將G3和G8聚為一類,整個(gè)聚類的過程如圖9-6所示。根據(jù)相關(guān)系數(shù)的矩陣選取中間系數(shù)進(jìn)行聚類,根據(jù)SPSS計(jì)算所得的聚類圖可知,此題使用中間系數(shù)法的結(jié)果與最大系數(shù)法的結(jié)果有所不同??梢愿鶕?jù)實(shí)際需求將這5項(xiàng)指標(biāo)聚為3類或2類。即將{X1,X5},{X2,X4},{X3}各聚為一類或?qū)X1,X2,X4,X5},{X3}各聚為一類。小結(jié)60在R型聚類分析的三種方法中,相似系數(shù)的取值不同:最小系數(shù)法,最大系數(shù)法,中間系數(shù)法。因此,對于同一組數(shù)據(jù)而言,使用不同的R型聚類方法將會(huì)得到不同的矩陣,最終會(huì)產(chǎn)生不同的聚類。第6節(jié)快速聚類法9.6.1凝聚點(diǎn)選擇9.6.2快速聚類的步驟6162當(dāng)變量復(fù)雜和數(shù)據(jù)量大時(shí),系統(tǒng)聚類法的聚類速度較慢。此時(shí),若使用快速聚類法,不僅可快速處理大數(shù)據(jù),還能夠解決數(shù)據(jù)量大或復(fù)雜時(shí)系統(tǒng)聚類法無法聚類的問題??焖倬垲惙ǖ幕舅枷胧?,當(dāng)樣本容量較大時(shí),選擇一批凝聚點(diǎn)或給岀一個(gè)初始的分類,讓樣品按照某種原則向凝聚點(diǎn)凝聚,對凝聚點(diǎn)進(jìn)行不斷的更新或迭代,直至分類比較合理或迭代穩(wěn)定為止??焖倬垲惙?3快速聚類法也稱為K型聚類法。大多數(shù)情況下需要聚類的數(shù)據(jù)較多,系統(tǒng)聚類法較為復(fù)雜,因此使用K型聚類法將數(shù)據(jù)聚為有限的K類。如果選擇了N個(gè)數(shù)值型變量參與聚類分析,最后要求聚類數(shù)為K,那么可以由系統(tǒng)首先選擇K個(gè)觀測量作為聚類的種子,也稱初始類中心、凝聚點(diǎn),按照距這幾個(gè)類中心的距離最小原則把觀測量分到各類中心所在的類中去,形成第一次迭代形成的K類。根據(jù)組成每一類的觀測量計(jì)算各變量均值,每一類中的n個(gè)均值在N

維空間中又形成K個(gè)點(diǎn),這就是第二次迭代的類中心。按照這種方法依次迭代下去直到分類比較合理為止??焖倬垲惙?.6.1凝聚點(diǎn)選擇64(1)經(jīng)驗(yàn)選擇。(2)對樣本人為分類或隨機(jī)分類,以每類的重心作為凝聚點(diǎn)。(3)最小最大距離法。①

先選擇兩個(gè)距離最大的點(diǎn),即

。②

再選擇第3個(gè)點(diǎn)xi3,滿足③

一般設(shè)已選l個(gè)點(diǎn),則

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論