聚類分析簡介原理與應用.ppt_第1頁
聚類分析簡介原理與應用.ppt_第2頁
聚類分析簡介原理與應用.ppt_第3頁
聚類分析簡介原理與應用.ppt_第4頁
聚類分析簡介原理與應用.ppt_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、聚類分析,陳龍珍,聚類分析,聚類分析導論Q型聚類統(tǒng)計距離R型聚類統(tǒng)計相似系數(shù)系統(tǒng)聚類動態(tài)聚類K-均值聚類其他,聚類分析的定義,聚類分析是一種多元統(tǒng)計方法,研究如何根據(jù)多方面的特點對對象(樣本或變量)進行綜合分類,即根據(jù)物以類聚的原則將相似的樣本(或變量)歸為一類。聚類和分類的區(qū)別是什么?無監(jiān)督學習不同于分類識別。在聚類之前,我們不知道有多少個組和什么樣的組將被劃分,我們也不知道根據(jù)哪個空間分化規(guī)則來定義組。業(yè)務聚類分析用于發(fā)現(xiàn)不同的客戶群,并通過購買模式來表征不同的客戶群。聚類分析是市場細分的有效工具,也可以用來研究消費者行為,發(fā)現(xiàn)新的潛在市場,選擇實驗市場,并作為多元分析的預處理。主要使用聚

2、類分析。生物聚類分析用于對動植物和基因進行分類,從而了解種群的內(nèi)在結(jié)構(gòu)。Q型聚類統(tǒng)計和R型聚類統(tǒng)計具有容量為N的樣本觀測數(shù)據(jù),觀測矩陣為:樣本、變量、Q型聚類和R型聚類。變量之間的聚類是R型聚類分析。相似系數(shù)通常用來衡量變量之間的接近程度。樣本之間的聚類是Q-聚類分析,距離通常用來衡量樣本之間的接近程度。Q型聚類統(tǒng)計距離,由閔可夫斯基距離度量的閔可夫斯基距離,設(shè)和為I和J樣本的觀測值,則它們之間的距離為:當,絕對距離,當,歐氏距離,當,切比雪夫距離,記住,切比雪夫距離證明,Q型聚類統(tǒng)計距離,棋盤上兩個位置之間的切比雪夫距離。由于王粲過去在斜前方或斜后方移動一個網(wǎng)格,他可以更有效地到達目的地網(wǎng)格

3、。上圖顯示了切比雪夫從棋盤上所有位置到f6的距離。統(tǒng)計距離和明斯特距離在Q型聚類中有兩個缺點:明斯特距離的值與每個指標的維數(shù)有關(guān),明斯特距離的定義沒有考慮每個變量的相關(guān)性和重要性。明的距離平等地對待所有變量,并且簡單地合成每個變量上兩個樣本的離差。朗距離、馬哈拉諾比斯距離、Q型聚類統(tǒng)計距離,是印度著名統(tǒng)計學家馬哈拉諾比斯定義的一種距離,其計算公式為:分別表示第ith樣本和第jth樣本的P指數(shù)觀測值組成的列向量,即樣本數(shù)據(jù)矩陣中第ith和第jth行向量的換位,表示觀測變量之間的短協(xié)方差矩陣。在實踐中,如果總體協(xié)方差矩陣未知,則樣本協(xié)方差矩陣可以用作估計值而不是計算值。R型聚類統(tǒng)計相似系數(shù),相似系

4、數(shù),設(shè)和為第一個和第二個樣本的觀測值,則它們之間的相似度為33,360。r型聚類統(tǒng)計包括夾角余弦,夾角余弦,夾角余弦是一個相似系數(shù),它從向量集的角度度量變量之間的貼近度。向量位于N維空間,問題,歐氏距離和余弦相似性之間的差異,以及問題,這些都適用于不同的數(shù)據(jù)分析模型,歐氏距離能夠反映個體數(shù)值特征的絕對差異,因此它更適用于需要從數(shù)值大小上反映維度差異的分析。例如,使用用戶行為指標來分析用戶值相似性或差異余弦相似性更能從方向上區(qū)分差異,但對絕對值不敏感。它更多的是利用用戶的內(nèi)容分數(shù)來區(qū)分用戶興趣的相似性和差異性,同時,它糾正了用戶之間度量標準可能不一致的問題(因為余弦相似性對絕對值不敏感),以及Q

5、型聚類和R型聚類的區(qū)別當存在許多具有強相關(guān)性的變量時,使用這種聚類。目的是將性質(zhì)相似的變量聚類到同一個類中,找出有代表性的變量,從而減少變量的數(shù)量,達到降維的效果。系統(tǒng)聚類:從一個點作為一個單獨的聚類開始,每一步合并兩個最近的聚類。這需要定義集群的鄰近性(類之間的距離)的概念。分割:從包含所有點的簇開始,每個步驟分割一個簇,直到剩下一個單點簇。在這種情況下,我們需要確定我在每個步驟中拆分了哪個集群,以及如何拆分它。系統(tǒng)聚類法,最短距離法,設(shè)置兩個類,分別包含n1和n2個樣本點,系統(tǒng)聚類法,如果某一步聚類將被合并到一個新的類中,即新類與其他類之間距離的遞推公式為,系統(tǒng)聚類法,最長距離法,設(shè)置兩個

6、類,分別包含n1和n2個樣本點,系統(tǒng)聚類法, 如果將某一步聚類合并成一個新類,即新類與其他類之間距離的遞推公式是:系統(tǒng)聚類法,重心法,重心距離:兩類的中心分別是,那么,系統(tǒng)聚類法,類平均法,遞推公式:推導:系統(tǒng)聚類法,離差平方和,假設(shè)N個樣本分為K類,G1,G2,Gk,Xit是Gt中的第一個樣本,nt是Gt中的樣本數(shù), 系統(tǒng)聚類法,遞歸公式,以及由上述各種類間距離定義的遞歸公式可以統(tǒng)一為以下公式:系統(tǒng)聚類,書:175頁的例子,確定系統(tǒng)聚類類的數(shù)量,給定閾值:通過觀察聚類圖給出合適的閾值T。要求類之間的距離不應超過t值。例如,假設(shè)T=0.3,當聚類時,類之間的距離已經(jīng)超過0.3,則聚類結(jié)束。系統(tǒng)

7、聚類半偏相關(guān),半偏相關(guān)統(tǒng)計,其中t是數(shù)據(jù)總偏差的平方和,也是組內(nèi)偏差的平方和。相對較大,表明當一個類被劃分為g類時,該類內(nèi)的偏差平方和相對較小,也就是說,劃分為g類是合適的。然而,分類越多,每個類別內(nèi)的偏差平方和越小越大。因此,我們只能取適當?shù)腉來使它足夠大,而G本身是很小的,并且隨著G的增加,這種增加并不大。例如,如果它被分成4類,=0.8;當下一次合并被分成三類時,它下降很多,=0.32,所以分成四類是合適的。系統(tǒng)聚類半偏相關(guān)、系統(tǒng)聚類偽f統(tǒng)計、偽f統(tǒng)計和偽f統(tǒng)計被用來評估聚類到G類的效果。如果聚類效果好,類間離差平方和大于類內(nèi)離差平方和,因此應采用偽F統(tǒng)計量較大、類數(shù)較少的聚類級別。其中

8、t是數(shù)據(jù)的總偏差平方和、類內(nèi)偏差平方和以及系統(tǒng)聚類的偽f統(tǒng)計量。偽統(tǒng)計量被定義為類內(nèi)偏差平方和,它是將k和l合并成第m類偏差平方和=-,所導致的類內(nèi)偏差平方和的增量。用它來評價合并K類和L類的效果,偽統(tǒng)計表明這兩個類不應該合并,而應該取合并前的水平。系統(tǒng)聚類偽統(tǒng)計量、系統(tǒng)聚類CCC統(tǒng)計量、三次聚類準則,其中v是方差穩(wěn)定化變換,一般取為,一般通過維數(shù)空間的均勻分布得到。通常,選擇對應于之后的第一個局部最大點的分類編號。系統(tǒng)聚類的CCC統(tǒng)計量,以及系統(tǒng)聚類方法的基本性質(zhì)。在聚類分析過程中,聚類距離為l k(k分別=1、2、3)。如果滿足,則聚類方法是單調(diào)的。除了重心法和中間距離法,所有其他系統(tǒng)聚類

9、方法都滿足單調(diào)性條件。單調(diào)性,系統(tǒng)聚類方法的基本性質(zhì),空間豐富性和多樣性d(短)d(平),d(重)d(平);d(長)d(平);方法比較,類平均法適中,系統(tǒng)聚類有限。一旦樣本被分配到某個類別,它們就不會改變。這就要求分類方法要準確。當樣本數(shù)n較大時,系統(tǒng)聚類方法的計算量很大,不便于應用。動態(tài)聚類解決的問題是:如果有一個樣本點,就要把它們分成類,這樣每個類中的元素就聚集在一起,類之間就可以很好的區(qū)分。動態(tài)聚類用于大數(shù)據(jù)。動態(tài)聚類步驟,動態(tài)聚類凝聚點選擇,經(jīng)驗選擇,如果你對問題有一定的了解,你可以對所有樣本進行粗略分類,在每一類中選擇一個有代表性的樣本作為聚類點,將所有樣本隨機分成K類,計算每一類的

10、均值,將這些均值作為凝聚點并采用最大和最小的原則,假設(shè)樣本最終被分成K類, 首先選擇距離所有樣本最遠的兩個樣本作為凝聚點,即選擇、制作、動態(tài)聚類K-均值聚類、動態(tài)聚類K-均值聚類不足、凝聚點選擇不當、動態(tài)聚類K-均值聚類不足、不同聚類、動態(tài)聚類K-均值聚類不足、離群點、其他分區(qū)聚類算法、其他基于密度的聚類算法、其他層次聚類算法、其他基于網(wǎng)格的聚類算法、基于統(tǒng)計的聚類算法:r軟件和聚類分析。 在r軟件中,dist()函數(shù)給出各種距離的計算結(jié)果,它的使用格式是x是由樣本(樣本按行輸入)或數(shù)據(jù)幀組成的數(shù)據(jù)矩陣。方法表示計算距離的方法,缺省值為歐幾里德距離,距離,-恩克萊登,-最大,-曼哈頓,-堪培拉,-閔可夫斯基,例1,例2,測量了305名女中學生的8個體型指標,相應的相關(guān)矩陣如下表所示,相關(guān)系數(shù)視為相似系數(shù)。系統(tǒng)分析采用最大距離法,距離定義為:d=1-r。例3采用K均值法(kmeans()函數(shù))對31個消費水平進行聚類,參考文獻,1吳米西亞,劉春玲。多元統(tǒng)計分析。北京

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論