




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
聚類分析陳龍震聚類分析陳龍震聚類分析聚類分析的簡介Q型聚類統(tǒng)計量——距離R型聚類統(tǒng)計量——相似系數系統(tǒng)聚類動態(tài)聚類——k均值聚類其他聚類分析聚類分析的簡介聚類分析的定義聚類分析是研究如何研究對象(樣品或變量)按照多個方面的特征進行綜合分類的一種多元統(tǒng)計方法,它是根據物以類聚的原理將相似的樣品(或變量)歸為一類。聚類和分類有什么區(qū)別?無監(jiān)督學習與分類判別不同,進行聚類前并不知道將要劃分成幾個組和什么樣的組,也不知道根據哪些空間區(qū)分規(guī)則來定義組聚類分析的定義聚類分析是研究如何研究對象(樣品或變量)按照商業(yè)聚類分析被用來發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。聚類分析是細分市場的有效工具,同時也可用于研究消費者行為,尋找新的潛在市場、選擇實驗的市場,并作為多元分析的預處理。聚類分析——主要應用商業(yè)聚類分析——主要應用聚類分析——主要應用生物聚類分析被用來動植物分類和對基因進行分類,獲取對種群固有結構的認識聚類分析——主要應用生物Q型聚類統(tǒng)計量與R型聚類統(tǒng)計量設有容量為n的樣本觀測數據,觀測矩陣為:樣本變量Q型聚類R型聚類變量之間的聚類即R型聚類分析,常用相似系數來測度變量之間的親疏程度。樣品之間的聚類即Q型聚類分析,常用距離來測度樣品之間的親疏程度。Q型聚類統(tǒng)計量與R型聚類統(tǒng)計量設有容量為n的樣本觀測數據,觀Q型聚類統(tǒng)計量——距離明氏距離測度明考夫斯基(Minkowski)距離設
和是第i和j個樣品的觀測值,則二者之間的距離為:當
時,絕對值距離當
時,歐氏距離當
時,切比雪夫距離Q型聚類統(tǒng)計量——距離明氏距離測度明考夫斯基(Minkow記切比雪夫距離證明記切比雪夫距離證明Q型聚類統(tǒng)計量——距離國際象棋棋盤上二個位置間的切比雪夫距離是指王要從一個位子移至另一個位子需要走的步數。由于王可以往斜前或斜后方向移動一格,因此可以較有效率的到達目的的格子。上圖是棋盤上所有位置距f6位置的切比雪夫距離。Q型聚類統(tǒng)計量——距離國際象棋棋盤上二個位置間的切比雪夫距離Q型聚類統(tǒng)計量——距離明氏距離兩個缺點:明氏距離的值與各指標的量綱有關明氏距離的定義沒有考慮各個變量之間的相關性和重要性。
明氏距離是把各個變量都同等看待,將兩個樣品在各個變量上的離差簡單地進行了綜合。蘭氏距離Q型聚類統(tǒng)計量——距離明氏距離兩個缺點:蘭氏距離馬氏距離Q型聚類統(tǒng)計量——距離這是印度著名統(tǒng)計學家馬哈拉諾比斯(P.C.Mahalanobis)所定義的一種距離,其計算公式為:分別表示第i個樣品和第j樣品的p指標觀測值所組成的列向量,即樣本數據矩陣中第i個和第j個行向量的轉置,
表示觀測變量之間的協(xié)方差短陣。在實踐應用中,若總體協(xié)方差矩陣
未知,則可用樣本協(xié)方差矩陣作為估計代替計算。馬氏距離Q型聚類統(tǒng)計量——距離這是印度著名統(tǒng)計學家馬哈拉諾比R型聚類統(tǒng)計量——相似系數相似系數設和是第和個樣品的觀測值,則二者之間的相似測度為:R型聚類統(tǒng)計量——相似系數相似系數設R型聚類統(tǒng)計量——夾角余弦夾角余弦夾角余弦時從向量集合的角度所定義的一種測度變量之間親疏程度的相似系數。設在n維空間的向量R型聚類統(tǒng)計量——夾角余弦夾角余弦夾角余弦時從向量集合的角度問題馬(歐)氏距離和余弦相似度的區(qū)別問題馬(歐)氏距離和余弦相似度的區(qū)別問題適用于何種不同的數據分析模型歐氏距離能夠體現(xiàn)個體數值特征的絕對差異,所以更多的用于需要從維度的數值大小中體現(xiàn)差異的分析,如使用用戶行為指標分析用戶價值的相似度或差異余弦相似度更多的是從方向上區(qū)分差異,而對絕對的數值不敏感,更多的用于使用用戶對內容評分來區(qū)分用戶興趣的相似度和差異,同時修正了用戶間可能存在的度量標準不統(tǒng)一的問題(因為余弦相似度對絕對數值不敏感)問題適用于何種不同的數據分析模型歐氏距離能夠體現(xiàn)個體數值特征問題Q型與R型聚類區(qū)別?Q型聚類:當聚類把所有的觀測記錄(cases)進行分類時,它把性質相似的觀測分在同一個類,性質差異較大的觀測分在不同的類。R型聚類:當聚類把變量(variables)作為分類對象時。這種聚類用在變量數目比較多、且相關性比較強的情形,目的是將性質相近的變量聚類為同一個類,并從中找出代表變量,從而減少變量個數以達到降維的效果。問題Q型與R型聚類區(qū)別?Q型聚類:當聚類把所有的觀測記錄(c系統(tǒng)聚類凝聚的:從點作為個體簇開始,每一步合并兩個最接近的簇。這需要定義簇的臨近性(類間距離)的概念。分裂的:從包含所有點的某個簇開始,每一步分裂一個簇,直到剩下單點簇。在這種情況下,我們需要確定我每一步分裂那個簇,以及如何分裂。系統(tǒng)聚類凝聚的:從點作為個體簇開始,每一步合并兩個最接近的簇系統(tǒng)聚類——方法最短距離法設兩個類,分別含有n1和n2個樣本點系統(tǒng)聚類——方法最短距離法設兩個類,分別含有n系統(tǒng)聚類——方法若某步聚類將
和
合并為新類,即,新類與其他類
間的距離遞推公式為
系統(tǒng)聚類——方法若某步聚類將和合并為新系統(tǒng)聚類——方法最長距離法設兩個類,分別含有n1和n2個樣本點系統(tǒng)聚類——方法最長距離法設兩個類,分別含有n系統(tǒng)聚類——方法若某步聚類將
和
合并為新類,即,新類與其他類
間的距離遞推公式為
系統(tǒng)聚類——方法若某步聚類將和合并為新系統(tǒng)聚類——方法重心法重心距離:兩類中心分別為,則系統(tǒng)聚類——方法重心法重心距離:兩類中心分別為聚類分析簡介原理與應用ppt課件聚類分析簡介原理與應用ppt課件系統(tǒng)聚類——方法類平均法系統(tǒng)聚類——方法類平均法遞推公式:推導:遞推公式:推導:系統(tǒng)聚類——方法離差平方和設將n個樣品分成k類G1,G2,…,Gk,用Xit表示Gt中的第I個樣品,nt表示Gt中樣品的個數,是Gt的重心,則Gt的樣品離差平方和為系統(tǒng)聚類——方法離差平方和設將n個樣品分成k類G1,G2,…系統(tǒng)聚類——方法系統(tǒng)聚類——方法遞推公式上述的各種類間距離定義的遞推公式可以統(tǒng)一成如下公式遞推公式上述的各種類間距離定義的遞推公式可以統(tǒng)一成如下公式系統(tǒng)聚類書:175頁例子系統(tǒng)聚類書:175頁例子系統(tǒng)聚類——類的個數確定給定閾值:通過觀測聚類圖,給出一個合適的閾值T。要求類與類之間的距離不要超過T值。例如我們給定T=0.3,當聚類時,類間的距離已經超過了0.3,則聚類結束。系統(tǒng)聚類——類的個數確定給定閾值:通過觀測聚類圖,給出一個合系統(tǒng)聚類——半偏相關半偏相關統(tǒng)計量其中T是數據的總離差平方和,是組內離差平方和。
比較大,說明分G個類時類內的離差平方和比較小,也就是說分G類是合適的。但是,分類越多,每個類的類內的離差平方和就越小,也就越大;所以我們只能取合適的G,使得足夠大,而G本身很小,隨著G的增加,的增幅不大。比如,假定分4類時,=0.8;下一次合并分3類時,下降了許多,=0.32,則分4類是合適的。系統(tǒng)聚類——半偏相關半偏相關統(tǒng)計量其中T是數據的總離差平方和系統(tǒng)聚類——半偏相關系統(tǒng)聚類——半偏相關系統(tǒng)聚類——偽F統(tǒng)計量偽F統(tǒng)計量偽F統(tǒng)計量用于評價聚為G類的效果。如果聚類的效果好,類間的離差平方和相對于類內的離差平方和大,所以應該取偽F統(tǒng)計量較大而類數較小的聚類水平。其中T是數據的總離差平方和,
是類內離差平方和系統(tǒng)聚類——偽F統(tǒng)計量偽F統(tǒng)計量偽F統(tǒng)計量用于評價聚為G類的系統(tǒng)聚類——偽F統(tǒng)計量系統(tǒng)聚類——偽F統(tǒng)計量
偽統(tǒng)計量的定義為其中和分別是的類內離差平方和,是將K和L合并為第M類的離差平方和
=--為合并導致的類內離差平方和的增量。用它評價合并第K和L類的效果,偽統(tǒng)計量大說明不應該合并這兩類,應該取合并前的水平。系統(tǒng)聚類——偽統(tǒng)計量偽統(tǒng)計量的定義為系統(tǒng)聚類——偽統(tǒng)計量系統(tǒng)聚類——CCC統(tǒng)計量立方聚類準則其中
,v是方差穩(wěn)定化變換,一般取值為一般由
維空間的均勻分布得到。一般選擇
后的第一個局部極大值點對應的分類數。系統(tǒng)聚類——CCC統(tǒng)計量立方聚類準則其中系統(tǒng)聚類——CCC統(tǒng)計量系統(tǒng)聚類——CCC統(tǒng)計量系統(tǒng)聚類法的基本性質
在聚類分析過程中,并類距離分別為lk(k=1,2,3,…
)若滿足,則稱該聚類方法具有單調性。除了重心法和中間距離法之外,其他的系統(tǒng)聚類法均滿足單調性的條件。單調性系統(tǒng)聚類法的基本性質在聚類分析過程中,并類距離分別系統(tǒng)聚類法的基本性質空間的濃縮和擴張設有兩種系統(tǒng)聚類法A和B,他們在第i步的距離矩陣分別為Ai和Bi(I=1,2,3…),若Ai>Bi,則稱第一種方法A比第二種方法B使空間擴張,或第二種方法比第一種方法濃縮。
D(短)D(平),D(重)D(平);D(長)
D(平);方法的比較類平均法適中系統(tǒng)聚類法的基本性質空間的濃縮和擴張設有兩種系統(tǒng)聚類法A和B系統(tǒng)聚類局限樣品一旦劃到某個類以后就不變了,這要求分類方法比較準確樣品數n很大時,系統(tǒng)聚類法的計算很龐大,從而使其不方便應用動態(tài)聚類解決的問題是:假如有個樣本點,要把它們分為類,使得每一類內的元素都是聚合的,并且類與類之間還能很好地區(qū)別開。動態(tài)聚類使用于大型數據。系統(tǒng)聚類局限樣品一旦劃到某個類以后就不變了,這要求分類方法比動態(tài)聚類步驟動態(tài)聚類步驟動態(tài)聚類——凝聚點選擇憑經驗選擇,如果對問題已經有一定的了解,可將所有的的樣品大致分類,在每類選擇一個有代表性的樣品作為聚類點將所有的樣品隨機地分成k類,計算每一類的均值,將這些均值作為凝聚點采用最大最小原則,假設樣品最終分為k類,先選擇所有樣品中相距最遠的兩個樣品為凝聚點,即選擇
,使.選擇第三個凝聚點
與前面兩個聚類點的距離最小者等于所有其余的樣品與
的最小距離中最大的。動態(tài)聚類——凝聚點選擇動態(tài)聚類——k均值聚類動態(tài)聚類——k均值聚類動態(tài)聚類——k均值聚類不足凝聚點選擇不當動態(tài)聚類——k均值聚類不足凝聚點選擇不當動態(tài)聚類——k均值聚類不足不同的簇動態(tài)聚類——k均值聚類不足不同的簇動態(tài)聚類——k均值聚類不足離群點動態(tài)聚類——k均值聚類不足離群點其他基于劃分聚類算法(partitionclustering)其他基于劃分聚類算法(partitioncluster其他基于密度聚類算法:其他基于密度聚類算法:其他基于層次聚類算法:其他基于層次聚類算法:其他基于網格的聚類算法:基于統(tǒng)計學的聚類算法:其他基于網格的聚類算法:基于統(tǒng)計學的聚類算法:R軟件與聚類分析在R軟件中,dist()函數給出了各種距離的計算結果,其使用格式是其中x是樣本構成的數據矩陣(樣本按行輸入)或數據框。Method表示計算距離的方法,缺省值為Euclide距離R軟件與聚類分析在R軟件中,dist()函數給出了各種距離的距離---enclidean--maximum--manhattan--canberra---minkowski距離---enclidean--maximum--manha聚類分析簡介原理與應用ppt課件聚類分析簡介原理與應用ppt課件例題一例題一聚類分析簡介原理與應用ppt課件例題二對305名女中學生測量
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025合同法工作時間的規(guī)定
- 安全生產工作計劃10篇
- 2025年大學食堂承包合同
- 醫(yī)院健康教育科職責
- 家電行業(yè)智能化升級與用戶體驗方案
- 體態(tài)智能評估解讀課件
- 醫(yī)療行業(yè)健康數據分析與應用平臺建設方案
- 在線平臺訂單處理情況統(tǒng)計表
- 2025原油長期供應協(xié)議(直接提取合同)
- 2025貸款擔保合同:個人借款合同范本
- 機動車檢測站突發(fā)環(huán)境污染事件應急預案
- 經典案例分析單軌吊車培訓
- 多發(fā)軟組織損傷疾患臨床路徑
- T∕CIS 71001-2021 化工安全儀表系統(tǒng)安全要求規(guī)格書編制導則
- 福利院裝修改造工程施工組織設計(225頁)
- 凝灰?guī)r的簡介及應用
- 華師大版九年級下冊數學全冊教案
- 預制梁質量控制要點及注意事項手冊
- 中國電信SMGP協(xié)議V
- 【真題】2018年陜西省中考英語試題及答案
- 蘇教版五下數學小數報全套高清晰含答案
評論
0/150
提交評論