聚類分析在中實(shí)現(xiàn)_第1頁
聚類分析在中實(shí)現(xiàn)_第2頁
聚類分析在中實(shí)現(xiàn)_第3頁
聚類分析在中實(shí)現(xiàn)_第4頁
聚類分析在中實(shí)現(xiàn)_第5頁
已閱讀5頁,還剩26頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、關(guān)于聚類分析在中的實(shí)現(xiàn)第一張,PPT共三十一頁,創(chuàng)作于2022年6月概述定義 聚類分析是根據(jù)“物以類聚”的道理,對(duì)樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法,它們討論的對(duì)象是大量的樣品,要求能合理地按各自的特性來進(jìn)行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗(yàn)知識(shí)的情況下進(jìn)行的。第二張,PPT共三十一頁,創(chuàng)作于2022年6月基本思想 樣本(或變量)間存在著相似性,根據(jù)多個(gè)觀測指標(biāo),找出能度量樣本之間相似程度的統(tǒng)計(jì)量,以其為依據(jù),把相似程度較大的樣本聚合為一類,關(guān)系密切的聚合到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位,直到把所有的樣本都聚合完畢,把不同的類型一一劃分出來,形成一

2、個(gè)由小到大的分類系統(tǒng)。聚類原則是同一類中的個(gè)體有較大的相似性,不同類中的個(gè)體差異很大。第三張,PPT共三十一頁,創(chuàng)作于2022年6月基本程序 是根據(jù)一批樣品的多個(gè)觀測指標(biāo),具體地找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計(jì)量,然后利用統(tǒng)計(jì)量將樣品或指標(biāo)進(jìn)行歸類。具體進(jìn)行聚類時(shí),由于目的、要求不同,因而產(chǎn)生各種不同的聚類方法:由小類合并到大類的方法由大類分解為小類的方法靜態(tài)聚類法、動(dòng)態(tài)聚類法按樣本聚類(Q)、按指標(biāo)聚類(R)第四張,PPT共三十一頁,創(chuàng)作于2022年6月舉例 對(duì)上市公司的經(jīng)營業(yè)績進(jìn)行分類;據(jù)經(jīng)濟(jì)信息和市場行情,客觀地對(duì)不同商品、不同用戶及時(shí)地進(jìn)行分類。又例如當(dāng)我們對(duì)企業(yè)的經(jīng)濟(jì)效益

3、進(jìn)行評(píng)價(jià)時(shí),建立了一個(gè)由多個(gè)指標(biāo)組成的指標(biāo)體系,由于信息的重疊,一些指標(biāo)之間存在很強(qiáng)的相關(guān)性,所以需要將相似的指標(biāo)聚為一類,從而達(dá)到簡化指標(biāo)體系的目的。 第五張,PPT共三十一頁,創(chuàng)作于2022年6月按照聚類分析分組依據(jù)的原則不同分組按照聚類分析的對(duì)象不同分組聚類分析主要方法系統(tǒng)聚類分析法動(dòng)態(tài)聚類分析法模糊聚類法圖論聚類法聚類預(yù)報(bào)法Q型聚類分析法R型聚類分析法第六張,PPT共三十一頁,創(chuàng)作于2022年6月系統(tǒng)聚類分析法 在樣品距離的基礎(chǔ)上定義類與類的距離,首先將各個(gè)樣品自成一類,然后每次將具有最小距離的兩個(gè)類合并,合并后再重新計(jì)算類與類之間的距離,再并類,這個(gè)過程一直持續(xù)到所有的樣品都?xì)w為一類

4、為止。這種聚類方法稱為系統(tǒng)聚類法。根據(jù)并類過程所做的樣品聚類過程圖稱為聚類譜系圖。第七張,PPT共三十一頁,創(chuàng)作于2022年6月動(dòng)態(tài)聚類分析法 將個(gè)樣品初步分類,然后根據(jù)分類函數(shù)盡可能小的原則,對(duì)初步分類進(jìn)行調(diào)整優(yōu)化,直到分類合理為止。這種分類方法一般稱為動(dòng)態(tài)聚類法,也稱為調(diào)優(yōu)法。模糊聚類分析法 利用模糊數(shù)學(xué)中模糊集理論來處理分類問題,它對(duì)經(jīng)濟(jì)領(lǐng)域中具有模糊特征的兩態(tài)數(shù)據(jù)或多態(tài)數(shù)據(jù)具有明顯的分類效果。第八張,PPT共三十一頁,創(chuàng)作于2022年6月圖論聚類法 利用圖論中最小支撐樹(MST)的概念來處理分類問題,是一種獨(dú)具風(fēng)格的方法。聚類預(yù)報(bào)法 利用聚類方法處理預(yù)報(bào)問題,主要是處理一些異常數(shù)據(jù),如

5、氣象中的災(zāi)害性天氣的預(yù)報(bào),這些異常數(shù)據(jù)采用回歸分析或判別分析處理的效果不好,而聚類預(yù)報(bào)可以彌補(bǔ)回歸分析及判別分析方法之不足,是一個(gè)很值得重視的方法。第九張,PPT共三十一頁,創(chuàng)作于2022年6月Q型聚類分析法 對(duì)樣本進(jìn)行分類,是具有共同特點(diǎn)的樣本聚在一起,以便對(duì)不同類的樣本進(jìn)行分析。作用 綜合利用多個(gè)變量對(duì)樣品進(jìn)行分類; 分類結(jié)果直觀,聚類譜系圖清晰; 聚類結(jié)果細(xì)致、全面、合理。第十張,PPT共三十一頁,創(chuàng)作于2022年6月R型聚類分析法 對(duì)變量進(jìn)行的分類處理。作用 了解變量之間,以及變量組合之間的親疏程度; 根據(jù)變量分類的結(jié)果,可以選擇最佳的變量組合進(jìn)行回歸分析或者Q型聚類分析。選擇最佳變量

6、,即在聚合的每類變量中選出一個(gè)具有代表性的變量作為典型變量。第十一張,PPT共三十一頁,創(chuàng)作于2022年6月Q型聚類的統(tǒng)計(jì)量 對(duì)樣品進(jìn)行分類時(shí),通常采用距離來表示樣品之間的親疏程度。常用的距離有:(1)明氏距離(明科夫斯基Minkowski)(2)蘭氏距離(Lance和Williams)(3)馬氏距離(Mahalanobis)(4)斜交空間距離聚類分析的統(tǒng)計(jì)量第十二張,PPT共三十一頁,創(chuàng)作于2022年6月R型聚類的統(tǒng)計(jì)量 對(duì)變量進(jìn)行聚分類析時(shí),通常采用相似系數(shù)來表示變量之間的親疏程度。常用的相似系數(shù)有:(1)夾角余弦 (2)相關(guān)系數(shù)(3)指數(shù)相似系數(shù)(4)非參數(shù)方法第十三張,PPT共三十一頁

7、,創(chuàng)作于2022年6月SAS解決方案CLUSTER 過程FASTCLUS 過程ACECLUS 過程VARCLUS 過程TREE語句格式第十四張,PPT共三十一頁,創(chuàng)作于2022年6月CLUSTER語句格式數(shù)據(jù)若為原始數(shù)值形式,CLUSTER過程以歐式距離為默認(rèn)的距離計(jì)算方法。PROC CLUSTER METHOD=name;BY variables;COPY variable;ID variable;RMSSTD variable;VAR variables;RUN;例題1第十五張,PPT共三十一頁,創(chuàng)作于2022年6月在CLUSTER語句的“METHOD= ”關(guān)鍵字下,可以指定11種系統(tǒng)聚類

8、方法。 AVERAGE:類平均法 CENTROID:重心法 COMPLETE:最長距離法 DENSITY:密度估計(jì)法 EML:最大似然譜系聚類 FLEXIBLE:可變類平均法 MCQUITTY:可變法及McQuitty相似分析法 MEDIAN:中間距離法 SINGLE:最短距離法 TWOSTAGE:兩階段密度估計(jì)法 WARD:離差平方和法 第十六張,PPT共三十一頁,創(chuàng)作于2022年6月FASTCLUS語句格式研研究事先知道類別的個(gè)數(shù),但不知道這些類別當(dāng)中的具體樣本,這時(shí)采用快速聚類方法。默認(rèn)情況下,fastclus過程以歐式距離作為分類的判斷標(biāo)準(zhǔn)。PROC FASTCLUS MAXCLUST

9、ERS=n|RADIUS=t;VAR variables;ID variable;FREQ variable;WEIGHT variable;BY variables;RUN;例題2第十七張,PPT共三十一頁,創(chuàng)作于2022年6月例題1數(shù)據(jù)集drink收集了16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量的值?,F(xiàn)在希望利用這四個(gè)變量對(duì)這些飲料品牌進(jìn)行聚類。 第十八張,PPT共三十一頁,創(chuàng)作于2022年6月例題1【SAS程序】proc cluster data=sasuser.drink method=ward; var calorie caffeine sodium price;proc tree;

10、run;第十九張,PPT共三十一頁,創(chuàng)作于2022年6月樹形圖第二十張,PPT共三十一頁,創(chuàng)作于2022年6月第二十一張,PPT共三十一頁,創(chuàng)作于2022年6月例題2假如我們要對(duì)游泳運(yùn)動(dòng)員進(jìn)行分項(xiàng)訓(xùn)練,對(duì)10名運(yùn)動(dòng)員的三項(xiàng)測試數(shù)據(jù)記錄如下。其中變量xl肩寬髖寬100;x2胸厚胸圍100;x3腿長身長100。按泳姿(蝶泳、仰泳、蛙泳、自由泳)對(duì)運(yùn)動(dòng)員進(jìn)行聚類?!維AS程序】proc fastclus data=sasuser.athlete maxc=4 list Outtree=tree;var x1-x3;proc print data=tree;run;第二十二張,PPT共三十一頁,創(chuàng)作于

11、2022年6月第二十三張,PPT共三十一頁,創(chuàng)作于2022年6月ACECLUS語句格式ACECLUS 過程假設(shè)各類別為多元正態(tài)分布且協(xié)方差陣相等,多用于 對(duì)大型數(shù)據(jù)聚類分析的預(yù)分析。ACECLUS 過程的語句格式:PROC ACECLUS PROPOTION=p|THRESHOLD=t;BY variables;FREQ variable;VAR variables;WEIGHT variable;RUN;第二十四張,PPT共三十一頁,創(chuàng)作于2022年6月VARCLUS語句格式對(duì)變量作譜系聚類或分離聚類,即R聚類。PROC VARCLUS ;VAR variables;SEED variabl

12、es;PARTIAL variables;WEIGHT variables;FREQ variables;BY variables;RUN;第二十五張,PPT共三十一頁,創(chuàng)作于2022年6月TREE語句格式TREE 過程將cluster過程和varclus過程輸出的特定數(shù)據(jù)集作為輸入數(shù)據(jù)集,繪制出詳細(xì)的用于描述整個(gè)聚類過程的樹狀圖。PROC TREE ;NAME variables;HEIGHT variables;PARENT variables;BY variables;COPY variables;FREQ variable;ID variable;RUN第二十六張,PPT共三十一頁,創(chuàng)作于2022年6月例:100個(gè)學(xué)生的數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑?第二十七張,PPT共三十一頁,創(chuàng)作于2022年6月【SAS程序】Proc Varclus DATA=sasuser.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論