




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
關(guān)于聚類分析在中的實(shí)現(xiàn)概述定義聚類分析是根據(jù)“物以類聚”的道理,對(duì)樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法,它們討論的對(duì)象是大量的樣品,要求能合理地按各自的特性來(lái)進(jìn)行合理的分類,沒(méi)有任何模式可供參考或依循,即是在沒(méi)有先驗(yàn)知識(shí)的情況下進(jìn)行的。第2頁(yè),共31頁(yè),2024年2月25日,星期天基本思想
樣本(或變量)間存在著相似性,根據(jù)多個(gè)觀測(cè)指標(biāo),找出能度量樣本之間相似程度的統(tǒng)計(jì)量,以其為依據(jù),把相似程度較大的樣本聚合為一類,關(guān)系密切的聚合到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位,直到把所有的樣本都聚合完畢,把不同的類型一一劃分出來(lái),形成一個(gè)由小到大的分類系統(tǒng)。聚類原則是同一類中的個(gè)體有較大的相似性,不同類中的個(gè)體差異很大。第3頁(yè),共31頁(yè),2024年2月25日,星期天基本程序是根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo),具體地找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計(jì)量,然后利用統(tǒng)計(jì)量將樣品或指標(biāo)進(jìn)行歸類。具體進(jìn)行聚類時(shí),由于目的、要求不同,因而產(chǎn)生各種不同的聚類方法:由小類合并到大類的方法由大類分解為小類的方法靜態(tài)聚類法、動(dòng)態(tài)聚類法按樣本聚類(Q)、按指標(biāo)聚類(R)第4頁(yè),共31頁(yè),2024年2月25日,星期天舉例
對(duì)上市公司的經(jīng)營(yíng)業(yè)績(jī)進(jìn)行分類;據(jù)經(jīng)濟(jì)信息和市場(chǎng)行情,客觀地對(duì)不同商品、不同用戶及時(shí)地進(jìn)行分類。又例如當(dāng)我們對(duì)企業(yè)的經(jīng)濟(jì)效益進(jìn)行評(píng)價(jià)時(shí),建立了一個(gè)由多個(gè)指標(biāo)組成的指標(biāo)體系,由于信息的重疊,一些指標(biāo)之間存在很強(qiáng)的相關(guān)性,所以需要將相似的指標(biāo)聚為一類,從而達(dá)到簡(jiǎn)化指標(biāo)體系的目的。
第5頁(yè),共31頁(yè),2024年2月25日,星期天按照聚類分析分組依據(jù)的原則不同分組按照聚類分析的對(duì)象不同分組
聚類分析主要方法系統(tǒng)聚類分析法動(dòng)態(tài)聚類分析法模糊聚類法圖論聚類法聚類預(yù)報(bào)法Q型聚類分析法R型聚類分析法第6頁(yè),共31頁(yè),2024年2月25日,星期天系統(tǒng)聚類分析法
在樣品距離的基礎(chǔ)上定義類與類的距離,首先將各個(gè)樣品自成一類,然后每次將具有最小距離的兩個(gè)類合并,合并后再重新計(jì)算類與類之間的距離,再并類,這個(gè)過(guò)程一直持續(xù)到所有的樣品都?xì)w為一類為止。這種聚類方法稱為系統(tǒng)聚類法。根據(jù)并類過(guò)程所做的樣品聚類過(guò)程圖稱為聚類譜系圖。第7頁(yè),共31頁(yè),2024年2月25日,星期天動(dòng)態(tài)聚類分析法
將個(gè)樣品初步分類,然后根據(jù)分類函數(shù)盡可能小的原則,對(duì)初步分類進(jìn)行調(diào)整優(yōu)化,直到分類合理為止。這種分類方法一般稱為動(dòng)態(tài)聚類法,也稱為調(diào)優(yōu)法。模糊聚類分析法
利用模糊數(shù)學(xué)中模糊集理論來(lái)處理分類問(wèn)題,它對(duì)經(jīng)濟(jì)領(lǐng)域中具有模糊特征的兩態(tài)數(shù)據(jù)或多態(tài)數(shù)據(jù)具有明顯的分類效果。第8頁(yè),共31頁(yè),2024年2月25日,星期天圖論聚類法
利用圖論中最小支撐樹(shù)(MST)的概念來(lái)處理分類問(wèn)題,是一種獨(dú)具風(fēng)格的方法。聚類預(yù)報(bào)法
利用聚類方法處理預(yù)報(bào)問(wèn)題,主要是處理一些異常數(shù)據(jù),如氣象中的災(zāi)害性天氣的預(yù)報(bào),這些異常數(shù)據(jù)采用回歸分析或判別分析處理的效果不好,而聚類預(yù)報(bào)可以彌補(bǔ)回歸分析及判別分析方法之不足,是一個(gè)很值得重視的方法。第9頁(yè),共31頁(yè),2024年2月25日,星期天Q型聚類分析法
對(duì)樣本進(jìn)行分類,是具有共同特點(diǎn)的樣本聚在一起,以便對(duì)不同類的樣本進(jìn)行分析。作用①綜合利用多個(gè)變量對(duì)樣品進(jìn)行分類;②分類結(jié)果直觀,聚類譜系圖清晰;③聚類結(jié)果細(xì)致、全面、合理。第10頁(yè),共31頁(yè),2024年2月25日,星期天R型聚類分析法
對(duì)變量進(jìn)行的分類處理。作用
①了解變量之間,以及變量組合之間的親疏程度;②根據(jù)變量分類的結(jié)果,可以選擇最佳的變量組合進(jìn)行回歸分析或者Q型聚類分析。選擇最佳變量,即在聚合的每類變量中選出一個(gè)具有代表性的變量作為典型變量。第11頁(yè),共31頁(yè),2024年2月25日,星期天Q型聚類的統(tǒng)計(jì)量
對(duì)樣品進(jìn)行分類時(shí),通常采用距離來(lái)表示樣品之間的親疏程度。常用的距離有:(1)明氏距離(明科夫斯基Minkowski)(2)蘭氏距離(Lance和Williams)(3)馬氏距離(Mahalanobis)(4)斜交空間距離聚類分析的統(tǒng)計(jì)量第12頁(yè),共31頁(yè),2024年2月25日,星期天R型聚類的統(tǒng)計(jì)量
對(duì)變量進(jìn)行聚分類析時(shí),通常采用相似系數(shù)來(lái)表示變量之間的親疏程度。常用的相似系數(shù)有:(1)夾角余弦(2)相關(guān)系數(shù)(3)指數(shù)相似系數(shù)(4)非參數(shù)方法第13頁(yè),共31頁(yè),2024年2月25日,星期天SAS解決方案CLUSTER過(guò)程FASTCLUS過(guò)程ACECLUS過(guò)程VARCLUS過(guò)程TREE語(yǔ)句格式第14頁(yè),共31頁(yè),2024年2月25日,星期天CLUSTER語(yǔ)句格式數(shù)據(jù)若為原始數(shù)值形式,CLUSTER過(guò)程以歐式距離為默認(rèn)的距離計(jì)算方法。PROCCLUSTERMETHOD=name<options>;BYvariables;COPYvariable;IDvariable;RMSSTDvariable;VARvariables;RUN;例題1第15頁(yè),共31頁(yè),2024年2月25日,星期天在CLUSTER語(yǔ)句的“METHOD=”關(guān)鍵字下,可以指定11種系統(tǒng)聚類方法。AVERAGE:類平均法
CENTROID:重心法
COMPLETE:最長(zhǎng)距離法
DENSITY:密度估計(jì)法
EML:最大似然譜系聚類
FLEXIBLE:可變類平均法
MCQUITTY:可變法及McQuitty相似分析法
MEDIAN:中間距離法
SINGLE:最短距離法
TWOSTAGE:兩階段密度估計(jì)法
WARD:離差平方和法
第16頁(yè),共31頁(yè),2024年2月25日,星期天FASTCLUS語(yǔ)句格式研研究事先知道類別的個(gè)數(shù),但不知道這些類別當(dāng)中的具體樣本,這時(shí)采用快速聚類方法。默認(rèn)情況下,fastclus過(guò)程以歐式距離作為分類的判斷標(biāo)準(zhǔn)。PROCFASTCLUSMAXCLUSTERS=n|RADIUS=t<options>;VARvariables;IDvariable;FREQvariable;WEIGHTvariable;BYvariables;RUN;例題2第17頁(yè),共31頁(yè),2024年2月25日,星期天例題1數(shù)據(jù)集drink收集了16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量的值。現(xiàn)在希望利用這四個(gè)變量對(duì)這些飲料品牌進(jìn)行聚類。第18頁(yè),共31頁(yè),2024年2月25日,星期天例題1【SAS程序】proc
clusterdata=sasuser.drinkmethod=ward;varcaloriecaffeinesodiumprice;proctree;run;第19頁(yè),共31頁(yè),2024年2月25日,星期天樹(shù)形圖第20頁(yè),共31頁(yè),2024年2月25日,星期天第21頁(yè),共31頁(yè),2024年2月25日,星期天例題2假如我們要對(duì)游泳運(yùn)動(dòng)員進(jìn)行分項(xiàng)訓(xùn)練,對(duì)10名運(yùn)動(dòng)員的三項(xiàng)測(cè)試數(shù)據(jù)記錄如下。其中變量xl=肩寬/髖寬×100;x2=胸厚/胸圍×100;x3=腿長(zhǎng)/身長(zhǎng)×100。按泳姿(蝶泳、仰泳、蛙泳、自由泳)對(duì)運(yùn)動(dòng)員進(jìn)行聚類?!維AS程序】proc
fastclusdata=sasuser.athletemaxc=4listOuttree=tree;varx1-x3;proc
printdata=tree;run;第22頁(yè),共31頁(yè),2024年2月25日,星期天第23頁(yè),共31頁(yè),2024年2月25日,星期天ACECLUS語(yǔ)句格式ACECLUS過(guò)程假設(shè)各類別為多元正態(tài)分布且協(xié)方差陣相等,多用于對(duì)大型數(shù)據(jù)聚類分析的預(yù)分析。ACECLUS過(guò)程的語(yǔ)句格式:PROCACECLUSPROPOTION=p|THRESHOLD=t<options>;BYvariables;FREQvariable;VARvariables;WEIGHTvariable;RUN;第24頁(yè),共31頁(yè),2024年2月25日,星期天VARCLUS語(yǔ)句格式對(duì)變量作譜系聚類或分離聚類,即R聚類。PROCVARCLUS<options>;VARvariables;SEEDvariables;PARTIALvariables;WEIGHTvariables;FREQvariables;BYvariables;RUN;第25頁(yè),共31頁(yè),2024年2月25日,星期天TREE語(yǔ)句格式TREE過(guò)程將cluster過(guò)程和varclus過(guò)程輸出的特定數(shù)據(jù)集作為輸入數(shù)據(jù)集,繪制出詳細(xì)的用于描述整個(gè)聚類過(guò)程的樹(shù)狀圖。PROCTREE<options>;NAMEvariables;HEIGHTvariables;PARENTvariables;BYvariables;COPYvariables;FREQvariable;IDvariable;RUN第26頁(yè),共31頁(yè),2024年2月25日,星期天例:100個(gè)學(xué)生的數(shù)學(xué)、物理、化學(xué)、語(yǔ)文、歷史、英語(yǔ)的成績(jī)?nèi)缦卤恚ú糠郑?。?7頁(yè),共31頁(yè),2024年2月25日,星期天【SAS程序】Proc
VarclusDATA=sasuser.kejianOuttree=tree
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度煙草店店鋪轉(zhuǎn)讓與品牌宣傳及市場(chǎng)推廣合同
- 二零二五年度農(nóng)村住房建設(shè)貸款擔(dān)保合同
- 2025年度法律咨詢勞務(wù)合同個(gè)稅起征點(diǎn)調(diào)整協(xié)議
- 2025年度汽車贈(zèng)與及駕駛安全培訓(xùn)服務(wù)合同模板
- 二零二五年度音樂(lè)節(jié)特邀嘉賓舞蹈演員聘請(qǐng)合同
- 二零二五年度培訓(xùn)學(xué)校師資培訓(xùn)資料保密及競(jìng)業(yè)限制合同
- 二零二五年度生態(tài)濕地綠化樹(shù)木修剪與水質(zhì)改善合同
- 餐飲機(jī)械采購(gòu)合同范本
- 溝通技巧與商務(wù)會(huì)議中的禮儀要求
- 2025至2030年中國(guó)白膚護(hù)手霜數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 建筑工程安全與管理
- 2025年內(nèi)蒙古機(jī)電職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測(cè)試近5年常考版參考題庫(kù)含答案解析
- 2024年05月齊魯銀行總行2024年社會(huì)招考筆試歷年參考題庫(kù)附帶答案詳解
- 浙江省紹興市2024-2025學(xué)年高一上學(xué)期期末調(diào)測(cè)英語(yǔ)試題(無(wú)答案)
- 幼兒園開(kāi)學(xué)教師安全知識(shí)培訓(xùn)
- 《會(huì)展經(jīng)濟(jì)與策劃》課件
- 工廠廠區(qū)道路拆除實(shí)施方案
- 新課標(biāo)背景下的跨學(xué)科學(xué)習(xí)內(nèi)涵、設(shè)置邏輯與實(shí)踐原則
- 公寓管家培訓(xùn)課件
- 新大象版科學(xué)四年級(jí)下冊(cè)全冊(cè)教學(xué)設(shè)計(jì)
- 《民間工藝美術(shù)》課件
評(píng)論
0/150
提交評(píng)論