版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
35.聚類分析〔一〕概述聚類分析,相當(dāng)于“物以類聚〞,用于對事物的類別面貌尚不清楚,甚至在事前連總共有幾類都不能確定的情況下對數(shù)據(jù)進(jìn)行分類。而判別分析,必須事先知道各種判別的類型和數(shù)目,并且要有一批來自各判別類型的樣本,才能建立判別函數(shù)來對未知屬性的樣本進(jìn)行判別和歸類。聚類分析是把分類對象按一定規(guī)那么分成組或類,這些組或類不是事先給定的而是根據(jù)數(shù)據(jù)特征而定的。在同類的對象在某種意義上傾向于彼此相似,而在不同類里的這些對象傾向于不相似。根據(jù)這種相似性的不同定義,聚類分析也有不同的方法。聚類分析分為:對樣品的聚類,對變量的聚類。樣品聚類:其統(tǒng)計指標(biāo)是類與類之間距離,把每一個樣品看成空間中的一個點(diǎn),用某種原那么規(guī)定類與類之間的距離,將距離近的點(diǎn)聚合成一類,距離遠(yuǎn)的點(diǎn)聚合成另一類。變量聚類:其統(tǒng)計指標(biāo)是相似系數(shù),將比擬相似的變量歸為一類,而把不怎么相似的變量歸為另一類,用它可以把變量的親疏關(guān)系直觀地表示出來。〔二〕原理一、距離和相似系數(shù)1.距離設(shè)有n組樣品,每組樣品有p個變量的數(shù)據(jù)如下:變量樣品V1V2…VpX1x11x12…x1pX2x21x22…x2p……………Xnxn1xn2…xnp例如,Xi到Xj的閔科夫斯基距離定義為:q=2時為歐幾里得距離;還有馬氏距離:dij=(Xi-Xj)TS-1(Xi-Xj)其中,Xi=(xi1,…,xip),S-1為n個樣品的p×p的協(xié)方差矩陣的逆矩陣。注:馬氏距離考慮了觀測變量之間的相關(guān)性和變異性〔不再受各指標(biāo)量綱的影響〕。距離選擇的根本原那么:〔1〕要考慮所選擇的距離公式在實(shí)際應(yīng)用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。馬氏距離有消除量綱影響的作用?!?〕要綜合考慮對樣本觀測數(shù)據(jù)的預(yù)處理和將要采用的聚類分析方法。如在進(jìn)行聚類分析之前已經(jīng)對變量作了標(biāo)準(zhǔn)化處理,那么通常就可采用歐氏距離?!?〕應(yīng)根據(jù)研究對象的特點(diǎn)不同做出具體分折。實(shí)際中,聚類分析前不妨試探性地多項選擇擇幾個距離公式分別進(jìn)行聚類,然后對聚類分析的結(jié)果進(jìn)行比照分析,以確定最適宜的距離測度方法。2.相似系數(shù)變量間的相似性,可以從它們的方向趨同性或“相關(guān)性〞進(jìn)行考察,從而得到“夾角余弦法〞和“相關(guān)系數(shù)〞兩種度量方法?!?〕夾角余弦Xi=(xi1,…,xip)和Xj作為p維向量,按通常內(nèi)積中夾角的概念來定義〔2〕相關(guān)系數(shù)顯然|cij|≤1,借助于相似系數(shù),可以定義變量之間的距離。例如,采用非相似測度距離為dij=1-|cij|,或dij2=1-rij2.二、類的特征、類間的距離1.類的定義給定某閾值T,①假設(shè)dij≤T,對任意i,j∈G;或者②假設(shè)(∑j∈Gdij)/(k-1)≤T,對任意i∈G;或者③假設(shè)對任意i∈G,都存在j∈G使得dij≤T;那么稱G為一個類。條件從強(qiáng)到弱的順序為:①②③2.類的特征設(shè)類G的元素為x1,…,xm,m為G中樣品數(shù)。描述類的特征有:〔1〕均值或重心〔2〕樣品協(xié)方差陣〔3〕直徑3.類間的距離設(shè)Gp和Gq中分別有p和q個樣品,它們的重心分別記為和.〔1〕最短距離它不對類的形狀加以限制,保證了對拉長和不規(guī)那么類的檢測,例如(b)(c)(e)(d)形式的類;但它卻犧牲了恢復(fù)壓縮類的性能,另外它也趨向于在分開主要類之前去掉分布的尾部?!?〕最長距離嚴(yán)重地傾向于產(chǎn)生直徑粗略相等的類,而且可能被異常值嚴(yán)重地扭曲,例如(a).〔3〕重心法距離即兩個重心之間歐氏距離的平方。重心法在處理異常值上比其他譜系方法更穩(wěn)健,但是在其他方便不如Ward或類平均距離法的效果好?!?〕類平均距離Gp和Gq中所有兩個樣品對之間距離的平均。類平均距離法趨向于合并具有較小偏差的類,而且稍微有點(diǎn)傾向與產(chǎn)生相同方差的類。例如(a).〔5〕Ward最小方差法或Ward離差平方和距離D表示類的直徑,也有假設(shè)樣品間的距離采用歐氏距離,上式可表示為該方法在每次合并類Gp和Gq為Gp+q時,總是選擇使得合并后的Dw(p,q)值最小的類Gp和Gq〔最小方差法〕.合并后增加的最小方差Dw(p,q)除以合并后總的離差平方和TSS的比值〔即半偏R2〕的統(tǒng)計意義是容易解釋的。Ward方法趨向于合并具有少量觀察的類,并傾向于形成具有大約相同數(shù)目觀察的類,一般是在多元正態(tài)混合型、等球形協(xié)方差、等抽樣概率假設(shè)下合并類。例如(a).Ward方法對異常值也很敏感?!?〕密度估計法例如(b).使用一種基于密度估計的新的非相似測度d*來計算樣品xi和xj的近鄰關(guān)系;=2\*GB3②然后根據(jù)基于d*方法計算的距離,采用最小距離法進(jìn)行聚類。有三種不同的密度估計法:k最近鄰估計法、均勻核估計法、Wong混合法〔適用于大數(shù)據(jù)集而不適用于小數(shù)據(jù)集〕?!?〕兩階段密度估計法在密度估計法中,眾數(shù)類經(jīng)常在尾部所有點(diǎn)聚類之前就已經(jīng)被合并掉了。兩階段密度估計法對密度估計法這一缺點(diǎn)進(jìn)行了修正,以確保眾數(shù)類被合并之前,所有點(diǎn)能被分配到眾數(shù)類中去。在第一階段中,互不相交的眾數(shù)類被生成,只有在兩個類中至少有一個類中的樣品個數(shù)少于proccluster過程的選項“mode=值〞時才能合并。在第二階段中,把前面形成的眾數(shù)類再按最短距離法譜系地合并〔某一類能夠完全地包含在別的類里,但在類之間不允許其他形式的重迭〕?!?〕最大似然法最大似然估計法是在三個根本假設(shè):多元正態(tài)混合分布、等球面協(xié)方差和不等抽樣概率的前提下,使得在譜系的每個水平上似然值最大。該方法除了偏向于生成不等大小的類外,與Ward最小方差法很相似。proccluster過程的偏度選項penalty=p值可用于調(diào)整偏向的程度。修正公式可將公式中的2改為p值。三、類的統(tǒng)計量〔1〕類Gp的均方根標(biāo)準(zhǔn)差即類內(nèi)的離差平方和〔定義為直徑〕,點(diǎn)越分散直徑越大?!?〕R2R2用于評價每次合并成m個類時的聚類效果,R2越大說明聚類效果〔能被分開〕越好。R2=1,說明類被完全分開;當(dāng)所有樣品最后合并成一類時,R2=0,說明類被完全混合在一起了,分不開。R2的值總是隨著分類個數(shù)的減少而變小。那么如何根據(jù)R2的值來確定所有樣品應(yīng)分為幾類最適宜呢?首先,最適宜分類的R2的值不能太小,最好能到達(dá)0.7以上;其次,不能孤立地看合并后R2值的大小,應(yīng)該看R2值的變化。類的合并總是使R2值變小,如果這種變小是均勻的,合并是應(yīng)該的,但當(dāng)某次合并使R2值減少很多,這次合并就不應(yīng)該,即我們找到了最適宜的分類數(shù)。例如,從10類合并到5類時,R2值每次減少大約在0.01到0.02之間,R2值減小到0.8,從5類合并到4類時,R2值減少了0.3,即R2=0.8-0.3=0.5,這時,我們就可以得出分5類是最適宜的?!?〕半偏R2統(tǒng)計量合并類Gp和類Gq為類Gm時,可以用半偏R2統(tǒng)計量評價這次合并的效果:表示合并后類內(nèi)離差平方和的增量〔=上次R2-本次R2〕?!?〕偽F統(tǒng)計量其中,G為聚類的個數(shù),n為觀察總數(shù),v為觀察樣品的變量維數(shù)。該統(tǒng)計量用于評價分為G個聚類的效果。偽F值越大越表示這些觀察可顯著地分為G個類。〔5〕偽t2統(tǒng)計量該統(tǒng)計量用以評價合并類Gp和類Gq為類Gm的效果。該值很大說明合并后離差平方和的增加量相對于原來兩類的類內(nèi)離差平方和很大。這說明上一次合并的兩個類Gp和Gq是很分開的,也就是說上一次聚類的效果是很好的。否那么,這兩個類應(yīng)該在再合并時的離差平方和的增加量很小。四、類數(shù)確實(shí)定至今無太滿意的結(jié)果。〔1〕一般情況下,是看每個變量的R2值及所有變量的累積R2值,觀察這些R2值與聚類個數(shù)所畫的折線圖形,以此來判斷;〔2〕通過對數(shù)據(jù)的典型變量〔可用proccandisc典型判別分析選出〕做散點(diǎn)圖來判斷;〔3〕立方聚類準(zhǔn)那么CCC;通過數(shù)據(jù)模擬研究,發(fā)現(xiàn)三個最好的準(zhǔn)那么是:①偽F統(tǒng)計量;②偽t2統(tǒng)計量;③立方聚類準(zhǔn)那么CCC。在cluster過程中這三個準(zhǔn)那么都被應(yīng)用和輸出,而在fastclus過程中僅偽F統(tǒng)計量和CCC統(tǒng)計量被應(yīng)用和輸出。建議尋找這三種統(tǒng)計量之間的一致性,即:CCC統(tǒng)計量和F統(tǒng)計量的局部峰值所對應(yīng)的聚類數(shù),與這個聚類數(shù)偽t2統(tǒng)計量的一個較小值和下一個聚類數(shù)的一個較大偽t2統(tǒng)計量相吻合。還必須強(qiáng)調(diào)這些準(zhǔn)那么僅僅適用于緊湊的或略微拉長的類,也較好地適合于略微正態(tài)分布的類?!踩尘垲惖姆椒ㄒ弧⑾到y(tǒng)聚類法目前使用最多的一種方法。根本步驟是:〔1〕首先各樣品自成一類,這樣對組樣品就相當(dāng)于有類〔即一類包括一個樣品〕;〔2〕計算各類間的距離〔可選8種距離見前文〕,將其中最近的兩類進(jìn)行合并;〔3〕計算新類與其余各類的距離,再將距離最近的兩類合并;〔4〕重復(fù)上述的步驟,直到所有的樣品都聚為一類時為止。注意:①在整個聚類的過程中,如果在某一步的距離矩陣中最小元素不止一個時,那么可以將其同時合并;②系統(tǒng)聚類法由于每次都計算距離,計算量〔內(nèi)存占用〕較大;③研究說明:最好綜合特性的聚類方法為類平均法或Ward最小方差法,而最差的那么為最短距離法。Ward最小方差法傾向于尋找觀察數(shù)相同的類。類平均法偏向?qū)ふ业确讲畹念?。具有最小偏差的聚類方法為最短距離法和密度估計法。拉長的或無規(guī)那么的類使用最短距離法比其他方法好。最沒有偏見的聚類方法為密度估計法。二、K均值聚類法〔動態(tài)聚類法〕根本步驟:〔1〕選擇K個觀察作為“凝聚點(diǎn)〞或稱類的中心點(diǎn),作為這些類均值的第一次猜想值,將所有的樣品分成K個初始類;〔2〕通過歐氏距離將某個樣品劃入離中心最近的類中,并對獲得樣品與失去樣品的類,重新計算中心坐標(biāo);〔3〕重復(fù)步驟2,直到所有的樣品都不能再分配時為止〔反復(fù)迭代,直到再也無法降低樣本與重心離差之和為止〕。優(yōu)點(diǎn):速度快省內(nèi)存;缺點(diǎn):需要事先確定類數(shù)。注意:該聚類法對異常點(diǎn)很敏感,通常會把異常點(diǎn)分配為單獨(dú)的一個類〔可用于檢測異常點(diǎn)procfastclus〕?!踩砈AS實(shí)現(xiàn)SAS提供了5個聚類過程,即cluster,fastclus,modeclus、varclus和tree過程。cluster為系統(tǒng)聚類過程,可使用十一種聚類方法進(jìn)行譜系聚類,包括重心法、Ward離差平方和法和歐氏平均距離法等。fastclus為動態(tài)聚類過程,使用K-均值算法尋找不相交的聚類,適宜于大樣本分析,觀察值可多達(dá)10萬個。modeclus為動態(tài)聚類過程,使用非參數(shù)密度估計法尋找不相交的聚類。varclus過程可用于系統(tǒng)或動態(tài)聚類,通過斜交多組分量分析對變量作“譜系的〞和“不相交的〞兩種聚類。cluster過程、fastclus過程和modeclus過程用于對樣品聚類,varclus過程用于對變量聚類。tree過程將cluster或varclus過程的聚類結(jié)果畫出樹形結(jié)構(gòu)圖或譜系圖。一、PROCCLUSTER過程步根本語法:procclusterdata=數(shù)據(jù)集<可選項>;var變量列表;id變量;freq變量;copy變量列表;rmsstd變量;by變量列表;說明:〔1〕可選項outtree=輸出數(shù)據(jù)集供tree過程調(diào)用,用來輸出聚類結(jié)果的樹狀圖;method=算法ward〔離差平方和法〕,average〔類平均法〕,centroid〔重心法〕,complete〔最長距離法〕,single〔最短距離法〕,median〔中間距離法〕,density〔密度法〕,flexible〔可變類平均法〕,twostage〔兩階段密度法〕,eml〔最大似然法〕,mcquitty〔相似分析法〕;standard/std——對變量實(shí)施標(biāo)準(zhǔn)化;nonorm——阻止距離被正態(tài)化成均數(shù)為1或均方根為1;nosquare——阻止過程在method=average/centroid/median/ward方法中距離數(shù)據(jù)被平方;mode=n——當(dāng)合并兩個類時,規(guī)定對被指定的眾數(shù)類中的每個類至少有n個成員,該選項只能在method=density/twostage時使用;penalty=p——指定用于method=eml中的懲罰系數(shù)〔p>0,默認(rèn)p=2〕;trim=p——要求從分析中刪去那些概率密度估計較小的點(diǎn)〔0≤p<100,被當(dāng)作百分比〕,在method=ward/complete時,因為類可能被異常值嚴(yán)重地歪曲,最好使用這個選項〔也可用于method=single〕;dim=n——用于method=density/twostage時指定使用的維數(shù)〔n≥1〕,假設(shè)是坐標(biāo)數(shù)據(jù),缺省值為變量個數(shù);假設(shè)是距離數(shù)據(jù),缺省值為1;hybrid——要求用Wong混合聚類方法,其中密度用k均值法的初始聚類分析中的均值計算得到。這個選項只能在method=density/twostage時使用;k=n——指定k最近鄰估計法中近鄰的個數(shù)〔2≤n<觀察數(shù)〕;r=n——指定均勻核密度估計法的支撐球半徑〔n>0〕;notie——阻止cluster過程在聚類歷史過程中檢查每次產(chǎn)生的類間最小距離連結(jié)〔ties〕的情況,此選項可以減少過程執(zhí)行的時間和空間;rsquare——輸出R2和半偏R2;rmsstd——輸出每一類的均方根標(biāo)準(zhǔn)差;ccc——輸出在均勻的原假設(shè)下判斷聚類分成幾類適宜的立方聚類準(zhǔn)那么統(tǒng)計量ccc和近似期望值R2;同時輸出選項rsquare有關(guān)的R2和半偏R2;此選項不適合于method=single〔容易刪掉分布的結(jié)尾局部〕;pseudo——輸出偽F統(tǒng)計量(PSF)和偽t2統(tǒng)計量(PST2),當(dāng)分類數(shù)目不同時,它們有不同的取值;simple——輸出簡單統(tǒng)計數(shù);在輸出報表中,可以根據(jù)輸出的ccc、psf和pst2統(tǒng)計量確定多少分類數(shù)較適宜,當(dāng)ccc和psf值出現(xiàn)峰值所對應(yīng)的分類數(shù)較適宜,而pst2值是在出現(xiàn)峰值所對應(yīng)的分類數(shù)減1較適宜。copy語句——指定輸入數(shù)據(jù)集中的一些變量拷貝到outtree=的輸出數(shù)據(jù)集中;rmsstd語句——當(dāng)輸入數(shù)據(jù)集中的坐標(biāo)數(shù)據(jù)代表類的均值時,定義表示均方根標(biāo)準(zhǔn)差變量,通常與freq語句中的變量配合使用。例1用cluster和tree過程1976年74個國家每100000人口的出身率和死亡率數(shù)據(jù)〔C:\MyRawData\populations.txt〕進(jìn)行聚類分析。代碼:datavital;infile'C:\MyRawData\populations.txt';title'CRUDEBIRTHANDDEATHRATESIN1976';inputcountry$19.birthdeath;run;procprintdata=vital;run;procplotformchar='||--'hpct=100vpct=100;plotdeath*birth/hpos=86vpos=26;run;procclusterdata=vitalout=treemethod=averageprint=15cccpseudo;varbirthdeath;title'ClusterAnalysisofBirthandDeathRatesin74Countries';run;proctreedata=treenoprintout=outncl=8;copybirthdeath;run;procplotformchar='||--';plotdeath*birth=cluster/hpos=86vpos=26;title2'PlotofClustersFormMethod=Average';run;運(yùn)行結(jié)果及說明:A表示此處有一個散點(diǎn),而B表示此處有二個重疊散點(diǎn),C表示此處有三個重疊散點(diǎn);直觀上看散點(diǎn)圖可以區(qū)分成三類:低出身率和低死亡率的國家〔富裕興旺的國家〕,高出身率和高死亡率的國家〔貧窮落后的國家〕,中出身率和低死亡率的國家〔中等開展中的國家〕。輸出包括協(xié)方差陣的特征值,兩相鄰特征值之差,各特征值占總方差的百分比,和累計百分比。聚類是從74國家作為74類,先聚類成73=74-1類開始,直至將所有國家聚為1類的聚類過程和統(tǒng)計數(shù)?!皃rint=15〞,聚類數(shù)列只輸出顯示聚類成15類后各合并過程;“連接聚類列〞下的兩列為每一次聚類成1個新類的2個樣品,標(biāo)有obn表示是原始樣品中的第n號樣品,標(biāo)有cln表示是在上面聚類過程中已經(jīng)聚成的第n類;例如,第14新類〔聚類數(shù)=14〕由前面形成的第20舊類〔cl20〕和原始樣品的第8號〔ob41〕合并產(chǎn)生,共有4個〔freq=4〕原始樣品;同時也可求出前面形成的cl20舊類有4-1=3個原始樣品;最后由舊的cl2類和cl3類合并形成1類,其中cl2類由cl4類和cl5類合并,cl3類由cl6類和cl14類合并。頻數(shù)列為新類中所含的樣品數(shù);半偏R2,表示每一次合并對信息的損失程度;R2,表示累計聚類結(jié)果;近似期望R2為在均勻零假設(shè)下近似期望的R2;ccc、psf、psf2列為3個判斷分成幾類較適宜的統(tǒng)計量;NormRMSDist列為距離被正態(tài)化后兩樣品或類間的平均距離;Tie〔連接〕列里用T來指出最小距離的一個連結(jié),而空白說明沒有連結(jié);“out=tree〞將聚類過程和聚類結(jié)果及相應(yīng)的統(tǒng)計量輸出到tree數(shù)據(jù)集中。關(guān)于如何選擇適宜的聚類數(shù)。主要方法是查看“三次聚類準(zhǔn)那么值CCC〞在ncl聚類數(shù)為多少時到達(dá)峰值,以及“偽F值PSF〞和“偽t2值PST2〞在ncl聚類數(shù)為多少時到達(dá)峰值。同時可以通過再合并成新類時R2值的減少最多〔即每一次合并時信息的損失程度“半偏R2值〞最大〕來驗證,還可以直接通過樹狀圖決定分類數(shù)。通常CCC、PSF、PST2值在不同的ncl處有多處峰值,為便于比擬和觀測,將CCC、PSF和PST2統(tǒng)計量按聚類數(shù)大小順序連接成曲線〔那么必須先對tree數(shù)據(jù)集中表示聚類數(shù)的字段_ncl_進(jìn)行排序〕,在同一張圖中繪制相應(yīng)的散布圖。代碼:datavital;infile'C:\MyRawData\populations.txt';inputcountry$19.birthdeath;run;procclusterdata=vitalout=treemethod=averageprint=15cccpseudo;varbirthdeath;title'ClusterAnalysisofBirthandDeathRatesin74Countries';run;procprintdata=tree;title'tree';run;procsortdata=tree;by_ncl_;goptionsreset=globalgunit=pctcback=whiteborderhtitle=6htext=3ftext=swissbcolors=(back);procgplotdata=tree;plot_ccc_*_ncl_/haxis=axis1vaxis=axis2;plot2_psf_*_ncl__pst2_*_ncl_/vaxis=axis3overlay;symbol1i=joinv='C'l=3h=2.5w=1.5;symbol2i=joinv='F'l=1h=2.5w=1.5;symbol3i=joinv='T'l=1h=2.5w=1.5;axis1label=('NumberofClusters')order=(1to15by1);axis2label=('CCC')order=(0to6by0.5);axis3label=('PSFandPST2')order=(0to300by25);title2"Plotof_CCC_*_NCL_.Symbolusedis'C'";title3"Plotof_PSF_*_NCL_.Symbolusedis'F'";title4"Plotof_PST2_*_NCL_.Symbolusedis'T'";run;運(yùn)行結(jié)果:CCC值在ncl=2,4,8,12處有峰值,這些是立方聚類準(zhǔn)那么認(rèn)為可考慮取的分類數(shù),但ncl=8時更陡些;psf在ncl=3,8,12處有峰值,這些是根據(jù)偽F統(tǒng)計量可考慮取的分類數(shù),但ncl=8時更陡些;pst2在ncl=5,9,13處有峰值,通常偽t2統(tǒng)計量認(rèn)為取再減1的分類較適宜,或者直接取偽t2統(tǒng)計量最小值處的分類數(shù),因為再次合并將會有比擬大偽t2統(tǒng)計量,所以根據(jù)偽t2統(tǒng)計量可考慮的分類數(shù)為4,8,12;從半偏R2值分析,從12類合并成11類時,有較大的信息損失值0.003198,從8類合并成7類時,有較大的信息損失值0.009841,這項指標(biāo)特別指出從3類合并成2類時,有僅次于分成1類的信息損失值0.096203,半偏R2指標(biāo)值支持分成2,3,8,12類;最后,從帶有聚類過程和合并距離的樹狀圖中,也能較直觀地分成2,3,4,8類;綜合結(jié)論,可以把74國家分成2類、3類、4類、8類、12類,尤其要注意的是分成8類,因為這種分類已從聚類運(yùn)算結(jié)果分析中顯示了良好的指標(biāo)性能。注:完全分開的球狀類,適合用average〔類平均法〕;沒有完全分開的球狀類,適合用ward〔離差平方和法〕;大小和離散程度不等的多元正態(tài)類,適合用eml〔最大似然法〕;拉長的多元正態(tài)類,適合用twostage,k=10〔兩階段密度法〕;中心相同大小不等的圓環(huán)類,適合用single〔最短距離法〕。二、PROCFASTCLUS過程步選擇“凝聚點(diǎn)〞,根據(jù)距離接近的原那么歸類,適合對大樣品數(shù)據(jù)做快速的“粗〞分類。初始“凝聚點(diǎn)〞可以指定或由過程自動選擇;可以指定最大的“凝聚點(diǎn)〞個數(shù),及“凝聚點(diǎn)〞之間的必須分隔開的最小距離。注意:fastclus過程對異常點(diǎn)很敏感,通常會把異常點(diǎn)分配為單獨(dú)的一個類,因此也是檢測異常點(diǎn)的有效過程。根本語法:procfastclusdata=數(shù)據(jù)集<可選項>;var變量列表;id變量;freq變量;weight變量;by變量列表;可選項:seed=輸入數(shù)據(jù)集——指定該數(shù)據(jù)集作為初始“凝聚點(diǎn)〞;mean=輸出數(shù)據(jù)集——包含每個類的均值和一些統(tǒng)計量;out=輸出數(shù)據(jù)集——包含原始數(shù)據(jù)和分類標(biāo)志的聚類結(jié)果;maxclusters/maxc=n——指定允許的最大聚類數(shù)〔默認(rèn)為100〕;radius=t——為選擇新的“凝聚點(diǎn)〞指定最小距離準(zhǔn)那么;當(dāng)一個觀察點(diǎn)與已有“凝聚點(diǎn)〞的最小距離都大于t值時,該觀察可考慮用來作為一個新的“凝聚點(diǎn)〞;默認(rèn)t=0;選擇一個好的t值,可以得到好的分類結(jié)果〔注意,必須規(guī)定maxclusters=或radius=中的一個〕;replace=full/part/none/random——指定“凝聚點(diǎn)〞的替換方式;默認(rèn)為full〔用統(tǒng)計方法替換〕;part為僅當(dāng)觀察點(diǎn)與最近的“凝聚點(diǎn)〞距離大于“凝聚點(diǎn)〞之間的最小距離時,那么有一個老的“凝聚點(diǎn)〞被替換;none為禁止“凝聚點(diǎn)〞的替換;random為從完整的觀察樣本中隨機(jī)地選擇一組樣本作為初始“凝聚點(diǎn)〞;drift——每當(dāng)一個觀察歸入最靠近的“凝聚點(diǎn)〞所在類后,此類的“凝聚點(diǎn)〞都要被該類中現(xiàn)有觀察的均值所替代;因而“凝聚點(diǎn)〞不斷發(fā)生變化;convergec/conv=c——指定收斂的判斷準(zhǔn)那么,c≥0,默認(rèn)為0.02.當(dāng)“凝聚點(diǎn)〞改變的最大距離小于或等于初始“凝聚點(diǎn)〞之間的最小距離乘以c值時,循環(huán)過程結(jié)束;maxiter=n——指定重新計算“凝聚點(diǎn)〞所需的最大迭代次數(shù),默認(rèn)為1;strict=s——當(dāng)一個觀察同其最近“凝聚點(diǎn)〞之間的距離大于s值時,此觀察不歸入此類;distance——輸出類均值之間的距離;list——要求列出所有觀察的id變量值,觀察所歸入類的類號,及觀察與最終“凝聚點(diǎn)〞之間的距離;注意:在采用fastclus過程之前,假設(shè)變量值的單位不一致那么必須對變量預(yù)先用standard過程轉(zhuǎn)換成標(biāo)準(zhǔn)分布,例如procstandardmean=0std=1out=abc;varx1x2;或由factor過程產(chǎn)生因子得分,然后由fastclus過程加以聚類〔weight〕。三、PROCVARCLUS過程步該過程屬于變量聚類,是基于相關(guān)矩陣或協(xié)方差矩陣,對數(shù)值變量進(jìn)行不相交或譜系分類。類的劃分通過計算每類第一主成份或重心成分的最大方差而確定,因此,同每一類有聯(lián)系的是該類中這些變量的線性組合。VARCLUS過程可用來作為變量壓縮的方法。對于含有很多變量的變量集,常常用信息損失很少的局部變量集替代。假設(shè)采用相關(guān)矩陣的信息,那么所有變量都平等;當(dāng)引用協(xié)方差矩陣分析時,某變量有較大方差,該變量那么較為重要。VARCLUS過程生成的輸出數(shù)據(jù)集,可由SCORE過程計算出每類的得分。根本步驟:假設(shè)沒有為過程提供初始分類,那么把所有變量看成一個類,然后〔1〕首先挑選一個將被別離的類:或者用它的類分量所解釋的方差百分比最小,或者同第二主成份有關(guān)的特征值為最大;〔2〕把選中的類分成兩個類:先計算出兩個主成份,再進(jìn)行斜交旋轉(zhuǎn),并把每個變量分配到旋轉(zhuǎn)分量對應(yīng)的類里,分配原那么為使變量與這個主成份的相關(guān)系數(shù)最大;〔3〕變量重新分類:通過迭代,變量被重新分配到新類中,使得由這些類分量所解釋的方差最大〔可能要求保持譜系結(jié)構(gòu)〕;〔4〕當(dāng)每一類滿足規(guī)定的準(zhǔn)那么時,過程停止迭代。準(zhǔn)那么:或者是每個類分量所解釋的方差百分比,或者是每一類的第二特征值〔默認(rèn)準(zhǔn)那么:每類只要有一個特征值大于1,那么過程停止〕。根本語法:procvarclusdata=數(shù)據(jù)集<可選項>;var變量列表;partial變量列表;seed變量列表;freq變量;weight變量;by變量列表;可選項:outstat=輸出數(shù)據(jù)集——包含均值、標(biāo)準(zhǔn)差、相關(guān)系數(shù)、類得分系數(shù)和聚類結(jié)構(gòu);outtree=輸出數(shù)據(jù)集——包含聚類過程的樹狀結(jié)構(gòu)信息,供tree過程調(diào)用;minc=n——最小聚類個數(shù)〔默認(rèn)為l〕;maxc=n——最大聚類個數(shù);maxeigen=n——規(guī)定每一類中第二特征值所允許的最大值;percent=n——指定類分量必須解釋的方差百分比;centroid——使用重心成份法而不是主成份法;maxiter=n——規(guī)定在交替最小二乘法階段中的最大迭代次數(shù)。maxsearch=n——指定在搜索階段最大迭代次數(shù);cov——用協(xié)方差矩陣聚類;hi——要求在不同層次的類構(gòu)成譜系聚類結(jié)構(gòu);initial=group/input/random/seed——規(guī)定初始化類的方法;corr——輸出相關(guān)系數(shù);simple——輸出均值和標(biāo)準(zhǔn)差。short——不輸出類結(jié)構(gòu)、得分系數(shù)和類間相關(guān)陣;summary——只輸出最后的匯總表;trace——列出在迭代過程中每個變量所歸入的類。四、PROCTREE過程步該過程利用CLUSTER過程和VARCLUS過程生成的數(shù)據(jù)集來繪制樹狀結(jié)構(gòu)圖〔可以按垂直或水平方向輸出〕。TREE過程可以把輸入數(shù)據(jù)集中的任何數(shù)值變量都能夠用來規(guī)定這些類的高度,還可根據(jù)用戶的要求生成一個輸出數(shù)據(jù)集,其中包含一個變量,其值用以標(biāo)識在這個樹里指定水平上不相交的類。根本語法:proctreedata=由cluster過程和varc
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 飛行器制造綜合課程設(shè)計
- 2025年個人股份轉(zhuǎn)讓及后續(xù)服務(wù)合同協(xié)議書4篇
- 二零二五年度民間借貸授權(quán)委托法律事務(wù)專項合同4篇
- 專項施工方案審批
- 年度家用制冷電器具競爭策略分析報告
- 2025年度綜合開發(fā)項目代建合同標(biāo)準(zhǔn)文本4篇
- 2024年心理咨詢師題庫附參考答案(達(dá)標(biāo)題)
- 2025年水電工程自動化控制系統(tǒng)安裝合同4篇
- 二零二五版苗圃技術(shù)員智慧苗圃建設(shè)與運(yùn)營管理合同4篇
- 環(huán)氧防滑坡道施工方案
- 中外美術(shù)史試題及答案
- 工會換屆公示文件模板
- 江蘇省南京市協(xié)同體七校2024-2025學(xué)年高三上學(xué)期期中聯(lián)合考試英語試題答案
- 青島版二年級下冊三位數(shù)加減三位數(shù)豎式計算題200道及答案
- GB/T 12723-2024單位產(chǎn)品能源消耗限額編制通則
- GB/T 16288-2024塑料制品的標(biāo)志
- 麻風(fēng)病防治知識課件
- 干部職級晉升積分制管理辦法
- TSG ZF003-2011《爆破片裝置安全技術(shù)監(jiān)察規(guī)程》
- 2024年代理記賬工作總結(jié)6篇
- 電氣工程預(yù)算實(shí)例:清單與計價樣本
評論
0/150
提交評論