版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
因子分析與聚類分析
1歡迎下載可修改本章內(nèi)容第一節(jié)因子分析第二節(jié)聚類分析2歡迎下載可修改第一節(jié)因子分析
一、因子分析的概念和特點(一)因子分析的概念因子分析(factoranalysis)是利用降維的思想,由研究原始變量相關(guān)矩陣內(nèi)部的依賴關(guān)系出發(fā),把一些具有錯綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個綜合因子的一種多變量統(tǒng)計分析方法。在會計實證研究中,因子分析發(fā)揮著重要的作用,如變量構(gòu)造、變量篩選和綜合評價等。3歡迎下載可修改
(二)因子分析的特點
1、因子變量的數(shù)量遠少于原有指標變量的數(shù)量。
2、因子變量并不是原有變量的簡單取舍,而是對原有變量的重新組構(gòu)。
3、因子之間線性關(guān)系不顯著。
4、因子變量具有命名解釋性。4歡迎下載可修改二、因子分析的數(shù)學模型和相關(guān)概念(一)因子分析的數(shù)學模型因子分析的數(shù)學模型為:
(8.1)
寫成矩陣形式為,其中為原始變量向量,為公因子載荷矩陣,為公共因子,為特殊因子。5歡迎下載可修改(二)因子分析中的基本概念1、因子的含義因子分析法中提到兩種因子:公共因子和特殊因子。公共因子是每個原有變量的線性表達式中都共同出現(xiàn)的因子,各公因子都是均值為0,方差為1的獨立正態(tài)隨機變量。其協(xié)方差矩陣為單位矩陣。特殊因子表示原有變量不能被公共因子解釋的部分,其均值為0。各特殊因子之間以及特殊因子與所有公共因子之間都是互相獨立的。2、因子載荷模型中各公共因子的系數(shù)稱為因子載荷,反映了第個變量在第個公共因子上的相對重要性,,的絕對值越大,表明與的相依程度越大。6歡迎下載可修改3、變量共同度因子載荷矩陣中第行元素的平方和,稱為變量的共同度,即變量方差。此值越接近1,表明該變量的幾乎全部原始信息都被所選擇的公共因子說明了。此值接近于0,說明公共因子對的影響很小,主要由特殊因子來描述。4、因子的方差貢獻因子的方差貢獻是因子載荷矩陣中第列元素的平方和,反映了因子對原有變量總方差的解釋能力,是衡量公共因子相對重要性的指標。此值越大,表明相應(yīng)因子的重要性越高。計算出所有的指標,按其大小排序,就可以提煉出最有影響的公共因子。7歡迎下載可修改三、因子分析的步驟(一)因子分析的適合性檢驗
1、相關(guān)矩陣和反映像相關(guān)矩陣相關(guān)矩陣中大部分相關(guān)系數(shù)都小于0.3,那么原則上這些數(shù)據(jù)不適合做因子分析。另外,如果反映像相關(guān)矩陣中除對角元素外,其他大多數(shù)元素的絕對值均較小,對角線上元素的值較接近1,則適合進行因子分析。2、檢驗檢驗統(tǒng)計量是用于比較變量間簡單相關(guān)系數(shù)和偏相關(guān)系數(shù)的指標,取值在0和1之間。值越接近于1,意味著變量間的相關(guān)性越強,原有變量越適合做因子分析。8歡迎下載可修改
3、巴特利特球度檢驗(Bartletttestofsphericity)巴特利特球度檢驗以原有變量的相關(guān)系數(shù)矩陣為出發(fā)點,其零假設(shè)是:相關(guān)矩陣為單位陣,即相關(guān)系數(shù)矩陣為對角矩陣。巴特利特球度檢驗的檢驗統(tǒng)計量是根據(jù)相關(guān)系數(shù)矩陣的行列式計算得到,且近似服從卡方分布。如果該統(tǒng)計量的觀察值比較大且相伴概率值小于或等于給定的顯著性水平,則應(yīng)拒絕原假設(shè);反之,如果該統(tǒng)計量的觀察值比較小且相伴概率值大于給定的顯著性水平,則不應(yīng)拒絕原假設(shè)。9歡迎下載可修改(二)因子提取和因子載荷矩陣的求解因子分析的關(guān)鍵是根據(jù)樣本數(shù)據(jù)求解因子載荷矩陣,SPSS提供了7種提取因子的方法,其中占主要地位且使用最為廣泛的是主成分分析法。因子提取通常有以下三種方法:(1)特征值準則,即取特征值大于等于1的主成分作為初始因子,放棄特征值小于1的主成分。(2)累積方差貢獻率,因子累積解釋的方差比例也是確定因子個數(shù)時可以參考的指標,一般應(yīng)達到70%-85%或以上。(3)碎石檢驗準則,按照因子被提取的順序,畫出因子的特征值隨因子個數(shù)變化的散點圖,圖形由陡變平,曲線開始變平的前一個點被認為是提取的最大因子數(shù)。10歡迎下載可修改9、人的價值,在招收誘惑的一瞬間被決定。2023/2/32023/2/3Friday,February3,202310、低頭要有勇氣,抬頭要有低氣。2023/2/32023/2/32023/2/32/3/20234:56:56PM11、人總是珍惜為得到。2023/2/32023/2/32023/2/3Feb-2303-Feb-2312、人亂于心,不寬余請。2023/2/32023/2/32023/2/3Friday,February3,202313、生氣是拿別人做錯的事來懲罰自己。2023/2/32023/2/32023/2/32023/2/32/3/202314、抱最大的希望,作最大的努力。03二月20232023/2/32023/2/32023/2/315、一個人炫耀什么,說明他內(nèi)心缺少什么。。二月232023/2/32023/2/32023/2/32/3/202316、業(yè)余生活要有意義,不要越軌。2023/2/32023/2/303February202317、一個人即使已登上頂峰,也仍要自強不息。2023/2/32023/2/32023/2/32023/2/3(三)因子命名 在因子分析模型中,公共因子與因子載荷陣的解不是唯一的。因子分析的目的不僅是找出主因子,更重要的是知道每個主因子的意義,以利于對公共因子命名和解釋結(jié)果,便于進一步的分析。若每個公共因子的涵義不清,難以找到合理的解釋,可對因子載荷矩陣實行旋轉(zhuǎn),使每個變量僅在一個公共因子上有較大的載荷,而在其他公共因子上的載荷較小。
SPSS中有5種因子旋轉(zhuǎn)的方式可供選擇:Varimax選項,方差最大旋轉(zhuǎn);DirectOblimin選項,直接斜交旋轉(zhuǎn);Quartimax選項,四次最大正交旋轉(zhuǎn);Equamax選項,平均正交旋轉(zhuǎn);Promax選項,斜交旋轉(zhuǎn)方法。12歡迎下載可修改9、人的價值,在招收誘惑的一瞬間被決定。2023/2/32023/2/3Friday,February3,202310、低頭要有勇氣,抬頭要有低氣。2023/2/32023/2/32023/2/32/3/20234:56:56PM11、人總是珍惜為得到。2023/2/32023/2/32023/2/3Feb-2303-Feb-2312、人亂于心,不寬余請。2023/2/32023/2/32023/2/3Friday,February3,202313、生氣是拿別人做錯的事來懲罰自己。2023/2/32023/2/32023/2/32023/2/32/3/202314、抱最大的希望,作最大的努力。03二月20232023/2/32023/2/32023/2/315、一個人炫耀什么,說明他內(nèi)心缺少什么。。二月232023/2/32023/2/32023/2/32/3/202316、業(yè)余生活要有意義,不要越軌。2023/2/32023/2/303February202317、一個人即使已登上頂峰,也仍要自強不息。2023/2/32023/2/32023/2/32023/2/3(四)計算因子得分,然后將它們用于各種進一步的分析中當因子確定以后,便可以計算各因子在每個樣本上的具體數(shù)值,這些數(shù)值稱為因子得分,形成的變量稱為因子變量。于是在以后的分析中就可以因子變量代替原有變量進行數(shù)據(jù)建模,或者利用因子變量對樣本進行分類或評價等研究,進而實現(xiàn)降維和簡化問題的目標。由于因子得分函數(shù)中方程的個數(shù)小于變量的個數(shù),因此不能精確的計算出因子得分,只能對因子得分進行估計。估計的方法很多,SPSS中列示了三種方法,常用的是Regression回歸法。用因子得分還可以計算因子總分,根據(jù)因子總分可對樣本(變量)進行排序或歸類,作為評價的依據(jù)。14歡迎下載可修改四、因子分析在SPSS中的實現(xiàn)1、建立或打開數(shù)據(jù)文件后,進入Analyze→DataReduction→FactorAnalysis主對話框,如圖8-1所示。圖8-1因子分析主對話框15歡迎下載可修改
2、把參與分析的變量選到Variables框中。
3、SelectionVariable選擇變量欄,用于限制有特殊值的樣本子集的分析,當一個變量進入該欄時,激活右側(cè)的“Value”按鈕。待“Value”按鈕激活后,單擊該鍵,打開SetValue對話框,如圖8-2所示,可在該對話框鍵入標識參與分析的觀測量所具有的該變量值。圖8-2SetValue對話框16歡迎下載可修改
4、單擊“Descriptivs”按鈕,展開Descriptives對話框,如圖8-3所示,可以選擇單變量的描述統(tǒng)計量和初始分析結(jié)果。圖8-3Descriptives對話框17歡迎下載可修改(1)Statistics統(tǒng)計量框①Univariatedescriptive復(fù)選項,單變量描述統(tǒng)計量。②Initialsolution復(fù)選項,初始分析結(jié)果。(2)CorrelationMatrix相關(guān)矩陣框①Coefficients復(fù)選項,顯示相關(guān)系數(shù)。②Significancelevels復(fù)選項,顯示相關(guān)系數(shù)的顯著性水平。③Determinant復(fù)選項,顯示相關(guān)系數(shù)矩陣的行列式。④Inverse復(fù)選項,顯示相關(guān)系數(shù)矩陣的逆矩陣。⑤Reproduced選項,顯示再生相關(guān)陣。⑥Anti-image復(fù)選項,選擇此項給出反映象相關(guān)矩陣。⑦andBartlett’stestofSphericity復(fù)選項,要求進行檢驗和球形Bartlett檢驗。18歡迎下載可修改
5、單擊“Extraction”按鈕,進入Extraction對話框,如圖8-4所示,可以選擇不同的提取公因子的方法和控制提取結(jié)果的判據(jù)。圖8-4Extraction對話框19歡迎下載可修改(1)Method框,因子提取方法選擇項①Principalcomponents選項,主成份法。②UnweightedleastSquare選項,不加權(quán)最小平方法。③Generalizedleastsquares選項,用變量值的倒數(shù)加權(quán)。④MaximumLikelihoud選項,最大似然法。⑤PrincipalAxisfactoring選項,使用多元相關(guān)的平方作為對公因子方差的初始估計。⑥Alphafactoring選項,因子提取法。⑦Imagefactoring選項,映象因子提取法。20歡迎下載可修改(2)Analyze框,指定分析矩陣的選擇項。①CorrelationMatrix選項,指定以分析變量的相關(guān)矩陣為提取因子的依據(jù)。②Covariancematrix選項,指定以分析變量的協(xié)方差矩陣為提取因子的依據(jù)。(3)Display框,指定與因子提取有關(guān)的輸出項。①Unrotatedfactorsolution復(fù)選項,要求顯示未經(jīng)旋轉(zhuǎn)的因子提取結(jié)果。②Screeplot復(fù)選項,要求顯示按特征值大小排列的因子序號,以特征值為兩個坐標軸的碎石圖。21歡迎下載可修改(4)Extract框,控制提取進程和提取結(jié)果的選擇項。①Eigenvaluesover選項,指定提取的因子應(yīng)該具有的特征值范圍,在此項后面的矩形框中給出。②Numberoffactors選項,指定提取公因子的數(shù)目。(5)MaximumiterationsforConvergence參數(shù)框,指定因子分析收斂的最大迭代次數(shù)。22歡迎下載可修改
6、單擊“Rotation”按鈕,展開Rotation對話框,如圖8-5所示,可以選擇因子旋轉(zhuǎn)方法。圖8-5Rotation對話框23歡迎下載可修改
(1)Method框,選擇旋轉(zhuǎn)方法。其中,None表示不進行旋轉(zhuǎn),Varimax為方差最大旋轉(zhuǎn)法,DirectOblilmin為直接斜交旋轉(zhuǎn)法,Quartmax為四次最大正交旋轉(zhuǎn)法,Equamax為平均正交旋轉(zhuǎn)法,Promax為斜交旋轉(zhuǎn)法。(2)Display框,選擇有關(guān)輸出的選項。其中:Rotatedsolution選項,顯示旋轉(zhuǎn)結(jié)果;Loadingplot(s)選項,顯示因子載荷散點圖。(3)MaximumiterationsforConvergence參數(shù)框,指定旋轉(zhuǎn)收斂的最大迭代次數(shù)。24歡迎下載可修改
7、單擊“Scores”按鈕,進入FactorScores對話框,如圖8-6所示,可以要求計算因子得分,選擇顯示或作為新變量保存。圖8-6FactorScores對話框25歡迎下載可修改
(1)Saveasvariables復(fù)選項,將因子得分作為新變量保存在數(shù)據(jù)文件中。(2)Method欄,指定計算因子得分的方法。其中,Regression選項為回歸法,Bartlett選項為巴特利特法,Anderson-Rubin選項是為了保證因子的正交性而對Bartlett因子得分的調(diào)整。(3)Displayfactorscorecoefficientmatrix復(fù)選項,選擇此項將在輸出窗中顯示因子得分系數(shù)矩陣,是標準化的得分系數(shù)。原始變量值進行標準化后,可以根據(jù)該矩陣給出的系數(shù)計算各觀測量的因子得分,還顯示協(xié)方差矩陣。26歡迎下載可修改
8、單擊“Options”按鈕,進入Options對話框,可以進一步選擇各種輸出項。如圖8-7所示。圖8-7Options對話框27歡迎下載可修改(1)MissingValues欄,選擇處理缺失值方法。①Excludecaseslistwise選項,在分析過程中對那些指定的分析變量中有缺失值的觀測量一律剔除。②Excludecasespairwise選項,成對剔除帶有缺失值的觀測量。。③Replacewithmean選項,用該變量的均值代替該變量的所有缺失值。(2)CoefficientDisplayFormat欄,決定載荷系數(shù)的顯示格式。①Sortedbysize復(fù)選項,選中此項載荷系數(shù)按其數(shù)值的大小排列并構(gòu)成矩陣。②Suppressabsolutevalueslessthan復(fù)選項,選中此項,不顯示那些絕對值小于指定值的載荷系數(shù)。28歡迎下載可修改第二節(jié)聚類分析
一、聚類分析概述(一)聚類分析的概念聚類分析是一種建立分類的多元統(tǒng)計分析方法,它能夠?qū)⒁慌鷺颖荆ɑ蜃兞浚?shù)據(jù)根據(jù)其諸多特征,按照在性質(zhì)上的親疏程度在沒有先驗知識的情況下進行自動分類,將所有的樣本或變量分別聚合到不同的類中,使同一類中的個體有較大的相似性,不同類中的個體差異較大。所謂“沒有先驗知識”是指沒有事先指定分類標準;所謂“親疏程度”是指在各變量(特征)取值上的總體差異程度。29歡迎下載可修改(二)層次聚類和K-Means聚類1、層次聚類層次聚類又稱分層聚類、系統(tǒng)聚類,是指聚類過程是按照一定層次進行的。層次聚類按照不同特征分為以下兩種:(1)按照對象類型分為型聚類和型聚類型聚類是對樣本進行分類,主要作用為:①可綜合利用多個變量的信息對樣本進行分類;②分類結(jié)果直觀,聚類譜系圖非常清楚地表現(xiàn)分類結(jié)果;③所得結(jié)果比傳統(tǒng)分類方法更細致、全面、合理。型聚類是對變量進行分類處理,主要作用為:①可了解個別變量之間及變量組合之間的親疏程度;②根據(jù)變量的分類結(jié)果以及它們之間的關(guān)系,可以選擇主要變量進行回歸分析或型聚類分析。
30歡迎下載可修改(2)根據(jù)聚類過程不同分為凝聚法和分解法。分解法:聚類開始把所有個體(觀測量或變量)都視為屬于一大類,然后根據(jù)距離和相似性逐層分解,直到參與聚類的每個個體自成一類為止。凝聚法:聚類開始把參與聚類的每個個體(觀測量或變量)視為一類,根據(jù)兩類之間的距離或相似性逐步合并,直到合并為一個大類為止。無論哪種方法,其聚類原則都是近似的聚為一類,即距離最近或最相似的聚為一類。實際上以上兩種方法是方向相反的兩種聚類過程。31歡迎下載可修改2、K-Means聚類
K-Means聚類也稱快速聚類,它仍將數(shù)據(jù)看成維空間上的點,仍以距離作為測度個體“親疏程度”的指標,并通過犧牲多個解為代價換得高的執(zhí)行效率。
K-Means聚類的核心步驟為:第一步,指定聚類數(shù)目;第二步,確定個初始類中心;第三步,根據(jù)距離最近原則進行分類;第四步,重新確定個類中心;第五步,判斷是否已滿足終止聚類分析的條件。從上述分析過程可以看出,K-MeansCluster快速聚類是一個反復(fù)迭代的分類過程。在聚類過程中,樣本所屬的類會不斷調(diào)整,直到最終達到穩(wěn)定為止??焖倬垲愡m用于大樣本的聚類分析。它能快速的把各觀測量分到各類中去。32歡迎下載可修改(三)聚類分析的幾點說明
1、所選擇的變量應(yīng)符合聚類的要求可根據(jù)實際工作經(jīng)驗和所研究問題的特征人為的選擇變量,這些變量應(yīng)該和分析的目標密切相關(guān),反映分類對象的特征。
2、各變量的變量值不應(yīng)有數(shù)量級上的差異為了避免對變量單位選擇的依賴,數(shù)據(jù)應(yīng)當標準化。
3、各變量間不應(yīng)有較強的線性相關(guān)關(guān)系如果所選變量之間存在較高的線性關(guān)系,有兩種處理方法:(1)首先進行變量聚類,從每類中選一代表性變量,再進行樣本聚類;(2)進行主成分分析或因子分析,降維,使之成為不相關(guān)的新變量,再進行樣本聚類。33歡迎下載可修改二、聚類分析中“親疏程度”的度量(一)個體間“親疏程度”的度量聚類分析中,對“親疏程度”的測度一般有兩個角度:第一,個體之間的相似程度;第二,個體之間的差異程度。在SPSS中,對不同度量類型的數(shù)據(jù)采用了不同的測定親疏程度的統(tǒng)計量。
1、定距型變量個體間距離的計算方式通常有歐式距離(Euclideandistance)、平方歐式距離(SquaredEuclideandistance)、夾角余弦(Cosine)距離、相關(guān)系數(shù)距離(Pearsoncorrelation)、切比雪夫距離(Chebychev:Chebychev)、Block距離(City-Block)或Manhattan距離、明考斯基距離(Minkowski)、用戶自定義距離(Customized)等8種方法。這些方法分別適用于型聚類和型聚類34歡迎下載可修改
2、計數(shù)變量個體間距離的計算方式如果所涉及的個變量都是計數(shù)(Count)的非連續(xù)變量,對計數(shù)變量的不相似性測度方法,是根據(jù)被計算的兩個觀測量或兩個變量總頻數(shù)計算其不相似性。期望值來自觀測量或變量的獨立模型。個體間距離的定量通常有卡方距離(Chi-Squaremeasure)Phi方距離(Phi-Squaremeasure)兩種方式:
3、二值變量個體間距離的計算方式如果所涉及的個變量都是二值(Binary)變量,那么個體間距離的定義通常有簡單匹配系數(shù)(Simplematching和雅科比系數(shù)(Jaccard)兩種方式。35歡迎下載可修改(二)個體與小類、小類與小類間親疏程度的度量在SPSS中提供了多種度量個體與小類、小類與小類間親疏程度的方法,如最短距離法(Nearestneighbor)、最長距離法(Furthestneighbor)、中間距離法(Medianclustering)、組間平均鏈鎖法(Between-groupslinkage)、組內(nèi)平均鏈鎖法(Within-groupslinkage)、重心法(Centroidclustering)、離差平方和法(Ward‘smethod)。在一般情況下,用不同的方法聚類的結(jié)果是不會完全一致的。在實際應(yīng)用中,一般采用以下兩種處理方法:①根據(jù)分類問題本身的專業(yè)知識結(jié)合實際需要來選擇分類方法,并確定分類個數(shù);②多用幾種分類方法去作,把結(jié)果中的共性提出來,對有爭議的樣本用判別分析去歸類。
36歡迎下載可修改三、層次聚類在SPSS中的實現(xiàn)
1.建立或打開數(shù)據(jù)文件后,進入Analyze—Classify--HierachicalClusterAnalysis主對話框,如圖8-9所示。圖8-9層次聚類對話框37歡迎下載可修改
2、把參與分析的變量選到Variable(s)框中。
3、把一個字符型變量作為標記變量選到LabelCases框中,它將大大增加聚類分析結(jié)果的可讀性。
4、在Cluster框中選擇聚類類型。其中Cases項表示進行型聚類,Variables項表示進行型聚類。
5、在Display框中選擇輸出內(nèi)容。其中Statistics表示輸出聚類分析的相關(guān)統(tǒng)計量,Plots表示輸出聚類分析的相關(guān)圖形。38歡迎下載可修改6、單擊Statistics按鈕,選擇要求輸出的統(tǒng)計量,如圖8-10所示。圖8-10Statistics對話框39歡迎下載可修改
(1)Agglomerationschedule復(fù)選項,表示輸出聚類分析的凝聚狀態(tài)表。
(2)ProximityMatrix復(fù)選項,表示輸出個體間的距離矩陣。產(chǎn)生什么類型的矩陣取決于在Method對話框中Measure欄中的選擇。
(3)ClusterMembership(類成員欄)選項,顯示每個觀測量被分派到的類或顯示若干步凝聚過程。其中:①None選項,不顯示類成員表,是系統(tǒng)默認值。②Singlesolution選項,要求列出聚為一定類數(shù)的各觀測量所屬的類。③Rangeofsolutions選項,要求列出某個范圍中每一步各觀測量所屬的類。40歡迎下載可修改7、單擊Plots按鈕,選擇輸出統(tǒng)計圖表,如圖8-11所示。圖8-11Plots對話框41歡迎下載可修改
(1)Dendrogram復(fù)選項,表示輸出聚類分析的樹形圖。
(2)Icicle復(fù)選項,表示輸出聚類分析的冰柱圖,其中:Allclusters選項,聚類的每一步都表現(xiàn)在圖中。Specifiedrangeofclusters選項,指定顯示的聚類范圍。None,不生成冰柱圖。
(3)Orientation欄指定如何顯示冰柱圖,其中Vertical表示縱向顯示,Horizontal表示橫向水平的冰柱圖。42歡迎下載可修改
8、單擊“Method”按鈕,展開Method分層聚類分析的方法選擇對話框,如圖8-12所示。圖8-12Method對話框
43歡迎下載可修改(1)ClusterMethod表中列出可以選擇的聚類方法有Between-groupslinkage(類間平均鏈鎖)、Within-groupslinkage(類內(nèi)平均鏈鎖法)、Nearestneighbor(最近鄰居法)、Furthestneighbor(最遠鄰居法)、Centroidclustering(重心法)、Medianclustering(中間距離法)、Ward‘smethod(離差平方和法)。
(2)Measure框中給出的是不同變量類型下的個體距離的計算方法,其中Interval框中的方法適用于連續(xù)性定距變量,Counts框中的方法適用于計數(shù)型變量,Binary框中的方法適用于二值變量。44歡迎下載可修改
(3)單擊TransformValues框中的Standardize右側(cè)向下的箭頭按鈕,展開標準化方法列表,只有選擇了Interval或Counts后才可以進行標準化。Byvariable適用于型聚類分析;Bycase適用于型聚類分析。對數(shù)據(jù)進行標準化的可選擇的方法有:①None選項,不進行標準化;②scores選項,把數(shù)值標準化到分數(shù);③Range-1to1選項,把數(shù)值標準化到-1到+1的范圍內(nèi);④Range0tol選項,把數(shù)值標準化到0到+1的范圍內(nèi);⑤Maximummagnitudeof1選項,把數(shù)值標準化到最大值1;⑥Meanof1選項,把數(shù)值標準化到一個均值的范圍內(nèi);⑦Standarddeviationof1選項,把數(shù)值標準化到單位標準差。45歡迎下載可修改
(4)TransformMeasure框為測度的轉(zhuǎn)換方法選擇欄。其中:①AbsoluteValues復(fù)選項,把距離值取絕對值。當數(shù)值符號表示相關(guān)方向,且只對負相關(guān)關(guān)系感興趣時,使用此方法進行變換。②Changesign復(fù)選項,把相似性值變?yōu)椴幌嗨菩灾祷蛳喾矗们蠓吹姆椒ㄊ咕嚯x順序顛倒。③Rescaleto0~1range復(fù)選項,通過首先減去最小值然后除以范圍的方法使距離標準化。46歡迎下載可修改
9、聚類分析的結(jié)果可以用新變量保存在工作數(shù)據(jù)文件中。單擊主對話框的“Save”按鈕,展開相應(yīng)的對話框,如圖8-13所示。圖8-13SaveNewVariables對話框47歡迎下載可修改(1)None選項,不建立新變量。(2)Singlesolution選項,即單一結(jié)果。(3)Rangeofsolutions選項,即指定范圍內(nèi)的結(jié)果。
10、執(zhí)行Cluster過程,點擊主對話框中的“OK”按鈕即可。48歡迎下載可修改
四、快速樣本聚類在SPSS中的實現(xiàn)
1.建立或讀入數(shù)據(jù)文件后,進入Analyze--Classify--K-MeansClusterAnalysis對話框,如圖8-15所示。圖8-15K-MeansClusterAnalysis對話框49歡迎下載可修改
2、指定參與K-Means聚類的變量放入Variables框中。
3、把一個字符型變量作為標記變量選到LabelCases框中,它將大大增加聚類分析結(jié)果的可讀性。
4、在NumberofClusters框中輸入聚類數(shù)目,該數(shù)應(yīng)小于樣本數(shù)。
5、在Method框中指定聚類過程是否調(diào)整類中心點。其中,Iterateandclassify表示在聚類分析的每一步都重新確定類中心點;Classifyonly表示聚類分析過程中類中心點始終為初始類中心點,此時僅進行一次迭代。
6、ClusterCenters欄內(nèi)。Readinitialfrom復(fù)選框要求使用指定數(shù)據(jù)文件中的觀測量作為初始類中心。Writefinalas復(fù)選框要求把聚類結(jié)果中的各類中心數(shù)據(jù)保存到指定的文件中。50歡迎下載可修改7、控制聚類分析過程的選項。在對話框中單擊Iterate按鈕,展開設(shè)置迭代參數(shù)的對話框,如圖8-16所示。圖8-16指定迭代參數(shù)對話框51歡迎下載可修改
(1)MaximumIterations參數(shù)框:限定K-Means算法的迭代次數(shù)。(2)ConvergenceCriterion參數(shù)框:指定限定K-Means算法的收斂判據(jù)。(3)Userunningmeans復(fù)選框:選中該框,限定在每個觀測量被分配到一類后,即刻計算新的類中心。52歡迎下載可修改
8、在對話框中單擊Save按鈕,展開SaveNewVariables(保存新變量)對話框,如圖8-17所示。圖8-17SaveNewVariables對話框53歡迎下載可修改
(1)選擇ClusterMember復(fù)選框,要求在當前工作數(shù)據(jù)文件中(數(shù)據(jù)窗口中)建立一個新變量,系統(tǒng)默認變量名為qxl_1。(2)選擇Distancefromclustercenter復(fù)選框,要求在當前工作數(shù)據(jù)文件中(數(shù)據(jù)窗口中)建立一個新變量,系統(tǒng)默認變量名為qcl_2。54歡迎下載可修改
9、在對話框中單擊Options對話框,打開如圖8-18的選擇對話框。圖8-1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工廠安全教育課件
- 期末檢測(試題)-2021-2022學年道德與法治三年級上冊
- 2024年二建公路-精粹八頁紙
- 防詐騙班會課件
- 醫(yī)院飲食護理課件
- U9SMART敏捷實施方法論V6.5-02階段詳解
- 金色的草地課件教學
- 有轉(zhuǎn)讓合同無合伙合同模板
- 古琴租賃合同模板
- 買賣礦居間合同模板
- 食物氨基酸含量表
- 醫(yī)療保險實施方案模板
- TD-T 1069-2022 國土空間生態(tài)保護修復(fù)工程驗收規(guī)范
- 一元二次方程1 單元作業(yè)設(shè)計
- 優(yōu)質(zhì)課大賽-高中地理-10年-鋒與天氣 全國優(yōu)質(zhì)課一等獎
- 技術(shù)規(guī)范書【模板】
- 西藏審美文化智慧樹知到答案章節(jié)測試2023年西藏民族大學
- 圖書館設(shè)計說明
- 2023年湖南大學工商管理學院招聘管理輔助崗位筆試備考試題及答案解析
- 英語試題雙向細目表
- 車站基坑圍護結(jié)構(gòu)漏水處理方法
評論
0/150
提交評論