因子分析與聚類(lèi)分析(含SPSS)專(zhuān)業(yè)課件_第1頁(yè)
因子分析與聚類(lèi)分析(含SPSS)專(zhuān)業(yè)課件_第2頁(yè)
因子分析與聚類(lèi)分析(含SPSS)專(zhuān)業(yè)課件_第3頁(yè)
因子分析與聚類(lèi)分析(含SPSS)專(zhuān)業(yè)課件_第4頁(yè)
因子分析與聚類(lèi)分析(含SPSS)專(zhuān)業(yè)課件_第5頁(yè)
已閱讀5頁(yè),還剩54頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

因子分析與聚類(lèi)分析

1歡迎下載可修改本章內(nèi)容第一節(jié)因子分析第二節(jié)聚類(lèi)分析2歡迎下載可修改第一節(jié)因子分析

一、因子分析的概念和特點(diǎn)(一)因子分析的概念因子分析(factoranalysis)是利用降維的思想,由研究原始變量相關(guān)矩陣內(nèi)部的依賴(lài)關(guān)系出發(fā),把一些具有錯(cuò)綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個(gè)綜合因子的一種多變量統(tǒng)計(jì)分析方法。在會(huì)計(jì)實(shí)證研究中,因子分析發(fā)揮著重要的作用,如變量構(gòu)造、變量篩選和綜合評(píng)價(jià)等。3歡迎下載可修改

(二)因子分析的特點(diǎn)

1、因子變量的數(shù)量遠(yuǎn)少于原有指標(biāo)變量的數(shù)量。

2、因子變量并不是原有變量的簡(jiǎn)單取舍,而是對(duì)原有變量的重新組構(gòu)。

3、因子之間線性關(guān)系不顯著。

4、因子變量具有命名解釋性。4歡迎下載可修改二、因子分析的數(shù)學(xué)模型和相關(guān)概念(一)因子分析的數(shù)學(xué)模型因子分析的數(shù)學(xué)模型為:

(8.1)

寫(xiě)成矩陣形式為,其中為原始變量向量,為公因子載荷矩陣,為公共因子,為特殊因子。5歡迎下載可修改(二)因子分析中的基本概念1、因子的含義因子分析法中提到兩種因子:公共因子和特殊因子。公共因子是每個(gè)原有變量的線性表達(dá)式中都共同出現(xiàn)的因子,各公因子都是均值為0,方差為1的獨(dú)立正態(tài)隨機(jī)變量。其協(xié)方差矩陣為單位矩陣。特殊因子表示原有變量不能被公共因子解釋的部分,其均值為0。各特殊因子之間以及特殊因子與所有公共因子之間都是互相獨(dú)立的。2、因子載荷模型中各公共因子的系數(shù)稱(chēng)為因子載荷,反映了第個(gè)變量在第個(gè)公共因子上的相對(duì)重要性,,的絕對(duì)值越大,表明與的相依程度越大。6歡迎下載可修改3、變量共同度因子載荷矩陣中第行元素的平方和,稱(chēng)為變量的共同度,即變量方差。此值越接近1,表明該變量的幾乎全部原始信息都被所選擇的公共因子說(shuō)明了。此值接近于0,說(shuō)明公共因子對(duì)的影響很小,主要由特殊因子來(lái)描述。4、因子的方差貢獻(xiàn)因子的方差貢獻(xiàn)是因子載荷矩陣中第列元素的平方和,反映了因子對(duì)原有變量總方差的解釋能力,是衡量公共因子相對(duì)重要性的指標(biāo)。此值越大,表明相應(yīng)因子的重要性越高。計(jì)算出所有的指標(biāo),按其大小排序,就可以提煉出最有影響的公共因子。7歡迎下載可修改三、因子分析的步驟(一)因子分析的適合性檢驗(yàn)

1、相關(guān)矩陣和反映像相關(guān)矩陣相關(guān)矩陣中大部分相關(guān)系數(shù)都小于0.3,那么原則上這些數(shù)據(jù)不適合做因子分析。另外,如果反映像相關(guān)矩陣中除對(duì)角元素外,其他大多數(shù)元素的絕對(duì)值均較小,對(duì)角線上元素的值較接近1,則適合進(jìn)行因子分析。2、檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量是用于比較變量間簡(jiǎn)單相關(guān)系數(shù)和偏相關(guān)系數(shù)的指標(biāo),取值在0和1之間。值越接近于1,意味著變量間的相關(guān)性越強(qiáng),原有變量越適合做因子分析。8歡迎下載可修改

3、巴特利特球度檢驗(yàn)(Bartletttestofsphericity)巴特利特球度檢驗(yàn)以原有變量的相關(guān)系數(shù)矩陣為出發(fā)點(diǎn),其零假設(shè)是:相關(guān)矩陣為單位陣,即相關(guān)系數(shù)矩陣為對(duì)角矩陣。巴特利特球度檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量是根據(jù)相關(guān)系數(shù)矩陣的行列式計(jì)算得到,且近似服從卡方分布。如果該統(tǒng)計(jì)量的觀察值比較大且相伴概率值小于或等于給定的顯著性水平,則應(yīng)拒絕原假設(shè);反之,如果該統(tǒng)計(jì)量的觀察值比較小且相伴概率值大于給定的顯著性水平,則不應(yīng)拒絕原假設(shè)。9歡迎下載可修改(二)因子提取和因子載荷矩陣的求解因子分析的關(guān)鍵是根據(jù)樣本數(shù)據(jù)求解因子載荷矩陣,SPSS提供了7種提取因子的方法,其中占主要地位且使用最為廣泛的是主成分分析法。因子提取通常有以下三種方法:(1)特征值準(zhǔn)則,即取特征值大于等于1的主成分作為初始因子,放棄特征值小于1的主成分。(2)累積方差貢獻(xiàn)率,因子累積解釋的方差比例也是確定因子個(gè)數(shù)時(shí)可以參考的指標(biāo),一般應(yīng)達(dá)到70%-85%或以上。(3)碎石檢驗(yàn)準(zhǔn)則,按照因子被提取的順序,畫(huà)出因子的特征值隨因子個(gè)數(shù)變化的散點(diǎn)圖,圖形由陡變平,曲線開(kāi)始變平的前一個(gè)點(diǎn)被認(rèn)為是提取的最大因子數(shù)。10歡迎下載可修改9、人的價(jià)值,在招收誘惑的一瞬間被決定。2023/2/32023/2/3Friday,February3,202310、低頭要有勇氣,抬頭要有低氣。2023/2/32023/2/32023/2/32/3/20234:56:56PM11、人總是珍惜為得到。2023/2/32023/2/32023/2/3Feb-2303-Feb-2312、人亂于心,不寬余請(qǐng)。2023/2/32023/2/32023/2/3Friday,February3,202313、生氣是拿別人做錯(cuò)的事來(lái)懲罰自己。2023/2/32023/2/32023/2/32023/2/32/3/202314、抱最大的希望,作最大的努力。03二月20232023/2/32023/2/32023/2/315、一個(gè)人炫耀什么,說(shuō)明他內(nèi)心缺少什么。。二月232023/2/32023/2/32023/2/32/3/202316、業(yè)余生活要有意義,不要越軌。2023/2/32023/2/303February202317、一個(gè)人即使已登上頂峰,也仍要自強(qiáng)不息。2023/2/32023/2/32023/2/32023/2/3(三)因子命名 在因子分析模型中,公共因子與因子載荷陣的解不是唯一的。因子分析的目的不僅是找出主因子,更重要的是知道每個(gè)主因子的意義,以利于對(duì)公共因子命名和解釋結(jié)果,便于進(jìn)一步的分析。若每個(gè)公共因子的涵義不清,難以找到合理的解釋?zhuān)蓪?duì)因子載荷矩陣實(shí)行旋轉(zhuǎn),使每個(gè)變量?jī)H在一個(gè)公共因子上有較大的載荷,而在其他公共因子上的載荷較小。

SPSS中有5種因子旋轉(zhuǎn)的方式可供選擇:Varimax選項(xiàng),方差最大旋轉(zhuǎn);DirectOblimin選項(xiàng),直接斜交旋轉(zhuǎn);Quartimax選項(xiàng),四次最大正交旋轉(zhuǎn);Equamax選項(xiàng),平均正交旋轉(zhuǎn);Promax選項(xiàng),斜交旋轉(zhuǎn)方法。12歡迎下載可修改9、人的價(jià)值,在招收誘惑的一瞬間被決定。2023/2/32023/2/3Friday,February3,202310、低頭要有勇氣,抬頭要有低氣。2023/2/32023/2/32023/2/32/3/20234:56:56PM11、人總是珍惜為得到。2023/2/32023/2/32023/2/3Feb-2303-Feb-2312、人亂于心,不寬余請(qǐng)。2023/2/32023/2/32023/2/3Friday,February3,202313、生氣是拿別人做錯(cuò)的事來(lái)懲罰自己。2023/2/32023/2/32023/2/32023/2/32/3/202314、抱最大的希望,作最大的努力。03二月20232023/2/32023/2/32023/2/315、一個(gè)人炫耀什么,說(shuō)明他內(nèi)心缺少什么。。二月232023/2/32023/2/32023/2/32/3/202316、業(yè)余生活要有意義,不要越軌。2023/2/32023/2/303February202317、一個(gè)人即使已登上頂峰,也仍要自強(qiáng)不息。2023/2/32023/2/32023/2/32023/2/3(四)計(jì)算因子得分,然后將它們用于各種進(jìn)一步的分析中當(dāng)因子確定以后,便可以計(jì)算各因子在每個(gè)樣本上的具體數(shù)值,這些數(shù)值稱(chēng)為因子得分,形成的變量稱(chēng)為因子變量。于是在以后的分析中就可以因子變量代替原有變量進(jìn)行數(shù)據(jù)建模,或者利用因子變量對(duì)樣本進(jìn)行分類(lèi)或評(píng)價(jià)等研究,進(jìn)而實(shí)現(xiàn)降維和簡(jiǎn)化問(wèn)題的目標(biāo)。由于因子得分函數(shù)中方程的個(gè)數(shù)小于變量的個(gè)數(shù),因此不能精確的計(jì)算出因子得分,只能對(duì)因子得分進(jìn)行估計(jì)。估計(jì)的方法很多,SPSS中列示了三種方法,常用的是Regression回歸法。用因子得分還可以計(jì)算因子總分,根據(jù)因子總分可對(duì)樣本(變量)進(jìn)行排序或歸類(lèi),作為評(píng)價(jià)的依據(jù)。14歡迎下載可修改四、因子分析在SPSS中的實(shí)現(xiàn)1、建立或打開(kāi)數(shù)據(jù)文件后,進(jìn)入Analyze→DataReduction→FactorAnalysis主對(duì)話框,如圖8-1所示。圖8-1因子分析主對(duì)話框15歡迎下載可修改

2、把參與分析的變量選到Variables框中。

3、SelectionVariable選擇變量欄,用于限制有特殊值的樣本子集的分析,當(dāng)一個(gè)變量進(jìn)入該欄時(shí),激活右側(cè)的“Value”按鈕。待“Value”按鈕激活后,單擊該鍵,打開(kāi)SetValue對(duì)話框,如圖8-2所示,可在該對(duì)話框鍵入標(biāo)識(shí)參與分析的觀測(cè)量所具有的該變量值。圖8-2SetValue對(duì)話框16歡迎下載可修改

4、單擊“Descriptivs”按鈕,展開(kāi)Descriptives對(duì)話框,如圖8-3所示,可以選擇單變量的描述統(tǒng)計(jì)量和初始分析結(jié)果。圖8-3Descriptives對(duì)話框17歡迎下載可修改(1)Statistics統(tǒng)計(jì)量框①Univariatedescriptive復(fù)選項(xiàng),單變量描述統(tǒng)計(jì)量。②Initialsolution復(fù)選項(xiàng),初始分析結(jié)果。(2)CorrelationMatrix相關(guān)矩陣框①Coefficients復(fù)選項(xiàng),顯示相關(guān)系數(shù)。②Significancelevels復(fù)選項(xiàng),顯示相關(guān)系數(shù)的顯著性水平。③Determinant復(fù)選項(xiàng),顯示相關(guān)系數(shù)矩陣的行列式。④Inverse復(fù)選項(xiàng),顯示相關(guān)系數(shù)矩陣的逆矩陣。⑤Reproduced選項(xiàng),顯示再生相關(guān)陣。⑥Anti-image復(fù)選項(xiàng),選擇此項(xiàng)給出反映象相關(guān)矩陣。⑦andBartlett’stestofSphericity復(fù)選項(xiàng),要求進(jìn)行檢驗(yàn)和球形Bartlett檢驗(yàn)。18歡迎下載可修改

5、單擊“Extraction”按鈕,進(jìn)入Extraction對(duì)話框,如圖8-4所示,可以選擇不同的提取公因子的方法和控制提取結(jié)果的判據(jù)。圖8-4Extraction對(duì)話框19歡迎下載可修改(1)Method框,因子提取方法選擇項(xiàng)①Principalcomponents選項(xiàng),主成份法。②UnweightedleastSquare選項(xiàng),不加權(quán)最小平方法。③Generalizedleastsquares選項(xiàng),用變量值的倒數(shù)加權(quán)。④MaximumLikelihoud選項(xiàng),最大似然法。⑤PrincipalAxisfactoring選項(xiàng),使用多元相關(guān)的平方作為對(duì)公因子方差的初始估計(jì)。⑥Alphafactoring選項(xiàng),因子提取法。⑦Imagefactoring選項(xiàng),映象因子提取法。20歡迎下載可修改(2)Analyze框,指定分析矩陣的選擇項(xiàng)。①CorrelationMatrix選項(xiàng),指定以分析變量的相關(guān)矩陣為提取因子的依據(jù)。②Covariancematrix選項(xiàng),指定以分析變量的協(xié)方差矩陣為提取因子的依據(jù)。(3)Display框,指定與因子提取有關(guān)的輸出項(xiàng)。①Unrotatedfactorsolution復(fù)選項(xiàng),要求顯示未經(jīng)旋轉(zhuǎn)的因子提取結(jié)果。②Screeplot復(fù)選項(xiàng),要求顯示按特征值大小排列的因子序號(hào),以特征值為兩個(gè)坐標(biāo)軸的碎石圖。21歡迎下載可修改(4)Extract框,控制提取進(jìn)程和提取結(jié)果的選擇項(xiàng)。①Eigenvaluesover選項(xiàng),指定提取的因子應(yīng)該具有的特征值范圍,在此項(xiàng)后面的矩形框中給出。②Numberoffactors選項(xiàng),指定提取公因子的數(shù)目。(5)MaximumiterationsforConvergence參數(shù)框,指定因子分析收斂的最大迭代次數(shù)。22歡迎下載可修改

6、單擊“Rotation”按鈕,展開(kāi)Rotation對(duì)話框,如圖8-5所示,可以選擇因子旋轉(zhuǎn)方法。圖8-5Rotation對(duì)話框23歡迎下載可修改

(1)Method框,選擇旋轉(zhuǎn)方法。其中,None表示不進(jìn)行旋轉(zhuǎn),Varimax為方差最大旋轉(zhuǎn)法,DirectOblilmin為直接斜交旋轉(zhuǎn)法,Quartmax為四次最大正交旋轉(zhuǎn)法,Equamax為平均正交旋轉(zhuǎn)法,Promax為斜交旋轉(zhuǎn)法。(2)Display框,選擇有關(guān)輸出的選項(xiàng)。其中:Rotatedsolution選項(xiàng),顯示旋轉(zhuǎn)結(jié)果;Loadingplot(s)選項(xiàng),顯示因子載荷散點(diǎn)圖。(3)MaximumiterationsforConvergence參數(shù)框,指定旋轉(zhuǎn)收斂的最大迭代次數(shù)。24歡迎下載可修改

7、單擊“Scores”按鈕,進(jìn)入FactorScores對(duì)話框,如圖8-6所示,可以要求計(jì)算因子得分,選擇顯示或作為新變量保存。圖8-6FactorScores對(duì)話框25歡迎下載可修改

(1)Saveasvariables復(fù)選項(xiàng),將因子得分作為新變量保存在數(shù)據(jù)文件中。(2)Method欄,指定計(jì)算因子得分的方法。其中,Regression選項(xiàng)為回歸法,Bartlett選項(xiàng)為巴特利特法,Anderson-Rubin選項(xiàng)是為了保證因子的正交性而對(duì)Bartlett因子得分的調(diào)整。(3)Displayfactorscorecoefficientmatrix復(fù)選項(xiàng),選擇此項(xiàng)將在輸出窗中顯示因子得分系數(shù)矩陣,是標(biāo)準(zhǔn)化的得分系數(shù)。原始變量值進(jìn)行標(biāo)準(zhǔn)化后,可以根據(jù)該矩陣給出的系數(shù)計(jì)算各觀測(cè)量的因子得分,還顯示協(xié)方差矩陣。26歡迎下載可修改

8、單擊“Options”按鈕,進(jìn)入Options對(duì)話框,可以進(jìn)一步選擇各種輸出項(xiàng)。如圖8-7所示。圖8-7Options對(duì)話框27歡迎下載可修改(1)MissingValues欄,選擇處理缺失值方法。①Excludecaseslistwise選項(xiàng),在分析過(guò)程中對(duì)那些指定的分析變量中有缺失值的觀測(cè)量一律剔除。②Excludecasespairwise選項(xiàng),成對(duì)剔除帶有缺失值的觀測(cè)量。。③Replacewithmean選項(xiàng),用該變量的均值代替該變量的所有缺失值。(2)CoefficientDisplayFormat欄,決定載荷系數(shù)的顯示格式。①Sortedbysize復(fù)選項(xiàng),選中此項(xiàng)載荷系數(shù)按其數(shù)值的大小排列并構(gòu)成矩陣。②Suppressabsolutevalueslessthan復(fù)選項(xiàng),選中此項(xiàng),不顯示那些絕對(duì)值小于指定值的載荷系數(shù)。28歡迎下載可修改第二節(jié)聚類(lèi)分析

一、聚類(lèi)分析概述(一)聚類(lèi)分析的概念聚類(lèi)分析是一種建立分類(lèi)的多元統(tǒng)計(jì)分析方法,它能夠?qū)⒁慌鷺颖荆ɑ蜃兞浚?shù)據(jù)根據(jù)其諸多特征,按照在性質(zhì)上的親疏程度在沒(méi)有先驗(yàn)知識(shí)的情況下進(jìn)行自動(dòng)分類(lèi),將所有的樣本或變量分別聚合到不同的類(lèi)中,使同一類(lèi)中的個(gè)體有較大的相似性,不同類(lèi)中的個(gè)體差異較大。所謂“沒(méi)有先驗(yàn)知識(shí)”是指沒(méi)有事先指定分類(lèi)標(biāo)準(zhǔn);所謂“親疏程度”是指在各變量(特征)取值上的總體差異程度。29歡迎下載可修改(二)層次聚類(lèi)和K-Means聚類(lèi)1、層次聚類(lèi)層次聚類(lèi)又稱(chēng)分層聚類(lèi)、系統(tǒng)聚類(lèi),是指聚類(lèi)過(guò)程是按照一定層次進(jìn)行的。層次聚類(lèi)按照不同特征分為以下兩種:(1)按照對(duì)象類(lèi)型分為型聚類(lèi)和型聚類(lèi)型聚類(lèi)是對(duì)樣本進(jìn)行分類(lèi),主要作用為:①可綜合利用多個(gè)變量的信息對(duì)樣本進(jìn)行分類(lèi);②分類(lèi)結(jié)果直觀,聚類(lèi)譜系圖非常清楚地表現(xiàn)分類(lèi)結(jié)果;③所得結(jié)果比傳統(tǒng)分類(lèi)方法更細(xì)致、全面、合理。型聚類(lèi)是對(duì)變量進(jìn)行分類(lèi)處理,主要作用為:①可了解個(gè)別變量之間及變量組合之間的親疏程度;②根據(jù)變量的分類(lèi)結(jié)果以及它們之間的關(guān)系,可以選擇主要變量進(jìn)行回歸分析或型聚類(lèi)分析。

30歡迎下載可修改(2)根據(jù)聚類(lèi)過(guò)程不同分為凝聚法和分解法。分解法:聚類(lèi)開(kāi)始把所有個(gè)體(觀測(cè)量或變量)都視為屬于一大類(lèi),然后根據(jù)距離和相似性逐層分解,直到參與聚類(lèi)的每個(gè)個(gè)體自成一類(lèi)為止。凝聚法:聚類(lèi)開(kāi)始把參與聚類(lèi)的每個(gè)個(gè)體(觀測(cè)量或變量)視為一類(lèi),根據(jù)兩類(lèi)之間的距離或相似性逐步合并,直到合并為一個(gè)大類(lèi)為止。無(wú)論哪種方法,其聚類(lèi)原則都是近似的聚為一類(lèi),即距離最近或最相似的聚為一類(lèi)。實(shí)際上以上兩種方法是方向相反的兩種聚類(lèi)過(guò)程。31歡迎下載可修改2、K-Means聚類(lèi)

K-Means聚類(lèi)也稱(chēng)快速聚類(lèi),它仍將數(shù)據(jù)看成維空間上的點(diǎn),仍以距離作為測(cè)度個(gè)體“親疏程度”的指標(biāo),并通過(guò)犧牲多個(gè)解為代價(jià)換得高的執(zhí)行效率。

K-Means聚類(lèi)的核心步驟為:第一步,指定聚類(lèi)數(shù)目;第二步,確定個(gè)初始類(lèi)中心;第三步,根據(jù)距離最近原則進(jìn)行分類(lèi);第四步,重新確定個(gè)類(lèi)中心;第五步,判斷是否已滿足終止聚類(lèi)分析的條件。從上述分析過(guò)程可以看出,K-MeansCluster快速聚類(lèi)是一個(gè)反復(fù)迭代的分類(lèi)過(guò)程。在聚類(lèi)過(guò)程中,樣本所屬的類(lèi)會(huì)不斷調(diào)整,直到最終達(dá)到穩(wěn)定為止??焖倬垲?lèi)適用于大樣本的聚類(lèi)分析。它能快速的把各觀測(cè)量分到各類(lèi)中去。32歡迎下載可修改(三)聚類(lèi)分析的幾點(diǎn)說(shuō)明

1、所選擇的變量應(yīng)符合聚類(lèi)的要求可根據(jù)實(shí)際工作經(jīng)驗(yàn)和所研究問(wèn)題的特征人為的選擇變量,這些變量應(yīng)該和分析的目標(biāo)密切相關(guān),反映分類(lèi)對(duì)象的特征。

2、各變量的變量值不應(yīng)有數(shù)量級(jí)上的差異為了避免對(duì)變量單位選擇的依賴(lài),數(shù)據(jù)應(yīng)當(dāng)標(biāo)準(zhǔn)化。

3、各變量間不應(yīng)有較強(qiáng)的線性相關(guān)關(guān)系如果所選變量之間存在較高的線性關(guān)系,有兩種處理方法:(1)首先進(jìn)行變量聚類(lèi),從每類(lèi)中選一代表性變量,再進(jìn)行樣本聚類(lèi);(2)進(jìn)行主成分分析或因子分析,降維,使之成為不相關(guān)的新變量,再進(jìn)行樣本聚類(lèi)。33歡迎下載可修改二、聚類(lèi)分析中“親疏程度”的度量(一)個(gè)體間“親疏程度”的度量聚類(lèi)分析中,對(duì)“親疏程度”的測(cè)度一般有兩個(gè)角度:第一,個(gè)體之間的相似程度;第二,個(gè)體之間的差異程度。在SPSS中,對(duì)不同度量類(lèi)型的數(shù)據(jù)采用了不同的測(cè)定親疏程度的統(tǒng)計(jì)量。

1、定距型變量個(gè)體間距離的計(jì)算方式通常有歐式距離(Euclideandistance)、平方歐式距離(SquaredEuclideandistance)、夾角余弦(Cosine)距離、相關(guān)系數(shù)距離(Pearsoncorrelation)、切比雪夫距離(Chebychev:Chebychev)、Block距離(City-Block)或Manhattan距離、明考斯基距離(Minkowski)、用戶(hù)自定義距離(Customized)等8種方法。這些方法分別適用于型聚類(lèi)和型聚類(lèi)34歡迎下載可修改

2、計(jì)數(shù)變量個(gè)體間距離的計(jì)算方式如果所涉及的個(gè)變量都是計(jì)數(shù)(Count)的非連續(xù)變量,對(duì)計(jì)數(shù)變量的不相似性測(cè)度方法,是根據(jù)被計(jì)算的兩個(gè)觀測(cè)量或兩個(gè)變量總頻數(shù)計(jì)算其不相似性。期望值來(lái)自觀測(cè)量或變量的獨(dú)立模型。個(gè)體間距離的定量通常有卡方距離(Chi-Squaremeasure)Phi方距離(Phi-Squaremeasure)兩種方式:

3、二值變量個(gè)體間距離的計(jì)算方式如果所涉及的個(gè)變量都是二值(Binary)變量,那么個(gè)體間距離的定義通常有簡(jiǎn)單匹配系數(shù)(Simplematching和雅科比系數(shù)(Jaccard)兩種方式。35歡迎下載可修改(二)個(gè)體與小類(lèi)、小類(lèi)與小類(lèi)間親疏程度的度量在SPSS中提供了多種度量個(gè)體與小類(lèi)、小類(lèi)與小類(lèi)間親疏程度的方法,如最短距離法(Nearestneighbor)、最長(zhǎng)距離法(Furthestneighbor)、中間距離法(Medianclustering)、組間平均鏈鎖法(Between-groupslinkage)、組內(nèi)平均鏈鎖法(Within-groupslinkage)、重心法(Centroidclustering)、離差平方和法(Ward‘smethod)。在一般情況下,用不同的方法聚類(lèi)的結(jié)果是不會(huì)完全一致的。在實(shí)際應(yīng)用中,一般采用以下兩種處理方法:①根據(jù)分類(lèi)問(wèn)題本身的專(zhuān)業(yè)知識(shí)結(jié)合實(shí)際需要來(lái)選擇分類(lèi)方法,并確定分類(lèi)個(gè)數(shù);②多用幾種分類(lèi)方法去作,把結(jié)果中的共性提出來(lái),對(duì)有爭(zhēng)議的樣本用判別分析去歸類(lèi)。

36歡迎下載可修改三、層次聚類(lèi)在SPSS中的實(shí)現(xiàn)

1.建立或打開(kāi)數(shù)據(jù)文件后,進(jìn)入Analyze—Classify--HierachicalClusterAnalysis主對(duì)話框,如圖8-9所示。圖8-9層次聚類(lèi)對(duì)話框37歡迎下載可修改

2、把參與分析的變量選到Variable(s)框中。

3、把一個(gè)字符型變量作為標(biāo)記變量選到LabelCases框中,它將大大增加聚類(lèi)分析結(jié)果的可讀性。

4、在Cluster框中選擇聚類(lèi)類(lèi)型。其中Cases項(xiàng)表示進(jìn)行型聚類(lèi),Variables項(xiàng)表示進(jìn)行型聚類(lèi)。

5、在Display框中選擇輸出內(nèi)容。其中Statistics表示輸出聚類(lèi)分析的相關(guān)統(tǒng)計(jì)量,Plots表示輸出聚類(lèi)分析的相關(guān)圖形。38歡迎下載可修改6、單擊Statistics按鈕,選擇要求輸出的統(tǒng)計(jì)量,如圖8-10所示。圖8-10Statistics對(duì)話框39歡迎下載可修改

(1)Agglomerationschedule復(fù)選項(xiàng),表示輸出聚類(lèi)分析的凝聚狀態(tài)表。

(2)ProximityMatrix復(fù)選項(xiàng),表示輸出個(gè)體間的距離矩陣。產(chǎn)生什么類(lèi)型的矩陣取決于在Method對(duì)話框中Measure欄中的選擇。

(3)ClusterMembership(類(lèi)成員欄)選項(xiàng),顯示每個(gè)觀測(cè)量被分派到的類(lèi)或顯示若干步凝聚過(guò)程。其中:①None選項(xiàng),不顯示類(lèi)成員表,是系統(tǒng)默認(rèn)值。②Singlesolution選項(xiàng),要求列出聚為一定類(lèi)數(shù)的各觀測(cè)量所屬的類(lèi)。③Rangeofsolutions選項(xiàng),要求列出某個(gè)范圍中每一步各觀測(cè)量所屬的類(lèi)。40歡迎下載可修改7、單擊Plots按鈕,選擇輸出統(tǒng)計(jì)圖表,如圖8-11所示。圖8-11Plots對(duì)話框41歡迎下載可修改

(1)Dendrogram復(fù)選項(xiàng),表示輸出聚類(lèi)分析的樹(shù)形圖。

(2)Icicle復(fù)選項(xiàng),表示輸出聚類(lèi)分析的冰柱圖,其中:Allclusters選項(xiàng),聚類(lèi)的每一步都表現(xiàn)在圖中。Specifiedrangeofclusters選項(xiàng),指定顯示的聚類(lèi)范圍。None,不生成冰柱圖。

(3)Orientation欄指定如何顯示冰柱圖,其中Vertical表示縱向顯示,Horizontal表示橫向水平的冰柱圖。42歡迎下載可修改

8、單擊“Method”按鈕,展開(kāi)Method分層聚類(lèi)分析的方法選擇對(duì)話框,如圖8-12所示。圖8-12Method對(duì)話框

43歡迎下載可修改(1)ClusterMethod表中列出可以選擇的聚類(lèi)方法有Between-groupslinkage(類(lèi)間平均鏈鎖)、Within-groupslinkage(類(lèi)內(nèi)平均鏈鎖法)、Nearestneighbor(最近鄰居法)、Furthestneighbor(最遠(yuǎn)鄰居法)、Centroidclustering(重心法)、Medianclustering(中間距離法)、Ward‘smethod(離差平方和法)。

(2)Measure框中給出的是不同變量類(lèi)型下的個(gè)體距離的計(jì)算方法,其中Interval框中的方法適用于連續(xù)性定距變量,Counts框中的方法適用于計(jì)數(shù)型變量,Binary框中的方法適用于二值變量。44歡迎下載可修改

(3)單擊TransformValues框中的Standardize右側(cè)向下的箭頭按鈕,展開(kāi)標(biāo)準(zhǔn)化方法列表,只有選擇了Interval或Counts后才可以進(jìn)行標(biāo)準(zhǔn)化。Byvariable適用于型聚類(lèi)分析;Bycase適用于型聚類(lèi)分析。對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的可選擇的方法有:①None選項(xiàng),不進(jìn)行標(biāo)準(zhǔn)化;②scores選項(xiàng),把數(shù)值標(biāo)準(zhǔn)化到分?jǐn)?shù);③Range-1to1選項(xiàng),把數(shù)值標(biāo)準(zhǔn)化到-1到+1的范圍內(nèi);④Range0tol選項(xiàng),把數(shù)值標(biāo)準(zhǔn)化到0到+1的范圍內(nèi);⑤Maximummagnitudeof1選項(xiàng),把數(shù)值標(biāo)準(zhǔn)化到最大值1;⑥Meanof1選項(xiàng),把數(shù)值標(biāo)準(zhǔn)化到一個(gè)均值的范圍內(nèi);⑦Standarddeviationof1選項(xiàng),把數(shù)值標(biāo)準(zhǔn)化到單位標(biāo)準(zhǔn)差。45歡迎下載可修改

(4)TransformMeasure框?yàn)闇y(cè)度的轉(zhuǎn)換方法選擇欄。其中:①AbsoluteValues復(fù)選項(xiàng),把距離值取絕對(duì)值。當(dāng)數(shù)值符號(hào)表示相關(guān)方向,且只對(duì)負(fù)相關(guān)關(guān)系感興趣時(shí),使用此方法進(jìn)行變換。②Changesign復(fù)選項(xiàng),把相似性值變?yōu)椴幌嗨菩灾祷蛳喾矗们蠓吹姆椒ㄊ咕嚯x順序顛倒。③Rescaleto0~1range復(fù)選項(xiàng),通過(guò)首先減去最小值然后除以范圍的方法使距離標(biāo)準(zhǔn)化。46歡迎下載可修改

9、聚類(lèi)分析的結(jié)果可以用新變量保存在工作數(shù)據(jù)文件中。單擊主對(duì)話框的“Save”按鈕,展開(kāi)相應(yīng)的對(duì)話框,如圖8-13所示。圖8-13SaveNewVariables對(duì)話框47歡迎下載可修改(1)None選項(xiàng),不建立新變量。(2)Singlesolution選項(xiàng),即單一結(jié)果。(3)Rangeofsolutions選項(xiàng),即指定范圍內(nèi)的結(jié)果。

10、執(zhí)行Cluster過(guò)程,點(diǎn)擊主對(duì)話框中的“OK”按鈕即可。48歡迎下載可修改

四、快速樣本聚類(lèi)在SPSS中的實(shí)現(xiàn)

1.建立或讀入數(shù)據(jù)文件后,進(jìn)入Analyze--Classify--K-MeansClusterAnalysis對(duì)話框,如圖8-15所示。圖8-15K-MeansClusterAnalysis對(duì)話框49歡迎下載可修改

2、指定參與K-Means聚類(lèi)的變量放入Variables框中。

3、把一個(gè)字符型變量作為標(biāo)記變量選到LabelCases框中,它將大大增加聚類(lèi)分析結(jié)果的可讀性。

4、在NumberofClusters框中輸入聚類(lèi)數(shù)目,該數(shù)應(yīng)小于樣本數(shù)。

5、在Method框中指定聚類(lèi)過(guò)程是否調(diào)整類(lèi)中心點(diǎn)。其中,Iterateandclassify表示在聚類(lèi)分析的每一步都重新確定類(lèi)中心點(diǎn);Classifyonly表示聚類(lèi)分析過(guò)程中類(lèi)中心點(diǎn)始終為初始類(lèi)中心點(diǎn),此時(shí)僅進(jìn)行一次迭代。

6、ClusterCenters欄內(nèi)。Readinitialfrom復(fù)選框要求使用指定數(shù)據(jù)文件中的觀測(cè)量作為初始類(lèi)中心。Writefinalas復(fù)選框要求把聚類(lèi)結(jié)果中的各類(lèi)中心數(shù)據(jù)保存到指定的文件中。50歡迎下載可修改7、控制聚類(lèi)分析過(guò)程的選項(xiàng)。在對(duì)話框中單擊Iterate按鈕,展開(kāi)設(shè)置迭代參數(shù)的對(duì)話框,如圖8-16所示。圖8-16指定迭代參數(shù)對(duì)話框51歡迎下載可修改

(1)MaximumIterations參數(shù)框:限定K-Means算法的迭代次數(shù)。(2)ConvergenceCriterion參數(shù)框:指定限定K-Means算法的收斂判據(jù)。(3)Userunningmeans復(fù)選框:選中該框,限定在每個(gè)觀測(cè)量被分配到一類(lèi)后,即刻計(jì)算新的類(lèi)中心。52歡迎下載可修改

8、在對(duì)話框中單擊Save按鈕,展開(kāi)SaveNewVariables(保存新變量)對(duì)話框,如圖8-17所示。圖8-17SaveNewVariables對(duì)話框53歡迎下載可修改

(1)選擇ClusterMember復(fù)選框,要求在當(dāng)前工作數(shù)據(jù)文件中(數(shù)據(jù)窗口中)建立一個(gè)新變量,系統(tǒng)默認(rèn)變量名為qxl_1。(2)選擇Distancefromclustercenter復(fù)選框,要求在當(dāng)前工作數(shù)據(jù)文件中(數(shù)據(jù)窗口中)建立一個(gè)新變量,系統(tǒng)默認(rèn)變量名為qcl_2。54歡迎下載可修改

9、在對(duì)話框中單擊Options對(duì)話框,打開(kāi)如圖8-18的選擇對(duì)話框。圖8-1

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論