




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、1spss 16實用教程第第8章章 聚類分析與判別分析聚類分析與判別分析2聚類分析與判別分析的基本概念聚類分析與判別分析的基本概念8.1層次聚類分析中的層次聚類分析中的qq型聚類型聚類8.2層次聚類分析中的層次聚類分析中的r r型聚類型聚類8.3快速聚類分析快速聚類分析8.4判判 別別 分分 析析8.53 本章介紹統(tǒng)計學(xué)中經(jīng)常使用的分類統(tǒng)計分本章介紹統(tǒng)計學(xué)中經(jīng)常使用的分類統(tǒng)計分析方法析方法聚類分析與判別分析。主要內(nèi)容有聚類分析與判別分析。主要內(nèi)容有層次聚類分析、快速聚類分析和判別分析。其層次聚類分析、快速聚類分析和判別分析。其中層次聚類分析根據(jù)聚類的對象不同分成中層次聚類分析根據(jù)聚類的對象不同
2、分成q q型型聚類和聚類和r r型聚類。型聚類。4 統(tǒng)計學(xué)研究這類問題的常用分類統(tǒng)計方法統(tǒng)計學(xué)研究這類問題的常用分類統(tǒng)計方法主要有聚類分析(主要有聚類分析(cluster analysiscluster analysis)與判)與判別分析(別分析(discriminant analysisdiscriminant analysis)。其中聚)。其中聚類分析是統(tǒng)計學(xué)中研究這種類分析是統(tǒng)計學(xué)中研究這種“物以類聚物以類聚”問題問題的一種有效方法,它屬于統(tǒng)計分析的范疇。聚的一種有效方法,它屬于統(tǒng)計分析的范疇。聚類分析的實質(zhì)是建立一種分類方法,它能夠?qū)㈩惙治龅膶嵸|(zhì)是建立一種分類方法,它能夠?qū)⒁慌鷺颖緮?shù)據(jù)
3、按照他們在性質(zhì)上的親密程度在一批樣本數(shù)據(jù)按照他們在性質(zhì)上的親密程度在沒有先驗知識的情況下自動進(jìn)行分類。這里所沒有先驗知識的情況下自動進(jìn)行分類。這里所說的類就是一個具有相似性的個體的集合,不說的類就是一個具有相似性的個體的集合,不同類之間具有明顯的區(qū)別。同類之間具有明顯的區(qū)別。5 聚類分析是一種探索性的分析,在分類的聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標(biāo)準(zhǔn),過程中,人們不必事先給出一個分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進(jìn)行分類。聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進(jìn)行分類。聚類分析所使用方法的不同,常常會得到不同聚類分析所使用方法的不同,常常會得到不同的結(jié)
4、論。不同研究者對于同一組數(shù)據(jù)進(jìn)行聚類的結(jié)論。不同研究者對于同一組數(shù)據(jù)進(jìn)行聚類分析,所得到的聚類數(shù)未必一致。因此我們說分析,所得到的聚類數(shù)未必一致。因此我們說聚類分析是一種探索性的分析方法。聚類分析是一種探索性的分析方法。6 對個案的聚類分析類似于判別分析,都是對個案的聚類分析類似于判別分析,都是將一些觀察個案進(jìn)行分類。聚類分析時,個案將一些觀察個案進(jìn)行分類。聚類分析時,個案所屬的群組特點還未知。也就是說,在聚類分所屬的群組特點還未知。也就是說,在聚類分析之前,研究者還不知道獨立觀察組可以分成析之前,研究者還不知道獨立觀察組可以分成多少個類,類的特點也無所得知。多少個類,類的特點也無所得知。7
5、變量的聚類分析類似于因素分析。兩者都變量的聚類分析類似于因素分析。兩者都可用于辨別變量的相關(guān)組別。不同在于,因素可用于辨別變量的相關(guān)組別。不同在于,因素分析在合并變量的時候,是同時考慮所有變量分析在合并變量的時候,是同時考慮所有變量之間的關(guān)系;而變量的聚類分析,則采用層次之間的關(guān)系;而變量的聚類分析,則采用層次式的判別方式,根據(jù)個別變量之間的親疏程度式的判別方式,根據(jù)個別變量之間的親疏程度逐次進(jìn)行聚類。逐次進(jìn)行聚類。8 聚類分析的方法,主要有兩種,一種是聚類分析的方法,主要有兩種,一種是“快速聚類分析方法快速聚類分析方法”(k kmeans cluster means cluster anal
6、y- sisanaly- sis),另一種是),另一種是“層次聚類分析方層次聚類分析方法法”(hierarchical cluster analysishierarchical cluster analysis)。)。如果觀察值的個數(shù)多或文件非常龐大(通常觀如果觀察值的個數(shù)多或文件非常龐大(通常觀察值在察值在200200個以上),則宜采用快速聚類分析個以上),則宜采用快速聚類分析方法。因為觀察值數(shù)目巨大,層次聚類分析的方法。因為觀察值數(shù)目巨大,層次聚類分析的兩種判別圖形會過于分散,不易解釋。兩種判別圖形會過于分散,不易解釋。9 判別分析是一種有效的對個案進(jìn)行分類分判別分析是一種有效的對個案進(jìn)行
7、分類分析的方法。和聚類分析不同的是,判別分析時,析的方法。和聚類分析不同的是,判別分析時,組別的特征已知。如銀行為了對貸款進(jìn)行管理,組別的特征已知。如銀行為了對貸款進(jìn)行管理,需要預(yù)測哪些類型的客戶可能不會按時歸還貸需要預(yù)測哪些類型的客戶可能不會按時歸還貸款。已知過去幾年中,款。已知過去幾年中,900900個客戶的貸款歸還個客戶的貸款歸還信譽度,據(jù)此可以將客戶分成兩組:可靠客戶信譽度,據(jù)此可以將客戶分成兩組:可靠客戶和不可靠客戶。和不可靠客戶。 10 再通過收集客戶的一些資料,如年齡、工再通過收集客戶的一些資料,如年齡、工資收入、教育程度、存款等,將這些資料作為資收入、教育程度、存款等,將這些資
8、料作為自變量。通過判別分析,建立判別函數(shù)。那么,自變量。通過判別分析,建立判別函數(shù)。那么,如果有如果有150150個新的客戶提交貸款請求,就可以個新的客戶提交貸款請求,就可以利用創(chuàng)建好的判別函數(shù),對新的客戶進(jìn)行分析,利用創(chuàng)建好的判別函數(shù),對新的客戶進(jìn)行分析,從而判斷新的客戶是屬于可靠客戶類,還是不從而判斷新的客戶是屬于可靠客戶類,還是不可靠客戶類??煽靠蛻纛?。11 層次聚類分析是根據(jù)觀察值或變量之間的層次聚類分析是根據(jù)觀察值或變量之間的親疏程度,將最相似的對象結(jié)合在一起,以逐親疏程度,將最相似的對象結(jié)合在一起,以逐次聚合的方式(次聚合的方式(agglomerative agglomerativ
9、e clusteringclustering),它將觀察值分類,直到最后),它將觀察值分類,直到最后所有樣本都聚成一類。所有樣本都聚成一類。12 層次聚類分析有兩種形式,一種是對樣層次聚類分析有兩種形式,一種是對樣本(個案)進(jìn)行分類,稱為本(個案)進(jìn)行分類,稱為q q型聚類,它使具型聚類,它使具有共同特點的樣本聚齊在一起,以便對不同類有共同特點的樣本聚齊在一起,以便對不同類的樣本進(jìn)行分析;另一種是對研究對象的觀察的樣本進(jìn)行分析;另一種是對研究對象的觀察變量進(jìn)行分類,稱為變量進(jìn)行分類,稱為r r型聚類。它使具有共同型聚類。它使具有共同特征的變量聚在一起,以便從不同類中分別選特征的變量聚在一起,以
10、便從不同類中分別選出具有代表性的變量作分析,從而減少分析變出具有代表性的變量作分析,從而減少分析變量的個數(shù)。量的個數(shù)。 13 本節(jié)講述本節(jié)講述q q型聚類的原理和型聚類的原理和spssspss的實現(xiàn)過的實現(xiàn)過程,下一節(jié)將講述程,下一節(jié)將講述r r型聚類的實現(xiàn)過程。型聚類的實現(xiàn)過程。14 定義:層次聚類分析中的定義:層次聚類分析中的q q型聚類,它使型聚類,它使具有共同特點的樣本聚齊在一起,以便對不同具有共同特點的樣本聚齊在一起,以便對不同類的樣本進(jìn)行分析。類的樣本進(jìn)行分析。8.2.1 統(tǒng)計學(xué)上的定義和計算公式統(tǒng)計學(xué)上的定義和計算公式15 層次聚類分析中,測量樣本之間的親疏程層次聚類分析中,測量
11、樣本之間的親疏程度是關(guān)鍵。聚類的時候會涉及到兩種類型親疏度是關(guān)鍵。聚類的時候會涉及到兩種類型親疏程度的計算:一種是樣本數(shù)據(jù)之間的親疏程度,程度的計算:一種是樣本數(shù)據(jù)之間的親疏程度,一種是樣本數(shù)據(jù)與小類、小類與小類之間的親一種是樣本數(shù)據(jù)與小類、小類與小類之間的親疏程度。下面講述這兩種類型親疏程度的計算疏程度。下面講述這兩種類型親疏程度的計算方法和公式。方法和公式。16 計算公式如下。計算公式如下。 樣本數(shù)據(jù)之間的親疏程度主要通過樣本之樣本數(shù)據(jù)之間的親疏程度主要通過樣本之間的距離、樣本間的相關(guān)系數(shù)來度量。間的距離、樣本間的相關(guān)系數(shù)來度量。spssspss根根據(jù)變量數(shù)據(jù)類型的不同,采用不同的測定親疏
12、據(jù)變量數(shù)據(jù)類型的不同,采用不同的測定親疏程度的方法。程度的方法。17 樣本若有樣本若有k k個變量,則可以將樣本看成是個變量,則可以將樣本看成是一個一個k k維的空間的一個點,樣本和樣本之間的維的空間的一個點,樣本和樣本之間的距離就是距離就是k k維空間點和點之間的距離,這反映維空間點和點之間的距離,這反映了樣本之間的親疏程度。聚類時,距離相近的了樣本之間的親疏程度。聚類時,距離相近的樣本屬于一個類,距離遠(yuǎn)的樣本屬于不同類。樣本屬于一個類,距離遠(yuǎn)的樣本屬于不同類。1連續(xù)變量的樣本距離測量方法連續(xù)變量的樣本距離測量方法18 (1 1)歐氏距離()歐氏距離(euclidean distanceeu
13、clidean distance)兩個樣本之間的歐氏距離是樣本各個變量值之兩個樣本之間的歐氏距離是樣本各個變量值之差的平方和的平方根,計算公式為差的平方和的平方根,計算公式為19 (2 2)歐氏距離平方()歐氏距離平方(squared squared euclidean distanceeuclidean distance) 兩個樣本之間的歐氏距離平方是各樣本每兩個樣本之間的歐氏距離平方是各樣本每個變量值之差的平方和,計算公式為個變量值之差的平方和,計算公式為20 (3 3)chebychevchebychev距離距離 兩個樣本之間的兩個樣本之間的chebychevchebychev距離是各樣
14、距離是各樣本所有變量值之差絕對值中的最大值,計算公本所有變量值之差絕對值中的最大值,計算公式為式為21 (4 4)blockblock距離距離 兩個樣本之間的兩個樣本之間的blockblock距離是各樣本所距離是各樣本所有變量值之差絕對值的總和,計算公式為有變量值之差絕對值的總和,計算公式為22 (5 5)minkowskiminkowski距離距離 兩個樣本之間的兩個樣本之間的minkowskiminkowski距離是各樣距離是各樣本所有變量值之差絕對值的本所有變量值之差絕對值的p p次方的總和,再次方的總和,再求求p p次方根。計算公式為次方根。計算公式為23 (6 6)customize
15、dcustomized距離(用戶自定義距離)距離(用戶自定義距離) 兩個樣本之間的兩個樣本之間的customizedcustomized距離是各樣距離是各樣本所有變量值之差絕對值的本所有變量值之差絕對值的p p次方的總和,再次方的總和,再求求q q次方根。計算公式為次方根。計算公式為24 連續(xù)變量親疏程度的度量,除了上面的各連續(xù)變量親疏程度的度量,除了上面的各種距離外,還可以計算其他統(tǒng)計指標(biāo)。如種距離外,還可以計算其他統(tǒng)計指標(biāo)。如pearsonpearson相關(guān)系數(shù)、相關(guān)系數(shù)、sosinesosine相似度等。相似度等。2連續(xù)變量的樣本親疏程度的其他測量方法連續(xù)變量的樣本親疏程度的其他測量方法
16、25263順序或名義變量的樣本親疏程度測量順序或名義變量的樣本親疏程度測量方法方法 對于此類變量,可以計算一些有關(guān)相似性對于此類變量,可以計算一些有關(guān)相似性的統(tǒng)計指標(biāo)來測定樣本間的親疏程度。也可以的統(tǒng)計指標(biāo)來測定樣本間的親疏程度。也可以通過下面兩個計算公式來得到。通過下面兩個計算公式來得到。2728294樣本數(shù)據(jù)與小類、小類與小類之間的樣本數(shù)據(jù)與小類、小類與小類之間的親疏程度測量方法親疏程度測量方法 spss spss默認(rèn)的變量為默認(rèn)的變量為var00001var00001、var00002var00002等,用戶也可以根據(jù)自己的需要來命名變量。等,用戶也可以根據(jù)自己的需要來命名變量。spss
17、spss變量的命名和一般的編程語言一樣,有一變量的命名和一般的編程語言一樣,有一定的命名規(guī)則,具體內(nèi)容如下。定的命名規(guī)則,具體內(nèi)容如下。30 所謂小類,是在聚類過程中根據(jù)樣本之間所謂小類,是在聚類過程中根據(jù)樣本之間親疏程度形成的中間類,小類和樣本、小類與親疏程度形成的中間類,小類和樣本、小類與小類繼續(xù)聚合,最終將所有樣本都包括在一個小類繼續(xù)聚合,最終將所有樣本都包括在一個大類中。大類中。 在在spssspss聚類運算過程中,需要計算樣本聚類運算過程中,需要計算樣本與小類、小類與小類之間的親疏程度。與小類、小類與小類之間的親疏程度。spssspss提提供了多種計算方法(計算規(guī)則)。供了多種計算方
18、法(計算規(guī)則)。 31 (1 1)最短距離法()最短距離法(nearest neighbornearest neighbor) 以當(dāng)前某個樣本與已經(jīng)形成小類中的各樣以當(dāng)前某個樣本與已經(jīng)形成小類中的各樣本距離的最小值作為當(dāng)前樣本與該小類之間的本距離的最小值作為當(dāng)前樣本與該小類之間的距離。距離。32 (2 2)最長距離法()最長距離法(furthest neighborfurthest neighbor) 以當(dāng)前某個樣本與已經(jīng)形成小類中的各樣以當(dāng)前某個樣本與已經(jīng)形成小類中的各樣本距離的最大值作為當(dāng)前樣本與該小類之間的本距離的最大值作為當(dāng)前樣本與該小類之間的距離。距離。33 (3 3)類間平均鏈鎖法
19、()類間平均鏈鎖法(between-groups between-groups linkagelinkage) 兩個小類之間的距離為兩個小類內(nèi)所有樣兩個小類之間的距離為兩個小類內(nèi)所有樣本間的平均距離。本間的平均距離。34 (4 4)類內(nèi)平均鏈鎖法()類內(nèi)平均鏈鎖法(within-groups within-groups linkagelinkage) 與小類間平均鏈鎖法類似,這里的平均距與小類間平均鏈鎖法類似,這里的平均距離是對所有樣本對的距離求平均值,包括小類離是對所有樣本對的距離求平均值,包括小類之間的樣本對、小類內(nèi)的樣本對。之間的樣本對、小類內(nèi)的樣本對。35 (5 5)重心法()重心法(
20、centroid clusteringcentroid clustering) 將兩小類間的距離定義成兩小類重心間的將兩小類間的距離定義成兩小類重心間的距離。每一小類的重心就是該類中所有樣本在距離。每一小類的重心就是該類中所有樣本在各個變量上的均值代表點。各個變量上的均值代表點。36 (6 6)離差平方和法()離差平方和法(wards methodwards method) 小類合并的方法:在聚類過程中,使小類小類合并的方法:在聚類過程中,使小類內(nèi)各個樣本的歐氏距離總平方和增加最小的兩內(nèi)各個樣本的歐氏距離總平方和增加最小的兩小類合并成一類。小類合并成一類。37 研究問題研究問題 對一個班同學(xué)的
21、數(shù)學(xué)水平進(jìn)行聚類。聚類對一個班同學(xué)的數(shù)學(xué)水平進(jìn)行聚類。聚類的依據(jù)是第一次數(shù)學(xué)考試的成績和入學(xué)考試的的依據(jù)是第一次數(shù)學(xué)考試的成績和入學(xué)考試的成績。數(shù)據(jù)如表成績。數(shù)據(jù)如表8-18-1所示。所示。8.2.2 spss中實現(xiàn)過程中實現(xiàn)過程38姓姓 名名數(shù)數(shù) 學(xué)學(xué)入入 學(xué)學(xué) 成成 績績hxh99.0098.00yaju88.0089.00yu79.0080.00shizg89.0078.00hah75.0078.00john60.0065.00watet79.0087.00jess75.0076.00wish60.0056.00iiakii100.00100.0039 實現(xiàn)步驟實現(xiàn)步驟404142434
22、445 由于本例中選中的選項較多,這里按照各由于本例中選中的選項較多,這里按照各個結(jié)果分別解釋。個結(jié)果分別解釋。 (1 1)首先是層次聚類分析的概要結(jié)果,)首先是層次聚類分析的概要結(jié)果,該結(jié)果是該結(jié)果是spssspss輸出結(jié)果文件中的第一個表格,輸出結(jié)果文件中的第一個表格,如下表所示。如下表所示。8.2.3 結(jié)果和討論結(jié)果和討論46 (2 2)輸出的結(jié)果文件中第二個表格如下表)輸出的結(jié)果文件中第二個表格如下表所示。所示。47 (3 3)輸出的結(jié)果文件中第三個表格為層)輸出的結(jié)果文件中第三個表格為層次聚類分析的凝聚狀態(tài)表,包括:次聚類分析的凝聚狀態(tài)表,包括:48 (4 4)輸出的結(jié)果文件中第四個
23、表格如下)輸出的結(jié)果文件中第四個表格如下表所示。表所示。49 (5 5)輸出的結(jié)果文件中第五個表格如下)輸出的結(jié)果文件中第五個表格如下表所示。表所示。50 (6 6)輸出的結(jié)果文件中第六部分如圖)輸出的結(jié)果文件中第六部分如圖8-8-7 7所示。所示。51 (7 7)由于對圖)由于對圖8-6“hierarchical 8-6“hierarchical cluster analysis: save new var”cluster analysis: save new var”對話框?qū)υ捒蜻M(jìn)行了設(shè)置,將聚類成三類時,各個樣本的類進(jìn)行了設(shè)置,將聚類成三類時,各個樣本的類歸屬情況保存為一個變量,因此在歸
24、屬情況保存為一個變量,因此在spssspss數(shù)據(jù)編數(shù)據(jù)編輯窗口中就新增了一個變量的值,如圖輯窗口中就新增了一個變量的值,如圖8-88-8所所示。示。52538.3.1 統(tǒng)計學(xué)上的定義和計算公式統(tǒng)計學(xué)上的定義和計算公式 定義:層次聚類分析中的定義:層次聚類分析中的r r型聚類是對研型聚類是對研究對象的觀察變量進(jìn)行分類,它使具有共同特究對象的觀察變量進(jìn)行分類,它使具有共同特征的變量聚在一起。以便可以從不同類中分別征的變量聚在一起。以便可以從不同類中分別選出具有代表性的變量作分析,從而減少分析選出具有代表性的變量作分析,從而減少分析變量的個數(shù)。變量的個數(shù)。54 計算公式:計算公式:r r型聚類的計算
25、公式和型聚類的計算公式和q q型聚型聚類的計算公式是類似的,不同的是類的計算公式是類似的,不同的是r r型聚類是型聚類是對變量間進(jìn)行距離的計算,對變量間進(jìn)行距離的計算,q q型聚類則是對樣型聚類則是對樣本間進(jìn)行距離的計算。本間進(jìn)行距離的計算。55 研究問題研究問題 對一個班同學(xué)的各科成績進(jìn)行聚類,分析對一個班同學(xué)的各科成績進(jìn)行聚類,分析哪些課程是屬于一個類的。聚類的依據(jù)是哪些課程是屬于一個類的。聚類的依據(jù)是4 4門門功課的考試成績,數(shù)據(jù)如表功課的考試成績,數(shù)據(jù)如表8-28-2所示。所示。8.3.2 spss中實現(xiàn)過程中實現(xiàn)過程56姓姓 名名數(shù)數(shù) 學(xué)學(xué)物物 理理語語 文文政政 治治hxh99.0
26、098.0078.0080.00yaju88.0089.0089.0090.00yu79.0080.0095.0097.00shizg89.0078.0081.0082.00hah75.0078.0095.0096.00john60.0065.0085.0088.00watet79.0087.0050.0051.00jess75.0076.0088.0089.00wish60.0056.0089.0090.00iiakii100.00100.0085.0084.0057 實現(xiàn)步驟實現(xiàn)步驟5859606162 (1 1)首先是層次)首先是層次r r型聚類分析的結(jié)果,型聚類分析的結(jié)果,該結(jié)果是該結(jié)
27、果是spssspss輸出結(jié)果文件中的第一個表格。輸出結(jié)果文件中的第一個表格。8.3.3 結(jié)果和討論結(jié)果和討論63 (2 2)輸出的結(jié)果文件中第二個表格如下)輸出的結(jié)果文件中第二個表格如下表所示。表所示。64 (3 3)輸出的結(jié)果文件中第三個表格如下)輸出的結(jié)果文件中第三個表格如下表所示。表所示。65 (4 4)輸出的結(jié)果文件中第四個表格如下)輸出的結(jié)果文件中第四個表格如下表所示。表所示。66 (5 5)輸出的結(jié)果文件中第五個表格如)輸出的結(jié)果文件中第五個表格如下表所示。下表所示。67 (6 6)輸出的結(jié)果文件中第六部分如下:)輸出的結(jié)果文件中第六部分如下:68 spss spss層次聚類分析對
28、計算機的要求比較層次聚類分析對計算機的要求比較高,在大樣本的情況下,可以采用快速聚類分高,在大樣本的情況下,可以采用快速聚類分析的方法。采用快速聚類分析,得到的結(jié)果比析的方法。采用快速聚類分析,得到的結(jié)果比較簡單易懂,對計算機的性能要求也不高,因較簡單易懂,對計算機的性能要求也不高,因此應(yīng)用也比較廣。此應(yīng)用也比較廣。69 定義:快速聚類分析是由用戶指定類別數(shù)定義:快速聚類分析是由用戶指定類別數(shù)的大樣本資料的逐步聚類分析。它先對數(shù)據(jù)進(jìn)的大樣本資料的逐步聚類分析。它先對數(shù)據(jù)進(jìn)行初始分類,然后逐步調(diào)整,得到最終分類。行初始分類,然后逐步調(diào)整,得到最終分類。快速聚類分析的實質(zhì)是快速聚類分析的實質(zhì)是k-
29、meank-mean聚類。聚類。 8.4.1 統(tǒng)計學(xué)上的定義和計算公式統(tǒng)計學(xué)上的定義和計算公式70 和層次聚類分析一致,快速聚類分析也和層次聚類分析一致,快速聚類分析也以距離為樣本間親疏程度的標(biāo)志。但兩者的不以距離為樣本間親疏程度的標(biāo)志。但兩者的不同在于:層次聚類可以對不同的聚類類數(shù)產(chǎn)生同在于:層次聚類可以對不同的聚類類數(shù)產(chǎn)生一系列的聚類解,而快速聚類只能產(chǎn)生固定類一系列的聚類解,而快速聚類只能產(chǎn)生固定類數(shù)的聚類解,類數(shù)需要用戶事先指定。數(shù)的聚類解,類數(shù)需要用戶事先指定。71 另外,在快速聚類分析中,用戶可以自己另外,在快速聚類分析中,用戶可以自己指定初始的類中心點。如果用戶的經(jīng)驗比較豐指定初
30、始的類中心點。如果用戶的經(jīng)驗比較豐富,則可以指定比較合理的初始類中心點,否富,則可以指定比較合理的初始類中心點,否則,需要增加迭代的次數(shù),以保證最終聚類結(jié)則,需要增加迭代的次數(shù),以保證最終聚類結(jié)果的準(zhǔn)確性。果的準(zhǔn)確性。72 計算公式如下。計算公式如下。 快速聚類分析計算過程如下??焖倬垲惙治鲇嬎氵^程如下。 首先需要用戶指定聚類成多少類(比首先需要用戶指定聚類成多少類(比如如k k類)。類)。 然后然后spssspss確定確定k k個類的初始類中心點。個類的初始類中心點。spssspss會根據(jù)樣本數(shù)據(jù)的實際情況,選擇會根據(jù)樣本數(shù)據(jù)的實際情況,選擇k k個由個由代表性的樣本數(shù)據(jù)作為初始類中心。初始
31、類中代表性的樣本數(shù)據(jù)作為初始類中心。初始類中心也可以由用戶自行指定,需要指定心也可以由用戶自行指定,需要指定k k組樣本組樣本數(shù)據(jù)作為初始類中心點。數(shù)據(jù)作為初始類中心點。73 計算所有樣本數(shù)據(jù)點到計算所有樣本數(shù)據(jù)點到k k個類中心點的個類中心點的歐氏距離,歐氏距離,spssspss按照距按照距k k個類中心點距離最短個類中心點距離最短原則,把所有樣本分派到各中心點所在的類中,原則,把所有樣本分派到各中心點所在的類中,形成一個新的形成一個新的k k類,完成一次迭代過程。其中類,完成一次迭代過程。其中歐氏距離(歐氏距離(euclidean distanceeuclidean distance)的計
32、算公)的計算公式為式為7475 spss spss重新確定重新確定k k個類的中心點。個類的中心點。spssspss計計算每個類中各個變量的變量值均值,并以均值算每個類中各個變量的變量值均值,并以均值點作為新的類中心點。點作為新的類中心點。 重復(fù)上面的兩步計算過程,直到達(dá)到重復(fù)上面的兩步計算過程,直到達(dá)到指定的迭代次數(shù)或終止迭代的判斷要求為止。指定的迭代次數(shù)或終止迭代的判斷要求為止。76 研究問題研究問題 為研究不同公司的運營特點,調(diào)查了為研究不同公司的運營特點,調(diào)查了1515個公司的組織文化、組織氛圍、領(lǐng)導(dǎo)角色和員個公司的組織文化、組織氛圍、領(lǐng)導(dǎo)角色和員工發(fā)展工發(fā)展4 4方面的內(nèi)容。現(xiàn)要將這
33、方面的內(nèi)容?,F(xiàn)要將這1515個公司按照個公司按照其各自的特點分成其各自的特點分成4 4種類型,數(shù)據(jù)如表種類型,數(shù)據(jù)如表8-38-3所示。所示。8.4.2 spss中實現(xiàn)過程中實現(xiàn)過程77公公 司司組組 織織 文文 化化組組 織織 氛氛 圍圍領(lǐng)領(lǐng) 導(dǎo)導(dǎo) 角角 色色員員 工工 發(fā)發(fā) 展展microsof80.0085.0075.0090.00ibm 85.0085.0090.0090.00dell 85.0085.0085.0060.00apple 90.0090.0075.0090.00聯(lián)想聯(lián)想 99.0098.0078.0080.00npp 88.0089.0089.0090.00北京電子北京
34、電子79.0080.0095.0097.00清華紫光清華紫光89.0078.0081.0082.00北大方正北大方正75.0078.0095.0096.00tcl 60.0065.0085.0088.00娃哈哈娃哈哈 79.0087.0050.0051.00angel 75.0076.0088.0089.00hussar 60.0056.0089.0090.00世紀(jì)飛揚世紀(jì)飛揚100.00100.0085.0084.00vinda 61.0064.0089.0060.0078 實現(xiàn)步驟實現(xiàn)步驟798081828384 本例中選中的選項較多,這里按照各個結(jié)本例中選中的選項較多,這里按照各個結(jié)果分
35、別解釋。果分別解釋。 (1 1)spssspss輸出結(jié)果文件中的第一部分如輸出結(jié)果文件中的第一部分如下表所示。下表所示。 8.4.3 結(jié)果和討論結(jié)果和討論85 (2 2)輸出的結(jié)果文件中第二部分如下表)輸出的結(jié)果文件中第二部分如下表所示。所示。86 (3 3)輸出的結(jié)果文件中第三部分是快速)輸出的結(jié)果文件中第三部分是快速聚類分析后的各個類包含樣本的情況。聚類分析后的各個類包含樣本的情況。 87 (4 4)輸出的結(jié)果文件中第四部分如下表)輸出的結(jié)果文件中第四部分如下表所示。所示。88 (5 5)輸出的結(jié)果文件中第五個部分如下)輸出的結(jié)果文件中第五個部分如下表所示。表所示。89 (6 6)輸出的結(jié)
36、果文件中第六個部分如下)輸出的結(jié)果文件中第六個部分如下表所示。表所示。90 (7 7)輸出結(jié)果的最后一個表格列出了)輸出結(jié)果的最后一個表格列出了4 4個類中分別包括的樣本數(shù),如下表所示。個類中分別包括的樣本數(shù),如下表所示。91 (8 8)在步驟)在步驟5 5中曾指定了將樣本所屬類中曾指定了將樣本所屬類以及樣本和類中心點的距離,作為樣本的以及樣本和類中心點的距離,作為樣本的2 2個個新變量保存到新變量保存到spssspss的數(shù)據(jù)編輯窗口中。的數(shù)據(jù)編輯窗口中。spssspss運行后,數(shù)據(jù)編輯窗口如圖運行后,數(shù)據(jù)編輯窗口如圖8-218-21所示,其中我所示,其中我們可以看到新增加了兩個變量(圖中加深
37、的兩們可以看到新增加了兩個變量(圖中加深的兩列),分別表示樣本所屬類以及樣本和類中心列),分別表示樣本所屬類以及樣本和類中心點的距離。點的距離。9293 前面前面3 3節(jié)講述了不同種聚類分析的方法,節(jié)講述了不同種聚類分析的方法,不論是哪種方法,聚類分析都是直接比較各事不論是哪種方法,聚類分析都是直接比較各事物之間的性質(zhì),將性質(zhì)相近的歸為一類,將性物之間的性質(zhì),將性質(zhì)相近的歸為一類,將性質(zhì)差別較大的歸入不同的類。質(zhì)差別較大的歸入不同的類。94 本節(jié)講述的判別分析,也是一種比較常用本節(jié)講述的判別分析,也是一種比較常用的分類分析方法。判別分析先根據(jù)已知類別的的分類分析方法。判別分析先根據(jù)已知類別的事
38、物的性質(zhì),利用某種技術(shù)建立函數(shù)式,然后事物的性質(zhì),利用某種技術(shù)建立函數(shù)式,然后對未知類別的新事物進(jìn)行判斷以將之歸入已知對未知類別的新事物進(jìn)行判斷以將之歸入已知的類別中。的類別中。95 有學(xué)者在研究中提出,可以利用判別分析有學(xué)者在研究中提出,可以利用判別分析來對聚類分析結(jié)果的準(zhǔn)確性進(jìn)行檢驗。聚類分來對聚類分析結(jié)果的準(zhǔn)確性進(jìn)行檢驗。聚類分析分成幾類后,即可以作為判別分析的類別輸析分成幾類后,即可以作為判別分析的類別輸入,進(jìn)行判斷。入,進(jìn)行判斷。96 定義:判別分析先根據(jù)已知類別的事物的定義:判別分析先根據(jù)已知類別的事物的性質(zhì)(自變量),建立函數(shù)式(自變量的線性性質(zhì)(自變量),建立函數(shù)式(自變量的線
39、性組合,即判別函數(shù)),然后對未知類別的新事組合,即判別函數(shù)),然后對未知類別的新事物進(jìn)行判斷以將之歸入已知的類別中。物進(jìn)行判斷以將之歸入已知的類別中。8.5.1 統(tǒng)計學(xué)上的定義和計算公式統(tǒng)計學(xué)上的定義和計算公式97 判別分析有如下的假定:判別分析有如下的假定: 預(yù)測變量服從正態(tài)分布。預(yù)測變量服從正態(tài)分布。 預(yù)測變量之間沒有顯著的相關(guān)。預(yù)測變量之間沒有顯著的相關(guān)。 預(yù)測變量的平均值和方差不相關(guān)。預(yù)測變量的平均值和方差不相關(guān)。 預(yù)測變量應(yīng)是連續(xù)變量,因變量(類預(yù)測變量應(yīng)是連續(xù)變量,因變量(類別或組別)是間斷變量。別或組別)是間斷變量。 兩個預(yù)測變量之間的相關(guān)性在不同類兩個預(yù)測變量之間的相關(guān)性在不同
40、類中是一樣的。中是一樣的。98 在分析的各個階段應(yīng)把握如下的原則:在分析的各個階段應(yīng)把握如下的原則: 事前組別(類)的分類標(biāo)準(zhǔn)(作為判事前組別(類)的分類標(biāo)準(zhǔn)(作為判別分析的因變量)要盡可能準(zhǔn)確和可靠,否則別分析的因變量)要盡可能準(zhǔn)確和可靠,否則會影響判別函數(shù)的準(zhǔn)確性,從而影響判別分析會影響判別函數(shù)的準(zhǔn)確性,從而影響判別分析的效果。的效果。 所分析的自變量應(yīng)是因變量的重要影所分析的自變量應(yīng)是因變量的重要影響因素,應(yīng)該挑選既有重要特性又有區(qū)別能力響因素,應(yīng)該挑選既有重要特性又有區(qū)別能力的變量,達(dá)到以最少變量而有高辨別能力的目的變量,達(dá)到以最少變量而有高辨別能力的目標(biāo)。標(biāo)。 初始分析的數(shù)目不能太少
41、。初始分析的數(shù)目不能太少。99100101102 這些判別函數(shù)是各個獨立預(yù)測變量的線性這些判別函數(shù)是各個獨立預(yù)測變量的線性組合。程序自動選擇第一個判別函數(shù),以盡可組合。程序自動選擇第一個判別函數(shù),以盡可能多地區(qū)別各個類,然后再選擇和第一個判別能多地區(qū)別各個類,然后再選擇和第一個判別函數(shù)獨立的第二個判別函數(shù),盡可能多地提供函數(shù)獨立的第二個判別函數(shù),盡可能多地提供判別能力。程序?qū)凑者@種方式,提供剩下的判別能力。程序?qū)凑者@種方式,提供剩下的判別函數(shù)。判別函數(shù)的個數(shù)為判別函數(shù)。判別函數(shù)的個數(shù)為k k。 103104 研究問題研究問題 調(diào)查了調(diào)查了1515個公司的組織文化、領(lǐng)導(dǎo)角色個公司的組織文化、
42、領(lǐng)導(dǎo)角色和員工發(fā)展和員工發(fā)展3 3個方面內(nèi)容作為預(yù)測變量,因變個方面內(nèi)容作為預(yù)測變量,因變量為公司對員工的吸引力。為符合研究問題,量為公司對員工的吸引力。為符合研究問題,將公司對員工的吸引力根據(jù)被測的實際填答情將公司對員工的吸引力根據(jù)被測的實際填答情形,劃分為高吸引力組(形,劃分為高吸引力組(group=1group=1)、中吸引)、中吸引力組(力組(group=2group=2)和低吸引力組()和低吸引力組(group=3group=3)。)。數(shù)據(jù)如表數(shù)據(jù)如表8-48-4所示。所示。8.5.2 spss中實現(xiàn)過程中實現(xiàn)過程105公公 司司組組 織織 文文 化化領(lǐng)領(lǐng) 導(dǎo)導(dǎo) 角角 色色員員 工工
43、 發(fā)發(fā) 展展groupmicrosoft80.0075.0090.001ibm85.0090.0090.001dell85.0085.0060.001apple90.0075.0090.001聯(lián)想聯(lián)想99.0078.0080.001npp88.0089.0090.002北京電子北京電子79.0095.0097.003清華紫光清華紫光89.0081.0082.001北大方正北大方正75.0095.0096.001tcle60.0085.0088.003世紀(jì)成世紀(jì)成79.0050.0051.002angel75.0088.0089.001hussar160.0089.0090.003世紀(jì)飛揚世紀(jì)飛
44、揚100.0085.0084.003vinda61.0089.0060.003106 實現(xiàn)步驟實現(xiàn)步驟107108109110111112113 (1 1)spssspss輸出結(jié)果文件中的第一部分如輸出結(jié)果文件中的第一部分如下表所示。下表所示。8.5.3 結(jié)果和討論結(jié)果和討論114 (2 2)輸出的結(jié)果文件中第二部分如下表所)輸出的結(jié)果文件中第二部分如下表所示。示。 115 (3 3)輸出的結(jié)果文件中第三部分如下表所)輸出的結(jié)果文件中第三部分如下表所示。示。116 (4 4)輸出的結(jié)果文件中第四部分如下表)輸出的結(jié)果文件中第四部分如下表所示。所示。117 (5 5)輸出的結(jié)果文件中第五個部分為組)輸出的結(jié)果文件中第
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 六一節(jié)繪畫活動方案
- 六一采購活動方案
- 六一騎車比賽活動方案
- 六年級丟沙包活動方案
- 醫(yī)師衛(wèi)生職稱考試試題及答案
- 夜班準(zhǔn)入考試試題及答案
- 安全生產(chǎn)a證試題及答案
- 業(yè)務(wù)黨校考試試題及答案
- 藥店考試試題及答案失眠
- 六盤水景區(qū)開展活動方案
- GB/T 14561-2019消火栓箱
- GB 2714-2003醬腌菜衛(wèi)生標(biāo)準(zhǔn)
- CNAS體系基礎(chǔ)知識培訓(xùn)課件
- 2023年重慶市銅梁區(qū)物理八下期末質(zhì)量跟蹤監(jiān)視模擬試題(含解析)
- 教師壓力管理(教育心理健康C證培訓(xùn))課件
- 工程勘察設(shè)計收費標(biāo)準(zhǔn)使用手冊
- 網(wǎng)絡(luò)暴力主題班會PPT課件講義
- 《工程管理指導(dǎo)書》word版
- 合理低價法得分計算
- 關(guān)于涉農(nóng)企業(yè)稅收風(fēng)險管理的實踐和思考
- 05S502閥門井圖集
評論
0/150
提交評論