多元統(tǒng)計(jì)第四章判別分析_第1頁(yè)
多元統(tǒng)計(jì)第四章判別分析_第2頁(yè)
多元統(tǒng)計(jì)第四章判別分析_第3頁(yè)
多元統(tǒng)計(jì)第四章判別分析_第4頁(yè)
多元統(tǒng)計(jì)第四章判別分析_第5頁(yè)
已閱讀5頁(yè),還剩98頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2023/2/61目錄上頁(yè)下頁(yè)返回結(jié)束第四章判別分析

回歸模型普及性的基礎(chǔ)在于用它去預(yù)測(cè)和解釋度量(metric)變量。但是對(duì)于非度量(nonmetric)變量,多元回歸不適合解決此類問(wèn)題。本章介紹的判別分析來(lái)解決被解釋變量是非度量變量的情形。在這種情況下,人們對(duì)于預(yù)測(cè)和解釋影響一個(gè)對(duì)象所屬類別的關(guān)系感興趣,比如為什么某人是或者不是消費(fèi)者,一家公司成功還是破產(chǎn)等。判別分析在主要目的是識(shí)別一個(gè)個(gè)體所屬類別。潛在的應(yīng)用包括預(yù)測(cè)新產(chǎn)品的成功或失敗、決定一個(gè)學(xué)生是否被錄取、按職業(yè)興趣對(duì)學(xué)生分組、確定某人信用風(fēng)險(xiǎn)的種類、或者預(yù)測(cè)一個(gè)公司是否成功。在每種情況下,將對(duì)象進(jìn)行分組,并且要求使用這兩種方法中的一種可以通過(guò)人們選擇的解釋變量來(lái)預(yù)測(cè)或者解釋每個(gè)對(duì)象的所屬類別。判別分析與聚類分析的區(qū)別判別分析

已知研究對(duì)象分為若干個(gè)類別,并且已經(jīng)取得每一類別的一批觀測(cè)數(shù)據(jù),在此基礎(chǔ)上尋求出分類的規(guī)律性,建立判別準(zhǔn)則,然后對(duì)未知類別的樣品進(jìn)行判別分類。聚類分析一批樣品劃分為幾類事先并不知道,正需要通過(guò)聚類分析來(lái)給以確定類型。2023/2/63目錄上頁(yè)下頁(yè)返回結(jié)束§4.1判別分析的基本理論

遇到包含屬性被解釋變量和幾個(gè)度量解釋變量的問(wèn)題時(shí),需要選擇一種合適的分析方法。當(dāng)被解釋變量是屬性變量,而解釋變量是度量變量時(shí),判別分析是合適的統(tǒng)計(jì)分析方法。判別分析能夠解決兩組或者更多組的情況。當(dāng)包含兩組時(shí),稱作兩組判別分析。當(dāng)包含三組或者三組以上時(shí),稱作多組判別分析(Multiplediscriminantanalysis)。判別分析的假設(shè)條件基本要求判別分析最基本的要求是,分組類型在兩組以上;在第一階段工作是每組案例的規(guī)模必須至少在一個(gè)以上。解釋變量必須是可測(cè)量的,才能夠計(jì)算其平均值和方差,使其能合理地應(yīng)用于統(tǒng)計(jì)函數(shù)。2023/2/64目錄上頁(yè)下頁(yè)返回結(jié)束假設(shè)之一是每一個(gè)判別變量(解釋變量)不能是其他判別變量的線性組合。即不存在多重共線性問(wèn)題。假設(shè)之二是各組變量的協(xié)方差矩陣相等。判別分析最簡(jiǎn)單和最常用的形式是采用線性判別函數(shù),它們是判別變量的簡(jiǎn)單線性組合。在各組協(xié)方差矩陣相等的假設(shè)條件下,可以使用很簡(jiǎn)單的公式來(lái)計(jì)算判別函數(shù)和進(jìn)行顯著性檢驗(yàn)。

判假設(shè)之三是各判別變量之間具有多元正態(tài)分布,即每個(gè)變量對(duì)于所有其他變量的固定值有正態(tài)分布。在這種條件下可以精確計(jì)算顯著性檢驗(yàn)值和分組歸屬的概率。當(dāng)違背該假設(shè)時(shí),計(jì)算的概率將非常不準(zhǔn)確。2023/2/65§4.2距離判別

目錄上頁(yè)下頁(yè)返回結(jié)束4.2.1兩總體情況

設(shè)有兩個(gè)總體G1和G2,X是一個(gè)p維樣品,X到G1和G2的距離分別為d(X,G1)和d(X,G2),判別法則為:d(X,G1)<d(X,G2),X屬于G1;d(X,G1)>d(X,G2),X屬于G2;d(X,G1)=d(X,G2),X等待判斷。2023/2/66目錄上頁(yè)下頁(yè)返回結(jié)束這個(gè)準(zhǔn)則的數(shù)學(xué)模型可以表示為:1、總體協(xié)差陣相等

先考慮兩個(gè)總體的情況,設(shè)有兩個(gè)協(xié)差陣相同的p維正態(tài)總體,對(duì)給定的樣品,判別一個(gè)樣品到底是來(lái)自哪一個(gè)總體,一個(gè)最直觀的想法是計(jì)算到兩個(gè)總體的距離。故我們用馬氏距離來(lái)給定判別規(guī)則,有:則前面的判別法則表示為2023/2/610目錄上頁(yè)下頁(yè)返回結(jié)束上述判別規(guī)則例1

在企業(yè)的考核中,可以根據(jù)企業(yè)的生產(chǎn)經(jīng)營(yíng)情況把企業(yè)分為優(yōu)秀企業(yè)和一般企業(yè)??己似髽I(yè)經(jīng)營(yíng)狀況的指標(biāo)有:資金利潤(rùn)率=利潤(rùn)總額/資金占用總額勞動(dòng)生產(chǎn)率=總產(chǎn)值/職工平均人數(shù)產(chǎn)品凈值率=凈產(chǎn)值/總產(chǎn)值三個(gè)指標(biāo)的均值向量和協(xié)方差矩陣如下?,F(xiàn)有二個(gè)企業(yè),觀測(cè)值分別為(7.8,39.1,9.6)和(8.1,34.2,6.9),問(wèn)這兩個(gè)企業(yè)應(yīng)該屬于哪一類?變量均值向量協(xié)方差矩陣優(yōu)秀一般資金利潤(rùn)率13.55.468.3940.2421.41

勞動(dòng)生產(chǎn)率40.729.840.2454.5811.67

產(chǎn)品凈值率10.76.221.4111.677.90線性判別函數(shù):判別準(zhǔn)則:故屬于優(yōu)秀企業(yè)故屬于一般企業(yè)2、當(dāng)總體的協(xié)差陣已知,且不相等判別準(zhǔn)則:特別地,當(dāng)p=1時(shí),若兩個(gè)總體分別為和

則判別函數(shù)為當(dāng)判別規(guī)則:2023/2/616目錄上頁(yè)下頁(yè)返回結(jié)束4.2.2多總體情況1.協(xié)差陣相同。

相應(yīng)的判別規(guī)則是:2023/2/617目錄上頁(yè)下頁(yè)返回結(jié)束2023/2/618目錄上頁(yè)下頁(yè)返回結(jié)束這時(shí)的判別規(guī)則為:這時(shí)判別函數(shù)為:2.協(xié)差陣不相同。2023/2/619目錄上頁(yè)下頁(yè)返回結(jié)束線性判別函數(shù)容易計(jì)算,二次判別函數(shù)計(jì)算起來(lái)比較復(fù)雜,尤其在現(xiàn)場(chǎng),為此需要一些計(jì)算方法。2023/2/620§4.3Bayes判別

目錄上頁(yè)下頁(yè)返回結(jié)束貝葉斯(Bayes)統(tǒng)計(jì)的思想是:假定對(duì)研究的對(duì)象已有一定的認(rèn)識(shí),常用先驗(yàn)概率分布來(lái)描述這種認(rèn)識(shí),然后我們?nèi)〉靡粋€(gè)樣本,用樣本來(lái)修正已有的認(rèn)識(shí)(先驗(yàn)概率分布),得到后驗(yàn)概率分布,各種統(tǒng)計(jì)推斷都通過(guò)后驗(yàn)概率分布來(lái)進(jìn)行。將貝葉斯思想用于判別分析,就得到貝葉斯判別。最大后驗(yàn)判別準(zhǔn)則

在兩組的距離判別中,如果組比組大得多,那么,只是根據(jù)樣品距離這兩個(gè)組的遠(yuǎn)近來(lái)判別其歸屬就顯得有些不妥。即使比稍大一點(diǎn),人們往往仍傾向于判斷屬于組。因?yàn)椋谂袆e之前他們已有了“先驗(yàn)”的認(rèn)識(shí),即來(lái)自組比來(lái)自組有更大的先驗(yàn)概率。

設(shè)有個(gè)組,且組的概率密度為,樣品來(lái)自的先驗(yàn)概為,滿足利用貝葉斯理論,屬于的后驗(yàn)概率(即當(dāng)樣品已知時(shí),它屬于的概率)為最大后驗(yàn)概率準(zhǔn)則是采用如下的判別規(guī)則:2023/2/623最小平均誤判代價(jià)準(zhǔn)則

目錄上頁(yè)下頁(yè)返回結(jié)束在進(jìn)行判別分析的過(guò)程中難免會(huì)發(fā)生誤判,各種誤判所產(chǎn)生的后果可能有所不同。最大后驗(yàn)概率準(zhǔn)則沒(méi)有涉及誤判的代價(jià),在各種誤判代價(jià)明顯不同的場(chǎng)合下,該準(zhǔn)則就失效了。例如,經(jīng)計(jì)算,。如果將中的樣品誤判為的代價(jià)遠(yuǎn)超過(guò)將中的樣品誤判為的代價(jià),那么僅根據(jù)后驗(yàn)概率的大小判斷是不明智的,似乎判斷顯得更合理些。2023/2/624目錄上頁(yè)下頁(yè)返回結(jié)束以上判別規(guī)則,所來(lái)帶的平均損失(ExpectedCostofMisclassification)為2023/2/625§4.4Fisher判別

目錄上頁(yè)下頁(yè)返回結(jié)束Fisher判別的思想是投影,將k組p維數(shù)據(jù)投影到某一個(gè)方向,使得他們的投影組與組盡可能分開(kāi)。他借用了一元方差的分析思想,衡量組與組的分開(kāi)程度設(shè)從k個(gè)總體分別取得k組p維的觀測(cè)值如下:2023/2/626目錄上頁(yè)下頁(yè)返回結(jié)束它正好組成一元方差分析的數(shù)據(jù),其組間平方和為:2023/2/627目錄上頁(yè)下頁(yè)返回結(jié)束組內(nèi)平方和為:2023/2/628目錄上頁(yè)下頁(yè)返回結(jié)束定理4.12023/2/629目錄上頁(yè)下頁(yè)返回結(jié)束迄今為止,我們僅僅給出了Fisher準(zhǔn)則下的判別函數(shù),沒(méi)有給出判別規(guī)則。如前述,F(xiàn)isher準(zhǔn)則下的判別函數(shù)并不唯一,若為判別函數(shù),則也為具有同樣效率的判別函數(shù)。不唯一性對(duì)判別規(guī)則并沒(méi)有任何妨礙,可以從中人去一個(gè),一旦取定了判別函數(shù),根據(jù)它就能確定判別規(guī)則。在有些問(wèn)題中,僅用一個(gè)線性判別函數(shù)不能很好區(qū)別各個(gè)總體,可以取對(duì)應(yīng)的特征向量,建立第二個(gè)判別函數(shù)。如果還不夠,可以建立第三個(gè)判別函數(shù),依次類推。2023/2/630§4.5逐步判別

目錄上頁(yè)下頁(yè)返回結(jié)束變量選擇的好壞直接影響判別分析的效果。如果在某個(gè)判別問(wèn)題中,將其中最主要的指標(biāo)忽略了,由此建立的判別函數(shù)其效果一定不好。但是在許多問(wèn)題中,事先并不十分清楚哪些指標(biāo)是主要的,這時(shí),是否將有關(guān)的指標(biāo)盡量收集加入計(jì)算才好呢?理論和實(shí)踐證明,指標(biāo)太多了,不僅帶來(lái)大量的計(jì)算,同時(shí)許多對(duì)判別無(wú)作用的指標(biāo)反而會(huì)干擾了我們的視線。因此適當(dāng)篩選變量的問(wèn)題就成為一個(gè)很重要的事情。凡具有篩選變量能力的判別方法統(tǒng)稱為逐步判別法。和通常的判別分析一樣,逐步判別也有許多不同的原則,從而產(chǎn)生各種方法。有關(guān)逐步判別法的理論基礎(chǔ)詳見(jiàn)[1]所討論指標(biāo)的附加信息檢驗(yàn)。2023/2/631目錄上頁(yè)下頁(yè)返回結(jié)束逐步判別的原則2023/2/632目錄上頁(yè)下頁(yè)返回結(jié)束2023/2/633目錄上頁(yè)下頁(yè)返回結(jié)束(ⅳ)這時(shí)既不能選進(jìn)新變量,又不能剔除已選進(jìn)的變量,將已選中的變量建立判別函數(shù)。(iii)在已入選的r個(gè)變量中,要考慮較早的選中的變量中,其重要性沒(méi)有較大變化的,應(yīng)及時(shí)把不能提供附加信息的變量剔除出去。剔除的原則等同于引進(jìn)的原則。例如在已經(jīng)進(jìn)入的r個(gè)變量中要考察是否需要剔除,就是計(jì)算選擇達(dá)到極小(大)的l,看看是否顯著,如果不顯著將該變量剔除,仍然回到(iii),繼續(xù)考察余下的變量是否要剔除,如果顯著則回到(ii)例4.1為研究某地區(qū)人口死亡狀況,已按某種方法將15個(gè)已知地區(qū)樣品分為3類,指標(biāo)含義及原始數(shù)據(jù)如下。試建立判別函數(shù),并判定另外4個(gè)待判地區(qū)屬于哪類?

X1

:0歲組死亡概率

X

4:55歲組死亡概率

X

2

:1歲組死亡概率

X5

:80歲組死亡概率

X

3

:10歲組死亡概率X6

:平均預(yù)期壽命§4.6判別分析的上機(jī)實(shí)現(xiàn)

各地區(qū)死亡概率表

(一)操作步驟

1.在SPSS窗口中選擇Analyze→Classify→Discriminate,調(diào)出判別分析主界面,將左邊的變量列表中的“group”變量選入分組變量中,將—變量選入自變量中,并選擇Enterindependentstogether單選按鈕,即使用所有自變量進(jìn)行判別分析。圖

判別分析主界面

2.點(diǎn)擊DefineRange按鈕,定義分組變量的取值范圍。本例中分類變量的范圍為1到3,所以在最小值和最大值中分別輸入1和3。單擊Continue按鈕,返回主界面。

3.單擊Statistics…按鈕,指定輸出的描述統(tǒng)計(jì)量和判別函數(shù)系數(shù)。選中FunctionCoefficients欄中的Fisher’s和Unstandardized。這兩個(gè)選項(xiàng)的含義如下:Fisher’s:給出Bayes判別函數(shù)的系數(shù)。(注意:這個(gè)選項(xiàng)不是要給出Fisher判別函數(shù)的系數(shù)。這個(gè)復(fù)選框的名字之所以為Fisher’s,是因?yàn)榘磁袆e函數(shù)值最大的一組進(jìn)行歸類這種思想是由Fisher提出來(lái)的。這里極易混淆,請(qǐng)讀者注意辨別。)Unstandardized:給出未標(biāo)準(zhǔn)化的Fisher判別函數(shù)(即典型判別函數(shù))的系數(shù)(SPSS默認(rèn)給出標(biāo)準(zhǔn)化的Fisher判別函數(shù)系數(shù))。單擊Continue按鈕,返回主界面。圖Statistics子對(duì)話框

4.單擊Classify…按鈕,定義判別分組參數(shù)和選擇輸出結(jié)果。選擇Display欄中的Casewiseresults,輸出一個(gè)判別結(jié)果表,包括每個(gè)樣品的判別分?jǐn)?shù)、后驗(yàn)概率、實(shí)際組和預(yù)測(cè)組編號(hào)等。其余的均保留系統(tǒng)默認(rèn)選項(xiàng)。單擊Continue按鈕。圖Classify…子對(duì)話框

5.單擊Save按鈕,指定在數(shù)據(jù)文件中生成代表判別分組結(jié)果和判別得分的新變量,生成的新變量的含義分別為:Predictedgroupmembership:存放判別樣品所屬組別的值;

Discriminantscores:存放Fisher判別得分的值,有幾個(gè)典型判別函數(shù)就有幾個(gè)判別得分變量;Probabilitiesofgroupmembership:存放樣品屬于各組的Bayes后驗(yàn)概率值。將對(duì)話框中的三個(gè)復(fù)選框均選中,單擊Continue按鈕返回。

6.返回判別分析主界面,單擊OK按鈕,運(yùn)行判別分析過(guò)程。圖Save子對(duì)話框 (二)主要運(yùn)行結(jié)果解釋

1.StandardizedCanonicalDiscriminantFunctionCoefficients(給出標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù))標(biāo)準(zhǔn)化的典型判別函數(shù)是由標(biāo)準(zhǔn)化的自變量通過(guò)Fisher判別法得到的,所以要得到標(biāo)準(zhǔn)化的典型判別得分,代入該函數(shù)的自變量必須是經(jīng)過(guò)標(biāo)準(zhǔn)化的。

2.CanonicalDiscriminantFunctionCoefficients(給出未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù))未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù)由于可以將實(shí)測(cè)的樣品觀測(cè)值直接代入求出判別得分,所以該系數(shù)使用起來(lái)比標(biāo)準(zhǔn)化的系數(shù)要方便一些。見(jiàn)表4.2(a)。由此表可知,兩個(gè)Fisher判別函數(shù)分別為:實(shí)際上兩個(gè)函數(shù)式計(jì)算的是各觀測(cè)值在各個(gè)維度上的坐標(biāo),這樣就可以通過(guò)這兩個(gè)函數(shù)式計(jì)算出各樣品觀測(cè)值的具體空間位置。表4.2(a)未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù)

3.FunctionsatGroupCentroids(給出組重心處的Fisher判別函數(shù)值)如表4.2(b)所示,實(shí)際上為各類別重心在空間中的坐標(biāo)位置。這樣,只要在前面計(jì)算出各觀測(cè)值的具體坐標(biāo)位置后,再計(jì)算出它們分別離各重心的距離,就可以得知它們的分類了。表4.2(b)組重心處的Fisher判別函數(shù)值

4.ClassificationFunctionCoefficients(給出Bayes判別函數(shù)系數(shù))如表4.3所示,GROUP欄中的每一列表示樣品判入相應(yīng)列的Bayes判別函數(shù)系數(shù)。在本例中,各類的Bayes判別函數(shù)如下: 第一組: 第二組: 第三組:

將各樣品的自變量值代入上述三個(gè)Bayes判別函數(shù),得到三個(gè)函數(shù)值。比較這三個(gè)函數(shù)值,哪個(gè)函數(shù)值比較大就可以判斷該樣品判入哪一類。例如,將第一個(gè)待判樣品的自變量值分別代入函數(shù),得到:

F1=3793.77,F(xiàn)2=3528.32,F(xiàn)3=3882.48比較三個(gè)值,可以看出最大,據(jù)此得出第一個(gè)待判樣品應(yīng)該屬于第三組。表Bayes判別法的輸出結(jié)果

5.CasewiseStatistics(給出個(gè)案觀察結(jié)果)在CasewiseStatistics輸出表針對(duì)每個(gè)樣品給出了了大部分的判別結(jié)果,其中包括:實(shí)際類(ActualGroup)、預(yù)測(cè)類(PredictedGroup)、Bayes判別法的后驗(yàn)概率、與組重心的馬氏距離(SquaredMahalanobisDistancetoCentroid)以及Fisher判別法的每個(gè)典型判別函數(shù)的判別得分(DiscriminantScores)。出于排版要求,這里給出結(jié)果表的是經(jīng)過(guò)加工的,隱藏了其中的一些項(xiàng)目,如表4.4所示。從表中可以看出四個(gè)待判樣本依次被判別為第三組、第一組、第二組和第三組。表4.4個(gè)案觀察結(jié)果表2023/2/651目錄上頁(yè)下頁(yè)返回結(jié)束這里舉兩個(gè)例子,一個(gè)例子是分兩組的情況,一個(gè)是分多組的情況。我們分別用SPSS軟件中的Discriminant模塊來(lái)實(shí)現(xiàn)判別分析。

【例4.1】一個(gè)城市居民家庭,按其有無(wú)割草機(jī)分為兩組,有割草機(jī)的一組記為π1,沒(méi)有的記為π2,割草機(jī)工廠欲判斷一些家庭是否將購(gòu)買割草機(jī),從π1和π2隨機(jī)抽取了12個(gè)樣品,調(diào)查兩項(xiàng)指標(biāo):x1=家庭收入,x2=房前屋后的土地面積(參考文獻(xiàn)[8]),數(shù)據(jù)如下表:2023/2/652目錄上頁(yè)下頁(yè)返回結(jié)束用y作為二元被解釋變量,有割草機(jī)的家庭用1表示,沒(méi)有割草機(jī)的家庭用0表示,x1和x2作為被解釋變量。2023/2/653目錄上頁(yè)下頁(yè)返回結(jié)束(一)二元變量的判別分析計(jì)算

使用SPSS軟件中的Analyze->Classify->Discriminant,就進(jìn)入了判別分析的對(duì)話框。分組變量(GroupingVariable)選擇y,然后定義y的區(qū)域,最小值為0,最大值為1;解釋變量(IndependentVariable)選擇為x1,x2,點(diǎn)擊OK可以完成基本的判別分析。如果需要更深入的分析,可以選擇其他項(xiàng)。統(tǒng)計(jì)量(Statistics)選項(xiàng)中可以選擇描述統(tǒng)計(jì)Mean,ANVOA,Box’M,函數(shù)可以選擇Fisher和非標(biāo)準(zhǔn)化函數(shù),同時(shí)還可以使用哪種矩陣。2023/2/654目錄上頁(yè)下頁(yè)返回結(jié)束由于只有兩個(gè)自變量,我們不需要使用逐步判別法。分類(Classify)選項(xiàng)中可以選擇先驗(yàn)概率(所有組相等或根據(jù)組的大小計(jì)算概率),子選項(xiàng)顯示(display)中可以選擇每個(gè)個(gè)體的結(jié)果(Casewiseresults),綜合表(SummeryTable)和“留一個(gè)在外”的驗(yàn)證原則,還可以選擇使用哪種協(xié)方差矩陣以及作圖。保存(Save)選項(xiàng)中可以選擇預(yù)測(cè)的分類、判別得分以及所屬類別的概率。如果采用逐步判別法,我們還可以選擇判別的方法(Method)。得到分析結(jié)果如下:2023/2/655目錄上頁(yè)下頁(yè)返回結(jié)束2023/2/656目錄上頁(yè)下頁(yè)返回結(jié)束輸出結(jié)果4.1分析的是各組的描述統(tǒng)計(jì)量和對(duì)各組均值是否相等的檢驗(yàn)。第一張表反映的是有效樣本量及變量缺失的情況;第二張表示各組變量的描述統(tǒng)計(jì)分析;第三張表示對(duì)各組均值是否相等的檢驗(yàn)。由第三張表可以看出,在0.01的顯著性水平上我們沒(méi)有理由拒絕變量x1,x2在兩組均值相等的假設(shè),即認(rèn)為變量x1和x2在兩組的均值是有顯著性差異的。2023/2/657目錄上頁(yè)下頁(yè)返回結(jié)束輸出結(jié)果4.2分析的是各組協(xié)方差陣是否相等的Box'M檢驗(yàn)。第一張表反映的是協(xié)方差矩陣的秩和行列式的對(duì)數(shù)值,由行列式值可以看出協(xié)方差陣不是病態(tài)矩陣;第二張表示各總體協(xié)方差陣是否相等的統(tǒng)計(jì)檢驗(yàn),由F值及其顯著水平,在0.05水平下,沒(méi)有足夠的理由拒絕原假設(shè)。還可以通過(guò)非參數(shù)檢驗(yàn)來(lái)檢驗(yàn)變量x1,x2是否服從正態(tài)分布,檢驗(yàn)的結(jié)果顯示變量x1,x2在可接受的顯著性水平上是服從正態(tài)分布的。所以認(rèn)為選取的變量是滿足判別分析的假定的。2023/2/658目錄上頁(yè)下頁(yè)返回結(jié)束輸出結(jié)果4.3分析的是典型判別函數(shù)。第1張表反映判別函數(shù)的特征值、解釋方差的比例和典型相關(guān)系數(shù)。(注意我們僅選取了兩個(gè)解釋變量,所以判別函數(shù)解釋了全部的方差)第2張表是對(duì)第一個(gè)判別函數(shù)的顯著性檢驗(yàn)。由Wilks’Lambda檢驗(yàn),認(rèn)為判別函數(shù)在0.01的顯著性水平上是極顯著的。

2023/2/659目錄上頁(yè)下頁(yè)返回結(jié)束輸出結(jié)果4.4顯示的是判別函數(shù)、判別載荷和各組的重心。2023/2/660目錄上頁(yè)下頁(yè)返回結(jié)束第二張表是結(jié)構(gòu)矩陣,即判別載荷。由判別權(quán)重和判別載荷可以看出兩個(gè)解釋變量對(duì)判別函數(shù)的貢獻(xiàn)較大。第三張表示非標(biāo)準(zhǔn)化的判別函數(shù),表示為:可以根據(jù)這個(gè)判別函數(shù)計(jì)算每個(gè)觀測(cè)的判別Z得分第一張表示標(biāo)準(zhǔn)化的判別函數(shù),表示為:第四張表反映判別函數(shù)在各組的中心。根據(jù)結(jié)果,判別函數(shù)在y=0這一組的重心為-1.034,在y=1這一組的重心為1.034,由于兩組大小相同,由前面臨界分割點(diǎn)的公式,可以計(jì)算得到臨界分割點(diǎn)為0。這樣,可以根據(jù)每個(gè)觀測(cè)的判別Z得分將觀測(cè)進(jìn)行分類。2023/2/661目錄上頁(yè)下頁(yè)返回結(jié)束2023/2/662目錄上頁(yè)下頁(yè)返回結(jié)束輸出結(jié)果4.5是分類的統(tǒng)計(jì)結(jié)果。第1張表概括了分類過(guò)程,說(shuō)明24個(gè)觀測(cè)都參與分類。第2張表說(shuō)明各組的先驗(yàn)概率,我們?cè)贑lassify選項(xiàng)中選擇的是所有組的先驗(yàn)概率相等。第3張表是每組的分類函數(shù)(區(qū)別于判別函數(shù)),也稱費(fèi)歇線性判別函數(shù),

2023/2/663目錄上頁(yè)下頁(yè)返回結(jié)束第4張表是分類矩陣表。PredictedGroupMembership表示預(yù)測(cè)的所屬組關(guān)系,Original表示原始數(shù)據(jù)的所屬組關(guān)系,Cross-validated表示交叉驗(yàn)證的所屬組關(guān)系,這里交叉驗(yàn)證是采用“留一個(gè)在外”的原則,即每個(gè)觀測(cè)是通過(guò)除了這個(gè)觀測(cè)以外的其他觀測(cè)推導(dǎo)出來(lái)的判別函數(shù)來(lái)分類的。

由第4張表可以看出,通過(guò)判別函數(shù)預(yù)測(cè),有21個(gè)觀測(cè)分類是正確的,其中y=0組10個(gè)(共12個(gè))觀測(cè)被判對(duì),y=1組11(共12個(gè))個(gè)觀測(cè)被判對(duì),從而有21/24=87.5%的原始觀測(cè)被判對(duì)。在交叉驗(yàn)證中,y=0組有9個(gè)(共12個(gè))被判對(duì),y=1組有10個(gè)(共12個(gè))被判對(duì),從而交叉驗(yàn)證有19/24=79.2%的原始觀測(cè)被判對(duì)。還可以通過(guò)分類結(jié)果分析判對(duì)和判錯(cuò)的百分比。2023/2/664目錄上頁(yè)下頁(yè)返回結(jié)束我們還可以通過(guò)保存(Save)選項(xiàng)選擇預(yù)測(cè)的類別關(guān)系和判別得分等,對(duì)觀測(cè)進(jìn)行診斷。下面我們看一個(gè)三總體判別的例子。【例4.3】研究者希望能夠根據(jù)氣候、經(jīng)濟(jì)因素、人口等信息來(lái)判斷某國(guó)家或地區(qū)屬于哪一類型。這里國(guó)家country(因變量)有3種類別,OECD表示經(jīng)合組織的國(guó)家(包括美國(guó)、加拿大和西歐等發(fā)達(dá)國(guó)家),Pacific/Asia表示亞太地區(qū)的國(guó)家,Africa表示非洲地區(qū)的國(guó)家??紤]了以下幾個(gè)自變量,climate(氣候因素,包括沙漠氣候、干旱氣候、地中海氣候、海洋氣候、溫帶氣候和極地氣候等),urban(城市居民的比例),population(人口數(shù)),gdp_cap(人均GDP)。數(shù)據(jù)集來(lái)自SPSS10.0自帶的數(shù)據(jù)集World95.sav。

2023/2/665目錄上頁(yè)下頁(yè)返回結(jié)束進(jìn)入判別分析對(duì)話框以后,我們使用逐步判別分析,Method選擇馬氏距離。得到如下輸出結(jié)果:首先顯示有類的輸出結(jié)果4.1的3張表,第1張表是分析的樣本及其缺失情況。第2張表是各組變量的描述統(tǒng)計(jì)分析。第3張表是各組變量均值是否相等的統(tǒng)計(jì)檢驗(yàn),結(jié)果說(shuō)明四個(gè)自變量各組的均值在0.05的顯著性水平上是不相等的。此處從略。

2023/2/666目錄上頁(yè)下頁(yè)返回結(jié)束輸出結(jié)果4.6是對(duì)協(xié)方差陣是否相等的檢驗(yàn)。由第2張表可以看出,原假設(shè)被拒絕,即認(rèn)為各組的協(xié)方差陣不等。(注意這里違反了原假設(shè))2023/2/667目錄上頁(yè)下頁(yè)返回結(jié)束2023/2/668目錄上頁(yè)下頁(yè)返回結(jié)束2023/2/669目錄上頁(yè)下頁(yè)返回結(jié)束輸出結(jié)果4.7是說(shuō)明逐步回歸的結(jié)果。第1,2張表說(shuō)明變量進(jìn)入判別函數(shù)的情況。第3張表說(shuō)明不在判別函數(shù)的變量,結(jié)果反映城市居民的比例(urban)對(duì)判別函數(shù)的貢獻(xiàn)不顯著,其他三個(gè)自變量被選入判別方程。第4張表說(shuō)明判別函數(shù)的顯著性,由Step3的結(jié)果說(shuō)明判別函數(shù)在0.05的顯著性水平上是顯著的,模型擬合較好。2023/2/670目錄上頁(yè)下頁(yè)返回結(jié)束2023/2/671目錄上頁(yè)下頁(yè)返回結(jié)束輸出結(jié)果4.8分析的是典型判別函數(shù)。第1張表說(shuō)明選取了兩個(gè)典型判別函數(shù),它們可以解釋全部的方差。第2張表是對(duì)兩個(gè)判別函數(shù)的Wilks’Lamada檢驗(yàn),檢驗(yàn)結(jié)果說(shuō)明兩個(gè)判別函數(shù)在0.05的顯著性水平上是顯著的。第3張表是標(biāo)準(zhǔn)化判別函數(shù),第4張表是結(jié)構(gòu)矩陣(即判別載荷矩陣),第5張表是非標(biāo)準(zhǔn)化判別函數(shù),由這幾張表可以說(shuō)明,第一判別函數(shù)主要反映一國(guó)的氣候和經(jīng)濟(jì)因素,第二判別函數(shù)主要反映人口因素。第6張表反映各組的重心,我們由此可以計(jì)算出臨界點(diǎn),從而根據(jù)判別函數(shù)計(jì)算出判別Z得分,對(duì)各個(gè)觀測(cè)進(jìn)行歸類。2023/2/672目錄上頁(yè)下頁(yè)返回結(jié)束2023/2/673目錄上頁(yè)下頁(yè)返回結(jié)束輸出結(jié)果4-9的第1張表是對(duì)觀測(cè)分類的總體概括,有一個(gè)觀測(cè)至少有1個(gè)自變量缺失。第2張表是各組的先驗(yàn)概率,由于我們選擇先驗(yàn)概率按各組大小計(jì)算,所以各組的先驗(yàn)概率是與各組大小成比例的。第3張表說(shuō)明分類函數(shù),也就是費(fèi)歇線性判別函數(shù),我們可以根據(jù)這三組的函數(shù)計(jì)算每個(gè)觀測(cè)在各組的分類得分,然后將該觀測(cè)歸到得分最高的組中。第4張圖是根據(jù)典型判別函數(shù)作的所有組的散點(diǎn)圖,比較直觀地反映了各組觀測(cè)的分類情況和各組的重心。2023/2/674目錄上頁(yè)下頁(yè)返回結(jié)束第5張表是分類結(jié)果的矩陣,這里我們也使用了“留一個(gè)在外”的原則進(jìn)行交叉驗(yàn)證,驗(yàn)證的結(jié)果還是可以接受的,表明模型擬合還是不錯(cuò)的。由分類矩陣可以看出,OECD國(guó)家和非洲國(guó)家的個(gè)體誤判概率很小,而亞太國(guó)家誤判概率很大。這說(shuō)明了OECD國(guó)家經(jīng)濟(jì)比較發(fā)達(dá),城市化水平較高,而且各成員國(guó)發(fā)展水平相差不大;非洲國(guó)家經(jīng)濟(jì)水平較低,城市化水平也較低,其成員國(guó)發(fā)展水平相差也不大;因此這兩類國(guó)家比較容易判別,而亞太國(guó)家和地區(qū)發(fā)展水平不均衡,沒(méi)有太多的共同點(diǎn),導(dǎo)致其成員國(guó)不易判別。(根據(jù)輸出結(jié)果4.8第2張表的均值和協(xié)差陣可以說(shuō)明)我們還可以在對(duì)話框中選擇Classify→Display→Casewiseresults,對(duì)每個(gè)觀測(cè)進(jìn)行診斷分析。2023/2/675§4.8判別分析應(yīng)用的幾個(gè)例子

目錄上頁(yè)下頁(yè)返回結(jié)束下面用SPSS軟件中的Discriminant模塊來(lái)實(shí)現(xiàn)判別分析。【例4.3】

為了研究2005年全國(guó)各地區(qū)農(nóng)村居民家庭人均消費(fèi)支出情況,按標(biāo)準(zhǔn)化歐氏平方距離、離差平方和聚類方法將29個(gè)省、市、自治區(qū)(除廣東和西藏以外)分為三種類型,設(shè)置group變量取值分別為1、2、3。試建立判別函數(shù),判定廣東、西藏分別屬于哪個(gè)消費(fèi)水平類型。判別指標(biāo)及原始數(shù)據(jù)見(jiàn)表4-2。

2023/2/676目錄上頁(yè)下頁(yè)返回結(jié)束解:本例數(shù)據(jù)k=3,判別指標(biāo)p=8,各組中樣本為:n1=3,n2=15,n3=11,待判樣品個(gè)數(shù)為2總體協(xié)方差的逆矩陣:2023/2/677目錄上頁(yè)下頁(yè)返回結(jié)束2023/2/678目錄上頁(yè)下頁(yè)返回結(jié)束將原29個(gè)樣品的回報(bào)結(jié)果列于表4-3,兩個(gè)待判樣品的判別結(jié)果列于表4-4。廣東省應(yīng)判歸第二類消費(fèi)水平,西藏自治區(qū)歸入第三類消費(fèi)水平為宜。本例的回報(bào)準(zhǔn)確率高,說(shuō)明各地區(qū)農(nóng)村居民的消費(fèi)水平劃分為三種類型是合適的。由于SPSS中的判別分析沒(méi)有距離判別這一方法,因此距離判別法無(wú)法在SPSS中直接實(shí)現(xiàn),但可以通過(guò)Excel等軟件來(lái)進(jìn)行手工計(jì)算。2023/2/679目錄上頁(yè)下頁(yè)返回結(jié)束這里順便指出,回報(bào)的誤判率并不是“誤判概率”,而且前者通常要小些,回判情況僅供使用時(shí)參考。

2023/2/680目錄上頁(yè)下頁(yè)返回結(jié)束【例4.4】

為了研究2005年全國(guó)各地區(qū)國(guó)有及國(guó)有控股工業(yè)企業(yè)的經(jīng)營(yíng)狀況,按標(biāo)準(zhǔn)化歐氏平方距離、離差平方和聚類方法將29個(gè)省、市、自治區(qū)(除廣東和西藏以外)分為三種類型,設(shè)置group變量取值分別為1、2、3。試建立判別函數(shù),判定廣東、西藏分別屬于哪個(gè)發(fā)展類型。判別指標(biāo)及原始數(shù)據(jù)見(jiàn)表4-5。

解:本例中的組數(shù)k=3,判別指標(biāo)p=7,各組中樣本為:n1=2,n2=24,n3=3,待判樣品個(gè)數(shù)為32023/2/681目錄上頁(yè)下頁(yè)返回結(jié)束總體協(xié)方差陣的逆矩陣為:2023/2/682目錄上頁(yè)下頁(yè)返回結(jié)束2023/2/683目錄上頁(yè)下頁(yè)返回結(jié)束將原29個(gè)樣品的回報(bào)結(jié)果列于表4-6,兩個(gè)待判樣品的判別結(jié)果列于表4-7。廣東省應(yīng)判歸第一類,西藏自治區(qū)歸入第三類為宜。本例的回報(bào)準(zhǔn)確率高,說(shuō)明各地區(qū)國(guó)有及控股工業(yè)企業(yè)經(jīng)濟(jì)效益劃分為三種類型是合適的。這也可看成聚類分析與判別分析的結(jié)合應(yīng)用。

2023/2/684目錄上頁(yè)下頁(yè)返回結(jié)束【例4.5】2005年全國(guó)城鎮(zhèn)居民月平均消費(fèi)狀況可劃分為兩類,分類后的數(shù)據(jù)見(jiàn)表4-8。試建立費(fèi)歇爾線性判別函數(shù),并將廣東、西藏兩個(gè)待判省區(qū)歸類。2023/2/685目錄上頁(yè)下頁(yè)返回結(jié)束1.計(jì)算總體G1和G2的各判別變量均值:(20.7950,145.2736,39.856,64.949,89.702,16.317,49.437,417.006)'(19.929,95.540,21.480,35.508,59.802,10.490,39.994,184.913)'(0.866,46.734,18.376,29.441,29.900,5.827,9.443,232.094)'(40.724,243.814,61.336,100.458,149.504,26.808,89.431,601.919)'2023/2/686目錄上頁(yè)下頁(yè)返回結(jié)束4.計(jì)算兩個(gè)一元通體均值的中點(diǎn)m的估計(jì)值:3.計(jì)算Fisher樣本判別函數(shù):2023/2/687目錄上頁(yè)下頁(yè)返回結(jié)束故在0.05的水平下,兩個(gè)總體的均值有顯著差異,即判別函數(shù)有效。5.據(jù)算檢驗(yàn)統(tǒng)計(jì)量F值:F檢驗(yàn)統(tǒng)計(jì)量:馬氏距離:其第一自由度p=8,第二自由度,查F分布表有:2023/2/688目錄上頁(yè)下頁(yè)返回結(jié)束6.回判及待判樣品的歸類。(1)計(jì)算兩個(gè)一元通體均值的中點(diǎn)m的估計(jì)值:2023/2/689目錄上頁(yè)下頁(yè)返回結(jié)束判別函數(shù)也列于表4-18,于是Fisher判別法則為:(2)計(jì)算原29個(gè)樣品的線性判別函數(shù)值對(duì)于兩個(gè)待判省區(qū),判別函數(shù)值y0小于7.9828,故都判別低消費(fèi)總體,將原29個(gè)省市自治區(qū)的回報(bào)結(jié)果也列于表4-9,此例沒(méi)有誤判,回報(bào)準(zhǔn)確率很高。2023/2/690目錄上頁(yè)下頁(yè)返回結(jié)束2023/2/691目錄上頁(yè)下頁(yè)返回結(jié)束SPSS中進(jìn)行費(fèi)歇爾判別分析是十分快捷的。首先按照表4-16把數(shù)據(jù)輸入SPSS數(shù)據(jù)表中,然后依次點(diǎn)擊“Analyze”→“Classify”→“Discriminant”,打開(kāi)DiscriminantAnalysis對(duì)話框,將對(duì)話框左側(cè)變量列表中的group選入GroupingVariable框,并點(diǎn)擊“DefineRange”鈕,在彈出的DiscriminantAnalysis:DefineRange對(duì)話框中,定義判別原始數(shù)據(jù)的類別區(qū)間,本例為兩類,故在Minimum處輸入1、在Maximum處輸入2,點(diǎn)擊Continue鈕返回DiscriminantAnalysis對(duì)話框。

2023/2/692目錄上頁(yè)下頁(yè)返回結(jié)束再?gòu)膶?duì)話框左側(cè)的變量列表中選將八個(gè)變量選Independents框,作為判別分析的基礎(chǔ)數(shù)據(jù)變量。點(diǎn)擊“Statistics”鈕,彈出DiscriminantAnalysis:Statistics對(duì)話框,在Descriptive欄中選Means項(xiàng),要求對(duì)各組的各變量作均數(shù)與標(biāo)準(zhǔn)差的描述;在FunctionCoefficients欄中選Unstandardized項(xiàng)(注意,不是Fisher’s項(xiàng)?。箫@示費(fèi)歇爾判別法建立的非標(biāo)準(zhǔn)化系數(shù)。2023/2/693目錄上頁(yè)下頁(yè)返回結(jié)束之后,點(diǎn)擊“Continue”鈕返回DiscriminantAnalysis對(duì)話框。點(diǎn)擊“Save”鈕,彈出DiscriminantAnalysis:SaveNewVariables對(duì)話框,選Predictedgroupmembership項(xiàng)要求將回判的結(jié)果存入原始數(shù)據(jù)庫(kù)中。點(diǎn)擊“Continue”鈕返回DiscriminantAnalysis對(duì)話框,其他項(xiàng)目不變,點(diǎn)擊“OK”鈕即完成分析。在輸出結(jié)果中可以看到各組均值、標(biāo)準(zhǔn)差、協(xié)方差陣等描述統(tǒng)計(jì)結(jié)果以及判別函數(shù),返回?cái)?shù)據(jù)表中,可以看到判別結(jié)果已經(jīng)作為一個(gè)新的變量被保存,廣東和西藏均被劃分到第二大類,篇幅所限,各輸出結(jié)果在此不再列示。2023/2/694目錄上頁(yè)下頁(yè)返回結(jié)束【例4.6】2005年全國(guó)各地區(qū)農(nóng)村居民家庭人均消費(fèi)情況可劃分為三種類型,分類后的數(shù)據(jù)見(jiàn)表4-2。試用SPSS軟件建立Bayes判別函數(shù),并將待判樣品歸類。解:本例中的組數(shù)為k=3,判別指標(biāo)為p=8,各組中的樣本為n1=3,n2=15,n3=11,在SPSS中進(jìn)行貝葉斯判別分析時(shí),操作步驟與例4.5中的費(fèi)歇爾判別相同,但是在DiscriminantAnalysis--S

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論