多元統(tǒng)計(jì)分析第二部分課件_第1頁
多元統(tǒng)計(jì)分析第二部分課件_第2頁
多元統(tǒng)計(jì)分析第二部分課件_第3頁
多元統(tǒng)計(jì)分析第二部分課件_第4頁
多元統(tǒng)計(jì)分析第二部分課件_第5頁
已閱讀5頁,還剩53頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、6.3 貝葉斯判別一、最大后驗(yàn)概率準(zhǔn)則一、最大后驗(yàn)概率準(zhǔn)則二、最小平均誤判代價(jià)準(zhǔn)則二、最小平均誤判代價(jià)準(zhǔn)則距離判別不合適的一個(gè)例子1(校研究生組):(校研究生組):n1=2000, 1=5002(校本科生組):(校本科生組):n2=8000, 2=400研究生組中研究生組中x500的有的有1000人,本科生組中人,本科生組中x500的有的有2000人。某學(xué)生的人。某學(xué)生的x=500,試判別該生歸屬哪一組。,試判別該生歸屬哪一組。該例如采用距離判別法則顯然不妥,應(yīng)考慮利用如下的先該例如采用距離判別法則顯然不妥,應(yīng)考慮利用如下的先驗(yàn)概率:驗(yàn)概率: 12200080000.2,0.810000100

2、00pp一、最大后驗(yàn)概率準(zhǔn)則設(shè)有設(shè)有k個(gè)組個(gè)組1, 2, , k,且組,且組i的概率密度為的概率密度為fi (x) ,樣品,樣品x來自組來自組i的先驗(yàn)概率為的先驗(yàn)概率為pi ,i=1,2, ,k,滿足,滿足p1+p2 + +pk =1 。則。則x屬于屬于i的后驗(yàn)概率為的后驗(yàn)概率為最大后驗(yàn)概率準(zhǔn)則是采用如下的判別規(guī)則:最大后驗(yàn)概率準(zhǔn)則是采用如下的判別規(guī)則: 11 2|, ,iiikiiip fxpxikp fx 1,|max|llii kxpxpx 若若例例4 設(shè)有設(shè)有1、2和和3三個(gè)組,欲判別某樣品三個(gè)組,欲判別某樣品x0屬于何組,屬于何組,已知已知p1=0.05,p2=0.65,p3=0.3

3、0,f1(x0)=0.10, f2(x0)=0.63,f3(x0)=2.4?,F(xiàn)計(jì)算。現(xiàn)計(jì)算x0屬于各組的后驗(yàn)概屬于各組的后驗(yàn)概率如下:率如下: 所以應(yīng)將所以應(yīng)將x0判為組判為組3。 1101030122020301330303010 05 0 100 05 0 100 65 0 630 30 2 40 0050 0041 13450 65 0 630 3611 13450 30 2 40 6351 1345.|.|.|.iiiiiiiiip fxpxp fxp fxpxp fxp fxpxp fx 皆為正態(tài)組的情形設(shè)設(shè)inp(i,i),i0, i=1,2, ,k。這時(shí),組。這時(shí),組i的概率密度

4、為的概率密度為fi(x)=(2)p/2|i|1/2exp0.5d2(x,i)其中其中d2(x,i)=(xi)i 1 (xi)是是x到到i的平方馬氏距離。的平方馬氏距離。以下各情形下后驗(yàn)概率的具體計(jì)算公式。以下各情形下后驗(yàn)概率的具體計(jì)算公式。 當(dāng)當(dāng)p1=p2= =pk=1/k,1=2= =k=時(shí),時(shí), 2211212exp,|exp,iikiidxpxdx 當(dāng)當(dāng)p1=p2= =pk=1/k,而,而1,2, ,k不全相等時(shí),不全相等時(shí), 當(dāng)當(dāng)1=2= =k=,而,而p1,p2, ,pk不全相等時(shí),不全相等時(shí), 當(dāng)當(dāng)p1,p2, ,pk不全相等,不全相等,1,2, ,k也不全相等時(shí),也不全相等時(shí),

5、2211212exp,ln|exp,lniiikiiidxpxdx 221122122exp,ln|exp,lniiikiiidxppxdxp 221122122exp,lnln|exp,lnlniiiikiiiidxppxdxp 上述各情形的后驗(yàn)概率可統(tǒng)一表達(dá)為上述各情形的后驗(yàn)概率可統(tǒng)一表達(dá)為稱稱d2(x, i)為為x到到i的的廣義平方距離廣義平方距離。 22122121 21201012121212exp,|, ,exp,d,ln,2ln,1,2,iikiiiiiiikikikikdxpxikdxxdxghgpppphpppkik 其其中中,若若不不全全相相等等, ,若若, , 若若不不全

6、全相相等等, ,若若在正態(tài)性假定下,在正態(tài)性假定下,上述上述判別規(guī)則也可等價(jià)地表達(dá)為判別規(guī)則也可等價(jià)地表達(dá)為當(dāng)當(dāng)1=2= =k=時(shí),時(shí),上述后驗(yàn)概率公式上述后驗(yàn)概率公式可簡化為可簡化為其中其中ii=1i,ci=0.5i1i, i=1,2, ,k。此時(shí)判別規(guī)則等價(jià)。此時(shí)判別規(guī)則等價(jià)于于如果我們對如果我們對x來自哪一組的先驗(yàn)信息一無所知,則一般可取來自哪一組的先驗(yàn)信息一無所知,則一般可取p1=p2= =pk=1/k。這時(shí)。這時(shí),判別規(guī)則簡化為判別規(guī)則簡化為上節(jié)的線性判別。上節(jié)的線性判別。實(shí)際應(yīng)用中,以上各式中的實(shí)際應(yīng)用中,以上各式中的i和和i(i=1,2, ,k)一般都是未知)一般都是未知的,需用

7、相應(yīng)的樣本估計(jì)值代替。的,需用相應(yīng)的樣本估計(jì)值代替。221,min,llii kxdxdx , , 若若 ()() 1expln|,1,2,explniiiikiiiii xcppxiki xcp 1,lnmaxlnllliiii kxi xcpi xcp 若若例例5 在例在例3中,已知破產(chǎn)企業(yè)所占的比例約為中,已知破產(chǎn)企業(yè)所占的比例約為10%,即可取,即可取p1=0.1,p2=0.9,假定兩組均為正態(tài),且,假定兩組均為正態(tài),且1=2=,則未判企,則未判企業(yè)業(yè)x=(0.16, 0.10, 1.45, 0.51)的后驗(yàn)概率為的后驗(yàn)概率為由于由于p(1|x)0, i=1,2。當(dāng)當(dāng)1=2=時(shí),(時(shí),

8、(*)式可具體寫成)式可具體寫成其中其中a=1(12), 。 在在p1=p2,c(1|2)=c(2|1)的條件下的條件下上上式將式將退化為距離判別退化為距離判別的線性判別。的線性判別。 2112211|2ln2|11|2ln2|1cpxaxcpcpxaxcp , , 若若, , 若若1212當(dāng)當(dāng)12時(shí),(時(shí),(*)式可寫為)式可寫為其中其中d2(x,i)=(xi)i1(xi), i=1,2。 在在|1|=|2|,p1=p2,c(1|2)=c(2|1)的條件下的條件下上上式將式將化為化為距離判別中距離判別中12 時(shí)的情形時(shí)的情形。 22222221/2121121/211/212121/212|

9、1()2ln1|22|1()2ln1|2cp xdxdxcp cp xdxdxcp , , 若若, ,), , , 若若, ,), ,2.多組的情形設(shè)設(shè) fi(x)為組為組i的概率密度函數(shù),的概率密度函數(shù),i=1,2, ,k。令。令 pi組組i的先驗(yàn)概率,的先驗(yàn)概率,i=1,2, ,k。c(l|i)將來自將來自i的的x判為判為l的代價(jià)的代價(jià), l,i=1,2, ,k, 對對l=i,c(i|i)=0。rl所有判為所有判為l的的x的集合,的集合,l=1,2, ,k。因而對因而對l,i=1,2, ,k,將來自,將來自i的樣品的樣品x判為判為l的條件概率的條件概率為為 |dlliirp l ip xr

10、xfxx 平均誤判代價(jià) 11111111|,|kkililkkliiilkkkkiililil iecme c l ic l i prc l i prpc l i p l i ppc l i p l i xxxxx使使ecm達(dá)到最小的達(dá)到最小的判別規(guī)則判別規(guī)則是是假定所有的誤判代價(jià)都是相同的,不失一般性,可令假定所有的誤判代價(jià)都是相同的,不失一般性,可令c(l|i)=1, li, l,i=1,2, ,k,則此時(shí),則此時(shí)為所有誤判概率之和,稱之為為所有誤判概率之和,稱之為總的誤判概率總的誤判概率。故此時(shí)的最小。故此時(shí)的最小平均誤判代價(jià)準(zhǔn)則也可稱為平均誤判代價(jià)準(zhǔn)則也可稱為最小總誤判概率準(zhǔn)則最小總誤

11、判概率準(zhǔn)則,并且,并且上上式可簡化為式可簡化為故故最小總誤判概率準(zhǔn)則與最大后驗(yàn)概率準(zhǔn)則是彼此等價(jià)的,最小總誤判概率準(zhǔn)則與最大后驗(yàn)概率準(zhǔn)則是彼此等價(jià)的,或者說,最大后驗(yàn)概率準(zhǔn)則等價(jià)于所有誤判代價(jià)相同時(shí)或者說,最大后驗(yàn)概率準(zhǔn)則等價(jià)于所有誤判代價(jià)相同時(shí)的最小平均誤判代價(jià)準(zhǔn)則。的最小平均誤判代價(jià)準(zhǔn)則。 111,|min|kkljjjji kjjj lj ixp fx c ljp fx c ij 若若 1111|kkkiiiiil iecmpp l ip p i i 1,maxllliii kxp fxp fx 若若注注 令令b=誤判誤判,ai=樣品來自樣品來自i,i=1,2, ,k 則利用全概率公式得

12、則利用全概率公式得總的誤判概率總的誤判概率為為此外,此外,總的正確判別概率總的正確判別概率為為 111|kkkiiiiiil ip bp ap b app l i 11111111|kkiiil ikkiiiip bp bpp l ipp i ip p i i 例例9 在例在例8中,假定誤判代價(jià)矩陣為中,假定誤判代價(jià)矩陣為 現(xiàn)采用最小現(xiàn)采用最小ecm準(zhǔn)則進(jìn)行判別。準(zhǔn)則進(jìn)行判別。l=1:p2f2(x0)c(1|2)+p3f3(x0)c(1|3) =0.650.6320+0.302.460=51.39l=2:p1f1(x0)c(2|1)+p3f3(x0)c(2|3) =0.050.1010+0.3

13、02.450=36.05l=3:p1f1(x0)c(3|1)+p2f2(x0)c(3|2) =0.050.10200+0.650.63100=41.95由于由于l=2時(shí)為最小值,故時(shí)為最小值,故將將x0判為判為2。6.4 費(fèi)希爾判別費(fèi)希爾判別費(fèi)希爾判別(或稱(或稱典型判別典型判別)的基本思想是投影(或降)的基本思想是投影(或降維):用維):用p 維向量維向量 的少數(shù)幾個(gè)線性組合的少數(shù)幾個(gè)線性組合(稱為(稱為判別式判別式或或典型變量典型變量) (一般(一般r明顯小于明顯小于p)來代替原始的)來代替原始的p 個(gè)變量個(gè)變量x1,x2, ,xp ,以達(dá)到降維的目的,并根據(jù)這以達(dá)到降維的目的,并根據(jù)這r

14、 個(gè)判別式個(gè)判別式y(tǒng)1,y2, ,yr對樣品對樣品的歸屬作出判別。成功的降維將使判別更為方便和有效,的歸屬作出判別。成功的降維將使判別更為方便和有效,且可對前兩個(gè)或前三個(gè)判別式作圖,從直觀的幾何圖形上且可對前兩個(gè)或前三個(gè)判別式作圖,從直觀的幾何圖形上區(qū)別各組。區(qū)別各組。12,px xxx1122,rryyya xa xa x一個(gè)說明性的二維例子費(fèi)希爾判別費(fèi)希爾判別需假定需假定1=2= =k=。設(shè)來自組設(shè)來自組i的的p維觀測維觀測值為值為xij,j=1,2, ,ni,i=1,2, ,k,記記式中式中則則b是組間平方和及交叉乘積和是組間平方和及交叉乘積和,e是組內(nèi)平方和及交是組內(nèi)平方和及交叉乘積和

15、,叉乘積和,sp是是的聯(lián)合無偏估計(jì)。的聯(lián)合無偏估計(jì)。111111ikiiiinkkiiijiijiiijpnnnkbxxxxesxxxxse11111,inkkiijiiijiiinnnnnxxxx設(shè)設(shè)e1b的全部非零特征值依次為的全部非零特征值依次為12 s0,其中的非零,其中的非零特征值個(gè)數(shù)特征值個(gè)數(shù)smin(k1,p)相應(yīng)的特征向量依次記為相應(yīng)的特征向量依次記為t1,t2, ,ts(標(biāo)準(zhǔn)化為標(biāo)準(zhǔn)化為tispti=1, i=1,2, ,s),稱,稱y1=t1x為為第一判別式第一判別式,y2=t2x為為第第二二判別判別式式。一般地,稱一般地,稱yi=tix為為第第i判別式判別式,i=1,2,

16、 ,s。由由smin(k1,p)知,組數(shù)知,組數(shù)k=2時(shí)只有一個(gè)判別式,時(shí)只有一個(gè)判別式,k=3時(shí)最多時(shí)最多只有兩個(gè)判別式,判別式的個(gè)數(shù)不可能超過原始變量的個(gè)只有兩個(gè)判別式,判別式的個(gè)數(shù)不可能超過原始變量的個(gè)數(shù)數(shù)p。特征值特征值i表明了第表明了第i判別式判別式y(tǒng)i對區(qū)分各組的貢獻(xiàn)大小,對區(qū)分各組的貢獻(xiàn)大小,yi的貢獻(xiàn)的貢獻(xiàn)率為率為1siii而前而前r(s)個(gè)判別式個(gè)判別式y(tǒng)1,y2, ,yr的累計(jì)貢獻(xiàn)率為的累計(jì)貢獻(xiàn)率為它表明了它表明了y1,y2, ,yr的判別能力。的判別能力。在實(shí)際應(yīng)用中,如果前在實(shí)際應(yīng)用中,如果前r個(gè)判別式的累計(jì)貢獻(xiàn)率已達(dá)到了一個(gè)個(gè)判別式的累計(jì)貢獻(xiàn)率已達(dá)到了一個(gè)較高的比例較

17、高的比例(如如75%95%),則可采用這,則可采用這r個(gè)判別式個(gè)判別式做做判別。判別。判別規(guī)則判別規(guī)則為為其中其中 ,i=1,2, ,k 。該判別規(guī)則。該判別規(guī)則也可表也可表達(dá)為達(dá)為11rsiiii 22111minrrljljjiji kjjxyyyy , , 若若11inijjiiijjiyt xxxn ,=,= 22111minrrljljii kjjxtxxtxx , , 若若如果只使用一個(gè)判別式進(jìn)行判別(即如果只使用一個(gè)判別式進(jìn)行判別(即r=1),則),則以上判別規(guī)則以上判別規(guī)則可簡化為可簡化為式中式中y和和 (i=1,2, ,k)分別是分別是前面判別規(guī)則中前面判別規(guī)則中的的y1和和

18、 (i=1,2, ,k)。有時(shí)我們也使用有時(shí)我們也使用中心化的費(fèi)希爾判別式中心化的費(fèi)希爾判別式,即,即式中式中 為為k個(gè)組的總均值。仍使用個(gè)組的總均值。仍使用同上的判別規(guī)則同上的判別規(guī)則進(jìn)行判別。進(jìn)行判別。對于兩組的判別,費(fèi)希爾判別等價(jià)于協(xié)方差矩陣相等的距離判對于兩組的判別,費(fèi)希爾判別等價(jià)于協(xié)方差矩陣相等的距離判別,也等價(jià)于協(xié)方差矩陣相等且先驗(yàn)概率和誤判代價(jià)也均相別,也等價(jià)于協(xié)方差矩陣相等且先驗(yàn)概率和誤判代價(jià)也均相同的貝葉斯判別。同的貝葉斯判別。1minllii kxyyyy , , 若若iy1iy ,1,2,iiytxxis 111inkijijxxn= =例例10費(fèi)希爾于費(fèi)希爾于1936年

19、發(fā)表的鳶尾花年發(fā)表的鳶尾花(iris)數(shù)據(jù)被廣泛地作數(shù)據(jù)被廣泛地作為判別分析的例子。數(shù)據(jù)是對為判別分析的例子。數(shù)據(jù)是對3種鳶尾花:剛毛種鳶尾花:剛毛鳶尾花鳶尾花(第第組組)、變色鳶尾花、變色鳶尾花(第第組組)和弗吉尼亞和弗吉尼亞鳶尾花鳶尾花(第第組組)各抽取一個(gè)容量為各抽取一個(gè)容量為50的樣本,測的樣本,測量其花萼長量其花萼長(x1)、花萼寬、花萼寬(x2)、花瓣長、花瓣長(x3)、花瓣、花瓣寬寬(x4),單位為,單位為mm,數(shù)據(jù)列于,數(shù)據(jù)列于下下表表編號(hào)編號(hào)組別組別x1x2x3x4編號(hào)編號(hào)組別組別x1x2x3x41503314276582751192642856227757294213365

20、28461578723058164673156247954341545632851158052411516463414381713059217693151238264315518862224515836030481895932481884632956181046361028549243310 665630451514155234013675827411014266304414685034164143682848146946321421445434172706029451514551371547157263510146523515272574415414758285124735036142148

21、6730501774773061231496333602575633456241505337152 鳶尾花數(shù)據(jù)鳶尾花數(shù)據(jù)本題中,本題中,n1=n2=n3=50,n=n1+n2+n3=150。經(jīng)計(jì)算經(jīng)計(jì)算1233150.0659.3665.8834.2827.7029.74,14.6242.6055.522.4613.2620.2658.43330.573137.58011.993iiinnxxxxx316321.2131995.26716524.8407127.9331995.2671134.4935723.9602293.26716524.8405723.96043710.28018677.

22、4007127.9332293.26718677.4008041.333iiiinbxxxx3113895.6201363.0002462.460564.5001363.0001696.200812.080480.8402462.460812.0802722.260627.180564.500480.840627.180615.660inijiijiijexxxxe1b的正特征值個(gè)數(shù)的正特征值個(gè)數(shù)smin(k1,p)=min(2,4)=2,可求得兩,可求得兩個(gè)正特征值個(gè)正特征值1=32.192, 2=0.285相應(yīng)的標(biāo)準(zhǔn)化特征向量相應(yīng)的標(biāo)準(zhǔn)化特征向量00000013. 581. 818.112

23、3.4595.5622.17814.9656.3 88. 772.94321.5129.1421 .4973.4227.54911.846e b 0 00 0000000 00012. 83.2.153.216.22. 93.281.284tt , ,所以,中心化的費(fèi)希爾判別式為所以,中心化的費(fèi)希爾判別式為判別式的組均值為判別式的組均值為對于任一樣品對于任一樣品x,可按下式進(jìn)行判別:,可按下式進(jìn)行判別: 120 00000000 00000 0001123421234. 8358.433.1533 .573.2237.58.28111.993.258.433.2163 .573. 9337.5

24、8.28411.993ytxxxxxxytxxxxxx 11000021311222327.6 81.8255.783.215.728.513yyyyyy , , , , , 22223111minljljjijijjxyyyy , , 若若由于由于n1,n2,n3都很大,因此用都很大,因此用第一種第一種估計(jì)誤判概率的效果還是不估計(jì)誤判概率的效果還是不錯(cuò)的,判別情況列于錯(cuò)的,判別情況列于下下表表2。所以所以這些誤判概率是比較低的。這些誤判概率是比較低的。判別為判別為真實(shí)組真實(shí)組500004820149 判別情況判別情況 0000 00100 002|13|121|23|2. 451|32|3.

25、 25pppppp, , , ,我們可以將樣本中我們可以將樣本中150個(gè)樣品的判別式得分個(gè)樣品的判別式得分(y1,y2)作一散作一散點(diǎn)圖,點(diǎn)圖,下下圖是圖是sas9.1的輸出結(jié)果。圖中,的輸出結(jié)果。圖中,can1,can2分分別是指別是指y1,y2。組。組、組、組和組和組的點(diǎn)分別用的點(diǎn)分別用“1”、“2”和和“3”標(biāo)出,有標(biāo)出,有7個(gè)點(diǎn)隱藏在圖中,因與圖中某些點(diǎn)的位置個(gè)點(diǎn)隱藏在圖中,因與圖中某些點(diǎn)的位置幾乎重疊而未能標(biāo)出。幾乎重疊而未能標(biāo)出。從圖中可見,分離的效果相當(dāng)好。對于一個(gè)新樣品從圖中可見,分離的效果相當(dāng)好。對于一個(gè)新樣品x0,可以用可以用目測法從直覺上辨別目測法從直覺上辨別其所歸屬的組

26、其所歸屬的組。需要指出的。需要指出的是,對圖形的目測法是費(fèi)希爾判別的主要價(jià)值所在,圖是,對圖形的目測法是費(fèi)希爾判別的主要價(jià)值所在,圖中常常能反映出計(jì)算中無法得到的豐富信息,從而可能中常常能反映出計(jì)算中無法得到的豐富信息,從而可能會(huì)更有效地進(jìn)行判別。會(huì)更有效地進(jìn)行判別。鳶尾花數(shù)據(jù)兩個(gè)判別式得分的散點(diǎn)圖鳶尾花數(shù)據(jù)兩個(gè)判別式得分的散點(diǎn)圖第五節(jié) 實(shí)例分析與計(jì)算機(jī)實(shí)現(xiàn)這一節(jié)我們利用這一節(jié)我們利用spss對對fisher判別法和判別法和bayes判別法進(jìn)行判別法進(jìn)行計(jì)算機(jī)實(shí)現(xiàn)。計(jì)算機(jī)實(shí)現(xiàn)。為研究某地區(qū)人口死亡狀況,已按某種方法將為研究某地區(qū)人口死亡狀況,已按某種方法將15個(gè)已知地個(gè)已知地區(qū)樣品分為區(qū)樣品分

27、為3類,指標(biāo)含義及原始數(shù)據(jù)如下。試建立判別類,指標(biāo)含義及原始數(shù)據(jù)如下。試建立判別函數(shù),并判定另外函數(shù),并判定另外4個(gè)待判地區(qū)屬于哪類?個(gè)待判地區(qū)屬于哪類? x1 : 0歲組死亡概率歲組死亡概率 x 4 : 55歲組死亡概率歲組死亡概率 x 2 :1歲組死亡概率歲組死亡概率 x5 : 80歲組死亡概率歲組死亡概率 x 3 : 10歲組死亡概率歲組死亡概率 x6 : 平均預(yù)期壽命平均預(yù)期壽命 表表1 各地區(qū)死亡概率表各地區(qū)死亡概率表 (一一) 操作步驟操作步驟1. 在在spss窗口中選擇窗口中選擇analyzeclassifydiscriminate,調(diào),調(diào)出判別分析主界面,將左邊的變量列表中的出

28、判別分析主界面,將左邊的變量列表中的“group”變量選變量選入分組變量中,將入分組變量中,將變量選入自變量中,并選擇變量選入自變量中,并選擇enter independents together單選按鈕,即使用所有自變量進(jìn)行判單選按鈕,即使用所有自變量進(jìn)行判別分析。別分析。圖圖2 判別分析主界面判別分析主界面2. 點(diǎn)擊點(diǎn)擊define range按鈕,定義分組變量的取值范圍。本例按鈕,定義分組變量的取值范圍。本例中分類變量的范圍為中分類變量的范圍為1到到3,所以在最小值和最大值中分別輸,所以在最小值和最大值中分別輸入入1和和3。單擊。單擊continue按鈕,返回主界面。按鈕,返回主界面。3

29、. 單擊單擊statistics按鈕,指定輸出的描述統(tǒng)計(jì)量和判別函數(shù)按鈕,指定輸出的描述統(tǒng)計(jì)量和判別函數(shù)系數(shù)。選中系數(shù)。選中function coefficients欄中的欄中的fishers和和unstandardized。這兩個(gè)選項(xiàng)的含義如下:。這兩個(gè)選項(xiàng)的含義如下: fishers:給出:給出bayes判別函數(shù)的系數(shù)。(注意:這個(gè)選項(xiàng)判別函數(shù)的系數(shù)。(注意:這個(gè)選項(xiàng)不是要給出不是要給出fisher判別函數(shù)的系數(shù)。這個(gè)復(fù)選框的名字之所判別函數(shù)的系數(shù)。這個(gè)復(fù)選框的名字之所以為以為fishers,是因?yàn)榘磁袆e函數(shù)值最大的一組進(jìn)行歸類這,是因?yàn)榘磁袆e函數(shù)值最大的一組進(jìn)行歸類這種思想是由種思想是由

30、fisher提出來的。這里極易混淆,請讀者注意辨提出來的。這里極易混淆,請讀者注意辨別。)別。) unstandardized:給出未標(biāo)準(zhǔn)化的:給出未標(biāo)準(zhǔn)化的fisher判別函數(shù)(即典型判別函數(shù)(即典型判別函數(shù))的系數(shù)(判別函數(shù))的系數(shù)(spss默認(rèn)給出標(biāo)準(zhǔn)化的默認(rèn)給出標(biāo)準(zhǔn)化的fisher判別函判別函數(shù)系數(shù))。數(shù)系數(shù))。單擊單擊continue按鈕,返回主界面。按鈕,返回主界面。圖3 statistics子對話框4. 單擊單擊classify按鈕,定義判別分組參數(shù)和選擇輸出結(jié)按鈕,定義判別分組參數(shù)和選擇輸出結(jié)果。選擇果。選擇display欄中的欄中的casewise results,輸出一個(gè)判

31、別,輸出一個(gè)判別結(jié)果表,包括每個(gè)樣品的判別分?jǐn)?shù)、后驗(yàn)概率、實(shí)際組結(jié)果表,包括每個(gè)樣品的判別分?jǐn)?shù)、后驗(yàn)概率、實(shí)際組和預(yù)測組編號(hào)等。其余的均保留系統(tǒng)默認(rèn)選項(xiàng)。單擊和預(yù)測組編號(hào)等。其余的均保留系統(tǒng)默認(rèn)選項(xiàng)。單擊continue按鈕。按鈕。圖圖4 classify子對話框子對話框5. 單擊單擊save按鈕,指定在數(shù)據(jù)文件中生成代表判別分組結(jié)按鈕,指定在數(shù)據(jù)文件中生成代表判別分組結(jié)果和判別得分的新變量,生成的新變量的含義分別為:果和判別得分的新變量,生成的新變量的含義分別為: predicted group membership:存放判別樣品所屬組別的:存放判別樣品所屬組別的值;值; discrimin

32、ant scores:存放:存放fisher判別得分的值,有幾個(gè)判別得分的值,有幾個(gè)典型判別函數(shù)就有幾個(gè)判別得分變量;典型判別函數(shù)就有幾個(gè)判別得分變量; probabilities of group membership:存放樣品屬于各組的:存放樣品屬于各組的bayes后驗(yàn)概率值。后驗(yàn)概率值。將對話框中的三個(gè)復(fù)選框均選中,單擊將對話框中的三個(gè)復(fù)選框均選中,單擊continue按鈕返回。按鈕返回。6. 返回判別分析主界面,單擊返回判別分析主界面,單擊ok按鈕,運(yùn)行判別分析按鈕,運(yùn)行判別分析過程。過程。圖圖5 save子對話框子對話框(二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋1. standa

33、rdized canonical discriminant function coefficients(給出標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù))(給出標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù)) 標(biāo)準(zhǔn)化的典型判別函數(shù)是由標(biāo)準(zhǔn)化的自變量通過fisher判別法得到的,所以要得到標(biāo)準(zhǔn)化的典型判別得分,代入該函數(shù)的自變量必須是經(jīng)過標(biāo)準(zhǔn)化的。2. canonical discriminant function coefficients(給出未標(biāo)(給出未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù))準(zhǔn)化的典型判別函數(shù)系數(shù)) 未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù)由于可以將實(shí)測的樣品觀測值直接代入求出判別得分,所以該系數(shù)使用起來比標(biāo)準(zhǔn)化的系數(shù)要方便一些。見表2(a)

34、。 由此表可知,兩個(gè)由此表可知,兩個(gè)fisher判別函數(shù)分別為:判別函數(shù)分別為: 實(shí)際上兩個(gè)函數(shù)式計(jì)算的是各觀測值在各個(gè)維度上的坐實(shí)際上兩個(gè)函數(shù)式計(jì)算的是各觀測值在各個(gè)維度上的坐標(biāo),這樣就可以通過這兩個(gè)函數(shù)式計(jì)算出各樣品觀測值標(biāo),這樣就可以通過這兩個(gè)函數(shù)式計(jì)算出各樣品觀測值的具體空間位置。的具體空間位置。 1123456212345674.991.8611.6560.8770.7980.0981.57929.4820.8671.1550.3560.0890.0540.69yxxxxxxyxxxxxx 表表2(a) 未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù)未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù)3. functions a

35、t group centroids(給出組重心處的(給出組重心處的fisher判別函數(shù)值)判別函數(shù)值) 如表2 (b) 所示,實(shí)際上為各類別重心在空間中的坐標(biāo)位置。這樣,只要在前面計(jì)算出各觀測值的具體坐標(biāo)位置后,再計(jì)算出它們分別離各重心的距離,就可以得知它們的分類了。functions at group centroids-2.5941.0139.194-.257-6.600-.756group1.002.003.0012functionunstandardized canonical discriminantfunctions evaluated at group means表表2(b) 組

36、重心處的組重心處的fisher判別函數(shù)值判別函數(shù)值 4. classification function coefficients(給出(給出bayes判別函判別函數(shù)系數(shù))數(shù)系數(shù))如表3所示,group欄中的每一列表示樣品判入相應(yīng)列的bayes判別函數(shù)系數(shù)。在本例中,各類的bayes判別函數(shù)如下:第一組:第二組:第三組: 11234565317.2143.9153.190.153.011.0189.3fxxxxxx 21234566202.2164.7171.2100.062.512.1207.0fxxxxxx 31234564982.9134.9144.585.950.010.5181.7f

37、xxxxxx 將各樣品的自變量值代入上述三個(gè)將各樣品的自變量值代入上述三個(gè)bayes判別函數(shù),得到三判別函數(shù),得到三個(gè)函數(shù)值。比較這三個(gè)函數(shù)值,哪個(gè)函數(shù)值比較大就可以個(gè)函數(shù)值。比較這三個(gè)函數(shù)值,哪個(gè)函數(shù)值比較大就可以判斷該樣品判入哪一類。例如,將第一個(gè)待判樣品的自變判斷該樣品判入哪一類。例如,將第一個(gè)待判樣品的自變量值分別代入函數(shù),得到:量值分別代入函數(shù),得到: f1=3793.77, f2=3528.32, f3=3882.48 比較三個(gè)值,可以看出最大,據(jù)此得出第一個(gè)待判樣品應(yīng)比較三個(gè)值,可以看出最大,據(jù)此得出第一個(gè)待判樣品應(yīng)該屬于第三組。該屬于第三組。classification fun

38、ction coefficients-143.851-164.691-134.862153.137171.185144.462-90.088-99.976-85.94553.00962.52549.97211.00812.09410.520189.261207.003181.714-5317.234-6202.158-4982.880x 1x 2x 3x 4x 5x 6(constant)1.002.003.00g ro u pfishers linear discriminant functions表表3 bayes判別法的輸出結(jié)果判別法的輸出結(jié)果5. casewise statistics(給出個(gè)案觀察結(jié)果)(給出個(gè)案觀察結(jié)果) 在casewise statisti

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論