![第三章判別分析_第1頁](http://file4.renrendoc.com/view/ba6b14485e560bc5d92318612491ae3f/ba6b14485e560bc5d92318612491ae3f1.gif)
![第三章判別分析_第2頁](http://file4.renrendoc.com/view/ba6b14485e560bc5d92318612491ae3f/ba6b14485e560bc5d92318612491ae3f2.gif)
![第三章判別分析_第3頁](http://file4.renrendoc.com/view/ba6b14485e560bc5d92318612491ae3f/ba6b14485e560bc5d92318612491ae3f3.gif)
![第三章判別分析_第4頁](http://file4.renrendoc.com/view/ba6b14485e560bc5d92318612491ae3f/ba6b14485e560bc5d92318612491ae3f4.gif)
![第三章判別分析_第5頁](http://file4.renrendoc.com/view/ba6b14485e560bc5d92318612491ae3f/ba6b14485e560bc5d92318612491ae3f5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第三章判別分析判別分析(discriminantanalysis)是研究判斷個(gè)體所屬類型的一種統(tǒng)計(jì)方法。判別分析的應(yīng)用十分廣泛。如判別產(chǎn)品質(zhì)量的等級(jí);判斷一個(gè)國家的經(jīng)濟(jì)發(fā)展程度;判斷該地的礦物類型;判斷病人患哪種疾??;判斷明天是晴、多云或有雨等等。判斷分析所處理的問題往往是包含大量的數(shù)據(jù)資料,且其數(shù)量指標(biāo)往往是多元的。判別分析是一種有效的多元數(shù)據(jù)分析方法,它能科學(xué)地判斷得到的樣品屬于什么類型,揭示內(nèi)在的規(guī)律,做出正確的判斷。判別分析的模型如下:設(shè)有k個(gè)總體G1,…,Gk,都是p元總體,其數(shù)量指標(biāo)是設(shè)Gi的分布函數(shù)Fi(x),概率密度fi(x)=fi(x1,x2,…,xp)。對(duì)任一樣品
x=(x1,x2,…,xp)T,判斷它來自哪個(gè)總體。X=(X1,X2,…,Xp)T
由于判別準(zhǔn)則不同,則有不同的判別分析方法,本章主要介紹距離判別、Bayes
判別和Fisher判別。一、兩個(gè)總體的情況設(shè)有兩個(gè)總體G1和G2,x=(x1,x2,…,xp)是一個(gè)樣品,若能定義x到G1和G2的距離d(x,G1)和d(x,G2),則判別規(guī)則為§3.1
距離判斷
定義3.1設(shè)x,y是從均值向量為、協(xié)方差矩陣為的總體G中抽取的兩個(gè)樣品,則x,y兩點(diǎn)之間的馬氏距離平方是
定義3.1設(shè)x,y是從均值向量為、協(xié)方差矩陣為的總體G中抽取的兩個(gè)樣品,則x,y兩點(diǎn)之間的馬氏距離平方是又定義x與總體G的馬氏距離平方是當(dāng)兩總體G1和G2的均值向量分別為(1)和(2),協(xié)方差矩陣均為1和2,則當(dāng)兩總體G1和G2的均值向量分別為(1)和(2),協(xié)方差矩陣均為1和2,則若1=2=,則其中1.兩個(gè)總體協(xié)方差矩陣相等的情況是x的線性函數(shù),稱為線性判別函數(shù)。判別準(zhǔn)則為其中其中若記其中W(x)也是線性函數(shù)。實(shí)際上,這種情況還可以進(jìn)一步簡化為判別規(guī)則:當(dāng),(1),(2)未知時(shí),用樣本估計(jì)。設(shè)來自兩個(gè)總體的樣本,均值和協(xié)方差矩陣的估計(jì)為當(dāng)∑1=∑2=∑時(shí),的無偏估計(jì)為此時(shí)為非線性判別。2.兩個(gè)總體協(xié)方差矩陣不等的情況:∑1≠∑2判別準(zhǔn)則為當(dāng)1,2
,1,2未知時(shí)的樣本估計(jì)為二、
判別準(zhǔn)則的評(píng)價(jià)
當(dāng)一個(gè)判別法則提出以后,還要研究其優(yōu)良性??疾煲粋€(gè)判別法則的優(yōu)良性,要考察誤判率,即考察
x屬于G1而誤判為屬于G2或x屬于G2而誤判為屬于G1
的概率。1.誤差率回代估計(jì)法設(shè)分別是來自兩個(gè)總體的樣本,將每個(gè)樣品進(jìn)行回代判別,其判別結(jié)果如下表:回判情況實(shí)際歸類G1
G2G1G2n11
n12n21
n221.誤差率回代估計(jì)法設(shè)分別是來自兩個(gè)總體的樣本,將每個(gè)樣品進(jìn)行回代判別,其判別結(jié)果如下表:回判情況實(shí)際歸類G1
G2G1G2n11
n12n21
n22其中n11+n12=n1,n12為樣品屬于G1而誤判為G2的個(gè)數(shù);n21+n22=n2,n21為樣品屬于G2而誤判為G1的個(gè)數(shù).誤判率的回代估計(jì)為2.誤判率的交叉確認(rèn)估計(jì)誤判率的交叉確認(rèn)估計(jì)是每次剔除樣本中的一個(gè)樣品,利用其余n1+n2-1樣品建立判別準(zhǔn)則,再用所建立的判別準(zhǔn)則對(duì)刪除的那個(gè)樣品作判別.對(duì)樣本中的每個(gè)樣品作上述分析,以其誤判比例作為誤判概率的估計(jì)。
設(shè)G1的n1個(gè)樣品中,有n*12個(gè)樣品被誤判;G2的n*21個(gè)樣品被誤判。則誤判率的交叉確認(rèn)估計(jì)為
SAS系統(tǒng)可以計(jì)算誤判率的交叉確認(rèn)估計(jì)。例3.1馬尾松苗紫化病是一種生理性病害,現(xiàn)從病苗(紫化苗)中選取12株,健苗中選取8株分別測(cè)定其每平方厘米葉片所含5種元素的微克數(shù),其數(shù)據(jù)見表3.1,試據(jù)此作距離判別分析。表3.1馬尾松苗數(shù)據(jù)G1:健苗G2:紫花苗序號(hào)
x1
x2
x3
x4
x5序號(hào)
x1
x2
x3
x4
x51234567812.50.65.20.10.512.10.87.80.20.411.10.65.20.20.79.40.66.10.10.67.00.55.20.20.48.40.54.30.10.47.10.56.10.10.511.20.74.90.10.5
12345678910111212.10.42.80.20.612.80.52.80.10.511.40.54.90.40.88.50.45.00.30.610.00.44.20.20.79.40.43.90.20.68.60.42.20.20.77.10.43.40.30.49.50.34.20.70.87.80.44.00.20.7
7.00.42.70.20.77.50.32.20.30.6解
SAS程序:dataex3_1;inputgroup$x1-x5@@;cards;a12.50.65.20.10.5………….a11.20.74.90.10.5b12.10.42.80.20.6……………b7.50.32.20.30.6;數(shù)據(jù)步procdiscrimdata=ex3_1pool=testslpool=0.1method=normaldistancesimplelistcrosslisterrwcovpcov;classgroup;varx1-x5;run;說明:pool=test檢驗(yàn)方差陣相等(或=yes或=no);slpool=0.1指定顯著性水平,僅與pool=test匹配;method=normal(或npar非參數(shù)方法)前者為缺??;distance輸出各組間距離并進(jìn)行檢驗(yàn),理論從略;simple輸出簡單統(tǒng)計(jì)量;過程步crosslisterr輸出交叉確認(rèn)法誤判率信息;list輸出每個(gè)樣品的判別結(jié)果;wcov輸出各類的組內(nèi)協(xié)差陣;pcov輸出聯(lián)合協(xié)方差矩陣。輸出結(jié)果:(1)簡單統(tǒng)計(jì)量(2)協(xié)方差矩陣(3)協(xié)方差矩陣是否相等的檢驗(yàn)檢驗(yàn)結(jié)果不顯著(p=0.7341>0.1),即兩總體的協(xié)方差矩陣相等。(4)類間距離的檢驗(yàn)檢驗(yàn)結(jié)果顯著(p=0.0007),兩總體間差異顯著。(5)線性判別函數(shù)W1(x)=-41.05361–0.74441x1+100.24194x2+1.39795x3+4.56860x4+41.67557x5W2(x)=-30.81622+0.11215x1+67.67498x2-0.28010x3+12.18045x4+48.55509x5(6)樣品回判結(jié)果(7)回判結(jié)果概要與誤判率(8)交叉確認(rèn)回判結(jié)果概要與誤判率協(xié)方差矩陣分別為1,2,…,k。類似兩總體距離判別,計(jì)算新樣品到各總體的馬氏距離,距離最短者屬于響應(yīng)的總體。三、多個(gè)總體的距離判斷設(shè)有k個(gè)總體G1,G2,…Gk,均值向量分別為1,2,….,k任取兩個(gè)總體Gi,Gj,考察x到Gi,Gj的馬氏距離的平方差1.總體協(xié)方差矩陣相等其中:這樣,得到多總體在總體協(xié)方差矩陣相等時(shí)的距離判別準(zhǔn)則:若總體Gj0滿足易見則判定x屬于Gj0。當(dāng)總體均值j和協(xié)方差矩陣未知時(shí),用樣本估計(jì)。設(shè)是來自總體Gj的樣本,均值和協(xié)方差矩陣的估計(jì)為總體協(xié)方差矩陣∑j不全相等計(jì)算x至各總體Gj的馬氏平方距離記二次判別函數(shù)判別準(zhǔn)則:若總體Gj0滿足則判定x屬于Gj0。當(dāng)總體均值j和協(xié)方差矩陣j未知時(shí),用樣本估計(jì)。其估計(jì)值為對(duì)多總體的距離判別,同兩總體情況一樣,做出誤判率的回代估計(jì)及交叉確認(rèn)估計(jì)。3.2貝葉斯(Bayes)判別
Bayes統(tǒng)計(jì)思想是假定對(duì)研究對(duì)象已有一定的認(rèn)識(shí),常用先驗(yàn)概率分布來描述這種認(rèn)識(shí)。然后取得一個(gè)樣本,用樣本來修正已有的認(rèn)識(shí)(先驗(yàn)概率分布)得后驗(yàn)概率分布,各種統(tǒng)計(jì)推斷都通過后驗(yàn)概率分布來進(jìn)行。將Bayes統(tǒng)計(jì)思想用于判別分析就得到Bayes判別。設(shè)有k個(gè)總體G1,G2,…,Gk分別具有p維密度函數(shù)f1(x),f2(x),…,fk(x),已知出現(xiàn)這k個(gè)總體的先驗(yàn)概率為q1,q2,…,qk(q1+q2+…+qk=1),我們希望建立判別函數(shù)和判別規(guī)則。用D1,D2,…,Dk表示p維歐氏空間RP的一個(gè)劃分,即D1,D2,…,Dk互不相交,且D1∪D2∪…∪Dk=RP。如果這個(gè)劃分取得適當(dāng),正好對(duì)應(yīng)于這k個(gè)總體,這時(shí)判別規(guī)則可以采用如下辦法:設(shè)有k個(gè)總體G1,G2,…,Gk分別具有p維密度函數(shù)f1(x),f2(x),…,fk(x),已知出現(xiàn)這k個(gè)總體的先驗(yàn)概率為q1,q2,…,qk(q1+q2+…+qk=1),我們希望建立判別函數(shù)和判別規(guī)則。問題是如何獲得這個(gè)劃分?x∈Gi
若x落入Di,i=1,2,…,k
用c(j|i)表示樣品來自Gi而誤判為Gj的損失,這一誤判的概率為于是由判別規(guī)則所帶來的平均損失ECM(expectedcostofmiscalculation)為我們總是定義c(i|i)=0。目的是求D1,D2,…,Dk使ECM達(dá)到最小。可以證明定理3.1
在本節(jié)假定下,Bayes判別解D1,D2,…,Dk為其中Dt={x|ht(x)<hj(x),j≠t,j=1,2,…,k},t=1,2,…,k
例3.2
當(dāng)k=2時(shí)h1(x)=q2f2(x)c(1|2),h2(x)=q1f1(x)c(2|1)從而D1={x|q2f2(x)c(1|2)<q1f1(x)c(2|1)}D2={x|q2f2(x)c(1|2)>q1f1(x)c(2|1)}h1(x)=q2f2(x)c(1|2),h2(x)=q1f1(x)c(2|1)從而D1={x|q2f2(x)c(1|2)<q1f1(x)c(2|1)}D2={x|q2f2(x)c(1|2)>q1f1(x)c(2|1)}若令判別函數(shù)為V(x)=f1(x)/f2(x),d=q2c(1|2)/q1c(2|1)則判別規(guī)則可表示為例3.3
若f1(x)與f2(x)分別為p維正態(tài)分布Np(1,),Np(2,)的密度函數(shù),此時(shí)V(x)=f1(x)/f2(x)其中W(x)與距離判別的相同。則判別規(guī)則可表示為當(dāng)q1=q2,c(1|2)=c(2|1),則d=1,lnd=0。此時(shí)即為距離判別。定理5.1
在本節(jié)假定下,Bayes判別解D1,D2,…,Dk為其中實(shí)際中,損失c(j|i)不易給出,常取c(j|i)=1,i≠j。Dt={x|ht(x)<hj(x),j≠t,j=1,2,…,k},t=1,2,…,k
推論如果c(j|i)=1,i≠j,則Bayes解為Dt={x|qtft(x)>qjfj(x),j≠t,j=1,2,…,k},t=1,2,…,k
例如設(shè)G1,…,Gk的分布為Np(1,),…,Np(k,),則推論如果c(j|i)=1,i≠j,則Bayes解為Dt={x|qtft(x)>qjfj(x),j≠t,j=1,2,…,k},t=1,2,…,k
例如設(shè)G1,…,Gk的分布為Np(1,),…,Np(k,),則其中線性判別函數(shù)Wi(x)為:判別規(guī)則也可以寫為:對(duì)協(xié)方差陣不同的情況有類似的結(jié)果。標(biāo)準(zhǔn)的貝葉斯方法要計(jì)算后驗(yàn)概率分布。即計(jì)算當(dāng)樣品x已知時(shí),它屬于Gt的概率,記作P(Gt|x),這個(gè)概率作為樣品歸類的尺度,其概率意義更為直接。易見判別規(guī)則為:標(biāo)準(zhǔn)的貝葉斯方法要計(jì)算后驗(yàn)概率分布。即計(jì)算當(dāng)樣品x已知時(shí),它屬于Gt的概率,記作P(Gt/x),這個(gè)概率作為樣品歸類的尺度,其概率意義更為直接。易見或?qū)憺椋豪?.5某城市環(huán)保監(jiān)測(cè)站在全市均勻地布置了14個(gè)監(jiān)測(cè)點(diǎn),測(cè)得污染元素含量數(shù)據(jù)如下表。污染情況分為三類:第一類為嚴(yán)重污染(6,8,9,13號(hào)監(jiān)測(cè)點(diǎn));第二類為一般污染(1,2,3,7,10,14號(hào)監(jiān)測(cè)點(diǎn));第三類為基本沒有污染(4,5,11,12號(hào)監(jiān)測(cè)點(diǎn))。該城市另有2個(gè)單位在同一期間測(cè)定了所在單位大氣中三種污染元素的含量(表中最后2行),試判斷這2個(gè)單位的污染情況屬哪一類。x1—二氧化硫;x2—氮氧化物;x3—飄塵。大氣污染數(shù)據(jù)樣品號(hào)類別號(hào)污染元素
x1
x2
x31234567891011121314222331211233120.0450.0430.2650.0660.0390.2640.0940.0610.1940.0030.0030.1020.0480.0150.1060.2100.0660.2630.0860.0720.2740.1960.0720.2110.1870.0820.3010.0630.0600.2090.0200.0080.1120.0350.0150.1700.2050.0680.2840.0880.0580.21512..0.1010.0520.1810.0450.0050.122dataex3_5;inputgroup$x1-x3@@;cards;20.0450.0430.265……………….10.2050.0680.28420.0880.0580.215.0.1010.0520.181.0.0450.0050.122;procdiscrimpool=nodistancesimplelist;classgroup;varx1-x3;priorsprop;/*先驗(yàn)概率,prop為樣本頻率ni/n。*/run;輸出主要結(jié)果:由此知,兩單位被判為第二類,即屬于一般污染地區(qū)。3.3Fisher判別*設(shè)從k個(gè)總體分別取得k組p維觀察值如下:n=n1+n2+…+nk令a為RP中的向量,U(x)=ax為x向以a為法線方向的投影,上述數(shù)據(jù)的投影為:令a為RP中的向量,U(x)=ax為x向以a為法線方向的投影,上述數(shù)據(jù)的投影為:正好組成單因素方差分析數(shù)據(jù),其組間平方和為正好組成單因素方差分析數(shù)據(jù),其組間平方和為組內(nèi)(誤差)平方和為若k組均值有顯著差異,則若k組均值有顯著差異,則應(yīng)充分大,或應(yīng)充分大。故我們可以求a使(a)達(dá)到極大。由特征根的極值性質(zhì)知,a為|B-E|=0(或E-1B)的最大特征根1對(duì)應(yīng)的特征向量1。(1)=1稱為判別效率。第一線性判別函數(shù)為u(x)=1Tx,同理有第二線性判別函數(shù),…若存在唯一的i0使則否則再用第二、三等線性判別函數(shù)。例3.7(胃癌的鑒別)有三個(gè)總體:胃癌、萎縮性胃炎和非胃炎患者。從每個(gè)總體中抽5個(gè)病人,每個(gè)病人化驗(yàn)4項(xiàng)生化指標(biāo):血清銅藍(lán)蛋白(x1)、藍(lán)色反應(yīng)(x2)、尿吲哚乙酸(x3)和中性硫化物(x4),數(shù)據(jù)如下表。試用Fisher方法建立判別準(zhǔn)則并對(duì)這15個(gè)樣品進(jìn)行判別歸類。胃癌檢驗(yàn)的生化指標(biāo)值類別序號(hào)
x1
x2
x3
x4胃癌患者胃癌患者12345228134201120016712271001672014245134104017015078非胃癌患者萎縮性胃炎患者678910225125714130100612150117761201331026160100510
非胃炎患者1112131415185115519165142531701256413510821210011772
dataex3_7;inputgroup$x1-x4@@;cards;12281342011……310011772;proccandiscdata=ex3_7out=c103ncan=2distancesimple;classgroup;varx1-x4;run;procdiscrimdata=c103distancelist;classgroup;varcan1can2;run;解
SAS程序如下:說明:out=c103生成含原數(shù)據(jù)和典變量得分?jǐn)?shù)據(jù)集;ncan=2(≤p)選兩個(gè)典變量can1,can2.類間距離的檢驗(yàn)2與3兩總體間差異不顯著。樣品回判結(jié)果3.4逐步判別與回歸分析一樣,變量選擇是否恰當(dāng),是判別效果成敗的關(guān)鍵。如果忽略了主要變量,判別效果一定不好。如果變量過多,由于變量間的相關(guān)性,判別效果也不一定好。一般開始選用較多的變量,然后進(jìn)行篩選。篩選的方法有前進(jìn)法、后退法和逐步法。逐步判別原理為其樣本。n=n1+…+nk設(shè)有k個(gè)總體G1,G2,…,Gk,Gj~Np(j,),j=1,2,…,k逐步判別原理為其樣本。n=n1+…+nk設(shè)有k個(gè)總體G1,G2,…,Gk,Gj~Np(j,),j=1,2,…,k分別為組內(nèi)離差矩陣和組間離差矩陣??傠x差矩陣為
W(0)=E(0)+B(0)記從矩陣W(0)與E(0)開始,作所謂的消去變換,每一次消去變換,都是在上一次變換的基礎(chǔ)上進(jìn)行的。例如,假設(shè)對(duì)矩陣W(0)、E(0)已作了r次消去變換而得到
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 商場(chǎng)泔水清運(yùn)專項(xiàng)服務(wù)合同
- 二零二五年度寶石匠人珠寶店珠寶行業(yè)法律咨詢合同
- 廚衛(wèi)改造工程合同樣本
- 旅游規(guī)劃與設(shè)計(jì)行業(yè)智能化旅游目的地打造方案
- 電子通訊網(wǎng)絡(luò)工程指南
- 職業(yè)病診斷與鑒定作業(yè)指導(dǎo)書
- 三農(nóng)產(chǎn)品流通體系國際化與走出去戰(zhàn)略作業(yè)指導(dǎo)書
- 三農(nóng)田灌溉管理方案
- 多應(yīng)用臨時(shí)借款合同常用
- 房產(chǎn)歸男方無債務(wù)離婚協(xié)議書
- 福建省泉州市晉江市2024-2025學(xué)年七年級(jí)上學(xué)期期末生物學(xué)試題(含答案)
- 醫(yī)美注射類知識(shí)培訓(xùn)課件
- 2025年春新人教版物理八年級(jí)下冊(cè)課件 第十章 浮力 第4節(jié) 跨學(xué)科實(shí)踐:制作微型密度計(jì)
- 2025年廣電網(wǎng)絡(luò)公司工作計(jì)劃(3篇)
- 貨運(yùn)車輛駕駛員服務(wù)標(biāo)準(zhǔn)化培訓(xùn)考核試卷
- 銀行行長2024年個(gè)人年終總結(jié)
- 財(cái)務(wù)BP經(jīng)營分析報(bào)告
- 三年級(jí)上冊(cè)體育課教案
- 2024高考物理二輪復(fù)習(xí)電學(xué)實(shí)驗(yàn)專項(xiàng)訓(xùn)練含解析
- 暴發(fā)性心肌炎的診斷與治療
- 2024年全國統(tǒng)一高考英語試卷(新課標(biāo)Ⅰ卷)含答案
評(píng)論
0/150
提交評(píng)論