判別分析 第一節(jié)_第1頁
判別分析 第一節(jié)_第2頁
判別分析 第一節(jié)_第3頁
判別分析 第一節(jié)_第4頁
判別分析 第一節(jié)_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1 應(yīng)用多元統(tǒng)計(jì)分析 第五章第五章 判判 別別 分分 析析 v有時(shí)需要建立一種規(guī)則,需要你根據(jù)看到性 狀,來判別個(gè)體的屬性或類別 v比如讓你根據(jù)人的某些外在特征判別人的年 齡組(老中青)或民族 v你可能說這很容易,你的判別依據(jù)是什么? v如果這活讓計(jì)算機(jī)來完成呢? v可能很困難,即使讓計(jì)算機(jī)判斷人的性別也 比較困難。 2 3 第五章 判別分析 什么是判別分析 在氣象學(xué)中,由氣象資料判斷明天是陰天還是晴天, 是有雨 還是無雨. 在市場(chǎng)預(yù)測(cè)中,由調(diào)查資料判斷下季度(或下個(gè)月)產(chǎn)品是暢 銷、平?;驕N. 在環(huán)境科學(xué)中,由氣象條件,污染濃度等判斷該地區(qū)是屬嚴(yán) 重污染,一般污染還是無污染. 在地質(zhì)勘探中

2、,由巖石標(biāo)本的多種特征判斷地層的地質(zhì)年代, 是有礦還是無礦,是富礦還是貧礦. 在體育運(yùn)動(dòng)中,由運(yùn)動(dòng)員的多項(xiàng)運(yùn)動(dòng)指標(biāo)來判定游泳運(yùn)動(dòng)員 的苗子是適合練蛙泳,仰泳還是自由泳等 樣本數(shù)據(jù) 4 npnnn p p xxxy xxxy xxxy , , , 21 222212 112111 xi1,xi2,xin表示個(gè)體性狀 yi表示個(gè)體類別,取有限個(gè)值。 )()( 2 )( 1 )( 2 )( 22 )( 21 1 )( 12 )( 11 , , , i mn i n i n i m ii i m ii iii xxx xxx xxx ki,2,1 判別分析的目的 v根據(jù)樣本數(shù)據(jù)建立模型 vy=f(x1

3、,x2,xm) v根據(jù)這個(gè)模型對(duì)未來個(gè)體的類別進(jìn)行判別 v使得預(yù)測(cè)的準(zhǔn)確率較高 v判別的思想就是看一個(gè)樣品和那個(gè)類長(zhǎng)得比 較“象”,和哪個(gè)類“象”就判別為哪一類。 v但是“象”與“不象”,確是仁者見仁,智 者見智。不同的人來說,結(jié)果可不完全相同。 v但是還是能認(rèn)同“較為合理”的結(jié)果。 5 6 第五章 判別分析 5.1 距離判別 5.2 Bayes(貝葉斯)判別法及 廣義平方距離判別法 5.3 Fisher(費(fèi)歇)判別 5.4 判別效果的檢驗(yàn)及 各變量判別能力的檢驗(yàn) 5.5 逐步判別 7 距離判別的基本思想是: 樣品和哪個(gè)總體距離最近,就判它 屬哪個(gè)總體. 距離判別也稱為直觀判別法. 我們?cè)诰唧w

4、討論距離判別法之前,應(yīng)給 出合理的距離的定義. 8 馬氏距離 已知有兩個(gè)類G1和G2,比如G1是設(shè)備A生產(chǎn)的產(chǎn)品,G2是 設(shè)備B生產(chǎn)的同類產(chǎn)品.設(shè)備A的產(chǎn)品質(zhì)量高(如考察指標(biāo)為耐 磨度X),其平均耐磨度1=80,反映設(shè)備精度的方差2(1)=0.25; 設(shè)備B的產(chǎn)品質(zhì)量稍差,其平均耐磨度2=75,反映設(shè)備精度的 方差2(2)=4.今有一產(chǎn)品X0,測(cè)得耐磨度x0=78,試判斷該產(chǎn)品 是哪一臺(tái)設(shè)備生產(chǎn)的? 直觀地看, x0 與1(設(shè)備A)的絕對(duì)距離近些,按距離最近 的原則是否應(yīng)把該產(chǎn)品X0 判斷為設(shè)備A生產(chǎn)的? 9 考慮一種相對(duì)于分散性的距離.記X0與G1, G2的相對(duì)平方距離為d21(x0)或d2

5、2(x0),則: d21(x0)= = = 16=42 d22(x0)= = =2.25=1.52 因?yàn)閐2(x0)=1.54= d1(x0) ,按這種距離準(zhǔn)則應(yīng)判X0 為設(shè)備B生產(chǎn)的. (x0 -1)2 2(1) (78 - 80)2 0.25 (x0 -2)2 2(2) (78 - 75)2 4 10 設(shè)備B生產(chǎn)的產(chǎn)品質(zhì)量較分散,出現(xiàn)x0 為78的可能性仍較大; 而設(shè)備A生產(chǎn)的產(chǎn)品質(zhì)量較集中,出 現(xiàn)x0為78的可能性較小. 判X0為設(shè)備B的產(chǎn)品更合理. 這種相對(duì)于分散性的距離就是本節(jié)介 紹的馬氏距離. 11 2 )2( 1 )1( 2 2 2)2( 2 1 2)1( )()( xxxx .

6、)()( * def 21 )2( 1 )1( 2 )1( 2 )2( 1 xxx 一般地,我們假設(shè)G1的分布為N(1),21),G2的分布為 N(2),22), 則利用相對(duì)距離的定義,可以找出分界點(diǎn)*(不妨設(shè) (2)(1),當(dāng) (2)x(1)時(shí),令 而按這種距離最近的判別準(zhǔn)則為: ., , * 2 * 1 xGx xGx 當(dāng)判 當(dāng)判 12 利用馬氏距離對(duì)兩個(gè)一維正態(tài)總體判別歸類示意圖 利用馬氏距離對(duì)兩個(gè)一維正態(tài)總體判別歸類 令: (* =79為到兩總體相 對(duì)距離相等的分界點(diǎn)) x0=78*=79 判x0G2. 13 兩總體判別 簡(jiǎn)例1 :記二維正態(tài)總體N2(i), )為Gi(i=1,2)(兩

7、總體協(xié)差陣 相同),已知來自Gi(i=1,2)的樣本數(shù)據(jù)陣為 (1) 試求兩總體的樣本組內(nèi)離差陣A1, A2和合并 樣本協(xié)差陣S. (2) 今有樣品x0 =(2,8),試問按馬氏距離準(zhǔn)則樣 品x0應(yīng)判歸哪一類. 3, 4 2, 2 . 54 93 75 , 103 83 104 122 21 )2( 23 )1( 24 nn mk XX 14 (1)解: 82 22 ) (, 20 21 01 82 22 ) (, 00 20 01 21 )2()2( 2 )2( 23 )1()1( 1 )1( 24 XXA XXA X X . 7 4 , 10 3)2()1( XX 15 , 41 11 5

8、 4 164 44 5 1 2 1 , 164 44 82 22 82 22 21 21 A nn S AAA A 故 為樣本合并組內(nèi)離差陣 11 14 12 5 11 14 5 4 48 25 , 25 48 3 25 16 41 11 5 4 1 2 S S 而且 16 4167. 5 12 135 1 7 1, 2 12 5 1 2 11 14 12 5 1, 2)()()( )2( 0 1)2( 00 2 2 XxSXxxd (2)解一:計(jì)算馬氏距離 5 3 6 2, 1 12 5 2 1 11 14 12 5 2, 1)()()( ) 1 ( 0 1) 1 ( 00 2 1 XxSX

9、xxd .),()( 100 2 20 2 1 Gxxdxd故判因 17 因而 其中 , 2 1 12 5 3 1 11 14 12 5 )( 5 . 8 5 . 3 7 4 10 3 2 1 )( 2 1 )2()1(1 )2()1(* XXSa XXX ).5 .132( 12 5 2 1 )5 . 8, 5 . 3( 12 5 )( 2121 XXXXXW (2)解二:計(jì)算線性判別函數(shù)W(X) aXXXYXYXdXdXW)()()()()( 2 1 )( * 21 2 1 2 2 ., 0 24 5 )5 .13822( 12 5 )( 100 GxxW故判由于 18 例5.1.1(鹽泉

10、含鉀性判別) 某地區(qū)經(jīng) 勘探證明A盆地是一個(gè)鉀鹽礦區(qū),B盆地是 一個(gè)鈉鹽礦區(qū),其他鹽盆地是否含鉀鹽有 待作出判斷.今從A,B兩盆地各抽取5個(gè)鹽 泉樣品;從其他盆地抽得8個(gè)鹽泉樣品, 18 個(gè)鹽泉的特征數(shù)值見表5.1.試對(duì)后8個(gè)待 判鹽泉進(jìn)行含鉀性判別. 19 應(yīng)用例子 20 解一 A盆地和B盆地看作兩個(gè)不同的總 體,并假定兩總體協(xié)差陣相等.本例中變 量個(gè)數(shù)m=4, 兩類總體各有5個(gè)訓(xùn)練樣品 (n1= n2=5),另有8個(gè)待判樣品. 用SAS/STAT軟件中的DISCRIM過程進(jìn)行 判別歸類. (1)首先用DATA步生成SAS數(shù)據(jù)集D511. SAS程序如下: 21 應(yīng)用例子的sas程序 dat

11、a d511; input x1-x4 group $; cards; 13.85 2.79 7.80 49.60 A 2.18 1.06 1.22 20.60 B 8.85 3.38 5.17 26.10 . 15.00 2.70 5.02 64.00 . ; proc print ; run; 22 應(yīng)用例子的sas程序 (2) 調(diào)用DISCRIM過程對(duì)含鉀和不含鉀的A、B 兩類盆地的10個(gè)樣品特征測(cè)量值用距離判別的方 法,建立線性判別函數(shù),并對(duì)已知類別的樣品和 待判樣品進(jìn)行判別歸類. proc discrim data=d511 simlpe pcov wsscp psscp dista

12、nce list; class group; var x1-x4; run; 23 應(yīng)用例子中sas程序的選項(xiàng) 選項(xiàng)SIMPLE要求輸出各類的簡(jiǎn)單描述統(tǒng)計(jì)量 (如兩類各變量的均值、標(biāo)準(zhǔn)差等); 選項(xiàng)WSSCP要求輸出各類的組內(nèi)離差陣; 選項(xiàng)WCOV要求輸出各類樣本協(xié)差陣; 選項(xiàng)PCOV要求輸出合并樣本協(xié)差陣; 選項(xiàng)PSSCP要求輸出合并的樣本組內(nèi)離差陣; 選項(xiàng)DISTANCE要求輸出各組間的距離等統(tǒng)計(jì)量 (平方距離,F統(tǒng)計(jì)量值, p值等) ; 選項(xiàng)LIST要求輸出按距離準(zhǔn)則的判別結(jié)果. 24 應(yīng)用例子的結(jié)果分析 選項(xiàng)WSSCP 產(chǎn)生的結(jié)果 兩總體的樣本離差陣A1和A2 25 應(yīng)用例子的結(jié)果分析 選項(xiàng)PSSCP 產(chǎn)生的結(jié)果 選項(xiàng)PCOV 產(chǎn)生的結(jié)果 合并的樣本組內(nèi)離差陣 A=A1+A2 合并樣本協(xié)差陣S=A/(n1+n2-2) 26 應(yīng)用例子的結(jié)果分析 組間馬氏距離 d2(1,2)=37.03 檢驗(yàn)H0: (1) =(2) 的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論