用身高和體重數(shù)據(jù)進行性別分類的實驗報告_第1頁
用身高和體重數(shù)據(jù)進行性別分類的實驗報告_第2頁
用身高和體重數(shù)據(jù)進行性別分類的實驗報告_第3頁
用身高和體重數(shù)據(jù)進行性別分類的實驗報告_第4頁
用身高和體重數(shù)據(jù)進行性別分類的實驗報告_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上實驗一 用身高和/或體重數(shù)據(jù)進行性別分類姓名:學號:姓名:學號: 一、實驗目的 1) 加深對 Bayes 分類器原理的理解和認識 2) 掌握 Bayes 分類器的設(shè)計方法 二、實驗內(nèi)容 1) 用 FAMALE.TXT 和 MALE.TXT 的數(shù)據(jù)作為訓練樣本集,建立Bayes 分類器; 2) 用測試樣本數(shù)據(jù) test2.txt 對該分類器進行測試; 3) 調(diào)整特征、分類器等方面的一些因素,考察它們對分類器性能的影響,從而加深對所學內(nèi)容的理解和感性認識。三、實驗步驟 1) 應(yīng)用單個特征進行實驗:以(a)身高或者(b)體重數(shù)據(jù)作為特征,在正態(tài)分布假設(shè)下利用最大似然法或者貝

2、葉斯估計法估計分布密度參數(shù),建立最小錯誤率 Bayes分類器,寫出得到的決策規(guī)則,將該分類器應(yīng)用到測試樣本,考察測試錯誤情況.在分類器設(shè)計時可以考察采用不同先驗概率(如0.5 對0.5,0.75對0.25,0.9對0.1等)進行實驗,考察對決策規(guī)則和錯誤率的影響; 2) 用兩個特征進行實驗:同時采用身高和體重數(shù)據(jù)作為特征,分別假設(shè)二者相關(guān)或不相關(guān),在正態(tài)分布假設(shè)下估計概率密度,建立最小錯誤率 Bayes 分類器,寫出得到的決策規(guī)則,將該分類器應(yīng)用到訓練/測試樣本,考察訓練/測試錯誤情況。比較相關(guān)假設(shè)和不相關(guān)假設(shè)下結(jié)果的差異。在分類器設(shè)計時可以考察采用不同先驗概率(如0.5 vs. 0.5, 0

3、.75 vs. 0.25, 0.9 vs. 0.1 等)進行實驗,考察對決策和錯誤率的影響; 3) 自行給出一個決策表,采用最小風險的Bayes 決策重復上面的某個或全部實驗。 四、原理簡述、程序流程圖及相應(yīng)結(jié)果(一)、實驗一在正態(tài)分布假設(shè)下,利用最大似然法估計分布密度函數(shù),具體過程如下:1、原理(1)、一維情況:n=1對于每個學習樣本只有一個特征(取身高為特征)的簡單情況: 學習樣本的算術(shù)平均 樣本方差的最大似然估計 (2)、最小錯誤率Bayes分類器 多元正態(tài)概率型下的最小錯誤率貝葉斯判別函數(shù)(一般情況)。判別函數(shù): 決策規(guī)則:2、具體步驟如下A).算出各類別特征值的均值B).求出特征值的

4、協(xié)方差矩陣C).將第二步所得矩陣代入判別函數(shù)、D).將待測試樣本集數(shù)據(jù)依次代入,若>0,則判斷其為第一類,反之為第二類。3、流程圖NY最大似然法求出均值與協(xié)方差分別代入判別函數(shù)確定特征及先驗概率第一類第二類(5)實驗結(jié)果及分析表1. 只考慮身高的不同先驗概率下男女判錯統(tǒng)計表女生先驗概率P(1)男生先驗概率P(2)訓練樣本判錯個數(shù)N1訓練樣本錯誤率1測試樣本1判錯個數(shù)N2測試樣本1錯誤率2測試樣本2判錯個數(shù)N3測試樣本2錯誤率30.50.51616%411.5%6622%0.250.751414%38.5%3210.7%0.10.91414%25.7%279%由表可知:對于訓練樣本,當女生

5、先驗概率為0.25或0.1時,判別錯誤率最小;對于測試樣本,當女生先驗概率為0.1時,測試樣本1判別錯誤率最??;為0.1時,測試樣本2判別錯誤率最?。槐?. 只考慮體重的不同先驗概率下男女判錯統(tǒng)計表女生先驗概率P(1)男生先驗概率P(2)訓練樣本判錯個數(shù)N1訓練樣本錯誤率1測試樣本1判錯個數(shù)N2測試樣本1錯誤率2測試樣本2判錯個數(shù)N3測試樣本2錯誤率30.50.51616%823%8127%0.250.751515%514.3%4214%0.10.91212%38.5%5317.7%由表可知:對于訓練樣本,當女生先驗概率為0.1時,判別錯誤率最??;對于測試樣本,當女生先驗概率為0.1時,測試樣

6、本1判別錯誤率最小;為0.25時,測試樣本2判別錯誤率最小;故可推測用最大似然估計對只考慮單特征的錯誤率進行計算時,先驗概率越高,被判別的錯誤率越?。磺宜x取的特征對錯誤率也有一定影響,其影響取決于訓練樣本數(shù)據(jù)與測試樣本數(shù)據(jù)的特征差異。(二)、實驗二1、原理正態(tài)分布的監(jiān)督參數(shù)估計:樣品所屬的類別及類條件總體概率密度函數(shù)的形式為已知,而表征概率密度函數(shù)的某些參數(shù)是未知的。本實驗符合上述條件且在正態(tài)分布假設(shè)下估計分布密度參數(shù)故使用正態(tài)分布的監(jiān)督參數(shù)估計(1)、對于多元正態(tài)分別,其最大似然估計的結(jié)果為:(2)、最小錯誤率Bayes分類器A)、判別函數(shù):a.假設(shè)身高體重不相關(guān) 令協(xié)方差矩陣次對角元素為

7、零,判別函數(shù)可簡化為:其中,, b.假設(shè)身高體重相關(guān) 判別函數(shù)可簡化為:其中, , B)決策規(guī)則:2、具體步驟:a.算出各類別特征值的均值b.求出特征值的協(xié)方差矩陣c.將第二步所得矩陣代入判別函數(shù)、d.將待測試樣本集數(shù)據(jù)依次代入,若>0,則判斷其為第一類,反之為第二類。3、程序流程圖NY最大似然法求出均值與協(xié)方差分別代入判別函數(shù)確定特征及先驗概率第一類第二類4、實驗結(jié)果及分析A)假設(shè)身高與體重相關(guān)(以訓練樣本建立判別函數(shù))表3.身高和體重相關(guān)情況下男女判錯統(tǒng)計表女生先驗概率 P(1)男生先驗概率 P(2)訓練樣本判錯個數(shù)N1訓練樣本錯誤率1測試樣本1判錯個數(shù)N2測試樣本錯誤率2測試樣本2

8、判錯個數(shù)N3測試樣本錯誤率30.50.51212%12.9%3210.7%0.250.751616%38.6%144.7%0.10.92424%411.4%175.7%由表可知:對于訓練樣本,當女生先驗概率為0.5時,判別錯誤率最?。粚τ跍y試樣本,當女生先驗概率為0.5時,測試樣本1判別錯誤率最??;為0.25時,測試樣本2判別錯誤率最??;故可推測用最小錯誤率Bayes決策假設(shè)身高與體重相關(guān)當女生先驗概率等于待測樣本中女生樣本占待測樣本的概率時,錯誤率最小,且越遠離此概率,錯誤率越大。最佳決策:當女生先驗概率為0.5時,判別錯誤率較小。B)假設(shè)身高與體重不相關(guān)(以訓練樣本建立判別函數(shù))表4.身高

9、和體重不相關(guān)情況下男女判錯統(tǒng)計表女生的先驗概率 P(1)男生的先驗概率 P(2)訓練樣本判錯的個數(shù) N1訓練樣本的錯誤率1測試樣本1判錯的個數(shù) N2測試樣本的錯誤率2測試樣本2判錯的個數(shù) N3測試樣本的錯誤率30.50.51212%12.9%299.7%0.250.751414%12.9%196.3%0.10.91919%38.6%165.3%由表可知:對于訓練樣本,當女生先驗概率為0.5時,判別錯誤率最??;對于測試樣本,當女生先驗概率為0.25或0.5時,測試樣本1判別錯誤率最小;為0.1時,測試樣本2判別錯誤率最?。还士赏茰y用最小錯誤率Bayes決策假設(shè)身高與體重不相關(guān)時當女生先驗概率等于

10、待測樣本中女生樣本占待測樣本的概率時,錯誤率最小,且越遠離此概率,錯誤率越大。最佳決策:當女生先驗概率為0.25時,判別錯誤率總體來說較小。(三)、實驗三1、原理(1)在已知先驗概率和類條件概率密度,j=1, ,c及給出帶識別的x的情況下,根據(jù)Bayes公式計算后驗概率: 其中先驗概率根據(jù)自行輸入。(2)利用后驗概率及決策表,計算條件風險:(3),就是最小風險Bayes決策。(4)類條件概率密度:=本實驗為二維二類,故d=2,(2)中決策表自行輸入(如下表)。損失狀態(tài)決策女生男生判為女生04判為男生302、程序流程圖求出類條件概率密度求出后驗概率建立風險決策表代入風險決策公式比較大小選出最小風

11、險決策3、實驗結(jié)果及分析假設(shè)身高與體重相關(guān),則:表5.身高和體重相關(guān)情況下男女判錯統(tǒng)計表女生的先驗概率 P(1)男生的先驗概率 P(2)訓練樣本判錯的個數(shù) N1訓練樣本的錯誤率1測試樣本1判錯的個數(shù) N2測試樣本的錯誤率2測試樣本2判錯的個數(shù) N3測試樣本的錯誤率30.50.53131%514.3%8026.7%0.250.754444%12.9%4615.3%0.10.95757%25.7%279%由表可知:對于訓練樣本,當女生先驗概率為0.5時,判別錯誤率最小;對于測試樣本,當女生先驗概率為0.25時,測試樣本1判別錯誤率最??;為0.1時,測試樣本2判別錯誤率最小;故可推測用最小風險決策假

12、設(shè)身高與體重相關(guān)當女生先驗概率等于0.25時有最小風險決策。五、心得與體會 本次大作業(yè)我們首先對之前學過的知識復習一下,加深對貝葉斯最小錯誤率的理解。對于最大似然估計法,雖然老師上課有專門講解過,但是具體操作的時候還是概念不太清晰,為此我們參考網(wǎng)絡(luò)已有的資料又重新學習了一下,在先驗概率的選擇方面,我們之前選擇的男生先驗概率為0.5,雖然十分接近正常情況下的男女比例,但是我們得到的結(jié)果錯誤率較大,我們認為可能原因是我們的貝葉斯決策規(guī)則采用基于類條件概率密度函數(shù):(),這種決策規(guī)則在采用0.5的先驗概率的情況下,很大程度上依賴于概率密度函數(shù)。最后經(jīng)過討論我們決定采用不同的先驗概率進行對比。整個作業(yè)

13、過程中程序仍然是大問題,我們不斷的對程序進行修改,時間主要耗費在程序編寫與數(shù)據(jù)的分析。最后還是依靠大家一起合作,順利完成了此次作業(yè)。六、附錄實驗Matlab源代碼:clear all;load FEMALE.txt;load MALE.txt;fid=fopen('test1.txt','r'); test1=fscanf(fid,'%f %f %c',3,inf);test=test1'fclose(fid);Fmean = mean(FEMALE);Mmean = mean(MALE);Fvar = std(FEMALE);Mvar

14、= std(MALE);preM = 0.5;preF = 0.5;error = 0;Nerror = 0;DFF=0;DMM=0;DFM=1;DMF=1;error=0;Nerror=0;figure;for i=1:35 PFheight = normpdf(test(i,1),Fmean(1,1),Fvar(1,1) ; PMheight = normpdf(test(i,1),Mmean(1,1),Mvar(1,1) ; p=(DFF*PFheight+DFM*PMheight)-(DMF*PFheight+DMM*PMheight); if(p<0) plot(i,test(

15、i,1),'r+'); if (test(i,3)=109) Nerror = Nerror +1; end; else plot(i,test(i,1),'k*'); if (test(i,3)=102) Nerror = Nerror +1; end end; hold on;end;title('身高最小風險的Bayes決策');xlabel('測試序號'),ylabel('身高(cm)');error = Nerror/35*100;sprintf('%s %d %s %0.2f%s',&#

16、39;分類錯誤個數(shù):',Nerror,'分類錯誤率為:',error,'%')error=0;Nerror=0;figure;for i=1:35 PFweight = normpdf(test(i,2),Fmean(1,2),Fvar(1,2) ; PMweight = normpdf(test(i,2),Mmean(1,2),Mvar(1,2) ; p=(DFF*PFweight+DFM*PMweight)-(DMF*PFweight+DMM*PMweight); if(p<0) plot(i,test(i,1),'r+');

17、if (test(i,3)=109) Nerror = Nerror +1; end; else plot(i,test(i,1),'k*'); if (test(i,3)=102) Nerror = Nerror +1; end end; hold on;end;title('體重最小風險的Bayes決策');xlabel('測試序號'),ylabel('體重(kg)');error = Nerror/35*100;sprintf('%s %d %s %0.2f%s','分類錯誤個數(shù):',Nerr

18、or,'分類錯誤率為:',error,'%') error=0;Nerror=0; figure;for i = 1:35PFheight = normpdf(test(i,1),Fmean(1,1),Fvar(1,1) ;PMheight = normpdf(test(i,1),Mmean(1,1),Mvar(1,1) ;PFweight = normpdf(test(i,2),Fmean(1,2),Fvar(1,2) ;PMweight = normpdf(test(i,2),Mmean(1,2),Mvar(1,2) ;pFemale = preF*PFhe

19、ight;pMale = preM*PMheight;pwFemale = preF*PFweight;pwMale = preM*PMweight;p=(DFF*pFemale*pwFemale+DFM*pMale*pwMale)-(DMF*pFemale*pwFemale+DMM*pMale*pwMale); if(p<0) plot3(i,test(i,1),test(i,2),'r+'); if (test(i,3)=102) Nerror = Nerror +1; end; else plot3(i,test(i,1),test(i,2),'k*'

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論