蠓蟲(chóng)分類模型_第1頁(yè)
蠓蟲(chóng)分類模型_第2頁(yè)
蠓蟲(chóng)分類模型_第3頁(yè)
蠓蟲(chóng)分類模型_第4頁(yè)
蠓蟲(chóng)分類模型_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、蠓蟲(chóng)的分類模型摘要本文通過(guò)對(duì)兩類蠓蟲(chóng)的觸角長(zhǎng)和翅長(zhǎng)數(shù)據(jù)進(jìn)行分析,用畫散點(diǎn)圖的方法對(duì)兩類蠓蟲(chóng)進(jìn)行區(qū)分,利用判別分析建模方法對(duì)未知的三個(gè)樣本進(jìn)行識(shí)別,將它們分類。在生物學(xué)中,根據(jù)觸角長(zhǎng)和翅長(zhǎng)來(lái)識(shí)別一只蠓蟲(chóng)標(biāo)本是af還是apf是很重要的。本文為此提供了方法。在模型一中,本文通過(guò)畫散點(diǎn)圖,進(jìn)而畫出兩條斜線將兩類蠓蟲(chóng)分別劃分在斜線的兩側(cè),對(duì)它們進(jìn)行分類。在模型二中,本文通過(guò)馬氏距離判別法對(duì)未知的三個(gè)樣本進(jìn)行判別,并將它們歸類。得出的結(jié)果為:三個(gè)未知樣本均為apf類。在模型三中,本文修改分類方法,用貝葉斯判別法對(duì)三個(gè)未知樣本進(jìn)行判別分類。計(jì)算結(jié)果表明:三個(gè)未知樣本均屬于apf類。最后,本文對(duì)馬氏距離判別法

2、做了誤差分析,通過(guò)回代誤判率和交叉誤判率對(duì)模型進(jìn)行評(píng)價(jià)。計(jì)算結(jié)果為:回代誤判率為0,交叉誤判率為0.0667。說(shuō)明模型判別方法較準(zhǔn)確。本文從繪制散點(diǎn)圖,利用判別分析建模方法角度對(duì)兩類蠓蟲(chóng)進(jìn)行識(shí)別,并對(duì)未知樣本分類,進(jìn)而利用誤差分析對(duì)模型準(zhǔn)確性予以預(yù)測(cè),逐步深化,最后對(duì)模型進(jìn)行評(píng)價(jià)與推廣。關(guān)鍵詞 散點(diǎn)圖 馬氏距離 貝葉斯 回代誤判 交叉誤判一、問(wèn)題重述(一)背景知識(shí)兩種蠓蟲(chóng)af和apf已由生物學(xué)家羅納(w.l.grogna)和維爾恩(w.w.wirth)于1981年根據(jù)它們的觸角長(zhǎng)(mm)和翅長(zhǎng)(mm)加以區(qū)分,6只apf和9只af蠓蟲(chóng)的觸長(zhǎng),翅長(zhǎng)數(shù)據(jù)如下:apf:(1.14,1.78), (1

3、.18,1.96), (1.20,1.86), (1.26,2.00), (1.28,2.00), (1.30,1.96) ;af:(1.24,1.72), (1.36,1.74), (1.38,1.64), (1.38,1.82), (1.38,1.90), (1.40,1.70), (1.48,1.82),(1.54,1.82), (1.56,2.08)。在生物學(xué)中,根據(jù)觸角長(zhǎng)和翅長(zhǎng)來(lái)識(shí)別一只蠓蟲(chóng)標(biāo)本是af還是apf是很重要的。(二)要解決的問(wèn)題1、根據(jù)給定的數(shù)據(jù),制定一種方法,正確區(qū)分兩類蠓蟲(chóng);2、用我們的方法對(duì)觸長(zhǎng)、翅長(zhǎng)分別為(1.24,1.80)、(1.28,1.84)、(1. 40

4、,2.04)的三個(gè)樣本進(jìn)行識(shí)別;3、假設(shè)af是寶貴的傳粉益蟲(chóng),apf是某種疾病的載體,在這種情況下我們是否應(yīng)該修改所用的分類方法。 二、問(wèn)題的分析1、對(duì)問(wèn)題一的分析對(duì)問(wèn)題一, 我們利用畫出散點(diǎn)圖,再畫斜線的方法對(duì)給出的6只apf和9只af蠓蟲(chóng)進(jìn)行區(qū)分。2、對(duì)問(wèn)題二的分析對(duì)問(wèn)題二,我們可以根據(jù)馬氏距離判別分析法對(duì)未知的三個(gè)樣本進(jìn)行識(shí)別,將它們分類。3、對(duì)問(wèn)題三的分析對(duì)問(wèn)題三,我們可以修改分類方法,用貝葉斯判別法對(duì)所給三個(gè)樣本進(jìn)行判別,將它們分類。三、模型的假設(shè)1、在問(wèn)題一中,假設(shè)兩類蠓蟲(chóng)的協(xié)方差矩陣是相等的;2、假設(shè)apf與af的總數(shù)相同或apf占總數(shù)的,af占總數(shù)的,這樣在用貝葉斯判別法時(shí),即

5、可用按比例分配方法估計(jì)兩個(gè)總體的先驗(yàn)概率;3、樣本無(wú)性別差異。4、觸角長(zhǎng)與翅長(zhǎng)作為指標(biāo)同樣重要。5、用觸角長(zhǎng)與翅長(zhǎng)來(lái)判別蠓蟲(chóng)是充分的。四、符號(hào)說(shuō)明aapf類蠓蟲(chóng)baf類蠓蟲(chóng)m1a類的均值向量m2b類的均值向量s1a類的協(xié)方差矩陣s2b類的協(xié)方差矩陣n1a類樣本的容量n2b類樣本的容量五、模型的建立與求解1、問(wèn)題一的建立與求解區(qū)分步驟:(1)利用matlab軟件,畫出兩類蠓蟲(chóng)分布的散點(diǎn)圖如下:(2)由散點(diǎn)圖我們可以畫出兩條斜線,由此區(qū)分兩類蠓蟲(chóng),如下所示: 圖2 用斜線區(qū)分兩類蠓蟲(chóng)(3)由圖我們可以區(qū)分出兩類蠓蟲(chóng)2、問(wèn)題二的建立與求解 用馬氏距離判別步驟:(1) 計(jì)算a、b兩類的均值向量與協(xié)方差

6、矩陣;m1=mean(a), m2=mean(b),s1=cov(a), s2=cov(b);(2) 計(jì)算總體的協(xié)方差矩陣; ( 3) 計(jì)算未知樣本x到a,b兩類馬氏平方距離之差 :d=(x-m1)s-1(x-m1)- (x-m2)s-1(x-m2);(4) 若d<0,則x屬于a類;若d>0,則x屬于b類。(5)模型的求解:我們利用matlab軟件進(jìn)行編程,可以求出三個(gè)樣本到a類與b類的距離之差分別為d=-4.3279 ,-2.7137 ,-3.9604,三個(gè)均為負(fù)值,這說(shuō) 明三個(gè)樣本到a類的距離要近一點(diǎn),所以這三個(gè)樣本都應(yīng)歸于apf類。3、問(wèn)題三的建立與求解 我們改變分類方法,用

7、貝葉斯判別法判別蠓蟲(chóng),其步驟如下:(1) 判別總體的協(xié)方差矩陣是否相等;(2) 總體是否服從正態(tài)分布:首先對(duì)每個(gè)指標(biāo)進(jìn)行一元正態(tài)分布的檢驗(yàn),若有一個(gè)指標(biāo)不服從正態(tài)分布,則總體不服從正態(tài)分布;若每個(gè)指標(biāo)都服從一元正態(tài)分布,且各指標(biāo)不相關(guān)則總體服從正態(tài)分布。(3) 利用按比例分配方法估計(jì)兩個(gè)總體的先驗(yàn)概率: 兩類蠓蟲(chóng)所占比例即為:p1=6/(6+9)=0.4; p2=9/(6+9)=0.6;(4) m1=mean(a); m2=mean(b);s1=cov(a); s2=cov(b);s=(5*s1+8*s2)/13;然后再利用matlab軟件進(jìn)行編程計(jì)算,貝葉斯判別的準(zhǔn)則即為后驗(yàn)概率最大準(zhǔn)則,我

8、們可以計(jì)算d,其中d為樣本x到總體a,b 的馬氏距離平方。(5)模型的求解:計(jì)算可得結(jié)果為:d1=1.7585,d2=0.9514,d3=1.5747;全部大于零,即p1f1>p2f2,所以待判的三個(gè)蠓蟲(chóng)均屬于apf類。六、靈敏度分析本模型在對(duì)問(wèn)題一的分析中,假設(shè)兩個(gè)總體的協(xié)方差矩陣是相等的,而實(shí)際上,兩個(gè)總體的協(xié)方差矩陣不一定相等,且兩個(gè)總體的協(xié)方差矩陣是否相等對(duì)結(jié)果有較大影響。因此在解決實(shí)際問(wèn)題時(shí),首先要判別兩個(gè)總體的協(xié)方差矩陣是否相等。對(duì)本模型,我們需要進(jìn)行誤差分析。1、 回代誤判率估計(jì)設(shè)g1,g2為兩個(gè)總體,x1,x2,xm和y1,y2,yn是分別來(lái)自g1,g2的訓(xùn)練樣本,以全體

9、訓(xùn)練樣本作為m+n個(gè)新樣品,逐個(gè)代入已建立的判別準(zhǔn)則中判別其歸屬,這個(gè)過(guò)程稱為回判。若屬于g1的樣品被誤判為屬于g2的個(gè)數(shù)為n1個(gè),屬于g2的樣品被誤判為屬于g1的個(gè)數(shù)為n2個(gè),則誤判率估計(jì)為: p=(n1+n2)/(m+n)。我們可以利用matlab進(jìn)行編程,然后可以計(jì)算出回代誤判率,計(jì)算所得結(jié)果為:0。2、交叉誤判率估計(jì) 交叉誤判率估計(jì)是每次剔除一個(gè)樣品,利用其余的m+n1個(gè)訓(xùn)練樣本建立判別準(zhǔn)則再用所建立的準(zhǔn)則對(duì)刪除的樣品進(jìn)行判別。對(duì)訓(xùn)練樣本中每個(gè)樣品都做如上分析,以其誤判的比例作為誤判率。 從a樣本開(kāi)始,剔除其中一個(gè)樣品,剩余的m1個(gè)樣品與b中的全部樣品建立判別函數(shù); 用建立的判別函數(shù)對(duì)

10、剔除的樣品進(jìn)行判別; 重復(fù)步驟,直到a中的全部樣品依次被刪除,又進(jìn)行判別,其誤判的樣品個(gè)數(shù)記為m12; 對(duì)b的樣品重復(fù)步驟,直到b中的全部樣品依次被刪除又進(jìn)行判別,其誤判的樣品個(gè)數(shù)記為n21;于是交叉誤判率估計(jì)為: 我們利用matlab進(jìn)行編程,可以算出d分別為-2.3578 ,13.0063,25.6839 , 9.9036,3.9858 , 21.4866 ,21.5880 ,35.9855, 5.0837。這說(shuō)明有一個(gè)誤判,即誤判率為:p=0.0667。通過(guò)回代誤判率和交叉誤判率我們可以說(shuō)明本模型是較準(zhǔn)確的。七、模型的評(píng)價(jià)與推廣1、模型的優(yōu)點(diǎn) 本模型通過(guò)馬氏距離判別法和貝葉斯判別法進(jìn)行求

11、解,對(duì)三個(gè)未知樣本進(jìn)行判別,在靈敏度分析中繼而對(duì)誤判率進(jìn)行分析,得出的結(jié)果較準(zhǔn)確,較具有現(xiàn)實(shí)意義。2、模型的缺點(diǎn)本模型用的是判別分析建模方法,模型中有一些假設(shè),實(shí)際生活中可能不完全成立,所以有一定局限性。3、模型的推廣本模型還可以用別的方法如人工神經(jīng)網(wǎng)絡(luò)法進(jìn)行求解,假設(shè)條件也可以放寬,這樣得出的結(jié)論才更準(zhǔn)確。參考文獻(xiàn)附件:1、畫兩類蠓蟲(chóng)分布散點(diǎn)圖的程序:clearapf=1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96;af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.4

12、0,1.70;1.48,1.82;1.54,1.82;1.56,2.08;plot(apf(:,1),apf(:,2),'*b',af(:,1),af(:,2),'or')2、用貝葉斯判別法判別蠓蟲(chóng)的程序:clearapf=1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96;af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;x= 1.24,1.8;1.28,1.84;

13、 1.4,2.04; p1=0.4; p2=0.6;m1=mean(apf);m2=mean(af);s1=cov(apf);s2=cov(af);s=(5*s1+8*s2)/13;for i=1:3,d(i,:)=log(0.4)-0.5*(x(i,:)-m1)*inv(s)*(x(i,:)-m1)')-(log(0.6)-0.5*(x(i,:)-m2)*inv(s)* (x(i,:)-m2)')endd = 1.7585 0.9514 1.57473、計(jì)算回代誤判率的程序:clearapf=1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.2

14、8,2;1.30,1.96;af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;m1=mean(apf);m2=mean(af);s1=cov(apf);s2=cov(af);s=(5*s1+8*s2)/13;for i=1:6,d(i)=(apf(i,:)-m1)*inv(s)*(apf(i,:)-m1)'- (apf(i,:)-m2)*inv(s)*(apf(i,:)-m2)'n1=0if d>0 n1=n1+1;else n1=n1

15、;end endn1 輸出:n1 = 0clearapf=1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96;af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;m1=mean(apf);m2=mean(af);s1=cov(apf);s2=cov(af);s=(5*s1+8*s2)/13;for i=1:9, d(i)=(af(i,:)-m1)*inv(s)*(af(i,:)-m1)'- (

16、af(i,:)-m2)*inv(s)*(af(i,:)-m2)' n2=0 if d(i)<0 n2=n2+1; else n2=n2; end endn2輸出:n2 = 04、計(jì)算交叉誤判率的程序:clearapf=1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96;af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;for i=1:6, b=apf(1:i-1,:);apf(i+1:

17、6,:); m1=mean(b);m2=mean(af);s1=cov(b);s2=cov(af);s=(4*s1+8*s2)/12;n1=5;n2=9;p=2;q01=(n1-1)*(log(det(s)-log(det(s1)-p+trace(inv(s)*s1); q02=(n2-1)*(log(det(s)-log(det(s2)-p+trace(inv(s)*s2); p1=1-chi2cdf(q01,(p*(p+1)/2) p2=1-chi2cdf(q02,(p*(p+1)/2) if p1 & p2 > 0.05 d=(apf(i,:)-m1)*inv(s)*(ap

18、f(i,:)-m1)'- (apf(i,:)-m2)*inv(s)*(apf(i,:)-m2)' else d=mahal(b,apf)-mahal(b,af); end n3=0 if d>0 n3=n3+1 end end n3輸出:n3=0clearapf=1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96;af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08; for i=1:9, b=af(1:i-1,:);af(i+1:9,:);m1=mean(apf);m2=mean(b);s1=cov(apf);s2=cov(b);s=(5*s1+7*s2)/12;n1=6;n2=8;p=2;q01=(n1-1)*(log(det(s)-log(det(s1)-p+trace(inv(s)*s1); q02=(n2-1)*(log(det(s)-l

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論