iris數(shù)據(jù)集的貝葉斯分類_第1頁
iris數(shù)據(jù)集的貝葉斯分類_第2頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 8/8iris數(shù)據(jù)集的貝葉斯分類 IRIS 數(shù)據(jù)集的Bayes 分類實驗 一、 實驗原理 1) 概述 模式識別中的分類問題是根據(jù)對象特征的觀察值將對象分到某個類別中去。統(tǒng)計決策理論是處理模式分類問題的基本理論之一,它對模式分析和分類器的設(shè)計有著實際的指導(dǎo)意義。 貝葉斯(Bayes )決策理論方法是統(tǒng)計模式識別的一個基本方法,用這個方法進行分類時需要具備以下條件: 各類別總體的分布情況是已知的。 要決策分類的類別數(shù)是一定的。 其基本思想是:以Bayes 公式為基礎(chǔ),利用測量到的對象特征配合必要的先驗信息,求出各種可能決策情況(分類情況)的后驗概率,選取后驗概率最大的,或者決策風(fēng)險最小的決策方式

2、(分類方式)作為決策(分類)的結(jié)果。也就是說選取最有可能使得對象具有現(xiàn)在所測得特性的那種假設(shè),作為判別的結(jié)果。 常用的Bayes 判別決策準則有最大后驗概率準則(MAP ),極大似然比準則(ML ),最小風(fēng)險Bayes 準則,Neyman-Pearson 準則(N-P )等。 2) 分類器的設(shè)計 對于一個一般的c 類分類問題,其分類空間: c w w w ,21 = 表特性的向量為: ()T d x x x x ,21 = 其判別函數(shù)有以下幾種等價形式: a) ()()i j i w w i j c j w w x w P x w P =,且,,2,11 , b) ()()() ()i j j

3、 i w w i j c j w P w x p w P w x p =,且,,2,1i c) ()() () ()()i i j j i w w i j c j w P w P w x p w x p x l =,且,,2,1 d) ()()() ()i j j i i w w i j c j w P w x np w P w x p =+,且,,2,1ln ln ln 3) IRIS 數(shù)據(jù)分類實驗的設(shè)計 IRIS 數(shù)據(jù)集: 一共具有三組數(shù)據(jù),每一組都是一個單獨的類別,每組有50個數(shù)據(jù),每個數(shù)據(jù)都是一個四維向量。 其分類空間為: 321,w w w = 表特性的向量為: () T x x x

4、 x x 4321,= 實驗?zāi)康模?利用Bayes 判別準則對三組數(shù)據(jù)進行分類,希望能夠盡量準確的判斷出從IRIS 數(shù)據(jù)集中選取的樣本所屬的類別。 實驗設(shè)計思路: 將每個數(shù)據(jù)看作是一個具有4維特征的觀察樣本 ()150 ,3,2,1,4321 =i x x x x x T i i i i i 假設(shè)每類數(shù)據(jù)的每維都的分別服從正態(tài)分布即 () .3,2,1.4,3,2,1,2exp 21)(22 =? ? ? ? ?- = p j x x f wp j wp j wp j wp j 其中, 并且兩兩獨立。 由數(shù)理統(tǒng)計理論可知,樣本均值和修正方差分別為和2的無偏估計量,故可近似為求得和2 為: .3

5、,2,1.4,3,2,1,=p j X wp j wp j () =-= n i wp j wp ij wp j p j X X n 1 2 2.3,2,1.4,3,2,1,1 1 貝葉斯決策規(guī)則選取: ()() () ()()w w i j j w P w P w x p w x p x l i j j i =,且,3,2,1 由于不同維度數(shù)據(jù)兩兩獨立,故其中: ()()() () () ()() ()()i j i j x x w x f w x f w x f w x f w x p w x p x l q wp q wj j wp q wp q wi i wp q q j q q i

6、q q j i j i =? ? ?- ? ?- = = = =,3,2,1,2exp 1 2exp 1 4 1 22 224 1 另讓門限值: ()() i j i j w P w P i j =,3,2,1,N N i j 其中: N和i N為所選待分類樣本j類數(shù)據(jù)和i類的個數(shù), j 屬于先驗知識。 比較()x l與門限值的大小判斷樣本所屬類別 最后計算分類的正確率 二、實驗過程 1)求取每類數(shù)據(jù)的每個分量的均值和修正方差數(shù)代碼如 下: sum=zeros(3,4); sd=zeros(3,4); for j=1:1:4 for i=1:1:50 $ for i=1:1:20 $ sum(

7、1,j)=sum(1,j)+sample1(i,j); sum(2,j)=sum(2,j)+sample2(i,j); sum(3,j)=sum(3,j)+sample3(i,j); end end sum=sum/50; $sum=sum/20;$ for j=1:1:4 for i=1:1:50 sd(1,j)=sd(1,j)+(sample1(i,j)-sum(1,j)2; sd(2,j)=sd(2,j)+(sample2(i,j)-sum(2,j)2; sd(3,j)=sd(3,j)+(sample3(i,j)-sum(3,j)2; end end sd=sd/49; $ sd=sd/

8、19; $ 其中每類數(shù)據(jù)都有4組均值和修正方差,3類數(shù)據(jù)總共12組,分 別存放在sum 和sd這兩個34的矩陣中。 2)用一個函數(shù)來實現(xiàn)分類器的功能,代碼如下 function clfresult,accuracyrate = bayesclassifier(samples,dimen,sum,sd,mode1,mode2) clfresult=zeros(dimen,2); if (mode1(1,1)=0) end if (mode1(1,1)=0) end if (mode1(1,1)=0) end compare1=compare(1,1); compare2=compare(1,2)

9、; class=zeros(1,3); la=zeros(1,4); lb=zeros(1,4); for i=1:1:dimen if samples(i,5)=1 class(1,1)=class(1,1)+1; end if samples(i,5)=2 class(1,2)=class(1,2)+1; end if samples(i,5)=3 class(1,3)=class(1,3)+1; end end n=class(1,compare2)/class(1,compare1) for i=1:1:dimen la(1,1)=1/sqrt(sd(compare1,1)*exp(-

10、(samples(i,1)-sum(compare1 ,1)2/(2*sd(compare1,1); la(1,2)=1/sqrt(sd(compare1,2)*exp(-(samples(i,2)-sum(compare1 ,2)2/(2*sd(compare1,2); la(1,3)=1/sqrt(sd(compare1,3)*exp(-(samples(i,3)-sum(compare1 ,3)2/(2*sd(compare1,3); la(1,4)=1/sqrt(sd(compare1,4)*exp(-(samples(i,4)-sum(compare1 ,4)2/(2*sd(comp

11、are1,4); lb(1,1)=1/sqrt(sd(compare2,1)*exp(-(samples(i,1)-sum(compare2 ,1)2/(2*sd(compare2,1); lb(1,2)=1/sqrt(sd(compare2,2)*exp(-(samples(i,2)-sum(compare2 ,2)2/(2*sd(compare2,2); lb(1,3)=1/sqrt(sd(compare2,3)*exp(-(samples(i,3)-sum(compare2 ,3)2/(2*sd(compare2,3); lb(1,4)=1/sqrt(sd(compare2,4)*exp

12、(-(samples(i,4)-sum(compare2 ,4)2/(2*sd(compare2,4); for j=1:1:4 if(mode2(1,j)=0) la(1,j)=1; lb(1,j)=1; end end lx=la(1,1)*la(1,2)*la(1,3)*la(1,4)/(lb(1,1)*lb(1,2)*lb(1,3)*lb (1,4) clfresult(i,1)=i; if lx=n clfresult(i,2)=compare1; else clfresult(i,2)=compare2; end end accuracyrate=0; for i=1:1:dime

13、n if clfresult(i,2)=samples(i,5) accuracyrate=accuracyrate+1; end end accuracyrate=accuracyrate/dimen; end 該函數(shù)有共有兩個輸出量,六個輸入?yún)?shù)。 其中各個參數(shù)的規(guī)定如下: Samples:一個Dimen5的矩陣,Dimen是選取樣本的數(shù)量,矩陣前4列存放樣本的4維數(shù)據(jù),最后一列存放相應(yīng)行樣本真實的類別數(shù)(1,2,3)。 Dimen:選取樣本的數(shù)量。 Sum:數(shù)據(jù)集的均值參數(shù)陣。 Sd :數(shù)據(jù)集的修正方差參數(shù)陣。 Mode1:模式選擇參數(shù)1,它是一個3維的行向量: ()3 2 1 ,1m

14、od =e 其中3,2,1,=i i 分別對應(yīng)數(shù)據(jù)集的三個類別,當3,2,1,=i i 不為零時,就在決策域中添加第i 類??偣灿腥N模式: ()0,1,11m od =e 在第一類和第二類中進行判別 ()1,0,11m od =e 在第一類和第三類中進行判別 ()1,1,01m od =e 在第二類和第二類中進行判別 Mode2:模式選擇參數(shù)2,它是一個4維德行向量: ()4 321,2m od =e 其中4,3,2,1,=i i 分別對應(yīng)數(shù)據(jù)集的4個維度分量,當3,2,1,=i i 不為零時,第i 個維度的分量就作為判別分類的依據(jù)進行考慮,3,2,1,=i i 為零時,則第i 個維度的分量

15、忽略。Mode2共有多種模式15種模式。例如: ()1,1,0,12m od =e 表示第二維的數(shù)據(jù)特征不參與分類。 對于兩個輸出參數(shù): Clfresult:是一個3Dimen 的矩陣,輸出對每個數(shù)據(jù)的分類結(jié)果,并顯示其真實所屬類別和在Samples 中的序號。 Accuracyrate:輸出Bayes 分類的正確率。 3) 選定不同的樣本組合與特征的組合,調(diào)用bayesclassifier 函數(shù)進行分類。 三、 實驗結(jié)果與分析 1) 實驗結(jié)果: 利用每類50個數(shù)據(jù)求出相應(yīng)的均值和修正方差作為正態(tài)分布參數(shù)。并將每類中所有的50個數(shù)據(jù)全部拿來分類,dimen=100結(jié)果為(分類的正確率): 作為

16、正態(tài)分布參數(shù)。并將每類中另外的30個數(shù)據(jù)拿來分類,dimen=60結(jié)果為(分類的正確率): 作為正態(tài)分布參數(shù)。分別在第二類中取20個,10 個和5個數(shù)據(jù),在第三類中固定取30個數(shù)據(jù),放在 2)分析: 實驗結(jié)果反映出鳶尾花數(shù)據(jù)集: 第一類數(shù)據(jù)和第二類數(shù)據(jù)的第一和第二維比較相 似,第三和第四維數(shù)據(jù)差別很大。 第一類數(shù)據(jù)和第三類數(shù)據(jù)的第一和第二維比較相 似,第三和第四維數(shù)據(jù)差別很大。 第二類數(shù)據(jù)和第三類數(shù)據(jù)的第一和第二維比較相 似,第三和第四維數(shù)據(jù)差別較。 第二類和第三類數(shù)據(jù)整體相似度較高。 和直觀判斷相符。 在分類時如果選取差別較大的特征分量,分類的正確率會比較高。選取多維特征參與分類決策并不一 定會增加分類的正確率,很多情況下其分類效果應(yīng) 該介于效果最好的基于單位特征的分類和效果最差 的基于單位特征的分類之間或者并不會提高太多。 在做高維特征的數(shù)據(jù)分類時可以考慮選取分類效果 好的少量維度,從而達到比采用全維度更好的效果, 同時可以簡化計算。 實驗結(jié)果表1和表2中的數(shù)據(jù)相差不大,1中用所有的數(shù)據(jù)求分布參數(shù),再反過來對所有的數(shù)據(jù)分類, 而2是用其中20組求分布參數(shù),另外30組拿來分類,兩組的結(jié)果差別不是很大,說明Baye

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論