貝葉斯最大后驗概率準則對iris數據的分類_第1頁
貝葉斯最大后驗概率準則對iris數據的分類_第2頁
貝葉斯最大后驗概率準則對iris數據的分類_第3頁
貝葉斯最大后驗概率準則對iris數據的分類_第4頁
貝葉斯最大后驗概率準則對iris數據的分類_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1、實驗目的1. 了解多元正態(tài)分布2. 對多元正態(tài)分布利用矩估計法進行參數估計,了解參數估計的過程3. 掌握利用貝葉斯最大后驗概率準則對三類數據進行兩兩分類的方法2、實驗原理Iris數據集共有三組,分別為setosa,versicolou和virginica,每一組都是一個單獨的類別,此實驗中,默認setosa為第一類,versicolou為第二類,virginica為第三類,每組50個數據,每個數據都是一個四維向量,且服從四維正態(tài)分布。即類別空間為:=1,2,3數據向量為:x=(x1,x2,x3,x4)T2.1 多元正態(tài)分布隨機向量X=(X1,Xp)'的分布密度函數有如下形式:px1

2、,x2,xp=px=1242B12exp-12x-T*B-1*x- (1)其中x=(x1,x2,xp)T為常量,=(1,2,p)T為隨機向量的均值向量,B為p*p的協(xié)方差矩陣,則稱X服從p元正態(tài)分布,記XNp(,B)為。因此,對于多元正態(tài)分布而言,只需要確定均值向量和協(xié)方差矩陣即可確定概率密度函數。2.2 參數估計由于三組數據均服從四維正態(tài)分布,首先要確定數據的具體分布,因此在分類之前,利用一部分實驗數據進行訓練,分別得到三組數據的四維正態(tài)分布參數。即1,B1,(2,B2),(3,B3),分別為setosa,versicolou和virginica三組數據的參數。實驗中,參數估計采用矩估計法,

3、即利用樣本(訓練數據)的均值向量和協(xié)方差矩陣作為總體的均值向量和協(xié)方差矩陣的估計值,進而得到每組數據的分布密度函數。以第一組數據為例:setosa中的數據x=(x1,x2,x3,x4)T服從均值為四維列向量1=(1,2,3,4)T,4*4維協(xié)方差矩陣B的四元正態(tài)分布。均值向量和協(xié)方差矩陣的估計式為:1=1Ni=1Nxk (2)B1=Ex-*x-T=1Ni=1Nxk-1xk-1T (3)從第一類數據中選取部分數據按照上式進行訓練,得到第一類數據的正態(tài)分布參數,因而可求得其密度函數。三類數據都按照上公式,選取部分實驗數據得出正態(tài)分布的均值向量和協(xié)方差矩陣。進而得到自己的概率密度公式px=1242B

4、12exp-12x-T*B-1*x- (4)2.3 貝葉斯最大后驗概率準則利用貝葉斯準則對數據進行兩兩分類時,以貝葉斯公式為基礎,利用測量到的對象特征配合必要的先驗信息,求出兩種可能分類情況的后驗概率,選取后驗概率大的,作為分類的結果。即最大后驗概率準則,也稱最小錯誤概率準則。以第一類和第二類為例,對這兩組數據進行分類。兩組數據經過參數估計之后,分別得到條件概率密度p(x|1),p(x|2)。根據貝葉斯準則:p1x=px1p1px (5)p2x=px2p2px (6)貝葉斯最大后驗概率準則進行分類時,根據輸入的列向量x=(x1,x2,x3,x4)T,分別計算兩類的后驗概率,判x為后驗概率的大類

5、別,即:如果 p1x> p2x 則判別x為1類(第一類)即:p1x=p(x|1)p(1)p(x)>p(x|2)p(2)p(x)=p2x (7)即:l12=p(x|1)p(x|2)>p(2)p(1)=21 (9)因此根據最大后驗概率準則判斷x所屬的類別,轉變?yōu)楸容^似然比l12和閾值21的大小。實驗中首先求得兩類數據的條件概率密度p(x|1)和p(x|2),關于先驗概率p1和p(2),實驗進行時,將待分類的兩組數據合并放入一個100*4的矩陣中,每次隨機選取待分類數據x,因此先驗概率p1=p2 (9)故而,判別式(8)簡化為: px1>px2 (10)因此,根據上式即可對輸

6、入向量x進行分類。如果 p(x|1)>p(x|2) 則判別x為1類(第一類)同理如果 p(x|2)>p(x|1) 則判別x為2類(第二類)3、實驗過程實驗中,根據實驗原理,首先對兩組數據分別進行訓練,得到其四維正態(tài)分布的密度函數,再根據最大后驗概率準則進行分類。3.1 參數估計已知三組數據均為XN4(,B)的四元正態(tài)分布,即px1,x2,x3,x4=px=1(2)42B12exp-12x-T*B-1*x-其中,為均值向量,B為協(xié)方差矩陣,x和均為四維列向量。根據式(2)和(3)對每組數據的均值向量和協(xié)方差矩陣進行估計。參數估計即選取部分數據進行訓練,數據可以采用隨機選取的方式,也可

7、以從開始固定的選取若干數據進行訓練。同時,參與訓練的數據多少也會影響最后的分類結果。實驗中嘗試了不同的選取方法,結果如下:(1)從前向后依次選取10個數據進行訓練: (2)從前向后依次選取15個數據進行訓練: (3)從前向后依次選取20個數據進行訓練: (4)從前向后依次選取25個數據進行訓練: (5)隨機選取15個數據進行訓練: (6)隨機選取20個數據進行訓練: 3.2 貝葉斯分類學習分類時,本實驗中,將待分類的兩類數據合并為一個矩陣test,然后每次隨機的從test矩陣中抽取一維向量進行分類判別。因此先驗概率滿足p1=p2=12所以,實驗中只需要根據估計的參數得出兩類的概率密度函數px1

8、=1(2)42B112exp-12x-1T*B1-1*x-1px2=1(2)42B212exp-12x-2T*B2-1*x-2對于輸入的列向量x帶入上面兩個公式中進行計算,則x歸入概率大的一類。下面以第一類和第二類分類為例進行說明:實驗中,m:表示參與訓練的數據個數,進行分類學習時t:表示每次學習的次數,實驗置為10000,即每次隨機選取10000次x進行分類test矩陣:將待分類的兩組數據合并為一個矩陣test,之后隨機的從test矩陣中選擇輸入向量,保證先驗概率相等W向量:表示隨機選擇的輸入向量的位置,若W(i)<51則說明此時的輸入向量來自第一類,W(i)>50則說明此時的輸

9、入向量來自第二類set向量:輸入的x判別屬于第一類,則將set的相應位置1,否則置0ver向量:輸入的x判別屬于第二類,則將ver的相應位置1,否則置0最后比較W向量和set向量、ver向量,若選擇于第一類(W(i)<51)也判別為第一類(set(i)=1),則說明判別正確。第二類同理。部分框圖如下所示:相應部分代碼如下:最后,統(tǒng)計set向量和ver向量中不為0的元素個數即在10000次學習分類時錯誤的次數。進行分類實驗時,考慮到兩方面的影響:(1)參數估計時訓練樣本的選取方式不同,分為固定選取樣本和隨機選取樣本(2)參數估計時選取的樣本數目同時,實驗中,每次分類相當于進行10000次判

10、別,由于選擇輸入矢量時具有隨機性,因此針對同一m(m表示參與訓練的樣本數目),各進行10次實驗進行比較。3.2.1 第一類與第二類(即setosa和versicolou)(1)當訓練樣本從前向后固定選取時:次數12345678910m=6錯誤個數0000000000錯誤率0000000000m=10錯誤個數0000000000錯誤率0000000000m=15錯誤個數0000000000錯誤率0000000000當訓練樣本固定選取時,當參與訓練的樣本個數分別為為6,10,15,均不會產生錯誤。(2)當訓練樣本隨機選取時次數12345678910m=6錯誤個數182470202130109202

11、749519040錯誤率18.24%7.02%02.13%01.09%20.27%4.95%19.04%0m=10錯誤個數000000109000錯誤率0000001.09%000m=15錯誤個數0000000000錯誤率0000000000當訓練樣本隨機選取時:m=6 時平均錯誤率為:7.274%m=10 時平均錯誤率為:0.109%m=15 時平均錯誤率為:03.2.2 第一類與第三類(即setosa和virginica)(1)當訓練樣本從前向后固定選取時:次數12345678910m=6錯誤個數0000000000錯誤率0000000000m=10錯誤個數0000000000錯誤率000

12、0000000m=15錯誤個數0000000000錯誤率0000000000當訓練樣本固定選取時,當參與訓練的樣本個數分別為為6,10,15,均不會產生錯誤。(2)當訓練樣本隨機選取時次數12345678910m=6錯誤個數03997010250072095000錯誤率039.97%010.25%007.2%9.5%00m=10錯誤個數0000000000錯誤率0000000000m=15錯誤個數0000000000錯誤率0000000000當訓練樣本隨機選取時:m=6 時平均錯誤率為:6.634%m=10 時平均錯誤率為:0m=15 時平均錯誤率為:03.2.3 第二類與第三類(即versi

13、colou和virginica)(1)當訓練樣本從前向后固定選取時:次數12345678910m=6錯誤個數410397413369389409430416387363錯誤率4.1%3.97%4.13%3.69%3.89%4.09%4.3%4.16%3.87%3.63%m=10錯誤個數626622561613677610605614613555錯誤率6.26%6.22%5.61%6.13%6.77%6.1%6.05%6.14%6.13%5.55%m=15錯誤個數399396409399355434431393406416錯誤率3.99%3.96%4.09%3.99%3.55%4.34%4.31

14、%3.93%4.06%4.16%m=50錯誤個數325285323298299302306315288308錯誤率3.25%2.85%3.23%2.98%2.99%3.02%3.06%3.15%2.88%3.08%當訓練樣本固定選取時:m=6 時平均錯誤率為:3.983%m=10 時平均錯誤率為:6.096%m=15 時平均錯誤率為:4.038%m=50 時平均錯誤率為:3.049%(2)當訓練樣本隨機選取時次數12345678910m=6錯誤個數6373478200050415108914250204610001185錯誤率6.37%34.78%20%5.04%15.1%8.91%42.5%

15、20.46%10%11.85%m=10錯誤個數901984889126038211361130959780920錯誤率9.01%9.84%8.89%12.6%3.82%11.36%11.3%9.59%7.8%9.2%m=15錯誤個數478328726531100657395286740692錯誤率4.78%3.28%7.26%5.31%1%6.57%3.95%2.86%7.4%6.92%m=50錯誤個數40822131937488403444310213202錯誤率4.08%2.21%3.19%3.74%0.88%4.03%4.44%3.1%2.13%2.02%當訓練樣本隨機選取時:m=6 時

16、平均錯誤率為: 17.471%m=10 時平均錯誤率為: 9.341%m=15 時平均錯誤率為: 4.933%m=50 時平均錯誤率為: 2.982%4、實驗分析實驗中,第一部分為參數估計,從實驗中可得,以訓練樣本固定選取,樣本個數m=20為例:從中可以看出,第一類和第二類,第一類和第三類相比較而言,均值向量和協(xié)方差矩陣均相差較大,即正態(tài)分布的形式差距較大,因此第一類較容易和其余兩類分類。相比較而言,第二類和第三類的均值向量和協(xié)方差矩陣相近,因此其對應的正態(tài)分布相似,所以第二組數據和第三組會比較難區(qū)分,這一點在后面的實驗中也有反映。實驗第二部分,在進行分類學習時,得到在樣本選取方式不同和樣本數

17、目不同的情況下的分類錯誤率,匯總如下:(1)表一 第一類與第二類分類結果第一類與第二類m=6m=10m=15固定樣本參數估計000隨機樣本參數估計7.274%0.109%0從中可以看出,當參數估計的樣本按照順序固定選取時,在很小的樣本數目下即可得到很好的分類結果。當樣本隨機選取時,在樣本數目較少時會有一定的錯誤率,但是隨著樣本數目的增加,錯誤率降低。(2)表二 第一類與第三類分類結果第一類與第三類m=6m=10m=15固定樣本參數估計000隨機樣本參數估計6.634%00從中可以得到與上面相似的結論,同時,比較表一和表二可以發(fā)現,在隨機樣本參數估計的情況下,表二所展示的錯誤率更低,說明相較第二類數據而言,第一類與第三類數據的差別更大,更易分類。(3)表三 第二類與第三類分類結果第二類與第三類m=6m=10m=15m=50固定樣本參數估計3.983%6.096%4.038%3.049%隨機樣本參數估

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論