第2章 統(tǒng)計決策方法1_第1頁
第2章 統(tǒng)計決策方法1_第2頁
第2章 統(tǒng)計決策方法1_第3頁
第2章 統(tǒng)計決策方法1_第4頁
第2章 統(tǒng)計決策方法1_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、模式識別模式識別 模 式 識 別 長沙理工大學課前思考 n機器自動識別分類,能不能避免錯分類 ?n怎樣才能減少錯誤? n不同錯誤造成的損失一樣嗎?n先驗概率,后驗概率,概率密度函數(shù)?n什么是貝葉斯公式?n正態(tài)分布?期望值、方差?n正態(tài)分布為什么是最重要的分布之一? 長沙理工大學學習指南學習指南 n本章要說明分類識別中為什么會有錯分類,在何種情況下會出現(xiàn)錯分類?錯分類的可能性會有多大?怎樣才能使錯分類最少? n不同的錯分類造成的危害是不同的,有的錯分類種類造成的危害更大,因此控制這種錯分類則是更重要的。為此引入了一種“風險”與“損失”概念,希望做到使風險最小。要著重理解“風險”與“損失”的概念,

2、以及在引入“風險”概念后的處理方法。 長沙理工大學學習指南學習指南n理解本章的關鍵n要正確理解先驗概率,類概率密度函數(shù),后驗概率這三種概率n對這三種概率的定義,相互關系要搞得清清楚楚nBayes公式正是體現(xiàn)這三者關系的式子,要透徹掌握。 長沙理工大學2.1引言n統(tǒng)計決策理論n是模式分類問題的基本理論之一n貝葉斯決策理論n是統(tǒng)計決策理論中的一個基本方法長沙理工大學物理對象的描述n在特征空間中討論分類問題n假設一個待識別的物理對象用其d個屬性觀察值描述,稱之為d個特征特征,記為x = x1, x2, , xdTn這組成一個d維的特征向量,而這d維待征所有可能的取值范圍則組成了一個d維的特征特征空間

3、空間。長沙理工大學貝葉斯決策理論方法討論的問題貝葉斯決策理論方法討論的問題n討論的問題n總共有c類物體n已知各類在這d維特征空間的統(tǒng)計分布,n各類別i=1,2,c的先驗概率P(i)n類條件概率密度函數(shù)p(x|i)n問題: 如何對某一樣本按其特征向量分類已知d維特征空間的統(tǒng)計分布,如何對某一樣本分類最合理長沙理工大學n基于最小錯誤率的貝葉斯決策 n基于最小風險的貝葉斯決策n在限定一類錯誤率條件下使另一類錯誤率為最小的兩類別決策n最小最大決策n序貫分類方法2.2 幾種常用的決策規(guī)則幾種常用的決策規(guī)則長沙理工大學2.2.1基于最小錯誤率的貝葉斯決策基于最小錯誤率的貝葉斯決策n分類識別中為什么會有錯分

4、類?分類識別中為什么會有錯分類?n當某一特征向量值X只為某一類物體所特有,即 n對其作出決策是容易的,也不會出什么差錯 n問題在于出現(xiàn)模棱兩可的情況 n任何決策都存在判錯的可能性。 長沙理工大學基于最小錯誤率的貝葉斯決策基于最小錯誤率的貝葉斯決策 n基本思想基本思想n使錯誤率為最小的分類規(guī)則n稱之為基于最小錯誤率的貝葉斯決策 長沙理工大學例例n兩類細胞識別n特征-后驗概率-分類n兩類魚識別n特征-后驗概率-分類n天氣預報中的后驗概率n特征n后驗概率n分類長沙理工大學例例n細胞識別,加入更多類別?n魚識別,加入更多種類?n存在問題n后驗概率直接用來分類n后驗概率不易直接得到n后驗概率不易聯(lián)合考慮

5、n長沙理工大學例例n另一種概率:類條件概率n正常細胞特征的概率分布n異常細胞特征的概率分布n salmon的概率分布n sea bass的概率分布n分類中如何使用類條件概率?n什么是先驗概率?長沙理工大學條件概率條件概率 nP(*|#)是條件概率的通用符號n即在某條件#下出現(xiàn)某個事件*的概率nP(K|X):X出現(xiàn)條件下,樣本為K類的概率nP(*|#)與P(*)不同長沙理工大學幾個重要概念幾個重要概念n先驗概率先驗概率nP(1)及及P(2) n概率密度函數(shù)概率密度函數(shù)nP(x|i) n后驗概率后驗概率nP(i|X) 長沙理工大學貝葉斯決策理論n先驗概率,后驗概率,概率密度函數(shù)n假設總共有c類物體

6、,用i (i=1,2,c)標記每個類別,x = x1, x2, , xdT,是d維特征空間上的某一點,則nP(i )是先驗概率先驗概率np(x| i )是i類發(fā)生時的條件概率密度函數(shù)條件概率密度函數(shù)nP(i|x)表示后驗概率后驗概率長沙理工大學基于最小錯誤率的貝葉斯決策 n例例:癌細胞的識別n假設每個要識別的細胞已作過預處理,并抽取出了d個特征描述量,用一個d維的特征向量X表示,n識別的目的是要依據該X向量將細胞劃分為正常細胞或者異常細胞。n這里我們用表示是正常細胞,而則屬于異常細胞。長沙理工大學基于最小錯誤率的貝葉斯決策n先驗概率先驗概率 nP(1)和P(2)n含義: 每種細胞占全部細胞的比

7、例 nP(1)+P(2)=1n一般情況下正常細胞占比例大,即P(1)P(2)長沙理工大學基于最小錯誤率的貝葉斯決策nsalmon” or “sea bass”判別中的先驗概率先驗概率nP(salmon)nP(sea bass)長沙理工大學基于最小錯誤率的貝葉斯決策n先驗概率先驗概率n根據先驗概率決定n這種分類決策沒有意義n表明由先驗概率所提供的信息太少 221121),()(),()(xPPxPP長沙理工大學基于最小錯誤率的貝葉斯決策n概率密度函數(shù)概率密度函數(shù)n利用對細胞作病理分析所觀測到的信息,也就是所抽取到的d維觀測向量。n為簡單起見,我們假定只用其一個特征進行分類,即d=1n得到兩類的類

8、條件概率密度函數(shù)分布nP(x|1)是正常細胞的屬性分布nP(x|2)是異常細胞的屬性分布長沙理工大學基于最小錯誤率的貝葉斯決策 類條件概率密度函數(shù)1)|(dxXfi概率密度函數(shù)性質長沙理工大學基于最小錯誤率的貝葉斯決策nsalmon” or “sea bass”判別中的類條件概類條件概率密度函數(shù)率密度函數(shù)長沙理工大學基于最小錯誤率的貝葉斯決策n類條件概率密度函數(shù)類條件概率密度函數(shù)直接用來分類是否合理?221: )|()|(XPXP121: )|()|(XPXP具有一定的合理性不滿足最小錯誤率要求沒有考慮先驗概率長沙理工大學基于最小錯誤率的貝葉斯決策n后驗概率含義后驗概率含義 nP (1 |X

9、)n當觀測向量為X值時, 該細胞屬于正常細胞的概率。nP (2 |X )n當觀測向量為X值時, 該細胞屬于異常細胞的概率。長沙理工大學基于最小錯誤率的貝葉斯決策 后驗概率長沙理工大學基于最小錯誤率的貝葉斯決策n“ salmon” or “sea bass”判別中的后驗概后驗概率率長沙理工大學基于最小錯誤率的貝葉斯決策n類條件概率和后驗概率區(qū)別n后驗概率: P(1|x)和P(|x)n同一條件x下,比較1與2出現(xiàn)的概率n兩類1和2,則有P(1|x)+P(2|x)=1n如P(1|x) P(2|x)則可以下結論,在x條件下,事件1出現(xiàn)的可能性大n類條件概率: P(x|1)和P(x|2)n是在不同條件下

10、討論的問題n即使只有兩類1與2,P(x|1)+P(x|1)1nP(x|1)與P(x|2)兩者沒有聯(lián)系長沙理工大學基于最小錯誤率的貝葉斯決策n貝葉斯公式n先驗概率,后驗概率,概率密度函數(shù)之間關系n根據先驗概率先驗概率和概率密度函數(shù)概率密度函數(shù)可以計算出后后驗概率驗概率長沙理工大學基于最小錯誤率的貝葉斯決策n問題n為什么先驗概率先驗概率和類條件概率密度函數(shù)類條件概率密度函數(shù)可以作為已知?n而后驗概率后驗概率需要通過計算獲得?長沙理工大學基于最小錯誤率的貝葉斯決策n為什么后驗概率要利用Bayes公式從先驗概率和類條件概率密度函數(shù)計算獲得 ?n計算概率都要擁有大量數(shù)據 n估計先驗概率先驗概率與類條件概

11、率密度函數(shù)類條件概率密度函數(shù)時都可搜集到大量樣本 n對某一特定事件(如x)要搜集大量樣本是不太容易 n只能借助Bayes公式來計算得到 長沙理工大學基于最小錯誤率的貝葉斯決策n問題n根據最小錯誤率,如何利用先驗概率先驗概率、類條類條件概率密度函數(shù)件概率密度函數(shù)和后驗概率后驗概率進行分類?長沙理工大學基于最小錯誤率的貝葉斯決策n貝葉斯決策理論前提n各類別總體的概率分布是已知的;n要決策分類的概率分布是已知的。n貝葉斯決策理論方法所討論的問題是:n已知:總共有c類物體,以及先驗概率P(i)及類條件概率密度函數(shù)p(x|i)n問題: 如何對某一樣本按其特征向量分類的問題。長沙理工大學基于最小錯誤率的貝

12、葉斯決策n基于最小錯誤率的貝葉斯決策規(guī)則: 如果P(1|X)P(2|X),則X歸為1類別如果P(1|X)P(2|X),則X歸為2類別長沙理工大學基于最小錯誤率的貝葉斯決策n幾種等價形式:n后驗概率形式: 如果 則 x歸為in先驗概率及類條件概率密度函數(shù)表示: 如果 則 x歸為i長沙理工大學基于最小錯誤率的貝葉斯決策n幾種等價形式:n比值的方式表示,如果 則x歸為1 ,否則x歸為2 長沙理工大學基于最小錯誤率的貝葉斯決策n幾種等價形式:n對數(shù)形式若 則x歸為1 ,否則x歸為2長沙理工大學基于最小錯誤率的貝葉斯決策n例2.1 n假設在某地區(qū)切片細胞中正常(1)和異常()兩類的先驗概率分別為P(1)

13、=0.9,P(2)=0.1。n現(xiàn)有一待識別細胞呈現(xiàn)出狀態(tài)x,由其類條件概率密度分布曲線查得p(x|1)=0.2,p(x|)=0.4,n試對細胞x進行分類。 長沙理工大學基于最小錯誤率的貝葉斯決策n例2.1n解:利用貝葉斯公式,分別計算出狀態(tài)為x時1與的后驗概率 長沙理工大學基于最小錯誤率的貝葉斯決策n例2.1n根據貝葉斯決策有P(1|x)0.818P(|x)0.182n分析:錯誤概率是多少?n判斷為正常細胞,錯誤率為0.182n判斷為異常細胞,錯誤率為0.818因此判定該細胞為正常細胞比較合理。長沙理工大學最小錯誤率的證明n最小錯誤率貝葉斯準則使得錯誤率最小證明:從平均的意義上的錯誤率在連續(xù)條

14、件下,平均錯誤率,以P(e)表示,應有 :長沙理工大學最小錯誤率的證明n最小錯誤率貝葉斯準則使得錯誤率最小證明:n分析兩類別問題n按貝葉斯決策規(guī)則,當P(w2|x)p(w1|x)時決策為w2。n顯然這個決策意味著,對觀測值x有P(w1|x)概率的錯誤率。n上例中所作的w1決策,實際上包含有P(w2|x)=0.182的錯誤概率 長沙理工大學最小錯誤率的證明n最小錯誤率貝葉斯準則使得錯誤率最小證明:在兩類別的情況下,可以將p(e|x)表示成當長沙理工大學基于最小錯誤率的貝葉斯決策n最小錯誤率貝葉斯準則使得錯誤率最小證明:n如果我們把作出w1決策的所有觀測值區(qū)域稱為R1,則在R1區(qū)內的每個x值,條件

15、錯誤概率為p(w2|x)。n另一個區(qū)R2中的x,條件錯誤概率為p(w1|x)。 長沙理工大學基于最小錯誤率的貝葉斯決策n最小錯誤率貝葉斯準則使得錯誤率最小證明:n因此平均錯誤率P(e)可表示成 21)()|()()|()(12RRdxxpxPdxxpxPeP長沙理工大學基于最小錯誤率的貝葉斯決策n最小錯誤率貝葉斯準則使得錯誤率最小證明:n由于在R1區(qū)內任一個x值都有P(w2|x)P(w1|x),n同樣在R2區(qū)內任一個x值都有P(w1|x)P(w2|x)錯誤率在每個x值處都取小者,n因而平均錯誤率P(e)也必然達到最小n這就證明了平均錯誤率為最小 長沙理工大學基于最小錯誤率的貝葉斯決策長沙理工大

16、學C類別情況下最小錯誤率貝葉斯決策n在C類別情況下最小錯誤率貝葉斯決策規(guī)則的后驗概率形式: n先驗概率與類條件概率密度相聯(lián)系的形式 長沙理工大學C類別情況下最小錯誤率貝葉斯決策n多類別決策過程中的錯誤率 n把特征空間分割成R1,R2,Rc個區(qū)域 n統(tǒng)計將所有其它類錯誤劃為該區(qū)域對應的i類的概率 n計算是很繁瑣 n計算平均正確分類概率P(c)即 長沙理工大學2.2.2基于最小風險的貝葉斯決策n基本思想n使錯誤率最小并不一定是一個普遍適用的最佳選擇。n癌細胞分類n兩種錯誤:n癌細胞正常細胞n正常細胞癌細胞n兩種錯誤的代價(損失)不同長沙理工大學基于最小風險的貝葉斯決策n基本思想n寧可擴大一些總的錯

17、誤率,但也要使總的損失減少。n引進一個與損失有關聯(lián)的,更為廣泛的概念風險。n在作出決策時,要考慮所承擔的風險。n基于最小風險的貝葉斯決策規(guī)則正是為了體現(xiàn)這一點而產生的。長沙理工大學基于最小風險的貝葉斯決策n最小錯誤率貝葉斯決策規(guī)則:n最小錯誤率目標函數(shù): P (j|X)n為了考慮不同決策的不同損失,構造如下目標函數(shù)(i)j:表示樣本X實際屬于j類,被判為狀態(tài)i所造成的損失Rj(X):表示把樣本X判為狀態(tài)i所造成的整體損失長沙理工大學基于最小風險的貝葉斯決策n兩類情況:有沒有癌細胞 n1表示正常,2表示異常 nP(1|X)與P(2|X)分別表示了兩種可能性的大小 nX是癌細胞(2),但被判作正常

18、(1),則會有損失,這種損失表示為:2 (1)nX確實是正常(1),卻被判定為異常(2),則損失表示成: 1 (2)長沙理工大學基于最小風險的貝葉斯決策n兩類情況:有沒有癌細胞 n另外為了使式子寫的更方便,我們也可以定義1 (1)和2 (2)n是指正確判斷也可有損失 長沙理工大學基于最小風險的貝葉斯決策n兩類情況:有沒有癌細胞 nX判作1引進的損失應該為n將X判為2的風險就成為 n作出哪一種決策就要看是R1(X)小還是R2(X)小 這就是基于最小風險的貝葉斯決策的基本出發(fā)點 長沙理工大學基于最小風險的貝葉斯決策n(1)自然狀態(tài)與狀態(tài)空間n自然狀態(tài): 識別對象的類別n狀態(tài)空間: 所有自然狀態(tài)所組

19、成的空間=1,2,cn(2)決策與決策空間n決策: 對分類問題所作的判決n決策空間: 由所有決策組成的空間稱為n決策空間內決策總數(shù)a可以不等于類別數(shù)cnA=1, 2, ,n 長沙理工大學基于最小風險的貝葉斯決策n(3)損失函數(shù)(i|j)(或(i,j)n這就是前面我們引用過的j (i) n表示對自然狀態(tài)j ,作出決策j時所造成的損失n(4)觀測值X條件下的期望損失R(i|X)n這就是前面引用的符號Ri,也稱為條件風險。 長沙理工大學基于最小風險的貝葉斯決策n最小風險貝葉斯決策規(guī)則可寫成:n引入一個期望風險R 長沙理工大學基于最小風險的貝葉斯決策n最小風險貝葉斯決策步驟:n(1)計算出后驗概率n已

20、知P(i)和P(X|i),i=1,,c,獲得觀測到的特征向量Xn根據貝葉斯公式計算 j=1,,x 長沙理工大學基于最小風險的貝葉斯決策n最小風險貝葉斯決策步驟: n(2)計算條件風險n已知: 后驗概率和決策表n計算出每個決策的條件風險n(3) 找出使條件風險最小的決策k則k就是最小風險貝葉斯決策。長沙理工大學基于最小風險的貝葉斯決策n例2.2 在例2.1條件的基礎上n已知11=0,(11表示(1|1)的簡寫),12=6,21=1,22=0n按最小風險貝葉斯決策進行分類長沙理工大學基于最小風險的貝葉斯決策n例2.2n解:已知條件為P(1)0.9, P(12)0.1p(X|1)0.2, p(X|1

21、2)0.r110, 126, 211, 220n根據2.1的計算結果可知后驗概率為P(1|X)0.818 P(2|X)0.182長沙理工大學基于最小風險的貝葉斯決策n例2.2n再計算出條件風險 長沙理工大學基于最小風險的貝葉斯決策n例2.2n作出決策n由于R(1|X)R(2|X)n即決策為2的條件風險小于決策為1的條件風險,n因此應采取決策行動2n即判待識別的細胞X為2類異常細胞。長沙理工大學兩種決策方法之間的關系n兩種決策方法之間的關系n設損失函數(shù)為 n條件風險為 錯誤概率 長沙理工大學基于最小風險的貝葉斯決策n兩種決策方法之間的關系n兩類情況的形象表示長沙理工大學長沙理工大學在限定一類錯誤

22、率條件下使另一類錯誤率為最小的兩類別決策 n聶曼-皮爾遜判決neyman-pearsonn基本思想n兩種錯誤n一種的錯誤概率固定,另一種盡量小長沙理工大學長沙理工大學最小最大決策n問題n先驗概率未知n基本思想n使得最大可能的風險做小化長沙理工大學最小最大決策長沙理工大學序貫分類序貫分類n迄今為止所討論的分類問題,關于待分類樣本的所有信息都是一次性提供的。但是,在許多實際問題中,觀察實際上是序貫的。隨著時間的推移可以得到越來越多的信息。長沙理工大學判別函數(shù)、決策面與分類器設計 n決策面與判別函數(shù) n分類決策實質上是在描述待識別對象的d維特征所組成的特征空間內,將其劃分為c個決策域,n待識別的特征向量落在哪個決策域,該樣本就被判為哪一類。n因此決策域的邊界面就是決策面決策面,n在數(shù)學上用解析形式表示成決策面方程決策面方程。長沙理工大學判別函數(shù)、決策面與分類器設計 n決策面與判別函數(shù) n用于表達決策規(guī)則的某些函數(shù)則稱為判別函判別函數(shù)數(shù)。n顯然判別函

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論