版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、課前思考 n機器自動識別分類,能不能避免錯分類 ? n怎樣才能減少錯誤? n不同錯誤造成的損失一樣嗎? n先驗概率,后驗概率,概率密度函數(shù)? n什么是貝葉斯公式? n正態(tài)分布?期望值、方差? n正態(tài)分布為什么是最重要的分布之一? 學(xué)習(xí)指南學(xué)習(xí)指南 n本章要說明分類識別中為什么會有錯分類,在 何種情況下會出現(xiàn)錯分類?錯分類的可能性會 有多大?怎樣才能使錯分類最少? n不同的錯分類造成的危害是不同的,有的錯分 類種類造成的危害更大,因此控制這種錯分類 則是更重要的。為此引入了一種“風(fēng)險”與 “損失”概念,希望做到使風(fēng)險最小。要著重 理解“風(fēng)險”與“損失”的概念,以及在引入 “風(fēng)險”概念后的處理方法
2、。 學(xué)習(xí)指南學(xué)習(xí)指南 n理解本章的關(guān)鍵 n要正確理解先驗概率,類概率密度函數(shù),后 驗概率這三種概率 n對這三種概率的定義,相互關(guān)系要搞得清清 楚楚 nBayes公式正是體現(xiàn)這三者關(guān)系的式子,要 透徹掌握。 2.1引言 n統(tǒng)計決策理論 n是模式分類問題的基本理論之一 n貝葉斯決策理論 n是統(tǒng)計決策理論中的一個基本方法 物理對象的描述 n在特征空間中討論分類問題 n假設(shè)一個待識別的物理對象用其d個屬性觀 察值描述,稱之為d個特征特征,記為x = x1, x2, , xdT n這組成一個d維的特征向量,而這d維待征所 有可能的取值范圍則組成了一個d維的特征特征 空間空間。 貝葉斯決策理論方法討論的問
3、題貝葉斯決策理論方法討論的問題 n討論的問題 n總共有c類物體 n已知各類在這d維特征空間的統(tǒng)計分布, n各類別i=1,2,c的先驗概率P(i) n類條件概率密度函數(shù)p(x|i) n問題: 如何對某一樣本按其特征向量分類 已知d維特征空間的統(tǒng)計分布,如何對某一樣 本分類最合理 n基于最小錯誤率的貝葉斯決策 n基于最小風(fēng)險的貝葉斯決策 n在限定一類錯誤率條件下使另一類錯誤 率為最小的兩類別決策 n最小最大決策 n序貫分類方法 2.2 幾種常用的決策規(guī)則幾種常用的決策規(guī)則 2.2.1基于最小錯誤率的貝葉斯決策基于最小錯誤率的貝葉斯決策 n分類識別中為什么會有錯分類?分類識別中為什么會有錯分類? n
4、當(dāng)某一特征向量值X只為某一類物體所特有, 即 n對其作出決策是容易的,也不會出什么差錯 n問題在于出現(xiàn)模棱兩可的情況 n任何決策都存在判錯的可能性。 基于最小錯誤率的貝葉斯決策基于最小錯誤率的貝葉斯決策 n基本思想基本思想 n使錯誤率為最小的分類規(guī)則 n稱之為基于最小錯誤率的貝葉斯決策 條件概率條件概率 nP(*|#)是條件概率的通用符號 n即在某條件#下出現(xiàn)某個事件*的概率 nP(K|X):X出現(xiàn)條件下,樣本為K類的概率 nP(*|#)與P(*)不同 n例:*表示中國人,#表示在中國大陸的人 n則P(*|#)與P(*)不同含義不同 幾個重要概念幾個重要概念 n先驗概率先驗概率 nP(1)及及
5、P(2) n概率密度函數(shù)概率密度函數(shù) nP(x|i) n后驗概率后驗概率 nP(i|X) 貝葉斯決策理論 n先驗概率,后驗概率,概率密度函數(shù) n假設(shè)總共有c類物體,用i (i=1,2,c)標(biāo)記 每個類別,x = x1, x2, , xdT,是d維特征 空間上的某一點,則 nP(i )是先驗概率先驗概率 np(x| i )是i類發(fā)生時的條件概率密度函數(shù)條件概率密度函數(shù) nP(i|x)表示后驗概率后驗概率 基于最小錯誤率的貝葉斯決策 n例例:癌細(xì)胞的識別 n假設(shè)每個要識別的細(xì)胞已作過預(yù)處理,并抽 取出了d個特征描述量,用一個d維的特征向 量X表示, n識別的目的是要依據(jù)該X向量將細(xì)胞劃分為 正常細(xì)
6、胞或者異常細(xì)胞。 n這里我們用表示是正常細(xì)胞,而則 屬于異常細(xì)胞。 基于最小錯誤率的貝葉斯決策 n先驗概率先驗概率 nP(1)和P(2) n含義: 每種細(xì)胞占全部細(xì)胞的比例 nP(1)+P(2)=1 n一般情況下正常細(xì)胞占比例大,即 P(1)P(2) 基于最小錯誤率的貝葉斯決策 nsalmon” or “sea bass”判別中的先驗概率先驗概率 nP(salmon) nP(sea bass) 基于最小錯誤率的貝葉斯決策 n先驗概率先驗概率 n根據(jù)先驗概率決定 n這種分類決策沒有意義 n表明由先驗概率所提供的信息太少 221 121 ),()( ),()( xPP xPP 基于最小錯誤率的貝葉
7、斯決策 n概率密度函數(shù)概率密度函數(shù) n利用對細(xì)胞作病理分析所觀測到的信息,也 就是所抽取到的d維觀測向量。 n為簡單起見,我們假定只用其一個特征進行 分類,即d=1 n得到兩類的類條件概率密度函數(shù)分布 nP(x|1)是正常細(xì)胞的屬性分布 nP(x|2)是異常細(xì)胞的屬性分布 基于最小錯誤率的貝葉斯決策 類條件概率密度函數(shù) 1)|(dxXf i 概率密度函數(shù)性質(zhì) 基于最小錯誤率的貝葉斯決策 nsalmon” or “sea bass”判別中的類條件概類條件概 率密度函數(shù)率密度函數(shù) 基于最小錯誤率的貝葉斯決策 n類條件概率密度函數(shù)類條件概率密度函數(shù)直接用來分類 是否合理? 221 : )|()|(X
8、PXP 121 : )|()|(XPXP 具有一定的合理性 不滿足最小錯誤率要求 沒有考慮先驗概率 基于最小錯誤率的貝葉斯決策 n后驗概率含義后驗概率含義 nP (1 |X ) n當(dāng)觀測向量為X值時, 該細(xì)胞屬于正常細(xì)胞的概 率。 nP (2 |X ) n當(dāng)觀測向量為X值時, 該細(xì)胞屬于異常細(xì)胞的概 率。 基于最小錯誤率的貝葉斯決策 后驗概率 基于最小錯誤率的貝葉斯決策 nsalmon” or “sea bass”判別中的后驗概率后驗概率 基于最小錯誤率的貝葉斯決策 n類條件概率和后驗概率區(qū)別 n后驗概率: P(1|x)和P(|x) n同一條件x下,比較1與2出現(xiàn)的概率 n兩類1和2,則有P(
9、1|x)+P(2|x)=1 n如P(1|x) P(2|x)則可以下結(jié)論,在x條件下, 事件1出現(xiàn)的可能性大 n類條件概率: P(x|1)和P(x|2) n是在不同條件下討論的問題 n即使只有兩類1與2,P(x|1)+P(x|1)1 nP(x|1)與P(x|2)兩者沒有聯(lián)系 基于最小錯誤率的貝葉斯決策 n貝葉斯公式 n先驗概率,后驗概率,概率密度函數(shù)之間關(guān) 系 n根據(jù)先驗概率先驗概率和概率密度函數(shù)概率密度函數(shù)可以計算出后后 驗概率驗概率 基于最小錯誤率的貝葉斯決策 n問題 n為什么先驗概率先驗概率和類條件概率密度函數(shù)類條件概率密度函數(shù)可以 作為已知? n而后驗概率后驗概率需要通過計算獲得? 基于
10、最小錯誤率的貝葉斯決策 n為什么后驗概率要利用Bayes公式從先驗 概率和類條件概率密度函數(shù)計算獲得 ? n計算概率都要擁有大量數(shù)據(jù) n估計先驗概率先驗概率與類條件概率密度函數(shù)類條件概率密度函數(shù)時都可 搜集到大量樣本 n對某一特定事件(如x)要搜集大量樣本是不 太容易 n只能借助Bayes公式來計算得到 基于最小錯誤率的貝葉斯決策 n問題 n根據(jù)最小錯誤率,如何利用先驗概率先驗概率、類條類條 件概率密度函數(shù)件概率密度函數(shù)和后驗概率后驗概率進行分類? 基于最小錯誤率的貝葉斯決策 n貝葉斯決策理論前提 n各類別總體的概率分布是已知的; n要決策分類的概率分布是已知的。 n貝葉斯決策理論方法所討論的
11、問題是: n已知:總共有c類物體,以及先驗概率P(i)及 類條件概率密度函數(shù)p(x|i) n問題: 如何對某一樣本按其特征向量分類的 問題。 基于最小錯誤率的貝葉斯決策 n基于最小錯誤率的貝葉斯決策規(guī)則: 如果P(1|X)P(2|X),則X歸為1類別 如果P(1|X)P(2|X),則X歸為2類別 基于最小錯誤率的貝葉斯決策 n幾種等價形式: n后驗概率形式: 如果 則 x歸為i n先驗概率及類條件概率密度函數(shù)表示: 如果 則 x歸為i 基于最小錯誤率的貝葉斯決策 n幾種等價形式: n比值的方式表示, 如果 則x歸為1 , 否則x歸為2 基于最小錯誤率的貝葉斯決策 n幾種等價形式: n對數(shù)形式
12、若 則x歸為1 , 否則x歸為2 基于最小錯誤率的貝葉斯決策 n例2.1 n假設(shè)在某地區(qū)切片細(xì)胞中正常(1)和異常( )兩類的先驗概率分別為P(1)=0.9, P(2)=0.1。 n現(xiàn)有一待識別細(xì)胞呈現(xiàn)出狀態(tài)x,由其類條 件概率密度分布曲線查得p(x|1)=0.2, p(x|)=0.4, n試對細(xì)胞x進行分類。 基于最小錯誤率的貝葉斯決策 n例2.1 n解:利用貝葉斯公式,分別計算出狀態(tài) 為x時1與的后驗概率 基于最小錯誤率的貝葉斯決策 n例2.1 n根據(jù)貝葉斯決策有 P(1|x)0.818P(|x)0.182 n分析:錯誤概率是多少? n判斷為正常細(xì)胞,錯誤率為0.182 n判斷為異常細(xì)胞,
13、錯誤率為0.818 因此判定該細(xì)胞為正常細(xì)胞比較合理。 最小錯誤率的證明 n最小錯誤率貝葉斯準(zhǔn)則使得錯誤率最小 證明: 從平均的意義上的錯誤率 在連續(xù)條件下,平均錯誤率,以P(e)表示,應(yīng) 有 : 最小錯誤率的證明 n最小錯誤率貝葉斯準(zhǔn)則使得錯誤率最小 證明: n分析兩類別問題 n按貝葉斯決策規(guī)則,當(dāng)P(w2|x)p(w1|x)時決策 為w2。 n顯然這個決策意味著,對觀測值x有P(w1|x)概率 的錯誤率。 n上例中所作的w1決策,實際上包含有 P(w2|x)=0.182的錯誤概率 最小錯誤率的證明 n最小錯誤率貝葉斯準(zhǔn)則使得錯誤率最小 證明: 在兩類別的情況下,可以將p(e|x)表示成當(dāng)
14、基于最小錯誤率的貝葉斯決策 n最小錯誤率貝葉斯準(zhǔn)則使得錯誤率最小 證明: n如果我們把作出w1決策的所有觀測值區(qū)域 稱為R1,則在R1區(qū)內(nèi)的每個x值,條件錯誤 概率為p(w2|x)。 n另一個區(qū)R2中的x,條件錯誤概率為p(w1|x)。 基于最小錯誤率的貝葉斯決策 n最小錯誤率貝葉斯準(zhǔn)則使得錯誤率最小 證明: n因此平均錯誤率P(e)可表示成 21 )()|()()|()( 12 RR dxxpxPdxxpxPeP 基于最小錯誤率的貝葉斯決策 n最小錯誤率貝葉斯準(zhǔn)則使得錯誤率最小 證明: n由于在R1區(qū)內(nèi)任一個x值都有P(w2|x) P(w1|x), n同樣在R2區(qū)內(nèi)任一個x值都有P(w1|x
15、) P(w2|x)錯誤率在每個x值處都取小者, n因而平均錯誤率P(e)也必然達到最小 n這就證明了平均錯誤率為最小 基于最小錯誤率的貝葉斯決策 C類別情況下最小錯誤率 貝葉斯決策 n在C類別情況下最小錯誤率貝葉斯決策規(guī) 則的后驗概率形式: n先驗概率與類條件概率密度相聯(lián)系的形 式 C類別情況下最小錯誤率 貝葉斯決策 n多類別決策過程中的錯誤率 n把特征空間分割成R1,R2,Rc個區(qū)域 n統(tǒng)計將所有其它類錯誤劃為該區(qū)域?qū)?yīng)的i類 的概率 n計算是很繁瑣 n計算平均正確分類概率P(c)即 2.2.2基于最小風(fēng)險的貝葉斯決策 n基本思想 n使錯誤率最小并不一定是一個普遍適用的最 佳選擇。 n癌細(xì)胞
16、分類 n兩種錯誤: n癌細(xì)胞正常細(xì)胞 n正常細(xì)胞癌細(xì)胞 n兩種錯誤的代價(損失)不同 基于最小風(fēng)險的貝葉斯決策 n基本思想 n寧可擴大一些總的錯誤率,但也要使總的 損失減少。 n引進一個與損失有關(guān)聯(lián)的,更為廣泛的概 念風(fēng)險。 n在作出決策時,要考慮所承擔(dān)的風(fēng)險。 n基于最小風(fēng)險的貝葉斯決策規(guī)則正是為了 體現(xiàn)這一點而產(chǎn)生的。 基于最小風(fēng)險的貝葉斯決策 n最小錯誤率貝葉斯決策規(guī)則: n最小錯誤率目標(biāo)函數(shù): P (j|X) n為了考慮不同決策的不同損失,構(gòu)造如 下目標(biāo)函數(shù) (i)j:表示樣本X實際屬于j類,被判為狀態(tài)i所造成的損失 Rj(X):表示把樣本X判為狀態(tài)i所造成的整體損失 基于最小風(fēng)險的貝
17、葉斯決策 n兩類情況:有沒有癌細(xì)胞 n1表示正常,2表示異常 nP(1|X)與P(2|X)分別表示了兩種可能性的 大小 nX是癌細(xì)胞(2),但被判作正常(1),則會 有損失,這種損失表示為:2 (1) nX確實是正常(1),卻被判定為異常(2), 則損失表示成: 1 (2) 基于最小風(fēng)險的貝葉斯決策 n兩類情況:有沒有癌細(xì)胞 n另外為了使式子寫的更方便,我們也可以定 義1 (1)和2 (2) n是指正確判斷也可有損失 基于最小風(fēng)險的貝葉斯決策 n兩類情況:有沒有癌細(xì)胞 nX判作1引進的損失應(yīng)該為 n將X判為2的風(fēng)險就成為 n作出哪一種決策就要看是R1(X)小還是R2(X)小 這就是基于最小風(fēng)險
18、的貝葉斯決策的基本出發(fā)點 基于最小風(fēng)險的貝葉斯決策 n(1)自然狀態(tài)與狀態(tài)空間 n自然狀態(tài): 識別對象的類別 n狀態(tài)空間: 所有自然狀態(tài)所組成的空間 =1,2,c n(2)決策與決策空間 n決策: 對分類問題所作的判決 n決策空間: 由所有決策組成的空間稱為 n決策空間內(nèi)決策總數(shù)a可以不等于類別數(shù)c nA=1, 2, ,n 基于最小風(fēng)險的貝葉斯決策 n(3)損失函數(shù)(i|j)(或(i,j) n這就是前面我們引用過的j (i) n表示對自然狀態(tài)j ,作出決策j時所造成 的損失 n(4)觀測值X條件下的期望損失R(i|X) n這就是前面引用的符號Ri,也稱為條件風(fēng)險。 基于最小風(fēng)險的貝葉斯決策 n
19、最小風(fēng)險貝葉斯決策規(guī)則可寫成: n引入一個期望風(fēng)險R 基于最小風(fēng)險的貝葉斯決策 n最小風(fēng)險貝葉斯決策步驟: n(1)計算出后驗概率 n已知P(i)和P(X|i),i=1,,c,獲得觀測到的 特征向量X n根據(jù)貝葉斯公式計算 j=1,,x 基于最小風(fēng)險的貝葉斯決策 n最小風(fēng)險貝葉斯決策步驟: n(2)計算條件風(fēng)險 n已知: 后驗概率和決策表 n計算出每個決策的條件風(fēng)險 n(3) 找出使條件風(fēng)險最小的決策k 則k就是最小風(fēng)險貝葉斯決策。 基于最小風(fēng)險的貝葉斯決策 n例2.2 在例2.1條件的基礎(chǔ)上 n已知11=0,(11表示(1|1)的簡寫), 12=6,21=1,22=0 n按最小風(fēng)險貝葉斯決策
20、進行分類 基于最小風(fēng)險的貝葉斯決策 n例2.2 n解:已知條件為 P(1)0.9, P(12)0.1 p(X|1)0.2, p(X|12)0.r 110, 126, 211, 220 n根據(jù)2.1的計算結(jié)果可知后驗概率為 P(1|X)0.818 P(2|X)0.182 基于最小風(fēng)險的貝葉斯決策 n例2.2 n再計算出條件風(fēng)險 基于最小風(fēng)險的貝葉斯決策 n例2.2 n作出決策 n由于R(1|X)R(2|X) n即決策為2的條件風(fēng)險小于決策為1的條件風(fēng) 險, n因此應(yīng)采取決策行動2 n即判待識別的細(xì)胞X為2類異常細(xì)胞。 兩種決策方法之間的關(guān)系 n兩種決策方法之間的關(guān)系 n設(shè)損失函數(shù)為 n條件風(fēng)險為
21、 錯誤概率 基于最小風(fēng)險的貝葉斯決策 n兩種決策方法之間的關(guān)系 n兩類情況的形象表示 在限定一類錯誤率條件下使另一 類錯誤率為最小的兩類別決策 n聶曼-皮爾遜判決neyman-pearson n基本思想 n兩種錯誤 n一種的錯誤概率固定,另一種盡量小 最小最大決策 n問題 n先驗概率未知 n基本思想 n使得最大可能的風(fēng)險做小化 最小最大決策 序貫分類序貫分類 n迄今為止所討論的分類問題,關(guān)于待分 類樣本的所有信息都是一次性提供的。 但是,在許多實際問題中,觀察實際上 是序貫的。隨著時間的推移可以得到越 來越多的信息。 判別函數(shù)、決策面與分類器設(shè)計 n決策面與判別函數(shù) n分類決策實質(zhì)上是在描述待識別對象的d維 特征所組成的特征空間內(nèi),將其劃分為c個 決策域, n待識別的特征向量落在哪個決策域,該樣本 就被判為哪一類。 n因此決策域的邊界面就是決策面決策面, n在數(shù)學(xué)上用解析形式表示成決策面方程決策面方程。 判別函數(shù)、決策面與分類器設(shè)計 n決策面與判別函數(shù) n用于表達決策規(guī)則的某些函數(shù)則稱為判別函判別函 數(shù)數(shù)。 n顯然判別函數(shù)與決策面方程是密切相關(guān)的, 并且
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 美術(shù)幼兒大班教案參考6篇
- IT行業(yè)人才培養(yǎng)學(xué)情分析方案
- 山的美術(shù)教案7篇
- 工地安全事故處理預(yù)案
- 證券投資顧問業(yè)務(wù)管理制度
- 網(wǎng)絡(luò)欺凌防范與應(yīng)對方案
- 社區(qū)志愿者綜合素質(zhì)評價制度探討
- 金融機構(gòu)電腦設(shè)備管理與服務(wù)方案
- 2024至2030年中國高速全自動注射器包裝機數(shù)據(jù)監(jiān)測研究報告
- 2024至2030年中國超薄透明DVD盒子數(shù)據(jù)監(jiān)測研究報告
- 幼兒園:我中獎了(實驗版)
- 趙學(xué)慧-老年社會工作理論與實務(wù)-教案
- 《世界主要海峽》
- 住院醫(yī)師規(guī)范化培訓(xùn)師資培訓(xùn)
- “三新”背景下的數(shù)學(xué)課堂教學(xué) 論文
- 中央企業(yè)商業(yè)秘密安全保護技術(shù)指引2015版
- 螺旋果蔬榨汁機的設(shè)計
- 《脊柱整脊方法》
- 會計與財務(wù)管理專業(yè)英語智慧樹知到答案章節(jié)測試2023年哈爾濱商業(yè)大學(xué)
- 廣東省2020年中考英語試題【含答案】
- 0417 教學(xué)能力大賽 公共基礎(chǔ)《英語 》教學(xué)實施報告 電子商務(wù)專業(yè)
評論
0/150
提交評論