YF-分類-貝葉斯分類講義_第1頁
YF-分類-貝葉斯分類講義_第2頁
YF-分類-貝葉斯分類講義_第3頁
YF-分類-貝葉斯分類講義_第4頁
YF-分類-貝葉斯分類講義_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 2015年版楊帆楊帆廈門大學(xué)自動化系廈門大學(xué)自動化系E-mail: 第第2講講 分類方法分類方法-貝葉斯分類貝葉斯分類模式分類數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 提綱1.1 分類的概念分類的概念1.2 分類算法分類算法1.3 貝葉斯分類貝葉斯分類1.4 分類相關(guān)的問題分類相關(guān)的問題數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 1.1 分類的概念:什么是分類信用卡交易的分類癌癥腫瘤的診斷蛋白質(zhì)功能的預(yù)測新聞的分類人類識別能力與分類:父母識別出孩子的哭聲在很多背影中認(rèn)出自己的老友給定關(guān)于真實世界的測量數(shù)據(jù)

2、的樣本以及其所對應(yīng)的類別,對于未來的未知樣本的類別進(jìn)行正確的預(yù)測數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 1.1 分類的概念:真實世界數(shù)據(jù)的特點 聚集在模式空間中的某些區(qū)域聚集在模式空間中的某些區(qū)域因此我們可以對其進(jìn)行劃分 是部分的、帶噪聲的數(shù)據(jù),在本質(zhì)上是更大的、未知是部分的、帶噪聲的數(shù)據(jù),在本質(zhì)上是更大的、未知的分布的采樣的分布的采樣我們不可能獲得所有樣本數(shù)據(jù)我們也不可能得到關(guān)于樣本的所有特征信息數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 1.1分類的概念:有監(jiān)督分類分類有監(jiān)督學(xué)習(xí)有監(jiān)督學(xué)習(xí) 聚類聚類無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)1類3類2類 樣本標(biāo)簽信息數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研

3、究中心 楊帆 1.1 分類的概念:天氣預(yù)報數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 1.1 分類的概念:鳶尾花數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 1.1 分類的概念:要素樣本 示例 訓(xùn)練集 測試集 特征 屬性 變量類標(biāo) 二分類 多分類分類器 模型預(yù)測精度數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 生成式模型 :聯(lián)合概率分布 p(x,y) 樸素貝葉斯模型 高斯模型 混合高斯模型 馬爾科夫隨機場 隱馬爾科夫模型從統(tǒng)計的角度揭示數(shù)據(jù)的分布規(guī)律反映同類數(shù)據(jù)之間的聯(lián)系 1.2 分類算法:生成式 VS. 判別式判別式模型 :條件概率分布 p(y|x) 決策樹 K近鄰 Logistic

4、s 回歸 神經(jīng)網(wǎng)絡(luò) 支持向量機 Adaboost和隨機森林尋找不同類數(shù)據(jù)之間的最優(yōu)分類面強調(diào)異類數(shù)據(jù)之間的差異數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 1.2 分類算法:最小誤分概率 一個不犯錯的分類器是完美的 由于存在“噪聲數(shù)據(jù)”,在實際中并不可能構(gòu)建不犯錯的分類器 是否存在最小誤分概率的分類器?“最優(yōu)”的分類器數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 托馬斯貝葉斯(Thomas Bayes,1702-1761),英國神學(xué)家、哲學(xué)家、數(shù)理統(tǒng)計學(xué)家 ?正向概率“逆概”1.3 分類算法:貝葉斯分類逆概問題數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 先驗概率P(白粉筆)后驗概率P(

5、埃博拉)P(白粉筆|白粉末)P(埃博拉|發(fā)熱)手上沾染了白色粉末出現(xiàn)了發(fā)熱癥狀證據(jù)1.3 分類算法:貝葉斯分類數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 先驗概率后驗概率證據(jù)C類問題1,2,CP(1)+P(2)+P(C)=1P(i)xP(i|x) 更新1.3 分類算法:貝葉斯分類數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 P(1) = 0.4二 分類問題 1 女生 2 男生x- 穿褲子P(1|x) 學(xué)校里 40% 女生, 60% 男生。迎面走來一位學(xué)生,他(她)穿著的是長褲,是女生的概率多大?1.3 分類算法:貝葉斯分類數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 類條件 概率密度p

6、(X|1), p(X|2), , p(X|C)某種類別條件下, 模式樣本出現(xiàn)的概率密度分布函數(shù)1.3 分類算法:貝葉斯分類數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 類條件 概率密度女生一半穿長褲,一半穿裙子,男生總是穿長褲。x- 穿長褲P(x|1) = 0.5 P(x|2) = 1 1.3 分類算法:貝葉斯分類數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 1111122()( |)(| )()( |)()( |)pp xpxpp xpp x女生的比例女生中穿長褲的比例男生的比例男生中穿長褲的比例1.3 分類算法:貝葉斯分類數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 (|)()(|)

7、iiip XPPp XXCiiiPXpXp1)()|()(全概率公式貝葉斯公式后驗概率1.3 分類算法:貝葉斯分類數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 最小錯誤的貝葉斯決策: 樣本屬于后驗概率最高的那種類別兩類問題的具體形式2211(|)(|)PXPXXX任意判別1.3 分類算法:貝葉斯分類數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 已知先驗概率和類條件概率密度,貝葉斯決策的平均錯誤率是最小的1.3 分類算法:貝葉斯分類2211(|)(|)PXPXXX任意判別111222(|) ( )(|) ()( )( )p XPp XPXXXXpp任意判別 112221(|) ()(|) (

8、)p XPp XPXX任意判別數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 R1R21.3 分類算法:貝葉斯分類數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 R1R21.3 分類算法:貝葉斯分類數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 R1R2R1R2數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 假設(shè)醫(yī)生要根據(jù)病人的癥狀來判斷其是否感染埃博拉病毒。醫(yī)生判斷結(jié)果為“患病”或者“不患病”,這是一個兩類模式判別問題。1 表示患病,2表示不患病, X表示“發(fā)熱癥狀”1.3 分類算法:貝葉斯分類數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 一般人群中感染比例為0.5%先驗概率P(1)=0.

9、5%P(2)=0.995類條件概率密度p(X| 1)=0.90感染人群出現(xiàn)“發(fā)熱”癥狀的比例為90%人群中出現(xiàn)“發(fā)熱癥狀”比例為5%p(X)=0.051.3 分類算法:貝葉斯分類數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 一個人出現(xiàn)了發(fā)熱癥狀,醫(yī)生該如何診斷?X1 or 2?111()( |)(| )( )0.005% 0.9 = 0.09%0.05pp xpxp x1.3 分類算法:貝葉斯分類數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 不同判別錯誤帶來的風(fēng)險是不同的!健康人被錯判別為患病病人被錯判為不患病最小風(fēng)險的Bayes決策理論1.3 分類算法:貝葉斯分類數(shù)據(jù)挖掘 廈門大學(xué)云計算

10、與大數(shù)據(jù)研究中心 楊帆 優(yōu)點 理論上最小的誤分率 產(chǎn)生概率值,預(yù)測的信度缺點 聯(lián)合概率分布不可獲得 維數(shù)災(zāi)難 計算效率1.3 分類算法:貝葉斯分類樸素貝葉斯分類器:假定特征之間相互獨立數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 模型選擇:選擇合適的分類器及參數(shù) 數(shù)據(jù)噪聲:防止過擬合 維數(shù)災(zāi)難:選擇合適的特征及其變換 數(shù)據(jù)分布:數(shù)據(jù)分布的局部化和非平衡1.4 分類的相關(guān)問題數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 1.4 分類的相關(guān)問題:模型選擇選擇不同的分類器選擇不同的參數(shù)預(yù)測精度的評估:交叉驗證法數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 1.4 分類的相關(guān)問題:數(shù)據(jù)噪聲數(shù)據(jù)挖

11、掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 1.4 分類的相關(guān)問題:維數(shù)災(zāi)難數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 分界面的偏移:小類的風(fēng)險加大 采樣方法:上采樣和下采樣 代價敏感方法1.4 分類的相關(guān)問題:非平衡問題數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 1.4 分類的相關(guān)問題:非平衡問題的準(zhǔn)確率評估數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 把一個類的樣本誤分成某一類的后果會比分到其它類中的后果更嚴(yán)重。 例:把一個可能回應(yīng)的家庭誤分為不太可能對促銷回應(yīng)的家庭會比相反的情形導(dǎo)致更大的機會成本。在這種場景下,用誤分率作為標(biāo)準(zhǔn)會產(chǎn)生誤導(dǎo)。1.4 分類的相關(guān)問題:非平衡問題的不對

12、稱風(fēng)險數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 假設(shè)在郵件列表中接受促銷的家庭在1左右。如果一個分類器簡單的把所有的家庭都分為不作反應(yīng)的家庭,那么這個分類器將只有1左右的誤分率,但這在實際應(yīng)用中沒有任何意義。 一個把30的購買家庭誤分為不購買的家庭并且把2不購買的家庭分類到購買的家庭的分類器,盡管誤分率比較高,但如果從銷售中得到的收益高于促銷的費用,那么這個分類器還是要好些。1.4 分類的相關(guān)問題:非平衡問題的不對稱風(fēng)險數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 1.估計兩種類型的誤分費用,可以在測試數(shù)據(jù)集中用混淆表計算出每種類型的期望誤分成本,用機會成本作為標(biāo)準(zhǔn)去比較不同的分類器。

13、2.改變分類規(guī)則去反映不對稱費用。存在一個解決不對稱費用的貝葉斯分類器,它給出的規(guī)則可以最好地減小期望誤分機會成本。就是貝葉斯風(fēng)險分類器,并且最小的期望誤分機會成本就是貝葉斯風(fēng)險。1.4 分類的相關(guān)問題:非平衡問題的解決方案數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 1100001 ()()(0|1)()()(1|0) if p Cf xCp CfxCthen XC(0|1)C1(1|0)C0CC的誤分成本的誤分成本 (0|1)(1|0) ?If CCthen1.4 分類的相關(guān)問題:非平衡問題的解決方案數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 3.從一個類中額外抽樣來加大這個類在誤分

14、錯誤中的權(quán)重。如果把正類的例子誤分為負(fù)類的機會成本是把負(fù)類的例子誤分為正類的機會成本的10倍,那么我們從正類中進(jìn)行隨機抽樣的次數(shù)也是從負(fù)類中抽樣次數(shù)的10倍。1.4 分類的相關(guān)問題:非平衡問題的解決方案數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 01100100000,1,.,1 ,.,()()(|)()() ()()()() kjjjkiiijjiiikijjkCCCfxp Cp CXxfxp CIf fxp CMaxfxp Cthen XC假設(shè)有 個類別:貝葉斯公式:最小錯誤貝葉斯規(guī)則:1.4 分類的相關(guān)問題:非平衡問題的解決方案數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 000,1,.,1 () () (| )() () ( | ) jjiiikijjIffxp C Cj jMaxf xp C Ci ithen XC1.4 分類的相關(guān)問題:非平衡問題的解決方案數(shù)據(jù)挖掘 廈門大學(xué)云計算與大數(shù)據(jù)研究中心 楊帆 小

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論