版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
MicrosoftSQLServer2005
DataMining演算法–
Na?veBayes謝邦昌輔仁大學(xué)統(tǒng)計(jì)資訊學(xué)系教授
中華資料採礦協(xié)會(huì)
理事長
stat1001@.twWWW.CDMS.ORG.TW1Na?veBayesClassifier
單純貝氏分類2何謂Na?veBayes
Classifer單純貝氏分類器(Na?veBayesClassifier)是一種簡單且實(shí)用的分類方法。在某些領(lǐng)域的應(yīng)用上,其分類效果優(yōu)於類神經(jīng)網(wǎng)路和決策樹採用監(jiān)督式的學(xué)習(xí)方式,分類前必須事先知道分類型態(tài),透過訓(xùn)練樣本的訓(xùn)練學(xué)習(xí),有效地處理未來欲分類的資料。3何謂Na?veBayes
Classifer用於大型資料庫,可以得出準(zhǔn)確高且有效率的分類結(jié)果單純貝氏分類器主要是根據(jù)貝氏定理(BayesianTheorem),來預(yù)測分類的結(jié)果。4何謂Na?veBayes
Classifer單純貝氏分類器,主要的運(yùn)作原理,是透過訓(xùn)練樣本,學(xué)習(xí)與記憶分類根據(jù)所使用屬性的關(guān)係,產(chǎn)生這些訓(xùn)練樣本的中心概念,再用學(xué)習(xí)後的中心概念對未歸類的資料進(jìn)行類別預(yù)測,以得到受測試資料物件的目標(biāo)值。每筆訓(xùn)練樣本,一般含有分類相關(guān)連屬性的值,及分類結(jié)果(又稱為目標(biāo)值);一般而言,屬性可能出現(xiàn)兩種以上不同的值,而目標(biāo)值則多半為兩元的相對狀態(tài),如“是/否”,”好/壞”,”對/錯(cuò)”,”上/下”。5隨機(jī)實(shí)驗(yàn)隨機(jī)實(shí)驗(yàn)
1.新生嬰兒性別
2.產(chǎn)品檢驗(yàn)樣本點(diǎn)
1.男性、女性
2.良品、不良品樣本空間
1.S={男性、女性}
2.S={良品、不良品}隨機(jī)實(shí)驗(yàn)(RandomExperiment)是一種過程,實(shí)驗(yàn)前已知所有可能結(jié)果,實(shí)驗(yàn)前不可預(yù)知實(shí)驗(yàn)結(jié)果,相同狀況下實(shí)驗(yàn)可重複試行。樣本空間:隨機(jī)實(shí)驗(yàn)所有可能結(jié)果所構(gòu)成的集合。樣本空間內(nèi)元素稱為樣本點(diǎn)。樣本空間的子集合稱為事件。6機(jī)率的概念機(jī)率是衡量某一事件可能發(fā)生的程度(機(jī)會(huì)大小),並針對此一不確定事件發(fā)生之可能賦予一量化的數(shù)值??荚嚂?huì)錄取的機(jī)率、明天會(huì)下雨的機(jī)率7機(jī)率理論的種類一、古典機(jī)率又稱先驗(yàn)機(jī)率(priorprobability)或事前機(jī)率,一隨機(jī)實(shí)驗(yàn)滿足下列條件:1.樣本空間的樣本點(diǎn)數(shù)是有限的
2.樣本空間內(nèi)所有樣本點(diǎn)發(fā)生機(jī)率為相同的
事件E發(fā)生的機(jī)率以P(E)表示:
P(E)=事件E樣本點(diǎn)之個(gè)數(shù)/樣本空間樣本點(diǎn)之個(gè)數(shù)8機(jī)率理論的種類二、經(jīng)驗(yàn)機(jī)率又稱相對頻率機(jī)率,是指一實(shí)驗(yàn)重複實(shí)行,則某事件發(fā)生的機(jī)率定為在長期的實(shí)行中,該事件出現(xiàn)的次數(shù)與實(shí)驗(yàn)總次數(shù)之比
P(E)=
lim
n(E)n→∞nn:隨機(jī)實(shí)驗(yàn)之總次數(shù),n(E):事件E出現(xiàn)的次數(shù)三、主觀機(jī)率研究者根據(jù)自己的判定,給予機(jī)率,只要滿足P(E)→[0,1]即可9事件機(jī)率聯(lián)合機(jī)率(jointprobability)
表示A事件和B事件同時(shí)發(fā)生的機(jī)率=P(A∩B)邊際機(jī)率(marginalprobability)
在A和B的樣本空間中,只看A或B的機(jī)率,稱之邊際機(jī)率條件機(jī)率(conditionalprobability)
在發(fā)生A的條件下,發(fā)生B的機(jī)率,稱為P(B|A)10贊成(B1)反對(B2)合計(jì)男性(A1)40120160女性(A2)103040合計(jì)50150200聯(lián)合機(jī)率:P(男性,贊成)=P(A1∩B1)=40/200=0.2邊際機(jī)率:P(贊成)=P(B1)=P(A1∩B1)+P(A2∩B1)=0.25條件機(jī)率:P(贊成|男性)=P(B1|A1)=P(A1∩B1)/P(A1)=0.2511乘法法則(Multiplicativerule)
P(A∩B)
P(B│A)=─────
P(A)
P(A∩B)=P(B)×P(A│B)
=P(A)×P(B│A)
P(A∩B)
P(A│B)=─────
P(B)12獨(dú)立事件設(shè)事件A和事件B滿足以下條件:P(A)>0,P(B│A)=P(B)P(B)>0,P(A│B)=P(A)P(A∩B)=P(A)×P(B)
則稱A與B為『獨(dú)立事件』。13貝氏定理
P(Ai∩B)P(Ai)×P(B│Ai)P(Ai│B)=──────=───────────
P(B)nΣP(Ai)×P(B│Ai)i=1P(Ai)表事前機(jī)率(Priorprobability)。P(Ai│B)表事後機(jī)率(Posterioriprobability),事件Ai是一原因,B是一結(jié)果。Baye'srule是一由已知結(jié)果求原因的機(jī)率。14
旅客搭乘飛機(jī)必須經(jīng)電子儀器檢查是否身上攜帶金屬物品,攜帶金屬儀器會(huì)發(fā)出聲音的機(jī)會(huì)是97%,但身上無金屬物品儀器會(huì)發(fā)出聲音的機(jī)會(huì)是5%。若已知一般乘客身上帶有金屬物品的機(jī)會(huì)是30%,若某旅客經(jīng)過儀器檢查時(shí)發(fā)出聲音,請問他身上有金屬物品的機(jī)會(huì)是多少?
解:設(shè)A=「有金屬物」,B=「儀器會(huì)發(fā)聲」則
=0.892615Na?veBayes
Classifer單純貝氏分類器主要是根據(jù)貝氏定理(BayesianTheorem),交換事前(prior)及事後(posteriori)機(jī)率,配合決定分類特性的各屬性彼此間是互相獨(dú)立的(conditionalindependence)的假設(shè),來預(yù)測分類的結(jié)果。16hMAP:最大可能的假說(MaximumA
Posteriori)D:訓(xùn)練樣本V:假說空間(hypothesesspace)P(D):訓(xùn)練樣本的事前機(jī)率,對於假說h而言,為一常數(shù)P(h):假說h事前機(jī)率(尚未觀察訓(xùn)練樣本時(shí)的機(jī)率)P(h|D):在訓(xùn)練樣本D集合下,假說h出現(xiàn)的條件機(jī)率17單純貝氏分類器會(huì)根據(jù)訓(xùn)練樣本,對於所給予測試物件的屬性值(a1,a2,a3,…,an)指派具有最高機(jī)率值的類別(C表示類別的集合)為目標(biāo)結(jié)果。其中,假設(shè)一共有n個(gè)學(xué)習(xí)概念的屬性A1,A2,…,An,a1為A1相對應(yīng)的屬性值。18單純貝氏分類器演算法1.計(jì)算各屬性的條件機(jī)率P(C=cj|A1=a1,?,An=an)
屬性獨(dú)立:
2.預(yù)測推論新測試樣本所應(yīng)歸屬的類別
貝氏定理:
19只要單純貝氏分類器所涉及學(xué)習(xí)概念的屬性,彼此間互相獨(dú)立的條件被滿足時(shí),單純貝氏分類器的所得到的最大可能分類結(jié)果cNB,與貝氏定理的最大可能假說hMAP具有相同的功效20單純貝氏分類器實(shí)例辦信用卡意願(yuàn):項(xiàng)目性別年齡學(xué)生身分收入辦卡1男>45否高
會(huì)2女31~45否高會(huì)3女20~30是低會(huì)4男<20是低不會(huì)5女20~30是中不會(huì)6女20~30否中會(huì)7女31~45否高會(huì)8男31~45是中不會(huì)9男31~45否中會(huì)10女<20是低會(huì)21判斷(女性,年齡介於31~45之間,不具學(xué)生身份,收入中等)者會(huì)不會(huì)辦理信用卡。首先根據(jù)訓(xùn)練樣本計(jì)算各屬性相對於不同分類結(jié)果的條件機(jī)率:P(性別=女|辦卡=會(huì))=5/7
P(性別=女|辦卡=不會(huì))=1/3P(年齡=31~45|辦卡=會(huì))=3/7
P(年齡=31~45|辦卡=不會(huì))=1/3P(學(xué)生=否|辦卡=會(huì))=5/7
P(學(xué)生=否|辦卡=不會(huì))=0/3P(收入=中|辦卡=會(huì))=2/7
P(收入=中|辦卡=不會(huì))=2/322
再應(yīng)用單純貝氏分類器進(jìn)行類別預(yù)測:P(辦卡=會(huì))=7/10P(辦卡=不會(huì))=3/10P(會(huì))P(女|會(huì))P(31~45|會(huì))P(否|會(huì))P(中|會(huì))=15/343≒0.044P(不會(huì))P(女|不會(huì))P(31~45|不會(huì))P(否|不會(huì))P(中|不會(huì))=023訓(xùn)練樣本中對於(女性,年齡介於31~45之間,不具學(xué)生身份,收入中等)的個(gè)人,單純貝氏分類器會(huì)將其分類到會(huì)辦理信用卡的類別。而且辦理的機(jī)率是(0.044)/(0.044+0)=1(正規(guī)化分類的結(jié)果P(會(huì))/(P(會(huì))+P(不會(huì)))。故使用單純貝氏分類器,會(huì)將(女性,年齡介於31~45之間,不具學(xué)生身份,收入中等)的個(gè)人歸類到“會(huì)”辦理信用卡的類別中。24單純貝氏分類器對於各種屬性相對於目標(biāo)值(分類的類別)的條件機(jī)率,是先找出訓(xùn)練樣本中,某目標(biāo)值出現(xiàn)的個(gè)數(shù)(n),及在這些目標(biāo)值的樣本中,特定屬性值出現(xiàn)的個(gè)數(shù)(na),然後na/n即為該特定屬性在該目標(biāo)值下的條件機(jī)率。如上例P(性別=女|辦卡=會(huì))的條件機(jī)率是5/7,因?yàn)?0筆訓(xùn)練樣本一共有七筆是會(huì)辦卡,而會(huì)辦卡的七筆中,有五筆是女性。25BayesianClassificationBayesTheorem:P(H|X)=P(X|H)P(H)/P(X)LetXisadatasamplewhoseclasslabelisunknownLetHbeaclasslabelP(H)isthepriorprobabilityofHP(H|X)istheposteriorprobabilityofHconditionedonXExampleX:aredandroundobjectC:beinganappleoranorangeH:beinganapple(H
C)26NaiveBayesianClassificationClassifyX=(age=“<=30”,income=“medium”,student=“yes”,credit-rating=“fair”)P(buys_computer=yes)=9/14P(buys_computer=no)=5/14P(age=<30|buys_computer=yes)=2/9P(age=<30|buys_computer=no)=3/5P(income=medium|buys_computer=yes)=4/9P(income=medium|buys_computer=no)=2/5P(student=yes|buys_computer=yes)=6/9P(student=yes|buys_computer=no)=1/5P(credit-rating=fair|buys_computer=yes)=6/9P(credit-rating=fair|buys_computer=no)=2/5P(X|buys_computer=yes)=0.044P(X|buys_computer=no)=0.019P(buys_computer=yes|X)
P(X|buys_computer=yes)
P(buys_computer=yes)=0.028P(buys_computer=no|X)
P(X|buys_computer=no)P(buys_computer=no)=0.00727MicrosoftNaiveBayesianEasytoTrainModelAlgorithmParametersMAXIMUM_INPUT_ATTRIBUTES超過此值會(huì)自動(dòng)啟動(dòng)欄位篩選機(jī)置MAXIMUM_STATES類型屬性項(xiàng)目最大值MINIMUM_DEPENDENCY_PROBABILITY介於0~1,數(shù)值越大,模型使用變數(shù)會(huì)減少28MicrosoftNaiveBayesianNaiveBayesian只能接受類別屬性的資料,所以在SSAS中可先將資料類別化後再用Na?veBayes
來做分類29DependencyNetwork30ReservedStrongLinks31AttributeProfile32AttributeCharacteristics33AttributeCharacteristics34AttributeDiscrimination35ColumnMapping36ColumnMapping37LiftChart38ConfusionMatrix39範(fàn)例40建立Na?veBayes
分類模型41選擇資料庫42建立Na?veBayes
分類模型43選擇三國志資料庫建立Na?veBayes
分類模型44執(zhí)行Na?veBayes
分類模型45執(zhí)行Na?veBayes
分類模型過程46執(zhí)行Na?veBayes
分類模型結(jié)果47建立Na?veBayes
分類模型結(jié)果及其關(guān)聯(lián)強(qiáng)弱48建立Na?veBayes
分類模型結(jié)果及其分類變數(shù)間之關(guān)係49建立Na?veBayes
分類模型結(jié)果及其分類變數(shù)間之關(guān)係50建立Na?veBayes
分類模型結(jié)果及其分類變數(shù)間之關(guān)係51建立Na?veBayes
分類模型結(jié)果及其分類變數(shù)間之關(guān)係52建立Na?veBayes
分類模型結(jié)果及其分類變數(shù)間之機(jī)率值53建立Na?veBayes
分類模型結(jié)果及其分類變數(shù)間之機(jī)率值54不同分類建立Na?veBayes
分類模型結(jié)果及其分類變數(shù)間之機(jī)率值55建立Na?veBayes
分類模型結(jié)果及其分類變數(shù)間之機(jī)率值56建立Na?veBayes
分類模型結(jié)果及其分類變數(shù)間之參數(shù)值57建立Na?veBayes
分類模型結(jié)果及其分類變數(shù)間之參數(shù)值58建立Na?veBayes
分類模型結(jié)果及不同分類間之比較59建立Na?veBayes
分類模型結(jié)果及不同分類間之比較60建立Na?veBayes
分類模型結(jié)果及不同分類間之比較61建立Na?veBayes
分類模型精確度之檢視62建立Na?veBayes
分類模型精確度之檢視63建立Na?veBayes
分類模型精確度之檢視LiftChart64建立Na?veBayes
分類模型精確度之檢視ProfitChart65
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年冀少新版八年級物理下冊月考試卷含答案
- 動(dòng)物藥品零售市場細(xì)分策略考核試卷
- 公路養(yǎng)護(hù)工程質(zhì)量評定考核試卷
- 2025年人教B版九年級化學(xué)下冊月考試卷含答案
- 2025年滬教版七年級地理上冊階段測試試卷含答案
- 2025年冀教新版九年級化學(xué)上冊階段測試試卷含答案
- 創(chuàng)業(yè)投資中的多元化投資組合構(gòu)建考核試卷
- 2025年湘教新版八年級科學(xué)下冊階段測試試卷含答案
- 2025年人教新課標(biāo)八年級物理上冊月考試卷含答案
- 內(nèi)陸?zhàn)B殖的農(nóng)產(chǎn)品加工與企業(yè)發(fā)展考核試卷
- 部編新改版語文一年級下冊《語文園地四》教學(xué)設(shè)計(jì)
- 2025年北京鐵路局集團(tuán)招聘筆試參考題庫含答案解析
- 《藥品招商營銷概論》課件
- 曙光磁盤陣列DS800-G10售前培訓(xùn)資料V1.0
- 寺廟祈福活動(dòng)方案(共6篇)
- 2025年病案編碼員資格證試題庫(含答案)
- 企業(yè)財(cái)務(wù)三年戰(zhàn)略規(guī)劃
- 2025新譯林版英語七年級下單詞表
- 提高膿毒性休克患者1h集束化措施落實(shí)率
- 山東省濟(jì)南市天橋區(qū)2024-2025學(xué)年八年級數(shù)學(xué)上學(xué)期期中考試試題
- 主播mcn合同模板
評論
0/150
提交評論