數據倉庫與數據挖掘技術2貝葉斯_第1頁
數據倉庫與數據挖掘技術2貝葉斯_第2頁
數據倉庫與數據挖掘技術2貝葉斯_第3頁
數據倉庫與數據挖掘技術2貝葉斯_第4頁
數據倉庫與數據挖掘技術2貝葉斯_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2024/8/71貝葉斯分類方法

貝葉斯分類器是一個統(tǒng)計分類器。它們能夠預測類別所屬的概率,如:一個數據對象屬于某個類別的概率。例子:預測對某移動電話的一次呼叫能否成功(P136)2024/8/72貝葉斯定理P(H|X)表示條件X下H的概率(條件概率、后驗概率)2024/8/73貝葉斯定理——例子某電子設備廠所用的元件是由三家元件廠提供的,根據以往的記錄,這三個廠家的次品率分別為0.02,0.01,0.03,提供元件的份額分別為0.15,0.8,0.05,設這三個廠家的產品在倉庫是均勻混合的,且無區(qū)別的標志。問題:在倉庫中隨機地取一個元件,若已知它是次品,分析此次品出自何廠家的概率最大?2024/8/74題解設A取到的元件是次品,Bi表示取到的元件是由第i個廠家生產的,則

P(B1)=0.15,P(B2)=0.8,P(B3)=0.05那么,在倉庫中隨機地取一個元件,它是次品的概率為由貝葉斯公式

結果表明,這個次品來自第2家工廠的可能性最大,來自第1家工廠的概率次之,來自第3家工廠的概率最小。2024/8/75簡單貝葉斯分類器(樸素貝葉斯)

進行分類操作處理的步驟(1)2024/8/76簡單貝葉斯分類器

進行分類操作處理的步驟(2)2024/8/77簡單貝葉斯分類器

進行分類操作處理的步驟(3)2024/8/78貝葉斯分類器的應用【例】利用貝葉斯分類方法預測一個數據對象X(

年齡<30,收入=中,是否學生=是,信用=一般)類別(P137)序號年齡收入是否學生信用購買PC1<=30高否中否2<=30高否優(yōu)否331~40高否中是4>40中否中是5>40低是中是6>40低是優(yōu)否731~40低是優(yōu)是8<=30中否中否9<=30低是中是10>40中是中是11<=30中是優(yōu)是1231~40中否優(yōu)是1331~40高是中是14>40中否優(yōu)否利用表中的數據作為訓練樣本集和貝葉斯分類器來幫助預測未知(類別)數據樣本類別。訓練數據集包含年齡、收入、是否學生和信用這四個屬性,其類別屬性為購買PC。它有兩個不同的取值:{是,否}。2024/8/79設c1對應類別購買PC=是,即c1=9;c2對應類別購買PC=否,即c2=5;因此對未知樣本所要進行的分類就是:

X={年齡<30,收入=中,是否學生=是,信用=一般}為了獲得P(X|Ci)P(Ci)(其中i=1,2),P(Ci)為每個類別的事前概率,所進行的具體計算結果描述如下:

P(C1)=9/14=0.643 P(C2)=5/14=0.357為了計算P(X|Ci)P(Ci)(i=1,2),需要首先進行以下運算:

P(年齡<30|C1)=2/9=0.222 P(年齡<30|C2)=3/5=0.600 P(收入=中|C1)=4/9=0.444 P(收入=中|C2)=2/5=0.400 P(是否學生=是|C1)=6/9=0.667 P(是否學生=是|C2)=1/5=0.200 P(信用=一般|C1)=6/9=0.667 P(信用=一般|C2)=2/5=0.400利用以上所獲得的計算結果,可以得到:

P(X|C1)=0.222×0.444×0.667×0.667=0.044 P(X|C2)=0.600×0.400×0.200×0.400=0.019最后計算P(X|Ci)P(Ci)(i=1,2)

P(X|C1)P(C1)=0.044×0.643=0.028 P(X|C2)P(C2)=0.019×0.357=0.007因為P(X|C1)P(C1)>P(X|C2)P(C2),所以根據貝葉斯分類方法得出結論:數據對象X的“購買PC類=是”,即X屬于購買PC類2024/8/710練習:下表是其保險公司某項健康保險業(yè)務銷售的客戶記錄

現有一名客戶年齡是32歲,收入水平中等,沒有固定職業(yè),信用等級良好,用貝葉斯分類器預測該客戶是否購買這種健康保險。2024/8/711題解2024/8/712貝葉斯分類器的作用

從理論上講與其他分類器相比,貝葉斯分類器具有最小的錯誤率。但實際上由于其所依據的類別獨立性假設和缺乏某些數據的準確概率分布,從而使得貝葉斯分類器預測準確率受到影響。但各種研究結果表明:與決策樹和神經網絡分類器相比,貝葉斯分類器在某些情況下具有更好的分類效果。貝葉斯分類器的另一個用途就是它可為那些沒有利用貝葉斯定理的分類方法提供了理論依據。例如在某些特定假設情況下,許多神經網絡和曲線擬合算法的輸出都同貝葉斯分類器一樣使得事后概率取最大2024/8/713貝葉斯信念網絡基本貝葉斯分類器是基于各類別相互獨立這一假設來進行分類計算的,也就是要求若給定一個數據樣本類別,其樣本屬性的取值應是相互獨立的。這一假設簡化了分類計算復雜性。若這一假設成立,則與其他分類方法相比,基本貝葉斯分類器是最準確的;但實際上變量間的相互依賴情況是較為常見的。貝葉斯信念網絡就是用于描述這種相互關聯的概率分布。該網絡能夠描述各屬性子集之間有條件的相互獨立。它提供了一個圖形模型來描述其中的因果關系,而學習也正是基于這一模型進行的。這一圖形模型就稱為貝葉斯信念網絡(常簡稱為信念網絡)。2024/8/714貝葉斯信念網絡2024/8/715貝葉斯信念網絡2024/8/716貝葉斯信念網絡例子:P1382024/8/717貝葉斯信念網絡2024/8/718貝葉斯信念網絡信念網絡中的一個結點可以被選為輸出結點,用以代表類別屬性,網絡中可以有多于一個的輸出結點。該網絡可以利用學習推理算法;其分類過程不是返回一個類別標記,而是返回一個關于類別屬性的概率分布,即對每個類別的預測概率。貝葉斯網絡的優(yōu)點:易于理解,預測效果好 缺點:傾向于發(fā)生頻率很高的結果2024/8/719Micro

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論