數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(1)_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(1)_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(1)_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(1)_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(1)_第5頁
已閱讀5頁,還剩40頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘貝葉斯網(wǎng)絡(luò)是20世紀80年代發(fā)展起來的,最早由Judea Pearl于1986年提出,多用于專家系統(tǒng),成為表示不確定性知識和推理問題的流行方法。貝葉斯網(wǎng)絡(luò)最早起源于貝葉斯統(tǒng)計分析,它是概率理論和圖論相結(jié)合的產(chǎn)物。本章通過引例討論貝葉斯網(wǎng)絡(luò)需要解決的問題;介紹貝葉斯概率基礎(chǔ);對貝葉斯網(wǎng)絡(luò)進行概述;講解貝葉斯網(wǎng)絡(luò)的預(yù)測、診斷和訓練算法;講述SQL Server 2005中貝葉斯網(wǎng)絡(luò)的應(yīng)用方法。引例引例12貝葉斯概率基礎(chǔ)貝葉斯概率基礎(chǔ)貝葉斯網(wǎng)絡(luò)概述貝葉斯網(wǎng)絡(luò)概述3貝葉斯網(wǎng)絡(luò)的預(yù)測、診斷和訓練算法貝葉斯網(wǎng)絡(luò)的預(yù)測、診斷和訓練算法4SQL server2005SQL

2、server2005中的貝葉斯網(wǎng)絡(luò)應(yīng)用中的貝葉斯網(wǎng)絡(luò)應(yīng)用5小結(jié)小結(jié)6先看一個關(guān)于概率推理的例子。圖71中有6個結(jié)點:參加晚會(party,PT)、宿醉(hangover,HO)、患腦瘤(brain tumor,BT)、頭疼(headache,HA)、有酒精味(smell alcohol,SA)和X射線檢查呈陽性(posxray,PX)??梢园褕D71想象成為這樣一個場景:一個中學生回家后,其父母猜測她參加了晚會,并且喝了酒;第二天這個學生感到頭疼,她的父母帶她到醫(yī)院做頭部的X光檢查圖7.1 基于結(jié)點間概率關(guān)系的推理通過長期的觀察,或者從別人那里了解,這個中學生的父母知道他們的女兒參加晚會的概率。

3、通過長時間的數(shù)據(jù)積累,他們也知道他們的女兒參加晚會后宿醉的概率。因此,結(jié)點party和結(jié)點hangover之間有一條連線。同樣,有明顯的因果關(guān)系或相關(guān)關(guān)系的結(jié)點之間都有一條連線,并且連線從原因結(jié)點出發(fā),指向結(jié)果結(jié)點。針對圖71所示的網(wǎng)絡(luò),有許多問題需要解決。例如:1)如果父母已知他們的女兒參加了晚會,那么第二天一早,她呼出的氣體中有酒精味的概率有多大?也就是說,當party發(fā)生時,smell alcohol發(fā)生的概率有多大?2)如果他們的女兒頭疼,那么她患腦瘤的概率有多大?這時,如果他們又知道昨晚她參加了晚會,那么綜合這些情況,她患腦瘤的可能性有多大?這兩個例子一個是從原因推理結(jié)果的,另外一個

4、是從結(jié)果推導原因。還有一個是綜合的問題。還有許多從結(jié)果反推原因的例子。例如,如果父母早晨聞到他們的女兒呼出的氣體中有酒精味,那么她昨晚參加晚會的概率有多大?等等。為了系統(tǒng)地解決上面的各類問題,需要先掌握一定的概率基礎(chǔ)知識。引例引例12貝葉斯概率基礎(chǔ)貝葉斯概率基礎(chǔ)貝葉斯網(wǎng)絡(luò)概述貝葉斯網(wǎng)絡(luò)概述3貝葉斯網(wǎng)絡(luò)的預(yù)測、診斷和訓練算法貝葉斯網(wǎng)絡(luò)的預(yù)測、診斷和訓練算法4SQL server2005SQL server2005中的貝葉斯網(wǎng)絡(luò)應(yīng)用中的貝葉斯網(wǎng)絡(luò)應(yīng)用5小結(jié)小結(jié)6貝葉斯概率是貝葉斯網(wǎng)絡(luò)運行的理論基礎(chǔ)。就貝葉斯概率而言,其原理和應(yīng)用都比較簡單。但貝葉斯概率理論經(jīng)歷了長時間的波折才被逐漸認可,直到20世

5、紀60年代,貝葉斯概率理論才被廣泛接受并大量應(yīng)用。下面將從基本的條件概率公式和全概率公式入手介紹貝葉斯概率。 7.2.1 先驗概率、后驗概率和條件概率 7.2.2 條件概率公式 7.2.3全概率公式 7.2.4貝葉斯公式下面介紹貝葉斯概率中用到的有關(guān)概率論的基本概念。下面介紹貝葉斯概率中用到的有關(guān)概率論的基本概念。 (1)先驗概率。先驗概率是指根據(jù)歷史的資料或主觀判斷所確定的各種事件發(fā)生的概率,該概率沒有經(jīng)過實驗證實,屬于檢驗前的概率。 (2)后驗概率。后驗概率一般是指通過貝葉斯公式,結(jié)合調(diào)查等方式獲取了新的附加信息,對先驗概率修正后得到的更符合實際的概率。 (3)條件概率。當條件確定時,某事

6、件發(fā)生的條件概率就是該事件的條件概率。若(,F(xiàn),P)是一個概率空間,BF,若P(B)O,則對于任意的AF,稱 為已知事件B發(fā)生的條件下,事件A發(fā)生的條件概率。由 P(AB)=P(BA)=P(AB)P(B)=P(BA)P(A) (72) 可以得到 例如,已知任何時刻陰天的概率為03,記為P(A)=03,下雨的概率為02,記為P(B)=02。陰天之后3小時之內(nèi)下雨的概率為06,記為條件概率P(BA)=06。那么在下雨的條件下,3小時前是陰天的概率是多少呢?根據(jù)條件概率公式,得: 即如果下雨,3小時前是陰天的概率為09。ABAB例如,1號箱中有2個白球和4個紅球,2號箱中有5個白球和3個紅球,現(xiàn)隨機

7、地從1號箱中取出一球放人2號箱,然后從2號箱隨機取出一球,問從2號箱取出紅球的概率是多少? 【解】令A(yù)表示事件“最后從2號箱中取出的是紅球”;令B表示從1號箱中取出的是紅球。則 由式(75) : 設(shè)A,B是兩個事件,那么A可以表示為:顯然,如果P(B)0,則: 上例采用的方法是概率論中常用的方法,為了求復(fù)雜事件的概率,往往可以把它分解成若干個互不相容的簡單事件,然后利用條件概率和乘法公式,求出這些簡單事件的概率,最后利用概率可加性,得到最終結(jié)果,這一方法的一般化就是所謂的全概率公式。 設(shè)為試驗E的樣本空間,A為E的事件,B1,B2,Bn為E的一組事件,若滿足以下兩個條件: 則稱B1,B2,Bn

8、為樣本空間的一個分割。 若B1,B2,Bn為樣本空間的一個分割,那么,對每一次試驗,事件B1,B2,Bn必有一個且僅有一個發(fā)生。 例如,設(shè)實驗E為“擲一顆骰子觀察其點數(shù)”。它的樣本空間=1,2,3,4,5,6)。 的一組事件B1=l,2,B2=3,4),B3=5,6是樣本空間的一個分割。而事件組B1=1,2,3),B2=3,4),B3=5,6)不是樣本空間的一個分割,因為B1B2=3。 設(shè)實驗E為樣本空間,A為E的事件,B1,B2,Bn為的一個分割,且P(Bi)0,i=1,2,n,則式(76)被稱為全概率公式。 【例】甲、乙、丙三人向同一飛機射擊。設(shè)甲、乙、丙射中的概率分別為04,05和07。

9、又設(shè)若只有一人射中,飛機墜落的概率為02;若有兩人射中,飛機墜落的概率為06;若有三人射中,飛機必墜落。求飛機墜落的概率。 【解】記A=飛機墜落),Bi=共i個人射中飛機),i=1,2,3。Bi分別為: B1=(甲射中,乙丙未射中)+(乙射中,甲丙未射中)+(丙射中,甲乙未射中) B2=(甲未射中,乙丙射中)+(乙未射中,甲丙射中)+(丙未射中,甲乙射中) B3=(甲乙丙均射中) 可以計算i個人射中飛機的概率 P(B1)=040503+060503+060507=036 P(B2)=060507+040507+040503=041 P(B3)=040507=014 再由題設(shè),P(A|B1)=0

10、2,P(A|B2)=O6,P(A|B3)=1。利用全概率公式 設(shè)實驗E為樣本空間,A為E的事件,B1,B2,Bn為的一個分割,且P(Bi)0,i=1,2,n,則由: 式(77)被稱為貝葉斯公式。 例如,某電子設(shè)備廠所用的元件是由三家元件廠提供的,根據(jù)以往的記錄,這三個廠家的次品率分別為002,001,003,提供元件的份額分別為015,08,005,設(shè)這三個廠家的產(chǎn)品在倉庫是均勻混合的,且無區(qū)別的標志。 問題1:在倉庫中隨機地取一個元件,求它是次品的概率。 問題2:在倉庫中隨機地取一個元件,若已知它是次品,為分析此次品出自何廠,需求出此元件由三個廠家分別生產(chǎn)的概率是多少?有:(7-7)=015

11、002+080001+005003 =0012 5 對于問題2,由貝葉斯公式: 【解】設(shè)A取到的元件是次品,Bi標識取到的元件是由第i個廠家生產(chǎn)的,則 P(B1)=015,P(B2)=08,P(B3)=005 對于問題1,由全概率公式 : 以上結(jié)果表明,這個次品來自第2家工廠的可能性最大,來自第1家工廠的概率次之,來自第3家工廠的概率最小。引例引例12貝葉斯概率基礎(chǔ)貝葉斯概率基礎(chǔ)貝葉斯網(wǎng)絡(luò)概述貝葉斯網(wǎng)絡(luò)概述3貝葉斯網(wǎng)絡(luò)的預(yù)測、診斷和訓練算法貝葉斯網(wǎng)絡(luò)的預(yù)測、診斷和訓練算法4SQL server2005SQL server2005中的貝葉斯網(wǎng)絡(luò)應(yīng)用中的貝葉斯網(wǎng)絡(luò)應(yīng)用5小結(jié)小結(jié)6 6.3.1貝葉斯

12、網(wǎng)絡(luò)的組成和結(jié)構(gòu)貝葉斯網(wǎng)絡(luò)的組成和結(jié)構(gòu) 6.3.2貝葉斯網(wǎng)絡(luò)的優(yōu)越性貝葉斯網(wǎng)絡(luò)的優(yōu)越性 6.3.3貝葉斯網(wǎng)絡(luò)的三個議題貝葉斯網(wǎng)絡(luò)的三個議題貝葉斯網(wǎng)絡(luò)是一種圖形模型(概率理論和圖論相結(jié)合的產(chǎn)物),又被稱為貝葉斯信念網(wǎng)絡(luò)、因果網(wǎng)絡(luò),是描述隨機變量(事件)之間依賴關(guān)系的一種圖形模式。是一種將因果知識和概率知識相結(jié)合的信息表示框架,使得不確定性推理在邏輯上變得更為清晰理解性更強。已經(jīng)成為數(shù)據(jù)庫中的知識發(fā)現(xiàn)和決策支持系統(tǒng)的有效方法。從大量數(shù)據(jù)中構(gòu)造貝葉斯網(wǎng)絡(luò)模型,進行不確定性知識的發(fā)現(xiàn)。貝葉斯網(wǎng)絡(luò)由網(wǎng)絡(luò)結(jié)構(gòu)和條件概率表兩部分組成。貝葉斯網(wǎng)的網(wǎng)絡(luò)結(jié)構(gòu)是一個有向無環(huán)圖由結(jié)點和有向弧段組成。每個結(jié)點代表一個事

13、件或者隨機變量,變量值可以是離散的或連續(xù)的,結(jié)點的取值是完備互斥的。表示起因的假設(shè)和表示結(jié)果的數(shù)據(jù)均用結(jié)點表示。例如,圖7.1描述的網(wǎng)絡(luò)符合貝葉斯網(wǎng)絡(luò)的條件,是一個典型的貝葉斯網(wǎng)絡(luò)。貝葉斯網(wǎng)絡(luò)的優(yōu)勢主要體現(xiàn)在以下方面。 (1)貝葉斯網(wǎng)絡(luò)推理是利用其表達的條件獨立性,根據(jù)已有信息快速計算待求概率值的過程。應(yīng)用貝葉斯網(wǎng)絡(luò)的概率推理算法,對已有的信息要求低,可以進行信息不完全、不確定情況下的推理。 (2)具有良好的可理解性和邏輯性,這是神經(jīng)元網(wǎng)絡(luò)無法比擬的,神經(jīng)元網(wǎng)絡(luò)從輸入層輸入影響因素信息,經(jīng)隱含層處理后傳人輸出層,是黑匣子似的預(yù)測和評估,而貝葉斯網(wǎng)絡(luò)是白匣子。 (3)專家知識和試驗數(shù)據(jù)的有效結(jié)合

14、相輔相成,忽略次要聯(lián)系而突出主要矛盾,可以有效避免過學習。 (4)貝葉斯網(wǎng)絡(luò)以概率推理為基礎(chǔ),推理結(jié)果說服力強,而且相對貝葉斯方法來說,貝葉斯網(wǎng)絡(luò)對先驗概率的要求大大降低。貝葉斯網(wǎng)絡(luò)通過實踐積累可以隨時進行學習來改進網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),提高預(yù)測診斷能力,并且基于網(wǎng)絡(luò)的概率推理算法,貝葉斯網(wǎng)絡(luò)接受了新信息后立即更新網(wǎng)絡(luò)中的概率信息。 貝葉斯網(wǎng)絡(luò)的主要功能是進行預(yù)測和診斷,在貝葉斯網(wǎng)絡(luò)工作之前,需要對歷史數(shù)據(jù)進行訓練。所以,構(gòu)成了貝葉斯網(wǎng)絡(luò)的三個主要議題。 1貝葉斯網(wǎng)絡(luò)預(yù)測 貝葉斯網(wǎng)絡(luò)是一種概率推理技術(shù),使用概率理論來處理在描述不同知識成分之間的條件而產(chǎn)生的不確定性。貝葉斯網(wǎng)絡(luò)的預(yù)測是指從起因推測一個

15、結(jié)果的推理,也稱為由頂向下的推理。目的是由原因推導出結(jié)果。已知一定的原因(證據(jù)),利用貝葉斯網(wǎng)絡(luò)的推理計算,求出由原因?qū)е碌慕Y(jié)果發(fā)生的概率。 2貝葉斯網(wǎng)絡(luò)診斷 貝葉斯網(wǎng)絡(luò)的診斷是指從結(jié)果推測一個起因的推理,也稱為由底至上的推理。目的是在已知結(jié)果時,找出產(chǎn)生該結(jié)果的原因。已知發(fā)生了某些結(jié)果,根據(jù)貝葉斯網(wǎng)絡(luò)推理計算造成該結(jié)果發(fā)生的原因和發(fā)生的概率。該診斷作用多用于病理診斷、故障診斷中,目的是找到疾病發(fā)生、故障發(fā)生的原因。3貝葉斯網(wǎng)絡(luò)學習 貝葉斯網(wǎng)絡(luò)學習是指由先驗的貝葉斯網(wǎng)絡(luò)得到后驗的貝葉斯網(wǎng)絡(luò)的過程。先驗貝葉斯網(wǎng)絡(luò)是根據(jù)用戶的先驗知識構(gòu)造的貝葉斯網(wǎng)絡(luò),后驗貝葉斯網(wǎng)絡(luò)是把先驗貝葉斯網(wǎng)絡(luò)和數(shù)據(jù)相結(jié)合而

16、得到的貝葉斯網(wǎng)絡(luò)。 貝葉斯網(wǎng)絡(luò)學習的實質(zhì)是用現(xiàn)有數(shù)據(jù)對先驗知識的修正。貝葉斯網(wǎng)絡(luò)能夠持續(xù)學習上次學習得到的后驗貝葉斯網(wǎng)絡(luò)變成下一次學習的先驗貝葉斯網(wǎng)絡(luò),每一次學習前用戶都可以對先驗貝葉斯網(wǎng)絡(luò)進行調(diào)整,使得新的貝葉斯網(wǎng)絡(luò)更能體現(xiàn)數(shù)據(jù)中蘊涵的知識。貝葉斯網(wǎng)絡(luò)的學習關(guān)系如圖72所示。 圖7.2 貝葉斯網(wǎng)絡(luò)持續(xù)學習 貝葉斯網(wǎng)絡(luò)模型是由網(wǎng)絡(luò)結(jié)構(gòu)和條件概率分布表(Conditional Probability Table,CPT)組成的,因此,必須通過給出貝葉斯網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)及每個結(jié)點上的CPT表來描述一個貝葉斯網(wǎng)絡(luò)。 相應(yīng)地,基于貝葉斯網(wǎng)絡(luò)的學習包括結(jié)構(gòu)學習和參數(shù)學習兩個內(nèi)容。結(jié)構(gòu)學習,即利用訓練樣本集

17、,盡可能結(jié)合先驗知識,確定最合適的貝葉斯網(wǎng)絡(luò)模型結(jié)構(gòu)。參數(shù)學習是在給定結(jié)構(gòu)下,確定貝葉斯網(wǎng)絡(luò)模型的參數(shù),即每個結(jié)點上的CPT表。 按照學習的目的以及訓練樣本集是否完整,可以把學習方法歸為以下幾類,如表7.1所示。表7.1 貝葉斯網(wǎng)絡(luò)學習算法分類表引例引例12貝葉斯概率基礎(chǔ)貝葉斯概率基礎(chǔ)貝葉斯網(wǎng)絡(luò)概述貝葉斯網(wǎng)絡(luò)概述3貝葉斯網(wǎng)絡(luò)的預(yù)測、診斷和訓練算法貝葉斯網(wǎng)絡(luò)的預(yù)測、診斷和訓練算法4SQL server2005SQL server2005中的貝葉斯網(wǎng)絡(luò)應(yīng)用中的貝葉斯網(wǎng)絡(luò)應(yīng)用5小結(jié)小結(jié)6 7.4.1 概率和條件概率數(shù)據(jù)概率和條件概率數(shù)據(jù) 7.4.2 貝葉斯網(wǎng)絡(luò)的預(yù)測算法貝葉斯網(wǎng)絡(luò)的預(yù)測算法 7.4.

18、3貝葉斯網(wǎng)絡(luò)的診斷算法貝葉斯網(wǎng)絡(luò)的診斷算法 7.4.4貝葉斯網(wǎng)絡(luò)預(yù)測和診斷的綜合算法貝葉斯網(wǎng)絡(luò)預(yù)測和診斷的綜合算法 7.4.5貝葉斯網(wǎng)絡(luò)的建立和訓練算法貝葉斯網(wǎng)絡(luò)的建立和訓練算法本節(jié)將從圖7.1所示的簡單貝葉斯網(wǎng)絡(luò)的例子人手,分別介紹貝葉斯網(wǎng)絡(luò)的預(yù)測、診斷和訓練算法。假定網(wǎng)絡(luò)中的概率和條件概率都已經(jīng)知道,也就是說網(wǎng)絡(luò)已經(jīng)訓練完畢。這些數(shù)據(jù)給出如下。圖7.1中的Party和Brain Tumor兩個結(jié)點是原因結(jié)點,沒有連線以它們作為終點。首先給出這兩個結(jié)點的無條件概率,如表7.2所示。 表7.2中的第二列是關(guān)于Party(參加晚會)的概率:參加晚會的概率是02,不參加晚會的概率是08。第三列是關(guān)

19、于患腦瘤的概率:患腦瘤的概率是0001,不患腦瘤的概率是0.999。 下面還將給出幾組條件概率,分別是: PT(參加舞會)已知的情況下HO(宿醉)的條件概率,如表73所示; HO(宿醉)已知的情況下SA(酒味)的條件概率,如表74所示; BT(腦瘤)已知的情況下PX(陽性)的概率,如表7.5所示。表72結(jié)點PT、BT的無條件概率分布 上面三個表的結(jié)構(gòu)相似,給出的都是條件概率。表73中第2列的意思是:當參加晚會后,宿醉的概率是0.7;不宿醉的概率是0.3。第3列的意思是:當不參加晚會時,不會發(fā)生宿醉的情況。 對表7.4和表7.5的解釋類似。表73 已知結(jié)點PT時HO的條件概率 最后給出的是一個聯(lián)

20、合條件概率:已知HO和BT時HA的概率,如表76所示。表76 已知HO和BT時HA的概率當沒有宿醉但患有腦瘤的情況下,頭疼的概率是0.9,不頭疼的概率是0.01。B當宿醉發(fā)生和有腦瘤的情況下,頭疼的概率是0.99,不頭疼的概率是0.01。當宿醉發(fā)生但沒有腦瘤的情況下,頭疼的概率是0.7,不頭疼的概率是0.3。表76中數(shù)據(jù)的意義是: 貝葉斯網(wǎng)絡(luò)的功能之一就是在已知某些條件結(jié)點的情況下,預(yù)測結(jié)果結(jié)點的概率。當然,貝葉斯網(wǎng)絡(luò)也可以在不知任何結(jié)點信息的情況下計算某個結(jié)果結(jié)點的發(fā)生概率。例如,在圖71中,如果不知道任何結(jié)點發(fā)生與否的信息,仍然可以估算結(jié)點HA的概率。 為了方便,約定:對于一個結(jié)點Poin

21、t,P(+Point)表示Point發(fā)生的概率,P(-Point)表示不發(fā)生的概率?!纠?1】下面計算結(jié)點HA的概率。根據(jù)全概率公式,有P(+HA)=P(+BT)P(+H0)099+P(+BT)P(-H0)09+P(-BT)P(+H0) 07+P(-BT)P(-H0)002=0.001*0.14*0.99+0.001*0.86*0.9 +0.999*0.14*0.7+0.999*0.86*0.02=0116(0.1159974) P(-HA)=1-P(+HA)=O884 也就是說,在沒有任何結(jié)點信息(稱為證據(jù))的情況下,頭疼的概率是0116,不頭疼的概率是0884。 用同樣的方式,可以計算所有

22、結(jié)點的概率,這樣可以使得圖71所示的網(wǎng)絡(luò)進一步完善。事實上,完善結(jié)點概率也是預(yù)測貝葉斯網(wǎng)絡(luò)預(yù)測的一種情況,即在不知結(jié)點明確信息(證據(jù))情況下的預(yù)測。 下面進行一個原因結(jié)點明確情況下的預(yù)測。【例72】計算已知參加晚會的情況下,第二天早晨呼吸有酒精味的概率。 首先,由表7.3可以看出,當PT發(fā)生時,HO發(fā)生的概率是0.7。也就是說,當參加晚會后,宿醉發(fā)生的概率是0.7,不發(fā)生的概率是O.3。由全概率公式 P(+SA)=P(+H0)P(+SA+H0)+P(-H0)P(+SA-H0) =O7O8+0301 =O59 【例73】計算已知參加晚會的情況下,頭疼發(fā)生的概率。 由表73可知,當PT發(fā)生時,HO

23、發(fā)生的概率是07,不發(fā)生的概率是03;由表72可以看出,BT發(fā)生的概率是0001,不發(fā)生的概率是0999。已知HO和BT后,根據(jù)全概率公式,得到 P(+HA)=P(+H0)P(+BT)P(+HA+H0+BT)+P(+H0)P(-BT) 07+P(-HO)P(+BT)09+P(-HO)P(-BT)002 =0.7*0.001*0.99+0.7*0.999*0.7+0.3*0.001*0.9+0.3*0.999*0.02 =0496 467 P(-HA)=1-P(+HA)=0503 533 也就是說,如果知道已經(jīng)參加了晚會,而沒有其他方面的任何證據(jù),則這個人頭疼的概率是0496,不頭疼的概率是05

24、04。 表73表76B可以比較分析例71和例73的結(jié)果:由于參加晚會,頭疼發(fā)生的概率大大增加了。結(jié)合上面給出的三個例子,下面給出貝葉斯網(wǎng)絡(luò)預(yù)測算法的步驟描述。如下所示。 輸入:給定貝葉斯網(wǎng)絡(luò)B(包括網(wǎng)絡(luò)結(jié)構(gòu)m個結(jié)點以及某些結(jié)點間的連線、原因結(jié)點到中間結(jié)點的條件概率或聯(lián)合條件概率),給定若干個原因結(jié)點發(fā)生與否的事實向量F(或者稱為證據(jù)向量),給定待預(yù)測的某個結(jié)點t。輸出:結(jié)點t發(fā)生的概率。(1)把證據(jù)向量輸入到貝葉斯網(wǎng)絡(luò)B中。(2)對于B中的每一個沒處理過的結(jié)點n,如果它具有發(fā)生的事實(證據(jù)),則標記它為已經(jīng)處理過;否則繼續(xù)下面的步驟。(3)如果它的所有父結(jié)點中有一個沒有處理過,則不處理這個結(jié)點

25、;否則,繼續(xù)下面的步驟。(4)根據(jù)結(jié)點n的所有父結(jié)點的概率以及條件概率或聯(lián)合條件概率計算結(jié)點n的概率分布,并把結(jié)點n標記為已處理。(5)重復(fù)步驟(2)(4),共m次。此時,結(jié)點f的概率分布就是它的發(fā)生不發(fā)生的概率。算法結(jié)束。需要注意的是,第(5)步的作用是使得每個結(jié)點都有被計算概率分布的機會。根據(jù)條件概率公式 P(+BT+PX)=P(+PX+BT)P(+BT)P(+PX) =09800010011 = 0.089 09 P(-BT+PX)=l-P(+BT+PX)=0.91l 也就是說,當X光檢查呈陽性的情況下,患腦瘤的概率是0.089,不患腦瘤的概率是0.911。 本部分將做相反方向的工作:在

26、已知結(jié)果結(jié)點發(fā)生與否的情況下推斷條件結(jié)點發(fā)生的概率?!纠?4】計算已知X光檢查呈陽性的情況下,患腦瘤的概率。由:P(AB)=P(A|B)*p(B) 得到:P(A|B)=P(AB)/P(B)而:P(AB)=P(B|A)*P(A)所以:P(A|B)=P(AB)/P(B) = P(B|A)*P(A)/P(B) 上面的例子比較簡單,可以直接用條件概率公式計算獲得。下面再看一個比較復(fù)雜的例子。先驗先驗概率概率【例7.5】計算已知頭疼的情況下,患腦瘤的概率。首先,根據(jù)表76給出的聯(lián)合條件分布計算已知BT情況下HA的邊緣條件概率。為此,要首先計算結(jié)點HO的概率分布。根據(jù)表7.3和全概率公式P(+HO)=P(

27、+HO+PT)P(+PT)+P(+HO-PT)P(-PT) =0702+0 =014 上面的計算表明,沒有任何證據(jù)的情況下,宿醉發(fā)生的概率是014,不發(fā)生的概率是086。通過宿醉的發(fā)生概率,可以計算已知BT情況下HA的邊緣條件概率.最后,根據(jù)表77提供的條件概率,利用條件概率公式,可得 P(+BT+HA)=P(+HA+BT)P(+BT)P(+HA) =0912 600010116 =0007 867P(+HA+BT)=P(+HO)P(+HA|+BT,+HO) +P(-HO)P(+HA|+BT,-HO) =014099+08609 =09126 P(-HA +BT)=1-P(+HA+BT)=00

28、87 上面的計算得到了已知患腦瘤的情況下頭疼的概率是0913,不頭疼的概率是0087。這個條件概率是一個邊緣分布,它是從聯(lián)合條件概率分布(H0,BTHA)去掉一個條件HO得到的。我們把這個邊緣分布的內(nèi)容整理在表77中。B表76表77已知BT情況下HA的(邊緣)條件概率全概率公式 例7.4和例7.5分別從簡單和復(fù)雜兩種情況進行了貝葉斯網(wǎng)絡(luò)的診斷示例。下面的部分將介紹同時具有預(yù)測功能和診斷功能的算法。 根據(jù)上面的兩個例子,可以總結(jié)出貝葉斯網(wǎng)絡(luò)診斷算法的一般步驟,如下所示。輸入:給定貝葉斯網(wǎng)絡(luò)B,給定若干個結(jié)果結(jié)點發(fā)生與否的事實向量F(或者稱為證據(jù)向量),給定待診斷的某個結(jié)點t。輸出:結(jié)點t發(fā)生的概

29、率。(1)把證據(jù)向量輸入到貝葉斯網(wǎng)絡(luò)B中。(2)對于B中的每一個沒處理過的結(jié)點n,如果它具有發(fā)生的事實(證據(jù)),則標記它為已經(jīng)處理過;否則繼續(xù)下面的步驟。(3)如果它的所有子結(jié)點中有一個沒有處理過,則不處理這個結(jié)點;否則,繼續(xù)下面的步驟。(4)根據(jù)結(jié)點n的所有子結(jié)點的概率以及條件概率或聯(lián)合條件概率計算結(jié)點n的概率分布,并把結(jié)點n標記為已處理。(5)重復(fù)步驟(2)(4)共m次。此時,原因結(jié)點t的概率分布就是它的發(fā)生不發(fā)生的概率。算法結(jié)束。 需要注意的是,第(5)步的作用是使得每個結(jié)點都有被計算概率分布的機會?!纠?.6】計算已知參加晚會并且第二天早上呼吸有酒精味的情況下,宿醉的發(fā)生概率。 由于已

30、知參加了晚會(+PT),那么根據(jù)表7.3,宿醉發(fā)生的概率是0.7,不發(fā)生的概率是0.3。根據(jù)全概率公式 P(+SA)=P(+SA+HO)P(+HO)+P(+SA-HO)P(-HO) =0807+0103 = 059 這個結(jié)果就是已知參加晚會的情況下,有酒精味的發(fā)生概率。再利用條件概率公式,可得 P(+H0+SA)=P(+SA+HO)P(+HO)P(+SA) =0807059 =0949 15 這是最終的結(jié)果,也就是說,當參加晚會并且第二天早晨有酒精味的情況下,宿醉發(fā)生的概率是0949。 從上面的計算過程可以總結(jié)出解決這類綜合問題的一般思路。首先,要把原因結(jié)點的證據(jù)(此例中是+PT)進行擴散,得

31、到中間結(jié)點(HO)或結(jié)果結(jié)點(SA)的概率分布。最后根據(jù)條件概率公式計算中間結(jié)點的概率分布。利用貝葉斯網(wǎng)絡(luò)進行單純的預(yù)測或進行單純的診斷的情況是比較少的,一般情況下,需要綜合使用預(yù)測和診斷的功能。 這是解決預(yù)測和診斷綜合問題的一般思路,下面將給出一個更復(fù)雜的綜合問題的例子。 【例77】計算在已知有酒精味、頭疼的情況下,患腦瘤的概率。 首先,由條件概率公式可以計算在有酒精味的情況下宿醉的發(fā)生概率 P(+H0+SA)=P(+SA+HO)P(+HO)P(+SA)=0565 6 然后,由全概率公式可以計算患腦瘤的情況下頭疼的發(fā)生概率(當然,這時宿醉的概率已經(jīng)是0565 6,它參與了下面的運算) P(+

32、HA +BT)=P(+HA+BT,+HO)P(+HO) +P(+HA+BT,一HO)P(一HO) =099P(+HO)+09P(一HO) =0950 9 最后,再由條件概率公式可以計算患腦瘤的概率 P(+BT+HA)=P(+HA+BT)P(+BT)P(+HA) =0950 900010405 2 =0002 347 可以比較例77和例75的計算結(jié)果,例77中計算得到的患腦瘤的概率要相對小一些。同樣患有頭疼,兩個例子中患腦瘤的概率是不一樣的。這是因為,例77中的結(jié)果結(jié)點“有酒精味”發(fā)生,這意味著頭疼的原因有更大的可能是因為宿醉,而不是患腦瘤。除了上面的7個例子外,讀者可以試著解決圖71所示貝葉斯網(wǎng)絡(luò)中更復(fù)雜的例子,或者解決本章后面的習題。7.4.5貝葉斯網(wǎng)絡(luò)的建立和訓練算法貝葉斯網(wǎng)絡(luò)的建立和訓練算法建立一個貝葉斯網(wǎng)絡(luò)的步驟:第一步:首先要把實際問題的事件抽象為結(jié)點。這些結(jié)點必須有明確的意義,至少有是、非兩個狀態(tài)?;蛘哂卸鄠€狀態(tài),并且這些狀態(tài)在概率意義上是完備和互斥的。也就是說,所有狀態(tài)在某一時刻只能發(fā)生一個,并且這些狀態(tài)的概率之和為1。第二步:建立兩個或多個結(jié)點之間的連線。有明確的因果關(guān)系或相關(guān)關(guān)系的結(jié)點之間可以建立連線,那些沒有明確聯(lián)系的結(jié)點之間最好不要建立連線,以防止網(wǎng)絡(luò)過于復(fù)雜而不能把握問題的實質(zhì)。確

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論