參考課件-網(wǎng)導(dǎo)論_第1頁
參考課件-網(wǎng)導(dǎo)論_第2頁
參考課件-網(wǎng)導(dǎo)論_第3頁
參考課件-網(wǎng)導(dǎo)論_第4頁
參考課件-網(wǎng)導(dǎo)論_第5頁
免費預(yù)覽已結(jié)束,剩余55頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

貝葉斯網(wǎng)絡(luò)導(dǎo)論授課教師:王成:郵箱:cheng.wan日期:2011.11.22華僑大學(xué)計算機(jī)學(xué)院試講先修課程和參考書目先修課程必修:概率論、數(shù)理統(tǒng)計、圖論選修:隨機(jī)過程、信息論、人工智能、數(shù)據(jù)挖掘、信息融合其它有用課程:數(shù)學(xué)建模、專業(yè)領(lǐng)域知識參考書目張連文、郭海鵬著《貝葉斯網(wǎng)引論》科學(xué)2006.11(算法、應(yīng)用實例)貝葉斯網(wǎng)絡(luò)課程定位人工智能的實質(zhì)進(jìn)展有賴于不斷針對人類的某種智能行為,運用數(shù)學(xué)理論和方法,結(jié)合計算機(jī)技術(shù)來建立適當(dāng)?shù)臄?shù)學(xué)計算模型。只有智能的目標(biāo)和計算機(jī)技術(shù)而沒有數(shù)學(xué)的次介入是不可能有顯著進(jìn)展的。貝葉斯網(wǎng)絡(luò)課程定位(續(xù))貝葉斯網(wǎng)用于解決不確定理和數(shù)據(jù)分析。這是一門理論與實踐相結(jié)合的數(shù)學(xué)應(yīng)用課,將概率論、數(shù)理統(tǒng)計、信息論、圖論知識用于具體問題、日常生活和工程實踐。與貝葉斯網(wǎng)絡(luò)關(guān)聯(lián)的課程信息融合故障信號處理人工智能生物信息學(xué)編碼學(xué)貝葉斯網(wǎng)絡(luò)本講主要內(nèi)容講課思路應(yīng)用范圍簡介基本概念復(fù)習(xí)參數(shù)學(xué)習(xí)結(jié)構(gòu)學(xué)習(xí)貝葉斯網(wǎng)絡(luò)實例樸素貝存在問題

葉斯分與

類器改進(jìn)方案1.1貝葉斯定理P(H)是先驗概率(PriorProbability),或稱H的先驗概率。P(X|H)代表假設(shè)H成立的情況下,觀察到X的概率。P(H|X)是后驗概率(PosteriorProbability),或者稱條件X下H的后驗概率。P(

X

)設(shè)X

是類標(biāo)號未知的數(shù)據(jù)樣本。設(shè)H

為某種假定,如數(shù)據(jù)樣本X

屬于某特定的類C。對于分類問題,X,假定H

成立的概率。貝葉斯定理給出了計算P(H|X)的簡單有效的方法:P(H

|

X

)

P(

X

|

H

)P(H

)1.1貝葉斯定理應(yīng)用實例例:設(shè)有一,生知道的人患有,有:P(D

t

|

C

y)P(D

t)P(C

y

|

D

t) 0.005

0.8

0.04P(C

y)

0.1即1.1貝葉斯定理應(yīng)用實例相對于E

e

,可以談?wù)撘粋€事件的先驗和后驗概率,同時也可以談?wù)撘粋€變量的先驗和后驗概率分布。設(shè)X

是一個所關(guān)心的變量,則有P(X

|E

e)P(

X

)P(E

e

|

X

)P(E

e)P(X

)是X

的先驗分布,P(X

|

E

e)是X

的后驗分布,P(E

e

|

X

)稱為X

的似然函數(shù)。P(E

e)是一個歸一化常數(shù)后驗分布正比于先驗分布和似然函數(shù)的乘積。1.2概率的解釋古典解釋頻率解釋(頻率學(xué)派)一般的地講,對于一個可在同樣條件下重復(fù)進(jìn)行的實驗,如果事件A在所有N次試驗 發(fā)生了M次,則它的概率可以用其發(fā)生的頻率來近似:P(A)=M/N.解釋(貝葉斯解釋,貝葉斯學(xué)派)認(rèn)為概率即合理信度,反映的是

的知識狀態(tài)和

信念。在這種意義下的概率稱為

概率。特性解釋(Popper,1957)邏輯解釋(Carnap,1950)2.貝葉斯分類貝葉斯分類是統(tǒng)計分類方法。理論上講,與其它所有分類算法相比,貝葉斯分類具有最小的出錯率。然而,實踐中并非如此。這是由于對其應(yīng)用的假設(shè)(如類條件獨立假設(shè))的確性,以及缺乏可用的概率數(shù)據(jù)造成的。研究結(jié)果表明,貝葉斯分類器對兩種數(shù)據(jù)具有較好的分類效果:一種是完全獨立(Comple

yIndependent)的數(shù)據(jù),另一種是函數(shù)依賴(FunctionallyDependent)的數(shù)據(jù)。2.貝葉斯分類在貝葉斯學(xué)習(xí)方法中實用性很高的一種稱為樸素貝葉斯分類器(naiveBayesclassifier)的方法。在某些領(lǐng)域,其性能與神經(jīng)網(wǎng)絡(luò)和決策樹相當(dāng)。2.1樸素貝葉斯分類器其中葉結(jié)點

12,,,別。AAn

是屬性變量,描述待分類對象的屬性,根結(jié)點C

是類別變量,描述對象的類NBC

模型……類別C1屬性A2屬性An屬性A樸素貝葉斯模型(na?ve

Bayses

model),又稱樸素貝葉斯分類器(na?veBayses

classifier)一個包含一個根結(jié)點、多個葉子結(jié)點的樹狀貝葉斯網(wǎng)。用樸素貝葉斯模型進(jìn)行分類就是給定一個數(shù)據(jù)點,即各屬性變量的取值A(chǔ)1a1Aa

,,,概率分布

),然后選擇概率最大的那個C

值作為這個數(shù)據(jù)點所屬的類別。NBC

包含了一個局部獨立(local

independence)假設(shè),即給定類別變量C,各屬性變量Ai

相互條件獨立。n這就意味著:

P(C,

A1, ,

An

)

P(C)

P(

Ai

|

C)i12.1樸素貝葉斯分類器實例

30

3031

~

4031

~

40

30

30

3031

~

4031

~

4014據(jù)樣 用屬{yes,no})。設(shè)C1C2知樣 為:

X

{age"

30",income

2.1樸素貝葉斯分類器實例P(X

|

Ci

)P(Ci

),i

1,2

P(Ci

)P(buys

_

computer

"

yes")

9

/14

0.643

P(buys

_

computer

"no")

5

/14P(

X

|

Ci

),

i

1,2P(age

30

|

buys

_

computer

"

yes")

2P(age

30

|

buys

_

computer

"no")

3

/

5P(income

"medium"|

buys

_

compP(income

"medium"|

buys

_

compuP(s dent

"

yes"|

buys

_

computer

"P(income

"

yes"|

buys

_

computer

"nP(credit

_

rating

"

fair"|

buys

_P(credit

_

rating

"

fair"|

buys

_

c2.1樸素貝葉斯分類器實例P(

X

{age"

30",

i

P(age

30

|

buys

_P(st

dent

"

yes

"

|

b

0.222 0.444

0.6P(

X

{age"

30",

i

P(age

30

|

buysP(student

"

yes

"

|

b

0.600

*

0.400

*

0.20P(

X

|

buys

_

computer

"

yP(

X

|

buys

_

computer

"nbuys

_

computer

"

yes"P(age

30

|

buys

_

computer

"

yes")

2的是比值

nC

/

n

buys

_

computer

"

yes"nCage

302.1樸素貝葉斯分類器工作過程(1)每個數(shù)據(jù)樣本用一個n

維特征向量X

{x1

,x2

,,xn

}表示,分別描述對n

個屬性A1

,A2

,,An

樣本的n

個度量。(2)假定有

m

個類

12,,,

CCCm

。給定一個未知的數(shù)據(jù)樣本X(即沒有類標(biāo)號),分類法將驗概率(條件

X

下)的類。即,樸素貝葉斯分類將未知的樣本分配給類Ci

,當(dāng)且僅當(dāng)屬于具有最高后P(Ci

|

X

)

P(C

j

|

X

)

,1

j

m

j

i這樣,最大化

PC(|)Xi

。其

PC(|)Xi

最大的類

Ci

稱為最大后驗假定。根據(jù)貝葉斯定理可知:PX()

PX(|)C()PCiiPC(|)Xi(3)由于P(X)對于所有類為常數(shù),只需要P(X

|

Ci

)P(Ci

)最大即可。如果類的先驗概率未知,則通常假設(shè)這些類是等概率的,即P(C1

)

P(C2

)

P(Cm

)。并據(jù)此,只對P(X

|

Ci

)最大化。否則,最大化P(X

|

Ci

)P(Ci

)。注意,類的先驗概率可以用P(Ci

)

si

/s

計算,其中si

是類Ci中的訓(xùn)練樣本數(shù),而s

是訓(xùn)練樣本總數(shù)。2.1樸素貝葉斯分類器工作過程(續(xù))(4)給定具有許多屬性的數(shù)據(jù)集,計算P(X

|

Ci

)的開銷可能非常大。為了降低計算P(X

|

Ci

)的開銷,可以做類條件獨立的樸素假定。給定樣本的類標(biāo)號,假定屬性值之間相互條件獨立,即屬性間,不存n在依賴關(guān)系。這樣:P(X

|

Ci

)

p(xk

|

Ci

)k

1其中概率

P(x1

|

Ci

)

,

1

|(

)p|可(C,

x以P由Cx訓(xùn)P練樣本估值。如果Ak

是離散屬性,則P(xk

|

Ci

)

sik

|

si

,其中sik

是在屬性Ak

上具有值xk

的類Ci

的訓(xùn)練樣本數(shù),而si

是Ci

中的訓(xùn)練樣本數(shù)。如果Ak

是連續(xù)值屬性,則通常假定該屬性服從高斯分布。因而1i2CiCiik

Ck

i2

Ci2xukC

)(2u

),,()|(

eP

x

C

g

xg

(xk

,

uC

,

)

是高斯分布函數(shù),而u

,

分別為平均值和標(biāo)準(zhǔn)差。i

Ci

Ci

Ci(5)對未知樣本X

分類,也就是對每個類Ci

,計算P(X

|

Ci

)P(Ci

)。樣本X

被指派到類Ci

,當(dāng)且僅當(dāng)P(Ci

|

X

)

P(C

j

|

X

),1

j

m

,j

i

,換言之,X

被指派到其P(X

|

Ci

)P(Ci

)最大的類。2.2NBC的改進(jìn)-使用m-估計顯然,在多數(shù)情況下,觀察到的比例是對概率的一個良好估計,但當(dāng)nC

很小時估計較差。設(shè)想P(age30

|

buys

_

cmputer

"yes")的值為0.08,而樣本中只有9

個樣本為buys

_

computer

"yes",那么對于nC

最有可能的值只有0.這產(chǎn)生了兩個難題:nC

/n

產(chǎn)生了一個有偏的過低估計(Underestimate)概率。當(dāng)此概率估計為0時,如果將來的查詢包括age30

,此概率項會在貝葉斯分類器中占有原因在于,其他概率項乘以此0

值后得到的最終結(jié)果為0.2.2NBC的改進(jìn)-使用m-估計顯然,在多數(shù)情況下,觀察到的比例是對概率的一個良好估計,但當(dāng)nC

很小時估計較差。設(shè)想P(age30

|

buys

_

cmputer

"yes")的值為0.08,而樣本中只有9

個樣本為buys

_

computer

"yes",那么對于nC

最有可能的值只有0.這產(chǎn)生了兩個難題:nC

/n

產(chǎn)生了一個有偏的過低估計(Underestimate)概率。當(dāng)此概率估計為0

時,如果將來的查詢包括age30

,此概率項會在貝葉斯分類器中占有因在于,其他概率項乘以此0

值后得到的最終結(jié)果為0.為了避免這些難題,可以采用一種評估概率的貝葉斯方法,即如下定義的m-估計:n

mm

估計

nC

m

*

p這里,nC

和n

與前面定義相同,p

是將要確定的概率的先驗估計,而m

是一個稱為等效樣本大小的常數(shù),它起到對于觀察到的數(shù)據(jù)如何衡量p

的作用。2.3NBC的改進(jìn)-NBC根據(jù)條件屬性對決策所起的作用賦給它們不同的權(quán)重,相比于貝葉斯網(wǎng)絡(luò),該方法更加簡單可行。采用信息增益、爬山算法以及MonteCarlo技術(shù)確定屬性權(quán)值的方法。基于粗糙集的屬性權(quán)重求解方法。相關(guān)系數(shù)是用來測定變量間相關(guān)關(guān)系程度及方向的統(tǒng)計指標(biāo)。2.4NBC的改進(jìn)-選擇性NBC樸素貝葉斯分類器要以一個很強(qiáng)的條件獨立性假設(shè)為前提,即假設(shè)在各個類中,每個屬性變量(也稱作特征)的概率分布獨立于其它屬性變量的概率分布。彌補(bǔ)這一不足的一種有效的方法是利用屬性選擇去除數(shù)據(jù)集中的冗余屬性,使選擇出的屬性盡可能地滿足條件獨立性假設(shè)。然后,在選擇出的屬性子集上構(gòu)建貝葉斯分類器,即選擇性貝葉斯分類器。2.5NBC的改進(jìn)-TANTAN

模型樸素貝葉斯模型中的局部獨立假設(shè)在實際中往往不成立。為使模型更符合實際,可以在其中的各葉結(jié)點之間增加一些必要的邊,以表示各屬性變量之間的依賴關(guān)系,如果規(guī)定屬性變量之間的關(guān)系成樹狀結(jié)構(gòu),那么模型就稱為加樹樸素貝葉斯模型(tree

augmented

na?ve

Bayes

model),簡稱nTAN

模型。在TAN

模型中,聯(lián)合概率分布為:P(C,A1

,A2

,An

)

P(C)

P(Ai

|

(Ai

))i1注意這里的屬性變量Ai

的父節(jié)點

(Ai

)不僅包括類別變量C,也可能包括其它屬性變量。相比之下,在樸素貝葉斯模型中

(Ai

)只包括C。這說明,TAN

模型不再要求局部獨立假設(shè)成立有研究表明,TAN模型的分類效果往往比樸素貝葉斯要好(Friedman

et

al.,1997;Cheng

andGreiner,1999

)……類別C1屬性A2屬性An屬性A3.貝葉斯網(wǎng)例:(Alarm問題)Pearl教授家住在洛杉磯,那里和盜竊時有發(fā)生。教授的家里裝有警鈴,和都有可能觸發(fā)警鈴,聽到警鈴后,兩個鄰居Mary和John可能會打電話給他。一天,Pearl教授接到Mary的,說聽到他家警的概率多大?鈴響,Pearl教授想知道他家遭問題分析:這個問題包含5個隨量: (B)、(E)、警鈴響(A)、接到John的(J)和接到Mary的(M);所有變量的取值均是“y”或“n”。這里各變量間的關(guān)系存在不確定性:和以一定的概率隨機(jī)發(fā)生;它們發(fā)生之后,并不一定會觸發(fā)警鈴;而警鈴響后,Mary

和John可能會因為某些原因,如在聽搖滾樂或

問題,而沒有聽到警鈴;有時候,兩人也會將其它聲音誤聽為警鈴聲。假設(shè)Pearl教授對這5個變量的聯(lián)合概率分布P(B,E,A,J,M)的評估如表所示。要計算的是接到Mary的(M=y)后,Pearl教授對家里遭盜(B=y)的信度,即P(B=y|M=y)。BEAMJ概率BEAMJ概率yyyyy1.2E-4nyyyy3.6E-3yyyyn5.1E-5nyyyn1.6E-3yyyny1.3E-5nyyny4.0E-4yyynn5.7E-6nyynn1.7E-4yynyy5.0E-9nynyy7.0E-6yynyn4.9E-7nynyn6.9E-4yynny9.5E-8nynny1.3E-4yynnn9.4E-6nynnn1.3E-2ynyyy5.8E-3nnyyy6.1E-4ynyyn2.5E-3nnyyn2.6E-4ynyny6.5E-4nnyny6.8E-5ynynn2.8E-4nnynn2.9E-5ynnyy2.9E-7nnnyy4.8E-4ynnyn2.9E-5nnnyn4.8E-2ynnny5.6E-6nnnny9.2E-3ynnnn5.5E-4nnnnn9.1E-1Alarm

問題的聯(lián)合概率分布P(B,E,A,J,M)3.1不確定理與聯(lián)合概率分布從聯(lián)合概率分布

P(B,E,A,J,M)出發(fā),先計算邊緣分布P(B,

M

)

P(B,

E,

A,

J

,

M

)E

,

A,J得到下表:BMP(B,M)yy0.000115yn0.000075ny0.00015nn0.99966再按照條件概率定義,得

0.610.000115

0.000075P(M

y)0.000115P(B

y,

M

y)

P(B

n,

M

y)P(B

y,

M

y)P(B

y

|

M

y)

P(B

y,

M

y)

3.1不確定

理與聯(lián)合概率分布3.2存在的問題直接使用聯(lián)合分布進(jìn)行不確定 理的 很明顯,即它的復(fù)雜度極高。上圖中有5

個二值隨量,整個聯(lián)合分布包含25

1

31

個獨立參數(shù)。當(dāng)變量很多時,聯(lián)合概率的獲取、 和運算都變得十分在上述(Alarm

問題)的例子中,運用鏈規(guī)則,可以把聯(lián)合概率分布

P(B,E,A,J,M)表示為:B,E,A,J,M)=P(B)P(

B,E)P(J|B,E,A)P(M|B,E,A,J)。一步并沒有降低模型的復(fù)雜度,因為等式右端的5

個概率分布仍然包含同聯(lián)合分布相同個數(shù)的獨立參數(shù):1+2+4+8+16=31.3.3解決方案但是,它使得可以根據(jù)問題的背景知識做一些合理的獨立假設(shè)以降低復(fù)雜度。例如,

(E)應(yīng)該與 (B)無關(guān),于是假設(shè)E與B相互獨立,即P(E|B)=P(E),這樣就把P(E|B)簡化成了P(E)。直接取決于他們是否另外,John(J)和Mary(M)是否打聽到警鈴(A)。所以可以假設(shè)給定A時,J與B和E,以及M與J、B和E都相互獨立,即P(J|B,E,A)=P(J|A)和P(M|B,E,A,J)=P(M|A),將這些獨立假設(shè)放在一起,得:P(B,E,A,J,M)=P(B)P(E)P(A|B,E)P(J|A)P(M|A)這樣就把聯(lián)合分布P(B,E,A,J,M)分解成了若干個復(fù)雜度較低的概率分布的乘積。上式右端的5個概率分布僅包含

1+1+4+2+2=10個獨立參數(shù),相對于聯(lián)合分布所需要的31個獨立參數(shù)來說,模型的復(fù)雜度得到了降低。3.3解決方案n更一般地,考慮一個包含

n

個變量的聯(lián)合分布P(X1

,X

2

,,Xn

)。利用鏈規(guī)則,可以把它寫為:P(

X

1

,

X

2,,

X

n

)

P(

X

1

)P(

X

2

|

X

1

)

P(

X

n

|

X

1

,

X

2

,,

X

n1

)

P(

X

i

|

X

1

,

X

2,,

X

i1

)i1對于任意

Xi

,如果存在

(Xi

){X1

,X

2

,,Xi1},使得給定

(Xi

),X

i

與{X1,X

2

,,Xi1}中其它變量條件獨立,即

P(Xi

|

X1

,X

2

,,Xi1

)

P(Xi

|

(Xi

))n那么有

P(X1

,X

2

,,Xn

)

P(Xi

|

(Xi

))i1這樣,就得到了聯(lián)合分布的一個分解。其中當(dāng)

(Xi

)

時,P(Xi

|

(Xi

)為邊緣分布P(Xi

).3.3解決方案M

A

P(M|A)yy0.9ny0.1yn0.05nn0.95B

P(

B)

y

0.01n

0.99E

P(E)

y

0.02n

0.98J

A

P(J|A)y

y

0.7n

y

0.3y

n

0.01n

n

0.99BEAMJA

B

E

P(J|A)y

y y

0.95n

y y

0.05y

y n

0.94n

y n

0.06yny0.29nny0.71ynn0.001nnn0.999量,節(jié)點間的邊代表變量Alarm

貝葉斯網(wǎng):聯(lián)合分布分解的有向圖表達(dá)貝葉斯網(wǎng)是一個有向無圈,其 點代表隨之間的直接依賴關(guān)系。每個節(jié)點都附有一個概率分布,根節(jié)點X

所附有的是它的邊緣分布P(X

),而非根節(jié)點X

所附的是條件概率分布P(X

|

(X

))。貝葉斯網(wǎng)的引入為概率推理提供了很大的方便。一方面貝葉斯網(wǎng)是嚴(yán)格的數(shù)學(xué)語言,適合計算機(jī)處理;另一方面,它又直觀易懂,方便人們交流和建立模型。3.4貝葉斯網(wǎng)與概率推理推理(inference)是通過計算回答查詢(query)的過程。貝葉斯網(wǎng)中的推理問題有三大類:后驗概率問題最大后驗假設(shè)問題(MAP)最大可能解釋問題(MPE)3.4貝葉斯網(wǎng)與概率推理后驗概率問題后驗概率問題指的是已知貝葉斯網(wǎng)中某些變量的取值,計算另外一些變量的后驗概率分布問題。從結(jié)果到原因的

推理(diagnosticinference)從原因到結(jié)果的

推理(predictive

inference)在同一結(jié)果的不同原因之間的原因關(guān)聯(lián)推理(intercausal

inference)混合推理(mixed

inference)4.貝葉斯網(wǎng)絡(luò)涉及到的問題問題與如何獲得貝葉斯網(wǎng)絡(luò)中的參數(shù)?如何構(gòu)造貝葉斯網(wǎng)絡(luò)?4.3圖分隔與變量獨立貝葉斯網(wǎng)是概率論與圖論相結(jié)合的產(chǎn)物。在一個貝葉斯網(wǎng)中,一方面可以從概率論的角度談?wù)撟兞恐g的依賴與獨立,另一方面也可以從圖論的角度談?wù)摴?jié)點之間的連通與分隔。4.3圖分隔與變量獨立BEAMJ兩變量X和Y如果直接相連,則表示它們之間有直接依賴關(guān)系,對X的了解會影響關(guān)于Y的信度,反之亦然。如果X和Y不直接相連,那么信息需要通過其它變量才能在兩者之間傳遞。4.3圖分隔與變量獨立考慮兩個變量X

和Y

通過第3

個變量Z

間接相連這一基本情況。它又分為3

個子情況:順連、分連、及匯連。順連(serial

connection)如下圖(a)所示,這里若Z

未知,則對X

的了解會影響關(guān)于Z

的信度,進(jìn)而影響關(guān)于Y

的信度;反之亦然。另一方面,若Z的取值已知,則對X

的了解就不會影響關(guān)于Z

的信度,從而也不會影響關(guān)于Y

的信度;反之亦然。所以,此時X

和Y

之間的信息通道被阻塞,信息無法在兩者之間傳遞,X

和Y

相互條件獨立。分連(diverging

connection)如下圖(b)所示。它與順連的情況相似:當(dāng)未知Z時,信息可以在X

和Y

之間傳遞,它們相互關(guān)聯(lián);而當(dāng)Z

已知時,信息不能在X

和Y

之間傳遞,因而它們相互獨立。匯連(converging

connection)結(jié)構(gòu)如下圖(c)所示。在未知Z

時,X

和Y

相互獨立;而在已知Z

時,X和Y

卻相互關(guān)聯(lián)。兩個變量X

和Y

通過第3

個變量Z

間接相連的3

種情況(a)順連X

XZZYYXZYXZY(b)分連(c)匯連4.3圖分隔與變量獨立考慮兩個變量X

和Y

通過第3

個變量Z

間接相連這一基本情況。它又分為3

個子情況:順連、分連、及匯連。順連(serial

connection)如下圖(a)所示,這里若Z

未知,則對X

的了解會影響關(guān)于Z

的信度,進(jìn)而影響關(guān)于Y

的信度;反之亦然。另一方面,若Z的取值已知,則對X

的了解就不會影響關(guān)于Z

的信度,從而也不會影響關(guān)于Y

的信度;反之亦然。所以,此時X

和Y

之間的信息通道被阻塞,信息無法在兩者之間傳遞,X

和Y

相互條件獨立。分連(diverging

connection)如下圖(b)所示。它與順連的情況相似:當(dāng)未知Z時,信息可以在X

和Y

之間傳遞,它們相互關(guān)聯(lián);而當(dāng)Z

已知時,信息不能在X

和Y

之間傳遞,因而它們相互獨立。匯連(converging

connection)結(jié)構(gòu)如下圖(c)所示。在未知Z

時,X

和Y

相互獨立;而在已知Z

時,X和Y

卻相互關(guān)聯(lián)。兩個變量X

和Y

通過第3

個變量Z

間接相連的3

種情況(a)順連X

XZZYYXZYXZY(b)分連(c)匯連設(shè)Z為一節(jié)點集合,X

和Y

是不在

Z中的兩個節(jié)點。考慮X和Y

之間的一條通路

。如果滿足下面條件之一,則稱

被Z

所阻塞:

上有一個在

Z

中的順連節(jié)點;

上有一個在

Z

中的分連節(jié)點;

上有一個匯連節(jié)點

W,它和它的后代節(jié)點均不在

Z

中;X

和Y

之間的通路被

Z阻塞的

3

種情況如果

X

Y

之間的所有通路都被

Z

阻塞,那么

就說

Z有向分隔(directed

separate)X

Y,簡稱

d-分隔(d-separate)X

和Y。如果

Z

d-分隔

X

和Y,那么

X

和Y

在給定

Z

時條件獨立。ZZ(a)順連節(jié)點

z

ZXZYXZYXWY(b)分連節(jié)點z

Z(c)匯連節(jié)點W

及其后代均不在Z

內(nèi)ZAB4.3圖分隔與變量獨立4.4因果關(guān)系與貝葉斯網(wǎng)絡(luò)在實際應(yīng)用中,人們往往利用因果關(guān)系來確定貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)。在利用因果關(guān)系建立起來的貝葉斯網(wǎng)中,變量間的邊表示的是因果關(guān)系,而非簡單的概率依賴關(guān)聯(lián)。這樣的貝葉斯網(wǎng)稱為貝葉斯因果網(wǎng)(Bayesian

causal

networks),簡稱因果網(wǎng)(causal

networks)。在貝葉斯因果網(wǎng)上除了可以進(jìn)行概率推理外,還可以進(jìn)行關(guān)于干預(yù)

(effects

ofintervention)的推理以及虛設(shè)(counter

factual)推理(Pearl,2000)如果假設(shè)制造一次 ,則會認(rèn)為警鈴可能會響;反過來,如果知道有人弄響警鈴,則不會認(rèn)為將發(fā)生

。因此,是警鈴響的原因,反之不然。5.貝葉斯網(wǎng)的應(yīng)用貝葉斯網(wǎng)成為許多研究領(lǐng)域的常用工具。機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)、系統(tǒng)工程以及模式識別中的許多模型都是貝葉斯網(wǎng)的特例。與專業(yè)相關(guān)的醫(yī)療

、生物信息學(xué)、金融分析、生態(tài)學(xué)、農(nóng)牧業(yè)、編碼學(xué)等等。5.1貝葉斯網(wǎng)應(yīng)用于計算機(jī)程序理解(program

understading)(Breese

andBlake,1995;Burnell

and

Horvitz,1995)測試(software

testing)(Ziv

and

Richardson,1997)?郵件過濾(junk filtering)(Sahami

et

al.,1998)計算機(jī)系統(tǒng)故障

(trouble

shooting)(Heckermanetal.,1995;

Jensen

etal.,2001)決策系統(tǒng)信息顯示(information

display)(Horvitz

andBarry,1995)信息提取(information

retrieval)(Fung

andFavero,1995;

Wong

and

Butz,2000;Ruokangas

andMengshoel,2003;Blei

et

al.

,2003)用戶特征提取(user

profiling)(Hovitzetal.,1998;Schiaffino

and

Amandi,2000)5.1貝葉斯網(wǎng)應(yīng)用于計算機(jī)微軟

在這方面投入了相當(dāng)大的力量,開發(fā)了一系列嵌入Windows和Office等系統(tǒng)的貝葉斯

網(wǎng),如Windows中的 故障程序,Office中的用戶幫手,以及Outlook中的

郵件過濾器等。5.1貝葉斯網(wǎng)應(yīng)用于計算機(jī)用于故障的貝葉斯網(wǎng)局部打印顏色過淺問題F3AQ1A2A1打印驅(qū)動故障4F數(shù)據(jù)出錯墨盒故障措施墨粉不勻故障F12FF3搖晃、重置墨盒換墨盒重啟電源用戶反饋測試頁顏色太淺?5.2貝葉斯網(wǎng)用于故障燃油指示失靈啟動器失靈電池沒電電池使用時間電池報廢發(fā)電機(jī)報廢皮帶斷開沒有充電無潤滑油照明大燈無燃油潤滑油指示燈燃油指示燈用于汽車啟動故障 的貝葉斯網(wǎng)引機(jī)無法啟動故障的目的是找出導(dǎo)致一個控制系統(tǒng)失靈的故障部件。從圖中可以看到,可能導(dǎo)致汽車無法啟動的原因有多個,故障就是根據(jù)觀測到的進(jìn)行概率推理,找出后驗概率最大的那個原因。5.3動態(tài)貝葉斯網(wǎng)絡(luò)一個動態(tài)貝葉斯網(wǎng)可以定義為(0,

),其中

0是一個標(biāo)準(zhǔn)貝葉斯網(wǎng),定義了初始時刻的概率分布

P(Z0

),

是一個包含兩個時間片的貝葉斯網(wǎng),定義了兩個相鄰時間片的各變量之間Nt t

1

i1的條件分布,即

P(Z

|

Z

)

ititP(Z

|

(Z

))。it其中

Z

是位于時間

t

時的節(jié)點iti

,

(Z

)it是

Z

的父節(jié)點。

中前一個時間片中的結(jié)點可以不ititit給出參數(shù),第二個時間片中每個節(jié)點都有一個條件概率分布

P(Z

|

(Z

)),

t

0

。節(jié)點

Z

的父it節(jié)點

(Z

)可以在同一時間片內(nèi),也可以 一時間片內(nèi)。位于同一時間片內(nèi)的邊可以理解為瞬時作用,而 時間片的邊可以理解為時變作用,反映了時間的流逝。(a)

0

:初始化分布

P(Z

0

)

(b)

:

條件分布

P(Zt

|

Zt

1

)動態(tài)貝葉斯網(wǎng)示例:每個時間片包含3

個節(jié)點A0B0C0t

1At

1Bt

1CtAtBtC5.3動態(tài)貝葉斯網(wǎng)絡(luò)動態(tài)貝葉斯網(wǎng)絡(luò)包含了兩個假設(shè):一階馬爾可夫假設(shè),即各節(jié)點之間的邊或者位于同一時間片內(nèi),或者位于相鄰時間片之間,不能時齊性或齊次性,即

中的參數(shù)不隨時間變化。根據(jù)初始分布和相鄰時間片之間的條件分布,可以將動態(tài)貝葉斯網(wǎng)展開到第T

個時間片,結(jié)果得到一個T

Nt

0

i1itit0:TPZ

(()|(PZZ))。動態(tài)貝葉斯網(wǎng)的特例,即隱馬爾可夫模型和卡爾曼濾波器。5.3動態(tài)貝葉斯網(wǎng)絡(luò)其它參考文獻(xiàn)陳景年《選擇性貝葉斯分類算法研究》

交通大學(xué)2008.5

博士董立巖《貝葉斯應(yīng)用基礎(chǔ)研究》吉林大學(xué)2007.5

博士古平《基于貝葉斯模型的文檔分類及相關(guān)技術(shù)研究》2006.9

博士李旭升《貝葉斯網(wǎng)絡(luò)分類模型研究及其在信用評估中的應(yīng)用》西南交通大學(xué)2006.6博士2005.4

博士黃友平《貝葉斯網(wǎng)絡(luò)研究》中國科學(xué) 計算技術(shù)?朱慧明《現(xiàn)代經(jīng)濟(jì)管理中的線性貝葉斯推斷理論與多總體貝葉斯分類識別方法研究》2003.1博士高妍方《貝葉斯網(wǎng)絡(luò)的代價敏感結(jié)構(gòu)學(xué)習(xí)》2009.2

第2期吳寧《一種應(yīng)用關(guān)聯(lián)規(guī)則森林的改進(jìn)貝葉斯分類算法》2009.2西安交通大學(xué)學(xué)報43卷2期王學(xué)玲《基于新的屬性依賴的TAN分類器》計算機(jī)與數(shù)字工程2008年11期王學(xué)玲《基于有向樹算法構(gòu)造的TAN分類器》2008.7計算機(jī)工程與設(shè)計29卷13期??徐光美《基于互信息的多關(guān)系樸素貝葉斯分類器》2008.8?科技大學(xué)學(xué)報30卷8期學(xué)學(xué)報(自然科學(xué)版)張明衛(wèi)

《基于相關(guān)系數(shù)的 樸素貝葉斯分類算法》2008.7

東29卷7期石洪波《一種限定性的雙層貝葉斯分類模型》 學(xué)報2004,15(2)柳征《一種新的貝葉斯調(diào)制分類算法》2006.7

電子與信息學(xué)報28卷7期余芳《一種基于樸素貝葉斯分類的特征選擇方法》2004,9中山大學(xué)學(xué)報43卷5期??黃捷《一種新的正態(tài)分布實例的貝葉斯分類算法》2001.12

華南理工大學(xué)學(xué)報(自然科學(xué)版)貝葉斯網(wǎng)的創(chuàng)新點1.屬性 算法自適應(yīng)屬性 (類內(nèi)距離最小,類間距離最大,F(xiàn)ish準(zhǔn)則)最小化互信息量屬性2.樸素貝葉斯分類器與盲元分離的結(jié)合首先對數(shù)據(jù)進(jìn)行PCA變換再樸素貝葉斯首先對數(shù)據(jù)進(jìn)行ICA變換再樸素貝葉斯

ICA獨立成分分析,分布獨立假設(shè)3.對不平衡數(shù)據(jù)集的應(yīng)用貝葉斯偏

大類的偏向,小類上會被忽略訓(xùn)練集與測試集(工作集)分布不同時的應(yīng)用不同分布的先驗信息的應(yīng)用4.利用貝葉斯增量學(xué)習(xí)的特點,

學(xué)習(xí)建模機(jī)器學(xué)習(xí)有兩種模式,即順序?qū)W習(xí)和批量學(xué)習(xí)。順序?qū)W習(xí)(sequential

learing)指一個一個地處理數(shù)據(jù)樣本,沒處理一個樣本

就更新一次參數(shù),而且更新是在當(dāng)前參數(shù)值的基礎(chǔ)上進(jìn)行的。批量

學(xué)習(xí)(batchlearing)則指同時處理所有數(shù)據(jù),

得到參數(shù)估計。在處理完當(dāng)前數(shù)據(jù)之后的一段時間內(nèi),如果有新的數(shù)據(jù)出現(xiàn),就把

新老數(shù)據(jù)混合在一起,重新進(jìn)行參數(shù)估計,這個過程完全不依賴于

以前的估計。貝葉斯估計既可以用于順序?qū)W習(xí),又可以用于批量學(xué)習(xí),而最大似然估計只能用于批量學(xué)習(xí)。順序?qū)W

線學(xué)習(xí))節(jié)省內(nèi)存

特殊應(yīng)用場合(如沒有先驗知識但帶有反饋、動態(tài)自適應(yīng)分類器)5.利用關(guān)聯(lián)規(guī)則對樸素貝葉斯改進(jìn)6.半監(jiān)督學(xué)習(xí)人的模式識別過程具有極強(qiáng)的學(xué)習(xí)能力,通過學(xué)習(xí),人不僅能學(xué)會歸類(識別),而且能創(chuàng)造新的類別(認(rèn)知)??梢哉f,識別(Recognition)就是再認(rèn)知(Re-Conition),研究相似與分類這樣的認(rèn)知基本問題,有助于更深入地理解模式識別。將分類與聚類相互結(jié)合,已有類別和先驗樣本知識,自適應(yīng)的產(chǎn)生新的類別(特殊應(yīng)用情形)貝葉斯網(wǎng)的創(chuàng)新點4.1條件獨立考慮3

個事件A,B

和C,假定P(C)>0

。P(

A

B

|

C)

P(

A

|

C)P(B

|

C)

,稱事件A

與B

在給定C

時相互條件獨立,如果有下式成立:。當(dāng)P(B

C)

0

時,可得

P(A

|

C)

P(A

|

B

C)。事件

A

和B

在給定

C

時相互條件獨立的直觀意義是:在已知事件

C

發(fā)生的前提下,對事件

B

是否發(fā)生的了解不會改變對事件

A發(fā)生的信度;同樣,對事件

A

是否發(fā)生的了解也不影響對事件

B發(fā)生的信度??紤]

3

個隨 量

X,Y

Z,設(shè)

P(Z=z)>0,

z

Z

X

Y

在給定

Z

時相互條件獨立,記為X

Y

|

Z

。如果下式成立P(X

,Y

|

Z

)

P(X

|

Z

)P(Y

|

Z

)。設(shè)y

和z

分別是

Y

和Z

的任意取值,P(Y

y,Z

z)

0

,可得:

((),|

||

P)z。X

Y

|

Z

的直觀含義是:在已知

Z

的前提下,對

Y

的取值的了解不影響

X

的概率(信度)分布。注意,這并不意味著在未知

Z

的取值時,X

和Y

相互獨立。Y=y

有可能含有關(guān)于

X

的信息,只是所有這樣的信息也都包含于

Z=z中,所以當(dāng)已知

Z=z

時,進(jìn)一步了解到

Y=y

并不增加關(guān)于

X

的信息。4.1條件獨立,條件獨立示意:給出硬幣類型,各投擲結(jié)果相互獨立……X

1X

2X

n例:設(shè)有一裝有兩種硬幣的口袋,其中一些是均勻硬幣,擲出正面朝上的概率為0.5;另一些為非均勻硬幣,擲出正面朝上的概率為

0.8。現(xiàn)從袋中隨機(jī)取出一枚硬幣,投擲若干次。令X

i

表示第i次拋擲硬幣的結(jié)果,Y

表示該硬幣是否均勻。這里,

Xi

X

j

(i

j)

之間不是相互(邊緣)獨立的,因為如果擲了

10次硬幣,其中

9次都是正面朝上那么有理由相信這枚硬幣是不均勻的,從而增大了下一次擲出正面朝上的信度。所以X

i

的值給了 關(guān)于這枚硬幣的一些信息,它有助于 繼續(xù)判斷

X

j

的值。另一方面,如果已經(jīng)知道了

Y

的值,例如該硬幣是不均勻的,那么不管前面的結(jié)果如何,以后每次擲硬幣的結(jié)果為正面的概率都是

0.8 不能從前面的實驗得到什么信息。所以給定

Y

的值后,Xi與X

j

(i

j)

之間就是相互條件獨立的。變量Y

切斷了變量

Xi

與變量

X

j

之間的“信息通道”。硬幣類型Y結(jié)果1結(jié)果2結(jié)果n4.1條件獨立命題:考慮

3

個隨 量

X,Y

Z,設(shè)

P(Z)>0,下列條件相互等價:(1)

P(X,Y|Z)=P(X|Z)P(Y|Z);(2)

P(X|Y,Z)=P(X|Z),當(dāng)P(Y|Z)>0;P(X,Y|Z)=f(X,Z)g(Y,Z),f

和g

均為函數(shù);P(X|Y,Z)=f(X,Z),f

為一函數(shù),當(dāng)P(Y,Z)>0;P(X,Y,Z)=P(X|Z)P(Y|Z)P(Z)

;P(X,Y,Z)=P(X,Z)P(Y,Z)/P(Z)

;P(X,Y,Z)=f(X,Z)g(Y,Z),f和g

均為函數(shù)。4.2熵(信息論)一個離散型隨量X

的熵H(X)的定義為:X

XP(

X

)H

(

X

)

P(

X

)

log

1

P(

X

)

log

P(

X

)1其中約定

0

log

0

。對數(shù)若以

2

為底,則熵的單位是比特;若以

e

為底,則其單位是奈特。0量X

的熵越大,說明它的不確定性也越大。熵是對隨

量不確定的度量。隨熵的基本性質(zhì)(1)

H

(

X

)

0

;(2)

H

(X

)

log

|

X

|,等號成立當(dāng)且僅當(dāng)對X

的所有取值x

有P(X

x)|

X

|1。聯(lián)合熵是借助聯(lián)合概率分布對熵的自然推廣。兩個離散型隨

X

Y

的聯(lián)合熵的定義為:X

,Y X

,YP(

X

,Y

)H(X,

Y)=

P(

X

,Y

)

log

1

P(

X

,Y

)

log

P(

X

,Y

)XP(

X

|

Y

y)條件熵是利用條件概率分布對熵的一個延伸。隨果知道另一個隨給定Y=y

時X

的條件熵為H

(X

|

Y

y)

P(X

|

Y

y)log

1

。熵H(X)度量的是隨定性。4.2熵(信息論)Y

YXy

yP(

X

|

Y

y)當(dāng)y

變化時,H

(X

|

Y

y)也會發(fā)生改變。由于知道Y

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論