人工智能經(jīng)典電子書(shū)3.貝葉斯分類器-貝葉斯網(wǎng)絡(luò)與樸素貝葉斯分類器_第1頁(yè)
人工智能經(jīng)典電子書(shū)3.貝葉斯分類器-貝葉斯網(wǎng)絡(luò)與樸素貝葉斯分類器_第2頁(yè)
人工智能經(jīng)典電子書(shū)3.貝葉斯分類器-貝葉斯網(wǎng)絡(luò)與樸素貝葉斯分類器_第3頁(yè)
人工智能經(jīng)典電子書(shū)3.貝葉斯分類器-貝葉斯網(wǎng)絡(luò)與樸素貝葉斯分類器_第4頁(yè)
人工智能經(jīng)典電子書(shū)3.貝葉斯分類器-貝葉斯網(wǎng)絡(luò)與樸素貝葉斯分類器_第5頁(yè)
已閱讀5頁(yè),還剩48頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

貝葉斯網(wǎng)絡(luò)與樸素貝葉斯貝葉斯分類器學(xué)習(xí)大綱8月25日:1.初識(shí)貝葉斯分類器2.最大似然估計(jì)和貝葉斯參數(shù)估計(jì)9月1日:3.貝葉斯網(wǎng)絡(luò)與樸素貝葉斯分類器實(shí)戰(zhàn)9月8日:4.EM算法實(shí)戰(zhàn)一、貝葉斯法則問(wèn)題如何判定一個(gè)人是好人還是壞人?好人總做一些好事?……壞人總做一些壞事?……人的主觀認(rèn)識(shí)一、貝葉斯法則引言當(dāng)你無(wú)法準(zhǔn)確的熟悉一個(gè)事物的本質(zhì)時(shí),你可以依靠與事物特定本質(zhì)相關(guān)的事件出現(xiàn)的次數(shù)來(lái)判斷其本質(zhì)屬性的概率。如果你看到一個(gè)人總是做一些好事,那這個(gè)人就越可能是一個(gè)好人。數(shù)學(xué)語(yǔ)言表達(dá)就是:支持某項(xiàng)屬性的事件發(fā)生得越多,則該屬性成立的可能性就愈大貝葉斯法則4一、貝葉斯法則起源貝葉斯法則來(lái)源于英國(guó)數(shù)學(xué)家貝葉斯(ThomasBayes)在1763年發(fā)表的著作《論有關(guān)機(jī)遇問(wèn)題的求解》。5貝葉斯法則最初是一種用于概率論基礎(chǔ)理論的歸納推理方法,但隨后被一些統(tǒng)計(jì)學(xué)學(xué)者發(fā)展為一種系統(tǒng)的統(tǒng)計(jì)推斷方法,運(yùn)用到統(tǒng)計(jì)決策、統(tǒng)計(jì)推斷、統(tǒng)計(jì)估算等諸多領(lǐng)域。一、貝葉斯法則貝葉斯公式貝葉斯公式定義一假定某個(gè)過(guò)程有若干可能的前提條件

,則表示人們事先對(duì)前提條件Xi出現(xiàn)的可能性大小的估計(jì),即先驗(yàn)概率。定義二假定某個(gè)過(guò)程得到了結(jié)果A,則

表示在出現(xiàn)結(jié)果A的前提下,對(duì)前提條件Xi出現(xiàn)的可能性大小的估計(jì),即后驗(yàn)概率。6一、貝葉斯法則算例

全壟斷市場(chǎng)條件下,只有一家企業(yè)M提供產(chǎn)品和服務(wù)。企業(yè)K考慮是否進(jìn)入該市場(chǎng)。同時(shí),企業(yè)M為阻止K進(jìn)入該市場(chǎng)采取了相應(yīng)的投資行為,而K能否進(jìn)入該市場(chǎng)完全取決于M為阻止其進(jìn)入所花費(fèi)的成本大小。

假設(shè)K并不知道原壟斷者M(jìn)是屬于高阻撓成本類型還是低阻撓成本類型,但能確定,如果M屬于高阻撓成本類型,K進(jìn)入市場(chǎng)時(shí)M進(jìn)行阻撓的概率是20%;如果M屬于低阻撓成本類型,K進(jìn)入市場(chǎng)時(shí)M進(jìn)行阻撓的概率是100%。

現(xiàn)設(shè)K認(rèn)為M屬于高阻撓成本企業(yè)的概率為70%,而在K進(jìn)入市場(chǎng)后,M確實(shí)進(jìn)行了商業(yè)阻撓。試以企業(yè)K的角度,判斷企業(yè)M為高阻撓成本類型的概率。7一、貝葉斯法則算例利用貝葉斯公式建模:前提條件:設(shè)M是高阻撓成本類型為X1,低阻撓成本類型為X2;結(jié)果:M對(duì)K進(jìn)行阻撓為A;所求概率即為在已知結(jié)果A的情況下,推斷條件為X1的后驗(yàn)概率;已知為0.2,為1,P(X1)為0.7,P(X2)為0.3。8一、貝葉斯法則算例即,根據(jù)實(shí)際市場(chǎng)的運(yùn)作情況,企業(yè)K可判斷企業(yè)M為高阻撓成本類型的概率為0.32,換句話說(shuō),企業(yè)M更可能屬于低阻撓成本類型。9根據(jù)貝葉斯公式可計(jì)算:二、貝葉斯網(wǎng)絡(luò)引言貝葉斯網(wǎng)絡(luò)又稱為信度網(wǎng)絡(luò),是基于概率推理的圖形化網(wǎng)絡(luò)。它是貝葉斯法則的擴(kuò)展,而貝葉斯公式則是這個(gè)概率網(wǎng)絡(luò)的基礎(chǔ)。貝葉斯網(wǎng)絡(luò)適用于表達(dá)和分析不確定性和概率性事件,應(yīng)用于有條件地依賴多種控制因素的決策過(guò)程,可以從不完全、不精確或不確定的知識(shí)或信息中做出推理。10二、貝葉斯網(wǎng)絡(luò)引言貝葉斯網(wǎng)絡(luò)由JudeaPearl于1988年提出,最初主要用于處理人工智能中的不確定信息。隨后,逐步成為處理不確定性信息技術(shù)的主流,并在文本分類、字母識(shí)別、經(jīng)濟(jì)預(yù)測(cè)、醫(yī)療診斷、工業(yè)控制等領(lǐng)域得到了廣泛的應(yīng)用。目前,貝葉斯網(wǎng)絡(luò)是不確定知識(shí)表達(dá)和推理領(lǐng)域最有效的理論模型之一。11二、貝葉斯網(wǎng)絡(luò)定義符號(hào)B(D,G)表示一個(gè)貝葉斯網(wǎng)絡(luò),包括兩個(gè)部分:一個(gè)有向無(wú)環(huán)圖(DirectedAcyclicGraph,DAG)。它由代表變量的節(jié)點(diǎn)及連接這些節(jié)點(diǎn)的有向邊構(gòu)成。其中,節(jié)點(diǎn)代表隨機(jī)變量,可以是任何問(wèn)題的抽象,如:測(cè)試值、觀測(cè)現(xiàn)象、意見(jiàn)征詢等;節(jié)點(diǎn)間的有向邊代表了節(jié)點(diǎn)間的互相關(guān)系(由父節(jié)點(diǎn)指向其后代節(jié)點(diǎn))。12ABC二、貝葉斯網(wǎng)絡(luò)定義一個(gè)節(jié)點(diǎn)與節(jié)點(diǎn)之間的條件概率表(ConditionalProbabilityTable,CPT)。如果節(jié)點(diǎn)沒(méi)有任何父節(jié)點(diǎn),則該節(jié)點(diǎn)概率為其先驗(yàn)概率。否則,該節(jié)點(diǎn)概率為其在父節(jié)點(diǎn)條件下的后驗(yàn)概率。13實(shí)際類型

ABCDA0.80.10.050.05B0.20.650.10.05C0.250.10.600.05D0.050.10.150.7目標(biāo)類型二、貝葉斯網(wǎng)絡(luò)定義數(shù)學(xué)定義:貝葉斯網(wǎng)絡(luò)B(D,P),D表示一個(gè)有向無(wú)環(huán)圖,

是條件概率分布的集合,其中

是D中節(jié)點(diǎn)Xi的父節(jié)點(diǎn)集合。在一個(gè)貝葉斯網(wǎng)絡(luò)中,節(jié)點(diǎn)集合,則其聯(lián)合概率分布P(X)是此貝葉斯網(wǎng)絡(luò)中所有條件分布的乘積:14二、貝葉斯網(wǎng)絡(luò)定義這是一個(gè)最簡(jiǎn)單的包含3個(gè)節(jié)點(diǎn)的貝葉斯網(wǎng)絡(luò)。其中,是節(jié)點(diǎn)A的概率分布(先驗(yàn)概率),

為節(jié)點(diǎn)B,C的概率分布(后驗(yàn)概率)15ABC二、貝葉斯網(wǎng)絡(luò)研究前景貝葉斯網(wǎng)絡(luò)的特性:貝葉斯網(wǎng)絡(luò)本身是一種不定性因果關(guān)聯(lián)模型,它將多元知識(shí)圖解可視化,貼切的蘊(yùn)含了網(wǎng)絡(luò)節(jié)點(diǎn)變量之間的因果關(guān)系及條件相關(guān)關(guān)系;貝葉斯網(wǎng)絡(luò)具有強(qiáng)大的不確定性問(wèn)題的處理能力,它用條件概率表達(dá)各個(gè)信息要素之間的相關(guān)關(guān)系,能在有限的、不完整的、不確定的信息條件下進(jìn)行知識(shí)學(xué)習(xí)和推理;貝葉斯網(wǎng)絡(luò)能有效的進(jìn)行多源信息表達(dá)與融合,可將故障診斷與維修決策相關(guān)的各種信息納入到網(wǎng)絡(luò)結(jié)構(gòu)中,并按節(jié)點(diǎn)的方式統(tǒng)一進(jìn)行處理與信息融合。16二、貝葉斯網(wǎng)絡(luò)研究前景貝葉斯網(wǎng)絡(luò)的缺陷研究如何根據(jù)數(shù)據(jù)和專家知識(shí)高效、準(zhǔn)確的建立貝葉斯網(wǎng)絡(luò),是十多年來(lái)研究的熱點(diǎn)之一,也是貝葉斯網(wǎng)絡(luò)更加廣泛、有效地用于實(shí)際問(wèn)題領(lǐng)域的關(guān)鍵和焦點(diǎn)之一。目前對(duì)于這一類學(xué)習(xí)問(wèn)題,主要有基于打分—搜索的學(xué)習(xí)方法和基于依賴分析的學(xué)習(xí)方法,但前者存在搜索空間巨大,可能收斂于局部最優(yōu)解等問(wèn)題,后者則存在節(jié)點(diǎn)之間的獨(dú)立性或條件獨(dú)立性判斷困難,高階條件獨(dú)立性檢驗(yàn)的結(jié)果不夠可靠等問(wèn)題。17二、貝葉斯網(wǎng)絡(luò)研究前景貝葉斯網(wǎng)絡(luò)與馬爾科夫鏈馬爾科夫鏈蒙特卡羅(MarkovChainMonteCarlo,MCMC)方法是源于統(tǒng)計(jì)物理學(xué)和生物學(xué)的一類重要的隨機(jī)抽樣方法,該方法廣泛應(yīng)用于機(jī)器學(xué)習(xí)、統(tǒng)計(jì)和決策分析等領(lǐng)域的高維問(wèn)題的推理和求積運(yùn)算。MHS(Metropolis-HastingSampler)抽樣算法作為MCMC方法中常用的抽樣方法之一,通過(guò)構(gòu)建一條馬爾科夫鏈,模擬一個(gè)收斂于Boltzmann分布的系統(tǒng)。將MHS抽樣算法引入貝葉斯網(wǎng)絡(luò),能夠較好的解決進(jìn)化學(xué)習(xí)方法中由于個(gè)體趨同而產(chǎn)生的早熟問(wèn)題,保證算法的學(xué)習(xí)精度。18二、貝葉斯網(wǎng)絡(luò)研究前景貝葉斯網(wǎng)絡(luò)與馬爾科夫鏈此外,針對(duì)其計(jì)算精度低、收斂速度較慢的不足,隨機(jī)擬MCMC方法也具有一定的優(yōu)越性。不過(guò),該算法存在的收斂速度慢和收斂性判斷困難等問(wèn)題仍未能得到有效解決。因此,如何更有效地將MCMC方法用于貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)與推理學(xué)習(xí)成為近年來(lái)重要的研究方向之一。19三、樸素貝葉斯引言貝葉斯網(wǎng)絡(luò)與樸素貝葉斯20貝葉斯法則數(shù)學(xué)基礎(chǔ)貝葉斯網(wǎng)絡(luò)模型樸素貝葉斯具體方法三、樸素貝葉斯貝葉斯分類器貝葉斯分類器是用于分類的貝葉斯網(wǎng)絡(luò)。該網(wǎng)絡(luò)中通常包含類節(jié)點(diǎn)C,其取值來(lái)自類集合;還包含一組節(jié)點(diǎn)

,表示用于進(jìn)行分類的特征屬性。對(duì)于貝葉斯網(wǎng)絡(luò)分類器,若某一待分類的樣本D,其分類特征值為,則樣本D屬于類別Ci的概率,應(yīng)滿足:21三、樸素貝葉斯貝葉斯分類器由貝葉斯公式可以得到:其中,

可由領(lǐng)域?qū)<业慕?jīng)驗(yàn)獲得,而和

的計(jì)算較為困難。22貝葉斯分類器的進(jìn)一步簡(jiǎn)化如何進(jìn)行?三、樸素貝葉斯貝葉斯分類器貝葉斯網(wǎng)絡(luò)分類器進(jìn)行分類的兩個(gè)階段23階段一貝葉斯網(wǎng)絡(luò)分類器的學(xué)習(xí)(結(jié)構(gòu)學(xué)習(xí)和CPT學(xué)習(xí))階段二貝葉斯網(wǎng)絡(luò)分類器的推理(計(jì)算類節(jié)點(diǎn)的條件概率,對(duì)數(shù)據(jù)進(jìn)行分類)兩個(gè)階段的時(shí)間復(fù)雜度均取決于特征值間的依賴程度三、樸素貝葉斯貝葉斯分類器根據(jù)對(duì)特征值間不同關(guān)聯(lián)程度的假設(shè),可以得出各種貝葉斯分類器,其中較典型、研究較深入的貝葉斯分類器主要有四種,分別是:NB(Na?veBayes)TAN(

TreeAugmentedNa?ve-Bayes)BAN(BNAugmentedNa?ve-Bayes)GBN(GlobalBayesianNetworks)24三、樸素貝葉斯引入樸素貝葉斯(Na?veBayes)算法是貝葉斯分類器中研究較多,使用較廣的一種,在許多場(chǎng)合,樸素貝葉斯的分類算法可以與決策樹(shù)和神經(jīng)網(wǎng)絡(luò)分類算法相媲美。樸素貝葉斯分類器的基礎(chǔ):假設(shè)一個(gè)指定類別中各個(gè)屬性的取值是相互獨(dú)立的,即在給定目標(biāo)值的情況下,觀察到聯(lián)合的

的概率正好是對(duì)每個(gè)單獨(dú)屬性的概率乘積。25三、樸素貝葉斯方法26考慮到是一個(gè)取大的過(guò)程,則對(duì)于結(jié)果不產(chǎn)生影響,故可以看作系數(shù)a。則,原公式可以簡(jiǎn)化。貝葉斯分類器樸素貝葉斯簡(jiǎn)化三、樸素貝葉斯研究現(xiàn)狀樸素貝葉斯分類器由Duda和Hart于1937年提出,它是一個(gè)簡(jiǎn)單有效而且在實(shí)際使用中比較成功的分類器?,F(xiàn)在,被廣泛的運(yùn)用在數(shù)據(jù)挖掘、模式識(shí)別、故障診斷等眾多領(lǐng)域。樸素貝葉斯算法有很多優(yōu)點(diǎn):應(yīng)用范圍廣泛;可以很好的擴(kuò)展到超大規(guī)模問(wèn)題,并且不需要通過(guò)搜索來(lái)尋找最大后驗(yàn)概率的樸素貝葉斯假設(shè);可以輕松地應(yīng)付有噪聲的訓(xùn)練數(shù)據(jù),并在適當(dāng)?shù)臅r(shí)候給出概率預(yù)測(cè)。27三、樸素貝葉斯研究現(xiàn)狀樸素貝葉斯分類器假設(shè)一個(gè)指定類別中各屬性的取值是相互獨(dú)立的。這一假設(shè)可以幫助有效減少在構(gòu)造貝葉斯分類器時(shí)所需要進(jìn)行的計(jì)算量。不過(guò),實(shí)際的應(yīng)用領(lǐng)域中,各個(gè)屬性相互獨(dú)立的假設(shè)很難成立,這也從很大程度上影響了樸素貝葉斯分類器的分類能力。當(dāng)前,半樸素貝葉斯分類器、相關(guān)屬性刪除、概率值條件、貝葉斯樹(shù)以及懶惰貝葉斯規(guī)則方法,都是對(duì)樸素貝葉斯算法的改進(jìn)與推廣,并在不同的領(lǐng)域取得了顯著的成果。28四、算例系統(tǒng)控制中的應(yīng)用在信息技術(shù)迅速發(fā)展及其在軍事領(lǐng)域廣泛應(yīng)用的條件下,防空作戰(zhàn)環(huán)境變得愈加復(fù)雜,也給現(xiàn)代防空作戰(zhàn)中的空情探測(cè)帶來(lái)了嚴(yán)峻的挑戰(zhàn)。由于受到自身性能、電子干擾等因素的影響,不同的空情雷達(dá)對(duì)同一空中目標(biāo)的探測(cè)的準(zhǔn)確度不同,從而影響了防控偵察預(yù)警信息的準(zhǔn)確性,應(yīng)用貝葉斯網(wǎng)絡(luò)算法探討計(jì)算不同雷達(dá)在探測(cè)同一目標(biāo)的可信度,通過(guò)數(shù)據(jù)融合推斷出空中目標(biāo)的類型,是貝葉斯網(wǎng)絡(luò)算法在系統(tǒng)可靠性領(lǐng)域的重要應(yīng)用之一。29四、算例系統(tǒng)控制中的應(yīng)用例4.1假設(shè)兩個(gè)空情雷達(dá)探測(cè)同一目標(biāo),目標(biāo)可能的類型:A.大型戰(zhàn)機(jī)、B.小型機(jī)密密集編隊(duì)、C.小型戰(zhàn)績(jī)、D.巡航導(dǎo)彈。在時(shí)刻t,一號(hào)空情雷達(dá)報(bào)告的條件概率表如表所示。30

雷達(dá)報(bào)告

ABCDA0.80.10.050.05B0.20.650.10.05C0.250.10.600.05D0.050.10.150.7實(shí)際類型四、算例系統(tǒng)控制中的應(yīng)用根據(jù)戰(zhàn)前分析,假定權(quán)威人員預(yù)測(cè)戰(zhàn)場(chǎng)中在某個(gè)作戰(zhàn)階段各種空襲兵器運(yùn)用的概率為:那么在一號(hào)空情雷達(dá)報(bào)告信息中,報(bào)告目標(biāo)類型大型戰(zhàn)機(jī)、小型機(jī)密集編隊(duì)、小型戰(zhàn)機(jī)、巡航導(dǎo)彈的概率分別為:P(A)、P(B)、P(C)、P(D)。

31四、算例系統(tǒng)控制中的應(yīng)用根據(jù)貝葉斯公式,則一號(hào)空情雷達(dá)報(bào)告目標(biāo)類型為A的條件下,實(shí)際目標(biāo)類型為A、B、C、D的條件概率分別為:32表示傳感器報(bào)告目標(biāo)為類型A的條件下,實(shí)際目標(biāo)為A的概率;表示實(shí)際目標(biāo)類型為A的條件下,傳感器報(bào)告目標(biāo)類型為A的概率;P(A)表示存在類型為A的目標(biāo)的先驗(yàn)概率;表示所有傳感器報(bào)告目標(biāo)類型為A的概率之和,即。四、算例系統(tǒng)控制中的應(yīng)用同樣可以計(jì)算出一號(hào)空情雷達(dá)報(bào)告類型分別為B、C、D的條件下,實(shí)際目標(biāo)類型的條件概率,如下表所示:33

雷達(dá)報(bào)告

ABCDA0.4600.3800.0960.048B0.0390.8600.0260.066C0.0200.3130.3750.099D0.0360.1190.2380.833實(shí)際類型四、算例系統(tǒng)控制中的應(yīng)用于是,一號(hào)空情雷達(dá)報(bào)告假設(shè)目標(biāo)類型為A的可信度為:同理可以得到第一號(hào)傳感器報(bào)告假設(shè)目標(biāo)類型為B、C、D的可信度,即

:34為了提高探測(cè)的準(zhǔn)確性,一般要設(shè)置一個(gè)可信度閾值,將計(jì)算出的可信度值與可信度閾值比較,看目標(biāo)識(shí)別的可信度是否達(dá)到要求。假設(shè),則以上的可信度值沒(méi)有一個(gè)達(dá)到要求,因此需要重新進(jìn)行識(shí)別,將以上計(jì)算的可信度值作為下一次計(jì)算的先驗(yàn)概率。四、算例系統(tǒng)控制中的應(yīng)用現(xiàn)略去計(jì)算步驟,可得到基于兩個(gè)傳感器報(bào)告的目標(biāo)類型為A、B、C、D的可信度為:。同樣假設(shè),則可以知道B的可信度大于閾值,則可判定,空中目標(biāo)類型為B。35四、算例信息檢索中的應(yīng)用貝葉斯網(wǎng)絡(luò)檢索模型可以計(jì)算術(shù)語(yǔ)與術(shù)語(yǔ),術(shù)語(yǔ)與文檔之間的條件概率。下圖給出了一種貝葉斯網(wǎng)絡(luò)檢索模型,利用同義詞對(duì)查詢術(shù)語(yǔ)進(jìn)行擴(kuò)展,用于信息檢索領(lǐng)域。36QT2T3T4T5R1R2R3R4R5D1T1D2四、算例信息檢索中的應(yīng)用假設(shè)有文檔集合d表示為;這些文檔的索引術(shù)語(yǔ)集合r表示為。右圖即為貝葉斯網(wǎng)絡(luò)模型擴(kuò)展的拓?fù)浣Y(jié)構(gòu),其中Q被定義為查詢術(shù)語(yǔ)節(jié)點(diǎn),定義為文檔節(jié)點(diǎn),定義為索引術(shù)語(yǔ)節(jié)點(diǎn),有一條指向被它索引的文檔的弧。37QT2T3T4T5R1R2R3R4R5D1T1D2四、算例信息檢索中的應(yīng)用用兩個(gè)術(shù)語(yǔ)層來(lái)挖掘文檔索引術(shù)語(yǔ)之間的關(guān)系,完全復(fù)制初始術(shù)語(yǔ)節(jié)點(diǎn)層r,得到另一個(gè)屬于節(jié)點(diǎn)層t。對(duì)于查詢術(shù)語(yǔ)Q,在索引術(shù)語(yǔ)層t查找他的同義詞,則從Q到有一條??;從指向的弧,就是從指向,其中總有從指向的弧,是在一定衡量方法38QT2T3T4T5R1R2R3R4R5D1T1D2下與最相關(guān)的術(shù)語(yǔ)集合。四、算例信息檢索中的應(yīng)用在確定了貝葉斯網(wǎng)絡(luò)模型之后,通過(guò)計(jì)算索引術(shù)語(yǔ)與術(shù)語(yǔ)之間、索引術(shù)語(yǔ)與文檔之間的條件概率與文檔節(jié)點(diǎn)的后驗(yàn)概率,就能夠獲得全部文檔節(jié)點(diǎn)的概率,并根據(jù)概率大小排序獲得與查詢節(jié)點(diǎn)最匹配的檢索結(jié)果。39四、算例信息檢索中的應(yīng)用考慮一種更簡(jiǎn)單的情況,即在查詢節(jié)點(diǎn)和文檔節(jié)點(diǎn)以外,只有一層術(shù)語(yǔ)節(jié)點(diǎn)的簡(jiǎn)單貝葉斯網(wǎng)絡(luò)檢索模型,如右圖所示。40QT2T3T4T5D1T1D2D3T6四、算例信息檢索中的應(yīng)用假設(shè)查詢節(jié)點(diǎn)為Q,術(shù)語(yǔ)節(jié)點(diǎn)集合為

,文檔節(jié)點(diǎn)集合為。根據(jù)圖中弧線所對(duì)應(yīng)的關(guān)系,計(jì)算查詢節(jié)點(diǎn)Q更接近于文檔節(jié)點(diǎn)集合中的哪一個(gè)?要求查詢節(jié)點(diǎn)

更接近哪一個(gè)文檔節(jié)點(diǎn),即分別求

,選擇其中概率值最大的文檔節(jié)點(diǎn)為所求。41四、算例信息檢索中的應(yīng)用根據(jù)樸素貝葉斯算法的原則,所有術(shù)語(yǔ)節(jié)點(diǎn)相互獨(dú)立。且由圖可知,除去查詢節(jié)點(diǎn)層,所有術(shù)語(yǔ)節(jié)點(diǎn)均為根節(jié)點(diǎn)。所以定義每一個(gè)術(shù)語(yǔ)相關(guān)的先驗(yàn)概率,則不相關(guān)的概率,其中M為集合中術(shù)語(yǔ)的數(shù)目(本例中M=6)。一般情況下,任意根術(shù)語(yǔ)節(jié)點(diǎn)相關(guān)的先驗(yàn)概率很小,且與索引術(shù)語(yǔ)節(jié)點(diǎn)集合的規(guī)模成反比。42四、算例信息檢索中的應(yīng)用對(duì)于文檔節(jié)點(diǎn)可知,任意文檔節(jié)點(diǎn)的父節(jié)點(diǎn)集合由該文檔的所有索引術(shù)語(yǔ)節(jié)點(diǎn)組成,即。令為

中每個(gè)術(shù)語(yǔ)變量取值(相關(guān)或不相關(guān))后的一個(gè)組合,利用一般正則模型的概率函數(shù),定義文檔相關(guān)的條件概率為43四、算例信息檢索中的應(yīng)用其中,為文檔的索引術(shù)語(yǔ)的權(quán)重,,且。這意味著

中相關(guān)術(shù)語(yǔ)越多,的相關(guān)概率值就越大。關(guān)于權(quán)重的計(jì)算,不作介紹,僅給出相應(yīng)數(shù)值如下表:T1T2T3T4T5T6D10.20.150.050.10.350.15D20.30.050.150.20.150.15D30.050.350.20.050.150.2四、算例信息檢索中的應(yīng)用所以根據(jù)貝葉斯公式,可以得到下式:由于術(shù)語(yǔ)節(jié)點(diǎn)相互獨(dú)立,根據(jù)條件獨(dú)立性得:如果,則。否則,

。那么,上式可化簡(jiǎn)為:四、算例信息檢索中的應(yīng)用四、算例信息檢索中的應(yīng)用則,代入數(shù)值得:四、算例信息檢索中的應(yīng)用

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論