![貝葉斯推斷及其互聯(lián)網(wǎng)應(yīng)用(一):定理簡(jiǎn)介_(kāi)第1頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/29/1963e057-0d7a-49c5-a49c-386b76d1f4ee/1963e057-0d7a-49c5-a49c-386b76d1f4ee1.gif)
![貝葉斯推斷及其互聯(lián)網(wǎng)應(yīng)用(一):定理簡(jiǎn)介_(kāi)第2頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/29/1963e057-0d7a-49c5-a49c-386b76d1f4ee/1963e057-0d7a-49c5-a49c-386b76d1f4ee2.gif)
![貝葉斯推斷及其互聯(lián)網(wǎng)應(yīng)用(一):定理簡(jiǎn)介_(kāi)第3頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/29/1963e057-0d7a-49c5-a49c-386b76d1f4ee/1963e057-0d7a-49c5-a49c-386b76d1f4ee3.gif)
![貝葉斯推斷及其互聯(lián)網(wǎng)應(yīng)用(一):定理簡(jiǎn)介_(kāi)第4頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/29/1963e057-0d7a-49c5-a49c-386b76d1f4ee/1963e057-0d7a-49c5-a49c-386b76d1f4ee4.gif)
![貝葉斯推斷及其互聯(lián)網(wǎng)應(yīng)用(一):定理簡(jiǎn)介_(kāi)第5頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/29/1963e057-0d7a-49c5-a49c-386b76d1f4ee/1963e057-0d7a-49c5-a49c-386b76d1f4ee5.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、作者: 阮一峰日期: 2011年8月25日一年前的這個(gè)時(shí)候,我正在翻譯Paul Graham的黑客與畫(huà)家。那本書(shū)的第八章,寫(xiě)了一個(gè)非常具體的技術(shù)問(wèn)題-如何使用貝葉斯推斷過(guò)濾垃圾郵件(英文版)。我沒(méi)完全看懂那一章。當(dāng)時(shí)是硬著頭皮,按照字面意思把它譯出來(lái)的。雖然譯文質(zhì)量還可以,但是心里很不舒服,下決心一定要搞懂它。一年過(guò)去了,我讀了一些概率論文獻(xiàn),逐漸發(fā)現(xiàn)貝葉斯推斷并不難。原理的部分相當(dāng)容易理解,不需要用到高等數(shù)學(xué)。下面就是我的學(xué)習(xí)筆記。需要聲明的是,我并不是這方面的專家,數(shù)學(xué)其實(shí)是我的弱項(xiàng)。歡迎大家提出寶貴意見(jiàn),讓我們共同學(xué)習(xí)和提高。=貝葉斯推斷及其互聯(lián)網(wǎng)應(yīng)用作者:阮一峰一、
2、什么是貝葉斯推斷貝葉斯推斷(Bayesian inference)是一種統(tǒng)計(jì)學(xué)方法,用來(lái)估計(jì)統(tǒng)計(jì)量的某種性質(zhì)。它是貝葉斯定理(Bayes' theorem)的應(yīng)用。英國(guó)數(shù)學(xué)家托馬斯·貝葉斯(Thomas Bayes)在1763年發(fā)表的一篇論文中,首先提出了這個(gè)定理。貝葉斯推斷與其他統(tǒng)計(jì)學(xué)推斷方法截然不同。它建立在主觀判斷的基礎(chǔ)上,也就是說(shuō),你可以不需要客觀證據(jù),先估計(jì)一個(gè)值,然后根據(jù)實(shí)際結(jié)果不斷修正。正是因?yàn)樗闹饔^性太強(qiáng),曾經(jīng)遭到許多統(tǒng)計(jì)學(xué)家的詬病。貝葉斯推斷需要大量的計(jì)算,因此歷史上很長(zhǎng)一段時(shí)間,無(wú)法得到廣泛應(yīng)用。只有計(jì)算機(jī)誕生以后,它才獲得真正的重視。人們發(fā)現(xiàn),許多統(tǒng)計(jì)
3、量是無(wú)法事先進(jìn)行客觀判斷的,而互聯(lián)網(wǎng)時(shí)代出現(xiàn)的大型數(shù)據(jù)集,再加上高速運(yùn)算能力,為驗(yàn)證這些統(tǒng)計(jì)量提供了方便,也為應(yīng)用貝葉斯推斷創(chuàng)造了條件,它的威力正在日益顯現(xiàn)。二、貝葉斯定理要理解貝葉斯推斷,必須先理解貝葉斯定理。后者實(shí)際上就是計(jì)算"條件概率"的公式。所謂"條件概率"(Conditional probability),就是指在事件B發(fā)生的情況下,事件A發(fā)生的概率,用P(A|B)來(lái)表示。根據(jù)文氏圖,可以很清楚地看到在事件B發(fā)生的情況下,事件A發(fā)生的概率就是P(AB)除以P(B)。因此,同理可得,所以,即這就是條件概率的計(jì)算公式。三、全概率公式由于后面要用到,
4、所以除了條件概率以外,這里還要推導(dǎo)全概率公式。假定樣本空間S,是兩個(gè)事件A與A'的和。上圖中,紅色部分是事件A,綠色部分是事件A',它們共同構(gòu)成了樣本空間S。在這種情況下,事件B可以劃分成兩個(gè)部分。即在上一節(jié)的推導(dǎo)當(dāng)中,我們已知所以,這就是全概率公式。它的含義是,如果A和A'構(gòu)成樣本空間的一個(gè)劃分,那么事件B的概率,就等于A和A'的概率分別乘以B對(duì)這兩個(gè)事件的條件概率之和。將這個(gè)公式代入上一節(jié)的條件概率公式,就得到了條件概率的另一種寫(xiě)法:四、貝葉斯推斷的含義對(duì)條件概率公式進(jìn)行變形,可以得到如下形式:我們把P(A)稱為"先驗(yàn)概率"(Prior
5、probability),即在B事件發(fā)生之前,我們對(duì)A事件概率的一個(gè)判斷。P(A|B)稱為"后驗(yàn)概率"(Posterior probability),即在B事件發(fā)生之后,我們對(duì)A事件概率的重新評(píng)估。P(B|A)/P(B)稱為"可能性函數(shù)"(Likelyhood),這是一個(gè)調(diào)整因子,使得預(yù)估概率更接近真實(shí)概率。所以,條件概率可以理解成下面的式子:后驗(yàn)概率先驗(yàn)概率 調(diào)整因子這就是貝葉斯推斷的含義。我們先預(yù)估一個(gè)"先驗(yàn)概率",然后加入實(shí)驗(yàn)結(jié)果,看這個(gè)實(shí)驗(yàn)到底是增強(qiáng)還是削弱了"先驗(yàn)概率",由此得到更接近事實(shí)的"后
6、驗(yàn)概率"。在這里,如果"可能性函數(shù)"P(B|A)/P(B)>1,意味著"先驗(yàn)概率"被增強(qiáng),事件A的發(fā)生的可能性變大;如果"可能性函數(shù)"=1,意味著B(niǎo)事件無(wú)助于判斷事件A的可能性;如果"可能性函數(shù)"<1,意味著"先驗(yàn)概率"被削弱,事件A的可能性變小。五、【例子】水果糖問(wèn)題為了加深對(duì)貝葉斯推斷的理解,我們看兩個(gè)例子。第一個(gè)例子。兩個(gè)一模一樣的碗,一號(hào)碗有30顆水果糖和10顆巧克力糖,二號(hào)碗有水果糖和巧克力糖各20顆?,F(xiàn)在隨機(jī)選擇一個(gè)碗,從中摸出一顆糖,發(fā)現(xiàn)是水果糖。請(qǐng)問(wèn)這顆水果
7、糖來(lái)自一號(hào)碗的概率有多大?我們假定,H1表示一號(hào)碗,H2表示二號(hào)碗。由于這兩個(gè)碗是一樣的,所以P(H1)=P(H2),也就是說(shuō),在取出水果糖之前,這兩個(gè)碗被選中的概率相同。因此,P(H1)=0.5,我們把這個(gè)概率就叫做"先驗(yàn)概率",即沒(méi)有做實(shí)驗(yàn)之前,來(lái)自一號(hào)碗的概率是0.5。再假定,E表示水果糖,所以問(wèn)題就變成了在已知E的情況下,來(lái)自一號(hào)碗的概率有多大,即求P(H1|E)。我們把這個(gè)概率叫做"后驗(yàn)概率",即在E事件發(fā)生之后,對(duì)P(H1)的修正。根據(jù)條件概率公式,得到已知,P(H1)等于0.5,P(E|H1)為一號(hào)碗中取出水果糖的概率,等于0.75,那么求
8、出P(E)就可以得到答案。根據(jù)全概率公式,所以,將數(shù)字代入原方程,得到這表明,來(lái)自一號(hào)碗的概率是0.6。也就是說(shuō),取出水果糖之后,H1事件的可能性得到了增強(qiáng)。六、【例子】假陽(yáng)性問(wèn)題第二個(gè)例子是一個(gè)醫(yī)學(xué)的常見(jiàn)問(wèn)題,與現(xiàn)實(shí)生活關(guān)系緊密。已知某種疾病的發(fā)病率是0.001,即1000人中會(huì)有1個(gè)人得病。現(xiàn)有一種試劑可以檢驗(yàn)患者是否得病,它的準(zhǔn)確率是0.99,即在患者確實(shí)得病的情況下,它有99%的可能呈現(xiàn)陽(yáng)性。它的誤報(bào)率是5%,即在患者沒(méi)有得病的情況下,它有5%的可能呈現(xiàn)陽(yáng)性?,F(xiàn)有一個(gè)病人的檢驗(yàn)結(jié)果為陽(yáng)性,請(qǐng)問(wèn)他確實(shí)得病的可能性有多大?假定A事件表示得病,那么P(A)為0.001。這就是"先驗(yàn)
9、概率",即沒(méi)有做試驗(yàn)之前,我們預(yù)計(jì)的發(fā)病率。再假定B事件表示陽(yáng)性,那么要計(jì)算的就是P(A|B)。這就是"后驗(yàn)概率",即做了試驗(yàn)以后,對(duì)發(fā)病率的估計(jì)。根據(jù)條件概率公式,用全概率公式改寫(xiě)分母,將數(shù)字代入,我們得到了一個(gè)驚人的結(jié)果,P(A|B)約等于0.019。也就是說(shuō),即使檢驗(yàn)呈現(xiàn)陽(yáng)性,病人得病的概率,也只是從0.1%增加到了2%左右。這就是所謂的"假陽(yáng)性",即陽(yáng)性結(jié)果完全不足以說(shuō)明病人得病。為什么會(huì)這樣?為什么這種檢驗(yàn)的準(zhǔn)確率高達(dá)99%,但是可信度卻不到2%?答案是與它的誤報(bào)率太高有關(guān)。(【習(xí)題】如果誤報(bào)率從5%降為1%,請(qǐng)問(wèn)病人得病的概率會(huì)變成
10、多少?)有興趣的朋友,還可以算一下"假陰性"問(wèn)題,即檢驗(yàn)結(jié)果為陰性,但是病人確實(shí)得病的概率有多大。然后問(wèn)自己,"假陽(yáng)性"和"假陰性",哪一個(gè)才是醫(yī)學(xué)檢驗(yàn)的主要風(fēng)險(xiǎn)?=關(guān)于貝葉斯推斷的原理部分,今天就講到這里。下一次,將介紹如何使用貝葉斯推斷過(guò)濾垃圾郵件。(未完待續(xù))貝葉斯推斷及其互聯(lián)網(wǎng)應(yīng)用(二):過(guò)濾垃圾郵件作者: 阮一峰日期: 2011年8月27日上一次,我介紹了貝葉斯推斷的原理,今天講如何將它用于垃圾郵件過(guò)濾。=貝葉斯推斷及其互聯(lián)網(wǎng)應(yīng)用作者:阮一峰(接上文)七、什么是貝葉斯過(guò)濾器?垃圾郵件是一種令人頭痛的頑癥,
11、困擾著所有的互聯(lián)網(wǎng)用戶。正確識(shí)別垃圾郵件的技術(shù)難度非常大。傳統(tǒng)的垃圾郵件過(guò)濾方法,主要有"關(guān)鍵詞法"和"校驗(yàn)碼法"等。前者的過(guò)濾依據(jù)是特定的詞語(yǔ);后者則是計(jì)算郵件文本的校驗(yàn)碼,再與已知的垃圾郵件進(jìn)行對(duì)比。它們的識(shí)別效果都不理想,而且很容易規(guī)避。2002年,Paul Graham提出使用"貝葉斯推斷"過(guò)濾垃圾郵件。他說(shuō),這樣做的效果,好得不可思議。1000封垃圾郵件可以過(guò)濾掉995封,且沒(méi)有一個(gè)誤判。另外,這種過(guò)濾器還具有自我學(xué)習(xí)的功能,會(huì)根據(jù)新收到的郵件,不斷調(diào)整。收到的垃圾郵件越多,它的準(zhǔn)確率就越高。八、建立歷史資料庫(kù)貝葉斯過(guò)濾器是
12、一種統(tǒng)計(jì)學(xué)過(guò)濾器,建立在已有的統(tǒng)計(jì)結(jié)果之上。所以,我們必須預(yù)先提供兩組已經(jīng)識(shí)別好的郵件,一組是正常郵件,另一組是垃圾郵件。我們用這兩組郵件,對(duì)過(guò)濾器進(jìn)行"訓(xùn)練"。這兩組郵件的規(guī)模越大,訓(xùn)練效果就越好。Paul Graham使用的郵件規(guī)模,是正常郵件和垃圾郵件各4000封。"訓(xùn)練"過(guò)程很簡(jiǎn)單。首先,解析所有郵件,提取每一個(gè)詞。然后,計(jì)算每個(gè)詞語(yǔ)在正常郵件和垃圾郵件中的出現(xiàn)頻率。比如,我們假定"sex"這個(gè)詞,在4000封垃圾郵件中,有200封包含這個(gè)詞,那么它的出現(xiàn)頻率就是5%;而在4000封正常郵件中,只有2封包含這個(gè)詞,那么出現(xiàn)頻率
13、就是0.05%。(【注釋】如果某個(gè)詞只出現(xiàn)在垃圾郵件中,Paul Graham就假定,它在正常郵件的出現(xiàn)頻率是1%,反之亦然。這樣做是為了避免概率為0。隨著郵件數(shù)量的增加,計(jì)算結(jié)果會(huì)自動(dòng)調(diào)整。)有了這個(gè)初步的統(tǒng)計(jì)結(jié)果,過(guò)濾器就可以投入使用了。九、貝葉斯過(guò)濾器的使用過(guò)程現(xiàn)在,我們收到了一封新郵件。在未經(jīng)統(tǒng)計(jì)分析之前,我們假定它是垃圾郵件的概率為50%。(【注釋】有研究表明,用戶收到的電子郵件中,80%是垃圾郵件。但是,這里仍然假定垃圾郵件的"先驗(yàn)概率"為50%。)我們用S表示垃圾郵件(spam),H表示正常郵件(healthy)。因此,P(S)和P(H)的先驗(yàn)概率,都是50%
14、。然后,對(duì)這封郵件進(jìn)行解析,發(fā)現(xiàn)其中包含了sex這個(gè)詞,請(qǐng)問(wèn)這封郵件屬于垃圾郵件的概率有多高?我們用W表示"sex"這個(gè)詞,那么問(wèn)題就變成了如何計(jì)算P(S|W)的值,即在某個(gè)詞語(yǔ)(W)已經(jīng)存在的條件下,垃圾郵件(S)的概率有多大。根據(jù)條件概率公式,馬上可以寫(xiě)出公式中,P(W|S)和P(W|H)的含義是,這個(gè)詞語(yǔ)在垃圾郵件和正常郵件中,分別出現(xiàn)的概率。這兩個(gè)值可以從歷史資料庫(kù)中得到,對(duì)sex這個(gè)詞來(lái)說(shuō),上文假定它們分別等于5%和0.05%。另外,P(S)和P(H)的值,前面說(shuō)過(guò)都等于50%。所以,馬上可以計(jì)算P(S|W)的值:因此,這封新郵件是垃圾郵件的概率等于99%。這說(shuō)明
15、,sex這個(gè)詞的推斷能力很強(qiáng),將50%的"先驗(yàn)概率"一下子提高到了99%的"后驗(yàn)概率"。十、聯(lián)合概率的計(jì)算做完上面一步,請(qǐng)問(wèn)我們能否得出結(jié)論,這封新郵件就是垃圾郵件?回答是不能。因?yàn)橐环忄]件包含很多詞語(yǔ),一些詞語(yǔ)(比如sex)說(shuō)這是垃圾郵件,另一些說(shuō)這不是。你怎么知道以哪個(gè)詞為準(zhǔn)?Paul Graham的做法是,選出這封信中P(S|W)最高的15個(gè)詞,計(jì)算它們的聯(lián)合概率。(【注釋】如果有的詞是第一次出現(xiàn),無(wú)法計(jì)算P(S|W),Paul Graham就假定這個(gè)值等于0.4。因?yàn)槔]件用的往往都是某些固定的詞語(yǔ),所以如果你從來(lái)沒(méi)見(jiàn)過(guò)某個(gè)詞,它多半是一個(gè)正常
16、的詞。)所謂聯(lián)合概率,就是指在多個(gè)事件發(fā)生的情況下,另一個(gè)事件發(fā)生概率有多大。比如,已知W1和W2是兩個(gè)不同的詞語(yǔ),它們都出現(xiàn)在某封電子郵件之中,那么這封郵件是垃圾郵件的概率,就是聯(lián)合概率。在已知W1和W2的情況下,無(wú)非就是兩種結(jié)果:垃圾郵件(事件E1)或正常郵件(事件E2)。其中,W1、W2和垃圾郵件的概率分別如下:如果假定所有事件都是獨(dú)立事件(【注釋】嚴(yán)格地說(shuō),這個(gè)假定不成立,但是這里可以忽略),那么就可以計(jì)算P(E1)和P(E2):又由于在W1和W2已經(jīng)發(fā)生的情況下,垃圾郵件的概率等于下面的式子:即將P(S)等于0.5代入,得到將P(S|W1)記為P1,P(S|W2)記為P2,公式就變成
17、這就是聯(lián)合概率的計(jì)算公式。如果你不是很理解,點(diǎn)擊這里查看更多的解釋。十一、最終的計(jì)算公式將上面的公式擴(kuò)展到15個(gè)詞的情況,就得到了最終的概率計(jì)算公式:一封郵件是不是垃圾郵件,就用這個(gè)式子進(jìn)行計(jì)算。這時(shí)我們還需要一個(gè)用于比較的門檻值。Paul Graham的門檻值是0.9,概率大于0.9,表示15個(gè)詞聯(lián)合認(rèn)定,這封郵件有90%以上的可能屬于垃圾郵件;概率小于0.9,就表示是正常郵件。有了這個(gè)公式以后,一封正常的信件即使出現(xiàn)sex這個(gè)詞,也不會(huì)被認(rèn)定為垃圾郵件了。(完)文檔信息§ 版權(quán)聲明:自由轉(zhuǎn)載-非商用-非衍生-保持署名 | Creative Commons BY-NC-N
18、D 3.0§ 原文網(wǎng)址:§ 最后修改時(shí)間:2013年9月29日 20:24§ 付費(fèi)支持: | 相關(guān)文章§ 2013.03.31: 相似圖片搜索的原理(二)二年前,我寫(xiě)了相似圖片搜索的原理,介紹了一種最簡(jiǎn)單的實(shí)現(xiàn)方法。§ 2013.03.26: TF-IDF與余弦相似性的應(yīng)用(三):自動(dòng)摘要有時(shí)候,很簡(jiǎn)單的數(shù)學(xué)方法,就可以完成很復(fù)雜的任務(wù)。功能鏈接§ 前一篇:貝葉斯推斷及其互聯(lián)網(wǎng)應(yīng)用(一):定理簡(jiǎn)介§ 后一篇:經(jīng)濟(jì)增長(zhǎng)是如何換來(lái)的?§ 更多內(nèi)容請(qǐng)?jiān)L問(wèn):首頁(yè) »
19、; 檔案 » 算法§窗體頂端站內(nèi)搜索: 窗體底端§ Feed訂閱: 廣告(購(gòu)買廣告位)留言(50條)49Degree 說(shuō):難怪現(xiàn)在收的開(kāi)發(fā)票垃圾郵件,都是以附件圖片顯示內(nèi)容了2011年8月27日 18:09 | 檔案 | 引用屎蛋 說(shuō):Mark 先!估計(jì)發(fā)展一下可以變成炒股公式2011年8月27日 20:16 | 檔案 | 引用3tgame 說(shuō):將P(S|W1)記為P1,P(S|W1)記為P2第二個(gè)是否應(yīng)為
20、W2?2011年8月27日 20:58 | 檔案 | 引用小年 說(shuō):理論性太強(qiáng)啊2011年8月27日 21:23 | 檔案 | 引用zc 說(shuō):不怕漏,漏一點(diǎn)沒(méi)關(guān)系,怕被誤殺而且中文的是不是還要加語(yǔ)義分析?2011年8月27日 22:26 | 檔案 | 引用水人 說(shuō):能不能說(shuō)明文章中一些數(shù)據(jù),比如:“如果某個(gè)詞只出現(xiàn)在垃圾郵件中,Paul Graham就假定,它在正常郵件的出現(xiàn)頻率是1%,反之亦然。隨著郵件數(shù)量的增加,計(jì)算結(jié)果會(huì)自動(dòng)調(diào)整?!敝械?%
21、,請(qǐng)問(wèn)是不是經(jīng)驗(yàn)值2011年8月27日 22:48 | 檔案 | 引用Allen 說(shuō):P(E1)+P(E2)不等於1嗎?2011年8月27日 23:01 | 檔案 | 引用Bill 說(shuō):整個(gè)過(guò)程講的很清晰,謝謝阮大哥分享,不過(guò),推導(dǎo)中有兩個(gè)地方我不太明白:1. P(E1)=P(S|W1)*P(S|W2)*P(S) (why?)2. P=P(E1)/(P(E1)+P(E2) 像樓上Allen說(shuō)的,直覺(jué)是P(E1)+P(E2)=1能否解釋一下E1和E2在樣本空間中的精確含義呢?我的理解是E1=S &
22、amp;& W1 && W2,也就是說(shuō)有E1封郵件,滿足以上三個(gè)條件,總郵件S+H封,P(E1)=E1/(S+H)能否解釋一下1和2的理由?謝謝!2011年8月28日 00:36 | 檔案 | 引用Paul Graham中文站 說(shuō):本人也是 Paul Graham 的粉絲,也看過(guò)你翻譯的黑客與畫(huà)家,但還是憑直覺(jué)認(rèn)為 PG 不可能是Bayes filtering的發(fā)明者,你看看這個(gè)就知道了:/wiki/Bayesian_spam_filtering#History96年就有人發(fā)布
23、了。2011年8月28日 08:14 | 檔案 | 引用hyh 說(shuō):看這里, 96年就有人發(fā)明了Bayes Filtering, PG怎么可能是發(fā)明者。2011年8月28日 08:15 | 檔案 | 引用new4everlau 說(shuō):挺好的文章,我是來(lái)學(xué)習(xí)的!在第十一節(jié)上面倒數(shù)第二行有點(diǎn)表述錯(cuò)誤,不過(guò)不影響閱讀!“將P(S|W1)記為P1,P(S|W1)記為P2,公式就變成”“將P(S|W1)記為P1,P(S|W2)記為P2,公式就變成”2011年8月28日 08:22 | 檔
24、案 | 引用阮一峰 說(shuō):3tgame:謝謝指出,已經(jīng)更正了。水人:對(duì),是經(jīng)驗(yàn)值。好在可以根據(jù)新收的郵件不斷調(diào)整。Allen:E1和E2是指后面三個(gè)事件同時(shí)發(fā)生,所以它們的和不等于1。hyh:Paul Graham發(fā)明的是現(xiàn)在這一套計(jì)算方法,大大提高了過(guò)濾效果,而不是發(fā)明用貝葉斯推斷過(guò)濾郵件的概念。2011年8月28日 08:24 | 檔案 | 引用阮一峰 說(shuō):引用Bill的發(fā)言:1. P(E1)=P(S|W1)*P(S|W2)*P(S) (why?)E1代表三個(gè)獨(dú)立事件同時(shí)發(fā)生,因此E1的概率是后面三個(gè)概率的乘積。
25、引用Bill的發(fā)言:2. P=P(E1)/(P(E1)+P(E2) 像樓上Allen說(shuō)的,直覺(jué)是P(E1)+P(E2)=1如果P(E1)=P(S|W1W2),那么P(E1)+P(E2)確實(shí)等于1。但是,我們規(guī)定E1是三個(gè)事件同時(shí)發(fā)生,因此P(E1)等于P(W1)P(W2)P(S),所以它與P(E2)的和不會(huì)等于1。2011年8月28日 09:48 | 檔案 | 引用hyh 說(shuō):這類文章真有必要讓國(guó)內(nèi)媒體看看。南方周末、南都周刊上面全是垃圾評(píng)論,什么炒股賺錢之類。國(guó)人人海戰(zhàn)術(shù)的水平還蠻高的2011年8月28日 09:57 |
26、檔案 | 引用天天向上 說(shuō):如果概率論老師能像這樣講些具體應(yīng)用,我上課也不至于睡覺(jué)了2011年8月28日 14:36 | 檔案 | 引用fengyh 說(shuō):P1應(yīng)該是P(W1|S)吧?2011年8月28日 15:15 | 檔案 | 引用mw3000 說(shuō):/article.pl?sid=11/08/06/147202貝葉斯定理以18世紀(jì)的長(zhǎng)老教會(huì)牧師Thomas Bayes的名字命名,目的是為了解決一些本質(zhì)問(wèn)題:當(dāng)更多信
27、息涌入時(shí)我們?nèi)绾胃淖冃叛觯渴穷B固的直到舊有假說(shuō)完全站不住腳?還是在懷疑第一次出現(xiàn)后立即拋棄舊觀念?貝葉斯的推導(dǎo)已經(jīng)變成了無(wú)價(jià)的科學(xué)工具,它幫助我們一步步認(rèn)清現(xiàn)實(shí)。也許人人都應(yīng)該像貝葉斯那樣思考。貝葉斯理論的核心依賴于巧妙的轉(zhuǎn)變思路:如果你想評(píng)估根據(jù)證據(jù)提出的假說(shuō)的有力程度,你必須先評(píng)估證據(jù)的有力程度。面對(duì)著不確定性,貝葉斯提出了三個(gè)問(wèn)題:對(duì)最初樹(shù)立的信念的真實(shí)性我有多大的信心?如果對(duì)最初的信念堅(jiān)信不疑,對(duì)新證據(jù)的準(zhǔn)確性我有多大的信心?如果對(duì)最初的信念搖擺不定,對(duì)新證據(jù)的準(zhǔn)確性我有多大的信心?大衛(wèi)·休謨就是一位貝葉斯主義者,他就是通過(guò)證據(jù)的可能性質(zhì)疑神跡的準(zhǔn)確性。這一段話我沒(méi)有看得太懂
28、, 博主能不能幫解釋一下.2011年8月28日 16:34 | 檔案 | 引用cumirror 說(shuō):粗略看了一遍,很精彩的文章。2011年8月28日 17:13 | 檔案 | 引用呆子 說(shuō):第十步的推導(dǎo)建立在三個(gè)量的獨(dú)立性上,即P(S|W1)、P(S|W2)、P(S),或者說(shuō)是這三者的相關(guān)性很小,可以忽略。但就在這樣的基礎(chǔ)上,我們得到了P(S)=P(S|W1)XP(S|W2)/(P(S|W1)XP(S|W2)+(1-P(S|W1)X(1-P(S|W2)然而這個(gè)關(guān)系式很清楚的給出了P(S|W1)、
29、P(S|W2)、P(S)三者的關(guān)系。這是不是讓我們很遺憾,盡管整個(gè)過(guò)程是沒(méi)有問(wèn)題的,但我們覺(jué)得很別扭。由無(wú)關(guān)的假設(shè),卻得到了真真切切的關(guān)系。而筆者似乎忘記了最簡(jiǎn)單的計(jì)算P(S)的方法:P(S)=P(S|W1)XP(W1)+P(S|W2)XP(W2)+P(S|W3)XP(W3)+這里P(W1)P(W2)P(W3)是W1W2W3出現(xiàn)的頻率。而且這樣做是沒(méi)有理論上的缺陷的。是否可以考慮一下?2011年8月28日 18:57 | 檔案 | 引用清風(fēng)劍 說(shuō):引用zc的發(fā)言:不怕漏,漏一點(diǎn)沒(méi)關(guān)系,怕被誤殺而且中文的是不是還要加語(yǔ)義分析?對(duì),中文要分詞再做以
30、上步驟,但分詞就表明了你是怎么理解一個(gè)句子的,糾結(jié)。2011年8月28日 20:31 | 檔案 | 引用Bill 說(shuō): Mw3000:貝葉斯理論的核心依賴于巧妙的轉(zhuǎn)變思路:如果你想評(píng)估根據(jù)證據(jù)提出的假說(shuō)的有力程度,你必須先評(píng)估證據(jù)的有力程度。面對(duì)著不確定性,貝葉斯提出了三個(gè)問(wèn)題:對(duì)最初樹(shù)立的信念的真實(shí)性我有多大的信心? -> P(A)如果對(duì)最初的信念堅(jiān)信不疑,對(duì)新證據(jù)的準(zhǔn)確性我有多大的信心?-> P(B|A)如果對(duì)最初的信念搖擺不定,對(duì)新證據(jù)的準(zhǔn)確性我有多大的信心?-> P(B)Bayesian Inference:P(A|B
31、)=P(A)*P(B|A)/P(B)該文揭示了公式中每一項(xiàng)的現(xiàn)實(shí)含義。謝謝分享,我一直在想公式里的每一項(xiàng)有什么直接樸素的內(nèi)涵,這三個(gè)問(wèn)題回答了我的疑問(wèn)。2011年8月28日 23:54 | 檔案 | 引用Chuan 說(shuō):請(qǐng)問(wèn)有什么即有趣,又實(shí)用的概率論方面的書(shū)嗎?2011年8月29日 14:31 | 檔案 | 引用Michael.Z 說(shuō):越來(lái)越多的郵件采取圖片和附件的方式發(fā)送垃圾郵件。這方面的鑒別方法又是如何的?2011年8月29日 16:43 | 檔案 |
32、0;引用寧?kù)o致遠(yuǎn) 說(shuō):在華爾街的高頻交易系統(tǒng),70%的股票交易由計(jì)算機(jī)算法完成,而算法并不總是很可靠。2010年5月算法曾引起股市在短時(shí)間內(nèi)崩盤,它在20分鐘內(nèi)拋出了價(jià)值26億美元的股票,導(dǎo)致其它高頻交易算法跟隨,引發(fā)金融市場(chǎng)混亂。這種算法的推廣的結(jié)果是,下個(gè)5000天會(huì)產(chǎn)生60億個(gè)相當(dāng)于人腦一樣復(fù)雜的機(jī)器在互聯(lián)網(wǎng)上.2011年8月29日 17:04 | 檔案 | 引用mw3000 說(shuō):Bill:謝謝你的解釋.2011年8月29日 19:54 | 檔案 | 引用I believe I can f
33、ly 說(shuō):不是很明白:P(S)=p(E1)/(P(E1)+P(E2)求解釋2011年9月 1日 21:10 | 檔案 | 引用Jin 說(shuō):引用Bill的發(fā)言:整個(gè)過(guò)程講的很清晰,謝謝阮大哥分享,不過(guò),推導(dǎo)中有兩個(gè)地方我不太明白:1. P(E1)=P(S|W1)*P(S|W2)*P(S) (why?)2. P=P(E1)/(P(E1)+P(E2) 像樓上Allen說(shuō)的,直覺(jué)是P(E1)+P(E2)=1感覺(jué)推導(dǎo)跳過(guò)了幾步:P(S|W1 W2) = P(W1 W2|S)P(S) / (P(W1 W2|S)P(S) + P(W1 W2|S)P(S)W1,W2獨(dú)立:P(W1 W2) = P(W1)P(W2), P(W1 W2|S) = P(W1|S)P(W2|S) (?)上式 = P(W1|S)P(W2|S)P(S) / (P(W1|S)P(W2|S)P(S) + P(W1|S)P(W2|S)P(S)應(yīng)用Bayesian 原理,將 P(Wi|S) 用 P(S|Wi) 表示:上式 = (P(S|W1)P(S|W2)P(S) * P(W1)P(W2) / P(S)2) / (P(
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 機(jī)械制造工藝?yán)碚摵图夹g(shù)的發(fā)展
- 2025-2030全球變頻增壓泵行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)多軸自動(dòng)切割機(jī)行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年全球及中國(guó)射頻和微波校準(zhǔn)服務(wù)行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年全球及中國(guó)聚合物改性瀝青廠行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年全球及中國(guó)電梯顯示板行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球反應(yīng)性牙科玻璃行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025-2030全球多噴射水流量計(jì)行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)家用大麻效力測(cè)試儀行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球一次性使用體外血液循環(huán)管路行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 混凝土試件臺(tái)賬
- 中英文財(cái)務(wù)報(bào)表空白模板(金融非金融完整版)
- 人機(jī)料法環(huán)測(cè)檢查表
- 中國(guó)數(shù)字貨運(yùn)發(fā)展報(bào)告
- 使用AVF血液透析患者的護(hù)理查房
- 《幼兒教師職業(yè)道德》教案
- 2021年高考山東卷化學(xué)試題(含答案解析)
- 客服百問(wèn)百答
- GA/T 766-2020人精液PSA檢測(cè)金標(biāo)試劑條法
- 品管圈活動(dòng)提高氧氣霧化吸入注意事項(xiàng)知曉率
評(píng)論
0/150
提交評(píng)論