受限玻爾茲曼機學(xué)習(xí)筆記(一)預(yù)備知識_第1頁
受限玻爾茲曼機學(xué)習(xí)筆記(一)預(yù)備知識_第2頁
受限玻爾茲曼機學(xué)習(xí)筆記(一)預(yù)備知識_第3頁
受限玻爾茲曼機學(xué)習(xí)筆記(一)預(yù)備知識_第4頁
受限玻爾茲曼機學(xué)習(xí)筆記(一)預(yù)備知識_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、受限波爾茲曼機(Restricted Boltzmann Machine, RBM)是一種可用隨機神經(jīng)網(wǎng)絡(luò) (stochastic neural network)來解釋的概率圖模型(probabilistic graphical model).它由 Smolensky于1986年在波爾茲曼機(Boltzmann Machine, BM)的基礎(chǔ)上提出,所謂“隨 機”,是指這種網(wǎng)絡(luò)中的神經(jīng)元是隨機神經(jīng)元,其輸出只有兩種狀態(tài)(未激活、激活),一般用 二進(jìn)制的0和1來表示,而狀態(tài)的具體取值則根據(jù)概率統(tǒng)計法則來決定(3).隨著計算機計算能力的迅速提高和快速算法的不斷發(fā)展,RBM在各種相關(guān)機器學(xué)習(xí)算 法中

2、已經(jīng)變得實際可行.尤其是 在Hinton于2006年提出了以RBM為基本構(gòu)成模塊的 DBN (Deep Belief Network)模型之后,機器學(xué)習(xí)界更是掀起了一股研究RBM理論及應(yīng)用 的熱潮.RBM模型涉及的知識點較多,本文主要針對RBM的網(wǎng)絡(luò)結(jié)構(gòu)、數(shù)學(xué)模型以及快速訓(xùn) 練算法進(jìn)行介紹,且重點放在一些數(shù)學(xué)公式的推導(dǎo)及具體算法的描述上.1預(yù)備知識本節(jié)的預(yù)備知識相對獨立,僅供參考,讀者可以先跳過本節(jié):閱讀過程中碰到相關(guān)問題 再回過頭來查閱.1.1 sigmoid 函數(shù)sigmoid函數(shù)是神經(jīng)網(wǎng)絡(luò)中常用的激活函數(shù)之一,其定義為sigmoid) =1,(1.1)J- I e該函數(shù)的定義域為(-oo

3、:+oc),值域為(0,1).圖1給出了 sigmoid函數(shù)的圖像.圖1 sigmoid函數(shù)的圖像(1.2)(1.3)(1.4)1.2 Bayes 定理貝葉斯定理是英國數(shù)學(xué)家貝葉斯(Thomas Bayes)提出來的,用來描述兩個條件概率之 間的關(guān)系.若記P(B)分別表示事件A和事件B發(fā)生的概率,P(AB)表示事件B 發(fā)生的情況下事件A發(fā)生的概率,表示事件4 B同時發(fā)生的概率,則有時)P(B) 5利用(1.2)和(1.3):進(jìn)一步可得風(fēng)4|切=尸(&羯巳這就是貝葉斯公式.在(1.4)中,我們把PQ4)稱為“先驗概率” (Prior probability),即在事件B發(fā)生之前:我 們對事件山發(fā)

4、生概率的一個判斷.P(AB)稱為“后驗概率” (Posterior probability),即在事 件B發(fā)生之后,我們對事件A發(fā)生概率的重新評估.稱為“可能性函數(shù)” (Likelyhood), 這是一個調(diào)整因子:使得預(yù)估概率更接近真實概率(6).二分圖(bipartite graph)又稱二部圖、雙分圖或偶圖,是圖論中的一種特殊模型.設(shè) G =(吒E)是一個無向圖,如果頂點V可分割為兩個互不相交的子集峪和協(xié),并且圖中的 每條邊0項)所關(guān)聯(lián)的兩個頂點i和j分別屬于這兩個不同的頂點集,即ie Vuj 仍,或 者ie V2J G崎,則稱圖G為一個二分圖.1.4 MCMC 方法(2)最早的蒙特卡羅方

5、法是由物理學(xué)家發(fā)明的,旨在于通過隨機化的方法計算積分.假設(shè)給 定函數(shù)九(游,我們想計算如下的積分f h(x)dx.(1.5)J a如果我們無法通過數(shù)學(xué)推導(dǎo)直接求出解析解,那么)為了避免對區(qū)間(Q0)上所有的 值進(jìn)行枚舉(多數(shù)情況下這也是不可能的),我們可以將煩%)分解為某個函數(shù)/(游和一個定 義在(Q,b)上的概率密度函數(shù)p(x)的乘積.這樣整個積分就可以寫成rbf*b/ hxdx = / f(x)p(x)dx = Ep(rE)/(rr).(1.6)J aJ a這樣一來,原積分就等同于在夙對這個分布上的均值.這時:如果我們從分布說%) 上采集大量的樣本點1,皿 ,rrn,這些樣本符合分布p(z

6、),即對V如有(17)2=1那么,我們就可以通過這些樣本來逼近這個均值/ h(x)dx = Ep(M/(z)七一 以豹)(L8)Jan i=i這就是蒙特卡羅方法的基本思想.近年來,隨著隨機化模型的流行,蒙特卡羅方法在機 器學(xué)習(xí)領(lǐng)域有著越來越廣泛的應(yīng)用.假如我們現(xiàn)在已經(jīng)定義好分布夙對,那么,蒙特卡羅方法的一個核心問題是:如何從這 個分布上采集樣本?一般來講,對于經(jīng)典的分布,例如對于均勻分布和正態(tài)分布等,都已有比較成熟的算法可 以快速地直接生成該分布下的無偏(unbiased)樣本.然而,對于任意的分布,我們并不能做 到這一點.那么,如何在任意分布下采樣呢?這就是馬爾可夫鏈蒙特卡羅方法(Marko

7、v chain Monte Carlo, MCMC)需要解決的問題.簡單來說:MCMC的基本思想就是利用馬爾可夫鏈來產(chǎn)生指定分布下的樣本.為此, 先簡單介紹一下馬爾可夫鏈的基本知識.設(shè)Xt表示隨機變量X在離散時間t時刻的取值.若該變量隨時間變化的轉(zhuǎn)移概率僅 僅依賴于它的當(dāng)前取值,即P(Xt+i = SjXQ = %Xi = s如,Xt = Si) = P(Xt+i = SjXt = sj,則稱這個變量為馬爾可夫變量.其中s知,e Q為隨機變量X可能的狀態(tài).這個 性質(zhì)稱為馬爾可夫性質(zhì),具有馬爾可夫性質(zhì)的隨機過程稱為馬爾可夫過程.由(1.9)可知,對于一個馬爾可夫隨機變量,我們只需知道其當(dāng)前的取值

8、,就足以充分 預(yù)測其未來的變化趨勢.而所謂的馬爾可夫鏈就是指一段時間內(nèi)隨機變量X的取值序列 (Xo,Xi,,Xm),它們符合條件(1.9).一般來說,一個馬爾可夫鏈可通過其對應(yīng)的轉(zhuǎn)移概率來定義.所謂的轉(zhuǎn)移概率,是指隨 機變量從一個時刻到下一個時刻,從狀態(tài)&轉(zhuǎn)移到另一個狀態(tài)Sj的概率即(1.10)P(0 J):= Pi,j = P(X*1 = SjXt = Si)若記理表示隨機變量X在時刻t取值Sk的概率,則X在時刻t + 1取值為&的概補中)=”+1 = &)= P(X*i =我區(qū)=%) P(K = sk)設(shè)狀態(tài)的數(shù)目為心則根據(jù)(1.11),有(祥+氣.,7T腫)=(冗也,酒R,i如尸1,2

9、Pl,n3,2我71上式也可寫成矩陣向量形式(1.12)其中冗=(*), . /$), r = t,t+l為行向量,P = (Pij)nxn為轉(zhuǎn)移概率矩陣.如果存在某個取值,從它出發(fā)轉(zhuǎn)移回自身所需要的轉(zhuǎn)移次數(shù)總是整數(shù)( 1)的倍數(shù),那 么這個馬爾可夫過程就具有周期性(Periodic).如果任意兩個取值之間總是能以非零的概率 相互轉(zhuǎn)移,那么該馬爾可夫過程就稱為不可約(Irreducible)(-不可約”是指每一個狀態(tài)都可 來自任意的其它狀態(tài)).如果一個馬爾可夫過程既沒有周期性,又不可約,則稱它是各態(tài)遍歷 的(Ergodic).對于各態(tài)遍歷的馬爾可夫過程,不論招)取何值,隨著轉(zhuǎn)移次數(shù)的增多,隨機

10、變量的取 值分布最終都會收斂于唯一的平穩(wěn)分布兀二即lim 7FP,= 7T*,(1.13)一8且這個平穩(wěn)分布7T*滿足7T*P = 7F*.(1.14)這意味著,不論招)取何值,經(jīng)過足夠多次轉(zhuǎn)移后,隨機變量各取值總會不斷接近于該過程 的平穩(wěn)分布.這為MCMC建立了理論基礎(chǔ):如果我們想在某個分布下采樣,只需要模擬以 其為平穩(wěn)分布的馬爾科夫過程,經(jīng)過足夠多次轉(zhuǎn)移之后,我們的樣本分布就會充分接近于該 平穩(wěn)分布.這意味著我們近似地采集到了目標(biāo)分布下的樣本.1.4.2正則分布假設(shè)一個物理系統(tǒng)具備一定的自由度(例如,一滴水珠里的水分子在空間中可以任意排 列),那么,系統(tǒng)所處的狀態(tài)(所有水分子的位置)就具備

11、一定的隨機性.假設(shè)系統(tǒng)處于狀態(tài)i 的概率為例,則顯然有Pi 0,且 皿=1.(1.15)i根據(jù)系統(tǒng)的物理性質(zhì),不同的狀態(tài)可能會使系統(tǒng)具備不同的能量.我們用E來表示系 統(tǒng)處于狀態(tài)2時的能量.統(tǒng)計力學(xué)的一個基本結(jié)論是:當(dāng)系統(tǒng)與外界達(dá)到熱平衡時,系統(tǒng)處 于狀態(tài)i的概率Pi具有以下形式Pi = e 一爭,(L16)其中= 廠箏(17)i被稱為歸一化常數(shù)(Normalizing Constant), T為正數(shù),表示系統(tǒng)所處的溫度.(1.16)這種概 率分布的形式叫做正則分布.從這個分布形式我們可以看到,同一溫度下,能量越小的狀態(tài)具有越大的概率.另一方 面,當(dāng)溫度T升高時,概率分布會對能量越來越不敏感:并

12、逐漸趨近于均勻分布.特別是當(dāng) T T 8時,整個分布完全退化為均勻分布,這時系統(tǒng)的狀態(tài)變得完全隨機.以水滴作為例 子,此時所有的水分子將不再受整個系統(tǒng)能量的限制,而四散開來,宏觀上看到的就是蒸發(fā).在機器學(xué)習(xí)領(lǐng)域,人們通常根據(jù)需求自定能量函數(shù).然后借鑒物理規(guī)律去實現(xiàn)其他的功 能,而正則分布就是溝通兩者的橋梁.在MCMC算法中,為了在一個指定的分布上采樣,我們首先從系統(tǒng)的任意一個狀態(tài)出 發(fā),然后模擬馬爾可夫過程,不斷進(jìn)行狀態(tài)轉(zhuǎn)移.根據(jù)馬爾可夫的性質(zhì),在經(jīng)過足夠的轉(zhuǎn)移次 數(shù)之后:我們所處的狀態(tài)即符合目標(biāo)分布,這時,該狀態(tài)就可以作為一個采集到的樣本.而算 法的關(guān)鍵就是,設(shè)計出合理的狀態(tài)轉(zhuǎn)移過程.Met

13、ropolis-Hastings是一種非常重要的MCMC 采樣算法,并且對于設(shè)計狀態(tài)轉(zhuǎn)移過程建立了統(tǒng)一的框架.在Metropolis-Hastings算法中,假設(shè)我們想從分布冗()上采集樣本,那么,我們引入另 一組轉(zhuǎn)移提議分布(proposal density) Q(.;2).這個分布的作用是,根據(jù)我們的當(dāng)前狀態(tài)2,提 議轉(zhuǎn)移之后的狀態(tài).每次狀態(tài)轉(zhuǎn)移時,我們首先利用Q(;i)提議出下一步的狀態(tài),假設(shè)為頂, 然后,我們以下面的概率接受這個狀態(tài)1,m 頂)q(2;/)(1.18)(1.18)中,T j)被稱作接受概率.為了模擬接受新狀態(tài)3的過程,我們可以首先產(chǎn)生一個0,1之間的均勻分布的隨機數(shù) r

14、,然后,如果尸V-頂),則采用狀態(tài)J作為新狀態(tài),否則維持狀態(tài)i不變.Q。; i)表示從 狀態(tài)i提議轉(zhuǎn)移到狀態(tài)j的概率.一般來說,Q(.,)可以選擇為一些比較簡單的概率分布.下面我們簡單分析Metropolis-Hastings算法的正確性.顯然,對于上面的例子,狀態(tài)i轉(zhuǎn)移到狀態(tài)j的轉(zhuǎn)移概率為pgJ)=t 項)如;n(1.19)于是很容易驗證:對于任意的狀態(tài) 輔,成立如下的所謂細(xì)致平衡條件(detailed balance)T i)汗Q偵7F(i) min 1,min (7t(z)Q(j; z),力(頂)Q(2; j)7r(j) min汗(小偵 2)Q(2;力當(dāng)細(xì)致平衡條件滿足時,就可以證明狀態(tài)

15、分布tt()在轉(zhuǎn)移P(i - j)下保持不變,即52 汗0)2(頂一2) = 沖)P(2 T 項)=汗0) E PQ T j)=汗(J33若該馬爾可夫過程滿足各態(tài)遍歷性,那么,根據(jù)穩(wěn)定分布的唯一性,我們就知道在轉(zhuǎn)移P下, 狀態(tài)的分布最終會收斂于),也就是我們要采樣的分布.Gibbs采樣(Gibbs Sampling)是Metropolis-Hastings的特殊形式.它應(yīng)用于系統(tǒng)具有 多個變量,并且對于變量間的條件分布我們能夠直接采樣的情況下.Metropolis-Hastings作 為一個通用的框架,它的缺點就在于它過于靈活.轉(zhuǎn)移提議分布。(.;.)如果選擇得不好,很 有可能每次提議都被拒絕

16、(即頃2 T項)總是很小),于是造成狀態(tài)遲遲維持不變,影響馬爾可 夫鏈?zhǔn)諗康乃俣?在Gibbs采樣中:我們假設(shè)系統(tǒng)由m個變量構(gòu)成,不妨定義系統(tǒng)狀態(tài)X三(吼陽,xm 并且對于任一變量我們能夠直接從條件分布PEtE+i,雙血)中為其采 樣.Gibbs采樣算法的流程如下:算法LI (Gibbs采樣算法)初始化系統(tǒng)狀態(tài)為X().初始化時間t 0.對每個變量Xi, z G按以下條件概率對其采樣P (磚中)IZ件 1), . . .,云攔)t 七-t + 1.若t少于足夠的轉(zhuǎn)移次數(shù),則返回第3步.返回X(。作為采集到的樣本.和Metropolis-Hastings采樣相比,Gibbs采樣的一大特點是,不存

17、在接受概率a,因此, 狀態(tài)轉(zhuǎn)移總是能夠?qū)嵭兴运萂etropolis-Hastings具有更快的收斂速度.參考文獻(xiàn)Asja Fischer, Christian Igel. An Introduction to Restricted Boltzmann Machines. Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications Lecture Notes in Computer Science Volume 7441, 2012, pp 14-36.胡洋.基于馬爾可夫鏈蒙特R羅方法的RBM學(xué)習(xí)算法改進(jìn).碩士學(xué)位論文,上海交通大 學(xué),2012.張春霞,姬楠楠,王冠偉.受限玻爾茲曼機簡介J. 2013.Hinton G.E.: Training products of experts by minimizing contrastive divergence. Neural Computation 14, 1771-1800 (2002)Welling, M.: Product of experts. Scholarpedia 2(10), 3879 (2007)阮一峰的博客 HYPERLINK /blog/20

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論