《人工智能基礎(chǔ)》第八章課件_第1頁
《人工智能基礎(chǔ)》第八章課件_第2頁
《人工智能基礎(chǔ)》第八章課件_第3頁
《人工智能基礎(chǔ)》第八章課件_第4頁
《人工智能基礎(chǔ)》第八章課件_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

強化學(xué)習(xí)深度強化學(xué)習(xí):人工智能=強化學(xué)習(xí)+深度學(xué)習(xí)強化學(xué)習(xí)成功案例AlphaGoSilveretal,Nature2015AlphaGoZeroSilveretal,Nature2017AlphaZeroSilveretal,

Nature

2017強化學(xué)習(xí)場景智能體環(huán)境觀測動作A獎勵R該行為禁止?。?!狀態(tài)S改變環(huán)境強化學(xué)習(xí)場景智能體環(huán)境觀測獎勵R萬分感謝!智能體學(xué)習(xí)做出合適的行為來最大化累計獎勵/how-to-clean-site-structure/狀態(tài)S動作A改變環(huán)境機器學(xué)習(xí)≈尋找某個函數(shù)環(huán)境觀測動作A獎勵R函數(shù)

輸入選擇最佳函數(shù)函數(shù)輸出動作A

=π(觀測

)行為/策略學(xué)習(xí)下圍棋環(huán)境觀測動作A獎勵R下一步動作學(xué)習(xí)下圍棋環(huán)境觀測動作A獎勵R勝利,R=1失敗,R

=-1大多數(shù)情況下R

=0案例:玩游戲太空侵略者開火分?jǐn)?shù)(獎勵R)擊中外星人終止:所有的外星人被擊中,或者你的飛船被擊毀盾強化學(xué)習(xí)的性質(zhì)獎勵延遲太空侵略者游戲中,只有“擊中敵方”才會獲得獎勵但是“擊中敵方”之前飛船的移動也是十分重要的圍棋游戲中,先予后取的策略可能更能幫助智能體獲得全局的勝利智能體的行為影響它后續(xù)接受到的數(shù)據(jù)例如:探索強化學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)是馬爾可夫決策過程(MDP,Markov

Decision

Process)案例:網(wǎng)格世界一種類似迷宮的問題智能體位于網(wǎng)格中墻的位置智能體無法通過移動干擾:不是所有的動作都可以按照計劃執(zhí)行80%概率,向北的動作計劃導(dǎo)致向北的行為(如果沒有墻的阻礙)10%概率,向北的計劃會使智能體向西;10%的概率向東若實際動作方向存在墻的阻礙,智能體停留原地智能體每一步動作都可以獲得相應(yīng)獎勵每一步后游戲未終止可獲得“較小的存活獎勵”(一般為負)游戲終止時獲得大的獎勵(可以是好的,也可能是不好的)目標(biāo):最大化累計獎勵網(wǎng)格世界中的動作確定性網(wǎng)格世界隨機網(wǎng)格世界馬爾可夫決策過程一個MDP問題含以下部分:一系列狀態(tài)s

S一系列動作aA轉(zhuǎn)移函數(shù)T(s,a,s’)從狀態(tài)s到狀態(tài)s’的概率,i.e.,P(s’|s,a)也被稱為模型(model)或者動態(tài)(dynamics)獎勵函數(shù)R(s,a,s’)有時候只有R(s)或者R(s’)初始狀態(tài)可能的終止?fàn)顟B(tài)MDPs是非確定性搜索問題一種潛在的問題解決方案是期望最大化搜索新的工具即將被介紹MDP中“Markov”是什么?“Markov”大致可理解為給定當(dāng)前狀態(tài),未來的狀態(tài)與過去的狀態(tài)無關(guān)(馬爾可夫性)針對馬爾可夫決策過程,“Markov”意味著動作輸出只取決于當(dāng)前狀態(tài)就像搜索算法,繼承函數(shù)只能依賴于當(dāng)前狀態(tài)(而不是歷史)AndreyMarkov(1856-1922)策略在確定性的單智能體搜索問題中,我們希望一個最優(yōu)的規(guī)劃,或者說從起點到終點的一系列動作對于MDPs,我們想要最優(yōu)

策略

*:S→A策略

給出每個狀態(tài)下應(yīng)采取的動作最優(yōu)策略就是能夠最大化期望獎勵顯式策略定義了智能體的狀態(tài)動作映射累計獎勵的期望最大化并不是針對整個策略,而是僅僅對單個狀態(tài)而言MDP搜索樹MDP中每個狀態(tài)都可以投影成最大期望似然搜索樹ass’s,a(s,a,s’)是轉(zhuǎn)移T(s,a,s’)=P(s’|s,a)R(s,a,s’)s,a,s’s是單個狀態(tài)(s,a)isaq-state序列的值針對獎勵序列,智能體應(yīng)該如何選擇?更多還是更少?當(dāng)前的還是之后的?折扣(discounting)最大化累計獎勵是合理的當(dāng)前獎勵的權(quán)重大于未來獎勵也是合理的一種解決方案:獎勵值指數(shù)衰減WorthNowWorthNextStepWorthInTwoStepsMDP求解最優(yōu)值函數(shù)狀態(tài)s的值:V*(s)=從狀態(tài)s開始采取一系列最優(yōu)動作后累計獎勵的期望q-狀態(tài)

(s,a)的值:Q*(s,a)=從狀態(tài)s開始采取行動a,并(此后)以最佳方式運行,所能獲得的累計獎勵的期望最優(yōu)策略:

*(s)=從狀態(tài)s中產(chǎn)生的最優(yōu)動作ass’s,as,a,s’sisastate(s,a)isaq-stateDemo–網(wǎng)格世界中的V值Noise=0Discount=1Livingreward=0Demo–網(wǎng)格世界中的Q值Noise=0Discount=1Livingreward=0Demo–網(wǎng)格世界中的V值Noise=0.2Discount=1Livingreward=0Demo–網(wǎng)格世界中的Q值Noise=0.2Discount=1Livingreward=0Demo–網(wǎng)格世界中的V值Noise=0.2Discount=0.9Livingreward=0Demo–網(wǎng)格世界中的Q值Noise=0.2Discount=0.9Livingreward=0Demo–網(wǎng)格世界中的V值Noise=0.2Discount=0.9Livingreward=-0.1Demo–網(wǎng)格世界中的Q值Noise=0.2Discount=0.9Livingreward=-0.1狀態(tài)值函數(shù)基本操作:計算某狀態(tài)的值函數(shù)(最大化期望)最優(yōu)動作下的期望值(折扣)獎勵的累計平均值函數(shù)的遞歸定義:ass,as,a,s’s’k=0Noise=0.2Discount=0.9Livingreward=0k=1Noise=0.2Discount=0.9Livingreward=0k=2Noise=0.2Discount=0.9Livingreward=0V(K)

V(k+1)up

=

(0.8x(0+0.9x0))

+

(0.1x(0+0.9x0))

+

(0.1x(0+0.9x1))

=

0.01

down

=

(0.8x(0+0.9x0))

+

(0.1x(0+0.9x0))

+

(0.1x(0+0.9x1))

=

0.01left

=

(0.8x(0+0.9x0))

+

(0.1x(0+0.9x0))

+

(0.1x(0+0.9x0))

=

0right

=

(0.8x(0+0.9x1))

+

(0.1x(0+0.9x0))

+

(0.1x(0+0.9x0))

=

0.72V(k+1)

=

max_a

(0.01,0.01,0,0.72)

=

0.72,

action

is

rightk=3Noise=0.2Discount=0.9Livingreward=0k=4Noise=0.2Discount=0.9Livingreward=0k=5Noise=0.2Discount=0.9Livingreward=0k=6Noise=0.2Discount=0.9Livingreward=0k=7Noise=0.2Discount=0.9Livingreward=0k=8Noise=0.2Discount=0.9Livingreward=0k=9Noise=0.2Discount=0.9Livingreward=0k=10Noise=0.2Discount=0.9Livingreward=0k=11Noise=0.2Discount=0.9Livingreward=0k=12Noise=0.2Discount=0.9Livingreward=0k=100Noise=0.2Discount=0.9Livingreward=0值迭代從V0(s)=0開始:期望獎勵和為0已知當(dāng)前Vk(s),采取一次動作,并用狀態(tài)的期望最大累計獎勵更新V(s):重復(fù)直至收斂每一步迭代的復(fù)雜度:O(S2A)最終收斂到唯一最優(yōu)點aVk+1(s)s,as,a,s’Vk(s’)強化學(xué)習(xí)強化學(xué)習(xí)基本思想:以獎勵的形式接受反饋智能體的能力定義為獎勵函數(shù)最大化期望獎勵所有的學(xué)習(xí)都是基于觀測到樣本的輸出環(huán)境智能體動作:a狀態(tài):s獎勵:r時間差分學(xué)習(xí)(TemporalDifferenceLearning)理念:從每一次的經(jīng)驗中學(xué)習(xí)每次經(jīng)歷一次實驗(s,a,s’,r)都會更新V(s)可能的結(jié)果s’將更頻繁地提供更新值函數(shù)時間差分法固定策略同樣狀態(tài)動作下的值函數(shù)將會以滑動平均的形式更新(s)ss,(s)s’SampleofV(s):UpdatetoV(s):Sameupdate:指數(shù)移動平均指數(shù)移動平均

插值更新:就近的采樣結(jié)果所占權(quán)重更大:丟掉過去的信息(久遠的值更有可能是錯誤的)衰減學(xué)習(xí)率(alpha)有助于給出收斂均值Q值迭代值迭代:查找連續(xù)(深度限制)值從V0(s)=0開始給定Vk,計算狀態(tài)k+1時刻的值:但Q值更有用,因而計算該值從Q0(s,a)=0開始給定Qk,計算k+1時刻Q值:Q

LearningQ-Learning:基于采樣的Q值迭代學(xué)習(xí)Q(s,a):進行一次實驗(s,a,s’,r)考慮估計值的過去:考慮新的估計值:滑動平均:QLearning性質(zhì)神奇的結(jié)果:當(dāng)你動作為次優(yōu)時Q-learning也會收斂到最優(yōu)策略這是一種

off-policylearning注意事項:必須進行足夠的探最終學(xué)習(xí)率應(yīng)該足夠小…但不應(yīng)該下降太快一般的,如何選擇動作并不重要,在上述限制情況下(!)Epsilon-貪婪策略每一步智能體都要選擇一個動作智能體以1–epsilon的概率選擇最優(yōu)的行為以epsilon的概率隨機選擇動作Q-learning中,貪婪策略是給定狀態(tài)St+1時最大化Q值的動作總結(jié):MDP和強化學(xué)習(xí)已知MDP:離線解決方案目標(biāo)

技術(shù)計算

V*,Q*,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論