強(qiáng)化學(xué)習(xí) 課件 第3、4章 最優(yōu)控制、基于價(jià)值的強(qiáng)化學(xué)習(xí)_第1頁
強(qiáng)化學(xué)習(xí) 課件 第3、4章 最優(yōu)控制、基于價(jià)值的強(qiáng)化學(xué)習(xí)_第2頁
強(qiáng)化學(xué)習(xí) 課件 第3、4章 最優(yōu)控制、基于價(jià)值的強(qiáng)化學(xué)習(xí)_第3頁
強(qiáng)化學(xué)習(xí) 課件 第3、4章 最優(yōu)控制、基于價(jià)值的強(qiáng)化學(xué)習(xí)_第4頁
強(qiáng)化學(xué)習(xí) 課件 第3、4章 最優(yōu)控制、基于價(jià)值的強(qiáng)化學(xué)習(xí)_第5頁
已閱讀5頁,還剩97頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章最優(yōu)控制

目錄價(jià)值的定義動(dòng)態(tài)規(guī)劃算法LQR控制案例:利用策略迭代和值迭代求解迷宮尋寶問題價(jià)值的定義最優(yōu)控制問題

AgentEnvironment三連棋游戲井字形棋盤一方在棋盤上畫○,一方在棋盤上畫×,交替進(jìn)行某一時(shí)刻,棋盤上同一直線出現(xiàn)三個(gè)○或三個(gè)×,即為獲勝棋盤被填滿還未分出勝負(fù),則記為平局游戲規(guī)則由人類玩家和電腦進(jìn)行對(duì)戰(zhàn):人類玩家畫○,電腦畫×,每次游戲都從人類玩家開始當(dāng)棋盤某一直線上有兩個(gè)○,且剩下位置是空的,電腦會(huì)在這個(gè)位置畫×,阻止人類獲勝如果人類玩家不能在一步之內(nèi)取勝,電腦會(huì)等概率隨機(jī)選擇一個(gè)空位置畫×定義MDP

求解最優(yōu)策略:第一步走中間

求解最優(yōu)策略:第一步走中間

求解最優(yōu)策略:第一步走中間

平局勝利勝利平局平局平局

v

求解最優(yōu)策略:第一步走中間

求解最優(yōu)策略:第一步走角落

求解最優(yōu)策略:第一步走角落

求解最優(yōu)策略:第一步走角落○×○×○○×○○×○○×○

求解最優(yōu)策略:第一步走角落

求解最優(yōu)策略:第一步走角落

三連棋游戲最優(yōu)策略

“價(jià)值”的思想

中間狀態(tài)的“價(jià)值”中間狀態(tài)的“價(jià)值”初始狀態(tài)也屬于中間狀態(tài)“中間狀態(tài)”

“中間狀態(tài)”

狀態(tài)-價(jià)值-最佳動(dòng)作表狀態(tài)價(jià)值最佳動(dòng)作0.9160.66610.33走角落走對(duì)角走中間(必勝)走對(duì)角策略下狀態(tài)的價(jià)值

狀態(tài)的價(jià)值

價(jià)值的計(jì)算

動(dòng)態(tài)規(guī)劃的思想將大的問題拆分成若干個(gè)比較小的問題,分別求解這些小問題,再用這些小問題的結(jié)果來解決大問題這種拆分是在時(shí)間維度上的,稱為時(shí)間差分(Temporal

Difference,TD),即利用下一時(shí)刻狀態(tài)的價(jià)值計(jì)算當(dāng)前時(shí)刻狀態(tài)的價(jià)值,直到計(jì)算出所有狀態(tài)的價(jià)值動(dòng)態(tài)規(guī)劃算法

通過策略求解狀態(tài)價(jià)值策略評(píng)估

策略評(píng)估

雅克比迭代法

策略提升

策略迭代法

值迭代法

策略迭代與值迭代

誤差很大的價(jià)值誤差一般的價(jià)值誤差很小的價(jià)值殊途同歸策略迭代值迭代

Bellman方程

Bellman方程

LQR控制連續(xù)狀態(tài)動(dòng)作的MDP

基本的LQR問題

基本的LQR問題

問題的解(T=1)

問題的解

LQR控制器

LQR控制器

LQR控制器

LQR控制器

LQR控制器

LQR控制器

LQR控制器

向前迭代向前迭代向前迭代向前迭代LQR控制器

總結(jié)最優(yōu)控制可以解決環(huán)境完全已知的MDP問題狀態(tài)-動(dòng)作離散且環(huán)境已知的MDP問題:策略迭代:通過不斷進(jìn)行策略評(píng)估和策略改進(jìn),直至策略收斂,從而得到最佳策略,由于迭代速度快,適合狀態(tài)空間較小的情況值迭代:通過迭代計(jì)算最佳狀態(tài)價(jià)值,從最佳狀態(tài)價(jià)值中提取出最佳策略,由于計(jì)算量少,適合狀態(tài)空間較大的情況狀態(tài)-動(dòng)作連續(xù)且環(huán)境已知的MDP問題:LQR:解決狀態(tài)轉(zhuǎn)移關(guān)系為線性且有時(shí)間限制的MDP問題iLQR:解決狀態(tài)轉(zhuǎn)移關(guān)系為非線性且有時(shí)間限制的MDP問題案例:利用策略迭代和值迭代求解迷宮尋寶問題案例介紹迷宮尋寶問題:在一個(gè)5×5的棋盤中,超級(jí)瑪麗位于棋盤左上角的方格內(nèi),可以向上、下、左、右四個(gè)方向移動(dòng),每回合移動(dòng)一次記為1步寶藏位于棋盤最下層中間的方格內(nèi),超級(jí)瑪麗找到寶藏則游戲結(jié)束目標(biāo)是讓超級(jí)瑪麗以最少的步數(shù)找到寶藏利用策略迭代和值迭代求解迷宮尋寶問題的最佳策略第四章基于價(jià)值的強(qiáng)化學(xué)習(xí)

目錄狀態(tài)-動(dòng)作價(jià)值函數(shù)SarsaQ-learningDQN狀態(tài)-動(dòng)作價(jià)值函數(shù)環(huán)境已知的MDP問題

環(huán)境未知的MDP問題

與環(huán)境交互

如何學(xué)習(xí)

時(shí)間差分學(xué)習(xí)(Temporal-Differencelearning)

狀態(tài)-動(dòng)作價(jià)值函數(shù)的引入

狀態(tài)-動(dòng)作價(jià)值函數(shù)

SarsaSarsa

估計(jì)作為目標(biāo)值預(yù)測(cè)值Q表(Q-table)

…-2102-1101-1……Q表Sarsa算法流程

Sarsa舉例

Step1:初始化Q表上下左右開始0000一個(gè)香蕉0000空區(qū)域0000兩個(gè)香蕉0000炸彈區(qū)域0000三個(gè)香蕉0000

Q表

上下左右開始0000.1一個(gè)香蕉0000空區(qū)域0000兩個(gè)香蕉0000炸彈區(qū)域0000三個(gè)香蕉0000Q表Step5:利用Q表求出最佳策略上下左右開始-11.5-12一個(gè)香蕉-1-301空區(qū)域-130-1兩個(gè)香蕉0-1-1-3炸彈區(qū)域0000三個(gè)香蕉0000Q表中狀態(tài)??所在行的最大值所對(duì)應(yīng)的動(dòng)作??即為當(dāng)前狀態(tài)下的最佳策略Q表n-stepSarsa

Q-learningQ-learning

目標(biāo)值預(yù)測(cè)值Q-learning算法流程

Q-learning舉例

Step1:初始化Q表上下左右開始0000一個(gè)香蕉0000空區(qū)域0000兩個(gè)香蕉0000炸彈區(qū)域0000三個(gè)香蕉0000

Q表Step2:狀態(tài)??下選擇動(dòng)作??

上下左右開始0000.1一個(gè)香蕉0000空區(qū)域0000兩個(gè)香蕉0000炸彈區(qū)域0000三個(gè)香蕉0000Q表Step4:利用Q表求出最佳策略上下左右開始-11.5-12一個(gè)香蕉-1-301空區(qū)域-130-1兩個(gè)香蕉0-1-1-3炸彈區(qū)域0000三個(gè)香蕉0000

Q表Q-learning與SarsaSarsa和Q-learning是兩種常用的無模型強(qiáng)化學(xué)習(xí)算法兩種算法均基于Q表,適合狀態(tài)和動(dòng)作離散的問題Sarsa中從環(huán)境產(chǎn)生數(shù)據(jù)的策略和更新Q值的策略相同(on-policy);Q-learning中從環(huán)境產(chǎn)生數(shù)據(jù)的策略和更新Q值策略不同(off-policy)Q-learning通常收斂更快,實(shí)際中更常用懸崖尋路問題目標(biāo)是從起點(diǎn)移動(dòng)到終點(diǎn)可以采取上、下、左、右四種動(dòng)作進(jìn)行移動(dòng)到達(dá)除懸崖以外的方格獎(jiǎng)勵(lì)為-1到達(dá)懸崖獎(jiǎng)勵(lì)為-100并返回起點(diǎn)離開方格的動(dòng)作會(huì)保持當(dāng)前狀態(tài)不動(dòng)并獎(jiǎng)勵(lì)-1懸崖尋路問題:Q-learning和Sarsa的表現(xiàn)Q-leaning:沿著最短路徑進(jìn)行Q值的學(xué)習(xí),容易進(jìn)入懸崖,導(dǎo)致每次迭代的累積獎(jiǎng)勵(lì)較少迭代速度較快Sarsa:沿著較長(zhǎng)但安全的路徑進(jìn)行Q值的學(xué)習(xí),每次迭代的累積獎(jiǎng)勵(lì)較多迭代速度較慢Q-learningSarsaDQNQ表的局限性在Q-learning和Sarsa中,狀態(tài)和動(dòng)作離散,使用Q表來保存Q值當(dāng)狀態(tài)或動(dòng)作數(shù)量很大或者為連續(xù)值時(shí),使用Q表不再有效吃豆人馬里奧兄弟

值函數(shù)近似

Q表值函數(shù)近似

Q-tableDeepQNetwork一種結(jié)合了深度學(xué)習(xí)和Q-learning的強(qiáng)化學(xué)習(xí)算法適合狀態(tài)數(shù)量很大,動(dòng)作數(shù)量較少的問題,例如Atari游戲使用深度神經(jīng)網(wǎng)絡(luò)近似Q值MnihV,KavukcuogluK,SilverD,etal.Playingatariwithdeepreinforcementlearning[J].arXivpreprintarXiv:1312.5602,2013.DeepQNetwork

如何訓(xùn)練

DQN算法流程

DQN的改進(jìn)使用神經(jīng)網(wǎng)絡(luò)近似Q值時(shí),強(qiáng)化學(xué)習(xí)過程并不穩(wěn)定甚至?xí)l(fā)散,主要原因有:數(shù)據(jù)存在一定相關(guān)性數(shù)據(jù)非平穩(wěn)分布目標(biāo)Q值和預(yù)測(cè)Q值存在參數(shù)聯(lián)系針對(duì)上述問題,后續(xù)學(xué)者對(duì)DQN做出了一些改進(jìn):經(jīng)驗(yàn)回放(experiencereplay):應(yīng)對(duì)數(shù)據(jù)相關(guān)性和非平穩(wěn)分布問題目標(biāo)網(wǎng)絡(luò)(targetnetwork):引入新網(wǎng)絡(luò)計(jì)算目標(biāo)Q值,減輕與預(yù)測(cè)Q值的參數(shù)聯(lián)系MnihV,KavukcuogluK,SilverD,etal.Human-levelcontrolthroughdeepreinforcementlearning[J].Nature,2015,518(7540):529.經(jīng)驗(yàn)回放樣本緩存區(qū)(replaybuffer):與環(huán)境交互時(shí),將產(chǎn)生的數(shù)據(jù)存儲(chǔ)在緩存區(qū)中均勻地隨機(jī)采樣一批數(shù)據(jù)提供給神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練若緩存區(qū)數(shù)據(jù)已滿,用新數(shù)據(jù)覆蓋最舊的數(shù)據(jù)帶經(jīng)驗(yàn)回放的DQN算法流程

目標(biāo)網(wǎng)絡(luò)目標(biāo)Q值和預(yù)測(cè)Q值之間存在參數(shù)聯(lián)系,每次更新的目標(biāo)都是固定上次更新的參數(shù)得來的,優(yōu)化目標(biāo)跟著優(yōu)化過程一直在變,迭代難以收斂:引入一個(gè)與原始網(wǎng)絡(luò)結(jié)構(gòu)一樣的模型,稱為目標(biāo)網(wǎng)絡(luò)(targetnetwork),原模型稱為表現(xiàn)網(wǎng)絡(luò)(behaviornetwork),目標(biāo)網(wǎng)絡(luò)計(jì)算Q-learning中的目標(biāo)Q值,每當(dāng)完成一定輪數(shù)迭代,表現(xiàn)網(wǎng)絡(luò)的參數(shù)同步給目標(biāo)網(wǎng)絡(luò)targetnetworkbehaviornetworkUpdatetargetQpredictQMSE預(yù)測(cè)Q值(predictQ):目標(biāo)Q值(targetQ):

帶經(jīng)驗(yàn)回放和目標(biāo)網(wǎng)絡(luò)的DQN算法流程

DQN的表現(xiàn)右圖展示的是DQN在50多種Atari游戲上的表現(xiàn)圖中可以看到:DQN幾乎在所有游戲的表現(xiàn)上都高于歷史最好的強(qiáng)化學(xué)習(xí)方法對(duì)于半數(shù)以上的游戲,DQN的表現(xiàn)已經(jīng)超越了人類狀態(tài)與動(dòng)作連續(xù)的MDPDQN能處理離散動(dòng)作空間的MDP問題,但不能處理連續(xù)動(dòng)作空間的MDP問題例如自動(dòng)駕駛問題:狀態(tài)連續(xù):傳感器捕捉到的當(dāng)前路況圖像動(dòng)作連續(xù):操作方向盤、踩油門、剎車等動(dòng)作,方向盤轉(zhuǎn)動(dòng)的角度與加速度都是連續(xù)的NAF

GuS,LillicrapT,Sut

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論