




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
目錄1
隨機(jī)策略梯度法12.3策略表達(dá)形式12.2策略優(yōu)化方法12.5行動(dòng)者-評(píng)論家12.4蒙特卡洛策略梯度法12.6確定性策略梯度定理12.112.7小結(jié)12.1隨機(jī)策略梯度法(1)參數(shù)化策略方法(parameterizedpolicy),該方法不再利用值函數(shù),而是利用策略函數(shù)來(lái)選擇動(dòng)作,同時(shí)使用值函數(shù)來(lái)輔助策略函數(shù)參數(shù)的更新。策略梯度法(policygradient,PG)是參數(shù)化策略函數(shù)的一種常用算法。根據(jù)策略類型的不同,PG可以分為:隨機(jī)策略梯度(stochasticpolicygradient,SPG)確定性策略梯度(deterministicpolicygradient,DPG)2023/11/6212.1.1梯度上升方法參數(shù)化策略不再是一個(gè)概率集合,而是一個(gè)可微的函數(shù)。策略函數(shù)
表示
時(shí)刻在狀態(tài)
和參數(shù)
下選擇動(dòng)作
的概率:
其中,
表示策略參數(shù)。參數(shù)化策略函數(shù)可以簡(jiǎn)記為
,這樣
可以簡(jiǎn)記為
。12.1隨機(jī)策略梯度法(2)2023/11/6312.1隨機(jī)策略梯度法(3)參數(shù)化策略函數(shù)
可以看作概率密度函數(shù),Agent按照該概率分布進(jìn)行動(dòng)作選擇。通常最直接的思想就是將目標(biāo)函數(shù)定義為折扣回報(bào)的期望:算法的目標(biāo)是使得回報(bào)最大化,所以對(duì)參數(shù)采用梯度上升方法,該方法也被稱為隨機(jī)梯度上升(stochasticgradient-ascent,SGA)算法。2023/11/6412.1隨機(jī)策略梯度法(4)基于SGA的參數(shù)更新方程為:其中,為策略梯度函數(shù)的估計(jì)值,即近似策略梯度。策略參數(shù)與值函數(shù)逼近中的權(quán)重參數(shù)作用相同,使用不同的符號(hào)僅用于區(qū)分所采用的方法;維度也僅用于與值函數(shù)逼近參數(shù)的維度之間的區(qū)分。REINFORCE算法和行動(dòng)器-評(píng)論家(AC)算法都屬于策略梯度(PG)方法。2023/11/6512.1隨機(jī)策略梯度法(5)12.1.2策略梯度法與值函數(shù)逼近法的比較PG法的優(yōu)點(diǎn)(1)平滑收斂:有很強(qiáng)的收斂性;值函數(shù)逼近法基于貪婪策略對(duì)策略進(jìn)行改進(jìn),即出現(xiàn)策略退化現(xiàn)象。(2)處理連續(xù)動(dòng)作空間任務(wù):值函數(shù)逼近法需要對(duì)比狀態(tài)中的所有動(dòng)作的價(jià)值,才能得到最優(yōu)動(dòng)作值函數(shù)
,在處理大動(dòng)作空間或連續(xù)狀態(tài)動(dòng)作空間任務(wù)時(shí),難以實(shí)現(xiàn)。
12.1隨機(jī)策略梯度法(6)
(3)學(xué)習(xí)隨機(jī)策略:在實(shí)際問(wèn)題中,策略通常都是隨機(jī)的,PG法能夠輸出隨機(jī)策略,而值函數(shù)逼近法基于貪婪方法,每次輸出的都是確定性策略。
12.1隨機(jī)策略梯度法(7)PG法的缺點(diǎn)
(1)PG法通常只能收斂到局部最優(yōu)解。
(2)PG法的易收斂性和學(xué)習(xí)過(guò)程平滑優(yōu)勢(shì),都會(huì)使Agent嘗試過(guò)多的無(wú)效探索,從而造成學(xué)習(xí)效率低,整體策略方差偏大,以及存在累積誤差帶來(lái)的過(guò)高估計(jì)問(wèn)題。12.1隨機(jī)策略梯度法(8)例12.1以格子世界為例,說(shuō)明算法只能輸出確定性策略的缺陷。
如圖(a)所示格子世界,要求Agent在不掉入陷阱區(qū)域“X”的情況下,到達(dá)目標(biāo)“G”。Agent的初始狀態(tài)可能隨機(jī)地出現(xiàn)在第一行的5個(gè)格子中。12.1隨機(jī)策略梯度法(9)采用坐標(biāo)信息來(lái)表示格子:可以使用值函數(shù)方法,方程組求解。采用“格子某個(gè)方向是否有墻”來(lái)描述格子位置:就會(huì)出現(xiàn)如圖(b)所示的情況,兩個(gè)灰色格子的狀態(tài)特征描述是一樣的,即發(fā)生了重名現(xiàn)象:隨機(jī)策略就會(huì)比確定性策略效果更好:例12.2以格子世界為例,比較采用值函數(shù)逼近法與策略梯度法學(xué)習(xí)到的策略之間的區(qū)別。
如圖所示,S為起點(diǎn),G為終點(diǎn),陰影表示障礙物,動(dòng)作A={上,下,左,右},Agent若離開(kāi)邊界或撞到障礙物時(shí),都會(huì)返回到上一個(gè)位置,到達(dá)目標(biāo)G時(shí)獎(jiǎng)賞為1,其他轉(zhuǎn)移情況獎(jiǎng)賞均為0。12.1
隨機(jī)策略梯度法(10)目錄12
隨機(jī)策略梯度法12.3策略表達(dá)形式12.2策略優(yōu)化方法12.5行動(dòng)者-評(píng)論家12.4蒙特卡洛策略梯度法12.6確定性策略梯度定理12.112.7小結(jié)12.2策略優(yōu)化方法(1)情節(jié)式策略目標(biāo)函數(shù)PG法的目標(biāo)為最大化目標(biāo)函數(shù)
。針對(duì)情節(jié)式任務(wù),又可以根據(jù)離散狀態(tài)-動(dòng)作空間任務(wù)和連續(xù)狀態(tài)-動(dòng)作空間任務(wù),來(lái)分別定義不同的目標(biāo)函數(shù):(1)初始價(jià)值(startvalue)
初始價(jià)值適用于離散狀態(tài)-動(dòng)作空間任務(wù),假設(shè)每個(gè)情節(jié)都從初始狀態(tài)
開(kāi)始,其目標(biāo)函數(shù)由初始狀態(tài)價(jià)值的期望構(gòu)成:其中,
表示策略函數(shù)
的真實(shí)狀態(tài)值函數(shù),有時(shí)也將
記為。12.2策略優(yōu)化方法(2)(2)平均價(jià)值(averagevalue)
平均價(jià)值適用于連續(xù)狀態(tài)-動(dòng)作空間任務(wù),在該任務(wù)中,Agent不存在初始狀態(tài)
,所以平均價(jià)值計(jì)算的是
時(shí)刻下所有可能狀態(tài)的價(jià)值,與
時(shí)刻的狀態(tài)分布概率
的加權(quán)和:12.2策略優(yōu)化方法(3)(3)時(shí)間步平均獎(jiǎng)賞(averagerewardpertime-stepvalue)時(shí)間步平均獎(jiǎng)賞適用于連續(xù)狀態(tài)-動(dòng)作空間任務(wù),這是一種使用1-步TD(0)算法的方法,它計(jì)算t時(shí)刻的獎(jiǎng)賞期望:12.2策略優(yōu)化方法(4)連續(xù)式策略目標(biāo)函數(shù)在無(wú)法使用情節(jié)式邊界的連續(xù)式任務(wù)中,根據(jù)每個(gè)時(shí)刻的平均回報(bào)來(lái)定義目標(biāo)函數(shù):其中,,滿足遍歷性假設(shè)。12.2策略優(yōu)化方法(5)策略梯度定理原則上,可以直接對(duì)目標(biāo)函數(shù)
求梯度,然后利用SGA優(yōu)化參數(shù)
。但是基于回報(bào)期望的目標(biāo)函數(shù)和策略函數(shù)的聯(lián)系并不直觀,這樣的目標(biāo)函數(shù)梯度難以直接用于參數(shù)優(yōu)化。對(duì)于連續(xù)狀態(tài)-動(dòng)作空間任務(wù)來(lái)說(shuō),除了動(dòng)作的選擇,狀態(tài)分布
也受到策略參數(shù)的影響,雖然可以通過(guò)策略參數(shù)
計(jì)算出動(dòng)作選擇概率
和相應(yīng)獎(jiǎng)賞
,但因?yàn)闋顟B(tài)分布
與環(huán)境有關(guān),所以無(wú)法確定策略梯度
與狀態(tài)分布
之間的關(guān)系。由此需要對(duì)目標(biāo)函數(shù)進(jìn)行調(diào)整。12.2策略優(yōu)化方法(6)(1)全部動(dòng)作算法下的策略梯度定理如果執(zhí)行某一個(gè)動(dòng)作能夠得到更多獎(jiǎng)賞(或回報(bào),或值函數(shù)),那么就應(yīng)該增加它出現(xiàn)的概率,反之減小其概率?;谶@一想法,考慮最簡(jiǎn)單的1-步TD(0)情況,構(gòu)建一個(gè)與策略參數(shù)
無(wú)關(guān)的評(píng)價(jià)指標(biāo)函數(shù),用于測(cè)量在狀態(tài)
下采取動(dòng)作
可以獲得的獎(jiǎng)賞(或回報(bào),或值函數(shù)),以此得到基于評(píng)價(jià)指標(biāo)期望的目標(biāo)函數(shù):其中,狀態(tài)分布是策略函數(shù)下的同策略分布。12.2策略優(yōu)化方法(7)
以離散空間任務(wù)為例,為了構(gòu)建一個(gè)僅對(duì)策略參數(shù)
求導(dǎo),而不涉及對(duì)狀態(tài)分布
求導(dǎo)的目標(biāo)函數(shù)導(dǎo)數(shù)形式,將狀態(tài)作為分布函數(shù):由于涉及所有可能的動(dòng)作,所以該算法也被稱為全部動(dòng)作算法(all-actionsmethod)。12.2策略優(yōu)化方法(8)
評(píng)價(jià)指標(biāo)可以用獎(jiǎng)賞r、回報(bào)G或值函數(shù)等形式來(lái)表示,常用的評(píng)價(jià)指標(biāo)為動(dòng)作值函數(shù)
,其策略梯度如下所示:該式也被稱為策略梯度定理,該定理同時(shí)適用于離散和連續(xù)狀態(tài)-動(dòng)作空間任務(wù),也就是說(shuō),四種目標(biāo)函數(shù)
都可以采用這一策略梯度。由此得到策略參數(shù)更新方程如下所示:12.2策略優(yōu)化方法(9)
(2)單步算法下的策略梯度定理
在實(shí)際情況下,由于需要進(jìn)行采樣,策略梯度定理通常僅考慮采樣得到動(dòng)作。其中,策略梯度
或其對(duì)數(shù)
被稱為跡向量表示參數(shù)空間中在訪問(wèn)狀態(tài)
時(shí)最能增加重復(fù)動(dòng)作的概率的方向。評(píng)價(jià)指標(biāo)期望越大的動(dòng)作,就讓它出現(xiàn)的概率(即跡向量)越大,反之越小。12.2
策略優(yōu)化方法(9)
同理,將動(dòng)作值函數(shù)
作為評(píng)價(jià)指標(biāo),策略梯度法也可以表示為如下形式:
該式表示,動(dòng)作值函數(shù)期望越高的動(dòng)作,其出現(xiàn)概率也應(yīng)該越高。有時(shí)也將
記為
。
現(xiàn)在,我們的目標(biāo)轉(zhuǎn)為求解跡向量
和動(dòng)作值函數(shù)
。目錄23
隨機(jī)策略梯度法12.3策略表達(dá)形式12.2策略優(yōu)化方法12.5行動(dòng)者-評(píng)論家12.4蒙特卡洛策略梯度法12.6確定性策略梯度定理12.112.7小結(jié)
為了求跡向量
,首先需要構(gòu)建策略函數(shù)的參數(shù)表達(dá)形式。
在PG法中,策略函數(shù)
需要分成:小型離散動(dòng)作空間(softmax函數(shù));大型或連續(xù)動(dòng)作空間(高斯策略函數(shù))。
12.3策略表達(dá)形式(1)
12.3.1離散動(dòng)作空間策略參數(shù)化針對(duì)小型離散動(dòng)作空間問(wèn)題,對(duì)每一組狀態(tài)-動(dòng)作對(duì)都估計(jì)一個(gè)動(dòng)作偏好值
,也就是特征函數(shù)。動(dòng)作偏好值
可以用任意的方式參數(shù)化,通常將它視為多個(gè)特征的線性加權(quán)之和:
其中,表示特征向量。在某個(gè)狀態(tài)下動(dòng)作表現(xiàn)越
好,其偏好值
就越高;若最優(yōu)策略是確定性策略,
則相對(duì)于次優(yōu)動(dòng)作,其偏好值將趨于無(wú)窮大。
策略函數(shù)
正比于動(dòng)作偏好值
。12.3策略表達(dá)形式(2)
12.3策略表達(dá)形式(3)
用指數(shù)柔性最大化分布(softmax函數(shù))構(gòu)建基于動(dòng)作偏好值的策略函數(shù),輸出狀態(tài)s下所有可執(zhí)行動(dòng)作的概率分布:softmax策略的跡向量如下所示:其中,
表示在狀態(tài)s下,采取動(dòng)作a的得分;
表示在狀態(tài)s的期望分值。12.3策略表達(dá)形式(4)
12.3.2連續(xù)動(dòng)作空間策略參數(shù)化
對(duì)于大型離散動(dòng)作空間或連續(xù)動(dòng)作空間問(wèn)題,PG法根據(jù)高斯分布來(lái)選擇動(dòng)作。高斯分布的概率密度函數(shù)為:其中,
和
分別為高斯分布的均值和標(biāo)準(zhǔn)差;
表示小于x的圖像所圍成的面積,
圖像下的總面積恒為1。12.3策略表達(dá)形式(5)
將策略函數(shù)定義為實(shí)數(shù)型動(dòng)作的正態(tài)概率密度:其中,
通常用一個(gè)線性函數(shù)來(lái)逼近:
;則
設(shè)置為一個(gè)固定正數(shù)。滿足該式的策略函數(shù)稱為高斯策略函數(shù)。12.3
策略表達(dá)形式(6)
高斯策略的跡向量所示為:目錄30
隨機(jī)策略梯度法12.3策略表達(dá)形式12.2策略優(yōu)化方法12.5行動(dòng)者-評(píng)論家12.4蒙特卡洛策略梯度法12.6確定性策略梯度定理12.112.7小結(jié)12.4蒙特卡洛策略梯度法(1)
動(dòng)作值函數(shù)
可以通過(guò)DP、MC、TD等基礎(chǔ)強(qiáng)化學(xué)習(xí)算法進(jìn)行學(xué)習(xí)。蒙特卡洛策略梯度法(REINFORCE)是一種針對(duì)情節(jié)式問(wèn)題的,基于MC算法的PG法。12.4蒙特卡洛策略梯度法(2)
12.4.1REINFORCEREINFORCE算法采用MC算法來(lái)計(jì)算動(dòng)作值函數(shù),只考慮Agent在狀態(tài)
下實(shí)際采取的動(dòng)作
:由于采用MC算法,所以這是一種對(duì)策略梯度的無(wú)偏估計(jì)。
REINFORCE算法的策略參數(shù)
更新方程為:12.4蒙特卡洛策略梯度法(3)
該方法可以從理論上保證策略參數(shù)
的收斂性,最大化
:梯度增量
正比于回報(bào)
,使得策略參數(shù)
向著能夠產(chǎn)生最大回報(bào)的動(dòng)作的方向更新;梯度增量
反比于跡向量,能夠減少被頻繁選擇的動(dòng)作。12.4蒙特卡洛策略梯度法(4)
12.4蒙特卡洛策略梯度法(5)
12.4.2REINFORCE算法的實(shí)驗(yàn)結(jié)果及分析
為了說(shuō)明隨機(jī)策略的優(yōu)點(diǎn),引入短走廊網(wǎng)格世界環(huán)境。
短走廊網(wǎng)格世界環(huán)境與大部分網(wǎng)格環(huán)境一樣,每步的收益是-1,對(duì)于三個(gè)非終止?fàn)顟B(tài)都有兩個(gè)動(dòng)作可供選擇:向左或者向右。特殊的是:第一個(gè)狀態(tài)向左走會(huì)保持原地不動(dòng),而在第二個(gè)狀態(tài)執(zhí)行的動(dòng)作會(huì)導(dǎo)致向相反的方向移動(dòng)。12.4蒙特卡洛策略梯度法(6)
對(duì)短走廊環(huán)境以及gym的CartPole-v0環(huán)境進(jìn)行了實(shí)驗(yàn),應(yīng)用REINFORCE算法實(shí)現(xiàn)過(guò)程中,在網(wǎng)絡(luò)模型、訓(xùn)練控制等方面通常設(shè)置很多超參數(shù)。
在CartPole環(huán)境中REINFORCE算法的主要超參數(shù)序號(hào)超參數(shù)取值具體描述1discountfactor0.99折扣因子2learningrate0.001確定一次執(zhí)行動(dòng)作時(shí)所在圖像幀的位置3Send1隨機(jī)種子4hiddenlayer128隱藏層節(jié)點(diǎn)個(gè)數(shù)5ActivationFunctionrelu網(wǎng)絡(luò)的激活函數(shù)
在短走廊環(huán)境中REINFORCE算法的主要超參數(shù)12.4蒙特卡洛策略梯度法(7)
序號(hào)超參數(shù)取值具體描述1discountfactor1折扣因子2learningrate2e-4確定一次執(zhí)行動(dòng)作時(shí)所在圖像幀的位置3Send1隨機(jī)種子
num_trials100評(píng)估價(jià)值平均的次數(shù)12.4蒙特卡洛策略梯度法(8)
每個(gè)環(huán)境下算法的訓(xùn)練情節(jié)數(shù)均為1000個(gè)情節(jié),這是因?yàn)閮蓚€(gè)環(huán)境在1000個(gè)情節(jié)后都能收斂,兩個(gè)圖效果整體上都呈現(xiàn)先穩(wěn)步上升,后平穩(wěn)的學(xué)習(xí)趨勢(shì)。在CartPole環(huán)境下縱坐標(biāo)表示平衡桿的存活時(shí)間步數(shù)。在短走廊環(huán)境中,大約500個(gè)情節(jié)后收斂在-11.6處,而CartPole環(huán)境下大約在900個(gè)情節(jié)后,收斂在了200時(shí)間步處。短走廊環(huán)境結(jié)果圖
CartPole環(huán)境結(jié)果圖
12.4蒙特卡洛策略梯度法(9)
12.4.3帶基線的REINFROCE
REINFORCE的優(yōu)勢(shì)在于只需要很小的更新步長(zhǎng)就能收斂到局部最優(yōu),并保證了每次更新都是有利的。但是假設(shè)每個(gè)動(dòng)作的獎(jiǎng)賞均為正(即所有的策略梯度值
均大于或等于零時(shí)),則每個(gè)動(dòng)作出現(xiàn)的概率將不斷提高,這一現(xiàn)象會(huì)嚴(yán)重降低學(xué)習(xí)速率,并增大梯度方差。12.4蒙特卡洛策略梯度法(10)
考慮一個(gè)隨機(jī)變量
,其方差為
,如果能夠使
減小,那么方差也會(huì)減小,最直接的做法就是讓
減去一個(gè)值。根據(jù)這一思想,構(gòu)建一個(gè)僅與狀態(tài)有關(guān)的基線函數(shù)
保證能夠在不改變策略梯度
的同時(shí),降低其方差。當(dāng)
具備上述特點(diǎn)時(shí),下面的推導(dǎo)成立:12.4蒙特卡洛策略梯度法(11)
為評(píng)價(jià)指標(biāo)增加基線
并不會(huì)改變策略梯度
,所以帶基線的強(qiáng)化學(xué)習(xí)方法是無(wú)偏差的。原則上,與動(dòng)作無(wú)關(guān)的任意函數(shù)或變量都可作為
。帶基線的REINFORCE算法策略梯度計(jì)算公式如下所示:帶基線的策略參數(shù)的更新方程如下所示:當(dāng)為0時(shí),該式就與REINFORCE一樣。12.4蒙特卡洛策略梯度法(12)
原則上,與動(dòng)作無(wú)關(guān)的函數(shù)都可以作為基線
。但是為了有效地利用基線,對(duì)所有動(dòng)作值都比較大的狀態(tài),需要設(shè)置一個(gè)較大的基線來(lái)區(qū)分最優(yōu)動(dòng)作和次優(yōu)動(dòng)作;對(duì)所有動(dòng)作值都比較小的狀態(tài),則需要設(shè)置一個(gè)比較小的基線。由此用近似狀態(tài)值函數(shù)
代表基線
,當(dāng)回報(bào)超過(guò)基線值時(shí),該動(dòng)作的概率將提高,反之降低:12.4蒙特卡洛策略梯度法(13)12.4蒙特卡洛策略梯度法(14)在算法中,由于帶基線的REINFORCE算法同時(shí)使用到了PG法和狀態(tài)值函數(shù)逼近法,所以需要分別設(shè)定策略梯度的步長(zhǎng)
和近似狀態(tài)值函數(shù)的步長(zhǎng)
;近似狀態(tài)值函數(shù)
作為基線,更新MC算法的目標(biāo)值;采用基于SGD的函數(shù)逼近算法,更新近似值函數(shù)參數(shù)
;采用PG法,更新策略參數(shù)
。從這里開(kāi)始,經(jīng)常會(huì)在一個(gè)算法中涉及到對(duì)策略參數(shù)
和值函數(shù)參數(shù)
的更新,所以在求導(dǎo)時(shí),通常使用
和來(lái)加以區(qū)分。12.4蒙特卡洛策略梯度法(15)
12.4.4帶基線的REINFORCE算法的實(shí)驗(yàn)結(jié)果及分析
帶基線的REINFORCE算法其網(wǎng)絡(luò)結(jié)構(gòu)、參數(shù)設(shè)置以及實(shí)驗(yàn)環(huán)境與REINFORCE一樣。在算法中,近似狀態(tài)值函數(shù)參數(shù)
的學(xué)習(xí)率為0.001。實(shí)驗(yàn)對(duì)REINFORCE和帶基線的REINFORCE兩種算法的性能進(jìn)行了對(duì)比。短走廊環(huán)境結(jié)果圖 CartPole環(huán)境結(jié)果圖12.4蒙特卡洛策略梯度法(16)
在兩種環(huán)境下帶基線的REINFORCE算法效果都優(yōu)于REINFORCE算法。在短走廊環(huán)境下帶基線的REINFORCE算法最終也收斂在-11.6處,與REINFORCE算法一致,但收斂的更快,在100個(gè)情節(jié)后即可收斂。在CartPole環(huán)境中,帶基線的REINFORCE算法大約在600個(gè)情節(jié)穩(wěn)定在第200個(gè)時(shí)間步。12.4
蒙特卡洛策略梯度法(17)
兩個(gè)環(huán)境下的表現(xiàn)進(jìn)行比較:在短走廊環(huán)境下兩個(gè)算法收斂之后都較為穩(wěn)定。在CartPole環(huán)境中,兩個(gè)算法在整個(gè)訓(xùn)練過(guò)程都波動(dòng)較大,帶基線的REINFORCE算法更為明顯。這是因?yàn)榕c短走廊環(huán)境相比較,CartPole環(huán)境更復(fù)雜。盡管REINFORCE算法在處理簡(jiǎn)單環(huán)境,如短走廊環(huán)境,有較好效果,但在處理復(fù)雜問(wèn)題時(shí)則不盡如意。為了解決此問(wèn)題,在后續(xù)章節(jié)將引入基于行動(dòng)者-評(píng)論家框架的DDPG、TD3算法等。目錄48
隨機(jī)策略梯度法12.3策略表達(dá)形式12.2策略優(yōu)化方法12.5行動(dòng)者-評(píng)論家12.4蒙特卡洛策略梯度法12.6確定性策略梯度定理12.112.7小結(jié)12.5行動(dòng)者-評(píng)論家(1)
REINFORCE都采用情節(jié)更新方法,雖然是無(wú)偏的,但是方差高。一種直觀的改進(jìn)方式是采用自舉的更新方法,在每一步或幾步之后及時(shí)地做出策略改進(jìn),雖然引入了偏差,但可以有效減小方差。12.5行動(dòng)者-評(píng)論家(2)
行動(dòng)者-評(píng)論家(actor–critic,AC)算法正是這樣一種利用了自舉的方法,將PG法(策略網(wǎng)絡(luò))和值函數(shù)逼近法(值函數(shù)網(wǎng)絡(luò))相結(jié)合,同時(shí)學(xué)習(xí)策略和值函數(shù),實(shí)現(xiàn)實(shí)時(shí)、在線地學(xué)習(xí):行動(dòng)者(actor)依賴于評(píng)論家(critic)的值函數(shù),利用PG法更新策略參數(shù),學(xué)習(xí)(改進(jìn))策略;評(píng)論家依賴于行動(dòng)者策略
得到的經(jīng)驗(yàn)樣本,利用值函數(shù)逼近法更新值函數(shù)參數(shù),學(xué)習(xí)(改進(jìn))近似值函數(shù)
或。12.5行動(dòng)者-評(píng)論家(3)
對(duì)于AC過(guò)程可以直觀來(lái)理解:Agent根據(jù)任務(wù)的當(dāng)前狀態(tài)選擇一個(gè)動(dòng)作(基于當(dāng)前策略或初始化策略);評(píng)論家根據(jù)當(dāng)前狀態(tài)-動(dòng)作對(duì),針對(duì)當(dāng)前策略的表現(xiàn)打分;AC基本框架圖12.5行動(dòng)者-評(píng)論家(4)
行動(dòng)者依據(jù)評(píng)論家的打分,改進(jìn)策略(調(diào)整策略參數(shù));評(píng)論家根據(jù)環(huán)境返回的獎(jiǎng)賞,改進(jìn)策略打分方式(調(diào)整值函數(shù)參數(shù));利用更新后的策略在下一狀態(tài)處選擇動(dòng)作,重復(fù)以上過(guò)程。12.5行動(dòng)者-評(píng)論家(5)
最初行動(dòng)者隨機(jī)選擇動(dòng)作,評(píng)論家隨機(jī)打分。但由于環(huán)境返回的獎(jiǎng)賞,評(píng)論家的評(píng)分會(huì)越來(lái)越準(zhǔn)確,行動(dòng)者會(huì)選擇到更好的動(dòng)作。需要注意的是,帶基線的REINFORCE算法雖然也同時(shí)運(yùn)用了值函數(shù)和策略函數(shù),但它并不屬于AC方法,因?yàn)樗闹岛瘮?shù)僅僅作為基線,而不是評(píng)論家。12.5行動(dòng)者-評(píng)論家算法(6)行動(dòng)者-評(píng)論家方法屬于一種TD方法;用兩個(gè)獨(dú)立的存儲(chǔ)結(jié)構(gòu)分別表示策略和值函數(shù):行動(dòng)者:表示策略函數(shù),根據(jù)評(píng)估的TD誤差選擇動(dòng)作;評(píng)論家:表示估計(jì)的值函數(shù),通過(guò)計(jì)算值函數(shù)來(lái)評(píng)價(jià)行動(dòng)者的好壞。2023/11/65412.5行動(dòng)者-評(píng)論家算法(7)行動(dòng)者-評(píng)論家TD誤差:TD誤差表示的是當(dāng)前狀態(tài)的1-步回報(bào)或者n-步回報(bào)與其值函數(shù)之間的差值,TD誤差的計(jì)算公式如下:TD誤差可以用來(lái)評(píng)估當(dāng)前正在被選擇動(dòng)作的好與壞。當(dāng)TD誤差為正時(shí),表明未來(lái)選擇動(dòng)作的趨勢(shì)應(yīng)該加強(qiáng);當(dāng)TD誤差為負(fù)時(shí),表明未來(lái)選擇動(dòng)作的趨勢(shì)應(yīng)該減弱。2023/11/65512.5行動(dòng)者-評(píng)論家算法(8)假設(shè)動(dòng)作產(chǎn)生于Gibbs軟最大化方法:其中:,為正的步長(zhǎng)參數(shù)。2023/11/656AC算法是一種策略梯度算法,與值函數(shù)方法相比,AC方法在選擇動(dòng)作時(shí)所需的計(jì)算量相對(duì)較小。即使動(dòng)作空間是連續(xù)的情況,AC算法在選擇動(dòng)作時(shí)也不需要在每次的選擇動(dòng)作時(shí),在無(wú)窮的動(dòng)作空間中做大量的計(jì)算。57AC算法具有的兩個(gè)顯著的優(yōu)點(diǎn):AC算法通過(guò)對(duì)策略的直接更新對(duì)策略進(jìn)行改進(jìn),該方式能使Agent學(xué)習(xí)到一個(gè)確定的隨機(jī)策略。而值函數(shù)方法是通過(guò)狀態(tài)-動(dòng)作值函數(shù)來(lái)選擇動(dòng)作,Agent往往學(xué)習(xí)到的是確定策略。AC方法甚至可以用來(lái)解決非MDP問(wèn)題。12.5
行動(dòng)者-評(píng)論家算法(9)2023/11/6目錄58
隨機(jī)策略梯度法12.3策略表達(dá)形式12.2策略優(yōu)化方法12.5行動(dòng)者-評(píng)論家12.4蒙特卡洛策略梯度法12.6確定性策略梯度定理12.112.7小結(jié)12.6確定性策略梯度定理(1)
與確定性策略相比,隨機(jī)策略自帶探索屬性,它可以通過(guò)探索產(chǎn)生多樣的采樣數(shù)據(jù),并由強(qiáng)化學(xué)習(xí)算法來(lái)改進(jìn)當(dāng)前策略。SPG理論相對(duì)比較成熟,計(jì)算過(guò)程更為簡(jiǎn)單。而采用DPG法時(shí),在初始狀態(tài)已知的情況下,用確定性策略所產(chǎn)生的軌跡是固定的,也就是說(shuō),Agent無(wú)法學(xué)習(xí)。為了在確定性策略下實(shí)現(xiàn)對(duì)環(huán)境的探索,確定性策略需要采用AC框架,并利用異策略學(xué)習(xí)方法,設(shè)置行動(dòng)策略為隨機(jī)策略。12.6確定性策略梯度定理(2)
(1)同策略SPG與DPG
SPG計(jì)算公式如下所示:DPG計(jì)算公式如下所示:其中,
是基于確定性策略的動(dòng)作值函數(shù);有時(shí)也會(huì)將
記為或,以明確表示這是一個(gè)關(guān)于確定性策略的參數(shù)。12.6確定性策略梯度定理(3)
DPG是SPG定理在策略方差趨向于0時(shí)的極限情況。比較SPG和DPG的策略梯度計(jì)算公式,可以發(fā)現(xiàn)它們的差異在于SPG中多一個(gè)log項(xiàng),同時(shí)期望也不同,這些差異本質(zhì)上是因?yàn)镈PG不對(duì)動(dòng)作求期望。(2)異策略SPG與DPG
異策略SPG計(jì)算公式為:其中,
為目標(biāo)策略,
為行為策略,有時(shí)也將
直接表示為參數(shù)化策略函數(shù)
;表示遵循行為策略
進(jìn)行采樣的,關(guān)于策略參數(shù)
的目標(biāo)函數(shù);
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 采購(gòu)合同框架協(xié)議書(shū)
- 業(yè)務(wù)委托外包服務(wù)協(xié)議合同書(shū)
- 企業(yè)員工健康體檢服務(wù)協(xié)議
- 企業(yè)環(huán)保技術(shù)應(yīng)用推廣合作協(xié)議
- 續(xù)簽合同意向協(xié)議書(shū)
- 綜合辦公效率提升統(tǒng)計(jì)表
- 小學(xué)生愛(ài)國(guó)情懷教育故事解讀
- 健康咨詢與服務(wù)推廣協(xié)議
- 甲醛檢測(cè)儀知識(shí)培訓(xùn)課件
- 電子商務(wù)網(wǎng)絡(luò)安全管理與應(yīng)用試題及答案
- 小區(qū)老樓電梯加裝鋼結(jié)構(gòu)工程施工方案全套
- 食堂遇特殊天氣應(yīng)急預(yù)案
- 礦山機(jī)電專業(yè)課程標(biāo)準(zhǔn)范本
- 食品風(fēng)味化學(xué)(第二版) 課件 第8、9章 風(fēng)味物質(zhì)的提取與分析、食品中風(fēng)味的釋放和穩(wěn)定化
- 變電站建設(shè)工程造價(jià)影響因素分析及控制策略研究
- 人教版道德與法治五年級(jí)下冊(cè)全冊(cè)課件(完整版)
- 角磨機(jī)施工方案
- 施耐德ATS互投柜說(shuō)明書(shū)WTSA、B控制器說(shuō)明書(shū)
- 勞動(dòng)教育第一課 整理衣物有條理
- 燃油加油機(jī)計(jì)量檢定操作規(guī)范
- -《畫(huà)線段圖解決問(wèn)題的策略》
評(píng)論
0/150
提交評(píng)論