強(qiáng)化學(xué)習(xí)的有效方法

上傳人：1*** IP屬地：天津上傳時(shí)間：2023-05-07 格式：DOCX 頁(yè)數(shù)：6 大?。?3.62KB 積分：6 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩1頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

強(qiáng)化學(xué)習(xí)的有效方法強(qiáng)化學(xué)習(xí)有效方法（精選篇1）

建立一個(gè)強(qiáng)化學(xué)習(xí)模型是熟識(shí)強(qiáng)化學(xué)習(xí)的第一步。在這個(gè)過(guò)程中，需要將問(wèn)題轉(zhuǎn)化為與大量數(shù)據(jù)使用交作用的智能代理，該代理在每個(gè)時(shí)刻都會(huì)依據(jù)觀看到的狀況和前期體驗(yàn)做出決策和操作。同學(xué)可以利用探究/開(kāi)發(fā)方法定義智能代抱負(fù)要學(xué)習(xí)的策略以及嘉獎(jiǎng)設(shè)計(jì)方案等;還可以借鑒Q-Learning、SARSA等經(jīng)典算法，并在不斷迭代和反饋中不斷優(yōu)化模型。

基于概率是強(qiáng)化學(xué)習(xí)中最直接的一種,他能通過(guò)感官分析所處的環(huán)境,直接輸出下一步要實(shí)行的各種動(dòng)作的概率,然后依據(jù)概率實(shí)行行動(dòng),所以每種動(dòng)作都有可能被選中,只是可能性不同.而基于價(jià)值的方法輸出則是全部動(dòng)作的價(jià)值,我們會(huì)依據(jù)最高價(jià)值來(lái)選著動(dòng)作,相比基于概率的方法,基于價(jià)值的決策部分更為鐵定,毫不留情,就選價(jià)值最高的,而基于概率的,即使某個(gè)動(dòng)作的概率最高,但是還是不肯定會(huì)選到他.

我們現(xiàn)在說(shuō)的動(dòng)作都是一個(gè)一個(gè)不連續(xù)的動(dòng)作,而對(duì)于選取連續(xù)的動(dòng)作,基于價(jià)值的方法是無(wú)能為力的.我們卻能用一個(gè)概率分布在連續(xù)動(dòng)作中選取特定動(dòng)作,這也是基于概率的方法的優(yōu)點(diǎn)之一.那么這兩類(lèi)使用的方法又有哪些呢?

比如在基于概率這邊,有policygradients,在基于價(jià)值這邊有qlearning,sarsa等.而且我們還能結(jié)合這兩類(lèi)方法的優(yōu)勢(shì)之處,制造更牛逼的一種方法,叫做actor-critic,actor會(huì)基于概率做出動(dòng)作,而critic會(huì)對(duì)做出的動(dòng)作給出動(dòng)作的價(jià)值,這樣就在原有的policygradients上加速了學(xué)習(xí)過(guò)程.我們還能結(jié)合這兩類(lèi)方法的優(yōu)勢(shì)之處,制造更牛逼的一種方法,叫做Actor-Critic，actor會(huì)基于概率做出動(dòng)作,而critic會(huì)對(duì)做出的動(dòng)作給出動(dòng)作的價(jià)值,這樣就在原有的policygradients上加速了學(xué)習(xí)過(guò)程.

強(qiáng)化學(xué)習(xí)有效方法（精選篇2）

我們可以將全部強(qiáng)化學(xué)習(xí)的方法分為理不理解所處環(huán)境,假如我們不嘗試去理解環(huán)境,環(huán)境給了我們什么就是什么.我們就把這種方法叫做model-free,這里的model就是用模型來(lái)表示環(huán)境,那理解了環(huán)境也就是學(xué)會(huì)了用一個(gè)模型來(lái)代表環(huán)境,所以這種就是model-based方法.我們想象.現(xiàn)在環(huán)境就是我們的世界,我們的機(jī)器人正在這個(gè)世界里玩耍,他不理解這個(gè)世界是怎樣構(gòu)成的,也不理解世界對(duì)于他的行為會(huì)怎么樣反饋.舉個(gè)例子,他打算丟顆原子彈去真實(shí)的世界,結(jié)果把自己給炸死了,全部結(jié)果都是那么現(xiàn)實(shí).不過(guò)假如實(shí)行的是model-basedRL,機(jī)器人會(huì)通過(guò)過(guò)往的閱歷,先理解真實(shí)世界是怎樣的,并建立一個(gè)模型來(lái)模擬現(xiàn)實(shí)世界的反饋,最終他不僅可以在現(xiàn)實(shí)世界中玩耍,也能在模擬的世界中玩耍,這樣就沒(méi)必要去炸真實(shí)世界,連自己也炸死了,他可以像玩嬉戲一樣炸炸嬉戲里的世界,也保住了自己的小命.那我們就來(lái)說(shuō)說(shuō)這兩種方式的強(qiáng)化學(xué)習(xí)各用那些方法吧.

Model-free的方法有許多,像Qlearning,Sarsa,PolicyGradients都是從環(huán)境中得到反饋然后從中學(xué)習(xí).而model-basedRL只是多了一道程序,為真實(shí)世界建模,也可以說(shuō)他們都是model-free的強(qiáng)化學(xué)習(xí),只是model-based多出了一個(gè)虛擬環(huán)境,我們不僅可以像model-free那樣在現(xiàn)實(shí)中玩耍,還能在嬉戲中玩耍,而玩耍的方式也都是model-free中那些玩耍方式,最終model-based還有一個(gè)殺手锏是model-free超級(jí)艷羨的.那就是想象力.

Model-free中,機(jī)器人只能按部就班,一步一步等待真實(shí)世界的反饋,再依據(jù)反饋實(shí)行下一步行動(dòng).而model-based,他能通過(guò)想象來(lái)預(yù)推斷接下來(lái)將要發(fā)生的全部狀況.然后選擇這些想象狀況中最好的那種.并依據(jù)這種狀況來(lái)實(shí)行下一步的策略,這也就是圍棋場(chǎng)上AlphaGo能夠超越人類(lèi)的緣由.接下來(lái),我們?cè)賮?lái)用另外一種分類(lèi)方法將強(qiáng)化學(xué)習(xí)分為基于概率和基于價(jià)值.

強(qiáng)化學(xué)習(xí)的其次步是通過(guò)多樣性嘗試向智能代理供應(yīng)充分的閱歷來(lái)深化學(xué)問(wèn)。同學(xué)應(yīng)當(dāng)將代理放置于各種情境中，例如賽車(chē)嬉戲或機(jī)器人導(dǎo)航，讓其從實(shí)踐中獵取更多的閱歷。此外，全面利用可用資源，例如在線課程、指導(dǎo)文獻(xiàn)或開(kāi)源庫(kù)進(jìn)行調(diào)研;在虛擬或試驗(yàn)環(huán)境中重復(fù)或探究可能性及反向?qū)W習(xí)方案，并利用模擬仿真工具和可視化技術(shù)加強(qiáng)對(duì)算法的理解和優(yōu)化策略。

強(qiáng)化學(xué)習(xí)有效方法（精選篇3）

強(qiáng)化學(xué)習(xí)的第三步是不斷進(jìn)行迭代修正。同學(xué)可以評(píng)估智能代理的表現(xiàn)和嘉獎(jiǎng)的效果，并利用閱歷回放方法、廣義策略迭代等來(lái)進(jìn)一步提高策略效率和穩(wěn)定性。同時(shí)，也需要不斷檢查算法設(shè)計(jì)與程序代碼是否存在錯(cuò)誤，并調(diào)整參數(shù)并比較不同算法之間的表現(xiàn)以削減閱歷樣本的缺失率與干擾降難提升效率。例如，在使用深度強(qiáng)化學(xué)習(xí)時(shí)，采納分層掌握結(jié)構(gòu)避開(kāi)因過(guò)多狀態(tài)而過(guò)度簡(jiǎn)單化智能代理為成長(zhǎng)瓶頸，已得到證明行之有效。在鞏固和拓展基礎(chǔ)學(xué)問(wèn)水平的基礎(chǔ)上嫻熟運(yùn)用迭代調(diào)整方法，會(huì)使你更加深化了解整個(gè)強(qiáng)化學(xué)習(xí)的過(guò)程和挑戰(zhàn)以獵取最佳掌握結(jié)果。

強(qiáng)化學(xué)習(xí)還能用另外一種方式分類(lèi),回合更新和單步更新,想象強(qiáng)化學(xué)習(xí)就是在玩嬉戲,嬉戲回合有開(kāi)頭和結(jié)束.回合更新指的是嬉戲開(kāi)頭后,我們要等待嬉戲結(jié)束,然后再總結(jié)這一回合中的全部轉(zhuǎn)折點(diǎn),再更新我們的行為準(zhǔn)則.而單步更新則是在嬉戲進(jìn)行中每一步都在更新,不用等待嬉戲的結(jié)束,這樣我們就能邊玩邊學(xué)習(xí)了.

再來(lái)說(shuō)說(shuō)方法,Monte-carlolearning和基礎(chǔ)版的policygradients等都是回合更新制,Qlearning,Sarsa,升級(jí)版的policygradients等都是單步更新制.由于單步更新更有效率,所以現(xiàn)在大多方法都是基于單步更新.比如有的強(qiáng)化學(xué)習(xí)問(wèn)題并不屬于回合問(wèn)題.

在線學(xué)習(xí)和離線學(xué)習(xí),所謂在線學(xué)習(xí),就是指我必需本人在場(chǎng),并且肯定是本人邊玩邊學(xué)習(xí),而離線學(xué)習(xí)是你可以選擇自己玩,也可以選擇看著別人玩,通過(guò)看別人玩來(lái)學(xué)習(xí)別人的行為準(zhǔn)則,離線學(xué)習(xí)同樣是從過(guò)往的閱歷中學(xué)習(xí),但是這些過(guò)往的經(jīng)受沒(méi)必要是自己的經(jīng)受,任何人的經(jīng)受都能被學(xué)習(xí).或者我也不必要邊玩邊學(xué)習(xí),我可以白天先存儲(chǔ)下來(lái)玩耍時(shí)的記憶,然后晚上通過(guò)離線學(xué)習(xí)來(lái)學(xué)習(xí)白天的記憶.那么每種學(xué)習(xí)的方法又有哪些呢?

最典型的在線學(xué)習(xí)就是sarsa了,還有一種優(yōu)化sarsa的算法,叫做sarsalambda,最典型的離線學(xué)習(xí)就是Qlearning,后來(lái)人也依據(jù)離線學(xué)習(xí)的屬性,開(kāi)發(fā)了更強(qiáng)大的算法,比如讓計(jì)算機(jī)學(xué)會(huì)玩電動(dòng)的Deep-Q-Network.

這就是我們從各種不同的角度來(lái)對(duì)比了強(qiáng)化學(xué)習(xí)中的多種算法.在監(jiān)督學(xué)習(xí)中，在外部有一個(gè)“監(jiān)督主管”，它擁有全部環(huán)境的學(xué)問(wèn)，并且與智能體一起共享這個(gè)學(xué)問(wèn)，從而關(guān)心智能體完成任務(wù)。但是這樣存在一些問(wèn)題，由于在一個(gè)任務(wù)中，其中存在如此多的子任務(wù)之間的組合，智能體應(yīng)當(dāng)執(zhí)行并且實(shí)現(xiàn)目標(biāo)。所以，創(chuàng)建一個(gè)“監(jiān)督主管”幾乎是不切實(shí)際的。例如，在象棋嬉戲中，存在數(shù)萬(wàn)個(gè)可以移動(dòng)的玩法。因此，去創(chuàng)建一個(gè)可以獲勝的玩法學(xué)問(wèn)庫(kù)是一個(gè)單調(diào)乏味的任務(wù)。在這些問(wèn)題中，從自己的閱歷中學(xué)習(xí)，并且獲得學(xué)問(wèn)是更加合理可行的。這就是強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的主要區(qū)分

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 開(kāi)題報(bào)告

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

強(qiáng)化學(xué)習(xí)的有效方法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

強(qiáng)化學(xué)習(xí)的有效方法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔