《強化學(xué)習(xí)理論與應(yīng)用》環(huán)境_第1頁
《強化學(xué)習(xí)理論與應(yīng)用》環(huán)境_第2頁
《強化學(xué)習(xí)理論與應(yīng)用》環(huán)境_第3頁
《強化學(xué)習(xí)理論與應(yīng)用》環(huán)境_第4頁
《強化學(xué)習(xí)理論與應(yīng)用》環(huán)境_第5頁
已閱讀5頁,還剩26頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

目錄12023/10/7PyTorch簡介2.12.3強化學(xué)習(xí)的開發(fā)環(huán)境2.2PyTorch和TensorFlow2.4

Gym實驗環(huán)境對于從事深度強化學(xué)習(xí)研究的相關(guān)工作人員而言,選擇一個好的工具勢必會事半功倍。。PyTorch是Facebook公司在深度學(xué)習(xí)框架Torch基礎(chǔ)上,使用Python重寫的一個全新的框架。PyTorch還擁有豐富的API,可以快速完成深度神經(jīng)網(wǎng)絡(luò)模型的搭建和訓(xùn)練。22023/10/72.1PyTorch簡介(1)PyTorch:美國互聯(lián)網(wǎng)巨頭Facebook公司使用Python開發(fā)的一個深度學(xué)習(xí)框架;框架設(shè)計理念先進,在調(diào)試、編譯等方面的優(yōu)勢,迅速占領(lǐng)GitHub熱度榜榜首;不是簡單地封裝Lua、Torch,提供Python接口,而是對Tensor之上的所有模塊進行了重構(gòu)。2.1PyTorch簡介(2)3目錄42023/10/7PyTorch簡介2.12.3強化學(xué)習(xí)的開發(fā)環(huán)境2.2PyTorch和TensorFlow2.4

Gym實驗環(huán)境2.2

PyTorch和TensorFlow(1)5Tensorflow創(chuàng)建的是靜態(tài)圖

Tensorflow在定義模型的整個計算圖之后才開始運行機器學(xué)習(xí)模型;PyTorch創(chuàng)建的是動態(tài)圖

PyTorch的計算圖是在運行時創(chuàng)建的,可以隨時定義、隨時更改、隨時執(zhí)行節(jié)點;2.2

PyTorch和TensorFlow(2)6

Tensorflow的學(xué)習(xí)曲線陡峭

使用Tensorflow,需要先理解Tensorflow的一些工作機制(比如會話(session)、占位符(placeholder)等)。PyTorch學(xué)習(xí)曲線簡單

PyTorch更貼近Python語言,建立機器學(xué)習(xí)模型時也更直接、符合人的思維。目錄72023/10/7PyTorch簡介2.12.3強化學(xué)習(xí)的開發(fā)環(huán)境2.2PyTorch和TensorFlow2.4

Gym實驗環(huán)境Windows環(huán)境所需要的系統(tǒng)軟件:test目錄文件為環(huán)境測試用例。相關(guān)軟件的下載網(wǎng)址:Visual:

https:///downloadAnaconda:

https://Gym:

gitclonehttps:///openai/gym.git(需要安裝Git)2.3強化學(xué)習(xí)的開發(fā)環(huán)境(1)Windows環(huán)境步驟第一步:在windows下,點擊執(zhí)行,安裝VisualStudio。

安裝時只需勾選“使用C++的桌面開發(fā)”,等待安裝完成后重啟電腦。2.3強化學(xué)習(xí)的開發(fā)環(huán)境(2)Windows環(huán)境步驟第二步:在windows下,點擊執(zhí)行,安裝Anaconda。注:Anaconda安裝完成后,通過窗口菜單“AnacondaPrompt”進入Anaconda環(huán)境。使用清華鏡像:

pipconfigsetglobal.index-url/simple2.3強化學(xué)習(xí)的開發(fā)環(huán)境(2)Windows環(huán)境步驟在Anaconda環(huán)境中可以創(chuàng)建和維護自己的環(huán)境:2.3強化學(xué)習(xí)的開發(fā)環(huán)境(3)創(chuàng)建環(huán)境:condacreate--namerlpython=3.7

安裝swig:

condainstallswig(必做)查看環(huán)境:condaenvlist激活環(huán)境:condaactivaterl退出環(huán)境:condadeactivate刪除環(huán)境:condaremove–-namerl–allWindows環(huán)境步驟第三步:在Anacondarl下,執(zhí)行“pipinstalljupyter”,安裝JupyterNotebook。

根據(jù)需要可以安裝其他軟件包:

繪圖庫:

pipinstallmatplotlib

數(shù)據(jù)統(tǒng)計庫:pipinstallpanda進入安裝測試目錄“實驗代碼”,執(zhí)行“jupyternotebook”命令,測試安裝是否成功。2.3強化學(xué)習(xí)的開發(fā)環(huán)境(4)Windows環(huán)境步驟第四步:在Anacondarl下,進入目錄“Gym”,執(zhí)行:

pipinstall-e“.[all]”

或pipinstall-egym[all]進入安裝測試目錄“test”,執(zhí)行“jupyternotebook”命令,測試Gym安裝是否成功。2.3強化學(xué)習(xí)的開發(fā)環(huán)境(5)Windows環(huán)境步驟第五步:進入官網(wǎng)的getstarted頁面。根據(jù)自己的環(huán)境配置情況進行選擇。執(zhí)行“RunthisCommand”中的命令即可安裝。進入安裝測試目錄“test”,執(zhí)行“jupyternotebook”命令,測試PyTorch安裝是否成功。

2.3強化學(xué)習(xí)的開發(fā)環(huán)境(6)

15Linux和Mac環(huán)境Anaconda搭建進入Anaconda的官網(wǎng)https://選擇所需系統(tǒng)的版本下載;執(zhí)行bashAnaconda3-2019.10-Linux-x86_64.sh(以下載的文件名為準(zhǔn));安裝過程中會提示是否需要將安裝路徑寫入到環(huán)境變量中,輸入“yes”回車執(zhí)行。JupyterNotebook、gym以及PyTorch的安裝與Windows相同。*2.3強化學(xué)習(xí)的開發(fā)環(huán)境(7)*2.3強化學(xué)習(xí)的開發(fā)環(huán)境(8)16Anaconda搭建環(huán)境的創(chuàng)建、維護和管理Anaconda安裝成功后,可以創(chuàng)建新環(huán)境并對新環(huán)境進行基本的環(huán)境維護和環(huán)境管理。環(huán)境管理部分都采用命令行方式。Linux和Mac用戶直接打開終端即可;

Windows用戶在開始菜單中打開“AnacondaPrompt”進入命令行模式。目錄172023/10/7PyTorch簡介2.12.3強化學(xué)習(xí)的開發(fā)環(huán)境2.2PyTorch和TensorFlow2.4

Gym實驗環(huán)境強化學(xué)習(xí)中經(jīng)典的實驗場景:Mountain-Car,Cart-Pole,SpaceInvaders,Go,LunarLander,MuJoCo等。由于DRL的興起,各種新的復(fù)雜的實驗場景不斷涌出,出現(xiàn)一系列優(yōu)秀的實驗平臺:OpenAIGym,OpenAIBaselines;MuJoCo,rllab,TORCS,PySC2。2.4Gym實驗環(huán)境(1)OpenAIGym的安裝

OpenAIGym的官網(wǎng)地址為/,源碼地址為/openai/gym。Gym的完整安裝需要提前安裝MuJoCo。

MuJoCo官網(wǎng)。官網(wǎng)的license界面注冊獲得權(quán)限之后再下載安裝。2.4Gym實驗環(huán)境(2)2.4Gym實驗環(huán)境(3)經(jīng)典控制:CartPole-v1MountainCarContinuous-v0MountainCar-v0Acrobot-v1Pendulum-v0Box2D:Box2D中的連續(xù)控制任務(wù)BipedalWalker-v2BipedalWalkerHardcore-v2CarRacing-v0LunarLander-v2LunarLanderContinuous-v22.4Gym實驗環(huán)境(4)Atari:Atari2600游戲Alien-v0Asterix-ram-v0Atlantis-ram-v0Breakout-v0Seaquest-v0BattleZone-ram-v0Boxing-ram-v0Enduro-v0FishningDerby-v0SpaceInvaders-v02.4Gym實驗環(huán)境(5)Robotics:抓取機器人完成基于目標(biāo)的任務(wù)2.4Gym實驗環(huán)境(6)MuJoCoMoJoCo是一個物理模擬器,可以用于機器人控制優(yōu)化等研究;官方網(wǎng)站為:/index.html;注意:MoJoCo需要license,可以在

https://www.roboti.us/license.html

上申請試用30天的Licence。

2.4Gym實驗環(huán)境(7)MoJoCo:快速實體任務(wù)中的連續(xù)控制任務(wù)2.4Gym實驗環(huán)境(8)Gym環(huán)境體驗2.4Gym實驗環(huán)境(9)Gym中的重要函數(shù)env=gym.make(‘CartPole-v0’):創(chuàng)建CartPole環(huán)境;env.reset():每一個情節(jié)結(jié)束后,agent初始化;env.render():圖像引擎用來顯示環(huán)境中的物理圖像;env.step():用來描述agent與環(huán)境交互的所有信息:輸入是動作a,輸出是下一個狀態(tài),立即獎賞和是否終止等。

2.4Gym實驗環(huán)境(10)Gym的使用使用下面代碼可以簡單的使用gym環(huán)境。

importgymenv=gym.make('MountainCar-v0')env.reset()env.render()env.close()

如果想看看別的環(huán)境是什么樣子的,可以將MountainCar-v0替換成CartPole-v0,Pendulum-v0,Acrobot-v1等,這些環(huán)境都來自Env基類。

282023/10/72.4Gym實驗環(huán)境(11)搭建掃地機器人的Gym環(huán)境利用Gym搭建一個掃地機器人環(huán)境。該環(huán)境描述如下:在一個的掃地機器人環(huán)境中,有一個垃圾和一個充電樁,到達[5,4]處機器人撿到垃圾,并結(jié)束游戲,同時獲得+5的獎賞;左下角[1,1]處有一個充電樁,機器人到達充電樁可以充電,且不再行走,獲得+1的獎賞。環(huán)境中間[3,3]處有一個障礙物,機器人無法通過。

292023/10/72.4Gym實驗環(huán)境(12)1.安裝

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論