《強(qiáng)化學(xué)習(xí)理論與應(yīng)用》環(huán)境_第1頁(yè)
《強(qiáng)化學(xué)習(xí)理論與應(yīng)用》環(huán)境_第2頁(yè)
《強(qiáng)化學(xué)習(xí)理論與應(yīng)用》環(huán)境_第3頁(yè)
《強(qiáng)化學(xué)習(xí)理論與應(yīng)用》環(huán)境_第4頁(yè)
《強(qiáng)化學(xué)習(xí)理論與應(yīng)用》環(huán)境_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

目錄12023/10/7PyTorch簡(jiǎn)介2.12.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境2.2PyTorch和TensorFlow2.4

Gym實(shí)驗(yàn)環(huán)境對(duì)于從事深度強(qiáng)化學(xué)習(xí)研究的相關(guān)工作人員而言,選擇一個(gè)好的工具勢(shì)必會(huì)事半功倍。。PyTorch是Facebook公司在深度學(xué)習(xí)框架Torch基礎(chǔ)上,使用Python重寫(xiě)的一個(gè)全新的框架。PyTorch還擁有豐富的API,可以快速完成深度神經(jīng)網(wǎng)絡(luò)模型的搭建和訓(xùn)練。22023/10/72.1PyTorch簡(jiǎn)介(1)PyTorch:美國(guó)互聯(lián)網(wǎng)巨頭Facebook公司使用Python開(kāi)發(fā)的一個(gè)深度學(xué)習(xí)框架;框架設(shè)計(jì)理念先進(jìn),在調(diào)試、編譯等方面的優(yōu)勢(shì),迅速占領(lǐng)GitHub熱度榜榜首;不是簡(jiǎn)單地封裝Lua、Torch,提供Python接口,而是對(duì)Tensor之上的所有模塊進(jìn)行了重構(gòu)。2.1PyTorch簡(jiǎn)介(2)3目錄42023/10/7PyTorch簡(jiǎn)介2.12.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境2.2PyTorch和TensorFlow2.4

Gym實(shí)驗(yàn)環(huán)境2.2

PyTorch和TensorFlow(1)5Tensorflow創(chuàng)建的是靜態(tài)圖

Tensorflow在定義模型的整個(gè)計(jì)算圖之后才開(kāi)始運(yùn)行機(jī)器學(xué)習(xí)模型;PyTorch創(chuàng)建的是動(dòng)態(tài)圖

PyTorch的計(jì)算圖是在運(yùn)行時(shí)創(chuàng)建的,可以隨時(shí)定義、隨時(shí)更改、隨時(shí)執(zhí)行節(jié)點(diǎn);2.2

PyTorch和TensorFlow(2)6

Tensorflow的學(xué)習(xí)曲線陡峭

使用Tensorflow,需要先理解Tensorflow的一些工作機(jī)制(比如會(huì)話(session)、占位符(placeholder)等)。PyTorch學(xué)習(xí)曲線簡(jiǎn)單

PyTorch更貼近Python語(yǔ)言,建立機(jī)器學(xué)習(xí)模型時(shí)也更直接、符合人的思維。目錄72023/10/7PyTorch簡(jiǎn)介2.12.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境2.2PyTorch和TensorFlow2.4

Gym實(shí)驗(yàn)環(huán)境Windows環(huán)境所需要的系統(tǒng)軟件:test目錄文件為環(huán)境測(cè)試用例。相關(guān)軟件的下載網(wǎng)址:Visual:

https:///downloadAnaconda:

https://Gym:

gitclonehttps:///openai/gym.git(需要安裝Git)2.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境(1)Windows環(huán)境步驟第一步:在windows下,點(diǎn)擊執(zhí)行,安裝VisualStudio。

安裝時(shí)只需勾選“使用C++的桌面開(kāi)發(fā)”,等待安裝完成后重啟電腦。2.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境(2)Windows環(huán)境步驟第二步:在windows下,點(diǎn)擊執(zhí)行,安裝Anaconda。注:Anaconda安裝完成后,通過(guò)窗口菜單“AnacondaPrompt”進(jìn)入Anaconda環(huán)境。使用清華鏡像:

pipconfigsetglobal.index-url/simple2.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境(2)Windows環(huán)境步驟在Anaconda環(huán)境中可以創(chuàng)建和維護(hù)自己的環(huán)境:2.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境(3)創(chuàng)建環(huán)境:condacreate--namerlpython=3.7

安裝swig:

condainstallswig(必做)查看環(huán)境:condaenvlist激活環(huán)境:condaactivaterl退出環(huán)境:condadeactivate刪除環(huán)境:condaremove–-namerl–allWindows環(huán)境步驟第三步:在Anacondarl下,執(zhí)行“pipinstalljupyter”,安裝JupyterNotebook。

根據(jù)需要可以安裝其他軟件包:

繪圖庫(kù):

pipinstallmatplotlib

數(shù)據(jù)統(tǒng)計(jì)庫(kù):pipinstallpanda進(jìn)入安裝測(cè)試目錄“實(shí)驗(yàn)代碼”,執(zhí)行“jupyternotebook”命令,測(cè)試安裝是否成功。2.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境(4)Windows環(huán)境步驟第四步:在Anacondarl下,進(jìn)入目錄“Gym”,執(zhí)行:

pipinstall-e“.[all]”

或pipinstall-egym[all]進(jìn)入安裝測(cè)試目錄“test”,執(zhí)行“jupyternotebook”命令,測(cè)試Gym安裝是否成功。2.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境(5)Windows環(huán)境步驟第五步:進(jìn)入官網(wǎng)的getstarted頁(yè)面。根據(jù)自己的環(huán)境配置情況進(jìn)行選擇。執(zhí)行“RunthisCommand”中的命令即可安裝。進(jìn)入安裝測(cè)試目錄“test”,執(zhí)行“jupyternotebook”命令,測(cè)試PyTorch安裝是否成功。

2.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境(6)

15Linux和Mac環(huán)境Anaconda搭建進(jìn)入Anaconda的官網(wǎng)https://選擇所需系統(tǒng)的版本下載;執(zhí)行bashAnaconda3-2019.10-Linux-x86_64.sh(以下載的文件名為準(zhǔn));安裝過(guò)程中會(huì)提示是否需要將安裝路徑寫(xiě)入到環(huán)境變量中,輸入“yes”回車執(zhí)行。JupyterNotebook、gym以及PyTorch的安裝與Windows相同。*2.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境(7)*2.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境(8)16Anaconda搭建環(huán)境的創(chuàng)建、維護(hù)和管理Anaconda安裝成功后,可以創(chuàng)建新環(huán)境并對(duì)新環(huán)境進(jìn)行基本的環(huán)境維護(hù)和環(huán)境管理。環(huán)境管理部分都采用命令行方式。Linux和Mac用戶直接打開(kāi)終端即可;

Windows用戶在開(kāi)始菜單中打開(kāi)“AnacondaPrompt”進(jìn)入命令行模式。目錄172023/10/7PyTorch簡(jiǎn)介2.12.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境2.2PyTorch和TensorFlow2.4

Gym實(shí)驗(yàn)環(huán)境強(qiáng)化學(xué)習(xí)中經(jīng)典的實(shí)驗(yàn)場(chǎng)景:Mountain-Car,Cart-Pole,SpaceInvaders,Go,LunarLander,MuJoCo等。由于DRL的興起,各種新的復(fù)雜的實(shí)驗(yàn)場(chǎng)景不斷涌出,出現(xiàn)一系列優(yōu)秀的實(shí)驗(yàn)平臺(tái):OpenAIGym,OpenAIBaselines;MuJoCo,rllab,TORCS,PySC2。2.4Gym實(shí)驗(yàn)環(huán)境(1)OpenAIGym的安裝

OpenAIGym的官網(wǎng)地址為/,源碼地址為/openai/gym。Gym的完整安裝需要提前安裝MuJoCo。

MuJoCo官網(wǎng)。官網(wǎng)的license界面注冊(cè)獲得權(quán)限之后再下載安裝。2.4Gym實(shí)驗(yàn)環(huán)境(2)2.4Gym實(shí)驗(yàn)環(huán)境(3)經(jīng)典控制:CartPole-v1MountainCarContinuous-v0MountainCar-v0Acrobot-v1Pendulum-v0Box2D:Box2D中的連續(xù)控制任務(wù)BipedalWalker-v2BipedalWalkerHardcore-v2CarRacing-v0LunarLander-v2LunarLanderContinuous-v22.4Gym實(shí)驗(yàn)環(huán)境(4)Atari:Atari2600游戲Alien-v0Asterix-ram-v0Atlantis-ram-v0Breakout-v0Seaquest-v0BattleZone-ram-v0Boxing-ram-v0Enduro-v0FishningDerby-v0SpaceInvaders-v02.4Gym實(shí)驗(yàn)環(huán)境(5)Robotics:抓取機(jī)器人完成基于目標(biāo)的任務(wù)2.4Gym實(shí)驗(yàn)環(huán)境(6)MuJoCoMoJoCo是一個(gè)物理模擬器,可以用于機(jī)器人控制優(yōu)化等研究;官方網(wǎng)站為:/index.html;注意:MoJoCo需要license,可以在

https://www.roboti.us/license.html

上申請(qǐng)?jiān)囉?0天的Licence。

2.4Gym實(shí)驗(yàn)環(huán)境(7)MoJoCo:快速實(shí)體任務(wù)中的連續(xù)控制任務(wù)2.4Gym實(shí)驗(yàn)環(huán)境(8)Gym環(huán)境體驗(yàn)2.4Gym實(shí)驗(yàn)環(huán)境(9)Gym中的重要函數(shù)env=gym.make(‘CartPole-v0’):創(chuàng)建CartPole環(huán)境;env.reset():每一個(gè)情節(jié)結(jié)束后,agent初始化;env.render():圖像引擎用來(lái)顯示環(huán)境中的物理圖像;env.step():用來(lái)描述agent與環(huán)境交互的所有信息:輸入是動(dòng)作a,輸出是下一個(gè)狀態(tài),立即獎(jiǎng)賞和是否終止等。

2.4Gym實(shí)驗(yàn)環(huán)境(10)Gym的使用使用下面代碼可以簡(jiǎn)單的使用gym環(huán)境。

importgymenv=gym.make('MountainCar-v0')env.reset()env.render()env.close()

如果想看看別的環(huán)境是什么樣子的,可以將MountainCar-v0替換成CartPole-v0,Pendulum-v0,Acrobot-v1等,這些環(huán)境都來(lái)自Env基類。

282023/10/72.4Gym實(shí)驗(yàn)環(huán)境(11)搭建掃地機(jī)器人的Gym環(huán)境利用Gym搭建一個(gè)掃地機(jī)器人環(huán)境。該環(huán)境描述如下:在一個(gè)的掃地機(jī)器人環(huán)境中,有一個(gè)垃圾和一個(gè)充電樁,到達(dá)[5,4]處機(jī)器人撿到垃圾,并結(jié)束游戲,同時(shí)獲得+5的獎(jiǎng)賞;左下角[1,1]處有一個(gè)充電樁,機(jī)器人到達(dá)充電樁可以充電,且不再行走,獲得+1的獎(jiǎng)賞。環(huán)境中間[3,3]處有一個(gè)障礙物,機(jī)器人無(wú)法通過(guò)。

292023/10/72.4Gym實(shí)驗(yàn)環(huán)境(12)1.安裝

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論