版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
目錄12023/10/7PyTorch簡(jiǎn)介2.12.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境2.2PyTorch和TensorFlow2.4
Gym實(shí)驗(yàn)環(huán)境對(duì)于從事深度強(qiáng)化學(xué)習(xí)研究的相關(guān)工作人員而言,選擇一個(gè)好的工具勢(shì)必會(huì)事半功倍。。PyTorch是Facebook公司在深度學(xué)習(xí)框架Torch基礎(chǔ)上,使用Python重寫(xiě)的一個(gè)全新的框架。PyTorch還擁有豐富的API,可以快速完成深度神經(jīng)網(wǎng)絡(luò)模型的搭建和訓(xùn)練。22023/10/72.1PyTorch簡(jiǎn)介(1)PyTorch:美國(guó)互聯(lián)網(wǎng)巨頭Facebook公司使用Python開(kāi)發(fā)的一個(gè)深度學(xué)習(xí)框架;框架設(shè)計(jì)理念先進(jìn),在調(diào)試、編譯等方面的優(yōu)勢(shì),迅速占領(lǐng)GitHub熱度榜榜首;不是簡(jiǎn)單地封裝Lua、Torch,提供Python接口,而是對(duì)Tensor之上的所有模塊進(jìn)行了重構(gòu)。2.1PyTorch簡(jiǎn)介(2)3目錄42023/10/7PyTorch簡(jiǎn)介2.12.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境2.2PyTorch和TensorFlow2.4
Gym實(shí)驗(yàn)環(huán)境2.2
PyTorch和TensorFlow(1)5Tensorflow創(chuàng)建的是靜態(tài)圖
Tensorflow在定義模型的整個(gè)計(jì)算圖之后才開(kāi)始運(yùn)行機(jī)器學(xué)習(xí)模型;PyTorch創(chuàng)建的是動(dòng)態(tài)圖
PyTorch的計(jì)算圖是在運(yùn)行時(shí)創(chuàng)建的,可以隨時(shí)定義、隨時(shí)更改、隨時(shí)執(zhí)行節(jié)點(diǎn);2.2
PyTorch和TensorFlow(2)6
Tensorflow的學(xué)習(xí)曲線陡峭
使用Tensorflow,需要先理解Tensorflow的一些工作機(jī)制(比如會(huì)話(session)、占位符(placeholder)等)。PyTorch學(xué)習(xí)曲線簡(jiǎn)單
PyTorch更貼近Python語(yǔ)言,建立機(jī)器學(xué)習(xí)模型時(shí)也更直接、符合人的思維。目錄72023/10/7PyTorch簡(jiǎn)介2.12.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境2.2PyTorch和TensorFlow2.4
Gym實(shí)驗(yàn)環(huán)境Windows環(huán)境所需要的系統(tǒng)軟件:test目錄文件為環(huán)境測(cè)試用例。相關(guān)軟件的下載網(wǎng)址:Visual:
https:///downloadAnaconda:
https://Gym:
gitclonehttps:///openai/gym.git(需要安裝Git)2.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境(1)Windows環(huán)境步驟第一步:在windows下,點(diǎn)擊執(zhí)行,安裝VisualStudio。
安裝時(shí)只需勾選“使用C++的桌面開(kāi)發(fā)”,等待安裝完成后重啟電腦。2.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境(2)Windows環(huán)境步驟第二步:在windows下,點(diǎn)擊執(zhí)行,安裝Anaconda。注:Anaconda安裝完成后,通過(guò)窗口菜單“AnacondaPrompt”進(jìn)入Anaconda環(huán)境。使用清華鏡像:
pipconfigsetglobal.index-url/simple2.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境(2)Windows環(huán)境步驟在Anaconda環(huán)境中可以創(chuàng)建和維護(hù)自己的環(huán)境:2.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境(3)創(chuàng)建環(huán)境:condacreate--namerlpython=3.7
安裝swig:
condainstallswig(必做)查看環(huán)境:condaenvlist激活環(huán)境:condaactivaterl退出環(huán)境:condadeactivate刪除環(huán)境:condaremove–-namerl–allWindows環(huán)境步驟第三步:在Anacondarl下,執(zhí)行“pipinstalljupyter”,安裝JupyterNotebook。
根據(jù)需要可以安裝其他軟件包:
繪圖庫(kù):
pipinstallmatplotlib
數(shù)據(jù)統(tǒng)計(jì)庫(kù):pipinstallpanda進(jìn)入安裝測(cè)試目錄“實(shí)驗(yàn)代碼”,執(zhí)行“jupyternotebook”命令,測(cè)試安裝是否成功。2.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境(4)Windows環(huán)境步驟第四步:在Anacondarl下,進(jìn)入目錄“Gym”,執(zhí)行:
pipinstall-e“.[all]”
或pipinstall-egym[all]進(jìn)入安裝測(cè)試目錄“test”,執(zhí)行“jupyternotebook”命令,測(cè)試Gym安裝是否成功。2.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境(5)Windows環(huán)境步驟第五步:進(jìn)入官網(wǎng)的getstarted頁(yè)面。根據(jù)自己的環(huán)境配置情況進(jìn)行選擇。執(zhí)行“RunthisCommand”中的命令即可安裝。進(jìn)入安裝測(cè)試目錄“test”,執(zhí)行“jupyternotebook”命令,測(cè)試PyTorch安裝是否成功。
2.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境(6)
15Linux和Mac環(huán)境Anaconda搭建進(jìn)入Anaconda的官網(wǎng)https://選擇所需系統(tǒng)的版本下載;執(zhí)行bashAnaconda3-2019.10-Linux-x86_64.sh(以下載的文件名為準(zhǔn));安裝過(guò)程中會(huì)提示是否需要將安裝路徑寫(xiě)入到環(huán)境變量中,輸入“yes”回車執(zhí)行。JupyterNotebook、gym以及PyTorch的安裝與Windows相同。*2.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境(7)*2.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境(8)16Anaconda搭建環(huán)境的創(chuàng)建、維護(hù)和管理Anaconda安裝成功后,可以創(chuàng)建新環(huán)境并對(duì)新環(huán)境進(jìn)行基本的環(huán)境維護(hù)和環(huán)境管理。環(huán)境管理部分都采用命令行方式。Linux和Mac用戶直接打開(kāi)終端即可;
Windows用戶在開(kāi)始菜單中打開(kāi)“AnacondaPrompt”進(jìn)入命令行模式。目錄172023/10/7PyTorch簡(jiǎn)介2.12.3強(qiáng)化學(xué)習(xí)的開(kāi)發(fā)環(huán)境2.2PyTorch和TensorFlow2.4
Gym實(shí)驗(yàn)環(huán)境強(qiáng)化學(xué)習(xí)中經(jīng)典的實(shí)驗(yàn)場(chǎng)景:Mountain-Car,Cart-Pole,SpaceInvaders,Go,LunarLander,MuJoCo等。由于DRL的興起,各種新的復(fù)雜的實(shí)驗(yàn)場(chǎng)景不斷涌出,出現(xiàn)一系列優(yōu)秀的實(shí)驗(yàn)平臺(tái):OpenAIGym,OpenAIBaselines;MuJoCo,rllab,TORCS,PySC2。2.4Gym實(shí)驗(yàn)環(huán)境(1)OpenAIGym的安裝
OpenAIGym的官網(wǎng)地址為/,源碼地址為/openai/gym。Gym的完整安裝需要提前安裝MuJoCo。
MuJoCo官網(wǎng)。官網(wǎng)的license界面注冊(cè)獲得權(quán)限之后再下載安裝。2.4Gym實(shí)驗(yàn)環(huán)境(2)2.4Gym實(shí)驗(yàn)環(huán)境(3)經(jīng)典控制:CartPole-v1MountainCarContinuous-v0MountainCar-v0Acrobot-v1Pendulum-v0Box2D:Box2D中的連續(xù)控制任務(wù)BipedalWalker-v2BipedalWalkerHardcore-v2CarRacing-v0LunarLander-v2LunarLanderContinuous-v22.4Gym實(shí)驗(yàn)環(huán)境(4)Atari:Atari2600游戲Alien-v0Asterix-ram-v0Atlantis-ram-v0Breakout-v0Seaquest-v0BattleZone-ram-v0Boxing-ram-v0Enduro-v0FishningDerby-v0SpaceInvaders-v02.4Gym實(shí)驗(yàn)環(huán)境(5)Robotics:抓取機(jī)器人完成基于目標(biāo)的任務(wù)2.4Gym實(shí)驗(yàn)環(huán)境(6)MuJoCoMoJoCo是一個(gè)物理模擬器,可以用于機(jī)器人控制優(yōu)化等研究;官方網(wǎng)站為:/index.html;注意:MoJoCo需要license,可以在
https://www.roboti.us/license.html
上申請(qǐng)?jiān)囉?0天的Licence。
2.4Gym實(shí)驗(yàn)環(huán)境(7)MoJoCo:快速實(shí)體任務(wù)中的連續(xù)控制任務(wù)2.4Gym實(shí)驗(yàn)環(huán)境(8)Gym環(huán)境體驗(yàn)2.4Gym實(shí)驗(yàn)環(huán)境(9)Gym中的重要函數(shù)env=gym.make(‘CartPole-v0’):創(chuàng)建CartPole環(huán)境;env.reset():每一個(gè)情節(jié)結(jié)束后,agent初始化;env.render():圖像引擎用來(lái)顯示環(huán)境中的物理圖像;env.step():用來(lái)描述agent與環(huán)境交互的所有信息:輸入是動(dòng)作a,輸出是下一個(gè)狀態(tài),立即獎(jiǎng)賞和是否終止等。
2.4Gym實(shí)驗(yàn)環(huán)境(10)Gym的使用使用下面代碼可以簡(jiǎn)單的使用gym環(huán)境。
importgymenv=gym.make('MountainCar-v0')env.reset()env.render()env.close()
如果想看看別的環(huán)境是什么樣子的,可以將MountainCar-v0替換成CartPole-v0,Pendulum-v0,Acrobot-v1等,這些環(huán)境都來(lái)自Env基類。
282023/10/72.4Gym實(shí)驗(yàn)環(huán)境(11)搭建掃地機(jī)器人的Gym環(huán)境利用Gym搭建一個(gè)掃地機(jī)器人環(huán)境。該環(huán)境描述如下:在一個(gè)的掃地機(jī)器人環(huán)境中,有一個(gè)垃圾和一個(gè)充電樁,到達(dá)[5,4]處機(jī)器人撿到垃圾,并結(jié)束游戲,同時(shí)獲得+5的獎(jiǎng)賞;左下角[1,1]處有一個(gè)充電樁,機(jī)器人到達(dá)充電樁可以充電,且不再行走,獲得+1的獎(jiǎng)賞。環(huán)境中間[3,3]處有一個(gè)障礙物,機(jī)器人無(wú)法通過(guò)。
292023/10/72.4Gym實(shí)驗(yàn)環(huán)境(12)1.安裝
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024正式的地區(qū)代理合同范文
- 工程合同功能解析
- 水利工程維修貸款合同
- 2024醫(yī)院藥品供銷合同
- 農(nóng)業(yè)領(lǐng)域合作協(xié)議范本
- 2024年咨詢顧問(wèn)合作簡(jiǎn)單協(xié)議書(shū)
- 彩色鋼板工程承包協(xié)議書(shū)
- 集裝箱海運(yùn)合同范本
- 2024建筑業(yè)合同范本范文
- 2024個(gè)人房產(chǎn)轉(zhuǎn)讓合同
- 小學(xué)綜合實(shí)踐活動(dòng)-綠色出行教學(xué)課件設(shè)計(jì)
- 防校園欺凌-課件(共28張PPT)
- 第6章 智能網(wǎng)聯(lián)汽車測(cè)評(píng)技術(shù)
- 單向板結(jié)構(gòu)設(shè)計(jì)
- 普通高等學(xué)校學(xué)生轉(zhuǎn)學(xué)申請(qǐng)表
- 房租、水、電費(fèi)(專用)收據(jù)Excel模板
- 習(xí)近平總書(shū)記關(guān)于教育的重要論述研究學(xué)習(xí)通章節(jié)答案期末考試題庫(kù)2023年
- 重癥急性胰腺炎ppt恢復(fù)課件
- 2022江蘇省沿海開(kāi)發(fā)集團(tuán)限公司招聘23人上岸筆試歷年難、易錯(cuò)點(diǎn)考題附帶參考答案與詳解
- 鄉(xiāng)鎮(zhèn)衛(wèi)生院6S管理內(nèi)容和要求
- 數(shù)學(xué)教育概論 第3版
評(píng)論
0/150
提交評(píng)論