具身智能機(jī)器人擴(kuò)散策略Diffusion Policy環(huán)境安裝與運(yùn)行_第1頁(yè)
具身智能機(jī)器人擴(kuò)散策略Diffusion Policy環(huán)境安裝與運(yùn)行_第2頁(yè)
具身智能機(jī)器人擴(kuò)散策略Diffusion Policy環(huán)境安裝與運(yùn)行_第3頁(yè)
具身智能機(jī)器人擴(kuò)散策略Diffusion Policy環(huán)境安裝與運(yùn)行_第4頁(yè)
具身智能機(jī)器人擴(kuò)散策略Diffusion Policy環(huán)境安裝與運(yùn)行_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

具身智能機(jī)器人擴(kuò)散策略DiffusionPolicy環(huán)境安裝與運(yùn)行1主要內(nèi)容23擴(kuò)散策略綜述擴(kuò)散策略源碼使用邏輯訓(xùn)練UMI擴(kuò)散策略4UMI訓(xùn)練過(guò)程1擴(kuò)散策略綜述具身智能基本原理4非端到端模型:基于VLM的具身分層模型具身智能(EmbodiedIntelligence):具身的含義不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能。具身智能三大環(huán)節(jié):感知—決策—執(zhí)行1.感知(Perception):智能體通過(guò)傳感器(如視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等)收集環(huán)境中的信息。感知環(huán)節(jié)是智能體理解周圍環(huán)境并生成內(nèi)部表示的基礎(chǔ)。沒(méi)有準(zhǔn)確的感知,智能體無(wú)法做出有效的決策。2.決策(Decision-Making):智能體在獲得感知信息后,通過(guò)內(nèi)部模型和算法,評(píng)估不同的可能行動(dòng)方案,并選擇最優(yōu)的行動(dòng)策略。高效的決策是實(shí)現(xiàn)智能行為的核心,因?yàn)樗苯佑绊懼悄荏w的反應(yīng)和表現(xiàn)。3.執(zhí)行(Execution):智能體將決策結(jié)果轉(zhuǎn)化為具體的物理動(dòng)作,以實(shí)現(xiàn)預(yù)定目標(biāo)。執(zhí)行能力的提升直接關(guān)系到智能體的實(shí)際應(yīng)用效果。端到端模型:基于VLA的具身模型具身智能與dp/umi/dexcap5具身智能三大環(huán)節(jié):感知—決策—執(zhí)行1.感知:RealSenseD4152.決策:DiffusionPolicy3.執(zhí)行:UR5-CB3orUR5e

及棍狀末端1.感知:Goprohero92.決策:DiffusionPolicy3.執(zhí)行:UR5-CB3orUR5e

及二指夾爪1.感知:RealsenseL515

RealSenseT2652.決策:DiffusionPolicy3.執(zhí)行:FrankaFR3

及四指夾爪LEAPHandDiffusion基本原理6DiffusionPolicy:Diffusion(擴(kuò)散)是一種生成方法,最初被用在圖像生成領(lǐng)域。圖像生成技術(shù),如StableDiffusion和Midjourney,都基于這種擴(kuò)散方法。擴(kuò)散方法的核心思想是,通過(guò)逐步地對(duì)圖像進(jìn)行調(diào)整和改善,從而生成高質(zhì)量的圖像。擴(kuò)散模型訓(xùn)練過(guò)程擴(kuò)散模型圖像生成過(guò)程VAE模型編碼解碼過(guò)程Policy基本原理7DiffusionPolicy:Policy(策略)在機(jī)器學(xué)習(xí)和控制系統(tǒng)中指的是一種決策規(guī)則或機(jī)制。對(duì)于機(jī)器人控制,策略的輸入通常是感知信息(例如攝像頭捕捉到的視頻)以及其他傳感器提供的數(shù)據(jù)(例如機(jī)器人各個(gè)關(guān)節(jié)的位置)。策略的輸出則是機(jī)器人需要執(zhí)行的具體動(dòng)作。DiffusionPolicy架構(gòu)對(duì)比DiffusionPolicy效果對(duì)比DiffusionPolicy基本原理8擴(kuò)散策略是一種新的機(jī)器人行為生成方法,它將機(jī)器人的視覺(jué)運(yùn)動(dòng)策略表示為一個(gè)條件去噪擴(kuò)散過(guò)程。擴(kuò)散策略接收輸入的觀察數(shù)據(jù),然后通過(guò)噪聲預(yù)測(cè)網(wǎng)絡(luò)將高斯噪聲添加到輸入數(shù)據(jù)上。接著,系統(tǒng)通過(guò)多次迭代去噪的過(guò)程,逐步減少噪聲,使輸出動(dòng)作變得更加明確和穩(wěn)定。每次迭代去噪都會(huì)將噪聲減少一部分,直至最終得到一個(gè)接近真實(shí)的動(dòng)作。這個(gè)過(guò)程形成一個(gè)閉環(huán),系統(tǒng)能夠以大約2Hz的頻率進(jìn)行實(shí)時(shí)反應(yīng)。1.動(dòng)作多模態(tài)性2.動(dòng)作空間可擴(kuò)展性3.訓(xùn)練穩(wěn)定性2擴(kuò)散策略源碼使用邏輯dp/umi/dexcap源碼解讀10具身智能三大環(huán)節(jié):感知—決策—執(zhí)行1.感知:RealSenseD4152.決策:DiffusionPolicy3.執(zhí)行:UR5-CB3orUR5e

及棍狀末端1.感知:Goprohero92.決策:DiffusionPolicy3.執(zhí)行:UR5-CB3orUR5e

及二指夾爪1.感知:RealsenseL515

RealSenseT2652.決策:DiffusionPolicy3.執(zhí)行:FrankaFR3

及四指夾爪LEAPHanddp/umi/dexcap源碼對(duì)比11腳本示例demo_pusht.py1.安裝dp環(huán)境:condaenvcreate-fconda_environment.yaml2.安裝rtde:pipinstallur_rtde3.啟動(dòng)環(huán)境并運(yùn)行:pythondemo_pusht.py-odata/pusht_demo.zarr-o或--output:指定演示數(shù)據(jù)保存的輸出文件路徑(必需)。-rs或--render_size:設(shè)置環(huán)境渲染的大小,默認(rèn)值為96。-hz或--control_hz:設(shè)置控制頻率,默認(rèn)值為10Hz。3訓(xùn)練UMI擴(kuò)散策略UMI擴(kuò)散策略訓(xùn)練131.生成訓(xùn)練數(shù)據(jù):python

scripts_slam_pipeline/07_generate_replay_buffer.py

-o

example_demo_session/dataset.zarr.zip

example_demo_session2.訓(xùn)練擴(kuò)散策略:pythontrain.py--config-name=train_diffusion_unet_timm_umi_workspacetask.da

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論