具身智能機(jī)器人擴(kuò)散策略Diffusion Policy基本原理與代碼詳解_第1頁
具身智能機(jī)器人擴(kuò)散策略Diffusion Policy基本原理與代碼詳解_第2頁
具身智能機(jī)器人擴(kuò)散策略Diffusion Policy基本原理與代碼詳解_第3頁
具身智能機(jī)器人擴(kuò)散策略Diffusion Policy基本原理與代碼詳解_第4頁
具身智能機(jī)器人擴(kuò)散策略Diffusion Policy基本原理與代碼詳解_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

具身智能機(jī)器人擴(kuò)散策略DiffusionPolicy基本原理與代碼詳解1主要內(nèi)容23DiffusionPolicy論文詳解UMI論文詳解相機(jī)軟硬件介紹及驅(qū)動(dòng)安裝4代碼詳解1DiffusionPolicy論文詳解DiffusionPolicy基本原理

Abstract4擴(kuò)散策略是一種新的機(jī)器人行為生成方法,它將機(jī)器人的視覺運(yùn)動(dòng)策略表示為一個(gè)條件去噪擴(kuò)散過程。我們對(duì)4種不同機(jī)器人操作基準(zhǔn)的15種不同任務(wù)的擴(kuò)散策略進(jìn)行了基準(zhǔn)測(cè)試,發(fā)現(xiàn)它始終優(yōu)于現(xiàn)有的最先進(jìn)的機(jī)器人學(xué)習(xí)方法,平均提高了46.9%。擴(kuò)散策略學(xué)習(xí)動(dòng)作分布評(píng)分函數(shù)的梯度,并在推理過程中通過一系列隨機(jī)朗之萬動(dòng)力學(xué)步驟對(duì)該梯度場(chǎng)進(jìn)行迭代優(yōu)化。我們發(fā)現(xiàn)擴(kuò)散公式在用于機(jī)器人策略時(shí)具有強(qiáng)大的優(yōu)勢(shì),包括優(yōu)雅地處理多模態(tài)動(dòng)作分布,適用于高維動(dòng)作空間,并表現(xiàn)出令人印象深刻的訓(xùn)練穩(wěn)定性。為了充分發(fā)揮擴(kuò)散模型在物理機(jī)器人視覺運(yùn)動(dòng)策略學(xué)習(xí)中的潛力,本文提出了一系列關(guān)鍵的技術(shù)貢獻(xiàn),包括滾動(dòng)時(shí)域控制(RHC)、視覺調(diào)節(jié)和時(shí)間序列擴(kuò)散transformer。我們希望這項(xiàng)工作將有助于激發(fā)新一代的政策學(xué)習(xí)技術(shù),這些技術(shù)能夠利用擴(kuò)散模型強(qiáng)大的生成建模能力。代碼、數(shù)據(jù)和培訓(xùn)細(xì)節(jié)可以在找到。DiffusionPolicy核心架構(gòu)DiffusionPolicy基本原理Introduction5PolicyLearningfromDemonstration,是一種通過監(jiān)督回歸任務(wù),從觀測(cè)到的行為數(shù)據(jù)中學(xué)習(xí)機(jī)器人行動(dòng)策略的方法多模態(tài)分布、序列相關(guān)性、高精度要求現(xiàn)有工作及其不足本文提出了擴(kuò)散政策,推斷動(dòng)作得分梯度,并通過一系列隨機(jī)朗之萬動(dòng)力學(xué)步驟迭代優(yōu)化表達(dá)多模態(tài)動(dòng)作分布、高維輸出空間、訓(xùn)練穩(wěn)定性閉環(huán)動(dòng)作序列、視覺觀測(cè)條件、時(shí)間序列擴(kuò)散transformerDiffusionPolicy基本原理

DDPM基本原理6擴(kuò)散模型是一類概率生成模型,它的訓(xùn)練過程包括兩個(gè)階段:前向擴(kuò)散過程和后向去噪過程。

前一階段由多個(gè)步驟組成,其中低級(jí)噪聲被添加到每個(gè)輸入圖像,其中噪聲的規(guī)模在每個(gè)步驟都不同。訓(xùn)練數(shù)據(jù)逐漸被破壞,直到產(chǎn)生純高斯噪聲。

后一階段通過逆轉(zhuǎn)正向擴(kuò)散過程來表示。采用相同的迭代過程,但噪聲被順序去除,因此,原始圖像被重新創(chuàng)建。

在推理時(shí),通過從隨機(jī)白噪聲開始逐漸重建圖像來生成圖像。在每個(gè)時(shí)間步(timestep)減去的噪聲通?;赨-Net架構(gòu)。擴(kuò)散模型的三種形式:去噪擴(kuò)散概率模型(DDPM)、噪聲條件評(píng)分網(wǎng)絡(luò)(NCSN)以及隨機(jī)微分方程(SDE)DiffusionPolicy基本原理DDPM機(jī)制拆解71.DDPM的輸出被建模為一個(gè)去噪過程,通常被稱為隨機(jī)朗之萬動(dòng)力學(xué)(StochasticLangevinDynamics):該公式也可以解釋為一次帶有噪聲的梯度下降步驟:訓(xùn)練過程中,從帶有噪聲的數(shù)據(jù)樣本中預(yù)測(cè)噪聲,損失函數(shù)為:DiffusionforVisuomotorPolicyLearning機(jī)制拆解82.擴(kuò)散用于視覺運(yùn)動(dòng)策略學(xué)習(xí):

(1)改變輸出??使其表示機(jī)器人動(dòng)作;

(2)使去噪過程以觀測(cè)????為條件。

將公式(1)修改為:

將公式(3)修改為:在同一時(shí)間點(diǎn)上,動(dòng)作和觀測(cè)的聯(lián)合概率分布,它考慮了動(dòng)作和觀測(cè)之間的所有可能的聯(lián)合情況在給定觀測(cè)的情況下,動(dòng)作的概率分布,只考慮在特定觀測(cè)條件下動(dòng)作的分布情況,不考慮觀測(cè)本身的分布。VS條件分布與聯(lián)合分布對(duì)比DiffusionPolicy關(guān)鍵設(shè)計(jì)決策及神經(jīng)網(wǎng)絡(luò)架構(gòu)

91.針對(duì)

的神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)

(1)基于CNN的擴(kuò)散策略(CNN-basedDiffusionPolicy);

采用1D時(shí)間卷積網(wǎng)絡(luò),進(jìn)行一些修改以適應(yīng)DiffusionPolicy。

主要修改包括:a.通過特征線性調(diào)制(Feature-wiseLinearModulation,FiLM)將觀測(cè)特征條件化到每個(gè)卷積層,模擬條件分布并去除不兼容的目標(biāo)狀態(tài)條件;b.只預(yù)測(cè)動(dòng)作軌跡,而不是觀測(cè)動(dòng)作軌跡的串聯(lián);c.采用滾動(dòng)預(yù)測(cè)時(shí)域(recedingpredictionhorizon,RPH)進(jìn)行動(dòng)作的連續(xù)規(guī)劃。

優(yōu)勢(shì):在大多數(shù)任務(wù)中表現(xiàn)良好,無需大量超參數(shù)調(diào)優(yōu),但在動(dòng)作序列變化較快的任務(wù)中表現(xiàn)不佳。DiffusionPolicy核心架構(gòu)DiffusionPolicy關(guān)鍵設(shè)計(jì)決策及神經(jīng)網(wǎng)絡(luò)架構(gòu)

101.針對(duì)

的神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)

(2)時(shí)序擴(kuò)散transformer(Time-seriesdiffusiontransformer)。

引入一種新型transformer架構(gòu),采用minGPT架構(gòu)進(jìn)行動(dòng)作預(yù)測(cè);

動(dòng)作序列和觀測(cè)特征通過嵌入層處理,輸入transformer解碼器;

優(yōu)勢(shì):在任務(wù)復(fù)雜度和動(dòng)作變化率高的任務(wù)中表現(xiàn)更佳,但對(duì)超參數(shù)敏感,訓(xùn)練難度較高。2.視覺編碼器(VisualEncoder)

使用標(biāo)準(zhǔn)的ResNet-18作為視覺編碼器,并進(jìn)行修改以保持空間信息(使用空間softmaxpooling代替全局平均

池化)和穩(wěn)定訓(xùn)練(使用GroupNorm代替BatchNorm)。DiffusionPolicy核心架構(gòu)DiffusionPolicy特性

111.多模態(tài)動(dòng)作分布的建模:DiffusionPolicy能夠有效地捕捉和表達(dá)復(fù)雜的多模態(tài)動(dòng)作分布。通過去噪過程,該模型能夠從高斯噪聲中生成多種合理的動(dòng)作序列,反映出多樣化的行為模式。2.位置控制(PositionControl)的協(xié)同效應(yīng):通過聯(lián)合建模多個(gè)動(dòng)作的分布,DiffusionPolicy能夠捕捉到不同動(dòng)作之間的協(xié)同效應(yīng)。3.動(dòng)作序列預(yù)測(cè)的優(yōu)勢(shì):DiffusionPolicy不僅可以預(yù)測(cè)單步動(dòng)作,還能夠預(yù)測(cè)長時(shí)間序列的動(dòng)作。4.訓(xùn)練的穩(wěn)定性:通過學(xué)習(xí)能量函數(shù)的梯度而不是直接學(xué)習(xí)動(dòng)作分布,DiffusionPolicy避免了對(duì)歸一化常數(shù)的估計(jì),從而實(shí)現(xiàn)了更加穩(wěn)定的訓(xùn)練過程。DiffusionPolicy特性2UMI論文詳解UMI基本原理

Abstract13我們提出了一種通用操控界面(UniversalManipulationInterface,UMI),這是一種數(shù)據(jù)采集和策略學(xué)習(xí)框架,能夠?qū)⒁巴馊祟愂痉兜募寄苤苯愚D(zhuǎn)移到可部署的機(jī)器人策略中。UMI使用手持抓握器,并結(jié)合精心設(shè)計(jì)的接口,能夠?qū)崿F(xiàn)便攜、低成本且信息豐富的數(shù)據(jù)采集,尤其適用于復(fù)雜的雙手操作和動(dòng)態(tài)操控示范。為了促進(jìn)可部署的策略學(xué)習(xí),UMI引入了精心設(shè)計(jì)的策略接口,包括推理時(shí)的延遲匹配和相對(duì)軌跡動(dòng)作表示。通過這些特性,UMI所學(xué)習(xí)到的策略不依賴特定硬件,能夠在多個(gè)機(jī)器人平臺(tái)上直接部署。我們通過全面的現(xiàn)實(shí)世界實(shí)驗(yàn)展示了UMI的多功能性和有效性,其中,通過多樣化的人類示范訓(xùn)練出的策略在面對(duì)新環(huán)境和新物體時(shí)能夠?qū)崿F(xiàn)零樣本泛化。UMI基本原理Introduction14我們應(yīng)該如何展示復(fù)雜的操控技能,以便機(jī)器人能夠?qū)W習(xí)現(xiàn)有方法的不足UMI框架:通過人類演示物理接口和策略接口解決上述問題UMI框架主要貢獻(xiàn):提供了一個(gè)實(shí)用且可訪問的解決方案,能夠在任何環(huán)境中展示各種動(dòng)作,同時(shí)保持高效的技能轉(zhuǎn)移UMI實(shí)現(xiàn)方法:演示接口設(shè)計(jì)及策略接口設(shè)計(jì)

151.演示接口設(shè)計(jì)HD1:Wrist-mountedCamerasasInputObservation(腕帶式攝像頭作為輸入觀察設(shè)備)腕帶攝像頭作為輸入觀測(cè)。只依賴手腕上的攝像頭,不需要任何外部攝像頭設(shè)置。當(dāng)在機(jī)器人上部署UMI時(shí),將GoPro相機(jī)放置在與手持抓手相同的3d打印手指相同的位置。HD2:FisheyeLensforVisualContext(魚眼鏡頭用于提供視覺上下文)在腕式GoPro相機(jī)上使用了155度魚眼鏡頭附件,提供了足夠的視覺環(huán)境HD3:SideMirrorsforImplicitStereo(側(cè)面鏡子用于提供隱式立體視覺)為了緩解單目相機(jī)視角缺乏直接深度感知的問題,在相機(jī)的周邊視圖中放置了一對(duì)物理鏡,從而在同一圖像中創(chuàng)建了所有隱式立體視圖UMI實(shí)現(xiàn)方法:演示接口設(shè)計(jì)及策略接口設(shè)計(jì)

161.演示接口設(shè)計(jì)HD4:IMU-awareTracking(IMU感知跟蹤)UMI通過利用GoPro內(nèi)置的,將IMU數(shù)據(jù)(加速度計(jì)和陀螺儀)記錄到標(biāo)準(zhǔn)mp4視頻文件中的能力,來捕捉運(yùn)動(dòng)。通過視覺跟蹤和慣性姿態(tài)約束,基于ORB-SLAM3的慣性-單目SLAM系統(tǒng),即使由于運(yùn)動(dòng)模糊或缺乏視覺特征(例如低頭看桌子)而導(dǎo)致視覺跟蹤失敗,也能保持短時(shí)間的跟蹤。HD5:ContinuousGripperControl(連續(xù)夾具控制)拋物任務(wù)需要精確的時(shí)機(jī)來釋放物體。由于物體有不同的寬度,二進(jìn)制的夾持動(dòng)作將不太可能滿足精度要求。在UMI夾持器上,通過基準(zhǔn)標(biāo)記連續(xù)跟蹤手指寬度。UMI利用串聯(lián)彈性末端執(zhí)行器原理,通過連續(xù)的爪寬度控制來調(diào)節(jié)柔軟手指的變形,從而隱式記錄和控制抓握力。HD6:Kinematic-basedDataFiltering(基于運(yùn)動(dòng)學(xué)的數(shù)據(jù)過濾)雖然數(shù)據(jù)收集過程與機(jī)器人無關(guān),應(yīng)用簡單的基于運(yùn)動(dòng)學(xué)的數(shù)據(jù)過濾來為不同的機(jī)器人選擇有效的軌跡。具體而言,當(dāng)機(jī)器人的基本位置和運(yùn)動(dòng)學(xué)已知時(shí),通過SLAM恢復(fù)的末端執(zhí)行器絕對(duì)姿態(tài)允許對(duì)演示數(shù)據(jù)進(jìn)行運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)可行性濾波。在過濾后的數(shù)據(jù)集上進(jìn)行訓(xùn)練,確保策略符合具體實(shí)施例的運(yùn)動(dòng)學(xué)約束。UMI實(shí)現(xiàn)方法:演示接口設(shè)計(jì)及策略接口設(shè)計(jì)

172.演示接口設(shè)計(jì)利用收集到的演示數(shù)據(jù),可以訓(xùn)練一個(gè)視覺運(yùn)動(dòng)策略,該策略接收一系列同步觀測(cè)(RGB圖像、6個(gè)自由度的末端執(zhí)行器姿態(tài)和抓手寬度),并產(chǎn)生一系列動(dòng)作(末端執(zhí)行器姿態(tài)和抓手寬度)。PD1:Inference-timeLatencyMatching(推理時(shí)的延遲匹配)關(guān)于如何處理不同硬件設(shè)備之間的延遲差異,以確保輸入數(shù)據(jù)的同步性。PD1.1:ObservationLatencyMatching(觀察延遲匹配)PD1.2:ActionLatencyMatching(動(dòng)作延遲匹配)UMI實(shí)現(xiàn)方法:演示接口設(shè)計(jì)及策略接口設(shè)計(jì)

182.演示接口設(shè)計(jì)利用收集到的演示數(shù)據(jù),可以訓(xùn)練一個(gè)視覺運(yùn)動(dòng)策略,該策略接收一系列同步觀測(cè)(RGB圖像、6個(gè)自由度的末端執(zhí)行器姿態(tài)和抓手寬度),并產(chǎn)生一系列動(dòng)作(末端執(zhí)行器姿態(tài)和抓手寬度)PD2:RelativeEnd-EffectorPose(相對(duì)末端執(zhí)行器位置)關(guān)于如何表示和處理末端執(zhí)行器(EE)的位置和動(dòng)作,以提高策略的魯棒性和跨硬件平臺(tái)的通用性。PD2.1RelativeEETrajectoryasActionRepresentation(相對(duì)末端執(zhí)行器軌跡作為動(dòng)作表示)PD2.2RelativeEETrajectoryasProprioception(相對(duì)末端執(zhí)行器軌跡作為本體感知)PD2.3RelativeInter-gripperProprioception(相對(duì)夾具間的本體感知)UMI框架中使用的不同動(dòng)作表示方法的對(duì)比,包括相對(duì)軌跡(Relativetrajectory)、增量動(dòng)作(Deltaaction)、以及絕對(duì)動(dòng)作(Absoluteaction)。3相機(jī)軟硬件介紹及驅(qū)動(dòng)安裝Ubuntu22.04安裝Gopro驅(qū)動(dòng)

201.檢查USB設(shè)備,首先,確認(rèn)攝像頭是否被識(shí)別:lsusb2.檢查視頻設(shè)備文件ls/dev|grepvideo3.使用v4l2-ctl工具使用v4l2-ctl工具查看攝像頭信息。首先,進(jìn)行安裝:sudoaptupdatesudoaptinstallv4l-utils最后,使用以下命令查看攝像頭信息:v4l2-ctl--list-devices4.使用ffmpeg命令捕獲一幀圖像:ffmpeg-fv4l2-i/dev/video0-vframes1test_frame.jpgUbuntu22.04安裝Gopro驅(qū)動(dòng)(額外可選)

21打開Gopro官網(wǎng),按照官方文檔依次安裝:1.最小化安裝:pipinstallopen-gopro2.額外GUI安裝:pipinstallopen-gopro[gui]3.有線連接GoproWebcamgopro-webcamUbuntu22.04安裝IntelRealsense驅(qū)動(dòng)

221.打開IntelRealsense官網(wǎng);2.找到SDK下載,點(diǎn)擊Visitdevelopercenter;3.點(diǎn)擊左上角的SDK2.0;4.選擇Linux系統(tǒng):Ubuntu22.04安裝IntelRealsense驅(qū)動(dòng)

23按照官方文檔依次安裝;1.安裝依賴:(1)更新Ubuntu:sudoapt-getupdate&&sudoapt-getupgrade&&sudoapt-getdist-upgrade(2)安裝構(gòu)建librealsense的核心包:sudoapt-getinstalllibssl-devlibusb-1.0-0-devlibudev-devpkg-configlibgtk-3-dev(3)安裝build工具:sudoapt-getinstallgitwgetcmakebuild-essential(4)準(zhǔn)備Linux后端和開發(fā)環(huán)境,PS:運(yùn)行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論