人工智能行業(yè)機(jī)器人智能化三部曲(二):Meta及微軟篇_第1頁
人工智能行業(yè)機(jī)器人智能化三部曲(二):Meta及微軟篇_第2頁
人工智能行業(yè)機(jī)器人智能化三部曲(二):Meta及微軟篇_第3頁
人工智能行業(yè)機(jī)器人智能化三部曲(二):Meta及微軟篇_第4頁
人工智能行業(yè)機(jī)器人智能化三部曲(二):Meta及微軟篇_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

核心觀點:隨著各項人工智能技術(shù)的不斷發(fā)展,具備與物理世界交互潛力的智能機(jī)器人成為學(xué)界和業(yè)界的重要研究賽道。近年來Meta、微軟均持續(xù)完善其機(jī)器人模型領(lǐng)域的布局。2023年8月,Meta推出在少量訓(xùn)練數(shù)據(jù)情況下便能取得優(yōu)異表現(xiàn)的MT-ACT模型。2023年2月微軟推出基于ChatGPT的機(jī)器人控制框架,將ChatGPT的“知識儲備”落實到現(xiàn)實場景中。機(jī)器人模型發(fā)展百家爭鳴,值得進(jìn)一步關(guān)注。從R3M到MT-ACT,Meta持續(xù)探索如何使用有限的數(shù)據(jù)集實現(xiàn)更優(yōu)秀的機(jī)器人控制。在2022年3月推出的R3M模型中,Meta首次引入人類視頻數(shù)據(jù)作為機(jī)器人控制模型的知識來源,提升機(jī)器人模型訓(xùn)練效率。在2022年12月推出的CACTI模型中,使用數(shù)據(jù)增強(qiáng)技術(shù)實現(xiàn)了訓(xùn)練數(shù)據(jù)規(guī)模高效擴(kuò)充。2023年8月推出的MT-ACT模型將數(shù)據(jù)增強(qiáng)技術(shù)(基于SAM視覺模型)和動作序列生成技術(shù)結(jié)合,在7500個原始訓(xùn)練數(shù)據(jù)的情況下,在不同難度的測試中分別實現(xiàn)了81.67%、65.17%、31.33%的成功率,小規(guī)模數(shù)據(jù)表現(xiàn)優(yōu)于其他可比模型。將強(qiáng)化學(xué)習(xí)與MoE技術(shù)融合,

Meta推出機(jī)器人控制模型新方案ASC。在2023年4月推出的ASC模型中,先通過強(qiáng)化學(xué)習(xí)分別對單一任務(wù)進(jìn)行訓(xùn)練,再通過MoE技術(shù)實現(xiàn)不同技能模塊之間的有機(jī)協(xié)同,在模擬場景和兩個現(xiàn)實場景中分別實現(xiàn)了94.9%和96.7%/100%的成功率,并且具備較強(qiáng)的抗干擾能力,能夠在環(huán)境變化的情況下自動調(diào)整完成相關(guān)任務(wù)的方式。通過將更強(qiáng)的OWL-ViT視覺模型與ASC模型結(jié)合,模型可以根據(jù)文本描述來識別更為復(fù)雜的物體,有望在更廣泛的場景中處理更為復(fù)雜的任務(wù)。Meta:機(jī)器人模型與谷歌有所差異。谷歌的技術(shù)路線在本系列第一篇中有詳細(xì)描述,而Meta目前工作中尚未將大模型與機(jī)器人控制所結(jié)合,且相較谷歌嘗試?yán)么笠?guī)模的數(shù)據(jù)集提升機(jī)器人模型的表現(xiàn),Meta的相關(guān)工作更加關(guān)注如何基于小規(guī)模的數(shù)據(jù),結(jié)合數(shù)據(jù)增強(qiáng)、人類視頻數(shù)據(jù)預(yù)訓(xùn)練等方式實現(xiàn)通用機(jī)器人控制模型的構(gòu)建,即數(shù)據(jù)效率方面的提升。微軟:結(jié)合自然語言能力,微軟提出面向機(jī)器人控制領(lǐng)域的新框架。2022年8月推出的機(jī)器人軌跡控制模型LATTE,可以識別用戶的自然語言輸入調(diào)整機(jī)器人的運(yùn)行軌跡。2023年2月發(fā)表文章“ChatGPT

for

Robotics”,其核心在于通過大語言模型(ChatGPT)來處理用戶指令,進(jìn)而調(diào)用相應(yīng)的機(jī)器人控制API來完成具體的任務(wù)。在演示中,經(jīng)過進(jìn)一步學(xué)習(xí)的ChatGPT模型在僅有自然語言輸入的情況下,可以控制機(jī)器人利用不同顏色的方塊拼接出微軟Logo。核心觀點1.1

科技巨頭加速布局智能機(jī)器人,Meta持續(xù)推進(jìn)機(jī)器人模型發(fā)展資料來源:Meta官網(wǎng)

,谷歌學(xué)術(shù),中信建投近年來,Meta一直是AI領(lǐng)域不可忽視的力量,前沿研究如CV領(lǐng)域的SAM模型,NLP領(lǐng)域的LLaMa均是相關(guān)領(lǐng)域的最前沿技術(shù)之一。在機(jī)器人模型領(lǐng)域,Meta也已經(jīng)展開了較為完善的布局,提出了一些卓有成效的改進(jìn)策略如數(shù)據(jù)增強(qiáng)、動作序列生成等,相關(guān)模型如R3M、CACTI、ASC、MT-ACT等,其他領(lǐng)域的核心突破如SAM模型也應(yīng)用到了其中。本文將回顧Meta近年來在機(jī)器人模型領(lǐng)域的核心進(jìn)展,梳理其中的發(fā)展脈絡(luò)。圖:Meta機(jī)器人模型相關(guān)進(jìn)展時間軸202220232022.3R3M:引入人類視頻數(shù)據(jù)作為機(jī)器人控制模型的知識來源2022.12CACTI:使用數(shù)據(jù)增強(qiáng)擴(kuò)充了訓(xùn)練數(shù)據(jù)規(guī)模,并提升了模型的性能表現(xiàn)2023.4ASC:將強(qiáng)化學(xué)習(xí)與MoE技術(shù)融合以處理復(fù)雜的多任務(wù)場景2023.8MT-ACT:基于小規(guī)模的數(shù)據(jù)集,結(jié)合數(shù)據(jù)增強(qiáng)和動作序列生成實現(xiàn)較高質(zhì)量的機(jī)器人控制2023.4ACT:機(jī)器人動作序列生成的Transformer沿用視覺處理部分架構(gòu)作為預(yù)訓(xùn)練基礎(chǔ)模型沿用數(shù)據(jù)增強(qiáng)思路沿用動作序列生成部分SegmentAnything(SAM)作為數(shù)據(jù)增強(qiáng)的工具1.2.1

R3M:基于人類視頻數(shù)據(jù)的預(yù)訓(xùn)練機(jī)器人模型資料來源:

《R3M:

A

Universal

Visual

Representation

for

RobotManipulation》,中信建投Meta及斯坦福大學(xué)的研究人員在2022年3月推出了基于人類第一視角數(shù)據(jù)訓(xùn)練的機(jī)器人預(yù)訓(xùn)練模型R3M。核心突破:研究了一種在人類視頻數(shù)據(jù)上進(jìn)行機(jī)器人控制模型預(yù)訓(xùn)練的方法,提升了機(jī)器人控制模型的性能、效率和可用訓(xùn)練數(shù)據(jù)范圍。通過時間對比學(xué)習(xí)、視頻-語言對齊等方法來充分學(xué)習(xí)視頻中的視覺信息,構(gòu)建出預(yù)訓(xùn)練模型作為后續(xù)任務(wù)的基礎(chǔ)。訓(xùn)練數(shù)據(jù)集:使用了Ego4D的人類第一視角視頻數(shù)據(jù)集,包含共3500多小時的數(shù)據(jù)。數(shù)據(jù)集中的視頻來自全球70多個地方,具體任務(wù)包括有烹飪、社交、組裝物品等。每個視頻片段由參與者一次佩戴頭戴式攝像頭長達(dá)

10

小時,并拍攝無腳本日?;顒邮占鴣?,其中還包含視頻中人物行為的自然語言注釋。圖:Ego4D數(shù)據(jù)集 圖:R3M模型架構(gòu)對比學(xué)習(xí)幀之間的變化學(xué)習(xí)語言指令和視頻操作構(gòu)建出預(yù)訓(xùn)練模型,可以用于后續(xù)訓(xùn)練1.2.2

R3M:基于人類視頻數(shù)據(jù)的預(yù)訓(xùn)練機(jī)器人模型資料來源:

《R3M:

A

Universal

Visual

Representationfor

Robot

Manipulation》,中信建投在模擬場景中,經(jīng)過進(jìn)一步演示的R3M模型能夠整體以62%的成功率完成12項不同的操作任務(wù),相較于其他預(yù)訓(xùn)練方法實現(xiàn)了10%的提升(如下左圖綠色/黃色/藍(lán)色柱形所示),相較于不預(yù)訓(xùn)練的方法提升20%,如下圖(如下左圖粉色柱形所示)。在現(xiàn)實場景中,在每個任務(wù)經(jīng)過20次演示的條件下,R3M方法的成功率相較于CLIP方法的成功率實現(xiàn)明顯提升,整體成功率為56%,高出32%,同時在關(guān)抽屜、推杯子等較為簡單的任務(wù)中具有成功率較高。我們認(rèn)為,相較于性能提升,R3M將人類視頻數(shù)據(jù)帶入機(jī)器人模型訓(xùn)練領(lǐng)域更為重要,可能成為機(jī)器人模型數(shù)據(jù)缺乏的解決方案之一。圖:模擬場景中R3M模型的性能表現(xiàn)情況 圖:現(xiàn)實場景中R3M的示例及性能表現(xiàn)情況其他預(yù)訓(xùn)練方法不預(yù)訓(xùn)練10次嘗試中的成功率1.3.1

CACTI:可擴(kuò)展的多任務(wù)多場景視覺模仿學(xué)習(xí)框架Meta、哥倫比亞大學(xué)及卡耐基梅隆大學(xué)的研究人員在2022年12月推出了可擴(kuò)展的多任務(wù)多場景視覺模仿學(xué)習(xí)框架CACTI。階段1——數(shù)據(jù)收集:

現(xiàn)實場景,通過人類演示收集了10個任務(wù)共1000個片段;模擬場景,通過強(qiáng)化學(xué)習(xí)智能體收集了18個任務(wù)共900個策略。階段2——數(shù)據(jù)擴(kuò)充:

通過不同的策略對專家示范數(shù)據(jù)進(jìn)行增強(qiáng),進(jìn)而實現(xiàn)數(shù)據(jù)集的擴(kuò)充,例如針對模擬的900個策略共生成了45000個片段。階段3——數(shù)據(jù)壓縮:

將擴(kuò)充后的數(shù)據(jù)集中的“視覺”數(shù)據(jù)壓縮成向量。階段4——訓(xùn)練:

利用上述環(huán)節(jié)得到的不同任務(wù)數(shù)據(jù)訓(xùn)練出統(tǒng)一的控制策略。圖:CACTI模仿學(xué)習(xí)框架數(shù)據(jù)收集階段:在現(xiàn)實場景/模擬場景中收集相關(guān)任務(wù)的專家示范數(shù)據(jù)數(shù)據(jù)增強(qiáng)階段:通過不同的策略對專家示范數(shù)據(jù)進(jìn)行增強(qiáng),實現(xiàn)數(shù)據(jù)集的擴(kuò)充數(shù)據(jù)壓縮階段:將擴(kuò)充后的數(shù)據(jù)集中的“視覺”數(shù)據(jù)壓縮成向量。訓(xùn)練階段:利用前置環(huán)節(jié)得到的任務(wù)數(shù)據(jù)訓(xùn)練出統(tǒng)一的多任務(wù)控制策略資料來源:

CACTI:

AFramework

for

Scalable

Multi-Task

Multi-Scene

Visual

Imitation

Learning

》,中信建投1.3.2

CACTI:可擴(kuò)展的多任務(wù)多場景視覺模仿學(xué)習(xí)框架數(shù)據(jù)擴(kuò)充環(huán)節(jié)旨在增強(qiáng)原始專家數(shù)據(jù)的多樣性,主要分為視覺增強(qiáng)和語義增強(qiáng)兩種方式。在現(xiàn)實場景中使用了開源的Stable

Diffusion模型對視覺信息進(jìn)行增強(qiáng)和擴(kuò)充,而在虛擬場景中則通過調(diào)整渲染過程的場景屬性來實現(xiàn)。視覺增強(qiáng):改變場景的視覺屬性,如物體紋理、照明條件等。語義增強(qiáng):包括改變場景中物體的布局(位置、方向),乃至添加新的人造物體等。圖:CACTI數(shù)據(jù)擴(kuò)充環(huán)節(jié)圖示語義增強(qiáng)資料來源:

CACTI:

AFramework

for

Scalable

Multi-Task

Multi-Scene

Visual

Imitation

Learning

》,中信建投視覺增強(qiáng)1.3.3

CACTI:可擴(kuò)展的多任務(wù)多場景視覺模仿學(xué)習(xí)框架訓(xùn)練和推理過程中,CACTI模型結(jié)合當(dāng)前時刻視覺(攝像機(jī)輸入)、文本(指令輸入)、機(jī)械臂狀態(tài)來生成下一時刻的機(jī)械臂狀態(tài)。其中視覺和文本信息均沿用了R3M模型的架構(gòu)來實現(xiàn)embedding的轉(zhuǎn)換。圖:CACTI訓(xùn)練和推理架構(gòu)示意圖資料來源:

CACTI:

AFramework

for

Scalable

Multi-Task

Multi-Scene

Visual

Imitation

Learning

》,中信建投1.3.4

CACTI:可擴(kuò)展的多任務(wù)多場景視覺模仿學(xué)習(xí)框架模型性能表現(xiàn):在真實機(jī)器人上部署時,總體成功率約為30%;在仿真中,在所有

18

個任務(wù)中的成功率約為

62%,且隨著訓(xùn)練數(shù)據(jù)的逐漸豐富,模型在訓(xùn)練集內(nèi)/訓(xùn)練集外的任務(wù)上性能均有所提升。實驗結(jié)果證明,使用大量的互聯(lián)網(wǎng)圖像數(shù)據(jù)和人類日常行為數(shù)據(jù)來對機(jī)器人控制模型進(jìn)行預(yù)訓(xùn)練具備較大潛力。如左圖綠色柱形所示,在大部分場景中均展現(xiàn)出了相當(dāng)甚至更優(yōu)秀的效果,對于模擬環(huán)境中使用額外互聯(lián)網(wǎng)數(shù)據(jù)效果較差的實驗結(jié)果,研究人員認(rèn)為這可能是模擬環(huán)境中的圖像信息與現(xiàn)實場景圖像信息差距較大導(dǎo)致的;同時,數(shù)據(jù)增強(qiáng)方法也對模型表現(xiàn)有著較大貢獻(xiàn),如下左圖深藍(lán)色柱形與橙色柱形/黃色柱形于淺藍(lán)色柱形的對比所示,在沒有經(jīng)過數(shù)據(jù)增強(qiáng)的情況下模型能力有較為明顯的下降。圖:現(xiàn)實環(huán)境結(jié)果資料來源:

CACTI:

AFramework

for

Scalable

Multi-Task

Multi-Scene

Visual

Imitation

Learning

》,中信建投圖:仿真環(huán)境結(jié)果隨著訓(xùn)練數(shù)據(jù)的增加,模型在處理過的任務(wù)上的性能先降后升,在未處理過的任務(wù)上的性能持續(xù)提升在模擬場景中使用額外的互聯(lián)網(wǎng)數(shù)據(jù)效果較差,研究人員認(rèn)為這可能是模擬環(huán)境中的圖像信息與現(xiàn)實場景圖像信息差距較大導(dǎo)致的1.4.1

ASC:具備自適應(yīng)技能協(xié)調(diào)能力的機(jī)器人模型Meta及Georgia

Institute

of

Technology的研究人員在2023年4月推出了具備自適應(yīng)技能協(xié)調(diào)能力的機(jī)器人模型ASC。訓(xùn)練環(huán)境:導(dǎo)航任務(wù)環(huán)境——HM3D,包含1000個真實室內(nèi)環(huán)境的高質(zhì)量3D掃描,使用了其中800個作為本次的訓(xùn)練數(shù)據(jù);拾取/放置任務(wù)環(huán)境——ReplicaCAD,包含104中不同布局的公寓,機(jī)器人需要將YCB數(shù)據(jù)集中的13件物品拾取、放置或重新排列到

4

件家具(容器)上。模型原理:通過強(qiáng)化學(xué)習(xí)在模擬環(huán)境中訓(xùn)練三種基于視覺的技能(導(dǎo)航、拾取、放置),進(jìn)一步訓(xùn)練一種技能協(xié)調(diào)策略(如下右圖黃框所示)以及一種糾正策略(如下右圖綠框所示),來根據(jù)三種不同任務(wù)的輸入對三種進(jìn)行進(jìn)行協(xié)調(diào)和控制,進(jìn)而完成較為復(fù)雜的下游任務(wù)。技能協(xié)調(diào)策略&糾正策略:技能協(xié)調(diào)策略實質(zhì)是混合專家模型中的門控網(wǎng)絡(luò),在ASC中,技能協(xié)調(diào)策略利用Dagger算法進(jìn)行預(yù)訓(xùn)練,在這一過程中,定義好的“教師”策略會逐步指導(dǎo)和技能協(xié)調(diào)策略的行為,而后技能協(xié)調(diào)策略和糾正策略均通過深度強(qiáng)化學(xué)習(xí)進(jìn)行微調(diào)。圖:ASC訓(xùn)練的模擬環(huán)境數(shù)據(jù)集 圖:ASC模型架構(gòu)導(dǎo)航技能資料來源:

《ASC:Adaptive

Skill

Coordination

for

Robotic

Mobile

Manipulation》,中信建投拾取技能放置技能1.4.2

ASC:具備自適應(yīng)技能協(xié)調(diào)能力的機(jī)器人模型模型性能:在公寓和實驗室兩個現(xiàn)實環(huán)境中,ASC模型在30次實驗過程中分別實現(xiàn)了96.7%和100.0%的成功率,在模擬環(huán)境中,ASC模型在79中不同布局的虛擬公寓中進(jìn)行了1500次的實驗,實現(xiàn)了94.9%的成功率。實驗結(jié)果表明,協(xié)調(diào)策略對模型性能影響較為顯著,如下表中第2、3行所示,在模型中添加協(xié)調(diào)策略后,模型性能平均提升了12.6%,而糾正策略的增加則如1、2行所示,帶來了平均6.4%的性能提升,這是由于三種基礎(chǔ)技能都是在較為簡單、孤立的場景中訓(xùn)練出來的,糾正策略的引入可以減少復(fù)雜的移動拾放過程中表現(xiàn)不佳的情況。同時,微調(diào)的方法無法代替糾正策略的作用,,如下表2、5列所示,在缺少糾正策略的情況下通過微調(diào)并不能帶來性能的提升,反而性能還會有較為顯著的下降。圖:ASC模型在現(xiàn)實環(huán)境和模擬環(huán)境中的評估結(jié)果資料來源:

《ASC:Adaptive

Skill

Coordination

for

Robotic

Mobile

Manipulation》,中信建投1.4.3

ASC:具備自適應(yīng)技能協(xié)調(diào)能力的機(jī)器人模型ASC模型具備較強(qiáng)的抗干擾能力:ASC模型針對視覺的反饋進(jìn)行下一步的行動,而不是依賴于地圖,因此當(dāng)環(huán)境布局或動態(tài)障礙物發(fā)生變化是,ASC模型會將機(jī)器人重新安排到一條新的無碰撞路徑上,如下圖所示,當(dāng)機(jī)器人的前進(jìn)路線被障礙物或人擋住時,機(jī)器人會選擇新的路線來接近目標(biāo);同時,ASC模型對目標(biāo)物體的變化也具有較強(qiáng)的抗干擾能力,如下圖所示,若機(jī)器人在搜索過程中目標(biāo)發(fā)生移動機(jī)器人會繼續(xù)搜索目標(biāo)。圖:ASC模型控制的機(jī)器人可以在面臨干擾的情況下較好的完成任務(wù)在被障礙物多次阻擋后機(jī)器人仍能找到正確的路徑資料來源:

《ASC:Adaptive

Skill

Coordination

for

Robotic

Mobile

Manipulation》,中信建投在被人多次阻擋后機(jī)器人仍能找到正確的路徑在目標(biāo)物體狀態(tài)反復(fù)變化的情況下,機(jī)器人仍能持續(xù)搜索并完成任務(wù)1.4.4

ASC:具備自適應(yīng)技能協(xié)調(diào)能力的機(jī)器人模型通過將更強(qiáng)的Owl-ViT視覺模型應(yīng)用在ASC模型中,模型可以根據(jù)文本描述來識別更為復(fù)雜的物體,進(jìn)而完成相應(yīng)的拾取和放置任務(wù)。圖:增強(qiáng)后的ASC模型應(yīng)用在額外的復(fù)雜場景中資料來源:

《ASC:Adaptive

Skill

Coordination

for

Robotic

Mobile

Manipulation》,中信建投1.5

ACT:具備動作序列生成能力的Transformer架構(gòu)Meta、Standford

University、UC

Berkeley的研究人員推出了可以進(jìn)行動作序列生成的模型ACT。核心原理:針對某一時刻的輸入生成接下來的若干時刻的動作預(yù)測而不是只生成下一時刻動作預(yù)測。如下左圖所示,來自四個相機(jī)的輸入經(jīng)過encoder處理后,通過decoder得到接下來若干個時刻的動作序列。若不采用時序組合的方法(如右上圖所示),模型在3、4之間需要重新進(jìn)行推理得到新的4個動作,且需要為3的動作可能存在一定誤差,導(dǎo)致模型的機(jī)器人控制出現(xiàn)卡頓和精確度缺乏的情況,而通過時序組合的方式則可以這些來自不同時刻的預(yù)測匯總在一起,每一個時刻的輸出都是若干個時刻預(yù)測的綜合,并且考慮了環(huán)境的最新變化,進(jìn)而實現(xiàn)了更為精確而流暢的機(jī)器人控制。圖:ACT模型架構(gòu) 圖:動作分塊與時序組合的原理示意圖資料來源:

《Learning

Fine-Grained

Bimanual

Manipulation

with

Low-Cost

Hardware》,中信建投每個時刻的輸出是多次預(yù)測的加權(quán)組合1.6.1

RoboAgent:通過語義增強(qiáng)和動作序列生成提升機(jī)器人操控的通用性和效率Meta及Carnegie

Mellon

University的研究人員在2023年8月推出了高效的通用機(jī)器人模型框架MC-ACT。模型框架:訓(xùn)練過程中,在語義增強(qiáng)階段利用內(nèi)繪增強(qiáng)技術(shù)使訓(xùn)練數(shù)據(jù)多樣化,在策略學(xué)習(xí)階段使用多任務(wù)動作分塊轉(zhuǎn)化器訓(xùn)練語言條件策略,將多模式多任務(wù)數(shù)據(jù)納入單一的多任務(wù)機(jī)器人控制模型中。推理過程中結(jié)合用戶的文本輸入和攝像頭的圖像輸入對機(jī)械臂進(jìn)行控制。圖:MC-ACT模型框架資料來源:

《RoboAgent:

Generalization

andEfficiency

in

Robot

Manipulation

via

Semantic

Augmentations

and

Action

Chunking》,中信建投1.6.2

RoboAgent:通過語義增強(qiáng)和動作分塊提升機(jī)器人操控的通用性和效率訓(xùn)練數(shù)據(jù):包含通過人類遠(yuǎn)程操作收集的7500個片段,具體任務(wù)包括有拾取、放置、開啟、關(guān)閉等,其中拾取和放置動作的數(shù)據(jù)量較大,均超過了1000條。相較于此前的機(jī)器人數(shù)據(jù)集如RT1,RoboAgent數(shù)據(jù)集的規(guī)模更小但覆蓋的任務(wù)范圍更廣。圖:MT-ACT可以執(zhí)行十二種不同的任務(wù) 圖:RoboAgent數(shù)據(jù)集任務(wù)種類分布(上)及和其他數(shù)據(jù)集對比(下)數(shù)據(jù)量對比資料來源:

《RoboAgent:

Generalization

andEfficiency

in

Robot

Manipulation

via

Semantic

Augmentations

and

Action

Chunking》,中信建投訓(xùn)練任務(wù)種類對比不同種類任務(wù)訓(xùn)練數(shù)據(jù)分布1.6.3

RoboAgent:通過語義增強(qiáng)和動作分塊提升機(jī)器人操控的通用性和效率語義增強(qiáng):使用了SegmentAnything模型,基于其從海量互聯(lián)網(wǎng)數(shù)據(jù)中提煉出的視覺知識,可以自動的檢測并分割出視頻中的相關(guān)物體,再進(jìn)一步在相關(guān)區(qū)域中引入由文本提示提供的物體,對背景(如下左圖(b)所示)

和被操作物體(如下左圖(b)所示)進(jìn)行增強(qiáng)。語義增強(qiáng)為模型性能帶來了明顯的提升,尤其在更為困難的任務(wù)中提升更大。如右下圖所示,對著對單一圖像輸入的語義增強(qiáng)數(shù)量從1提升到7,L1-L3三種任務(wù)的成功率均有提升,其中L3的提升最為明顯,成功率從不足10%提升到了50%以上。圖:MT-ACT借助SegmentAnything對背景和被操作物體進(jìn)行語義增強(qiáng)圖:語義增強(qiáng)為模型性能帶來了明顯提升對背景的增強(qiáng)對被操作物體的增強(qiáng)資料來源:

《RoboAgent:

Generalization

andEfficiency

in

Robot

Manipulation

via

Semantic

Augmentations

and

Action

Chunking》,中信建投1.6.4

RoboAgent:通過語義增強(qiáng)和動作分塊提升機(jī)器人操控的通用性和效率模型性能:相較于此前的模型(調(diào)整了其他可比模型的訓(xùn)練數(shù)據(jù)規(guī)模),MT-ACT在所有難度的任務(wù)中展現(xiàn)出了更強(qiáng)的性能表現(xiàn),在L1、L2、L3難度的任務(wù)中分別實現(xiàn)了81.67%、65.17%、31.33%的成功率。在其他方法都無法成功的L4難度中,MT-ACT實現(xiàn)了將近25%的成功率。我們認(rèn)為,MT-ACT為有限訓(xùn)練數(shù)據(jù)情況下的機(jī)器人控制模型訓(xùn)練提供了成功案例,有望成為后續(xù)機(jī)器人模型發(fā)展的重要技術(shù)路線之一。圖:MT-ACT性能情況L4:Newkitchenneverseen

beforeL1—改變被操作物體的形態(tài)及場景燈光L2—增加新的干擾物體L3—增加新的任務(wù)和被操作物體L4—新的環(huán)境資料來源:

《RoboAgent:

Generalization

andEfficiency

in

Robot

Manipulation

via

Semantic

Augmentations

and

Action

Chunking》,中信建投L1場景成功率L1/L2/L3場景成功率L4場景成功率1.7

Meta機(jī)器人模型進(jìn)展總結(jié)資料來源:Meta官網(wǎng),谷歌學(xué)術(shù),中信建投基本信息模型名字R3MCACTIASCRoboAgent/MT-ACT發(fā)布時間2022.32022.122023.42023.8研究機(jī)構(gòu)Meta、Stanford

UniversityMeta、Columbia

University、CMUMeta

FAIR、Georgia

Institute

ofTechnologyMeta

FAIR、CMU數(shù)據(jù)整體數(shù)據(jù)集內(nèi)容人類第一視角視頻數(shù)據(jù)集(Ego4D)RL+人類演示模擬環(huán)境中強(qiáng)化學(xué)習(xí)導(dǎo)航模塊:HM3D模塊操作(拾取、放置):ReplicaCAD機(jī)器人數(shù)據(jù)集大小3500小時人類演示:10個任務(wù),每個5次演示(重復(fù)20次)RL:45000個機(jī)器人操作片段7500個片段(數(shù)據(jù)增強(qiáng)前)12種技能數(shù)據(jù)集收集方式參與者一次佩戴頭戴式攝像頭長達(dá)

10

小時,并拍攝無腳本日?;顒拥牡谝蝗朔Q視頻。并通過自然語言進(jìn)行注釋人類演示:收集后使用stablediffusion進(jìn)行增強(qiáng)RL:針對單一任務(wù)通過RL得到專家策略,增加相應(yīng)的視覺信息和噪音進(jìn)行增強(qiáng)人類控制硬件機(jī)器人頻率(單位:Hz)12.52(control)/12(sensor)5機(jī)器人FrankaEmikaPanda

robotFrankaEmikaPanda

robot(8action

dimension)BostonDynamicsSpot

robotFrankaEmikaPandaarm(8

actiondimension)模型視覺處理R3MR3M(使用互聯(lián)網(wǎng)數(shù)據(jù)和本次模型數(shù)據(jù)預(yù)訓(xùn)練)MoCo(僅使用本次的模型數(shù)據(jù))Mask

R-CNNOwl-ViTFiLM/CNN語言處理DistilBERTDistilBERT(設(shè)置與R3M一致)綜合處理模型/MLP協(xié)作模塊(本質(zhì)為MoE的門控網(wǎng)絡(luò))Transformer/ACT算力訓(xùn)練芯片NvidiaTitanXp,or

similar2080Ti(訓(xùn)練時長:48hours)推理芯片RTX

3070Meta的機(jī)器人模型與谷歌有所差異,目前的工作中尚未嘗試將大語言模型與機(jī)器人控制所結(jié)合。同時相較于谷歌嘗試?yán)么笠?guī)模的數(shù)據(jù)集提升機(jī)器人模型的表現(xiàn),Meta的相關(guān)工作更加關(guān)注如何使用小規(guī)模的數(shù)據(jù)實現(xiàn)通用機(jī)器人控制模型的構(gòu)建,也即數(shù)據(jù)效率方面的提升。Meta在ASC模型中采用的強(qiáng)化學(xué)習(xí)與MoE的結(jié)合也是值得關(guān)注的方向,為強(qiáng)化學(xué)習(xí)在復(fù)雜多任務(wù)場景中的進(jìn)一步發(fā)展提供可能。圖:Meta機(jī)器人模型梳理2.1.1

LATTE:結(jié)合預(yù)訓(xùn)練模型的機(jī)器人軌跡控制模型Microsoft及Technische

Universit?t

München

的研究人員在2022年8月推出了基于自然語言的機(jī)器人軌跡控制框架LATTE模型框架:使用Bert模型處理用戶文本指令,使用CLIP模型處理圖像輸入,并且與用戶的文本輸入相匹配,進(jìn)而識別出用戶指令中的目標(biāo)對象。上述信息與經(jīng)過Encoder處理的物體姿態(tài)信息和航跡信息相結(jié)合,通過Decoder生成全新的航跡。圖:LATTE模型架構(gòu)對象圖像資料來源:

《LATTE:

Language

Trajectory

Transformer》,中信建投文本指令使用BERT模型和CLIP模型對文本指令和圖像輸入進(jìn)行處理對象狀態(tài)初始軌跡2.1.2

LATTE:使用預(yù)訓(xùn)練模型的機(jī)器人軌跡控制模型訓(xùn)練數(shù)據(jù):每個數(shù)據(jù)樣本都包含基礎(chǔ)軌跡和修改后的軌跡(如下左圖紅色為基礎(chǔ)軌跡,藍(lán)色為生成的軌跡)、自然語言輸入(包括絕對方向的變化、速度的變化、相對方向的變化三個方面)、對象姿態(tài)和對象圖像(來自Bing的圖片查詢)。運(yùn)行結(jié)果:航跡可以根據(jù)用戶指令的要求,實現(xiàn)軌跡、速度方面的變化,如下中圖所示,用戶要求無人機(jī)離“演員”遠(yuǎn)一些,最終生成的藍(lán)色軌跡相較于初始的紅色軌跡離環(huán)境左下角中的“演員”更遠(yuǎn),在做出速度方面的要求后,生成的新軌跡也有明顯的速度下降。模型性能:研究人員收集了來自10名參與者的300個數(shù)據(jù)點,大多數(shù)用戶都認(rèn)為數(shù)據(jù)集中的軌跡及模型中的軌跡正確的反應(yīng)了語言命令要求的更改,同時缺少語言模型的輸入或2D的軌跡修正都會導(dǎo)致模型效果非常糟糕,反向佐證了這一思路的效果。同時,模型繼承了大語言模型一定的泛化性能,能夠在76%的情況下以相當(dāng)或更好的效果處理未見過的指令輸入。圖:自動生成的訓(xùn)練數(shù)據(jù) 圖:模擬/現(xiàn)實場景的運(yùn)行結(jié)果示例 圖:模型性能分析模型在處理訓(xùn)練集內(nèi)的指令和訓(xùn)練集外的指令的對比資料來源:

《LATTE:

Language

Trajectory

Transformer》,中信建投大多數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論