星海系列:人形機(jī)器人與AI大模型之Robot+AI的Transformer之旅_第1頁
星海系列:人形機(jī)器人與AI大模型之Robot+AI的Transformer之旅_第2頁
星海系列:人形機(jī)器人與AI大模型之Robot+AI的Transformer之旅_第3頁
星海系列:人形機(jī)器人與AI大模型之Robot+AI的Transformer之旅_第4頁
星海系列:人形機(jī)器人與AI大模型之Robot+AI的Transformer之旅_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告1從Transformer到多模態(tài)大模型的演進(jìn)與應(yīng)用。Transformer不僅在語言處理上廣泛應(yīng)用,還擴(kuò)展至圖像、視頻、音頻等多模態(tài)任務(wù)。諸如StableDiffusion、VideoPoet和MusicLM等模型展現(xiàn)了其強(qiáng)大的生成能力,推動(dòng)了多模態(tài)大模型(MLLM)的發(fā)展。機(jī)器人現(xiàn)實(shí)世界至數(shù)據(jù)化的突破:RT-2、RoboCat與MimicGen。RT-2通過大規(guī)模的視覺-語言預(yù)訓(xùn)練,將視覺識(shí)別與低級(jí)機(jī)器人控制結(jié)合,實(shí)現(xiàn)了機(jī)器人在復(fù)雜任務(wù)和未見環(huán)境中的強(qiáng)大泛化能力。RoboCat則基于Gato模型,展示了多任務(wù)和多具身平臺(tái)上的自我迭代學(xué)習(xí)能力,能夠快速適應(yīng)新任務(wù)并生成跨任務(wù)策略。英偉達(dá)的MimicGen自動(dòng)生成大量模仿學(xué)習(xí)數(shù)據(jù),有效減少了人工干預(yù),提升了機(jī)器人學(xué)習(xí)的效率。特斯拉FSD,端到端算法成為主流,數(shù)據(jù)為關(guān)鍵。2020年FSD引入Transformer模型,走向了數(shù)據(jù)驅(qū)動(dòng)的模型范式,2024年初FSDV12完全采用神經(jīng)網(wǎng)絡(luò)進(jìn)行車輛控制,從機(jī)器視覺到驅(qū)動(dòng)決策都將由神經(jīng)網(wǎng)絡(luò)進(jìn)行控制。FSDV12能夠模擬人類駕駛決策,成為自動(dòng)駕駛領(lǐng)域全新發(fā)展路徑。英偉達(dá)Robocasa:具體智能關(guān)鍵節(jié)點(diǎn),首次論證real-sim-real。通過升級(jí)模擬平臺(tái)并構(gòu)建模擬框架,基于廚房場景和原子任務(wù)、復(fù)合任務(wù)、真實(shí)世界三個(gè)場景收集行為數(shù)據(jù)集并進(jìn)行結(jié)果評(píng)估。說明模擬器的豐富多樣性以及視覺和物理真實(shí)性顯著改善了模擬效果,實(shí)驗(yàn)結(jié)果首次論證了real-sim-real可行。后續(xù)演繹:在機(jī)器人real-sim-real可行,證明存在scalinglaw的基礎(chǔ)一種針對(duì)機(jī)器人操作任務(wù)的新型空間和時(shí)間約束表示方法,提供了一種三任務(wù)閉環(huán)的解決方案。通過關(guān)鍵點(diǎn)約束解構(gòu)機(jī)器人行為,將操作行為分為多階段,并構(gòu)建子目標(biāo)約束和路徑約束,基于此提出一種三任務(wù)閉環(huán)的解決方案。同時(shí),融入大型視覺模型和視覺-語言模型,利用VLM和GPT-4o生成Rekep約束,避免了手動(dòng)指定Rekep的需要。2)1x世界模型:首證擴(kuò)展定律,能通過大量學(xué)習(xí)理解周圍環(huán)境。通過大量的真實(shí)數(shù)據(jù)學(xué)習(xí)和模擬,機(jī)器人能夠預(yù)測復(fù)雜的物體互動(dòng),理解周圍環(huán)境,并靈活應(yīng)對(duì)日常任務(wù)。1x的進(jìn)展首次在機(jī)器人上證明了擴(kuò)展法則。3)GR-2的高效動(dòng)作預(yù)測與泛化能力。由字節(jié)跳動(dòng)研究團(tuán)隊(duì)開發(fā)的第二代機(jī)器人大模型,憑借大規(guī)模視頻預(yù)訓(xùn)練和多模態(tài)學(xué)習(xí)技術(shù),展示了卓越的泛化能力與多任務(wù)通用性。4)數(shù)字表親:機(jī)器人訓(xùn)練法優(yōu)化,以更低的成本獲取更好的泛化能力。在保留數(shù)字孿生優(yōu)勢的基礎(chǔ)上,數(shù)字表親表現(xiàn)出了更強(qiáng)的適應(yīng)能力和魯棒性,成功實(shí)現(xiàn)了從模擬到現(xiàn)實(shí)的零樣本遷移,為機(jī)器人學(xué)習(xí)在復(fù)雜、多變的真實(shí)環(huán)境中的應(yīng)用開辟了新的可能性。投資建議:1)關(guān)注算法訓(xùn)練中,需要使用的傳感器公司,如視覺方案奧比中光,力學(xué)方案安培龍;2)關(guān)注同步受益的機(jī)器人本體公司,如總成方案三花智控、拓普集團(tuán);絲桿公司北特科技、五洲新春、貝斯特、雙林股份、震??萍嫉?;3)關(guān)注其他產(chǎn)業(yè)鏈可延伸公司。風(fēng)險(xiǎn)提示:機(jī)器人算法迭代進(jìn)步速度不及預(yù)期,人形機(jī)器人落地場景實(shí)際需求不及預(yù)期行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告21Transformer模型的演進(jìn):從語言翻譯到多模態(tài)智能的前沿探索 31.1開篇:Robot+AI的核心時(shí)間線與關(guān)鍵節(jié)點(diǎn)結(jié)論 31.2Transformer網(wǎng)絡(luò)架構(gòu)的提出 31.3語言、圖片、視頻大模型的出現(xiàn) 41.4多模態(tài)、跨模態(tài)大模型的難點(diǎn) 61.5ScalingLaw的存在 62機(jī)器人現(xiàn)實(shí)世界至數(shù)據(jù)化的突破:RT-2、RoboCat與MimicGen 82.1谷歌RT-2:具身智能學(xué)習(xí) 82.2英偉達(dá)MimicGen:自動(dòng)化數(shù)據(jù)生成系統(tǒng) 112.3谷歌RoboCat:多任務(wù)具身智能 153特斯拉FSD:端到端算法成為研究主流,數(shù)據(jù)集成為關(guān)鍵 3.1FSDV12:全新的端到端自動(dòng)駕駛 183.2FSD的前世今生 193.3FSD架構(gòu)變革:Transformer模型的引入 203.4FSD端到端:感知決策一體化 214端到端算法成為研究主流,數(shù)據(jù)集成為關(guān)鍵 234.1端到端算法:直接連接數(shù)據(jù)輸入與控制指令輸出 234.2端到端算法相比傳統(tǒng)的技術(shù)架構(gòu)的優(yōu)勢 244.3自動(dòng)駕駛端到端算法遷移至人形機(jī)器人的優(yōu)勢 264.4機(jī)器人端到端算法的關(guān)鍵問題 274.5特斯拉grok模型:模擬思維鏈思考過程 295英偉達(dá)Robocasa:具體智能關(guān)鍵節(jié)點(diǎn),首次論證real-sim-real 5.1英偉達(dá)Robocasa:基于廚房場景的模擬數(shù)據(jù)收集 316機(jī)器人real-sim-real可行,邁向真正的AGI智能化 6.1李飛飛團(tuán)隊(duì)Rekep:一種針對(duì)機(jī)器人操作任務(wù)的新型空間和時(shí)間約束表示方法,提供了三任務(wù)閉環(huán)的解決方案 366.21x世界模型:首證擴(kuò)展定律,能通過大量學(xué)習(xí)理解周圍環(huán)境 406.3字節(jié)GR-2:高效動(dòng)作預(yù)測與泛化能力 436.4數(shù)字表親:機(jī)器人訓(xùn)練法優(yōu)化,以更低的成本獲取更好的泛化能力 477投資建議 8風(fēng)險(xiǎn)提示 插圖目錄 行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告31Transformer模型的演進(jìn):從語言翻譯到多模態(tài)智能的前沿探索下圖是機(jī)器人和transformer模型結(jié)合的重點(diǎn)時(shí)間線及關(guān)鍵節(jié)點(diǎn)突破。圖1:Robot+AI的核心時(shí)間線與關(guān)鍵節(jié)點(diǎn)資料來源:AnthonyBrohan《RT-2:Vision-LangLearning》,JackMonas《1xworldmodel》,C這篇文章中提出了Transformer網(wǎng)絡(luò)結(jié)構(gòu)。其一開始的提出是為了解決翻譯問題,僅僅依賴于注意力機(jī)制就可處理序列數(shù)據(jù),從而擯棄了RNN或CNN。這個(gè)新的網(wǎng)絡(luò)結(jié)構(gòu),刷爆了各大翻譯任務(wù),同時(shí)創(chuàng)造了多項(xiàng)新的記錄(英-德的翻譯任務(wù),相比之前的最好記錄提高了2個(gè)BLEU值)。而且,該模型的訓(xùn)練耗時(shí)短,并且對(duì)大數(shù)據(jù)或者有限數(shù)據(jù)集均有良好表現(xiàn)。本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告4圖2:Transformer核心架構(gòu)模型的核心架構(gòu)的示意圖如上。Transformer模型的架構(gòu)就是一個(gè)seq2seq架構(gòu),由多個(gè)EncoderDecoder堆疊而成。在此示意圖中,Encoder和Decoder都包含6個(gè)block。Transformer將所有的單詞向量化,通過矩陣編譯的方法開始翻譯以及預(yù)測,在翻譯上一個(gè)詞的同時(shí)對(duì)后續(xù)的單詞進(jìn)行預(yù)測,達(dá)到語句通順的效果。其實(shí)際上是一個(gè)編碼器-解碼器結(jié)構(gòu),其中編碼器將原始語言的句子作為輸入并生成基于注意力的表征,而解碼器關(guān)注編碼信息并以回歸方式生成翻譯的句子,和之前的RNN相同。不同的是,Transformer模型引入了注意力機(jī)制和殘差鏈接,也就是所謂“AttentionIsAllYouNeed”,最終輸出結(jié)果。Transformer的意義體現(xiàn)在它的長距離依賴關(guān)系處理和并行計(jì)算,而這兩點(diǎn)都離不開其提出的自注意力機(jī)制。首先,Transformer引入的自注意力機(jī)制能夠有效捕捉序列信息中長距離依賴關(guān)系,相比于以往的RNNs,它在處理長序列時(shí)的表現(xiàn)更好。而自注意力機(jī)制的另一個(gè)特點(diǎn)時(shí)允許模型并行計(jì)算,無需RNN一樣t步驟的計(jì)算必須依賴t-1步驟的結(jié)果,因此Transformer結(jié)構(gòu)讓模型的計(jì)算效率更高,加速訓(xùn)練和推理速度。圖3:自注意力機(jī)制示意圖資料來源:AshishVaswani,本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告5語言,圖片,視頻大模型以大語言模型為基礎(chǔ),將強(qiáng)大的大語言模型作為大腦來執(zhí)行多模態(tài)任務(wù)。但LLM只能理解離散文本,在處理多模態(tài)信息時(shí)不具有通用性。另一方面,大型視覺基礎(chǔ)模型在感知方面進(jìn)展迅速,但推理方面發(fā)展緩慢。這兩者的優(yōu)缺點(diǎn)形成了巧妙的互補(bǔ)。由于上述不同點(diǎn)中的互補(bǔ)性,單模態(tài)LLM和視覺模型同時(shí)朝著彼此運(yùn)行,結(jié)合上部分的圖像、視頻和音頻等等模態(tài),最終帶來了MLLM的新領(lǐng)域。形式上,它指的是基于LLM的模型,該模型能夠接收多模態(tài)信息并對(duì)其進(jìn)行推理。從發(fā)展人工通用智能的角度來看,MLLM可能比LLM向前邁出一步。MLLM更加符合人類感知世界的方式,提供了更用戶友好的界面(可以多模態(tài)輸入是一個(gè)更全面的任務(wù)解決者,不僅僅局限于NLP任務(wù)。圖4:MLLM的模型結(jié)構(gòu)上圖包含了通用多模態(tài)模型結(jié)構(gòu)的五個(gè)組件部分,以及每個(gè)組件部分的常用ModalityEncoder:負(fù)責(zé)將不同模態(tài)的輸入數(shù)據(jù)編碼為模型可理解的表示,目前技術(shù)可以實(shí)現(xiàn)輸入圖片、視頻、音頻文件,對(duì)于圖像而言,可能涉及到將像素?cái)?shù)據(jù)轉(zhuǎn)換成一個(gè)特征向量,該向量捕捉了圖像中的重要信息;InputProjector:將不同模態(tài)的輸入數(shù)據(jù)映射到共享的語義空間,這意味著無論輸入數(shù)據(jù)的形式如何,它們都會(huì)被轉(zhuǎn)換成一個(gè)統(tǒng)一的格式,以便模型可以在一個(gè)統(tǒng)一的框架中處理它們;LLMS:大型語言模型,用于處理文本數(shù)據(jù),可以將不同模態(tài)的信息對(duì)齊到一個(gè)共同的語義空間中,整合由前面兩個(gè)部分轉(zhuǎn)換后輸入的信息,融合后再生成一個(gè)統(tǒng)一的、豐富的語義表示,可能是相應(yīng)的指導(dǎo)性文本或腳本,與專門的生成模型協(xié)同工作,實(shí)現(xiàn)高質(zhì)量的圖片和音頻生成;OutputProjector:將模型生成的輸出映射回原始模態(tài)的空間,如果模型的輸出是文本,那么輸出投影器將確保生成的文本與輸入數(shù)據(jù)的語義空間相匹配;ModalityGenerator:根據(jù)輸入數(shù)據(jù)生成對(duì)應(yīng)的輸出數(shù)據(jù),將模型的內(nèi)部表行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告6示轉(zhuǎn)換成最終的輸出形式,如生成圖像、文本或音頻。多模態(tài)理解主要是前三個(gè)部分。(模態(tài)對(duì)齊)訓(xùn)練期間,encoder,LLMBackbone和generator一般保持凍結(jié)。主要優(yōu)化輸出和輸出的projector。由于Projector是輕量級(jí)的模塊,MM-LLMs中可以訓(xùn)練的參數(shù)比例和總參數(shù)相比非常?。?%左右),模型的總體參數(shù)規(guī)模取決于LLM部分。由此,Transformer模型隨著LLM的廣泛應(yīng)用而成為了目前多模態(tài)大模型的核心思想和目前較為先進(jìn)的網(wǎng)絡(luò)架構(gòu)。截至2024年10月,中國移動(dòng)在多模態(tài)大模型領(lǐng)域取得了顯著進(jìn)展,其九天善智多模態(tài)基座大模型表現(xiàn)尤為突出。該模型可以處理長文本的智能化解析,全雙工語音交互,擁有高質(zhì)量的視頻與圖像處理能力,可以對(duì)結(jié)構(gòu)化數(shù)據(jù)做深度洞察。其一是異質(zhì)化數(shù)據(jù)的處理與整合存在困難:多模態(tài)大模型中,由于輸入輸出的數(shù)據(jù)具有多樣性,面臨的主要問題包括數(shù)據(jù)的異質(zhì)性導(dǎo)致的表示難題、不同模態(tài)間的數(shù)據(jù)轉(zhuǎn)換挑戰(zhàn)、確定模態(tài)間元素聯(lián)系的對(duì)齊問題、多模態(tài)信息的有效融合難點(diǎn),以及如何在不同模態(tài)間進(jìn)行知識(shí)遷移的協(xié)同學(xué)習(xí)挑戰(zhàn)。需要綜合應(yīng)用多元化多樣化的模型對(duì)其進(jìn)行處理,將各個(gè)異質(zhì)性的數(shù)據(jù)再整合規(guī)劃,才能真正讀懂要求,輸出數(shù)據(jù).其二是訓(xùn)練過程挑戰(zhàn)重重:獲取跨多個(gè)模態(tài)的充足數(shù)據(jù)可能非常困難和昂貴,且數(shù)據(jù)可能會(huì)偏向于某些模態(tài),導(dǎo)致模型產(chǎn)生偏見,從而導(dǎo)致模型偏向于數(shù)據(jù)量更多或特征更強(qiáng)的模態(tài),導(dǎo)致模型產(chǎn)生偏見;同時(shí)由于特定于模態(tài)的編碼器通常分別訓(xùn)練,他們聲稱的表示是存在差異的,對(duì)投影/對(duì)齊模塊的有效學(xué)習(xí)過于依賴。在這其中,值得關(guān)注的是語言模型的scalinglaw。大模型的ScalingLaw是OpenAI在2020年提出的概念,可以概括為“預(yù)測即壓縮、壓縮即泛化、泛化即智能”將大語言模型用在別的領(lǐng)域之后,從計(jì)算理論的角度,聯(lián)合壓縮多模態(tài)數(shù)據(jù)理應(yīng)獲得比單模態(tài)更好的理論最優(yōu)壓縮器。對(duì)于所有的模態(tài)來說,他們都必須要服從的scalinglaw是,隨著數(shù)據(jù)規(guī)模的提升,模型的表現(xiàn)也會(huì)隨之提升,如果法則正確,那么要想使得模型更好,只需要搭建好算法和框架,不斷收集數(shù)據(jù)就可以了。一旦證明scalinglaw的存在和有效性,就可以預(yù)測模型性能與規(guī)模的關(guān)系,投入恰當(dāng)規(guī)模的數(shù)據(jù)集,使得計(jì)算資源可以更高效的應(yīng)用。多模態(tài)模型會(huì)變得更加可預(yù)測和可計(jì)算,其不確定性就極大的降行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告7圖5:ScalingLaw的效果圖示在此基礎(chǔ)上,本文想要按時(shí)間線和核心milestone貢獻(xiàn),來幫助大家拆解最近1年時(shí)間,robot的transformer結(jié)合之旅是怎么演進(jìn)的,從而去探討真正前沿的,以transformer為基礎(chǔ)的模型到底會(huì)去往何處。本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告8RoboCat與MimicGen大語言模型可以實(shí)現(xiàn)流暢的文本生成、問題解決、創(chuàng)意寫作以及代碼生成,視覺-語言模型(VLM)則能夠?qū)崿F(xiàn)開放詞匯的視覺識(shí)別。以上能力對(duì)于現(xiàn)實(shí)環(huán)境中的通用型機(jī)器人非常有用,然而它們?nèi)绾潍@得這些能力還是未知。如何將大型預(yù)訓(xùn)練的視覺-語言模型直接集成到低級(jí)機(jī)器人控制中,以促進(jìn)泛化并實(shí)現(xiàn)緊急語義推理,成為了機(jī)器人下一步發(fā)展的方向。Google提出的RobotTransformer(RT)系列使用了更大規(guī)模的語言模型和更多的具身智能任務(wù)數(shù)據(jù),在大量具身智能任務(wù)中獲得較好效果。其中RT-1算法使用預(yù)訓(xùn)練的EfficientNet-B3網(wǎng)絡(luò)初始化,以機(jī)器人狀態(tài)和歷史圖片作為輸入,通過EfficientNet特征提取后直接輸出動(dòng)作。圖6:RT-1結(jié)構(gòu)概覽RT-1將機(jī)器人動(dòng)作的每個(gè)維度進(jìn)行均勻離散化,并將動(dòng)作詞元化,然后使用監(jiān)督學(xué)習(xí)的損失進(jìn)行訓(xùn)練。為了使視覺-語言模型能夠控制機(jī)器人,還差對(duì)動(dòng)作控制這一步。該研究采用了非常簡單的方法:他們將機(jī)器人動(dòng)作表示為另一種語言,即文本token,并與Web規(guī)模的視覺-語言數(shù)據(jù)集一起進(jìn)行訓(xùn)練。圖7:機(jī)器人動(dòng)作數(shù)字token化行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告9RT-2在機(jī)器人任務(wù)上展示了更強(qiáng)的泛化能力,以及對(duì)超出其接觸的機(jī)器人數(shù)據(jù)之外的語義和視覺的理解。RT-2在RoboticTransformer1(RT-1)的基礎(chǔ)上進(jìn)行,直接訓(xùn)練視覺-語言模型以實(shí)現(xiàn)開放詞匯視覺問答和視覺對(duì)話,輸出低級(jí)機(jī)器人動(dòng)作,同時(shí)解決其他互聯(lián)網(wǎng)規(guī)模的視覺語?任務(wù)。相較于RT-1,RT-2模型在機(jī)器人理解新任務(wù),并通過執(zhí)行基本推理來響應(yīng)用戶命令,例如推理物體類別或高級(jí)描述等方面具有更大的優(yōu)勢。與RT-1模型的泛化能力相比,RT-2的目標(biāo)是訓(xùn)練機(jī)器人從觀測到動(dòng)作的端到端模型,并且從大規(guī)模視覺-語言模型預(yù)訓(xùn)練模型中學(xué)習(xí)泛化知識(shí)。最終,Google提出一個(gè)在機(jī)器人軌跡數(shù)據(jù)和互聯(lián)網(wǎng)級(jí)別的視覺語言任務(wù)聯(lián)合微調(diào)視覺-語言模型的學(xué)習(xí)方式。這類學(xué)習(xí)方法產(chǎn)生的模型被稱為視覺-語言-動(dòng)作(VLA)模型,具有泛化到新對(duì)象的能力、解釋命令的能力以及根據(jù)用戶指令思維推理的能力。RT-2算法整體使用大規(guī)模預(yù)訓(xùn)練的視覺-語言模型結(jié)構(gòu),模型參數(shù)可以達(dá)到55B的參數(shù)量,遠(yuǎn)超RT-1的參數(shù)規(guī)模,同時(shí)利用大規(guī)模預(yù)訓(xùn)練視覺-語言模型模型中編碼的豐富視覺問答知識(shí)來幫助具身模型的訓(xùn)練。RT-2將輸出的動(dòng)作進(jìn)行和RT-1相同的離散化操作后將詞元加入視覺-語言模型原先的詞表中,可以把動(dòng)作詞元視為另外一種語言進(jìn)行處理,無需改變原有視覺-語言模型結(jié)構(gòu)設(shè)計(jì)。由于RT-2已經(jīng)在海量的視覺問答任務(wù)中進(jìn)行預(yù)訓(xùn)練,在對(duì)圖片和任務(wù)指令的理解上有更加豐富的經(jīng)驗(yàn),在任務(wù)集合上具有更強(qiáng)的泛化能力。RT-2能夠運(yùn)用其大規(guī)模預(yù)訓(xùn)練的視覺問答經(jīng)驗(yàn)進(jìn)行泛化,在現(xiàn)實(shí)世界的任務(wù)中進(jìn)行推廣,實(shí)現(xiàn)推理、理解和識(shí)別。例如在下圖的拾取、移動(dòng)、放置等具體任務(wù)中,智能體能夠精準(zhǔn)識(shí)別任務(wù)需求并且以過往訓(xùn)練經(jīng)驗(yàn)為基礎(chǔ)準(zhǔn)確地完成。行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告10圖8:RT-2能夠推廣到各種需要推理、符號(hào)理解和人類識(shí)別的現(xiàn)實(shí)世界情況RT-2的核心方法是采用視覺-語言-動(dòng)作模型(VLA)與聯(lián)合微調(diào)。具體步驟步驟一:RT-2通過VisionTransformer(ViT)提取圖像特征,把動(dòng)作tokens轉(zhuǎn)化為語言tokens,將相應(yīng)動(dòng)作轉(zhuǎn)化為動(dòng)作字符串(例如“1128912415101”)。在此過程中,機(jī)器人動(dòng)作被離散化為多個(gè)參數(shù)(如位移和旋轉(zhuǎn)每個(gè)參數(shù)映射為預(yù)定義的token。這些token被嵌入到模型的語言字典中,與自然語言token共用同一表示空間。步驟二:RT-2將任務(wù)指令和圖像信息結(jié)合,通過de-tokenize轉(zhuǎn)化為具體的機(jī)器人動(dòng)作序列。此過程使用大語言模型(LLM)解析任務(wù),像自然語言處理那樣,動(dòng)作模塊使用tokenizer來處理這串token轉(zhuǎn)成對(duì)應(yīng)的機(jī)器人動(dòng)作,將視覺信息和任務(wù)指令解碼為具體的機(jī)器人動(dòng)作序列(如平移和旋轉(zhuǎn)參數(shù)進(jìn)而分析這串字符串對(duì)應(yīng)的開始符、命令、停止符。步驟三:在執(zhí)行任務(wù)的過程中,模型同步實(shí)時(shí)進(jìn)行聯(lián)合微調(diào)(Co-Fine-Tuning):機(jī)器人根據(jù)傳感器和攝像頭反饋的最新圖像信息,判斷任務(wù)執(zhí)行的狀態(tài)和完成情況。如果任務(wù)執(zhí)行過程中出現(xiàn)誤差或環(huán)境發(fā)生變化,模型會(huì)利用新的視覺數(shù)據(jù)重新規(guī)劃動(dòng)作,直至任務(wù)完成??偠灾?,語言模型負(fù)責(zé)持續(xù)理解任務(wù)場景和需求,而動(dòng)作模塊根據(jù)視覺反饋實(shí)時(shí)調(diào)整操作,確保任務(wù)順利完成。完成訓(xùn)練與微調(diào)后,RT-2被部署到機(jī)器人系統(tǒng)中,并具備了在復(fù)雜環(huán)境下執(zhí)行多任務(wù)的能力,實(shí)現(xiàn)高效的閉環(huán)控制。本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告11圖9:RT-2全流程概覽RT-2展示了視覺-語言模型(VLMs)可以轉(zhuǎn)變?yōu)閺?qiáng)大的視覺-語言-動(dòng)作(VLA)模型,通過結(jié)合VLM預(yù)訓(xùn)練和機(jī)器人數(shù)據(jù),直接控制機(jī)器人。RT-2基于PaLM-E和PaLI-X的兩種VLA模型,提高了機(jī)器人策略的完成率,并且繼承了視覺語言數(shù)據(jù)預(yù)訓(xùn)練的優(yōu)勢,具有更好的泛化能力和涌現(xiàn)能力。這不僅是對(duì)現(xiàn)有視覺-語言模型的有效改進(jìn),也展示了通用型機(jī)器人的發(fā)展前景。未來的機(jī)器人能夠進(jìn)行推理、解決問題,并進(jìn)行高級(jí)規(guī)劃和低級(jí)指令控制,在現(xiàn)實(shí)世界中執(zhí)行大量多樣化的任務(wù)。RT-2也具有局限性。該模型對(duì)于泛化能力的強(qiáng)化并沒有提高機(jī)器人執(zhí)行新動(dòng)作的能力,智能體知識(shí)學(xué)會(huì)了以新的方式部署學(xué)習(xí)到的技能。同時(shí),由于高頻控制的設(shè)置應(yīng)用場景,實(shí)時(shí)推斷可能成為主要瓶頸。未來工作的方向主要集中于如何通過新的數(shù)據(jù)收集范式(如人類視頻)獲得新技能,同時(shí)開發(fā)出更多的開元模型以支撐高速率和低成本的運(yùn)作。MimicGen是一個(gè)用于大規(guī)模機(jī)器人學(xué)習(xí)的數(shù)據(jù)生成系統(tǒng),目的是解決機(jī)器人學(xué)習(xí)過程中人工數(shù)據(jù)收集成本高、時(shí)間耗費(fèi)大的問題。當(dāng)前基于模仿學(xué)習(xí)的機(jī)器人研究依賴大量的人工演示數(shù)據(jù)來訓(xùn)練模型,但這些數(shù)據(jù)的收集非常昂貴。MimicGen提出了從少量人類演示數(shù)據(jù)中自動(dòng)生成大規(guī)模、多樣化的演示數(shù)據(jù)集的系統(tǒng)。該系統(tǒng)通過將人類演示數(shù)據(jù)適應(yīng)于新場景,生成多達(dá)50,000條演示數(shù)據(jù),覆蓋18項(xiàng)任務(wù),從而顯著降低了人工數(shù)據(jù)收集的需求。這一方法能夠加速機(jī)器人學(xué)習(xí)的進(jìn)展,使得機(jī)器人能夠在復(fù)雜場景中表現(xiàn)出本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告12更強(qiáng)的泛化能力,尤其是在長時(shí)間任務(wù)和高精度任務(wù)(如多部件裝配、咖啡準(zhǔn)備)中表現(xiàn)出色。研究結(jié)果表明,利用MimicGen生成的數(shù)據(jù)進(jìn)行模仿學(xué)習(xí)能夠取得與傳統(tǒng)人工數(shù)據(jù)收集相媲美的效果。圖10:MimicGen從原始人類演示數(shù)據(jù)到生成的廣泛數(shù)據(jù)集的過程MimicGen的設(shè)計(jì)來源于模仿學(xué)習(xí)與數(shù)據(jù)增強(qiáng)兩個(gè)技術(shù)背景。模仿學(xué)習(xí)是一種通過觀察人類示范來訓(xùn)練機(jī)器人的方法。MimicGen利用這一理念,通過生成多樣化的示范來擴(kuò)展模仿學(xué)習(xí)的應(yīng)用范圍。數(shù)據(jù)增強(qiáng)技術(shù)被廣泛應(yīng)用于提高模型的泛化能力。通過對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行變換或修改來生成新訓(xùn)練樣本的技術(shù),旨在提高模型的泛化能力和魯棒性。常見的數(shù)據(jù)增強(qiáng)方法包括旋轉(zhuǎn)、縮放、平移等,這些變換可以在不改變數(shù)據(jù)標(biāo)簽的情況下生成新的樣本。MimicGen的核心方法是數(shù)據(jù)分割與重組。將少量人類演示數(shù)據(jù)分割成以物體為中心的子任務(wù),然后在新的場景中通過空間變換和軌跡生成,自動(dòng)生成新的演示數(shù)據(jù)。傳統(tǒng)方法中,數(shù)據(jù)生成通?;陟o態(tài)場景的回放,或通過復(fù)雜的模擬器進(jìn)行大量數(shù)據(jù)收集。而MimicGen的創(chuàng)新點(diǎn)在于,它提出了一種簡單但有效的策略,通過“對(duì)象中心片段”的變換和拼接,將少量的人類演示數(shù)據(jù)轉(zhuǎn)化為大規(guī)模的多樣化數(shù)據(jù)。這種方法可以直接融入現(xiàn)有的模仿學(xué)習(xí)管道中,適用于各種長時(shí)間、高精度的任務(wù),并且能夠生成比單純回放方法更加多樣和有效的數(shù)據(jù)。本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告13圖11:MimicGen數(shù)據(jù)分割與重組示意圖通過對(duì)比使用MimicGen生成的數(shù)據(jù)集與傳統(tǒng)人類示范數(shù)據(jù)集的結(jié)果可以得出,機(jī)器人在使用MimicGen生成的數(shù)據(jù)集后成功率顯著上升。研究團(tuán)隊(duì)通過對(duì)MimicGen的實(shí)驗(yàn),評(píng)估了其在不同任務(wù)中的表現(xiàn),具體測驗(yàn)任務(wù)主要包括StackThree(堆疊三個(gè)物體)、Square(方形物體插入和對(duì)齊)、Threading(機(jī)器人在穿線或穿孔時(shí)的精細(xì)操作能力)、Kitchen(長時(shí)間多步驟任務(wù))等十項(xiàng)。圖12:MimicGen主要測試任務(wù)結(jié)果顯示使用MimicGen后機(jī)器人成功率顯著提升,例如“Square”任務(wù)的本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告14圖13:MimicGen主要測試任務(wù)結(jié)果MimicGen在機(jī)器人系統(tǒng)(尤其是機(jī)械臂)中的應(yīng)用潛力巨大。通過利用少量人類演示(少于200個(gè)MimicGen可自動(dòng)生成超過50,000個(gè)覆蓋18種任務(wù)的高質(zhì)量數(shù)據(jù),有效減少人工干預(yù),提升生產(chǎn)效率。其靈活性使其能夠適應(yīng)不同機(jī)器人硬件和復(fù)雜操作環(huán)境,為工業(yè)自動(dòng)化、醫(yī)療和服務(wù)機(jī)器人等領(lǐng)域提供廣泛的應(yīng)用前景。MimicGen的核心優(yōu)勢包括:顯著提升任務(wù)表現(xiàn)、良好的廣泛適應(yīng)性、跨物體和硬件適用性、適用于復(fù)雜移動(dòng)操作任務(wù)、模擬器無關(guān),精度表現(xiàn)卓越、支持非專家演示。圖14:MimicGen操作機(jī)械臂完成毫米級(jí)精度接觸任務(wù)示意圖MimicGen依賴于任務(wù)開始時(shí)已知的對(duì)象位姿和操作步驟,這在完全未知或動(dòng)態(tài)環(huán)境中存在局限性。此外,僅通過任務(wù)成功與否來篩選生成數(shù)據(jù),可能導(dǎo)致數(shù)據(jù)集存在偏差,影響模型泛化能力。其應(yīng)用場景主要限于準(zhǔn)靜態(tài)任務(wù),并假設(shè)新對(duì)本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告15象與已有對(duì)象同類,限制了其在動(dòng)態(tài)環(huán)境和異構(gòu)對(duì)象上的推廣能力。未來研究應(yīng)進(jìn)一步提升系統(tǒng)對(duì)復(fù)雜場景的理解和分割能力,減少對(duì)人類參與的依賴。擴(kuò)展MimicGen在更多物體類別、機(jī)器人硬件和任務(wù)類型中的應(yīng)用能力。圖15:MimicGen能夠適應(yīng)不同的機(jī)械臂在機(jī)器人領(lǐng)域,如何大規(guī)模利用異構(gòu)機(jī)器人數(shù)據(jù)仍然是機(jī)器人領(lǐng)域的難題,大多數(shù)現(xiàn)實(shí)中的機(jī)器人學(xué)習(xí)研究集中于一次開發(fā)一個(gè)任務(wù)的智體。在機(jī)器人技術(shù)領(lǐng)域,近期研究專注于通過訓(xùn)練有語言條件的Transformer策略來解決具有相同觀測和動(dòng)作空間的多個(gè)簡單、視覺多樣化的任務(wù),從而彌合大型預(yù)訓(xùn)練語言模型和視覺基礎(chǔ)操作之間的差距。Google曾經(jīng)提出RobotTransformer,采集了移動(dòng)機(jī)器人完成日常任務(wù)的軌跡片段,構(gòu)成了真實(shí)移動(dòng)機(jī)器人的專家數(shù)據(jù)集,包含了700多個(gè)任務(wù),如移動(dòng)物體、拉開抽屜、開罐子等,學(xué)習(xí)到的策略在新的任務(wù)指令上有一定的泛化能力。圖16:RT數(shù)據(jù)收集和評(píng)估場景本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告16RoboCat在Gato模型的基礎(chǔ)上進(jìn)行了改進(jìn),是一項(xiàng)受視覺和語言基礎(chǔ)模型最新進(jìn)展啟發(fā)而提出的自我改進(jìn)型多任務(wù)、多具身通才智能體。RoboCat使用了跨實(shí)體、跨任務(wù)的具身模仿學(xué)習(xí)框架,在VQ-GAN對(duì)視覺輸入詞元化之后,使用標(biāo)準(zhǔn)的DT回歸損失根據(jù)歷史的狀態(tài)、觀測、目標(biāo)信息對(duì)未來的智能體動(dòng)作和觀測進(jìn)行預(yù)測。同時(shí),RoboCat不斷提升智能體的能力。在新任務(wù)上,RoboCat僅需100~1000個(gè)示教樣本就能完成快速策略泛化。通過RoboCat,Google能成功展示其在新任務(wù)和不同機(jī)器人平臺(tái)上的泛化能力,以及通過后續(xù)迭代利用大模型輔助具身智能數(shù)據(jù)生成,從而為構(gòu)建一個(gè)自主改進(jìn)循環(huán)提供基本的構(gòu)建板塊。隨著訓(xùn)練數(shù)據(jù)的增長和多樣化,RoboCat不僅表現(xiàn)出了跨任務(wù)遷移的跡象,也能更有效地適應(yīng)新任務(wù)。圖17:RoboCat支持多種機(jī)器人具身和控制模式RoboCat的最終目標(biāo)是創(chuàng)建一個(gè)能夠通過大量機(jī)器人情景經(jīng)驗(yàn)進(jìn)行訓(xùn)練的基礎(chǔ)智能體,使其能夠通過微調(diào)快速適應(yīng)廣泛的新下游任務(wù)。為了實(shí)現(xiàn)這一目標(biāo),RoboCat擁有一個(gè)非常豐富的多樣化操控行為數(shù)據(jù)集并在此基礎(chǔ)上進(jìn)行訓(xùn)練。RoboCat基于Gato架構(gòu),使用在廣泛圖像集上預(yù)訓(xùn)練過的VQ-GAN編碼器(Esser,2021在涵蓋多個(gè)領(lǐng)域和具身的廣泛數(shù)據(jù)集上進(jìn)行訓(xùn)練,通過視覺目標(biāo)條件來指定任務(wù)。這種編碼器的選擇使得訓(xùn)練和迭代更加快速,這種訓(xùn)練方式也具有理想的自動(dòng)事后目標(biāo)生成屬性,即軌跡中的任何圖像都可以被標(biāo)記為所有導(dǎo)致它的所有時(shí)間步驟的有效“后見目標(biāo)”(Andrychowicz,2017)。這意味著現(xiàn)有數(shù)據(jù)中的后見目標(biāo)可以在沒有額外人為監(jiān)督的情況下提取。此外,視覺目標(biāo)提供了一個(gè)直觀的界面,用于指示機(jī)器人應(yīng)該執(zhí)行什么任務(wù)。本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告17圖18:目標(biāo)圖像示例:圖1、2為虛擬環(huán)境,圖3-8為現(xiàn)實(shí)世界RoboCat能進(jìn)行自我微調(diào)和迭代。首先智能體將在初始使用多樣化的訓(xùn)練集進(jìn)行訓(xùn)練,可以通過100-1000次演示微調(diào)以適應(yīng)新任務(wù),然后部署在真實(shí)機(jī)器人上,生成更多數(shù)據(jù)。其次,將生成軌跡添加進(jìn)入下一次迭代的訓(xùn)練數(shù)據(jù)集中,從而提高跨任務(wù)的性能。RoboCat的自我改進(jìn)過程如圖所示:主要以架構(gòu)和預(yù)訓(xùn)練、微調(diào)和自我改進(jìn)、真實(shí)世界部署作為全流程。圖19:RoboCat自我改進(jìn)進(jìn)程未來機(jī)器人的研究工作將著眼于更靈活的多模態(tài)任務(wù)規(guī)劃。首先是將現(xiàn)有的公開可獲取的數(shù)據(jù)集與注釋語言相結(jié)合,以語言為媒介的任務(wù)規(guī)劃和視覺目標(biāo)相輔相成,得以實(shí)現(xiàn)對(duì)不同任務(wù)的更精準(zhǔn)定位。此外,盡管當(dāng)前研究主要關(guān)注視覺目標(biāo)條件反射以及基于視覺-前饋模型(VFM)的基線研究,但仍在圖像推理方面表現(xiàn)出色;同時(shí),語言條件反射和LLM/VLM基線研究可能提供更好的時(shí)間推理能行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告183特斯拉FSD:端到端算法成為研究主流,數(shù)據(jù)集成為關(guān)鍵FSD全稱FullSelf-Driving(完全自動(dòng)駕駛),是特斯拉研發(fā)的自動(dòng)化輔助駕駛系統(tǒng),目標(biāo)是實(shí)現(xiàn)L5級(jí)別的自動(dòng)駕駛。圖20:FSDV12(Supervised)虛擬界面顯示圖21:自動(dòng)駕駛的六個(gè)等級(jí)資料來源:九章智駕,民生證券研究院FSDV12(Supervised)是全新的“端到端自動(dòng)駕駛”,模型架構(gòu)發(fā)生了重大變化。據(jù)特斯拉CEO埃隆·馬斯克表示,特斯拉FSDV12(Supervised)需要人工干預(yù)的頻率只有FSDV11的百分之一。FSDV12(Supervised)完全采用神經(jīng)網(wǎng)絡(luò)進(jìn)行車輛控制,從機(jī)器視覺到驅(qū)動(dòng)決策都將由神經(jīng)網(wǎng)絡(luò)進(jìn)行控制。該神經(jīng)網(wǎng)絡(luò)由數(shù)百萬個(gè)視頻片段訓(xùn)練而成,取代了超過30萬行的C++代碼。FSDV12(Supervised)減少了車機(jī)系統(tǒng)對(duì)代碼的依賴,使其更加接近人類司機(jī)的決策過根據(jù)特斯拉發(fā)布2024Q2的自動(dòng)駕駛報(bào)告,自動(dòng)駕駛大幅減少事故率:開啟Autopilot的情況下,平均每行駛1107.2萬公里(688萬英里)會(huì)發(fā)生一起事故,而未開啟平均每行駛233.3萬公里(145萬英里)會(huì)發(fā)生一起事故。本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告19圖22:FSD和V12累計(jì)行駛里程圖23:每發(fā)生一次事故行駛的英里數(shù)早期特斯拉自動(dòng)駕駛采用外部合作方式,合作廠商包括Mobileye和英偉達(dá)等。在2019年特斯拉步入自研時(shí)代,首次推出自研自動(dòng)駕駛芯片HW3.0。HW3.0采用特斯拉全棧自研的FSD芯片。2020年10月,特斯拉小范圍推送FSDBeta,對(duì)Autopilot基礎(chǔ)架構(gòu)進(jìn)行了重大重寫。2021年7月,特斯拉開始推送FSDBetaV9,該版本采用純視覺自動(dòng)駕駛方案,摒棄了傳統(tǒng)的毫米波雷達(dá)和超聲波雷達(dá),是特斯拉在自動(dòng)駕駛技術(shù)的重要發(fā)展節(jié)點(diǎn)。圖24:特斯拉自動(dòng)駕駛主要發(fā)展歷程資料來源:汽車財(cái)經(jīng),IT之家,易車網(wǎng),中國新聞周刊,新浪網(wǎng),民生證券研究院2024年1月,特斯拉FSDV12正式向用戶推送,將城市街道駕駛堆棧升級(jí)為端到端神經(jīng)網(wǎng)絡(luò)。2024年2月,特斯拉ModelY迎來HW4.0自動(dòng)輔助駕駛硬件升級(jí),與HW3.0相比,HW4.0算力提升5倍,在硬件設(shè)計(jì)上實(shí)現(xiàn)并行處理能力增強(qiáng)、內(nèi)存管理優(yōu)化和專用加速器集成等多項(xiàng)創(chuàng)新。從最初的輔助駕駛系統(tǒng),到全棧自研自動(dòng)駕駛技術(shù),特斯拉持續(xù)引領(lǐng)智能駕駛技術(shù)發(fā)展浪潮。行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告20復(fù)盤FSD歷史,最重大的架構(gòu)變革莫過于2020年引入Transformer模型(基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)),算法得以從重人工、規(guī)則驅(qū)動(dòng),轉(zhuǎn)向重AI,數(shù)據(jù)驅(qū)動(dòng)。FSD主要分為感知和規(guī)劃模塊,在兩個(gè)模塊中都運(yùn)用到了Transformer模型,神經(jīng)網(wǎng)絡(luò)的介入使得端到端模型逐步實(shí)現(xiàn)。2022年特斯拉FSD感知模塊即形成了BEV+Transformer+Occupancy神經(jīng)網(wǎng)絡(luò)架構(gòu)。通過攝像頭的圖片輸入,端到端輸出汽車周圍環(huán)境向量空間數(shù)據(jù),為規(guī)劃模塊決策提供支持。特斯拉FSD規(guī)劃模塊在2021年引入基于神經(jīng)網(wǎng)絡(luò)的規(guī)劃模塊和蒙特卡洛樹搜索,最終FSD規(guī)劃模塊由基于顯性規(guī)則的規(guī)劃模塊和基于神經(jīng)網(wǎng)絡(luò)的規(guī)劃模塊構(gòu)成。圖25:FSD感知規(guī)劃控制總體架構(gòu)HydraNets是特斯拉開發(fā)的一種深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)。這個(gè)網(wǎng)絡(luò)的特點(diǎn)在于它能夠?qū)⒍鄠€(gè)任務(wù)集成到一個(gè)網(wǎng)絡(luò)中,例如車道線檢測、行人檢測與追蹤、交通信號(hào)燈檢測等,這些任務(wù)對(duì)于自動(dòng)駕駛汽車來說至關(guān)重要。HydraNets的核心在于其共享的主干網(wǎng)絡(luò),該主干網(wǎng)絡(luò)通過分支成多個(gè)“頭”,可以同時(shí)輸出多個(gè)預(yù)測張量,每個(gè)“頭”負(fù)責(zé)不同的任務(wù)或?qū)ο箢悇e。此外,這種架構(gòu)的優(yōu)勢在于其能夠有效地利用可用的計(jì)算資源,并且通過端到端的訓(xùn)練和推斷,提高了處理不同視覺信息的效率。HydraNets能夠?qū)碜远鄠€(gè)攝像頭的視覺內(nèi)容轉(zhuǎn)換為向量空間和道路特征,這對(duì)于構(gòu)建車輛周圍的綜合視圖至關(guān)重要。行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告21圖26:HydraNets網(wǎng)絡(luò)架構(gòu)圖27:視覺Transformer模型架構(gòu)Dojo是特斯拉公司開發(fā)的一套高性能計(jì)算系統(tǒng),用于處理和訓(xùn)練自動(dòng)駕駛系統(tǒng)產(chǎn)生的海量數(shù)據(jù)。ProjectDOJO的負(fù)責(zé)人GaneshVenkataramanan表示,DOJO是一種通過網(wǎng)絡(luò)連接的分布式計(jì)算機(jī)架構(gòu),它具有高帶寬、低延時(shí)等特點(diǎn),將會(huì)使人工智能擁有更高速的學(xué)習(xí)能力,從而使Autopilot更加強(qiáng)大。圖28:Dojo內(nèi)核示例FSDV12為首個(gè)端到端自動(dòng)駕駛系統(tǒng),實(shí)現(xiàn)感知決策一體化。特斯拉FSDv12采用端到端大模型,消除了自動(dòng)駕駛系統(tǒng)的感知和定位、決策和規(guī)劃、控制和執(zhí)行之間的斷面,將三大模塊合在一起,形成了一個(gè)大的神經(jīng)網(wǎng)絡(luò),直接從原始傳感器數(shù)據(jù)到車輛操控指令,簡化了信息傳遞過程,因而減少了延遲和誤差,提高了系統(tǒng)的敏捷性和準(zhǔn)確性。FSDV12能夠模擬人類駕駛決策,成為自動(dòng)駕駛領(lǐng)域全新發(fā)行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告22展路徑。FSDV12也被稱為“BabyAGI(嬰兒版通用人工智能)”,旨在感知和理解現(xiàn)實(shí)世界的復(fù)雜性。圖29:BabyAGI架構(gòu)行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告234端到端算法成為研究主流,數(shù)據(jù)集成為關(guān)鍵模塊化自動(dòng)駕駛分為傳感器數(shù)據(jù)輸入、感知模塊、定位模塊、規(guī)劃模塊和控制指令輸出五部分。而端到端算法則通過單一神經(jīng)網(wǎng)絡(luò)直接連接傳感器數(shù)據(jù)輸入與控制指令輸出。與傳統(tǒng)的模塊化自動(dòng)駕駛相比,端到端自動(dòng)駕駛神經(jīng)網(wǎng)絡(luò)逐漸接管了系統(tǒng)的各個(gè)部分,其架構(gòu)設(shè)計(jì)簡單,減少中間數(shù)據(jù)降維的成本,同時(shí)減小誤差以達(dá)到全局最優(yōu)。端到端的優(yōu)勢在數(shù)據(jù)量達(dá)到一定程度后性能顯著提高,但是缺點(diǎn)是數(shù)據(jù)量較小時(shí)候性能上升緩慢,遠(yuǎn)低于解耦的傳統(tǒng)基于專家模型的策略。圖30:端到端算法與模塊化系統(tǒng)框架對(duì)比資料來源:PranavSinghChib《RecentAdvancementsinEnd-to-EndAutonomousDrivingusingDeepLear圖31:端到端模型與基于規(guī)則模型表現(xiàn)曲線對(duì)比端到端算法實(shí)現(xiàn)自動(dòng)駕駛有兩種主要方法:通過強(qiáng)化學(xué)習(xí)探索和改進(jìn)駕駛模型、使用模仿學(xué)習(xí)以監(jiān)督的方式訓(xùn)練它模仿人類駕駛行為。強(qiáng)化學(xué)習(xí)的工作原理是通過與環(huán)境的相互作用,隨著時(shí)間的推移最大化累積獎(jiǎng)勵(lì),網(wǎng)絡(luò)根據(jù)自己的行為做出驅(qū)動(dòng)決策,以獲得獎(jiǎng)勵(lì)或懲罰。它在利用數(shù)據(jù)方面的效率較低。而模仿學(xué)習(xí)是在專家演示中學(xué)習(xí)駕駛風(fēng)格,因此需要大量的實(shí)際駕駛場景來作為模型的訓(xùn)練樣例,數(shù)據(jù)集的規(guī)模與多樣性成為關(guān)鍵問題。本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告24圖32:模仿學(xué)習(xí)框架示例資料來源:PranavSinghChib《RecentAdvancementsinEnd-to-EndAutonomousDrivingusingDeepLear圖33:強(qiáng)化學(xué)習(xí)框架示例AutonomousDrivingusingDeepLear在傳統(tǒng)的決策規(guī)劃框架中,研發(fā)人員會(huì)根據(jù)不同的ODD定義好規(guī)則,面對(duì)特定場景時(shí)找到對(duì)應(yīng)的規(guī)則,然后調(diào)用相應(yīng)的規(guī)劃器生成控制軌跡。這種架構(gòu)需要事先寫好大量的規(guī)則,故稱為“重決策方案”。重決策方案較易實(shí)現(xiàn),在簡單場景下也堪稱高效,但在需要拓展ODD、或把不同的ODD連接起來時(shí),就需要大量的手寫規(guī)則來查缺補(bǔ)漏,從而實(shí)現(xiàn)更連續(xù)的智駕體驗(yàn)。當(dāng)遇到未學(xué)習(xí)過的場景,即cornercase時(shí),系統(tǒng)會(huì)表現(xiàn)得不夠智能甚或無法應(yīng)對(duì)。端到端是通過對(duì)場景的理解進(jìn)行判斷,比如環(huán)境車輛動(dòng)態(tài)、車道線、交通燈、轉(zhuǎn)向燈燈,通過多維度的元素,甚至是人類沒有意識(shí)到的要素進(jìn)行綜合分析,判斷意圖,所以其理解的天花板更高。圖34:城市中加塞場景,基于規(guī)則模型很難處理資料來源:長城汽車測試城市NOA自行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告25傳統(tǒng)智駕通過橫向策略和縱向策略進(jìn)行車輛的行為控制,基于確定的規(guī)則和精確的控制參數(shù),導(dǎo)致車輛動(dòng)作機(jī)械化,要做到擬人駕駛需要開展大量工作,定義控車曲線和匹配場景。端到端的本質(zhì)是學(xué)習(xí),所以其可以模仿人類駕駛汽車的行為,直接輸出包括方向盤轉(zhuǎn)角、方向盤轉(zhuǎn)速、油門踏板開度、制動(dòng)踏板開度等,從而實(shí)現(xiàn)接近人類駕駛的習(xí)慣進(jìn)行任務(wù)的過程控制。圖35:端到端感知-決策模型示例傳統(tǒng)“分而治之”的模塊化架構(gòu),可能圄于局部最優(yōu)解而難以達(dá)到全局最優(yōu)。由于每個(gè)任務(wù)相對(duì)獨(dú)立,人工標(biāo)注使數(shù)據(jù)的針對(duì)性強(qiáng),監(jiān)督學(xué)習(xí)使模型訓(xùn)練的信號(hào)強(qiáng),因此AI模型能迅速提升性能,有利于快速實(shí)現(xiàn)一個(gè)完整的產(chǎn)品。但在到達(dá)“局部最優(yōu)解”之后,這些模型難以進(jìn)一步提升,且串在一起之后形成累積誤差,不利于追求全局最優(yōu)解。與傳統(tǒng)的模塊化自動(dòng)駕駛系統(tǒng)相比,端到端自動(dòng)駕駛系統(tǒng)設(shè)計(jì)難度低,硬件成本較小,并且通過多樣性的數(shù)據(jù),能夠獲得在不同場景下的泛用性。所以從算法架構(gòu)設(shè)計(jì)的角度,其具有高度的整合度和一體化,省去了多個(gè)模塊的獨(dú)立架構(gòu)設(shè)計(jì)和算法開發(fā),降低代碼量和運(yùn)行所調(diào)度的模塊數(shù)量。另一方面,由于模型直接從原始數(shù)據(jù)中學(xué)習(xí),而不需要依賴于人工設(shè)計(jì)的特征或規(guī)則,所以刪去了枯燥的標(biāo)注工作。最重要的還有一點(diǎn)就是省去了后期無窮盡的規(guī)則補(bǔ)充和場景補(bǔ)充,從而減少了人工維護(hù)和升級(jí)的成本。行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告26圖36:誤差依次反向傳播給所有模塊達(dá)到全局最優(yōu)資料來源:LiChen《End-to-endAutonomousDriving:Ch自動(dòng)駕駛端到端算法代表了一種數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)范式,這種范式同樣適用于機(jī)器人領(lǐng)域。通過大量的數(shù)據(jù)訓(xùn)練,模型能夠?qū)W習(xí)到復(fù)雜的駕駛或操作行為,從而實(shí)現(xiàn)高度的智能化。自動(dòng)駕駛系統(tǒng)在道路上收集的數(shù)據(jù),以及通過仿真和合成數(shù)據(jù)技術(shù)獲取的數(shù)據(jù),都可以為人形機(jī)器人的訓(xùn)練提供有力支持。圖37:基于規(guī)則驅(qū)動(dòng)資料來源:csdn,民生證券研究院圖38:基于數(shù)據(jù)驅(qū)動(dòng)資料來源:csdn,民生證券研究院完全端到端算法采用“Bev(鳥瞰視角)+Transformer(預(yù)訓(xùn)練)+Teacher-student(知識(shí)蒸餾)”方式實(shí)現(xiàn)力位的雙控,典型代表是特斯拉的Optimus人形機(jī)器人,根據(jù)上文所述,特斯拉人形機(jī)器人采用了相同的算法架構(gòu)。端到端算法從汽車自動(dòng)駕駛遷移至人形機(jī)器人幾乎不需要做太多額外工作,車本身就是一種機(jī)器人。早期的特斯拉Optimus機(jī)器人使用了與汽車完全相同的計(jì)算機(jī)和攝像頭,通過讓汽車的神經(jīng)網(wǎng)絡(luò)在機(jī)器人上運(yùn)行,它在辦公室里走動(dòng)時(shí)仍試圖識(shí)別“可駕駛空間”,而實(shí)際上它應(yīng)該識(shí)別的是“可行走空間”。這種通用化能力表明了很多技術(shù)是可以遷移的,雖然需要一些微調(diào),但大部分系統(tǒng)和工具都是行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告27圖39:特斯拉optimus機(jī)器人避障行走端到端算法是自動(dòng)駕駛擬人化行為實(shí)現(xiàn)的關(guān)鍵。它采用整體化的神經(jīng)網(wǎng)絡(luò),將感知、預(yù)測和規(guī)劃等任務(wù)整合到一個(gè)模型中。通過輸入感知信息(如攝像頭、雷達(dá)等傳感器數(shù)據(jù)模型能夠直接輸出軌跡或控制信號(hào),實(shí)現(xiàn)類似人類的駕駛行為。自動(dòng)駕駛端到端算法能夠?qū)W習(xí)到人類駕駛的擬人化行為,如平滑的轉(zhuǎn)向、加速和減這種擬人化行為在人形機(jī)器人上同樣重要,可以提升機(jī)器人的交互能力和用戶體驗(yàn)。通過遷移自動(dòng)駕駛的擬人化算法范式,人形機(jī)器人可以更加自然地與人類進(jìn)行交互,如理解人類手勢、面部表情等。端到端算法需要大量連續(xù)時(shí)序的駕駛行為視頻進(jìn)行標(biāo)注,這種數(shù)據(jù)收集、標(biāo)注及閉環(huán)驗(yàn)證的過程在人形機(jī)器人上同樣困難。人形機(jī)器人需要面對(duì)更加復(fù)雜的環(huán)境和任務(wù),因此數(shù)據(jù)收集的難度和成本都更高。同時(shí),由于人形機(jī)器人的操作具有更高的風(fēng)險(xiǎn)性,因此數(shù)據(jù)標(biāo)注的準(zhǔn)確性也要求更高。人形機(jī)器人需要大量實(shí)際人類真實(shí)的數(shù)據(jù)集給機(jī)器人進(jìn)行訓(xùn)練。動(dòng)作捕捉技術(shù)和VR遠(yuǎn)程操作是實(shí)現(xiàn)人形機(jī)器人擬人化動(dòng)作數(shù)據(jù)采集的有效途徑。動(dòng)作捕捉技術(shù)通過在人體關(guān)鍵部位貼上反光標(biāo)記點(diǎn)或使用慣性傳感器等方式,捕捉人體的運(yùn)動(dòng)姿態(tài)和動(dòng)作數(shù)據(jù)。VR遠(yuǎn)程操控技術(shù)是人類戴著VR眼鏡和手行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告28套,通過遠(yuǎn)程操作的方式來采集機(jī)器人數(shù)據(jù)。這些數(shù)據(jù)可以被用于訓(xùn)練人形機(jī)器人的動(dòng)作模型,使其能夠模擬出類似人類的動(dòng)作和行為。圖40:動(dòng)作捕捉技術(shù)采集數(shù)據(jù)圖41:VR遠(yuǎn)程操控采集數(shù)據(jù)資料來源:特斯拉,民生證券研究院由于擴(kuò)展法則(ScalingLaw)的存在,機(jī)器人的數(shù)據(jù)集大小決定了其性能的好壞,真實(shí)數(shù)據(jù)的采集消耗較大的人力物力成本,合成數(shù)據(jù)僅依賴AI算法實(shí)現(xiàn)數(shù)據(jù)生成,數(shù)據(jù)采集快并且成本低廉。同時(shí)人形機(jī)器人面臨著場景復(fù)雜性與模型泛化能力的問題,合成數(shù)據(jù)構(gòu)建的世界模型就起到了很大的作用。自動(dòng)駕駛場景相對(duì)結(jié)構(gòu)化,主要操作在可預(yù)測和規(guī)范化的環(huán)境中。而人形機(jī)器人需要應(yīng)用于多樣的場景,如工廠、家庭、辦公室等,對(duì)泛化能力的要求遠(yuǎn)高于自動(dòng)駕駛汽車?;谑澜缒P蜕筛哔|(zhì)量的動(dòng)作視頻和規(guī)劃策略,在仿真環(huán)境中模擬各種復(fù)雜場景,就能夠提升系統(tǒng)的魯棒性。合成數(shù)據(jù)生成的關(guān)鍵問題是保持?jǐn)?shù)據(jù)集的熵和多樣性,避免生成的數(shù)據(jù)與真實(shí)數(shù)據(jù)差距過大或者樣式單一。圖42:未來合成數(shù)據(jù)的使用資料來源:Gartner,民生證券研究院行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告294.4.3關(guān)鍵問題三:模型的可解釋性現(xiàn)有感知決策一體化模型缺乏可解釋性,這一問題在人形機(jī)器人上同樣存在。由于人形機(jī)器人需要與人類進(jìn)行交互,因此模型的可解釋性對(duì)于提升用戶的信任度和接受度至關(guān)重要。曾是特斯拉自動(dòng)駕駛項(xiàng)目負(fù)責(zé)人的AndrejKarpathy指出,互聯(lián)網(wǎng)數(shù)據(jù)確實(shí)是曾經(jīng)用來訓(xùn)練模型的主要來源,但它并不是最理想的數(shù)據(jù)。現(xiàn)在真正需要的是大腦內(nèi)部的思維軌跡、解決問題時(shí)的思維過程,如果能有數(shù)十億條這樣的數(shù)據(jù),那么AGI就基本實(shí)現(xiàn)了。然而,目前還沒有這樣的數(shù)據(jù)。因此,當(dāng)前的活動(dòng)很多都集中在如何將數(shù)據(jù)集重構(gòu)為這些內(nèi)部思維軌跡的形式,同時(shí)大量依賴合成數(shù)據(jù)生成來填補(bǔ)這一空白。2024年3月28日xAI發(fā)布了Grok-1.5模型。Grok-1.5的核心在于使用“思維鏈”語言。這種語言幫助汽車分解復(fù)雜的場景,利用規(guī)則和反事實(shí)進(jìn)行推理,并解釋其決定。這種創(chuàng)新性的方法將自動(dòng)駕駛的“像素到行動(dòng)”映射提升到“像素到語言到行動(dòng)”的新模式。通過特斯拉自有的數(shù)據(jù)管道大規(guī)模標(biāo)注高質(zhì)量的“人工解釋痕跡”,Grok-1.5可以超越現(xiàn)有的語言模型,在復(fù)雜場景下進(jìn)行更加細(xì)致入微的多模態(tài)推理。這不僅有助于解決自動(dòng)駕駛的“邊緣情況”,還可以使系統(tǒng)的決策更加透明和可信。圖43:Grok1.5模型參數(shù)對(duì)比資料來源:特斯拉官網(wǎng),民生證券研究院模擬思維鏈思考過程包括三步:場景分解、規(guī)則和反事實(shí)推理、決策解釋。場景分解:當(dāng)特斯拉車輛搭載Grok-1.5V模型時(shí),模型會(huì)首先通過攝像頭等傳感器收集周圍環(huán)境的信息,并將這些信息轉(zhuǎn)化為數(shù)字信號(hào)。然后,模型會(huì)使用思維鏈語言對(duì)復(fù)雜的駕駛場景進(jìn)行分解,將其拆分成多個(gè)簡單的子場景或任務(wù)。規(guī)則和反事實(shí)推理:在分解場景后,Grok-1.5V會(huì)利用預(yù)先學(xué)習(xí)的規(guī)則和反事行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告30實(shí)進(jìn)行推理。這些規(guī)則可能包括交通規(guī)則、道路標(biāo)志的含義、車輛動(dòng)力學(xué)原理等。反事實(shí)推理則是指模型會(huì)考慮如果采取某種行動(dòng),可能會(huì)發(fā)生什么結(jié)果,并據(jù)此做決策解釋:與傳統(tǒng)的自動(dòng)駕駛系統(tǒng)不同,Grok-1.5V不僅能夠做出決策,還能夠解釋其決策過程。模型會(huì)將思維鏈語言中的推理步驟轉(zhuǎn)化為人類可理解的語言或圖像,以便駕駛員或相關(guān)人員了解系統(tǒng)的決策依據(jù)。行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告315英偉達(dá)Robocasa:具體智能關(guān)鍵節(jié)點(diǎn),首次論證real-sim-real隨著人工智能(AI)的快速發(fā)展,機(jī)器人領(lǐng)域因缺乏大規(guī)模機(jī)器人數(shù)據(jù)集而受到限制。之前的一些研究嘗試創(chuàng)建大規(guī)模,多樣化的數(shù)據(jù)集來訓(xùn)練通用機(jī)器人模型,但這些數(shù)據(jù)集在泛化能力上仍存在差距,此外,現(xiàn)有的模擬框架在場景、任務(wù)和資產(chǎn)多樣性方面存在不足,且大多數(shù)框架沒有結(jié)合生成式AI工具。英偉達(dá)提出了RoboCasa,這是一個(gè)用于訓(xùn)練通用機(jī)器人的大型模擬框架,專注于現(xiàn)實(shí)生活環(huán)境,尤其是廚房環(huán)境,Robocasa數(shù)據(jù)集提供了超過150個(gè)對(duì)象類別的數(shù)千個(gè)3D資產(chǎn)以及數(shù)十種可交互的家具和電器,它通過現(xiàn)實(shí)物理模擬來擴(kuò)展環(huán)境、任務(wù)和數(shù)據(jù)集,以促進(jìn)機(jī)器人學(xué)習(xí)方法的擴(kuò)展。目的是為了解決如何通過模擬環(huán)境來擴(kuò)展機(jī)器人學(xué)習(xí)方法的規(guī)模,特別是針對(duì)通用機(jī)器人在日常環(huán)境中的訓(xùn)練的問題。實(shí)驗(yàn)結(jié)果表明:在使用生成的機(jī)器人數(shù)據(jù)進(jìn)行大規(guī)模模仿學(xué)習(xí)方面有著顯著的效果提升,在現(xiàn)實(shí)世界任務(wù)中利用模擬數(shù)據(jù)來提升實(shí)際效果方面顯示出巨大的前景。Robocasa有以下特點(diǎn):1)多樣化資產(chǎn):在生成性AI工具的幫助下創(chuàng)建120個(gè)廚房場景和2500多個(gè)3D對(duì)象,比如從文本到三維模型的對(duì)象資產(chǎn),以及從文本到圖像模型的環(huán)境紋理;2)跨化身支持:支持移動(dòng)機(jī)械手和仿人機(jī)器人;3)多樣化的任務(wù):在大型語言模型(LLM)的指導(dǎo)下創(chuàng)建任務(wù);4)大規(guī)模訓(xùn)練數(shù)據(jù)集:有超過100,000條軌跡。Robocasa的模擬框架中包含5個(gè)方面內(nèi)容:對(duì)象和硬件平臺(tái),繼承了幾個(gè)核心組件,包括環(huán)境模型格式和機(jī)器人控制器,延續(xù)了RoboSuite框架模塊化、快速、方便的特性,為了支持空間尺度環(huán)境,團(tuán)隊(duì)還擴(kuò)展了RoboSuite以適應(yīng)移動(dòng)操縱器,包括安裝在輪式基座上的機(jī)器人、人形機(jī)器人和帶臂的四足機(jī)器人。2)廚房場景:團(tuán)隊(duì)根據(jù)標(biāo)準(zhǔn)尺寸和空間規(guī)格對(duì)世界各種風(fēng)格的廚房進(jìn)行建模,并將其與一個(gè)大型的可交互的家具和應(yīng)用程序、櫥柜、爐子、微波爐、咖啡壺等倉庫相匹配,構(gòu)建模擬使用的廚房場景,并使用高質(zhì)量的AI生成紋理來增加視覺多樣性,這些紋理可以用作現(xiàn)實(shí)領(lǐng)域隨機(jī)化的一種形式,以顯著增加訓(xùn)練數(shù)據(jù)集的視覺多樣性。行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告32圖44:Robocasa模型使用的廚房場景3)資產(chǎn)庫:Robocasa創(chuàng)建了一個(gè)包含2509個(gè)高質(zhì)量資產(chǎn)的庫,涵蓋153個(gè)不同的類別。這些資產(chǎn)包括家具、電器和其他廚房用品,大部分由luma.ai生4)任務(wù)集:該模擬包含100個(gè)系統(tǒng)臨時(shí)評(píng)估的任務(wù),前25個(gè)是基礎(chǔ)原子任務(wù)(如抓取和放置、開關(guān)門等),另外75個(gè)是在大型語言模型(LLMs),尤其是GPT-4o的指導(dǎo)下生成的復(fù)合任務(wù)。如圖44所示,英偉達(dá)研究團(tuán)隊(duì)使用LLM來概括不同的任務(wù)。首先,提示GPT-4提供不同的高級(jí)廚房活動(dòng),例如煮咖啡或洗碗等,團(tuán)隊(duì)共編制了20個(gè)任務(wù)清單;隨后,對(duì)于每個(gè)活動(dòng),提示GPT-4(或Gemini1.5)提出一組不同的表征任務(wù),包括:任務(wù)、目標(biāo)、對(duì)象、家具、技能等。例如烹飪或清潔。5)數(shù)據(jù)集:為了增加數(shù)據(jù)集,團(tuán)隊(duì)擴(kuò)展了MimicGen,為原子任務(wù)生成100K額外的軌跡。使用數(shù)據(jù)生成工具來擴(kuò)展數(shù)據(jù)量、利用自動(dòng)軌跡生成方法來收集大規(guī)模演示數(shù)據(jù)集。一個(gè)由四名人類操作員組成的團(tuán)隊(duì)使用3D為每個(gè)原子任務(wù)收集了50個(gè)高質(zhì)量的演示集,每個(gè)任務(wù)演示都是在一個(gè)隨機(jī)的廚房場景中收集的(隨機(jī)的廚房平面圖、隨機(jī)的廚房風(fēng)格和隨機(jī)的ai生成紋理)。這就通過人工遠(yuǎn)程操作(1250個(gè)演示)產(chǎn)生了大型和多樣化的模擬數(shù)據(jù)集。然而,即使是這個(gè)規(guī)模的人類數(shù)據(jù)也不足以解決大多數(shù)任務(wù)。MimicGen先于Robocasa出現(xiàn),團(tuán)隊(duì)選擇使用數(shù)據(jù)生成工具M(jìn)imicGen來擴(kuò)展數(shù)據(jù)量,MimicGen可以從人類演示的種子集中自動(dòng)合成豐富的數(shù)據(jù)集。核心一代首先將每個(gè)人類演示分解為一個(gè)以對(duì)象為中心的操作片段。然后,對(duì)于一個(gè)新場景,它根據(jù)相關(guān)任務(wù)的當(dāng)前姿態(tài)轉(zhuǎn)換為每一個(gè)以對(duì)象為中心的片段,并將片段縫合在一起,讓機(jī)器人按照新的軌跡收集新的任務(wù)演示。MimicGen需要一些關(guān)于模擬的基本假設(shè):任務(wù)具有以對(duì)象為中心的子任務(wù)序列的一致性。而由八種核心技能組成的原子任務(wù),所有與某一技能對(duì)應(yīng)的任務(wù)都具有相同或相似的以對(duì)象為中心的子任務(wù)序列,其主要區(qū)別來自于引用對(duì)象的身份。因此,指定子任務(wù)序列較容易實(shí)現(xiàn)。此外,提供給MimicGen的每個(gè)行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告33人類演示還必須用與每個(gè)以對(duì)象為中心的子任務(wù)對(duì)應(yīng)的分段進(jìn)行注釋。這可以通過檢測每個(gè)子任務(wù)結(jié)束的自動(dòng)化度量來實(shí)現(xiàn)。Robocasa與其他流行的模擬框架相比,進(jìn)步如下:1)Robocasa支持移動(dòng)操作,而非僅限于桌面操作;2)具有逼真的渲染、大量的任務(wù)、房間比例和對(duì)象;3)Robocasa支持端口室縮放,其他模型僅支持在房間中較小部分進(jìn)行移動(dòng)操作等。Robocasa是唯一一個(gè)支持大量任務(wù)、房間規(guī)模的場景和物體的框架,同時(shí)結(jié)合了人工智能生成的任務(wù)和資產(chǎn)任務(wù)確保場景和任務(wù)可能無限多樣性。此外,Robocasa提供了大規(guī)模的任務(wù)演示數(shù)據(jù)集以及MimicGen系統(tǒng),并提供了在大型任務(wù)集合中通過模仿學(xué)習(xí)訓(xùn)練的代理的全面分析。各種場景、任務(wù)和資產(chǎn)與RoboCasa提供的廣泛數(shù)據(jù)集相結(jié)合,將滿足機(jī)器人學(xué)習(xí)社區(qū)中任何其他模擬都沒有解決的關(guān)鍵要求。在實(shí)驗(yàn)中,團(tuán)隊(duì)主要探討了以下問題:1)在學(xué)習(xí)多任務(wù)策略時(shí),機(jī)器生成的軌跡有多有效?2)隨著訓(xùn)練數(shù)據(jù)集規(guī)模的增加,模擬學(xué)習(xí)策略規(guī)模的泛化性能將如何提高?3)大規(guī)模模擬數(shù)據(jù)集促進(jìn)知識(shí)轉(zhuǎn)移到下游任務(wù),并促進(jìn)現(xiàn)實(shí)世界任務(wù)的政策學(xué)習(xí)?Robocasa共涉及了原子任務(wù)、復(fù)合任務(wù)和真實(shí)世界實(shí)驗(yàn)三個(gè)場景。在對(duì)原子能任務(wù)的模擬學(xué)習(xí)中,團(tuán)隊(duì)設(shè)計(jì)了25個(gè)原子任務(wù),涵蓋八種基礎(chǔ)技能(如抓取和放置,開關(guān)門等),通過人類操作和MinicGen生成數(shù)據(jù)集,分別訓(xùn)練多任務(wù)策略,并評(píng)估其在不同數(shù)據(jù)集上的表現(xiàn)。在人類數(shù)據(jù)上,整體成功率為20.8%,在使用全部生成的數(shù)據(jù)集上,成功率顯著提升至47,6%,從使用機(jī)器生成數(shù)據(jù)中觀察到調(diào)整趨勢:隨著生成數(shù)據(jù)數(shù)量的增加,模型性能穩(wěn)步提高,說明未來數(shù)據(jù)生成工具使模型能夠以相對(duì)較低的成本學(xué)習(xí)更多的性能代理。圖45:Robocasa使用GPT-4生成不同任務(wù)的模型流程在對(duì)復(fù)合任務(wù)的模擬學(xué)習(xí)中發(fā)現(xiàn),選了五個(gè)代表性的復(fù)合任務(wù)(如放蔬菜,解凍食物等),分別采用從頭開始學(xué)習(xí)和微調(diào)預(yù)訓(xùn)練策略進(jìn)行實(shí)驗(yàn),每個(gè)任務(wù)收集50本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告34個(gè)人類演示,井使用MimcGen生成的數(shù)據(jù)進(jìn)行微調(diào),微調(diào)后的模型在質(zhì)量上表現(xiàn)更好,策略架構(gòu)、學(xué)習(xí)算法和微調(diào)策略的進(jìn)步可能在性能方面發(fā)揮關(guān)鍵作用。圖46:人工演示和機(jī)器生成的數(shù)據(jù)集之間的比較結(jié)果將模擬轉(zhuǎn)移到真實(shí)世界的環(huán)境中,比較了僅在真實(shí)數(shù)據(jù)(Realonly)和模擬數(shù)據(jù)(Real+Sim)上共同訓(xùn)練的策略表現(xiàn),并根據(jù)相應(yīng)的感覺運(yùn)動(dòng)技能對(duì)任務(wù)結(jié)果進(jìn)行分組,包括三個(gè)任務(wù)(如從柜臺(tái)到水槽的抓取和放置),對(duì)于每個(gè)任務(wù),Robocasa團(tuán)隊(duì)收集了50個(gè)演示,每個(gè)演示都超過5個(gè)不同的對(duì)象類別。團(tuán)隊(duì)為每個(gè)任務(wù)訓(xùn)練一個(gè)策略,并比較Realonly和Real+Sim兩種設(shè)置。同時(shí),團(tuán)隊(duì)研究了3種任務(wù)的平均政策成功率(平均值和標(biāo)準(zhǔn)數(shù)據(jù)偏差,百分比并評(píng)估了5個(gè)可見的對(duì)象類別和3個(gè)不可見的對(duì)象類別(在現(xiàn)實(shí)世界的演示中看不到)。結(jié)果表明,在某些對(duì)象上,在真實(shí)數(shù)據(jù)上訓(xùn)練的策略在已知對(duì)象上的平均成功率為13.6%,而在真實(shí)數(shù)據(jù)和模擬數(shù)據(jù)上共同訓(xùn)練的平均成功率為24.4%,最高提高了79%,說明模擬器的豐富多樣性以及視覺和物理真實(shí)性顯著改善了模擬效果。圖47:Realonly和Real+Sim下不同對(duì)象訓(xùn)練成功率評(píng)估行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告35英偉達(dá)提出了Robocasa,一個(gè)用于訓(xùn)練通用機(jī)器人的大規(guī)模模擬框架,Robocasa結(jié)合了生或式AI工具,創(chuàng)建了多樣化,真實(shí)的廚房場景和任務(wù),并通過大規(guī)模數(shù)據(jù)集提高了機(jī)器人在真實(shí)世界任務(wù)中的表現(xiàn),實(shí)驗(yàn)結(jié)果表明,合成數(shù)據(jù)在模擬環(huán)境中學(xué)習(xí)機(jī)器人的策略是有效的,并且可以顯著促進(jìn)知識(shí)遷移到下游任務(wù)和真實(shí)世界任務(wù)中。但實(shí)驗(yàn)表明,復(fù)合任務(wù)的微調(diào)產(chǎn)生了低性能,未來可以研究更強(qiáng)大的策略架構(gòu)和學(xué)習(xí)算法,并提高機(jī)器基因比率和數(shù)據(jù)集的質(zhì)量;使用LLM創(chuàng)建任務(wù)的過程仍然需要人工指導(dǎo)來編寫相關(guān)注釋,未來隨著LLM成為模型生成體,使用LLM提出數(shù)千個(gè)新的場景和任務(wù)并編寫代碼,以最小的語言來實(shí)現(xiàn)這些場景和任務(wù)將成為可能。此外,目前的模擬僅限于廚房環(huán)境中,未來可以拓展到該環(huán)境和任務(wù)之外。行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告366機(jī)器人real-sim-real可行,邁向真正的AGI智能化空間和時(shí)間約束表示方法,提供了三任務(wù)閉環(huán)如何制將機(jī)器人操控任務(wù)表示為關(guān)聯(lián)機(jī)器人和環(huán)境的約束條件,使它們既適用于多樣化任務(wù),又無需手動(dòng)標(biāo)記,還能被現(xiàn)成的求解器實(shí)時(shí)優(yōu)化以產(chǎn)生機(jī)器人動(dòng)作,是一個(gè)亟待解決的問題。李飛飛團(tuán)隊(duì)Rekep項(xiàng)目提出了關(guān)系關(guān)鍵點(diǎn)約束(ReKep這是一種針對(duì)機(jī)器人操控約束的視覺基礎(chǔ)表示方法。ReKep用Python函數(shù)表示,將一組3D關(guān)鍵點(diǎn)映射到數(shù)值成本上。Rekep展示了通過將操控任務(wù)表示為一系列關(guān)系關(guān)鍵點(diǎn)約束,可以采用層次化優(yōu)化過程來求解機(jī)器人動(dòng)作(由一系列末端執(zhí)行器姿態(tài)SE(3)表示),并實(shí)現(xiàn)實(shí)時(shí)頻率的感知-動(dòng)作循環(huán)。此外,為了避免為每項(xiàng)新任務(wù)手動(dòng)指定ReKep,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)自動(dòng)化流程,利用大型視覺模型和視覺-語言模型從自由形式的語言指令和RGB-D觀測中產(chǎn)生ReKep(RelationalKeypointConstraints)。機(jī)器人操控涉及與環(huán)境中的物體進(jìn)行復(fù)雜的交互,這些交互通??梢员硎緸榭臻g和時(shí)間域中的約束。例如,將茶倒入杯中的任務(wù),機(jī)器人必須在手柄處抓握,在運(yùn)輸過程中保持杯子直立,對(duì)準(zhǔn)壺嘴與目標(biāo)容器,然后傾斜杯子以正確角度倒茶。這些約束不僅編碼了中間子目標(biāo)(例如,對(duì)準(zhǔn)壺嘴還編碼了過渡行為(例如,在運(yùn)輸過程中保持杯子直立共同決定了機(jī)器人動(dòng)作在與環(huán)境的關(guān)系中的空間、時(shí)機(jī)和其他組合要求。然而,有效地為現(xiàn)實(shí)世界的大量任務(wù)制定這些約束條件將面臨重大的挑戰(zhàn)。雖然使用直接和廣泛使用的方法來表示相對(duì)姿態(tài)之間的約束,但剛體變換不能描述幾何細(xì)節(jié),需要先驗(yàn)獲得對(duì)象模型,并且不能在變形對(duì)象上工作。另一方面,數(shù)據(jù)驅(qū)動(dòng)的方法可以直接在視覺空間中實(shí)現(xiàn)學(xué)習(xí)約束。雖然很靈活,但隨著對(duì)象和任務(wù)的約束數(shù)量組合增加,如何有效地收集訓(xùn)練數(shù)據(jù)仍不清楚。為解決無操作的約束,李飛飛團(tuán)隊(duì)提出了關(guān)系關(guān)鍵點(diǎn)約束(ReKep該方法就是將任務(wù)表示成一個(gè)關(guān)系關(guān)鍵點(diǎn)序列。并且,這套框架還能很好地與GPT-4o等多模態(tài)大模型很好地整合。1)關(guān)系關(guān)鍵點(diǎn)約束理論的核心思想原理核心實(shí)現(xiàn)方式是:對(duì)于每個(gè)階段i,該優(yōu)化問題的目標(biāo)是:基于給定的ReKep行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告37約束集和輔助成本,找到一個(gè)末端執(zhí)行器姿勢作為下一個(gè)子目標(biāo)(及其相關(guān)時(shí)間以及實(shí)現(xiàn)該子目標(biāo)的姿勢序列,該公式可被視為軌跡優(yōu)化中的directshooting。例如,下圖的杯子任務(wù)可分為三個(gè)步驟:①步驟一:機(jī)器人抓住手柄并在搬運(yùn)杯子時(shí)保持直立,避免茶水灑出。該過程中,子目標(biāo)約束是將末端執(zhí)行器伸向茶壺把手。此時(shí)Rekep限制茶壺手把的抓取位置(藍(lán)色),②步驟二:將茶壺口與杯子口對(duì)齊,該過程中子目標(biāo)約束是讓茶壺口位于杯口上方,路徑約束是保持茶壺直立,避免茶水酒出,ReKep將茶壺噴口(紅色)拉到杯開口的頂部(綠色)。③步驟三:使茶壺到達(dá)傾斜的角度,并將茶壺中的水倒出。該過程目標(biāo)約束是到達(dá)指定的倒茶角度。ReKep通過關(guān)聯(lián)手柄(藍(lán)色)和噴口形成的矢量(紅色)來限制茶壺的方向。該過程中約束編碼了中間子目標(biāo)(對(duì)齊嘴),也編碼了轉(zhuǎn)換行為(在運(yùn)輸中保持杯子直立這些共同決定了機(jī)器人動(dòng)作與環(huán)境相關(guān)的空間、時(shí)間和其他組合要求。這就將多過程的任務(wù)分解為多個(gè)目標(biāo)和約束條件,通過優(yōu)化求解輸出并實(shí)現(xiàn)機(jī)器人的行為。圖48:關(guān)系關(guān)鍵點(diǎn)約束(Rekep)將不同的操作行為指定為在語義關(guān)鍵點(diǎn)上操作的約束功能的時(shí)空約束序列研究院圖49:Rekep構(gòu)建一組子目標(biāo)約束和一組路徑約束研究院使用ReKep,可將機(jī)器人操作任務(wù)轉(zhuǎn)換成一個(gè)涉及子目標(biāo)和路徑的約束優(yōu)化問題。一個(gè)操作任務(wù)通常涉及多個(gè)空間關(guān)系,并且可能具有多個(gè)與時(shí)間有關(guān)的階段,其中每個(gè)階段都需要不同的空間關(guān)系,Rekep將一個(gè)任務(wù)分解成N個(gè)階段并使用ReKep為每個(gè)階段i∈{1,...,N}指定兩類約束:子目標(biāo)約束和路徑約束。其中子目標(biāo)約束編碼了階段i結(jié)束時(shí)要實(shí)現(xiàn)的一個(gè)關(guān)鍵點(diǎn)關(guān)系,而路徑約束編碼了階段i內(nèi)每個(gè)狀態(tài)要滿足的一個(gè)關(guān)鍵點(diǎn)關(guān)系?,F(xiàn)實(shí)環(huán)境復(fù)雜多變,有時(shí)候在任務(wù)進(jìn)行過程中,上一階段的子目標(biāo)約束可能不再成立(比如倒茶時(shí)茶杯被拿走了),這時(shí)候需要重新規(guī)劃。該團(tuán)隊(duì)的做法是檢查路徑是否出現(xiàn)問題。如果發(fā)現(xiàn)問題,就迭代式地回溯到前一階段Rekep的關(guān)鍵特(1)多模態(tài)輸入處理:ReKep能夠處理RGB-D圖像和自由形式的語言指令,利用大型視覺模型(如DINOv2)和視覺-語言模型(如GPT-4o)來識(shí)別場景中行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格,請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論