星海系列：人形機(jī)器人與AI大模型之Robot+AI的Transformer之旅

上傳人：緣*** IP屬地：四川上傳時(shí)間：2024-12-14 格式：DOCX 頁數(shù)：54 大?。?.35MB 積分：15 舉報(bào) 版權(quán)申訴

星海系列：人形機(jī)器人與AI大模型之Robot+AI的Transformer之旅_第2頁

星海系列：人形機(jī)器人與AI大模型之Robot+AI的Transformer之旅_第3頁

星海系列：人形機(jī)器人與AI大模型之Robot+AI的Transformer之旅_第4頁

星海系列：人形機(jī)器人與AI大模型之Robot+AI的Transformer之旅_第5頁

已閱讀5頁，還剩49頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告1從Transformer到多模態(tài)大模型的演進(jìn)與應(yīng)用。Transformer不僅在語言處理上廣泛應(yīng)用，還擴(kuò)展至圖像、視頻、音頻等多模態(tài)任務(wù)。諸如StableDiffusion、VideoPoet和MusicLM等模型展現(xiàn)了其強(qiáng)大的生成能力，推動(dòng)了多模態(tài)大模型（MLLM）的發(fā)展。機(jī)器人現(xiàn)實(shí)世界至數(shù)據(jù)化的突破：RT-2、RoboCat與MimicGen。RT-2通過大規(guī)模的視覺-語言預(yù)訓(xùn)練，將視覺識(shí)別與低級(jí)機(jī)器人控制結(jié)合，實(shí)現(xiàn)了機(jī)器人在復(fù)雜任務(wù)和未見環(huán)境中的強(qiáng)大泛化能力。RoboCat則基于Gato模型，展示了多任務(wù)和多具身平臺(tái)上的自我迭代學(xué)習(xí)能力，能夠快速適應(yīng)新任務(wù)并生成跨任務(wù)策略。英偉達(dá)的MimicGen自動(dòng)生成大量模仿學(xué)習(xí)數(shù)據(jù)，有效減少了人工干預(yù)，提升了機(jī)器人學(xué)習(xí)的效率。特斯拉FSD，端到端算法成為主流，數(shù)據(jù)為關(guān)鍵。2020年FSD引入Transformer模型，走向了數(shù)據(jù)驅(qū)動(dòng)的模型范式，2024年初FSDV12完全采用神經(jīng)網(wǎng)絡(luò)進(jìn)行車輛控制，從機(jī)器視覺到驅(qū)動(dòng)決策都將由神經(jīng)網(wǎng)絡(luò)進(jìn)行控制。FSDV12能夠模擬人類駕駛決策，成為自動(dòng)駕駛領(lǐng)域全新發(fā)展路徑。英偉達(dá)Robocasa：具體智能關(guān)鍵節(jié)點(diǎn)，首次論證real-sim-real。通過升級(jí)模擬平臺(tái)并構(gòu)建模擬框架，基于廚房場景和原子任務(wù)、復(fù)合任務(wù)、真實(shí)世界三個(gè)場景收集行為數(shù)據(jù)集并進(jìn)行結(jié)果評(píng)估。說明模擬器的豐富多樣性以及視覺和物理真實(shí)性顯著改善了模擬效果，實(shí)驗(yàn)結(jié)果首次論證了real-sim-real可行。后續(xù)演繹：在機(jī)器人real-sim-real可行，證明存在scalinglaw的基礎(chǔ)一種針對(duì)機(jī)器人操作任務(wù)的新型空間和時(shí)間約束表示方法，提供了一種三任務(wù)閉環(huán)的解決方案。通過關(guān)鍵點(diǎn)約束解構(gòu)機(jī)器人行為，將操作行為分為多階段，并構(gòu)建子目標(biāo)約束和路徑約束，基于此提出一種三任務(wù)閉環(huán)的解決方案。同時(shí)，融入大型視覺模型和視覺-語言模型，利用VLM和GPT-4o生成Rekep約束，避免了手動(dòng)指定Rekep的需要。2）1x世界模型：首證擴(kuò)展定律，能通過大量學(xué)習(xí)理解周圍環(huán)境。通過大量的真實(shí)數(shù)據(jù)學(xué)習(xí)和模擬，機(jī)器人能夠預(yù)測復(fù)雜的物體互動(dòng)，理解周圍環(huán)境，并靈活應(yīng)對(duì)日常任務(wù)。1x的進(jìn)展首次在機(jī)器人上證明了擴(kuò)展法則。3）GR-2的高效動(dòng)作預(yù)測與泛化能力。由字節(jié)跳動(dòng)研究團(tuán)隊(duì)開發(fā)的第二代機(jī)器人大模型，憑借大規(guī)模視頻預(yù)訓(xùn)練和多模態(tài)學(xué)習(xí)技術(shù)，展示了卓越的泛化能力與多任務(wù)通用性。4）數(shù)字表親：機(jī)器人訓(xùn)練法優(yōu)化，以更低的成本獲取更好的泛化能力。在保留數(shù)字孿生優(yōu)勢的基礎(chǔ)上，數(shù)字表親表現(xiàn)出了更強(qiáng)的適應(yīng)能力和魯棒性，成功實(shí)現(xiàn)了從模擬到現(xiàn)實(shí)的零樣本遷移，為機(jī)器人學(xué)習(xí)在復(fù)雜、多變的真實(shí)環(huán)境中的應(yīng)用開辟了新的可能性。投資建議：1)關(guān)注算法訓(xùn)練中，需要使用的傳感器公司，如視覺方案奧比中光，力學(xué)方案安培龍；2）關(guān)注同步受益的機(jī)器人本體公司，如總成方案三花智控、拓普集團(tuán)；絲桿公司北特科技、五洲新春、貝斯特、雙林股份、震?？萍嫉?；3）關(guān)注其他產(chǎn)業(yè)鏈可延伸公司。風(fēng)險(xiǎn)提示：機(jī)器人算法迭代進(jìn)步速度不及預(yù)期，人形機(jī)器人落地場景實(shí)際需求不及預(yù)期行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告21Transformer模型的演進(jìn)：從語言翻譯到多模態(tài)智能的前沿探索 31.1開篇：Robot+AI的核心時(shí)間線與關(guān)鍵節(jié)點(diǎn)結(jié)論 31.2Transformer網(wǎng)絡(luò)架構(gòu)的提出 31.3語言、圖片、視頻大模型的出現(xiàn) 41.4多模態(tài)、跨模態(tài)大模型的難點(diǎn) 61.5ScalingLaw的存在 62機(jī)器人現(xiàn)實(shí)世界至數(shù)據(jù)化的突破：RT-2、RoboCat與MimicGen 82.1谷歌RT-2：具身智能學(xué)習(xí) 82.2英偉達(dá)MimicGen：自動(dòng)化數(shù)據(jù)生成系統(tǒng) 112.3谷歌RoboCat：多任務(wù)具身智能 153特斯拉FSD：端到端算法成為研究主流，數(shù)據(jù)集成為關(guān)鍵 3.1FSDV12：全新的端到端自動(dòng)駕駛 183.2FSD的前世今生 193.3FSD架構(gòu)變革：Transformer模型的引入 203.4FSD端到端：感知決策一體化 214端到端算法成為研究主流，數(shù)據(jù)集成為關(guān)鍵 234.1端到端算法：直接連接數(shù)據(jù)輸入與控制指令輸出 234.2端到端算法相比傳統(tǒng)的技術(shù)架構(gòu)的優(yōu)勢 244.3自動(dòng)駕駛端到端算法遷移至人形機(jī)器人的優(yōu)勢 264.4機(jī)器人端到端算法的關(guān)鍵問題 274.5特斯拉grok模型：模擬思維鏈思考過程 295英偉達(dá)Robocasa：具體智能關(guān)鍵節(jié)點(diǎn)，首次論證real-sim-real 5.1英偉達(dá)Robocasa：基于廚房場景的模擬數(shù)據(jù)收集 316機(jī)器人real-sim-real可行，邁向真正的AGI智能化 6.1李飛飛團(tuán)隊(duì)Rekep：一種針對(duì)機(jī)器人操作任務(wù)的新型空間和時(shí)間約束表示方法，提供了三任務(wù)閉環(huán)的解決方案 366.21x世界模型：首證擴(kuò)展定律，能通過大量學(xué)習(xí)理解周圍環(huán)境 406.3字節(jié)GR-2：高效動(dòng)作預(yù)測與泛化能力 436.4數(shù)字表親：機(jī)器人訓(xùn)練法優(yōu)化，以更低的成本獲取更好的泛化能力 477投資建議 8風(fēng)險(xiǎn)提示插圖目錄行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告31Transformer模型的演進(jìn)：從語言翻譯到多模態(tài)智能的前沿探索下圖是機(jī)器人和transformer模型結(jié)合的重點(diǎn)時(shí)間線及關(guān)鍵節(jié)點(diǎn)突破。圖1：Robot+AI的核心時(shí)間線與關(guān)鍵節(jié)點(diǎn)資料來源：AnthonyBrohan《RT-2:Vision-LangLearning》，JackMonas《1xworldmodel》，C這篇文章中提出了Transformer網(wǎng)絡(luò)結(jié)構(gòu)。其一開始的提出是為了解決翻譯問題，僅僅依賴于注意力機(jī)制就可處理序列數(shù)據(jù)，從而擯棄了RNN或CNN。這個(gè)新的網(wǎng)絡(luò)結(jié)構(gòu)，刷爆了各大翻譯任務(wù)，同時(shí)創(chuàng)造了多項(xiàng)新的記錄（英-德的翻譯任務(wù)，相比之前的最好記錄提高了2個(gè)BLEU值）。而且，該模型的訓(xùn)練耗時(shí)短，并且對(duì)大數(shù)據(jù)或者有限數(shù)據(jù)集均有良好表現(xiàn)。本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告4圖2：Transformer核心架構(gòu)模型的核心架構(gòu)的示意圖如上。Transformer模型的架構(gòu)就是一個(gè)seq2seq架構(gòu)，由多個(gè)EncoderDecoder堆疊而成。在此示意圖中，Encoder和Decoder都包含6個(gè)block。Transformer將所有的單詞向量化，通過矩陣編譯的方法開始翻譯以及預(yù)測，在翻譯上一個(gè)詞的同時(shí)對(duì)后續(xù)的單詞進(jìn)行預(yù)測，達(dá)到語句通順的效果。其實(shí)際上是一個(gè)編碼器-解碼器結(jié)構(gòu)，其中編碼器將原始語言的句子作為輸入并生成基于注意力的表征，而解碼器關(guān)注編碼信息并以回歸方式生成翻譯的句子，和之前的RNN相同。不同的是，Transformer模型引入了注意力機(jī)制和殘差鏈接，也就是所謂“AttentionIsAllYouNeed”，最終輸出結(jié)果。Transformer的意義體現(xiàn)在它的長距離依賴關(guān)系處理和并行計(jì)算，而這兩點(diǎn)都離不開其提出的自注意力機(jī)制。首先，Transformer引入的自注意力機(jī)制能夠有效捕捉序列信息中長距離依賴關(guān)系，相比于以往的RNNs，它在處理長序列時(shí)的表現(xiàn)更好。而自注意力機(jī)制的另一個(gè)特點(diǎn)時(shí)允許模型并行計(jì)算，無需RNN一樣t步驟的計(jì)算必須依賴t-1步驟的結(jié)果，因此Transformer結(jié)構(gòu)讓模型的計(jì)算效率更高，加速訓(xùn)練和推理速度。圖3：自注意力機(jī)制示意圖資料來源：AshishVaswani,本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告5語言，圖片，視頻大模型以大語言模型為基礎(chǔ)，將強(qiáng)大的大語言模型作為大腦來執(zhí)行多模態(tài)任務(wù)。但LLM只能理解離散文本，在處理多模態(tài)信息時(shí)不具有通用性。另一方面，大型視覺基礎(chǔ)模型在感知方面進(jìn)展迅速，但推理方面發(fā)展緩慢。這兩者的優(yōu)缺點(diǎn)形成了巧妙的互補(bǔ)。由于上述不同點(diǎn)中的互補(bǔ)性，單模態(tài)LLM和視覺模型同時(shí)朝著彼此運(yùn)行，結(jié)合上部分的圖像、視頻和音頻等等模態(tài)，最終帶來了MLLM的新領(lǐng)域。形式上，它指的是基于LLM的模型，該模型能夠接收多模態(tài)信息并對(duì)其進(jìn)行推理。從發(fā)展人工通用智能的角度來看，MLLM可能比LLM向前邁出一步。MLLM更加符合人類感知世界的方式，提供了更用戶友好的界面（可以多模態(tài)輸入是一個(gè)更全面的任務(wù)解決者，不僅僅局限于NLP任務(wù)。圖4：MLLM的模型結(jié)構(gòu)上圖包含了通用多模態(tài)模型結(jié)構(gòu)的五個(gè)組件部分，以及每個(gè)組件部分的常用ModalityEncoder：負(fù)責(zé)將不同模態(tài)的輸入數(shù)據(jù)編碼為模型可理解的表示，目前技術(shù)可以實(shí)現(xiàn)輸入圖片、視頻、音頻文件，對(duì)于圖像而言，可能涉及到將像素?cái)?shù)據(jù)轉(zhuǎn)換成一個(gè)特征向量，該向量捕捉了圖像中的重要信息；InputProjector：將不同模態(tài)的輸入數(shù)據(jù)映射到共享的語義空間，這意味著無論輸入數(shù)據(jù)的形式如何，它們都會(huì)被轉(zhuǎn)換成一個(gè)統(tǒng)一的格式，以便模型可以在一個(gè)統(tǒng)一的框架中處理它們；LLMS：大型語言模型，用于處理文本數(shù)據(jù)，可以將不同模態(tài)的信息對(duì)齊到一個(gè)共同的語義空間中，整合由前面兩個(gè)部分轉(zhuǎn)換后輸入的信息，融合后再生成一個(gè)統(tǒng)一的、豐富的語義表示，可能是相應(yīng)的指導(dǎo)性文本或腳本，與專門的生成模型協(xié)同工作，實(shí)現(xiàn)高質(zhì)量的圖片和音頻生成；OutputProjector：將模型生成的輸出映射回原始模態(tài)的空間，如果模型的輸出是文本，那么輸出投影器將確保生成的文本與輸入數(shù)據(jù)的語義空間相匹配；ModalityGenerator：根據(jù)輸入數(shù)據(jù)生成對(duì)應(yīng)的輸出數(shù)據(jù)，將模型的內(nèi)部表行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告6示轉(zhuǎn)換成最終的輸出形式，如生成圖像、文本或音頻。多模態(tài)理解主要是前三個(gè)部分。（模態(tài)對(duì)齊）訓(xùn)練期間，encoder，LLMBackbone和generator一般保持凍結(jié)。主要優(yōu)化輸出和輸出的projector。由于Projector是輕量級(jí)的模塊，MM-LLMs中可以訓(xùn)練的參數(shù)比例和總參數(shù)相比非常?。?%左右），模型的總體參數(shù)規(guī)模取決于LLM部分。由此，Transformer模型隨著LLM的廣泛應(yīng)用而成為了目前多模態(tài)大模型的核心思想和目前較為先進(jìn)的網(wǎng)絡(luò)架構(gòu)。截至2024年10月，中國移動(dòng)在多模態(tài)大模型領(lǐng)域取得了顯著進(jìn)展，其九天善智多模態(tài)基座大模型表現(xiàn)尤為突出。該模型可以處理長文本的智能化解析，全雙工語音交互，擁有高質(zhì)量的視頻與圖像處理能力，可以對(duì)結(jié)構(gòu)化數(shù)據(jù)做深度洞察。其一是異質(zhì)化數(shù)據(jù)的處理與整合存在困難：多模態(tài)大模型中，由于輸入輸出的數(shù)據(jù)具有多樣性，面臨的主要問題包括數(shù)據(jù)的異質(zhì)性導(dǎo)致的表示難題、不同模態(tài)間的數(shù)據(jù)轉(zhuǎn)換挑戰(zhàn)、確定模態(tài)間元素聯(lián)系的對(duì)齊問題、多模態(tài)信息的有效融合難點(diǎn)，以及如何在不同模態(tài)間進(jìn)行知識(shí)遷移的協(xié)同學(xué)習(xí)挑戰(zhàn)。需要綜合應(yīng)用多元化多樣化的模型對(duì)其進(jìn)行處理，將各個(gè)異質(zhì)性的數(shù)據(jù)再整合規(guī)劃，才能真正讀懂要求，輸出數(shù)據(jù).其二是訓(xùn)練過程挑戰(zhàn)重重：獲取跨多個(gè)模態(tài)的充足數(shù)據(jù)可能非常困難和昂貴，且數(shù)據(jù)可能會(huì)偏向于某些模態(tài)，導(dǎo)致模型產(chǎn)生偏見，從而導(dǎo)致模型偏向于數(shù)據(jù)量更多或特征更強(qiáng)的模態(tài)，導(dǎo)致模型產(chǎn)生偏見；同時(shí)由于特定于模態(tài)的編碼器通常分別訓(xùn)練，他們聲稱的表示是存在差異的，對(duì)投影/對(duì)齊模塊的有效學(xué)習(xí)過于依賴。在這其中，值得關(guān)注的是語言模型的scalinglaw。大模型的ScalingLaw是OpenAI在2020年提出的概念，可以概括為“預(yù)測即壓縮、壓縮即泛化、泛化即智能”將大語言模型用在別的領(lǐng)域之后，從計(jì)算理論的角度，聯(lián)合壓縮多模態(tài)數(shù)據(jù)理應(yīng)獲得比單模態(tài)更好的理論最優(yōu)壓縮器。對(duì)于所有的模態(tài)來說，他們都必須要服從的scalinglaw是，隨著數(shù)據(jù)規(guī)模的提升，模型的表現(xiàn)也會(huì)隨之提升，如果法則正確，那么要想使得模型更好，只需要搭建好算法和框架，不斷收集數(shù)據(jù)就可以了。一旦證明scalinglaw的存在和有效性，就可以預(yù)測模型性能與規(guī)模的關(guān)系，投入恰當(dāng)規(guī)模的數(shù)據(jù)集，使得計(jì)算資源可以更高效的應(yīng)用。多模態(tài)模型會(huì)變得更加可預(yù)測和可計(jì)算，其不確定性就極大的降行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告7圖5：ScalingLaw的效果圖示在此基礎(chǔ)上，本文想要按時(shí)間線和核心milestone貢獻(xiàn)，來幫助大家拆解最近1年時(shí)間，robot的transformer結(jié)合之旅是怎么演進(jìn)的，從而去探討真正前沿的，以transformer為基礎(chǔ)的模型到底會(huì)去往何處。本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告8RoboCat與MimicGen大語言模型可以實(shí)現(xiàn)流暢的文本生成、問題解決、創(chuàng)意寫作以及代碼生成，視覺-語言模型（VLM）則能夠?qū)崿F(xiàn)開放詞匯的視覺識(shí)別。以上能力對(duì)于現(xiàn)實(shí)環(huán)境中的通用型機(jī)器人非常有用，然而它們?nèi)绾潍@得這些能力還是未知。如何將大型預(yù)訓(xùn)練的視覺-語言模型直接集成到低級(jí)機(jī)器人控制中，以促進(jìn)泛化并實(shí)現(xiàn)緊急語義推理，成為了機(jī)器人下一步發(fā)展的方向。Google提出的RobotTransformer(RT)系列使用了更大規(guī)模的語言模型和更多的具身智能任務(wù)數(shù)據(jù)，在大量具身智能任務(wù)中獲得較好效果。其中RT-1算法使用預(yù)訓(xùn)練的EfficientNet-B3網(wǎng)絡(luò)初始化，以機(jī)器人狀態(tài)和歷史圖片作為輸入，通過EfficientNet特征提取后直接輸出動(dòng)作。圖6：RT-1結(jié)構(gòu)概覽RT-1將機(jī)器人動(dòng)作的每個(gè)維度進(jìn)行均勻離散化，并將動(dòng)作詞元化，然后使用監(jiān)督學(xué)習(xí)的損失進(jìn)行訓(xùn)練。為了使視覺-語言模型能夠控制機(jī)器人，還差對(duì)動(dòng)作控制這一步。該研究采用了非常簡單的方法：他們將機(jī)器人動(dòng)作表示為另一種語言，即文本token，并與Web規(guī)模的視覺-語言數(shù)據(jù)集一起進(jìn)行訓(xùn)練。圖7：機(jī)器人動(dòng)作數(shù)字token化行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告9RT-2在機(jī)器人任務(wù)上展示了更強(qiáng)的泛化能力，以及對(duì)超出其接觸的機(jī)器人數(shù)據(jù)之外的語義和視覺的理解。RT-2在RoboticTransformer1(RT-1)的基礎(chǔ)上進(jìn)行，直接訓(xùn)練視覺-語言模型以實(shí)現(xiàn)開放詞匯視覺問答和視覺對(duì)話，輸出低級(jí)機(jī)器人動(dòng)作，同時(shí)解決其他互聯(lián)網(wǎng)規(guī)模的視覺語?任務(wù)。相較于RT-1，RT-2模型在機(jī)器人理解新任務(wù)，并通過執(zhí)行基本推理來響應(yīng)用戶命令，例如推理物體類別或高級(jí)描述等方面具有更大的優(yōu)勢。與RT-1模型的泛化能力相比，RT-2的目標(biāo)是訓(xùn)練機(jī)器人從觀測到動(dòng)作的端到端模型，并且從大規(guī)模視覺-語言模型預(yù)訓(xùn)練模型中學(xué)習(xí)泛化知識(shí)。最終，Google提出一個(gè)在機(jī)器人軌跡數(shù)據(jù)和互聯(lián)網(wǎng)級(jí)別的視覺語言任務(wù)聯(lián)合微調(diào)視覺-語言模型的學(xué)習(xí)方式。這類學(xué)習(xí)方法產(chǎn)生的模型被稱為視覺-語言-動(dòng)作(VLA)模型，具有泛化到新對(duì)象的能力、解釋命令的能力以及根據(jù)用戶指令思維推理的能力。RT-2算法整體使用大規(guī)模預(yù)訓(xùn)練的視覺-語言模型結(jié)構(gòu)，模型參數(shù)可以達(dá)到55B的參數(shù)量，遠(yuǎn)超RT-1的參數(shù)規(guī)模，同時(shí)利用大規(guī)模預(yù)訓(xùn)練視覺-語言模型模型中編碼的豐富視覺問答知識(shí)來幫助具身模型的訓(xùn)練。RT-2將輸出的動(dòng)作進(jìn)行和RT-1相同的離散化操作后將詞元加入視覺-語言模型原先的詞表中，可以把動(dòng)作詞元視為另外一種語言進(jìn)行處理，無需改變原有視覺-語言模型結(jié)構(gòu)設(shè)計(jì)。由于RT-2已經(jīng)在海量的視覺問答任務(wù)中進(jìn)行預(yù)訓(xùn)練，在對(duì)圖片和任務(wù)指令的理解上有更加豐富的經(jīng)驗(yàn)，在任務(wù)集合上具有更強(qiáng)的泛化能力。RT-2能夠運(yùn)用其大規(guī)模預(yù)訓(xùn)練的視覺問答經(jīng)驗(yàn)進(jìn)行泛化，在現(xiàn)實(shí)世界的任務(wù)中進(jìn)行推廣，實(shí)現(xiàn)推理、理解和識(shí)別。例如在下圖的拾取、移動(dòng)、放置等具體任務(wù)中，智能體能夠精準(zhǔn)識(shí)別任務(wù)需求并且以過往訓(xùn)練經(jīng)驗(yàn)為基礎(chǔ)準(zhǔn)確地完成。行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告10圖8：RT-2能夠推廣到各種需要推理、符號(hào)理解和人類識(shí)別的現(xiàn)實(shí)世界情況RT-2的核心方法是采用視覺-語言-動(dòng)作模型（VLA）與聯(lián)合微調(diào)。具體步驟步驟一：RT-2通過VisionTransformer(ViT)提取圖像特征，把動(dòng)作tokens轉(zhuǎn)化為語言tokens，將相應(yīng)動(dòng)作轉(zhuǎn)化為動(dòng)作字符串（例如“1128912415101”）。在此過程中，機(jī)器人動(dòng)作被離散化為多個(gè)參數(shù)（如位移和旋轉(zhuǎn)每個(gè)參數(shù)映射為預(yù)定義的token。這些token被嵌入到模型的語言字典中，與自然語言token共用同一表示空間。步驟二：RT-2將任務(wù)指令和圖像信息結(jié)合，通過de-tokenize轉(zhuǎn)化為具體的機(jī)器人動(dòng)作序列。此過程使用大語言模型（LLM）解析任務(wù)，像自然語言處理那樣，動(dòng)作模塊使用tokenizer來處理這串token轉(zhuǎn)成對(duì)應(yīng)的機(jī)器人動(dòng)作，將視覺信息和任務(wù)指令解碼為具體的機(jī)器人動(dòng)作序列（如平移和旋轉(zhuǎn)參數(shù)進(jìn)而分析這串字符串對(duì)應(yīng)的開始符、命令、停止符。步驟三：在執(zhí)行任務(wù)的過程中，模型同步實(shí)時(shí)進(jìn)行聯(lián)合微調(diào)（Co-Fine-Tuning）：機(jī)器人根據(jù)傳感器和攝像頭反饋的最新圖像信息，判斷任務(wù)執(zhí)行的狀態(tài)和完成情況。如果任務(wù)執(zhí)行過程中出現(xiàn)誤差或環(huán)境發(fā)生變化，模型會(huì)利用新的視覺數(shù)據(jù)重新規(guī)劃動(dòng)作，直至任務(wù)完成?？偠灾?，語言模型負(fù)責(zé)持續(xù)理解任務(wù)場景和需求，而動(dòng)作模塊根據(jù)視覺反饋實(shí)時(shí)調(diào)整操作，確保任務(wù)順利完成。完成訓(xùn)練與微調(diào)后，RT-2被部署到機(jī)器人系統(tǒng)中，并具備了在復(fù)雜環(huán)境下執(zhí)行多任務(wù)的能力，實(shí)現(xiàn)高效的閉環(huán)控制。本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告11圖9：RT-2全流程概覽RT-2展示了視覺-語言模型（VLMs）可以轉(zhuǎn)變?yōu)閺?qiáng)大的視覺-語言-動(dòng)作（VLA）模型，通過結(jié)合VLM預(yù)訓(xùn)練和機(jī)器人數(shù)據(jù)，直接控制機(jī)器人。RT-2基于PaLM-E和PaLI-X的兩種VLA模型，提高了機(jī)器人策略的完成率，并且繼承了視覺語言數(shù)據(jù)預(yù)訓(xùn)練的優(yōu)勢，具有更好的泛化能力和涌現(xiàn)能力。這不僅是對(duì)現(xiàn)有視覺-語言模型的有效改進(jìn)，也展示了通用型機(jī)器人的發(fā)展前景。未來的機(jī)器人能夠進(jìn)行推理、解決問題，并進(jìn)行高級(jí)規(guī)劃和低級(jí)指令控制，在現(xiàn)實(shí)世界中執(zhí)行大量多樣化的任務(wù)。RT-2也具有局限性。該模型對(duì)于泛化能力的強(qiáng)化并沒有提高機(jī)器人執(zhí)行新動(dòng)作的能力，智能體知識(shí)學(xué)會(huì)了以新的方式部署學(xué)習(xí)到的技能。同時(shí)，由于高頻控制的設(shè)置應(yīng)用場景，實(shí)時(shí)推斷可能成為主要瓶頸。未來工作的方向主要集中于如何通過新的數(shù)據(jù)收集范式（如人類視頻）獲得新技能，同時(shí)開發(fā)出更多的開元模型以支撐高速率和低成本的運(yùn)作。MimicGen是一個(gè)用于大規(guī)模機(jī)器人學(xué)習(xí)的數(shù)據(jù)生成系統(tǒng)，目的是解決機(jī)器人學(xué)習(xí)過程中人工數(shù)據(jù)收集成本高、時(shí)間耗費(fèi)大的問題。當(dāng)前基于模仿學(xué)習(xí)的機(jī)器人研究依賴大量的人工演示數(shù)據(jù)來訓(xùn)練模型，但這些數(shù)據(jù)的收集非常昂貴。MimicGen提出了從少量人類演示數(shù)據(jù)中自動(dòng)生成大規(guī)模、多樣化的演示數(shù)據(jù)集的系統(tǒng)。該系統(tǒng)通過將人類演示數(shù)據(jù)適應(yīng)于新場景，生成多達(dá)50,000條演示數(shù)據(jù)，覆蓋18項(xiàng)任務(wù)，從而顯著降低了人工數(shù)據(jù)收集的需求。這一方法能夠加速機(jī)器人學(xué)習(xí)的進(jìn)展，使得機(jī)器人能夠在復(fù)雜場景中表現(xiàn)出本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告12更強(qiáng)的泛化能力，尤其是在長時(shí)間任務(wù)和高精度任務(wù)（如多部件裝配、咖啡準(zhǔn)備）中表現(xiàn)出色。研究結(jié)果表明，利用MimicGen生成的數(shù)據(jù)進(jìn)行模仿學(xué)習(xí)能夠取得與傳統(tǒng)人工數(shù)據(jù)收集相媲美的效果。圖10：MimicGen從原始人類演示數(shù)據(jù)到生成的廣泛數(shù)據(jù)集的過程MimicGen的設(shè)計(jì)來源于模仿學(xué)習(xí)與數(shù)據(jù)增強(qiáng)兩個(gè)技術(shù)背景。模仿學(xué)習(xí)是一種通過觀察人類示范來訓(xùn)練機(jī)器人的方法。MimicGen利用這一理念，通過生成多樣化的示范來擴(kuò)展模仿學(xué)習(xí)的應(yīng)用范圍。數(shù)據(jù)增強(qiáng)技術(shù)被廣泛應(yīng)用于提高模型的泛化能力。通過對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行變換或修改來生成新訓(xùn)練樣本的技術(shù)，旨在提高模型的泛化能力和魯棒性。常見的數(shù)據(jù)增強(qiáng)方法包括旋轉(zhuǎn)、縮放、平移等，這些變換可以在不改變數(shù)據(jù)標(biāo)簽的情況下生成新的樣本。MimicGen的核心方法是數(shù)據(jù)分割與重組。將少量人類演示數(shù)據(jù)分割成以物體為中心的子任務(wù)，然后在新的場景中通過空間變換和軌跡生成，自動(dòng)生成新的演示數(shù)據(jù)。傳統(tǒng)方法中，數(shù)據(jù)生成通?；陟o態(tài)場景的回放，或通過復(fù)雜的模擬器進(jìn)行大量數(shù)據(jù)收集。而MimicGen的創(chuàng)新點(diǎn)在于，它提出了一種簡單但有效的策略，通過“對(duì)象中心片段”的變換和拼接，將少量的人類演示數(shù)據(jù)轉(zhuǎn)化為大規(guī)模的多樣化數(shù)據(jù)。這種方法可以直接融入現(xiàn)有的模仿學(xué)習(xí)管道中，適用于各種長時(shí)間、高精度的任務(wù)，并且能夠生成比單純回放方法更加多樣和有效的數(shù)據(jù)。本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告13圖11：MimicGen數(shù)據(jù)分割與重組示意圖通過對(duì)比使用MimicGen生成的數(shù)據(jù)集與傳統(tǒng)人類示范數(shù)據(jù)集的結(jié)果可以得出，機(jī)器人在使用MimicGen生成的數(shù)據(jù)集后成功率顯著上升。研究團(tuán)隊(duì)通過對(duì)MimicGen的實(shí)驗(yàn)，評(píng)估了其在不同任務(wù)中的表現(xiàn)，具體測驗(yàn)任務(wù)主要包括StackThree（堆疊三個(gè)物體）、Square（方形物體插入和對(duì)齊）、Threading（機(jī)器人在穿線或穿孔時(shí)的精細(xì)操作能力）、Kitchen（長時(shí)間多步驟任務(wù)）等十項(xiàng)。圖12：MimicGen主要測試任務(wù)結(jié)果顯示使用MimicGen后機(jī)器人成功率顯著提升，例如“Square”任務(wù)的本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告14圖13：MimicGen主要測試任務(wù)結(jié)果MimicGen在機(jī)器人系統(tǒng)（尤其是機(jī)械臂）中的應(yīng)用潛力巨大。通過利用少量人類演示（少于200個(gè)MimicGen可自動(dòng)生成超過50,000個(gè)覆蓋18種任務(wù)的高質(zhì)量數(shù)據(jù)，有效減少人工干預(yù)，提升生產(chǎn)效率。其靈活性使其能夠適應(yīng)不同機(jī)器人硬件和復(fù)雜操作環(huán)境，為工業(yè)自動(dòng)化、醫(yī)療和服務(wù)機(jī)器人等領(lǐng)域提供廣泛的應(yīng)用前景。MimicGen的核心優(yōu)勢包括：顯著提升任務(wù)表現(xiàn)、良好的廣泛適應(yīng)性、跨物體和硬件適用性、適用于復(fù)雜移動(dòng)操作任務(wù)、模擬器無關(guān)，精度表現(xiàn)卓越、支持非專家演示。圖14：MimicGen操作機(jī)械臂完成毫米級(jí)精度接觸任務(wù)示意圖MimicGen依賴于任務(wù)開始時(shí)已知的對(duì)象位姿和操作步驟，這在完全未知或動(dòng)態(tài)環(huán)境中存在局限性。此外，僅通過任務(wù)成功與否來篩選生成數(shù)據(jù)，可能導(dǎo)致數(shù)據(jù)集存在偏差，影響模型泛化能力。其應(yīng)用場景主要限于準(zhǔn)靜態(tài)任務(wù)，并假設(shè)新對(duì)本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告15象與已有對(duì)象同類，限制了其在動(dòng)態(tài)環(huán)境和異構(gòu)對(duì)象上的推廣能力。未來研究應(yīng)進(jìn)一步提升系統(tǒng)對(duì)復(fù)雜場景的理解和分割能力，減少對(duì)人類參與的依賴。擴(kuò)展MimicGen在更多物體類別、機(jī)器人硬件和任務(wù)類型中的應(yīng)用能力。圖15：MimicGen能夠適應(yīng)不同的機(jī)械臂在機(jī)器人領(lǐng)域，如何大規(guī)模利用異構(gòu)機(jī)器人數(shù)據(jù)仍然是機(jī)器人領(lǐng)域的難題，大多數(shù)現(xiàn)實(shí)中的機(jī)器人學(xué)習(xí)研究集中于一次開發(fā)一個(gè)任務(wù)的智體。在機(jī)器人技術(shù)領(lǐng)域，近期研究專注于通過訓(xùn)練有語言條件的Transformer策略來解決具有相同觀測和動(dòng)作空間的多個(gè)簡單、視覺多樣化的任務(wù)，從而彌合大型預(yù)訓(xùn)練語言模型和視覺基礎(chǔ)操作之間的差距。Google曾經(jīng)提出RobotTransformer，采集了移動(dòng)機(jī)器人完成日常任務(wù)的軌跡片段，構(gòu)成了真實(shí)移動(dòng)機(jī)器人的專家數(shù)據(jù)集，包含了700多個(gè)任務(wù)，如移動(dòng)物體、拉開抽屜、開罐子等，學(xué)習(xí)到的策略在新的任務(wù)指令上有一定的泛化能力。圖16：RT數(shù)據(jù)收集和評(píng)估場景本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告16RoboCat在Gato模型的基礎(chǔ)上進(jìn)行了改進(jìn)，是一項(xiàng)受視覺和語言基礎(chǔ)模型最新進(jìn)展啟發(fā)而提出的自我改進(jìn)型多任務(wù)、多具身通才智能體。RoboCat使用了跨實(shí)體、跨任務(wù)的具身模仿學(xué)習(xí)框架，在VQ-GAN對(duì)視覺輸入詞元化之后，使用標(biāo)準(zhǔn)的DT回歸損失根據(jù)歷史的狀態(tài)、觀測、目標(biāo)信息對(duì)未來的智能體動(dòng)作和觀測進(jìn)行預(yù)測。同時(shí)，RoboCat不斷提升智能體的能力。在新任務(wù)上，RoboCat僅需100～1000個(gè)示教樣本就能完成快速策略泛化。通過RoboCat，Google能成功展示其在新任務(wù)和不同機(jī)器人平臺(tái)上的泛化能力，以及通過后續(xù)迭代利用大模型輔助具身智能數(shù)據(jù)生成，從而為構(gòu)建一個(gè)自主改進(jìn)循環(huán)提供基本的構(gòu)建板塊。隨著訓(xùn)練數(shù)據(jù)的增長和多樣化，RoboCat不僅表現(xiàn)出了跨任務(wù)遷移的跡象，也能更有效地適應(yīng)新任務(wù)。圖17：RoboCat支持多種機(jī)器人具身和控制模式RoboCat的最終目標(biāo)是創(chuàng)建一個(gè)能夠通過大量機(jī)器人情景經(jīng)驗(yàn)進(jìn)行訓(xùn)練的基礎(chǔ)智能體，使其能夠通過微調(diào)快速適應(yīng)廣泛的新下游任務(wù)。為了實(shí)現(xiàn)這一目標(biāo)，RoboCat擁有一個(gè)非常豐富的多樣化操控行為數(shù)據(jù)集并在此基礎(chǔ)上進(jìn)行訓(xùn)練。RoboCat基于Gato架構(gòu)，使用在廣泛圖像集上預(yù)訓(xùn)練過的VQ-GAN編碼器（Esser,2021在涵蓋多個(gè)領(lǐng)域和具身的廣泛數(shù)據(jù)集上進(jìn)行訓(xùn)練，通過視覺目標(biāo)條件來指定任務(wù)。這種編碼器的選擇使得訓(xùn)練和迭代更加快速，這種訓(xùn)練方式也具有理想的自動(dòng)事后目標(biāo)生成屬性，即軌跡中的任何圖像都可以被標(biāo)記為所有導(dǎo)致它的所有時(shí)間步驟的有效“后見目標(biāo)”（Andrychowicz,2017）。這意味著現(xiàn)有數(shù)據(jù)中的后見目標(biāo)可以在沒有額外人為監(jiān)督的情況下提取。此外，視覺目標(biāo)提供了一個(gè)直觀的界面，用于指示機(jī)器人應(yīng)該執(zhí)行什么任務(wù)。本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告17圖18：目標(biāo)圖像示例：圖1、2為虛擬環(huán)境，圖3-8為現(xiàn)實(shí)世界RoboCat能進(jìn)行自我微調(diào)和迭代。首先智能體將在初始使用多樣化的訓(xùn)練集進(jìn)行訓(xùn)練，可以通過100-1000次演示微調(diào)以適應(yīng)新任務(wù)，然后部署在真實(shí)機(jī)器人上，生成更多數(shù)據(jù)。其次，將生成軌跡添加進(jìn)入下一次迭代的訓(xùn)練數(shù)據(jù)集中，從而提高跨任務(wù)的性能。RoboCat的自我改進(jìn)過程如圖所示：主要以架構(gòu)和預(yù)訓(xùn)練、微調(diào)和自我改進(jìn)、真實(shí)世界部署作為全流程。圖19：RoboCat自我改進(jìn)進(jìn)程未來機(jī)器人的研究工作將著眼于更靈活的多模態(tài)任務(wù)規(guī)劃。首先是將現(xiàn)有的公開可獲取的數(shù)據(jù)集與注釋語言相結(jié)合，以語言為媒介的任務(wù)規(guī)劃和視覺目標(biāo)相輔相成，得以實(shí)現(xiàn)對(duì)不同任務(wù)的更精準(zhǔn)定位。此外，盡管當(dāng)前研究主要關(guān)注視覺目標(biāo)條件反射以及基于視覺-前饋模型（VFM）的基線研究，但仍在圖像推理方面表現(xiàn)出色；同時(shí)，語言條件反射和LLM/VLM基線研究可能提供更好的時(shí)間推理能行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告183特斯拉FSD：端到端算法成為研究主流，數(shù)據(jù)集成為關(guān)鍵FSD全稱FullSelf-Driving（完全自動(dòng)駕駛），是特斯拉研發(fā)的自動(dòng)化輔助駕駛系統(tǒng)，目標(biāo)是實(shí)現(xiàn)L5級(jí)別的自動(dòng)駕駛。圖20：FSDV12（Supervised）虛擬界面顯示圖21：自動(dòng)駕駛的六個(gè)等級(jí)資料來源：九章智駕，民生證券研究院FSDV12（Supervised）是全新的“端到端自動(dòng)駕駛”，模型架構(gòu)發(fā)生了重大變化。據(jù)特斯拉CEO埃隆·馬斯克表示，特斯拉FSDV12（Supervised）需要人工干預(yù)的頻率只有FSDV11的百分之一。FSDV12（Supervised）完全采用神經(jīng)網(wǎng)絡(luò)進(jìn)行車輛控制，從機(jī)器視覺到驅(qū)動(dòng)決策都將由神經(jīng)網(wǎng)絡(luò)進(jìn)行控制。該神經(jīng)網(wǎng)絡(luò)由數(shù)百萬個(gè)視頻片段訓(xùn)練而成，取代了超過30萬行的C++代碼。FSDV12（Supervised）減少了車機(jī)系統(tǒng)對(duì)代碼的依賴，使其更加接近人類司機(jī)的決策過根據(jù)特斯拉發(fā)布2024Q2的自動(dòng)駕駛報(bào)告，自動(dòng)駕駛大幅減少事故率：開啟Autopilot的情況下，平均每行駛1107.2萬公里(688萬英里)會(huì)發(fā)生一起事故，而未開啟平均每行駛233.3萬公里(145萬英里)會(huì)發(fā)生一起事故。本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告19圖22：FSD和V12累計(jì)行駛里程圖23：每發(fā)生一次事故行駛的英里數(shù)早期特斯拉自動(dòng)駕駛采用外部合作方式，合作廠商包括Mobileye和英偉達(dá)等。在2019年特斯拉步入自研時(shí)代，首次推出自研自動(dòng)駕駛芯片HW3.0。HW3.0采用特斯拉全棧自研的FSD芯片。2020年10月，特斯拉小范圍推送FSDBeta，對(duì)Autopilot基礎(chǔ)架構(gòu)進(jìn)行了重大重寫。2021年7月，特斯拉開始推送FSDBetaV9，該版本采用純視覺自動(dòng)駕駛方案，摒棄了傳統(tǒng)的毫米波雷達(dá)和超聲波雷達(dá)，是特斯拉在自動(dòng)駕駛技術(shù)的重要發(fā)展節(jié)點(diǎn)。圖24：特斯拉自動(dòng)駕駛主要發(fā)展歷程資料來源：汽車財(cái)經(jīng)，IT之家，易車網(wǎng)，中國新聞周刊，新浪網(wǎng)，民生證券研究院2024年1月，特斯拉FSDV12正式向用戶推送，將城市街道駕駛堆棧升級(jí)為端到端神經(jīng)網(wǎng)絡(luò)。2024年2月，特斯拉ModelY迎來HW4.0自動(dòng)輔助駕駛硬件升級(jí)，與HW3.0相比，HW4.0算力提升5倍，在硬件設(shè)計(jì)上實(shí)現(xiàn)并行處理能力增強(qiáng)、內(nèi)存管理優(yōu)化和專用加速器集成等多項(xiàng)創(chuàng)新。從最初的輔助駕駛系統(tǒng)，到全棧自研自動(dòng)駕駛技術(shù)，特斯拉持續(xù)引領(lǐng)智能駕駛技術(shù)發(fā)展浪潮。行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告20復(fù)盤FSD歷史，最重大的架構(gòu)變革莫過于2020年引入Transformer模型（基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)），算法得以從重人工、規(guī)則驅(qū)動(dòng)，轉(zhuǎn)向重AI，數(shù)據(jù)驅(qū)動(dòng)。FSD主要分為感知和規(guī)劃模塊，在兩個(gè)模塊中都運(yùn)用到了Transformer模型，神經(jīng)網(wǎng)絡(luò)的介入使得端到端模型逐步實(shí)現(xiàn)。2022年特斯拉FSD感知模塊即形成了BEV+Transformer+Occupancy神經(jīng)網(wǎng)絡(luò)架構(gòu)。通過攝像頭的圖片輸入，端到端輸出汽車周圍環(huán)境向量空間數(shù)據(jù)，為規(guī)劃模塊決策提供支持。特斯拉FSD規(guī)劃模塊在2021年引入基于神經(jīng)網(wǎng)絡(luò)的規(guī)劃模塊和蒙特卡洛樹搜索，最終FSD規(guī)劃模塊由基于顯性規(guī)則的規(guī)劃模塊和基于神經(jīng)網(wǎng)絡(luò)的規(guī)劃模塊構(gòu)成。圖25：FSD感知規(guī)劃控制總體架構(gòu)HydraNets是特斯拉開發(fā)的一種深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)。這個(gè)網(wǎng)絡(luò)的特點(diǎn)在于它能夠?qū)⒍鄠€(gè)任務(wù)集成到一個(gè)網(wǎng)絡(luò)中，例如車道線檢測、行人檢測與追蹤、交通信號(hào)燈檢測等，這些任務(wù)對(duì)于自動(dòng)駕駛汽車來說至關(guān)重要。HydraNets的核心在于其共享的主干網(wǎng)絡(luò)，該主干網(wǎng)絡(luò)通過分支成多個(gè)“頭”，可以同時(shí)輸出多個(gè)預(yù)測張量，每個(gè)“頭”負(fù)責(zé)不同的任務(wù)或?qū)ο箢悇e。此外，這種架構(gòu)的優(yōu)勢在于其能夠有效地利用可用的計(jì)算資源，并且通過端到端的訓(xùn)練和推斷，提高了處理不同視覺信息的效率。HydraNets能夠?qū)碜远鄠€(gè)攝像頭的視覺內(nèi)容轉(zhuǎn)換為向量空間和道路特征，這對(duì)于構(gòu)建車輛周圍的綜合視圖至關(guān)重要。行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告21圖26：HydraNets網(wǎng)絡(luò)架構(gòu)圖27：視覺Transformer模型架構(gòu)Dojo是特斯拉公司開發(fā)的一套高性能計(jì)算系統(tǒng)，用于處理和訓(xùn)練自動(dòng)駕駛系統(tǒng)產(chǎn)生的海量數(shù)據(jù)。ProjectDOJO的負(fù)責(zé)人GaneshVenkataramanan表示，DOJO是一種通過網(wǎng)絡(luò)連接的分布式計(jì)算機(jī)架構(gòu)，它具有高帶寬、低延時(shí)等特點(diǎn)，將會(huì)使人工智能擁有更高速的學(xué)習(xí)能力，從而使Autopilot更加強(qiáng)大。圖28：Dojo內(nèi)核示例FSDV12為首個(gè)端到端自動(dòng)駕駛系統(tǒng)，實(shí)現(xiàn)感知決策一體化。特斯拉FSDv12采用端到端大模型，消除了自動(dòng)駕駛系統(tǒng)的感知和定位、決策和規(guī)劃、控制和執(zhí)行之間的斷面，將三大模塊合在一起，形成了一個(gè)大的神經(jīng)網(wǎng)絡(luò)，直接從原始傳感器數(shù)據(jù)到車輛操控指令，簡化了信息傳遞過程，因而減少了延遲和誤差，提高了系統(tǒng)的敏捷性和準(zhǔn)確性。FSDV12能夠模擬人類駕駛決策，成為自動(dòng)駕駛領(lǐng)域全新發(fā)行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告22展路徑。FSDV12也被稱為“BabyAGI（嬰兒版通用人工智能）”，旨在感知和理解現(xiàn)實(shí)世界的復(fù)雜性。圖29：BabyAGI架構(gòu)行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告234端到端算法成為研究主流，數(shù)據(jù)集成為關(guān)鍵模塊化自動(dòng)駕駛分為傳感器數(shù)據(jù)輸入、感知模塊、定位模塊、規(guī)劃模塊和控制指令輸出五部分。而端到端算法則通過單一神經(jīng)網(wǎng)絡(luò)直接連接傳感器數(shù)據(jù)輸入與控制指令輸出。與傳統(tǒng)的模塊化自動(dòng)駕駛相比，端到端自動(dòng)駕駛神經(jīng)網(wǎng)絡(luò)逐漸接管了系統(tǒng)的各個(gè)部分，其架構(gòu)設(shè)計(jì)簡單，減少中間數(shù)據(jù)降維的成本，同時(shí)減小誤差以達(dá)到全局最優(yōu)。端到端的優(yōu)勢在數(shù)據(jù)量達(dá)到一定程度后性能顯著提高，但是缺點(diǎn)是數(shù)據(jù)量較小時(shí)候性能上升緩慢，遠(yuǎn)低于解耦的傳統(tǒng)基于專家模型的策略。圖30：端到端算法與模塊化系統(tǒng)框架對(duì)比資料來源：PranavSinghChib《RecentAdvancementsinEnd-to-EndAutonomousDrivingusingDeepLear圖31：端到端模型與基于規(guī)則模型表現(xiàn)曲線對(duì)比端到端算法實(shí)現(xiàn)自動(dòng)駕駛有兩種主要方法：通過強(qiáng)化學(xué)習(xí)探索和改進(jìn)駕駛模型、使用模仿學(xué)習(xí)以監(jiān)督的方式訓(xùn)練它模仿人類駕駛行為。強(qiáng)化學(xué)習(xí)的工作原理是通過與環(huán)境的相互作用，隨著時(shí)間的推移最大化累積獎(jiǎng)勵(lì)，網(wǎng)絡(luò)根據(jù)自己的行為做出驅(qū)動(dòng)決策，以獲得獎(jiǎng)勵(lì)或懲罰。它在利用數(shù)據(jù)方面的效率較低。而模仿學(xué)習(xí)是在專家演示中學(xué)習(xí)駕駛風(fēng)格，因此需要大量的實(shí)際駕駛場景來作為模型的訓(xùn)練樣例，數(shù)據(jù)集的規(guī)模與多樣性成為關(guān)鍵問題。本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告24圖32：模仿學(xué)習(xí)框架示例資料來源：PranavSinghChib《RecentAdvancementsinEnd-to-EndAutonomousDrivingusingDeepLear圖33：強(qiáng)化學(xué)習(xí)框架示例AutonomousDrivingusingDeepLear在傳統(tǒng)的決策規(guī)劃框架中，研發(fā)人員會(huì)根據(jù)不同的ODD定義好規(guī)則，面對(duì)特定場景時(shí)找到對(duì)應(yīng)的規(guī)則，然后調(diào)用相應(yīng)的規(guī)劃器生成控制軌跡。這種架構(gòu)需要事先寫好大量的規(guī)則，故稱為“重決策方案”。重決策方案較易實(shí)現(xiàn)，在簡單場景下也堪稱高效，但在需要拓展ODD、或把不同的ODD連接起來時(shí)，就需要大量的手寫規(guī)則來查缺補(bǔ)漏，從而實(shí)現(xiàn)更連續(xù)的智駕體驗(yàn)。當(dāng)遇到未學(xué)習(xí)過的場景，即cornercase時(shí)，系統(tǒng)會(huì)表現(xiàn)得不夠智能甚或無法應(yīng)對(duì)。端到端是通過對(duì)場景的理解進(jìn)行判斷，比如環(huán)境車輛動(dòng)態(tài)、車道線、交通燈、轉(zhuǎn)向燈燈，通過多維度的元素，甚至是人類沒有意識(shí)到的要素進(jìn)行綜合分析，判斷意圖，所以其理解的天花板更高。圖34：城市中加塞場景，基于規(guī)則模型很難處理資料來源：長城汽車測試城市NOA自行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告25傳統(tǒng)智駕通過橫向策略和縱向策略進(jìn)行車輛的行為控制，基于確定的規(guī)則和精確的控制參數(shù)，導(dǎo)致車輛動(dòng)作機(jī)械化，要做到擬人駕駛需要開展大量工作，定義控車曲線和匹配場景。端到端的本質(zhì)是學(xué)習(xí)，所以其可以模仿人類駕駛汽車的行為，直接輸出包括方向盤轉(zhuǎn)角、方向盤轉(zhuǎn)速、油門踏板開度、制動(dòng)踏板開度等，從而實(shí)現(xiàn)接近人類駕駛的習(xí)慣進(jìn)行任務(wù)的過程控制。圖35：端到端感知-決策模型示例傳統(tǒng)“分而治之”的模塊化架構(gòu)，可能圄于局部最優(yōu)解而難以達(dá)到全局最優(yōu)。由于每個(gè)任務(wù)相對(duì)獨(dú)立，人工標(biāo)注使數(shù)據(jù)的針對(duì)性強(qiáng)，監(jiān)督學(xué)習(xí)使模型訓(xùn)練的信號(hào)強(qiáng)，因此AI模型能迅速提升性能，有利于快速實(shí)現(xiàn)一個(gè)完整的產(chǎn)品。但在到達(dá)“局部最優(yōu)解”之后，這些模型難以進(jìn)一步提升，且串在一起之后形成累積誤差，不利于追求全局最優(yōu)解。與傳統(tǒng)的模塊化自動(dòng)駕駛系統(tǒng)相比，端到端自動(dòng)駕駛系統(tǒng)設(shè)計(jì)難度低，硬件成本較小，并且通過多樣性的數(shù)據(jù)，能夠獲得在不同場景下的泛用性。所以從算法架構(gòu)設(shè)計(jì)的角度，其具有高度的整合度和一體化，省去了多個(gè)模塊的獨(dú)立架構(gòu)設(shè)計(jì)和算法開發(fā)，降低代碼量和運(yùn)行所調(diào)度的模塊數(shù)量。另一方面，由于模型直接從原始數(shù)據(jù)中學(xué)習(xí)，而不需要依賴于人工設(shè)計(jì)的特征或規(guī)則，所以刪去了枯燥的標(biāo)注工作。最重要的還有一點(diǎn)就是省去了后期無窮盡的規(guī)則補(bǔ)充和場景補(bǔ)充，從而減少了人工維護(hù)和升級(jí)的成本。行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告26圖36：誤差依次反向傳播給所有模塊達(dá)到全局最優(yōu)資料來源：LiChen《End-to-endAutonomousDriving:Ch自動(dòng)駕駛端到端算法代表了一種數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)范式，這種范式同樣適用于機(jī)器人領(lǐng)域。通過大量的數(shù)據(jù)訓(xùn)練，模型能夠?qū)W習(xí)到復(fù)雜的駕駛或操作行為，從而實(shí)現(xiàn)高度的智能化。自動(dòng)駕駛系統(tǒng)在道路上收集的數(shù)據(jù)，以及通過仿真和合成數(shù)據(jù)技術(shù)獲取的數(shù)據(jù)，都可以為人形機(jī)器人的訓(xùn)練提供有力支持。圖37：基于規(guī)則驅(qū)動(dòng)資料來源：csdn，民生證券研究院圖38：基于數(shù)據(jù)驅(qū)動(dòng)資料來源：csdn，民生證券研究院完全端到端算法采用“Bev（鳥瞰視角）+Transformer（預(yù)訓(xùn)練）+Teacher-student（知識(shí)蒸餾）”方式實(shí)現(xiàn)力位的雙控，典型代表是特斯拉的Optimus人形機(jī)器人，根據(jù)上文所述，特斯拉人形機(jī)器人采用了相同的算法架構(gòu)。端到端算法從汽車自動(dòng)駕駛遷移至人形機(jī)器人幾乎不需要做太多額外工作，車本身就是一種機(jī)器人。早期的特斯拉Optimus機(jī)器人使用了與汽車完全相同的計(jì)算機(jī)和攝像頭，通過讓汽車的神經(jīng)網(wǎng)絡(luò)在機(jī)器人上運(yùn)行，它在辦公室里走動(dòng)時(shí)仍試圖識(shí)別“可駕駛空間”，而實(shí)際上它應(yīng)該識(shí)別的是“可行走空間”。這種通用化能力表明了很多技術(shù)是可以遷移的，雖然需要一些微調(diào)，但大部分系統(tǒng)和工具都是行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告27圖39：特斯拉optimus機(jī)器人避障行走端到端算法是自動(dòng)駕駛擬人化行為實(shí)現(xiàn)的關(guān)鍵。它采用整體化的神經(jīng)網(wǎng)絡(luò)，將感知、預(yù)測和規(guī)劃等任務(wù)整合到一個(gè)模型中。通過輸入感知信息（如攝像頭、雷達(dá)等傳感器數(shù)據(jù)模型能夠直接輸出軌跡或控制信號(hào)，實(shí)現(xiàn)類似人類的駕駛行為。自動(dòng)駕駛端到端算法能夠?qū)W習(xí)到人類駕駛的擬人化行為，如平滑的轉(zhuǎn)向、加速和減這種擬人化行為在人形機(jī)器人上同樣重要，可以提升機(jī)器人的交互能力和用戶體驗(yàn)。通過遷移自動(dòng)駕駛的擬人化算法范式，人形機(jī)器人可以更加自然地與人類進(jìn)行交互，如理解人類手勢、面部表情等。端到端算法需要大量連續(xù)時(shí)序的駕駛行為視頻進(jìn)行標(biāo)注，這種數(shù)據(jù)收集、標(biāo)注及閉環(huán)驗(yàn)證的過程在人形機(jī)器人上同樣困難。人形機(jī)器人需要面對(duì)更加復(fù)雜的環(huán)境和任務(wù)，因此數(shù)據(jù)收集的難度和成本都更高。同時(shí)，由于人形機(jī)器人的操作具有更高的風(fēng)險(xiǎn)性，因此數(shù)據(jù)標(biāo)注的準(zhǔn)確性也要求更高。人形機(jī)器人需要大量實(shí)際人類真實(shí)的數(shù)據(jù)集給機(jī)器人進(jìn)行訓(xùn)練。動(dòng)作捕捉技術(shù)和VR遠(yuǎn)程操作是實(shí)現(xiàn)人形機(jī)器人擬人化動(dòng)作數(shù)據(jù)采集的有效途徑。動(dòng)作捕捉技術(shù)通過在人體關(guān)鍵部位貼上反光標(biāo)記點(diǎn)或使用慣性傳感器等方式，捕捉人體的運(yùn)動(dòng)姿態(tài)和動(dòng)作數(shù)據(jù)。VR遠(yuǎn)程操控技術(shù)是人類戴著VR眼鏡和手行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告28套，通過遠(yuǎn)程操作的方式來采集機(jī)器人數(shù)據(jù)。這些數(shù)據(jù)可以被用于訓(xùn)練人形機(jī)器人的動(dòng)作模型，使其能夠模擬出類似人類的動(dòng)作和行為。圖40：動(dòng)作捕捉技術(shù)采集數(shù)據(jù)圖41：VR遠(yuǎn)程操控采集數(shù)據(jù)資料來源：特斯拉，民生證券研究院由于擴(kuò)展法則（ScalingLaw）的存在，機(jī)器人的數(shù)據(jù)集大小決定了其性能的好壞，真實(shí)數(shù)據(jù)的采集消耗較大的人力物力成本，合成數(shù)據(jù)僅依賴AI算法實(shí)現(xiàn)數(shù)據(jù)生成，數(shù)據(jù)采集快并且成本低廉。同時(shí)人形機(jī)器人面臨著場景復(fù)雜性與模型泛化能力的問題，合成數(shù)據(jù)構(gòu)建的世界模型就起到了很大的作用。自動(dòng)駕駛場景相對(duì)結(jié)構(gòu)化，主要操作在可預(yù)測和規(guī)范化的環(huán)境中。而人形機(jī)器人需要應(yīng)用于多樣的場景，如工廠、家庭、辦公室等，對(duì)泛化能力的要求遠(yuǎn)高于自動(dòng)駕駛汽車?；谑澜缒Ｐ蜕筛哔|(zhì)量的動(dòng)作視頻和規(guī)劃策略，在仿真環(huán)境中模擬各種復(fù)雜場景，就能夠提升系統(tǒng)的魯棒性。合成數(shù)據(jù)生成的關(guān)鍵問題是保持?jǐn)?shù)據(jù)集的熵和多樣性，避免生成的數(shù)據(jù)與真實(shí)數(shù)據(jù)差距過大或者樣式單一。圖42：未來合成數(shù)據(jù)的使用資料來源：Gartner，民生證券研究院行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告294.4.3關(guān)鍵問題三：模型的可解釋性現(xiàn)有感知決策一體化模型缺乏可解釋性，這一問題在人形機(jī)器人上同樣存在。由于人形機(jī)器人需要與人類進(jìn)行交互，因此模型的可解釋性對(duì)于提升用戶的信任度和接受度至關(guān)重要。曾是特斯拉自動(dòng)駕駛項(xiàng)目負(fù)責(zé)人的AndrejKarpathy指出，互聯(lián)網(wǎng)數(shù)據(jù)確實(shí)是曾經(jīng)用來訓(xùn)練模型的主要來源，但它并不是最理想的數(shù)據(jù)。現(xiàn)在真正需要的是大腦內(nèi)部的思維軌跡、解決問題時(shí)的思維過程，如果能有數(shù)十億條這樣的數(shù)據(jù)，那么AGI就基本實(shí)現(xiàn)了。然而，目前還沒有這樣的數(shù)據(jù)。因此，當(dāng)前的活動(dòng)很多都集中在如何將數(shù)據(jù)集重構(gòu)為這些內(nèi)部思維軌跡的形式，同時(shí)大量依賴合成數(shù)據(jù)生成來填補(bǔ)這一空白。2024年3月28日xAI發(fā)布了Grok-1.5模型。Grok-1.5的核心在于使用“思維鏈”語言。這種語言幫助汽車分解復(fù)雜的場景，利用規(guī)則和反事實(shí)進(jìn)行推理，并解釋其決定。這種創(chuàng)新性的方法將自動(dòng)駕駛的“像素到行動(dòng)”映射提升到“像素到語言到行動(dòng)”的新模式。通過特斯拉自有的數(shù)據(jù)管道大規(guī)模標(biāo)注高質(zhì)量的“人工解釋痕跡”，Grok-1.5可以超越現(xiàn)有的語言模型，在復(fù)雜場景下進(jìn)行更加細(xì)致入微的多模態(tài)推理。這不僅有助于解決自動(dòng)駕駛的“邊緣情況”，還可以使系統(tǒng)的決策更加透明和可信。圖43：Grok1.5模型參數(shù)對(duì)比資料來源：特斯拉官網(wǎng)，民生證券研究院模擬思維鏈思考過程包括三步：場景分解、規(guī)則和反事實(shí)推理、決策解釋。場景分解：當(dāng)特斯拉車輛搭載Grok-1.5V模型時(shí)，模型會(huì)首先通過攝像頭等傳感器收集周圍環(huán)境的信息，并將這些信息轉(zhuǎn)化為數(shù)字信號(hào)。然后，模型會(huì)使用思維鏈語言對(duì)復(fù)雜的駕駛場景進(jìn)行分解，將其拆分成多個(gè)簡單的子場景或任務(wù)。規(guī)則和反事實(shí)推理：在分解場景后，Grok-1.5V會(huì)利用預(yù)先學(xué)習(xí)的規(guī)則和反事行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告30實(shí)進(jìn)行推理。這些規(guī)則可能包括交通規(guī)則、道路標(biāo)志的含義、車輛動(dòng)力學(xué)原理等。反事實(shí)推理則是指模型會(huì)考慮如果采取某種行動(dòng)，可能會(huì)發(fā)生什么結(jié)果，并據(jù)此做決策解釋：與傳統(tǒng)的自動(dòng)駕駛系統(tǒng)不同，Grok-1.5V不僅能夠做出決策，還能夠解釋其決策過程。模型會(huì)將思維鏈語言中的推理步驟轉(zhuǎn)化為人類可理解的語言或圖像，以便駕駛員或相關(guān)人員了解系統(tǒng)的決策依據(jù)。行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告315英偉達(dá)Robocasa：具體智能關(guān)鍵節(jié)點(diǎn)，首次論證real-sim-real隨著人工智能（AI）的快速發(fā)展，機(jī)器人領(lǐng)域因缺乏大規(guī)模機(jī)器人數(shù)據(jù)集而受到限制。之前的一些研究嘗試創(chuàng)建大規(guī)模，多樣化的數(shù)據(jù)集來訓(xùn)練通用機(jī)器人模型，但這些數(shù)據(jù)集在泛化能力上仍存在差距，此外，現(xiàn)有的模擬框架在場景、任務(wù)和資產(chǎn)多樣性方面存在不足，且大多數(shù)框架沒有結(jié)合生成式AI工具。英偉達(dá)提出了RoboCasa，這是一個(gè)用于訓(xùn)練通用機(jī)器人的大型模擬框架，專注于現(xiàn)實(shí)生活環(huán)境，尤其是廚房環(huán)境，Robocasa數(shù)據(jù)集提供了超過150個(gè)對(duì)象類別的數(shù)千個(gè)3D資產(chǎn)以及數(shù)十種可交互的家具和電器，它通過現(xiàn)實(shí)物理模擬來擴(kuò)展環(huán)境、任務(wù)和數(shù)據(jù)集，以促進(jìn)機(jī)器人學(xué)習(xí)方法的擴(kuò)展。目的是為了解決如何通過模擬環(huán)境來擴(kuò)展機(jī)器人學(xué)習(xí)方法的規(guī)模，特別是針對(duì)通用機(jī)器人在日常環(huán)境中的訓(xùn)練的問題。實(shí)驗(yàn)結(jié)果表明：在使用生成的機(jī)器人數(shù)據(jù)進(jìn)行大規(guī)模模仿學(xué)習(xí)方面有著顯著的效果提升，在現(xiàn)實(shí)世界任務(wù)中利用模擬數(shù)據(jù)來提升實(shí)際效果方面顯示出巨大的前景。Robocasa有以下特點(diǎn)：1）多樣化資產(chǎn)：在生成性AI工具的幫助下創(chuàng)建120個(gè)廚房場景和2500多個(gè)3D對(duì)象，比如從文本到三維模型的對(duì)象資產(chǎn)，以及從文本到圖像模型的環(huán)境紋理；2）跨化身支持：支持移動(dòng)機(jī)械手和仿人機(jī)器人；3）多樣化的任務(wù)：在大型語言模型（LLM)的指導(dǎo)下創(chuàng)建任務(wù)；4）大規(guī)模訓(xùn)練數(shù)據(jù)集：有超過100,000條軌跡。Robocasa的模擬框架中包含5個(gè)方面內(nèi)容：對(duì)象和硬件平臺(tái)，繼承了幾個(gè)核心組件，包括環(huán)境模型格式和機(jī)器人控制器，延續(xù)了RoboSuite框架模塊化、快速、方便的特性，為了支持空間尺度環(huán)境，團(tuán)隊(duì)還擴(kuò)展了RoboSuite以適應(yīng)移動(dòng)操縱器，包括安裝在輪式基座上的機(jī)器人、人形機(jī)器人和帶臂的四足機(jī)器人。2）廚房場景：團(tuán)隊(duì)根據(jù)標(biāo)準(zhǔn)尺寸和空間規(guī)格對(duì)世界各種風(fēng)格的廚房進(jìn)行建模，并將其與一個(gè)大型的可交互的家具和應(yīng)用程序、櫥柜、爐子、微波爐、咖啡壺等倉庫相匹配，構(gòu)建模擬使用的廚房場景，并使用高質(zhì)量的AI生成紋理來增加視覺多樣性，這些紋理可以用作現(xiàn)實(shí)領(lǐng)域隨機(jī)化的一種形式，以顯著增加訓(xùn)練數(shù)據(jù)集的視覺多樣性。行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告32圖44：Robocasa模型使用的廚房場景3）資產(chǎn)庫：Robocasa創(chuàng)建了一個(gè)包含2509個(gè)高質(zhì)量資產(chǎn)的庫，涵蓋153個(gè)不同的類別。這些資產(chǎn)包括家具、電器和其他廚房用品，大部分由luma.ai生4)任務(wù)集：該模擬包含100個(gè)系統(tǒng)臨時(shí)評(píng)估的任務(wù)，前25個(gè)是基礎(chǔ)原子任務(wù)（如抓取和放置、開關(guān)門等），另外75個(gè)是在大型語言模型（LLMs)，尤其是GPT-4o的指導(dǎo)下生成的復(fù)合任務(wù)。如圖44所示，英偉達(dá)研究團(tuán)隊(duì)使用LLM來概括不同的任務(wù)。首先，提示GPT-4提供不同的高級(jí)廚房活動(dòng)，例如煮咖啡或洗碗等,團(tuán)隊(duì)共編制了20個(gè)任務(wù)清單;隨后，對(duì)于每個(gè)活動(dòng)，提示GPT-4（或Gemini1.5）提出一組不同的表征任務(wù),包括：任務(wù)、目標(biāo)、對(duì)象、家具、技能等。例如烹飪或清潔。5)數(shù)據(jù)集：為了增加數(shù)據(jù)集，團(tuán)隊(duì)擴(kuò)展了MimicGen，為原子任務(wù)生成100K額外的軌跡。使用數(shù)據(jù)生成工具來擴(kuò)展數(shù)據(jù)量、利用自動(dòng)軌跡生成方法來收集大規(guī)模演示數(shù)據(jù)集。一個(gè)由四名人類操作員組成的團(tuán)隊(duì)使用3D為每個(gè)原子任務(wù)收集了50個(gè)高質(zhì)量的演示集，每個(gè)任務(wù)演示都是在一個(gè)隨機(jī)的廚房場景中收集的（隨機(jī)的廚房平面圖、隨機(jī)的廚房風(fēng)格和隨機(jī)的ai生成紋理）。這就通過人工遠(yuǎn)程操作（1250個(gè)演示）產(chǎn)生了大型和多樣化的模擬數(shù)據(jù)集。然而，即使是這個(gè)規(guī)模的人類數(shù)據(jù)也不足以解決大多數(shù)任務(wù)。MimicGen先于Robocasa出現(xiàn)，團(tuán)隊(duì)選擇使用數(shù)據(jù)生成工具M(jìn)imicGen來擴(kuò)展數(shù)據(jù)量，MimicGen可以從人類演示的種子集中自動(dòng)合成豐富的數(shù)據(jù)集。核心一代首先將每個(gè)人類演示分解為一個(gè)以對(duì)象為中心的操作片段。然后，對(duì)于一個(gè)新場景，它根據(jù)相關(guān)任務(wù)的當(dāng)前姿態(tài)轉(zhuǎn)換為每一個(gè)以對(duì)象為中心的片段，并將片段縫合在一起，讓機(jī)器人按照新的軌跡收集新的任務(wù)演示。MimicGen需要一些關(guān)于模擬的基本假設(shè)：任務(wù)具有以對(duì)象為中心的子任務(wù)序列的一致性。而由八種核心技能組成的原子任務(wù)，所有與某一技能對(duì)應(yīng)的任務(wù)都具有相同或相似的以對(duì)象為中心的子任務(wù)序列，其主要區(qū)別來自于引用對(duì)象的身份。因此，指定子任務(wù)序列較容易實(shí)現(xiàn)。此外，提供給MimicGen的每個(gè)行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告33人類演示還必須用與每個(gè)以對(duì)象為中心的子任務(wù)對(duì)應(yīng)的分段進(jìn)行注釋。這可以通過檢測每個(gè)子任務(wù)結(jié)束的自動(dòng)化度量來實(shí)現(xiàn)。Robocasa與其他流行的模擬框架相比，進(jìn)步如下：1)Robocasa支持移動(dòng)操作，而非僅限于桌面操作；2）具有逼真的渲染、大量的任務(wù)、房間比例和對(duì)象；3）Robocasa支持端口室縮放，其他模型僅支持在房間中較小部分進(jìn)行移動(dòng)操作等。Robocasa是唯一一個(gè)支持大量任務(wù)、房間規(guī)模的場景和物體的框架，同時(shí)結(jié)合了人工智能生成的任務(wù)和資產(chǎn)任務(wù)確保場景和任務(wù)可能無限多樣性。此外，Robocasa提供了大規(guī)模的任務(wù)演示數(shù)據(jù)集以及MimicGen系統(tǒng)，并提供了在大型任務(wù)集合中通過模仿學(xué)習(xí)訓(xùn)練的代理的全面分析。各種場景、任務(wù)和資產(chǎn)與RoboCasa提供的廣泛數(shù)據(jù)集相結(jié)合，將滿足機(jī)器人學(xué)習(xí)社區(qū)中任何其他模擬都沒有解決的關(guān)鍵要求。在實(shí)驗(yàn)中，團(tuán)隊(duì)主要探討了以下問題：1)在學(xué)習(xí)多任務(wù)策略時(shí)，機(jī)器生成的軌跡有多有效？2)隨著訓(xùn)練數(shù)據(jù)集規(guī)模的增加，模擬學(xué)習(xí)策略規(guī)模的泛化性能將如何提高？3)大規(guī)模模擬數(shù)據(jù)集促進(jìn)知識(shí)轉(zhuǎn)移到下游任務(wù)，并促進(jìn)現(xiàn)實(shí)世界任務(wù)的政策學(xué)習(xí)？Robocasa共涉及了原子任務(wù)、復(fù)合任務(wù)和真實(shí)世界實(shí)驗(yàn)三個(gè)場景。在對(duì)原子能任務(wù)的模擬學(xué)習(xí)中，團(tuán)隊(duì)設(shè)計(jì)了25個(gè)原子任務(wù)，涵蓋八種基礎(chǔ)技能（如抓取和放置，開關(guān)門等）,通過人類操作和MinicGen生成數(shù)據(jù)集，分別訓(xùn)練多任務(wù)策略，并評(píng)估其在不同數(shù)據(jù)集上的表現(xiàn)。在人類數(shù)據(jù)上，整體成功率為20.8%，在使用全部生成的數(shù)據(jù)集上，成功率顯著提升至47,6%，從使用機(jī)器生成數(shù)據(jù)中觀察到調(diào)整趨勢：隨著生成數(shù)據(jù)數(shù)量的增加，模型性能穩(wěn)步提高，說明未來數(shù)據(jù)生成工具使模型能夠以相對(duì)較低的成本學(xué)習(xí)更多的性能代理。圖45：Robocasa使用GPT-4生成不同任務(wù)的模型流程在對(duì)復(fù)合任務(wù)的模擬學(xué)習(xí)中發(fā)現(xiàn)，選了五個(gè)代表性的復(fù)合任務(wù)（如放蔬菜，解凍食物等）,分別采用從頭開始學(xué)習(xí)和微調(diào)預(yù)訓(xùn)練策略進(jìn)行實(shí)驗(yàn)，每個(gè)任務(wù)收集50本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告34個(gè)人類演示，井使用MimcGen生成的數(shù)據(jù)進(jìn)行微調(diào)，微調(diào)后的模型在質(zhì)量上表現(xiàn)更好，策略架構(gòu)、學(xué)習(xí)算法和微調(diào)策略的進(jìn)步可能在性能方面發(fā)揮關(guān)鍵作用。圖46：人工演示和機(jī)器生成的數(shù)據(jù)集之間的比較結(jié)果將模擬轉(zhuǎn)移到真實(shí)世界的環(huán)境中，比較了僅在真實(shí)數(shù)據(jù)（Realonly）和模擬數(shù)據(jù)（Real+Sim）上共同訓(xùn)練的策略表現(xiàn)，并根據(jù)相應(yīng)的感覺運(yùn)動(dòng)技能對(duì)任務(wù)結(jié)果進(jìn)行分組，包括三個(gè)任務(wù)(如從柜臺(tái)到水槽的抓取和放置)，對(duì)于每個(gè)任務(wù)，Robocasa團(tuán)隊(duì)收集了50個(gè)演示，每個(gè)演示都超過5個(gè)不同的對(duì)象類別。團(tuán)隊(duì)為每個(gè)任務(wù)訓(xùn)練一個(gè)策略，并比較Realonly和Real+Sim兩種設(shè)置。同時(shí)，團(tuán)隊(duì)研究了3種任務(wù)的平均政策成功率（平均值和標(biāo)準(zhǔn)數(shù)據(jù)偏差，百分比并評(píng)估了5個(gè)可見的對(duì)象類別和3個(gè)不可見的對(duì)象類別（在現(xiàn)實(shí)世界的演示中看不到）。結(jié)果表明，在某些對(duì)象上，在真實(shí)數(shù)據(jù)上訓(xùn)練的策略在已知對(duì)象上的平均成功率為13.6%,而在真實(shí)數(shù)據(jù)和模擬數(shù)據(jù)上共同訓(xùn)練的平均成功率為24.4%，最高提高了79%，說明模擬器的豐富多樣性以及視覺和物理真實(shí)性顯著改善了模擬效果。圖47：Realonly和Real+Sim下不同對(duì)象訓(xùn)練成功率評(píng)估行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告35英偉達(dá)提出了Robocasa，一個(gè)用于訓(xùn)練通用機(jī)器人的大規(guī)模模擬框架，Robocasa結(jié)合了生或式AI工具，創(chuàng)建了多樣化，真實(shí)的廚房場景和任務(wù)，并通過大規(guī)模數(shù)據(jù)集提高了機(jī)器人在真實(shí)世界任務(wù)中的表現(xiàn)，實(shí)驗(yàn)結(jié)果表明，合成數(shù)據(jù)在模擬環(huán)境中學(xué)習(xí)機(jī)器人的策略是有效的，并且可以顯著促進(jìn)知識(shí)遷移到下游任務(wù)和真實(shí)世界任務(wù)中。但實(shí)驗(yàn)表明，復(fù)合任務(wù)的微調(diào)產(chǎn)生了低性能，未來可以研究更強(qiáng)大的策略架構(gòu)和學(xué)習(xí)算法，并提高機(jī)器基因比率和數(shù)據(jù)集的質(zhì)量；使用LLM創(chuàng)建任務(wù)的過程仍然需要人工指導(dǎo)來編寫相關(guān)注釋，未來隨著LLM成為模型生成體，使用LLM提出數(shù)千個(gè)新的場景和任務(wù)并編寫代碼，以最小的語言來實(shí)現(xiàn)這些場景和任務(wù)將成為可能。此外，目前的模擬僅限于廚房環(huán)境中，未來可以拓展到該環(huán)境和任務(wù)之外。行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告366機(jī)器人real-sim-real可行，邁向真正的AGI智能化空間和時(shí)間約束表示方法，提供了三任務(wù)閉環(huán)如何制將機(jī)器人操控任務(wù)表示為關(guān)聯(lián)機(jī)器人和環(huán)境的約束條件，使它們既適用于多樣化任務(wù)，又無需手動(dòng)標(biāo)記，還能被現(xiàn)成的求解器實(shí)時(shí)優(yōu)化以產(chǎn)生機(jī)器人動(dòng)作，是一個(gè)亟待解決的問題。李飛飛團(tuán)隊(duì)Rekep項(xiàng)目提出了關(guān)系關(guān)鍵點(diǎn)約束（ReKep這是一種針對(duì)機(jī)器人操控約束的視覺基礎(chǔ)表示方法。ReKep用Python函數(shù)表示，將一組3D關(guān)鍵點(diǎn)映射到數(shù)值成本上。Rekep展示了通過將操控任務(wù)表示為一系列關(guān)系關(guān)鍵點(diǎn)約束，可以采用層次化優(yōu)化過程來求解機(jī)器人動(dòng)作（由一系列末端執(zhí)行器姿態(tài)SE(3)表示），并實(shí)現(xiàn)實(shí)時(shí)頻率的感知-動(dòng)作循環(huán)。此外，為了避免為每項(xiàng)新任務(wù)手動(dòng)指定ReKep，團(tuán)隊(duì)設(shè)計(jì)了一個(gè)自動(dòng)化流程，利用大型視覺模型和視覺-語言模型從自由形式的語言指令和RGB-D觀測中產(chǎn)生ReKep（RelationalKeypointConstraints）。機(jī)器人操控涉及與環(huán)境中的物體進(jìn)行復(fù)雜的交互，這些交互通?？梢员硎緸榭臻g和時(shí)間域中的約束。例如，將茶倒入杯中的任務(wù)，機(jī)器人必須在手柄處抓握，在運(yùn)輸過程中保持杯子直立，對(duì)準(zhǔn)壺嘴與目標(biāo)容器，然后傾斜杯子以正確角度倒茶。這些約束不僅編碼了中間子目標(biāo)（例如，對(duì)準(zhǔn)壺嘴還編碼了過渡行為（例如，在運(yùn)輸過程中保持杯子直立共同決定了機(jī)器人動(dòng)作在與環(huán)境的關(guān)系中的空間、時(shí)機(jī)和其他組合要求。然而，有效地為現(xiàn)實(shí)世界的大量任務(wù)制定這些約束條件將面臨重大的挑戰(zhàn)。雖然使用直接和廣泛使用的方法來表示相對(duì)姿態(tài)之間的約束，但剛體變換不能描述幾何細(xì)節(jié)，需要先驗(yàn)獲得對(duì)象模型，并且不能在變形對(duì)象上工作。另一方面，數(shù)據(jù)驅(qū)動(dòng)的方法可以直接在視覺空間中實(shí)現(xiàn)學(xué)習(xí)約束。雖然很靈活，但隨著對(duì)象和任務(wù)的約束數(shù)量組合增加，如何有效地收集訓(xùn)練數(shù)據(jù)仍不清楚。為解決無操作的約束，李飛飛團(tuán)隊(duì)提出了關(guān)系關(guān)鍵點(diǎn)約束（ReKep該方法就是將任務(wù)表示成一個(gè)關(guān)系關(guān)鍵點(diǎn)序列。并且，這套框架還能很好地與GPT-4o等多模態(tài)大模型很好地整合。1）關(guān)系關(guān)鍵點(diǎn)約束理論的核心思想原理核心實(shí)現(xiàn)方式是：對(duì)于每個(gè)階段i，該優(yōu)化問題的目標(biāo)是：基于給定的ReKep行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明證券研究報(bào)告37約束集和輔助成本，找到一個(gè)末端執(zhí)行器姿勢作為下一個(gè)子目標(biāo)（及其相關(guān)時(shí)間以及實(shí)現(xiàn)該子目標(biāo)的姿勢序列，該公式可被視為軌跡優(yōu)化中的directshooting。例如，下圖的杯子任務(wù)可分為三個(gè)步驟：①步驟一：機(jī)器人抓住手柄并在搬運(yùn)杯子時(shí)保持直立，避免茶水灑出。該過程中，子目標(biāo)約束是將末端執(zhí)行器伸向茶壺把手。此時(shí)Rekep限制茶壺手把的抓取位置（藍(lán)色），②步驟二：將茶壺口與杯子口對(duì)齊，該過程中子目標(biāo)約束是讓茶壺口位于杯口上方，路徑約束是保持茶壺直立，避免茶水酒出，ReKep將茶壺噴口（紅色）拉到杯開口的頂部（綠色）。③步驟三：使茶壺到達(dá)傾斜的角度，并將茶壺中的水倒出。該過程目標(biāo)約束是到達(dá)指定的倒茶角度。ReKep通過關(guān)聯(lián)手柄（藍(lán)色）和噴口形成的矢量（紅色）來限制茶壺的方向。該過程中約束編碼了中間子目標(biāo)（對(duì)齊嘴），也編碼了轉(zhuǎn)換行為（在運(yùn)輸中保持杯子直立這些共同決定了機(jī)器人動(dòng)作與環(huán)境相關(guān)的空間、時(shí)間和其他組合要求。這就將多過程的任務(wù)分解為多個(gè)目標(biāo)和約束條件，通過優(yōu)化求解輸出并實(shí)現(xiàn)機(jī)器人的行為。圖48：關(guān)系關(guān)鍵點(diǎn)約束（Rekep)將不同的操作行為指定為在語義關(guān)鍵點(diǎn)上操作的約束功能的時(shí)空約束序列研究院圖49：Rekep構(gòu)建一組子目標(biāo)約束和一組路徑約束研究院使用ReKep，可將機(jī)器人操作任務(wù)轉(zhuǎn)換成一個(gè)涉及子目標(biāo)和路徑的約束優(yōu)化問題。一個(gè)操作任務(wù)通常涉及多個(gè)空間關(guān)系，并且可能具有多個(gè)與時(shí)間有關(guān)的階段，其中每個(gè)階段都需要不同的空間關(guān)系，Rekep將一個(gè)任務(wù)分解成N個(gè)階段并使用ReKep為每個(gè)階段i∈{1,...,N}指定兩類約束：子目標(biāo)約束和路徑約束。其中子目標(biāo)約束編碼了階段i結(jié)束時(shí)要實(shí)現(xiàn)的一個(gè)關(guān)鍵點(diǎn)關(guān)系，而路徑約束編碼了階段i內(nèi)每個(gè)狀態(tài)要滿足的一個(gè)關(guān)鍵點(diǎn)關(guān)系?，F(xiàn)實(shí)環(huán)境復(fù)雜多變，有時(shí)候在任務(wù)進(jìn)行過程中，上一階段的子目標(biāo)約束可能不再成立（比如倒茶時(shí)茶杯被拿走了），這時(shí)候需要重新規(guī)劃。該團(tuán)隊(duì)的做法是檢查路徑是否出現(xiàn)問題。如果發(fā)現(xiàn)問題，就迭代式地回溯到前一階段Rekep的關(guān)鍵特（1）多模態(tài)輸入處理：ReKep能夠處理RGB-D圖像和自由形式的語言指令，利用大型視覺模型（如DINOv2）和視覺-語言模型（如GPT-4o）來識(shí)別場景中行業(yè)深度研究/機(jī)械本公司具備證券投資咨詢業(yè)務(wù)資格，請(qǐng)務(wù)必閱讀最后一頁免責(zé)聲明

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

星海系列：人形機(jī)器人與AI大模型之Robot+AI的Transformer之旅

文檔簡介

溫馨提示

最新文檔

評(píng)論

星海系列：人形機(jī)器人與AI大模型之Robot+AI的Transformer之旅

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔