版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
出品機(jī)構(gòu):甲子光年智庫(kù)智庫(kù)院長(zhǎng):宋濤報(bào)告撰寫(xiě):翟惠宇發(fā)布時(shí)間:2025年1月2具身智能指具備物理載體的智能體,強(qiáng)調(diào)智能體與物理環(huán)境的交互。“具身智能(EmbodiedAI)”指有物理載體的智能體,在與物理世界的交互過(guò)程中,通過(guò)感知、控制和自主學(xué)習(xí)來(lái)積累知識(shí)和技能,形成智能并影響物理世界的能力。其關(guān)鍵在于“具身認(rèn)知”,即該智能是通過(guò)身體和環(huán)境的交互過(guò)程中產(chǎn)生的,不能脫離實(shí)體,這是具身智能與離身智能的關(guān)鍵區(qū)別。具身智能主要以各種智能機(jī)器人的形態(tài)出現(xiàn),融合了機(jī)器人領(lǐng)域與計(jì)算機(jī)領(lǐng)域下的多個(gè)學(xué)科,是所有學(xué)科發(fā)展到相當(dāng)成熟度之后才涌現(xiàn)出的能力。監(jiān)督者力力以機(jī)器為主導(dǎo)以人類為主導(dǎo)以機(jī)器為主導(dǎo)33多因素驅(qū)動(dòng)我國(guó)成為具身智能技術(shù)發(fā)展與應(yīng)用的沃土。具身智能機(jī)器人是我國(guó)發(fā)展新質(zhì)生產(chǎn)力的未來(lái)產(chǎn)業(yè)新賽道,集成了AI、先進(jìn)制造、新材料等先進(jìn)技術(shù),將對(duì)社會(huì)產(chǎn)業(yè)變革和全球競(jìng)爭(zhēng)格局產(chǎn)生顛覆無(wú)處不在的應(yīng)用潛力預(yù)示著龐大的市場(chǎng)需求、國(guó)家與地方長(zhǎng)期的政策規(guī)劃支持、核心零部件供應(yīng)鏈完善形成集群效應(yīng)、以及健康良好的人才和創(chuàng)業(yè)生態(tài),多方面因素推動(dòng)我國(guó)成為具身智能技術(shù)發(fā)展的沃土。當(dāng)前,國(guó)內(nèi)的高校院所、科技大廠、初創(chuàng)企業(yè)均在布局以AI大模型和人形機(jī)器人為代表的前沿領(lǐng)域,我國(guó)在具身智能領(lǐng)域已經(jīng)走在國(guó)際前列。圖:我國(guó)在具身智能技術(shù)與應(yīng)用已經(jīng)走在國(guó)際前列市場(chǎng)需求極為龐大長(zhǎng)期國(guó)地政策支持市場(chǎng)需求極為龐大長(zhǎng)期國(guó)地政策支持產(chǎn)業(yè)集群效應(yīng)顯著人才和創(chuàng)業(yè)生態(tài)良好豐富的應(yīng)用場(chǎng)景44政策持續(xù)加碼,具身智能與人形機(jī)器人正走進(jìn)科技發(fā)展的舞臺(tái)中央。各國(guó)均將以人形機(jī)器人為代表的具身智能上升到國(guó)家戰(zhàn)略,通過(guò)跟進(jìn)完善制度建設(shè)、提供資金補(bǔ)貼等方式推動(dòng)技術(shù)發(fā)展。國(guó)內(nèi)相關(guān)政策主要圍繞加快具身智能機(jī)器人重點(diǎn)場(chǎng)景應(yīng)用、加強(qiáng)行業(yè)標(biāo)準(zhǔn)規(guī)范建設(shè)、設(shè)立專項(xiàng)財(cái)政與基金支持、加速人才引進(jìn)與技術(shù)培育等方面,通過(guò)政策推動(dòng),在短期實(shí)現(xiàn)核心零部件的技術(shù)突破,在長(zhǎng)期建設(shè)豐富產(chǎn)業(yè)應(yīng)用和生態(tài)。圖:具身智能/人形機(jī)器人相關(guān)政策不斷出臺(tái),多維度支持新技術(shù)落地主要內(nèi)容Source:各政府網(wǎng)站,甲子光年智庫(kù)。具身智能具備新質(zhì)生產(chǎn)力的關(guān)鍵內(nèi)涵,是推動(dòng)新質(zhì)生產(chǎn)力建設(shè)的重要引擎。新質(zhì)生產(chǎn)力強(qiáng)調(diào)在科技創(chuàng)新的基礎(chǔ)上大幅提升生產(chǎn)效率和創(chuàng)新能力,而具身智能技術(shù)作為人工智能和機(jī)器人技術(shù)的融合發(fā)展前沿,天然具備形成新質(zhì)生產(chǎn)力的關(guān)鍵內(nèi)涵,是推動(dòng)新質(zhì)生產(chǎn)力發(fā)展的重要引擎。具身智能技術(shù)契合著解決未來(lái)社會(huì)矛盾的剛性需求,有望解決如工場(chǎng)勞動(dòng)力短缺、社會(huì)老齡化等問(wèn)題,把人類勞工不愿從事的枯燥、高危勞動(dòng)中解放出來(lái),并進(jìn)一步推動(dòng)全社會(huì)生產(chǎn)關(guān)系的改變與重塑。關(guān)注具身智能技術(shù)的發(fā)展對(duì)于我國(guó)實(shí)體經(jīng)濟(jì)高質(zhì)量增長(zhǎng)和國(guó)際產(chǎn)業(yè)競(jìng)爭(zhēng)格局有著重大意義。圖:具身智能技術(shù)是推動(dòng)新質(zhì)生產(chǎn)力發(fā)展的重要引擎?具身智能是信息科學(xué)、智能科學(xué)、機(jī)械科學(xué)和電子科學(xué)等多學(xué)科交叉的領(lǐng)域?具身智能將AIAgent和機(jī)器人兩者結(jié)合,極大推動(dòng)了智能大腦、機(jī)器人及智能終端的進(jìn)化與高效能高科技 高質(zhì)量全要素生產(chǎn)率大幅提升創(chuàng)新傳統(tǒng)經(jīng)濟(jì)增長(zhǎng)方式傳統(tǒng)生產(chǎn)力發(fā)展路徑技術(shù)革命性突破先進(jìn)生產(chǎn)力生產(chǎn)要素創(chuàng)新性配置?具身智能是信息科學(xué)、智能科學(xué)、機(jī)械科學(xué)和電子科學(xué)等多學(xué)科交叉的領(lǐng)域?具身智能將AIAgent和機(jī)器人兩者結(jié)合,極大推動(dòng)了智能大腦、機(jī)器人及智能終端的進(jìn)化與高效能高科技 高質(zhì)量全要素生產(chǎn)率大幅提升創(chuàng)新傳統(tǒng)經(jīng)濟(jì)增長(zhǎng)方式傳統(tǒng)生產(chǎn)力發(fā)展路徑技術(shù)革命性突破先進(jìn)生產(chǎn)力生產(chǎn)要素創(chuàng)新性配置產(chǎn)業(yè)深度轉(zhuǎn)型升級(jí)?具身智能具備通過(guò)物理載體直接影響產(chǎn)業(yè)深度轉(zhuǎn)型升級(jí)?具身智能具備通過(guò)物理載體直接影響世界的能力,有望改變和重塑生產(chǎn)關(guān)系,極大提高生產(chǎn)效率 推動(dòng)產(chǎn)業(yè)鏈供應(yīng)鏈優(yōu)化升級(jí)積極培育新型產(chǎn)業(yè)和未來(lái)產(chǎn)業(yè)深入推進(jìn)數(shù)字經(jīng)濟(jì)創(chuàng)新發(fā)展智能化技術(shù)將進(jìn)一步放大機(jī)器人對(duì)工業(yè)領(lǐng)域人類勞動(dòng)力的替代作用。全球工業(yè)機(jī)器人整體仍然保持增長(zhǎng)態(tài)勢(shì),其中中國(guó)工業(yè)機(jī)器人安裝量一枝獨(dú)秀,2023年安裝量高達(dá)27.6萬(wàn)臺(tái),占全球安裝總量的51%。人工智能與機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步,將進(jìn)一步放大機(jī)器人對(duì)人類勞動(dòng)力的替代作用,在靈活、柔性、非標(biāo)的層面展現(xiàn)更大的應(yīng)用價(jià)值。與此同時(shí),來(lái)自國(guó)產(chǎn)品牌的工業(yè)機(jī)器人供應(yīng)商也得到了快速發(fā)展,本土供應(yīng)商已經(jīng)近乎占領(lǐng)一半的國(guó)內(nèi)市場(chǎng)。人工智能與機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步,將進(jìn)一步放大機(jī)器人對(duì)人類勞動(dòng)力的替代作用,在靈活、柔性、非標(biāo)的層面展現(xiàn)更大的應(yīng)用價(jià)值。圖:全球vs中國(guó)工業(yè)機(jī)器人安裝量圖:全球vs中國(guó)工業(yè)機(jī)器人安裝量(單位:千臺(tái))中國(guó)工業(yè)機(jī)器人市場(chǎng)占比?中國(guó)是工業(yè)機(jī)器人領(lǐng)域的全球最大市場(chǎng)?本土制造商在國(guó)內(nèi)市場(chǎng)份額快速提升?供給側(cè)改革穩(wěn)步推進(jìn),高端制造業(yè)快速國(guó)內(nèi)工業(yè)機(jī)器人市場(chǎng)規(guī)模有望持續(xù)提升?隨著具身智能技術(shù)的加持,機(jī)器人的自主決策能力將快速提升,能夠適應(yīng)更復(fù)?中國(guó)是工業(yè)機(jī)器人領(lǐng)域的全球最大市場(chǎng)?本土制造商在國(guó)內(nèi)市場(chǎng)份額快速提升?供給側(cè)改革穩(wěn)步推進(jìn),高端制造業(yè)快速國(guó)內(nèi)工業(yè)機(jī)器人市場(chǎng)規(guī)模有望持續(xù)提升?隨著具身智能技術(shù)的加持,機(jī)器人的自主決策能力將快速提升,能夠適應(yīng)更復(fù)雜、更多變的任務(wù)77人工智能發(fā)展線:從理性主義到深度學(xué)習(xí)在機(jī)器人領(lǐng)域的應(yīng)用上,生成式AI技術(shù)正在兌現(xiàn)提升機(jī)器人關(guān)鍵能力的潛力,在環(huán)境感知、自主決策、學(xué)習(xí)與適應(yīng)等多個(gè)方面均有表現(xiàn)。基于網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練的大模型似乎正在觸及AI認(rèn)知的邊界,ScalingLaw下的預(yù)訓(xùn)練大模型性能似乎快要達(dá)到極限,參數(shù)量和數(shù)據(jù)量的擴(kuò)充已經(jīng)難以給模型帶來(lái)質(zhì)的突破。AI想要進(jìn)一步發(fā)展,必須與物理世界建立更加緊密的聯(lián)系,具身智能將是AI繼續(xù)向AGI進(jìn)步的關(guān)鍵途徑。圖:人工智能技術(shù)發(fā)展線圍繞“離身智能”具身智能圍繞“離身智能”具身智能深度學(xué)習(xí)突破與AGI展望(2010s-至今)?AlexNet和ImageNet在CV領(lǐng)域取得成功深度學(xué)習(xí)突破與AGI展望(2010s-至今)?AlexNet和ImageNet在CV領(lǐng)域取得成功?BERT等預(yù)訓(xùn)練語(yǔ)言模型出現(xiàn),理能力大幅提升展現(xiàn)出強(qiáng)大的理解、推理和創(chuàng)造能力連接主義復(fù)興與機(jī)器學(xué)習(xí)(1980s-2010s)?連接主義復(fù)興與機(jī)器學(xué)習(xí)(1980s-2010s)?IBM“深藍(lán)”擊敗國(guó)際象棋世界冠軍?機(jī)器學(xué)習(xí)方法開(kāi)始流行,關(guān)注從數(shù)據(jù)中學(xué)習(xí)模式,在圖像識(shí)別、文本分類等領(lǐng)域得到重要進(jìn)展符號(hào)主義與專家系統(tǒng)(1950s-1980s)?Newell&Simon:通用問(wèn)題求解器(GPS)符號(hào)主義與專家系統(tǒng)(1950s-1980s)?Newell&Simon:通用問(wèn)題求解器(GPS)?專家系統(tǒng)開(kāi)始興起,人工智能在特定領(lǐng)域成功模擬人類專家的知識(shí)和推理能力萌芽:圖靈測(cè)試88機(jī)器人發(fā)展線:從自動(dòng)化工具到直接影響物理世界的智能體從歷史的角度來(lái)看,工業(yè)機(jī)器人的硬件進(jìn)化不斷發(fā)展,從自動(dòng)化設(shè)備到移動(dòng)機(jī)器人,從協(xié)作機(jī)器人到人形機(jī)器人,每一步都代表著技術(shù)的進(jìn)步和創(chuàng)新。當(dāng)下,已經(jīng)進(jìn)入了AI大模型與機(jī)器人在底層技術(shù)創(chuàng)新和應(yīng)用融合的交叉時(shí)代。圖:機(jī)器人技術(shù)發(fā)展線具身智能智能機(jī)器人與協(xié)作機(jī)器人(2010s-至今)機(jī)器人、特種機(jī)器人等機(jī)器人類型接下來(lái)如何提升機(jī)器人在開(kāi)放場(chǎng)景的自動(dòng)化設(shè)備與工業(yè)機(jī)器人(?六軸關(guān)節(jié)機(jī)器人開(kāi)始活性不斷增強(qiáng)技術(shù)的每一次進(jìn)步都會(huì)帶來(lái)機(jī)器人應(yīng)用場(chǎng)景的突破,且一般會(huì)在精準(zhǔn)、重復(fù)的工業(yè)場(chǎng)景作業(yè)流程中率先得到應(yīng)用。未來(lái)圖:機(jī)器人技術(shù)發(fā)展線具身智能智能機(jī)器人與協(xié)作機(jī)器人(2010s-至今)機(jī)器人、特種機(jī)器人等機(jī)器人類型接下來(lái)如何提升機(jī)器人在開(kāi)放場(chǎng)景的自動(dòng)化設(shè)備與工業(yè)機(jī)器人(?六軸關(guān)節(jié)機(jī)器人開(kāi)始活性不斷增強(qiáng)傳感技術(shù)與移動(dòng)機(jī)器人(1980s-2000s)機(jī)器人開(kāi)始能夠感知外部環(huán)境?掃地機(jī)器人、倉(cāng)儲(chǔ)物流AMR開(kāi)始應(yīng)用,能在一定程度上自主規(guī)劃路徑和執(zhí)行任務(wù)個(gè)可編程機(jī)器人,標(biāo)志著并在汽車工廠投入使用普及,運(yùn)動(dòng)能力和靈具身智能:兩條發(fā)展線的匯聚點(diǎn),“AI的下一個(gè)浪潮是物理AI”具身智能智能的持續(xù)進(jìn)步需要與物理世界的交互能人工智能和機(jī)器人技術(shù)的發(fā)展并非孤立進(jìn)行,而是相互促進(jìn)、共同演進(jìn)的。人工智能為機(jī)器人賦予了“大腦”,使其具備感知、思考和決策能力;而機(jī)器人則為人工智能提供了“身體”,使其能夠與真實(shí)世界進(jìn)行交互,獲取經(jīng)驗(yàn)和知識(shí)。智能的持續(xù)進(jìn)步需要與物理世界的交互能具身智能的興起是人工智能和機(jī)器人技術(shù)各自發(fā)展到一定階段的必然結(jié)果,是兩者深度融合的體現(xiàn)。人工力,而機(jī)器人的未來(lái)發(fā)展也離不開(kāi)更高級(jí)別的智能化水平。圖:具身智能是AI與機(jī)器人兩條線的交匯?數(shù)據(jù)驅(qū)動(dòng)的智能提升??數(shù)據(jù)驅(qū)動(dòng)的智能提升?需要真實(shí)世界數(shù)據(jù)突破瓶頸?如何在復(fù)雜動(dòng)態(tài)環(huán)境但缺乏與環(huán)境互動(dòng)?如何在復(fù)雜動(dòng)態(tài)環(huán)境機(jī)器學(xué)習(xí)&深度學(xué)習(xí)人工智能發(fā)展線瓶頸AI需要“身體”去感知符號(hào)主義&專家系統(tǒng)機(jī)器人的“大腦”機(jī)器學(xué)習(xí)&深度學(xué)習(xí)人工智能發(fā)展線瓶頸AI需要“身體”去感知符號(hào)主義&專家系統(tǒng)?決策與執(zhí)行統(tǒng)一?決策與執(zhí)行統(tǒng)一 機(jī)器人需要更強(qiáng)“大腦”機(jī)器人發(fā)展線移動(dòng)與協(xié)作機(jī)械臂瓶頸AI的“身體”機(jī)器人需要更強(qiáng)“大腦”機(jī)器人發(fā)展線移動(dòng)與協(xié)作機(jī)械臂瓶頸AI?執(zhí)行預(yù)設(shè)任務(wù)的工具?缺乏自主性和靈活性?執(zhí)行預(yù)設(shè)任務(wù)的工具?缺乏自主性和靈活性?理解和決策能力受限?如何在復(fù)雜、未知環(huán)境中自主行動(dòng)?目錄目錄大模型與GenAI飛速發(fā)展,開(kāi)啟具身智能技術(shù)萌芽。隨著人工智能算法的發(fā)展,尤其是多模態(tài)大模型技術(shù)的突破性進(jìn)展,將顯著加速機(jī)器人產(chǎn)業(yè)的發(fā)展,提升機(jī)器人的智能水平,使得機(jī)器人能夠自主進(jìn)行判斷和識(shí)別,執(zhí)行復(fù)雜的多階段語(yǔ)義推理任務(wù)。不僅提高了機(jī)器人的泛化能力,也快速推動(dòng)了人形機(jī)器人通往量產(chǎn)的進(jìn)程。根據(jù)Gartner技術(shù)成熟度曲線,當(dāng)前的具身智能仍處于技術(shù)萌芽期,雖然受大模型技術(shù)的推動(dòng)成為科技產(chǎn)業(yè)的熱點(diǎn),但是初創(chuàng)公司技術(shù)和商業(yè)化路徑還沒(méi)有找到有效方案,在成本、技術(shù)等層面仍然需要攻堅(jiān)克難。圖2:具身智能尚處于技術(shù)發(fā)展的萌芽期 圖1:大模型與Agent技術(shù)是機(jī)器人產(chǎn)業(yè)突破臨界點(diǎn)的關(guān)鍵圖2:具身智能尚處于技術(shù)發(fā)展的萌芽期智能化產(chǎn)線自動(dòng)化產(chǎn)線自動(dòng)化 機(jī)器智能人工智能發(fā)展階段發(fā)展階段機(jī)器人智能化機(jī)器人智能化智能機(jī)器人表現(xiàn)的提升依賴于軟硬件多種技術(shù)的快速進(jìn)步與降本。以人形機(jī)器人為代表的具身智能機(jī)器人是鏈接虛擬數(shù)字世界和現(xiàn)實(shí)物理世界的最佳載體,是虛實(shí)融合的理想產(chǎn)物,其性能表現(xiàn)也高度依賴于軟件與硬件的全方位進(jìn)化。從基礎(chǔ)材料科學(xué)到人機(jī)交互技術(shù),從多模態(tài)感知大模型到高精度機(jī)器人運(yùn)動(dòng)控制算法,軟硬件多個(gè)層面的技術(shù)積累與快速進(jìn)步,讓具身智能在2023年后迅速讓世界看到其應(yīng)用潛力與應(yīng)用可行性。多模態(tài)感知&傳感器度等多種模態(tài)的感知融合,方能全面地感知?jiǎng)討B(tài)感知信息從低精度到高精度,從單模態(tài)到多模態(tài)具身智能的實(shí)現(xiàn)需要做到視覺(jué)、聽(tīng)覺(jué)、溫度、力多模態(tài)感知&傳感器度等多種模態(tài)的感知融合,方能全面地感知?jiǎng)討B(tài)感知信息從低精度到高精度,從單模態(tài)到多模態(tài)具身智能的實(shí)現(xiàn)需要做到視覺(jué)、聽(tīng)覺(jué)、溫度、力基于全面的環(huán)境感知與精準(zhǔn)任務(wù)理解做出決策最類似multi基于全面的環(huán)境感知與精準(zhǔn)任務(wù)理解做出決策最類似multi-agent技術(shù)發(fā)展趨勢(shì),智能機(jī)器人也需要實(shí)現(xiàn)單體智能到群體智能的進(jìn)化感知結(jié)果&任務(wù)理解大語(yǔ)言模型等單一模態(tài)模型,或圖文大模型等雙模態(tài)模型感知結(jié)果&任務(wù)理解大語(yǔ)言模型等單一模態(tài)模型,或圖文大模型等雙模態(tài)模型,并不能實(shí)際解決具身智能機(jī)器人需要實(shí)現(xiàn)的作業(yè)任務(wù)時(shí)的精準(zhǔn)時(shí)空融合感知大模型與行業(yè)know-how、業(yè)務(wù)系統(tǒng)也需要實(shí)現(xiàn)深度融合,以更好地讓機(jī)器人理解作業(yè)任務(wù)機(jī)器肢體&運(yùn)動(dòng)控制一方面基于材料科學(xué)的進(jìn)化,推動(dòng)核心零部件的性能與成本表現(xiàn)另一方面利用模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等方法,通過(guò)大數(shù)據(jù)集、合成數(shù)據(jù)等手段機(jī)器人控制算法的迭代仿真技術(shù)的進(jìn)步也為運(yùn)動(dòng)控制算法與機(jī)器人應(yīng)用開(kāi)發(fā)提供了一種有效手段多模態(tài)的感知數(shù)據(jù)需要多模態(tài)大模型進(jìn)行深度融多模態(tài)的感知數(shù)據(jù)需要多模態(tài)大模型進(jìn)行深度融具身智能產(chǎn)業(yè)鏈:軟硬件深度融合,復(fù)雜且充滿活力的生態(tài)系統(tǒng)軟件硬件硬件軟硬件集成軟件軟件分層模型or一體化端到端,機(jī)器人面臨與自動(dòng)駕駛一樣的選擇題。從“大腦-小腦-肢體”的架構(gòu)來(lái)看,分層模型通過(guò)不同層次模型協(xié)作,利用底層硬件層和中間響應(yīng)快的小模型彌補(bǔ)上層大語(yǔ)言模型的不足,推動(dòng)機(jī)器人在實(shí)際場(chǎng)景的應(yīng)用,并越來(lái)越多地采用基于學(xué)習(xí)的控制方法。VLA等端到端模型能夠直接實(shí)現(xiàn)從人類指令到機(jī)械臂執(zhí)行,即輸入圖像及文本指令,輸出夾爪末端動(dòng)作。分層式路線一度是主流選擇,因?yàn)槎说蕉寺肪€受數(shù)據(jù)制約難以達(dá)到性能要求;機(jī)器人數(shù)據(jù)正在逐步積累,端到端路線在未來(lái)可能成為主流。路線2:端到端模型路線,從目標(biāo)輸入到指令輸出策略代碼規(guī)劃路線1:分層模型路線,不同層級(jí)由多個(gè)神經(jīng)網(wǎng)絡(luò)分別訓(xùn)練優(yōu)化再聯(lián)合路線2:端到端模型路線,從目標(biāo)輸入到指令輸出策略代碼規(guī)劃高層級(jí):感知&規(guī)劃高層級(jí):感知&規(guī)劃基于規(guī)則的控制基于規(guī)則的控制模型預(yù)測(cè)控制模型預(yù)測(cè)控制低層級(jí):動(dòng)作控制低層級(jí):動(dòng)作控制?Input:圖像及文本指令?Output:輸出是夾爪末端動(dòng)作基于學(xué)習(xí)的控制預(yù)訓(xùn)練模型?直接端到端地實(shí)現(xiàn)從人類指令到機(jī)預(yù)訓(xùn)練模型通往One-Model端到端大模型是個(gè)循序漸進(jìn)的過(guò)程。數(shù)據(jù)規(guī)模、模型泛化性、響應(yīng)速率等問(wèn)題是當(dāng)前端到端具身大模型需要逐步攻克的弊端,需要在數(shù)據(jù)采集和模型訓(xùn)練上尋求新的突破方法。根據(jù)智元機(jī)器人定義的路線圖,當(dāng)前具身智能大腦已經(jīng)具備認(rèn)知、推理、規(guī)劃的能力,且而小腦層面機(jī)器人技能任務(wù)的訓(xùn)練也是通過(guò)深度學(xué)習(xí)以驅(qū)動(dòng)的。隨著場(chǎng)景、數(shù)據(jù)的增多,多個(gè)特定小模型會(huì)逐漸泛化為通用操作大模型,并最終實(shí)現(xiàn)與上層模型的融合。圖:具身智能的發(fā)展階段,從模塊化走向OneModel端到端當(dāng)前行業(yè)前沿所處的階段當(dāng)前行業(yè)前沿所處的階段AGI基礎(chǔ)自動(dòng)化通用原子技能AGI基礎(chǔ)自動(dòng)化通用原子技能端到端操作大模型端到端操作技能端到端操作大模型礎(chǔ)模型數(shù)據(jù)驅(qū)動(dòng)海量數(shù)據(jù)長(zhǎng)程數(shù)據(jù)任務(wù)編排認(rèn)知推理規(guī)劃大模型感知決策執(zhí)行端到端大模型人工編排基認(rèn)知推理規(guī)劃大模型礎(chǔ)模型數(shù)據(jù)驅(qū)動(dòng)海量數(shù)據(jù)長(zhǎng)程數(shù)據(jù)任務(wù)編排認(rèn)知推理規(guī)劃大模型感知決策執(zhí)行端到端大模型人工編排基認(rèn)知推理規(guī)劃大模型機(jī)械臂控制夾爪控制…放機(jī)械臂控制夾爪控制…放…遞通用操作大模型抓 采集方式不斷進(jìn)化,仿真數(shù)據(jù)有望驅(qū)動(dòng)機(jī)器人實(shí)現(xiàn)智能躍遷。當(dāng)前的具身智能是通過(guò)深度學(xué)習(xí)技術(shù)(模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等)從大量數(shù)據(jù)中學(xué)習(xí)并實(shí)現(xiàn)的,巨量的、優(yōu)質(zhì)的、多樣的數(shù)據(jù),是具身智能機(jī)器人能夠?qū)崿F(xiàn)各種各樣自主操作的基礎(chǔ)。數(shù)據(jù)采集方式呈現(xiàn)多元化,人工示教(遙操、動(dòng)捕)、機(jī)器人自主探索、仿真合成數(shù)據(jù)等方式各有優(yōu)劣,為具身智能訓(xùn)練數(shù)據(jù)集添磚加瓦。自動(dòng)駕駛的數(shù)據(jù)采集方式具備借鑒意義:在規(guī)?;渴鹨院螅瑱C(jī)器人在影子模式下自主探索,通過(guò)與環(huán)境互動(dòng)收集多元數(shù)據(jù),在云端形成數(shù)據(jù)閉環(huán),再反哺模型的調(diào)整與訓(xùn)練,這也是具身感知、學(xué)習(xí)的具體表現(xiàn)。訓(xùn)練具身智能的常見(jiàn)數(shù)據(jù)采集方法及優(yōu)劣勢(shì)方法優(yōu)勢(shì)劣勢(shì)??成本高、耗時(shí)長(zhǎng)??成本高、耗時(shí)長(zhǎng)直觀易懂、快速采集捕捉人類經(jīng)驗(yàn)?人工示教與軌跡記錄制機(jī)器人執(zhí)行任務(wù)人工示教與軌跡記錄??同時(shí)記錄機(jī)器人的關(guān)節(jié)角度、末端執(zhí)行器位姿、傳感器數(shù)據(jù)?????仿真環(huán)境本身難以構(gòu)建?物理現(xiàn)象難以模擬?低成本、高效率?生成的數(shù)據(jù)自帶標(biāo)注仿真環(huán)境生成數(shù)據(jù)大量的感知數(shù)據(jù)和動(dòng)作數(shù)據(jù)?可以控制環(huán)境的各種參數(shù),利用大模型的泛化性,生成各種各樣的數(shù)據(jù)??無(wú)需人工過(guò)多干預(yù)?能夠覆蓋更多場(chǎng)景??無(wú)需人工過(guò)多干預(yù)?能夠覆蓋更多場(chǎng)景?經(jīng)過(guò)不斷試錯(cuò)學(xué)習(xí)?數(shù)據(jù)質(zhì)量難題需要優(yōu)秀的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)需要很多實(shí)體在現(xiàn)實(shí)層面部署 機(jī)器人自主探索與交互??允許機(jī)器人在環(huán)境中自由探索,通過(guò)與 機(jī)器人自主探索與交互??真·具身感知:觀察其對(duì)環(huán)境和自身狀態(tài)的影響。?標(biāo)注質(zhì)量參差不齊預(yù)訓(xùn)練模型遷移學(xué)習(xí)表現(xiàn)不佳??解決自身采集的數(shù)據(jù)稀疏問(wèn)題??解決自身采集的數(shù)據(jù)稀疏問(wèn)題開(kāi)源數(shù)據(jù)集&預(yù)訓(xùn)練模型???或使用在其他任務(wù)上預(yù)訓(xùn)練好的模型作為基礎(chǔ),進(jìn)行遷移學(xué)??2024年迎來(lái)具身智能投資熱潮,本體與具身模型受到資本青睞。如果說(shuō)OpenAI的ChatGPT引爆了2023年對(duì)大語(yǔ)言模型的投資熱潮,那么Tesla入局人形機(jī)器人和黃仁勛的那句“AI的下一個(gè)浪潮是具身智能”,則徹底帶火了具身智能與人形機(jī)器人領(lǐng)域的投資熱潮,成為2024年科技產(chǎn)業(yè)投資的最大熱點(diǎn)。當(dāng)前具身智能機(jī)器人可用性不足的原因還是“智能化”水平不足,算法環(huán)節(jié)無(wú)法達(dá)到要求。從投資角度看,頭部人形機(jī)器人的本體研發(fā)集成廠商已經(jīng)經(jīng)歷多輪融資,估值較高,行業(yè)整體投資熱點(diǎn)正從人形機(jī)器人本體向具身智能模型和其他上游零部件遷移。圖2:從本體制造到具身大模型,投資熱點(diǎn)有所遷移圖1:國(guó)內(nèi)人形機(jī)器人投資事件數(shù)量與金額變化(2020-2024)圖2:從本體制造到具身大模型,投資熱點(diǎn)有所遷移國(guó)外市場(chǎng)率先轉(zhuǎn)向投資事件數(shù)量(起)投資金額(億元)國(guó)外市場(chǎng)率先轉(zhuǎn)向國(guó)內(nèi)資本于2024年下半年跟上技術(shù)發(fā)展一脈相承,車企加速部署人形機(jī)器人。自動(dòng)駕駛是具身智能的一個(gè)重要場(chǎng)景,都具備“感知-決策-規(guī)劃-控制”的算法架構(gòu),具身智能和自動(dòng)駕駛在技術(shù)實(shí)現(xiàn)路徑上是一脈相承的,且算法與零部件可實(shí)現(xiàn)高度復(fù)用,這是Tesla給業(yè)界帶來(lái)的啟示。當(dāng)下,智能輔助駕駛已經(jīng)跑通商業(yè)化路徑,進(jìn)入卷交付、卷規(guī)模、卷性價(jià)比的階段,這為具身智能未來(lái)的技術(shù)打磨路徑和商業(yè)化提供了一些參考。同時(shí),汽車行業(yè)從主機(jī)廠到供應(yīng)商,從投資人到創(chuàng)業(yè)者,都在從自動(dòng)駕駛轉(zhuǎn)向追求更多場(chǎng)景的具身智能:主機(jī)廠或自研或投資具身智能公司,而人形機(jī)器人企業(yè)也在尋求機(jī)器人“進(jìn)場(chǎng)打工”的機(jī)會(huì)。機(jī)器人廠商當(dāng)前應(yīng)用場(chǎng)景機(jī)器人廠商當(dāng)前應(yīng)用場(chǎng)景產(chǎn)品或業(yè)務(wù)布局具身智能行業(yè)廠商圖譜源于不同技術(shù)背景的科技企業(yè)聚焦具身智能,其技術(shù)基因、產(chǎn)品形態(tài)、性能表現(xiàn)及應(yīng)用場(chǎng)景的差異性正在幫助它們?nèi)谌牍I(yè)、服務(wù)、特種應(yīng)用等各類型應(yīng)用場(chǎng)景。在AI、機(jī)器人及多元領(lǐng)域參與者的共同作用下,我國(guó)具身智能機(jī)器人行業(yè)正經(jīng)歷快速成長(zhǎng)與擴(kuò)張。人形機(jī)器人企業(yè)人形機(jī)器人企業(yè)軟硬件研發(fā)能力paxinidreame追覓服務(wù)機(jī)器人,以及上游零部件等跨界玩家paxinidreame追覓IPUDU工業(yè)具身智能企業(yè)設(shè)計(jì)、運(yùn)控技術(shù)同源工業(yè)場(chǎng)景需求洞察機(jī)械臂、協(xié)作機(jī)器人Tencent騰訊科技大廠&AI企業(yè)工業(yè)具身智能企業(yè)設(shè)計(jì)、運(yùn)控技術(shù)同源工業(yè)場(chǎng)景需求洞察機(jī)械臂、協(xié)作機(jī)器人Tencent騰訊科技大廠&AI企業(yè)JAKAAI算法技術(shù)優(yōu)勢(shì)資金和生態(tài)優(yōu)勢(shì)互聯(lián)網(wǎng)/科技企業(yè)智駕技術(shù)架構(gòu)離散制造場(chǎng)景智駕技術(shù)架構(gòu)離散制造場(chǎng)景汽車企業(yè)&Tier1地方性產(chǎn)業(yè)鏈企業(yè)共建地方性產(chǎn)業(yè)鏈企業(yè)共建地方性機(jī)構(gòu)、基金支持具身智能創(chuàng)新中心載體形態(tài)多樣,場(chǎng)景需求決定具身智能的落地形態(tài)。具身智能的物理載體形態(tài)呈現(xiàn)多樣性,根據(jù)其移動(dòng)特性或方式,可以分為固定底座機(jī)器人、輪式(履帶式)機(jī)器人、足式機(jī)器人、仿生機(jī)器人等,其中近期火爆的人形機(jī)器人屬雙足人形。具身智能具體形態(tài)的選擇上需要洞察場(chǎng)景實(shí)際的需求,并不存在“最佳形態(tài)”的單一解,但人形機(jī)器人具備多場(chǎng)景的“泛用性”,在具身智能的驗(yàn)證、以及特定場(chǎng)景中的最終應(yīng)用有既定優(yōu)勢(shì)。在實(shí)際應(yīng)用場(chǎng)景中,不同形態(tài)的機(jī)器人可以進(jìn)行有機(jī)地組合以滿足具體的場(chǎng)景需求,如在輪式機(jī)器人上配備機(jī)械臂或靈巧手,配備輪式底座的機(jī)械臂既具備了輪式機(jī)器人移動(dòng)迅速、能效高的特點(diǎn),也兼?zhèn)錂C(jī)械臂和靈巧手精細(xì)操作的優(yōu)勢(shì)。圖:具身智能的形態(tài)分類固定底座機(jī)器人輪式機(jī)器人?精度高、適用于重復(fù)性勞動(dòng)?工業(yè)自動(dòng)化、實(shí)驗(yàn)室自動(dòng)化等領(lǐng)域?平坦路面移動(dòng)迅速,能效高?物流、倉(cāng)儲(chǔ)、交通領(lǐng)域具身智能足式機(jī)器人仿生機(jī)器人如:軟體機(jī)器人、特種形態(tài)機(jī)器人?模仿自然生物的運(yùn)動(dòng)方式,在特定的環(huán)境中執(zhí)行特定任務(wù)2222AI助力機(jī)器人泛化性能提升,突破能力三角制約,進(jìn)入更多場(chǎng)景?;谌斯ゎA(yù)先編程的自動(dòng)化設(shè)備,機(jī)器人已經(jīng)被廣泛用于工業(yè)制造領(lǐng)域并且已經(jīng)相當(dāng)成熟,但受限于預(yù)編程(或反復(fù)示教)的時(shí)間成本、機(jī)器人的智能化水平等原因的限制,機(jī)器人的應(yīng)用仍然受限于“任務(wù)自主性”“任務(wù)復(fù)雜度”“變化適應(yīng)性”組成的能力三角形。大模型技術(shù)的快速發(fā)展,為具身智能技術(shù)的進(jìn)步與應(yīng)用提供了歷史性的突破機(jī)遇,在提升機(jī)器人智能化水平的過(guò)程中,機(jī)器人將更全面、精準(zhǔn)、敏捷的進(jìn)行環(huán)境感知、任務(wù)理解和準(zhǔn)確執(zhí)行,不斷提升機(jī)器人在復(fù)雜環(huán)境中處理復(fù)雜任務(wù)的能力,泛化水平將不斷提升。圖:具身智能技術(shù)的發(fā)展與應(yīng)用,增強(qiáng)機(jī)器人泛化能力任務(wù)自主性AGV搬運(yùn)車、掃地機(jī)器人等工業(yè)機(jī)械人/機(jī)械臂AGV搬運(yùn)車、掃地機(jī)器人等工業(yè)機(jī)械人/機(jī)械臂樣本數(shù)量模型性能樣本數(shù)量模型性能泛化能力環(huán)境泛化任務(wù)泛化目標(biāo)泛化本體泛化變化適應(yīng)性任務(wù)復(fù)雜度變化適應(yīng)性遙控操作機(jī)器人遙控操作機(jī)器人2323從專用到通用,從ToB到ToC,具身智能機(jī)器人應(yīng)用場(chǎng)景持續(xù)拓寬。作為人工智能與機(jī)器人技術(shù)的最前沿,具身智能的應(yīng)用場(chǎng)景會(huì)極度多元化,極具想象空間。在工業(yè)制造場(chǎng)景,機(jī)器人的任務(wù)執(zhí)行和流程和任務(wù)本身有高度規(guī)則性(可通過(guò)編程和訓(xùn)練來(lái)高效完成重復(fù)性高和強(qiáng)度大的任務(wù))。其中,人類不愿意做的臟活、累活、危險(xiǎn)任務(wù),機(jī)器人具備極高的勞動(dòng)力替代性。而服務(wù)場(chǎng)景更加開(kāi)放,相關(guān)任務(wù)更加多樣化,更加不可預(yù)測(cè),需要機(jī)器人具備更強(qiáng)的自主決策能力與泛化適應(yīng)性。應(yīng)用場(chǎng)景從制造業(yè)導(dǎo)入,向商業(yè)和家庭服務(wù)場(chǎng)景逐步滲透,遠(yuǎn)期有望應(yīng)用于航天航空等極限環(huán)境。?應(yīng)用場(chǎng)景從制造業(yè)導(dǎo)入,向商業(yè)和家庭服務(wù)場(chǎng)景逐步滲透,遠(yuǎn)期有望應(yīng)用于航天航空等極限環(huán)境。?趨勢(shì)1:從ToB到ToC?趨勢(shì)2:從專用到通用極限環(huán)境家庭服務(wù)制造業(yè)2424具身智能率先落地的場(chǎng)景:工業(yè)制造工業(yè)制造流程的特點(diǎn)使得該場(chǎng)景在具身智能技術(shù)落地應(yīng)用方面占據(jù)先發(fā)優(yōu)勢(shì),如柔性生產(chǎn)需求迫切、工作環(huán)境結(jié)構(gòu)化程度高、成本效益優(yōu)勢(shì)突出等需求特點(diǎn),刺激著工業(yè)制造場(chǎng)景客戶對(duì)工業(yè)具身智能的應(yīng)用更加期待。工業(yè)具身智能機(jī)器人能夠有效提升工廠生產(chǎn)任務(wù)的靈活性與適應(yīng)性,并在作業(yè)過(guò)程中實(shí)現(xiàn)自主學(xué)習(xí),不斷增強(qiáng)其復(fù)雜任務(wù)執(zhí)行能力與操作精度。具身智能的訓(xùn)練需要數(shù)據(jù),而質(zhì)量更高的數(shù)據(jù)需要從真實(shí)場(chǎng)景中來(lái),機(jī)器人落地最快的場(chǎng)景仍然是場(chǎng)景相對(duì)封閉的工業(yè)制造場(chǎng)景,越早實(shí)現(xiàn)規(guī)?;涞兀陀型皆鐚?shí)現(xiàn)模型的能力提升。工業(yè)制造場(chǎng)景率先應(yīng)用具身智能的原因具身智能機(jī)器人率先在工業(yè)制造場(chǎng)景創(chuàng)造價(jià)值工業(yè)制造場(chǎng)景率先應(yīng)用具身智能的原因傳統(tǒng)機(jī)械臂對(duì)靈活生產(chǎn)需求性高傳統(tǒng)機(jī)械臂對(duì)靈活生產(chǎn)需求性高生產(chǎn)環(huán)境?生產(chǎn)環(huán)境?生產(chǎn)排單靈活性↑適應(yīng)性↑?環(huán)境結(jié)構(gòu)化程度高?環(huán)境結(jié)構(gòu)化程度高積累數(shù)據(jù)?積累數(shù)據(jù)?增強(qiáng)執(zhí)行能力與精度成本效益優(yōu)勢(shì)突出 商業(yè)化動(dòng)力強(qiáng)2525具身智能工業(yè)場(chǎng)景應(yīng)用代表廠商:微億智造微億智造致力于以工業(yè)人工智能及大數(shù)據(jù)技術(shù),助力工業(yè)企業(yè)快速實(shí)現(xiàn)數(shù)智化轉(zhuǎn)型升級(jí)。長(zhǎng)期布局“工業(yè)AI算法+超精細(xì)視覺(jué)感知模組+工業(yè)機(jī)器人智能控制”的全棧技術(shù),以“眼-手-腦-云”的實(shí)施架構(gòu)為基礎(chǔ),打造一系列將感知算法與驅(qū)控算法相結(jié)合的“軟硬一體”智能化產(chǎn)品,廣泛適用于質(zhì)檢、打磨、抓取、搬運(yùn)及焊接等各類工作,實(shí)時(shí)感知并適應(yīng)復(fù)雜變化的工業(yè)環(huán)境。已組建面向3C、汽車、新能源等行業(yè)大客戶的銷售及解決方案團(tuán)隊(duì),建立完善的服務(wù)體系,并與京東科技、中國(guó)移動(dòng)、浪潮、中國(guó)聯(lián)通等合作,共同推出服務(wù)于全國(guó)中小型制造企業(yè)的平臺(tái)化解決方案。核心技術(shù)架構(gòu)具身智能工業(yè)機(jī)器人產(chǎn)品矩陣核心技術(shù)架構(gòu)云云透明材質(zhì):鏡片、薄膜等透明材質(zhì):鏡片、薄膜等具身智能工業(yè)機(jī)器人視覺(jué)AI具身智能工業(yè)機(jī)器人視覺(jué)AI+機(jī)器人智能控制全棧技術(shù)眼眼手腦腦應(yīng)用案例:具身智能工業(yè)機(jī)器人“創(chuàng)Tron”客戶為保定市某電氣公司,專注于電力系統(tǒng)用大型配電柜、儲(chǔ)能柜及其配套設(shè)備的供應(yīng)。該公司擁有SMT線、涂敷線和機(jī)箱裝配線等生產(chǎn)線,其中手插件裝配每片PCB板耗時(shí)180至300秒,其他產(chǎn)品生產(chǎn)節(jié)拍各異且常需更換型號(hào)。SMT產(chǎn)線單日處理超過(guò)100種產(chǎn)品,全年超2000種,且每年新增500多種新品類,導(dǎo)致產(chǎn)線頻繁換型。引入具身智能工業(yè)機(jī)器人后,顯著降低了調(diào)試成本,提升了生產(chǎn)線的靈活性與適應(yīng)性,成為離散制造業(yè)新質(zhì)生產(chǎn)力的最佳實(shí)踐。案例解析:“創(chuàng)TRON助力打造離散制造智能化柔性適配生產(chǎn)線更適合工業(yè)體質(zhì)的具身智能機(jī)器人:“創(chuàng)TRON””案例解析:“創(chuàng)TRON助力打造離散制造智能化柔性適配生產(chǎn)線更適合工業(yè)體質(zhì)的具身智能機(jī)器人:“創(chuàng)TRON”客戶痛點(diǎn)解決思路應(yīng)用效果2727具身智能工業(yè)場(chǎng)景應(yīng)用代表廠商:配天機(jī)器人配天機(jī)器人是一家專注于工業(yè)機(jī)器人、核心零部件及行業(yè)自動(dòng)化解決方案的提供商,是京城機(jī)電旗下的國(guó)家級(jí)高新技術(shù)企業(yè)。公司始終致力于機(jī)器人技術(shù)的自主研發(fā)及高端裝備技術(shù)瓶頸的突破,同時(shí)前瞻性布局打造以具身智能、機(jī)器人行為大模型為核心的“AI+機(jī)器人”。植根于工業(yè)制造場(chǎng)景,配天在“AI+機(jī)器人”已經(jīng)成功研發(fā)免示教焊接軟件模塊,基于繹零機(jī)器人運(yùn)動(dòng)控制引擎,通過(guò)視覺(jué)檢測(cè)和感知技術(shù)實(shí)現(xiàn)對(duì)焊接任務(wù)的快速識(shí)別和自主調(diào)整,無(wú)需人工示教即可投入使用,適應(yīng)工廠靈活的排產(chǎn)需求。配天機(jī)器人:工業(yè)機(jī)器人全家福覆蓋行業(yè):場(chǎng)景應(yīng)用:配天機(jī)器人:工業(yè)自動(dòng)化解決方案28應(yīng)用案例:船廠BK板免示教焊接某船舶制造廠商專注于碳鋼船體結(jié)構(gòu)的生產(chǎn),其生產(chǎn)線包含焊接工序。該工序中,需人工焊接BK立板與BK基板,且生產(chǎn)模式呈現(xiàn)小批量、多品種的特點(diǎn)。傳統(tǒng)焊接機(jī)器人因其柔性不足,難以適應(yīng)此類生產(chǎn)需求。案例解析:AI賦能船廠BK板免示教焊接案例解析:AI賦能船廠BK板免示教焊接解決思路解決思路基于繹零控制引擎的免示教焊接:滿足非結(jié)構(gòu)化場(chǎng)景下的非標(biāo)產(chǎn)品生產(chǎn)場(chǎng)景需求基于繹零控制引擎的免示教焊接:滿足非結(jié)構(gòu)化場(chǎng)景下的非標(biāo)產(chǎn)品生產(chǎn)?依靠人工上下料、裝配與手工焊槍焊接應(yīng)用效果應(yīng)用效果從工業(yè)制造的確定性走向家庭服務(wù)的靈活性,具身智能價(jià)值極具想象力。機(jī)器人在C端的應(yīng)用最具想象力,但短期來(lái)看,任務(wù)相對(duì)聚焦,對(duì)泛化能力要求不高工業(yè)制造場(chǎng)景下的任務(wù)正在更快進(jìn)入商業(yè)化階段。在工業(yè)制造場(chǎng)景實(shí)現(xiàn)商業(yè)化落地之后,海量機(jī)器人的具身數(shù)據(jù)疊加算力技術(shù)的進(jìn)步,機(jī)器人的能力將循序漸進(jìn)逐步解鎖,并向商用服務(wù)、家庭服務(wù)等更開(kāi)放的場(chǎng)景進(jìn)行延伸。工業(yè)場(chǎng)景服務(wù)場(chǎng)景圖:具身智能機(jī)器人在各類應(yīng)用領(lǐng)域的市場(chǎng)空間分布工業(yè)場(chǎng)景服務(wù)場(chǎng)景復(fù)雜空間足式機(jī)器人復(fù)雜空間住宿、餐飲、商超、批發(fā)零售柔性生產(chǎn)任務(wù)家庭服務(wù)場(chǎng)景,包括養(yǎng)老、看護(hù)、家政服務(wù)、情感陪伴等住宿、餐飲、商超、批發(fā)零售柔性生產(chǎn)任務(wù)家庭服務(wù)場(chǎng)景,包括養(yǎng)老、看護(hù)、家政服務(wù)、情感陪伴等分揀分揀輪式機(jī)器人平坦路面模型能力具身智能代表廠商:英偉達(dá)大模型訓(xùn)練與推理的需求背景下,英偉達(dá)憑借AI訓(xùn)練芯片成功坐上了人工智能算力領(lǐng)域的鐵王座,是AI計(jì)算領(lǐng)域的絕對(duì)領(lǐng)導(dǎo)者。黃仁勛曾表示,AI的下一個(gè)浪潮是具身智能。當(dāng)前,英偉達(dá)已經(jīng)從多個(gè)方面部署具身智能,包括計(jì)算平臺(tái)的升級(jí)、多模態(tài)大模型的研發(fā)、軟件開(kāi)發(fā)工具包的發(fā)布和對(duì)外具身智能機(jī)器人公司的投資,正在形成一個(gè)完整的具身智能底層技術(shù)生態(tài)體系。在具身智能領(lǐng)域,英偉達(dá)維持了其“底層算力驅(qū)動(dòng)者與研發(fā)生態(tài)構(gòu)建者”的生態(tài)定位,專注于提供基礎(chǔ)設(shè)施、算力支持和工具框架,同時(shí)通過(guò)硬件與軟件的緊密結(jié)合,為開(kāi)發(fā)者和企業(yè)賦能。NVIDlAIsaacGR00TBluNVIDlAIsaacGR00TBlu圖:Nvidia在具身智能領(lǐng)域的布局廣泛,并于2025年發(fā)布了用于合成數(shù)據(jù)生成的IsaacGR00TBlueprint以加速智能機(jī)器人研發(fā)功能模塊GR00T-Teleop工作流,借助AppleVisionPro捕捉人類動(dòng)作GR00T-Mimic工作流,將捕捉到的人類示范擴(kuò)展成更大的合模擬&仿真機(jī)器人操作系統(tǒng)成運(yùn)動(dòng)數(shù)據(jù)集芯片&算力GR00T-Gen工作流,基于Omniverse和Cosmos世界模型會(huì)通過(guò)域隨機(jī)化和3D升維,指數(shù)級(jí)擴(kuò)增這個(gè)數(shù)據(jù)集芯片&算力UNlTREE宇腳?與14家人形機(jī)器人廠商達(dá)成合作UNlTREE宇腳?其中6家為中國(guó)企業(yè)具身智能代表廠商:GoogleDeepMindlpe:來(lái)自GoogleDeepMind團(tuán)隊(duì)的RT-2模型能夠從機(jī)器人數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)中學(xué)習(xí),在保留web-scale能力的同時(shí),將知識(shí)轉(zhuǎn)化為機(jī)器人控制的通用指令,實(shí)現(xiàn)了從視覺(jué)語(yǔ)言模型到機(jī)器人動(dòng)作輸出的直接轉(zhuǎn)化,提升了機(jī)器人控制的泛化能力和語(yǔ)義推理能力。Deepmind基于PaLI-X和PaLM-E作為RT-2的等預(yù)訓(xùn)練視覺(jué)語(yǔ)言模型,將其調(diào)整為VLA(視覺(jué)語(yǔ)言動(dòng)作模型)。采用RT-2類似的訓(xùn)練方式,使用OpenX-Embodiment數(shù)據(jù)集進(jìn)行訓(xùn)練,得到了RT-2-X模型,相對(duì)于RT-2有了更好的泛化表現(xiàn)。圖:RT-2的架構(gòu)和訓(xùn)練?大型預(yù)訓(xùn)練模型在多種任?大型預(yù)訓(xùn)練模型在多種任務(wù)中展現(xiàn)強(qiáng)大能力,但機(jī)器人獲取類似能力面臨數(shù)據(jù)規(guī)模和模型應(yīng)用的挑戰(zhàn)?自然語(yǔ)言和視覺(jué)語(yǔ)言模型難以有效整合到機(jī)器人控?對(duì)一個(gè)預(yù)訓(xùn)練的VLM模型在機(jī)器人和網(wǎng)絡(luò)數(shù)據(jù)上進(jìn)行共同微調(diào)?生成的模型接收機(jī)器人攝像頭圖像并直接預(yù)測(cè)機(jī)器人要執(zhí)行的??對(duì)一個(gè)預(yù)訓(xùn)練的VLM模型在機(jī)器人和網(wǎng)絡(luò)數(shù)據(jù)上進(jìn)行共同微調(diào)?生成的模型接收機(jī)器人攝像頭圖像并直接預(yù)測(cè)機(jī)器人要執(zhí)行的?結(jié)合VLM預(yù)訓(xùn)練模型和機(jī)器人數(shù)據(jù),RT-2實(shí)現(xiàn)了強(qiáng)大的機(jī)器人控制策略?泛化性能顯著提升局限一:?雖然加入預(yù)訓(xùn)練VLM局限一:?雖然加入預(yù)訓(xùn)練VLM可提升對(duì)語(yǔ)義和視覺(jué)概念的泛化能力,但機(jī)器人并不能產(chǎn)生對(duì)新動(dòng)作的創(chuàng)造能力?RT-2的物理技能局限于機(jī)器人數(shù)據(jù)中所見(jiàn)的技能分布?數(shù)據(jù)集在技能維度上的多樣性是未來(lái)機(jī)器人執(zhí)行更多動(dòng)作的關(guān)鍵突破點(diǎn)局限二:?模型的計(jì)算成本很高,隨著高頻控制的場(chǎng)景的增多,實(shí)時(shí)推理會(huì)成為主要瓶頸?目前可用于RT-2的視覺(jué)語(yǔ)言模型數(shù)量較少?對(duì)模型量化和蒸餾技術(shù)的探索顯得尤為重要,需要讓此類模型以更高的速率運(yùn)行,或在更低成本的硬件上運(yùn)行Source:RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticControGoogleDeepmind32具身智能代表廠商:PhysicalIntelligencePhysicalIntelligence是一家2024年3月成立于美國(guó)舊金山的具身智能機(jī)器人初創(chuàng)公司,致力于將通用人工智能引入物理世界,開(kāi)發(fā)大規(guī)模的人工智能模型和算法,為機(jī)器人提供動(dòng)力,目前估值已達(dá)24億美元。PI于2024年10月發(fā)布了通用機(jī)器人基礎(chǔ)模型π0,先在高度多樣化的機(jī)器人數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,調(diào)整為更強(qiáng)大的VLA,然后針對(duì)復(fù)雜任務(wù)進(jìn)行微調(diào)?;趶?qiáng)大的預(yù)訓(xùn)練模型與多源數(shù)據(jù)集,π0能夠?qū)崿F(xiàn)零樣本學(xué)習(xí)的任務(wù)處理能力,以及經(jīng)過(guò)高質(zhì)量后訓(xùn)練數(shù)據(jù)微調(diào)之后誕生的復(fù)雜任務(wù)執(zhí)行能力。圖:PhysicalIntelligenceπ0通用機(jī)器人策略的模型架構(gòu)采用了結(jié)合大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)的預(yù)訓(xùn)練視覺(jué)語(yǔ)言模型(VLM)主干包含各種靈巧操作任務(wù)的多樣化跨具身數(shù)據(jù)集,以及OpenX-Embodiment數(shù)據(jù)集添加一個(gè)獨(dú)立的動(dòng)作專家采用了結(jié)合大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)的預(yù)訓(xùn)練視覺(jué)語(yǔ)言模型(VLM)主干包含各種靈巧操作任務(wù)的多樣化跨具身數(shù)據(jù)集,以及OpenX-Embodiment數(shù)據(jù)集添加一個(gè)獨(dú)立的動(dòng)作專家該動(dòng)作專家通過(guò)流匹配生成連續(xù)動(dòng)作,從而實(shí)現(xiàn)精確且流暢的操作技能該模型可直接基于提示執(zhí)行任務(wù),或在高質(zhì)量數(shù)據(jù)上進(jìn)行微調(diào),以完成復(fù)雜的多階段任務(wù),比如折疊多件衣物或組裝一個(gè)盒子。Source:PhysicalIntelligence,π0:AVision-Language-ActionFlowModelforGeneralRobotControl.33具身智能代表廠商:FigureAI“Figureisgivingartificialintelligenceabody.”公司專注于研發(fā)和生產(chǎn)AI人形機(jī)器人,希望通過(guò)先進(jìn)的AI擴(kuò)展人類的能力。OpenAI大模型賦能的人形機(jī)器人,GPT系列多模態(tài)模型賦予了Figure02對(duì)多種類信息輸入的感知與理解能力,并使機(jī)器人通過(guò)語(yǔ)言與動(dòng)作實(shí)現(xiàn)與周圍環(huán)境、個(gè)體的交互。當(dāng)前的Figure02已經(jīng)能完成疊衣服、餐桌清理、購(gòu)物袋包裝等相對(duì)復(fù)雜任務(wù),并在汽車工廠中執(zhí)行零件裝配等勞動(dòng)密集型任務(wù)?!癈anIhavesth.toeat?”語(yǔ)音數(shù)據(jù)文本數(shù)據(jù)文本數(shù)據(jù)語(yǔ)音數(shù)據(jù)圖:GPT“CanIhavesth.toeat?”語(yǔ)音數(shù)據(jù)文本數(shù)據(jù)文本數(shù)據(jù)語(yǔ)音數(shù)據(jù)“Surething,hereisanapple.”模態(tài)大模型模態(tài)大模型感知數(shù)據(jù)感知數(shù)據(jù)動(dòng)作模型WholeBodyWholeBodyController全身控制器全身控制器全身關(guān)節(jié)扭矩控制全身關(guān)節(jié)扭矩控制3434具身智能代表廠商:特斯拉特斯拉通過(guò)自身的品牌影響力與對(duì)“低成本量產(chǎn)”的目標(biāo),催化了人形機(jī)器人行業(yè)的發(fā)展,將這個(gè)原本專業(yè)且小眾的領(lǐng)域快速走入大眾視野。同時(shí),特斯拉通過(guò)工藝技術(shù)創(chuàng)新和極致產(chǎn)品設(shè)計(jì),成功地自研了電動(dòng)汽車的核心零部件并極好地控制了成本,而這些電動(dòng)汽車的核心零部件也可以得益于自動(dòng)駕駛領(lǐng)域的數(shù)據(jù)和算法優(yōu)勢(shì),特斯拉順理成章地率先轉(zhuǎn)向具身智同時(shí),特斯拉通過(guò)工藝技術(shù)創(chuàng)新和極致產(chǎn)品設(shè)計(jì),成功地自研了電動(dòng)汽車的核心零部件并極好地控制了成本,而這些電動(dòng)汽車的核心零部件也可以大量地復(fù)用在人形機(jī)器人之上,例如視覺(jué)傳感器、關(guān)節(jié)、電機(jī)、電池、熱管理系統(tǒng)等。特斯拉Optimus發(fā)展歷程及企業(yè)研發(fā)優(yōu)勢(shì)軟件層面:Optimus軟件層面:Optimus在軟件層面與特斯拉自動(dòng)駕駛領(lǐng)域有高度重合的環(huán)節(jié),自動(dòng)駕駛技術(shù)、數(shù)據(jù)和模型可以平滑遷移硬件層面:作為全球領(lǐng)先的電動(dòng)汽車廠商,汽車身上的傳感器與視覺(jué)系統(tǒng)、電池與能源技術(shù)、電機(jī)控制技術(shù)都能夠作用于Optimus上,并且得益于大規(guī)模的生產(chǎn),各類硬件成本高度可控,直接影響人形機(jī)器人的成本價(jià)格資源層面:強(qiáng)大的資金優(yōu)勢(shì)、數(shù)據(jù)與算力儲(chǔ)備、以及特斯拉的品牌影響力,為后續(xù)機(jī)器人量產(chǎn)與銷售提供保障Source:Tesla,公開(kāi)資料,甲子光年智庫(kù)。35具身智能作為新興技術(shù),仍然面臨訓(xùn)練數(shù)據(jù)與模型能力等多重挑戰(zhàn)。通過(guò)多學(xué)科的融合發(fā)展,具身智能已經(jīng)展現(xiàn)出了賦能人類經(jīng)濟(jì)生活各方面的能力與潛力,但產(chǎn)業(yè)鏈各環(huán)節(jié)的發(fā)展與應(yīng)用水平不一,仍然給具身智能的整體發(fā)展帶來(lái)了多維度的挑戰(zhàn)。機(jī)器人的智能化水平仍受到現(xiàn)有方法與能力的制約,其感知能力、執(zhí)行能力、學(xué)習(xí)能力、自適應(yīng)能力、硬件性能、驗(yàn)證方法等受限于技術(shù)水平與產(chǎn)業(yè)鏈現(xiàn)狀,雖然
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年股權(quán)激勵(lì)合同:股權(quán)獎(jiǎng)勵(lì)與業(yè)績(jī)掛鉤條款3篇
- 2025年度濾袋材料費(fèi)用合同采購(gòu)與項(xiàng)目進(jìn)度管理合同3篇
- 2025年度網(wǎng)絡(luò)安全防護(hù)設(shè)備采購(gòu)合同范本與安全等級(jí)保護(hù)2篇
- 學(xué)生校園欺凌情況調(diào)查問(wèn)卷
- 敢于擔(dān)當(dāng)善于化解難題體會(huì)
- 護(hù)理人力資源管理1
- 黨史知識(shí)競(jìng)賽題庫(kù)及答案-一起學(xué)習(xí)黨史吧
- 八一南昌起義的意義是什么
- 2024版地方特色農(nóng)產(chǎn)品購(gòu)銷合作合同版
- 2024集體土地租賃協(xié)議書(shū)
- 事業(yè)單位登記管理講座課件
- 柴油加氫設(shè)備-加氫循環(huán)氫壓縮機(jī)
- 中小學(xué)德育工作指南考核試題及答案
- 雪夜的老人閱讀答案6篇
- 2022數(shù)學(xué)課程標(biāo)準(zhǔn)解讀及實(shí)踐:八下平行四邊形大單元設(shè)計(jì)
- 昌樂(lè)二中271課堂教學(xué)模式
- 深基坑變形監(jiān)測(cè)方案
- 衛(wèi)生專業(yè)技術(shù)資格任職聘用證明表
- GB/T 3077-2015合金結(jié)構(gòu)鋼
- GB/T 25003-2010VHF/UHF頻段無(wú)線電監(jiān)測(cè)站電磁環(huán)境保護(hù)要求和測(cè)試方法
- GB/T 15326-1994旋轉(zhuǎn)軸唇形密封圈外觀質(zhì)量
評(píng)論
0/150
提交評(píng)論