計算機(jī)-人工智能系列報告(三):人形機(jī)器人步入軟件定義和AI驅(qū)動時代_第1頁
計算機(jī)-人工智能系列報告(三):人形機(jī)器人步入軟件定義和AI驅(qū)動時代_第2頁
計算機(jī)-人工智能系列報告(三):人形機(jī)器人步入軟件定義和AI驅(qū)動時代_第3頁
計算機(jī)-人工智能系列報告(三):人形機(jī)器人步入軟件定義和AI驅(qū)動時代_第4頁
計算機(jī)-人工智能系列報告(三):人形機(jī)器人步入軟件定義和AI驅(qū)動時代_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

行業(yè)專題報告|計算機(jī)證券研究報告基于對人形機(jī)器人發(fā)展階段及核心競爭力的分析,我們認(rèn)為人形機(jī)器人已經(jīng)跨入了一個全新的軟件定義加AI驅(qū)動的時代。軟件人的基礎(chǔ)操作系統(tǒng)和應(yīng)用算法,而且通過不斷迭代升級,為人形機(jī)器人賦予了超越傳統(tǒng)機(jī)械設(shè)備的智能特性。軟件和AI不僅開啟了人動駕駛算法的成功復(fù)用,我們認(rèn)為人形機(jī)器人處于由高動態(tài)向高度智能化發(fā)展的階段。高動態(tài)是指機(jī)器人在運(yùn)動能力上表現(xiàn)優(yōu)秀,特別是平衡性、越障礙能力等。當(dāng)前人形機(jī)器人機(jī)械化程度較高且具備較強(qiáng)機(jī)器人身體協(xié)調(diào)性非常出色,除了行走,還完成翻滾等高難度動作;感知方面,特斯拉Optimus基于完全端到端訓(xùn)練的神經(jīng)網(wǎng)絡(luò)架構(gòu),底程度,也就是在面對各種未知環(huán)境、任務(wù)和交互情境時的高度適應(yīng)性和自我學(xué)習(xí)能力。人形機(jī)器人的設(shè)計初衷是通過模仿人類的形態(tài)和行為能力,讓其能無縫使用人類所有的基礎(chǔ)設(shè)施和工具,以便在多種環(huán)境中執(zhí)行任務(wù),提高生產(chǎn)效率,尤其是在替代人類執(zhí)行一些可能危險、困難或不適宜的任務(wù)。人形機(jī)器人的商業(yè)化進(jìn)程中深受應(yīng)用場景局限性的影響,提高智能程度能夠顯著拓寬人形機(jī)器人應(yīng)用場景,打破現(xiàn)有局限,提升其對復(fù)雜環(huán)境的適應(yīng)性和任務(wù)執(zhí)行的靈活性。是智能機(jī)器人智能化水平的高層次判斷標(biāo)準(zhǔn)。根據(jù)當(dāng)前技術(shù)形態(tài)研判,國型憑借其龐大的知識庫和強(qiáng)大的理解能力所帶來的泛化能力,賦予了人形機(jī)器人更高的通用性,使其能夠滿足不同場景下的多樣化任務(wù)需求;同時大模型的輔助編程等功能還能有效降低軟件開發(fā)成本,有望加速人形機(jī)器超配超配超配超配 2023-042023-08鄭宏達(dá)S080052402000113918906471zhenghongda@計算機(jī):廣州數(shù)科集團(tuán),國企市值管理標(biāo)計算機(jī):繼續(xù)看好端側(cè)智能—計算機(jī)行業(yè)建議關(guān)注:1)視覺感知:??低?、大華股份、虹軟科技、智微智能;2)機(jī)器人大模型:科大訊飛、商湯-W、云從科技-UW。風(fēng)險提示:人形機(jī)器人技術(shù)發(fā)展不及預(yù)期、政策法規(guī)環(huán)境不確定風(fēng)險、供應(yīng)鏈與制造成本上升風(fēng)險、國際競爭加劇與技術(shù)替代風(fēng)險。一、為什么我們認(rèn)為人形機(jī)器人步入軟件定義時代? 41.1人形機(jī)器人現(xiàn)在處于什么發(fā)展階段? 51.2人形機(jī)器人的核心競爭力在于什么? 61.3為什么我們認(rèn)為人形機(jī)器人步入軟件定義時代? 7二、大模型成為“AI大腦”,通用人形機(jī)器人曙光已現(xiàn) 82.1人形機(jī)器人走向通用,“決策”+“認(rèn)知”是必經(jīng)之路 82.2具身智能技術(shù)持續(xù)突破,通用人形機(jī)器人新紀(jì)元將至 92.2.1ChatGPTforRobotics:大模型賦能機(jī)器人的初步探索 2.2.2PaLM-E:具身多模態(tài)視覺語言模型,是具身智能領(lǐng)域的一次重大飛躍 2.2.3RT-2:全球首個VLA多模態(tài)大模型,能夠理解視覺輸入,機(jī)器人模型里程碑.122.2.4VoxPoser:實(shí)現(xiàn)零樣本機(jī)器人任務(wù)軌跡規(guī)劃 2.2.5RoboAgent:實(shí)現(xiàn)通用機(jī)器人小數(shù)據(jù)集的快速訓(xùn)練 2.2.6RT-X:基于多個數(shù)據(jù)集的機(jī)器人通用大模型 2.2.7Eureka:基于GPT-4的人工智能代理 2.2.8RobotGPT:ChatGPT運(yùn)用于機(jī)器人的框架 2.2.9EVE:依賴端到端神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)自主工作 2.2.10Figure01:能聽、能說、能自主決策的人形機(jī)器人 2.2.11GR00T——通用人形機(jī)器人基礎(chǔ)模型 圖1:汽車產(chǎn)業(yè)發(fā)展歷程 4圖2:人形機(jī)器人發(fā)展大事記 5圖3:波士頓動力Atlas俯身下蹲抓起工具包 5圖4:波士頓動力Atlas蹦上高臺 5圖5:波士頓動力Atlas推完箱子后保持身子平衡,不前傾摔倒 6圖6:波士頓動力Atlas前空翻落地 6圖7:TeslaOptimusGen2用手指抓取雞蛋(屏幕右側(cè)實(shí)時顯示了手指壓力) 6圖8:TeslaOptimusGen2疊衣服(目前尚不能自主執(zhí)行疊衣服操作) 6圖9:優(yōu)必選人形機(jī)器人發(fā)展歷程及展望 7圖10:泛化能力包括跨語言泛化、跨任務(wù)泛化、跨領(lǐng)域泛化、結(jié)構(gòu)泛化、組合泛化、魯棒性 9圖11:2023年至今“大模型+機(jī)器人”發(fā)展進(jìn)程 圖12:傳統(tǒng)機(jī)器人任務(wù)需要工程師在循環(huán)中不斷改進(jìn) 圖13:接入ChatGPT后工程師無需在循環(huán)中調(diào)整 圖14:ChatGPTforRobotics的設(shè)計原則 圖15:PaLM-E主要架構(gòu) 圖16:PaLM-E在復(fù)雜的移動操作任務(wù)表現(xiàn)出色 圖18:Voxposer系統(tǒng)流程 圖19:RoboAgent采用的多任務(wù)動作分塊MT-ACT架構(gòu) 圖20:RT-X架構(gòu) 圖21:Eureka訓(xùn)練機(jī)械手臂完成高難度的轉(zhuǎn)筆動作 圖22:Robot-GPT架構(gòu) 圖23:EVE可自主進(jìn)行物品搬運(yùn)收納 圖24:EVE可自主進(jìn)行充電 圖25:Figure01技術(shù)原理 圖28:優(yōu)必選WalkerS根據(jù)語音指令完成疊衣服任務(wù) 圖26:GR00T能夠理解語言、視頻和演示 圖27:GR00T基于NVIDIA深度技術(shù)堆棧開發(fā) 表1:機(jī)器人智能化信息模型要素 8表2:通用智能化等級判斷依據(jù) 9一、為什么我們認(rèn)為人形機(jī)器人步入軟件定義時代?由于技術(shù)與產(chǎn)業(yè)關(guān)聯(lián)性、以及未來成本下降和規(guī)模化生產(chǎn)路徑相似性,人形機(jī)器人經(jīng)常與汽車類比。人形機(jī)器人和汽車都是高度工程化的產(chǎn)物,需要集成多種技術(shù)和部件。特斯拉等公司在開發(fā)人形機(jī)器人時,強(qiáng)調(diào)了與汽車業(yè)務(wù)的共享技術(shù)路徑,比如使用類似的子控制系統(tǒng)等多種復(fù)雜組件,人形機(jī)器人同樣融合了機(jī)械設(shè)計、運(yùn)動控制、感知系統(tǒng)(目前多數(shù)汽車也有傳感器和雷達(dá))等;而汽車的自動駕駛技術(shù)則可以對應(yīng)于目前人形復(fù)盤汽車產(chǎn)業(yè)“機(jī)械時代→電子時代→軟件時代”發(fā)展歷程,本質(zhì)是汽車的核心競爭力一時期的汽車更多依賴于物理結(jié)構(gòu)和機(jī)械性能來滿足市場需求。而后汽車產(chǎn)業(yè)進(jìn)入“電了電子技術(shù)和系統(tǒng)集成能力,這些技術(shù)的應(yīng)用不僅提高了汽車的安全性和舒適性,也使得汽車能夠?qū)崿F(xiàn)更復(fù)雜的控制功能。隨后,硬件功能及成本改善升級空間逐步變小,汽的概念應(yīng)運(yùn)而生,汽車從高度機(jī)電一體化的機(jī)械終端,逐步轉(zhuǎn)變?yōu)橐粋€智能化、可拓展、資料來源:頭豹研究院、西部證券研發(fā)中心基于人形機(jī)器人所展現(xiàn)出的高度機(jī)械化特性以及在視覺感知方面對自動駕駛算法的成功復(fù)用,我們認(rèn)為人形機(jī)器人處于由高動態(tài)向高度智能化發(fā)展的階段。高動態(tài)是指機(jī)器人在運(yùn)動能力上表現(xiàn)優(yōu)秀,特別是平衡性、越障礙能力等。當(dāng)前人形機(jī)器人機(jī)械化程度較高,體現(xiàn)強(qiáng)大的運(yùn)動性能、仿生結(jié)構(gòu)設(shè)計、先進(jìn)材料應(yīng)用和精細(xì)操作能力等層面;且具備較強(qiáng)的運(yùn)動控制及環(huán)境感知能力,體現(xiàn)在多傳感器融合感知、無線通信、模塊化設(shè)計以及能源管理等多個方面。展望未來,人形機(jī)器人將在現(xiàn)有基礎(chǔ)上,進(jìn)一步強(qiáng)化自主決資料來源:中國機(jī)器人網(wǎng)、新智元、智東西、機(jī)器之心、優(yōu)必選科技視頻號、西部證券研發(fā)中心Atlas有多達(dá)28個自由度,涵蓋雙足、軀干、手臂等,確保了全方位、精細(xì)化的動作模資料來源:量子位微信公眾號、西部證券研發(fā)中心資料來源:量子位微信公眾號、西部證券研發(fā)中心資料來源:量子位微信公眾號、西部證券研發(fā)中心資料來源:量子位微信公眾號、西部證券研發(fā)中心度提升30%,整體重量減輕10kg,且具有觸覺感知靈巧手。與之前的版本相比,手指搭載觸覺傳感器能夠精準(zhǔn)抓握雞蛋等易碎物品;且能夠完成多個深蹲動作并保持身Optimus基于完全端到端訓(xùn)練的神經(jīng)網(wǎng)絡(luò)架構(gòu),底層感知、識別算法等等已經(jīng)和FSD定程度的算法復(fù)用。FSD(FullSelf-Driving,全自動駕駛)算法主要依賴于神經(jīng)網(wǎng)絡(luò)和計算機(jī)視覺技術(shù),其核心是神經(jīng)網(wǎng)絡(luò)模型:通過對實(shí)時傳感器獲取的數(shù)據(jù)進(jìn)行處理和分析并從中提取有關(guān)道路、車輛、行人和障礙物等信息,可以實(shí)現(xiàn)車輛的環(huán)境感知和物體識別,而FSD算法在人形機(jī)器人的感知、決策和控制等方面也同樣起到重要作用。Optimus的神經(jīng)網(wǎng)絡(luò)是完全的端到端訓(xùn)練架構(gòu),即可以做到視頻信號輸入和控制信號輸出,能夠直接從原始輸入端到輸出端進(jìn)行訓(xùn)練而無需進(jìn)行手動特征工程或中間階段處理,資料來源:機(jī)器之心微信公眾號、西部證券研發(fā)中心資料來源:機(jī)器之心微信公眾號、西部證券研發(fā)中心“擬人化”不只是身體和行為擬人,更重要的是大腦和思維擬人,人形機(jī)器人不是單純地執(zhí)行預(yù)先編寫程序的機(jī)械設(shè)備,而是擁有自主決策和學(xué)習(xí)能力的智能終端。人形機(jī)器人的研究和發(fā)展不僅僅只是為了模仿人類的外觀形態(tài),更重要的是要賦予它們類似于人類的認(rèn)知能力和情感表達(dá)能力,使其能夠理解和響應(yīng)人類的需求,在不同的環(huán)境和場景資料來源:雷峰網(wǎng)、優(yōu)必選官網(wǎng)、西部證券研發(fā)中心人形機(jī)器人的商業(yè)化進(jìn)程中深受應(yīng)用場景局限性的影響,通用性和智能化或?qū)⒊蔀槠凭株P(guān)鍵?;仡櫄v史,可以發(fā)現(xiàn)人形機(jī)器人商業(yè)化進(jìn)程非常艱難折:波士頓動力公司多次易盡管波士頓動力、本田ASIMO和軟銀Pepper等人形機(jī)器人運(yùn)動能力、互動性能或情感交流特性,但在實(shí)際應(yīng)用中,它們往往難以找到足夠廣泛且具有經(jīng)濟(jì)效益的落地場景。所以,我們認(rèn)為人形機(jī)器人的核心競爭力在于其通用性和泛化性,即智能化程度,也就是在面對各種未知環(huán)境、任務(wù)和交互情境時的高度適應(yīng)性和自我學(xué)習(xí)能力。汽車是一種代步工具,而人形機(jī)器人更多地聚焦于替代或輔助人類執(zhí)行任務(wù)。人形機(jī)器人的設(shè)計初衷是通過模仿人類的形態(tài)和行為能力,讓其能無縫使用人類所有的基礎(chǔ)設(shè)施和工具,以便在多種環(huán)境中執(zhí)行任務(wù),提高生產(chǎn)效率,尤其是在替代人類執(zhí)行一些可能危險、困難或不適宜的任務(wù)。提高智能程度能夠顯著拓寬人形機(jī)器人應(yīng)用場景,打破現(xiàn)有局限,提升其對復(fù)雜環(huán)境的適應(yīng)性和任務(wù)執(zhí)行的靈活性。高度智能的人形機(jī)器人將具備更強(qiáng)的學(xué)習(xí)能力,能在與環(huán)境的互動中不斷優(yōu)化行為策略,適應(yīng)多樣化的操作任務(wù)和未知情境。同時,自然語言處理和情境理解的進(jìn)步將使人形機(jī)器人能夠更好地與人類進(jìn)行溝通,理解并響應(yīng)復(fù)雜指令,甚至預(yù)測用戶需求。此外,智能化還體現(xiàn)在自主決策與故障診斷能力的提升,使人形機(jī)器人能夠在無人干預(yù)下獨(dú)立完成任務(wù),減少對遠(yuǎn)程操控或現(xiàn)場人工指導(dǎo)的依賴,大大增人形機(jī)器人正逐步邁進(jìn)由高動態(tài)運(yùn)動性能向高度智能化躍升的新階段,這一轉(zhuǎn)變離不開AI的發(fā)展與深度融入。隨著AI技術(shù)在感知、認(rèn)知、器人擁有了更強(qiáng)大的環(huán)境感知能力,可以通過視覺、聽覺、觸覺等多種傳感器收集信息,利用深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等先進(jìn)算法解析復(fù)雜數(shù)據(jù),進(jìn)行實(shí)時決策,并通過高精度的動通過軟件更新升級功能,這使得它們未來能夠廣泛應(yīng)用于制造、教育、醫(yī)療、娛樂、養(yǎng)老、救援等多元領(lǐng)域,展現(xiàn)較強(qiáng)的普適性和延因此,我們認(rèn)為人形機(jī)器人已經(jīng)跨入了一個全新的軟件定義、AI驅(qū)動的時代。軟件不僅承載著人形機(jī)器人的基礎(chǔ)操作系統(tǒng)和應(yīng)用算法,而且通過不斷迭代升級,為人形機(jī)器人賦予了超越傳統(tǒng)機(jī)械設(shè)備的智能特性。軟件和AI不僅開啟了人形機(jī)器人在各行各業(yè)廣泛應(yīng)用的可能性,更定義了人形機(jī)器人的功能邊界。“決策”+“認(rèn)知”是智能機(jī)器人智能化水平的高層次判斷標(biāo)準(zhǔn)。我國2022年發(fā)布的《智能機(jī)器人智能化等級評價規(guī)范》從要素智能化等級、綜合通用智能化等級和綜合場景智能化等級三個方面對機(jī)器人智能化等級進(jìn)行了權(quán)威的分類,并根據(jù)智能化程度不同從低到高劃分為1級~5級。其中,綜合通用智能化評級主要從感知、執(zhí)行、決策和認(rèn)知四個方面對機(jī)器人的智能化綜合能力進(jìn)行評價,從低到高可分為L1(基礎(chǔ)型)、L2能力是判斷機(jī)器人智能化水平高低的最高層次標(biāo)準(zhǔn),其中認(rèn)知能力主要衡量其建模、理解和推理等方面的能力,執(zhí)行能力衡量其運(yùn)動執(zhí)行和交互等方面的能力。根據(jù)當(dāng)前技術(shù)漸向L4和L5階段進(jìn)行發(fā)展,而實(shí)現(xiàn)人形機(jī)器人智能化等級能力是必經(jīng)之路更是核心難點(diǎn)之一。表1:機(jī)器人智能化信息模型要素人臉識別、字符識別、圖像識別、定位測距壓覺、力覺、冷熱覺語義理解、多輪語義規(guī)劃、多輪對話理解、情感理解、多模任務(wù)規(guī)劃、動作規(guī)劃、路徑規(guī)劃、不確定環(huán)境下的運(yùn)動規(guī)劃語音交互、表情交互、文字交互、肢體語言交互、界面交互、多模態(tài)交互、多機(jī)交互表2:通用智能化等級判斷依據(jù)有//有有//有有/有有有/有有有有正如我們前文所說,人形機(jī)器人以解放人體、自主完成任務(wù)為目標(biāo),其長期的核心價值在于通用性、泛化性。目前工業(yè)機(jī)器人的技術(shù)雖已相對成熟,但其僅適用于汽車制造、紡織、包裝等行業(yè)中單一重復(fù)性的生產(chǎn)工作。而人形機(jī)器人作為智能機(jī)器人的具象化,其在“擬人”之下更為核心的價值在于通用性,更高的通用性則要求其要具備更高的感知、執(zhí)行、決策和認(rèn)知能力,以減少對人工指令的依賴,提升對更復(fù)雜的非結(jié)構(gòu)化環(huán)境大模型+機(jī)器人是AI重要落地場景,大模型的泛化能力為通用人形機(jī)器人的發(fā)展帶來曙光。模型泛化能力(Generlisation)是機(jī)器學(xué)習(xí)和人工智能領(lǐng)域評判模型性能的重要指標(biāo)之一,其可以理解為一種遷移學(xué)習(xí)的能力,即把從過去的經(jīng)驗(yàn)中學(xué)習(xí)到的表示、知識和策略應(yīng)用到新領(lǐng)域的能力。以往的算法模型泛化能力較低,即便經(jīng)過大量訓(xùn)練也難以覆蓋所有小概率邊緣場景,因此通常僅被用在特定的應(yīng)用場景,難以進(jìn)行應(yīng)用場景的拓展。而大模型憑借其龐大的知識庫和強(qiáng)大的理解能力所帶來的泛化能力,賦予了人形機(jī)器人更高的通用性,使其能夠滿足不同場景下的多樣化任務(wù)需求;同時大模型的輔助編程等功能還能有效降低軟件開發(fā)成本,有望加速人形機(jī)器人商業(yè)化落地。資料來源:《State-of-the-artgeneralisationresearchinNLP:Ataxonomyandreview》、西部證券研發(fā)中心星”問題。自大模型流行至今,谷歌、微軟、英偉達(dá)等國外科技巨頭等紛紛投入到基于大模型的具身智能的研究賽道中,相關(guān)理論和技術(shù)得到持續(xù)突破。我今國內(nèi)外“大模型+機(jī)器人”的最新研究成果,從初步技術(shù)框架再到具體應(yīng)用落地,基于資料來源:各公司官網(wǎng)、西部證券研發(fā)中心整理2.2.1ChatGPTforRobotics:大模型賦能機(jī)器人任務(wù)需要工程師在循環(huán)中編寫復(fù)雜的代碼并不斷進(jìn)行迭代改進(jìn),但ChatGPT能夠基于自然語言指令采取響應(yīng)行動或是完成自動化決策。接入ChatGPT后需構(gòu)建底層庫函數(shù)及其描述,機(jī)器人就能基于底層函數(shù)來編寫代碼完成相關(guān)任務(wù),從而資料來源:《ChatGPTforRobotics:DesignPrinciplesandModelAbilities》,西部證券研發(fā)中心資料來源:《ChatGPTforRobotics:DesignPrinciplesandModelAbilities》,西部證券研發(fā)中心報告提出了一種提示工程設(shè)計原則和創(chuàng)建高級功能庫的策略,使得ChatGPT能夠適應(yīng)不同的機(jī)器人任務(wù)。其具體步驟如下1)定義機(jī)器人功能庫函數(shù),比如實(shí)現(xiàn)檢測物體、資料來源:《ChatGPTforRobotics:DesignPrinciplesandModelAbilities》,西部證券研發(fā)中心2.2.2PaLM-E:具身多模態(tài)視覺語言模型,是具身智能領(lǐng)域的一次重大飛躍PaLM-E采用端到端訓(xùn)練,具有很強(qiáng)的泛化和遷移能力。其主要架構(gòu)思想是將連續(xù)的、可感知的觀察數(shù)據(jù)(如圖像、語言、狀態(tài)預(yù)測或其他傳感器數(shù)據(jù)等)注入到預(yù)訓(xùn)練的大語言模型的嵌入空間內(nèi),使用編碼器提取特征,再通過映射器對齊特征,最終得到一系列相同緯度的Token,從而實(shí)現(xiàn)推理和訓(xùn)練,整個過程并不需要對場景的表示進(jìn)行任何資料來源:《PaLM-E:AnEmbodiedMultimodalLanguageModel》,西部證券研發(fā)中心PaLM-E在具有挑戰(zhàn)性和多樣化的移動操作任務(wù)中性能表現(xiàn)優(yōu)異。在引導(dǎo)真實(shí)機(jī)器人執(zhí)人找到抽屜,打開抽屜并成功拿出薯片,即便在人為地干擾下依舊能夠成功完成任務(wù),資料來源:《PaLM-E:AnEmbodiedMultimodalLanguageModel》,西部證券研發(fā)中心2.2.3RT-2:全球首個VLA多模態(tài)大模型,能夠理解視覺輸入,機(jī)器人模型里程碑控制機(jī)器人的視覺-語言-動作(Vision-Language-Action,VLA)模型,該模型能夠從網(wǎng)絡(luò)和機(jī)器人數(shù)據(jù)中學(xué)習(xí)知識,并將這些知識轉(zhuǎn)化為機(jī)器人控制的通用指令。-語言模型(VLMs)為基礎(chǔ),將一個或多個圖像作為輸入,并生成一系列通常代表自然的機(jī)器人數(shù)據(jù)的語義和視覺理解,包括解釋新命令并通過執(zhí)行基本推理來響應(yīng)用戶命令。視覺-語言模型(VLMs)可以轉(zhuǎn)變?yōu)楦鼜?qiáng)大的視覺-語言-動作(VLA)模型,通過將VLM預(yù)訓(xùn)練與機(jī)器人數(shù)據(jù)相結(jié)合,能夠?qū)崿F(xiàn)機(jī)器人的控制,使其完成推理、解決問題、解釋資料來源:《RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticContro》,l西部證券研發(fā)中心機(jī)器人,能夠在無需額外數(shù)據(jù)和訓(xùn)練的情況下將復(fù)雜指令轉(zhuǎn)化為具體的行動規(guī)劃。該操作指示地圖標(biāo)記了“在哪里行動”以及“如何行3)控制:將操作指示地圖輸入至動作規(guī)劃器中,以合成機(jī)器人最終需要執(zhí)行的操作軌跡?;?,有效解決了機(jī)器人訓(xùn)練數(shù)據(jù)稀缺的問題,從而實(shí)現(xiàn)零樣本的日常操作任務(wù)軌跡合成。資料來源:《VoxPoser:Composable3DValueMapsforRoboticManipulationwithLanguageModels》,西部證券研發(fā)中心2.2.5RoboAgent:實(shí)現(xiàn)通用機(jī)器人小數(shù)據(jù)集的快速訓(xùn)練包括上茶、物品拾取、烘焙、清潔廚房等日常任務(wù)。RoboAgent具有超高的智能化程度,可以通過圖像和語言等對其進(jìn)行控制。研究人員提出了多任務(wù)動作分塊Transformer(MT-ACT)架構(gòu),通過語義增強(qiáng)和高效的策略表示來訓(xùn)練機(jī)器人并依靠網(wǎng)絡(luò)免費(fèi)數(shù)據(jù)來進(jìn)行學(xué)習(xí),這極大拓寬了機(jī)器人在家庭、醫(yī)院和其他資料來源:《RoboAgent:GeneralizationandEfficiencyinRobotManipulationviaSemanticAugmentationsandActionChunking》,西部證券研發(fā)中心RT-X由基于Transfomer的RT-1-X和視覺-語言-動作模型RT-2-X組成。OpenX-器人數(shù)據(jù),包括了超100萬個場景的500余種技能、15萬項(xiàng)任務(wù)。得益于OpenX-多非結(jié)構(gòu)化的應(yīng)用場景并完成特定的任務(wù),比如倉庫搬運(yùn)、防爆救險、家庭護(hù)理等。構(gòu)建一個包含各種機(jī)器人示范的數(shù)據(jù)集是訓(xùn)練通用型模型的關(guān)鍵步驟,因此OpenX-Embodiment數(shù)據(jù)集對通用型機(jī)器模型的3倍,且機(jī)器人可理解的動作指令從絕對位置(如桌子的左上角)拓展至相對位資料來源:《OpenX-Embodiment:RoboticLearningDatasetsandRT-XModels》,西部證券研發(fā)中心Eureka系統(tǒng)采用動態(tài)可解釋教學(xué)(DIET)的訓(xùn)練流程,大幅提高了訓(xùn)練效率并縮短了開發(fā)周期。在該過程中,機(jī)器人的行動會被記錄和分析并用于動作調(diào)整,從而能夠使機(jī)資料來源:《Eureka:Human-LevelRewardDesignViaCodingLargeLanguageModels》、西部證券研發(fā)中心2.2.8RobotGPT:ChatGPT運(yùn)用于機(jī)器人的框架討ChatGPT在機(jī)器人操控中的應(yīng)用。該系統(tǒng)將環(huán)境線索轉(zhuǎn)換為自然語言,使得種角色。首先,決策機(jī)器人基于提示生成相應(yīng)的可執(zhí)行代碼并逐行進(jìn)行執(zhí)行,若運(yùn)行出現(xiàn)錯誤則提供錯誤原因以及發(fā)生錯誤的代碼行以便進(jìn)行修改,直到代碼能夠成功運(yùn)行;不能通過EvalCode測試,糾正機(jī)器人將正;最后,滿足評估條件的代碼將用于生成演示數(shù)據(jù)。經(jīng)過訓(xùn)練,訓(xùn)練有素的智能體可資料來源:《RobotGPT:RobotManipulationLearningfromChatGPT》,西部證券研發(fā)中心覺神經(jīng)網(wǎng)絡(luò)進(jìn)行精準(zhǔn)操控,通過神經(jīng)網(wǎng)絡(luò)接收圖像輸入并發(fā)出精確指令,從而控制駕駛、示的高質(zhì)量、多樣化數(shù)據(jù)集以進(jìn)行不同人物場景的機(jī)器人訓(xùn)練,涵蓋清潔整理、物品拾地區(qū)投入商業(yè)化應(yīng)用;雙足人形機(jī)器人NEO則仍在研發(fā)階段,預(yù)計將于2024年正式發(fā)資料來源:YouTube,西部證券研發(fā)中心資料來源:YouTube,西部證券研發(fā)中心2.2.10Figure01:能聽、能說、能自主決策的人形機(jī)時內(nèi)學(xué)會制作咖啡的技能,且會自我糾錯,比如咖啡控制的情況下能夠進(jìn)行自主學(xué)習(xí)和自主決策,理解人類自然語言命令并流暢地完成向人類遞蘋果、將黑色塑料袋收拾進(jìn)筐子里、將杯子和到的圖像以及機(jī)載麥克風(fēng)捕獲到的語音等輸入到由OpenAI訓(xùn)練的多模態(tài)大模型中,再由大模型對這些圖像和語音進(jìn)行處理并通過文本到語音的方式反饋給人類;在此環(huán)節(jié)中,行響應(yīng)策略并完成給定任務(wù)。據(jù)Figure的工程師介紹,在多模態(tài)大模型的加持下Figure01目前可以完成描述視覺體驗(yàn)、規(guī)劃未來行動、反思自身記憶以及闡述推理過資料來源:新智元微信公眾號、西部證券研發(fā)中心示視頻,能根據(jù)收集到的空間定位和語義信息,理解任務(wù)并規(guī)劃,再配合其機(jī)械臂與靈巧手的精確操作,端到端地執(zhí)行任務(wù)。WalkerS在獲得人類指令后,自主規(guī)劃和執(zhí)行疊衣服,并遞給人類。特斯拉擎天柱此前也完成了一次靈巧疊衣服的任務(wù),不過那仍是人類遠(yuǎn)程操作的。未來人形機(jī)器人要解決和完成更多任務(wù),依然需要自主規(guī)劃和實(shí)現(xiàn)任務(wù)資料來源:深圳發(fā)布微信公眾號、優(yōu)必選科技視頻號、西部證券研發(fā)中心2.2.11GR00T——通用人形機(jī)器人基礎(chǔ)模型GR00T可充當(dāng)機(jī)器人的大腦,使其能夠?qū)W習(xí)技能以解決各種任務(wù)。GR00T能夠驅(qū)使機(jī)器人理解自然語言、視頻和人類演示等多模態(tài)指令,從而增強(qiáng)學(xué)習(xí)技能和處理任務(wù)的協(xié)并部署到JetsonThor上。目Apptronik、BostonDynamics、FigureAI、FourierIntelligence、資料來源:GTC2024、西部證券研發(fā)中心資料來源:GTC2024、西部證券研發(fā)中心2)機(jī)器人大模型:科大訊飛、商湯-W、云從科技-UW。人形機(jī)器人技術(shù)發(fā)展不及預(yù)期。人形機(jī)器人技術(shù)的發(fā)展面臨著多重挑戰(zhàn),包括但不限于動力系統(tǒng)穩(wěn)定性、感知與交互技術(shù)的精確度、人工智能算法的復(fù)雜決策能力以及自主導(dǎo)航和適應(yīng)性學(xué)習(xí)等關(guān)鍵技術(shù)瓶頸。這些問題的解決速度和成果直接影響到機(jī)器人能否按政策法規(guī)環(huán)境不確定風(fēng)險。隨著人形機(jī)器人技術(shù)的快速發(fā)展,現(xiàn)行法律法規(guī)可能尚未跟上技術(shù)進(jìn)步的步伐,導(dǎo)致在隱私保護(hù)、安全性標(biāo)準(zhǔn)、倫理道德約束以及知識產(chǎn)權(quán)保護(hù)等供應(yīng)鏈與制造成本上升風(fēng)險。人形機(jī)器人零部件供應(yīng)的穩(wěn)定性、核心部件(如伺服電機(jī)、傳感器、控制器等)以及新材料和先進(jìn)制造技術(shù)的普及程度,都可能對機(jī)器人整體成本國際競爭加劇與技術(shù)替代風(fēng)險。在全球范圍內(nèi),人形機(jī)器人產(chǎn)業(yè)的競爭日趨白熱化,技術(shù)創(chuàng)新速度快慢、競品出現(xiàn)以及其它形式的服務(wù)機(jī)器人或自動化解決方案的興起,都有可能擠壓人形機(jī)器人市場份額,導(dǎo)致前期投資回報率下降。此外,隨著技術(shù)演進(jìn),可能公司評級報告中所涉及的投資評級采用相對評級體系,基于報告發(fā)布日后6-12個月內(nèi)公司股本人具有中國證券業(yè)協(xié)會授予的證券投資咨詢執(zhí)業(yè)資格并注冊為證券分析師,以勤勉的職業(yè)態(tài)度、專業(yè)審慎的研究方法,使用合法合規(guī)的信息,獨(dú)立、客觀地出具本報告。本報告清晰準(zhǔn)確地反映了本人的研究觀點(diǎn)。本人不曾因,不因,也將不會因本報告中的具體推本報告由西部證券股份有限公司(已具備中國證監(jiān)會批復(fù)的證券投資咨詢業(yè)務(wù)資格)制作。機(jī)構(gòu)客戶使用。本報告在未經(jīng)本公司公開披露或者同意披露前,系本公司機(jī)密材料,如非收件人(或收到的電子郵件含錯誤信息請立即通知發(fā)件人,及時刪除該郵件及所附報告并予以保密。發(fā)送本報告的電子郵件可能含有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論