信息服務(wù)行業(yè)專題報(bào)告：EAI（具身智能）：驅(qū)動(dòng)人工智能與機(jī)器人產(chǎn)業(yè)的關(guān)鍵技術(shù)

上傳人：策*** IP屬地：山西上傳時(shí)間：2024-11-29 格式：DOCX 頁數(shù)：65 大?。?.32MB 積分：19.9 舉報(bào) 版權(quán)申訴

信息服務(wù)行業(yè)專題報(bào)告：EAI（具身智能）：驅(qū)動(dòng)人工智能與機(jī)器人產(chǎn)業(yè)的關(guān)鍵技術(shù)_第2頁

信息服務(wù)行業(yè)專題報(bào)告：EAI（具身智能）：驅(qū)動(dòng)人工智能與機(jī)器人產(chǎn)業(yè)的關(guān)鍵技術(shù)_第3頁

信息服務(wù)行業(yè)專題報(bào)告：EAI（具身智能）：驅(qū)動(dòng)人工智能與機(jī)器人產(chǎn)業(yè)的關(guān)鍵技術(shù)_第4頁

信息服務(wù)行業(yè)專題報(bào)告：EAI（具身智能）：驅(qū)動(dòng)人工智能與機(jī)器人產(chǎn)業(yè)的關(guān)鍵技術(shù)_第5頁

已閱讀5頁，還剩60頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

lEAI構(gòu)建新概念，相關(guān)政策推動(dòng)技術(shù)發(fā)展：具身智能（EmbodiedAI，EAI）由艾倫·圖靈于1950年提出，通過“具身圖靈測試”驗(yàn)證智能體是否能處理物理世界的復(fù)雜性。具身智能體不同于僅在網(wǎng)絡(luò)空間中運(yùn)作的非實(shí)體人工智能，它們結(jié)合了多模態(tài)大模型（MLMs）和世界模型（WMs具備強(qiáng)大的感知、交互和規(guī)劃能力，能夠在虛擬和物理環(huán)境中主動(dòng)適應(yīng)并執(zhí)行任務(wù)。相比傳統(tǒng)的預(yù)編程系統(tǒng)，具身智能體更依賴于構(gòu)建世界模型和想象力，以實(shí)現(xiàn)復(fù)雜的推理和決策。目前，上海和北京等地陸續(xù)出臺政策，推動(dòng)智能機(jī)器人和制造業(yè)的高質(zhì)量發(fā)展，上海目標(biāo)到2025年實(shí)現(xiàn)行業(yè)標(biāo)桿企業(yè)的建立。海外方面，美國在機(jī)器人工業(yè)應(yīng)用和商業(yè)化方面的進(jìn)展更為成熟，中國仍在探索階段。l從模擬、感知、交互三方面訓(xùn)練具身智能：模擬器在訓(xùn)練具身智能中扮演了重要角色，通過提供逼真的虛擬環(huán)境進(jìn)行算法開發(fā)和模型訓(xùn)練，幫助研究人員在降低成本、提高安全性和加速迭代的同時(shí)，將研究成果更快地轉(zhuǎn)化為現(xiàn)實(shí)應(yīng)用。另外，具身感知讓智能體理解物理世界中的視覺推理和空間，技術(shù)包括視覺同步定位與繪圖（vSLAM）和3D視覺定位，幫助智能體在動(dòng)態(tài)環(huán)境中移動(dòng)和互動(dòng)。具身交互則強(qiáng)調(diào)智能體在物理或模擬空間中與環(huán)境和人類的互動(dòng)能力，典型任務(wù)如具身問題解答（EQA需要智能體主動(dòng)探索環(huán)境，整合信息并執(zhí)行目標(biāo)導(dǎo)向的動(dòng)作。l具身智能產(chǎn)品多樣，覆蓋廣闊市場：不同類型的機(jī)器人在各自的應(yīng)用領(lǐng)域中展現(xiàn)出重要的功能和價(jià)值。1）固定式機(jī)器人因其高精度和穩(wěn)定性，廣泛應(yīng)用于實(shí)驗(yàn)室自動(dòng)化、教育和工業(yè)制造。2）輪式機(jī)器人在物流、倉儲和安全檢查中表現(xiàn)優(yōu)異，而履帶式機(jī)器人適用于農(nóng)業(yè)、建筑和軍事等復(fù)雜地形。3）四足機(jī)器人因其穩(wěn)定性和適應(yīng)性，廣泛用于復(fù)雜地形探索、救援任務(wù)和軍事行動(dòng)。4）人形機(jī)器人在服務(wù)業(yè)、醫(yī)療保健和協(xié)作環(huán)境中日益普及，應(yīng)用于智能交互、精密制造和醫(yī)療手術(shù)等領(lǐng)域。各類機(jī)器人在多種應(yīng)用場景中展現(xiàn)獨(dú)特優(yōu)勢，同時(shí)也面臨不同的技術(shù)挑戰(zhàn)。l投資建議：我們認(rèn)為具身智能（EAI）是推動(dòng)通用人工智能（AGI）發(fā)展的關(guān)鍵技術(shù)，具有廣闊的應(yīng)用前景。其技術(shù)涵蓋計(jì)算機(jī)視覺、自然語言處理和機(jī)器人技術(shù)，尤其在具身感知和交互方面表現(xiàn)突出?；诙嗄B(tài)大模型和世界模型的具身智能體，不僅能夠理解并適應(yīng)復(fù)雜的物理和虛擬環(huán)境，還能在動(dòng)態(tài)場景中與人類自然互動(dòng)，執(zhí)行復(fù)雜任務(wù)。根據(jù)證券時(shí)報(bào)援引賽迪顧問發(fā)布的《2024中國人形機(jī)器人產(chǎn)業(yè)生態(tài)發(fā)展研究》顯示，全球具身智能市場將在未來幾年持續(xù)增長，尤其是在工業(yè)自動(dòng)化和服務(wù)機(jī)器人領(lǐng)域。此外，隨著智能制造和人形機(jī)器人技術(shù)的快速發(fā)展，預(yù)計(jì)到2026年，中國人形機(jī)器人市場規(guī)模將突破200億元。各地政策的積極推動(dòng)，如上海和北京的智能機(jī)器人發(fā)展計(jì)劃，將進(jìn)一步加速具身智能的技術(shù)進(jìn)步和市場應(yīng)用。l建議關(guān)注：AI算力、模型和應(yīng)用。算力：英偉達(dá)、寒武紀(jì)-U、海光信息、景嘉微、龍芯中科、浪潮信息、中科曙光、神州數(shù)碼、軟通動(dòng)力、中國長城；模型：科大訊飛、中控技術(shù)、?？低?、大華股份、商湯-W；應(yīng)用：微軟、金山辦公、賽意信息、寶信軟件、萬興科技、虹軟科技、新致軟件、新國都、中科創(chuàng)達(dá)、索辰科技、比亞迪電子。l風(fēng)險(xiǎn)提示：1.大模型發(fā)展不及預(yù)期；2.EAI發(fā)展不及預(yù)期；3.具身智能下游需求行業(yè)研究·信息服務(wù)行業(yè)21.發(fā)展路線：EAI構(gòu)建新概念，相關(guān)政策推動(dòng)技術(shù)發(fā)展 52.技術(shù)背景：從模擬、感知、交互三方面訓(xùn)練EAI 62.1EAI概念解析，虛擬與物理環(huán)境的結(jié)合 72.2具身模擬器（EmbodiedSimulator） 72.2.1通用模擬器（GeneralSimulator） 82.2.1基于真實(shí)世界的模擬器（Real-SceneBasedSimulators） 2.3具身感知（EmbodiedPreception） 2.3.1視覺同步定位和繪圖(vSLAM) 2.3.23D視覺定位 2.3.3視覺語言導(dǎo)航（VisualLanguageNavigation） 2.3具身交互（EmbodiedIntereaction） 2.4具身智能全面落地仍需解決四大難題 3.應(yīng)用場景：具身智能產(chǎn)品多樣，覆蓋廣闊市場 3.1固定基座機(jī)器人：全面賦能實(shí)驗(yàn)室與工業(yè)場景 3.2輪式/履帶式機(jī)器人：高機(jī)動(dòng)性適應(yīng)復(fù)雜道路環(huán)境 3.3四足機(jī)器人：龍頭制造商占據(jù)大量市場份額 3.4人形機(jī)器人：未來擁有強(qiáng)大潛力，技術(shù)仍需探索 4.潛在標(biāo)的：美國商業(yè)化更為成熟，中國仍需探索 4.1FigureAI：獲巨頭投資，技術(shù)不斷成熟 4.2特斯拉Optimus：優(yōu)先賦能特斯拉工廠 4.3宇樹科技：技術(shù)領(lǐng)先，覆蓋場景多元 4.4中科創(chuàng)達(dá)：布局端側(cè)智能+機(jī)器人 4.5有鹿機(jī)器人：引入“通用智能大腦”概念 4.6科大訊飛：訊飛超腦計(jì)劃，讓機(jī)器人走向通才 4.7?？低暎阂曈X與移動(dòng)機(jī)器人提供商 4.8比亞迪電子：AMR提供物流解決方案 5.投資建議 6.風(fēng)險(xiǎn)提示行業(yè)研究·信息服務(wù)行業(yè)3 圖1中美機(jī)器人企業(yè)落地進(jìn)度一覽 6圖2基于MLM和WM的具身智能框架 7圖3通用模擬器的例子 8圖4IsaacSim架構(gòu) 8圖5IsaacSim工作界面 9圖6Isaac模擬機(jī)械手臂 9圖7Isaac模擬無人機(jī)飛行 9圖8基于真實(shí)世界的模擬器實(shí)例圖9ThreeDWorld（TDW）設(shè)計(jì)展示圖10多智能體互動(dòng)和VR能力圖11vSLAM架構(gòu)展示圖123D視覺定位中的分級定位圖13共視聚類概念展示圖14NaVid架構(gòu)圖圖15EQA任務(wù)例子圖16ROMAN框架的功能圖17ROMAN從錯(cuò)誤中恢復(fù)的效果展示圖182013年-2023年亞馬遜機(jī)器人應(yīng)用數(shù)量圖19KIVA機(jī)器人構(gòu)造圖202018年-2022年中國移動(dòng)機(jī)器人市場規(guī)模圖212022年中國移動(dòng)機(jī)器人市場規(guī)模分布情況圖22四足機(jī)器人發(fā)展路線圖23人形機(jī)器人產(chǎn)業(yè)各大關(guān)聯(lián)廠商圖24人形機(jī)器人應(yīng)用展望圖252024-2035年人形機(jī)器人市場規(guī)模預(yù)測圖26FigureAI第一代與第二代機(jī)器人圖27語音模塊的工作模式解析圖28特斯拉Optimus自主工作圖29宇樹科技產(chǎn)品一覽圖30CES2024宇樹科技產(chǎn)品展示行業(yè)研究·信息服務(wù)行業(yè)4圖31中科創(chuàng)達(dá)機(jī)器人產(chǎn)品圖32有鹿機(jī)器人具身智能大模型圖33有鹿機(jī)器人打造“通用大腦”概念圖34科大訊飛機(jī)器人平臺架構(gòu) 圖35科大訊飛超腦計(jì)劃2030 圖36?？低曇苿?dòng)機(jī)器人產(chǎn)品一覽圖37比亞迪電子AMR機(jī)器人表1實(shí)體人工智能和非實(shí)體人工智能 5表2政策推動(dòng)人工智能技術(shù)發(fā)展 5行業(yè)研究·信息服務(wù)行業(yè)5具身智能（EmbodiedAI）最初是由艾倫-圖靈（AlanTuring）于1950年提出的“具身圖靈測試”（EmbodiedTuringTest旨在確定智能體是否能夠展現(xiàn)出解決虛擬環(huán)境中問題的能力，而且能夠駕馭物理世界的復(fù)雜性和不可預(yù)測性。網(wǎng)絡(luò)空間中的智能體通常被稱為非實(shí)體人工智能，而物理空間中的智能體則是實(shí)體人工智能。多模態(tài)大模型（MLMs）的最新進(jìn)展為具身模型注入了強(qiáng)大的感知、交互和規(guī)劃能力，從而開發(fā)出能與虛擬和物理環(huán)境積極交互的通用具身智能體和機(jī)器人。因此，具身智能體被廣泛認(rèn)為是MLMs的最佳載體，目前最有代表性的具身模型是RT-2和RT-H。無要讓AI像人類一樣理解這個(gè)物理世界，它必須能夠以人類的方式解釋和理解場景。比如，當(dāng)AI被放置在一個(gè)房間里時(shí)，它需要能夠像人類那樣分析和解讀周圍的環(huán)境。另外，在不同領(lǐng)域之間建立聯(lián)系，或者試圖發(fā)現(xiàn)新知識時(shí)，傳統(tǒng)的預(yù)編程和特定領(lǐng)域的專業(yè)系統(tǒng)已經(jīng)無法滿足需求。這些系統(tǒng)受到現(xiàn)有內(nèi)置知識的限制，很難實(shí)現(xiàn)新的發(fā)現(xiàn)、創(chuàng)新和創(chuàng)造。讓AI變得更聰明的關(guān)鍵在于利用“想象力”，其實(shí)就是人類和其他動(dòng)物依靠世界的現(xiàn)有模式生成的想法，它是一個(gè)非常強(qiáng)大的規(guī)劃工具。為了讓AI有效地規(guī)劃，它需要構(gòu)建一個(gè)關(guān)于世界的模型（WMs并能夠利用這個(gè)模型進(jìn)行推理和決策。因此，具身認(rèn)知至關(guān)重要。系統(tǒng)需要通過具身認(rèn)知來獲取知識，并進(jìn)一步生成抽象的認(rèn)知。《上海市智能機(jī)器人標(biāo)桿企各區(qū)產(chǎn)業(yè)主管部門支持推動(dòng)以機(jī)器人為代表的智能100個(gè)標(biāo)桿示范的機(jī)器人應(yīng)用場景、1《北京市機(jī)器人產(chǎn)業(yè)創(chuàng)新發(fā)加緊布局人形機(jī)器人，對標(biāo)國際領(lǐng)先人形機(jī)器人產(chǎn)品展人形機(jī)器人整機(jī)產(chǎn)品、關(guān)鍵零部件攻關(guān)和工程化，人產(chǎn)業(yè)創(chuàng)新中心。以人形機(jī)器人小批量生產(chǎn)和應(yīng)用為軟件及接口、通用硬件開發(fā)配套設(shè)施等基礎(chǔ)條件，集開展關(guān)鍵共性技術(shù)研究。支持機(jī)器人企業(yè)與“智能機(jī)器人與系統(tǒng)高精尖創(chuàng)新中資料來源：上海市經(jīng)濟(jì)和信息化委員會，上海市人民政府，行業(yè)研究·信息服務(wù)行業(yè)6相關(guān)政策已落地，帶動(dòng)具身智能行業(yè)發(fā)展。例如上海市的政策重點(diǎn)是推動(dòng)智能機(jī)器人和智能制造業(yè)的發(fā)展，目標(biāo)是通過營商環(huán)境的優(yōu)化和創(chuàng)新基地的建設(shè)，到2025年實(shí)現(xiàn)行業(yè)標(biāo)桿企業(yè)和應(yīng)用場景的建立。北京市的政策則側(cè)重于機(jī)器人產(chǎn)業(yè)的創(chuàng)新發(fā)展，特別是對高端機(jī)器人產(chǎn)品和國際化布局的支持，旨在推動(dòng)產(chǎn)業(yè)生態(tài)系統(tǒng)的完善和技術(shù)創(chuàng)新。美國在機(jī)器人工業(yè)應(yīng)用和商業(yè)化方面的進(jìn)展更為成熟，中國仍在探索階段。美國和中國的機(jī)器人技術(shù)進(jìn)展和落地進(jìn)度存在一些顯著差異。美國的機(jī)器人企業(yè)，如特斯拉和FigureAI，已在2024年中旬進(jìn)入工廠，負(fù)責(zé)分揀電池和簡單抓取的任務(wù)。AgilityRobotics與亞馬遜的合作已經(jīng)在2023年展開，推進(jìn)了物流和自動(dòng)化領(lǐng)域的實(shí)際應(yīng)用。SanctuaryAI也計(jì)劃在2024年開始商業(yè)運(yùn)營，重點(diǎn)放在智慧城市和建筑領(lǐng)域的智能服務(wù)上。相比之下，中國的機(jī)器人企業(yè)雖然在多個(gè)領(lǐng)域（如安防、教育和娛樂）都有布局，但整體落地進(jìn)度稍慢。例如，優(yōu)必選的WalkerS預(yù)計(jì)在2024年初開始量產(chǎn)，主要用于門鎖質(zhì)檢和汽車制造領(lǐng)域。其他企業(yè)如小米機(jī)器人和波士頓動(dòng)力的項(xiàng)目仍在研發(fā)階段，逐步優(yōu)化視覺和環(huán)境交互技術(shù)。虛擬對話的智能體（如ChatGPT）不同，它們可以通過控制物理實(shí)體在現(xiàn)實(shí)和模擬環(huán)境中進(jìn)行交互。該技術(shù)涵蓋了多個(gè)領(lǐng)域，包括計(jì)算機(jī)視覺、自然語言處理和機(jī)器人技術(shù)，特別是在具身感知、具身交互以及從模擬到現(xiàn)實(shí)的機(jī)器人控制方面展現(xiàn)了顯著優(yōu)勢。具身智能體依托于多模態(tài)大模型（MLMs）和世界模型（WMs像“腦”一樣理解虛擬與物理環(huán)境，主動(dòng)感知多模態(tài)元素，并根據(jù)人類的意圖進(jìn)行任務(wù)分解與執(zhí)行。它們不僅能夠與人類互動(dòng)，還能夠借助知識庫和工具完成復(fù)雜任務(wù)，展現(xiàn)出比傳統(tǒng)深度強(qiáng)化學(xué)習(xí)更高的靈活性和通用性。模擬器在訓(xùn)練具身智能中扮演了重要角色，通過提供逼真的虛擬環(huán)境進(jìn)行算法開發(fā)和模型訓(xùn)練，幫助研究人員在降低成本、提高安全性和加速迭代的同時(shí)，將研究成果更快地轉(zhuǎn)化為現(xiàn)實(shí)應(yīng)用。同時(shí)，具身感知讓智能體理解物理世界中的視覺推動(dòng)態(tài)環(huán)境中移動(dòng)和互動(dòng)。具身交互則強(qiáng)調(diào)智能體在物理或模擬空間中與環(huán)境和人類行業(yè)研究·信息服務(wù)行業(yè)7具身智能的發(fā)展是實(shí)現(xiàn)通用人工智能（AGI）的重要基礎(chǔ)。與類似ChatGPT的對話智能體不同，具身智能可以通過控制物理實(shí)體并在模擬和物理環(huán)境中進(jìn)行交互來實(shí)現(xiàn)。目前，具身智能涵蓋了計(jì)算機(jī)視覺（CV）、自然語言處理（NLP）和機(jī)器人技術(shù)等多個(gè)關(guān)鍵技術(shù)領(lǐng)域，最具代表性的是具身感知、具身交互、具身智能體和模擬到現(xiàn)實(shí)的機(jī)器人控圖2基于MLM和WM的具身智能框架基于多模態(tài)大模型（MLMs）和世界模型（WMs具身智能體能夠用“腦”來理解虛擬和物理環(huán)境，并主動(dòng)感知多模態(tài)元素。主要的內(nèi)容包括：1）具身世界模型（EmbodiedWorldModel這是具身智能體的核心，類似于智能體的大腦。它能夠理解虛擬與物理環(huán)境，并進(jìn)行多模態(tài)感知。2）多模態(tài)感知：智能體能夠全面感知來自虛擬和物理環(huán)境的多模態(tài)元素，這意味著它可以處理不同來源的數(shù)據(jù)，如視覺、觸覺等。3）人類意圖理解與對齊：具身智能體能夠充分理解人類通過語言表達(dá)的意圖，并與人類的價(jià)值觀對齊，確保其行為符合人類的期望。4）任務(wù)分解與執(zhí)行：智能體具備將復(fù)雜任務(wù)分解為子任務(wù)的能力，并且能夠精確執(zhí)行這些任務(wù)。此外，它還能夠與人類進(jìn)行互動(dòng)，并利用知識庫和工具來完成任務(wù)。通過這些特性，具身智能體可以在復(fù)雜的動(dòng)態(tài)環(huán)境中與人類自然互動(dòng)，并可靠地完成任務(wù)，展現(xiàn)出比傳統(tǒng)深度強(qiáng)化學(xué)習(xí)方法更高的靈活性和通用性。模擬器顯著提升了AI訓(xùn)練的效率，并節(jié)省了大量成本。數(shù)據(jù)匱乏一直是具身人工智能研究面臨的挑戰(zhàn)，收集真實(shí)世界的機(jī)器人數(shù)據(jù)需要花費(fèi)大量時(shí)間和成本。首先，現(xiàn)實(shí)世界中的機(jī)器人訓(xùn)練需要搭建專門的物理場所，導(dǎo)致訓(xùn)練進(jìn)展緩慢，效率難以提升。另外，搭建專屬場地、頻繁的數(shù)據(jù)收集、聘請機(jī)器人專家操作等涉及的成本很高。此外，最重要的挑戰(zhàn)在于可重復(fù)性，因?yàn)闄C(jī)器人的硬件配置、控制方法和實(shí)施框架存在巨大差異，阻礙了數(shù)據(jù)的復(fù)用性。在這種情況下，模擬器為具身人工智能的數(shù)據(jù)收集和訓(xùn)練提供了一種全新的解決方案。具身模擬器對于EAI技術(shù)至關(guān)重要，因?yàn)樗鼈兡芴峁┮粋€(gè)經(jīng)濟(jì)有效、可擴(kuò)展且安全的實(shí)驗(yàn)平臺。通過模擬潛在的危險(xiǎn)場景，可以在不同環(huán)境中進(jìn)行測試，支持更快的機(jī)器人原型設(shè)計(jì)，并向更廣泛的研究群體開放。具身模擬器還能提供用于精確研究的受控環(huán)境，生成用于培訓(xùn)和評估的數(shù)據(jù)，并提供一個(gè)標(biāo)準(zhǔn)化準(zhǔn)則。為了讓具身智能體與環(huán)境互動(dòng)，構(gòu)建一個(gè)符合物理理論的模擬環(huán)境也十分重要，這就要求對環(huán)境的物理特性、物體的屬性及其相互作用進(jìn)行全面考量。行業(yè)研究·信息服務(wù)行業(yè)8具身人工智能的最終目標(biāo)是將虛擬環(huán)境中的研究成果轉(zhuǎn)化為現(xiàn)實(shí)世界中的應(yīng)用。研究人員可以選擇最適合自己需要的模擬器來輔助研究。通用模擬器提供了一個(gè)近似物理世界的虛擬環(huán)境，可以進(jìn)行算法開發(fā)和模型訓(xùn)練，在成本、時(shí)間和安全性方面都有顯著IsaacSim是一個(gè)專為NVIDIAOmniverse平臺開發(fā)的機(jī)器人仿真工具包，它提供了構(gòu)建仿真機(jī)器人世界和進(jìn)行實(shí)驗(yàn)所需的大部分功能。IsaacSim可以接受來自不同來源的輸入，比如Onshape、URDF、MJCF、USD，其中USD直接導(dǎo)入IsaacSim，其他類型的輸入則會通過對應(yīng)的importer插件進(jìn)行導(dǎo)入。Onshape是一種基于云的計(jì)算機(jī)輔助設(shè)計(jì)（CAD）軟件，用于進(jìn)行三維建模和設(shè)計(jì)工作。類似于Fusion360。URDF（UnifiedRobotDescriptionFormat）是一種XML文件格式，用于描述機(jī)器人模型的幾何形狀、連接性、關(guān)節(jié)、傳感器和其他相關(guān)信息。在這個(gè)架構(gòu)中，USD（UniversalSceneDescription）用作場景描述，用于在不同工具之間進(jìn)行內(nèi)容創(chuàng)建和交換。目前USD正在廣泛應(yīng)用，不僅在視覺效果社區(qū)，還在建筑、設(shè)計(jì)、機(jī)器人技術(shù)、制造和其他領(lǐng)域中得到采用。行業(yè)研究·信息服務(wù)行業(yè)9該工具包還提供了創(chuàng)建穩(wěn)健、物理精確的仿真和合成數(shù)據(jù)集所需的工具和工作流程。IsaacSim支持常見的機(jī)器人框架，如ROS/ROS2，允許用戶通過這些框架進(jìn)行導(dǎo)航和操作應(yīng)用。此外，IsaacSim能夠模擬來自多種傳感器的數(shù)據(jù)，包括RGB-D、激光雷達(dá)和IMU，適用于各種計(jì)算機(jī)視覺技術(shù)，如域隨機(jī)化、地面真值標(biāo)注、分割和邊界框的生成。機(jī)器人仿真是利用計(jì)算機(jī)技術(shù)來模擬機(jī)器人運(yùn)動(dòng)、感知和互動(dòng)的過程。這一過程涵蓋了機(jī)器人硬件和軟件系統(tǒng)的模擬，以便在虛擬環(huán)境中對機(jī)器人的算法和控制策略進(jìn)行測試、開發(fā)和驗(yàn)證。其中的好處包括1）成本控制：仿真環(huán)境能顯著降低機(jī)器人開發(fā)與測試成本，避免了對昂貴硬件和設(shè)備的依賴。若不使用仿真，而采用大量真實(shí)機(jī)器人進(jìn)行測試，將面臨硬件組裝、調(diào)試及損壞等高昂的時(shí)間與經(jīng)濟(jì)成本。尤其對于特殊測試場景，如沙漠或核電站，搭建逼真測試環(huán)境的成本同樣極高。2）安全性保障：例如在工業(yè)機(jī)械臂、無人機(jī)等機(jī)器人設(shè)備調(diào)試中，無人機(jī)失控墜毀或機(jī)械臂故障會對企業(yè)的人員安全構(gòu)成威脅。3）快速迭代：仿真環(huán)境避免了對真實(shí)機(jī)器人的繁瑣調(diào)試，例如為一千臺機(jī)器人重新燒錄固件或修改搭載的算法，從而節(jié)省了大量的調(diào)試時(shí)間。并且模擬器允許開發(fā)人員快速迭代機(jī)器人的算法和控制器，以優(yōu)化性能和功能。行業(yè)研究·信息服務(wù)行業(yè)10在室內(nèi)活動(dòng)中實(shí)現(xiàn)通用具身智能一直是AI研究領(lǐng)域的重點(diǎn)。這些具身智能體需要深入理解人類的日常生活，并執(zhí)行復(fù)雜的具身任務(wù)，如室內(nèi)環(huán)境中的導(dǎo)航和交互。為了滿足這些復(fù)雜任務(wù)的需求，模擬環(huán)境需要盡可能接近真實(shí)世界，這就對模擬器的復(fù)雜性和逼真度提出了很高的要求。因此，基于真實(shí)世界環(huán)境的模擬器應(yīng)運(yùn)而生。這些模擬器大多從現(xiàn)實(shí)世界收集數(shù)據(jù)，創(chuàng)建逼真的三維資產(chǎn)，并使用UE5（虛幻5）和Unity等三維游戲引擎構(gòu)建場景。豐富而逼真的場景使基于真實(shí)世界環(huán)境的模擬器成為研究家居活動(dòng)中的體現(xiàn)式人工智能的首選。在騰訊網(wǎng)援引映維網(wǎng)的文章中指出，2021年，麻省理工學(xué)院（MIT）、MIT-IBM沃森人工智能實(shí)驗(yàn)室、哈佛大學(xué)和斯坦福大學(xué)的研究人員開發(fā)了一個(gè)名為ThreeDWorld（TDW）的平臺，并希望創(chuàng)造一個(gè)類似于《黑客帝國》的豐富虛擬世界。TDW能夠模擬室內(nèi)和室外的高保真音頻和視頻環(huán)境，并允許用戶像在現(xiàn)實(shí)生活中一樣根據(jù)物理定律與對象進(jìn)行交互。當(dāng)發(fā)生相互作用時(shí)，系統(tǒng)能夠計(jì)算并執(zhí)行流體、柔體和剛體的對象方向、物理特征和速度，從而產(chǎn)生精確的碰撞和撞擊聲音。TDW支持在三維環(huán)境中模擬移動(dòng)智能體和對象之間的高保真感覺數(shù)據(jù)和物理交互。獨(dú)特的特性包括：實(shí)時(shí)接近照片真實(shí)感的圖像渲染；各種物質(zhì)類型的真實(shí)物理交互作用，包括布、液體和可變形物體；具身智能體的可定制“智能體”；并支持人類與VR設(shè)備的交互。TDW的API允許多個(gè)智能體在模擬中交互，并返回代表世界狀態(tài)的傳感器和物理數(shù)據(jù)范圍。YangLiu等人介紹了TDW在計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和認(rèn)知科學(xué)等新興研究方向上的初步實(shí)驗(yàn)，包括多模態(tài)物理場景理解、物理動(dòng)力學(xué)預(yù)測、多智能體交互、“像孩子一樣學(xué)習(xí)”的模型，以及人類和神經(jīng)網(wǎng)絡(luò)的注意力研究。行業(yè)研究·信息服務(wù)行業(yè)11利用TDW的多智能體API的靈活性，可以創(chuàng)建各種多智能體交互設(shè)置的實(shí)現(xiàn)。其中包括一個(gè)“觀察者”智能體被安置在一個(gè)有多個(gè)無生命物體的房間里，與幾個(gè)不同控制的“行動(dòng)者”智能體一起（圖9a)?！靶袆?dòng)者”智能體由硬編碼或交互策略控制，實(shí)現(xiàn)對象操作、追逐和隱藏以及運(yùn)動(dòng)模仿等行為。在這種情況下，人類觀察者只被要求看他們想看的任何東西，而虛擬觀察者尋求最大限度地提高其預(yù)測同一顯示中參與者行為的能力，根據(jù)“進(jìn)展好奇心”的度量來分配其注意力，該度量尋求估計(jì)哪些觀察最有可能增加觀察者做出參與者預(yù)測的能力。具身感知未來主要的發(fā)展方向是以智能體為中心的視覺推理。與僅僅識別圖像中的物體不同，具有具身感知能力的智能體必須在物理世界中移動(dòng)并與環(huán)境互動(dòng)。這就要求對三維空間和動(dòng)態(tài)環(huán)境有更深入的了解。2.3.1視覺同步定位和繪圖(vSSLAM(SimultaneousLocalizationAndMapping，同步定位與地圖構(gòu)建)，主要為了解決移動(dòng)機(jī)器人在未知環(huán)境運(yùn)行時(shí)定位導(dǎo)航與地圖構(gòu)建的問題。SLAM能夠解決機(jī)器人在陌生環(huán)境中的定位、環(huán)境感知、移動(dòng)方向等問題。機(jī)器人可以配置多種傳感器來實(shí)現(xiàn)SLAM，包括激光雷達(dá)（3D，2D毫米波雷達(dá)，超聲波，RGB-D，攝像頭（單目，多目）等，通常根據(jù)使用場景、制造成本、設(shè)備功率、算力的需求與約束，機(jī)器人采用不同傳感器或組合的解決方案，以減少誤差并提高準(zhǔn)確性。目前兩個(gè)主流的解決方案是基于激光雷達(dá)的LidarSLAM以及基于攝像頭的VisualSLAM。VSLAM即VisualSimultaneousLocalizationandMapping，主要是指如何用相機(jī)解決定位和建圖問題。當(dāng)用相機(jī)作為傳感器時(shí)，通過一張張連續(xù)運(yùn)動(dòng)的圖像(它們形成一段視頻)，從中推斷相機(jī)的運(yùn)動(dòng)，以及周圍環(huán)境的情況。VSLAM的技術(shù)框架主要由5部分組成，包括傳感器數(shù)據(jù)預(yù)處理、前端、后端、回環(huán)檢測、建圖。前端，又稱為視覺里程計(jì)（visualodometry，簡稱VO主要是研究如何根據(jù)相鄰幀圖像定量估算幀間相機(jī)的運(yùn)動(dòng)。通過把相鄰幀的運(yùn)動(dòng)軌跡串起來，就構(gòu)成相機(jī)載體（如機(jī)器人）的運(yùn)動(dòng)軌跡，解決定位的問題，然后根據(jù)估算的每個(gè)時(shí)刻相機(jī)的位置，計(jì)算出各像素的空間點(diǎn)的位置，就得到地圖。行業(yè)研究·信息服務(wù)行業(yè)123D視覺定位的核心任務(wù)在于確定當(dāng)前圖像中相機(jī)的位置和姿態(tài)。為實(shí)現(xiàn)這一目標(biāo)，最直接的方法是構(gòu)建三維空間點(diǎn)與二維圖像點(diǎn)之間的對應(yīng)關(guān)系，并基于這些匹配點(diǎn)對來估算相機(jī)的位姿。這一過程被專門定義為PnP（Perspective-n-Point）問題。求解PnP問題的方法有很多，常見的有P3P、EPnP、UPnP等。視覺定位需要解決的一大關(guān)鍵問題是HierarchicalLocalizationatLargeScale》中，作者Sarlin提出過一種分級定位的方案。分級定位的框架大約可以分成三步：預(yù)檢索、共視聚類、局部匹配與定位。預(yù)檢索：預(yù)檢索的意義在于獲取前k張與當(dāng)前圖像最相似的圖像，判斷相似的依據(jù)通常是通過匹配圖像的全局特征。一般而言，產(chǎn)生全局特征的方法可以依賴于局部特征所組成的詞袋，不過近些年，一些深度學(xué)習(xí)方案也被引入了進(jìn)來，例如NetVLAD或更加輕量級的MobileNetVLAD。最終通過獲取當(dāng)前圖像的全局特征的k個(gè)最近鄰來獲取預(yù)檢索得到的相近圖集。共視聚類：然而由于可能產(chǎn)生的錯(cuò)誤匹配，所獲取到的預(yù)檢索圖集并不一定全部都面向同一場景，這時(shí)就需要先將面向不同場景的圖像區(qū)分開來，這項(xiàng)技術(shù)就被稱作共視聚類，簡而言之就是將具有共視關(guān)系的圖像聚成一類。行業(yè)研究·信息服務(wù)行業(yè)13局部匹配與定位：一般認(rèn)為圖像數(shù)量較多的類所對應(yīng)的場景是正確場景的可能性較大。因此從這一場景開始，嘗試獲取相機(jī)位姿。獲取的方式主要依賴求解PnP問題，因此需要首先構(gòu)建當(dāng)前圖像的2D關(guān)鍵點(diǎn)在3D模型中的坐標(biāo)位置。在尚不知道相機(jī)姿態(tài)前，這一信息的獲取需要首先匹配當(dāng)前圖像和場景內(nèi)的圖像，特別要匹配那些能夠?qū)?yīng)到3D位置的2D特征點(diǎn)，若能夠匹配上則確定了當(dāng)前圖像中的2D點(diǎn)和3D點(diǎn)的對應(yīng)關(guān)系，繼而即可通過對PnP問題的求解獲取相機(jī)位姿。視覺語言導(dǎo)航（VisionLanguageNavigationVLN）是一種技術(shù)，它結(jié)合了計(jì)算機(jī)視覺、自然語言處理和自主學(xué)習(xí)三大核心技術(shù)，使智能體能夠跟隨自然語言指令進(jìn)行導(dǎo)航。這種技術(shù)不僅理解指令，還能理解指令與視角中可以看見的圖像信息，然后在環(huán)境中對自身所處狀態(tài)進(jìn)行調(diào)整和修復(fù)，最終做出對應(yīng)的動(dòng)作，以達(dá)到目標(biāo)位置。例如，如果把一個(gè)機(jī)器人放置在一間臥室里，并給它一個(gè)指令去取放在另一間臥室里的足球，由于兩個(gè)房間之間無法直接看見，機(jī)器人需要走出房間，經(jīng)過走廊、客廳等場所，通過理解并處理看到的每一處環(huán)境信息，判斷下一步的行進(jìn)方向，最終找到足球。NaVid是首個(gè)專為視覺語言導(dǎo)航（VLN）任務(wù)設(shè)計(jì)的基于視頻的視覺語言大模型。此模型模仿人類導(dǎo)航策略，僅將視頻信息作為輸入，無需地圖、里程計(jì)或深度數(shù)據(jù)的支持。在視覺語言導(dǎo)航任務(wù)中，模型需要借助歷史信息來判斷自己已完成指令的進(jìn)度。然而，歷史幀中往往包含大量冗余和重復(fù)的信息。對于當(dāng)前幀，模型不僅要提供該幀所在的最新場景信息，還需預(yù)測出符合指令的下一步合理動(dòng)作。資料來源：JiazhaoZhang《NaVid:Video-basedVLMPlanstheNext行業(yè)研究·信息服務(wù)行業(yè)14目前該方法還有兩個(gè)難點(diǎn)：1）導(dǎo)航數(shù)據(jù)的模態(tài)與大模型常見的數(shù)據(jù)模態(tài)不一致。機(jī)器人的導(dǎo)航數(shù)據(jù)需要建模歷史信息和當(dāng)前信息，并保證導(dǎo)航過程中動(dòng)作輸出的格式一致性。2）缺少大量高質(zhì)量的視覺語言導(dǎo)航任務(wù)的真實(shí)數(shù)據(jù)。在真實(shí)世界收集這樣的數(shù)據(jù)極其耗時(shí)耗力，且在場景和指令的多樣性上有欠缺。這些困難限制了視頻大模型用于導(dǎo)航任務(wù)的前景。具身交互任務(wù)指的是智能體在物理或模擬空間中與人類和環(huán)境進(jìn)行交互的場景。典型的具身交互任務(wù)是具身問題解答EmbodiedQuestionAnswering(EQA)。在這個(gè)任務(wù)里面，一個(gè)agent在三維虛擬空間中被進(jìn)行詢問，agent為了回答這個(gè)問題，需要在環(huán)境中進(jìn)行探索和信息整合。這個(gè)任務(wù)需要agent具有主動(dòng)的認(rèn)知、語言理解能力、目標(biāo)驅(qū)動(dòng)的探索、常識推理并將自然語言的信息整合到動(dòng)作序列中。圖中給出了EQA的一個(gè)形象化的表述，在這個(gè)例子中，向agent提出的文本問題為“車是什么顏色的？?,agent經(jīng)過在虛擬的環(huán)境中進(jìn)行探索，當(dāng)發(fā)現(xiàn)車子后，返回給系統(tǒng)“車是橘黃色的?！盓QA的最終目標(biāo)是：agent可以理解他們所處的環(huán)境（通過視覺等感知方式具有溝通交流的能力，可以采取一定的動(dòng)作（例如在環(huán)境中根據(jù)問答或?qū)υ掃M(jìn)行Agent需要具有的一些能力進(jìn)行具體的分析：主動(dòng)探索性:由于agent的出現(xiàn)地點(diǎn)是在環(huán)境中隨機(jī)生成的，所以agent需要進(jìn)行一定的動(dòng)作和移動(dòng)去尋找能夠回答問題的視覺信息。常識信息推理:agent沒有一個(gè)關(guān)于虛擬環(huán)境的地圖，所以agent需要自行對環(huán)境進(jìn)行探索。因此agent必須自行構(gòu)建一個(gè)常識系統(tǒng)，就像人一樣去比較有目的的進(jìn)行探索房屋（例如一個(gè)人接收到一個(gè)類似廚具顏色的問題，他會根據(jù)自己的常識經(jīng)驗(yàn)直接前往廚房、餐廳等去查看，拿到相應(yīng)的結(jié)果后再進(jìn)行回答，而不會漫無目的的在房間中摸索）。收斂性分析:在這個(gè)EQA的任務(wù)上，難度就是agent的探索可能是很長時(shí)間都難以收斂的（比如說問題是大房子里一共有多少個(gè)小房中有椅子，這種情況下agent可能跑了很多次也不能給出完全正確的答案。此時(shí)開發(fā)者也不知道究竟是agent理解錯(cuò)問題了，還是沒有識別出椅子，還是計(jì)數(shù)出現(xiàn)了錯(cuò)誤，這就導(dǎo)致進(jìn)行訓(xùn)練的時(shí)候，難度非常大為了解決這種問題，作者提出利用模仿學(xué)習(xí)的策略給agent進(jìn)行一個(gè)示范，或者是給出一些引導(dǎo)進(jìn)行前期的訓(xùn)練，以方便agent進(jìn)行更好的學(xué)習(xí)和收斂。行業(yè)研究·信息服務(wù)行業(yè)151.通用本體平臺的挑戰(zhàn)解決硬件的關(guān)鍵零部件技術(shù)突破，形成具有優(yōu)秀運(yùn)動(dòng)能力和操作能力的平臺級通用機(jī)器人產(chǎn)品；平衡機(jī)器人本體的可靠性、成本和通用能力是難題。尤其在被認(rèn)為是具身智能終極形態(tài)的人形機(jī)器人領(lǐng)域，相關(guān)研發(fā)依然是熱點(diǎn)和核心挑戰(zhàn)。2.智能體系統(tǒng)設(shè)計(jì)的難點(diǎn)智能體作為具身智能的核心，必須具備復(fù)雜環(huán)境感知和認(rèn)知能力。這包括3D環(huán)境感知、任務(wù)編排與執(zhí)行、多輪人機(jī)交互、long-term記憶和任務(wù)遷移等多項(xiàng)挑戰(zhàn)。此外，具身智能要求實(shí)時(shí)感知和決策能力，以適應(yīng)復(fù)雜和變化的環(huán)境。這要求高速的數(shù)據(jù)采集、傳輸和處理，以及實(shí)時(shí)的決策反應(yīng)，尤其是LLM所消耗的算力規(guī)模巨大，對于資源有限的機(jī)器人處理系統(tǒng)將形成巨大的數(shù)據(jù)量、AI計(jì)算能力和低延遲的挑戰(zhàn)。3.高質(zhì)量數(shù)據(jù)需求現(xiàn)實(shí)場景的復(fù)雜多變，使得現(xiàn)階段缺乏足夠的場景數(shù)據(jù)來訓(xùn)練一個(gè)完全通用的大模型，進(jìn)而讓智能體自我進(jìn)化。耦合的本體，需要實(shí)際部署到真實(shí)環(huán)境中，才能夠采集數(shù)據(jù)，這也是和非具身智能的明顯不同。但對于關(guān)鍵業(yè)務(wù)，要求成功率，則仍然需要高質(zhì)量的垂域數(shù)據(jù)。同時(shí)，通過層次化的智能體設(shè)計(jì)，將不同任務(wù)限定到特定領(lǐng)域，則是一個(gè)解決泛化和成功率的有效嘗試。4.虛擬與真實(shí)交互中的學(xué)習(xí)進(jìn)化通過虛擬與真實(shí)環(huán)境的互動(dòng)，具身智能體能夠持續(xù)學(xué)習(xí)和進(jìn)化，以應(yīng)對復(fù)雜環(huán)境。盡管形態(tài)變化無窮，但要在有限計(jì)算資源下快速學(xué)習(xí)合理的規(guī)劃和決策能力，是具身智能進(jìn)化中的重要課題。不同類型的機(jī)器人在各自的應(yīng)用領(lǐng)域中展現(xiàn)出重要的功能和價(jià)值。1）固定式機(jī)器人因其高精度和穩(wěn)定性，廣泛應(yīng)用于實(shí)驗(yàn)室自動(dòng)化、教育和工業(yè)制造。2）輪式機(jī)器人在物流、倉儲和安全檢查中表現(xiàn)優(yōu)異，而履帶式機(jī)器人適用于農(nóng)業(yè)、建筑和軍事等復(fù)雜地形。3）四足機(jī)器人因其穩(wěn)定性和適應(yīng)性，廣泛用于復(fù)雜地形探索、救援任務(wù)和軍事行動(dòng)。4）人形機(jī)器人在服務(wù)業(yè)、醫(yī)療保健和協(xié)作環(huán)境中日益普及，應(yīng)用于智能交互、精密制造和醫(yī)療手術(shù)等領(lǐng)域。各類機(jī)器人在不同應(yīng)用場景中展現(xiàn)獨(dú)特優(yōu)勢，同時(shí)面臨成本和技術(shù)挑戰(zhàn)。固定式機(jī)器人由于其精度和穩(wěn)定性，廣泛應(yīng)用于實(shí)驗(yàn)室自動(dòng)化、教育和工業(yè)制造。它們在需要高精度的任務(wù)中表現(xiàn)出色，但受限于固定位置，成本高且維護(hù)要求高。其中一個(gè)新穎的框架被稱為機(jī)器人操作網(wǎng)絡(luò)（RoboticManipulationNetworkROMAN）。ROMAN是一種機(jī)器人操作網(wǎng)絡(luò)，通過混合層次學(xué)習(xí)（HHL）來解決復(fù)雜的順序任務(wù)。它結(jié)合了模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)，能夠執(zhí)行多種復(fù)雜的操作任務(wù)，比如按按鈕、拾取物品、旋轉(zhuǎn)、插入等。ROMAN的優(yōu)勢在于它可以處理長時(shí)間任務(wù)，適應(yīng)隨機(jī)的任務(wù)順序，并且在出錯(cuò)時(shí)能夠自動(dòng)恢復(fù)，繼續(xù)完成任務(wù)。行業(yè)研究·信息服務(wù)行業(yè)16HHL結(jié)合了行為克?。˙C）、生成對抗模仿學(xué)習(xí)（GAIL）和近端策略優(yōu)化（PPO）等算法。首先，行為克隆用于初始化策略，通過學(xué)習(xí)專家演示的動(dòng)作來引導(dǎo)機(jī)器人。然而，單獨(dú)依賴模仿學(xué)習(xí)存在局限性，因此HHL還利用GAIL和PPO來增強(qiáng)學(xué)習(xí)過程。GAIL通過對比機(jī)器人生成的軌跡與專家軌跡，進(jìn)一步優(yōu)化機(jī)器人行為，而PPO則提供了一個(gè)外部獎(jiǎng)勵(lì)信號，幫助機(jī)器人在探索中找到更優(yōu)的策略。通過這種方式，HHL框架能夠在長時(shí)間任務(wù)中適應(yīng)新情況，并具有從錯(cuò)誤中恢復(fù)的能力。行業(yè)研究·信息服務(wù)行業(yè)17ROMAN具備識別錯(cuò)誤的能力，且能快速進(jìn)行動(dòng)態(tài)恢復(fù)。當(dāng)ROMAN在執(zhí)行“拾取和放置”以及“拾取和丟棄”子任務(wù)時(shí)出現(xiàn)錯(cuò)誤的情況下，系統(tǒng)迅速調(diào)整策略，以重新抓取物品并完成任務(wù)。這些錯(cuò)誤可能包括抓取對象不準(zhǔn)確、執(zhí)行軌跡出錯(cuò)或激活了錯(cuò)誤的任務(wù)順序，但ROMAN通過其中央操控網(wǎng)絡(luò)，能夠在任務(wù)失敗時(shí)激活不同的專家網(wǎng)絡(luò)，進(jìn)行調(diào)整和修正。這種能力展示了ROMAN框架的強(qiáng)大適應(yīng)性，不僅能夠執(zhí)行預(yù)設(shè)的任務(wù)序列，還能夠在遇到新的或意外的情況時(shí)進(jìn)行調(diào)整，恢復(fù)并繼續(xù)完成任務(wù)。通過平衡探索和利用，ROMAN生成了超越原始示范的行為，體現(xiàn)了在面對復(fù)雜和動(dòng)態(tài)環(huán)境時(shí)的靈活性。目前工業(yè)機(jī)械臂市場規(guī)模穩(wěn)步增長，國產(chǎn)品牌份額提升。根據(jù)中國報(bào)告大廳發(fā)布的文章表示，2022年中國機(jī)械臂市場規(guī)模接近178.3億元，同比增長6.26%。到2023年，市場規(guī)模增至186.4億元，預(yù)計(jì)2024年將達(dá)193.4億元，2025年將超過200億元。2022年，國內(nèi)品牌工業(yè)機(jī)械臂市場份額顯著提升，達(dá)到71.2億元。到2023年，國產(chǎn)工業(yè)機(jī)器人市場份額為52.45%，首次超過外資品牌，顯示出國產(chǎn)品牌市場競爭力的增強(qiáng)。移動(dòng)機(jī)器人適應(yīng)復(fù)雜多樣的應(yīng)用場景。輪式機(jī)器人因其高效機(jī)動(dòng)性，廣泛應(yīng)用于物流、倉儲和安全檢查。其優(yōu)點(diǎn)包括結(jié)構(gòu)簡單、成本較低、高能效及在平坦表面快速移動(dòng)的能力，但在不平坦地形中表現(xiàn)有限。與此不同，履帶式機(jī)器人在復(fù)雜地形中表現(xiàn)出色，適合農(nóng)業(yè)、建筑和軍事領(lǐng)域，但能效較低且在平坦表面上移動(dòng)較慢。兩種機(jī)器人各有優(yōu)劣，適用于不同環(huán)境和任務(wù)。在物流領(lǐng)域，亞馬遜的Kiva機(jī)器人較為成熟。自2012年收購KIVA以來，亞馬遜探索各類機(jī)器人及智能化技術(shù)在倉儲物流領(lǐng)域的應(yīng)用，截至目前，亞馬遜內(nèi)部使用的機(jī)器人數(shù)量已超75萬，是全球最大的機(jī)器人使用主體之一。KIVA機(jī)器人能夠提升倉庫揀貨效率。Kiva開發(fā)了一套系統(tǒng)，包括可移動(dòng)貨架、二維碼地板網(wǎng)格、智能包裝站、橙色機(jī)器人和強(qiáng)大的軟件系統(tǒng)。我們認(rèn)為，Kiva徹底改變了倉庫內(nèi)部的物流方式。創(chuàng)新想法是讓貨架移動(dòng)到工人面前，而非讓工人走到貨架前。這一系統(tǒng)大幅提高了配送中心的效率，減少了人工錯(cuò)誤和操作成本。行業(yè)研究·信息服務(wù)行業(yè)18Kiva機(jī)器人通過精巧的設(shè)計(jì)提升了倉庫自動(dòng)化的安全性和效率，同時(shí)優(yōu)化了制造成本和操作可靠性。Kiva部署的倉庫地面上每隔大約1米就有一個(gè)二維碼，Kiva就根據(jù)這些標(biāo)記進(jìn)行定位和誤差補(bǔ)償。它的每一個(gè)動(dòng)作都來自于云端的指令。在它到達(dá)目標(biāo)貨架底部后，其使用一個(gè)滾珠絲杠升降梯結(jié)構(gòu)，通過原地旋轉(zhuǎn)來升高自己，將貨架頂起約10厘米。從外面看，Kiva機(jī)器人外殼的每一側(cè)都有紅外傳感陣列，以及氣動(dòng)保險(xiǎn)杠，用于檢測和緩沖碰撞。外殼上還有充電接口和一系列狀態(tài)指示燈。每一臺Kiva機(jī)器人有三個(gè)獨(dú)立的自由度：兩個(gè)驅(qū)動(dòng)輪，加上一個(gè)用于起重的旋轉(zhuǎn)電機(jī)。起重電機(jī)轉(zhuǎn)動(dòng)時(shí)，兩個(gè)驅(qū)動(dòng)輪反方向旋轉(zhuǎn)，結(jié)果是托盤相對于地面沒有旋轉(zhuǎn)，只在滾珠絲杠的作用下升高。相比于傳統(tǒng)的大負(fù)載直線驅(qū)動(dòng)方案比如液壓、剪式升降臺，Kiva的這種利用輪子的結(jié)構(gòu)顯然更加簡單可靠。行業(yè)研究·信息服務(wù)行業(yè)19受益于制造業(yè)自動(dòng)化、服務(wù)業(yè)升級以及技術(shù)創(chuàng)新，我國移動(dòng)機(jī)器人市場一直處于迅速發(fā)展階段。2021-2022年，國外深陷疫情泥潭時(shí)，我國疫情得到有效防控，企業(yè)復(fù)工復(fù)產(chǎn)已成常態(tài)化，因此國內(nèi)機(jī)器人成為眾多海外市場的選擇；根據(jù)搜狐援引觀研天下的文章中指出，預(yù)計(jì)隨著隨著機(jī)器人技術(shù)的快速發(fā)展、應(yīng)用場景的多樣化，未來我國移動(dòng)機(jī)器人行業(yè)將有千億級別空間。搜狐援引觀研天下的數(shù)據(jù)顯示，2018-2022年我國移動(dòng)機(jī)器人市場規(guī)模從34.96億元擴(kuò)大到96.73億元。目前我國移動(dòng)機(jī)器人行業(yè)主要集中在華東地區(qū)，占比達(dá)到了30.11%；其次為華北地區(qū)，其市場規(guī)模占比為16.14%。四足機(jī)器人以其穩(wěn)定性和適應(yīng)性而廣泛應(yīng)用于復(fù)雜地形的探索、救援任務(wù)和軍事行動(dòng)。它們的設(shè)計(jì)靈感來源于四足動(dòng)物，通過多關(guān)節(jié)設(shè)計(jì)實(shí)現(xiàn)生物運(yùn)動(dòng)的模擬，并能夠自動(dòng)調(diào)整姿態(tài)，以適應(yīng)不斷變化的地形。傳感系統(tǒng)如激光雷達(dá)和攝像頭則為機(jī)器人提供環(huán)境感知，使其能夠自主導(dǎo)航和避障。當(dāng)前，幾種四足機(jī)器人被廣泛使用，包括UnitreeRobotics的UnitreeA1和Go1、BostonDynamics的Spot以及ANYbotics的ANYmalC。UnitreeA1和Go1因成本效益和靈活性廣受歡迎，具有強(qiáng)大的機(jī)動(dòng)性和智能避障能力。BostonDynamics的Spot則以其出色的穩(wěn)定性、負(fù)載能力和操作靈活性著稱，適用于工業(yè)檢查和救援任務(wù)。盡管四足機(jī)器人技術(shù)先進(jìn)，但其高昂的制造成本和電池續(xù)航限制了其在某些領(lǐng)域的廣泛應(yīng)用。圖22四足機(jī)器人發(fā)展路線例如AIRS團(tuán)隊(duì)的麒麟機(jī)器人，團(tuán)隊(duì)引入仿生設(shè)計(jì)思路來優(yōu)化設(shè)計(jì)四足機(jī)器人整體結(jié)構(gòu)?；趯χ行腿馄使趋澜Y(jié)構(gòu)的仔細(xì)研究，合理設(shè)計(jì)每個(gè)部位的尺寸。機(jī)器人整體結(jié)構(gòu)具備較高負(fù)載能力，同時(shí)大大提升了越障性能。團(tuán)隊(duì)結(jié)合復(fù)雜地形感知技術(shù)，提出了一種能夠讓四足機(jī)器人在通過崎嶇3D地形時(shí)實(shí)現(xiàn)高能效的運(yùn)動(dòng)。根據(jù)AIRS援引QYR（恒州博智）的統(tǒng)計(jì)及預(yù)測，2023年全球腿式機(jī)器人市場銷售額為6.02億美元，預(yù)計(jì)2030年將達(dá)到15.11億美元，CAGR為14.3%（2024-2030）。全球主要的的腿式機(jī)器人（LeggedRobot）生產(chǎn)商包括索尼、優(yōu)必選、蔚藍(lán)智能科技和樂聚機(jī)器人，市場占比超過68%。其中，索尼以約28%的市場份額領(lǐng)先。亞太地區(qū)是最大的市場，占比約57%；其次是北美和歐洲，分別約占比24%和12%。從產(chǎn)品類型來看，四足機(jī)器人占市場份額最大，約56%。在產(chǎn)品應(yīng)用方面，最大的應(yīng)用領(lǐng)域是教育和娛樂，其次是科學(xué)研究。行業(yè)研究·信息服務(wù)行業(yè)20人形機(jī)器人因其類人形態(tài)在服務(wù)業(yè)、醫(yī)療保健和協(xié)作環(huán)境中越來越普及。它們模仿人類的動(dòng)作和行為，提供個(gè)性化服務(wù)，特別是在醫(yī)療手術(shù)和精密制造等需要復(fù)雜操作的領(lǐng)域。人形機(jī)器人的靈巧手設(shè)計(jì)擁有多個(gè)自由度和高精度傳感器，使其具備出色的抓握和操縱能力。例如，BostonDynamics的Atlas以其卓越的機(jī)動(dòng)性和穩(wěn)定性聞名，能夠執(zhí)行復(fù)雜動(dòng)態(tài)動(dòng)作。AIST的HRP系列在研究和工業(yè)應(yīng)用中表現(xiàn)出色，具有高穩(wěn)定性和靈活性，適合復(fù)雜環(huán)境下與人類協(xié)作任務(wù)。Honda的ASIMO能夠行走、跑步、爬樓梯，還能識別面部和手勢，適用于接待和導(dǎo)游服務(wù)。SoftbankRobotics的Pepper是一種小型社交機(jī)器人，能夠識別情緒并進(jìn)行自然語言交流，廣泛應(yīng)用于客戶服務(wù)和教育環(huán)境。盡管人形機(jī)器人在復(fù)雜環(huán)境中的穩(wěn)定性和可靠性方面仍面臨挑戰(zhàn)，但通過引入電機(jī)驅(qū)動(dòng)系統(tǒng)和整合大語言模型（LLMs人形機(jī)器人有望在制造業(yè)、醫(yī)療保健和服務(wù)行業(yè)中填補(bǔ)勞動(dòng)力缺口，提高效率和安全性。各大廠商合作打造具身智能，本體集成仍存在技術(shù)瓶頸。AI軟件相關(guān)廠商通過提供AI算力、大模型和算法軟件，推動(dòng)人形機(jī)器人實(shí)現(xiàn)視覺分析、語義理解、任務(wù)分解和動(dòng)作規(guī)劃等功能；核心零部件廠商則提供各類傳感器、電機(jī)、減速器等硬件設(shè)備，構(gòu)建機(jī)器人所需的感知、控制、動(dòng)力和運(yùn)動(dòng)模塊；機(jī)器人本體廠商負(fù)責(zé)將這些硬件和軟件整合，打造完整的人形機(jī)器人產(chǎn)品。然而，人形機(jī)器人商用化進(jìn)程仍面臨技術(shù)瓶頸，特別是在本體集成、運(yùn)動(dòng)控制、感知系統(tǒng)和智能分析等關(guān)鍵技術(shù)方面，需要進(jìn)一步突破才能實(shí)現(xiàn)自主導(dǎo)航和任務(wù)執(zhí)行。行業(yè)研究·信息服務(wù)行業(yè)21人形機(jī)器人的市場普及需要產(chǎn)品價(jià)格的逐步下降。目前相較于商用服務(wù)機(jī)器人和工業(yè)機(jī)器人，人形機(jī)器人的價(jià)格仍然高達(dá)數(shù)十萬至百萬級，這限制了用戶的采納意愿。然而，隨著技術(shù)突破、產(chǎn)業(yè)鏈發(fā)展和應(yīng)用規(guī)模擴(kuò)大，價(jià)格有望持續(xù)下探，從而提高用戶的購買意愿。產(chǎn)品的核心優(yōu)勢在于其場景通用性，特別適用于復(fù)雜、多變的環(huán)境和需要高度人機(jī)協(xié)同的任務(wù)。為了實(shí)現(xiàn)這一目標(biāo)，軟硬件的解耦設(shè)計(jì)至關(guān)重要，即在堅(jiān)實(shí)的硬件基礎(chǔ)上，根據(jù)不同需求動(dòng)態(tài)加載各領(lǐng)域的大型模型。人形機(jī)器人的商業(yè)化進(jìn)程需要循序漸進(jìn)。首先在商用服務(wù)領(lǐng)域，如酒店、商場等場所提供智能交互服務(wù)。隨著技術(shù)迭代，機(jī)器人將逐步進(jìn)入災(zāi)害救援和極限環(huán)境作業(yè)等特種應(yīng)用領(lǐng)域。在工業(yè)制造中，人形機(jī)器人會率先在精密裝配和物料搬運(yùn)等環(huán)節(jié)實(shí)現(xiàn)自動(dòng)化作業(yè)。最終，隨著技術(shù)和市場的成熟，人形機(jī)器人將進(jìn)入家庭市場，承擔(dān)陪伴、教育和家務(wù)等多種角色，滿足家庭日常生活需求。400350300250200150500378354385123927019224030153202420252026202720282029203020312032203320342035450.0%400.0%350.0%300.0%250.0%200.0%150.0%100.0%50.0%0.0%機(jī)器人市場預(yù)測規(guī)模(左億美元)一yoy(右)人形機(jī)器人行業(yè)的快速發(fā)展受到政策支持、技術(shù)進(jìn)步和成本控制等多方面因素的推動(dòng)。未來三年，人形機(jī)器人產(chǎn)業(yè)的年增長率預(yù)計(jì)將維持在40%以上。政策方面，北京亦莊將出臺人形機(jī)器人三年行動(dòng)計(jì)劃，進(jìn)一步打造國內(nèi)領(lǐng)先的機(jī)器人技術(shù)創(chuàng)新策源地、高端制造集聚地、集成應(yīng)用新高地和產(chǎn)業(yè)生態(tài)示范地。同時(shí)，上海舉辦的2024中國人形機(jī)器人開發(fā)者大會，圍繞人形機(jī)器人創(chuàng)新中心建設(shè)、核心技術(shù)壁壘突破、產(chǎn)業(yè)鏈成本降低、應(yīng)用落地場景、投資賽道方向等議題展開。根據(jù)證券時(shí)報(bào)援引賽迪顧問發(fā)布的《2024中國人形機(jī)器人產(chǎn)業(yè)生態(tài)發(fā)展研究》顯示，2023年人形機(jī)器人產(chǎn)業(yè)進(jìn)入爆發(fā)期，預(yù)計(jì)到2026年中國人形機(jī)器人產(chǎn)業(yè)規(guī)模將突破200億元，未來功能型整機(jī)將逐步占據(jù)主流，發(fā)展?jié)摿薮?。Figure.AI專注于人形機(jī)器人領(lǐng)域，并與汽車廠商合作。公司成立于2022年，專注于設(shè)計(jì)和制造自主人形機(jī)器人。其旗艦產(chǎn)品Figure01是全球首款商業(yè)化的自主人形機(jī)器人，主要應(yīng)用于制造、物流、倉儲和零售行業(yè)。Figure.AI的團(tuán)隊(duì)由經(jīng)驗(yàn)豐富的機(jī)器人專家組成，致力于推動(dòng)人工通用智能（AGI）的研究，并在機(jī)器人性能和穩(wěn)定性方面進(jìn)行深入研究。公司近期與BMW簽署了合作協(xié)議，將其機(jī)器人技術(shù)引入汽車生產(chǎn)領(lǐng)域。Figure02搭載語言模型，距離具身智能更進(jìn)一步。2024年8月公司推出新Figure02機(jī)器人，相比Figure01更加緊湊，電源和計(jì)算設(shè)備的布線被巧妙隱藏，提升了美觀性和耐用性。其手部設(shè)計(jì)是亮點(diǎn)，配備了具有“16個(gè)自由度”的機(jī)械手，和人手尺寸相當(dāng)，上面還配有傳感器。這種設(shè)計(jì)使得機(jī)器人能夠處理人類需要完成的任務(wù)，并且可以提起重達(dá)20公斤的物體。其手部的改進(jìn)為實(shí)現(xiàn)與人類相當(dāng)?shù)牧α亢挽`巧度鋪平了道路。機(jī)器人還配有6個(gè)RGB攝像頭，幫助其通過視覺語言模型進(jìn)行語義理解和常識推理。行業(yè)研究·信息服務(wù)行業(yè)22Figure02能夠進(jìn)行語音識別，續(xù)航能力顯著增強(qiáng)。用戶可以通過語音指令給Figure02機(jī)器人下達(dá)任務(wù)，機(jī)器人會結(jié)合語音命令和攝像頭數(shù)據(jù)來理解并執(zhí)行相應(yīng)的行動(dòng)。相比Figure01，F(xiàn)igure02的計(jì)算和AI推理能力提高了3倍，任務(wù)執(zhí)行速度更快。它配備了一個(gè)2.25千瓦時(shí)的電池組，比上一代多50%的電力，運(yùn)行時(shí)間為5小時(shí)，目標(biāo)是延長到每天工作20小時(shí)。人形機(jī)器人在工廠和倉庫環(huán)境中具有廣闊的應(yīng)用前景，F(xiàn)igure02可以有效面對勞動(dòng)力短缺的問題。除了工業(yè)應(yīng)用，F(xiàn)igure公司暗示其機(jī)器人未來可能進(jìn)入家庭領(lǐng)域。FigureAI并非唯一玩家，其他公司如1XRobotics、特斯拉等也在這一領(lǐng)域競爭，許多公司還使用英偉達(dá)的多模態(tài)AI“ProjectGR00T”來驅(qū)動(dòng)機(jī)器人功能。值得注意的是，F(xiàn)igureAI與OpenAI建立了合作伙伴關(guān)系，并獲得了微軟、亞馬遜等科技巨頭的投資，助力其機(jī)器人開發(fā)和語音交互能力的提升。風(fēng)險(xiǎn)提示：人形機(jī)器人發(fā)展不及預(yù)期；EAI發(fā)展不及預(yù)期；具身智能下游需求不足。行業(yè)研究·信息服務(wù)行業(yè)23在2024世界人工智能大會（WAIC2024）上，特斯拉展示其最新Optimus人形機(jī)器人進(jìn)展。這表明人形機(jī)器人產(chǎn)業(yè)化的進(jìn)度可能超預(yù)期。Optimus人形機(jī)器人現(xiàn)已具備在工廠內(nèi)執(zhí)行任務(wù)的能力，并在多項(xiàng)技術(shù)上取得了顯著提升，預(yù)計(jì)到2025年將有超過1000個(gè)Optimus機(jī)器人在特斯拉工廠內(nèi)工作。特斯拉的持續(xù)創(chuàng)新和技術(shù)投入將推動(dòng)智能制造和自動(dòng)駕駛領(lǐng)域的發(fā)展，并為全球市場帶來新的變革。當(dāng)前Optimus已更新至第二代，身高1.7米、體重56公斤，最高行走速度達(dá)到5英里/小時(shí)，搭載了特斯拉自主設(shè)計(jì)和制造的執(zhí)行器和傳感器驅(qū)動(dòng)。2024年5月，Optimus二代走進(jìn)特斯拉工廠實(shí)訓(xùn)，已經(jīng)可以進(jìn)行分揀電池、行走等任務(wù)。根據(jù)36氪援引特斯拉官方介紹，Optimus基于其自身的視覺神經(jīng)網(wǎng)絡(luò)和FSD(完全自動(dòng)駕駛)芯片，能夠?qū)㈦妱?dòng)車電池單元進(jìn)行分裝，精準(zhǔn)放到卡槽中。根據(jù)第一財(cái)經(jīng)報(bào)道，馬斯克預(yù)測，明年特斯拉將有超過1000臺，乃至數(shù)千臺在運(yùn)行的Optimus機(jī)器人。目前已有兩臺在弗里蒙特工廠工作。雖然Optimus仍處于早期階段，但其未來潛力巨大，馬斯克預(yù)計(jì)人形機(jī)器人數(shù)量將超過人類，并在工業(yè)領(lǐng)域發(fā)揮主力作用，目標(biāo)年產(chǎn)10億臺。特斯拉計(jì)劃將Optimus的成本控制在1萬美元，以2萬美元出售。人形機(jī)器人商業(yè)化元年已至，特斯拉及多家公司正在探索汽車工業(yè)作為落地場景，推動(dòng)產(chǎn)業(yè)化進(jìn)程。風(fēng)險(xiǎn)提示：人形機(jī)器人發(fā)展不及預(yù)期；EAI發(fā)展不及預(yù)期；具身智能下游需求不足。行業(yè)研究·信息服務(wù)行業(yè)24杭州宇樹科技是一家世界知名的民用機(jī)器人公司，專注于消費(fèi)級、行業(yè)級高性能通用足式/人形機(jī)器人及靈巧機(jī)械臂的自主研發(fā)、生產(chǎn)和銷售。在機(jī)器人核心零部件、運(yùn)動(dòng)控制、機(jī)器人感知等綜合領(lǐng)域具有卓越的領(lǐng)先性。宇樹高度重視自主研發(fā)和科技創(chuàng)新，全自研電機(jī)、減速器、控制器、激光雷達(dá)等機(jī)器人關(guān)鍵核心零部件和高性能感知及運(yùn)動(dòng)控制算法，整合機(jī)器人全產(chǎn)業(yè)鏈，在足式機(jī)器人領(lǐng)域達(dá)到全球技術(shù)領(lǐng)先。目前累計(jì)申請國內(nèi)外專利180余項(xiàng)，授權(quán)專利150余項(xiàng)。商業(yè)模式上，新的人形機(jī)器人產(chǎn)品主要面向高校、研究所、科技公司和工業(yè)落地，作為機(jī)器人開發(fā)平臺研究或落地使用。四足機(jī)器人產(chǎn)品目前正在向toC和toB方向齊頭并進(jìn)，toC定位個(gè)人以及家庭服務(wù)場景；toB在特定的消防、巡檢、軍警等領(lǐng)域執(zhí)行任產(chǎn)品針對多樣客戶群體，覆蓋大量行業(yè)。在C端領(lǐng)域，Go部分型號產(chǎn)品就是消費(fèi)級產(chǎn)品。其中，宇樹2023年發(fā)布的UnitreeGo2四足機(jī)器人適用于外出陪跑、散步等場景，支持實(shí)時(shí)視頻圖傳和雷達(dá)高度圖顯示功能，奔跑速度可以和最頂級的馬拉松選手不相上下，還搭載了公司最新的AI交互技術(shù)，引入了大語言模型能力。該產(chǎn)品售價(jià)僅9997元起。B端例如更大體型的B2則是一款工業(yè)級機(jī)器狗產(chǎn)品，極限負(fù)重100kg，持續(xù)作業(yè)負(fù)重40kg以上，可以應(yīng)用于農(nóng)業(yè)、工業(yè)、安防巡檢、勘測探索、公共救援等行業(yè)級場景。行業(yè)研究·信息服務(wù)行業(yè)25宇樹科技四足機(jī)器人銷量領(lǐng)先，核心零部件自研能力強(qiáng)。根據(jù)36氪對宇樹科技創(chuàng)始人王興興的采訪，2024年宇樹科技的四足機(jī)器人產(chǎn)品占全球出貨量的60%以上，處于全球歷年銷量領(lǐng)先的位置。在智能機(jī)器人賽道，宇樹科技的核心競爭力在于全棧自研技術(shù)積累的先發(fā)優(yōu)勢——公司不僅自研了高能量密度關(guān)節(jié)電機(jī)、減速器、3D激光雷達(dá)等機(jī)器人核心零部件；以及傳統(tǒng)機(jī)器人領(lǐng)域的感知和運(yùn)動(dòng)控制算法；同時(shí)還在開發(fā)機(jī)器人AI世界模型。風(fēng)險(xiǎn)提示：EAI發(fā)展不及預(yù)期；具身智能下游需求不足。中科創(chuàng)達(dá)將基于Arm技術(shù)賦能下一代多模態(tài)智能機(jī)器人。2024年8月27日，在elexcon2024深圳國際電子展的第六屆中國嵌入式技術(shù)大會上，中科創(chuàng)達(dá)受邀與Arm聯(lián)合進(jìn)行了一場主題為《如何通過先進(jìn)的大語言模型解鎖下一代多模態(tài)智能機(jī)器人》的精彩演講。會中，中科創(chuàng)達(dá)明確表達(dá)了中科創(chuàng)達(dá)將憑借Arm處理器與其操作系統(tǒng)技術(shù)的協(xié)作，助力具身智能與機(jī)器人實(shí)現(xiàn)創(chuàng)新突破。中科創(chuàng)達(dá)通過核心技術(shù)實(shí)現(xiàn)機(jī)器人不同場景中的智能化。公司可以提供核心技術(shù)和生態(tài)合作廣泛地賦能機(jī)器人產(chǎn)業(yè)發(fā)展。從基于基礎(chǔ)類半導(dǎo)體模塊，提供平臺工具軟件、平臺層、算法和應(yīng)用的集成，到構(gòu)建邊緣計(jì)算成為一個(gè)共通的計(jì)算平臺，推動(dòng)操作系統(tǒng)走向平臺化，從而支撐算法的可擴(kuò)展、可擴(kuò)充和之后的可延展的維護(hù)，進(jìn)而迭代開發(fā)工具和環(huán)境去支撐應(yīng)用廠商更快產(chǎn)品和更低成本。未來是各種各樣的機(jī)器人存在的世界。本質(zhì)上是隨著智能化和信息化的分離，信息化是以人和人交互為中心，智能化則是通過機(jī)器感知周邊的世界和環(huán)境，關(guān)鍵是傳感器及其運(yùn)動(dòng)能力、操作能力進(jìn)行連接，而形成一個(gè)所謂的機(jī)器人時(shí)代。公司的端側(cè)智能+機(jī)器人的布局，進(jìn)一步為機(jī)器人產(chǎn)業(yè)的變革注入了更多活力與可想空間。風(fēng)險(xiǎn)提示：EAI發(fā)展不及預(yù)期；具身智能下游需求不足。根據(jù)中自數(shù)字移動(dòng)傳媒報(bào)道，2024年5月從事具身智能技術(shù)和產(chǎn)品研發(fā)的有鹿機(jī)器人正式簽訂一筆超千萬元的具身智能通用大腦Master2000的訂單。訂單來自中國頭部清潔設(shè)備制造商，采購大腦用于對現(xiàn)有全系產(chǎn)品進(jìn)行智能化升級。有鹿機(jī)器人也正式實(shí)現(xiàn)了具身智能從實(shí)驗(yàn)室走向商業(yè)化的階段。公司同步披露了創(chuàng)新工場、元璟資本、百度風(fēng)投等超1億元融資的信息。行業(yè)研究·信息服務(wù)行業(yè)262023年，有鹿機(jī)器人聯(lián)合阿里云通義千問發(fā)布了具身智能大模型LPLM-10B，該模型創(chuàng)新性地融合了語言大模型與物理世界，克服了傳統(tǒng)具身模型的延遲高、準(zhǔn)確率低、泛化能力差等問題。LPLM-10B的優(yōu)勢在于其通用性，能夠在跨模態(tài)、跨場景、跨行業(yè)的數(shù)據(jù)中提取共性信息，適用于各類型機(jī)器人。2024年3月，有鹿機(jī)器人推出了基于LPLM-10B的通用具身大腦產(chǎn)品Master2000，幫助客戶解決智能化升級中的投入產(chǎn)出比低的問題。該產(chǎn)品在短時(shí)間內(nèi)實(shí)現(xiàn)了超千萬的訂單并開始量產(chǎn)交付。與大多數(shù)大模型公司面臨的商業(yè)化挑戰(zhàn)相比，Master2000的成功驗(yàn)證了軟硬件結(jié)合產(chǎn)品在商業(yè)化中的優(yōu)勢，為大模型的商業(yè)應(yīng)用提供了新的戰(zhàn)略意義。圖33有鹿機(jī)器人打造“通用大腦”概念有鹿機(jī)器人創(chuàng)始人陳俊波博士表示，中國擁有世界領(lǐng)先的制造能力，在具身智能時(shí)代，預(yù)計(jì)中國制造的產(chǎn)品即將爆發(fā)式迎來機(jī)器人形態(tài)，如輪式機(jī)器人形態(tài)的叉車、物流車、清潔車、割草機(jī)、充電車等，復(fù)合式機(jī)器人形態(tài)的挖掘機(jī)、裝載機(jī)、吊車等，以及中國大力發(fā)展的新型人型機(jī)器人。這些機(jī)器人產(chǎn)品形態(tài)的總體市場規(guī)模預(yù)計(jì)將在萬億級以上。有鹿機(jī)器人的使命就是打造一個(gè)可以賦能不同制造企業(yè)的通用機(jī)器人大腦，適配于專業(yè)設(shè)備，幫助成熟的制造企業(yè)進(jìn)行產(chǎn)品的具身智能模態(tài)升級。風(fēng)險(xiǎn)提示：EAI發(fā)展不及預(yù)期；具身智能下游需求不足。行業(yè)研究·信息服務(wù)行業(yè)27科大訊飛打造全球領(lǐng)先的智能交互機(jī)器人開放創(chuàng)新平臺，為機(jī)器人產(chǎn)業(yè)提供通用化的智能應(yīng)用服務(wù)，大幅降低行業(yè)技術(shù)研發(fā)和使用門檻。機(jī)器人開放平臺旨在賦能機(jī)器人硬件，快速接入AI能力，并提供可視化開發(fā)機(jī)器人業(yè)務(wù)以及項(xiàng)目管控和運(yùn)營監(jiān)測能力。實(shí)現(xiàn)可復(fù)用化、服務(wù)統(tǒng)一化、流程角色優(yōu)化、運(yùn)營監(jiān)控化和資源管控化，使平臺成為一個(gè)強(qiáng)大的機(jī)器人能力支持中心。最終依托機(jī)器人開放平臺，賦能于機(jī)器人產(chǎn)業(yè)公司，建立機(jī)器人合作生態(tài)，推動(dòng)機(jī)器人產(chǎn)業(yè)持續(xù)健康快速的發(fā)展。圖34科大訊飛機(jī)器人平臺架構(gòu)科大訊飛機(jī)器人業(yè)務(wù)應(yīng)用廣泛，覆蓋多個(gè)垂直領(lǐng)域。業(yè)務(wù)應(yīng)用前臺包括酒店、餐廳、展廳、政務(wù)、商超、工業(yè)等多個(gè)行業(yè)，展示了AI解決方案在不同行業(yè)的應(yīng)用場景。AI中臺由AI能力服務(wù)和平臺服務(wù)兩部分組成。AI能力服務(wù)包括語音能力（如語音識別、語音合成、聲紋識別）和圖像能力（如人臉識別、OCR識別、工業(yè)檢測）。平臺服務(wù)則包括深度學(xué)習(xí)平臺、運(yùn)營監(jiān)控平臺和管理平臺。深度學(xué)習(xí)平臺提供整體的AI開發(fā)工具，運(yùn)營監(jiān)控平臺涵蓋數(shù)據(jù)監(jiān)控、AI運(yùn)維服務(wù)等，而管理平臺則負(fù)責(zé)角色權(quán)限、數(shù)據(jù)管理等功能。數(shù)據(jù)中臺則為這些服務(wù)提供支持，涵蓋數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析等內(nèi)容。圖35科大訊飛超腦計(jì)劃2030科大訊飛機(jī)器人首席科學(xué)家季超博士分享了團(tuán)隊(duì)結(jié)合具身大模型打通基于模型優(yōu)化和基于數(shù)據(jù)驅(qū)動(dòng)的運(yùn)動(dòng)控制路線齊頭并進(jìn)的技術(shù)路線，深度解析了大模型給具身智能通用機(jī)器人帶來的提升空間和產(chǎn)業(yè)化落地瓶頸及挑戰(zhàn)，并提出了場景導(dǎo)向、產(chǎn)業(yè)鏈合作、突破卡脖子問題和交叉學(xué)科人才培養(yǎng)四方面建議，推動(dòng)具身通用機(jī)器人產(chǎn)業(yè)化快速發(fā)展。行業(yè)研究·信息服務(wù)行業(yè)28科大訊飛依托超腦2030計(jì)劃旨在讓懂知識、善學(xué)習(xí)、能進(jìn)化的AI機(jī)器人進(jìn)入千家萬戶，大模型底層能力的突破，給機(jī)器人帶來了巨大的提升空間。作為人工智能的重要分支，具身智能正逐步從理論走向?qū)嵺`，從“實(shí)驗(yàn)室”走向“應(yīng)用場”。隨著具身智能技術(shù)的不斷突破和應(yīng)用，未來的機(jī)器人將會更加智能，更加接近人類的感知、思考和行動(dòng)能力，真正實(shí)現(xiàn)從“專才”走向“通才”，在各個(gè)領(lǐng)域發(fā)揮更大的作用。風(fēng)險(xiǎn)提示：大模型發(fā)展不及預(yù)期；具身智能下游需求不足。海康機(jī)器人是面向全球的機(jī)器視覺和移動(dòng)機(jī)器人產(chǎn)品及解決方案提供商，業(yè)務(wù)聚焦于工業(yè)物聯(lián)網(wǎng)、智慧物流和智能制造，構(gòu)建開放合作生態(tài)，為工業(yè)和物流領(lǐng)域用戶提供服務(wù)，以創(chuàng)新技術(shù)持續(xù)推動(dòng)智能化，引領(lǐng)智能制造進(jìn)程。圖36海康威視移動(dòng)機(jī)器人產(chǎn)品一覽產(chǎn)品隨著基于AMR、iWMS-1000和RCS-2000等智能設(shè)備和系統(tǒng)為核心的解決方案落地實(shí)施，持續(xù)推動(dòng)內(nèi)物流智慧化變革。通過全方位的智能算法驅(qū)動(dòng)、智能設(shè)備聯(lián)動(dòng)、智能系統(tǒng)應(yīng)用，實(shí)現(xiàn)內(nèi)物流運(yùn)營的集約化、可視化和智慧化，持續(xù)為客戶創(chuàng)造價(jià)值。風(fēng)險(xiǎn)提示：EAI發(fā)展不及預(yù)期；具身智能下游需求不足。公司基于英偉達(dá)Isacc機(jī)器人開發(fā)平臺打造自主移動(dòng)機(jī)器人。公司為保障工人安全、優(yōu)化運(yùn)輸流程、節(jié)省生產(chǎn)成本，且為其他各界客戶提升生產(chǎn)智能化，比亞迪電子自主開發(fā)全系自主移動(dòng)機(jī)器人（AMR為工廠提供全面物流解決方案。比亞迪電子開發(fā)高階AMR過程中，NVIDIA基于NVIDIAIsaac和Jetson平臺給予了技術(shù)支持，幫助客戶加速物流應(yīng)用的部署。行業(yè)研究·信息服務(wù)行業(yè)29圖37比亞迪電子AMR機(jī)器人比亞迪電子的AMR采用了NVIDIAJetsonOrin高性能人工智能系統(tǒng)級模塊，結(jié)合了激光雷達(dá)和視覺感知模塊。利用激光雷達(dá)、IMU、輪速計(jì)等多傳感器融合技術(shù)，AMR能夠在室內(nèi)大面積且復(fù)雜動(dòng)態(tài)環(huán)境中進(jìn)行實(shí)時(shí)高精度建圖和定位。此外，其自有調(diào)度系統(tǒng)能夠?qū)Χ喾N類型的AMR進(jìn)行實(shí)時(shí)集群調(diào)度，同時(shí)通過實(shí)時(shí)回環(huán)檢測自動(dòng)更新局部子地圖，以適應(yīng)室內(nèi)動(dòng)態(tài)多變的環(huán)境。為了提高環(huán)境適應(yīng)能力和安全性，比亞迪電子的AMR還應(yīng)用了人工智能自動(dòng)駕駛技術(shù)。風(fēng)險(xiǎn)提示：EAI發(fā)展不及預(yù)期；具身智能下游需求不足。我們認(rèn)為具身智能（EAI）是推動(dòng)通用人工智能（AGI）發(fā)展的關(guān)鍵技術(shù)，具有廣闊的應(yīng)用前景。其技術(shù)涵蓋計(jì)算機(jī)視覺、自然語言處理和機(jī)器人技術(shù)，尤其在具身感知和交互方面表現(xiàn)突出?；诙嗄B(tài)大模型和世界模型的具身智能體，不僅能夠理解并適應(yīng)復(fù)雜的物理和虛擬環(huán)境，還能在動(dòng)態(tài)場景中與人類自然互動(dòng)，執(zhí)行復(fù)雜任務(wù)。根據(jù)證券時(shí)報(bào)援引賽迪顧問發(fā)布的《2024中國人形機(jī)器人產(chǎn)業(yè)生態(tài)發(fā)展研究》顯示，全球具身智能市場將在未來幾年持續(xù)增長，尤其是在工業(yè)自動(dòng)化和服務(wù)機(jī)器人領(lǐng)域。此外，隨著智能制造和人形機(jī)器人技術(shù)的快速發(fā)展，預(yù)計(jì)到2026年，中國人形機(jī)器人市場規(guī)模將突破200億元。各地政策的積極推動(dòng)，如上海和北京的智能機(jī)器人發(fā)展計(jì)劃，將進(jìn)一步加速具身智能的技術(shù)進(jìn)步和市場應(yīng)用。1.大模型發(fā)展不及預(yù)期；2.AI智能體發(fā)展不及預(yù)期；3.智能體下游需求不足。行業(yè)研究·信息服務(wù)行業(yè)30APPENDIX1SummaryInvestmentHighlights:EAIintroducesanewconcept,withpoliciesdrivingtechnologicaladvancement.EmbodiedAI(EAI),proposedbyAlanTuringin1950,usesthe‘EmbodiedTuringTest’toassessanagent’sabilitytohandlephysicalworldcomplexities.Unlikenon-physicalAI,embodiedagentscombinemultimodallargemodels(MLMs)andworldmodels(WMs)forperception,interaction,andplanning,adaptingtovirtualandphysicalenvironments.PoliciesinShanghaiandBeijingaimtoadvanceintelligentroboticsandmanufacturing,withShanghaitargetingindustrybenchmarksby2025.TheUSAleadsinroboticindustrialapplications,whileChinaisstillexploring.TrainingembodiedAIinvolvessimulation,perception,andinteraction.Simulatorsproviderealisticvirtualenvironmentsforalgorithmdevelopment,reducingcostsandenhancingsafety.Embodiedperceptionenablesunderstandingofvisualreasoningandspace,usingtechnologieslikevSLAMand3Dvision.Embodiedinteractionfocusesonagents’abilitytointeractwithenvironmentsandhumans,withtaskslikeEmbodiedQuestionAnswering(EQA).DiverseembodiedAIproductscoverabroadmarket:1)Fixedrobotsexcelinprecisionandstabilityforlabautomation,education,andmanufacturing.2)Wheeledrobotsperformwellinlogisticsandsecurity,whiletrackedrobotssuitagricultureandmilitary.3)Quadrupedrobotsareusedinterrainexplorationandrescue.4)Humanoidrobotsarepopularinservicesandhealthcare.Eachtypehasuniqueadvantagesandfacestechnicalchallenges.Investmentadvice:EAIiskeytoadvancingAGI,withbroadapplicationsincomputervision,NLP,androbotics.Embodiedagentsexcelinperceptionandinteraction,understandingcomplexenvironmentsandinteractingnaturallywithhumans.AccordingtoCCIDConsulting,theglobalembodiedAImarketwillgrow,especiallyinindustrialautomationandservicerobots.China’shumanoidrobotmarketisexpectedtoexceedRMB20billionby2026,drivenbypoliciesinShanghaiandBeijing.FocusonAIcomputingpower,models,andapplications.Computingpower:NVIDIACorporation,CambriconTechnologiesCorporationLimited,HygonInformationTechnologyCo.,Ltd.,JingjiaMicroelectronics,LoongsonTechnologyCorporationLimited,InspurElectronicInfo

人人文庫> 全部分類> 應(yīng)用文書 > 研究報(bào)告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

信息服務(wù)行業(yè)專題報(bào)告：EAI（具身智能）：驅(qū)動(dòng)人工智能與機(jī)器人產(chǎn)業(yè)的關(guān)鍵技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

信息服務(wù)行業(yè)專題報(bào)告：EAI（具身智能）：驅(qū)動(dòng)人工智能與機(jī)器人產(chǎn)業(yè)的關(guān)鍵技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔