信息服務(wù)行業(yè)專題報(bào)告:EAI(具身智能):驅(qū)動(dòng)人工智能與機(jī)器人產(chǎn)業(yè)的關(guān)鍵技術(shù)_第1頁
信息服務(wù)行業(yè)專題報(bào)告:EAI(具身智能):驅(qū)動(dòng)人工智能與機(jī)器人產(chǎn)業(yè)的關(guān)鍵技術(shù)_第2頁
信息服務(wù)行業(yè)專題報(bào)告:EAI(具身智能):驅(qū)動(dòng)人工智能與機(jī)器人產(chǎn)業(yè)的關(guān)鍵技術(shù)_第3頁
信息服務(wù)行業(yè)專題報(bào)告:EAI(具身智能):驅(qū)動(dòng)人工智能與機(jī)器人產(chǎn)業(yè)的關(guān)鍵技術(shù)_第4頁
信息服務(wù)行業(yè)專題報(bào)告:EAI(具身智能):驅(qū)動(dòng)人工智能與機(jī)器人產(chǎn)業(yè)的關(guān)鍵技術(shù)_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

lEAI構(gòu)建新概念,相關(guān)政策推動(dòng)技術(shù)發(fā)展:具身智能(EmbodiedAI,EAI)由艾倫·圖靈于1950年提出,通過“具身圖靈測試”驗(yàn)證智能體是否能處理物理世界的復(fù)雜性。具身智能體不同于僅在網(wǎng)絡(luò)空間中運(yùn)作的非實(shí)體人工智能,它們結(jié)合了多模態(tài)大模型(MLMs)和世界模型(WMs具備強(qiáng)大的感知、交互和規(guī)劃能力,能夠在虛擬和物理環(huán)境中主動(dòng)適應(yīng)并執(zhí)行任務(wù)。相比傳統(tǒng)的預(yù)編程系統(tǒng),具身智能體更依賴于構(gòu)建世界模型和想象力,以實(shí)現(xiàn)復(fù)雜的推理和決策。目前,上海和北京等地陸續(xù)出臺政策,推動(dòng)智能機(jī)器人和制造業(yè)的高質(zhì)量發(fā)展,上海目標(biāo)到2025年實(shí)現(xiàn)行業(yè)標(biāo)桿企業(yè)的建立。海外方面,美國在機(jī)器人工業(yè)應(yīng)用和商業(yè)化方面的進(jìn)展更為成熟,中國仍在探索階段。l從模擬、感知、交互三方面訓(xùn)練具身智能:模擬器在訓(xùn)練具身智能中扮演了重要角色,通過提供逼真的虛擬環(huán)境進(jìn)行算法開發(fā)和模型訓(xùn)練,幫助研究人員在降低成本、提高安全性和加速迭代的同時(shí),將研究成果更快地轉(zhuǎn)化為現(xiàn)實(shí)應(yīng)用。另外,具身感知讓智能體理解物理世界中的視覺推理和空間,技術(shù)包括視覺同步定位與繪圖(vSLAM)和3D視覺定位,幫助智能體在動(dòng)態(tài)環(huán)境中移動(dòng)和互動(dòng)。具身交互則強(qiáng)調(diào)智能體在物理或模擬空間中與環(huán)境和人類的互動(dòng)能力,典型任務(wù)如具身問題解答(EQA需要智能體主動(dòng)探索環(huán)境,整合信息并執(zhí)行目標(biāo)導(dǎo)向的動(dòng)作。l具身智能產(chǎn)品多樣,覆蓋廣闊市場:不同類型的機(jī)器人在各自的應(yīng)用領(lǐng)域中展現(xiàn)出重要的功能和價(jià)值。1)固定式機(jī)器人因其高精度和穩(wěn)定性,廣泛應(yīng)用于實(shí)驗(yàn)室自動(dòng)化、教育和工業(yè)制造。2)輪式機(jī)器人在物流、倉儲和安全檢查中表現(xiàn)優(yōu)異,而履帶式機(jī)器人適用于農(nóng)業(yè)、建筑和軍事等復(fù)雜地形。3)四足機(jī)器人因其穩(wěn)定性和適應(yīng)性,廣泛用于復(fù)雜地形探索、救援任務(wù)和軍事行動(dòng)。4)人形機(jī)器人在服務(wù)業(yè)、醫(yī)療保健和協(xié)作環(huán)境中日益普及,應(yīng)用于智能交互、精密制造和醫(yī)療手術(shù)等領(lǐng)域。各類機(jī)器人在多種應(yīng)用場景中展現(xiàn)獨(dú)特優(yōu)勢,同時(shí)也面臨不同的技術(shù)挑戰(zhàn)。l投資建議:我們認(rèn)為具身智能(EAI)是推動(dòng)通用人工智能(AGI)發(fā)展的關(guān)鍵技術(shù),具有廣闊的應(yīng)用前景。其技術(shù)涵蓋計(jì)算機(jī)視覺、自然語言處理和機(jī)器人技術(shù),尤其在具身感知和交互方面表現(xiàn)突出?;诙嗄B(tài)大模型和世界模型的具身智能體,不僅能夠理解并適應(yīng)復(fù)雜的物理和虛擬環(huán)境,還能在動(dòng)態(tài)場景中與人類自然互動(dòng),執(zhí)行復(fù)雜任務(wù)。根據(jù)證券時(shí)報(bào)援引賽迪顧問發(fā)布的《2024中國人形機(jī)器人產(chǎn)業(yè)生態(tài)發(fā)展研究》顯示,全球具身智能市場將在未來幾年持續(xù)增長,尤其是在工業(yè)自動(dòng)化和服務(wù)機(jī)器人領(lǐng)域。此外,隨著智能制造和人形機(jī)器人技術(shù)的快速發(fā)展,預(yù)計(jì)到2026年,中國人形機(jī)器人市場規(guī)模將突破200億元。各地政策的積極推動(dòng),如上海和北京的智能機(jī)器人發(fā)展計(jì)劃,將進(jìn)一步加速具身智能的技術(shù)進(jìn)步和市場應(yīng)用。l建議關(guān)注:AI算力、模型和應(yīng)用。算力:英偉達(dá)、寒武紀(jì)-U、海光信息、景嘉微、龍芯中科、浪潮信息、中科曙光、神州數(shù)碼、軟通動(dòng)力、中國長城;模型:科大訊飛、中控技術(shù)、??低?、大華股份、商湯-W;應(yīng)用:微軟、金山辦公、賽意信息、寶信軟件、萬興科技、虹軟科技、新致軟件、新國都、中科創(chuàng)達(dá)、索辰科技、比亞迪電子。l風(fēng)險(xiǎn)提示:1.大模型發(fā)展不及預(yù)期;2.EAI發(fā)展不及預(yù)期;3.具身智能下游需求行業(yè)研究·信息服務(wù)行業(yè)21.發(fā)展路線:EAI構(gòu)建新概念,相關(guān)政策推動(dòng)技術(shù)發(fā)展 52.技術(shù)背景:從模擬、感知、交互三方面訓(xùn)練EAI 62.1EAI概念解析,虛擬與物理環(huán)境的結(jié)合 72.2具身模擬器(EmbodiedSimulator) 72.2.1通用模擬器(GeneralSimulator) 82.2.1基于真實(shí)世界的模擬器(Real-SceneBasedSimulators) 2.3具身感知(EmbodiedPreception) 2.3.1視覺同步定位和繪圖(vSLAM) 2.3.23D視覺定位 2.3.3視覺語言導(dǎo)航(VisualLanguageNavigation) 2.3具身交互(EmbodiedIntereaction) 2.4具身智能全面落地仍需解決四大難題 3.應(yīng)用場景:具身智能產(chǎn)品多樣,覆蓋廣闊市場 3.1固定基座機(jī)器人:全面賦能實(shí)驗(yàn)室與工業(yè)場景 3.2輪式/履帶式機(jī)器人:高機(jī)動(dòng)性適應(yīng)復(fù)雜道路環(huán)境 3.3四足機(jī)器人:龍頭制造商占據(jù)大量市場份額 3.4人形機(jī)器人:未來擁有強(qiáng)大潛力,技術(shù)仍需探索 4.潛在標(biāo)的:美國商業(yè)化更為成熟,中國仍需探索 4.1FigureAI:獲巨頭投資,技術(shù)不斷成熟 4.2特斯拉Optimus:優(yōu)先賦能特斯拉工廠 4.3宇樹科技:技術(shù)領(lǐng)先,覆蓋場景多元 4.4中科創(chuàng)達(dá):布局端側(cè)智能+機(jī)器人 4.5有鹿機(jī)器人:引入“通用智能大腦”概念 4.6科大訊飛:訊飛超腦計(jì)劃,讓機(jī)器人走向通才 4.7??低暎阂曈X與移動(dòng)機(jī)器人提供商 4.8比亞迪電子:AMR提供物流解決方案 5.投資建議 6.風(fēng)險(xiǎn)提示 行業(yè)研究·信息服務(wù)行業(yè)3 圖1中美機(jī)器人企業(yè)落地進(jìn)度一覽 6圖2基于MLM和WM的具身智能框架 7圖3通用模擬器的例子 8圖4IsaacSim架構(gòu) 8圖5IsaacSim工作界面 9圖6Isaac模擬機(jī)械手臂 9圖7Isaac模擬無人機(jī)飛行 9圖8基于真實(shí)世界的模擬器實(shí)例 圖9ThreeDWorld(TDW)設(shè)計(jì)展示 圖10多智能體互動(dòng)和VR能力 圖11vSLAM架構(gòu)展示 圖123D視覺定位中的分級定位 圖13共視聚類概念展示 圖14NaVid架構(gòu)圖 圖15EQA任務(wù)例子 圖16ROMAN框架的功能 圖17ROMAN從錯(cuò)誤中恢復(fù)的效果展示 圖182013年-2023年亞馬遜機(jī)器人應(yīng)用數(shù)量 圖19KIVA機(jī)器人構(gòu)造 圖202018年-2022年中國移動(dòng)機(jī)器人市場規(guī)模 圖212022年中國移動(dòng)機(jī)器人市場規(guī)模分布情況 圖22四足機(jī)器人發(fā)展路線 圖23人形機(jī)器人產(chǎn)業(yè)各大關(guān)聯(lián)廠商 圖24人形機(jī)器人應(yīng)用展望 圖252024-2035年人形機(jī)器人市場規(guī)模預(yù)測 圖26FigureAI第一代與第二代機(jī)器人 圖27語音模塊的工作模式解析 圖28特斯拉Optimus自主工作 圖29宇樹科技產(chǎn)品一覽 圖30CES2024宇樹科技產(chǎn)品展示 行業(yè)研究·信息服務(wù)行業(yè)4圖31中科創(chuàng)達(dá)機(jī)器人產(chǎn)品 圖32有鹿機(jī)器人具身智能大模型 圖33有鹿機(jī)器人打造“通用大腦”概念 圖34科大訊飛機(jī)器人平臺架構(gòu) 圖35科大訊飛超腦計(jì)劃2030 圖36??低曇苿?dòng)機(jī)器人產(chǎn)品一覽 圖37比亞迪電子AMR機(jī)器人 表1實(shí)體人工智能和非實(shí)體人工智能 5表2政策推動(dòng)人工智能技術(shù)發(fā)展 5行業(yè)研究·信息服務(wù)行業(yè)5具身智能(EmbodiedAI)最初是由艾倫-圖靈(AlanTuring)于1950年提出的“具身圖靈測試”(EmbodiedTuringTest旨在確定智能體是否能夠展現(xiàn)出解決虛擬環(huán)境中問題的能力,而且能夠駕馭物理世界的復(fù)雜性和不可預(yù)測性。網(wǎng)絡(luò)空間中的智能體通常被稱為非實(shí)體人工智能,而物理空間中的智能體則是實(shí)體人工智能。多模態(tài)大模型(MLMs)的最新進(jìn)展為具身模型注入了強(qiáng)大的感知、交互和規(guī)劃能力,從而開發(fā)出能與虛擬和物理環(huán)境積極交互的通用具身智能體和機(jī)器人。因此,具身智能體被廣泛認(rèn)為是MLMs的最佳載體,目前最有代表性的具身模型是RT-2和RT-H。無要讓AI像人類一樣理解這個(gè)物理世界,它必須能夠以人類的方式解釋和理解場景。比如,當(dāng)AI被放置在一個(gè)房間里時(shí),它需要能夠像人類那樣分析和解讀周圍的環(huán)境。另外,在不同領(lǐng)域之間建立聯(lián)系,或者試圖發(fā)現(xiàn)新知識時(shí),傳統(tǒng)的預(yù)編程和特定領(lǐng)域的專業(yè)系統(tǒng)已經(jīng)無法滿足需求。這些系統(tǒng)受到現(xiàn)有內(nèi)置知識的限制,很難實(shí)現(xiàn)新的發(fā)現(xiàn)、創(chuàng)新和創(chuàng)造。讓AI變得更聰明的關(guān)鍵在于利用“想象力”,其實(shí)就是人類和其他動(dòng)物依靠世界的現(xiàn)有模式生成的想法,它是一個(gè)非常強(qiáng)大的規(guī)劃工具。為了讓AI有效地規(guī)劃,它需要構(gòu)建一個(gè)關(guān)于世界的模型(WMs并能夠利用這個(gè)模型進(jìn)行推理和決策。因此,具身認(rèn)知至關(guān)重要。系統(tǒng)需要通過具身認(rèn)知來獲取知識,并進(jìn)一步生成抽象的認(rèn)知。《上海市智能機(jī)器人標(biāo)桿企各區(qū)產(chǎn)業(yè)主管部門支持推動(dòng)以機(jī)器人為代表的智能100個(gè)標(biāo)桿示范的機(jī)器人應(yīng)用場景、1《北京市機(jī)器人產(chǎn)業(yè)創(chuàng)新發(fā)加緊布局人形機(jī)器人,對標(biāo)國際領(lǐng)先人形機(jī)器人產(chǎn)品展人形機(jī)器人整機(jī)產(chǎn)品、關(guān)鍵零部件攻關(guān)和工程化,人產(chǎn)業(yè)創(chuàng)新中心。以人形機(jī)器人小批量生產(chǎn)和應(yīng)用為軟件及接口、通用硬件開發(fā)配套設(shè)施等基礎(chǔ)條件,集開展關(guān)鍵共性技術(shù)研究。支持機(jī)器人企業(yè)與“智能機(jī)器人與系統(tǒng)高精尖創(chuàng)新中資料來源:上海市經(jīng)濟(jì)和信息化委員會,上海市人民政府,行業(yè)研究·信息服務(wù)行業(yè)6相關(guān)政策已落地,帶動(dòng)具身智能行業(yè)發(fā)展。例如上海市的政策重點(diǎn)是推動(dòng)智能機(jī)器人和智能制造業(yè)的發(fā)展,目標(biāo)是通過營商環(huán)境的優(yōu)化和創(chuàng)新基地的建設(shè),到2025年實(shí)現(xiàn)行業(yè)標(biāo)桿企業(yè)和應(yīng)用場景的建立。北京市的政策則側(cè)重于機(jī)器人產(chǎn)業(yè)的創(chuàng)新發(fā)展,特別是對高端機(jī)器人產(chǎn)品和國際化布局的支持,旨在推動(dòng)產(chǎn)業(yè)生態(tài)系統(tǒng)的完善和技術(shù)創(chuàng)新。美國在機(jī)器人工業(yè)應(yīng)用和商業(yè)化方面的進(jìn)展更為成熟,中國仍在探索階段。美國和中國的機(jī)器人技術(shù)進(jìn)展和落地進(jìn)度存在一些顯著差異。美國的機(jī)器人企業(yè),如特斯拉和FigureAI,已在2024年中旬進(jìn)入工廠,負(fù)責(zé)分揀電池和簡單抓取的任務(wù)。AgilityRobotics與亞馬遜的合作已經(jīng)在2023年展開,推進(jìn)了物流和自動(dòng)化領(lǐng)域的實(shí)際應(yīng)用。SanctuaryAI也計(jì)劃在2024年開始商業(yè)運(yùn)營,重點(diǎn)放在智慧城市和建筑領(lǐng)域的智能服務(wù)上。相比之下,中國的機(jī)器人企業(yè)雖然在多個(gè)領(lǐng)域(如安防、教育和娛樂)都有布局,但整體落地進(jìn)度稍慢。例如,優(yōu)必選的WalkerS預(yù)計(jì)在2024年初開始量產(chǎn),主要用于門鎖質(zhì)檢和汽車制造領(lǐng)域。其他企業(yè)如小米機(jī)器人和波士頓動(dòng)力的項(xiàng)目仍在研發(fā)階段,逐步優(yōu)化視覺和環(huán)境交互技術(shù)。虛擬對話的智能體(如ChatGPT)不同,它們可以通過控制物理實(shí)體在現(xiàn)實(shí)和模擬環(huán)境中進(jìn)行交互。該技術(shù)涵蓋了多個(gè)領(lǐng)域,包括計(jì)算機(jī)視覺、自然語言處理和機(jī)器人技術(shù),特別是在具身感知、具身交互以及從模擬到現(xiàn)實(shí)的機(jī)器人控制方面展現(xiàn)了顯著優(yōu)勢。具身智能體依托于多模態(tài)大模型(MLMs)和世界模型(WMs像“腦”一樣理解虛擬與物理環(huán)境,主動(dòng)感知多模態(tài)元素,并根據(jù)人類的意圖進(jìn)行任務(wù)分解與執(zhí)行。它們不僅能夠與人類互動(dòng),還能夠借助知識庫和工具完成復(fù)雜任務(wù),展現(xiàn)出比傳統(tǒng)深度強(qiáng)化學(xué)習(xí)更高的靈活性和通用性。模擬器在訓(xùn)練具身智能中扮演了重要角色,通過提供逼真的虛擬環(huán)境進(jìn)行算法開發(fā)和模型訓(xùn)練,幫助研究人員在降低成本、提高安全性和加速迭代的同時(shí),將研究成果更快地轉(zhuǎn)化為現(xiàn)實(shí)應(yīng)用。同時(shí),具身感知讓智能體理解物理世界中的視覺推動(dòng)態(tài)環(huán)境中移動(dòng)和互動(dòng)。具身交互則強(qiáng)調(diào)智能體在物理或模擬空間中與環(huán)境和人類行業(yè)研究·信息服務(wù)行業(yè)7具身智能的發(fā)展是實(shí)現(xiàn)通用人工智能(AGI)的重要基礎(chǔ)。與類似ChatGPT的對話智能體不同,具身智能可以通過控制物理實(shí)體并在模擬和物理環(huán)境中進(jìn)行交互來實(shí)現(xiàn)。目前,具身智能涵蓋了計(jì)算機(jī)視覺(CV)、自然語言處理(NLP)和機(jī)器人技術(shù)等多個(gè)關(guān)鍵技術(shù)領(lǐng)域,最具代表性的是具身感知、具身交互、具身智能體和模擬到現(xiàn)實(shí)的機(jī)器人控圖2基于MLM和WM的具身智能框架基于多模態(tài)大模型(MLMs)和世界模型(WMs具身智能體能夠用“腦”來理解虛擬和物理環(huán)境,并主動(dòng)感知多模態(tài)元素。主要的內(nèi)容包括:1)具身世界模型(EmbodiedWorldModel這是具身智能體的核心,類似于智能體的大腦。它能夠理解虛擬與物理環(huán)境,并進(jìn)行多模態(tài)感知。2)多模態(tài)感知:智能體能夠全面感知來自虛擬和物理環(huán)境的多模態(tài)元素,這意味著它可以處理不同來源的數(shù)據(jù),如視覺、觸覺等。3)人類意圖理解與對齊:具身智能體能夠充分理解人類通過語言表達(dá)的意圖,并與人類的價(jià)值觀對齊,確保其行為符合人類的期望。4)任務(wù)分解與執(zhí)行:智能體具備將復(fù)雜任務(wù)分解為子任務(wù)的能力,并且能夠精確執(zhí)行這些任務(wù)。此外,它還能夠與人類進(jìn)行互動(dòng),并利用知識庫和工具來完成任務(wù)。通過這些特性,具身智能體可以在復(fù)雜的動(dòng)態(tài)環(huán)境中與人類自然互動(dòng),并可靠地完成任務(wù),展現(xiàn)出比傳統(tǒng)深度強(qiáng)化學(xué)習(xí)方法更高的靈活性和通用性。模擬器顯著提升了AI訓(xùn)練的效率,并節(jié)省了大量成本。數(shù)據(jù)匱乏一直是具身人工智能研究面臨的挑戰(zhàn),收集真實(shí)世界的機(jī)器人數(shù)據(jù)需要花費(fèi)大量時(shí)間和成本。首先,現(xiàn)實(shí)世界中的機(jī)器人訓(xùn)練需要搭建專門的物理場所,導(dǎo)致訓(xùn)練進(jìn)展緩慢,效率難以提升。另外,搭建專屬場地、頻繁的數(shù)據(jù)收集、聘請機(jī)器人專家操作等涉及的成本很高。此外,最重要的挑戰(zhàn)在于可重復(fù)性,因?yàn)闄C(jī)器人的硬件配置、控制方法和實(shí)施框架存在巨大差異,阻礙了數(shù)據(jù)的復(fù)用性。在這種情況下,模擬器為具身人工智能的數(shù)據(jù)收集和訓(xùn)練提供了一種全新的解決方案。具身模擬器對于EAI技術(shù)至關(guān)重要,因?yàn)樗鼈兡芴峁┮粋€(gè)經(jīng)濟(jì)有效、可擴(kuò)展且安全的實(shí)驗(yàn)平臺。通過模擬潛在的危險(xiǎn)場景,可以在不同環(huán)境中進(jìn)行測試,支持更快的機(jī)器人原型設(shè)計(jì),并向更廣泛的研究群體開放。具身模擬器還能提供用于精確研究的受控環(huán)境,生成用于培訓(xùn)和評估的數(shù)據(jù),并提供一個(gè)標(biāo)準(zhǔn)化準(zhǔn)則。為了讓具身智能體與環(huán)境互動(dòng),構(gòu)建一個(gè)符合物理理論的模擬環(huán)境也十分重要,這就要求對環(huán)境的物理特性、物體的屬性及其相互作用進(jìn)行全面考量。行業(yè)研究·信息服務(wù)行業(yè)8具身人工智能的最終目標(biāo)是將虛擬環(huán)境中的研究成果轉(zhuǎn)化為現(xiàn)實(shí)世界中的應(yīng)用。研究人員可以選擇最適合自己需要的模擬器來輔助研究。通用模擬器提供了一個(gè)近似物理世界的虛擬環(huán)境,可以進(jìn)行算法開發(fā)和模型訓(xùn)練,在成本、時(shí)間和安全性方面都有顯著IsaacSim是一個(gè)專為NVIDIAOmniverse平臺開發(fā)的機(jī)器人仿真工具包,它提供了構(gòu)建仿真機(jī)器人世界和進(jìn)行實(shí)驗(yàn)所需的大部分功能。IsaacSim可以接受來自不同來源的輸入,比如Onshape、URDF、MJCF、USD,其中USD直接導(dǎo)入IsaacSim,其他類型的輸入則會通過對應(yīng)的importer插件進(jìn)行導(dǎo)入。Onshape是一種基于云的計(jì)算機(jī)輔助設(shè)計(jì)(CAD)軟件,用于進(jìn)行三維建模和設(shè)計(jì)工作。類似于Fusion360。URDF(UnifiedRobotDescriptionFormat)是一種XML文件格式,用于描述機(jī)器人模型的幾何形狀、連接性、關(guān)節(jié)、傳感器和其他相關(guān)信息。在這個(gè)架構(gòu)中,USD(UniversalSceneDescription)用作場景描述,用于在不同工具之間進(jìn)行內(nèi)容創(chuàng)建和交換。目前USD正在廣泛應(yīng)用,不僅在視覺效果社區(qū),還在建筑、設(shè)計(jì)、機(jī)器人技術(shù)、制造和其他領(lǐng)域中得到采用。行業(yè)研究·信息服務(wù)行業(yè)9該工具包還提供了創(chuàng)建穩(wěn)健、物理精確的仿真和合成數(shù)據(jù)集所需的工具和工作流程。IsaacSim支持常見的機(jī)器人框架,如ROS/ROS2,允許用戶通過這些框架進(jìn)行導(dǎo)航和操作應(yīng)用。此外,IsaacSim能夠模擬來自多種傳感器的數(shù)據(jù),包括RGB-D、激光雷達(dá)和IMU,適用于各種計(jì)算機(jī)視覺技術(shù),如域隨機(jī)化、地面真值標(biāo)注、分割和邊界框的生成。機(jī)器人仿真是利用計(jì)算機(jī)技術(shù)來模擬機(jī)器人運(yùn)動(dòng)、感知和互動(dòng)的過程。這一過程涵蓋了機(jī)器人硬件和軟件系統(tǒng)的模擬,以便在虛擬環(huán)境中對機(jī)器人的算法和控制策略進(jìn)行測試、開發(fā)和驗(yàn)證。其中的好處包括1)成本控制:仿真環(huán)境能顯著降低機(jī)器人開發(fā)與測試成本,避免了對昂貴硬件和設(shè)備的依賴。若不使用仿真,而采用大量真實(shí)機(jī)器人進(jìn)行測試,將面臨硬件組裝、調(diào)試及損壞等高昂的時(shí)間與經(jīng)濟(jì)成本。尤其對于特殊測試場景,如沙漠或核電站,搭建逼真測試環(huán)境的成本同樣極高。2)安全性保障:例如在工業(yè)機(jī)械臂、無人機(jī)等機(jī)器人設(shè)備調(diào)試中,無人機(jī)失控墜毀或機(jī)械臂故障會對企業(yè)的人員安全構(gòu)成威脅。3)快速迭代:仿真環(huán)境避免了對真實(shí)機(jī)器人的繁瑣調(diào)試,例如為一千臺機(jī)器人重新燒錄固件或修改搭載的算法,從而節(jié)省了大量的調(diào)試時(shí)間。并且模擬器允許開發(fā)人員快速迭代機(jī)器人的算法和控制器,以優(yōu)化性能和功能。行業(yè)研究·信息服務(wù)行業(yè)10在室內(nèi)活動(dòng)中實(shí)現(xiàn)通用具身智能一直是AI研究領(lǐng)域的重點(diǎn)。這些具身智能體需要深入理解人類的日常生活,并執(zhí)行復(fù)雜的具身任務(wù),如室內(nèi)環(huán)境中的導(dǎo)航和交互。為了滿足這些復(fù)雜任務(wù)的需求,模擬環(huán)境需要盡可能接近真實(shí)世界,這就對模擬器的復(fù)雜性和逼真度提出了很高的要求。因此,基于真實(shí)世界環(huán)境的模擬器應(yīng)運(yùn)而生。這些模擬器大多從現(xiàn)實(shí)世界收集數(shù)據(jù),創(chuàng)建逼真的三維資產(chǎn),并使用UE5(虛幻5)和Unity等三維游戲引擎構(gòu)建場景。豐富而逼真的場景使基于真實(shí)世界環(huán)境的模擬器成為研究家居活動(dòng)中的體現(xiàn)式人工智能的首選。在騰訊網(wǎng)援引映維網(wǎng)的文章中指出,2021年,麻省理工學(xué)院(MIT)、MIT-IBM沃森人工智能實(shí)驗(yàn)室、哈佛大學(xué)和斯坦福大學(xué)的研究人員開發(fā)了一個(gè)名為ThreeDWorld(TDW)的平臺,并希望創(chuàng)造一個(gè)類似于《黑客帝國》的豐富虛擬世界。TDW能夠模擬室內(nèi)和室外的高保真音頻和視頻環(huán)境,并允許用戶像在現(xiàn)實(shí)生活中一樣根據(jù)物理定律與對象進(jìn)行交互。當(dāng)發(fā)生相互作用時(shí),系統(tǒng)能夠計(jì)算并執(zhí)行流體、柔體和剛體的對象方向、物理特征和速度,從而產(chǎn)生精確的碰撞和撞擊聲音。TDW支持在三維環(huán)境中模擬移動(dòng)智能體和對象之間的高保真感覺數(shù)據(jù)和物理交互。獨(dú)特的特性包括:實(shí)時(shí)接近照片真實(shí)感的圖像渲染;各種物質(zhì)類型的真實(shí)物理交互作用,包括布、液體和可變形物體;具身智能體的可定制“智能體”;并支持人類與VR設(shè)備的交互。TDW的API允許多個(gè)智能體在模擬中交互,并返回代表世界狀態(tài)的傳感器和物理數(shù)據(jù)范圍。YangLiu等人介紹了TDW在計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和認(rèn)知科學(xué)等新興研究方向上的初步實(shí)驗(yàn),包括多模態(tài)物理場景理解、物理動(dòng)力學(xué)預(yù)測、多智能體交互、“像孩子一樣學(xué)習(xí)”的模型,以及人類和神經(jīng)網(wǎng)絡(luò)的注意力研究。行業(yè)研究·信息服務(wù)行業(yè)11利用TDW的多智能體API的靈活性,可以創(chuàng)建各種多智能體交互設(shè)置的實(shí)現(xiàn)。其中包括一個(gè)“觀察者”智能體被安置在一個(gè)有多個(gè)無生命物體的房間里,與幾個(gè)不同控制的“行動(dòng)者”智能體一起(圖9a)?!靶袆?dòng)者”智能體由硬編碼或交互策略控制,實(shí)現(xiàn)對象操作、追逐和隱藏以及運(yùn)動(dòng)模仿等行為。在這種情況下,人類觀察者只被要求看他們想看的任何東西,而虛擬觀察者尋求最大限度地提高其預(yù)測同一顯示中參與者行為的能力,根據(jù)“進(jìn)展好奇心”的度量來分配其注意力,該度量尋求估計(jì)哪些觀察最有可能增加觀察者做出參與者預(yù)測的能力。具身感知未來主要的發(fā)展方向是以智能體為中心的視覺推理。與僅僅識別圖像中的物體不同,具有具身感知能力的智能體必須在物理世界中移動(dòng)并與環(huán)境互動(dòng)。這就要求對三維空間和動(dòng)態(tài)環(huán)境有更深入的了解。2.3.1視覺同步定位和繪圖(vSSLAM(SimultaneousLocalizationAndMapping,同步定位與地圖構(gòu)建),主要為了解決移動(dòng)機(jī)器人在未知環(huán)境運(yùn)行時(shí)定位導(dǎo)航與地圖構(gòu)建的問題。SLAM能夠解決機(jī)器人在陌生環(huán)境中的定位、環(huán)境感知、移動(dòng)方向等問題。機(jī)器人可以配置多種傳感器來實(shí)現(xiàn)SLAM,包括激光雷達(dá)(3D,2D毫米波雷達(dá),超聲波,RGB-D,攝像頭(單目,多目)等,通常根據(jù)使用場景、制造成本、設(shè)備功率、算力的需求與約束,機(jī)器人采用不同傳感器或組合的解決方案,以減少誤差并提高準(zhǔn)確性。目前兩個(gè)主流的解決方案是基于激光雷達(dá)的LidarSLAM以及基于攝像頭的VisualSLAM。VSLAM即VisualSimultaneousLocalizationandMapping,主要是指如何用相機(jī)解決定位和建圖問題。當(dāng)用相機(jī)作為傳感器時(shí),通過一張張連續(xù)運(yùn)動(dòng)的圖像(它們形成一段視頻),從中推斷相機(jī)的運(yùn)動(dòng),以及周圍環(huán)境的情況。VSLAM的技術(shù)框架主要由5部分組成,包括傳感器數(shù)據(jù)預(yù)處理、前端、后端、回環(huán)檢測、建圖。前端,又稱為視覺里程計(jì)(visualodometry,簡稱VO主要是研究如何根據(jù)相鄰幀圖像定量估算幀間相機(jī)的運(yùn)動(dòng)。通過把相鄰幀的運(yùn)動(dòng)軌跡串起來,就構(gòu)成相機(jī)載體(如機(jī)器人)的運(yùn)動(dòng)軌跡,解決定位的問題,然后根據(jù)估算的每個(gè)時(shí)刻相機(jī)的位置,計(jì)算出各像素的空間點(diǎn)的位置,就得到地圖。行業(yè)研究·信息服務(wù)行業(yè)123D視覺定位的核心任務(wù)在于確定當(dāng)前圖像中相機(jī)的位置和姿態(tài)。為實(shí)現(xiàn)這一目標(biāo),最直接的方法是構(gòu)建三維空間點(diǎn)與二維圖像點(diǎn)之間的對應(yīng)關(guān)系,并基于這些匹配點(diǎn)對來估算相機(jī)的位姿。這一過程被專門定義為PnP(Perspective-n-Point)問題。求解PnP問題的方法有很多,常見的有P3P、EPnP、UPnP等。視覺定位需要解決的一大關(guān)鍵問題是HierarchicalLocalizationatLargeScale》中,作者Sarlin提出過一種分級定位的方案。分級定位的框架大約可以分成三步:預(yù)檢索、共視聚類、局部匹配與定位。預(yù)檢索:預(yù)檢索的意義在于獲取前k張與當(dāng)前圖像最相似的圖像,判斷相似的依據(jù)通常是通過匹配圖像的全局特征。一般而言,產(chǎn)生全局特征的方法可以依賴于局部特征所組成的詞袋,不過近些年,一些深度學(xué)習(xí)方案也被引入了進(jìn)來,例如NetVLAD或更加輕量級的MobileNetVLAD。最終通過獲取當(dāng)前圖像的全局特征的k個(gè)最近鄰來獲取預(yù)檢索得到的相近圖集。共視聚類:然而由于可能產(chǎn)生的錯(cuò)誤匹配,所獲取到的預(yù)檢索圖集并不一定全部都面向同一場景,這時(shí)就需要先將面向不同場景的圖像區(qū)分開來,這項(xiàng)技術(shù)就被稱作共視聚類,簡而言之就是將具有共視關(guān)系的圖像聚成一類。行業(yè)研究·信息服務(wù)行業(yè)13局部匹配與定位:一般認(rèn)為圖像數(shù)量較多的類所對應(yīng)的場景是正確場景的可能性較大。因此從這一場景開始,嘗試獲取相機(jī)位姿。獲取的方式主要依賴求解PnP問題,因此需要首先構(gòu)建當(dāng)前圖像的2D關(guān)鍵點(diǎn)在3D模型中的坐標(biāo)位置。在尚不知道相機(jī)姿態(tài)前,這一信息的獲取需要首先匹配當(dāng)前圖像和場景內(nèi)的圖像,特別要匹配那些能夠?qū)?yīng)到3D位置的2D特征點(diǎn),若能夠匹配上則確定了當(dāng)前圖像中的2D點(diǎn)和3D點(diǎn)的對應(yīng)關(guān)系,繼而即可通過對PnP問題的求解獲取相機(jī)位姿。視覺語言導(dǎo)航(VisionLanguageNavigationVLN)是一種技術(shù),它結(jié)合了計(jì)算機(jī)視覺、自然語言處理和自主學(xué)習(xí)三大核心技術(shù),使智能體能夠跟隨自然語言指令進(jìn)行導(dǎo)航。這種技術(shù)不僅理解指令,還能理解指令與視角中可以看見的圖像信息,然后在環(huán)境中對自身所處狀態(tài)進(jìn)行調(diào)整和修復(fù),最終做出對應(yīng)的動(dòng)作,以達(dá)到目標(biāo)位置。例如,如果把一個(gè)機(jī)器人放置在一間臥室里,并給它一個(gè)指令去取放在另一間臥室里的足球,由于兩個(gè)房間之間無法直接看見,機(jī)器人需要走出房間,經(jīng)過走廊、客廳等場所,通過理解并處理看到的每一處環(huán)境信息,判斷下一步的行進(jìn)方向,最終找到足球。NaVid是首個(gè)專為視覺語言導(dǎo)航(VLN)任務(wù)設(shè)計(jì)的基于視頻的視覺語言大模型。此模型模仿人類導(dǎo)航策略,僅將視頻信息作為輸入,無需地圖、里程計(jì)或深度數(shù)據(jù)的支持。在視覺語言導(dǎo)航任務(wù)中,模型需要借助歷史信息來判斷自己已完成指令的進(jìn)度。然而,歷史幀中往往包含大量冗余和重復(fù)的信息。對于當(dāng)前幀,模型不僅要提供該幀所在的最新場景信息,還需預(yù)測出符合指令的下一步合理動(dòng)作。資料來源:JiazhaoZhang《NaVid:Video-basedVLMPlanstheNext行業(yè)研究·信息服務(wù)行業(yè)14目前該方法還有兩個(gè)難點(diǎn):1)導(dǎo)航數(shù)據(jù)的模態(tài)與大模型常見的數(shù)據(jù)模態(tài)不一致。機(jī)器人的導(dǎo)航數(shù)據(jù)需要建模歷史信息和當(dāng)前信息,并保證導(dǎo)航過程中動(dòng)作輸出的格式一致性。2)缺少大量高質(zhì)量的視覺語言導(dǎo)航任務(wù)的真實(shí)數(shù)據(jù)。在真實(shí)世界收集這樣的數(shù)據(jù)極其耗時(shí)耗力,且在場景和指令的多樣性上有欠缺。這些困難限制了視頻大模型用于導(dǎo)航任務(wù)的前景。具身交互任務(wù)指的是智能體在物理或模擬空間中與人類和環(huán)境進(jìn)行交互的場景。典型的具身交互任務(wù)是具身問題解答EmbodiedQuestionAnswering(EQA)。在這個(gè)任務(wù)里面,一個(gè)agent在三維虛擬空間中被進(jìn)行詢問,agent為了回答這個(gè)問題,需要在環(huán)境中進(jìn)行探索和信息整合。這個(gè)任務(wù)需要agent具有主動(dòng)的認(rèn)知、語言理解能力、目標(biāo)驅(qū)動(dòng)的探索、常識推理并將自然語言的信息整合到動(dòng)作序列中。圖中給出了EQA的一個(gè)形象化的表述,在這個(gè)例子中,向agent提出的文本問題為“車是什么顏色的??,agent經(jīng)過在虛擬的環(huán)境中進(jìn)行探索,當(dāng)發(fā)現(xiàn)車子后,返回給系統(tǒng)“車是橘黃色的?!盓QA的最終目標(biāo)是:agent可以理解他們所處的環(huán)境(通過視覺等感知方式具有溝通交流的能力,可以采取一定的動(dòng)作(例如在環(huán)境中根據(jù)問答或?qū)υ掃M(jìn)行Agent需要具有的一些能力進(jìn)行具體的分析:主動(dòng)探索性:由于agent的出現(xiàn)地點(diǎn)是在環(huán)境中隨機(jī)生成的,所以agent需要進(jìn)行一定的動(dòng)作和移動(dòng)去尋找能夠回答問題的視覺信息。常識信息推理:agent沒有一個(gè)關(guān)于虛擬環(huán)境的地圖,所以agent需要自行對環(huán)境進(jìn)行探索。因此agent必須自行構(gòu)建一個(gè)常識系統(tǒng),就像人一樣去比較有目的的進(jìn)行探索房屋(例如一個(gè)人接收到一個(gè)類似廚具顏色的問題,他會根據(jù)自己的常識經(jīng)驗(yàn)直接前往廚房、餐廳等去查看,拿到相應(yīng)的結(jié)果后再進(jìn)行回答,而不會漫無目的的在房間中摸索)。收斂性分析:在這個(gè)EQA的任務(wù)上,難度就是agent的探索可能是很長時(shí)間都難以收斂的(比如說問題是大房子里一共有多少個(gè)小房中有椅子,這種情況下agent可能跑了很多次也不能給出完全正確的答案。此時(shí)開發(fā)者也不知道究竟是agent理解錯(cuò)問題了,還是沒有識別出椅子,還是計(jì)數(shù)出現(xiàn)了錯(cuò)誤,這就導(dǎo)致進(jìn)行訓(xùn)練的時(shí)候,難度非常大為了解決這種問題,作者提出利用模仿學(xué)習(xí)的策略給agent進(jìn)行一個(gè)示范,或者是給出一些引導(dǎo)進(jìn)行前期的訓(xùn)練,以方便agent進(jìn)行更好的學(xué)習(xí)和收斂。行業(yè)研究·信息服務(wù)行業(yè)151.通用本體平臺的挑戰(zhàn)解決硬件的關(guān)鍵零部件技術(shù)突破,形成具有優(yōu)秀運(yùn)動(dòng)能力和操作能力的平臺級通用機(jī)器人產(chǎn)品;平衡機(jī)器人本體的可靠性、成本和通用能力是難題。尤其在被認(rèn)為是具身智能終極形態(tài)的人形機(jī)器人領(lǐng)域,相關(guān)研發(fā)依然是熱點(diǎn)和核心挑戰(zhàn)。2.智能體系統(tǒng)設(shè)計(jì)的難點(diǎn)智能體作為具身智能的核心,必須具備復(fù)雜環(huán)境感知和認(rèn)知能力。這包括3D環(huán)境感知、任務(wù)編排與執(zhí)行、多輪人機(jī)交互、long-term記憶和任務(wù)遷移等多項(xiàng)挑戰(zhàn)。此外,具身智能要求實(shí)時(shí)感知和決策能力,以適應(yīng)復(fù)雜和變化的環(huán)境。這要求高速的數(shù)據(jù)采集、傳輸和處理,以及實(shí)時(shí)的決策反應(yīng),尤其是LLM所消耗的算力規(guī)模巨大,對于資源有限的機(jī)器人處理系統(tǒng)將形成巨大的數(shù)據(jù)量、AI計(jì)算能力和低延遲的挑戰(zhàn)。3.高質(zhì)量數(shù)據(jù)需求現(xiàn)實(shí)場景的復(fù)雜多變,使得現(xiàn)階段缺乏足夠的場景數(shù)據(jù)來訓(xùn)練一個(gè)完全通用的大模型,進(jìn)而讓智能體自我進(jìn)化。耦合的本體,需要實(shí)際部署到真實(shí)環(huán)境中,才能夠采集數(shù)據(jù),這也是和非具身智能的明顯不同。但對于關(guān)鍵業(yè)務(wù),要求成功率,則仍然需要高質(zhì)量的垂域數(shù)據(jù)。同時(shí),通過層次化的智能體設(shè)計(jì),將不同任務(wù)限定到特定領(lǐng)域,則是一個(gè)解決泛化和成功率的有效嘗試。4.虛擬與真實(shí)交互中的學(xué)習(xí)進(jìn)化通過虛擬與真實(shí)環(huán)境的互動(dòng),具身智能體能夠持續(xù)學(xué)習(xí)和進(jìn)化,以應(yīng)對復(fù)雜環(huán)境。盡管形態(tài)變化無窮,但要在有限計(jì)算資源下快速學(xué)習(xí)合理的規(guī)劃和決策能力,是具身智能進(jìn)化中的重要課題。不同類型的機(jī)器人在各自的應(yīng)用領(lǐng)域中展現(xiàn)出重要的功能和價(jià)值。1)固定式機(jī)器人因其高精度和穩(wěn)定性,廣泛應(yīng)用于實(shí)驗(yàn)室自動(dòng)化、教育和工業(yè)制造。2)輪式機(jī)器人在物流、倉儲和安全檢查中表現(xiàn)優(yōu)異,而履帶式機(jī)器人適用于農(nóng)業(yè)、建筑和軍事等復(fù)雜地形。3)四足機(jī)器人因其穩(wěn)定性和適應(yīng)性,廣泛用于復(fù)雜地形探索、救援任務(wù)和軍事行動(dòng)。4)人形機(jī)器人在服務(wù)業(yè)、醫(yī)療保健和協(xié)作環(huán)境中日益普及,應(yīng)用于智能交互、精密制造和醫(yī)療手術(shù)等領(lǐng)域。各類機(jī)器人在不同應(yīng)用場景中展現(xiàn)獨(dú)特優(yōu)勢,同時(shí)面臨成本和技術(shù)挑戰(zhàn)。固定式機(jī)器人由于其精度和穩(wěn)定性,廣泛應(yīng)用于實(shí)驗(yàn)室自動(dòng)化、教育和工業(yè)制造。它們在需要高精度的任務(wù)中表現(xiàn)出色,但受限于固定位置,成本高且維護(hù)要求高。其中一個(gè)新穎的框架被稱為機(jī)器人操作網(wǎng)絡(luò)(RoboticManipulationNetworkROMAN)。ROMAN是一種機(jī)器人操作網(wǎng)絡(luò),通過混合層次學(xué)習(xí)(HHL)來解決復(fù)雜的順序任務(wù)。它結(jié)合了模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí),能夠執(zhí)行多種復(fù)雜的操作任務(wù),比如按按鈕、拾取物品、旋轉(zhuǎn)、插入等。ROMAN的優(yōu)勢在于它可以處理長時(shí)間任務(wù),適應(yīng)隨機(jī)的任務(wù)順序,并且在出錯(cuò)時(shí)能夠自動(dòng)恢復(fù),繼續(xù)完成任務(wù)。行業(yè)研究·信息服務(wù)行業(yè)16HHL結(jié)合了行為克?。˙C)、生成對抗模仿學(xué)習(xí)(GAIL)和近端策略優(yōu)化(PPO)等算法。首先,行為克隆用于初始化策略,通過學(xué)習(xí)專家演示的動(dòng)作來引導(dǎo)機(jī)器人。然而,單獨(dú)依賴模仿學(xué)習(xí)存在局限性,因此HHL還利用GAIL和PPO來增強(qiáng)學(xué)習(xí)過程。GAIL通過對比機(jī)器人生成的軌跡與專家軌跡,進(jìn)一步優(yōu)化機(jī)器人行為,而PPO則提供了一個(gè)外部獎(jiǎng)勵(lì)信號,幫助機(jī)器人在探索中找到更優(yōu)的策略。通過這種方式,HHL框架能夠在長時(shí)間任務(wù)中適應(yīng)新情況,并具有從錯(cuò)誤中恢復(fù)的能力。行業(yè)研究·信息服務(wù)行業(yè)17ROMAN具備識別錯(cuò)誤的能力,且能快速進(jìn)行動(dòng)態(tài)恢復(fù)。當(dāng)ROMAN在執(zhí)行“拾取和放置”以及“拾取和丟棄”子任務(wù)時(shí)出現(xiàn)錯(cuò)誤的情況下,系統(tǒng)迅速調(diào)整策略,以重新抓取物品并完成任務(wù)。這些錯(cuò)誤可能包括抓取對象不準(zhǔn)確、執(zhí)行軌跡出錯(cuò)或激活了錯(cuò)誤的任務(wù)順序,但ROMAN通過其中央操控網(wǎng)絡(luò),能夠在任務(wù)失敗時(shí)激活不同的專家網(wǎng)絡(luò),進(jìn)行調(diào)整和修正。這種能力展示了ROMAN框架的強(qiáng)大適應(yīng)性,不僅能夠執(zhí)行預(yù)設(shè)的任務(wù)序列,還能夠在遇到新的或意外的情況時(shí)進(jìn)行調(diào)整,恢復(fù)并繼續(xù)完成任務(wù)。通過平衡探索和利用,ROMAN生成了超越原始示范的行為,體現(xiàn)了在面對復(fù)雜和動(dòng)態(tài)環(huán)境時(shí)的靈活性。目前工業(yè)機(jī)械臂市場規(guī)模穩(wěn)步增長,國產(chǎn)品牌份額提升。根據(jù)中國報(bào)告大廳發(fā)布的文章表示,2022年中國機(jī)械臂市場規(guī)模接近178.3億元,同比增長6.26%。到2023年,市場規(guī)模增至186.4億元,預(yù)計(jì)2024年將達(dá)193.4億元,2025年將超過200億元。2022年,國內(nèi)品牌工業(yè)機(jī)械臂市場份額顯著提升,達(dá)到71.2億元。到2023年,國產(chǎn)工業(yè)機(jī)器人市場份額為52.45%,首次超過外資品牌,顯示出國產(chǎn)品牌市場競爭力的增強(qiáng)。移動(dòng)機(jī)器人適應(yīng)復(fù)雜多樣的應(yīng)用場景。輪式機(jī)器人因其高效機(jī)動(dòng)性,廣泛應(yīng)用于物流、倉儲和安全檢查。其優(yōu)點(diǎn)包括結(jié)構(gòu)簡單、成本較低、高能效及在平坦表面快速移動(dòng)的能力,但在不平坦地形中表現(xiàn)有限。與此不同,履帶式機(jī)器人在復(fù)雜地形中表現(xiàn)出色,適合農(nóng)業(yè)、建筑和軍事領(lǐng)域,但能效較低且在平坦表面上移動(dòng)較慢。兩種機(jī)器人各有優(yōu)劣,適用于不同環(huán)境和任務(wù)。在物流領(lǐng)域,亞馬遜的Kiva機(jī)器人較為成熟。自2012年收購KIVA以來,亞馬遜探索各類機(jī)器人及智能化技術(shù)在倉儲物流領(lǐng)域的應(yīng)用,截至目前,亞馬遜內(nèi)部使用的機(jī)器人數(shù)量已超75萬,是全球最大的機(jī)器人使用主體之一。KIVA機(jī)器人能夠提升倉庫揀貨效率。Kiva開發(fā)了一套系統(tǒng),包括可移動(dòng)貨架、二維碼地板網(wǎng)格、智能包裝站、橙色機(jī)器人和強(qiáng)大的軟件系統(tǒng)。我們認(rèn)為,Kiva徹底改變了倉庫內(nèi)部的物流方式。創(chuàng)新想法是讓貨架移動(dòng)到工人面前,而非讓工人走到貨架前。這一系統(tǒng)大幅提高了配送中心的效率,減少了人工錯(cuò)誤和操作成本。行業(yè)研究·信息服務(wù)行業(yè)18Kiva機(jī)器人通過精巧的設(shè)計(jì)提升了倉庫自動(dòng)化的安全性和效率,同時(shí)優(yōu)化了制造成本和操作可靠性。Kiva部署的倉庫地面上每隔大約1米就有一個(gè)二維碼,Kiva就根據(jù)這些標(biāo)記進(jìn)行定位和誤差補(bǔ)償。它的每一個(gè)動(dòng)作都來自于云端的指令。在它到達(dá)目標(biāo)貨架底部后,其使用一個(gè)滾珠絲杠升降梯結(jié)構(gòu),通過原地旋轉(zhuǎn)來升高自己,將貨架頂起約10厘米。從外面看,Kiva機(jī)器人外殼的每一側(cè)都有紅外傳感陣列,以及氣動(dòng)保險(xiǎn)杠,用于檢測和緩沖碰撞。外殼上還有充電接口和一系列狀態(tài)指示燈。每一臺Kiva機(jī)器人有三個(gè)獨(dú)立的自由度:兩個(gè)驅(qū)動(dòng)輪,加上一個(gè)用于起重的旋轉(zhuǎn)電機(jī)。起重電機(jī)轉(zhuǎn)動(dòng)時(shí),兩個(gè)驅(qū)動(dòng)輪反方向旋轉(zhuǎn),結(jié)果是托盤相對于地面沒有旋轉(zhuǎn),只在滾珠絲杠的作用下升高。相比于傳統(tǒng)的大負(fù)載直線驅(qū)動(dòng)方案比如液壓、剪式升降臺,Kiva的這種利用輪子的結(jié)構(gòu)顯然更加簡單可靠。行業(yè)研究·信息服務(wù)行業(yè)19受益于制造業(yè)自動(dòng)化、服務(wù)業(yè)升級以及技術(shù)創(chuàng)新,我國移動(dòng)機(jī)器人市場一直處于迅速發(fā)展階段。2021-2022年,國外深陷疫情泥潭時(shí),我國疫情得到有效防控,企業(yè)復(fù)工復(fù)產(chǎn)已成常態(tài)化,因此國內(nèi)機(jī)器人成為眾多海外市場的選擇;根據(jù)搜狐援引觀研天下的文章中指出,預(yù)計(jì)隨著隨著機(jī)器人技術(shù)的快速發(fā)展、應(yīng)用場景的多樣化,未來我國移動(dòng)機(jī)器人行業(yè)將有千億級別空間。搜狐援引觀研天下的數(shù)據(jù)顯示,2018-2022年我國移動(dòng)機(jī)器人市場規(guī)模從34.96億元擴(kuò)大到96.73億元。目前我國移動(dòng)機(jī)器人行業(yè)主要集中在華東地區(qū),占比達(dá)到了30.11%;其次為華北地區(qū),其市場規(guī)模占比為16.14%。四足機(jī)器人以其穩(wěn)定性和適應(yīng)性而廣泛應(yīng)用于復(fù)雜地形的探索、救援任務(wù)和軍事行動(dòng)。它們的設(shè)計(jì)靈感來源于四足動(dòng)物,通過多關(guān)節(jié)設(shè)計(jì)實(shí)現(xiàn)生物運(yùn)動(dòng)的模擬,并能夠自動(dòng)調(diào)整姿態(tài),以適應(yīng)不斷變化的地形。傳感系統(tǒng)如激光雷達(dá)和攝像頭則為機(jī)器人提供環(huán)境感知,使其能夠自主導(dǎo)航和避障。當(dāng)前,幾種四足機(jī)器人被廣泛使用,包括UnitreeRobotics的UnitreeA1和Go1、BostonDynamics的Spot以及ANYbotics的ANYmalC。UnitreeA1和Go1因成本效益和靈活性廣受歡迎,具有強(qiáng)大的機(jī)動(dòng)性和智能避障能力。BostonDynamics的Spot則以其出色的穩(wěn)定性、負(fù)載能力和操作靈活性著稱,適用于工業(yè)檢查和救援任務(wù)。盡管四足機(jī)器人技術(shù)先進(jìn),但其高昂的制造成本和電池續(xù)航限制了其在某些領(lǐng)域的廣泛應(yīng)用。圖22四足機(jī)器人發(fā)展路線例如AIRS團(tuán)隊(duì)的麒麟機(jī)器人,團(tuán)隊(duì)引入仿生設(shè)計(jì)思路來優(yōu)化設(shè)計(jì)四足機(jī)器人整體結(jié)構(gòu)?;趯χ行腿馄使趋澜Y(jié)構(gòu)的仔細(xì)研究,合理設(shè)計(jì)每個(gè)部位的尺寸。機(jī)器人整體結(jié)構(gòu)具備較高負(fù)載能力,同時(shí)大大提升了越障性能。團(tuán)隊(duì)結(jié)合復(fù)雜地形感知技術(shù),提出了一種能夠讓四足機(jī)器人在通過崎嶇3D地形時(shí)實(shí)現(xiàn)高能效的運(yùn)動(dòng)。根據(jù)AIRS援引QYR(恒州博智)的統(tǒng)計(jì)及預(yù)測,2023年全球腿式機(jī)器人市場銷售額為6.02億美元,預(yù)計(jì)2030年將達(dá)到15.11億美元,CAGR為14.3%(2024-2030)。全球主要的的腿式機(jī)器人(LeggedRobot)生產(chǎn)商包括索尼、優(yōu)必選、蔚藍(lán)智能科技和樂聚機(jī)器人,市場占比超過68%。其中,索尼以約28%的市場份額領(lǐng)先。亞太地區(qū)是最大的市場,占比約57%;其次是北美和歐洲,分別約占比24%和12%。從產(chǎn)品類型來看,四足機(jī)器人占市場份額最大,約56%。在產(chǎn)品應(yīng)用方面,最大的應(yīng)用領(lǐng)域是教育和娛樂,其次是科學(xué)研究。行業(yè)研究·信息服務(wù)行業(yè)20人形機(jī)器人因其類人形態(tài)在服務(wù)業(yè)、醫(yī)療保健和協(xié)作環(huán)境中越來越普及。它們模仿人類的動(dòng)作和行為,提供個(gè)性化服務(wù),特別是在醫(yī)療手術(shù)和精密制造等需要復(fù)雜操作的領(lǐng)域。人形機(jī)器人的靈巧手設(shè)計(jì)擁有多個(gè)自由度和高精度傳感器,使其具備出色的抓握和操縱能力。例如,BostonDynamics的Atlas以其卓越的機(jī)動(dòng)性和穩(wěn)定性聞名,能夠執(zhí)行復(fù)雜動(dòng)態(tài)動(dòng)作。AIST的HRP系列在研究和工業(yè)應(yīng)用中表現(xiàn)出色,具有高穩(wěn)定性和靈活性,適合復(fù)雜環(huán)境下與人類協(xié)作任務(wù)。Honda的ASIMO能夠行走、跑步、爬樓梯,還能識別面部和手勢,適用于接待和導(dǎo)游服務(wù)。SoftbankRobotics的Pepper是一種小型社交機(jī)器人,能夠識別情緒并進(jìn)行自然語言交流,廣泛應(yīng)用于客戶服務(wù)和教育環(huán)境。盡管人形機(jī)器人在復(fù)雜環(huán)境中的穩(wěn)定性和可靠性方面仍面臨挑戰(zhàn),但通過引入電機(jī)驅(qū)動(dòng)系統(tǒng)和整合大語言模型(LLMs人形機(jī)器人有望在制造業(yè)、醫(yī)療保健和服務(wù)行業(yè)中填補(bǔ)勞動(dòng)力缺口,提高效率和安全性。各大廠商合作打造具身智能,本體集成仍存在技術(shù)瓶頸。AI軟件相關(guān)廠商通過提供AI算力、大模型和算法軟件,推動(dòng)人形機(jī)器人實(shí)現(xiàn)視覺分析、語義理解、任務(wù)分解和動(dòng)作規(guī)劃等功能;核心零部件廠商則提供各類傳感器、電機(jī)、減速器等硬件設(shè)備,構(gòu)建機(jī)器人所需的感知、控制、動(dòng)力和運(yùn)動(dòng)模塊;機(jī)器人本體廠商負(fù)責(zé)將這些硬件和軟件整合,打造完整的人形機(jī)器人產(chǎn)品。然而,人形機(jī)器人商用化進(jìn)程仍面臨技術(shù)瓶頸,特別是在本體集成、運(yùn)動(dòng)控制、感知系統(tǒng)和智能分析等關(guān)鍵技術(shù)方面,需要進(jìn)一步突破才能實(shí)現(xiàn)自主導(dǎo)航和任務(wù)執(zhí)行。行業(yè)研究·信息服務(wù)行業(yè)21人形機(jī)器人的市場普及需要產(chǎn)品價(jià)格的逐步下降。目前相較于商用服務(wù)機(jī)器人和工業(yè)機(jī)器人,人形機(jī)器人的價(jià)格仍然高達(dá)數(shù)十萬至百萬級,這限制了用戶的采納意愿。然而,隨著技術(shù)突破、產(chǎn)業(yè)鏈發(fā)展和應(yīng)用規(guī)模擴(kuò)大,價(jià)格有望持續(xù)下探,從而提高用戶的購買意愿。產(chǎn)品的核心優(yōu)勢在于其場景通用性,特別適用于復(fù)雜、多變的環(huán)境和需要高度人機(jī)協(xié)同的任務(wù)。為了實(shí)現(xiàn)這一目標(biāo),軟硬件的解耦設(shè)計(jì)至關(guān)重要,即在堅(jiān)實(shí)的硬件基礎(chǔ)上,根據(jù)不同需求動(dòng)態(tài)加載各領(lǐng)域的大型模型。人形機(jī)器人的商業(yè)化進(jìn)程需要循序漸進(jìn)。首先在商用服務(wù)領(lǐng)域,如酒店、商場等場所提供智能交互服務(wù)。隨著技術(shù)迭代,機(jī)器人將逐步進(jìn)入災(zāi)害救援和極限環(huán)境作業(yè)等特種應(yīng)用領(lǐng)域。在工業(yè)制造中,人形機(jī)器人會率先在精密裝配和物料搬運(yùn)等環(huán)節(jié)實(shí)現(xiàn)自動(dòng)化作業(yè)。最終,隨著技術(shù)和市場的成熟,人形機(jī)器人將進(jìn)入家庭市場,承擔(dān)陪伴、教育和家務(wù)等多種角色,滿足家庭日常生活需求。400350300250200150500378354385123927019224030153202420252026202720282029203020312032203320342035450.0%400.0%350.0%300.0%250.0%200.0%150.0%100.0%50.0%0.0%機(jī)器人市場預(yù)測規(guī)模(左億美元)一yoy(右)人形機(jī)器人行業(yè)的快速發(fā)展受到政策支持、技術(shù)進(jìn)步和成本控制等多方面因素的推動(dòng)。未來三年,人形機(jī)器人產(chǎn)業(yè)的年增長率預(yù)計(jì)將維持在40%以上。政策方面,北京亦莊將出臺人形機(jī)器人三年行動(dòng)計(jì)劃,進(jìn)一步打造國內(nèi)領(lǐng)先的機(jī)器人技術(shù)創(chuàng)新策源地、高端制造集聚地、集成應(yīng)用新高地和產(chǎn)業(yè)生態(tài)示范地。同時(shí),上海舉辦的2024中國人形機(jī)器人開發(fā)者大會,圍繞人形機(jī)器人創(chuàng)新中心建設(shè)、核心技術(shù)壁壘突破、產(chǎn)業(yè)鏈成本降低、應(yīng)用落地場景、投資賽道方向等議題展開。根據(jù)證券時(shí)報(bào)援引賽迪顧問發(fā)布的《2024中國人形機(jī)器人產(chǎn)業(yè)生態(tài)發(fā)展研究》顯示,2023年人形機(jī)器人產(chǎn)業(yè)進(jìn)入爆發(fā)期,預(yù)計(jì)到2026年中國人形機(jī)器人產(chǎn)業(yè)規(guī)模將突破200億元,未來功能型整機(jī)將逐步占據(jù)主流,發(fā)展?jié)摿薮?。Figure.AI專注于人形機(jī)器人領(lǐng)域,并與汽車廠商合作。公司成立于2022年,專注于設(shè)計(jì)和制造自主人形機(jī)器人。其旗艦產(chǎn)品Figure01是全球首款商業(yè)化的自主人形機(jī)器人,主要應(yīng)用于制造、物流、倉儲和零售行業(yè)。Figure.AI的團(tuán)隊(duì)由經(jīng)驗(yàn)豐富的機(jī)器人專家組成,致力于推動(dòng)人工通用智能(AGI)的研究,并在機(jī)器人性能和穩(wěn)定性方面進(jìn)行深入研究。公司近期與BMW簽署了合作協(xié)議,將其機(jī)器人技術(shù)引入汽車生產(chǎn)領(lǐng)域。Figure02搭載語言模型,距離具身智能更進(jìn)一步。2024年8月公司推出新Figure02機(jī)器人,相比Figure01更加緊湊,電源和計(jì)算設(shè)備的布線被巧妙隱藏,提升了美觀性和耐用性。其手部設(shè)計(jì)是亮點(diǎn),配備了具有“16個(gè)自由度”的機(jī)械手,和人手尺寸相當(dāng),上面還配有傳感器。這種設(shè)計(jì)使得機(jī)器人能夠處理人類需要完成的任務(wù),并且可以提起重達(dá)20公斤的物體。其手部的改進(jìn)為實(shí)現(xiàn)與人類相當(dāng)?shù)牧α亢挽`巧度鋪平了道路。機(jī)器人還配有6個(gè)RGB攝像頭,幫助其通過視覺語言模型進(jìn)行語義理解和常識推理。行業(yè)研究·信息服務(wù)行業(yè)22Figure02能夠進(jìn)行語音識別,續(xù)航能力顯著增強(qiáng)。用戶可以通過語音指令給Figure02機(jī)器人下達(dá)任務(wù),機(jī)器人會結(jié)合語音命令和攝像頭數(shù)據(jù)來理解并執(zhí)行相應(yīng)的行動(dòng)。相比Figure01,F(xiàn)igure02的計(jì)算和AI推理能力提高了3倍,任務(wù)執(zhí)行速度更快。它配備了一個(gè)2.25千瓦時(shí)的電池組,比上一代多50%的電力,運(yùn)行時(shí)間為5小時(shí),目標(biāo)是延長到每天工作20小時(shí)。人形機(jī)器人在工廠和倉庫環(huán)境中具有廣闊的應(yīng)用前景,F(xiàn)igure02可以有效面對勞動(dòng)力短缺的問題。除了工業(yè)應(yīng)用,F(xiàn)igure公司暗示其機(jī)器人未來可能進(jìn)入家庭領(lǐng)域。FigureAI并非唯一玩家,其他公司如1XRobotics、特斯拉等也在這一領(lǐng)域競爭,許多公司還使用英偉達(dá)的多模態(tài)AI“ProjectGR00T”來驅(qū)動(dòng)機(jī)器人功能。值得注意的是,F(xiàn)igureAI與OpenAI建立了合作伙伴關(guān)系,并獲得了微軟、亞馬遜等科技巨頭的投資,助力其機(jī)器人開發(fā)和語音交互能力的提升。風(fēng)險(xiǎn)提示:人形機(jī)器人發(fā)展不及預(yù)期;EAI發(fā)展不及預(yù)期;具身智能下游需求不足。行業(yè)研究·信息服務(wù)行業(yè)23在2024世界人工智能大會(WAIC2024)上,特斯拉展示其最新Optimus人形機(jī)器人進(jìn)展。這表明人形機(jī)器人產(chǎn)業(yè)化的進(jìn)度可能超預(yù)期。Optimus人形機(jī)器人現(xiàn)已具備在工廠內(nèi)執(zhí)行任務(wù)的能力,并在多項(xiàng)技術(shù)上取得了顯著提升,預(yù)計(jì)到2025年將有超過1000個(gè)Optimus機(jī)器人在特斯拉工廠內(nèi)工作。特斯拉的持續(xù)創(chuàng)新和技術(shù)投入將推動(dòng)智能制造和自動(dòng)駕駛領(lǐng)域的發(fā)展,并為全球市場帶來新的變革。當(dāng)前Optimus已更新至第二代,身高1.7米、體重56公斤,最高行走速度達(dá)到5英里/小時(shí),搭載了特斯拉自主設(shè)計(jì)和制造的執(zhí)行器和傳感器驅(qū)動(dòng)。2024年5月,Optimus二代走進(jìn)特斯拉工廠實(shí)訓(xùn),已經(jīng)可以進(jìn)行分揀電池、行走等任務(wù)。根據(jù)36氪援引特斯拉官方介紹,Optimus基于其自身的視覺神經(jīng)網(wǎng)絡(luò)和FSD(完全自動(dòng)駕駛)芯片,能夠?qū)㈦妱?dòng)車電池單元進(jìn)行分裝,精準(zhǔn)放到卡槽中。根據(jù)第一財(cái)經(jīng)報(bào)道,馬斯克預(yù)測,明年特斯拉將有超過1000臺,乃至數(shù)千臺在運(yùn)行的Optimus機(jī)器人。目前已有兩臺在弗里蒙特工廠工作。雖然Optimus仍處于早期階段,但其未來潛力巨大,馬斯克預(yù)計(jì)人形機(jī)器人數(shù)量將超過人類,并在工業(yè)領(lǐng)域發(fā)揮主力作用,目標(biāo)年產(chǎn)10億臺。特斯拉計(jì)劃將Optimus的成本控制在1萬美元,以2萬美元出售。人形機(jī)器人商業(yè)化元年已至,特斯拉及多家公司正在探索汽車工業(yè)作為落地場景,推動(dòng)產(chǎn)業(yè)化進(jìn)程。風(fēng)險(xiǎn)提示:人形機(jī)器人發(fā)展不及預(yù)期;EAI發(fā)展不及預(yù)期;具身智能下游需求不足。行業(yè)研究·信息服務(wù)行業(yè)24杭州宇樹科技是一家世界知名的民用機(jī)器人公司,專注于消費(fèi)級、行業(yè)級高性能通用足式/人形機(jī)器人及靈巧機(jī)械臂的自主研發(fā)、生產(chǎn)和銷售。在機(jī)器人核心零部件、運(yùn)動(dòng)控制、機(jī)器人感知等綜合領(lǐng)域具有卓越的領(lǐng)先性。宇樹高度重視自主研發(fā)和科技創(chuàng)新,全自研電機(jī)、減速器、控制器、激光雷達(dá)等機(jī)器人關(guān)鍵核心零部件和高性能感知及運(yùn)動(dòng)控制算法,整合機(jī)器人全產(chǎn)業(yè)鏈,在足式機(jī)器人領(lǐng)域達(dá)到全球技術(shù)領(lǐng)先。目前累計(jì)申請國內(nèi)外專利180余項(xiàng),授權(quán)專利150余項(xiàng)。商業(yè)模式上,新的人形機(jī)器人產(chǎn)品主要面向高校、研究所、科技公司和工業(yè)落地,作為機(jī)器人開發(fā)平臺研究或落地使用。四足機(jī)器人產(chǎn)品目前正在向toC和toB方向齊頭并進(jìn),toC定位個(gè)人以及家庭服務(wù)場景;toB在特定的消防、巡檢、軍警等領(lǐng)域執(zhí)行任產(chǎn)品針對多樣客戶群體,覆蓋大量行業(yè)。在C端領(lǐng)域,Go部分型號產(chǎn)品就是消費(fèi)級產(chǎn)品。其中,宇樹2023年發(fā)布的UnitreeGo2四足機(jī)器人適用于外出陪跑、散步等場景,支持實(shí)時(shí)視頻圖傳和雷達(dá)高度圖顯示功能,奔跑速度可以和最頂級的馬拉松選手不相上下,還搭載了公司最新的AI交互技術(shù),引入了大語言模型能力。該產(chǎn)品售價(jià)僅9997元起。B端例如更大體型的B2則是一款工業(yè)級機(jī)器狗產(chǎn)品,極限負(fù)重100kg,持續(xù)作業(yè)負(fù)重40kg以上,可以應(yīng)用于農(nóng)業(yè)、工業(yè)、安防巡檢、勘測探索、公共救援等行業(yè)級場景。行業(yè)研究·信息服務(wù)行業(yè)25宇樹科技四足機(jī)器人銷量領(lǐng)先,核心零部件自研能力強(qiáng)。根據(jù)36氪對宇樹科技創(chuàng)始人王興興的采訪,2024年宇樹科技的四足機(jī)器人產(chǎn)品占全球出貨量的60%以上,處于全球歷年銷量領(lǐng)先的位置。在智能機(jī)器人賽道,宇樹科技的核心競爭力在于全棧自研技術(shù)積累的先發(fā)優(yōu)勢——公司不僅自研了高能量密度關(guān)節(jié)電機(jī)、減速器、3D激光雷達(dá)等機(jī)器人核心零部件;以及傳統(tǒng)機(jī)器人領(lǐng)域的感知和運(yùn)動(dòng)控制算法;同時(shí)還在開發(fā)機(jī)器人AI世界模型。風(fēng)險(xiǎn)提示:EAI發(fā)展不及預(yù)期;具身智能下游需求不足。中科創(chuàng)達(dá)將基于Arm技術(shù)賦能下一代多模態(tài)智能機(jī)器人。2024年8月27日,在elexcon2024深圳國際電子展的第六屆中國嵌入式技術(shù)大會上,中科創(chuàng)達(dá)受邀與Arm聯(lián)合進(jìn)行了一場主題為《如何通過先進(jìn)的大語言模型解鎖下一代多模態(tài)智能機(jī)器人》的精彩演講。會中,中科創(chuàng)達(dá)明確表達(dá)了中科創(chuàng)達(dá)將憑借Arm處理器與其操作系統(tǒng)技術(shù)的協(xié)作,助力具身智能與機(jī)器人實(shí)現(xiàn)創(chuàng)新突破。中科創(chuàng)達(dá)通過核心技術(shù)實(shí)現(xiàn)機(jī)器人不同場景中的智能化。公司可以提供核心技術(shù)和生態(tài)合作廣泛地賦能機(jī)器人產(chǎn)業(yè)發(fā)展。從基于基礎(chǔ)類半導(dǎo)體模塊,提供平臺工具軟件、平臺層、算法和應(yīng)用的集成,到構(gòu)建邊緣計(jì)算成為一個(gè)共通的計(jì)算平臺,推動(dòng)操作系統(tǒng)走向平臺化,從而支撐算法的可擴(kuò)展、可擴(kuò)充和之后的可延展的維護(hù),進(jìn)而迭代開發(fā)工具和環(huán)境去支撐應(yīng)用廠商更快產(chǎn)品和更低成本。未來是各種各樣的機(jī)器人存在的世界。本質(zhì)上是隨著智能化和信息化的分離,信息化是以人和人交互為中心,智能化則是通過機(jī)器感知周邊的世界和環(huán)境,關(guān)鍵是傳感器及其運(yùn)動(dòng)能力、操作能力進(jìn)行連接,而形成一個(gè)所謂的機(jī)器人時(shí)代。公司的端側(cè)智能+機(jī)器人的布局,進(jìn)一步為機(jī)器人產(chǎn)業(yè)的變革注入了更多活力與可想空間。風(fēng)險(xiǎn)提示:EAI發(fā)展不及預(yù)期;具身智能下游需求不足。根據(jù)中自數(shù)字移動(dòng)傳媒報(bào)道,2024年5月從事具身智能技術(shù)和產(chǎn)品研發(fā)的有鹿機(jī)器人正式簽訂一筆超千萬元的具身智能通用大腦Master2000的訂單。訂單來自中國頭部清潔設(shè)備制造商,采購大腦用于對現(xiàn)有全系產(chǎn)品進(jìn)行智能化升級。有鹿機(jī)器人也正式實(shí)現(xiàn)了具身智能從實(shí)驗(yàn)室走向商業(yè)化的階段。公司同步披露了創(chuàng)新工場、元璟資本、百度風(fēng)投等超1億元融資的信息。行業(yè)研究·信息服務(wù)行業(yè)262023年,有鹿機(jī)器人聯(lián)合阿里云通義千問發(fā)布了具身智能大模型LPLM-10B,該模型創(chuàng)新性地融合了語言大模型與物理世界,克服了傳統(tǒng)具身模型的延遲高、準(zhǔn)確率低、泛化能力差等問題。LPLM-10B的優(yōu)勢在于其通用性,能夠在跨模態(tài)、跨場景、跨行業(yè)的數(shù)據(jù)中提取共性信息,適用于各類型機(jī)器人。2024年3月,有鹿機(jī)器人推出了基于LPLM-10B的通用具身大腦產(chǎn)品Master2000,幫助客戶解決智能化升級中的投入產(chǎn)出比低的問題。該產(chǎn)品在短時(shí)間內(nèi)實(shí)現(xiàn)了超千萬的訂單并開始量產(chǎn)交付。與大多數(shù)大模型公司面臨的商業(yè)化挑戰(zhàn)相比,Master2000的成功驗(yàn)證了軟硬件結(jié)合產(chǎn)品在商業(yè)化中的優(yōu)勢,為大模型的商業(yè)應(yīng)用提供了新的戰(zhàn)略意義。圖33有鹿機(jī)器人打造“通用大腦”概念有鹿機(jī)器人創(chuàng)始人陳俊波博士表示,中國擁有世界領(lǐng)先的制造能力,在具身智能時(shí)代,預(yù)計(jì)中國制造的產(chǎn)品即將爆發(fā)式迎來機(jī)器人形態(tài),如輪式機(jī)器人形態(tài)的叉車、物流車、清潔車、割草機(jī)、充電車等,復(fù)合式機(jī)器人形態(tài)的挖掘機(jī)、裝載機(jī)、吊車等,以及中國大力發(fā)展的新型人型機(jī)器人。這些機(jī)器人產(chǎn)品形態(tài)的總體市場規(guī)模預(yù)計(jì)將在萬億級以上。有鹿機(jī)器人的使命就是打造一個(gè)可以賦能不同制造企業(yè)的通用機(jī)器人大腦,適配于專業(yè)設(shè)備,幫助成熟的制造企業(yè)進(jìn)行產(chǎn)品的具身智能模態(tài)升級。風(fēng)險(xiǎn)提示:EAI發(fā)展不及預(yù)期;具身智能下游需求不足。行業(yè)研究·信息服務(wù)行業(yè)27科大訊飛打造全球領(lǐng)先的智能交互機(jī)器人開放創(chuàng)新平臺,為機(jī)器人產(chǎn)業(yè)提供通用化的智能應(yīng)用服務(wù),大幅降低行業(yè)技術(shù)研發(fā)和使用門檻。機(jī)器人開放平臺旨在賦能機(jī)器人硬件,快速接入AI能力,并提供可視化開發(fā)機(jī)器人業(yè)務(wù)以及項(xiàng)目管控和運(yùn)營監(jiān)測能力。實(shí)現(xiàn)可復(fù)用化、服務(wù)統(tǒng)一化、流程角色優(yōu)化、運(yùn)營監(jiān)控化和資源管控化,使平臺成為一個(gè)強(qiáng)大的機(jī)器人能力支持中心。最終依托機(jī)器人開放平臺,賦能于機(jī)器人產(chǎn)業(yè)公司,建立機(jī)器人合作生態(tài),推動(dòng)機(jī)器人產(chǎn)業(yè)持續(xù)健康快速的發(fā)展。圖34科大訊飛機(jī)器人平臺架構(gòu)科大訊飛機(jī)器人業(yè)務(wù)應(yīng)用廣泛,覆蓋多個(gè)垂直領(lǐng)域。業(yè)務(wù)應(yīng)用前臺包括酒店、餐廳、展廳、政務(wù)、商超、工業(yè)等多個(gè)行業(yè),展示了AI解決方案在不同行業(yè)的應(yīng)用場景。AI中臺由AI能力服務(wù)和平臺服務(wù)兩部分組成。AI能力服務(wù)包括語音能力(如語音識別、語音合成、聲紋識別)和圖像能力(如人臉識別、OCR識別、工業(yè)檢測)。平臺服務(wù)則包括深度學(xué)習(xí)平臺、運(yùn)營監(jiān)控平臺和管理平臺。深度學(xué)習(xí)平臺提供整體的AI開發(fā)工具,運(yùn)營監(jiān)控平臺涵蓋數(shù)據(jù)監(jiān)控、AI運(yùn)維服務(wù)等,而管理平臺則負(fù)責(zé)角色權(quán)限、數(shù)據(jù)管理等功能。數(shù)據(jù)中臺則為這些服務(wù)提供支持,涵蓋數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析等內(nèi)容。圖35科大訊飛超腦計(jì)劃2030科大訊飛機(jī)器人首席科學(xué)家季超博士分享了團(tuán)隊(duì)結(jié)合具身大模型打通基于模型優(yōu)化和基于數(shù)據(jù)驅(qū)動(dòng)的運(yùn)動(dòng)控制路線齊頭并進(jìn)的技術(shù)路線,深度解析了大模型給具身智能通用機(jī)器人帶來的提升空間和產(chǎn)業(yè)化落地瓶頸及挑戰(zhàn),并提出了場景導(dǎo)向、產(chǎn)業(yè)鏈合作、突破卡脖子問題和交叉學(xué)科人才培養(yǎng)四方面建議,推動(dòng)具身通用機(jī)器人產(chǎn)業(yè)化快速發(fā)展。行業(yè)研究·信息服務(wù)行業(yè)28科大訊飛依托超腦2030計(jì)劃旨在讓懂知識、善學(xué)習(xí)、能進(jìn)化的AI機(jī)器人進(jìn)入千家萬戶,大模型底層能力的突破,給機(jī)器人帶來了巨大的提升空間。作為人工智能的重要分支,具身智能正逐步從理論走向?qū)嵺`,從“實(shí)驗(yàn)室”走向“應(yīng)用場”。隨著具身智能技術(shù)的不斷突破和應(yīng)用,未來的機(jī)器人將會更加智能,更加接近人類的感知、思考和行動(dòng)能力,真正實(shí)現(xiàn)從“專才”走向“通才”,在各個(gè)領(lǐng)域發(fā)揮更大的作用。風(fēng)險(xiǎn)提示:大模型發(fā)展不及預(yù)期;具身智能下游需求不足。海康機(jī)器人是面向全球的機(jī)器視覺和移動(dòng)機(jī)器人產(chǎn)品及解決方案提供商,業(yè)務(wù)聚焦于工業(yè)物聯(lián)網(wǎng)、智慧物流和智能制造,構(gòu)建開放合作生態(tài),為工業(yè)和物流領(lǐng)域用戶提供服務(wù),以創(chuàng)新技術(shù)持續(xù)推動(dòng)智能化,引領(lǐng)智能制造進(jìn)程。圖36海康威視移動(dòng)機(jī)器人產(chǎn)品一覽產(chǎn)品隨著基于AMR、iWMS-1000和RCS-2000等智能設(shè)備和系統(tǒng)為核心的解決方案落地實(shí)施,持續(xù)推動(dòng)內(nèi)物流智慧化變革。通過全方位的智能算法驅(qū)動(dòng)、智能設(shè)備聯(lián)動(dòng)、智能系統(tǒng)應(yīng)用,實(shí)現(xiàn)內(nèi)物流運(yùn)營的集約化、可視化和智慧化,持續(xù)為客戶創(chuàng)造價(jià)值。風(fēng)險(xiǎn)提示:EAI發(fā)展不及預(yù)期;具身智能下游需求不足。公司基于英偉達(dá)Isacc機(jī)器人開發(fā)平臺打造自主移動(dòng)機(jī)器人。公司為保障工人安全、優(yōu)化運(yùn)輸流程、節(jié)省生產(chǎn)成本,且為其他各界客戶提升生產(chǎn)智能化,比亞迪電子自主開發(fā)全系自主移動(dòng)機(jī)器人(AMR為工廠提供全面物流解決方案。比亞迪電子開發(fā)高階AMR過程中,NVIDIA基于NVIDIAIsaac和Jetson平臺給予了技術(shù)支持,幫助客戶加速物流應(yīng)用的部署。行業(yè)研究·信息服務(wù)行業(yè)29圖37比亞迪電子AMR機(jī)器人比亞迪電子的AMR采用了NVIDIAJetsonOrin高性能人工智能系統(tǒng)級模塊,結(jié)合了激光雷達(dá)和視覺感知模塊。利用激光雷達(dá)、IMU、輪速計(jì)等多傳感器融合技術(shù),AMR能夠在室內(nèi)大面積且復(fù)雜動(dòng)態(tài)環(huán)境中進(jìn)行實(shí)時(shí)高精度建圖和定位。此外,其自有調(diào)度系統(tǒng)能夠?qū)Χ喾N類型的AMR進(jìn)行實(shí)時(shí)集群調(diào)度,同時(shí)通過實(shí)時(shí)回環(huán)檢測自動(dòng)更新局部子地圖,以適應(yīng)室內(nèi)動(dòng)態(tài)多變的環(huán)境。為了提高環(huán)境適應(yīng)能力和安全性,比亞迪電子的AMR還應(yīng)用了人工智能自動(dòng)駕駛技術(shù)。風(fēng)險(xiǎn)提示:EAI發(fā)展不及預(yù)期;具身智能下游需求不足。我們認(rèn)為具身智能(EAI)是推動(dòng)通用人工智能(AGI)發(fā)展的關(guān)鍵技術(shù),具有廣闊的應(yīng)用前景。其技術(shù)涵蓋計(jì)算機(jī)視覺、自然語言處理和機(jī)器人技術(shù),尤其在具身感知和交互方面表現(xiàn)突出?;诙嗄B(tài)大模型和世界模型的具身智能體,不僅能夠理解并適應(yīng)復(fù)雜的物理和虛擬環(huán)境,還能在動(dòng)態(tài)場景中與人類自然互動(dòng),執(zhí)行復(fù)雜任務(wù)。根據(jù)證券時(shí)報(bào)援引賽迪顧問發(fā)布的《2024中國人形機(jī)器人產(chǎn)業(yè)生態(tài)發(fā)展研究》顯示,全球具身智能市場將在未來幾年持續(xù)增長,尤其是在工業(yè)自動(dòng)化和服務(wù)機(jī)器人領(lǐng)域。此外,隨著智能制造和人形機(jī)器人技術(shù)的快速發(fā)展,預(yù)計(jì)到2026年,中國人形機(jī)器人市場規(guī)模將突破200億元。各地政策的積極推動(dòng),如上海和北京的智能機(jī)器人發(fā)展計(jì)劃,將進(jìn)一步加速具身智能的技術(shù)進(jìn)步和市場應(yīng)用。1.大模型發(fā)展不及預(yù)期;2.AI智能體發(fā)展不及預(yù)期;3.智能體下游需求不足。行業(yè)研究·信息服務(wù)行業(yè)30APPENDIX1SummaryInvestmentHighlights:EAIintroducesanewconcept,withpoliciesdrivingtechnologicaladvancement.EmbodiedAI(EAI),proposedbyAlanTuringin1950,usesthe‘EmbodiedTuringTest’toassessanagent’sabilitytohandlephysicalworldcomplexities.Unlikenon-physicalAI,embodiedagentscombinemultimodallargemodels(MLMs)andworldmodels(WMs)forperception,interaction,andplanning,adaptingtovirtualandphysicalenvironments.PoliciesinShanghaiandBeijingaimtoadvanceintelligentroboticsandmanufacturing,withShanghaitargetingindustrybenchmarksby2025.TheUSAleadsinroboticindustrialapplications,whileChinaisstillexploring.TrainingembodiedAIinvolvessimulation,perception,andinteraction.Simulatorsproviderealisticvirtualenvironmentsforalgorithmdevelopment,reducingcostsandenhancingsafety.Embodiedperceptionenablesunderstandingofvisualreasoningandspace,usingtechnologieslikevSLAMand3Dvision.Embodiedinteractionfocusesonagents’abilitytointeractwithenvironmentsandhumans,withtaskslikeEmbodiedQuestionAnswering(EQA).DiverseembodiedAIproductscoverabroadmarket:1)Fixedrobotsexcelinprecisionandstabilityforlabautomation,education,andmanufacturing.2)Wheeledrobotsperformwellinlogisticsandsecurity,whiletrackedrobotssuitagricultureandmilitary.3)Quadrupedrobotsareusedinterrainexplorationandrescue.4)Humanoidrobotsarepopularinservicesandhealthcare.Eachtypehasuniqueadvantagesandfacestechnicalchallenges.Investmentadvice:EAIiskeytoadvancingAGI,withbroadapplicationsincomputervision,NLP,androbotics.Embodiedagentsexcelinperceptionandinteraction,understandingcomplexenvironmentsandinteractingnaturallywithhumans.AccordingtoCCIDConsulting,theglobalembodiedAImarketwillgrow,especiallyinindustrialautomationandservicerobots.China’shumanoidrobotmarketisexpectedtoexceedRMB20billionby2026,drivenbypoliciesinShanghaiandBeijing.FocusonAIcomputingpower,models,andapplications.Computingpower:NVIDIACorporation,CambriconTechnologiesCorporationLimited,HygonInformationTechnologyCo.,Ltd.,JingjiaMicroelectronics,LoongsonTechnologyCorporationLimited,InspurElectronicInfo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論