2023多模態(tài)GPT超級(jí)場(chǎng)景_第1頁
2023多模態(tài)GPT超級(jí)場(chǎng)景_第2頁
2023多模態(tài)GPT超級(jí)場(chǎng)景_第3頁
2023多模態(tài)GPT超級(jí)場(chǎng)景_第4頁
2023多模態(tài)GPT超級(jí)場(chǎng)景_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

多模態(tài)GPT超級(jí)場(chǎng)景應(yīng)用內(nèi)容目錄1、騰訊推出自研機(jī)器人靈巧手TRX-Hand和機(jī)械臂TRX-Arm 32、進(jìn)入視覺場(chǎng)景,已能實(shí)時(shí)分析視頻信息 73、VIT+GPT,多模態(tài)GPT典型范式已明朗,AI進(jìn)步助力行業(yè)機(jī)器人加速落地 84、未來已來:從多行為分析、人機(jī)交互到通用機(jī)器人 125、投資建議 16風(fēng)險(xiǎn)提示 16圖表目錄圖表1:TRX-Hand能力展示 3圖表2:TRX-Hand融合多種傳感器新號(hào) 5圖表3:TRX-Arm能力展示 6圖表4:向GPT-4提問攝像頭中的可樂信息 7圖表5:向GPT-4提問攝像頭中的牙刷信息 7圖表6:ViT模型架構(gòu) 8圖表7:KOSMOS-1可以感知不同模態(tài)輸入,學(xué)習(xí)上下文生成回答 9圖表8:PaLM-E操控機(jī)器人在被干擾的情況下從抽屜取出薯片 10圖表9:PaLM-E操控機(jī)器人將綠色塊推到海龜處,機(jī)器人之前沒見過海龜 10圖表10:SAM的模型結(jié)構(gòu),imageencoder使用ViT實(shí)現(xiàn) 11圖表11:微軟365Copilot一鍵生成PPT 12圖表12:DALL-E2模型根據(jù)文字生成圖像 12圖表13:千問大模型操控機(jī)器人完成人類指令 13圖表14:平衡性和移動(dòng)速度提升過程 14圖表15:Optimus采用的六類執(zhí)行器 14圖表16:TeslaBot動(dòng)力系統(tǒng) 15圖表17:Epic使用虛幻5引擎和程序化生成技術(shù)高效制作游戲中的龐大城市 16P.P.PAGE161、騰訊推出自研機(jī)器人靈巧手TRX-Hand和機(jī)械臂TRX-Arm425RoboticsXTRX-Hand”和機(jī)械臂“TRX-Arm”。軟硬件一體靈巧手TRX-Hand擁有像人手一樣靈活的操作能力,可適應(yīng)不同場(chǎng)景,靈活規(guī)劃動(dòng)作,自主完成“操作”。以花式調(diào)酒場(chǎng)景為例,為完成一杯酒的調(diào)制,機(jī)器人對(duì)多種物體連續(xù)次操作,過程不僅涉及瓶子、杯子、攪拌棒等多種常見物體,機(jī)器人還需要以多種動(dòng)作操作這些物體,包含抓、放、倒這些常規(guī)操作和旋轉(zhuǎn)、搖晃等雙手協(xié)同動(dòng)作,以及更高難度的拋接、翻轉(zhuǎn)等動(dòng)態(tài)操作和插孔、穿刺、攪拌等精細(xì)操作動(dòng)作。圖表1:TRX-Hand能力展示資料來源:公眾號(hào)鵝廠技術(shù)派,國(guó)盛證券研究所RoboticsXRoboticsXTRX-Hand圖表2:TRX-Hand融合多種傳感器新號(hào)資料來源:公眾號(hào)鵝廠技術(shù)派,國(guó)盛證券研究所TRX-Arm44.5m/s26kg7681000Hz圖表3:TRX-Arm能力展示資料來源:公眾號(hào)鵝廠技術(shù)派,國(guó)盛證券研究所RoboticsXTRX-Hand和TRX-Arm現(xiàn)實(shí)需求。2、GPT-4進(jìn)入視覺場(chǎng)景,已能實(shí)時(shí)分析視頻信息2023年3月17日發(fā)布的GPT-4支持多模態(tài),給定由穿插文本和圖像組成的輸入,GPT-4生成文本輸出(自然語言、代碼等)。v8GPT圖表4:向GPT-4提問攝像頭中的可樂信息資料來源:視頻號(hào)Podsen,國(guó)盛證券研究所圖表5:向GPT-4提問攝像頭中的牙刷信息資料來源:視頻號(hào)Podsen,國(guó)盛證券研究所3、VIT+GPT,多模態(tài)GPT典型范式已明朗,AI進(jìn)步助力行業(yè)機(jī)器人加速落地ViTtransformerCNN,統(tǒng)一了CVNLP的架構(gòu)。2017RNNCNN202010CNN(token)ViT一個(gè)包含了語言信息的編碼,之后通過MLP層將編碼器的輸出轉(zhuǎn)化為不同分類的概率。圖表6:ViT模型架構(gòu)資料來源:ViT論文,國(guó)盛證券研究所20232220ViT-22b模型ViT不或(LLM)表明,將transformer405.5倍的EncoderPaLM-e,2023227練的ViT圖表7:KOSMOS-1可以感知不同模態(tài)輸入,學(xué)習(xí)上下文生成回答資料來源:微軟論文,國(guó)盛證券研究所2023年3月65620億參數(shù)的PalM-E540BPaLM和ViT-22B結(jié)合ViT以類圖表8:PaLM-E操控機(jī)器人在被干擾的情況下從抽屜取出薯片資料來源:githubpalm-e,國(guó)盛證券研究所圖表9:PaLM-E操控機(jī)器人將綠色塊推到海龜處,機(jī)器人之前沒見過海龜資料來源:githubpalm-e,國(guó)盛證券研究所20234月,MetaSegmentAnythingModel(SAM),對(duì)圖像編碼。SAMSAMViT圖表10:SAM的模型結(jié)構(gòu),imageencoder使用ViT實(shí)現(xiàn)資料來源:SAM官網(wǎng),國(guó)盛證券研究所ViTtransformerGPT的快速發(fā)展,結(jié)合ViTGPTGPTGPTGPT4、未來已來:從多行為分析、人機(jī)交互到通用機(jī)器人365CopilotAIAI音樂AIGC圖表11:微軟365Copilot一鍵生成PPT資料來源:微軟官網(wǎng),國(guó)盛證券研究所圖表12:DALL-E2模型根據(jù)文字生成圖像資料來源:OpenAI官網(wǎng),國(guó)盛證券研究所1~5GPTAI、通用物流搬運(yùn)機(jī)器人、行業(yè)服務(wù)機(jī)器人、真正的智能家居會(huì)進(jìn)入生活。谷歌的Palm-E2023119+20252020人、特種機(jī)器人行業(yè)應(yīng)用深度和廣度顯著提升,機(jī)器人促進(jìn)經(jīng)濟(jì)社會(huì)高質(zhì)量發(fā)展的能力明顯增強(qiáng)。27CEO圖表13:千問大模型操控機(jī)器人完成人類指令資料來源:科創(chuàng)版日?qǐng)?bào),國(guó)盛證券研究所5-10(artificialgeneral從GPT機(jī)械控制Teslabot1)2022101日,AIOptimusOptimus4028126類,從各項(xiàng)指標(biāo)推測(cè),為3類使用諧波方案+3類直線傳動(dòng)方案,分別為肩部6個(gè)、肘262624BumbleCOptimus、、6圖表14:平衡性和移動(dòng)速度提升過程圖表15:Optimus采用的六類執(zhí)行器資料來源:TeslaAIDay,國(guó)盛證券研究所資料來源:TeslaAIDay,國(guó)盛證券研究所模型泛化機(jī)器人下游場(chǎng)景差別很大,若想要實(shí)現(xiàn)應(yīng)用大規(guī)??焖俾涞兀枰鰪?qiáng)模型泛化能力,提升模型的通用性,以降低推廣成本。圖像分割:MetaSAMSAM交互能力:palm-E避障能力:特斯拉神經(jīng)網(wǎng)絡(luò)。1)特斯拉占用網(wǎng)絡(luò)模型(OccupancyNetworks):BEV(FSDOptimusDojoA100目前谷歌的PalM-E5620億參數(shù),是AI型,實(shí)現(xiàn)高能效且經(jīng)濟(jì)高效的計(jì)算。我們認(rèn)為未來Dojo平臺(tái)有望發(fā)揮巨大作用。ResNet-50下,DojoA100DojoA100。能源問題機(jī)器人能源問題包含兩方面,一方面需要關(guān)注機(jī)器人電池組,解決電池續(xù)航能力問題;另一方面針對(duì)能源管理系統(tǒng),需要解決電池冷卻等問題。Bot2.3kWh52V一個(gè)PCB。圖表16:TeslaBot動(dòng)力系統(tǒng)資料來源:TeslaAIDay,國(guó)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論