大模型時(shí)代的具身智能_第1頁(yè)
大模型時(shí)代的具身智能_第2頁(yè)
大模型時(shí)代的具身智能_第3頁(yè)
大模型時(shí)代的具身智能_第4頁(yè)
大模型時(shí)代的具身智能_第5頁(yè)
已閱讀5頁(yè),還剩207頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大模型時(shí)代的具身智能RESEARCH

CENTER

FOR

SOCIAL

COMPUTING

AND

INFORMATION

RETRIEVAL什么是智能機(jī)器人?RESEARCH

CENTER

FOR

SOCIAL

COMPUTING

AND

INFORMATION

RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心機(jī)器人的從古至今穆王驚視之,趨步俯仰,信人也。巧夫!領(lǐng)其顱,則歌合律;捧其手,則舞應(yīng)節(jié)。千變?nèi)f化,惟意所適。王以為實(shí)人也,與盛姬內(nèi)御并觀之。——《列子·湯問(wèn)》周穆王西巡狩獵遇見(jiàn)了一個(gè)名叫偃師的奇人。偃師造出了一個(gè)機(jī)器人,與常人的外貌極為相似,達(dá)到了以假亂真的程度。那個(gè)機(jī)器人會(huì)做各種動(dòng)作。掰動(dòng)它的下巴,就會(huì)唱歌;揮動(dòng)它的手臂,就會(huì)翩翩起舞。公元前9世紀(jì)3HARBIN

INSTITUTE

OF

TECHNOLOGY機(jī)器人的從古至今

公元前4世紀(jì)古希臘數(shù)學(xué)家阿基塔斯研制出一種由機(jī)械蒸汽驅(qū)動(dòng)的鳥(niǎo)狀飛行器,并被命名為“鴿子”。其腹部是一套用于產(chǎn)生蒸汽的密閉鍋爐。阿基塔斯4HARBIN

INSTITUTE

OF

TECHNOLOGY“鴿子”設(shè)計(jì)圖機(jī)器人的從古至今

公元15世紀(jì)萊昂納多·達(dá)·芬奇在1495

年左右繪制了人形機(jī)器人的草圖?,F(xiàn)在被稱為萊昂納多的機(jī)器人,能夠坐起、揮動(dòng)手臂、移動(dòng)頭部和下巴。萊昂納多的機(jī)器人5HARBIN

INSTITUTE

OF

TECHNOLOGY機(jī)器人的從古至今公元20世紀(jì)機(jī)器人從“玩具”變成“工具”,并應(yīng)用于工業(yè)領(lǐng)域1961年,世界上第一臺(tái)工業(yè)機(jī)器人Unimate,用于堆疊金屬1973

年,KUKA公司推出的世界第一臺(tái)擁有六個(gè)機(jī)電驅(qū)動(dòng)軸的工業(yè)機(jī)器人,F(xiàn)AMULUS6HARBIN

INSTITUTE

OF

TECHNOLOGY一定的自主性:編程后可自主運(yùn)行,自主判斷和決定接下來(lái)的操作機(jī)器人的從古至今公元21世紀(jì)工業(yè)機(jī)器人已經(jīng)相對(duì)成熟,人們開(kāi)始探索更多場(chǎng)景、更智能的機(jī)器人醫(yī)療微創(chuàng)機(jī)器人7HARBIN

INSTITUTE

OF

TECHNOLOGY家庭清潔機(jī)器人物流運(yùn)輸機(jī)器人 展廳服務(wù)機(jī)器人更好的自主性:應(yīng)對(duì)的場(chǎng)景和任務(wù)更復(fù)雜,涉及多機(jī)器人協(xié)調(diào)智能機(jī)器人機(jī)器人①自主能力:盡可能少的人類干預(yù)8HARBIN

INSTITUTE

OF

TECHNOLOGY智能機(jī)器人

人類②泛化能力(通用能力):具備強(qiáng)大的綜合能力最受關(guān)注的智能機(jī)器人——類人機(jī)器人世界第一臺(tái)全尺寸人形機(jī)器人人形運(yùn)動(dòng)能力重大進(jìn)步人形機(jī)器人成功商業(yè)落地人形動(dòng)作能力邁入新紀(jì)元1972200020082013ASIMO,日本本田制造,歷經(jīng)數(shù)次迭代,掌握雙足奔跑、搬運(yùn)托盤、上下樓梯等功能WABOT-1,日本早稻田大學(xué)加藤實(shí)驗(yàn)室,行走一步需要

45秒,步伐也只有10公分法國(guó)Aldebaran公司研發(fā)的小型教學(xué)陪伴用人形機(jī)器人

NAOAtlas機(jī)器人,美國(guó)波士頓動(dòng)力公司研發(fā),有很強(qiáng)的運(yùn)動(dòng)控制能力運(yùn)動(dòng)控制型機(jī)器人智能機(jī)器人重點(diǎn)關(guān)注機(jī)器人的運(yùn)動(dòng)能力新的關(guān)注點(diǎn):機(jī)器人智能9HARBIN

INSTITUTE

OF

TECHNOLOGY10HARBIN

INSTITUTE

OF

TECHNOLOGY智能機(jī)器人機(jī)器人①自主能力:盡可能少的人類干預(yù)②泛化能力(通用能力):具備強(qiáng)大的綜合能力智能機(jī)器人

人類一種算法人工智能?本報(bào)告來(lái)源于三個(gè)皮匠報(bào)告站(),由用戶Id:768394下載,文檔Id:184180,下載日期:2024-12-0911機(jī)器人與人工智能工業(yè)機(jī)器人已經(jīng)相對(duì)成熟,人們開(kāi)始探索更多場(chǎng)景、更智能的機(jī)器人醫(yī)療微創(chuàng)機(jī)器人視覺(jué)技術(shù)HARBIN

INSTITUTE

OF

TECHNOLOGY展廳服務(wù)機(jī)器人視覺(jué)技術(shù)語(yǔ)音技術(shù)自然語(yǔ)言處理物流運(yùn)輸機(jī)器人視覺(jué)技術(shù)家庭清潔機(jī)器人語(yǔ)音技術(shù)人工智能真的讓機(jī)器人智能了嗎?RESEARCH

CENTER

FOR

SOCIAL

COMPUTING

AND

INFORMATION

RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心我們?cè)O(shè)想中的智能機(jī)器人是什么?像人類一樣工作的機(jī)器人?13HARBIN

INSTITUTE

OF

TECHNOLOGY各方面強(qiáng)于人類的機(jī)器人?有意識(shí)和情感的機(jī)器人?縱觀人工智能發(fā)展14HARBIN

INSTITUTE

OF

TECHNOLOGY1956年—20世紀(jì)60年代初,使用人工智能做符號(hào)推理,進(jìn)行數(shù)學(xué)證明20世紀(jì)60年代—70年代初,啟發(fā)式的搜索算法能力有限20世紀(jì)70年代初—80年代中,構(gòu)建專家系統(tǒng)處理醫(yī)療、化學(xué)、地質(zhì)等特定領(lǐng)域應(yīng)用20世紀(jì)80年代中—90年代中,專家系統(tǒng)需要海量的專業(yè)知識(shí),實(shí)用價(jià)值有限20世紀(jì)90年代中—2010年,機(jī)器學(xué)習(xí)算法處理實(shí)際問(wèn)題2011年之后,深度學(xué)習(xí)算法用于圖像、文本、語(yǔ)音等信息處理2022年之后,可以處理通用任務(wù)的大模型一定的自主能力一定的泛化能力(通用能力)但離我們?cè)O(shè)想的智能還有多遠(yuǎn)?大模型與人形機(jī)器人結(jié)合形成智能機(jī)器人上個(gè)世紀(jì)對(duì)未來(lái)人工智能的幻想,主要表現(xiàn)為智能人形機(jī)器人,但目前人工智能技術(shù)仍然停留在電腦屏幕,沒(méi)有以實(shí)體的方式進(jìn)入物理世界目前智能程度最強(qiáng)的大模型,與目前最先進(jìn)的人形機(jī)器人,能否結(jié)合形成智能機(jī)器人?15HARBIN

INSTITUTE

OF

TECHNOLOGYRESEARCH

CENTER

FOR

SOCIAL

COMPUTING

AND

INFORMATION

RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心人工智能真的讓機(jī)器人智能了嗎?先要說(shuō)明的問(wèn)題:如何構(gòu)建一個(gè)智能機(jī)器人?構(gòu)建智能機(jī)器人(以人形機(jī)器人為例)機(jī)器人軀體的所有硬件結(jié)構(gòu)觸覺(jué)信號(hào)或力反饋信號(hào)位姿信號(hào)硬件方面:2D視覺(jué)信號(hào)或3D點(diǎn)云信號(hào)

語(yǔ)音信號(hào)軟件及算法方面:收集所有傳感器采集的環(huán)境信息和自身狀態(tài)。并綜合分析當(dāng)前所有狀態(tài)(具身感知)根據(jù)當(dāng)前狀態(tài),對(duì)自身下一步的運(yùn)動(dòng)做出決策和規(guī)劃(具身推理)大腦小腦向下位機(jī)下發(fā)送運(yùn)動(dòng)指令(具身執(zhí)行)(形式包括代碼、技能庫(kù)API、關(guān)節(jié)旋轉(zhuǎn)角度等)下位機(jī)通過(guò)運(yùn)控技術(shù)執(zhí)行指令17HARBIN

INSTITUTE

OF

TECHNOLOGY舉個(gè)不是特別形象的簡(jiǎn)單例子機(jī)器人采集視覺(jué)信息,分析出應(yīng)對(duì)咖啡進(jìn)行清理機(jī)器人視覺(jué)傳感器信號(hào)收集所有傳感器采集的環(huán)境信息和自身狀態(tài)。并綜合分析當(dāng)前所有狀態(tài)(具身感知)清理咖啡需要如下幾步:

1.扶正杯子并拿起杯蓋找到抹布用抹布擦拭地面將抹布放回將杯子和杯蓋扔掉根據(jù)當(dāng)前狀態(tài),對(duì)自身下一步的

運(yùn)動(dòng)做出決策和規(guī)劃(具身推理)向下位機(jī)下發(fā)送運(yùn)動(dòng)指令(具身執(zhí)行)生成機(jī)器人的運(yùn)動(dòng)軌跡,包括手臂如何運(yùn)動(dòng)、手掌如何運(yùn)動(dòng)、腿部如何運(yùn)動(dòng)等下位機(jī)通過(guò)運(yùn)控技術(shù)執(zhí)行指令機(jī)器人執(zhí)行18HARBIN

INSTITUTE

OF

TECHNOLOGYRESEARCH

CENTER

FOR

SOCIAL

COMPUTING

AND

INFORMATION

RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心回到問(wèn)題:人工智能真的讓機(jī)器人智能了嗎?構(gòu)建智能機(jī)器人的技術(shù),我們具備和不具備哪些?機(jī)器人軀體的所有硬件結(jié)構(gòu)2D視覺(jué)信號(hào)或3D點(diǎn)云信號(hào)語(yǔ)音信號(hào)觸覺(jué)信號(hào)或力反饋信號(hào)位姿信號(hào)硬件方面:我們已經(jīng)能造出具備基本性能的機(jī)器人硬件和高精度的傳感器20HARBIN

INSTITUTE

OF

TECHNOLOGY構(gòu)建智能機(jī)器人的技術(shù),我們具備和不具備哪些?軟件及算法方面:收集所有傳感器采集的環(huán)境信息和自身狀態(tài)。并綜合分析當(dāng)前所有狀態(tài)(具身感知)根據(jù)當(dāng)前狀態(tài),對(duì)自身下一步的運(yùn)動(dòng)做出決策和規(guī)劃(具身推理)大腦小腦向下位機(jī)下發(fā)送運(yùn)動(dòng)指令(具身執(zhí)行)(形式包括代碼、技能庫(kù)API、關(guān)節(jié)旋轉(zhuǎn)角度等)下位機(jī)通過(guò)運(yùn)控技術(shù)執(zhí)行指令運(yùn)控技術(shù)相對(duì)來(lái)說(shuō)已經(jīng)較為成熟還存在諸多問(wèn)題21HARBIN

INSTITUTE

OF

TECHNOLOGY當(dāng)前人工智能這幾個(gè)方面存在哪些問(wèn)題?收集所有傳感器采集的環(huán)境信息和自身狀態(tài)。并綜合分析當(dāng)前所有狀態(tài)(具身感知)多模態(tài)大模型LLaVA已能做到:但實(shí)際場(chǎng)景遠(yuǎn)比此復(fù)雜這是什么?如何打開(kāi)它?人的一些手勢(shì)是什么意思?3D點(diǎn)云圖如何理解?22HARBIN

INSTITUTE

OF

TECHNOLOGY當(dāng)前人工智能這幾個(gè)方面存在哪些問(wèn)題?根據(jù)當(dāng)前狀態(tài),對(duì)自身下一步的運(yùn)動(dòng)做出決策和規(guī)劃(具身推理)來(lái)看目前大模型在一組數(shù)據(jù)集中的表現(xiàn):23HARBIN

INSTITUTE

OF

TECHNOLOGY當(dāng)前人工智能這幾個(gè)方面存在哪些問(wèn)題?根據(jù)當(dāng)前狀態(tài),對(duì)自身下一步的運(yùn)動(dòng)做出決策和規(guī)劃(具身推理)主流大模型在該數(shù)據(jù)集上的表現(xiàn):24HARBIN

INSTITUTE

OF

TECHNOLOGY當(dāng)前人工智能這幾個(gè)方面存在哪些問(wèn)題?關(guān)上抽屜拿起可樂(lè)轉(zhuǎn)移紅色方塊向下位機(jī)下發(fā)送運(yùn)動(dòng)指令(具身執(zhí)行)

(形式包括代碼、技能庫(kù)API、關(guān)節(jié)旋轉(zhuǎn)角度等)對(duì)于生成關(guān)節(jié)旋轉(zhuǎn)角度形式的運(yùn)動(dòng)指令:多模態(tài)大模型擴(kuò)散小模型執(zhí)行的成功率執(zhí)行的流暢度泛化能力多模態(tài)大模型較低(60%~70%)不夠流暢物品泛化擴(kuò)散小模型較高(90%以上)流暢位置泛化或無(wú)泛化技能泛化場(chǎng)景泛化

泛物品泛化

化能位置泛化

力無(wú)泛化對(duì)于生成技能庫(kù)API或代碼API形式的運(yùn)動(dòng)指令:現(xiàn)實(shí)世界場(chǎng)景過(guò)于復(fù)雜,構(gòu)建完整的技能庫(kù)幾?不可能25HARBIN

INSTITUTE

OF

TECHNOLOGY因此,當(dāng)前人工智能還不足以讓機(jī)器人更智能,需要具身智能RESEARCH

CENTER

FOR

SOCIAL

COMPUTING

AND

INFORMATION

RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心什么是具身智能?機(jī)器人能學(xué)習(xí)文本圖像,能學(xué)會(huì)走路嗎?1963年進(jìn)行了一場(chǎng)心理學(xué)實(shí)驗(yàn),兩只貓自出生起便在黑暗封閉的環(huán)境中生活。被動(dòng)移動(dòng)位置只能注意到眼中的物體在變大、縮小沒(méi)有學(xué)會(huì)走路,甚至不能意識(shí)到眼中物體逐漸變大就是在靠近自己27HARBIN

INSTITUTE

OF

TECHNOLOGY可以自由的移動(dòng)隨著腿部動(dòng)作,眼中物體的大小有相應(yīng)的變化最終學(xué)會(huì)走路有行走條件才能學(xué)會(huì)走路:有物理身體,可以進(jìn)行交互[1]

Richard

Held,

Alan

Hein.

Movement-produced

stimulation

in

the

development

of

visually

guided

behavior.

1963

Jouranal

of

Comparativeand

Physiological

Psychology具身智能的定義定義:一種基于物理身體進(jìn)行感知和行動(dòng)的智能系統(tǒng),其通過(guò)智能體與環(huán)境的交互獲取信息、理解問(wèn)題、做出決策并實(shí)現(xiàn)行動(dòng),從而產(chǎn)生智能行為和適應(yīng)性。實(shí)質(zhì):強(qiáng)調(diào)有物理身體的智能體通過(guò)與物理環(huán)境進(jìn)行交互而獲得智能的人工智能研究范式。具身智能|

CCF專家談術(shù)語(yǔ),盧策吾,王鶴抽象的智能(圍棋、文本處理、圖像識(shí)別)有物理身體、與環(huán)境進(jìn)行交互的具身智能學(xué)習(xí)“有遮擋的物體識(shí)別”學(xué)習(xí)“移開(kāi)遮擋后的物體識(shí)別”VS28HARBIN

INSTITUTE

OF

TECHNOLOGY環(huán)境仿真環(huán)境真實(shí)環(huán)境Sim2Real交互感知環(huán)境反饋從交互中學(xué)習(xí)學(xué)習(xí)交互數(shù)據(jù)推理執(zhí)行物體感知場(chǎng)景感知行為感知表達(dá)感知物人具體分為任務(wù)規(guī)劃導(dǎo)航具身問(wèn)答具體分為智能體感知基于規(guī)則基于大模型基于學(xué)習(xí)具身智能劃分:感知、推理、執(zhí)行29HARBIN

INSTITUTE

OF

TECHNOLOGY目

錄C

O

N

T

E

N

T

S具身感知RESEARCH

CENTER

FOR

SOCIAL

COMPUTING

AND

INFORMATION

RETRIEVAL具身推理具身執(zhí)行123哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心具身感知哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心RESEARCH

CENTER

FOR

SOCIAL

COMPUTING

AND

INFORMATION

RETRIEVAL具身感知機(jī)器人需要具備環(huán)境感知能力,依據(jù)感知對(duì)象的不同,可以分為四類:場(chǎng)景感知物體感知行為感知表達(dá)感知32HARBIN

INSTITUTE

OF

TECHNOLOGY具身感知33HARBIN

INSTITUTE

OF

TECHNOLOGY機(jī)器人需要具備環(huán)境感知能力,依據(jù)感知對(duì)象的不同,可以分為四類:物體感知幾何形狀、鉸接結(jié)構(gòu)、物理屬性場(chǎng)景感知場(chǎng)景重建&

場(chǎng)景理解行為感知手勢(shì)檢測(cè)、人體姿態(tài)檢測(cè)、人類行為理解表達(dá)感知情感檢測(cè)、意圖檢測(cè)重點(diǎn)需要感知能力的機(jī)器人:服務(wù)機(jī)器人、人機(jī)協(xié)作場(chǎng)景下機(jī)器人、社交導(dǎo)航機(jī)器人、環(huán)境探索機(jī)器人具身感知具身感知的過(guò)程主要包括以下幾步:感受信息 信息的表示/建模/重建信息理解下游任務(wù)物體感知場(chǎng)景感知行為感知表達(dá)感知RGB相機(jī)3D相機(jī)觸覺(jué)傳感器麥克風(fēng)熱傳感器…獲取3D物體的幾何形狀、鉸接結(jié)構(gòu)、物理屬性信息信息編碼方法場(chǎng)景重建(主動(dòng)探索、主動(dòng)定位、場(chǎng)景的表示)基于交互的物體檢測(cè)、空間關(guān)系理解、時(shí)序變化檢測(cè)位姿估計(jì)、物體抓取、交互感知、可供性預(yù)測(cè)主要基于2D圖片和深度信息手勢(shì)識(shí)別、姿態(tài)檢測(cè)、人類行為理解社交導(dǎo)航、自動(dòng)駕駛、人機(jī)協(xié)作主要基于視覺(jué)表情和聲音情感識(shí)別、意圖推斷(指代表示)34HARBIN

INSTITUTE

OF

TECHNOLOGY物體感知RESEARCH

CENTER

FOR

SOCIAL

COMPUTING

AND

INFORMATION

RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心物體感知范疇對(duì)于3D空間中的物體,有必要感知其:幾何形狀鉸接結(jié)構(gòu)物理屬性https://adioshun.gitbooks.io/deep_drive/content/intro3d-cloudpoint.htmlXu

et

al.

UMPNet:

Universal

Manipulation

Policy

Network

for

Articulated

Objects.

2022

RA-LDong

et

al.

Tactile-RL

for

Insertion:

Generalization

to

Objects

of

Unknown

Geometry36HARBIN

INSTITUTE

OF

TECHNOLOGY物體幾何形狀感知37HARBIN

INSTITUTE

OF

TECHNOLOGY數(shù)據(jù)格式描述來(lái)源編碼方法點(diǎn)云一組點(diǎn),每個(gè)點(diǎn)包括3D坐標(biāo)和特征LiDARPointNet,PointNet++網(wǎng)格基于點(diǎn)、線、面(三角形)表示物體表面CAD模型、點(diǎn)云轉(zhuǎn)換MeshNet體素一組立方體,每個(gè)立方體包括坐標(biāo)、體積和特征點(diǎn)云轉(zhuǎn)換VoxelNet、DeepSDF、Occupancy

Network深度圖為2D圖片每個(gè)像素匹配一個(gè)深度雙目立體相機(jī)、結(jié)構(gòu)光相機(jī)、ToF相機(jī)GVCNNPointNet基于多層感知機(jī),編碼點(diǎn)云數(shù)據(jù),可以獲得點(diǎn)云整體的表示、每個(gè)點(diǎn)的表示PointNet為點(diǎn)云數(shù)據(jù)編碼的經(jīng)典方法,針對(duì)其難以捕捉局部特征的缺點(diǎn)又提出了改進(jìn)版本

PointNet++Qi

et

al.

Pointnet:

Deep

learning

on

point

sets

for

3d

classification

and

segmentation.

2017

CVPRQi

et

al.

Pointnet++:

Deep

hierarchical

feature

learning

on

point

sets

in

a

metric

space.

2017

NIPS38HARBIN

INSTITUTE

OF

TECHNOLOGYMeshNet基于MLP和CNN,編碼每個(gè)面的空間特征和結(jié)構(gòu)特征,最后獲得整體的物體外形表示[1]

Feng

et

al.

Meshnet:

Mesh

neural

network

for

3d

shape

representation.

2019

AAAI39HARBIN

INSTITUTE

OF

TECHNOLOGYVoxelNet首先將點(diǎn)云體素化,然后使用基于MLP和CNN的網(wǎng)絡(luò)編碼體素PointNet、MeshNet、VoxelNet對(duì)3D數(shù)據(jù)的卷積編碼方式,類似于CV中對(duì)2D圖片的編碼[1]

Zhou

et

al.

VoxelNet:

End-to-End

Learning

for

Point

Cloud

Based

3D

Object

Detection.

2018

CVPR40HARBIN

INSTITUTE

OF

TECHNOLOGYDeepSDF

(Signed

Distance

Function)之前PointNet、MeshNet和VoxelNet將3D數(shù)據(jù)視為離散的單元進(jìn)行卷積編碼DeepSDF訓(xùn)練神經(jīng)網(wǎng)絡(luò),擬合一個(gè)連續(xù)函數(shù):以體素坐標(biāo)為輸入,輸出其離最近物體表面的距離。這個(gè)連續(xù)函數(shù)同樣蘊(yùn)涵物體的幾何形狀信息。為使訓(xùn)練的SDF不局限于一個(gè)物體,引入Code作為物體形狀標(biāo)簽[1]

Park

et

al.

DeepSDF:

Learning

Continuous

Signed

Distance

Functions

for

Shape

Representation.

2019

CVPR41HARBIN

INSTITUTE

OF

TECHNOLOGYOccupancy

Networks占用概率網(wǎng)絡(luò)類似于DeepSDF使用一個(gè)連續(xù)的函數(shù)來(lái)表示整個(gè)空間的體素分布情況,OccupancyNetwork同樣使用神經(jīng)網(wǎng)絡(luò)來(lái)擬合一個(gè)連續(xù)的函數(shù),該函數(shù)以體素坐標(biāo)為輸入,輸出該坐標(biāo)處體素出現(xiàn)的概率[1]

Mescheder

et

al.

Occupancy

Networks:

Learning

3D

Reconstruction

in

Function

Space.

2019

CVPR42HARBIN

INSTITUTE

OF

TECHNOLOGY幾何形狀感知的下游任務(wù):物體位姿估計(jì)位姿估計(jì)任務(wù)是預(yù)測(cè)一個(gè)物體在3D空間中的位姿,包括三自由度的平移,與三自由度的旋轉(zhuǎn),或者可視為物體的位置與朝向根據(jù)是否物體的CAD模型是否已知,位姿估計(jì)可以分為:實(shí)例級(jí)別的位姿估計(jì):需要物體CAD模型,從而獲取平移的中心和旋轉(zhuǎn)的初始朝向類別級(jí)別的位姿估計(jì):不需要物體CAD模型中點(diǎn)是哪里?正面(初始朝向)是哪?沒(méi)有這些信息如何知道平移和旋轉(zhuǎn)的情況?43HARBIN

INSTITUTE

OF

TECHNOLOGY通過(guò)“見(jiàn)過(guò)”訓(xùn)練集中一個(gè)類別下很多物體的中心點(diǎn)和初始朝向,從而可以在測(cè)試時(shí)對(duì)未見(jiàn)過(guò)的物體“預(yù)設(shè)”一個(gè)中心點(diǎn)和朝向,然后估計(jì)位姿構(gòu)建同類別物體統(tǒng)一坐標(biāo)空間物體上每一個(gè)點(diǎn)對(duì)應(yīng)一個(gè)(x,y,z),代表該點(diǎn)在標(biāo)準(zhǔn)空間中的位置。給定任意一個(gè)圖片,分割其中物體,然后在每個(gè)像素上預(yù)測(cè)(x,y,z)。mask上的(x,y,z)就代表這個(gè)物體在標(biāo)準(zhǔn)空間中的朝向,結(jié)合深度可得位移CNN預(yù)測(cè):類別、分割Mask、標(biāo)準(zhǔn)空間Map[1]

Wang

et

al.

Normalized

Object

Coordinate

Space

for

Category-Level

6D

Object

Pose

and

Size

Estimation.

2019

CVPR44HARBIN

INSTITUTE

OF

TECHNOLOGY具身感知小結(jié)一(提前放在這里,應(yīng)對(duì)可能的疑惑)45HARBIN

INSTITUTE

OF

TECHNOLOGY以上物體外形的研究,與智能機(jī)器人根據(jù)人類指令執(zhí)行特定動(dòng)作的關(guān)聯(lián)在哪里?上述研究與大模型有什么關(guān)聯(lián)?在我們能很好的端到端解決具身智能任務(wù)前,以感知物體作為中間任務(wù),助力下游的推理、執(zhí)行任務(wù),滿足實(shí)際應(yīng)用的需要,是很有意義的。正如句法分析、詞性標(biāo)注之于早期的NLP領(lǐng)域,以及T5模型統(tǒng)一自然語(yǔ)言理解與生成有觀點(diǎn)認(rèn)為,一個(gè)顯式的世界模型是人工智能的后續(xù)方向,該觀點(diǎn)下感知具有更重要的意義在深度學(xué)習(xí)范疇內(nèi),3D數(shù)據(jù)的處理方式與對(duì)2D圖片的處理方式非常相似,或許不久之后就會(huì)出現(xiàn)很多3D領(lǐng)域的大模型物體抓取原始點(diǎn)云/多角度圖片物體重建得到高質(zhì)量物體3D模型物體抓取傳統(tǒng)的物體抓取:需要已知物體的3D模型,然后使用分析的方法通過(guò)數(shù)學(xué)建模求解抓取點(diǎn)位基于深度學(xué)習(xí)的物體抓?。阂蕾?D相機(jī)獲取初步點(diǎn)云,不進(jìn)行顯式的物體重建,直接基于點(diǎn)云通過(guò)神經(jīng)網(wǎng)絡(luò)求解抓取位姿Model-Free46HARBIN

INSTITUTE

OF

TECHNOLOGYModel-Base感知3D物體的幾何形狀,與計(jì)算機(jī)圖形學(xué)(CG)中的物體重建有密切聯(lián)系,即使不進(jìn)行顯式的物體重建,一個(gè)好的物體重建方法往往也是很好的3D物體和場(chǎng)景的表示方法,例如有研究將CG中3DGS方法用于機(jī)器人任務(wù)Anygrasp經(jīng)典的物體抓取方法,基于物體幾何外形信息,并支持動(dòng)態(tài)物體抓取和碰撞檢查基于單張RGBD圖片,即可生成多個(gè)7自由度抓取位姿[1]

Fang

et

al.

AnyGrasp:

Robust

and

Efficient

Grasp

Perception

in

Spatial

and

Temporal

Domains.

2022

T-RO47HARBIN

INSTITUTE

OF

TECHNOLOGYCoPA:結(jié)合大模型物體感知的抓取多模態(tài)大模型結(jié)合物體分割模型由粗到細(xì)確定抓取點(diǎn)位(物體部件級(jí)別)抓取小模型GraspNet生成多個(gè)抓取位姿,與大模型給出的抓取點(diǎn)位接近的分?jǐn)?shù)更高[1]

Huang

et

al.

CoPa:

General

Robotic

Manipulation

through

Spatial

Constraints

of

Parts

with

Foundation

Models.

2024

ICRA48HARBIN

INSTITUTE

OF

TECHNOLOGY物體感知范疇對(duì)于3D空間中的物體,有必要感知其:幾何形狀:點(diǎn)云、體素、網(wǎng)格、深度圖的編碼表示,以及位姿估計(jì),物體抓取下游任務(wù)鉸接結(jié)構(gòu)物理屬性https://adioshun.gitbooks.io/deep_drive/content/intro3d-cloudpoint.htmlXu

et

al.

UMPNet:

Universal

Manipulation

Policy

Network

for

Articulated

Objects.

2022

RA-L[3]

Dong

et

al.

Tactile-RL

for

Insertion:

Generalization

to

Objects

of

Unknown

Geometry49HARBIN

INSTITUTE

OF

TECHNOLOGY鉸接結(jié)構(gòu)鉸接物體與剛性物體:剛性物體內(nèi)部構(gòu)件剛性連接,無(wú)法變形鉸接物體內(nèi)部構(gòu)件由關(guān)節(jié)或其他鉸接結(jié)構(gòu)連接,部件可以旋轉(zhuǎn)、平移剛性物體關(guān)注幾何形狀,對(duì)其的操作主要為抓取、放置,即位姿估計(jì)和物體抓取任務(wù)鉸接物體除幾何形狀外,還關(guān)注對(duì)其鉸接結(jié)構(gòu)。鉸接物體支持復(fù)雜的操作,例如開(kāi)關(guān)柜門,擰瓶蓋[1]

Liu

et

al.

Toward

Real-World

Category-Level

Articulation

Pose

Estimation.

2022

TIP50HARBIN

INSTITUTE

OF

TECHNOLOGY鉸接結(jié)構(gòu)數(shù)據(jù)來(lái)源鉸接物體數(shù)據(jù)格式主要為URDF,通過(guò)定義物體的邊、關(guān)節(jié)屬性來(lái)定義物體鉸接結(jié)構(gòu)鉸接結(jié)構(gòu)數(shù)據(jù)來(lái)源主要包括手工收集,e.g.AKB-48在已有3D數(shù)據(jù)集上標(biāo)注鉸接信息合成數(shù)據(jù)Liu

et

al.

AKB-48:

A

Real-World

Articulated

Object

Knowledge

Base.

2022CVPRCage

et

al.

CAGE:

Controllable

Articulation

GEneration.

2024

CVPR51HARBIN

INSTITUTE

OF

TECHNOLOGY鉸接物體表示方法52HARBIN

INSTITUTE

OF

TECHNOLOGY鉸接物體的表示,應(yīng)該主要包括以下信息:每個(gè)組件的幾何形狀信息每個(gè)組件的運(yùn)動(dòng)學(xué)信息,包括:位移類型(平移、旋轉(zhuǎn))、位移參數(shù)(平移方向、旋轉(zhuǎn)軸)、位移限制(最大移動(dòng)距離、最大旋轉(zhuǎn)角度)一個(gè)好的鉸接表示有助于機(jī)器人理解鉸接物體兩種鉸接結(jié)構(gòu)表示方法直接建模關(guān)節(jié)參數(shù)建模位移變化情況建模關(guān)節(jié)參數(shù)表示鉸接物體通過(guò)分別建模物體部件和整體兩個(gè)層次的信息來(lái)表示鉸接物體,實(shí)現(xiàn)基于RGBD圖片預(yù)測(cè)物體鉸接結(jié)構(gòu)。物體層次信息主要為關(guān)節(jié)參數(shù)和狀態(tài),部件層次信息為部件的位姿和規(guī)模[1]

Li

et

al.

Category-Level

Articulated

Object

Pose

Estimation.

2020CVPR53HARBIN

INSTITUTE

OF

TECHNOLOGY建模位移情況表示鉸接物體該論文同樣希望通過(guò)多視角圖片得到物體的形狀、外觀、鉸接結(jié)構(gòu)信息。其認(rèn)為物體狀態(tài)可以由形狀、外觀、鉸接狀態(tài)來(lái)表示,并使用不同的code來(lái)表示,通過(guò)一個(gè)變形網(wǎng)絡(luò)分離物體鉸接狀態(tài)(位移情況)得到新的物體位置,然后分別得到幾何形狀和物體外觀變形網(wǎng)絡(luò)使用有監(jiān)督訓(xùn)練的方式,以形狀和鉸接code為輸入,預(yù)測(cè)物體每個(gè)點(diǎn)的位移[1]

Wei

et

al.

Self-supervised

Neural

Articulated

Shape

and

Appearance

Models.

2022

CVPR54HARBIN

INSTITUTE

OF

TECHNOLOGY鉸接結(jié)構(gòu)的下游任務(wù)55HARBIN

INSTITUTE

OF

TECHNOLOGY幾何結(jié)構(gòu)部分與主流計(jì)算機(jī)視覺(jué)領(lǐng)域相比,其特點(diǎn)在于主要基于3D信息但對(duì)3D信息的處理并非具身智能的核心,具身智能的核心在于其是一種行為智能,在感知領(lǐng)域具體體現(xiàn)為:可以通過(guò)與環(huán)境的主動(dòng)交互,增強(qiáng)對(duì)環(huán)境的感知效果鉸接物體支持機(jī)器人進(jìn)行豐富的操作任務(wù),并提供相應(yīng)的反饋。與之相關(guān)的下游任務(wù)有交互感知、物體可供性預(yù)測(cè)兩類交互感知:機(jī)器人通過(guò)與物體交互獲取更多信息物體可供性預(yù)測(cè):預(yù)測(cè)物體能否支持機(jī)器人進(jìn)行某種操作交互感知獲取物體鉸接結(jié)構(gòu)之前介紹的工作基于靜態(tài)數(shù)據(jù)集預(yù)測(cè)物體鉸接結(jié)構(gòu),該工作通過(guò)實(shí)際物理交互行為獲取物體鉸接結(jié)構(gòu)首先以原始物體點(diǎn)云作為輸入,基于物體組件級(jí)分割,得到物體初始URDF文件機(jī)器人操作物體,基于當(dāng)前URDF文件可以預(yù)測(cè)操作后的物體狀態(tài),與實(shí)際觀察到的物體狀態(tài)進(jìn)行對(duì)比,該監(jiān)督信號(hào)對(duì)于物體模型參數(shù)(URDF文件)是可微的,從而進(jìn)行參數(shù)更新[1]

Lv

et

al.

SAGCI-System:

Towards

Sample-Efficient,

Generalizable,

Compositional

and

Incremental

Robot

Learning.

2022

ICRA56HARBIN

INSTITUTE

OF

TECHNOLOGY物體可供性預(yù)測(cè)對(duì)于任務(wù)規(guī)劃和導(dǎo)航任務(wù),知道一個(gè)物體可以施加哪些動(dòng)作是很重要的,也可以用于指導(dǎo)物體操作Where2act訓(xùn)練一個(gè)預(yù)測(cè)網(wǎng)絡(luò),給定一個(gè)原子動(dòng)作(推、拉),對(duì)于圖片或點(diǎn)云中每一個(gè)像素預(yù)測(cè)1)可行性分?jǐn)?shù);2)動(dòng)作軌跡;3)成功概率基于此,機(jī)器人可以知道每一個(gè)原子動(dòng)作在物體上的最佳操作點(diǎn)位與軌跡[1]

Mo

et

al.

Where2Act:

From

Pixels

to

Actions

for

Articulated

3D

Objects.

2024

ICCV57HARBIN

INSTITUTE

OF

TECHNOLOGY物體感知范疇對(duì)于3D空間中的物體,有必要感知其:幾何形狀:點(diǎn)云、體素、網(wǎng)格、深度圖的編碼表示,以及位姿估計(jì),物體抓取下游任務(wù)鉸接結(jié)構(gòu)物理屬性https://adioshun.gitbooks.io/deep_drive/content/intro3d-cloudpoint.htmlXu

et

al.

UMPNet:

Universal

Manipulation

Policy

Network

for

Articulated

Objects.

2022

RA-L[3]

Dong

et

al.

Tactile-RL

for

Insertion:

Generalization

to

Objects

of

Unknown

Geometry58HARBIN

INSTITUTE

OF

TECHNOLOGY物理屬性[3]

Dong

et

al.

Tactile-rl

for

insertion:

Generalization

to

objects

of

unknown

geometry.

2024ICRA59HARBIN

INSTITUTE

OF

TECHNOLOGY物體的物理屬性種類及來(lái)源包括:觸覺(jué):觸覺(jué)傳感器力矩:六軸力矩傳感器,3自由度力,3自由度扭矩,溫度:溫度傳感器材質(zhì)、硬度…物理屬性的表示與其他模態(tài)融合,如圖像和點(diǎn)云:IMAGEBIND、LANGBIND單獨(dú)使用物理信息:強(qiáng)化學(xué)習(xí)端到端的方式利用觸覺(jué)信息Girdhar

et

al.

Imagebind:

One

embedding

space

to

bind

them

all.

2023

CVPRZhu

et

al.

Languagebind:

Extending

video-language

pretraining

to

n-modality

by

language-based

semantic

alignment.

2024

ICLR物理屬性輔助操作解決視覺(jué)遮擋問(wèn)題利用觸覺(jué)傳感器理解物理屬性:T-NT根據(jù)視覺(jué)和觸覺(jué)反饋,用強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)器人將線穿過(guò)針孔使用觸覺(jué)傳感器查找線的末端,以及判斷針是否穿過(guò)針孔[1]

Yu

et

al.

Precise

Robotic

Needle-Threading

with

Tactile

Perception

and

Reinforcement

Learning.

2023

CoRL60HARBIN

INSTITUTE

OF

TECHNOLOGY場(chǎng)景感知RESEARCH

CENTER

FOR

SOCIAL

COMPUTING

AND

INFORMATION

RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心62HARBIN

INSTITUTE

OF

TECHNOLOGY場(chǎng)景感知簡(jiǎn)述定義:場(chǎng)景感知是通過(guò)實(shí)現(xiàn)與場(chǎng)景的交互來(lái)理解現(xiàn)實(shí)世界場(chǎng)景意義:賦予機(jī)器人理解周圍環(huán)境并與之交互的能力內(nèi)核:對(duì)空間布局的幾何理解對(duì)場(chǎng)景中物體的語(yǔ)義理解組成:粗粒度:場(chǎng)景中物體的組成、物體的語(yǔ)義、物體的空間關(guān)系細(xì)粒度:場(chǎng)景中每個(gè)點(diǎn)的精確空間坐標(biāo)和語(yǔ)義具體形式:點(diǎn)云、地標(biāo)、拓?fù)鋱D、場(chǎng)景圖、隱表示63HARBIN

INSTITUTE

OF

TECHNOLOGY場(chǎng)景感知的研究?jī)?nèi)容場(chǎng)景信息獲取場(chǎng)景理解環(huán)境原始信息場(chǎng)景認(rèn)知場(chǎng)景表示抽取視覺(jué)信息易利用難利用構(gòu)建形成激光信息雷達(dá)信息化學(xué)觸覺(jué)超聲···聽(tīng)覺(jué)紅外單個(gè)物體多個(gè)物體場(chǎng)景圖像對(duì)象實(shí)現(xiàn)物體識(shí)別時(shí)序變化檢測(cè)空間關(guān)系推理場(chǎng)景重建傳統(tǒng)

SLAM新方法新任務(wù)新表示深度學(xué)習(xí)主動(dòng)映射主動(dòng)定位拓?fù)浣Y(jié)構(gòu)場(chǎng)景圖場(chǎng)景信息構(gòu)成64HARBIN

INSTITUTE

OF

TECHNOLOGY場(chǎng)景信息組成粗粒度場(chǎng)景中物體的組成場(chǎng)景中物體的語(yǔ)義場(chǎng)景中物體的空間關(guān)系細(xì)粒度場(chǎng)景中每個(gè)點(diǎn)的精確空間坐標(biāo)和語(yǔ)義場(chǎng)景信息提取方式構(gòu)建場(chǎng)景表示點(diǎn)云、地標(biāo)、拓?fù)鋱D、場(chǎng)景圖及隱式表示易利用的場(chǎng)景信息視覺(jué):符合人類的先驗(yàn)知識(shí),相關(guān)研究工作多激光/雷達(dá):可以直接獲取準(zhǔn)確的場(chǎng)景表示,無(wú)需視覺(jué)重建激光傳感器工作原理 雷達(dá)傳感器工作原理Sun,

et

al.

A

quality

improvement

method

for

3D

laser

slam

point

clouds

based

on

geometric

primitives

of

the

scan

scene.

2021

IJRSKong,

et

al.

Multi-modal

data-efficient

3d

scene

understanding

for

autonomous

driving.

2024

arXivZheng,

et

al.

Scene-aware

learning

network

for

radar

object

detection.

2021

PCMRYang,

et

al.

An

ego-motion

estimation

method

using

millimeter-wave

radar

in

3D

scene

reconstruction.

2022

IHMSC65HARBIN

INSTITUTE

OF

TECHNOLOGY難利用的場(chǎng)景信息聽(tīng)覺(jué):可用于視聽(tīng)導(dǎo)航任務(wù)觸覺(jué):可用于感知物體表面化學(xué):可用于特殊任務(wù),如識(shí)別氣味來(lái)源紅外:可用于特殊場(chǎng)景,如煙霧場(chǎng)景下超聲:可用于深度測(cè)量Singh,

et

al.

Sporadic

Audio-Visual

Embodied

Assistive

Robot

Navigation

For

Human

Tracking.

2023

PETRAGan,

et

al.

Look,

listen,

and

act:

Towards

audio-visual

embodied

navigation.

2020

ICRARoberge,

et

al.

StereoTac:

A

novel

visuotactile

sensor

that

combines

tactile

sensing

with

3D

vision.

2023RALPadmanabha,

et

al.

Omnitact:

A

multi-directional

high-resolution

touch

sensor.

2020

ICRAArmada,

et

al.

Co-operative

smell-based

navigation

for

mobile

robots.

2004

CLAWARCiui,

et

al.

Chemical

sensing

at

the

robot

fingertips:

Toward

automated

taste

discrimination

in

food

samples.

2018

ACS

sensorsSinai,

et

al.

Scene

recognition

with

infra-red,

low-light,

and

sensor

fused

imagery.1999

IRISKim,

et

al.

Firefighting

robot

stereo

infrared

vision

and

radar

sensor

fusion

for

imaging

through

smoke.

2015

Fire

TechnologyShimoyama,

et

al.

Seeing

Nearby

3D

Scenes

using

Ultrasonic

Sensors.

2022

IVMulindwa,

et

al.

Indoor

3D

reconstruction

using

camera,

IMU

and

ultrasonic

sensors.

2020

JST應(yīng)用范圍狹窄并非場(chǎng)景感知任務(wù)焦點(diǎn)66HARBIN

INSTITUTE

OF

TECHNOLOGY67HARBIN

INSTITUTE

OF

TECHNOLOGY場(chǎng)景重建場(chǎng)景信息獲取場(chǎng)景理解環(huán)境原始信息場(chǎng)景認(rèn)知場(chǎng)景表示抽取視覺(jué)信息易利用難利用構(gòu)建形成激光信息雷達(dá)信息化學(xué)觸覺(jué)超聲···聽(tīng)覺(jué)紅外單個(gè)物體多個(gè)物體場(chǎng)景圖像對(duì)象實(shí)現(xiàn)物體識(shí)別時(shí)序變化檢測(cè)空間關(guān)系推理場(chǎng)景重建傳統(tǒng)

SLAM新方法新任務(wù)新表示深度學(xué)習(xí)主動(dòng)映射主動(dòng)定位拓?fù)浣Y(jié)構(gòu)場(chǎng)景圖場(chǎng)景重建場(chǎng)景重建的核心技術(shù)是SLAM(同步定位與映射)SLAM是機(jī)器人在未知環(huán)境下移動(dòng),逐步構(gòu)建周圍環(huán)境的連續(xù)地圖,并同時(shí)估計(jì)其在地圖中位置的技術(shù)傳統(tǒng)的SLAM技術(shù):濾波算法非線性優(yōu)化技術(shù)引入深度學(xué)習(xí)后的SLAM:新方法新任務(wù)新表示Durrant

et

al.

Simultaneous

localization

and

map:

part

I.

2006

RAMTaketomi

e

al.

Visual

SLAM

algorithms:

A

survey

from

2010

to

2016.

2017IPSJ場(chǎng)景信息SLAM我在哪?我周圍是什么樣的?68HARBIN

INSTITUTE

OF

TECHNOLOGY場(chǎng)景重建-新方法69HARBIN

INSTITUTE

OF

TECHNOLOGY將深度學(xué)習(xí)集成到SLAM用深度學(xué)習(xí)方法替換傳統(tǒng)的SLAM模塊特征提取深度估計(jì)在傳統(tǒng)SLAM上加入語(yǔ)義信息圖像語(yǔ)義分割語(yǔ)義地圖構(gòu)建基于深度學(xué)習(xí)的新方法主要為SLAM領(lǐng)域的自我優(yōu)化或迭代,很少有方法從具身智能的角度出發(fā)DeTone,

et

al.

Toward

geometric

deep

slam.

2017

arXivTateno,

et

al.

Cnn-slam:

Real-time

dense

monocular

slam

with

learned

depth

prediction.

2017

CVPRLi,

et

al.

Undeepvo:

Monocular

visual

odometry

through

unsupervised

deep

learning.

2018

ICRA場(chǎng)景重建-新任務(wù)傳統(tǒng)SLAM機(jī)器人由人類控制,或使用預(yù)定義的航點(diǎn),或基于給定的路徑規(guī)劃算法進(jìn)行導(dǎo)航主動(dòng)SLAM機(jī)器人可以自主行動(dòng),以實(shí)現(xiàn)更好的場(chǎng)景重建和定位主動(dòng)映射:機(jī)器人自主選擇下一步視點(diǎn),以獲得更好的觀察,進(jìn)行環(huán)境探索主動(dòng)定位:機(jī)器人自主規(guī)劃路徑,旨在解決模糊位置定位,而不僅僅是導(dǎo)航主動(dòng)SLAM我怎么能更快地完成場(chǎng)景重建?我怎么能更快地知道自己在哪?主動(dòng)定位傳統(tǒng)SLAM自動(dòng)映射 主動(dòng)映射同步定位我在哪?我周圍是什么樣的?70HARBIN

INSTITUTE

OF

TECHNOLOGY具身感知小結(jié)二具身智能與非具身的智能,乃至其他領(lǐng)域,例如CV、NLP、CG(計(jì)算機(jī)圖形學(xué))、Robotics、Control,核心區(qū)別在哪里?3D數(shù)據(jù)?機(jī)器人任務(wù)中的深度學(xué)習(xí)技術(shù)?在于行為智能,在于交互,在于告訴機(jī)器人怎么動(dòng)此處的交互具體指空間中一條7自由度的軌跡操作鉸接物體、主動(dòng)探索、主動(dòng)定位多模態(tài)大模型和文本大模型沒(méi)見(jiàn)過(guò)軌跡數(shù)據(jù),如果將軌跡數(shù)據(jù)壓縮為大模型,或許有更智能的交互效果71HARBIN

INSTITUTE

OF

TECHNOLOGY主動(dòng)映射主動(dòng)映射任務(wù),即下一個(gè)最佳視圖(NestBestView)任務(wù),旨在找到更好的觀測(cè)視點(diǎn)或更有效的觀測(cè)策略視圖的評(píng)估標(biāo)準(zhǔn):信息增益、機(jī)器人運(yùn)動(dòng)成本和場(chǎng)景重建的質(zhì)量基于拓?fù)涞男畔⒃鲆娑攘看_定下一個(gè)最佳視圖72HARBIN

INSTITUTE

OF

TECHNOLOGYRL方法,目的是識(shí)別最大化其場(chǎng)景記憶變化的視圖。核心思想是幫助智能體記住盡可能多的不可見(jiàn)的視覺(jué)特征Collander,

et

al.

Learning

the

next

best

view

for

3d

point

clouds

via

topological

features.

2021

ICRAGazani,

et

al.

Bag

of

views:

Anappearance-based

approach

to

next-best-view

planning

for

3d

reconstruction.

2023

RAL主動(dòng)映射Liu,

et

al.

Object-aware

guidance

for

autonomous

scene

reconstruction.

2018

TOGDong,

et

al.

Multi-robot

collaborative

dense

scene

reconstruction.

2019

TOG將NBV

任務(wù)與次優(yōu)對(duì)象(NBO)任務(wù)集成,選擇感興趣的對(duì)象,確定重建它們的最佳視角多智能體協(xié)作的主動(dòng)映射73HARBIN

INSTITUTE

OF

TECHNOLOGY主動(dòng)定位主動(dòng)定位涉及在參考圖中規(guī)劃后續(xù)運(yùn)動(dòng)路徑,以盡量地減輕機(jī)器人空間方向的模糊性傳統(tǒng)的定位算法與動(dòng)作選擇無(wú)關(guān)ANL(Active

neural

localization)通過(guò)端到端強(qiáng)化學(xué)習(xí)(包括感知模塊和策略模塊)最大化移動(dòng)后的“后驗(yàn)概率”(可理解為位置的置信度),從而最小化定位所需的步驟數(shù)量[1]

Chaplot,

et

al.

Active

neural

localization.

2018

arXiv74HARBIN

INSTITUTE

OF

TECHNOLOGY場(chǎng)景重建-新表示75HARBIN

INSTITUTE

OF

TECHNOLOGYSLAM領(lǐng)域亦在探索幾何外觀等經(jīng)典屬性之外的環(huán)境表示,旨在對(duì)層次結(jié)構(gòu)、功能、動(dòng)態(tài)和語(yǔ)義等屬性進(jìn)行建模主要的表示形式:拓?fù)淠P兔枋霏h(huán)境連通性的拓?fù)鋱D場(chǎng)景圖將環(huán)境建模為有向圖,其中節(jié)點(diǎn)表示對(duì)象或位置等實(shí)體,邊緣表示這些實(shí)體之間的關(guān)系76HARBIN

INSTITUTE

OF

TECHNOLOGY場(chǎng)景理解場(chǎng)景信息獲取場(chǎng)景理解環(huán)境原始信息場(chǎng)景認(rèn)知場(chǎng)景表示抽取視覺(jué)信息易利用難利用構(gòu)建形成激光信息雷達(dá)信息化學(xué)觸覺(jué)超聲···聽(tīng)覺(jué)紅外單個(gè)物體多個(gè)物體場(chǎng)景圖像對(duì)象實(shí)現(xiàn)物體識(shí)別時(shí)序變化檢測(cè)空間關(guān)系推理場(chǎng)景重建傳統(tǒng)

SLAM新方法新任務(wù)新表示深度學(xué)習(xí)主動(dòng)映射主動(dòng)定位拓?fù)浣Y(jié)構(gòu)場(chǎng)景圖場(chǎng)景理解理解場(chǎng)景信息是場(chǎng)景感知的重要組成部分高效的理解過(guò)程(例如分割、識(shí)別和檢測(cè))為智能體理解復(fù)雜環(huán)境場(chǎng)景理解不僅包括物體的識(shí)別,還包括物體之間的空間關(guān)系和場(chǎng)景幀之間的時(shí)間變化物體識(shí)別77HARBIN

INSTITUTE

OF

TECHNOLOGY空間關(guān)系推理時(shí)序變化檢測(cè)物體識(shí)別78HARBIN

INSTITUTE

OF

TECHNOLOGY常規(guī)的、主流的物體識(shí)別方法:YOLOMASK

RCNNResNet這些方法的局限性:難以利用機(jī)器人與環(huán)境的交互能力具身智能的物體識(shí)別:物理交互:通過(guò)移動(dòng)(觸碰)物體實(shí)現(xiàn)更好的物體識(shí)別更改視點(diǎn):通過(guò)移動(dòng)改變自身在場(chǎng)景中的位置,結(jié)合多視角信息實(shí)現(xiàn)更好的物體識(shí)別Redmon,

et

al.

You

only

look

once:

Unified,

real-time

object

detection.

2016

CVPRHe,

et

al.

Mask

r-cnn.

2017

ICCVHe,

et

al.

Deep

residual

learning

for

image

recognition.

2016

CVPR物體識(shí)別-物理交互Pathaket

al.利用簡(jiǎn)單的對(duì)象操作來(lái)協(xié)助實(shí)例分割和對(duì)象識(shí)別[1]

Pathak,

et

al.

Learning

instance

segmentation

by

interaction.

2018

CVPR通過(guò)對(duì)象操作實(shí)現(xiàn)實(shí)例分割的流程79HARBIN

INSTITUTE

OF

TECHNOLOGY物體識(shí)別-更改視點(diǎn)SeeingbyMoving模仿人類“通過(guò)繞著同一物體走動(dòng)來(lái)獲取多個(gè)觀察視角”的策略,使機(jī)器人能夠通過(guò)自主運(yùn)動(dòng)獲取單個(gè)物體的多視圖數(shù)據(jù)該方法從人類的演示中學(xué)習(xí)移動(dòng)策略,而其他方法則依靠強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)行為策略[1]

Fang,

et

al.

Move

to

see

better:

Self-improving

embodied

object

detection.

2020

arXiv80HARBIN

INSTITUTE

OF

TECHNOLOGY空間關(guān)系推理空間關(guān)系主要涉及視覺(jué)檢測(cè)和關(guān)系推理相關(guān)的數(shù)據(jù)集以及空間關(guān)系推理的基準(zhǔn)benchmark:Rel3dSpatialsenseopen

imagesGoyal,

et

al.

Rel3d:

A

minimally

contrastive

benchmark

for

grounding

spatial

relations

in

3d.

2020

NIPSYang,

et

al.

Spatialsense:

An

adversarially

crowdsourced

benchmark

for

spatial

relation

recognition.

2019

ICCVKuznetsova,

et

al.

The

open

images

dataset

v4:

Unified

image

classification,

object

detection,

and

visual

relationship

detection

at

scale.

2020

IJCVRel3d

Spatialsenseopen

images81HARBIN

INSTITUTE

OF

TECHNOLOGY時(shí)序變化檢測(cè)場(chǎng)景變化檢測(cè):一個(gè)機(jī)器人在兩個(gè)不同的時(shí)間探索環(huán)境,并識(shí)別它們之間的任何物體變化。物體變化包括環(huán)境中添加和移除的物體常用數(shù)據(jù)集:robotic

vision

scene

understanding

challengeChangeSimVL-CMU-CDPCDHall,

et

al.

The

robotic

vision

scene

understanding

challenge.

2020

arXivPark,

et

al.

Changesim:

Towards

end-to-end

online

scene

change

detection

in

industrial

indoor

environments.

2021

IROSPrabhakar,

et

al.

Cdnet++:

Improved

change

detection

with

deep

neural

network

feature

correlation.

2020

IJCNNSakurada,

et

al.

Weakly

supervised

silhouette-based

semantic

scene

change

detection.

2020

ICRA82HARBIN

INSTITUTE

OF

TECHNOLOGY場(chǎng)景變化檢測(cè)CSR主要針對(duì)具身導(dǎo)航任務(wù),智能體在移動(dòng)穿越場(chǎng)景時(shí)跟蹤物體,相應(yīng)地更新表示,并檢測(cè)房間配置的變化DCA-Det實(shí)現(xiàn)面向物體級(jí)別的變化檢測(cè)CSR框架圖

DCA-Det框架圖Gadre,

et

al.

Continuous

scene

representations

for

embodied

ai.

2022

CVPRZhang,

et

al.

Object-level

change

detection

with

a

dual

correlation

attention-guided

detector.

2021

ISPRS83HARBIN

INSTITUTE

OF

TECHNOLOGY場(chǎng)景動(dòng)態(tài)感知4D全景場(chǎng)景圖(PSG-4D),放棄了“動(dòng)態(tài)”的概念,將時(shí)間視為場(chǎng)景表示中的變量,作為第四維度納入現(xiàn)有的3D場(chǎng)景圖中。這種新的表現(xiàn)形態(tài)適用于場(chǎng)景預(yù)測(cè)和動(dòng)態(tài)場(chǎng)景理解[1]

Yang,

et

al.

4d

panoptic

scene

graph

generation.

2024

NIPS84HARBIN

INSTITUTE

OF

TECHNOLOGY行為感知RESEARCH

CENTER

FOR

SOCIAL

COMPUTING

AND

INFORMATION

RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心行為感知86HARBIN

INSTITUTE

OF

TECHNOLOGY不同于對(duì)物體、場(chǎng)景的感知,對(duì)人的感知需要人的行為,包括:手勢(shì)識(shí)別身體位姿識(shí)別人類行為理解機(jī)器人對(duì)人的行為感知有助于人機(jī)交互應(yīng)用:社交導(dǎo)航自動(dòng)駕駛?cè)藱C(jī)協(xié)作裝配手勢(shì)識(shí)別手勢(shì)識(shí)別是識(shí)別圖片中人體手勢(shì)的類別,一般以分類任務(wù)的形式出現(xiàn)手勢(shì)識(shí)別的一般流程:使用RGB相機(jī)或RGBD相機(jī)獲取圖片手勢(shì)的分割與檢測(cè):基于膚色、輪廓、深度信息等信息檢測(cè)圖中手勢(shì)區(qū)域和手的關(guān)節(jié)點(diǎn)手勢(shì)識(shí)別:在分割檢測(cè)結(jié)果的基礎(chǔ)上進(jìn)行手勢(shì)分類87HARBIN

INSTITUTE

OF

TECHNOLOGY人體姿態(tài)檢測(cè)人體姿態(tài)檢測(cè)需要預(yù)測(cè)2D圖像或3D數(shù)據(jù)中人體的關(guān)節(jié)點(diǎn)單人的姿態(tài)檢測(cè),可以使用回歸的方法或基于熱圖的方法回歸:直接基于圖片預(yù)測(cè)關(guān)節(jié)點(diǎn)位置熱圖:預(yù)測(cè)每個(gè)像素點(diǎn)屬于某個(gè)關(guān)節(jié)的概率,進(jìn)而基于概率決定關(guān)節(jié)位置多人的位姿檢測(cè),可以分為自頂向下和自底向上自頂向下:識(shí)別圖中人體后分別進(jìn)行姿態(tài)估計(jì)自底向上:首先檢測(cè)圖中所有關(guān)節(jié)點(diǎn),然后進(jìn)行組合88HARBIN

INSTITUTE

OF

TECHNOLOGY社交導(dǎo)航機(jī)器人&自動(dòng)駕駛?cè)梭w姿態(tài)估計(jì)的結(jié)果可以用于預(yù)測(cè)人類下一步動(dòng)作,這有助于機(jī)器人進(jìn)行決策社交導(dǎo)航機(jī)器人基于人體位姿預(yù)測(cè)人類下一步方向,從而選擇移動(dòng)方向自動(dòng)駕駛決策時(shí)同樣需要預(yù)測(cè)人類移動(dòng)軌跡[1]

Narayanan

et

al.

ProxEmo:

Gait-based

Emotion

Learning

and

Multi-view

Proxemic

Fusion

for

Socially-Aware

Robot

Navigation.

2020

IROS89HARBIN

INSTITUTE

OF

TECHNOLOGY人機(jī)協(xié)作裝配場(chǎng)景下防碰撞除預(yù)測(cè)人類移動(dòng)軌跡用于社交導(dǎo)航場(chǎng)景和機(jī)器人場(chǎng)景外,在工業(yè)場(chǎng)景中人機(jī)協(xié)作進(jìn)行裝配任務(wù)同樣需要預(yù)測(cè)人類未來(lái)行為軌跡,以免機(jī)器人和人發(fā)生碰撞[1]

Zhang

et

al.

Recurrent

neural

network

for

motion

trajectory

prediction

in

human-robot

collaborative

assembly.

2020

CIRP.90HARBIN

INSTITUTE

OF

TECHNOLOGY人類行為理解91HARBIN

INSTITUTE

OF

TECHNOLOGY人類行為理解即通過(guò)檢測(cè)姿勢(shì)、運(yùn)動(dòng)和環(huán)境線索來(lái)推斷其正在進(jìn)行的行為該領(lǐng)域超越了對(duì)基本動(dòng)作的識(shí)別,還包括對(duì)復(fù)雜行為的分析人物交互多人協(xié)作動(dòng)態(tài)環(huán)境中的自適應(yīng)行為最近的進(jìn)展側(cè)重于通過(guò)更深入的語(yǔ)義理解來(lái)建模這些行為人類行為理解:統(tǒng)一的動(dòng)作-語(yǔ)言生成預(yù)訓(xùn)練模型統(tǒng)一的動(dòng)作-語(yǔ)言生成預(yù)訓(xùn)練模型MotionGPT將人類動(dòng)作視為一種外語(yǔ),引入自然語(yǔ)言模型進(jìn)行動(dòng)作相關(guān)生成功能包括:給定文本生成動(dòng)作,給定動(dòng)作生成文本,動(dòng)作擴(kuò)增,文本動(dòng)作描述生成MotionGPT的演示[1]

Jiang

et

al.

Motiongpt:

Human

motion

as

a

foreign

language.

2024

NIPSMotionGPT的方法總覽92HARBIN

INSTITUTE

OF

TECHNOLOGY人類行為理解:可理解人類動(dòng)作和視頻的大語(yǔ)言模型可理解人類動(dòng)作和視頻的大語(yǔ)言模型MotionLLM收集并構(gòu)建了一個(gè)名為MoVid的大規(guī)模數(shù)據(jù)集和MoVid-Bench的基準(zhǔn)測(cè)試提出了一個(gè)結(jié)合視頻和動(dòng)作數(shù)據(jù)的統(tǒng)一框架,通過(guò)大語(yǔ)言模型來(lái)理解人類行為MotionLLM的基本架構(gòu)MotionLLM的兩階段訓(xùn)練[1]

Chen

L

H

et

al.

MotionLLM:

Understanding

Human

Behaviors

from

Human

Motions

and

Videos.

2024

arXiv

preprint

arXiv:2405.2034093HARBIN

INSTITUTE

OF

TECHNOLOGY表達(dá)感知RESEARCH

CENTER

FOR

SOCIAL

COMPUTING

AND

INFORMATION

RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心表達(dá)感知概述機(jī)器人想獲取人類的情感和意圖,可以通過(guò)人的:面部表情語(yǔ)音上述兩種模態(tài)信號(hào)的結(jié)合面部表情、語(yǔ)音情感、意圖95HARBIN

INSTITUTE

OF

TECHNOLOGY表達(dá)感知研究意義表達(dá)感知的研究意義:增強(qiáng)任務(wù)協(xié)作能力,從而提升機(jī)器人在人機(jī)交互中的自然性和有效性更準(zhǔn)確地感知用戶的情感變化與意圖,從而顯著提高用戶體驗(yàn)和滿意度可能應(yīng)用的實(shí)際場(chǎng)景:陪伴老年人、智慧家居、工業(yè)協(xié)作等陪伴機(jī)器人智慧家居工業(yè)機(jī)器人96HARBIN

INSTITUTE

OF

TECHNOLOGY面部情感感知面部表情數(shù)據(jù)采集一般是通過(guò)攝像頭設(shè)備進(jìn)行采集特征提取如幾何特征(關(guān)鍵點(diǎn)坐標(biāo))、紋理特征(局部二值模式,LBP)和動(dòng)作單元(Action

Units,AU)等面部情感識(shí)別的主要挑戰(zhàn)復(fù)雜環(huán)境下的面部情感感知可能包括光照變化、姿態(tài)變化、遮擋和不同的背景場(chǎng)景等,對(duì)準(zhǔn)確性和魯棒性要求更高[1]

Ma

F

et

al.

Facial

expression

recognition

with

visual

transformersand

attentional

selective

fusion.

2021

IEEE

Transactions

on

AffectiveComputing97HARBIN

INSTITUTE

OF

TECHNOLOGY面部情感感知:復(fù)雜環(huán)境下的面部情感感知Visual

Transformers與特征融合針對(duì)在野外(即非實(shí)驗(yàn)室控制環(huán)境)中的FER任務(wù),能夠處理遮擋、不同的頭部姿勢(shì)、面部變形和運(yùn)動(dòng)模糊等復(fù)雜情況區(qū)域注意力網(wǎng)絡(luò)RAN旨在解決現(xiàn)實(shí)世界中FER的遮擋魯棒性和姿態(tài)不變性問(wèn)題構(gòu)建了若干具有姿態(tài)和遮擋屬性的野外FER數(shù)據(jù)集,解決了對(duì)應(yīng)領(lǐng)域數(shù)據(jù)集缺乏的情況邊緣AI驅(qū)動(dòng)(

Edge-AI-driven)的FER框架該框架可以在低功耗設(shè)備上實(shí)現(xiàn)實(shí)時(shí)的面部表情識(shí)別,確保在有限的計(jì)算資源和能源消耗下,仍能保持高精度這對(duì)于智能穿戴設(shè)備、智能手機(jī)和遠(yuǎn)程醫(yī)療等應(yīng)用場(chǎng)景尤為重要Ma

F

et

al.

Facial

expression

recognition

with

visual

transformers

and

attentional

selective

fusion.

2021

IEEE

Transactions

on

Affective

ComputingWang

K

et

al.

Region

attention

networks

for

pose

and

occlusion

robust

facial

expression

recognition.

2020

IEEE

Transactions

on

ImageProcessingWu

Y

et

al.

Edge-AI-driven

framework

with

efficient

mobile

network

design

for

facial

expression

recognition.

2023

A

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論