版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
人形機(jī)器人的AI算法分析1.安信智能科技研究框架當(dāng)下,我們正處于下一代計(jì)算平臺(tái)構(gòu)建成型的起點(diǎn)上,以“智能”的真正實(shí)現(xiàn)為總綱,技術(shù)維度的要素創(chuàng)新,包括混合虛擬現(xiàn)實(shí)(MR)、人機(jī)共生/協(xié)同(AI)兩個(gè)方向,其中MR本質(zhì)上是重構(gòu)時(shí)空,人機(jī)共生/協(xié)同本質(zhì)上是混合平臺(tái),混合平臺(tái)又包括不同的工程方案——人形機(jī)器人(以機(jī)器為智能載體)、腦機(jī)接口(以人為智能載體)。工程方案理論上會(huì)有無窮多,具象的工程方案探索,嚴(yán)格意義上仍在初期(目前僅基于視覺的技術(shù)探索),但所有的工程方案都可以收攏到具體的技術(shù)路徑中,任何技術(shù)路徑的目標(biāo)是實(shí)現(xiàn)虛擬現(xiàn)實(shí),即模糊掉虛擬與現(xiàn)實(shí)之間的邊界。目前主流的技術(shù)路徑為,一是以AR的技術(shù)路徑去實(shí)現(xiàn),但現(xiàn)階段AR相關(guān)技術(shù)仍待攻克;二是先VR再迭代至MR,以VR作為過渡?;旌掀脚_(tái)是智能實(shí)現(xiàn)的另一條技術(shù)路徑。如果將人的身體看作“硬件”,智能的實(shí)現(xiàn)過程,也是新智能交互硬件層出不窮、舊硬件迭代甚至是重塑的過程。因此,未來的智能硬件不僅包括冷冰冰的電子器件本身,也包括人類和電子器件之間不同程度的耦合,即指向人機(jī)共生/協(xié)同。在這條技術(shù)路徑上,腦機(jī)接口與人形機(jī)器人是不同的工程方案,即智能的實(shí)現(xiàn)分別以人、機(jī)器人為載體。2.產(chǎn)業(yè)趨勢(shì):機(jī)器智能“模型”系統(tǒng)迎來拐點(diǎn),“行動(dòng)”系統(tǒng)蓄勢(shì)待發(fā)根據(jù)陸奇對(duì)于人工智能進(jìn)化路徑的理解,人作為最成熟的通用智能體,在處理外部環(huán)境時(shí)依次用到了“信息”系統(tǒng)、“模型”系統(tǒng)、“行動(dòng)”系統(tǒng),分別獲取數(shù)據(jù)信息、分析處理信息并做出決策、基于決策目標(biāo)做出行動(dòng)。機(jī)器如果想要發(fā)展成為像人一樣的通用智能體,則也需要有這三個(gè)系統(tǒng),其演進(jìn)的過程可以簡(jiǎn)單的概括為機(jī)器感知世界、理解世界、參與世界。而前沿科技研究轉(zhuǎn)化為生產(chǎn)力有一定的過程,引發(fā)生產(chǎn)力大變革的拐點(diǎn)在于當(dāng)應(yīng)用這項(xiàng)技術(shù)的邊際成本轉(zhuǎn)化為某些特定公司固定成本時(shí),產(chǎn)業(yè)浪潮出現(xiàn)。(資料來源:奇績創(chuàng)壇)我們認(rèn)為這背后原因是當(dāng)應(yīng)用技術(shù)的邊際成本轉(zhuǎn)化為固定成本的時(shí)候,行業(yè)可以發(fā)揮規(guī)模效應(yīng)分?jǐn)偧夹g(shù)成本,且減少了重復(fù)資源浪費(fèi)?;厮輽C(jī)器智能的進(jìn)化史進(jìn)行梳理,互聯(lián)網(wǎng)時(shí)代推動(dòng)“信息”系統(tǒng)成熟化,使得今天信息獲取的成本極低;“模型”系統(tǒng)正走過拐點(diǎn),大模型所帶來的泛化能力使模型生產(chǎn)的邊際成本下降,轉(zhuǎn)化為特定大公司如OpenAI背后的算力、人才、數(shù)據(jù)成本;仍有待突破、充滿挑戰(zhàn)的是“行動(dòng)”系統(tǒng)的智能化:1)互聯(lián)網(wǎng)時(shí)代推動(dòng)“信息”系統(tǒng)成熟化——機(jī)器能夠感知人類世界現(xiàn)實(shí)物理世界的信息以各種形式存在,如紙質(zhì)的文字、對(duì)話、圖像等,機(jī)器如果需要和物理世界進(jìn)行交互,識(shí)別信息是第一步。1995年進(jìn)入互聯(lián)網(wǎng)時(shí)代,PC、互聯(lián)網(wǎng)的普及加速了信息的線上化,使物理世界能夠轉(zhuǎn)化為機(jī)器可讀取的信息,目前物理世界的線上化率已經(jīng)達(dá)到較高的水平,體現(xiàn)為:過去十年移動(dòng)互聯(lián)網(wǎng)發(fā)展進(jìn)一步加速了用戶上網(wǎng)率的提升,截止2022年,全球互聯(lián)網(wǎng)用戶規(guī)模為53.9億,相較于2013年增長92.5%,上網(wǎng)用戶的滲透率達(dá)到67.9%;2022年中國互聯(lián)網(wǎng)用戶為10.67億,較2013年增長72.65%,中國上網(wǎng)用戶的滲透率高于全球水平,達(dá)到75.6%?;ヂ?lián)網(wǎng)上覆蓋了豐富多元的用戶場(chǎng)景,以中國互聯(lián)網(wǎng)應(yīng)用為例,2022年網(wǎng)民使用率排名前五大的應(yīng)用類別為即時(shí)通信、網(wǎng)絡(luò)視頻、短視頻、網(wǎng)絡(luò)支付、網(wǎng)絡(luò)購物,分別為97.2%、96.5%、94.8%、85.4%、79.2%,涵蓋了通訊、娛樂、購物的用戶需求。此外線上辦公、網(wǎng)約車、互聯(lián)網(wǎng)醫(yī)療場(chǎng)景應(yīng)用的網(wǎng)民使用率也分別達(dá)到了50.6%、40.9%、39.6%,也體現(xiàn)出用戶生活的全面線上化趨勢(shì)。用戶規(guī)模增長及線上用戶場(chǎng)景的多元化也在推動(dòng)數(shù)據(jù)量的快速增長,從而提供了海量的信息供機(jī)器進(jìn)行學(xué)習(xí)。根據(jù)Statista給出的數(shù)據(jù),2016-2020年全球產(chǎn)生的數(shù)據(jù)量依次是18ZB、26ZB、33ZB、41ZB、47ZB,數(shù)據(jù)量增長的復(fù)合增速是27.11%。我們認(rèn)為隨著各類應(yīng)用的用戶使用率提升,未來全球產(chǎn)生的數(shù)據(jù)量規(guī)模也將加速增長。2)大模型展示出泛化能力,“模型”系統(tǒng)正走過拐點(diǎn)——機(jī)器能夠理解人類世界得益于數(shù)據(jù)、算力滋養(yǎng),神經(jīng)網(wǎng)絡(luò)模型能力逐步顯現(xiàn),行業(yè)主流模型從CNN、RNN走向Transformer。2006年提出深度學(xué)習(xí)算法后,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)經(jīng)歷了RNN、CNN等幾代的進(jìn)化,在視覺領(lǐng)域取得了非常顯著的突破,2014年3月,香港中文大學(xué)多媒體實(shí)驗(yàn)室自主研發(fā)的DeepID系列面部識(shí)別算法準(zhǔn)確率達(dá)到98.52%,在全球范圍內(nèi)首次超過人眼識(shí)別準(zhǔn)確率,突破工業(yè)應(yīng)用的紅線。因?yàn)檎Z序?qū)τ谡Z義理解很重要,而不同語言間語序的重心又有所不同,因此在小模型階段CNN、RNN算法在語言模型并未取得顯著進(jìn)步,因此這一階段人工智能技術(shù)的突破主要體現(xiàn)在計(jì)算機(jī)視覺領(lǐng)域。2016年AlphaGo打敗世界圍棋冠軍李世石,進(jìn)一步引爆了人工智能的浪潮,推動(dòng)人工智能應(yīng)用在金融、安防等場(chǎng)景的滲透率提升及全球人工智能創(chuàng)業(yè)熱潮。但這一階段均為小模型,需要針對(duì)不同場(chǎng)景重新標(biāo)注數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,人工標(biāo)注成本較高且模型泛化能力較差,導(dǎo)致拓展項(xiàng)目邊際成本較高而收入增長速度緩慢。2017年谷歌在論文《AttentionIsAllYouNeed》中提出了Transformer架構(gòu),Transformer架構(gòu)基于自注意力機(jī)制,通過賦予權(quán)重能夠并行化處理序列間關(guān)聯(lián)關(guān)系,在自然語言處理領(lǐng)域中得到了廣泛的應(yīng)用,如機(jī)器翻譯、文本分類和生成模型等。GPT系列模型提出“預(yù)訓(xùn)練-微調(diào)”的模式,表明訓(xùn)練模型具備規(guī)模效應(yīng)。OpenAI在Transformer架構(gòu)的基礎(chǔ)上又進(jìn)一步提出GPT模型,其突破在于訓(xùn)練時(shí)采用“預(yù)訓(xùn)練-微調(diào)”的模式,先采用大量無標(biāo)注的語料預(yù)訓(xùn)練語言模型,然后對(duì)預(yù)訓(xùn)練好的語言模型進(jìn)行微調(diào),將其遷移到有監(jiān)督學(xué)習(xí)的任務(wù)上。我們認(rèn)為這種模式所產(chǎn)生的價(jià)值在于提供了將訓(xùn)練模型的邊際成本轉(zhuǎn)化為固定成本的模型架構(gòu),針對(duì)更底層通用的能力抽取出來訓(xùn)練大模型共擔(dān)成本,而針對(duì)特定場(chǎng)景的部署只需要少量數(shù)據(jù)就能夠進(jìn)行訓(xùn)練,從而體現(xiàn)出規(guī)模效應(yīng)的可行性。從GPT-3開始表現(xiàn)出涌現(xiàn)能力,大模型不僅具備規(guī)模效應(yīng),還產(chǎn)生了能力躍遷。隨著模型參數(shù)增加及語料庫的豐富,到GPT-3上模型參數(shù)達(dá)到1750億,模型開始體現(xiàn)出涌現(xiàn)能力,即不僅體現(xiàn)出訓(xùn)練成本的規(guī)模效應(yīng),還帶來模型能力的增加,這推動(dòng)了學(xué)術(shù)界、產(chǎn)業(yè)界對(duì)于大模型的追捧,比如谷歌的BERT、智源悟道、百度文心、華為盤古、阿里達(dá)摩院M6等大模型。GPT系列模型取得的成果給計(jì)算機(jī)視覺模型也帶來了很多啟發(fā),被用于圖像分類、圖像切割等領(lǐng)域,例如商湯目前擁有320億參數(shù)的視覺大模型,是亞洲最大的視覺大模型之一。GPT-4實(shí)現(xiàn)多模態(tài)能力,感知能力極大提升。GPT-1到GPT-3.5均為語言大模型,GPT-4增加了視覺模型,并實(shí)現(xiàn)了語言與視覺跨模態(tài)信息的對(duì)齊,類似于人類認(rèn)知世界時(shí),眼睛看到的圖像信息會(huì)幫助我們加深對(duì)事物的認(rèn)知,而反過來因?yàn)榫邆湔J(rèn)知能力,看到不認(rèn)識(shí)的事物時(shí)也能知道其功能,會(huì)提升視覺識(shí)別信息的能力,因此多模態(tài)能力的建立幫助機(jī)器提高了感知能力,并為復(fù)雜場(chǎng)景中的決策規(guī)劃打好了基礎(chǔ),進(jìn)而機(jī)器能夠發(fā)揮計(jì)算優(yōu)勢(shì),給出更好的行動(dòng)方案。3)基于“信息-模型“系統(tǒng),“行動(dòng)”系統(tǒng)到來有望加速——機(jī)器智能參與人類世界指向“行動(dòng)”系統(tǒng),我們把執(zhí)行操作的場(chǎng)景分解為物理世界與數(shù)字世界:在數(shù)字世界:體現(xiàn)為機(jī)器基于特定目標(biāo),自主完成任務(wù)并且自我迭代,對(duì)應(yīng)于當(dāng)前研究熱度較高人工智能代理Agent,目前已經(jīng)出現(xiàn)的產(chǎn)品包括Auto-GPT、BabyAGI、AgentGPT、MicrosoftJarvis、ChaosGPT等;在物理世界:交互需要借助相應(yīng)的軀體,由此引出具身智能的概念。具身智能指智能體(可以是生物或機(jī)械),通過與環(huán)境產(chǎn)生交互后,通過自身的學(xué)習(xí),產(chǎn)生對(duì)于客觀世界的理解和改造能力,自動(dòng)駕駛、智能機(jī)器人等即為典型的智能硬件產(chǎn)品。在實(shí)際生活中已經(jīng)出現(xiàn)了很多機(jī)器人,如工業(yè)場(chǎng)景的碼垛機(jī)器人、搬運(yùn)機(jī)器人,商業(yè)服務(wù)場(chǎng)景的送餐機(jī)器人等,我們認(rèn)為其與智能硬件的區(qū)別在于,傳統(tǒng)機(jī)器人是基于固定坐標(biāo)系進(jìn)行特定執(zhí)行操作的機(jī)器人,并不具備實(shí)時(shí)感知能力。傳統(tǒng)機(jī)器人若想要向智能機(jī)器人升級(jí),其優(yōu)勢(shì)在于執(zhí)行控制模塊具有優(yōu)勢(shì)積累,需要補(bǔ)足感知及決策模塊。特斯拉人形機(jī)器人是目前最激進(jìn)的智能硬件,且產(chǎn)品迭代速度很快。與現(xiàn)有機(jī)器人不同,特斯拉人形機(jī)器人以自動(dòng)駕駛FSD為支撐,實(shí)時(shí)獲得環(huán)境信息并進(jìn)行決策規(guī)劃,最終輸出行動(dòng)指令,形成了“感知-決策規(guī)劃-運(yùn)動(dòng)控制”的實(shí)時(shí)交互反饋機(jī)制。為了增強(qiáng)機(jī)器人的普適性,將其設(shè)置為人形,是因?yàn)楝F(xiàn)實(shí)物理世界是基于人的視角、交互習(xí)慣所設(shè)置的,采用人形能夠用第一視角理解環(huán)境場(chǎng)景。從2021年8月特斯拉在其首屆AIDay上首次公開展示人形機(jī)器人的概念機(jī)TeslaBot至今,其研發(fā)迭代速度非常快:2021年8月,首屆AIDay公開展示人形機(jī)器人概念機(jī)TeslaBot;2022年2月,推出人形機(jī)器人原型機(jī),并作為開發(fā)平臺(tái)進(jìn)行深度研發(fā);2022年8月,第二屆AIDay,展示實(shí)體版本人形機(jī)器人,可以直立行走、澆花、搬運(yùn)東西等,但靈活度相對(duì)較低,上下舞臺(tái)時(shí)需要一定的人員協(xié)助;2023年5月,特斯拉2023年投資者大會(huì)發(fā)布人形機(jī)器人最新研發(fā)進(jìn)展,其已經(jīng)學(xué)會(huì)了緩慢前行。機(jī)器人潛在應(yīng)用場(chǎng)景空間廣闊。在2022年特斯拉的AIDay上,馬斯克提出特斯拉機(jī)器人最初的定位是替代人們從事重復(fù)枯燥、具有危險(xiǎn)性的工作,但遠(yuǎn)景目標(biāo)是讓其服務(wù)于千家萬戶,比如做飯、修剪草坪、照顧老人等。隨著硬件成本下降,有望推動(dòng)用戶需求增長,我們認(rèn)為推驅(qū)動(dòng)用戶買單的主要原因包括但不限于勞動(dòng)力成本上漲、勞動(dòng)力短缺、安全考慮等。此外,由于涉及的場(chǎng)景較為廣泛,我們判斷除了人形機(jī)器人外,未來可能還會(huì)衍生出更多不同形狀的智能硬件,其核心在于實(shí)時(shí)感知與交互性,而外在軀體的樣式可以根據(jù)所處場(chǎng)景進(jìn)行適配,采用不同的執(zhí)行器,可以預(yù)見機(jī)器人未來的市場(chǎng)空間非常廣闊。一旦人形機(jī)器人落地,“行動(dòng)”智能系統(tǒng)產(chǎn)業(yè)化拐點(diǎn)或?qū)⒓铀俚絹?。從軟件層面看,參考人是目前最?qiáng)大的通用智能體,人形機(jī)器人的算法難度最高,若算法能在人形機(jī)器人上實(shí)現(xiàn),向其他場(chǎng)景泛化本質(zhì)上是降維;其次從硬件層面,執(zhí)行器等零部件若能共用產(chǎn)線,會(huì)因?yàn)榱慨a(chǎn)規(guī)模的增加而帶來單個(gè)零部件的成本下降。因此綜上,我們認(rèn)為人形機(jī)器人達(dá)到一定成熟度后,面向不同場(chǎng)景需求而研發(fā)具有“行動(dòng)“系統(tǒng)的智能交互硬件的邊際成本也將顯著下降,從而推動(dòng)產(chǎn)業(yè)化浪潮的加速來臨。3.自動(dòng)駕駛FSD有望迎來量產(chǎn)落地特斯拉人形機(jī)器人的軟件算法建立在自動(dòng)駕駛所積累的數(shù)據(jù)、算法架構(gòu)基礎(chǔ)之上,由于目前官方披露人形機(jī)器人的算法相關(guān)數(shù)據(jù)相對(duì)較少,我們將先以自動(dòng)駕駛FSD算法為基礎(chǔ)進(jìn)行原理的解釋,進(jìn)而說明人形機(jī)器人與整車算法的不同來幫助理解人形機(jī)器人算法研發(fā)所處階段。參考前述“三位一體結(jié)構(gòu)化模式”,自動(dòng)駕駛方案主要有感知、決策規(guī)劃、運(yùn)動(dòng)控制三個(gè)模塊,其中感知層相當(dāng)于自動(dòng)駕駛的“眼睛”,幫助汽車?yán)斫馑幍耐獠凯h(huán)境,感知模型的輸出是基礎(chǔ);建立在準(zhǔn)確、可靠的感知輸出結(jié)果上,決策規(guī)劃模型相當(dāng)于“大腦”,對(duì)自車及周邊環(huán)境軌跡進(jìn)行預(yù)測(cè),通過打分機(jī)制篩選出最優(yōu)運(yùn)動(dòng)軌跡輸出給運(yùn)動(dòng)控制模塊;獲得行動(dòng)軌跡后,運(yùn)動(dòng)控制模塊將其分解為方向轉(zhuǎn)向、行車速度等操作指令,將其傳輸給方向盤、油門、剎車等執(zhí)行器進(jìn)行操作,最終實(shí)現(xiàn)對(duì)汽車的控制。而運(yùn)動(dòng)控制一旦發(fā)生,必然產(chǎn)生空間位移,這需要感知模型實(shí)時(shí)獲取空間位移信息變化,重新評(píng)估決策形成正向反饋。在上述處理流程中,數(shù)據(jù)、算力發(fā)揮重要支撐作用。特斯拉自動(dòng)駕駛自研方案經(jīng)歷四次重要迭代,當(dāng)前形成了“BEV+Transformer+時(shí)序信息+占用網(wǎng)絡(luò)”的核心架構(gòu)。特斯拉自動(dòng)駕駛方案早期由供應(yīng)商Mobileye提供,2016年雙方終止合作后,特斯拉經(jīng)歷了與英偉達(dá)短暫合作后,轉(zhuǎn)向全棧自研,從技術(shù)落后到引領(lǐng)行業(yè)發(fā)展,特斯拉的技術(shù)方案主要經(jīng)歷了以下四次關(guān)鍵的技術(shù)迭代升級(jí):2018年構(gòu)建了多任務(wù)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)架構(gòu)HydraNet,相較于此前單一目標(biāo)檢測(cè)遵循一個(gè)通用的網(wǎng)絡(luò)結(jié)構(gòu),HydraNet能夠完成多頭共用的任務(wù),減少重復(fù)計(jì)算;2020年特斯拉團(tuán)隊(duì)對(duì)底層代碼進(jìn)行重寫及網(wǎng)絡(luò)重構(gòu),引入了Transformer的架構(gòu),將2D圖像復(fù)原至3D視角,使得自動(dòng)駕駛方案環(huán)境感知的能力有了質(zhì)的飛躍,BEV+Transformer的架構(gòu)解決了行車過程中大多數(shù)共通的場(chǎng)景,但駕駛的安全性仍受到很多長尾場(chǎng)景的挑戰(zhàn);2021年至今特斯拉BEV+Transformer架構(gòu)輸出的3D空間基礎(chǔ)上使用視頻信息作為訓(xùn)練模型的數(shù)據(jù)集,引入了時(shí)序信息,使3D空間轉(zhuǎn)化為4D空間,這樣能夠很好的解決物體、行人被遮擋的場(chǎng)景;2022年AIDay上特斯拉引入了占用網(wǎng)絡(luò),環(huán)境中的物體無法用模型窮舉實(shí)現(xiàn)識(shí)別,占用網(wǎng)絡(luò)通過將空間分割為體積不等的體素,預(yù)測(cè)其是否被占用,從而解決通用障礙物的識(shí)別的問題。3.1.感知層:進(jìn)入“4D重建+占用網(wǎng)路”階段,感知體系已較為成熟在自動(dòng)駕駛傳感器領(lǐng)域,一直分為視覺派和雷達(dá)派兩大派系,最簡(jiǎn)單的區(qū)別就是:前者主張使用高清攝像頭+視覺識(shí)別算法,后者主張除攝像頭外,再加入激光雷達(dá)、超聲波雷達(dá)、毫米波雷達(dá)等感知硬件提高信息冗余以保證系統(tǒng)穩(wěn)定。特斯拉堅(jiān)持第一性原理,是視覺派的堅(jiān)定擁護(hù)者。特斯拉認(rèn)為就像人只需要眼睛和大腦就可以完成對(duì)周圍環(huán)境的感知一樣,自動(dòng)駕駛也只需要借助攝像頭和算法就能夠?qū)崿F(xiàn)這樣的能力。早期由于算法能力不足,特斯拉傳感器套件中除了八個(gè)攝像頭外,還包括一個(gè)前置雷達(dá)和車輛周圍的幾個(gè)超聲波傳感器。2021年特斯拉宣布向TeslaVision方案過渡,從2022年10月上旬開始,特斯拉為北美、歐洲、中東和中國臺(tái)灣制造的所有Model3和ModelY不再使用超聲波傳感器,而是完全依賴TeslaVision來實(shí)現(xiàn)自動(dòng)駕駛功能。當(dāng)前特斯拉車上共有8顆攝像頭,分別分布在左右前翼子板各1個(gè),左右B柱各1個(gè),后牌照上方各1個(gè),前擋風(fēng)玻璃后各3個(gè),8顆攝像頭視野范圍達(dá)到360度,對(duì)周圍環(huán)境的監(jiān)測(cè)距離最遠(yuǎn)可達(dá)250米。每個(gè)攝像頭采集分辨率為1280×960、12-Bit、36Hz的RAW格式圖像作為信息輸入。上述攝像頭捕捉到的視覺信息作為感知層的輸入,經(jīng)過一系列神經(jīng)網(wǎng)絡(luò)的處理將輸出4D向量空間,其操作步驟依次如下:1)相機(jī)校準(zhǔn):對(duì)攝像頭采集信息進(jìn)行色溫、位移的校準(zhǔn),調(diào)整為標(biāo)準(zhǔn)虛擬相機(jī)數(shù)據(jù),做校正變換后,之前模糊的圖像會(huì)變得清晰;2)通過RegNet、BiFPN兩個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)提取單視角圖像特征;3)利用Transformer架構(gòu)及占用網(wǎng)絡(luò)對(duì)單視角特征進(jìn)行轉(zhuǎn)換及三維重建,包括先將為每個(gè)相機(jī)對(duì)應(yīng)的圖像特征轉(zhuǎn)換為Key和value,再進(jìn)行表搜索找到關(guān)聯(lián)關(guān)系進(jìn)行空間拼接,之后根據(jù)攝像頭、IMU等傳感器采集的時(shí)序特征進(jìn)行時(shí)空聯(lián)合對(duì)齊,最終轉(zhuǎn)化4D空間(包含空間中的x、y、z坐標(biāo)及時(shí)間t),之后會(huì)采用反卷積的方式將其對(duì)應(yīng)到8個(gè)攝像頭中,若存在偏差則繼續(xù)修正重建效果。在上述感知操作的流程中,我們強(qiáng)調(diào)三個(gè)關(guān)鍵的技術(shù):1)HydraNets:共用主干網(wǎng)絡(luò),模型訓(xùn)練邊際成本低使業(yè)務(wù)拓展性強(qiáng)特斯拉視覺感知網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)是由主干(Backbone)、頸部(Neck)與頭部(Head)共同組成,早期在圖像檢測(cè)任務(wù)中,特斯拉針對(duì)每個(gè)任務(wù)都設(shè)計(jì)了一套神經(jīng)感知網(wǎng)絡(luò),分別由各自的backbone-neck-head構(gòu)成。2019年對(duì)架構(gòu)進(jìn)行調(diào)整,提出多頭任務(wù)處理架構(gòu)HydraNets,簡(jiǎn)稱九頭蛇網(wǎng)絡(luò),這種架構(gòu)是將主干網(wǎng)絡(luò)合并,由一個(gè)共同共享的主干并分支成多個(gè)頭。與此前的架構(gòu)相比,其好處在于:可以避免不同任務(wù)間重復(fù)計(jì)算,提高運(yùn)行效率;拓展性極強(qiáng),當(dāng)需要優(yōu)化的新場(chǎng)景出現(xiàn),只需要針對(duì)其特定的需求進(jìn)行單獨(dú)微調(diào),既不影響現(xiàn)有任務(wù)運(yùn)行,同時(shí)也能有效降低新業(yè)務(wù)研發(fā)的邊際成本。比如針對(duì)大車開過會(huì)帶起塵霧的場(chǎng)景,特斯拉會(huì)用自己的車隊(duì)采集特殊場(chǎng)景數(shù)據(jù),進(jìn)行訓(xùn)練后加載Head部分即可。2)Transformer架構(gòu):推動(dòng)感知從2D視角走向4D重建,提高感知效率與可靠性Transformer架構(gòu)優(yōu)勢(shì)是使用注意力機(jī)制處理輸入和輸出之間的依賴關(guān)系,通過賦予權(quán)重找到關(guān)聯(lián)關(guān)系。特斯拉2020年將Transformer引入感知模型,2020年特斯拉AIday上介紹展示了如何將檢測(cè)到的物體、可駕駛空間和其他物體放入BEV鳥瞰圖中,實(shí)現(xiàn)了環(huán)境感知從局部到整體的統(tǒng)一對(duì)齊,早期受限于數(shù)據(jù)質(zhì)量、算力等諸多因素,BEV的輸出仍為2D俯視圖,與車所面臨的3D物理空間中還是存在很大的不同,進(jìn)而產(chǎn)生很多問題,比如無法估計(jì)物體的高度,以及在高度方向上如有多個(gè)障礙物可能檢測(cè)不到等。隨著數(shù)據(jù)、算力等綜合能力的提升,Transformer架構(gòu)能夠處理參數(shù)量及數(shù)據(jù)量增加,幫助BEV鳥瞰圖從2D俯視圖升級(jí)為3D空間,更進(jìn)一步地,由于坐標(biāo)系相同,還可以進(jìn)行時(shí)序融合形成4D空間。Transformer架構(gòu)完成了從攝像頭捕捉的2D信息向4D向量空間的轉(zhuǎn)換,使感知可靠性、標(biāo)注效率大幅提升。早期特斯拉在感知層做標(biāo)注時(shí)是基于單張2D圖片進(jìn)行標(biāo)注,這種情況下標(biāo)注誤差很大,比如在圖片中標(biāo)注遠(yuǎn)處車道線時(shí)可能會(huì)出現(xiàn)位置偏移,從而導(dǎo)致汽車行駛過程轉(zhuǎn)彎時(shí)間預(yù)估不準(zhǔn)確或者壓線等情況出現(xiàn)。在依托Transformer重建的4D空間下所帶來的好處是:1)降低標(biāo)注誤差,4D空間相較于2D單視角圖像對(duì)空間的認(rèn)知更加全面,而且在被數(shù)學(xué)表示的空間,對(duì)于長度、速度等環(huán)境信息的認(rèn)知更具體;2)提高標(biāo)注效率,在4D向量空間中可以對(duì)建模后的場(chǎng)景進(jìn)行拖拽、旋轉(zhuǎn)等數(shù)字化的操作,為自動(dòng)標(biāo)注打好了基礎(chǔ)。從而提高標(biāo)注效率,根據(jù)特斯拉披露信息,2021年后在重建好場(chǎng)景中對(duì)單個(gè)clip進(jìn)行標(biāo)注的平均時(shí)間小于0.1hrs,對(duì)單個(gè)clip計(jì)算的平均時(shí)間為0.5hrs,相較于早期的圖像標(biāo)注效率有了大幅提高。3)占用網(wǎng)絡(luò):解決通用障礙物識(shí)別問題,為安全兜底特斯拉在2020-2022年圍繞4D空間重建取得的進(jìn)步,為占用網(wǎng)絡(luò)的實(shí)現(xiàn)帶來了可能性,只用網(wǎng)絡(luò)指預(yù)測(cè)汽車周圍所有物體的體積占用率,即將世界劃分為一系列3D網(wǎng)格單元(也被稱為體素)后,預(yù)計(jì)3D空間中的每個(gè)體素或連續(xù)點(diǎn)都有被占用的概率以及它的未來運(yùn)動(dòng)。2022CVPR及AIday上,特斯拉對(duì)占用網(wǎng)絡(luò)OccupancyNetwork進(jìn)行了詳細(xì)的介紹,其實(shí)現(xiàn)的關(guān)鍵包括:在提取圖像特征后利用transformer機(jī)制計(jì)算得出3D空間的占據(jù)體積概率,定義哪個(gè)單元被占用,哪個(gè)單元是空閑的;在獲得空間占用情況后,再結(jié)合里程計(jì)信息融合時(shí)序信息,構(gòu)建4D向量空間;對(duì)于單個(gè)物體而言,網(wǎng)格單元的大小可以被調(diào)整,以保證盡可能多地包裹到所有的物體;4D空間中除了反映空間占用情況外,還用不同的顏色表示物體的速度、方向等信息;若物體之間若存在關(guān)系,還有一條有語義信息的邊;基于4D空間所描述的特征及預(yù)測(cè)的軌跡方向,最終輸出occupancyVolume及動(dòng)態(tài)的occupancyflow。占用網(wǎng)絡(luò)幫助特斯拉解決了通用障礙物識(shí)別的問題,增強(qiáng)了自動(dòng)駕駛的安全性。在行駛的道路上,會(huì)遇到許多cornercase,其中可能包含很多數(shù)據(jù)庫中并不存在的物體,比如側(cè)翻的大卡車等,基于視覺感知的方案因無法獲取其信息而決策失誤發(fā)生事故。在占用網(wǎng)絡(luò)下,類似情況會(huì)將其標(biāo)注為空間占用,并根據(jù)感知信息為其賦予速度等值,根據(jù)以上信息車便能進(jìn)行做出避讓等操作,因此我們認(rèn)為占用網(wǎng)絡(luò)是對(duì)數(shù)據(jù)庫之外的信息識(shí)別的有效補(bǔ)充,進(jìn)而為安全兜底。經(jīng)過上述感知過程,特斯拉感知模塊最終有三個(gè)輸出,分別是占用網(wǎng)絡(luò)、車道線Lane及障礙物信息objects,得益于特斯拉大量的細(xì)節(jié)工作,輸出的結(jié)果質(zhì)量好、精度高,其將作為決策規(guī)劃的輸入,決定了后續(xù)工作的高度。3.2.決策規(guī)劃:系高維非凸問題,引入神經(jīng)網(wǎng)絡(luò)求解效率提升自動(dòng)駕駛問題是高維度空間中的非凸問題,求解最優(yōu)路徑挑戰(zhàn)很大。自動(dòng)駕駛決策規(guī)劃模塊需要解決的問題是在接收到感知模塊輸出后,在其所重建好的空間中找到一條軌跡可以最大限度地提高汽車的安全性、舒適性和效率,將車輛規(guī)劃至目的地,因此其本質(zhì)是找到一條滿足約束的最優(yōu)路徑,如果用數(shù)學(xué)方法求解,自動(dòng)駕駛的規(guī)劃求解是在高維空間中解非凸問題,求解后得出的最優(yōu)解可能只是局部最優(yōu),但考慮到安全問題,自動(dòng)駕駛決策規(guī)劃必須要盡可能達(dá)到全局最優(yōu)。特斯拉決策規(guī)劃的工作可以簡(jiǎn)單的理解為兩部分工作,一是通過決策樹生成潛在路徑,二是通過打分機(jī)制對(duì)決策樹剪枝,找到最優(yōu)路徑。在決策樹生成時(shí),特斯拉參考蒙特卡洛模擬生成了交互樹,其生成是由粗到細(xì)的:1)在感知輸出的占用網(wǎng)絡(luò)、車道線、車道拓?fù)潢P(guān)系基礎(chǔ)上粗生成行駛目標(biāo),給出車可能到達(dá)的車道線及行駛區(qū)域;2)利用傳統(tǒng)優(yōu)化算法,生成可能到達(dá)目標(biāo)的行駛路徑;3)動(dòng)態(tài)博弈,考慮t+1、t+2等時(shí)間內(nèi)與周邊障礙物的交互博弈,繼續(xù)生成新的軌跡。模型被引入決策樹生成,顯著縮短規(guī)劃路徑生成時(shí)間。在決策樹生成的過程中,特斯拉以數(shù)學(xué)優(yōu)化為主,特斯拉針對(duì)優(yōu)化求解進(jìn)行了諸多工程上的優(yōu)化以縮短決策規(guī)劃時(shí)間,能夠在1-5ms內(nèi)完成計(jì)算,但是如若面對(duì)更復(fù)雜的城市場(chǎng)景中可能仍無法滿足需求,2022年AIDay特斯拉介紹在生成網(wǎng)絡(luò)時(shí)使用了輕量化的神經(jīng)網(wǎng)絡(luò)幫助快速生成規(guī)劃路徑,標(biāo)志著模型被引入了決策規(guī)劃中,在模型助力下,目前可以在100us內(nèi)生成一個(gè)候選規(guī)劃路徑。決策樹剪枝是第二步,在有限的時(shí)間內(nèi)完成響應(yīng)需要拒絕掉一些偏差較大的方案。特斯拉也同樣運(yùn)用了傳統(tǒng)優(yōu)化方法及數(shù)據(jù)驅(qū)動(dòng)下的神經(jīng)網(wǎng)絡(luò)模型結(jié)合的方式,其評(píng)價(jià)的維度主要包括了碰撞可能性、舒適度分析、類人程度、被接管的概率等。基于這些評(píng)分維度,最終篩選出最優(yōu)的規(guī)劃軌跡,作為決策規(guī)劃的輸出。綜上,特斯拉的決策規(guī)劃方案在解決自動(dòng)駕駛高維非凸問題上是結(jié)合了優(yōu)化與神經(jīng)網(wǎng)絡(luò)的算法,如何平衡決策效率與安全性是當(dāng)前決策規(guī)劃任務(wù)的關(guān)鍵挑戰(zhàn)。其中采用優(yōu)化求解是建立在工程師可解釋的人類駕駛規(guī)則上進(jìn)行編碼,保證了算法的可解釋性,相對(duì)更安全可控;而結(jié)合神經(jīng)網(wǎng)絡(luò)計(jì)算是為了提高生成及篩選最優(yōu)軌跡的效率,同時(shí)也能對(duì)不可建模的駕駛經(jīng)驗(yàn)進(jìn)行建模,從而推動(dòng)自動(dòng)駕駛走向更類人化的步驟,但由于模型是黑盒,具有不可解釋性,在安全失誤率容忍度極低的駕駛場(chǎng)景的應(yīng)用仍較為謹(jǐn)慎。決策規(guī)劃輸出的軌跡體現(xiàn)在特斯拉中控屏幕上為長度、方向變化的指示線,其本質(zhì)上包含了目標(biāo)位置、方向、速度及加速度等信息,這些信息被拆解為執(zhí)行指令,作為運(yùn)動(dòng)控制模塊的輸入,進(jìn)一步給到執(zhí)行器。3.3.運(yùn)動(dòng)控制:僅執(zhí)行決策指令,在工業(yè)上較為成熟當(dāng)決策規(guī)劃模塊輸出軌跡后,由于其本身包含了方向、速度、加速度等信息,進(jìn)一步地分解為具體的指令,會(huì)交給域控制器MCU調(diào)用執(zhí)行器進(jìn)行操作。在運(yùn)動(dòng)控制方面,其承擔(dān)的主要角色是做執(zhí)行操作,這里主要是傳統(tǒng)的工控軟件,在行業(yè)內(nèi)都比較成熟,并不涉及特別多AI算法,因此本文在此不做展開。3.4.數(shù)據(jù)及標(biāo)注:特斯拉領(lǐng)先之關(guān)鍵,已建立強(qiáng)大自迭代體系從上述“感知-決策規(guī)劃-運(yùn)動(dòng)控制”三個(gè)模塊的方案介紹中,我們可以看到數(shù)據(jù)是重要的原料,如何得到大量、便宜且優(yōu)質(zhì)的數(shù)據(jù)對(duì)模型訓(xùn)練和結(jié)果輸出都起到關(guān)鍵作用。特斯拉自動(dòng)駕駛方案的數(shù)據(jù)源包括車輛采集數(shù)據(jù)、仿真數(shù)據(jù)、影子模式三種,其中:1)自車輛采集數(shù)據(jù)是特斯拉自有車隊(duì)及量產(chǎn)出售給用戶的車輛上的攝像頭實(shí)時(shí)采集的數(shù)據(jù),是特斯拉訓(xùn)練模型的主要數(shù)據(jù)來源;2)仿真模擬數(shù)據(jù)是為了補(bǔ)充通過車端攝像頭所無法采集到的長尾數(shù)據(jù),以盡可能補(bǔ)全模型訓(xùn)練時(shí)所可能遇到的場(chǎng)景;3)影子模式,指特斯拉的自動(dòng)駕駛模型部署到車端后在后臺(tái)運(yùn)行,其執(zhí)行輸出與駕駛員操作時(shí)的不一致數(shù)據(jù),這部分?jǐn)?shù)據(jù)作為很珍貴的異常數(shù)據(jù)用于為模型糾偏,幫助模型訓(xùn)練結(jié)果更加類人。數(shù)據(jù)來源一:車輛采集數(shù)據(jù)車輛采集數(shù)據(jù)以Clip作為最小標(biāo)注單元。在感知部分,我們?cè)敿?xì)介紹了特斯拉車上的8顆攝像頭所采集的視覺數(shù)據(jù),該數(shù)據(jù)通常為一段45-60s的視頻格式的路段數(shù)據(jù)。除了攝像頭視覺傳感器之外,車上還包括慣性測(cè)量單元(IMU)、GPS、里程計(jì)等傳感器,其中IMU是負(fù)責(zé)測(cè)量物體在三維空間中的角速度和加速度,並以此解算出物體的姿態(tài),主要用以保持平衡;GPS用于導(dǎo)航定位;里程計(jì)是用于測(cè)量汽車的速度、加速度信息。綜上攝像頭、IMU、GPS、里程計(jì)等傳感器采集的數(shù)據(jù)會(huì)構(gòu)成一個(gè)最小標(biāo)注單元,被成為Clip。每個(gè)Clip數(shù)據(jù)都經(jīng)過RegNet、BiFPN提取圖像特征進(jìn)行特征融合,結(jié)合位置、速度、加速度以及時(shí)序特征等信息,用于實(shí)現(xiàn)將自身所處的物理世界轉(zhuǎn)化至4D空間中,進(jìn)而通過標(biāo)注分解出靜態(tài)路網(wǎng)與動(dòng)態(tài)障礙物等感知任務(wù)的結(jié)果,用于后續(xù)輸出。與需要自建車隊(duì),裝配昂貴的激光雷達(dá),雇傭工程師駕駛車輛采集數(shù)據(jù)的自動(dòng)駕駛團(tuán)隊(duì)不同,Tesla依靠實(shí)際賣出的車輛采集數(shù)據(jù),不但獲取車輛銷售利潤,還能依靠特斯拉車主來采集數(shù)據(jù)。2018年至今特斯拉每年車的銷量持續(xù)提升,其中2022年、2023H1的銷量分別為124.71臺(tái)、85.91萬臺(tái),分別同比增長40.34%、57.42%。截止2023年6月底,特斯拉售出的車輛累計(jì)達(dá)到435.51萬輛。上百萬輛車在路上行駛幫助特斯拉產(chǎn)生了源源不斷便宜的數(shù)據(jù),特斯拉FSDbeta版本從上車部署至2022年已經(jīng)累計(jì)采集超過20億英里的數(shù)據(jù),而且預(yù)計(jì)隨著FSD用戶滲透率提升,所能夠采集的里程數(shù)將呈現(xiàn)加速增長。從數(shù)據(jù)的質(zhì)量來看,由于數(shù)據(jù)來自于不同區(qū)域、不同駕駛風(fēng)格車主真實(shí)環(huán)境決策有關(guān)的感知數(shù)據(jù),數(shù)據(jù)多元且價(jià)值也極高。數(shù)據(jù)來源二:仿真模擬數(shù)據(jù)仿真模擬數(shù)據(jù)在自動(dòng)駕駛方案中非常重要:1)模擬現(xiàn)實(shí)中無法采集到的長尾場(chǎng)景、極端場(chǎng)景,提高數(shù)據(jù)的多元性;2)對(duì)于長尾場(chǎng)景而言,實(shí)車采集與標(biāo)注成本太高,可以通過仿真模擬降低成本;3)除了直接在虛擬場(chǎng)景中進(jìn)行仿真訓(xùn)練,特斯拉還希望可以在仿真環(huán)境中重現(xiàn)真實(shí)世界場(chǎng)景,以便可以復(fù)現(xiàn)FSD失敗的場(chǎng)景,實(shí)現(xiàn)在仿真環(huán)境下的優(yōu)化迭代后再反哺汽車算法模型,實(shí)現(xiàn)“數(shù)據(jù)閉環(huán)”。在仿真環(huán)節(jié),最核心的工作是對(duì)環(huán)境進(jìn)行充分建模,特斯拉采用的是游戲領(lǐng)域非常成熟的渲染引擎工具UnrealEngine(簡(jiǎn)稱UE),其生成的物體非常逼真。特斯拉會(huì)在離線大模型上構(gòu)建的4D空間,先用UE生成靜態(tài)物體,如車道線、建筑物、樹木等,然后在上面增加車流或者行人等動(dòng)態(tài)流,以模擬所需要訓(xùn)練的場(chǎng)景數(shù)據(jù)。生成的仿真模擬數(shù)據(jù)作為重要的數(shù)據(jù)元之一,用以訓(xùn)練云端大模型,以幫助特斯拉提高自動(dòng)駕駛能力。根據(jù)2021年TeslaAIDay公開的信息,特斯拉總共已經(jīng)繪制了2000+公里的道路環(huán)境,通過仿真獲得的虛擬數(shù)據(jù)規(guī)模已達(dá)到37.1億張圖片及4.8億標(biāo)注,且已實(shí)際融入車端模型中。AIGC興起也在推動(dòng)仿真模擬能力提升。自動(dòng)駕駛方案供應(yīng)商Wayve目前正在嘗試?yán)肅hatGPT等語言大模型結(jié)合生成環(huán)境指令,在虛擬環(huán)境中實(shí)現(xiàn)環(huán)境感知與模型訓(xùn)練,這能夠幫助降低采集數(shù)據(jù)的成本。我們認(rèn)為基于此,仿真模擬的重要性或?qū)⒈淮蠓嵘?,幫助完善?xùn)練工具。數(shù)據(jù)來源三:影子模式影子模式是運(yùn)行在特斯拉車輛上的后臺(tái)程序,用戶接觸不到影子模式,但是在每臺(tái)特斯拉車輛上,影子模式“如影隨形”,隨時(shí)為數(shù)據(jù)采集做著準(zhǔn)備。在影子模式下,特斯拉關(guān)注的是FSD版本運(yùn)行時(shí)所作出的決策與人類駕駛員操作間的差異,會(huì)對(duì)產(chǎn)生偏差前后的數(shù)據(jù)進(jìn)行重點(diǎn)采集并回傳至云端,將這段異常數(shù)據(jù)作為輸入,對(duì)訓(xùn)練好的感知、規(guī)控模型進(jìn)行糾偏。影子模式的引入及持續(xù)迭代下,推動(dòng)了特斯拉的自動(dòng)駕駛操作更加類人化。得益對(duì)這三類數(shù)據(jù)的處理,特斯拉形成了持續(xù)正反饋迭代的數(shù)據(jù)引擎及強(qiáng)大的自動(dòng)標(biāo)注工具。車輛采集數(shù)據(jù)、影子模式、仿真模擬數(shù)據(jù)有兩個(gè)方面的作用:1)用于訓(xùn)練云端在線的感知、決策、控制模型,訓(xùn)練好的模型會(huì)通過定期OTA的方式將新的版本推送至車端進(jìn)行部署,車端會(huì)基于新的軟件版本處理,從而回傳給云端更有價(jià)值的數(shù)據(jù),形成迭代反饋;2)用于訓(xùn)練離線大模型,離線大模型也在對(duì)感知的世界進(jìn)行了4D重建,隨著模型能力不斷提升,模型對(duì)于真實(shí)世界重建的準(zhǔn)確度、精度持續(xù)提升,不斷趨近于真值時(shí),其可以被用作特斯拉自動(dòng)標(biāo)注的工具,其本質(zhì)是“對(duì)照標(biāo)尺”,當(dāng)新的數(shù)據(jù)流進(jìn)入到大模型后,只要通過與“標(biāo)尺”比對(duì)就能快速完成特征識(shí)別,從而提高標(biāo)注效率。如前文所述,2020年引入BEV視圖時(shí)進(jìn)入了自動(dòng)標(biāo)注的時(shí)代,針對(duì)每一個(gè)Clip標(biāo)注時(shí)間由2019年的3.5hrs縮短至0.1hrs。同時(shí)特斯拉做了許多數(shù)據(jù)安全的工作:1)來自于車端的數(shù)據(jù)一部分作為訓(xùn)練數(shù)據(jù)進(jìn)入模型,還有一部分將驗(yàn)證數(shù)據(jù)集被保留,作為真值數(shù)據(jù)用于評(píng)判模型的能力;2)特斯拉在自動(dòng)標(biāo)注的基礎(chǔ)上也保留了手工標(biāo)注。對(duì)于自動(dòng)標(biāo)注的數(shù)據(jù),工程師會(huì)不斷進(jìn)行數(shù)據(jù)抽檢,對(duì)于被標(biāo)記錯(cuò)的數(shù)據(jù)集,通過手工標(biāo)注的方式進(jìn)行修正??偨Y(jié)來看,我們認(rèn)為特斯拉的數(shù)據(jù)滿足以下特點(diǎn):大量、便宜、質(zhì)量高且具備多樣性,構(gòu)成其最核心競(jìng)爭(zhēng)壁壘:大量:如前所述,累積售出450多萬輛車在路上行駛為特斯拉貢獻(xiàn)了持續(xù)不斷的數(shù)據(jù);其次隨著算法能力升級(jí),目前攝像頭采集數(shù)據(jù)格式已經(jīng)升級(jí)為視頻,其中包含的信息量將較之前更加豐富;便宜:特斯拉車主相當(dāng)于特斯拉“免費(fèi)外包車隊(duì)”,幫助其采集路網(wǎng)等真實(shí)世界的數(shù)據(jù),隨著車輛的增加,獲取某個(gè)長尾場(chǎng)景數(shù)據(jù)的概率變得更高,從邏輯上講邊際成本更低;其次特斯拉數(shù)據(jù)-模型訓(xùn)練的正反饋機(jī)制也在推動(dòng)仿真能力的提升,進(jìn)一步降低數(shù)據(jù)獲取成本;質(zhì)量高:相較于手動(dòng)在2D圖像中標(biāo)注,自動(dòng)標(biāo)注工具在4D空間中標(biāo)注數(shù)據(jù)產(chǎn)生的質(zhì)量更高;其次安全校驗(yàn)及手動(dòng)標(biāo)注的工作也在持續(xù)提高數(shù)據(jù)質(zhì)量;多元性:銷量背后意味著用戶多元性,保證了數(shù)據(jù)集的差異性;特斯拉只關(guān)注有價(jià)值的數(shù)據(jù)信息,比如在行程過程中大量順利通過的道路數(shù)據(jù)對(duì)提高模型訓(xùn)練并不意義,可能還會(huì)產(chǎn)生一定回傳成本,特斯拉可能會(huì)直接丟棄;仿真能力使特斯拉具備主動(dòng)生產(chǎn)長尾數(shù)據(jù)的能力,從而補(bǔ)全數(shù)據(jù)種類。根據(jù)特斯拉2022AIDay上披露數(shù)據(jù),特斯拉將這些有價(jià)值數(shù)據(jù)按照?qǐng)鼍胺N類進(jìn)行存儲(chǔ),訓(xùn)練數(shù)據(jù)集達(dá)到23.2萬幀,驗(yàn)證數(shù)據(jù)集達(dá)到0.38萬幀。3.5.算力:自研芯片性能可期,投產(chǎn)Dojo應(yīng)對(duì)潛在增長需求處理如此龐大的數(shù)據(jù),強(qiáng)大的算力支撐也非常重要。在自動(dòng)駕駛方案中涉及云端與車端算力,其中云端算力主要用于訓(xùn)練大模型,包括感知、決策規(guī)劃及控制算法模塊,同時(shí)還需要訓(xùn)練離線大模型作為標(biāo)注數(shù)據(jù)的工具以及進(jìn)行仿真模擬訓(xùn)練,在訓(xùn)練模型時(shí)因?yàn)樾枰粩嗾{(diào)整參數(shù)導(dǎo)致算力的需求非常大,而且對(duì)于并行算力的要求會(huì)較高;車端模型是對(duì)已經(jīng)在云端完成訓(xùn)練的模型進(jìn)行部署,模型參數(shù)已經(jīng)固定,僅對(duì)攝像頭等傳感器采集的數(shù)據(jù)進(jìn)行運(yùn)算即可,對(duì)算力的消耗相對(duì)較小。特斯拉芯片從采購轉(zhuǎn)向自研,增強(qiáng)對(duì)硬件性能掌控力。在HW1.0時(shí)代,特斯拉采用了來自Mobileye的EyeQ系列芯片。進(jìn)入HW2.0時(shí)代,特斯拉找到了英偉達(dá)作為Mobileye的替代,采用定制版的英偉達(dá)DrivePX2自動(dòng)駕駛計(jì)算平臺(tái)(由1顆TegraParker芯片和1顆Pascal架構(gòu)GPU芯片構(gòu)成)。后來又升級(jí)為HW2.5,增加了一顆TegraParker芯片。但無論是Mobileye還是英偉達(dá),都無法滿足特斯拉對(duì)于性能、研發(fā)進(jìn)度、成本、功率方面的要求。而且隨著硬件量產(chǎn)出貨所推動(dòng)的算力需求增長,芯片供應(yīng)鏈安全對(duì)于特斯拉的重要性愈發(fā)凸顯,2016年前AMD首席架構(gòu)師JimKeller加入特斯拉,任職Autopilot硬件工程師總裁,特斯拉開始走上芯片自研之路。特斯拉2021年發(fā)布D1芯片及Dojo超級(jí)計(jì)算機(jī):1)D1芯片:制程工藝是7nm,由臺(tái)積電代工,設(shè)計(jì)參數(shù)為645平方毫米面積、500億個(gè)晶體管、11英里的內(nèi)部走線、400WTDP(ThermalDesignPower熱設(shè)計(jì)功耗,指正常工作環(huán)境的負(fù)載功耗),單顆芯片有354個(gè)節(jié)點(diǎn),實(shí)現(xiàn)了超強(qiáng)算力和超高帶寬;2)DOJOPOD云端機(jī)柜:每個(gè)Dojo都集成了120個(gè)訓(xùn)練模塊,單個(gè)訓(xùn)練模塊包含25個(gè)D1芯片內(nèi)置3000個(gè)D1芯片,擁有超過100萬個(gè)訓(xùn)練節(jié)點(diǎn),算力達(dá)到1.1EFLOP,相鄰芯片之間延遲較低,配合特斯拉自創(chuàng)高寬帶、低延遲的連接器,是世界上首屈一指的超級(jí)計(jì)算機(jī)。整體來看,特斯拉的芯片雖然距離英偉達(dá)仍有一定差距,但得益于自身業(yè)務(wù)體系對(duì)AI需求經(jīng)驗(yàn),其產(chǎn)品在AI訓(xùn)練應(yīng)用上仍極具競(jìng)爭(zhēng)力。云端算力占用率較高,2023年7月正式投產(chǎn)Dojo。特斯拉目前使用的是基于英偉達(dá)芯片的超算集群,相當(dāng)于14000塊A100的算力。根據(jù)特斯拉首席工程師TimZaman對(duì)外表示,他們的計(jì)算集群僅有0.3%的空閑時(shí)間,其中84%的時(shí)間都在處理高優(yōu)先級(jí)的任務(wù),因此急需更多計(jì)算資源。2023年7月特斯拉Dojo正式投產(chǎn),預(yù)計(jì)2024年10月特斯拉的算力總規(guī)模將達(dá)到dato投入資金規(guī)模為56億。在車端,以HW3.0提供144TOPs為主,預(yù)計(jì)未來將進(jìn)一步提高算力。特斯拉硬件體系至今迭代四版,從2019年發(fā)布的HW3.0使用的是特斯拉自研的FSD車端芯片,2019年上線的第一代FSD芯片由三星代工,制程為14nm,2023年已經(jīng)升級(jí)為7nm芯片。算力方面,單顆芯片72TOPs,2顆芯片算力共144TOPS。對(duì)比國內(nèi)自動(dòng)駕駛車企的算力芯片,目前較為主流的是NVIDIAOrin芯片,其單芯片算力已經(jīng)達(dá)到250TOPS,而且如果未來決策規(guī)劃模型化,可能占用更多的算力,因此硬件版本升級(jí)可能會(huì)給到更多的算力,來保證一定的硬件性能冗余以支持后續(xù)模型能力的迭代升級(jí)。4.人形機(jī)器人產(chǎn)業(yè)鏈4.1.Optimus:以FSD體系為基礎(chǔ),指向人形對(duì)軟硬件適配調(diào)整與自動(dòng)駕駛算法方案類似,智能機(jī)器人的軟硬件構(gòu)成上主要包括五大組成部分,分別是:感知系統(tǒng),包括攝像頭、麥克風(fēng)、距離感應(yīng)器、壓力感應(yīng)器等,產(chǎn)品較為成熟,需要解決精度等問題;運(yùn)算系統(tǒng)及其軟件:理解及感知環(huán)境、拆解任務(wù)和路徑規(guī)劃、執(zhí)行任務(wù),難度在于數(shù)據(jù)少、虛擬世界與物理世界存在適配問題;驅(qū)動(dòng)系統(tǒng):分為液壓驅(qū)動(dòng)、電機(jī)驅(qū)動(dòng)兩種,要求輕便、靈活、體積小,抗摔、耐撞等;末端執(zhí)行系統(tǒng):如關(guān)節(jié)執(zhí)行器,如諧波減速器、無框力矩電機(jī)等,難點(diǎn)在于控制抓握力度、靈活性等方面;能源供應(yīng)系統(tǒng):主要是電池供應(yīng)。依據(jù)上述的模塊,我們對(duì)特斯拉2022年AIDay及2023年投資者大會(huì)上公布的關(guān)于人形機(jī)器人Optimus的參數(shù)進(jìn)行匯總梳理如下:人形機(jī)器人重量為73kg,幾乎與成年人重量相當(dāng),在靜坐時(shí)的功率為100W,快走時(shí)的功耗為500W;能源供應(yīng)依靠電池,電池容量2.3kWh容量,支持52V電壓,內(nèi)置電子電氣元件的一體單元。Optimus的大腦由單塊FSDChip組成,若參照自動(dòng)駕駛HW3.0芯片則預(yù)計(jì)算力為72TOPS。在感知算法層面,人形機(jī)器人依賴于自動(dòng)駕駛FSD算法,也采用了純視覺感知方案,共配置有3顆攝像頭,分別是左右眼各一個(gè)以及一顆魚眼廣角,同樣也是提取圖像特征后進(jìn)行3D重建,對(duì)于空間中的物體通過占用網(wǎng)絡(luò)進(jìn)行識(shí)別輸出。對(duì)比自動(dòng)駕駛中占用網(wǎng)絡(luò),因?yàn)槭覂?nèi)環(huán)境小目標(biāo)比較多,我們可以看出機(jī)器人場(chǎng)景的單元格更加稠密。視覺導(dǎo)航方面:與車一樣,人形機(jī)器人也是基于關(guān)鍵點(diǎn)的視覺導(dǎo)航,但是不同于車在戶外有車道線,室內(nèi)沒有車道線,機(jī)器人對(duì)可通行空間也是通過矢量圖描述的。影子模式:與車類似,人形機(jī)器人也采用類似于影子模式的方法,一種模式是采集人在執(zhí)行操作時(shí)的發(fā)力大小、發(fā)力方向等信息,模擬人的執(zhí)行動(dòng)作;另一種方式是類似于比下方右圖,由工程師頭戴攝像頭將其所看到的桌面拍攝傳輸給機(jī)器人,其在仿真環(huán)境下做出動(dòng)作決策,與人的動(dòng)作進(jìn)行對(duì)比,從而獲得差異數(shù)據(jù)用于訓(xùn)練機(jī)器人模型更類人。運(yùn)動(dòng)控制:與自動(dòng)駕駛類似,人形機(jī)器人的規(guī)劃控制輸出也是雙足的運(yùn)動(dòng)軌跡,但不同點(diǎn)在于,機(jī)器人給出運(yùn)動(dòng)軌跡之后,還需要根據(jù)軌跡預(yù)測(cè)腳掌的落地位置。平衡控制:在波士頓動(dòng)力的雙足機(jī)器人中,推倒測(cè)試是常見的一種測(cè)試平衡的機(jī)制。類似地,特斯拉人形機(jī)器人也做了相關(guān)測(cè)試,以測(cè)試機(jī)器人對(duì)外界環(huán)境的躲避及運(yùn)動(dòng)平衡等。硬件方面,人形機(jī)器人做了諸多仿生設(shè)計(jì)及針對(duì)算法的優(yōu)化調(diào)整。TeslaBot基于特斯拉汽車的工程技術(shù),并且針對(duì)人形機(jī)器人做了針對(duì)性的調(diào)整,例如減少零部件的復(fù)雜度等。特斯拉在參考生物學(xué)結(jié)構(gòu)的同時(shí),還通過軟硬件配合的方式,讓機(jī)器人進(jìn)行多模態(tài)的學(xué)習(xí),對(duì)機(jī)械結(jié)構(gòu)進(jìn)行扭矩等力學(xué)方面的進(jìn)行微調(diào)。目前整個(gè)軀干擁有200+DoF自由度,手部自由度達(dá)到27DoF。靈巧手:2022年AIDay上公布的Optimus光手掌區(qū)域就用了6個(gè)驅(qū)動(dòng)執(zhí)行器,具有11檔的自由度,擁有自適應(yīng)的抓握角度、20磅(9公斤)負(fù)荷、工具使用能力、小物件精準(zhǔn)抓握能力等等。膝關(guān)節(jié):特斯拉希望Optimus的關(guān)節(jié)希望盡量復(fù)刻生物學(xué)上的非線性邏輯,也就是貼合膝關(guān)節(jié)直立到完全彎曲時(shí)的受力曲線。為此,Optimus的膝關(guān)節(jié)使用了類似于平面四桿機(jī)構(gòu)的設(shè)計(jì),最終發(fā)力效果會(huì)更接近人類。電機(jī)驅(qū)動(dòng):下圖橙色部分均為Optimus的電機(jī)驅(qū)動(dòng)器,相當(dāng)于人的“肌肉“,也都是特斯拉完全自研的??紤]到機(jī)器人運(yùn)動(dòng)的靈活度,Optimus具有較多的自由度,因此其單獨(dú)的電機(jī)數(shù)量遠(yuǎn)遠(yuǎn)超過車的電機(jī)。特斯拉希望盡可能地減少執(zhí)行器的種類,降低軟件標(biāo)定難度,因此特斯拉舉了28種人類常見活動(dòng),比如抬舉手臂、彎曲右膝等,通過分析這些活動(dòng)反饋的云數(shù)據(jù),找出各類運(yùn)動(dòng)的相對(duì)共同點(diǎn),然后就可以盡量減少專門設(shè)計(jì)執(zhí)行器的種類,基于以上原因最終設(shè)計(jì)了6種各自獨(dú)特的執(zhí)行器。4.2.建立在智能駕駛體系之上,人形機(jī)器人導(dǎo)入速度預(yù)計(jì)很快4.2.1.硬件架構(gòu)無須破舊立新,共享汽車零部件供應(yīng)體系在硬件本體上,人形機(jī)器人無須破舊再立新,可以直接采用中央式架構(gòu)。車的電子電器架構(gòu)經(jīng)歷了從分布式走向集中式的架構(gòu)。汽車作為百年工業(yè),已經(jīng)形成了非常標(biāo)準(zhǔn)的零部件體系,但是其是分布式架構(gòu),相當(dāng)于零部件的控制“各自為政”,但是到智能化階段,分布式架構(gòu)使信號(hào)傳輸有很多的問題,使模型計(jì)算的能力無法快速下達(dá)到執(zhí)行器,因此逐步走向集中式架構(gòu),特斯拉2012年開始交付ModelS,至2017年交付Model3才全面開啟電子電氣架構(gòu)的變革。不同于整車成熟的產(chǎn)品體現(xiàn),人形機(jī)器人是過去并不存在產(chǎn)品,無須破舊再立新,這使得特斯拉可以完全根據(jù)自身對(duì)產(chǎn)品的定義進(jìn)行零部件設(shè)計(jì)及選型,對(duì)產(chǎn)品的形態(tài)、研發(fā)量產(chǎn)節(jié)奏有了更強(qiáng)的掌控力。得益于汽車供應(yīng)鏈的積累及大規(guī)模零件的生產(chǎn)經(jīng)驗(yàn),特斯拉能夠?yàn)镺ptimus挑選盡可能保證成本、效率的原材料。根據(jù)我們對(duì)產(chǎn)業(yè)的調(diào)研,特斯拉在選擇人形機(jī)器人零部件的供應(yīng)商時(shí)會(huì)優(yōu)先選擇整車供應(yīng)商,因?yàn)楸舜司邆涓鷮?shí)的合作信任關(guān)系,而且在同種零部件上,由于車與機(jī)器人共用同一種零部件,會(huì)因?yàn)榱悴考慨a(chǎn)規(guī)模的上升而帶來硬件成本的下降。三花智控系特斯拉整車供應(yīng)商,根據(jù)公司公告,公司已經(jīng)在對(duì)機(jī)器人機(jī)電執(zhí)行器方面展開持續(xù)研究和產(chǎn)品開發(fā)工作。4.2.2.與智能汽車本質(zhì)均為智能交互硬件,復(fù)用算法模型及數(shù)據(jù)體系人形機(jī)器人與智能汽車本質(zhì)上都是具備實(shí)時(shí)感知能力的智能交互硬件,可以直接復(fù)用自動(dòng)駕駛模型及數(shù)據(jù)體系。我們認(rèn)為自動(dòng)駕駛為人形機(jī)器人搭好了“場(chǎng)”,人形機(jī)器人可以復(fù)用的部分包括:1)感知模塊的4D重建、占用網(wǎng)絡(luò);2)數(shù)據(jù)及自動(dòng)標(biāo)注工具;3)仿真模擬環(huán)境;4)共享強(qiáng)大的云端算力設(shè)施及芯片能力。在以上可復(fù)用的部分,只需要針對(duì)人形機(jī)器人場(chǎng)景采集相應(yīng)的數(shù)據(jù)訓(xùn)練即可,不存在技術(shù)性的難度,難度在于工作量的積累。兩款產(chǎn)品的不同是因?yàn)樗幍膱?chǎng)景及面對(duì)的任務(wù)不同導(dǎo)致規(guī)控體系差異,特別是機(jī)器人高達(dá)200多個(gè)自由度導(dǎo)致其規(guī)控更加復(fù)雜,但是自動(dòng)駕駛所積累的工作是地基,0-1的工作很難,而扎實(shí)的基礎(chǔ)將使1-10的工作加速迭代。根據(jù)2023年股東大會(huì)上馬斯克透露信息,特斯拉已經(jīng)打通了FSD和機(jī)器人的底層模塊,實(shí)現(xiàn)了一定程度的算法復(fù)用。自動(dòng)駕駛積累的工程化經(jīng)驗(yàn)有利于加速機(jī)器人正向研發(fā)。自動(dòng)駕駛方案使特斯拉已經(jīng)積累了智能硬件開發(fā)中所需要的“發(fā)現(xiàn)問題、采集數(shù)據(jù)、標(biāo)注數(shù)據(jù)、訓(xùn)練模型、解決問題”的工程化經(jīng)驗(yàn),能夠加速機(jī)器人正向研發(fā)過程。體現(xiàn)在:1)如前文所述的九頭網(wǎng)絡(luò)架構(gòu),在一定程度上,人形機(jī)器人與自動(dòng)駕駛可以共用感知的backbone,所處理的任務(wù)主要體現(xiàn)在neck、head層的差異,而在處理塵霧等場(chǎng)景時(shí)積累的經(jīng)驗(yàn)?zāi)軌驇椭鷻C(jī)器人迭代;2)在規(guī)控、安全性等方面,兩款硬件也具備一定的借鑒經(jīng)驗(yàn),比如基于汽車的碰撞模擬軟件,能夠?yàn)镺ptimus編寫跌倒測(cè)試軟件。4.2.3.大模型加速智能駕駛方案迭代,機(jī)器人大模型領(lǐng)域成果頻出以ChatGPT、AIGC為代表的大模型熱潮對(duì)自動(dòng)駕駛行業(yè)掀起了新一輪變革。馬斯克此前在社交網(wǎng)絡(luò)稱將推出FSDv12.0端到端版本,并于近日透露團(tuán)隊(duì)已經(jīng)在對(duì)規(guī)控模塊進(jìn)行AI化,其是完全自動(dòng)駕駛的最后一塊拼圖,一旦完成,將推動(dòng)自動(dòng)駕駛方案迎來下一階段的質(zhì)的飛躍。得益于大模型能力,國內(nèi)車企也在積極推動(dòng)BEV+Transformer這套無圖方案在量產(chǎn)車上的落地,并給出了無圖方案擴(kuò)城的規(guī)劃,比如小鵬提出XNGP將在下半年拓展到全國50城??梢灶A(yù)見。自動(dòng)駕駛方案的突破將大大推動(dòng)人形機(jī)器人方案的實(shí)現(xiàn)。以李飛飛具身智能研究、谷歌RT-2為代表,機(jī)器人大模型領(lǐng)域成果頻出。李飛飛團(tuán)隊(duì)研究實(shí)現(xiàn)了零樣本的日常操作任務(wù)軌跡合成,也就是機(jī)器人從沒見過的任務(wù)也能一次執(zhí)行,連給他做個(gè)示范都不需要??刹僮鞯奈矬w也是開放的,不用事先劃定范圍,開瓶子、按開關(guān)、拔充電線都能完成。7月29日,紐約時(shí)報(bào)記者在谷歌實(shí)驗(yàn)室看到新推出的Rt-2模型驅(qū)動(dòng)的機(jī)器人,桌子上放著獅子、鯨魚和恐龍三個(gè)塑料雕像,當(dāng)工程師給機(jī)器人發(fā)出指令“撿起滅絕的動(dòng)物”,機(jī)器人抓起了恐龍。以上的突破主要來自于語言大模型的助力,具體來看體現(xiàn)在:增強(qiáng)對(duì)于環(huán)境感知的能力首先,語言大模型能夠幫助機(jī)器人更好的理解人類指令。在大模型時(shí)代到來之前,人們訓(xùn)練機(jī)器人,通常針對(duì)每個(gè)任務(wù)進(jìn)行優(yōu)化,比如抓取某種玩具,需要足量的數(shù)據(jù),機(jī)器人才能準(zhǔn)確地從各個(gè)角度、各個(gè)光線下識(shí)別這種玩具,抓取成功。而讓機(jī)器人意識(shí)到自己有抓取玩具的任務(wù),也需要對(duì)機(jī)器人進(jìn)行編程才能解決。其次,基于語義理解物體,人形機(jī)器人面臨更多開放的場(chǎng)景,涉及到不同的物體,如果只依賴于數(shù)據(jù)標(biāo)注的方式識(shí)別物體效率較低,能基于語義對(duì)應(yīng)該物體的屬性、特征,能夠提高對(duì)環(huán)境感知的效率,快速做出決策。比如,為了更準(zhǔn)確高效應(yīng)對(duì)車道線,特斯拉借用語言模型編寫了一套車道語義拓?fù)鋱D,對(duì)于車道線的連通性,用一個(gè)時(shí)序模型建模(自然語言模型)將整個(gè)路口用若干格子表示;自車在起始點(diǎn)坐標(biāo)為其賦任務(wù)指示token‘start’,路標(biāo)檢測(cè)信息、移動(dòng)軌跡矩陣作為特征,將不同路口間的連接關(guān)系儲(chǔ)存為節(jié)點(diǎn)的配對(duì),從而建立語義網(wǎng)絡(luò)。多模態(tài)對(duì)齊推動(dòng)端到端方案落地加速自動(dòng)駕駛與人形機(jī)器人方案端到端的實(shí)現(xiàn)?;谇笆鼋榻B,我們把“感知、決策規(guī)劃、運(yùn)動(dòng)控制”劃分為三個(gè)相對(duì)獨(dú)立的模塊,前者的輸出作為后者的輸入,依次完成操作,但是參考人在開車時(shí)的模式,我們看到外界環(huán)境做出反應(yīng)時(shí)并不會(huì)反映靜態(tài)路網(wǎng)、運(yùn)動(dòng)軌跡,而是直接輸出轉(zhuǎn)方向盤,加速或者減速的操作,其本質(zhì)是三個(gè)相對(duì)獨(dú)立的模塊融合成為一整個(gè)大模型,我們認(rèn)為它其實(shí)也體現(xiàn)了不同模態(tài)數(shù)據(jù)的對(duì)齊。我們認(rèn)為特斯拉提出的端到端的方案是本質(zhì)上就是在完成視覺圖像輸入到方向盤轉(zhuǎn)向及加減速之間的對(duì)齊。類似的,谷歌的RT-2模型本質(zhì)上實(shí)現(xiàn)“語言-視覺-動(dòng)作”三個(gè)模態(tài)的對(duì)齊。谷歌RT-1是個(gè)視覺-語言模型(VLMs),實(shí)現(xiàn)的功能是將一個(gè)或多個(gè)圖像作為輸入,并生成一系列通常表示自然語言文本的標(biāo)記。而RT-2通過將VLM預(yù)訓(xùn)練與機(jī)器人數(shù)據(jù)相結(jié)合,直接控制機(jī)器人,形成強(qiáng)大的視覺-語言-動(dòng)作(VLA)模型,使機(jī)器人可以進(jìn)行推理、問題解決并解釋信息,以在真實(shí)世界中執(zhí)行各種任務(wù),其或?qū)⒊蔀闃?gòu)建通用機(jī)器人的一把鑰匙。因此,綜合上述軟硬件的積累及優(yōu)勢(shì),我們認(rèn)為人形機(jī)器人的產(chǎn)業(yè)鏈導(dǎo)入速度可能會(huì)比此前自動(dòng)駕駛的產(chǎn)業(yè)導(dǎo)入速度更快。4.3.開放場(chǎng)景人形機(jī)器人相較于自動(dòng)駕駛面對(duì)更多挑戰(zhàn)4.3.1.特斯拉缺乏語言大模型能力,需要補(bǔ)齊語料數(shù)據(jù)如前所述,李飛飛具身智能、谷歌RT-2的成果依賴于語言大模型的推動(dòng),包括理解人機(jī)交互指令,以及基于語義理解識(shí)別家庭場(chǎng)景中種類繁多的物體,還需要對(duì)不同物體背后的功能、重量、硬度等屬性進(jìn)行了解,才能做出決策規(guī)劃,比如是否需要避障等。而語言大模型的訓(xùn)練需要大規(guī)模的語料數(shù)據(jù),谷歌得益于搜索引擎積累了大量優(yōu)質(zhì)的語料數(shù)據(jù),而特斯拉在過去缺乏相關(guān)語料資源的積累,因此仍需要一定的時(shí)間對(duì)其進(jìn)行補(bǔ)充。我們認(rèn)為特斯拉收購Twitter的原因與之有關(guān),將獲得大量的語料數(shù)據(jù)幫助提升人形機(jī)器人的能力。4.3.2.人形機(jī)器人運(yùn)動(dòng)控制具有極大難度首先,機(jī)器人200多個(gè)自由度,規(guī)劃求解可能會(huì)導(dǎo)致計(jì)算量暴增。根據(jù)莫拉維克悖論,對(duì)計(jì)算機(jī)而言實(shí)現(xiàn)邏輯推理等人類高級(jí)智慧只需要相對(duì)很少的計(jì)算能力,而實(shí)現(xiàn)感知、運(yùn)動(dòng)等低等級(jí)智慧卻需要巨大的計(jì)算資源,其背后的原因是求解難度非常大。我們?cè)谇懊娼榻B自動(dòng)駕駛決策控制時(shí)解釋了車的算法是高維的非凸問題,其實(shí)車上只有6個(gè)自由度,分別是表示位置坐標(biāo)的x、y、z、時(shí)間t、速度、加速度,而人形機(jī)器人所對(duì)應(yīng)的機(jī)械原理會(huì)更加復(fù)雜和精細(xì),全身有200多個(gè)自由度,這意味著在優(yōu)化求解時(shí)計(jì)算量將暴增。而且機(jī)器人在更開放的場(chǎng)域,可能面對(duì)更強(qiáng)的安全約束條件,所以如何在計(jì)算時(shí)能夠使其收斂至最優(yōu)解也會(huì)面臨較多的挑戰(zhàn)。假設(shè)決策規(guī)劃通過模型化實(shí)現(xiàn),我們認(rèn)為如果采用影子模式進(jìn)行模型訓(xùn)練,則還需要進(jìn)行人體運(yùn)動(dòng)控制的數(shù)據(jù),比如握力方向、握力大小等,因此為了訓(xùn)練人形機(jī)器人達(dá)到更加類人的效果,特斯拉還需要做大量的數(shù)據(jù)采集工作或者在仿真環(huán)境下進(jìn)行模擬仿真。第二,靈活性要求動(dòng)態(tài)計(jì)算,對(duì)軟硬件響應(yīng)速度及配合提出較高要求。人形機(jī)器人如果想要達(dá)到人類操作的靈活性,所需要做出的運(yùn)動(dòng)控制都是實(shí)時(shí)且連續(xù)的,這就意味著在極短的時(shí)間內(nèi)發(fā)生了位移,就需要感知算法在動(dòng)態(tài)的情況下進(jìn)行連續(xù)計(jì)算,計(jì)算時(shí)間差縮短對(duì)硬件的靈敏度、軟件計(jì)算速度都提出很高的要求。第三,硬件降本產(chǎn)生的零部件調(diào)整,與軟件算法穩(wěn)定性之間存在平衡。2022年AIday上馬斯克提出人形機(jī)器人未來的售價(jià)將為2萬美金,我們預(yù)計(jì)仍需要一段時(shí)間完成硬件的降本,因此目前部分結(jié)構(gòu)件仍處于正向研發(fā)階段,以保證達(dá)到降本的需求。但由于軟硬件方案是相互耦合的,硬件降本導(dǎo)致零部件方案變化,會(huì)導(dǎo)致人形機(jī)器人算法跟著調(diào)整,影響軟件方案的開發(fā)節(jié)奏;其次,由于軟件算法與硬件的穩(wěn)定性與精度有很高的要求,這在一定程度上會(huì)推高硬件成本,因此研發(fā)的過程就需要不斷在算法穩(wěn)定性與硬件降本間進(jìn)行平衡,對(duì)工程師團(tuán)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 杭州市人力資源社保局勞動(dòng)合同
- 天津市貫徹勞動(dòng)合同法若干問題實(shí)施細(xì)則
- 《場(chǎng)景演練案例集》課件
- 2025年淄博道路運(yùn)輸從業(yè)資格證考試模擬試題
- 2025年迪慶道路運(yùn)輸從業(yè)人員資格考試內(nèi)容有哪些
- 2025年贛州貨運(yùn)上崗證考試題庫
- 2025年貨運(yùn)從業(yè)資格題庫軟件下載
- 礦山開采灰工施工合同
- 實(shí)習(xí)律師的領(lǐng)導(dǎo)力培養(yǎng)
- 企業(yè)合同印章管理規(guī)范
- 中醫(yī)思維在臨床中的應(yīng)用護(hù)理課件
- 生產(chǎn)與運(yùn)作管理第三版課后習(xí)題含答案版
- 高頻考點(diǎn)之評(píng)價(jià)與文本互證考題專練-2024年高考語文二輪復(fù)習(xí)三點(diǎn)突破講解專練
- 年會(huì)拜年祝福視頻腳本
- 蘇教版五年級(jí)數(shù)學(xué)上冊(cè)期末復(fù)習(xí)課件
- 上海交通大學(xué)2003年481物理化學(xué)考研真題
- 公司財(cái)務(wù)預(yù)算報(bào)告
- 金橋焊材產(chǎn)品質(zhì)量證明書-可-編-輯
- 國家一等獎(jiǎng)《紀(jì)念劉和珍君》教學(xué)設(shè)計(jì)
- 2023年醫(yī)療機(jī)構(gòu)消毒技術(shù)規(guī)范
- 小學(xué)生主題班會(huì) 憶偉人故事展少年風(fēng)采-紀(jì)念偉大領(lǐng)袖毛主席誕辰130周年 課件(共33張PPT內(nèi)嵌視頻)
評(píng)論
0/150
提交評(píng)論