汽車與零部件行業(yè)市場(chǎng)前景及投資研究報(bào)告:AI+汽車智能化智能駕駛算法頭部玩家領(lǐng)跑_第1頁
汽車與零部件行業(yè)市場(chǎng)前景及投資研究報(bào)告:AI+汽車智能化智能駕駛算法頭部玩家領(lǐng)跑_第2頁
汽車與零部件行業(yè)市場(chǎng)前景及投資研究報(bào)告:AI+汽車智能化智能駕駛算法頭部玩家領(lǐng)跑_第3頁
汽車與零部件行業(yè)市場(chǎng)前景及投資研究報(bào)告:AI+汽車智能化智能駕駛算法頭部玩家領(lǐng)跑_第4頁
汽車與零部件行業(yè)市場(chǎng)前景及投資研究報(bào)告:AI+汽車智能化智能駕駛算法頭部玩家領(lǐng)跑_第5頁
已閱讀5頁,還剩47頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

證券研究報(bào)告·

行業(yè)研究·

汽車與零部件AI+汽車智能化系列之五——智駕算法步入深水區(qū),頭部玩家有望持續(xù)領(lǐng)跑2024年5月31日核心結(jié)論?

何謂“大模型”?大數(shù)據(jù)喂養(yǎng)神經(jīng)網(wǎng)絡(luò)算法,設(shè)定規(guī)則機(jī)制使其自成長(zhǎng)。1)多模態(tài)數(shù)據(jù)是基礎(chǔ),包括文本/圖像/音頻/視頻等在內(nèi)的多類型數(shù)據(jù)喂養(yǎng),驅(qū)動(dòng)算法更好完成理解/生成等任務(wù)。2)Transformer是核心,Self-Attention機(jī)制強(qiáng)化算法抽象特征提取能力,并支持并行計(jì)算,高能且高效,衍生ViT/DiT支持多模態(tài)數(shù)據(jù)理解/生成。3)ChatGPT及Sora為代表應(yīng)用,在大參數(shù)加持下,開發(fā)多模態(tài)自然語言處理以及文生視頻等功能。4)世界模型為未來方向,算法能力由數(shù)據(jù)驅(qū)動(dòng)演變?yōu)檎J(rèn)知驅(qū)動(dòng),模型具備反事實(shí)推理和理解物理客觀規(guī)律的能力,提升通用泛化特性。?

大模型重塑車端算法架構(gòu),加速云端算法迭代;世界模型或?yàn)橥耆詣?dòng)駕駛最優(yōu)解。智駕一階段(L2~L3)脫胎換骨:由場(chǎng)景驅(qū)動(dòng)轉(zhuǎn)向數(shù)據(jù)驅(qū)動(dòng),大模型帶來底層架構(gòu)質(zhì)變;智駕二階段(L3~L4)厚積薄發(fā):由數(shù)據(jù)驅(qū)動(dòng)轉(zhuǎn)向認(rèn)知驅(qū)動(dòng),數(shù)據(jù)和算力逐步累計(jì)驅(qū)動(dòng)能力提升,量變引起質(zhì)變。1)車端:上層感知/規(guī)控應(yīng)用層算法隨功能需求提升持續(xù)進(jìn)化,“場(chǎng)景理解處理能力泛化”是核心訴求。L2~L3,感知端為升級(jí)核心,Transformer加持BEV+占用網(wǎng)絡(luò)算法落地感知端到端,解決長(zhǎng)尾場(chǎng)景識(shí)別難題;L3~L4以規(guī)控算法升級(jí)為核心,精準(zhǔn)識(shí)別并快速處理,Learning-base逐步取代Rule-base,端到端拉高場(chǎng)景處理能力的天花板。2)云端:數(shù)據(jù)閉環(huán)為前提,加速大數(shù)據(jù)有效利用,采集/標(biāo)注/仿真/訓(xùn)練/部署一體化。Transformer賦能自動(dòng)標(biāo)注,數(shù)據(jù)驅(qū)動(dòng)場(chǎng)景仿真泛化,降低對(duì)有限的實(shí)際路測(cè)數(shù)據(jù)的依賴。3)世界模型【通用具身智能】或?yàn)樽詣?dòng)駕駛最優(yōu)解。車端場(chǎng)景生成泛化,將自動(dòng)駕駛問題轉(zhuǎn)化為預(yù)測(cè)視頻的下一幀,類人模式處理,實(shí)現(xiàn)泛化至數(shù)據(jù)場(chǎng)景以外的能力;并可快速生成標(biāo)準(zhǔn)化仿真數(shù)據(jù),結(jié)合大算力加速云端訓(xùn)練。?

算法實(shí)現(xiàn)高壁壘+數(shù)據(jù)閉環(huán)硬要求,未來智駕算法產(chǎn)業(yè)格局趨于集中化。當(dāng)前下游L3+高階算法方案以O(shè)EM自研為主,以“算法賦能,數(shù)據(jù)回傳”的形式深度綁定OEM;L3以下算法呈現(xiàn)OEM+獨(dú)立算法商+硬件商三足鼎立格局。我們認(rèn)為,考慮高階智駕功能的提升對(duì)于算法能力/組織架構(gòu)/超算中心/完整數(shù)據(jù)鏈等的要求,未來“掌握硬件的基礎(chǔ)上去發(fā)展軟件”或?yàn)橹髁鳎凑莆毡趬咀罡叩挠布酒惶峁┬詢r(jià)比最高的硬件——傳感器;掌握粘性最強(qiáng)的硬件——整車。2核心結(jié)論?

投資建議:汽車AI智能化轉(zhuǎn)型大勢(shì)所趨,算法為主干,看好頭部算法玩家持續(xù)領(lǐng)先鑄就高壁壘。?

全行業(yè)加速智能化轉(zhuǎn)型,產(chǎn)業(yè)趨勢(shì)明確。下游OEM玩家+中游Tier供應(yīng)商均加大對(duì)汽車智能化投入,大勢(shì)所趨;智駕核心環(huán)節(jié)【軟件+硬件+數(shù)據(jù)】均圍繞下游OEM展開,數(shù)據(jù)催化算法提效進(jìn)而驅(qū)動(dòng)硬件迭代。以特斯拉為代表,應(yīng)用算法向全棧端到端-世界模型持續(xù)迭代,功能落地兌現(xiàn)。?

OEM整車廠商&核心芯片硬件廠商&智駕傳感器廠商&獨(dú)立算法商加速布局端到端算法開發(fā),場(chǎng)景驅(qū)動(dòng)-數(shù)據(jù)驅(qū)動(dòng)-認(rèn)知驅(qū)動(dòng)持續(xù)進(jìn)化;智駕算法產(chǎn)業(yè)發(fā)展進(jìn)入深水區(qū),高投入賦能【大算力+大數(shù)據(jù)】,方能走通L3有條件自動(dòng)駕駛至L4完全自動(dòng)駕駛之路。?

看好智駕頭部車企以及智能化增量零部件:1)系玩家【長(zhǎng)安汽車+賽力斯+江淮汽車】,關(guān)注【北汽藍(lán)谷】;2)頭部新勢(shì)力【小鵬汽車+理想汽車】;3)加速轉(zhuǎn)型【吉利汽車+上汽集團(tuán)+長(zhǎng)城汽車+廣汽集團(tuán)】;4)智能化核心增量零部件:域控制器(德賽西威+經(jīng)緯恒潤(rùn)+華陽集團(tuán)+均勝電子等)+線控底盤(伯特利+耐世特+拓普集團(tuán)等)。?

風(fēng)險(xiǎn)提示:智能駕駛相關(guān)技術(shù)迭代/產(chǎn)業(yè)政策出臺(tái)低于預(yù)期;/小鵬等車企新車銷量低于預(yù)期。3目錄一、何謂“大模型”?二、車端:大模型重塑智駕算法架構(gòu)三、云端:大模型加速智駕算法迭代四、當(dāng)前產(chǎn)業(yè)玩家的智駕算法能力如何?五、投資建議與風(fēng)險(xiǎn)提示一、何謂“大模型”?機(jī)器學(xué)習(xí):以設(shè)定規(guī)則+數(shù)據(jù)喂養(yǎng)驅(qū)動(dòng)算法自成長(zhǎng)圖:機(jī)器學(xué)習(xí)?

機(jī)器學(xué)習(xí)>神經(jīng)網(wǎng)絡(luò)>深度學(xué)習(xí)≈深度神經(jīng)網(wǎng)絡(luò)。機(jī)器學(xué)習(xí)用于解決由人工基于

if-else

等規(guī)則開發(fā)算法而導(dǎo)致成本過高的問題,想要通過幫助機(jī)器

“發(fā)現(xiàn)”

它們

“自己”解決問題的算法來解決;機(jī)器學(xué)習(xí)可以分為有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等三類。?

深度學(xué)習(xí)是基于深度神經(jīng)網(wǎng)絡(luò)的,而神經(jīng)網(wǎng)絡(luò)算法是機(jī)器學(xué)習(xí)模型的一

個(gè)

,

經(jīng)

網(wǎng)

絡(luò)CNN/循環(huán)神經(jīng)網(wǎng)絡(luò)RNN等等,自注意力機(jī)制(Transformer)則是基于全連接神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的衍生。?

深度學(xué)習(xí)使用多層神經(jīng)網(wǎng)絡(luò),從原始輸入中逐步提取更高層次更抽象的特征用于后續(xù)算法識(shí)別,處理大規(guī)模數(shù)據(jù)是其核心優(yōu)勢(shì)。當(dāng)前,深度學(xué)習(xí)已經(jīng)應(yīng)用到包括圖像識(shí)別、自然語言處理、語音識(shí)別等各領(lǐng)域。數(shù)據(jù):IBM官網(wǎng),東吳證券研究所6大模型:大規(guī)模參數(shù)賦能神經(jīng)網(wǎng)絡(luò),持續(xù)優(yōu)化?

AI大模型是指具有超大規(guī)模參數(shù)(通常在十億個(gè)以上)、超強(qiáng)計(jì)算資源的機(jī)器學(xué)習(xí)模型,其目標(biāo)是通過增加模型的參數(shù)數(shù)量來提高模型的表現(xiàn)能力,它們能夠處理海量數(shù)據(jù),完成各種復(fù)雜任務(wù)。AI大模型的原理是基于神經(jīng)網(wǎng)絡(luò)和大量數(shù)據(jù)的訓(xùn)練,模型通過模擬人腦的神經(jīng)元結(jié)構(gòu),對(duì)輸入數(shù)據(jù)進(jìn)行多層抽象和處理,從而實(shí)現(xiàn)對(duì)復(fù)雜任務(wù)的學(xué)習(xí)和預(yù)測(cè)。AI大模型的訓(xùn)練主要分為:數(shù)據(jù)預(yù)處理、模型構(gòu)建、橫型訓(xùn)練、模型評(píng)估等幾大步驟,如下:圖:AI算法訓(xùn)練數(shù)

據(jù)

預(yù)

理2構(gòu)

經(jīng)

網(wǎng)

絡(luò)32

播1接下來,根據(jù)

務(wù)

求首先,需要對(duì)

數(shù)將經(jīng)過預(yù)處理

數(shù),設(shè)計(jì)并搭建

個(gè)神

經(jīng)

網(wǎng)

絡(luò)。神經(jīng)網(wǎng)絡(luò)通

由多

個(gè)

次組成,每個(gè)層

包含

個(gè)神經(jīng)元。神經(jīng)

之間

權(quán)重連接,用于

示輸

數(shù)

據(jù)與輸出數(shù)據(jù)之

的關(guān)

。激

數(shù)4據(jù)進(jìn)行清洗、

理和

標(biāo)

注,以便為模型

供合

的輸入。這一階

可能

括去除噪聲、填

缺失

、歸一化等操作

。據(jù)輸入到神經(jīng)

網(wǎng)

絡(luò)中

,按照權(quán)重計(jì)算

出各

層神經(jīng)元的輸出

。

這個(gè)

過程稱為前向傳

。在神經(jīng)網(wǎng)絡(luò)的

后,通常會(huì)使用

活函

數(shù)

(如ReLU、Sigmoid或Tanh等)對(duì)輸出進(jìn)行

線性

以增加模型的表

達(dá)

能力

。損

數(shù)5根據(jù)損失函數(shù)

,

擇合適的優(yōu)化算

(如

橫型在訓(xùn)練集

達(dá)到

滿

性降、隨機(jī)梯度

降、

能。為了防止

擬合

,

要Adam等)來

經(jīng)

網(wǎng)絡(luò)

在驗(yàn)證集上評(píng)

模型

能重復(fù)執(zhí)行上述

驟,

到為了衡量模型

預(yù)

測(cè)

結(jié)果與真實(shí)目標(biāo)

間的

距,需要定義一

個(gè)

損失

數(shù)。損失函數(shù)會(huì)

計(jì)

算預(yù)

測(cè)

誤差,并將其作

優(yōu)化

標(biāo)。常見的損失

數(shù)有

方誤差(MSE)、

叉熵

損失(Cross-EntropyLoss)等。當(dāng)模型在訓(xùn)練集和驗(yàn)證集上

現(xiàn)良好時(shí),可以

數(shù)據(jù)模型進(jìn)行部

和使用。中的權(quán)重和偏

,以

小損失函數(shù)的值

。

這個(gè)

程稱為反向傳播

。力。如果發(fā)現(xiàn)

型在

驗(yàn)

上的表現(xiàn)不佳,

以調(diào)

網(wǎng)

絡(luò)

結(jié)構(gòu)、超參數(shù)或

訓(xùn)

練策

。八

個(gè)

驟優(yōu)

法訓(xùn)

驗(yàn)

證部

使

用678數(shù)據(jù):CSDN,東吳證券研究所繪制7大模型:強(qiáng)泛化為核心優(yōu)勢(shì),聚焦自然語言處理?

AI大模型能夠處理以下幾類核心問題:1)自然語言處理:以GPT-3和BERT為例,

AI大模型通過學(xué)習(xí)海量的語料庫和上下文,讓計(jì)算機(jī)更加準(zhǔn)確地理解和處理自然語言,如翻譯、問答、分詞、文本生成等領(lǐng)域。2)計(jì)算機(jī)視覺:以ResNet和EficientNet為例,AI大模型通過學(xué)習(xí)大量的圖像數(shù)據(jù)和構(gòu)建更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò),使計(jì)算機(jī)能夠?qū)D像進(jìn)行更加準(zhǔn)確的識(shí)別和分析,包括目標(biāo)檢測(cè)、圖像分類、語義分割等領(lǐng)域。3)語音識(shí)別和生成。通過以上幾類問題的解決,AI大模型可以進(jìn)一步通過自動(dòng)化和智能化的方式提高生產(chǎn)效率,在部分工業(yè)領(lǐng)域可以實(shí)現(xiàn)人機(jī)合作或自動(dòng)化,減少人力成本。圖:AI大模型的優(yōu)劣勢(shì)分析優(yōu)

點(diǎn)1

.

準(zhǔn)

:

A

I

數(shù)

處理

復(fù)

了精

準(zhǔn)

。2

.

:

A

I

學(xué)習(xí)

,

訓(xùn)

數(shù)

據(jù)

,

人工

性3

.

:

A

I

應(yīng)

的工

環(huán)

應(yīng)

言、

數(shù)

據(jù)

。4

.

:

A

I

計(jì)

式訓(xùn)

計(jì)

時(shí)

內(nèi)處

數(shù)

據(jù)

。數(shù)據(jù):CSDN,東吳證券研究所8Transformer:架構(gòu)變化的核心,多模態(tài)理解的關(guān)鍵?

Transformer是本輪大模型顛覆全行業(yè)算法架構(gòu)的核心,也是多模態(tài)模型相比之前單一文本理解模型提升的關(guān)鍵,Transformer賦予算法更精準(zhǔn)的特征提取能力,強(qiáng)化理解和識(shí)別功能,其獨(dú)特的自注意力機(jī)制是靈魂,即Attention

isall

you

need。?

Transformer的優(yōu)勢(shì)在于:1)自注意力機(jī)制賦予的長(zhǎng)依賴語義問題(捕捉間隔較遠(yuǎn)的詞之間的語義聯(lián)系問題);2)支持并行計(jì)算,可極大的提升大模型數(shù)據(jù)處理效率。圖:Transformer的原理機(jī)制自注意力機(jī)制:查詢/定位,賦予權(quán)重(即注意力),多頭即多個(gè)維度計(jì)算相似度特征,保證充分性。優(yōu)勢(shì):自注意力機(jī)制不同于RNN,無主次先后,可支持并行計(jì)算,同時(shí)利用位置編碼和權(quán)重賦予進(jìn)行定位和篩選。?

input

embedding是編碼器的輸入,?

output

embedding是解碼器的輸入?

PositionalEncoding代表位置編碼,記住順序?

Encoder和Decoder分別有6層(blocks),

Encoder負(fù)責(zé)特征提取,

Decoder則利用特征來完成識(shí)別、分類、回歸等任務(wù)?

解碼后輸出結(jié)果數(shù)據(jù):CSDN,東吳證券研究所9多模態(tài)大模型:多類別數(shù)據(jù)輸入,算法不斷進(jìn)化?

由理解內(nèi)容至生成內(nèi)容,多模態(tài)大語言模型持續(xù)進(jìn)化。多模態(tài)模型是一種能夠處理多種類型數(shù)據(jù)(如文本、圖像、音頻和視頻)的人工智能模型。這種模型的目標(biāo)是通過結(jié)合不同類型的數(shù)據(jù)來提供更全面、更準(zhǔn)確的信息。在自然語言處理(NLP)領(lǐng)域,多模態(tài)模型可以用于機(jī)器翻譯、情感分析、文本摘要等任務(wù)。在計(jì)算機(jī)視覺領(lǐng)域,多模態(tài)模型可以用于圖像分類、目標(biāo)檢測(cè)、人臉識(shí)別等任務(wù)。多模態(tài)大語言(MM-LLMs)即是將多模態(tài)模型與具備強(qiáng)大推理和生成能力的大語言模型結(jié)合的產(chǎn)物,其難點(diǎn)在于如何對(duì)齊本不兼容的圖像/視頻/文本等的編碼器。圖:多模態(tài)大模型以Transformer為基礎(chǔ),并行高效處理大規(guī)模參數(shù)落地為Sora數(shù)據(jù):CSDN,東吳證券研究所10算法框架:ViT為核心,多模態(tài)融合生成任務(wù)?

視覺表征主框架由CNN切換Transformer,即ViT,其多頭自注意力機(jī)制賦予模型并行高效計(jì)算以及把握前后長(zhǎng)時(shí)間依賴關(guān)系的能力,能夠同時(shí)接收來自文本/圖像/音頻/視頻的特征Token,并接入全鏈接層服務(wù)于下游的分類任務(wù)。ViT成功的秘訣在于大量的數(shù)據(jù)做預(yù)訓(xùn)練,如果沒有這個(gè)過程,在開源任務(wù)上直接訓(xùn)練,其效果仍會(huì)遜色于具有更強(qiáng)歸納偏置的CNN網(wǎng)絡(luò)。?

ViT步驟分為三大步:?

Patch

Embedding

PositionEmbedding;?

特征提取Class

Token;注意力權(quán)重賦予TransformerEncoder;?

多頭輸出MLP

Head。數(shù)據(jù):CSDN,東吳證券研究所11CHAT

GPT橫空出世,持續(xù)進(jìn)化引領(lǐng)AIGC浪潮?

GPT1:用Transformer的解碼器和大量的無標(biāo)簽樣本去預(yù)訓(xùn)練一個(gè)語言模型,然后在子任務(wù)上提供少量的標(biāo)注樣本做微調(diào),就可以很大的提高模型的性能。?

GPT2:

Zero-shot,在子任務(wù)上不去提供任何相關(guān)的訓(xùn)練樣本,而是直接用足夠大的預(yù)訓(xùn)練模型去理解自然語言表達(dá)的要求,并基于此做預(yù)測(cè)。但GPT2性能差,有效性低。?

GPT3:few-shot

learning,兼顧少樣本和有效性。用有限的樣本,模型可以迅速學(xué)會(huì)任務(wù)。?

GPT4:GPT1~3本質(zhì)還是通過海量的參數(shù)學(xué)習(xí)海量的數(shù)據(jù),然后依賴transformer強(qiáng)大的擬合能力使得模型能夠收斂,因此不具備文本生成能力。

ChatGPT則在此基礎(chǔ)上,依賴指令學(xué)習(xí)(Instruction

Learning)和人工反饋強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)行訓(xùn)練,對(duì)原有模型進(jìn)行有監(jiān)督的微調(diào)(人工優(yōu)化數(shù)據(jù)集)+強(qiáng)化學(xué)習(xí)對(duì)模型生成結(jié)果進(jìn)行打分,提高泛化能力,在此基礎(chǔ)上loss持續(xù)迭代,生成正確結(jié)果。相比GPT3規(guī)模大幅提升,從1750億提升至1.8萬億,算力需求大幅提升。圖:ChatGPT模型的訓(xùn)練過程?

GPT4o:完全統(tǒng)一多模態(tài)。o即omni,意為

“全體”、“所有”或“全面的”,打通多模態(tài)間輸入交互,延遲降低并完全開放免費(fèi),并進(jìn)一步增強(qiáng)推理能力。但其依然是基于Transformer架構(gòu)去實(shí)現(xiàn)對(duì)于模態(tài)信息的理解和生成,因此并未有底層架構(gòu)的創(chuàng)新。數(shù)據(jù):CSDN,東吳證券研究所12Sora發(fā)揮DiT模型優(yōu)勢(shì),利用大數(shù)據(jù)實(shí)現(xiàn)文生視頻?

Sora模型充分利用擴(kuò)散模型(Diffusion

Model)精細(xì)化生成能力以及Transformer的前后文全局關(guān)系捕捉能力,實(shí)現(xiàn)視頻每一幀的圖像精確生成以及前后的時(shí)空一致性。?

Sora可以理解為是Open

AI大模型技術(shù)的完全集成,其原理可以分為三步:1)首先,模型將視頻壓縮到低維潛在空間中,然后將其分解為patch(類似于GPT中的Token),從而將視頻完全壓縮。2)其次,視頻patch在低維空間中訓(xùn)練,擴(kuò)散模型通過在訓(xùn)練數(shù)據(jù)上逐步添加高斯噪聲并學(xué)習(xí)如何逆向去除噪聲的過程來生成新數(shù)據(jù),并整合了Transformer的多頭注意力機(jī)制和自適應(yīng)層歸一化,提升擴(kuò)散模型在處理連續(xù)大規(guī)模視頻數(shù)據(jù)時(shí)的穩(wěn)定性和一致性。3)最后,模型通過對(duì)應(yīng)解碼器,將生成的元素映射回像素空間,完成視頻生成任務(wù)。?

Sora的核心DiT模型:Transformer架構(gòu)取代原有UNet架構(gòu)(本質(zhì)為CNN卷積神經(jīng)網(wǎng)絡(luò)),提升長(zhǎng)時(shí)間性能的同時(shí)具備可擴(kuò)展性+靈活性,并支持跨領(lǐng)域擴(kuò)展,或可應(yīng)用至自動(dòng)駕駛領(lǐng)域。圖:Sora文生視頻,DiT模型為基礎(chǔ)原理數(shù)據(jù):CSDN,東吳證券研究所13世界模型:通用人工智能AGI,預(yù)測(cè)未來?

視頻生成Video

Generation是世界模型World

Model的基礎(chǔ),Sora的成功使得DiT擴(kuò)散模型收斂為視頻生成的主導(dǎo)方式。基于對(duì)歷史信息的理解生成對(duì)于未來的預(yù)測(cè)進(jìn)而合理表征,并結(jié)合可能的行為action進(jìn)一步輔助預(yù)測(cè)可能的結(jié)果,可應(yīng)用于包括直接的視頻生成以及自動(dòng)駕駛和機(jī)器人等通用人工智能多個(gè)領(lǐng)域。?

基于數(shù)據(jù),超越數(shù)據(jù)。傳統(tǒng)大模型要適應(yīng)新的精細(xì)任務(wù)時(shí),必須基于數(shù)據(jù)對(duì)模型參數(shù)進(jìn)行全面微調(diào),依賴【預(yù)訓(xùn)練】環(huán)節(jié),不同任務(wù)與不同數(shù)據(jù)一一對(duì)應(yīng),模型專業(yè)化。相比過往大模型強(qiáng)調(diào)的模態(tài)信息理解的能力,世界模型更加注重【因果和反事實(shí)推理、模擬客觀物理定律】等規(guī)劃和預(yù)測(cè)的能力,并具備強(qiáng)泛化和高效率等性能表現(xiàn)。圖:世界模型數(shù)據(jù):論文《World

Modelsfor

Autonomous

Driving:

AnInitial

Survey》,東吳證券研究所14圍繞Transformer/LSTM構(gòu)建的世界模型運(yùn)行?

傳統(tǒng)的多子函數(shù)模塊化算法演變?yōu)槭澜缒P蛿?shù)據(jù)閉環(huán)訓(xùn)練,持續(xù)優(yōu)化提升算法認(rèn)知。世界模型在進(jìn)行端到端訓(xùn)練的過程為:?

觀測(cè)值經(jīng)過V(基于Transformer的Vision

Model,圖中為早先采用的VAE架構(gòu))提取feature,然后經(jīng)過M(基于LSTM的Memory)得到h(預(yù)測(cè)值),

最后預(yù)測(cè)值和歷史信息合并至C(Controller)得到動(dòng)作,

基于動(dòng)作和環(huán)境交互的結(jié)果產(chǎn)生新的觀測(cè)值,保障車輛做出合理行為。圖:傳統(tǒng)模塊化算法架構(gòu)【V+M+C】轉(zhuǎn)變?yōu)槎说蕉恕綱M輸出C】action數(shù)據(jù):論文《World

Modelsfor

Autonomous

Driving:

AnInitial

Survey》,東吳證券研究所15二、車端:大模型重塑智駕算法架構(gòu)智能駕駛軟件分類:底層調(diào)動(dòng)支持+上層應(yīng)用賦能?

底層調(diào)動(dòng)支持:1)異構(gòu)化底層軟件配合SoC異構(gòu)芯片支持不同類型的功能實(shí)現(xiàn)落地。用于智駕域控的SoC異構(gòu)芯片是高度集成化的,除多核CPU外,還會(huì)集成DSP/NPU或其它專用計(jì)算加速單元。在此硬件上進(jìn)行匹配的異構(gòu)軟件,多核CPU經(jīng)過虛擬化之后,可以在不同的虛擬機(jī)上運(yùn)行不同的操作系統(tǒng),例如運(yùn)行Linux來充分利用Linux社區(qū)豐富的軟件生態(tài),運(yùn)行QNX/VxWorks

來達(dá)到更好的實(shí)時(shí)性。2)SOA中間件提供標(biāo)準(zhǔn)化接口服務(wù)。SOA中間件能屏蔽不同服務(wù)間軟硬件異構(gòu)平臺(tái)的差異性,一方面讓異構(gòu)平臺(tái)都能夠以SOA的方式交互,另一方面讓通用的功能邏輯能在不同硬件平臺(tái)之間移植。比如將DSP或NPU的使用封裝在特定的庫中,對(duì)外呈現(xiàn)為標(biāo)準(zhǔn)SOA服務(wù)。3)軟件框架:即可復(fù)用的設(shè)計(jì)構(gòu)件,它規(guī)定了應(yīng)用的體系結(jié)構(gòu),代表已經(jīng)完成項(xiàng)目的底層開發(fā)基礎(chǔ)搭建,可以在其基礎(chǔ)上差異化開發(fā)的半成品。可以讓使用者減少很多重復(fù)的代碼、讓代碼的結(jié)構(gòu)更加清晰,耦合度更低,后期維護(hù)方便。?

上層應(yīng)用賦能:算法:即解決某一類問題的特定策略機(jī)制,不同算法解決同一問題時(shí)的質(zhì)量?jī)?yōu)劣不同,這將影響程序的效率。一個(gè)算法的評(píng)價(jià)主要從時(shí)間復(fù)雜度和空間復(fù)雜度來考慮。圖:汽車智能駕駛軟件層級(jí)架構(gòu)多自研,匹配上層應(yīng)用算法多采用第三方成熟系統(tǒng)數(shù)據(jù):CSDN,東吳證券研究所17底層支持:硬件調(diào)度,標(biāo)準(zhǔn)化接口賦能應(yīng)用軟件?

What:傳統(tǒng)汽車時(shí)代,狹義的操作系統(tǒng)指操作系統(tǒng)內(nèi)核;當(dāng)前智電汽車域控時(shí)代,系統(tǒng)更加復(fù)雜,因此需要基于內(nèi)核進(jìn)行大量工程優(yōu)化以后方可直接開發(fā)上層應(yīng)用軟件,中間件和功能軟件即由工程優(yōu)化算法標(biāo)準(zhǔn)化后所得。當(dāng)前廣義操作系統(tǒng)包括內(nèi)核以及中間件和功能軟件等幾部分。?

How:高性能、高安全、跨平臺(tái)、高效開發(fā)應(yīng)用。操作系統(tǒng)要求較強(qiáng)實(shí)時(shí)性,系統(tǒng)任務(wù)調(diào)度時(shí)鐘周期在毫秒級(jí);且提供高可靠性和較強(qiáng)功能安全。未來,行業(yè)艙駕一體化等集中式EE架構(gòu)還要求操作系統(tǒng)保證合理共享算力資源,支持系統(tǒng)快速OTA迭代。?

底層支持軟件相對(duì)標(biāo)準(zhǔn)化,通用性較強(qiáng)。1)操作系統(tǒng)內(nèi)核(Kernel):即為狹義操作系統(tǒng),如OSEK

OS、VxWorks、RT-Linux等。內(nèi)核提供操作系統(tǒng)最基本的功能,負(fù)責(zé)管理系統(tǒng)的進(jìn)程、內(nèi)存、設(shè)備驅(qū)動(dòng)程序、文件和網(wǎng)絡(luò)系統(tǒng),決定著系統(tǒng)的性能和穩(wěn)定性。2)中間件:處于應(yīng)用和操作系統(tǒng)之間的軟件,實(shí)現(xiàn)異構(gòu)網(wǎng)絡(luò)環(huán)境下軟件互聯(lián)和互操作等共性問題,提供標(biāo)準(zhǔn)接口、協(xié)議,具有較高的移植性,如POSIX/ARA(自適應(yīng)AutoSAR運(yùn)行時(shí)環(huán)境即中間件API接口)和DDS(分布式實(shí)時(shí)通信中間件)。3)功能軟件:主要指自動(dòng)駕駛的核心共性功能模塊。圖:汽車操作系統(tǒng)主流操作系統(tǒng)QNX特點(diǎn)可靠性很好,協(xié)議棧、各種外設(shè)驅(qū)動(dòng)穩(wěn)定,只是運(yùn)行所需資源有些多Linux實(shí)時(shí)性較差,但軟件資源內(nèi)容豐富VxWorks開發(fā)工具功能強(qiáng)大,使用方便,但是價(jià)格昂貴數(shù)據(jù):CSDN,東吳證券研究所18上層應(yīng)用算法:感知-規(guī)控-執(zhí)行三大模塊?

車端上層應(yīng)用算法分為感知(Perception)/規(guī)控(Planning

and

Decision)/執(zhí)行(Motionand

control)三大模塊。感知模塊的輸入可以是各種傳感器:攝像頭、激光、毫米波等,同時(shí)感知也會(huì)接受車身傳感器的信息來對(duì)感知結(jié)果進(jìn)行修正。決策規(guī)劃模型又分為行為決策、軌跡規(guī)劃、軌跡生成等模塊??刂颇K主要分為橫向控制與縱向控制,橫向控制主要是控制轉(zhuǎn)向系統(tǒng),縱向控制涉及油門與剎車的控制。?

模塊化的軟件算法早期具備可解釋性強(qiáng)、安全性強(qiáng)、靈活性高的優(yōu)點(diǎn),但過于依賴先驗(yàn)數(shù)據(jù),無法實(shí)時(shí)更新,且窮舉法終究沒辦法覆蓋所有長(zhǎng)尾場(chǎng)景,因此隨智駕等級(jí)提升,正逐漸被大模型端到端所取代。圖:智能駕駛應(yīng)用層算法分類數(shù)據(jù):CSDN,東吳證券研究所19算法持續(xù)升級(jí),多模態(tài)大模型重塑車端算法架構(gòu)?

多模態(tài)數(shù)據(jù)喂養(yǎng)軟件算法,驅(qū)動(dòng)功能進(jìn)化。硬件端升級(jí)提供多樣化數(shù)據(jù),智駕傳感器由單目視覺向雙目視覺以及視覺+的方向演變,多傳感器支持對(duì)周圍環(huán)境的更精確識(shí)別,圖像/點(diǎn)云等數(shù)據(jù)呈現(xiàn)方式多樣化,數(shù)據(jù)賦能算法升級(jí),支持智駕功能由L3級(jí)別以下向L3及以上迭代升級(jí)。?

場(chǎng)景泛化是智駕能力提升的重要方向,數(shù)據(jù)需求量激增驅(qū)動(dòng)算法由小模型切換為大模型。智駕軟件上層應(yīng)用算法中,感知能力提升核心系場(chǎng)景識(shí)別能力的泛化,規(guī)控能力提升核心系場(chǎng)景處理邏輯的泛化,均以有效數(shù)據(jù)量為核心驅(qū)動(dòng),數(shù)據(jù)處理/利用等是瓶頸。DNN/CNN/RNN小模型切換為Transformer大模型賦能多模態(tài)數(shù)據(jù)處理,重塑車端算法架構(gòu),以支持更高級(jí)別智駕功能。?

世界模型(自學(xué)習(xí),強(qiáng)泛化,高效率)或?yàn)橥ㄏ騆4級(jí)完全自動(dòng)駕駛的必由之路。數(shù)據(jù)賦能催化模型自學(xué)習(xí),理解物理世界基礎(chǔ)運(yùn)行規(guī)律,模型“認(rèn)知能力”提升,或可實(shí)現(xiàn)完全自動(dòng)駕駛。類型算法架構(gòu)DNN特征通過對(duì)像素級(jí)別進(jìn)行逐個(gè)對(duì)比,通過圖像特征進(jìn)行識(shí)別,精確,存儲(chǔ)簡(jiǎn)單,但計(jì)算量較大以“卷積-池化”的方式,將整幅圖按興趣區(qū)域

ROI

進(jìn)行特征分割后,分別對(duì)

ROI

進(jìn)行局部像素對(duì)比識(shí)別,相當(dāng)于在DNN基礎(chǔ)上進(jìn)行降維,特征提取降低計(jì)算量需求小模型CNNRNN在CNN基礎(chǔ)上引入循環(huán)核,便于處理時(shí)間序列圖像特征TransformerResNet基于特有的自注意力機(jī)制,能夠有效捕捉序列信息中長(zhǎng)距離依賴關(guān)系并支持并行計(jì)算,適合處理大量且多類型的數(shù)據(jù)深度卷積神經(jīng)網(wǎng)絡(luò),為解決隨網(wǎng)絡(luò)層數(shù)增加帶來的網(wǎng)絡(luò)退化(梯度消失和梯度爆炸)現(xiàn)象,殘差網(wǎng)絡(luò)使用跳躍連接實(shí)現(xiàn)信號(hào)跨層傳播大模型VQ-VAE以自編碼器將圖像壓縮為有限數(shù)量的向量集合,從而實(shí)現(xiàn)了高效的圖像表示和重構(gòu)GAN由生成器和判別器組成,生成器經(jīng)由輸入的噪聲向量輸出為假設(shè)圖像,判別器區(qū)分假設(shè)圖像和真實(shí)圖像并反饋訓(xùn)練,生成對(duì)抗網(wǎng)絡(luò)GAN驅(qū)動(dòng)生成更加逼真的圖像世界模型(基于Transformer的復(fù)合)人工智能系統(tǒng)構(gòu)建的對(duì)于現(xiàn)實(shí)世界的模擬與表達(dá),模型充分理解物理世界的客觀運(yùn)行規(guī)律數(shù)據(jù):CSDN,東吳證券研究所20功能維度:智駕功能迭代驅(qū)動(dòng),泛化是根本?

產(chǎn)業(yè)對(duì)于智駕功能持續(xù)迭代的訴求驅(qū)動(dòng)車端/云端算法持續(xù)升級(jí)。1)階段一:L3以下。OEM搜集數(shù)據(jù)清洗標(biāo)注后訓(xùn)練,算法基于特定規(guī)則,場(chǎng)景泛化能力較差,數(shù)據(jù)以及標(biāo)注工程師均為瓶頸。2)階段二:L3級(jí)別。Transformer賦能,大模型端到端算法落地,自動(dòng)化標(biāo)注多模態(tài)數(shù)據(jù),并快速提升數(shù)據(jù)利用效率,數(shù)據(jù)與算法能力形成正循環(huán),場(chǎng)景識(shí)別的泛化能力提升。3)階段三:L3以上。車端算法完全端到端,Learning-base主導(dǎo)算法訓(xùn)練,強(qiáng)化算法感知以及規(guī)控端的泛化能力,算法認(rèn)知規(guī)劃能力提升,逐步支持完全自動(dòng)駕駛。圖:智能駕駛功能提升與內(nèi)核技術(shù)迭代4完全無人駕駛,算法成熟,車端駕駛硬件減配;車云一體化提升。L5:無人駕

加速場(chǎng)景識(shí)別和處理邏輯的泛化駛或采用Rule-base3L3+

~L4:完

功能變化:場(chǎng)景覆蓋更全,無Corner

Case車端推理:全域端到端,泛化性更強(qiáng),認(rèn)知驅(qū)動(dòng)與Learning-base全自動(dòng)駕駛結(jié)合形式來過渡

云端訓(xùn)練:世界模型助力仿真,加速模型進(jìn)化2功能變化:由以人為主逐步轉(zhuǎn)向以車為主,新增高速/城區(qū)等道路領(lǐng)航。車端推理:Transformer助力感知端到端,規(guī)控主要依賴Rule-base。特斯拉HydraNet多頭任務(wù)處理加速數(shù)據(jù)訓(xùn)練推理L2+

~L3:有

條件自動(dòng)駕駛

云端訓(xùn)練:Transformer賦能自動(dòng)標(biāo)注,數(shù)據(jù)為瓶頸,數(shù)據(jù)驅(qū)動(dòng)。1功能變化:L1為車輛感知升級(jí),輔助跟車;L2增加車道保持,輔助變道等功能,不涉及底盤。車端推理:感知算法架構(gòu)采用DNN/CNN/RNN卷積神經(jīng)網(wǎng)絡(luò),規(guī)控完全依賴Rule-base。L1+L2:完全

輔助駕駛

云端訓(xùn)練:搜集路測(cè)數(shù)據(jù)人工清洗/標(biāo)注而后訓(xùn)練,人工標(biāo)注為瓶頸,工程師驅(qū)動(dòng)。數(shù)據(jù):東吳證券研究所繪制21L2~L3:精準(zhǔn)識(shí)別,人車共駕,感知為瓶頸?

精確感知為躍升L3的瓶頸,BEV+Transformer架構(gòu)上車支持產(chǎn)業(yè)化解決方案落地。L1-L2:智駕迭代主要集中在感知維度的升級(jí),不包含規(guī)控以及執(zhí)行端底盤的變化。由L2-L3的過程,則是由以人為主體逐步切換為人車共駕,【外部環(huán)境的精確感知問題】為瓶頸。當(dāng)前,低成本的軟件算法升級(jí)(BEV+Transformer)基本取代高成本解決方案(激光+高精地圖),推動(dòng)產(chǎn)業(yè)化。?

傳統(tǒng)CV小模型架構(gòu)下,感知能力升級(jí)更依賴硬件。依賴攝像頭+激光/毫米波

等能夠感知三維深度的硬件實(shí)時(shí)描繪周圍環(huán)境,并配合高精度地圖提供的先驗(yàn)信息輔助判斷;算法領(lǐng)域,以CNN卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像的特征提取和目標(biāo)識(shí)別,RNN大規(guī)模記憶處理時(shí)間序列數(shù)據(jù)。圖:智能駕駛感知CNN?

暴露問題:?

能力提升依賴龐大數(shù)據(jù)量,但數(shù)據(jù)量過大帶來:1)算法難以捕捉長(zhǎng)距離依賴關(guān)系;2)數(shù)據(jù)處理依賴人工,利用效率較低。?硬件成本過高且高精度地圖覆蓋面較窄。數(shù)據(jù):汽車之心,東吳證券研究所22L2~L3:精準(zhǔn)識(shí)別,人車共駕,感知為瓶頸?

精確感知為躍升L3的瓶頸,BEV+Transformer架構(gòu)上車支持產(chǎn)業(yè)化解決方案落地。?

BEV+Transformer大模型架構(gòu)賦能精準(zhǔn)感知【處理長(zhǎng)距離依賴關(guān)系+并行計(jì)算+統(tǒng)一融合】。?

Transformer以自注意力機(jī)制完成時(shí)間/空間關(guān)聯(lián),處理長(zhǎng)序列數(shù)據(jù)信息同時(shí)支持并行計(jì)算,提高效率。1)高效對(duì)多模態(tài)數(shù)據(jù)進(jìn)行特征提取,利用空間元素間的關(guān)聯(lián)關(guān)系進(jìn)行全局建模,實(shí)現(xiàn)特征增強(qiáng);2)利用元素與前后體之間的關(guān)聯(lián)關(guān)系,高效處理長(zhǎng)序列信息,避免重復(fù)遞歸/卷積。?

BEVFusion統(tǒng)一框架,實(shí)現(xiàn)多模態(tài)信息的精確端到端融合。用獨(dú)立流程分別處理和攝像頭數(shù)據(jù),然后在鳥瞰視圖(BEV)層面進(jìn)行融合,并擴(kuò)展到多任務(wù)、多傳感器框架,兼顧信息完整度和效率,標(biāo)準(zhǔn)化框架也便于數(shù)據(jù)清洗標(biāo)注。圖:Self-Attention(自注意力機(jī)制)原理圖:Transformer并行特征提取圖:BEV視圖進(jìn)行統(tǒng)一特征級(jí)融合數(shù)據(jù):汽車之心,東吳證券研究所23L3~L4:完全識(shí)別,自動(dòng)駕駛,全面泛化是前提?

全面泛化為躍升L4的瓶頸,World

Model世界模型(本質(zhì)為模型基于對(duì)客觀世界物理規(guī)律的理解進(jìn)行精準(zhǔn)預(yù)測(cè))或?yàn)榻K局解決方案。L4智駕要求完全自動(dòng)駕駛,相比L3智駕,其對(duì)車輛運(yùn)行過程中的場(chǎng)景識(shí)別以及預(yù)測(cè)規(guī)劃提出更高要求,強(qiáng)調(diào)【100%全面泛化】。因此,車輛自主控制階段的算法瓶頸轉(zhuǎn)變?yōu)椤救绾握_預(yù)測(cè)周圍環(huán)境變化并合理規(guī)劃行駛路徑】。?

世界模型或?yàn)長(zhǎng)4完全自動(dòng)駕駛終局解決方案,通過End-to-End算法+大數(shù)據(jù)閉環(huán)訓(xùn)練,培養(yǎng)算法認(rèn)

實(shí)

現(xiàn)

World

Model

實(shí)

理(Counterfactual

reasoning),也即對(duì)于數(shù)據(jù)中沒有見過的決策,在world

model中都能推理出決策的結(jié)果。圖:模塊化算法架構(gòu)逐步迭代為端到端數(shù)據(jù):汽車之心,東吳證券研究所24WHY端到端?學(xué)習(xí)+理解+進(jìn)化,能力上限更高?

端到端架構(gòu)將感知-規(guī)控-執(zhí)行模塊串聯(lián)統(tǒng)一訓(xùn)練。?

優(yōu)點(diǎn):1)結(jié)構(gòu)簡(jiǎn)單直接,算法工作量較低,減少維護(hù)成本;傳統(tǒng)策略基于完整規(guī)則進(jìn)行控制,行為機(jī)械且代碼量大,據(jù)小鵬2022年,城市NGP代碼量是高速的88倍,端到端有明顯優(yōu)勢(shì),架構(gòu)和代碼方面一勞永逸,高度整合,省去獨(dú)立模塊開發(fā)以及數(shù)據(jù)人工標(biāo)注和規(guī)則設(shè)計(jì),降低成本。2)更利于追求“全局最優(yōu)解”,能力上限高,泛化能力更強(qiáng),完美應(yīng)對(duì)長(zhǎng)尾場(chǎng)景;基于規(guī)則的方案遇到未學(xué)習(xí)過的場(chǎng)景時(shí)無法做出良好的處理策略,且基于已有數(shù)據(jù)難以保證100%的場(chǎng)景數(shù)據(jù)覆蓋,傳統(tǒng)模式的最優(yōu)解理論上無法達(dá)成,端到端是通過對(duì)場(chǎng)景的理解進(jìn)行判斷,天花板更高。3)減少數(shù)據(jù)時(shí)延,便于車端迅速判斷,提升安全系數(shù)。?

缺點(diǎn):數(shù)據(jù)的針對(duì)性更弱、模型訓(xùn)練的信號(hào)更弱,意味著提升性能所需的數(shù)據(jù)量和算力規(guī)模更大。端到端的優(yōu)勢(shì)在數(shù)據(jù)量達(dá)到一定程度后性能顯著提高,但數(shù)據(jù)量較小時(shí)候性能上升緩慢,遠(yuǎn)低于解耦的傳統(tǒng)基于專家模型的策略(特斯拉當(dāng)前高速依然保留FSDv11的代碼)。數(shù)據(jù):汽車之心,東吳證券研究所25UniAD:白盒端到端CV

,加速智駕工程化落地?

UniAD(感知Perception+規(guī)劃Planning):多個(gè)共享BEV

特征的Transformer網(wǎng)絡(luò)將跟蹤+建圖+軌跡預(yù)測(cè)+占據(jù)柵格預(yù)測(cè)統(tǒng)一到一起,

并且使用不依賴高精地圖的Planner

作為一個(gè)最終的目標(biāo)輸出,同時(shí)使用Plan結(jié)果作為整體訓(xùn)練的loss。相比于特斯拉FSDv12的黑盒端到端,其在感知/規(guī)控等模塊間雖然一體化整合,但并非一個(gè)整體黑盒網(wǎng)絡(luò),仍可以對(duì)各個(gè)模塊進(jìn)行分別的監(jiān)測(cè)和優(yōu)化,各個(gè)模塊間有了相當(dāng)?shù)目山忉屝裕灿欣谟?xùn)練和Debug,【解耦白盒】是核心。?

UniSim(仿真):使用多個(gè)NeRF

網(wǎng)絡(luò),重建靜態(tài)背景,并且將每個(gè)動(dòng)態(tài)物體也構(gòu)建出來,同時(shí)保存動(dòng)態(tài)物體的軌跡。之后在仿真環(huán)境中,靜態(tài)物體作為整體世界背景,所有的動(dòng)態(tài)物體根據(jù)軌跡轉(zhuǎn)換到世界坐標(biāo)系中,進(jìn)行世界環(huán)境的模擬。利用動(dòng)靜態(tài)解耦的方式,為之后仿真物體的刪除和插入提供便利,

同時(shí)對(duì)危險(xiǎn)場(chǎng)景的模擬提供充足的自由度,保證場(chǎng)景泛化。圖:UniAD算法框架數(shù)據(jù):汽車之心,東吳證券研究所26世界模型(仿真數(shù)據(jù)&強(qiáng)化學(xué)習(xí))更好支持端到端?

World

Model≠端到端,但或?yàn)閷?shí)現(xiàn)端到端的理想方式。1)數(shù)據(jù)需求:端到端算法訓(xùn)練需要大量低成本+高互動(dòng)的標(biāo)準(zhǔn)化數(shù)據(jù),世界模型可制造大量仿真數(shù)據(jù),無需標(biāo)注直接應(yīng)用于算法訓(xùn)練;2)利用數(shù)據(jù)大規(guī)模進(jìn)行強(qiáng)化學(xué)習(xí),培養(yǎng)模型的規(guī)律認(rèn)知能力,類似于人類學(xué)車/開車的行為,完成感知/記憶/動(dòng)作的連貫行為。?

特斯拉早于2023年提出世界模型World

Model,即通過神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)化表示事物,并預(yù)測(cè)未來,將自動(dòng)駕駛決策問題轉(zhuǎn)為預(yù)測(cè)視頻的下一幀。世界模型用于理解世界,不僅能用于自動(dòng)駕駛也能用于機(jī)器人,是特斯拉自身端到端智駕解決方案的基礎(chǔ)原理,自動(dòng)駕駛是世界模型的具身智能。圖:世界模型算法27三、云端:大模型加速智駕算法迭代海量數(shù)據(jù)的有效利用是智駕能力快速提升的前提?

數(shù)據(jù)閉環(huán)是產(chǎn)業(yè)玩家高效利用數(shù)據(jù)的核心。智駕數(shù)據(jù)主要指車輛在行駛過程中由攝像頭//地圖等傳感器感知到的周遭環(huán)境以及車輛自身狀態(tài)響應(yīng)等信息,其為智駕算法模型的學(xué)習(xí)反饋和迭代提供了必備的“良師”。?

數(shù)據(jù)記錄:將車身傳感器感知到的信息轉(zhuǎn)化為數(shù)字信號(hào),通常上傳至云端,便于訪問管理。?

數(shù)據(jù)處理:將基于不同傳感器感知的數(shù)據(jù)進(jìn)行預(yù)處理、濾波和融合,生成高質(zhì)量統(tǒng)一格式的數(shù)據(jù)。?

數(shù)據(jù)標(biāo)注:即數(shù)據(jù)信息歸類,包括目標(biāo)檢測(cè)(特征提?。?軌跡生成/優(yōu)化等,將智駕面臨的不同場(chǎng)景一一歸類,是算法預(yù)訓(xùn)練前最為繁瑣的環(huán)節(jié)之一。?

數(shù)據(jù)仿真:模擬真實(shí)的交通場(chǎng)景和車輛行駛狀態(tài),方便對(duì)車輛的算法和系統(tǒng)進(jìn)行測(cè)試和驗(yàn)證。?

模型訓(xùn)練和算法部署:基于已有數(shù)據(jù)對(duì)智駕算法進(jìn)行云端訓(xùn)練,并裁剪部署至車端實(shí)時(shí)推理應(yīng)用。圖:智能駕駛數(shù)據(jù)利用全流程數(shù)據(jù):汽車之心,東吳證券研究所29基于Transformer的自動(dòng)標(biāo)注打開數(shù)據(jù)利用的天花板?

“場(chǎng)景驅(qū)動(dòng)”是小模型時(shí)代智駕算法能力的重要特征,體現(xiàn)為數(shù)據(jù)的人工標(biāo)注。傳統(tǒng)CV小模型時(shí)代,智駕覆蓋廣度的提升依賴于長(zhǎng)尾場(chǎng)景Corner

Case的持續(xù)完善,工程師需要手動(dòng)區(qū)分場(chǎng)景信息中的新增部分并人工分類標(biāo)注,進(jìn)一步修改“if-else”規(guī)則下的規(guī)控算法,“補(bǔ)丁”式小碎步提升。21年之前特斯拉數(shù)據(jù)標(biāo)注團(tuán)隊(duì)規(guī)模在千人級(jí)別,工程師數(shù)量是限制算法迭代的瓶頸之一。?

基于Transformer的SAM等自動(dòng)標(biāo)注算法打開智駕算法數(shù)據(jù)利用的天花板。其原理在于:首先基于少量的人工處理構(gòu)建標(biāo)注真值系統(tǒng),進(jìn)而將未標(biāo)注的數(shù)據(jù)應(yīng)用至真值系統(tǒng)得到標(biāo)注結(jié)果,以SAM為例的標(biāo)注算法即是基于Transformer機(jī)制完成批量化特征提取和標(biāo)注。特斯拉2021年AIday宣布裁撤旗下千人左右的數(shù)據(jù)標(biāo)注團(tuán)隊(duì),正式大規(guī)模應(yīng)用基于大模型的自動(dòng)標(biāo)注,并可于一周內(nèi)實(shí)現(xiàn)人工標(biāo)注幾個(gè)月時(shí)間才能完成的一萬個(gè)片段的標(biāo)注任務(wù)。圖:自動(dòng)標(biāo)注數(shù)據(jù):CSDN,東吳證券研究所30場(chǎng)景仿真減少真實(shí)數(shù)據(jù)依賴,加速算法能力迭代?

數(shù)據(jù)仿真是云端算法訓(xùn)練的重要組成部分。智駕仿真測(cè)試,即以建立車輛模型并將其應(yīng)用場(chǎng)景進(jìn)行數(shù)字化還原,建立盡可能接近真實(shí)世界的系統(tǒng)模型,如此通過軟件仿真即可對(duì)自動(dòng)駕駛系統(tǒng)和算法進(jìn)行測(cè)試。其包含了虛擬的駕駛場(chǎng)景、車輛的動(dòng)力學(xué)系統(tǒng)、感知系統(tǒng)、并預(yù)留對(duì)接ADAS/自動(dòng)駕駛系統(tǒng)的通信接口?,F(xiàn)實(shí)世界路測(cè)數(shù)據(jù)搜集【長(zhǎng)尾場(chǎng)景信息不全+耗時(shí)且成本高昂】的短板極大促進(jìn)了場(chǎng)景仿真技術(shù)的發(fā)展。?

從基于模型設(shè)計(jì)到數(shù)據(jù)驅(qū)動(dòng)迭代,以場(chǎng)景真實(shí)性作為方向。仿真系統(tǒng)包括靜態(tài)場(chǎng)景搭建+動(dòng)態(tài)場(chǎng)景搭建+車輛動(dòng)力學(xué)仿真+傳感器仿真幾大部分。傳統(tǒng)仿真多依據(jù)V-Shape流程,以動(dòng)力學(xué)仿真為主,基于車控進(jìn)行建模,隨L2發(fā)展,“弱動(dòng)力,重場(chǎng)景”的建模方式逐步被引入。但L3級(jí)別智駕所需的場(chǎng)景數(shù)目以及代碼量飛速增長(zhǎng),以數(shù)據(jù)驅(qū)動(dòng)的“場(chǎng)景重建”仿真技術(shù)成為主流:基于游戲引擎開發(fā),以實(shí)現(xiàn)對(duì)靜態(tài)場(chǎng)景的高保真渲染和物理模擬。例如英偉達(dá)的DRIVE

Sim即是一種基于Omniverse引擎構(gòu)建的仿真工具,應(yīng)用

Omniverse

Replicator

以縮小仿真到真實(shí)的域差距。數(shù)據(jù):CSDN,東吳證券研究所31世界模型應(yīng)用利好生成泛化數(shù)據(jù),加速云端仿真?

世界模型有望提供真實(shí)且多樣化的仿真數(shù)據(jù),即加速泛化,加速云端算法迭代。?

1)當(dāng)前智能駕駛仿真的主流技術(shù)方案為【NeRF+素材庫+游戲引擎,基于真實(shí)數(shù)據(jù)進(jìn)行道路重建,并保證和真實(shí)場(chǎng)景的相似程度,再依靠交通元素的不同排列組合進(jìn)行有條件泛化,最后通過游戲引擎輸出高質(zhì)量的仿真畫面】。?

2)世界模型與之相比,具備能夠憑借對(duì)于物理世界運(yùn)行規(guī)律的理解,自身泛化到樣本以外的能力,覆蓋更多Corner

Case,有效降低廠商對(duì)于真實(shí)數(shù)據(jù)的依賴程度,提升效率;但大模型的基礎(chǔ)前提決定其比較依賴大算力+大規(guī)模數(shù)據(jù)喂養(yǎng)持續(xù)訓(xùn)練,方能避免出現(xiàn)違背客觀規(guī)律的情況。Tesla可以做到多個(gè)攝像頭同步聯(lián)合預(yù)測(cè);并支持prompt嵌入,可以提出要求生成車輛直行或者對(duì)向車道視角的未來數(shù)據(jù)。Sora面世即是世界模型所代表的場(chǎng)景生成的新范式代表。圖:Wayve的GAlA-1

high-level

architecture數(shù)據(jù):CVPR

2023,東吳證券研究所32以

為例,盤古大模型實(shí)現(xiàn)數(shù)據(jù)閉環(huán)加速云訓(xùn)練?

云服務(wù)為基,搭建數(shù)據(jù)閉環(huán)堅(jiān)實(shí)底座。云ModelArts平臺(tái)提供DataTurbo、TrainTurbo、InferTurbo

3層加速,分別提供數(shù)據(jù)加載、模型訓(xùn)練、模型推理三方面服務(wù),能夠助力數(shù)據(jù)讀取時(shí)間縮短50%、訓(xùn)練效率提升40%+。統(tǒng)一的數(shù)據(jù)湖讓數(shù)據(jù)存儲(chǔ)成本下降20%、冷數(shù)據(jù)下沉率最高96%。云服務(wù)能夠完整覆蓋數(shù)據(jù)閉環(huán)各個(gè)環(huán)節(jié),提供數(shù)據(jù)管理平臺(tái)、AI模型訓(xùn)練平臺(tái)、仿真評(píng)測(cè)平臺(tái)等,形成全棧式研發(fā)工具鏈。串聯(lián)互通的工具,增強(qiáng)了業(yè)務(wù)連續(xù)性,縮短了模型訓(xùn)練時(shí)間,大大減少了調(diào)試成本和人力成本,提升研發(fā)效率。數(shù)據(jù):官網(wǎng),東吳證券研究所33四、當(dāng)前產(chǎn)業(yè)玩家的智駕算法能力如何?數(shù)據(jù)閉環(huán)有望帶來高集中度的智駕算法產(chǎn)業(yè)格局?

高階智駕算法持續(xù)升級(jí),產(chǎn)業(yè)趨勢(shì)明確;數(shù)據(jù)/算力為壁壘。北美特斯拉以及國內(nèi)市場(chǎng)/小鵬等玩家引領(lǐng),Transformer賦能多模態(tài)感知融合(FSD

v10)及更進(jìn)一步的端到端(FSD

v11/12)驅(qū)動(dòng)產(chǎn)品功能體驗(yàn)持續(xù)升級(jí),低時(shí)延+強(qiáng)泛化,同時(shí)也明確產(chǎn)業(yè)升級(jí)方向。端到端方案依賴大算力+極多高質(zhì)量數(shù)據(jù)訓(xùn)練,同時(shí)要求玩家數(shù)據(jù)鏈閉環(huán),保證數(shù)據(jù)采集/存儲(chǔ)/清洗/標(biāo)注更加高效。?

算法實(shí)現(xiàn)高壁壘+數(shù)據(jù)閉環(huán)硬要求,未來智駕算法產(chǎn)業(yè)格局趨于集中化。當(dāng)前整車下游L3高階智駕算法方案以O(shè)EM自研為主,以“算法賦能,數(shù)據(jù)回傳”的形式深度綁定OEM;L3以下智駕算法呈現(xiàn)OEM+硬件商+獨(dú)立算法商三足鼎立格局,OEM玩家/硬件商占據(jù)行業(yè)主導(dǎo)位置。?

我們認(rèn)為,考慮高階智駕功能的實(shí)現(xiàn)對(duì)于算法能力、組織架構(gòu)、超算中心、完整數(shù)據(jù)鏈等的要求,未來“掌握硬件的基礎(chǔ)上去發(fā)展軟件”或?yàn)橹髁?,即掌握壁壘最高的硬件——芯片;提供性價(jià)比最高的硬件——傳感器;掌握粘性最強(qiáng)的硬件——整車。圖:自動(dòng)駕駛驅(qū)動(dòng)多模態(tài)大模型,帶來算法架構(gòu)變化完整閉環(huán)數(shù)據(jù)鏈超大算力芯片商-算法高階算法實(shí)現(xiàn)OEM-算法傳感器商-算法必要算法開發(fā)能力組織架構(gòu)適配數(shù)據(jù):官網(wǎng),東吳證券研究所354.1OEM玩家及相關(guān)企業(yè)外采轉(zhuǎn)自研,特斯拉FSD引領(lǐng)全球智駕軟硬件升級(jí)?

2020年為特斯拉“硬件為先,軟件隨后”策略的重要窗口,【大模型】是特斯拉引領(lǐng)本次變革的核心抓手?!綡ydraNet/FSD芯片+Transformer/Dojo】等6次硬件變化升級(jí)+3次軟件架構(gòu)的重大創(chuàng)新變革,均體現(xiàn)特斯拉第一性原理的經(jīng)營(yíng)思想。圖:特斯拉邊緣端/云端軟硬件歷史迭代2014.10Autopilot1.0HW1.02016.102017.072019.042021.07FSD

Betav9HW3.02022.042023Q22024Q1FSD歷史重要階段(軟FSD

Betav10.11FSD

Betav11.3Autopilot2.0Autopilot3.0FSD

v12件)名稱芯片HW2.0HW2.5HW4.0英偉達(dá)drivePX2英偉達(dá)

driveMobileyeQ3自研FSD1.0自研FSD2.0,算力五倍12攝像頭+1毫米波PX2+硬件解決方案1攝像頭+1毫米

8攝像頭+1毫米波傳感器

波+12超聲

(2.5升級(jí))+12超聲波8攝像頭+1毫米波+12超聲波波邊緣端標(biāo)注人工標(biāo)注BEV+Transformer架構(gòu),數(shù)據(jù)驅(qū)動(dòng)深度學(xué)習(xí),使得自動(dòng)標(biāo)注落地BEV+Transformer上車,特征級(jí)融合落地,實(shí)現(xiàn)感知大模型,無圖城市領(lǐng)航功能上車自研芯片硬件,Hydra

Net驅(qū)動(dòng)多頭任務(wù)實(shí)現(xiàn),進(jìn)一步提效占用網(wǎng)絡(luò)上車,泛化能力增強(qiáng),功能維度統(tǒng)一高速與城市領(lǐng)航輔助感知+規(guī)控全域端到端落地,持續(xù)算法訓(xùn)練,追求具身智能自研圖像識(shí)別+多傳感器后軟件解決方案

感知外采Mobileye融合策略黑盒規(guī)控備注自研rule-baserule為主,開發(fā)learning-base2017.03自研算法,2018年開發(fā)更

硬件泛化能力增強(qiáng)

硬件再次迭代,驅(qū)動(dòng)傳感器簡(jiǎn)

支持軟件進(jìn)一2015.04開啟自感知能力升級(jí)驅(qū)動(dòng)無圖化北美開放,即將入華硬件升級(jí)但功能降

好實(shí)現(xiàn)多傳感

儲(chǔ)備完研軟件級(jí)器融合的策略成化步升級(jí)2021年8月官宣Dojo,利用海量的數(shù)據(jù),做無監(jiān)督的標(biāo)注和仿真訓(xùn)云端-練,更好驅(qū)動(dòng)大模型;世界模型加速大模型仿真37數(shù)據(jù):蓋世汽車,汽車之心,東吳證券研究所繪制邊緣軟件:Transformer大模型逐步覆蓋各環(huán)節(jié)?

HydraNet賦能多傳感器融合,特斯拉基于全自研軟硬件實(shí)現(xiàn)有限范圍的智能領(lǐng)航輔助駕駛,追平行業(yè)。2016年起特斯拉自研軟件算法上車,2D網(wǎng)絡(luò)的CNN架構(gòu)+人工數(shù)據(jù)標(biāo)注的迭代模式下,特斯拉智駕功能表現(xiàn)遜于長(zhǎng)期深耕的Mobileye;2019年4月配合自研FSD芯片,HydraNet九頭蛇架構(gòu)實(shí)現(xiàn)更好的特征提取以及多頭任務(wù)并行,催化特斯拉追平Mobileye

L2+級(jí)別智駕功能。?

BEV+Transformer開啟大模型時(shí)代,軟件能力跨時(shí)代躍遷,引領(lǐng)行業(yè)變革。1)Transformer賦能2D圖像升維實(shí)現(xiàn)BEV轉(zhuǎn)換,占用網(wǎng)絡(luò)(加入時(shí)序的BEV)進(jìn)一步泛化異形場(chǎng)景,實(shí)現(xiàn)無高精度地圖化及傳感器精簡(jiǎn)化;2)特征級(jí)融合取代后融合,減少信息損耗,還原更真實(shí)的場(chǎng)景信息;3)人工標(biāo)準(zhǔn)轉(zhuǎn)向自動(dòng)標(biāo)注,龐大數(shù)據(jù)預(yù)訓(xùn)練大模型,進(jìn)行云端預(yù)標(biāo)注,車端蒸餾落地。?

FSD升級(jí),全棧端到端落地。車端感知規(guī)控全融合,大模型覆蓋范圍深化,數(shù)據(jù)賦能加速迭代。圖:特斯拉自動(dòng)駕駛算法迭代歷程38數(shù)據(jù):汽車之心

,東吳證券研究所繪制智駕路線方向趨同,國內(nèi)OEM玩家快速追趕?

智能駕駛軟件算法架構(gòu)歷經(jīng)兩次框架變化:?

1)2D+CNN小模型向Transformer大模型進(jìn)化,智駕迭代由工程師驅(qū)動(dòng)轉(zhuǎn)為數(shù)據(jù)驅(qū)動(dòng):2020年特斯拉BEV上車,數(shù)據(jù)后融合變?yōu)樘卣骷?jí)融合,提升數(shù)據(jù)利用效率和結(jié)果準(zhǔn)確性,同時(shí)數(shù)據(jù)標(biāo)注由人工轉(zhuǎn)為模型自動(dòng),迭代提效;2022年占用網(wǎng)絡(luò)落地,泛化能力進(jìn)一步增強(qiáng),實(shí)現(xiàn)感知維度端到端;2023年數(shù)據(jù)驅(qū)動(dòng)算法持續(xù)迭代,規(guī)控環(huán)節(jié)端到端落地,rule-base比例降低,能力優(yōu)化。?

2)模塊化端到端進(jìn)化為全棧端到端,World

Model逐步完善,數(shù)據(jù)驅(qū)動(dòng)變?yōu)檎J(rèn)知驅(qū)動(dòng),向L4迭代。特斯拉FSD

v12起轉(zhuǎn)向智駕環(huán)節(jié)全棧端到端,數(shù)據(jù)閉環(huán)后World

Model逐步演化完善,基于歷史數(shù)據(jù)去理解未來的范式進(jìn)步為基于常識(shí)和規(guī)律自我學(xué)習(xí)進(jìn)化的范式,實(shí)現(xiàn)無接管的L4智駕。圖:智駕軟件算法路徑變化以及各玩家階段對(duì)應(yīng)底層感知邏輯算法架構(gòu)2D+CNNBEV對(duì)應(yīng)智駕功能對(duì)應(yīng)FSD版本Autopilot階段FSDv9行業(yè)玩家掌握程度傳統(tǒng)CVL22020年以前行業(yè)的主流方案ViTDiTL3L4當(dāng)前國內(nèi)主流OEM+Tier玩家主要競(jìng)爭(zhēng)環(huán)節(jié)2024年特斯拉FSD

v12首次采用占用網(wǎng)絡(luò)WorldModelFSDv10~v11FSDv12備注:1)FSDv11相比v10核心迭代在于learning-base神經(jīng)網(wǎng)絡(luò)基本主導(dǎo)規(guī)控環(huán)節(jié),因此體驗(yàn)更流暢;2)國內(nèi)車企對(duì)比以各家公開的產(chǎn)品功能落地和研究宣發(fā)為準(zhǔn),不代表車企自身的內(nèi)部非公開研發(fā)規(guī)劃;3)參考特斯拉,各玩家智駕等級(jí)迭代較快,需高頻跟蹤,當(dāng)前水平劃分不代表長(zhǎng)期。特斯拉FSD版本算法架構(gòu)對(duì)應(yīng)智駕功能對(duì)應(yīng)落地時(shí)間國內(nèi)車企當(dāng)前水平對(duì)應(yīng)階段FSD

Betav9~v10BEV+Transformer城市領(lǐng)航落地2021.07之后小米FSD

Betav10.11FSD

Betav11.3FSD

v12占用網(wǎng)絡(luò)城市領(lǐng)航快速鋪開2022.042023Q22024Q1理想/蔚來/百度/小鵬感知端到端,規(guī)控環(huán)節(jié)rule-base比例降低城市+高速+泊車等全場(chǎng)景貫通世界模型下全棧端到端

全場(chǎng)景貫通且逐步迭代為零接管24H2起/小鵬陸續(xù)迭代方向(規(guī)劃階段,尚未落地)數(shù)據(jù):汽車之心,東吳證券研究所繪制39:ADS3.0落地端到端,數(shù)據(jù)引擎加速迭代?ADS智駕系統(tǒng)歷經(jīng)三次迭代:2021~2023年,BEV+GOD(類似于占用網(wǎng)絡(luò))支持感知端大模型化,實(shí)現(xiàn)感知維度端到端,在感知硬件逐步簡(jiǎn)化的同時(shí)支持無圖模式城市NCA加速開放;2024年重磅迭代模塊化端到端,覆蓋感知及規(guī)控環(huán)節(jié),全場(chǎng)景貫通。圖:ADS持續(xù)進(jìn)化歷史迭代ADS2.0版本ADS1.02021.4ADS3.0發(fā)布時(shí)間2023.42024.4模塊化模塊化,感知端到端BEV網(wǎng)絡(luò)+GOD網(wǎng)絡(luò)識(shí)別異形障礙物,無圖化,泛化能力提升感知GOD大網(wǎng),規(guī)控決策PDP端到端GOD大網(wǎng),輸入PDP端到端落地全面的物理世界理解,感知場(chǎng)景語義架構(gòu)BEV網(wǎng)絡(luò)軟件白名單目標(biāo)+道路結(jié)構(gòu),需要高精地感知方式增強(qiáng)功能視覺傳感器毫米波圖城區(qū)道路NAC、LAEB、GAEB、ELKA、城區(qū)LCCPLUS、哨兵模式全場(chǎng)景貫通NCA,CAS

3.0、ESA、車位到車位NCA、窄空間泊車L2級(jí)別LCC13顆11顆,前擋風(fēng)減少2顆攝像頭+全融合6顆,3D毫米波2顆,3D毫米波升級(jí)為4D毫米波,性能提升35%硬件3顆,等效96線半固態(tài)激光1顆,速騰聚創(chuàng)(車頂)2.8EFLOPS(截至2023年11月)L2+192線,增強(qiáng)全天候、小目標(biāo)檢測(cè)能力前保1顆+前保側(cè)面2顆云端算力3.5EFLOPSL3-L5智駕功能定位L2中高端:含1/3顆激光+4D毫米波解決方案全系標(biāo)配全系標(biāo)配入門級(jí):視覺ADS,支持高速NCA應(yīng)用車型北汽極狐α、阿維塔問界/智界/享界全系-數(shù)據(jù):官網(wǎng),汽車之家,東吳證券研究所40小鵬XBrain架構(gòu)面向全場(chǎng)景智駕:Xnet+XPlanner?

軟件維度:小鵬Xpilot/XNGP/XNGP+迭代圍繞【增加learning-base使用率,端到端全覆蓋】的目標(biāo)架構(gòu),XNGP落地BEV+Transformer架構(gòu)實(shí)現(xiàn)感知維度端到端,規(guī)控環(huán)節(jié)逐步引入learning-base;2024年XNGP+有望在rule-base基礎(chǔ)上實(shí)現(xiàn)感知-規(guī)控模塊化端到端XBrain。?

Xbrain:XNet

2.0融合了行業(yè)最高精度的純視覺占據(jù)網(wǎng)絡(luò),可實(shí)現(xiàn)動(dòng)/靜態(tài)BEV、占據(jù)網(wǎng)絡(luò)三網(wǎng)合一;基于神經(jīng)網(wǎng)絡(luò)的XPlanner可結(jié)合分鐘級(jí)以上的時(shí)序連續(xù)動(dòng)機(jī),并依據(jù)周邊環(huán)境信息及時(shí)變通,生成最佳運(yùn)動(dòng)軌跡。5月OTA上車的XNGP+將實(shí)現(xiàn)上述感知大模型升級(jí)和規(guī)控大模型上車。圖:小鵬汽車Xbrain終極架構(gòu)數(shù)據(jù):小鵬汽車2023年1024科技日,東吳證券研究所41理想:感知端到端落地,規(guī)則驅(qū)動(dòng)向認(rèn)知驅(qū)動(dòng)演變?

軟件維度:理想AD

Max實(shí)現(xiàn)感知大模型落地,AD

Pro預(yù)計(jì)24年中迭代與Max技術(shù)路線趨同;2024年理想預(yù)計(jì)完成規(guī)控環(huán)節(jié)端到端落地,實(shí)現(xiàn)全技術(shù)??捎?xùn)練的“端到端模型化”。?

展望未來,理想基于【認(rèn)知模型】(即特斯拉世界模型)做預(yù)研,目標(biāo)是開發(fā)L4場(chǎng)景,基于1.4EFLOPS云端算力,更充分的利用多模態(tài)AIGC,短期進(jìn)行場(chǎng)景重建和衍生,加速仿真數(shù)據(jù)生成和算法訓(xùn)練;中長(zhǎng)期做到知識(shí)驅(qū)動(dòng)形式的“場(chǎng)景理解”,真正實(shí)現(xiàn)L4覆蓋100%的Corner

Case。圖:理想未來智駕算法迭代的思維框架圖:理想關(guān)于不同級(jí)別智駕的看法???規(guī)則驅(qū)動(dòng)---L2:2D/Mona

3D數(shù)據(jù)驅(qū)動(dòng)---L3:BEV/端到端認(rèn)知驅(qū)動(dòng)---L4:VLM/世界模型數(shù)據(jù):英偉達(dá)GTC大會(huì)2024,東吳證券研究所42蔚來:NT2.0硬件標(biāo)配,感知端到端對(duì)標(biāo)FSD

v10+?

蔚來自NT2.0平臺(tái)起加速自研算法迭代,24年4月底迭代全域領(lǐng)航NOP+,對(duì)標(biāo)FSD

v10+。?

硬件維度:蔚來自NT2.0平臺(tái)起全系切換英偉達(dá),標(biāo)配4*OrinX芯片(2主控/1冗余/1訓(xùn)練)以及1激光/11攝像頭+5毫米波+12超聲波,標(biāo)配硬件支持3.8EFLOPS端云一體化算力。?

功能維度:蔚來于23年初上車自研高速NOP領(lǐng)航智駕,23年中/底分別將BEV/占用網(wǎng)絡(luò)架構(gòu)迭代上車,23年底/24Q1城市領(lǐng)航分別開城6/20萬km,24年4月底實(shí)現(xiàn)全域領(lǐng)航輔助NOP+推送。?

軟件維度:落地感知維度端到端,全域推送NOP。蔚來打造NAD

Arch智能駕駛架構(gòu),該架構(gòu)包含Lane

2.0感知網(wǎng)絡(luò)、NADCloudM云、NADHVH等算法模型應(yīng)用。其中,Lane

2.0可支持城區(qū)場(chǎng)景路口通行的實(shí)時(shí)感知,NADCloud

M可借助云端大模型,提升感知能力;而NADHVN可通過數(shù)據(jù)驅(qū)動(dòng)的規(guī)劃網(wǎng)絡(luò),使全域領(lǐng)航輔助NOP+擁有更細(xì)膩的交互能力。表:蔚來NT2.0平臺(tái)車型智駕功能迭代歷史日期版本新增智駕內(nèi)容2022/8/19Banyan1.1.0視覺融合泊車SAPA、前向碰撞預(yù)警FCW、自動(dòng)緊急制動(dòng)AEB2022/12/202023/3/172023/6/302023/11/152023/11/222024/1/272024/4/30Banyan1.2.0Banyan1.3.0Banyan2.0.0Banyan2.2.0Banyan2.3.0Banyan2.4.0Banyan2.6.0ET7車輛近距召喚23年元旦試運(yùn)行,3月底向全量用戶推送高速領(lǐng)航:NOP+Beta增強(qiáng)領(lǐng)航輔助功能優(yōu)化、全車型近距召喚、視覺融合泊車增強(qiáng)、緊急車道保持動(dòng)態(tài)環(huán)境模擬現(xiàn)實(shí)2.0(ESD)、輔助遙控泊車(RPA)、全新BEV升級(jí)NOP+連續(xù)性高速領(lǐng)航輔助駕駛”零接管“成為可能、泊車高頻一把泊入更名為“全域領(lǐng)航輔助

NOP+”,開城6萬km4D路況舒適領(lǐng)航、GOA通用障礙物預(yù)警、輔助Beta通用障礙物識(shí)別、全向AEB全域領(lǐng)航輔助

NOP

+全量推送:增強(qiáng)車道居中輔助、全場(chǎng)景誤加速抑制輔助、GOA通用障礙物預(yù)警及輔助數(shù)據(jù):蔚來官網(wǎng),東吳證券研究所43極越:百度智駕賦能,LD地圖+視覺大模型上車?

極越以吉利+百度合作賦能,利用百度自研LD車道級(jí)地圖,堅(jiān)持純視覺智駕方案,迅速追趕。?

硬件維度:極越外采英偉達(dá)雙Orin芯片,采用11攝像頭/5毫米波/12超聲波感知硬件,通過無激光

的視覺方案實(shí)現(xiàn)L3高階智駕功能;同時(shí)云端百度2.2EFLOPS算力加速算法訓(xùn)練。?

功能維度:極越于2024年初OTA

V1.3實(shí)現(xiàn)北上深杭廣五城高精地圖加持下的城市24H1開放300城,24年全年實(shí)現(xiàn)全國覆蓋(有百度地圖的地方均可使用)。預(yù)計(jì)?

軟件維度:1)大模型通用純視覺方案上車,類比特斯拉FSDv10+階段:百度VTA視覺大模型實(shí)現(xiàn)感知端到端,OCC感知模型實(shí)現(xiàn)占用網(wǎng)絡(luò)+Transformer加持后對(duì)通用異形障礙物的檢測(cè)。2)LD智駕車道地圖形成差異化:由視覺大模型端到端生成,保留必要精度基礎(chǔ)上增加經(jīng)驗(yàn)地圖+安全圖層+實(shí)時(shí)圖層,目前已覆蓋全國360城,支持全國都能開。圖:百度OCC占據(jù)網(wǎng)絡(luò)-通用障礙物檢測(cè)能力覆蓋行泊全場(chǎng)景表:百度極越智駕關(guān)鍵迭代歷程迭代歷程時(shí)間功能OCC模型上車,開城北上OTAV1.32024.01.14

深杭,泊車效率優(yōu)化,行車邏輯優(yōu)化1、視覺大模型發(fā)布上車,升級(jí)靜態(tài)檢測(cè)、時(shí)序跟蹤、實(shí)時(shí)2024.03.25

建圖、場(chǎng)景理解等能力,新增開城廣州;OTAV1.4.02、推出百度LD車道智駕地圖OTAV2.0即將上線全國都能開的數(shù)據(jù):極越官網(wǎng),東吳證券研究所44長(zhǎng)城毫末:DriveGPT構(gòu)建大模型,落地端到端?

長(zhǎng)城毫末持續(xù)深耕智駕大模型上車,自研生成式大模型圖:長(zhǎng)城汽車毫末技術(shù)棧以及產(chǎn)品棧DriveGPT

雪湖·海若充分展現(xiàn)公司在數(shù)據(jù)的篩選挖掘、自動(dòng)標(biāo)注、生成仿真以及認(rèn)知可解釋性等領(lǐng)域的技術(shù)積累,算法領(lǐng)域聚焦感知/認(rèn)知(即規(guī)控)大模型車云一體端到端,感知端引入多模態(tài),認(rèn)知端借助外部大語言模型

LLM

的海量知識(shí)來輔助給出駕駛決策。?

產(chǎn)品維度,毫末已推出三代七款智能駕駛產(chǎn)品,可滿足高、中、低價(jià)位不同車型的量產(chǎn)需求。其中,HP170、HP370、HP570三款千元級(jí)輔助駕駛產(chǎn)品,已陸續(xù)進(jìn)入交付狀態(tài)。數(shù)據(jù):小鵬汽車2023年1024科技日,東吳證券研究所454.2第三方智駕算法公司Momenta:兩條腿走路,閉環(huán)數(shù)據(jù)驅(qū)動(dòng)算法迭代?

Momenta,成立于2016年,以“Better

AL,Better

Life”為使命,歷史融資12+億美元,先后完成大數(shù)據(jù)&大模型平臺(tái)建設(shè)、感知規(guī)控全流程算法構(gòu)建、不同級(jí)別智駕軟件解決方案三階段。?

核心優(yōu)勢(shì):1)全流程數(shù)據(jù)驅(qū)動(dòng)算法,包括感知/融合/預(yù)測(cè)和規(guī)控等算法模塊,都可通過數(shù)據(jù)驅(qū)動(dòng)的方式低成本高效的迭代更新;2)閉環(huán)自動(dòng)化,自動(dòng)篩選海量黃金數(shù)據(jù),驅(qū)動(dòng)算法的自動(dòng)迭代。?

產(chǎn)品解決方案:1)MSD(Momenta

Self-Driving),L4,是Momenta

完全無人駕駛解決方案,廣泛應(yīng)用于出租車和私家車等場(chǎng)景;2)Mpilot是針對(duì)私家車前裝可量產(chǎn)的高度自動(dòng)駕駛?cè)珬J浇鉀Q方案,主要的核心產(chǎn)品包括Mpilot

X等端到端的全場(chǎng)景,連續(xù)的高度自動(dòng)駕駛解決方案,并可通過Open

Solution適配英偉達(dá)、高通等主流芯片硬件和傳感器平臺(tái),逐步落地端到端。圖:Momenta自動(dòng)駕駛算法框架數(shù)據(jù):公司官網(wǎng),東吳證券研究所47商湯:UniAD迭代DriveAGI,前瞻布局行業(yè)領(lǐng)先?

商湯科技于2016年開始布局車輛業(yè)務(wù),聚焦艙駕兩面,2022年底推出基于5R11V方案的高速NOA,而后持續(xù)發(fā)展布局城市等全場(chǎng)景道路。?

2024年商湯絕影UniAD方案首秀,將感知、決策

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論