版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
證券研究報(bào)告·
行業(yè)研究·
汽車與零部件AI+汽車智能化系列之五——智駕算法步入深水區(qū),頭部玩家有望持續(xù)領(lǐng)跑2024年5月31日核心結(jié)論?
何謂“大模型”?大數(shù)據(jù)喂養(yǎng)神經(jīng)網(wǎng)絡(luò)算法,設(shè)定規(guī)則機(jī)制使其自成長(zhǎng)。1)多模態(tài)數(shù)據(jù)是基礎(chǔ),包括文本/圖像/音頻/視頻等在內(nèi)的多類型數(shù)據(jù)喂養(yǎng),驅(qū)動(dòng)算法更好完成理解/生成等任務(wù)。2)Transformer是核心,Self-Attention機(jī)制強(qiáng)化算法抽象特征提取能力,并支持并行計(jì)算,高能且高效,衍生ViT/DiT支持多模態(tài)數(shù)據(jù)理解/生成。3)ChatGPT及Sora為代表應(yīng)用,在大參數(shù)加持下,開發(fā)多模態(tài)自然語言處理以及文生視頻等功能。4)世界模型為未來方向,算法能力由數(shù)據(jù)驅(qū)動(dòng)演變?yōu)檎J(rèn)知驅(qū)動(dòng),模型具備反事實(shí)推理和理解物理客觀規(guī)律的能力,提升通用泛化特性。?
大模型重塑車端算法架構(gòu),加速云端算法迭代;世界模型或?yàn)橥耆詣?dòng)駕駛最優(yōu)解。智駕一階段(L2~L3)脫胎換骨:由場(chǎng)景驅(qū)動(dòng)轉(zhuǎn)向數(shù)據(jù)驅(qū)動(dòng),大模型帶來底層架構(gòu)質(zhì)變;智駕二階段(L3~L4)厚積薄發(fā):由數(shù)據(jù)驅(qū)動(dòng)轉(zhuǎn)向認(rèn)知驅(qū)動(dòng),數(shù)據(jù)和算力逐步累計(jì)驅(qū)動(dòng)能力提升,量變引起質(zhì)變。1)車端:上層感知/規(guī)控應(yīng)用層算法隨功能需求提升持續(xù)進(jìn)化,“場(chǎng)景理解處理能力泛化”是核心訴求。L2~L3,感知端為升級(jí)核心,Transformer加持BEV+占用網(wǎng)絡(luò)算法落地感知端到端,解決長(zhǎng)尾場(chǎng)景識(shí)別難題;L3~L4以規(guī)控算法升級(jí)為核心,精準(zhǔn)識(shí)別并快速處理,Learning-base逐步取代Rule-base,端到端拉高場(chǎng)景處理能力的天花板。2)云端:數(shù)據(jù)閉環(huán)為前提,加速大數(shù)據(jù)有效利用,采集/標(biāo)注/仿真/訓(xùn)練/部署一體化。Transformer賦能自動(dòng)標(biāo)注,數(shù)據(jù)驅(qū)動(dòng)場(chǎng)景仿真泛化,降低對(duì)有限的實(shí)際路測(cè)數(shù)據(jù)的依賴。3)世界模型【通用具身智能】或?yàn)樽詣?dòng)駕駛最優(yōu)解。車端場(chǎng)景生成泛化,將自動(dòng)駕駛問題轉(zhuǎn)化為預(yù)測(cè)視頻的下一幀,類人模式處理,實(shí)現(xiàn)泛化至數(shù)據(jù)場(chǎng)景以外的能力;并可快速生成標(biāo)準(zhǔn)化仿真數(shù)據(jù),結(jié)合大算力加速云端訓(xùn)練。?
算法實(shí)現(xiàn)高壁壘+數(shù)據(jù)閉環(huán)硬要求,未來智駕算法產(chǎn)業(yè)格局趨于集中化。當(dāng)前下游L3+高階算法方案以O(shè)EM自研為主,以“算法賦能,數(shù)據(jù)回傳”的形式深度綁定OEM;L3以下算法呈現(xiàn)OEM+獨(dú)立算法商+硬件商三足鼎立格局。我們認(rèn)為,考慮高階智駕功能的提升對(duì)于算法能力/組織架構(gòu)/超算中心/完整數(shù)據(jù)鏈等的要求,未來“掌握硬件的基礎(chǔ)上去發(fā)展軟件”或?yàn)橹髁鳎凑莆毡趬咀罡叩挠布酒惶峁┬詢r(jià)比最高的硬件——傳感器;掌握粘性最強(qiáng)的硬件——整車。2核心結(jié)論?
投資建議:汽車AI智能化轉(zhuǎn)型大勢(shì)所趨,算法為主干,看好頭部算法玩家持續(xù)領(lǐng)先鑄就高壁壘。?
全行業(yè)加速智能化轉(zhuǎn)型,產(chǎn)業(yè)趨勢(shì)明確。下游OEM玩家+中游Tier供應(yīng)商均加大對(duì)汽車智能化投入,大勢(shì)所趨;智駕核心環(huán)節(jié)【軟件+硬件+數(shù)據(jù)】均圍繞下游OEM展開,數(shù)據(jù)催化算法提效進(jìn)而驅(qū)動(dòng)硬件迭代。以特斯拉為代表,應(yīng)用算法向全棧端到端-世界模型持續(xù)迭代,功能落地兌現(xiàn)。?
OEM整車廠商&核心芯片硬件廠商&智駕傳感器廠商&獨(dú)立算法商加速布局端到端算法開發(fā),場(chǎng)景驅(qū)動(dòng)-數(shù)據(jù)驅(qū)動(dòng)-認(rèn)知驅(qū)動(dòng)持續(xù)進(jìn)化;智駕算法產(chǎn)業(yè)發(fā)展進(jìn)入深水區(qū),高投入賦能【大算力+大數(shù)據(jù)】,方能走通L3有條件自動(dòng)駕駛至L4完全自動(dòng)駕駛之路。?
看好智駕頭部車企以及智能化增量零部件:1)系玩家【長(zhǎng)安汽車+賽力斯+江淮汽車】,關(guān)注【北汽藍(lán)谷】;2)頭部新勢(shì)力【小鵬汽車+理想汽車】;3)加速轉(zhuǎn)型【吉利汽車+上汽集團(tuán)+長(zhǎng)城汽車+廣汽集團(tuán)】;4)智能化核心增量零部件:域控制器(德賽西威+經(jīng)緯恒潤(rùn)+華陽集團(tuán)+均勝電子等)+線控底盤(伯特利+耐世特+拓普集團(tuán)等)。?
風(fēng)險(xiǎn)提示:智能駕駛相關(guān)技術(shù)迭代/產(chǎn)業(yè)政策出臺(tái)低于預(yù)期;/小鵬等車企新車銷量低于預(yù)期。3目錄一、何謂“大模型”?二、車端:大模型重塑智駕算法架構(gòu)三、云端:大模型加速智駕算法迭代四、當(dāng)前產(chǎn)業(yè)玩家的智駕算法能力如何?五、投資建議與風(fēng)險(xiǎn)提示一、何謂“大模型”?機(jī)器學(xué)習(xí):以設(shè)定規(guī)則+數(shù)據(jù)喂養(yǎng)驅(qū)動(dòng)算法自成長(zhǎng)圖:機(jī)器學(xué)習(xí)?
機(jī)器學(xué)習(xí)>神經(jīng)網(wǎng)絡(luò)>深度學(xué)習(xí)≈深度神經(jīng)網(wǎng)絡(luò)。機(jī)器學(xué)習(xí)用于解決由人工基于
if-else
等規(guī)則開發(fā)算法而導(dǎo)致成本過高的問題,想要通過幫助機(jī)器
“發(fā)現(xiàn)”
它們
“自己”解決問題的算法來解決;機(jī)器學(xué)習(xí)可以分為有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等三類。?
深度學(xué)習(xí)是基于深度神經(jīng)網(wǎng)絡(luò)的,而神經(jīng)網(wǎng)絡(luò)算法是機(jī)器學(xué)習(xí)模型的一
個(gè)
分
支
,
包
括
卷
積
神
經(jīng)
網(wǎng)
絡(luò)CNN/循環(huán)神經(jīng)網(wǎng)絡(luò)RNN等等,自注意力機(jī)制(Transformer)則是基于全連接神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的衍生。?
深度學(xué)習(xí)使用多層神經(jīng)網(wǎng)絡(luò),從原始輸入中逐步提取更高層次更抽象的特征用于后續(xù)算法識(shí)別,處理大規(guī)模數(shù)據(jù)是其核心優(yōu)勢(shì)。當(dāng)前,深度學(xué)習(xí)已經(jīng)應(yīng)用到包括圖像識(shí)別、自然語言處理、語音識(shí)別等各領(lǐng)域。數(shù)據(jù):IBM官網(wǎng),東吳證券研究所6大模型:大規(guī)模參數(shù)賦能神經(jīng)網(wǎng)絡(luò),持續(xù)優(yōu)化?
AI大模型是指具有超大規(guī)模參數(shù)(通常在十億個(gè)以上)、超強(qiáng)計(jì)算資源的機(jī)器學(xué)習(xí)模型,其目標(biāo)是通過增加模型的參數(shù)數(shù)量來提高模型的表現(xiàn)能力,它們能夠處理海量數(shù)據(jù),完成各種復(fù)雜任務(wù)。AI大模型的原理是基于神經(jīng)網(wǎng)絡(luò)和大量數(shù)據(jù)的訓(xùn)練,模型通過模擬人腦的神經(jīng)元結(jié)構(gòu),對(duì)輸入數(shù)據(jù)進(jìn)行多層抽象和處理,從而實(shí)現(xiàn)對(duì)復(fù)雜任務(wù)的學(xué)習(xí)和預(yù)測(cè)。AI大模型的訓(xùn)練主要分為:數(shù)據(jù)預(yù)處理、模型構(gòu)建、橫型訓(xùn)練、模型評(píng)估等幾大步驟,如下:圖:AI算法訓(xùn)練數(shù)
據(jù)
預(yù)
處
理2構(gòu)
建
神
經(jīng)
網(wǎng)
絡(luò)32
前
向
傳
播1接下來,根據(jù)
任
務(wù)
需
求首先,需要對(duì)
原
始
數(shù)將經(jīng)過預(yù)處理
的
數(shù),設(shè)計(jì)并搭建
一
個(gè)神
經(jīng)
網(wǎng)
絡(luò)。神經(jīng)網(wǎng)絡(luò)通
常
由多
個(gè)
層
次組成,每個(gè)層
次
包含
若
干
個(gè)神經(jīng)元。神經(jīng)
元
之間
通
過
權(quán)重連接,用于
表
示輸
入
數(shù)
據(jù)與輸出數(shù)據(jù)之
間
的關(guān)
系
。激
活
函
數(shù)4據(jù)進(jìn)行清洗、
整
理和
標(biāo)
注,以便為模型
提
供合
適
的輸入。這一階
段
可能
包
括去除噪聲、填
充
缺失
值
、歸一化等操作
。據(jù)輸入到神經(jīng)
網(wǎng)
絡(luò)中
,按照權(quán)重計(jì)算
得
出各
層神經(jīng)元的輸出
。
這個(gè)
過程稱為前向傳
播
。在神經(jīng)網(wǎng)絡(luò)的
每
一
層
之
后,通常會(huì)使用
激
活函
數(shù)
(如ReLU、Sigmoid或Tanh等)對(duì)輸出進(jìn)行
非
線性
變
換
,
以增加模型的表
達(dá)
能力
。損
失
函
數(shù)5根據(jù)損失函數(shù)
,
選
擇合適的優(yōu)化算
法
(如
梯
度
下
橫型在訓(xùn)練集
上
達(dá)到
滿
意
的
性降、隨機(jī)梯度
下
降、
能。為了防止
過
擬合
,
還
需
要Adam等)來
更
新
神
經(jīng)
網(wǎng)絡(luò)
在驗(yàn)證集上評(píng)
估
模型
的
泛
化
能重復(fù)執(zhí)行上述
步
驟,
直
到為了衡量模型
預(yù)
測(cè)
結(jié)果與真實(shí)目標(biāo)
之
間的
差
距,需要定義一
個(gè)
損失
函
數(shù)。損失函數(shù)會(huì)
計(jì)
算預(yù)
測(cè)
誤差,并將其作
為
優(yōu)化
目
標(biāo)。常見的損失
函
數(shù)有
均
方誤差(MSE)、
交
叉熵
損失(Cross-EntropyLoss)等。當(dāng)模型在訓(xùn)練集和驗(yàn)證集上
表
現(xiàn)良好時(shí),可以
將
數(shù)據(jù)模型進(jìn)行部
署
和使用。中的權(quán)重和偏
置
,以
減
小損失函數(shù)的值
。
這個(gè)
過
程稱為反向傳播
。力。如果發(fā)現(xiàn)
模
型在
驗(yàn)
證
集
上的表現(xiàn)不佳,
可
以調(diào)
整
網(wǎng)
絡(luò)
結(jié)構(gòu)、超參數(shù)或
訓(xùn)
練策
略
等
。八
個(gè)
步
驟優(yōu)
化
算
法訓(xùn)
練
與
驗(yàn)
證部
署
與
使
用678數(shù)據(jù):CSDN,東吳證券研究所繪制7大模型:強(qiáng)泛化為核心優(yōu)勢(shì),聚焦自然語言處理?
AI大模型能夠處理以下幾類核心問題:1)自然語言處理:以GPT-3和BERT為例,
AI大模型通過學(xué)習(xí)海量的語料庫和上下文,讓計(jì)算機(jī)更加準(zhǔn)確地理解和處理自然語言,如翻譯、問答、分詞、文本生成等領(lǐng)域。2)計(jì)算機(jī)視覺:以ResNet和EficientNet為例,AI大模型通過學(xué)習(xí)大量的圖像數(shù)據(jù)和構(gòu)建更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò),使計(jì)算機(jī)能夠?qū)D像進(jìn)行更加準(zhǔn)確的識(shí)別和分析,包括目標(biāo)檢測(cè)、圖像分類、語義分割等領(lǐng)域。3)語音識(shí)別和生成。通過以上幾類問題的解決,AI大模型可以進(jìn)一步通過自動(dòng)化和智能化的方式提高生產(chǎn)效率,在部分工業(yè)領(lǐng)域可以實(shí)現(xiàn)人機(jī)合作或自動(dòng)化,減少人力成本。圖:AI大模型的優(yōu)劣勢(shì)分析優(yōu)
點(diǎn)1
.
更
準(zhǔn)
確
:
A
I
大
模
型
有
更
多
的
參
數(shù)
,
能
夠
處理
更
復(fù)
雜
的
信
息
和
更
深
入
的
上
下
文
,
提
高
了精
度
和
準(zhǔn)
確
性
。2
.
更
智
能
:
A
I
大
模
型
能
夠
模
擬
人
類
的
思
維
和
學(xué)習(xí)
模
式
,
通
過
大
量
的
訓(xùn)
練
數(shù)
據(jù)
,
從
而
提
高
人工
智
能
的
智
能
性3
.
更
具
通
用
性
:
A
I
大
模
型
能
夠
自
適
應(yīng)
不
同
的工
作
和
環(huán)
境
,
可
以
適
應(yīng)
各
種
不
同
的
自
然
語
言、
視
覺
和
聲
音
數(shù)
據(jù)
。4
.
更
加
高
效
:
A
I
大
模
型
通
過
并
行
計(jì)
算
和
分
布
式訓(xùn)
練
,
大
大
提
高
了
計(jì)
算
效
率
,
能
夠
在
短
時(shí)
間
內(nèi)處
理
大
量
的
數(shù)
據(jù)
。數(shù)據(jù):CSDN,東吳證券研究所8Transformer:架構(gòu)變化的核心,多模態(tài)理解的關(guān)鍵?
Transformer是本輪大模型顛覆全行業(yè)算法架構(gòu)的核心,也是多模態(tài)模型相比之前單一文本理解模型提升的關(guān)鍵,Transformer賦予算法更精準(zhǔn)的特征提取能力,強(qiáng)化理解和識(shí)別功能,其獨(dú)特的自注意力機(jī)制是靈魂,即Attention
isall
you
need。?
Transformer的優(yōu)勢(shì)在于:1)自注意力機(jī)制賦予的長(zhǎng)依賴語義問題(捕捉間隔較遠(yuǎn)的詞之間的語義聯(lián)系問題);2)支持并行計(jì)算,可極大的提升大模型數(shù)據(jù)處理效率。圖:Transformer的原理機(jī)制自注意力機(jī)制:查詢/定位,賦予權(quán)重(即注意力),多頭即多個(gè)維度計(jì)算相似度特征,保證充分性。優(yōu)勢(shì):自注意力機(jī)制不同于RNN,無主次先后,可支持并行計(jì)算,同時(shí)利用位置編碼和權(quán)重賦予進(jìn)行定位和篩選。?
input
embedding是編碼器的輸入,?
output
embedding是解碼器的輸入?
PositionalEncoding代表位置編碼,記住順序?
Encoder和Decoder分別有6層(blocks),
Encoder負(fù)責(zé)特征提取,
Decoder則利用特征來完成識(shí)別、分類、回歸等任務(wù)?
解碼后輸出結(jié)果數(shù)據(jù):CSDN,東吳證券研究所9多模態(tài)大模型:多類別數(shù)據(jù)輸入,算法不斷進(jìn)化?
由理解內(nèi)容至生成內(nèi)容,多模態(tài)大語言模型持續(xù)進(jìn)化。多模態(tài)模型是一種能夠處理多種類型數(shù)據(jù)(如文本、圖像、音頻和視頻)的人工智能模型。這種模型的目標(biāo)是通過結(jié)合不同類型的數(shù)據(jù)來提供更全面、更準(zhǔn)確的信息。在自然語言處理(NLP)領(lǐng)域,多模態(tài)模型可以用于機(jī)器翻譯、情感分析、文本摘要等任務(wù)。在計(jì)算機(jī)視覺領(lǐng)域,多模態(tài)模型可以用于圖像分類、目標(biāo)檢測(cè)、人臉識(shí)別等任務(wù)。多模態(tài)大語言(MM-LLMs)即是將多模態(tài)模型與具備強(qiáng)大推理和生成能力的大語言模型結(jié)合的產(chǎn)物,其難點(diǎn)在于如何對(duì)齊本不兼容的圖像/視頻/文本等的編碼器。圖:多模態(tài)大模型以Transformer為基礎(chǔ),并行高效處理大規(guī)模參數(shù)落地為Sora數(shù)據(jù):CSDN,東吳證券研究所10算法框架:ViT為核心,多模態(tài)融合生成任務(wù)?
視覺表征主框架由CNN切換Transformer,即ViT,其多頭自注意力機(jī)制賦予模型并行高效計(jì)算以及把握前后長(zhǎng)時(shí)間依賴關(guān)系的能力,能夠同時(shí)接收來自文本/圖像/音頻/視頻的特征Token,并接入全鏈接層服務(wù)于下游的分類任務(wù)。ViT成功的秘訣在于大量的數(shù)據(jù)做預(yù)訓(xùn)練,如果沒有這個(gè)過程,在開源任務(wù)上直接訓(xùn)練,其效果仍會(huì)遜色于具有更強(qiáng)歸納偏置的CNN網(wǎng)絡(luò)。?
ViT步驟分為三大步:?
圖
形
切
塊
Patch
Embedding
;
位
置
編
碼
PositionEmbedding;?
特征提取Class
Token;注意力權(quán)重賦予TransformerEncoder;?
多頭輸出MLP
Head。數(shù)據(jù):CSDN,東吳證券研究所11CHAT
GPT橫空出世,持續(xù)進(jìn)化引領(lǐng)AIGC浪潮?
GPT1:用Transformer的解碼器和大量的無標(biāo)簽樣本去預(yù)訓(xùn)練一個(gè)語言模型,然后在子任務(wù)上提供少量的標(biāo)注樣本做微調(diào),就可以很大的提高模型的性能。?
GPT2:
Zero-shot,在子任務(wù)上不去提供任何相關(guān)的訓(xùn)練樣本,而是直接用足夠大的預(yù)訓(xùn)練模型去理解自然語言表達(dá)的要求,并基于此做預(yù)測(cè)。但GPT2性能差,有效性低。?
GPT3:few-shot
learning,兼顧少樣本和有效性。用有限的樣本,模型可以迅速學(xué)會(huì)任務(wù)。?
GPT4:GPT1~3本質(zhì)還是通過海量的參數(shù)學(xué)習(xí)海量的數(shù)據(jù),然后依賴transformer強(qiáng)大的擬合能力使得模型能夠收斂,因此不具備文本生成能力。
ChatGPT則在此基礎(chǔ)上,依賴指令學(xué)習(xí)(Instruction
Learning)和人工反饋強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)行訓(xùn)練,對(duì)原有模型進(jìn)行有監(jiān)督的微調(diào)(人工優(yōu)化數(shù)據(jù)集)+強(qiáng)化學(xué)習(xí)對(duì)模型生成結(jié)果進(jìn)行打分,提高泛化能力,在此基礎(chǔ)上loss持續(xù)迭代,生成正確結(jié)果。相比GPT3規(guī)模大幅提升,從1750億提升至1.8萬億,算力需求大幅提升。圖:ChatGPT模型的訓(xùn)練過程?
GPT4o:完全統(tǒng)一多模態(tài)。o即omni,意為
“全體”、“所有”或“全面的”,打通多模態(tài)間輸入交互,延遲降低并完全開放免費(fèi),并進(jìn)一步增強(qiáng)推理能力。但其依然是基于Transformer架構(gòu)去實(shí)現(xiàn)對(duì)于模態(tài)信息的理解和生成,因此并未有底層架構(gòu)的創(chuàng)新。數(shù)據(jù):CSDN,東吳證券研究所12Sora發(fā)揮DiT模型優(yōu)勢(shì),利用大數(shù)據(jù)實(shí)現(xiàn)文生視頻?
Sora模型充分利用擴(kuò)散模型(Diffusion
Model)精細(xì)化生成能力以及Transformer的前后文全局關(guān)系捕捉能力,實(shí)現(xiàn)視頻每一幀的圖像精確生成以及前后的時(shí)空一致性。?
Sora可以理解為是Open
AI大模型技術(shù)的完全集成,其原理可以分為三步:1)首先,模型將視頻壓縮到低維潛在空間中,然后將其分解為patch(類似于GPT中的Token),從而將視頻完全壓縮。2)其次,視頻patch在低維空間中訓(xùn)練,擴(kuò)散模型通過在訓(xùn)練數(shù)據(jù)上逐步添加高斯噪聲并學(xué)習(xí)如何逆向去除噪聲的過程來生成新數(shù)據(jù),并整合了Transformer的多頭注意力機(jī)制和自適應(yīng)層歸一化,提升擴(kuò)散模型在處理連續(xù)大規(guī)模視頻數(shù)據(jù)時(shí)的穩(wěn)定性和一致性。3)最后,模型通過對(duì)應(yīng)解碼器,將生成的元素映射回像素空間,完成視頻生成任務(wù)。?
Sora的核心DiT模型:Transformer架構(gòu)取代原有UNet架構(gòu)(本質(zhì)為CNN卷積神經(jīng)網(wǎng)絡(luò)),提升長(zhǎng)時(shí)間性能的同時(shí)具備可擴(kuò)展性+靈活性,并支持跨領(lǐng)域擴(kuò)展,或可應(yīng)用至自動(dòng)駕駛領(lǐng)域。圖:Sora文生視頻,DiT模型為基礎(chǔ)原理數(shù)據(jù):CSDN,東吳證券研究所13世界模型:通用人工智能AGI,預(yù)測(cè)未來?
視頻生成Video
Generation是世界模型World
Model的基礎(chǔ),Sora的成功使得DiT擴(kuò)散模型收斂為視頻生成的主導(dǎo)方式。基于對(duì)歷史信息的理解生成對(duì)于未來的預(yù)測(cè)進(jìn)而合理表征,并結(jié)合可能的行為action進(jìn)一步輔助預(yù)測(cè)可能的結(jié)果,可應(yīng)用于包括直接的視頻生成以及自動(dòng)駕駛和機(jī)器人等通用人工智能多個(gè)領(lǐng)域。?
基于數(shù)據(jù),超越數(shù)據(jù)。傳統(tǒng)大模型要適應(yīng)新的精細(xì)任務(wù)時(shí),必須基于數(shù)據(jù)對(duì)模型參數(shù)進(jìn)行全面微調(diào),依賴【預(yù)訓(xùn)練】環(huán)節(jié),不同任務(wù)與不同數(shù)據(jù)一一對(duì)應(yīng),模型專業(yè)化。相比過往大模型強(qiáng)調(diào)的模態(tài)信息理解的能力,世界模型更加注重【因果和反事實(shí)推理、模擬客觀物理定律】等規(guī)劃和預(yù)測(cè)的能力,并具備強(qiáng)泛化和高效率等性能表現(xiàn)。圖:世界模型數(shù)據(jù):論文《World
Modelsfor
Autonomous
Driving:
AnInitial
Survey》,東吳證券研究所14圍繞Transformer/LSTM構(gòu)建的世界模型運(yùn)行?
傳統(tǒng)的多子函數(shù)模塊化算法演變?yōu)槭澜缒P蛿?shù)據(jù)閉環(huán)訓(xùn)練,持續(xù)優(yōu)化提升算法認(rèn)知。世界模型在進(jìn)行端到端訓(xùn)練的過程為:?
觀測(cè)值經(jīng)過V(基于Transformer的Vision
Model,圖中為早先采用的VAE架構(gòu))提取feature,然后經(jīng)過M(基于LSTM的Memory)得到h(預(yù)測(cè)值),
最后預(yù)測(cè)值和歷史信息合并至C(Controller)得到動(dòng)作,
基于動(dòng)作和環(huán)境交互的結(jié)果產(chǎn)生新的觀測(cè)值,保障車輛做出合理行為。圖:傳統(tǒng)模塊化算法架構(gòu)【V+M+C】轉(zhuǎn)變?yōu)槎说蕉恕綱M輸出C】action數(shù)據(jù):論文《World
Modelsfor
Autonomous
Driving:
AnInitial
Survey》,東吳證券研究所15二、車端:大模型重塑智駕算法架構(gòu)智能駕駛軟件分類:底層調(diào)動(dòng)支持+上層應(yīng)用賦能?
底層調(diào)動(dòng)支持:1)異構(gòu)化底層軟件配合SoC異構(gòu)芯片支持不同類型的功能實(shí)現(xiàn)落地。用于智駕域控的SoC異構(gòu)芯片是高度集成化的,除多核CPU外,還會(huì)集成DSP/NPU或其它專用計(jì)算加速單元。在此硬件上進(jìn)行匹配的異構(gòu)軟件,多核CPU經(jīng)過虛擬化之后,可以在不同的虛擬機(jī)上運(yùn)行不同的操作系統(tǒng),例如運(yùn)行Linux來充分利用Linux社區(qū)豐富的軟件生態(tài),運(yùn)行QNX/VxWorks
來達(dá)到更好的實(shí)時(shí)性。2)SOA中間件提供標(biāo)準(zhǔn)化接口服務(wù)。SOA中間件能屏蔽不同服務(wù)間軟硬件異構(gòu)平臺(tái)的差異性,一方面讓異構(gòu)平臺(tái)都能夠以SOA的方式交互,另一方面讓通用的功能邏輯能在不同硬件平臺(tái)之間移植。比如將DSP或NPU的使用封裝在特定的庫中,對(duì)外呈現(xiàn)為標(biāo)準(zhǔn)SOA服務(wù)。3)軟件框架:即可復(fù)用的設(shè)計(jì)構(gòu)件,它規(guī)定了應(yīng)用的體系結(jié)構(gòu),代表已經(jīng)完成項(xiàng)目的底層開發(fā)基礎(chǔ)搭建,可以在其基礎(chǔ)上差異化開發(fā)的半成品。可以讓使用者減少很多重復(fù)的代碼、讓代碼的結(jié)構(gòu)更加清晰,耦合度更低,后期維護(hù)方便。?
上層應(yīng)用賦能:算法:即解決某一類問題的特定策略機(jī)制,不同算法解決同一問題時(shí)的質(zhì)量?jī)?yōu)劣不同,這將影響程序的效率。一個(gè)算法的評(píng)價(jià)主要從時(shí)間復(fù)雜度和空間復(fù)雜度來考慮。圖:汽車智能駕駛軟件層級(jí)架構(gòu)多自研,匹配上層應(yīng)用算法多采用第三方成熟系統(tǒng)數(shù)據(jù):CSDN,東吳證券研究所17底層支持:硬件調(diào)度,標(biāo)準(zhǔn)化接口賦能應(yīng)用軟件?
What:傳統(tǒng)汽車時(shí)代,狹義的操作系統(tǒng)指操作系統(tǒng)內(nèi)核;當(dāng)前智電汽車域控時(shí)代,系統(tǒng)更加復(fù)雜,因此需要基于內(nèi)核進(jìn)行大量工程優(yōu)化以后方可直接開發(fā)上層應(yīng)用軟件,中間件和功能軟件即由工程優(yōu)化算法標(biāo)準(zhǔn)化后所得。當(dāng)前廣義操作系統(tǒng)包括內(nèi)核以及中間件和功能軟件等幾部分。?
How:高性能、高安全、跨平臺(tái)、高效開發(fā)應(yīng)用。操作系統(tǒng)要求較強(qiáng)實(shí)時(shí)性,系統(tǒng)任務(wù)調(diào)度時(shí)鐘周期在毫秒級(jí);且提供高可靠性和較強(qiáng)功能安全。未來,行業(yè)艙駕一體化等集中式EE架構(gòu)還要求操作系統(tǒng)保證合理共享算力資源,支持系統(tǒng)快速OTA迭代。?
底層支持軟件相對(duì)標(biāo)準(zhǔn)化,通用性較強(qiáng)。1)操作系統(tǒng)內(nèi)核(Kernel):即為狹義操作系統(tǒng),如OSEK
OS、VxWorks、RT-Linux等。內(nèi)核提供操作系統(tǒng)最基本的功能,負(fù)責(zé)管理系統(tǒng)的進(jìn)程、內(nèi)存、設(shè)備驅(qū)動(dòng)程序、文件和網(wǎng)絡(luò)系統(tǒng),決定著系統(tǒng)的性能和穩(wěn)定性。2)中間件:處于應(yīng)用和操作系統(tǒng)之間的軟件,實(shí)現(xiàn)異構(gòu)網(wǎng)絡(luò)環(huán)境下軟件互聯(lián)和互操作等共性問題,提供標(biāo)準(zhǔn)接口、協(xié)議,具有較高的移植性,如POSIX/ARA(自適應(yīng)AutoSAR運(yùn)行時(shí)環(huán)境即中間件API接口)和DDS(分布式實(shí)時(shí)通信中間件)。3)功能軟件:主要指自動(dòng)駕駛的核心共性功能模塊。圖:汽車操作系統(tǒng)主流操作系統(tǒng)QNX特點(diǎn)可靠性很好,協(xié)議棧、各種外設(shè)驅(qū)動(dòng)穩(wěn)定,只是運(yùn)行所需資源有些多Linux實(shí)時(shí)性較差,但軟件資源內(nèi)容豐富VxWorks開發(fā)工具功能強(qiáng)大,使用方便,但是價(jià)格昂貴數(shù)據(jù):CSDN,東吳證券研究所18上層應(yīng)用算法:感知-規(guī)控-執(zhí)行三大模塊?
車端上層應(yīng)用算法分為感知(Perception)/規(guī)控(Planning
and
Decision)/執(zhí)行(Motionand
control)三大模塊。感知模塊的輸入可以是各種傳感器:攝像頭、激光、毫米波等,同時(shí)感知也會(huì)接受車身傳感器的信息來對(duì)感知結(jié)果進(jìn)行修正。決策規(guī)劃模型又分為行為決策、軌跡規(guī)劃、軌跡生成等模塊??刂颇K主要分為橫向控制與縱向控制,橫向控制主要是控制轉(zhuǎn)向系統(tǒng),縱向控制涉及油門與剎車的控制。?
模塊化的軟件算法早期具備可解釋性強(qiáng)、安全性強(qiáng)、靈活性高的優(yōu)點(diǎn),但過于依賴先驗(yàn)數(shù)據(jù),無法實(shí)時(shí)更新,且窮舉法終究沒辦法覆蓋所有長(zhǎng)尾場(chǎng)景,因此隨智駕等級(jí)提升,正逐漸被大模型端到端所取代。圖:智能駕駛應(yīng)用層算法分類數(shù)據(jù):CSDN,東吳證券研究所19算法持續(xù)升級(jí),多模態(tài)大模型重塑車端算法架構(gòu)?
多模態(tài)數(shù)據(jù)喂養(yǎng)軟件算法,驅(qū)動(dòng)功能進(jìn)化。硬件端升級(jí)提供多樣化數(shù)據(jù),智駕傳感器由單目視覺向雙目視覺以及視覺+的方向演變,多傳感器支持對(duì)周圍環(huán)境的更精確識(shí)別,圖像/點(diǎn)云等數(shù)據(jù)呈現(xiàn)方式多樣化,數(shù)據(jù)賦能算法升級(jí),支持智駕功能由L3級(jí)別以下向L3及以上迭代升級(jí)。?
場(chǎng)景泛化是智駕能力提升的重要方向,數(shù)據(jù)需求量激增驅(qū)動(dòng)算法由小模型切換為大模型。智駕軟件上層應(yīng)用算法中,感知能力提升核心系場(chǎng)景識(shí)別能力的泛化,規(guī)控能力提升核心系場(chǎng)景處理邏輯的泛化,均以有效數(shù)據(jù)量為核心驅(qū)動(dòng),數(shù)據(jù)處理/利用等是瓶頸。DNN/CNN/RNN小模型切換為Transformer大模型賦能多模態(tài)數(shù)據(jù)處理,重塑車端算法架構(gòu),以支持更高級(jí)別智駕功能。?
世界模型(自學(xué)習(xí),強(qiáng)泛化,高效率)或?yàn)橥ㄏ騆4級(jí)完全自動(dòng)駕駛的必由之路。數(shù)據(jù)賦能催化模型自學(xué)習(xí),理解物理世界基礎(chǔ)運(yùn)行規(guī)律,模型“認(rèn)知能力”提升,或可實(shí)現(xiàn)完全自動(dòng)駕駛。類型算法架構(gòu)DNN特征通過對(duì)像素級(jí)別進(jìn)行逐個(gè)對(duì)比,通過圖像特征進(jìn)行識(shí)別,精確,存儲(chǔ)簡(jiǎn)單,但計(jì)算量較大以“卷積-池化”的方式,將整幅圖按興趣區(qū)域
ROI
進(jìn)行特征分割后,分別對(duì)
ROI
進(jìn)行局部像素對(duì)比識(shí)別,相當(dāng)于在DNN基礎(chǔ)上進(jìn)行降維,特征提取降低計(jì)算量需求小模型CNNRNN在CNN基礎(chǔ)上引入循環(huán)核,便于處理時(shí)間序列圖像特征TransformerResNet基于特有的自注意力機(jī)制,能夠有效捕捉序列信息中長(zhǎng)距離依賴關(guān)系并支持并行計(jì)算,適合處理大量且多類型的數(shù)據(jù)深度卷積神經(jīng)網(wǎng)絡(luò),為解決隨網(wǎng)絡(luò)層數(shù)增加帶來的網(wǎng)絡(luò)退化(梯度消失和梯度爆炸)現(xiàn)象,殘差網(wǎng)絡(luò)使用跳躍連接實(shí)現(xiàn)信號(hào)跨層傳播大模型VQ-VAE以自編碼器將圖像壓縮為有限數(shù)量的向量集合,從而實(shí)現(xiàn)了高效的圖像表示和重構(gòu)GAN由生成器和判別器組成,生成器經(jīng)由輸入的噪聲向量輸出為假設(shè)圖像,判別器區(qū)分假設(shè)圖像和真實(shí)圖像并反饋訓(xùn)練,生成對(duì)抗網(wǎng)絡(luò)GAN驅(qū)動(dòng)生成更加逼真的圖像世界模型(基于Transformer的復(fù)合)人工智能系統(tǒng)構(gòu)建的對(duì)于現(xiàn)實(shí)世界的模擬與表達(dá),模型充分理解物理世界的客觀運(yùn)行規(guī)律數(shù)據(jù):CSDN,東吳證券研究所20功能維度:智駕功能迭代驅(qū)動(dòng),泛化是根本?
產(chǎn)業(yè)對(duì)于智駕功能持續(xù)迭代的訴求驅(qū)動(dòng)車端/云端算法持續(xù)升級(jí)。1)階段一:L3以下。OEM搜集數(shù)據(jù)清洗標(biāo)注后訓(xùn)練,算法基于特定規(guī)則,場(chǎng)景泛化能力較差,數(shù)據(jù)以及標(biāo)注工程師均為瓶頸。2)階段二:L3級(jí)別。Transformer賦能,大模型端到端算法落地,自動(dòng)化標(biāo)注多模態(tài)數(shù)據(jù),并快速提升數(shù)據(jù)利用效率,數(shù)據(jù)與算法能力形成正循環(huán),場(chǎng)景識(shí)別的泛化能力提升。3)階段三:L3以上。車端算法完全端到端,Learning-base主導(dǎo)算法訓(xùn)練,強(qiáng)化算法感知以及規(guī)控端的泛化能力,算法認(rèn)知規(guī)劃能力提升,逐步支持完全自動(dòng)駕駛。圖:智能駕駛功能提升與內(nèi)核技術(shù)迭代4完全無人駕駛,算法成熟,車端駕駛硬件減配;車云一體化提升。L5:無人駕
加速場(chǎng)景識(shí)別和處理邏輯的泛化駛或采用Rule-base3L3+
~L4:完
功能變化:場(chǎng)景覆蓋更全,無Corner
Case車端推理:全域端到端,泛化性更強(qiáng),認(rèn)知驅(qū)動(dòng)與Learning-base全自動(dòng)駕駛結(jié)合形式來過渡
云端訓(xùn)練:世界模型助力仿真,加速模型進(jìn)化2功能變化:由以人為主逐步轉(zhuǎn)向以車為主,新增高速/城區(qū)等道路領(lǐng)航。車端推理:Transformer助力感知端到端,規(guī)控主要依賴Rule-base。特斯拉HydraNet多頭任務(wù)處理加速數(shù)據(jù)訓(xùn)練推理L2+
~L3:有
條件自動(dòng)駕駛
云端訓(xùn)練:Transformer賦能自動(dòng)標(biāo)注,數(shù)據(jù)為瓶頸,數(shù)據(jù)驅(qū)動(dòng)。1功能變化:L1為車輛感知升級(jí),輔助跟車;L2增加車道保持,輔助變道等功能,不涉及底盤。車端推理:感知算法架構(gòu)采用DNN/CNN/RNN卷積神經(jīng)網(wǎng)絡(luò),規(guī)控完全依賴Rule-base。L1+L2:完全
輔助駕駛
云端訓(xùn)練:搜集路測(cè)數(shù)據(jù)人工清洗/標(biāo)注而后訓(xùn)練,人工標(biāo)注為瓶頸,工程師驅(qū)動(dòng)。數(shù)據(jù):東吳證券研究所繪制21L2~L3:精準(zhǔn)識(shí)別,人車共駕,感知為瓶頸?
精確感知為躍升L3的瓶頸,BEV+Transformer架構(gòu)上車支持產(chǎn)業(yè)化解決方案落地。L1-L2:智駕迭代主要集中在感知維度的升級(jí),不包含規(guī)控以及執(zhí)行端底盤的變化。由L2-L3的過程,則是由以人為主體逐步切換為人車共駕,【外部環(huán)境的精確感知問題】為瓶頸。當(dāng)前,低成本的軟件算法升級(jí)(BEV+Transformer)基本取代高成本解決方案(激光+高精地圖),推動(dòng)產(chǎn)業(yè)化。?
傳統(tǒng)CV小模型架構(gòu)下,感知能力升級(jí)更依賴硬件。依賴攝像頭+激光/毫米波
等能夠感知三維深度的硬件實(shí)時(shí)描繪周圍環(huán)境,并配合高精度地圖提供的先驗(yàn)信息輔助判斷;算法領(lǐng)域,以CNN卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像的特征提取和目標(biāo)識(shí)別,RNN大規(guī)模記憶處理時(shí)間序列數(shù)據(jù)。圖:智能駕駛感知CNN?
暴露問題:?
能力提升依賴龐大數(shù)據(jù)量,但數(shù)據(jù)量過大帶來:1)算法難以捕捉長(zhǎng)距離依賴關(guān)系;2)數(shù)據(jù)處理依賴人工,利用效率較低。?硬件成本過高且高精度地圖覆蓋面較窄。數(shù)據(jù):汽車之心,東吳證券研究所22L2~L3:精準(zhǔn)識(shí)別,人車共駕,感知為瓶頸?
精確感知為躍升L3的瓶頸,BEV+Transformer架構(gòu)上車支持產(chǎn)業(yè)化解決方案落地。?
BEV+Transformer大模型架構(gòu)賦能精準(zhǔn)感知【處理長(zhǎng)距離依賴關(guān)系+并行計(jì)算+統(tǒng)一融合】。?
Transformer以自注意力機(jī)制完成時(shí)間/空間關(guān)聯(lián),處理長(zhǎng)序列數(shù)據(jù)信息同時(shí)支持并行計(jì)算,提高效率。1)高效對(duì)多模態(tài)數(shù)據(jù)進(jìn)行特征提取,利用空間元素間的關(guān)聯(lián)關(guān)系進(jìn)行全局建模,實(shí)現(xiàn)特征增強(qiáng);2)利用元素與前后體之間的關(guān)聯(lián)關(guān)系,高效處理長(zhǎng)序列信息,避免重復(fù)遞歸/卷積。?
BEVFusion統(tǒng)一框架,實(shí)現(xiàn)多模態(tài)信息的精確端到端融合。用獨(dú)立流程分別處理和攝像頭數(shù)據(jù),然后在鳥瞰視圖(BEV)層面進(jìn)行融合,并擴(kuò)展到多任務(wù)、多傳感器框架,兼顧信息完整度和效率,標(biāo)準(zhǔn)化框架也便于數(shù)據(jù)清洗標(biāo)注。圖:Self-Attention(自注意力機(jī)制)原理圖:Transformer并行特征提取圖:BEV視圖進(jìn)行統(tǒng)一特征級(jí)融合數(shù)據(jù):汽車之心,東吳證券研究所23L3~L4:完全識(shí)別,自動(dòng)駕駛,全面泛化是前提?
全面泛化為躍升L4的瓶頸,World
Model世界模型(本質(zhì)為模型基于對(duì)客觀世界物理規(guī)律的理解進(jìn)行精準(zhǔn)預(yù)測(cè))或?yàn)榻K局解決方案。L4智駕要求完全自動(dòng)駕駛,相比L3智駕,其對(duì)車輛運(yùn)行過程中的場(chǎng)景識(shí)別以及預(yù)測(cè)規(guī)劃提出更高要求,強(qiáng)調(diào)【100%全面泛化】。因此,車輛自主控制階段的算法瓶頸轉(zhuǎn)變?yōu)椤救绾握_預(yù)測(cè)周圍環(huán)境變化并合理規(guī)劃行駛路徑】。?
世界模型或?yàn)長(zhǎng)4完全自動(dòng)駕駛終局解決方案,通過End-to-End算法+大數(shù)據(jù)閉環(huán)訓(xùn)練,培養(yǎng)算法認(rèn)
知
泛
化
能
力
,
實(shí)
現(xiàn)
【
通
用
具
身
智
能
】
。
World
Model
的
核
心
增
量
:
反
事
實(shí)
推
理(Counterfactual
reasoning),也即對(duì)于數(shù)據(jù)中沒有見過的決策,在world
model中都能推理出決策的結(jié)果。圖:模塊化算法架構(gòu)逐步迭代為端到端數(shù)據(jù):汽車之心,東吳證券研究所24WHY端到端?學(xué)習(xí)+理解+進(jìn)化,能力上限更高?
端到端架構(gòu)將感知-規(guī)控-執(zhí)行模塊串聯(lián)統(tǒng)一訓(xùn)練。?
優(yōu)點(diǎn):1)結(jié)構(gòu)簡(jiǎn)單直接,算法工作量較低,減少維護(hù)成本;傳統(tǒng)策略基于完整規(guī)則進(jìn)行控制,行為機(jī)械且代碼量大,據(jù)小鵬2022年,城市NGP代碼量是高速的88倍,端到端有明顯優(yōu)勢(shì),架構(gòu)和代碼方面一勞永逸,高度整合,省去獨(dú)立模塊開發(fā)以及數(shù)據(jù)人工標(biāo)注和規(guī)則設(shè)計(jì),降低成本。2)更利于追求“全局最優(yōu)解”,能力上限高,泛化能力更強(qiáng),完美應(yīng)對(duì)長(zhǎng)尾場(chǎng)景;基于規(guī)則的方案遇到未學(xué)習(xí)過的場(chǎng)景時(shí)無法做出良好的處理策略,且基于已有數(shù)據(jù)難以保證100%的場(chǎng)景數(shù)據(jù)覆蓋,傳統(tǒng)模式的最優(yōu)解理論上無法達(dá)成,端到端是通過對(duì)場(chǎng)景的理解進(jìn)行判斷,天花板更高。3)減少數(shù)據(jù)時(shí)延,便于車端迅速判斷,提升安全系數(shù)。?
缺點(diǎn):數(shù)據(jù)的針對(duì)性更弱、模型訓(xùn)練的信號(hào)更弱,意味著提升性能所需的數(shù)據(jù)量和算力規(guī)模更大。端到端的優(yōu)勢(shì)在數(shù)據(jù)量達(dá)到一定程度后性能顯著提高,但數(shù)據(jù)量較小時(shí)候性能上升緩慢,遠(yuǎn)低于解耦的傳統(tǒng)基于專家模型的策略(特斯拉當(dāng)前高速依然保留FSDv11的代碼)。數(shù)據(jù):汽車之心,東吳證券研究所25UniAD:白盒端到端CV
,加速智駕工程化落地?
UniAD(感知Perception+規(guī)劃Planning):多個(gè)共享BEV
特征的Transformer網(wǎng)絡(luò)將跟蹤+建圖+軌跡預(yù)測(cè)+占據(jù)柵格預(yù)測(cè)統(tǒng)一到一起,
并且使用不依賴高精地圖的Planner
作為一個(gè)最終的目標(biāo)輸出,同時(shí)使用Plan結(jié)果作為整體訓(xùn)練的loss。相比于特斯拉FSDv12的黑盒端到端,其在感知/規(guī)控等模塊間雖然一體化整合,但并非一個(gè)整體黑盒網(wǎng)絡(luò),仍可以對(duì)各個(gè)模塊進(jìn)行分別的監(jiān)測(cè)和優(yōu)化,各個(gè)模塊間有了相當(dāng)?shù)目山忉屝裕灿欣谟?xùn)練和Debug,【解耦白盒】是核心。?
UniSim(仿真):使用多個(gè)NeRF
網(wǎng)絡(luò),重建靜態(tài)背景,并且將每個(gè)動(dòng)態(tài)物體也構(gòu)建出來,同時(shí)保存動(dòng)態(tài)物體的軌跡。之后在仿真環(huán)境中,靜態(tài)物體作為整體世界背景,所有的動(dòng)態(tài)物體根據(jù)軌跡轉(zhuǎn)換到世界坐標(biāo)系中,進(jìn)行世界環(huán)境的模擬。利用動(dòng)靜態(tài)解耦的方式,為之后仿真物體的刪除和插入提供便利,
同時(shí)對(duì)危險(xiǎn)場(chǎng)景的模擬提供充足的自由度,保證場(chǎng)景泛化。圖:UniAD算法框架數(shù)據(jù):汽車之心,東吳證券研究所26世界模型(仿真數(shù)據(jù)&強(qiáng)化學(xué)習(xí))更好支持端到端?
World
Model≠端到端,但或?yàn)閷?shí)現(xiàn)端到端的理想方式。1)數(shù)據(jù)需求:端到端算法訓(xùn)練需要大量低成本+高互動(dòng)的標(biāo)準(zhǔn)化數(shù)據(jù),世界模型可制造大量仿真數(shù)據(jù),無需標(biāo)注直接應(yīng)用于算法訓(xùn)練;2)利用數(shù)據(jù)大規(guī)模進(jìn)行強(qiáng)化學(xué)習(xí),培養(yǎng)模型的規(guī)律認(rèn)知能力,類似于人類學(xué)車/開車的行為,完成感知/記憶/動(dòng)作的連貫行為。?
特斯拉早于2023年提出世界模型World
Model,即通過神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)化表示事物,并預(yù)測(cè)未來,將自動(dòng)駕駛決策問題轉(zhuǎn)為預(yù)測(cè)視頻的下一幀。世界模型用于理解世界,不僅能用于自動(dòng)駕駛也能用于機(jī)器人,是特斯拉自身端到端智駕解決方案的基礎(chǔ)原理,自動(dòng)駕駛是世界模型的具身智能。圖:世界模型算法27三、云端:大模型加速智駕算法迭代海量數(shù)據(jù)的有效利用是智駕能力快速提升的前提?
數(shù)據(jù)閉環(huán)是產(chǎn)業(yè)玩家高效利用數(shù)據(jù)的核心。智駕數(shù)據(jù)主要指車輛在行駛過程中由攝像頭//地圖等傳感器感知到的周遭環(huán)境以及車輛自身狀態(tài)響應(yīng)等信息,其為智駕算法模型的學(xué)習(xí)反饋和迭代提供了必備的“良師”。?
數(shù)據(jù)記錄:將車身傳感器感知到的信息轉(zhuǎn)化為數(shù)字信號(hào),通常上傳至云端,便于訪問管理。?
數(shù)據(jù)處理:將基于不同傳感器感知的數(shù)據(jù)進(jìn)行預(yù)處理、濾波和融合,生成高質(zhì)量統(tǒng)一格式的數(shù)據(jù)。?
數(shù)據(jù)標(biāo)注:即數(shù)據(jù)信息歸類,包括目標(biāo)檢測(cè)(特征提?。?軌跡生成/優(yōu)化等,將智駕面臨的不同場(chǎng)景一一歸類,是算法預(yù)訓(xùn)練前最為繁瑣的環(huán)節(jié)之一。?
數(shù)據(jù)仿真:模擬真實(shí)的交通場(chǎng)景和車輛行駛狀態(tài),方便對(duì)車輛的算法和系統(tǒng)進(jìn)行測(cè)試和驗(yàn)證。?
模型訓(xùn)練和算法部署:基于已有數(shù)據(jù)對(duì)智駕算法進(jìn)行云端訓(xùn)練,并裁剪部署至車端實(shí)時(shí)推理應(yīng)用。圖:智能駕駛數(shù)據(jù)利用全流程數(shù)據(jù):汽車之心,東吳證券研究所29基于Transformer的自動(dòng)標(biāo)注打開數(shù)據(jù)利用的天花板?
“場(chǎng)景驅(qū)動(dòng)”是小模型時(shí)代智駕算法能力的重要特征,體現(xiàn)為數(shù)據(jù)的人工標(biāo)注。傳統(tǒng)CV小模型時(shí)代,智駕覆蓋廣度的提升依賴于長(zhǎng)尾場(chǎng)景Corner
Case的持續(xù)完善,工程師需要手動(dòng)區(qū)分場(chǎng)景信息中的新增部分并人工分類標(biāo)注,進(jìn)一步修改“if-else”規(guī)則下的規(guī)控算法,“補(bǔ)丁”式小碎步提升。21年之前特斯拉數(shù)據(jù)標(biāo)注團(tuán)隊(duì)規(guī)模在千人級(jí)別,工程師數(shù)量是限制算法迭代的瓶頸之一。?
基于Transformer的SAM等自動(dòng)標(biāo)注算法打開智駕算法數(shù)據(jù)利用的天花板。其原理在于:首先基于少量的人工處理構(gòu)建標(biāo)注真值系統(tǒng),進(jìn)而將未標(biāo)注的數(shù)據(jù)應(yīng)用至真值系統(tǒng)得到標(biāo)注結(jié)果,以SAM為例的標(biāo)注算法即是基于Transformer機(jī)制完成批量化特征提取和標(biāo)注。特斯拉2021年AIday宣布裁撤旗下千人左右的數(shù)據(jù)標(biāo)注團(tuán)隊(duì),正式大規(guī)模應(yīng)用基于大模型的自動(dòng)標(biāo)注,并可于一周內(nèi)實(shí)現(xiàn)人工標(biāo)注幾個(gè)月時(shí)間才能完成的一萬個(gè)片段的標(biāo)注任務(wù)。圖:自動(dòng)標(biāo)注數(shù)據(jù):CSDN,東吳證券研究所30場(chǎng)景仿真減少真實(shí)數(shù)據(jù)依賴,加速算法能力迭代?
數(shù)據(jù)仿真是云端算法訓(xùn)練的重要組成部分。智駕仿真測(cè)試,即以建立車輛模型并將其應(yīng)用場(chǎng)景進(jìn)行數(shù)字化還原,建立盡可能接近真實(shí)世界的系統(tǒng)模型,如此通過軟件仿真即可對(duì)自動(dòng)駕駛系統(tǒng)和算法進(jìn)行測(cè)試。其包含了虛擬的駕駛場(chǎng)景、車輛的動(dòng)力學(xué)系統(tǒng)、感知系統(tǒng)、并預(yù)留對(duì)接ADAS/自動(dòng)駕駛系統(tǒng)的通信接口?,F(xiàn)實(shí)世界路測(cè)數(shù)據(jù)搜集【長(zhǎng)尾場(chǎng)景信息不全+耗時(shí)且成本高昂】的短板極大促進(jìn)了場(chǎng)景仿真技術(shù)的發(fā)展。?
從基于模型設(shè)計(jì)到數(shù)據(jù)驅(qū)動(dòng)迭代,以場(chǎng)景真實(shí)性作為方向。仿真系統(tǒng)包括靜態(tài)場(chǎng)景搭建+動(dòng)態(tài)場(chǎng)景搭建+車輛動(dòng)力學(xué)仿真+傳感器仿真幾大部分。傳統(tǒng)仿真多依據(jù)V-Shape流程,以動(dòng)力學(xué)仿真為主,基于車控進(jìn)行建模,隨L2發(fā)展,“弱動(dòng)力,重場(chǎng)景”的建模方式逐步被引入。但L3級(jí)別智駕所需的場(chǎng)景數(shù)目以及代碼量飛速增長(zhǎng),以數(shù)據(jù)驅(qū)動(dòng)的“場(chǎng)景重建”仿真技術(shù)成為主流:基于游戲引擎開發(fā),以實(shí)現(xiàn)對(duì)靜態(tài)場(chǎng)景的高保真渲染和物理模擬。例如英偉達(dá)的DRIVE
Sim即是一種基于Omniverse引擎構(gòu)建的仿真工具,應(yīng)用
Omniverse
Replicator
以縮小仿真到真實(shí)的域差距。數(shù)據(jù):CSDN,東吳證券研究所31世界模型應(yīng)用利好生成泛化數(shù)據(jù),加速云端仿真?
世界模型有望提供真實(shí)且多樣化的仿真數(shù)據(jù),即加速泛化,加速云端算法迭代。?
1)當(dāng)前智能駕駛仿真的主流技術(shù)方案為【NeRF+素材庫+游戲引擎,基于真實(shí)數(shù)據(jù)進(jìn)行道路重建,并保證和真實(shí)場(chǎng)景的相似程度,再依靠交通元素的不同排列組合進(jìn)行有條件泛化,最后通過游戲引擎輸出高質(zhì)量的仿真畫面】。?
2)世界模型與之相比,具備能夠憑借對(duì)于物理世界運(yùn)行規(guī)律的理解,自身泛化到樣本以外的能力,覆蓋更多Corner
Case,有效降低廠商對(duì)于真實(shí)數(shù)據(jù)的依賴程度,提升效率;但大模型的基礎(chǔ)前提決定其比較依賴大算力+大規(guī)模數(shù)據(jù)喂養(yǎng)持續(xù)訓(xùn)練,方能避免出現(xiàn)違背客觀規(guī)律的情況。Tesla可以做到多個(gè)攝像頭同步聯(lián)合預(yù)測(cè);并支持prompt嵌入,可以提出要求生成車輛直行或者對(duì)向車道視角的未來數(shù)據(jù)。Sora面世即是世界模型所代表的場(chǎng)景生成的新范式代表。圖:Wayve的GAlA-1
high-level
architecture數(shù)據(jù):CVPR
2023,東吳證券研究所32以
為例,盤古大模型實(shí)現(xiàn)數(shù)據(jù)閉環(huán)加速云訓(xùn)練?
云服務(wù)為基,搭建數(shù)據(jù)閉環(huán)堅(jiān)實(shí)底座。云ModelArts平臺(tái)提供DataTurbo、TrainTurbo、InferTurbo
3層加速,分別提供數(shù)據(jù)加載、模型訓(xùn)練、模型推理三方面服務(wù),能夠助力數(shù)據(jù)讀取時(shí)間縮短50%、訓(xùn)練效率提升40%+。統(tǒng)一的數(shù)據(jù)湖讓數(shù)據(jù)存儲(chǔ)成本下降20%、冷數(shù)據(jù)下沉率最高96%。云服務(wù)能夠完整覆蓋數(shù)據(jù)閉環(huán)各個(gè)環(huán)節(jié),提供數(shù)據(jù)管理平臺(tái)、AI模型訓(xùn)練平臺(tái)、仿真評(píng)測(cè)平臺(tái)等,形成全棧式研發(fā)工具鏈。串聯(lián)互通的工具,增強(qiáng)了業(yè)務(wù)連續(xù)性,縮短了模型訓(xùn)練時(shí)間,大大減少了調(diào)試成本和人力成本,提升研發(fā)效率。數(shù)據(jù):官網(wǎng),東吳證券研究所33四、當(dāng)前產(chǎn)業(yè)玩家的智駕算法能力如何?數(shù)據(jù)閉環(huán)有望帶來高集中度的智駕算法產(chǎn)業(yè)格局?
高階智駕算法持續(xù)升級(jí),產(chǎn)業(yè)趨勢(shì)明確;數(shù)據(jù)/算力為壁壘。北美特斯拉以及國內(nèi)市場(chǎng)/小鵬等玩家引領(lǐng),Transformer賦能多模態(tài)感知融合(FSD
v10)及更進(jìn)一步的端到端(FSD
v11/12)驅(qū)動(dòng)產(chǎn)品功能體驗(yàn)持續(xù)升級(jí),低時(shí)延+強(qiáng)泛化,同時(shí)也明確產(chǎn)業(yè)升級(jí)方向。端到端方案依賴大算力+極多高質(zhì)量數(shù)據(jù)訓(xùn)練,同時(shí)要求玩家數(shù)據(jù)鏈閉環(huán),保證數(shù)據(jù)采集/存儲(chǔ)/清洗/標(biāo)注更加高效。?
算法實(shí)現(xiàn)高壁壘+數(shù)據(jù)閉環(huán)硬要求,未來智駕算法產(chǎn)業(yè)格局趨于集中化。當(dāng)前整車下游L3高階智駕算法方案以O(shè)EM自研為主,以“算法賦能,數(shù)據(jù)回傳”的形式深度綁定OEM;L3以下智駕算法呈現(xiàn)OEM+硬件商+獨(dú)立算法商三足鼎立格局,OEM玩家/硬件商占據(jù)行業(yè)主導(dǎo)位置。?
我們認(rèn)為,考慮高階智駕功能的實(shí)現(xiàn)對(duì)于算法能力、組織架構(gòu)、超算中心、完整數(shù)據(jù)鏈等的要求,未來“掌握硬件的基礎(chǔ)上去發(fā)展軟件”或?yàn)橹髁?,即掌握壁壘最高的硬件——芯片;提供性價(jià)比最高的硬件——傳感器;掌握粘性最強(qiáng)的硬件——整車。圖:自動(dòng)駕駛驅(qū)動(dòng)多模態(tài)大模型,帶來算法架構(gòu)變化完整閉環(huán)數(shù)據(jù)鏈超大算力芯片商-算法高階算法實(shí)現(xiàn)OEM-算法傳感器商-算法必要算法開發(fā)能力組織架構(gòu)適配數(shù)據(jù):官網(wǎng),東吳證券研究所354.1OEM玩家及相關(guān)企業(yè)外采轉(zhuǎn)自研,特斯拉FSD引領(lǐng)全球智駕軟硬件升級(jí)?
2020年為特斯拉“硬件為先,軟件隨后”策略的重要窗口,【大模型】是特斯拉引領(lǐng)本次變革的核心抓手?!綡ydraNet/FSD芯片+Transformer/Dojo】等6次硬件變化升級(jí)+3次軟件架構(gòu)的重大創(chuàng)新變革,均體現(xiàn)特斯拉第一性原理的經(jīng)營(yíng)思想。圖:特斯拉邊緣端/云端軟硬件歷史迭代2014.10Autopilot1.0HW1.02016.102017.072019.042021.07FSD
Betav9HW3.02022.042023Q22024Q1FSD歷史重要階段(軟FSD
Betav10.11FSD
Betav11.3Autopilot2.0Autopilot3.0FSD
v12件)名稱芯片HW2.0HW2.5HW4.0英偉達(dá)drivePX2英偉達(dá)
driveMobileyeQ3自研FSD1.0自研FSD2.0,算力五倍12攝像頭+1毫米波PX2+硬件解決方案1攝像頭+1毫米
8攝像頭+1毫米波傳感器
波+12超聲
(2.5升級(jí))+12超聲波8攝像頭+1毫米波+12超聲波波邊緣端標(biāo)注人工標(biāo)注BEV+Transformer架構(gòu),數(shù)據(jù)驅(qū)動(dòng)深度學(xué)習(xí),使得自動(dòng)標(biāo)注落地BEV+Transformer上車,特征級(jí)融合落地,實(shí)現(xiàn)感知大模型,無圖城市領(lǐng)航功能上車自研芯片硬件,Hydra
Net驅(qū)動(dòng)多頭任務(wù)實(shí)現(xiàn),進(jìn)一步提效占用網(wǎng)絡(luò)上車,泛化能力增強(qiáng),功能維度統(tǒng)一高速與城市領(lǐng)航輔助感知+規(guī)控全域端到端落地,持續(xù)算法訓(xùn)練,追求具身智能自研圖像識(shí)別+多傳感器后軟件解決方案
感知外采Mobileye融合策略黑盒規(guī)控備注自研rule-baserule為主,開發(fā)learning-base2017.03自研算法,2018年開發(fā)更
硬件泛化能力增強(qiáng)
硬件再次迭代,驅(qū)動(dòng)傳感器簡(jiǎn)
支持軟件進(jìn)一2015.04開啟自感知能力升級(jí)驅(qū)動(dòng)無圖化北美開放,即將入華硬件升級(jí)但功能降
好實(shí)現(xiàn)多傳感
儲(chǔ)備完研軟件級(jí)器融合的策略成化步升級(jí)2021年8月官宣Dojo,利用海量的數(shù)據(jù),做無監(jiān)督的標(biāo)注和仿真訓(xùn)云端-練,更好驅(qū)動(dòng)大模型;世界模型加速大模型仿真37數(shù)據(jù):蓋世汽車,汽車之心,東吳證券研究所繪制邊緣軟件:Transformer大模型逐步覆蓋各環(huán)節(jié)?
HydraNet賦能多傳感器融合,特斯拉基于全自研軟硬件實(shí)現(xiàn)有限范圍的智能領(lǐng)航輔助駕駛,追平行業(yè)。2016年起特斯拉自研軟件算法上車,2D網(wǎng)絡(luò)的CNN架構(gòu)+人工數(shù)據(jù)標(biāo)注的迭代模式下,特斯拉智駕功能表現(xiàn)遜于長(zhǎng)期深耕的Mobileye;2019年4月配合自研FSD芯片,HydraNet九頭蛇架構(gòu)實(shí)現(xiàn)更好的特征提取以及多頭任務(wù)并行,催化特斯拉追平Mobileye
L2+級(jí)別智駕功能。?
BEV+Transformer開啟大模型時(shí)代,軟件能力跨時(shí)代躍遷,引領(lǐng)行業(yè)變革。1)Transformer賦能2D圖像升維實(shí)現(xiàn)BEV轉(zhuǎn)換,占用網(wǎng)絡(luò)(加入時(shí)序的BEV)進(jìn)一步泛化異形場(chǎng)景,實(shí)現(xiàn)無高精度地圖化及傳感器精簡(jiǎn)化;2)特征級(jí)融合取代后融合,減少信息損耗,還原更真實(shí)的場(chǎng)景信息;3)人工標(biāo)準(zhǔn)轉(zhuǎn)向自動(dòng)標(biāo)注,龐大數(shù)據(jù)預(yù)訓(xùn)練大模型,進(jìn)行云端預(yù)標(biāo)注,車端蒸餾落地。?
FSD升級(jí),全棧端到端落地。車端感知規(guī)控全融合,大模型覆蓋范圍深化,數(shù)據(jù)賦能加速迭代。圖:特斯拉自動(dòng)駕駛算法迭代歷程38數(shù)據(jù):汽車之心
,東吳證券研究所繪制智駕路線方向趨同,國內(nèi)OEM玩家快速追趕?
智能駕駛軟件算法架構(gòu)歷經(jīng)兩次框架變化:?
1)2D+CNN小模型向Transformer大模型進(jìn)化,智駕迭代由工程師驅(qū)動(dòng)轉(zhuǎn)為數(shù)據(jù)驅(qū)動(dòng):2020年特斯拉BEV上車,數(shù)據(jù)后融合變?yōu)樘卣骷?jí)融合,提升數(shù)據(jù)利用效率和結(jié)果準(zhǔn)確性,同時(shí)數(shù)據(jù)標(biāo)注由人工轉(zhuǎn)為模型自動(dòng),迭代提效;2022年占用網(wǎng)絡(luò)落地,泛化能力進(jìn)一步增強(qiáng),實(shí)現(xiàn)感知維度端到端;2023年數(shù)據(jù)驅(qū)動(dòng)算法持續(xù)迭代,規(guī)控環(huán)節(jié)端到端落地,rule-base比例降低,能力優(yōu)化。?
2)模塊化端到端進(jìn)化為全棧端到端,World
Model逐步完善,數(shù)據(jù)驅(qū)動(dòng)變?yōu)檎J(rèn)知驅(qū)動(dòng),向L4迭代。特斯拉FSD
v12起轉(zhuǎn)向智駕環(huán)節(jié)全棧端到端,數(shù)據(jù)閉環(huán)后World
Model逐步演化完善,基于歷史數(shù)據(jù)去理解未來的范式進(jìn)步為基于常識(shí)和規(guī)律自我學(xué)習(xí)進(jìn)化的范式,實(shí)現(xiàn)無接管的L4智駕。圖:智駕軟件算法路徑變化以及各玩家階段對(duì)應(yīng)底層感知邏輯算法架構(gòu)2D+CNNBEV對(duì)應(yīng)智駕功能對(duì)應(yīng)FSD版本Autopilot階段FSDv9行業(yè)玩家掌握程度傳統(tǒng)CVL22020年以前行業(yè)的主流方案ViTDiTL3L4當(dāng)前國內(nèi)主流OEM+Tier玩家主要競(jìng)爭(zhēng)環(huán)節(jié)2024年特斯拉FSD
v12首次采用占用網(wǎng)絡(luò)WorldModelFSDv10~v11FSDv12備注:1)FSDv11相比v10核心迭代在于learning-base神經(jīng)網(wǎng)絡(luò)基本主導(dǎo)規(guī)控環(huán)節(jié),因此體驗(yàn)更流暢;2)國內(nèi)車企對(duì)比以各家公開的產(chǎn)品功能落地和研究宣發(fā)為準(zhǔn),不代表車企自身的內(nèi)部非公開研發(fā)規(guī)劃;3)參考特斯拉,各玩家智駕等級(jí)迭代較快,需高頻跟蹤,當(dāng)前水平劃分不代表長(zhǎng)期。特斯拉FSD版本算法架構(gòu)對(duì)應(yīng)智駕功能對(duì)應(yīng)落地時(shí)間國內(nèi)車企當(dāng)前水平對(duì)應(yīng)階段FSD
Betav9~v10BEV+Transformer城市領(lǐng)航落地2021.07之后小米FSD
Betav10.11FSD
Betav11.3FSD
v12占用網(wǎng)絡(luò)城市領(lǐng)航快速鋪開2022.042023Q22024Q1理想/蔚來/百度/小鵬感知端到端,規(guī)控環(huán)節(jié)rule-base比例降低城市+高速+泊車等全場(chǎng)景貫通世界模型下全棧端到端
全場(chǎng)景貫通且逐步迭代為零接管24H2起/小鵬陸續(xù)迭代方向(規(guī)劃階段,尚未落地)數(shù)據(jù):汽車之心,東吳證券研究所繪制39:ADS3.0落地端到端,數(shù)據(jù)引擎加速迭代?ADS智駕系統(tǒng)歷經(jīng)三次迭代:2021~2023年,BEV+GOD(類似于占用網(wǎng)絡(luò))支持感知端大模型化,實(shí)現(xiàn)感知維度端到端,在感知硬件逐步簡(jiǎn)化的同時(shí)支持無圖模式城市NCA加速開放;2024年重磅迭代模塊化端到端,覆蓋感知及規(guī)控環(huán)節(jié),全場(chǎng)景貫通。圖:ADS持續(xù)進(jìn)化歷史迭代ADS2.0版本ADS1.02021.4ADS3.0發(fā)布時(shí)間2023.42024.4模塊化模塊化,感知端到端BEV網(wǎng)絡(luò)+GOD網(wǎng)絡(luò)識(shí)別異形障礙物,無圖化,泛化能力提升感知GOD大網(wǎng),規(guī)控決策PDP端到端GOD大網(wǎng),輸入PDP端到端落地全面的物理世界理解,感知場(chǎng)景語義架構(gòu)BEV網(wǎng)絡(luò)軟件白名單目標(biāo)+道路結(jié)構(gòu),需要高精地感知方式增強(qiáng)功能視覺傳感器毫米波圖城區(qū)道路NAC、LAEB、GAEB、ELKA、城區(qū)LCCPLUS、哨兵模式全場(chǎng)景貫通NCA,CAS
3.0、ESA、車位到車位NCA、窄空間泊車L2級(jí)別LCC13顆11顆,前擋風(fēng)減少2顆攝像頭+全融合6顆,3D毫米波2顆,3D毫米波升級(jí)為4D毫米波,性能提升35%硬件3顆,等效96線半固態(tài)激光1顆,速騰聚創(chuàng)(車頂)2.8EFLOPS(截至2023年11月)L2+192線,增強(qiáng)全天候、小目標(biāo)檢測(cè)能力前保1顆+前保側(cè)面2顆云端算力3.5EFLOPSL3-L5智駕功能定位L2中高端:含1/3顆激光+4D毫米波解決方案全系標(biāo)配全系標(biāo)配入門級(jí):視覺ADS,支持高速NCA應(yīng)用車型北汽極狐α、阿維塔問界/智界/享界全系-數(shù)據(jù):官網(wǎng),汽車之家,東吳證券研究所40小鵬XBrain架構(gòu)面向全場(chǎng)景智駕:Xnet+XPlanner?
軟件維度:小鵬Xpilot/XNGP/XNGP+迭代圍繞【增加learning-base使用率,端到端全覆蓋】的目標(biāo)架構(gòu),XNGP落地BEV+Transformer架構(gòu)實(shí)現(xiàn)感知維度端到端,規(guī)控環(huán)節(jié)逐步引入learning-base;2024年XNGP+有望在rule-base基礎(chǔ)上實(shí)現(xiàn)感知-規(guī)控模塊化端到端XBrain。?
Xbrain:XNet
2.0融合了行業(yè)最高精度的純視覺占據(jù)網(wǎng)絡(luò),可實(shí)現(xiàn)動(dòng)/靜態(tài)BEV、占據(jù)網(wǎng)絡(luò)三網(wǎng)合一;基于神經(jīng)網(wǎng)絡(luò)的XPlanner可結(jié)合分鐘級(jí)以上的時(shí)序連續(xù)動(dòng)機(jī),并依據(jù)周邊環(huán)境信息及時(shí)變通,生成最佳運(yùn)動(dòng)軌跡。5月OTA上車的XNGP+將實(shí)現(xiàn)上述感知大模型升級(jí)和規(guī)控大模型上車。圖:小鵬汽車Xbrain終極架構(gòu)數(shù)據(jù):小鵬汽車2023年1024科技日,東吳證券研究所41理想:感知端到端落地,規(guī)則驅(qū)動(dòng)向認(rèn)知驅(qū)動(dòng)演變?
軟件維度:理想AD
Max實(shí)現(xiàn)感知大模型落地,AD
Pro預(yù)計(jì)24年中迭代與Max技術(shù)路線趨同;2024年理想預(yù)計(jì)完成規(guī)控環(huán)節(jié)端到端落地,實(shí)現(xiàn)全技術(shù)??捎?xùn)練的“端到端模型化”。?
展望未來,理想基于【認(rèn)知模型】(即特斯拉世界模型)做預(yù)研,目標(biāo)是開發(fā)L4場(chǎng)景,基于1.4EFLOPS云端算力,更充分的利用多模態(tài)AIGC,短期進(jìn)行場(chǎng)景重建和衍生,加速仿真數(shù)據(jù)生成和算法訓(xùn)練;中長(zhǎng)期做到知識(shí)驅(qū)動(dòng)形式的“場(chǎng)景理解”,真正實(shí)現(xiàn)L4覆蓋100%的Corner
Case。圖:理想未來智駕算法迭代的思維框架圖:理想關(guān)于不同級(jí)別智駕的看法???規(guī)則驅(qū)動(dòng)---L2:2D/Mona
3D數(shù)據(jù)驅(qū)動(dòng)---L3:BEV/端到端認(rèn)知驅(qū)動(dòng)---L4:VLM/世界模型數(shù)據(jù):英偉達(dá)GTC大會(huì)2024,東吳證券研究所42蔚來:NT2.0硬件標(biāo)配,感知端到端對(duì)標(biāo)FSD
v10+?
蔚來自NT2.0平臺(tái)起加速自研算法迭代,24年4月底迭代全域領(lǐng)航NOP+,對(duì)標(biāo)FSD
v10+。?
硬件維度:蔚來自NT2.0平臺(tái)起全系切換英偉達(dá),標(biāo)配4*OrinX芯片(2主控/1冗余/1訓(xùn)練)以及1激光/11攝像頭+5毫米波+12超聲波,標(biāo)配硬件支持3.8EFLOPS端云一體化算力。?
功能維度:蔚來于23年初上車自研高速NOP領(lǐng)航智駕,23年中/底分別將BEV/占用網(wǎng)絡(luò)架構(gòu)迭代上車,23年底/24Q1城市領(lǐng)航分別開城6/20萬km,24年4月底實(shí)現(xiàn)全域領(lǐng)航輔助NOP+推送。?
軟件維度:落地感知維度端到端,全域推送NOP。蔚來打造NAD
Arch智能駕駛架構(gòu),該架構(gòu)包含Lane
2.0感知網(wǎng)絡(luò)、NADCloudM云、NADHVH等算法模型應(yīng)用。其中,Lane
2.0可支持城區(qū)場(chǎng)景路口通行的實(shí)時(shí)感知,NADCloud
M可借助云端大模型,提升感知能力;而NADHVN可通過數(shù)據(jù)驅(qū)動(dòng)的規(guī)劃網(wǎng)絡(luò),使全域領(lǐng)航輔助NOP+擁有更細(xì)膩的交互能力。表:蔚來NT2.0平臺(tái)車型智駕功能迭代歷史日期版本新增智駕內(nèi)容2022/8/19Banyan1.1.0視覺融合泊車SAPA、前向碰撞預(yù)警FCW、自動(dòng)緊急制動(dòng)AEB2022/12/202023/3/172023/6/302023/11/152023/11/222024/1/272024/4/30Banyan1.2.0Banyan1.3.0Banyan2.0.0Banyan2.2.0Banyan2.3.0Banyan2.4.0Banyan2.6.0ET7車輛近距召喚23年元旦試運(yùn)行,3月底向全量用戶推送高速領(lǐng)航:NOP+Beta增強(qiáng)領(lǐng)航輔助功能優(yōu)化、全車型近距召喚、視覺融合泊車增強(qiáng)、緊急車道保持動(dòng)態(tài)環(huán)境模擬現(xiàn)實(shí)2.0(ESD)、輔助遙控泊車(RPA)、全新BEV升級(jí)NOP+連續(xù)性高速領(lǐng)航輔助駕駛”零接管“成為可能、泊車高頻一把泊入更名為“全域領(lǐng)航輔助
NOP+”,開城6萬km4D路況舒適領(lǐng)航、GOA通用障礙物預(yù)警、輔助Beta通用障礙物識(shí)別、全向AEB全域領(lǐng)航輔助
NOP
+全量推送:增強(qiáng)車道居中輔助、全場(chǎng)景誤加速抑制輔助、GOA通用障礙物預(yù)警及輔助數(shù)據(jù):蔚來官網(wǎng),東吳證券研究所43極越:百度智駕賦能,LD地圖+視覺大模型上車?
極越以吉利+百度合作賦能,利用百度自研LD車道級(jí)地圖,堅(jiān)持純視覺智駕方案,迅速追趕。?
硬件維度:極越外采英偉達(dá)雙Orin芯片,采用11攝像頭/5毫米波/12超聲波感知硬件,通過無激光
的視覺方案實(shí)現(xiàn)L3高階智駕功能;同時(shí)云端百度2.2EFLOPS算力加速算法訓(xùn)練。?
功能維度:極越于2024年初OTA
V1.3實(shí)現(xiàn)北上深杭廣五城高精地圖加持下的城市24H1開放300城,24年全年實(shí)現(xiàn)全國覆蓋(有百度地圖的地方均可使用)。預(yù)計(jì)?
軟件維度:1)大模型通用純視覺方案上車,類比特斯拉FSDv10+階段:百度VTA視覺大模型實(shí)現(xiàn)感知端到端,OCC感知模型實(shí)現(xiàn)占用網(wǎng)絡(luò)+Transformer加持后對(duì)通用異形障礙物的檢測(cè)。2)LD智駕車道地圖形成差異化:由視覺大模型端到端生成,保留必要精度基礎(chǔ)上增加經(jīng)驗(yàn)地圖+安全圖層+實(shí)時(shí)圖層,目前已覆蓋全國360城,支持全國都能開。圖:百度OCC占據(jù)網(wǎng)絡(luò)-通用障礙物檢測(cè)能力覆蓋行泊全場(chǎng)景表:百度極越智駕關(guān)鍵迭代歷程迭代歷程時(shí)間功能OCC模型上車,開城北上OTAV1.32024.01.14
深杭,泊車效率優(yōu)化,行車邏輯優(yōu)化1、視覺大模型發(fā)布上車,升級(jí)靜態(tài)檢測(cè)、時(shí)序跟蹤、實(shí)時(shí)2024.03.25
建圖、場(chǎng)景理解等能力,新增開城廣州;OTAV1.4.02、推出百度LD車道智駕地圖OTAV2.0即將上線全國都能開的數(shù)據(jù):極越官網(wǎng),東吳證券研究所44長(zhǎng)城毫末:DriveGPT構(gòu)建大模型,落地端到端?
長(zhǎng)城毫末持續(xù)深耕智駕大模型上車,自研生成式大模型圖:長(zhǎng)城汽車毫末技術(shù)棧以及產(chǎn)品棧DriveGPT
雪湖·海若充分展現(xiàn)公司在數(shù)據(jù)的篩選挖掘、自動(dòng)標(biāo)注、生成仿真以及認(rèn)知可解釋性等領(lǐng)域的技術(shù)積累,算法領(lǐng)域聚焦感知/認(rèn)知(即規(guī)控)大模型車云一體端到端,感知端引入多模態(tài),認(rèn)知端借助外部大語言模型
LLM
的海量知識(shí)來輔助給出駕駛決策。?
產(chǎn)品維度,毫末已推出三代七款智能駕駛產(chǎn)品,可滿足高、中、低價(jià)位不同車型的量產(chǎn)需求。其中,HP170、HP370、HP570三款千元級(jí)輔助駕駛產(chǎn)品,已陸續(xù)進(jìn)入交付狀態(tài)。數(shù)據(jù):小鵬汽車2023年1024科技日,東吳證券研究所454.2第三方智駕算法公司Momenta:兩條腿走路,閉環(huán)數(shù)據(jù)驅(qū)動(dòng)算法迭代?
Momenta,成立于2016年,以“Better
AL,Better
Life”為使命,歷史融資12+億美元,先后完成大數(shù)據(jù)&大模型平臺(tái)建設(shè)、感知規(guī)控全流程算法構(gòu)建、不同級(jí)別智駕軟件解決方案三階段。?
核心優(yōu)勢(shì):1)全流程數(shù)據(jù)驅(qū)動(dòng)算法,包括感知/融合/預(yù)測(cè)和規(guī)控等算法模塊,都可通過數(shù)據(jù)驅(qū)動(dòng)的方式低成本高效的迭代更新;2)閉環(huán)自動(dòng)化,自動(dòng)篩選海量黃金數(shù)據(jù),驅(qū)動(dòng)算法的自動(dòng)迭代。?
產(chǎn)品解決方案:1)MSD(Momenta
Self-Driving),L4,是Momenta
完全無人駕駛解決方案,廣泛應(yīng)用于出租車和私家車等場(chǎng)景;2)Mpilot是針對(duì)私家車前裝可量產(chǎn)的高度自動(dòng)駕駛?cè)珬J浇鉀Q方案,主要的核心產(chǎn)品包括Mpilot
X等端到端的全場(chǎng)景,連續(xù)的高度自動(dòng)駕駛解決方案,并可通過Open
Solution適配英偉達(dá)、高通等主流芯片硬件和傳感器平臺(tái),逐步落地端到端。圖:Momenta自動(dòng)駕駛算法框架數(shù)據(jù):公司官網(wǎng),東吳證券研究所47商湯:UniAD迭代DriveAGI,前瞻布局行業(yè)領(lǐng)先?
商湯科技于2016年開始布局車輛業(yè)務(wù),聚焦艙駕兩面,2022年底推出基于5R11V方案的高速NOA,而后持續(xù)發(fā)展布局城市等全場(chǎng)景道路。?
2024年商湯絕影UniAD方案首秀,將感知、決策
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 海南師范大學(xué)《工程估價(jià)與費(fèi)用管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年度水路貨物運(yùn)輸合同(含貨物保險(xiǎn)、風(fēng)險(xiǎn)控制)6篇
- 二零二五年度工程車運(yùn)輸合同管理范本3篇
- 2025年度智能辦公系統(tǒng)租賃服務(wù)合同范本3篇
- 2025年度綠色建筑商品房建筑工程施工監(jiān)管協(xié)議3篇
- 運(yùn)營(yíng)餐廳課程設(shè)計(jì)
- 勞動(dòng)合同法對(duì)媒體行業(yè)從業(yè)者的管理探討
- 運(yùn)動(dòng)館親子訓(xùn)練課程設(shè)計(jì)
- 檢修部副主任安全職責(zé)(4篇)
- 二零二五年度大型活動(dòng)專用班車租賃合同3篇
- 影響豬毛色的原因及改進(jìn)措施
- 采工作面初采、初放安全技術(shù)措施
- 中華人民共和國勞動(dòng)合同法
- 英語聽力考場(chǎng)建設(shè)方案
- ICU常用鎮(zhèn)靜藥物介紹及藥學(xué)監(jiān)護(hù)
- 粉末丁腈橡膠使用方法
- 大氣課程設(shè)計(jì)-—袋式除塵器
- 蘇科版七年級(jí)生物學(xué)(上)教學(xué)工作總結(jié)
- 阿特拉斯擰緊機(jī)技術(shù)方案
- 中國人民財(cái)產(chǎn)保險(xiǎn)股份有限公司理賠稽查管理暫行辦法
- 鋼管、管件表面積計(jì)算公式(精編版)
評(píng)論
0/150
提交評(píng)論