產業(yè)策略自動駕駛系列:FSDV12將迎重大架構變化“端到端自動駕駛”影響幾何_第1頁
產業(yè)策略自動駕駛系列:FSDV12將迎重大架構變化“端到端自動駕駛”影響幾何_第2頁
產業(yè)策略自動駕駛系列:FSDV12將迎重大架構變化“端到端自動駕駛”影響幾何_第3頁
產業(yè)策略自動駕駛系列:FSDV12將迎重大架構變化“端到端自動駕駛”影響幾何_第4頁
產業(yè)策略自動駕駛系列:FSDV12將迎重大架構變化“端到端自動駕駛”影響幾何_第5頁
已閱讀5頁,還剩39頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

證券研究報告請務必閱讀正文之后第23頁起的免責條款和聲明中信證券CITICSECURITIES中信證券研究部核心觀點連一席產業(yè)策略首席分析師特斯拉多次表示FSDV12將實現(xiàn)全新的“端到端自動駕駛”,模型架構將迎來重大變化。對于新架構的技術細節(jié)和潛在影響,市場仍有較多疑惑和分歧。根據(jù)特斯拉對外披露的信息及馬斯克在X平臺(前推特)發(fā)布的信息,我們推測特斯拉內部目前有兩條“端到端”路線同步在研:1)級聯(lián)式端到端神經網絡;2)WorldModel。我們認為,F(xiàn)SDV12是前者的可能性較大,有望于明年初落地,以更好地實現(xiàn)L3能力;WorldModel仍較為新興,但中長期有望成為自動駕駛乃至具身智能領域的基礎模型,可類比GPT之于LLM連一席產業(yè)策略首席分析師▍可能性1(較高級聯(lián)式端到端神經網絡,大幅提升訓練效率和性能上限,有望助力自動駕駛系統(tǒng)更好地實現(xiàn)L3能力,但能否邁向L4仍待觀望。沈思越產業(yè)策略分析師技術本質:系統(tǒng)從輸入到輸出,全程使用神經網絡算法,無需任何人工規(guī)則介入。當前,自動駕駛模型多為模塊化架構,感知預測、規(guī)劃、控制等不同任務分屬于多個不同的小模型,且下游規(guī)控環(huán)節(jié)普遍仍以規(guī)則為主。而“端到端”神經網絡在輸入圖像后,可直接輸出轉向、剎車、加速等控制指令。為提升訓練效果,“端到端”的大神經網絡可能由多個小的子神經網絡級聯(lián)而成。但與傳統(tǒng)模塊化架構用“規(guī)則”連接模塊不同,級聯(lián)式神經網絡的子模塊是以“神經網絡”的方式自行訓練堆疊,因此可通過數(shù)據(jù)驅動優(yōu)化整個端到端模型,避沈思越產業(yè)策略分析師潛在影響:更好地實現(xiàn)L3能力。端到端/神經網絡的核心好處在于模型迭代的關鍵由“工程師”變?yōu)榱烁子谝?guī)?;摹皵?shù)據(jù)和算力”,因而訓練效率和性能上限有望得到顯著提升。落到實處,我們認為端到端方案所展示出的性能潛力有望大幅提升自動駕駛系統(tǒng)的接管水平,從而實現(xiàn)真正無可爭議的L3能力(例如達到每周接管1次)。但端到端模型的“黑盒”問題目前產業(yè)界尚未有十分成熟的解決方案,因此我們認為,其最終能否邁向追求極致安全性的L4全無人駕駛仍待觀望。發(fā)展進度:有望搭載于FSDV12,明年初正式落地的可能性較大。2023年8月26日,馬斯克在X平臺(前推特)進行了FSDV12demo的駕駛直播。我們認為,盡管直播中展現(xiàn)出的能力距離正式推送給消費者仍有距離,但可基本推斷當前的V12模型已十分接近端到端,再配合特斯拉在數(shù)據(jù)和算力上的巨大投入,V12接下來至年底的迭代速度有望大幅加快。▍可能性2(較低WorldModel,有望打造自動駕駛領域的基礎底座,引領視覺的GPT時刻;目前或仍處于GPT-1階段,但發(fā)展速度值得期待,中長期看或對行業(yè)格局產生顛覆性影響。技術本質:無需標注、自監(jiān)督的預訓練模型。WorldModel可生成自動駕駛相關的連續(xù)幀視頻場景,其本質是對視頻中的豐富語義以及背后的物理規(guī)律進行學習,從而對物理世界的演化產生深刻理解?;赪orldModel所提供的豐富語義信息以及對世界強大的理解力,自動駕駛模型的感知與預測能力有望得到顯著提升,規(guī)劃、控制等下游任務也有望迎刃而解。潛在影響:為自動駕駛提供了一套未經證明的新路徑,若得以走通,將對行業(yè)產生較大顛覆。中短期來看,WorldModel或將主要應用于數(shù)據(jù)合成和仿真模擬環(huán)節(jié),廠商的車隊規(guī)模對算法訓練的重要性或有所下降,數(shù)據(jù)閉環(huán)的框架也將有所改變。長期來看,WorldModel有潛力成為自動駕駛乃至具身智能領域的基礎模型,可類比GPT為所有NLP問題提供了一個通用解??紤]到更標準中信證券CITICSECURITIESCITICSECURITIES請務必閱讀正文之后的免責條款和聲明化的解決方案和更巨大的資金投入(資金需求或是這一代BEV+Transformer方案的數(shù)倍行業(yè)內有望出現(xiàn)少數(shù)幾家強大的WorldModel基礎模型層平臺方,以SaaS或API的方式為主機廠/運營方提供自動駕駛能力,行業(yè)格局和合作模式或將發(fā)生較大變化。發(fā)展進度:仍處早期,但發(fā)展速度值得期待。我們認為,特斯拉、Wayve等公司不約而同地在今年推出WorldModel,很大程度上是受到了GPT的啟發(fā)。目前,WorldModel或仍處于GPT-1的階段,但考慮到目前行業(yè)整體對“大模型”潛力的強烈共識、算力的升級以及以特斯拉為代表的玩家此前積累的海量數(shù)據(jù),我們認為WorldModel從0到1的爆發(fā)或較ChatGPT更快(OpenAI從GPT-1至GPT-3.5共歷經4年)。▍國內玩家距離“端到端”仍有較遠距離。無論是級聯(lián)式端到端神經網絡還是WorldModel,我們總結其核心壁壘皆在于:1)專業(yè)的AI人才團隊,2)海量的視頻數(shù)據(jù),以及3)巨大的算力投入。國內主機廠從2023年開始陸續(xù)實現(xiàn)這一代“BEV+Transformer”架構的量產上車,盡快實現(xiàn)“脫圖”以及盡可能多地“開城”是國內智駕車企當前的重點。對于下一代的“端到端”技術路線,國內主機廠目前最快也仍處于早期預研階段,且在人才、數(shù)據(jù)、算力三方面較特斯拉皆有較大差距,因此從預研到上車樂觀看或也需3年左右的時間。而對于前景更不明朗的WorldModel(或需等待特斯拉有更多成果展示面臨著較大銷售和交付壓力的國內主機廠,在新技術的人才和資源投入上或也有所保留。相較之下,我們認為,特斯拉、華為等行業(yè)巨頭在資金和資源上更占優(yōu)勢;而WAYVE、極佳科技等初創(chuàng)企業(yè)的目標和精力更為聚焦,也有望吸引到更多的AI人才,類似于當年的OpenAI。▍風險因素:特斯拉端到端技術路線發(fā)展不及預期;特斯拉FSDV12推送進度不及預期;云端訓練算力出現(xiàn)較大緊缺;中國玩家追趕進度不及預期等。中信證券CITICSECURITIESCITICSECURITIES請務必閱讀正文之后的免責條款和聲明報告緣起 5可能性1:級聯(lián)式端到端神經網絡,大幅提升訓練效率和性能上限 6本質:全程使用神經網絡,無需人工規(guī)則介入 6影響:有望助力FSD更好地實現(xiàn)L3能力,但能否邁向L4仍待觀望 8進度:FSDV12搭載概率大,有望明年初落地;國內距離“端到端”仍有較遠距離 可能性2:WorldModel,有望引領視覺的GPT時刻 本質:自監(jiān)督的預訓練模型,有望打造視覺領域的基礎底座 影響/進度:或仍處于GPT-1階段,中長期或對行業(yè)格局產生顛覆性影響 風險因素 21插圖目錄圖1:馬斯克在X平臺表示FSDV12將是“完全端到端自動駕駛”(左)并進行FSDV12 5圖2:特斯拉引領下一代“端到端”技術路線,國內玩家普遍仍處于“BEV+Transformer”階段 5圖3:特斯拉FSDBetaV10至V12版本的架構變化(紅色為神經網絡,綠色為規(guī)則代碼) 6圖4:模塊化和端到端自動駕駛系統(tǒng)原理 7圖5:商湯科技感知決策一體化模型UniAD技術架構 8圖6:端到端自動駕駛模型的訓練方式 8圖7:大模型的涌現(xiàn)能力 9圖8:學術界正在探討可解釋AI模型(interpretableandexplainableAImodels)的可能 圖9:LINGO-1可對其駕駛行為和意圖進行解釋 圖10:WAYVELINGO-1模型示意圖 圖11:8月26日的特斯拉直播中,F(xiàn)SDV12的表現(xiàn)十分接近人類司機 圖12:特斯拉算力預期圖 圖13:特斯拉D1vs英偉達GPU 圖14:主要車企/自動駕駛廠商的智算中心 圖15:特斯拉WorldModel核心邏輯 圖16:特斯拉WorldModel生成的場景畫面 圖17:特斯拉WorldModel所構建的場景可根據(jù)Prompt進行變化 圖18:WAYVEGAIA-1模型生成的畫面 圖19:極佳科技世界模型DriveDreamer核心框架 圖20:極佳科技世界模型DriveDreamer可用于生成未來的駕駛場景和合理的駕駛行為 圖21:WorldModel有望成為視覺領域的基礎模型 圖22:馬斯克在X平臺兩次提到DiffusionModel 圖23:DiffusionModel的工作原理是加噪聲和去噪的過程 圖24:DiffusionModel有助于生成高質量的圖像 中信證券CITICSECURITIESCITICSECURITIES請務必閱讀正文之后的免責條款和聲明圖25:WorldModel中短期或將主要應用于數(shù)據(jù)合成和仿真模擬環(huán)節(jié),改變數(shù)據(jù)閉環(huán)的框架和流程 圖26:特斯拉歷史算力規(guī)模預估(個) 21圖27:WorldModel或仍處于GPT-1階段 21中信證券CITICSECURITIESCITICSECURITIES請務必閱讀正文之后的免責條款和聲明▍報告緣起特斯拉自2020年起在感知端引入BEV算法,后又配合Transformer和OccupancyNetwork(占用網絡大幅提升視覺方案的感知精確度。國內廠商普遍于2023年開始BEV上車,使得“無圖”城區(qū)領航成為可能。進入2023年,特斯拉開始向下一代自動駕駛模FSDV12版本將實現(xiàn)“端到端”的自動駕駛(End-to-EndAIfromImagesintoSteering,Brakes&AccelerationOut8月26日,馬斯克在X平臺上進行了FSDV12工程版的首次試駕直播。特斯拉作為目前自動駕駛行業(yè)引領技術潮流的存在,使得“端到端自動駕駛”走向臺前并引發(fā)資本市場關注。但對于新模型的技術細節(jié)和潛在影響,市場仍有較多的疑惑和分歧。根據(jù)特斯拉對外披露的信息及馬斯克在X平臺發(fā)布的信息,我們推測特斯拉內部目前我們認為,F(xiàn)SDV12是前者的可能性更大,根據(jù)馬斯克多次公開表態(tài)和V12demo8月底的直播表現(xiàn),我們預計V12有望于明年初正式上車;而后者仍較為新興,但中長期有望成為自動駕駛乃至具身智能的基礎模型(FoundationModel可類比GPT之于LLM。本篇報告將重點探討上述兩類“端到端”模型未來將如何影響和改變特斯拉FSD乃至整個自動駕駛產業(yè)。圖2:特斯拉引領下一代“端到端”技術路線,國內玩家普遍仍處于“請務必閱讀正文之后的免責條款和聲明V11V11▍可能性1:級聯(lián)式端到端神經網絡,大幅提升訓練效率和性能上限“端到端”的本質是從系統(tǒng)輸入到輸出,全程使用神經網絡算法,無需任何人工規(guī)則介入。當前,自動駕駛模型多為模塊化架構,感知預測、規(guī)劃、控制等不同任務分屬于多個不同的小模型,感知端通過BEV+Transformer架構已基本實現(xiàn)神經網絡運算,但下游的規(guī)控環(huán)節(jié)則普遍仍以規(guī)則為主(rule-based,即工程師編寫條件規(guī)則代碼)。相較之下,特斯拉的自動駕駛模型神經網絡參與度最高,F(xiàn)SD每一次大版本的迭代本質上就是將更多子任務交由神經網絡完成,而減少人工規(guī)則的數(shù)量。而FSDV12所謂的“完全端到端”,就是在一個大的神經網絡模型中輸入圖像后,直接輸出轉向、剎車、加速等控制指令,無需任何規(guī)則代碼。根據(jù)機器學習專家JamesDouma在與X平臺/Youtube博主HerbertOng對談中的介紹:在FSDBetaV10中,僅感知端及規(guī)劃端包含神經網絡,且規(guī)劃模塊仍以規(guī)則為主;V11引入了更多的神經網絡,包括將Bag-o-bits轉換器與感知神經網絡合并、新增多步驟規(guī)劃神經網絡、控制神經網絡等;V12則致力于將所有模塊集成為一個大的神經網絡。根據(jù)馬斯克2023年8月2日的X平臺發(fā)文,目前“車輛控制”是FSD端到端模型中的“最后一塊拼圖”,這將使得現(xiàn)在約30萬行的C++控制代碼減少至約3000行。神經網絡有神經網絡參與+Bag-o-有神經網絡參與V10V10(Bag-o-bits包括停車標志、車道線、神經網絡神經網絡(Bag-o-bits轉換器與感知神經網絡合并為一個單一的神經網絡,直接輸神經網絡+人工規(guī)則神經網絡+人工規(guī)則V12神經網絡V12中信證券CITICSECURITIESCITICSECURITIES請務必閱讀正文之后的免責條款和聲明模塊化自動駕駛(o)傳感器感知決策規(guī)劃控制執(zhí)行器模塊化自動駕駛(o)傳感器感知決策規(guī)劃控制執(zhí)行器端到端自動駕駛端到端自動駕駛資料來源:“End-to-EndDeep為提升訓練效果,“端到端”的大神經網絡可能是由多個小的子神經網絡級聯(lián)而成。據(jù)機器學習專家JamesDouma的介紹,對于一個從未訓練過的大神經網絡,初期訓練信號通常非常弱(weaktrainingsignal訓練難度很大。因此,可先在子系統(tǒng)(subsystem)或子模塊(block)層面對較小的神經網絡進行訓練,訓練到一定程度后,再將其堆疊為一個大的端到端神經網絡,再做進一步訓練。盡管同樣為模塊級聯(lián),但傳統(tǒng)的模塊化架構中,模塊與模塊間通常是通過某些規(guī)則進行連接,因此無法進行整體的自動優(yōu)化;而對于級聯(lián)式神經網絡,子模塊間則是用神經網絡的方式自行訓練堆疊,因此可以用數(shù)據(jù)驅動的方式優(yōu)化整個“端到端”模型,也就避免了“局部最優(yōu),而非全局最優(yōu)”的困境。商湯科技的感知決策一體化的自動駕駛通用大模型UniAD就利用了類似的思路,該研究論文《Planning-orientedAutonomousDriving(以路徑規(guī)劃為導向的自動駕駛)》(YihanHu,JiazhiYang,LiChen等著)斬獲了2023屆CVPR的最佳論文獎(BestPaperAward這也是CVPR歷史上第一篇以自動駕駛為主題的最佳論文。在UniAD大模型中,檢測、跟蹤、建圖、軌跡預測、障礙物預測以及規(guī)劃等子模塊共享BEV特征,并利用Transformer網絡,連接整合至一個端到端框架下。具體來說,攝像頭采集圖像會通過Transformer映射至BEV空間;TrackFormer(跟蹤模塊)根據(jù)BEV信息推理出目標物的檢測和跟蹤信息;MapFormer(建圖模塊)根據(jù)BEV信息實時構建地圖;隨后MotionFormer(軌跡預測模塊)會根據(jù)TrackerFormer、MapFormer和BEV的結果,計算預測周圍物體的整體軌跡;OccFormer(障礙物預測模塊)則會根據(jù)上述信息輸出占用網絡的障礙物預測;最后Planner模塊會進行整個大模型的最終輸出。論文中提到,為了得到更穩(wěn)定的訓練結果,UniAD的訓練分為兩個階段,先對感知模塊(包括跟蹤和建圖)做數(shù)次訓練(實驗中為6次再對模型整體進行多次訓練(實驗中為20次)。中信證券CITICSECURITIESCITICSECURITIES請務必閱讀正文之后的免責條款和聲明對于神經網絡組成的端到端架構,模型迭代的關鍵由“工程師”變?yōu)榱烁子谝?guī)模化的“數(shù)據(jù)和算力”,因而訓練效率和性能上限有望得到顯著提升。落到實處,我們認為端到端方案有望助力FSD以及其它自動駕駛系統(tǒng)更好地走向L3。但端到端模型的“黑盒”問題目前產業(yè)界尚未有十分成熟的解決方案,因此其最終能否邁向追求極致安全性的L4全無人駕駛仍待觀望。端到端/神經網絡的核心好處在于大幅提升模型的訓練效率和性能上限。傳統(tǒng)自動駕駛模型中,規(guī)則的占比較高,想要提升模型性能,就需要大量優(yōu)秀的工程師編寫海量的規(guī)則中信證券CITICSECURITIESCITICSECURITIES請務必閱讀正文之后的免責條款和聲明代碼并持續(xù)優(yōu)化,模型的上限也取決于規(guī)則代碼的質量。而對于以神經網絡為主的端到端模型,性能提升的關鍵由“人”變?yōu)榱恕皵?shù)據(jù)和算力”,后者更可規(guī)?;瑫r也更有可能出現(xiàn)大語言模型中的“涌現(xiàn)”概念(即當模型突破某個規(guī)模時,性能突然顯著提升)。這或也是為何馬斯克在2023年6月接受CNBC的采訪中表示,F(xiàn)SD有望在未來兩年迎來自己的ChatGPT時刻(馬斯克原話:IthinkTeslawillhavesortofaChatGPTmoment,ifnotthisyear,I'dsaynolaterthannextyear)。落到實處,我們認為該端到端方案有望助力FSD更好地走向L3。由于法規(guī)限制,F(xiàn)SD目前在美國仍屬L2+,駕駛員不可脫手脫腳,并自行承擔事故責任。而從技術的角度,根據(jù)36氪網站上的文章《智駕開城,沒有“銀子彈”》(2023/8/25,作者:李安琪FSD目前的主動接管里程約60公里/次(被動接管里程將更長這能否被視為“具備L3的能力”目前尚有爭議。而我們認為,端到端方案所展示出的性能潛力有望大幅提升FSD的接管水平,從而實現(xiàn)真正無可爭議的L3能力(例如達到每周接管1次)。但端到端模型的最大痛點在于可解釋性差,能否邁向L4目前仍待觀望。端到端自動駕駛模型并非特斯拉首創(chuàng),此前在學術和產業(yè)界已有諸多探討,最早的端到端自動駕駛模型可追溯至1998年的ALVINN項目,可在大學校園里以55英里的時速行駛。但端到端模型遲遲未能真正量產上車,主要原因在于端到端模型近乎黑盒的工作模式使得其出現(xiàn)問題時較難追溯根本原因,也就是無法針對某一個具體的bug進行定向優(yōu)化。即使是采用級聯(lián)式神經網絡,也只能推測而無法證明感知、預測等子模塊的中間輸出結果和規(guī)劃模塊的最終輸出結果之間究竟存在何種邏輯關系。事實上,端到端大模型之所以能夠出現(xiàn)涌現(xiàn),也正是得益于這種“不可解釋性”。而自動駕駛又涉及安全性,容錯率遠低于ChatGPT等語言模型,因此端到端的黑盒問題顯得更為致命。我們認為,F(xiàn)SD目前作為乘用車智駕系統(tǒng),即使未來法規(guī)放開后走向L3,也仍有駕駛員作為兜底,因此特斯拉可在效率、成本和絕對的安全之間進行平衡,無需追求99.99%的安全性,只需“遠比人安全”即可。但對于全無人的L4而言,“自動駕駛車輛究竟該追求多高的安全性”以及“系統(tǒng)是否需要具備可解釋性”等問題,將在法律、道德和輿論層面受到更多挑戰(zhàn)。中信證券CITICSECURITIESCITICSECURITIES請務必閱讀正文之后的免責條款和聲明Wayve推出的Lingo-1模型為自動駕駛端到端提供了一種可能的解法,但仍處于早期研究階段。AI模型的可解釋性問題是學術界重要的研究方向之一。2023年9月14日,英國自動駕駛公司Wayve宣布推出用于自動駕駛的視覺語言動作模型(VLAM)LINGO-1,將大語言模型和自動駕駛視覺模型進行深度融合。具體來說,LINGO-1可回答關于駕駛場景和駕駛行為的各種問題,例如“形容一下你所處的路況”、“你目前最關心的三個目標物是什么”、“你為什么放慢速度”等。LINGO-1主要靠人類專家對駕駛場景的語言解說數(shù)據(jù)進行訓練,截至9月準確率達到了人類水平的60%。LINGO-1為端到端自動駕駛模型的黑盒問題提供了一個可能的解法,有望幫助人類理解AI模型究竟在“想什么”,但目前仍處于早期研究階段,其準確度、泛化能力、幻覺率等各方面皆有較大的提升空間。圖8:學術界正在探討可解釋AI模型(interpret中信證券CITICSECURITIESCITICSECURITIES請務必閱讀正文之后的免責條款和聲明becausethereisavbecausethereisavWhat’syourplanforbecausethereisavanWhat’syourplanfor馬斯克在X平臺表示,特斯拉FSD將于下一代V12版本實現(xiàn)“端到端”自動駕駛,我們認為其所謂的End-to-EndAI采用級聯(lián)式神經網絡的概率大。而對于FSDV12在8月26日的直播,我們認為,盡管其所展現(xiàn)出的能力距離正式推送給消費者仍有距離,但可基本推斷當前的V12模型或已十分接近端到端,再配合特斯拉在數(shù)據(jù)和算力上的巨大投入,V12接下來的迭代速度有望大大加快,正式推送時間點為明年初的可能性較大。但對于國內主機廠,樂觀看“端到端”上車或也仍需3年左右的時間。特斯拉FSD將于下一代V12版本實現(xiàn)“端到端”自動駕駛,采用級聯(lián)式神經網絡的概率大。根據(jù)馬斯克2023年5月的X輸出轉向、剎車、加速等控制信號的端到端AI模型(End-to-EndAIfromImagesintoSteering,Brakes&AccelerationOut)”。而根據(jù)傳記作家WalterIsaacson在2023年9月發(fā)布的《馬斯克傳》中的介紹,特斯拉2023年年初才開始正式訓練端到端模型,其訓練方式主要是向神經網絡投喂大量特斯拉車主的駕駛視頻,初期就投喂了約1000萬個視頻片段(videoclips)。書中還提到,為了讓神經網絡學會“正確開車”,特斯拉會有選擇性地篩選出“良好的駕駛行為”片段,再讓神經網絡進行學習。這也意味著在模型正式訓練前的數(shù)據(jù)處理清洗階段,需要有人工標注員對視頻進行評估和打分。FSDV12在直播中表現(xiàn)流暢自信,處理十分接近人類司機,但尚不成熟。8月26日,馬斯克在X平臺進行了一場45分鐘的FSDV12試駕直播。馬斯克駕駛著一輛搭載FSDV12工程版的ModelS從特斯拉灣區(qū)PaloAlto的總部出發(fā),中間多次改變目的地,最后回到總部。行駛路段整體難度適中,盡管有一些具有挑戰(zhàn)的場景(如施工、環(huán)島等且路線并未提前規(guī)劃,但PaloAlto屬于特斯拉車輛較多的區(qū)域,訓練數(shù)據(jù)應較為豐富。中信證券CITICSECURITIESCITICSECURITIES請務必閱讀正文之后的免責條款和聲明具體表現(xiàn)上,V12在許多場景中的處理十分接近人類司機。例如直播中,特斯拉在面對STOPSIGN標志時并未完全停止,這主要是由于V12并未編寫“看到STOPSIGN需完全停車”的規(guī)則代碼,而訓練數(shù)據(jù)集中的人類司機在面對STOPSIGN時基本不會選擇停車而是減速通過。又例如直播中當特斯拉與一位騎行者同時在路口等待紅燈,當綠燈亮起后,騎行者行駛在特斯拉的右前方,此時前方對向車道也有來車,特斯拉選擇加速超過騎行者,而在過去情況下根據(jù)規(guī)則代碼特斯拉可能會選擇急剎。馬斯克也在直播中多次強調,某些場景在數(shù)據(jù)庫中“從未見過”(例如施工標記和錐桶某些場景模型中并未編寫對應的規(guī)則代碼(例如過減速帶時需要減速而是“完全靠神經網絡基于視頻進行訓練”。但直播中也出現(xiàn)了一次較為致命的接管,位于直行車道等待紅綠燈的特斯拉在前方左轉燈變綠后選擇起步并企圖闖紅燈,最終被馬斯克接管。馬斯克表示,后續(xù)需向V12投喂更多類似的“紅綠燈”視頻數(shù)據(jù),以解決此次failurecase(失敗案例)。FSDV12接下來的迭代速度有望大大加快,數(shù)據(jù)和算力是關鍵,落地時間點為明年初的可能性較大。盡管V12在直播中展現(xiàn)出的能力距離正式推送給消費者仍有距離,但從馬斯克直播中的言論以及V12的部分表現(xiàn)來看,V12背后的模型已開始學習人類司機的駕駛行為,或已十分接近端到端。我們認為,架構的顛覆遠比V12在直播中的表現(xiàn)更為重要,端到端最大的好處在于訓練效率的提升,訓練的關鍵從“人”轉變?yōu)榱恕皵?shù)據(jù)和算力”,而這兩者正是特斯拉的強項和發(fā)力點所在:-數(shù)據(jù)方面,《馬斯克傳》(WalterIsaacson著)中提到,特斯拉每天可訪問來自其車主約1600億幀的視頻,用于FSD的訓練。同時,馬斯克在8月26日的直播請務必閱讀正文之后的免責條款和聲明中提到,F(xiàn)SDV12接下來將會開始向車主推送影子模式,在車輛后臺進行運行對比,我們認為這將進一步增強特斯拉數(shù)據(jù)采集的效率和質量。-算力方面,特斯拉工程技術總監(jiān)TimZaman在X平臺發(fā)文表示,特斯拉已于8月28日起正式啟動了由10000塊英偉達H100GPU組成的算力集群。此外,特斯拉自研的Dojo超算中心也于今年7月量產,特斯拉規(guī)劃至2024年年底為Dojo投入10億美元,至2024年年初成為全球規(guī)模最大的5臺超級計算機之一。特斯拉D1A100804nm算力(FP32)22.6TFLOPS我們認為,端到端神經網絡模型的核心壁壘在于:專業(yè)的AI人才團隊、海量的視頻數(shù)據(jù)以及巨大的算力投入,國內主機廠樂觀看或也仍需3年時間以實現(xiàn)“端到端”上車。小鵬、華為、理想等國內主機廠從2023年開始陸續(xù)實現(xiàn)這一代“BEV+Transformer”架構的量產上車。目前,盡快實現(xiàn)“脫圖”以及盡可能多地“開城”是國內智駕車企的重點。而對于下一代的“端到端”架構,國內主機廠最快的也仍處于早期研發(fā)的階段。據(jù)36氪網站上的文章《CVPR最佳論文:大模型成就端到端自動駕駛》(2023/6/25,作者:李安琪),小鵬和理想目前都在籌備研發(fā)全棧端到端的自動駕駛方案,但效果還不太好。我們認為,特斯拉之所以能夠在短短的八個月時間內完成令人驚喜的端到端demo亮相,主要是得益于其在過去3-4年的時間里打造了百萬級別的車隊規(guī)模并積累了豐富的數(shù)據(jù)飛輪經驗,同時還有強大的AI算法團隊和雄厚的財力。而國內主機廠在AI人才團隊、請務必閱讀正文之后的免責條款和聲明汽車銷量規(guī)模、數(shù)據(jù)閉環(huán)能力、云端算力儲備等方面皆有提升空間,即使現(xiàn)在開始投入研發(fā),其神經網絡模型的訓練效率也勢必會與特斯拉存在較大差距。公司算力中心算力地點合作伙伴特斯拉Dojo超算中心單個DojoExaPOD算力1.1EFLOPS(BF16精度),計劃2024年10月總算力規(guī)模達100EFLOPS(另有大量英偉達A100/H100GPU)-“扶搖”智算中心2022年8月宣布建成時算力為600PFLOPS烏蘭察布阿里云蔚來“蔚來云”智算中心不詳合肥不詳理想理想智算中心據(jù)新智駕報道,理想智算中心算力至少750PFLOPS(FP16精度),報道中預計23Q3交付完成火山引擎吉利星睿智算中心2023年2月正式啟用,算力達810PFLOPS,計劃至2025年將算力擴充至1.2EFLOP湖州阿里云毫末智行雪湖綠洲2023年1月宣布成立,算力達670PFLOPS火山引擎▍可能性2:WorldModel,有望引領視覺的GPT時刻WorldModel可預測動態(tài)視頻的“下一幀”,需要模型對物理世界有強大的認知力和理解力。在2023年CVPR大會上,特斯拉和Wayve分別展示了其目前正在研發(fā)的全新模型WorldModel(Wayve模型名為GAIA-1)。WorldModel可生成自動駕駛相關的連續(xù)幀視頻場景,并根據(jù)指令(Prompt)進行變化,例如讓視頻中的車輛直行、右轉甚至偏離路面開到草地上等等。本質上,WorldModel學習的是視頻中的豐富語義以及背后的物理規(guī)律,從而對語言、語義以及世界演化的規(guī)律產生深刻理解。例如有人從人行道向馬路上扔了一個乒乓球,乒乓球會以怎樣的拋物線和軌跡進行運動;又例如前方發(fā)生交通事故后,包括傷員、警車、救護車、路人等不同的交通參與者會有什么行為等。特斯拉研發(fā)總監(jiān)A在CVPR大會上特別提到,特斯拉的WorldModel生成的是多個攝像頭多視角的場景,而從目前展示出的成果來看,其WorldModel所生成的內容在不同視角中的動態(tài)行為皆能保持相對穩(wěn)定,這說明模型已開始初步理解物體的一些物理變化規(guī)律。國內玩家極佳科技和清華大學也在聯(lián)合構建自己的世界模型DriveDreamer。根據(jù)其論文《DriveDreamer:TowardsReal-world-drivenWorldModelsforAutonomousDriving》(XiaofengWang,ZhengZhu,GuanHuang等著DriveDreamer的輸入條件除了初始參考幀(referenceframe)外,還可增加對應的道路結構信息(包括HDMap和3D框,可通過人工標注或已有的BEV感知方法得到)作為約束條件,并利用ActionFormer預測未來的道路結構特征;上述條件輸入至Auto-DM后,將生成可控的未來駕駛視頻;同時請務必閱讀正文之后的免責條款和聲明DriveDreamer還可根據(jù)過去的駕駛行為信息以及從Auto-DM中提取的多尺度特征來生成合理的未來駕駛行為,即合理預測駕駛動作的能力。ImageImageInput請務必閱讀正文之后的免責條款和聲明WorldModel的本質是無需標注、自監(jiān)督的預訓練模型,有望成為視覺領域的基礎模型(FoundationModel)。WorldModel的訓練任務是視頻幀的預測,而視頻屬于序列數(shù)據(jù),因此可進行自監(jiān)督訓練,類似于GPT利用詞語接龍或詞語填空的方式進行文本預測的自監(jiān)督訓練。中長期來看,WorldModel有潛力成為自動駕駛乃至具身智能領域的基礎模型,可類比GPT模型為所有NLP問題提供了一個通用解。具體來說,ChatGPT在語言通用模型GPT的基礎上,針對專門的對話場景,進行RLHF訓練(ReinforcementLearningfromHumanFeedback,基于人類反饋的強化學習從而實現(xiàn)更好的互動溝通效果。與之類似,基于WorldModel所提供的豐富語義信息以及對世界強大的理解力,自動駕駛模型的感知與預測能力有望得到顯著提升,規(guī)劃、控制等下游任務也有望迎刃而解。中信證券CITICSECURITIESCITICSECURITIES請務必閱讀正文之后的免責條款和聲明場景視頻、語言文本、操作信號…WorldModel自動駕駛、具身智能…DiffusionModel(擴散模型)或是WorldModel背后的核心技術之一。馬斯克在X平臺兩次提到,針對視覺領域,DiffusionModel或比Transformer更為高效。極佳科技的世界模型DriveDreamer也利用了DiffusionModel來構建對復雜環(huán)境的表征,以幫助WorldModel更好地理解復雜的自動駕駛場景。DiffusionModel是生成式模型的一種,其工作原理是通過學習數(shù)據(jù)集的擴散過程來生成數(shù)據(jù)的可能性分布,即先隨機添加噪聲來破壞訓練數(shù)據(jù),再學習逆轉的去噪過程,以生成樣本。DiffusionModel的應用使得圖像生成有了新的可能,目前最為火熱的圖像生成模型,包括OpenAI的DALL-E、Google的Imagen和StabilityAI的StableDiffusion,皆是基于DiffusionModel來完成的。最近,新興的DiffusionModel已開始擴展至視頻乃至3D內容生成領域,并展示出了強大的能力。中信證券CITICSECURITIESCITICSECURITIES請務必閱讀正文之后的免責條款和聲明資料來源:哈佛大學官網《MathematicalFoWorldModel為自動駕駛提供了一套未經證明的新路徑,若得以走通,將對行業(yè)產生較大顛覆。我們對WorldModel的潛在影響進行可能性推演:中短期來看,WorldModel或將主要應用于數(shù)據(jù)合成和仿真模擬環(huán)節(jié),廠商的車隊規(guī)模對算法訓練的重要性或有所下降,數(shù)據(jù)閉環(huán)的框架也將有所改變。長期來看,WorldModel有潛力成為視覺領域的基礎模型,行業(yè)內有望出現(xiàn)少數(shù)幾家強大的平臺方,以SaaS或API的方式為主機廠/運營方提供自動駕駛能力,而打造WorldModel的關鍵仍在于人才、數(shù)據(jù)和算力。中短期來看,WorldModel或將主要應用于數(shù)據(jù)合成和仿真模擬環(huán)節(jié),影響數(shù)據(jù)閉環(huán)和模型訓練的流程和效率。考慮到現(xiàn)實世界的復雜程度超乎想象,即使借助于規(guī)模龐大的量產車隊,也難以遍歷所有情形,因此引入仿真模式測試(Simulation)成為自動駕駛模型訓練的必要手段。仿真模擬的核心在于真實性,傳統(tǒng)仿真平臺基于WorldSim+Unreal等游戲引擎搭建,真實度不夠高,因此更多用于測試驗證,而非算法訓練。2022年以來,Nerf(Neuralradiancefield,神經輻射場)、DiffusionModel、WorldModel等新技術的出現(xiàn)提升了仿真平臺的模擬保真度,使得仿真訓練的質量大幅提升。相較之下,WorldModel的還原度最高,同時可用于合成實車運行時很難收集到的cornercases,且無需標注、靈中信證券CITICSECURITIESCITICSECURITIES請務必閱讀正文之后的免責條款和聲明場景挖掘、場景庫建設、仿真測試等模型開發(fā)、調優(yōu)、測評等場景挖掘、場景庫建設、仿真測試等模型開發(fā)、調優(yōu)、測評等原始數(shù)據(jù)結構化數(shù)據(jù)數(shù)據(jù)清洗、脫敏脫密等活高效,因而有望大幅提升模型的訓練效率。而當生成式AI成為數(shù)據(jù)的主要來源后,廠商的車隊規(guī)模將不再是自動駕駛能力的關鍵,數(shù)據(jù)閉環(huán)的框架和流程也將有所改變。數(shù)據(jù)挖掘、數(shù)據(jù)質量運營、自動化標注、人工標注等初期與真實數(shù)據(jù)進行配合,并進行逐步替代長期來看,當WorldModel成為視覺領域的基礎模型后,可能出現(xiàn)少數(shù)幾個平臺型玩家,對自動駕駛行業(yè)格局產生較大影響。無論是語言還是視覺領域,長期來看基礎模型都有望收斂至少數(shù)幾個平臺型玩家,而絕大多數(shù)應用都將圍繞著這些基礎模型進行開發(fā)。這主要是由于:一方面,基礎模型的參數(shù)量巨大、工程化復雜,同時需要龐大的數(shù)據(jù)集及高昂的算力成本;另一方面,基礎模型具有較強的通用性和泛化性。具體來說,在原來的技術路線下,自動駕駛算法需根據(jù)車端傳感器的配置、位置乃至車型的尺寸進行調整。即使特斯拉將其現(xiàn)在的FSD算法代碼開源,國內主機廠的適配工作量也不容小覷。包括前文中提到的“級聯(lián)式端到端神經網絡”,標準化程度也有限。這也是為什么目前主機廠都追求自研,且自研能力強的主機廠也走在了智駕行業(yè)的前列。但對于WorldModel而言,由于對世界有了強大的感知和理解力,傳感器和車型將不再是限制,云端調參將成為WorldModel的核心,而車端部署時標準化程度有望明顯提高,這將為平臺型玩家的誕生奠定基礎。而當少數(shù)平臺型玩家的WorldModel性能足夠成熟強大后,就有望通過SaaS或API的方式為主機廠/運營方提供高性價比的自動駕駛能力。誰能成為WorldModel的平臺型玩家?關鍵仍在于人才、數(shù)據(jù)和算力;資金投入需求較“BEV+Transformer”或有數(shù)倍增長。與作為更純粹的自監(jiān)督預訓練大模型,同樣需要專業(yè)的AI人才團隊、海量的視頻數(shù)據(jù)以及巨大的算力儲備。資金投入方面,盡管WorldModel所需要的工程師人數(shù)有所減少,但對AI人才質量的要求將明顯提升,同時考慮到算力需求的大幅增長,整體資金需求較這一代“BEV+Transformer”或有數(shù)倍增長。我們認為,特斯拉、華為等行業(yè)巨頭在資金和資源上更占優(yōu)勢;而WAYVE、極佳等初創(chuàng)企業(yè)的目標和精力更為聚焦,也有望吸引到更多的AI人才,類似于當年的OpenAI。而國內主機廠或許對WorldModel已有所關注,但在激烈的競爭環(huán)境下,各家普遍有較大中信證券CITICSECURITIESCITICSECURITIES請務必閱讀正文之后的免責條款和聲明20的銷售和量產交付壓力,且目前WorldModel的前景也尚不明朗(或需等待特斯拉有更多成果展示因此大家在人才和資源投入上或有所保留。-人才:AI模型的首要難點在于人,團隊不在大而在精,OpenAI也僅百人規(guī)模。WorldModel的研發(fā)要求團隊同時具有大模型、視覺和自動駕駛的背景知識和能力。同時,大模型的訓練涉及數(shù)據(jù)存儲、算法設計優(yōu)化、超大規(guī)模算力集群、分布式通信等諸多工程化問題。這也是為何OpenAI相當重視算法和工程團隊之間的緊密配合,搭載了有工程能力的算法團隊和有算法理解的工程團隊。-數(shù)據(jù):根據(jù)《馬斯克傳》(WalterIsaacson著)中的介紹,馬斯克在開發(fā)“端到端神經網絡”時發(fā)現(xiàn),至少需要超過100萬個視頻片段,神經網絡才會開始發(fā)揮性能。而對于WorldModel究竟需要多少數(shù)據(jù)量,目前尚無定論。但可以確定的是,基礎模型對于數(shù)據(jù)的需求一定是海量的。據(jù)36氪網站上的文章《人類數(shù)據(jù),要被OpenAI用完了,然后呢?》(2023/7/17,作者:極客公園OpenAI從GPT-1到GPT-3,訓練數(shù)據(jù)集從4.5GB指數(shù)級增長到了570GB。此外,與此前的數(shù)據(jù)驅動模型類似,WorldModel同樣對數(shù)據(jù)的質量有較高的要求。-算力:相較于文字,圖像的信息密度明顯更低,因此訓練同等水平的CV基礎模型比NLP模型需要更高的算力。WorldModel的訓練究竟需要多少算力目前尚未有定論,但從特斯拉的算力投入來看,較此前的“BEV+Transformer”架構至少有數(shù)倍乃至數(shù)十倍的提升。目前國內車企普遍選擇與云廠商合作打造智算中心,算力水平普遍在小幾千張英偉達A100。而根據(jù)知名半導體分析機構Semianalysis的預估,特斯拉在2022年年底約擁有等效約1萬張英偉達A100的算力。此外,根據(jù)特斯拉AI團隊(Tesla_AI)2023年6月在X平臺公布的算力規(guī)劃圖,特斯拉目標至2024年2月將算力規(guī)模擴大至全球前五規(guī)模,對應10萬張英偉達A100算力總和;2024年10月算力總規(guī)模達100EFLOPS,對應30萬張英偉達A100算力總和。從成本來看,據(jù)雷鋒網報道,理想汽車智算中心向火山引擎購買了300多臺英偉達服務器算力的公有云服務,算力在FP16精度下至少達750PFLOPS。根據(jù)A100FP16精度下312TFLOPS的算力計算(未采用稀疏技術理想智算中心約租用了2400張英偉達A100的算力。據(jù)36氪網站上的文章《ChatGPT們難以復制張A100組成的DGXA100服務器售價約19.9萬美元,對應300臺的合計成本一臺8張英偉達A100服務器包三年340萬元人民幣的租金計算,租賃300多臺服務器三年需投入超10億元人民幣,平均每年投入約3-4億元人民幣。而特斯拉于今年8月底表示將啟用1萬張英偉達H100GPU進行FSD訓練,據(jù)HPCwire,英偉達H100當前售價約3萬美元,對應1萬張英偉達H100合計售價約21億元。此外,特斯拉還于今年7月表示,計劃至20請務必閱讀正文之后的免責條款和聲明21--2024/07~20000WorldModel剛剛起步,目前或仍處于GPT-1前后階段,但進展速度值得期待。我們認為,特斯拉、Wayve等公司之所以不約而同地在今年推出WorldModel,很大程度上是受到了ChatGPT的啟發(fā)。當OpenAI為生成式AI指明了一條“大模型”的道路方向后,視覺模型有望追隨文本從“判別式AI到生成式AI再到基礎大模型”的發(fā)展路徑。OpenAI自2018年初發(fā)布GPT-1到2022年初發(fā)布GPT-3.5,歷時4年。而考慮到目前行業(yè)整體對“大模型”潛力的強烈共識、算力的升級以及以特斯拉為代表的玩家此前積累的海量數(shù)據(jù),我們認為WorldModel從0到1的爆發(fā)或更快。根據(jù)特斯拉工程師PhilDuan在今年CVPR上的介紹,特斯拉今年初才開始研發(fā)WorldModel,不到半年就展示出了不錯的demo能力,這或是得益于特斯拉此前所積累的海量場景數(shù)據(jù)。GPT發(fā)布時間線VS特斯拉WorldModel發(fā)布時間線GPT-1GPT-2GPT-3GPT-3.52018201920202021 特斯拉在CVPR首次提及WorldModel▍風險因素特斯拉端到端技術路線發(fā)展不及預期;特斯拉FSDV12推送進度不及預期;云端訓練算力出現(xiàn)較大緊缺;中國玩家追趕進度不及預期等。中信證券CITICSECURITIESCITICSECURITIES請務必閱讀正文之后的免責條款和聲明22▍相關研究產業(yè)策略自動駕駛系列—三大拐點共振,看好智能駕駛新一輪行情(2023-09-04)產業(yè)策略研究—三大拐點共振,自動駕駛奇點時刻已至(PPT)(2023-09-04)產業(yè)策略自動駕駛系列—L2+前裝量產開啟L4雄關漫道,Momenta何以轉動“飛輪”從頭越?(2023-08-23)產業(yè)策略自動駕駛系列—自動駕駛3.0時代,數(shù)據(jù)閉環(huán)能力將成勝負手(2023-08-16)產業(yè)策略自動駕駛產業(yè)研究系列—斯年智駕:場景物流無人駕駛領軍者,商業(yè)化奇點臨近(2023-08-11)產業(yè)策略獨角獸系列報告—獨角獸十問十答系列23:打造大模型時代的AI基礎軟件平臺–九章云極(2023-08-10)產業(yè)策略獨角獸系列報告—獨角獸十問十答系列22:工業(yè)AI視覺平臺的領導者–阿丘科技(2023-08-08)產業(yè)策略專題—自動駕駛的“cha

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論