版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2024年深度行業(yè)分析研究報(bào)告 32概覽:軟硬件全鏈路閉環(huán)全棧自研構(gòu)筑強(qiáng)大技術(shù)基石 52.1發(fā)展歷程:軟硬件持續(xù)迭代由外部合作到全棧自研 2.2系統(tǒng)架構(gòu):軟硬件全鏈路閉環(huán)實(shí)現(xiàn)高度集成 3算法端:創(chuàng)新算法優(yōu)化實(shí)現(xiàn)高效神經(jīng)網(wǎng)絡(luò)推理 83.1感知:先進(jìn)感知技術(shù),確保精準(zhǔn)環(huán)境理解和物體識(shí)別 3.2規(guī)劃:采用交互搜索框架快速選擇最優(yōu)方案 4算力端:Dojo超級(jí)算力支撐保持能效比優(yōu)勢(shì) 214.1Dojo系統(tǒng):特斯拉自研超算平臺(tái)研發(fā)進(jìn)展迅猛 214.2D1芯片:基于存算一體架構(gòu)實(shí)現(xiàn)高效數(shù)據(jù)傳輸 244.3瓦片集群:由基本單元出發(fā)構(gòu)成大規(guī)模算力集群 264.4軟件系統(tǒng):采用高效同步機(jī)制性能較GPU大幅提升 275芯片端:自研FSD芯片集成高效計(jì)算能力 5.1硬件架構(gòu):由合作邁向自研運(yùn)算性能強(qiáng)大 305.2編譯推理:高效優(yōu)化最大化計(jì)算資源利用 346數(shù)據(jù)端:自動(dòng)化數(shù)據(jù)閉環(huán)優(yōu)化數(shù)據(jù)驅(qū)動(dòng)訓(xùn)練 6.1自動(dòng)標(biāo)注:自動(dòng)化4D標(biāo)簽生成提升標(biāo)注效率 366.2仿真模擬:構(gòu)建虛擬場景優(yōu)化算法表現(xiàn) 396.3數(shù)據(jù)引擎:集成多源數(shù)據(jù)加速模型訓(xùn)練 427端到端架構(gòu):FSDV12引領(lǐng)實(shí)現(xiàn)感知決策一體化 467.1特斯拉的AI關(guān)鍵時(shí)刻:FSDV12首次實(shí)現(xiàn)端到端V13即將推出 467.2大模型成就端到端自動(dòng)駕駛推動(dòng)感知決策一體化 487.3端到端架構(gòu)演進(jìn):感知端到端到OneModel端到端 49插圖目錄 3表格目錄 4插圖目錄圖1:2013年9月,馬斯克在Twitter中首次提到AP 圖2:特斯拉自動(dòng)駕駛系統(tǒng)發(fā)展歷程 圖3:FSD累計(jì)行駛里程 圖4:FSD訂閱價(jià)格降至99美元/月 圖5:特斯拉FSD系統(tǒng)架構(gòu) 圖6:特斯拉視覺感知系統(tǒng)算法采用HydraNets架構(gòu) 圖7:圖像空間預(yù)測投射到向量空間后出現(xiàn)較大偏差 圖8:單相機(jī)檢測無法解決物體橫跨多相機(jī)的問題 圖9:BEV視角融合了多個(gè)攝像頭的視頻數(shù)據(jù) 圖10:Transformer是實(shí)現(xiàn)二維到三維變換的核心 圖11:通過圖像校準(zhǔn)解決攝像頭采集數(shù)據(jù)偏差問題 圖12:加入虛擬標(biāo)準(zhǔn)攝像頭以校準(zhǔn)圖像數(shù)據(jù)偏差 圖13:感知網(wǎng)絡(luò)仍是對(duì)瞬時(shí)圖像片段進(jìn)行感知 圖14:特斯拉引入時(shí)空序列特征層 圖15:特征序列模塊可以緩存時(shí)序與空間特征 圖16:隱狀態(tài)可組織成二維網(wǎng)格 圖17:空間RNN的隱狀態(tài)可包含多個(gè)通道 圖18:OccupancyNetwork對(duì)正在啟動(dòng)的兩節(jié)公交車運(yùn)動(dòng)狀態(tài)進(jìn)行精準(zhǔn)捕捉 圖19:OccupancyNetwork能夠生成可行使表面 圖20:基于Attention機(jī)制的OccupancyNetwork占用網(wǎng)絡(luò) 圖21:LanesNetwork旨在生成車道與連接信息 圖22:特斯拉采用低精度地圖對(duì)視覺表示進(jìn)行增強(qiáng) 圖23:LanesNetwork工作原理 圖24:稀疏化處理可使神經(jīng)網(wǎng)絡(luò)專注于計(jì)算最重要的區(qū)域 圖25:效率、安全和舒適是自動(dòng)駕駛規(guī)劃的三大目標(biāo) 圖26:非凸性和高維性是自動(dòng)駕駛規(guī)劃的兩大難點(diǎn) 圖27:特斯拉將規(guī)劃問題進(jìn)行分層分解 圖28:自動(dòng)駕駛系統(tǒng)需要實(shí)現(xiàn)多代理聯(lián)合軌跡規(guī)劃 圖29:自動(dòng)駕駛行駛方案評(píng)估至少需要10毫秒 圖30:特斯拉采用交互搜索框架,實(shí)現(xiàn)實(shí)時(shí)方案評(píng)估 20圖31:特斯拉Dojo發(fā)展歷程 21圖32:特斯拉Dojo算力規(guī)劃 22圖33:Dojo超級(jí)計(jì)算機(jī)三大目標(biāo) 23圖34:Dojo系統(tǒng)二維網(wǎng)格結(jié)構(gòu) 23圖35:Dojo訓(xùn)練節(jié)點(diǎn)架構(gòu) 24圖36:D1芯片結(jié)構(gòu) 24圖37:D1芯片計(jì)算陣列 25圖38:D1芯片串行器/解串器分布 25圖39:特斯拉Dojo指令集 25圖40:計(jì)算平面兩端各放置了一個(gè)接口處理器 26圖41:Dojo接口處理器連接在系統(tǒng)托盤下方 26圖42:訓(xùn)練瓦片上集成了25個(gè)D1芯片 27圖43:系統(tǒng)托盤上訓(xùn)練瓦片呈2x3矩陣式排布 27圖44:Dojo訓(xùn)練機(jī)柜中集成了兩個(gè)系統(tǒng)托盤 27圖45:系統(tǒng)托盤上訓(xùn)練瓦片呈2x3矩陣式排布 27圖46:系統(tǒng)性能由硬件、利用率和加速器占用率決定 28圖47:多加速器運(yùn)行批量歸一化會(huì)導(dǎo)致前向傳播延遲 28圖48:Dojo系統(tǒng)使用高效同步機(jī)制,實(shí)現(xiàn)內(nèi)部單元協(xié)作 28圖49:自動(dòng)標(biāo)注與占用網(wǎng)絡(luò)占特斯拉GPU使用量一半 29圖50:Dojo處理自動(dòng)標(biāo)注與占用網(wǎng)絡(luò)速度大幅提升 29圖51:特斯拉FSD雙芯片系統(tǒng)設(shè)計(jì) 31圖52:特斯拉FSD芯片發(fā)展歷程 32圖53:特斯拉FSD芯片架構(gòu) 33圖54:汽車中在同時(shí)運(yùn)行很多架構(gòu)、模塊和網(wǎng)絡(luò) 34圖55:神經(jīng)網(wǎng)絡(luò)編譯器與鏈接器架構(gòu) 34圖56:特斯拉混合調(diào)度系統(tǒng)架構(gòu) 35圖57:特斯拉數(shù)據(jù)標(biāo)注發(fā)展歷程 37圖58:基于2D圖像進(jìn)行標(biāo)注 37圖59:在BEV空間下進(jìn)行4D自動(dòng)標(biāo)注 37圖60:特斯拉4D自動(dòng)標(biāo)注流程 38圖61:4D自動(dòng)標(biāo)注的三個(gè)關(guān)鍵步驟 39圖62:特斯拉仿真模擬流程包含五大關(guān)鍵步驟 40圖63:通過自動(dòng)化標(biāo)簽生成道路網(wǎng)格和車道 41圖64:以隨機(jī)化啟發(fā)式規(guī)則生成外部世界 41圖65:特斯拉仿真世界創(chuàng)建流程 42圖66:特斯拉數(shù)據(jù)引擎示意圖 43圖67:特斯拉FSD用戶的累計(jì)行駛里程已超過13億英里 44圖68:自成閉環(huán)的數(shù)據(jù)引擎能夠更好地優(yōu)化神經(jīng)網(wǎng)絡(luò) 45圖69:馬斯克強(qiáng)調(diào):FSDv12運(yùn)行速度快了10倍,可以替代30萬行代碼 47圖70:特斯拉FSD發(fā)展路線圖 48圖71:多模塊化方案VS端到端方案 49圖72:自動(dòng)駕駛架構(gòu)演進(jìn)示意圖 表格目錄表1:Dojo算力分為內(nèi)核級(jí)、芯片級(jí)、格點(diǎn)級(jí)、集群級(jí)等四個(gè)層級(jí) 23表2:特斯拉自動(dòng)駕駛硬件平臺(tái)不同版本對(duì)比 31表3:FSD芯片1.0和2.0性能對(duì)比 33本報(bào)告為特斯拉FSD專題報(bào)告,從算法端、算力端、芯片端、數(shù)據(jù)端四個(gè)層面出發(fā),對(duì)FSD系統(tǒng)底層技術(shù)原理進(jìn)行全面深度拆解,并結(jié)合端到端架構(gòu)演進(jìn)趨勢(shì),對(duì)FSD系統(tǒng)的最新發(fā)展變化進(jìn)行梳理,對(duì)板塊后續(xù)核心催化進(jìn)行展望。FSD是一套包含感知、規(guī)控、執(zhí)行在內(nèi)的全鏈路自動(dòng)駕駛軟硬件架構(gòu),在算法、算力、數(shù)據(jù)、芯片等層面實(shí)現(xiàn)了高度集成:1)算法端:感知規(guī)劃算法全棧自研,實(shí)現(xiàn)從純視覺信息輸入到規(guī)劃方案輸出。1)感知。特斯拉采用BEV+Transformer架構(gòu),將2D圖像轉(zhuǎn)化為對(duì)周圍環(huán)境的準(zhǔn)確3D感知。而后,特斯拉將該架構(gòu)升級(jí)為OccupancyNetwork,能夠直接在向量空間產(chǎn)生體積占用,精準(zhǔn)識(shí)別物體運(yùn)動(dòng)狀態(tài)差異;2)規(guī)劃。特斯拉采用交互搜索框架,以任務(wù)分解的方式對(duì)一系列可能的行駛軌跡進(jìn)行研究,實(shí)現(xiàn)對(duì)規(guī)劃方案的實(shí)時(shí)評(píng)估。通過算法端全棧自研,特斯拉以低成本感知硬件進(jìn)行高階智駕能力輸出,快速實(shí)現(xiàn)自動(dòng)駕駛算法優(yōu)化迭代。2)算力端:從0到1構(gòu)建超級(jí)計(jì)算機(jī)系統(tǒng),為遠(yuǎn)期算力提供強(qiáng)大支撐。特斯拉從算力芯片開始,完整構(gòu)建Dojo超級(jí)計(jì)算機(jī)系統(tǒng),以處理自動(dòng)駕駛所需海量數(shù)據(jù)。2021年8月,Dojo在特斯拉首屆AIDay上正式亮相,定位為超高速訓(xùn)練計(jì)算機(jī),采用分布式計(jì)算架構(gòu)設(shè)計(jì),算力分為內(nèi)核級(jí)、芯片級(jí)、格點(diǎn)級(jí)、集群級(jí)等四個(gè)層級(jí),實(shí)現(xiàn)從訓(xùn)練節(jié)點(diǎn)到訓(xùn)練集群的完整構(gòu)建。特斯拉從0到1構(gòu)建超級(jí)計(jì)算機(jī)系統(tǒng),旨在擺脫對(duì)英偉達(dá)GPU的依賴,為遠(yuǎn)期算力瓶頸進(jìn)行前瞻布局。3)芯片端:由合作邁向自研,實(shí)現(xiàn)高性能算力集成。特斯拉自動(dòng)駕駛硬件平臺(tái)初期與Mobileye、英偉達(dá)等合作,2019年正式發(fā)布基于自研FSD芯片的HW3.0系統(tǒng),開始轉(zhuǎn)向硬件平臺(tái)全面自研,下一代全自動(dòng)駕駛(FSD)硬件——AI5,預(yù)計(jì)將于2025年下半年投產(chǎn)。FSD硬件計(jì)算平臺(tái)采用兩顆SoC芯片,以雙系統(tǒng)設(shè)計(jì)提升自動(dòng)駕駛功能安全冗余。特斯拉構(gòu)建了神經(jīng)網(wǎng)絡(luò)編譯器與鏈接器,以最大化計(jì)算資源利用率、吞吐量,并最小化延遲。通過芯片自研,特斯拉能夠?qū)崿F(xiàn)硬件方案的持續(xù)快速迭代,與軟件算法進(jìn)行更好的整合,從而實(shí)現(xiàn)更優(yōu)的系統(tǒng)性能。4)數(shù)據(jù)端:高效自動(dòng)標(biāo)注+構(gòu)建仿真場景,實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)訓(xùn)練。2020年,特斯拉開始研發(fā)并使用數(shù)據(jù)自動(dòng)標(biāo)注系統(tǒng),能夠在12小時(shí)內(nèi)自動(dòng)標(biāo)注一萬個(gè)駕駛旅程,可抵充500萬個(gè)小時(shí)的人工標(biāo)注工作,極大提高了標(biāo)注效率。仿真模擬則可以提供現(xiàn)實(shí)世界中難以獲得或是難以標(biāo)記的數(shù)據(jù),從而加速FSD能力的訓(xùn)練,賦能模型迭代。結(jié)合真實(shí)數(shù)據(jù)和標(biāo)簽,以及仿真和手動(dòng)校準(zhǔn)的數(shù)據(jù),特斯拉形成綜合訓(xùn)練數(shù)據(jù)集,用于訓(xùn)練車端的在線模型,涉及網(wǎng)絡(luò)占用、車道線和障礙物檢測以及規(guī)劃算法,形成閉環(huán)的數(shù)據(jù)流,實(shí)現(xiàn)自動(dòng)駕駛系統(tǒng)的持續(xù)優(yōu)化。FSD技術(shù)端快速進(jìn)化,V12為首個(gè)端到端自動(dòng)駕駛系統(tǒng),能夠模擬人類駕駛行為,實(shí)現(xiàn)感知決策一體化。特斯拉FSDv12于2023年底推出,采用端到端大模型,消除了自動(dòng)駕駛系統(tǒng)的感知和定位、決策和規(guī)劃、控制和執(zhí)行之間的斷面,將三大模塊合在一起,形成了一個(gè)大的神經(jīng)網(wǎng)絡(luò),直接從原始傳感器數(shù)據(jù)到車輛操控指令,簡化了信息傳遞過程,因而減少了延遲和誤差,提高了系統(tǒng)的敏捷性和準(zhǔn)確性。特斯拉FSD快速進(jìn)化,V13即將10月推出,有望于2025年Q1進(jìn)入中國和歐洲,智能駕駛拐點(diǎn)已至?!癢e,Robot”發(fā)布會(huì)即將開幕,有望成為智駕板塊強(qiáng)勁催化。特斯拉將于北京時(shí)間10月11日在美國洛杉磯發(fā)布新品,活動(dòng)主題口號(hào)為“We,Robot”。特斯拉Robotaxi即將正式推出,有望成為特斯拉發(fā)展歷程重要里程碑,并與FSDV13發(fā)布形成共振,共同成為板塊強(qiáng)勁催化。本篇報(bào)告與市場不同之處:1)從算法端、算力端、芯片端、數(shù)據(jù)端四個(gè)層面出發(fā),對(duì)FSD系統(tǒng)底層技術(shù)原理進(jìn)行全面深度拆解;2)結(jié)合FSDV12系統(tǒng)發(fā)展路徑,對(duì)感知端到端到OneModel端到端的技術(shù)架構(gòu)演進(jìn)趨勢(shì)展開研究,探析自動(dòng)駕駛領(lǐng)域全新發(fā)展路徑;3)對(duì)特斯拉FSD的未來發(fā)展路徑進(jìn)行分析,判斷特斯拉自動(dòng)駕駛的重要技術(shù)發(fā)展節(jié)點(diǎn),并對(duì)未來智駕板塊的潛在事件催化進(jìn)行展望。2概覽:軟硬件全鏈路閉環(huán)全棧自研構(gòu)筑強(qiáng)大技術(shù)基石特斯拉自動(dòng)駕駛系統(tǒng)發(fā)展始于2013年,初期采用外部合作方式。2013年9月,馬斯克在推特上首次提到AP(Autopilot系統(tǒng)),表示特斯拉正在進(jìn)行自動(dòng)駕駛領(lǐng)域的探索。2014年10月,特斯拉與視覺處理芯片獨(dú)角獸公司Mobileye進(jìn)行合作,正式推出第一代Autopilot硬件(HW1.0),率先搭載于ModelS。在未來一年多的時(shí)間里,特斯拉通過OTA不斷更新固件,使車輛獲得更完善的駕駛輔助或自動(dòng)駕駛功能。2016年10月,特斯拉推出第二代Autopilot硬件(HW2.0),采用了英偉達(dá)的DRIVEPX2平臺(tái),硬件平臺(tái)進(jìn)一步升級(jí)。圖1:2013年9月,馬斯克在Twitter中首次提到AP資料來源:界面新聞,民生證券研究院2019年4月,特斯拉推出HW3.0,正式開啟全棧自研。HW3.0放棄了英偉達(dá)的DRIVEPX2平臺(tái),轉(zhuǎn)而采用特斯拉全棧自研的FSD芯片。2020年10月,特斯拉小范圍推送FSDBeta,對(duì)Autopilot基礎(chǔ)架構(gòu)進(jìn)行了重大重寫。2021年7月,特斯拉開始推送FSDBetaV9,該版本采用純視覺自動(dòng)駕駛方案,摒棄了傳統(tǒng)的毫米波雷達(dá)和超聲波雷達(dá),是特斯拉在自動(dòng)駕駛技術(shù)的重要發(fā)展節(jié)點(diǎn)。2024年1月,特斯拉FSDV12正式向用戶推送,將城市街道駕駛堆棧升級(jí)為端到端神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)由數(shù)百萬個(gè)視頻片段訓(xùn)練而成,取代了超過30萬行的C++代碼。2024年2月,特斯拉ModelY迎來HW4.0自動(dòng)輔助駕駛硬件升級(jí),與HW3.0相比,HW4.0算力提升5倍,在硬件設(shè)計(jì)上實(shí)現(xiàn)并行處理能力增強(qiáng)、內(nèi)存管理優(yōu)化和專用加速器集成等多項(xiàng)創(chuàng)新。從最初的輔助駕駛系統(tǒng),到全棧自研自動(dòng)駕駛技術(shù),特斯拉持續(xù)引領(lǐng)智能駕駛技術(shù)發(fā)展浪潮。圖2:特斯拉自動(dòng)駕駛系統(tǒng)發(fā)展歷程FSD累計(jì)行駛里程快速增長,商業(yè)化拐點(diǎn)已至。2024年4月12日,為降低FSD體驗(yàn)門檻,吸引更多人訂閱,特斯拉FSD推出單月付費(fèi)優(yōu)惠,價(jià)格從199美元/月調(diào)降50%至99美元/月,F(xiàn)SD買斷價(jià)格維持1.2萬美元不變。FSDV12版本更新、訂閱價(jià)格下降,共同驅(qū)動(dòng)FSD累計(jì)行駛歷程數(shù)快速增長,截至2024年8月7日,F(xiàn)SD累計(jì)行駛里程達(dá)1.6億公里,商業(yè)化拐點(diǎn)已至。圖3:FSD累計(jì)行駛里程圖4:FSD訂閱價(jià)格降至99美元/月資料來源:阿爾法工廠研究院,民生證券研究院FSD是一套包含感知、規(guī)控、執(zhí)行在內(nèi)的全鏈路自動(dòng)駕駛軟硬件架構(gòu),在算法、算力、數(shù)據(jù)、芯片等層面實(shí)現(xiàn)了高度集成。FSD架構(gòu)在TeslaAIDay2022完整提出,核心組件包括規(guī)劃(Planning)、神經(jīng)網(wǎng)絡(luò)(NeuralNetworks)、訓(xùn)練數(shù)據(jù)(TrainingData)、訓(xùn)練基礎(chǔ)設(shè)施(TrainingInfra)、AI編譯與推理(AICompiler&Inference)等。FSD核心組件在算法端、算力端、數(shù)據(jù)端和硬件端展現(xiàn)出強(qiáng)大的整合能力:1)算法端,規(guī)劃組件專注于解決復(fù)雜的多物體關(guān)聯(lián)路徑規(guī)劃問題,通過精確處理自我車輛與周圍所有對(duì)象的行進(jìn)軌跡,為汽車提供執(zhí)行動(dòng)作的指導(dǎo)。同時(shí),神經(jīng)網(wǎng)絡(luò)則利用視頻流等信息,輸出車輛的運(yùn)動(dòng)學(xué)狀態(tài),如位置、速度、加速度等,以實(shí)現(xiàn)精確控制。2)算力端,訓(xùn)練基礎(chǔ)設(shè)施提供了強(qiáng)大的計(jì)算支持,包括CPU、GPU和神經(jīng)網(wǎng)絡(luò)加速器單元(NeuralNetworkAccelerator)。這些硬件資源通過AI編譯器的優(yōu)化,能夠高效地支持神經(jīng)網(wǎng)絡(luò)所需的新操作,并映射到最合適的硬件上,從而提升整體的計(jì)算效率。3)芯片端,AI編譯與推理組件確保了神經(jīng)網(wǎng)絡(luò)能夠在計(jì)算機(jī)上高效運(yùn)行。通過將神經(jīng)網(wǎng)絡(luò)的執(zhí)行分配到兩個(gè)獨(dú)立的芯片系統(tǒng)上,F(xiàn)SD實(shí)現(xiàn)了高性能的并行計(jì)算,進(jìn)一步提升了自動(dòng)駕駛系統(tǒng)的響應(yīng)速度和處理能力。4)數(shù)據(jù)端,訓(xùn)練數(shù)據(jù)通過4D自動(dòng)標(biāo)注技術(shù)、模擬仿真和數(shù)據(jù)引擎,實(shí)現(xiàn)了數(shù)據(jù)的自動(dòng)化和精準(zhǔn)化處理,形成了一個(gè)閉環(huán)的數(shù)據(jù)系統(tǒng),為算法的訓(xùn)練和優(yōu)化提供了高質(zhì)量的數(shù)據(jù)基礎(chǔ)。圖5:特斯拉FSD系統(tǒng)架構(gòu)3算法端:創(chuàng)新算法優(yōu)化實(shí)現(xiàn)高效神經(jīng)網(wǎng)絡(luò)推理感知規(guī)劃算法全棧自研,實(shí)現(xiàn)從純視覺信息輸入到規(guī)劃方案輸出。1)感知。特斯拉采用BEV+Transformer架構(gòu),將2D圖像轉(zhuǎn)化為對(duì)周圍環(huán)境的準(zhǔn)確3D感知。而后,特斯拉將該架構(gòu)升級(jí)為OccupancyNetwork,能夠直接在向量空間產(chǎn)生體積占用,精準(zhǔn)識(shí)別物體運(yùn)動(dòng)狀態(tài)差異;2)規(guī)劃。特斯拉采用交互搜索框架,以任務(wù)分解的方式對(duì)一系列可能的行駛軌跡進(jìn)行研究,實(shí)現(xiàn)對(duì)規(guī)劃方案的實(shí)時(shí)評(píng)估。通過算法端全棧自研,特斯拉以低成本感知硬件進(jìn)行高階智駕能力輸出,快速實(shí)現(xiàn)自動(dòng)駕駛算法優(yōu)化迭代。特斯拉視覺感知系統(tǒng)采用HydraNets架構(gòu),以標(biāo)準(zhǔn)化流程進(jìn)行視覺信息處理。1)Input。首先,系統(tǒng)接收來自攝像頭的原始視覺數(shù)據(jù),每個(gè)攝像頭采集分辨率為1280×960、36hz、12bit的視頻圖像;2)Backbone。用于提取圖像特征,特斯拉主要采用由RegNets(ResidualNeuralNetworks,殘差神經(jīng)網(wǎng)絡(luò))組成的特征網(wǎng)絡(luò)結(jié)構(gòu),能夠通過不同層次的特征提取,捕捉圖像的細(xì)節(jié)以及整體上下文信息;3)Neck。用于提取更復(fù)雜的特征,特斯拉采用BiFPNs(Bi-directionalFeaturePyramidNetworks,雙向特征金字塔網(wǎng)絡(luò)),通過引入雙向信息流,實(shí)現(xiàn)多個(gè)尺度之間信息交流共享,增強(qiáng)了對(duì)多尺度目標(biāo)的檢測性能;4)Head。由多個(gè)TaskSpecificHeads組成,負(fù)責(zé)最終的檢測任務(wù),如物體檢測、交通信號(hào)和車道識(shí)別等。HydraNets架構(gòu)能夠?qū)崿F(xiàn)特征共享、任務(wù)解耦與特征緩存。1)特征共享。HydraNets通過共享Backbone和BiFPNs特征金字塔網(wǎng)絡(luò),減少了重復(fù)計(jì)算工作;2)任務(wù)解耦。每個(gè)子任務(wù)在主干網(wǎng)絡(luò)上獨(dú)立工作和微調(diào),而不影響其他子任務(wù),從而可以在不影響其他任務(wù)的情況下,單獨(dú)對(duì)某個(gè)任務(wù)的數(shù)據(jù)集或頭部架構(gòu)進(jìn)行更改和優(yōu)化;3)特征緩存。HydraNets可以緩存多尺度級(jí)別特征,在進(jìn)行微調(diào)工作流程時(shí),可以只使用這些緩存的特征來微調(diào)模型的頭部,而無需重復(fù)計(jì)算整個(gè)圖6:特斯拉視覺感知系統(tǒng)算法采用HydraNets架構(gòu)特斯拉早期方案為先在二維圖像空間實(shí)現(xiàn)感知,再投射至三維向量空間。攝像頭采集到的數(shù)據(jù)為2D圖像級(jí),與現(xiàn)實(shí)世界不在一個(gè)維度,因此要實(shí)現(xiàn)完全自動(dòng)駕駛能力,則需要將二維數(shù)據(jù)變換至三維空間。特斯拉早期采取的方案是先在二維圖像空間(ImageSpace)實(shí)現(xiàn)感知,將其投射至三維向量空間(VectorSpace),再將所有攝像頭的結(jié)果進(jìn)行融合,但該方法需要對(duì)每個(gè)像素的信息進(jìn)行精準(zhǔn)深度預(yù)測,難度極大。此外,該方法無法對(duì)被遮擋的區(qū)域進(jìn)行預(yù)測,因此如果物體橫跨多個(gè)攝像頭,且沒有任何攝像頭能夠檢測到物體全貌,則難以對(duì)多個(gè)攝像頭采集到的信息進(jìn)行準(zhǔn)確融合,從而無法對(duì)物體進(jìn)行準(zhǔn)確預(yù)測。圖7:圖像空間預(yù)測投射到向量空間后出現(xiàn)較大偏差圖8:單相機(jī)檢測無法解決物體橫跨多相機(jī)的問題特斯拉采用BEV+Transformer架構(gòu),將2D圖像轉(zhuǎn)化為3D感知。為了構(gòu)建三維向量空間,網(wǎng)絡(luò)需要進(jìn)行物體深度信息輸出。大部分自動(dòng)駕駛公司的方案是采用激光雷達(dá)、毫米波雷達(dá)等傳感器來獲取深度信息,與視覺感知結(jié)果進(jìn)行融合,而特斯拉堅(jiān)持使用純視覺視頻數(shù)據(jù)來計(jì)算深度信息,在網(wǎng)絡(luò)結(jié)構(gòu)中引入一層BEV(BirdEye’sView,鳥瞰圖)空間轉(zhuǎn)換層,用以構(gòu)建網(wǎng)絡(luò)的空間理解能力。特斯拉采用“前融合”方案,將車身多個(gè)攝像頭獲得的視頻數(shù)據(jù)直接進(jìn)行融合,并采用同一套神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,實(shí)現(xiàn)特征從二維圖像空間到三維向量空間的變換。Transformer神經(jīng)網(wǎng)絡(luò)是實(shí)現(xiàn)二維到三維變換的核心,通過自注意力機(jī)制(Self-Attention)和多頭注意力(Multi-HeadAttention)模塊,將每個(gè)相機(jī)對(duì)應(yīng)的圖像特征轉(zhuǎn)換為Key(鍵)和Value(值然后訓(xùn)練模型以查表的方式自行檢索需要的特征用于預(yù)測,實(shí)現(xiàn)對(duì)車輛周圍環(huán)境的準(zhǔn)確感知。圖9:BEV視角融合了多個(gè)攝像頭的視頻數(shù)據(jù)圖10:Transformer是實(shí)現(xiàn)二維到三維變換的核心通過虛擬標(biāo)準(zhǔn)攝像頭實(shí)現(xiàn)圖像校準(zhǔn),消除外參誤差。不同車輛由于攝像頭安裝外參的差異,可能導(dǎo)致采集的數(shù)據(jù)存在微小偏差,為此特斯拉在感知框架中加入了一層虛擬標(biāo)準(zhǔn)攝像頭(syntheticvirtualcamera),引入攝像頭標(biāo)定外參將每輛車采集到的圖像數(shù)據(jù)通過去畸變、旋轉(zhuǎn)等方式處理后,統(tǒng)一映射到同一套虛擬標(biāo)準(zhǔn)攝像頭坐標(biāo)中,從而實(shí)現(xiàn)各攝像頭原始數(shù)據(jù)的校準(zhǔn)(Rectify消除外參誤差,確保數(shù)據(jù)一致性。圖11:通過圖像校準(zhǔn)解決攝像頭采集數(shù)據(jù)偏差問題圖12:加入虛擬標(biāo)準(zhǔn)攝像頭以校準(zhǔn)圖像數(shù)據(jù)偏差特斯拉引入時(shí)空序列特征層,以進(jìn)一步提升環(huán)境感知準(zhǔn)確性。在引入BEV+Transformer后,感知網(wǎng)絡(luò)已經(jīng)具備三維向量空間的感知能力,但仍是對(duì)瞬時(shí)的圖像片段進(jìn)行感知,只能根據(jù)當(dāng)前時(shí)刻感知到的信息進(jìn)行判斷,感知不到世界空間內(nèi)部分特征。特斯拉通過引入時(shí)空序列特征層,使得感知網(wǎng)絡(luò)擁有類似于司機(jī)的短時(shí)記憶,可以對(duì)當(dāng)前時(shí)刻的場景做出判斷,并根據(jù)一段時(shí)間內(nèi)的數(shù)據(jù)特征推演出目前場景下的可能結(jié)果。圖13:感知網(wǎng)絡(luò)仍是對(duì)瞬時(shí)圖像片段進(jìn)行感知圖14:特斯拉引入時(shí)空序列特征層時(shí)空序列特征層主要包括兩部分:1)特征隊(duì)列模塊(FeatureQueue用來緩存時(shí)序與空間特征。其中,時(shí)序特征隊(duì)列每過27ms將一個(gè)特征加入隊(duì)列,可以穩(wěn)定感知結(jié)果的輸出,比如運(yùn)動(dòng)過程中發(fā)生的目標(biāo)遮擋,模型可以找到目標(biāo)被遮擋前的特征來預(yù)測感知結(jié)果;空間特征隊(duì)列每行駛一定固定距離,將一個(gè)特征加入隊(duì)列,用于等紅綠燈一類需要長時(shí)間靜止等待的狀態(tài),在該狀態(tài)下一段時(shí)間之前的時(shí)序特征隊(duì)列中的特征會(huì)出隊(duì)而丟失,因此需要用空間特征隊(duì)列來記住一段距離之前路面的箭頭或是路邊的標(biāo)牌等交通標(biāo)志信息;圖15:特征序列模塊可以緩存時(shí)序與空間特征2)視頻模塊(VideoQueue用來整合時(shí)序上的信息。特斯拉使用RNN結(jié)構(gòu)作為視頻模塊,命名為空間RNN模塊(SpatialRNNModule)。車輛在二維平面上前進(jìn),可以將隱狀態(tài)(HiddenState)組織成一個(gè)二維網(wǎng)格。當(dāng)車輛前進(jìn)時(shí),只更新網(wǎng)格上與車輛當(dāng)前視野相關(guān)的部分,同時(shí)使用車輛的運(yùn)動(dòng)學(xué)狀態(tài)以及隱特征(HiddenFeatures)更新車輛位置??臻gRNN的隱狀態(tài)可包含多個(gè)通道,每個(gè)通道可以跟蹤道路的不同方面,如道路中心、邊緣、標(biāo)線等,網(wǎng)格可以同時(shí)處理多種類型的環(huán)境信息。網(wǎng)絡(luò)可以根據(jù)當(dāng)前的能見度選擇性地更新隱藏狀態(tài),如果某個(gè)區(qū)域被其他車輛遮擋,網(wǎng)絡(luò)可以選擇不更新那個(gè)區(qū)域的狀態(tài),直到能見度恢復(fù)。視頻模塊能夠提升感知系統(tǒng)對(duì)于時(shí)序遮擋的魯棒性、對(duì)于距離和目標(biāo)移動(dòng)速度估計(jì)的準(zhǔn)確性。圖16:隱狀態(tài)可組織成二維網(wǎng)格圖17:空間RNN的隱狀態(tài)可包含多個(gè)通道OccupancyNetwork能夠?qū)﹂L尾障礙物進(jìn)行更好表達(dá)。在自動(dòng)駕駛過程中,對(duì)常見障礙物如車輛、行人,可以通過3D物體檢測的方式來估計(jì)其位置和大小,但還有更多長尾障礙物也會(huì)對(duì)行駛產(chǎn)生重要影響,例如:1)可變形的障礙物,如兩節(jié)的掛車,不適合用3Dboundingbox來準(zhǔn)確表示;2)異形障礙物,如翻倒的車輛,難以用傳統(tǒng)的3D姿態(tài)來表示;3)不在已知類別中的障礙物,如路上的石子、垃圾等,無法進(jìn)行分類。因此,我們希望能找到一種更好的表達(dá)來描述這些長尾障礙物,完整估計(jì)3D空間中每一個(gè)位置的占據(jù)情況(Occupancy甚至是(占用網(wǎng)絡(luò))。OccupancyNetwork是對(duì)HydraNets的重要改進(jìn),能夠直接在向量空間產(chǎn)生體積占用。OccupancyNetwork算法受到機(jī)器人領(lǐng)域中occupancygridmapping啟發(fā),將3D空間分為大小一致的體素網(wǎng)格(Gridcell),然后判斷每個(gè)cell是否被占用。OccupancyNetwork以車輛攝像頭產(chǎn)生的視頻流作為輸入,直接在向量空間產(chǎn)生單一統(tǒng)一的體積占用,對(duì)車輛周圍3D位置被占用的概率進(jìn)行預(yù)測,并可以通過視頻信息對(duì)被遮擋物體情況進(jìn)行即時(shí)預(yù)測。對(duì)于每個(gè)位置,OccupancyNetwork能夠產(chǎn)生一組語義,如路緣、汽車、行人和路上的碎片。OccupancyNetwork通過高效的計(jì)算能力,在10毫秒內(nèi)快速更新對(duì)周圍環(huán)境的感知,同時(shí)提供物體尺寸的近似估計(jì),支持動(dòng)態(tài)及靜態(tài)場景的全面預(yù)測,具有低延遲和低內(nèi)存占用的特點(diǎn)。OccupancyNetwork能夠精準(zhǔn)識(shí)別物體運(yùn)動(dòng)狀態(tài)差異,與傳統(tǒng)目標(biāo)檢測網(wǎng)絡(luò)相比優(yōu)勢(shì)明顯。中一輛兩節(jié)的公交車正在啟動(dòng),其中藍(lán)色表示運(yùn)動(dòng)的體素,紅色表示靜止的體素,OccupancyNetwork精確捕捉到公交車第一節(jié)已經(jīng)啟動(dòng),而第二節(jié)還處于靜止?fàn)顟B(tài)的細(xì)微差別,并可對(duì)公交車的精確曲率進(jìn)行預(yù)測,而這一過程對(duì)傳統(tǒng)的目標(biāo)檢測網(wǎng)絡(luò)來說非常復(fù)雜。圖18:OccupancyNetwork對(duì)正在啟動(dòng)的兩節(jié)公交車運(yùn)動(dòng)狀態(tài)進(jìn)行精準(zhǔn)捕捉OccupancyNetwork能夠生成可行使表面,增強(qiáng)復(fù)雜地形自動(dòng)駕駛車輛控制能力。除體素網(wǎng)格外,OccupancyNetwork還能夠生成可行駛表面(driverablesurface),可行駛表面具有3D幾何形狀與語義信息,能夠增強(qiáng)在多山、彎曲道路等復(fù)雜地形上,自動(dòng)駕駛車輛的控制能力。決策層可利用可行駛表面信息,更好的進(jìn)行加速、減速等運(yùn)動(dòng)決策。圖19:OccupancyNetwork能夠生成可行使表面OccupancyNetwork引入SpatialAttention機(jī)制。OccupancyNetwork首先利用RegNet和BiFPN從多相機(jī)獲取特征,然后采用帶有3D空間位置信息的SpatialQuery,基于SpatialAttention注意力機(jī)制,實(shí)現(xiàn)對(duì)多個(gè)相機(jī)的3D空間位置信息和2D圖像的信息融合,模型從中學(xué)習(xí)對(duì)應(yīng)的特征關(guān)系,最終輸出高維的空間特征。在進(jìn)行特征融合后,基于反卷積(Deconvolution)的解碼器會(huì)解碼出每個(gè)3D空間位置的占用情況和占用流輸出,形成固定大小的體素網(wǎng)絡(luò)。模型的最后額外設(shè)計(jì)了一個(gè)隱式QueryableMLPDecoder,輸入任意坐標(biāo)值(x,y,z),可解碼出該空間位置的信息,即Occupancy,Semantics,F(xiàn)low,打破了模型分辨率的限制。圖20:基于Attention機(jī)制的OccupancyNetwork占用網(wǎng)絡(luò)策LanesNetwork旨在為自動(dòng)駕駛車輛提供關(guān)鍵的車道拓?fù)湫畔?,以?yōu)化軌跡規(guī)劃和車道變換決策。初期,特斯拉將車道檢測問題建模為圖像空間即時(shí)分割任務(wù),只能從幾種不同類型的幾何形狀中進(jìn)行車道預(yù)測,適用于高速公路等高度結(jié)構(gòu)化的道路,但無法應(yīng)對(duì)交叉路口等復(fù)雜、多樣的道路拓?fù)鋱鼍啊榇?,特斯拉運(yùn)用神經(jīng)網(wǎng)絡(luò)來預(yù)測車道與車道之間的連接性。車道檢測神經(jīng)網(wǎng)絡(luò)由三部分組成,其中第一部分包括卷積層、注意力層與其他神經(jīng)網(wǎng)絡(luò)層,對(duì)車輛攝像頭采集的視頻信息進(jìn)行編碼,產(chǎn)生豐富的視覺表示。之后,特斯拉采用涵蓋有關(guān)交叉口內(nèi)車道拓?fù)?、各條道路上的車道數(shù)等信息的低精度地圖,對(duì)車道檢測神經(jīng)網(wǎng)絡(luò)生成的豐富視覺表示進(jìn)行增強(qiáng),輸出密集張量信息,并最終轉(zhuǎn)化為車道及其連接性的信息。圖21:LanesNetwork旨在生成車道與連接信息圖22:特斯拉采用低精度地圖對(duì)視覺表示進(jìn)行增強(qiáng)特斯拉采用離散化處理+樣條系數(shù)回歸的方法,進(jìn)行車道線預(yù)測。特斯拉首先將現(xiàn)實(shí)世界進(jìn)行離散化處理,引入粗略劃分的網(wǎng)格,然后對(duì)可能位置的熱力圖進(jìn)行預(yù)測,鎖定可能性最大的位置,并在此基礎(chǔ)上對(duì)預(yù)測進(jìn)行細(xì)化,以得到精確的點(diǎn)位。不同點(diǎn)位的標(biāo)記類型不同,新車道的起點(diǎn)為起始標(biāo)記,其他點(diǎn)為延續(xù)標(biāo)記,通過回歸樣條系數(shù)來獲取兩點(diǎn)間的精確幾何形狀。之后,不斷重復(fù)這一過程,直到得到車道圖中所有標(biāo)記。 圖23:LanesNetwork工作原理神經(jīng)網(wǎng)絡(luò)可專注于計(jì)算最重要的區(qū)域,以較低延遲對(duì)道路上其他物體行為信息進(jìn)行預(yù)測。自動(dòng)駕駛系統(tǒng)神經(jīng)網(wǎng)絡(luò)的運(yùn)行分為兩步:1)神經(jīng)網(wǎng)絡(luò)快速識(shí)別出3D空間中代理(即車輛或物體)的位置;2)神經(jīng)網(wǎng)絡(luò)從這些位置提取張量,結(jié)合車輛速度、方向等其他數(shù)據(jù),進(jìn)行后續(xù)處理。通過稀疏化處理方式,神經(jīng)網(wǎng)絡(luò)可以專注于計(jì)算最重要的區(qū)域,以較低延遲實(shí)現(xiàn)卓越性能,對(duì)道路上其他物體行為信息進(jìn)行預(yù)測。自動(dòng)駕駛系統(tǒng)不僅可以理解環(huán)境中的位置和運(yùn)動(dòng)狀態(tài),還能夠?qū)ζ湄S富的語義信息進(jìn)行預(yù)測,從而在保證駕駛安全性的同時(shí),實(shí)現(xiàn)類人的駕駛操作。圖24:稀疏化處理可使神經(jīng)網(wǎng)絡(luò)專注于計(jì)算最重要的區(qū)域效率、安全和舒適是自動(dòng)駕駛規(guī)劃的三大目標(biāo),非凸性和高維性是自動(dòng)駕駛規(guī)劃的兩大難點(diǎn)。與高速路況相比,城市路況更為復(fù)雜,需要應(yīng)對(duì)臨時(shí)施工路段、穿行車輛與行人。自動(dòng)駕駛規(guī)劃的難點(diǎn)主要體現(xiàn)在兩個(gè)方面:1)非凸性,行動(dòng)空間是非凸的,意味著存在多個(gè)可能的解,但難以找到全局一致的解決方案,規(guī)劃可能會(huì)陷入局部最小值;2)高維性,車輛需要對(duì)未來10-15秒的行為做出規(guī)劃,涉及位置、速度、加速度等大量參數(shù),導(dǎo)致規(guī)劃問題呈現(xiàn)出高維的特征。圖25:效率、安全和舒適是自動(dòng)駕駛規(guī)劃的三大目標(biāo)圖26:非凸性和高維性是自動(dòng)駕駛規(guī)劃的兩大難點(diǎn)特斯拉將規(guī)劃問題進(jìn)行分層分解,先采用離散搜索方法降低非凸性,縮小選擇范圍,再采用連續(xù)優(yōu)化方法進(jìn)行優(yōu)化,得出最終解決方案。對(duì)于非凸問題,特斯拉采用離散搜索方法解決,因?yàn)殡x散搜索不會(huì)陷入局部最小值,而連續(xù)函數(shù)優(yōu)化容易陷入局部最小值;對(duì)于高維問題,特斯拉采用連續(xù)優(yōu)化方法解決,因?yàn)殡x散搜索方法不使用任何梯度信息,需要逐點(diǎn)評(píng)估每個(gè)點(diǎn)的好壞,效率較低,而連續(xù)優(yōu)化方法利用基于梯度的方法,可以快速找到好的解決方案。圖27:特斯拉將規(guī)劃問題進(jìn)行分層分解自動(dòng)駕駛規(guī)劃需要解決多代理聯(lián)合軌跡規(guī)劃問題,快速選出最優(yōu)行駛方案。自動(dòng)駕駛系統(tǒng)需要解決多代理聯(lián)合軌跡規(guī)劃的問題,考慮自己和所有其他車輛、行人的運(yùn)動(dòng)軌跡,對(duì)所有可能的行駛方案進(jìn)行評(píng)估,快速選出最優(yōu)行駛方案。評(píng)估過程至少需要10毫秒左右,而在面對(duì)繁忙路口等復(fù)雜場景時(shí)需要50毫秒。圖28:自動(dòng)駕駛系統(tǒng)需要實(shí)現(xiàn)多代理聯(lián)合軌跡規(guī)劃圖29:自動(dòng)駕駛行駛方案評(píng)估至少需要10毫秒為實(shí)現(xiàn)實(shí)時(shí)方案評(píng)估,特斯拉采用交互搜索框架,以任務(wù)分解的方式對(duì)一系列可能的行駛軌跡進(jìn)行研究。1)自動(dòng)駕駛系統(tǒng)首先收集車道、障礙物和周圍移動(dòng)物體的視覺測量數(shù)據(jù),這些數(shù)據(jù)被表示為稀疏抽象(SparseAbstraction)和潛在特征(LatentFeatures)。自動(dòng)駕駛系統(tǒng)利用這些信息生成一組候選目標(biāo),使用經(jīng)典優(yōu)化方法與神經(jīng)網(wǎng)絡(luò)規(guī)劃器來創(chuàng)建初始軌跡;2)得到初始軌跡之后,特斯拉采用遞增式的方法,在關(guān)鍵約束的基礎(chǔ)上,不斷加入新的約束條件,利用較少約束下的最優(yōu)解作為初值,逐步求解更復(fù)雜的優(yōu)化問題;3)構(gòu)建輕量級(jí)可查詢網(wǎng)絡(luò),該網(wǎng)絡(luò)由人類駕駛數(shù)據(jù)與寬松時(shí)間限制下的計(jì)算數(shù)據(jù)進(jìn)行訓(xùn)練,能夠在100微秒內(nèi)對(duì)規(guī)劃軌跡進(jìn)行評(píng)分,顯著提升規(guī)劃效率。特斯拉主要從四個(gè)方面對(duì)規(guī)劃軌跡進(jìn)行評(píng)分,進(jìn)行決策樹剪枝:1)碰撞檢查,以確保路徑安全;2)舒適性分析,以評(píng)估乘客體驗(yàn);3)干預(yù)可能性,以評(píng)估候選路徑導(dǎo)致人工接管的概率;4)與人類駕駛接近度,基于人類駕駛數(shù)據(jù),評(píng)估候選路徑與人類駕駛員行為的接近程度。通過綜合評(píng)估,特斯拉規(guī)劃系統(tǒng)能夠高效地篩選出最優(yōu)路徑,優(yōu)化自動(dòng)駕駛的決策過程。圖30:特斯拉采用交互搜索框架,實(shí)現(xiàn)實(shí)時(shí)方案評(píng)估4算力端:Dojo超級(jí)算力支撐保持能效比優(yōu)勢(shì)從0到1構(gòu)建超級(jí)計(jì)算機(jī)系統(tǒng),為遠(yuǎn)期算力提供強(qiáng)大支撐。特斯拉從算力芯片開始,完整構(gòu)建Dojo超級(jí)計(jì)算機(jī)系統(tǒng),以處理自動(dòng)駕駛所需海量數(shù)據(jù)。2021年8月,Dojo在特斯拉首屆AIDay上正式亮相,定位為超高速訓(xùn)練計(jì)算機(jī),采用分布式計(jì)算架構(gòu)設(shè)計(jì),算力分為內(nèi)核級(jí)、芯片級(jí)、格點(diǎn)級(jí)、集群級(jí)等四個(gè)層級(jí),實(shí)現(xiàn)從訓(xùn)練節(jié)點(diǎn)到訓(xùn)練集群的完整構(gòu)建。特斯拉從0到1構(gòu)建超級(jí)計(jì)算機(jī)系統(tǒng),旨在擺脫對(duì)英偉達(dá)GPU的依賴,為遠(yuǎn)期算力瓶頸進(jìn)行前瞻布局。Dojo于2021年8月正式亮相,研發(fā)進(jìn)展迅猛。2019年4月,馬斯克在特斯拉自動(dòng)駕駛?cè)眨ˋutonomousDay)上提到了Dojo,稱Dojo是“能夠利用海量視頻數(shù)據(jù),做無人監(jiān)管標(biāo)注和訓(xùn)練的超級(jí)計(jì)算機(jī)”;2021年8月,Dojo超級(jí)計(jì)算機(jī)在特斯拉首屆AIDay上首次正式亮相,特斯拉重點(diǎn)展示了Dojo的關(guān)鍵組成單元D1芯片,由特斯拉自主研發(fā),用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練;2022年9月,特斯拉在第二屆AIDay上展示了Dojo的最新進(jìn)展,包括散熱方案、DojoPOD機(jī)柜集成架構(gòu)等;2023年7月,馬斯克表示,特斯拉計(jì)劃在2024年底前對(duì)Dojo項(xiàng)目投資超過10億美元,自主研發(fā)超級(jí)計(jì)算機(jī),以處理發(fā)展自動(dòng)駕駛軟件所需的海量數(shù)據(jù),擺脫對(duì)英偉達(dá)GPU的依賴;2024年1月,特斯拉將投資超過5億美元,在紐約超級(jí)工廠建造一個(gè)巨型Dojo超級(jí)計(jì)算機(jī)集群。同時(shí),馬斯克表示特斯拉2024年在英偉達(dá)硬件上的投資將超過5億美元,并將開始購買AMD的硬件。圖31:特斯拉Dojo發(fā)展歷程資料來源:騰訊科技,電動(dòng)星球,界面新聞,electrek,民生證券Dojo算力規(guī)劃明確,計(jì)劃于2024年10月達(dá)到100Exa-Flops。根據(jù)特斯拉的規(guī)劃:1)2023年7月,Dojo進(jìn)入投產(chǎn)階段,拉開特斯拉算力集群快速建設(shè)階段的帷幕;2)2024年2月,Dojo將成為全球最強(qiáng)大的五臺(tái)超級(jí)計(jì)算機(jī)之一;3)2024年10月,Dojo的算力總規(guī)模達(dá)到100Exa-Flops,相當(dāng)于30萬塊英偉達(dá)A100GPU的算力總和。圖32:特斯拉Dojo算力規(guī)劃Dojo定位為超高速訓(xùn)練計(jì)算機(jī),采用分布式計(jì)算架構(gòu)設(shè)計(jì)。2021年AIDay上,特斯拉表示Dojo項(xiàng)目的三大目標(biāo)為實(shí)現(xiàn)最佳AI訓(xùn)練性能、助力更大更復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練、實(shí)現(xiàn)節(jié)能與成本效益。為此,特斯拉采用分布式計(jì)算架構(gòu)設(shè)計(jì),以強(qiáng)大的計(jì)算單元組成巨大計(jì)算平面,計(jì)算單元之間通過高帶寬、低延遲的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行連接,形成二維網(wǎng)格結(jié)構(gòu)。在進(jìn)行大型神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí),Dojo可以將神經(jīng)網(wǎng)絡(luò)分成若干小塊,每個(gè)計(jì)算單元可以同時(shí)處理網(wǎng)絡(luò)的一部分。神經(jīng)網(wǎng)絡(luò)編譯器會(huì)考慮數(shù)據(jù)在時(shí)間和空間上的接近性,優(yōu)化信息在計(jì)算單元之間的傳遞,從而提高工作效率。圖33:Dojo超級(jí)計(jì)算機(jī)三大目標(biāo)圖34:Dojo系統(tǒng)二維網(wǎng)格結(jié)構(gòu)Dojo采用分布式2D架構(gòu),算力分為內(nèi)核級(jí)、芯片級(jí)、格點(diǎn)級(jí)、集群級(jí)等四個(gè)層級(jí)。按照層次劃分,每354個(gè)Dojo核心組成一塊D1芯片,而每25顆芯片組成一個(gè)訓(xùn)練模組,最后120個(gè)訓(xùn)練模組組成一組ExaPOD計(jì)算集群,共計(jì)3000顆D1芯片。1)內(nèi)核級(jí):DojoCore(訓(xùn)練節(jié)點(diǎn)為單個(gè)計(jì)算核心,64位位寬,具有4個(gè)8x8x4的矩陣計(jì)算核心,2GHz主頻;2)芯片級(jí):D1,為單個(gè)芯片,核心數(shù)為354,面積645mm2;3)格點(diǎn)級(jí):DojoTile,為單個(gè)訓(xùn)練模組,每5x5個(gè)芯片組成一個(gè)訓(xùn)練模組;4)集群級(jí):ExaPOD,為特斯拉訓(xùn)練集群,每12個(gè)訓(xùn)練模組組成一個(gè)機(jī)柜,每10個(gè)機(jī)柜組成ExaPOD,共計(jì)3000個(gè)D1芯片。表1:Dojo算力分為內(nèi)核級(jí)、芯片級(jí)、格點(diǎn)級(jí)、集群級(jí)等四個(gè)層級(jí) 訓(xùn)練瓦片集群級(jí)集群級(jí)訓(xùn)練節(jié)點(diǎn)是Dojo最小的內(nèi)部計(jì)算單元,基于存算一體架構(gòu)設(shè)計(jì)。訓(xùn)練節(jié)點(diǎn)(TrainingNode)是Dojo最小的內(nèi)部計(jì)算單元,大小關(guān)系到同步速度與硬件復(fù)雜度。降低延遲和提高帶寬是訓(xùn)練節(jié)點(diǎn)的主要優(yōu)化方向,每個(gè)訓(xùn)練節(jié)點(diǎn)基于存算一體架構(gòu)設(shè)計(jì),不僅具備向量計(jì)算和矩陣計(jì)算能力,還包含完整的取指、譯碼、執(zhí)行部件,并以2GHz的頻率運(yùn)行。每個(gè)訓(xùn)練節(jié)點(diǎn)還配備了1.25MB的SRAM作為主存、而非緩存使用,能夠以400GB/s的速度進(jìn)行數(shù)據(jù)加載和270GB/s的速度進(jìn)行數(shù)據(jù)存儲(chǔ)。訓(xùn)練節(jié)點(diǎn)包含了一個(gè)64位超標(biāo)量CPU,針對(duì)矩陣乘法和向量SIMD進(jìn)行了優(yōu)化,支持FP32、BFP16、CFP8等多種浮點(diǎn)數(shù)格式運(yùn)算。超標(biāo)量CPU具備4路多線程能力,可以同時(shí)處理多個(gè)指令,以提高運(yùn)行效率。同時(shí),CPU的指令集針對(duì)機(jī)器學(xué)習(xí)工作負(fù)載進(jìn)行了優(yōu)化,能夠?qū)崿F(xiàn)轉(zhuǎn)置、聚集、鏈接遍歷、廣播等多種功能。圖35:Dojo訓(xùn)練節(jié)點(diǎn)架構(gòu)圖36:D1芯片結(jié)構(gòu)D1芯片計(jì)算陣列由54個(gè)訓(xùn)練節(jié)點(diǎn)組成,能夠?qū)崿F(xiàn)高效數(shù)據(jù)傳輸。訓(xùn)練節(jié)點(diǎn)采用模塊化設(shè)計(jì),可以靈活組合擴(kuò)展,形成更大的計(jì)算平面。D1芯片采用18x20的網(wǎng)格布局,計(jì)算陣列由354個(gè)訓(xùn)練節(jié)點(diǎn)組成,采用臺(tái)積電7納米制造工藝,算力達(dá)362TFLOPs,100%面積用于機(jī)器學(xué)習(xí)訓(xùn)練和帶寬。在計(jì)算陣列周圍,D1芯片布置了576個(gè)高速低功耗串行器/解串器(Serializer/Deserializer,簡稱SerDes),I/O帶寬高達(dá)10TB/s,大約是最先進(jìn)的網(wǎng)絡(luò)交換芯片的兩倍,在進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練時(shí)能夠?qū)崿F(xiàn)高效的數(shù)據(jù)傳輸,從而提升整體的計(jì)算性能。圖37:D1芯片計(jì)算陣列圖38:D1芯片串行器/解串器分布D1處理器的指令集設(shè)計(jì)通過擴(kuò)展RISC-V架構(gòu),提供多樣化的計(jì)算格式和編譯器支持。D1處理器基于RISC-V架構(gòu)的ISA進(jìn)行了擴(kuò)展,以增強(qiáng)其計(jì)算能力。D1核心支持FP32和FP16這兩種標(biāo)準(zhǔn)的浮點(diǎn)計(jì)算格式,并特別引入了BFP16格式,以優(yōu)化推理(Inference)過程。為了進(jìn)一步提升性能,D1處理器還集成了8位CFP8格式,這種格式在降低精度的同時(shí)提高了計(jì)算吞吐量。Dojo編譯器的設(shè)計(jì)允許在尾數(shù)精度上進(jìn)行動(dòng)態(tài)調(diào)整,從而覆蓋更廣的精度范圍,以適應(yīng)不同的計(jì)算需求。此外,D1處理器能夠同時(shí)支持最多16種不同的矢量格式,靈活性高,能夠顯著提升處理器算力,使其能夠更高效的處理各種計(jì)算任務(wù)。圖39:特斯拉Dojo指令集特斯拉將50萬個(gè)訓(xùn)練節(jié)點(diǎn)集合成巨大的計(jì)算平面,以接口處理器提升訓(xùn)練效率。特斯拉把50萬個(gè)訓(xùn)練節(jié)點(diǎn)進(jìn)行組合,形成巨大的計(jì)算平面,該計(jì)算平面由1500個(gè)D1芯片密集連接而成。在計(jì)算平面的兩端,特斯拉各放置了一個(gè)Dojo接口處理器,通過第四代PCIe接口與計(jì)算平面連接,能夠?qū)崿F(xiàn)數(shù)據(jù)中心主機(jī)與計(jì)算平臺(tái)的高速通信。接口處理器為計(jì)算平面配備了高帶寬DRAM共享內(nèi)存,可以快速存儲(chǔ)訓(xùn)練瓦片所需的大量數(shù)據(jù);使用特斯拉定制協(xié)議TTP在整個(gè)加速器中進(jìn)行通信,確保訓(xùn)練瓦片能夠獲得全部內(nèi)存帶寬,從而提升訓(xùn)練效率。圖40:計(jì)算平面兩端各放置了一個(gè)接口處理器圖41:Dojo接口處理器連接在系統(tǒng)托盤下方訓(xùn)練瓦片是計(jì)算平面的基本單元,最終構(gòu)成大規(guī)模訓(xùn)練集群:1)訓(xùn)練瓦片。特斯拉創(chuàng)造性的設(shè)計(jì)了訓(xùn)練瓦片結(jié)構(gòu),作為計(jì)算平面的基本單元。一個(gè)訓(xùn)練瓦片上集成了25個(gè)D1芯片,采用高帶寬連接器進(jìn)行數(shù)據(jù)傳輸,可以提供9PFLOPS的算力。訓(xùn)練瓦片具有巨大的輸入/輸出(I/O)帶寬,可以快速傳輸和處理大量數(shù)據(jù);2)系統(tǒng)托盤。系統(tǒng)托盤上放置了6個(gè)訓(xùn)練瓦片,呈2x3矩陣式排布。一個(gè)系統(tǒng)托盤擁有20個(gè)接口處理器,以及640GB的高帶寬DRAM,能夠?qū)崿F(xiàn)機(jī)柜內(nèi)部、不同機(jī)柜之間計(jì)算瓦片的無縫連接;圖42:訓(xùn)練瓦片上集成了25個(gè)D1芯片圖43:系統(tǒng)托盤上訓(xùn)練瓦片呈2x3矩陣式排布3)訓(xùn)練機(jī)柜。訓(xùn)練機(jī)柜中集成了兩個(gè)系統(tǒng)托盤,總算力達(dá)1000PFLOPS。機(jī)柜配置了冗余電源供應(yīng)系統(tǒng),以保證計(jì)算系統(tǒng)穩(wěn)定運(yùn)行;4)訓(xùn)練集群。訓(xùn)練集群(ExaPOD)由10個(gè)訓(xùn)練機(jī)柜組成,總算力達(dá)1ExaFlOPS。圖44:Dojo訓(xùn)練機(jī)柜中集成了兩個(gè)系統(tǒng)托盤圖45:系統(tǒng)托盤上訓(xùn)練瓦片呈2x3矩陣式排布軟件系統(tǒng)整體性能由硬件性能、利用率和加速器占用率共同決定。編譯器的任務(wù)是從硬件中提取性能,而數(shù)據(jù)流的任務(wù)是確保數(shù)據(jù)能夠以足夠的吞吐量供給硬件,避免硬件空閑等待數(shù)據(jù)。當(dāng)模型非常大時(shí),單個(gè)加速器無法一次性處理所有數(shù)據(jù),因?yàn)槊總€(gè)加速器能處理的批量大小通常比批量歸一化所需的批量大小要小。為解決這一問題,需要在多個(gè)加速器上同步運(yùn)行批量歸一化,但這會(huì)帶來前向傳播通信延遲的問題。圖46:系統(tǒng)性能由硬件、利用率和加速器占用率決定圖47:多加速器運(yùn)行批量歸一化會(huì)導(dǎo)致前向傳播延遲Dojo使用高效同步機(jī)制,實(shí)現(xiàn)不同單元協(xié)同工作。Dojo不僅可以加速模型中那些需要大量計(jì)算的部分,還可以提升那些受延遲或帶寬限制的部分的性能,比如批量歸一化或梯度合并、參數(shù)收集等操作。Dojo可以進(jìn)行靈活切割,以適配模型批量歸一化所需大小,切割部分可作為獨(dú)立加速器運(yùn)行。Dojo內(nèi)部使用了高效的同步機(jī)制,實(shí)現(xiàn)不同計(jì)算單元之間的協(xié)調(diào)工作,形成單一可擴(kuò)展的計(jì)算平面。數(shù)據(jù)被分散存儲(chǔ)在快速的存儲(chǔ)器中,并且在需要的時(shí)候才復(fù)制到相應(yīng)的計(jì)算單元,高帶寬可以助力數(shù)據(jù)快速復(fù)制。大多數(shù)模型可以在Dojo系統(tǒng)上直接運(yùn)行,無需進(jìn)行額外配置。圖48:Dojo系統(tǒng)使用高效同步機(jī)制,實(shí)現(xiàn)內(nèi)部單元協(xié)作與GPU相比,Dojo性能提升明顯:1)批量歸一化運(yùn)行速度。在Dojo上,一個(gè)批量均一化操作運(yùn)行僅需5微秒,而在24個(gè)GPU上運(yùn)行需要150微秒。Dojo運(yùn)行速度具備數(shù)量級(jí)優(yōu)勢(shì);2)ResNet50模型運(yùn)行速度。Dojo的性能與100個(gè)GPU相當(dāng);3)自動(dòng)標(biāo)注網(wǎng)絡(luò)運(yùn)行速度。Dojo性能已超越A100GPU,采用新硬件后性能可以達(dá)到A100性能的兩倍,使用關(guān)鍵編譯器優(yōu)化后,性能可達(dá)A100的三倍。圖49:自動(dòng)標(biāo)注與占用網(wǎng)絡(luò)占特斯拉GPU使用量一半圖50:Dojo處理自動(dòng)標(biāo)注與占用網(wǎng)絡(luò)速度大幅提升5芯片端:自研FSD芯片集成高效計(jì)算能力由合作邁向自研,實(shí)現(xiàn)高性能算力集成。特斯拉自動(dòng)駕駛硬件平臺(tái)初期與Mobileye、英偉達(dá)等合作,2019年正式發(fā)布基于自研FSD芯片的HW3.0系統(tǒng),開始轉(zhuǎn)向硬件平臺(tái)全面自研,下一代全自動(dòng)駕駛(FSD)硬件——AI5,預(yù)計(jì)將于2025年下半年投產(chǎn)。FSD硬件計(jì)算平臺(tái)采用兩顆SoC芯片,以雙系統(tǒng)設(shè)計(jì)提升自動(dòng)駕駛功能安全冗余。特斯拉構(gòu)建了神經(jīng)網(wǎng)絡(luò)編譯器與鏈接器,以最大化計(jì)算資源利用率、吞吐量,并最小化延遲。通過芯片自研,特斯拉能夠?qū)崿F(xiàn)硬件方案的持續(xù)快速迭代,與軟件算法進(jìn)行更好的整合,從而實(shí)現(xiàn)更優(yōu)的系統(tǒng)性能。HW1.0向HW4.0快速迭代,硬件性能持續(xù)升級(jí)。特斯拉的硬件平臺(tái)(HardwarePlatform,簡稱HW)是指在其電動(dòng)汽車中用于自動(dòng)駕駛功能的計(jì)算和傳感系統(tǒng)。特斯拉的硬件平臺(tái)經(jīng)歷了幾代的演變,每一版都代表著技術(shù)上的進(jìn)步和對(duì)自動(dòng)駕駛能力的提升:1)HW1.0。2014年10月,特斯拉基于Mobileye芯片MobileyeEyeQ3發(fā)布第一代硬件Hardware1.0;2)HW2.0/HW2.5。2016年10月,特斯拉推出HW2.0,采用了NVIDIA的DrivePX2平臺(tái),并配置8個(gè)攝像頭+12個(gè)遠(yuǎn)程超聲波雷達(dá)+1個(gè)前置毫米波雷達(dá),在功能上實(shí)現(xiàn)輔助駕駛。而于2017年8月推出的HW2.5,在HW2.0的基礎(chǔ)上增加了額外的NVIDIATegraParker芯片于增強(qiáng)計(jì)算能力;3)HW3.0。2019年4月,特斯拉發(fā)布HW3.0系統(tǒng),特斯拉自研的FSD芯片首次亮相,整體算力達(dá)144TOPS,標(biāo)志著特斯拉開始全面掌握從芯片設(shè)計(jì)到軟件開發(fā)的全棧技術(shù);4)HW4.0。2024年2月,推出的HW4.0搭載FS芯片,采用更先進(jìn)的制程技術(shù),算力大幅提升5倍;同時(shí),NNA的數(shù)量從2個(gè)增加到3個(gè),工作頻率也從2.0GHz提升至2.2GHz,這有助于更高效地處理深度學(xué)習(xí)任務(wù),尤其是針對(duì)視覺數(shù)據(jù)的分析。5)AI5。在2024年6月的特斯拉股東大會(huì)上,馬斯克首次向公眾介紹了下一代全自動(dòng)駕駛(FSD)硬件——AI5,預(yù)計(jì)將于2025年下半年投產(chǎn)。與現(xiàn)有的HW4.0版本相比,AI5在性能上將實(shí)現(xiàn)顯著飛躍,預(yù)計(jì)整體性能提升約10倍,特別是在推理能力上,這一提升可能高達(dá)50倍,同時(shí)在整體能耗方面也比HW4.0提升了4-5倍。表2:特斯拉自動(dòng)駕駛硬件平臺(tái)不同版本對(duì)比 硬件版本SOP處理平臺(tái)/主芯片冗余控制算力(TOPS)功耗 資料來源:Tesla官網(wǎng),汽車之家,Twitter,智能車參考,民生證券研究院FSD硬件計(jì)算平臺(tái)采用兩顆SoC芯片,以雙系統(tǒng)設(shè)計(jì)提升自動(dòng)駕駛功能安全冗余。其中,SOC-1作為主控單元,輸出最終的控制指令,而SOC-2則提供擴(kuò)展計(jì)算支持。作為兩套完全獨(dú)立的芯片系統(tǒng),每套系統(tǒng)都配備了獨(dú)立的CPU、GPU、NNA(神經(jīng)網(wǎng)絡(luò)加速器)以及內(nèi)存,兩套系統(tǒng)中的一個(gè)作為主系統(tǒng)運(yùn)行,另一個(gè)作為熱備份,在主系統(tǒng)出現(xiàn)故障時(shí)立即接管,以實(shí)現(xiàn)冗余,提高安全性。雙系統(tǒng)架構(gòu)的另一個(gè)優(yōu)勢(shì)在于相互驗(yàn)證能力。在面對(duì)相同的駕駛情境時(shí),兩套獨(dú)立系統(tǒng)會(huì)分別經(jīng)過感知和規(guī)劃算法(或一個(gè)完整的端到端算法)處理,得出的駕駛決策應(yīng)當(dāng)是一致的。這種設(shè)計(jì)提供了決策冗余保障,有效提升了自動(dòng)駕駛系統(tǒng)的功能安全性。圖51:特斯拉FSD雙芯片系統(tǒng)設(shè)計(jì)特斯拉的FSD芯片自2016年啟動(dòng)設(shè)計(jì)規(guī)劃以來,經(jīng)歷了數(shù)年的發(fā)展和迭代。2017年12月,特斯拉進(jìn)行了FSD芯片的首次試產(chǎn),在隨后進(jìn)行了必要的設(shè)計(jì)調(diào)整。2018年4月,B0樣片投產(chǎn),并在同年7月獲得認(rèn)證。2018年12月,特斯拉開始用新的硬件和軟件對(duì)員工用車進(jìn)行改裝。2019年3月,特斯拉開始在ModelS、ModelX和Model3車型上部署FSD芯片,用于HW3.0系統(tǒng),標(biāo)志著FSD芯片開始得到批量化應(yīng)用。圖52:特斯拉FSD芯片發(fā)展歷程FSD芯片采用異構(gòu)設(shè)計(jì),集成了CPU、GPU、NNA,和硬件加速器等多個(gè)處理單元。FSD芯片采用三星14nmFinFet技術(shù)制造,支持單精度和雙精度浮點(diǎn)運(yùn)算,并配備了運(yùn)行于2133MHz的128bitLPDDR4內(nèi)存,展現(xiàn)出卓越的計(jì)算性能和高效的數(shù)據(jù)處理能力:1)CPUs。3個(gè)四核Cortex-A72集群,共計(jì)12個(gè)CPU核心,運(yùn)行頻率為2.2GHz;2)GPU。1個(gè)MaliG71MP12GPU,工作頻率為1GHz,支持FP16和FP32浮點(diǎn)運(yùn)算;3)2個(gè)神經(jīng)網(wǎng)絡(luò)加速器(NNAccelerator,簡稱NNA)。用于深度學(xué)習(xí)推理,這是FSD芯片的核心部分,用于處理自動(dòng)駕駛所需的大量視覺和傳感器數(shù)據(jù),運(yùn)行頻率為2GHz。每個(gè)NNA配備了32MB的SRAM緩存,用于存儲(chǔ)模型權(quán)重和加速數(shù)據(jù)訪問。圖53:特斯拉FSD芯片架構(gòu)資料來源:Wikichip,民生證券研FSD2.0通過擴(kuò)大CPU核心數(shù)和增強(qiáng)NPU核心,提供更強(qiáng)大的數(shù)據(jù)處理和神經(jīng)網(wǎng)絡(luò)運(yùn)算性能。2023年2月,F(xiàn)SD2.0芯片開始在汽車上部署,用于HW4.FSD2.0芯片的設(shè)計(jì)與第一代非常相似,采用更密集的晶體管布局和優(yōu)化電路設(shè)計(jì),性能預(yù)計(jì)提升三倍以上。在CPU中,Cortex-A72內(nèi)核從12個(gè)增至20個(gè),分布在5個(gè)四核集群中。此外,第二代芯片采用3個(gè)NPU核心,每個(gè)核心配備了32MBSRAM用于存儲(chǔ)模型權(quán)重和激活,通過96x96的MAC網(wǎng)格實(shí)現(xiàn)每個(gè)周期9216個(gè)MAC和18432個(gè)操作的高效率運(yùn)算。NPU核心以2.2GHz頻率運(yùn)行,使得單顆芯片算力達(dá)到121.651TOPS,顯著提升了自動(dòng)駕駛的數(shù)據(jù)處理和神經(jīng)網(wǎng)絡(luò)運(yùn)表3:FSD芯片1.0和2.0性能對(duì)比 CPUFrequency TDP36Watts資料來源:ADS智庫,民生證券研究院特斯拉構(gòu)建了神經(jīng)網(wǎng)絡(luò)編譯器與鏈接器,以最大化計(jì)算資源利用率、吞吐量,并最小化延遲。汽車中在同時(shí)運(yùn)行很多架構(gòu)、模塊和網(wǎng)絡(luò),共有多達(dá)10億個(gè)參數(shù)、1000個(gè)神經(jīng)網(wǎng)絡(luò)信號(hào)。為了提升計(jì)算效率,特斯拉建立了:1)神經(jīng)網(wǎng)絡(luò)編譯器,用于接收復(fù)雜的神經(jīng)網(wǎng)絡(luò)圖,然后將其分割為獨(dú)立的子圖,并分別進(jìn)行編譯;2)神經(jīng)網(wǎng)絡(luò)鏈接器,用于鏈接各個(gè)編譯好的部分,形成完整系統(tǒng)。計(jì)算過程需要進(jìn)行離線優(yōu)化,從而能夠在有限的內(nèi)存和帶寬條件下完成計(jì)算。圖54:汽車中在同時(shí)運(yùn)行很多架構(gòu)、模塊和網(wǎng)絡(luò)圖55:神經(jīng)網(wǎng)絡(luò)編譯器與鏈接器架構(gòu)特斯拉設(shè)計(jì)了混合調(diào)度系統(tǒng),以實(shí)現(xiàn)算力的充分利用。實(shí)現(xiàn)特斯拉設(shè)計(jì)了混合調(diào)度系統(tǒng),能夠在一個(gè)SOC上實(shí)現(xiàn)異構(gòu)調(diào)度,并在兩個(gè)SOC之間進(jìn)行分布式調(diào)度,以模型并行方式運(yùn)行網(wǎng)絡(luò)。特斯拉從軟件所有層級(jí)進(jìn)行優(yōu)化,采用調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)、改進(jìn)編譯器、在兩個(gè)SOC之間采用低延遲高帶寬的RDMA鏈接等多種方式,以實(shí)現(xiàn)100TOPS算力的充分利用。圖56:特斯拉混合調(diào)度系統(tǒng)架構(gòu)6數(shù)據(jù)端:自動(dòng)化數(shù)據(jù)閉環(huán)優(yōu)化數(shù)據(jù)驅(qū)動(dòng)訓(xùn)練高效自動(dòng)標(biāo)注+構(gòu)建仿真場景,實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)訓(xùn)練。2020年,特斯拉開始研發(fā)并使用數(shù)據(jù)自動(dòng)標(biāo)注系統(tǒng),能夠在12小時(shí)內(nèi)自動(dòng)標(biāo)注一萬個(gè)駕駛旅程,可抵充500萬個(gè)小時(shí)的人工標(biāo)注工作,極大提高了標(biāo)注效率。仿真模擬則可以提供現(xiàn)實(shí)世界中難以獲得或是難以標(biāo)記的數(shù)據(jù),從而加速FSD能力的訓(xùn)練,賦能模型迭代。結(jié)合真實(shí)數(shù)據(jù)和標(biāo)簽,以及仿真和手動(dòng)校準(zhǔn)的數(shù)據(jù),特斯拉形成綜合訓(xùn)練數(shù)據(jù)集,用于訓(xùn)練車端的在線模型,涉及網(wǎng)絡(luò)占用、車道線和障礙物檢測以及規(guī)劃算法,形成閉環(huán)的數(shù)據(jù)流,實(shí)現(xiàn)自動(dòng)駕駛系統(tǒng)的持續(xù)優(yōu)化。從最初的外包第三方人工標(biāo)注,到開發(fā)自動(dòng)標(biāo)注(AutoLabeling)系統(tǒng),特斯拉實(shí)現(xiàn)了數(shù)據(jù)標(biāo)注的高效化和規(guī)?;?。在特斯拉的自動(dòng)駕駛方案中,無論是在感知還是規(guī)控層面,核心算法基本都是由數(shù)據(jù)驅(qū)動(dòng)的,數(shù)據(jù)的數(shù)量和質(zhì)量決定了算法的性能,因此構(gòu)建一套高效獲取、標(biāo)注及仿真訓(xùn)練數(shù)據(jù)的閉環(huán)至關(guān)重要。特斯拉每年售出近百萬輛汽車,通過這些汽車日常運(yùn)行,可以采集到超大規(guī)模的原始數(shù)據(jù)集,對(duì)這些數(shù)據(jù)集的標(biāo)注方面經(jīng)歷了顯著的發(fā)展:1)外包第三方進(jìn)行人工數(shù)據(jù)標(biāo)注。2018年,特斯拉與第三方公司合作,采用人工標(biāo)注,該方式標(biāo)注效率低且溝通成本高。2)自建超千人團(tuán)隊(duì)進(jìn)行手工標(biāo)注。而后為提升標(biāo)注效率和質(zhì)量,特斯拉自建標(biāo)注團(tuán)隊(duì),人員規(guī)模近千人。3)開發(fā)自動(dòng)標(biāo)注系統(tǒng),實(shí)現(xiàn)人工與機(jī)器相結(jié)合的數(shù)據(jù)標(biāo)注模式。隨著自動(dòng)駕駛數(shù)據(jù)持續(xù)增長,所需標(biāo)注人員的規(guī)模進(jìn)一步擴(kuò)大,使得人力成本快速增長,使得2020年特斯拉開始研發(fā)并使用數(shù)據(jù)自動(dòng)標(biāo)注系統(tǒng),通過大量數(shù)據(jù)訓(xùn)練大模型,再用大模型訓(xùn)練車端小模型。新算法能夠在12小時(shí)內(nèi)自動(dòng)標(biāo)注一萬個(gè)駕駛旅程,可抵充500萬個(gè)小時(shí)的人工標(biāo)注工作,極大地提高了標(biāo)圖57:特斯拉數(shù)據(jù)標(biāo)注發(fā)展歷程從2D圖像標(biāo)注,到4D的向量空間標(biāo)注,特斯拉FSD系統(tǒng)實(shí)現(xiàn)更精細(xì)化的路徑規(guī)劃和決策制定。通過引入BEV(鳥瞰圖)視角,特斯拉實(shí)現(xiàn)了從2D圖像到3D車身自坐標(biāo)系的轉(zhuǎn)變,但最初這僅是對(duì)瞬時(shí)圖像片段的感知,缺乏時(shí)空連續(xù)性。為了增強(qiáng)感知網(wǎng)絡(luò)的短時(shí)記憶能力,特斯拉在感知網(wǎng)絡(luò)架構(gòu)中引入了時(shí)空序列特征層,使用視頻片段代替單張圖像來訓(xùn)練神經(jīng)網(wǎng)絡(luò),從而提升了對(duì)場景的理解能力。到了2022年,特斯拉進(jìn)一步升級(jí)了BEV感知,引入了OccupancyNetwork,推動(dòng)數(shù)據(jù)標(biāo)注向4D升級(jí),這不僅包括3D空間信息,還融入了時(shí)間維度,實(shí)現(xiàn)了對(duì)動(dòng)態(tài)物體運(yùn)動(dòng)軌跡和參數(shù)的精確標(biāo)注。圖58:基于2D圖像進(jìn)行標(biāo)注圖59:在BEV空間下進(jìn)行4D自動(dòng)標(biāo)注特斯拉的自動(dòng)標(biāo)注方案通過結(jié)合車輛采集的多源數(shù)據(jù)和先進(jìn)的神經(jīng)網(wǎng)絡(luò)技術(shù),實(shí)現(xiàn)了對(duì)自動(dòng)駕駛所需數(shù)據(jù)的快速和高效處理。具體來說,這一方案首先利用車輛在一段時(shí)間內(nèi)采集到的視頻、IMU、GPS、里程表等數(shù)據(jù)構(gòu)成最小標(biāo)注單元Clip,然后通過離線神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測,得到深度圖、坐標(biāo)、目標(biāo)物等中間層結(jié)果。最終,通過特征重建,獲得3D標(biāo)簽集(Labels)以及所有目標(biāo)的運(yùn)動(dòng)趨勢(shì),包括行車軌跡、靜態(tài)環(huán)境重建、動(dòng)態(tài)物體和運(yùn)動(dòng)學(xué)參數(shù)等,為自動(dòng)駕駛算法的訓(xùn)練提供了大量高質(zhì)量的標(biāo)注數(shù)據(jù)。這一流程不僅提高了數(shù)據(jù)標(biāo)注的效率,還保證了數(shù)據(jù)的準(zhǔn)確性和一致性。圖60:特斯拉4D自動(dòng)標(biāo)注流程特斯拉的4D自動(dòng)標(biāo)注技術(shù)通過三個(gè)關(guān)鍵步驟實(shí)現(xiàn)高精度的軌跡和結(jié)構(gòu)復(fù)現(xiàn):1)高精度軌跡預(yù)測和結(jié)構(gòu)復(fù)現(xiàn)。利用多攝像頭和慣性里程計(jì),通過粗對(duì)齊、關(guān)聯(lián)、聯(lián)合非線性優(yōu)化及最終曲面優(yōu)化,實(shí)現(xiàn)多重軌跡重建。這一步驟確保了軌跡數(shù)據(jù)的準(zhǔn)確性和可靠性;2)多路徑聯(lián)合重建。自動(dòng)標(biāo)記新軌跡的過程使用多軌跡對(duì)齊引擎,結(jié)合現(xiàn)有重建結(jié)果和新行駛軌跡,進(jìn)一步細(xì)化路面細(xì)節(jié)。所有特征都是通過神經(jīng)網(wǎng)絡(luò)從視頻中自動(dòng)推斷出來,并在向量空間進(jìn)行跟蹤和重構(gòu)。這一自動(dòng)化過程顯著提高了標(biāo)注效率,每個(gè)新軌跡的自動(dòng)標(biāo)記僅需30分鐘,大大減少了人工標(biāo)記的時(shí)間和勞動(dòng)強(qiáng)度;3)新路徑自動(dòng)標(biāo)注。整個(gè)4D自動(dòng)標(biāo)注過程在集群上實(shí)現(xiàn)并行化,整個(gè)過程從軌跡重建到最終標(biāo)記的確定,僅需1-2小時(shí)。這種高效的自動(dòng)化流程不僅提高了可擴(kuò)展性,而且復(fù)建的路面和道路細(xì)節(jié)也為后續(xù)的人工驗(yàn)證提供了有力的指導(dǎo),確保了標(biāo)注的準(zhǔn)確性和一致性。圖61:4D自動(dòng)標(biāo)注的三個(gè)關(guān)鍵步驟仿真模擬(Simulation)可以提供現(xiàn)實(shí)世界中難以獲得或是難以標(biāo)記的數(shù)據(jù),從而加速FSD能力的訓(xùn)練,賦能模型迭代。由于路測條件的限制,導(dǎo)致積累數(shù)據(jù)和訓(xùn)練算法的效率偏低且成本高昂。為了更高效的實(shí)現(xiàn)數(shù)據(jù)訓(xùn)練,特斯拉構(gòu)建了一個(gè)真實(shí)世界的虛擬仿真空間,來加速FSD能力的訓(xùn)練。自動(dòng)駕駛的仿真是在模擬環(huán)境中,通過調(diào)整各類交通參與物及環(huán)境的模型參數(shù)以構(gòu)建各種虛擬場景,以訓(xùn)練算法應(yīng)對(duì)不同場景的性能。仿真模擬在自動(dòng)駕駛領(lǐng)域中的價(jià)值體現(xiàn)在能夠安全且高效地重現(xiàn)和構(gòu)建極端及復(fù)雜場景以進(jìn)行算法訓(xùn)練,實(shí)現(xiàn)快速且準(zhǔn)確的數(shù)據(jù)標(biāo)注,提供無風(fēng)險(xiǎn)的測試環(huán)境,優(yōu)化規(guī)控算法,并通過持續(xù)的閉環(huán)場景訓(xùn)練提升特定功能如泊車技能,同時(shí)能夠重現(xiàn)真實(shí)世界中的失敗案例進(jìn)行針對(duì)性優(yōu)化,從而顯著增強(qiáng)自動(dòng)駕駛系統(tǒng)的安全性和可靠性。特斯拉仿真模擬流程包含五大關(guān)鍵步驟:1)傳感器準(zhǔn)確模擬。對(duì)真實(shí)攝像頭屬性進(jìn)行模擬,包括傳感器噪聲、運(yùn)動(dòng)模糊、光學(xué)畸變等,以生成車輛上的攝像頭和其他傳感器實(shí)際會(huì)檢測到的內(nèi)容;2)真實(shí)視覺渲染。特斯拉采用神經(jīng)網(wǎng)絡(luò)渲染技術(shù)與光線追蹤方法,以使渲染效果能夠逼近真實(shí)世界;3)多元化素材庫。特斯拉的素材庫中,車輛、人物、動(dòng)物等真實(shí)素材數(shù)量多達(dá)數(shù)千個(gè),能夠避免素材數(shù)量過少導(dǎo)致的神經(jīng)網(wǎng)絡(luò)過擬合問題。特斯拉還對(duì)大量地點(diǎn)進(jìn)行了建模,以生成模擬環(huán)境;4)可擴(kuò)展場景生成。特斯拉基于算法,程序化地創(chuàng)建具有各種參數(shù)(如曲率、不同樹木、錐體、桿子、不同速度的汽車等)的道。此外,特斯拉采用機(jī)器學(xué)習(xí)技術(shù),使神經(jīng)網(wǎng)絡(luò)能夠?qū)收宵c(diǎn)進(jìn)行檢測,并在故障點(diǎn)周圍創(chuàng)造更多數(shù)據(jù),形成閉環(huán),以優(yōu)化網(wǎng)絡(luò)性能;5)場景重建。特斯拉利用真實(shí)行駛視頻片段,構(gòu)建出與現(xiàn)實(shí)相同的虛擬場景,然后在虛擬場景中運(yùn)行自動(dòng)駕駛系統(tǒng),觀察系統(tǒng)運(yùn)行情況。如果系統(tǒng)在模擬中失敗,可以分析失敗原因,從而對(duì)系統(tǒng)進(jìn)行調(diào)整和優(yōu)化,不斷提升系統(tǒng)圖62:特斯拉仿真模擬流程包含五大關(guān)鍵步驟特斯拉采用程序化方法進(jìn)行場景生成,大幅提升運(yùn)行效率。特斯拉采用自動(dòng)化工具進(jìn)行場景生成,能夠快速生成復(fù)雜模擬環(huán)境,過程包括:1)通過自動(dòng)化標(biāo)簽生成道路網(wǎng)格和車道;2)使用線條數(shù)據(jù)創(chuàng)建車道標(biāo)記;3)利用中線邊緣生成路中心分道區(qū),并用隨機(jī)植被填充;4)以隨機(jī)化啟發(fā)式規(guī)則生成外部世界,包括建筑物、消防栓、樹木等;5)引入地圖數(shù)據(jù)確定交通信號(hào)燈和停車標(biāo)志的位置,并收集車道數(shù)量等信息。特斯拉可以在模擬器中更改道路真實(shí)標(biāo)記,創(chuàng)造全新模擬數(shù)據(jù),從而進(jìn)行更有針對(duì)性的訓(xùn)練,提升預(yù)測準(zhǔn)確性。圖63:通過自動(dòng)化標(biāo)簽生成道路網(wǎng)格和車道圖64:以隨機(jī)化啟發(fā)式規(guī)則生成外部世界特斯拉仿真模擬的主要?jiǎng)?chuàng)新和亮點(diǎn)在于高效的虛擬驗(yàn)證架構(gòu),能夠?qū)?fù)雜的道路交通信息和場景元素系統(tǒng)化并高效運(yùn)行。特斯拉通過瓦片生成器(TileCreator將真實(shí)標(biāo)簽數(shù)據(jù)轉(zhuǎn)化為具體的仿真元素,如車道線、路緣石和建筑物等。這些元素隨后被瓦片提取器(TileExtractor)分割成150平米的Geohash單元,每個(gè)單元都擁有一個(gè)獨(dú)特的ID以便于快速加載和調(diào)用。這種處理方式使得建模信息更加簡潔,提高了加載和渲染的效率。利用瓦片加載器(TileLoader特斯拉可以根據(jù)GeohashID編碼快速加載所需的仿真場景切片,專注于加載用戶感興趣的地點(diǎn)及其周邊環(huán)境。最終,通過虛擬引擎生成完整的場景。通過這種方式,一個(gè)工程師在短短兩周內(nèi)即可生成舊金山街道的虛擬世界,顯著減少了創(chuàng)建虛擬世界所需的時(shí)間。同樣特斯拉可以利用此項(xiàng)PDG技術(shù)快速拓展到其他城市與國家,或者更新原有的虛擬世界,確保數(shù)據(jù)依據(jù)現(xiàn)實(shí)動(dòng)態(tài)發(fā)展。圖65:特斯拉仿真世界創(chuàng)建流程特斯拉通過其自成閉環(huán)的數(shù)據(jù)引擎(DataEngine),有效地優(yōu)化了神經(jīng)網(wǎng)絡(luò)。特斯拉通過標(biāo)配自動(dòng)駕駛硬件的車隊(duì)進(jìn)行數(shù)據(jù)采集,并通過規(guī)則和影子模式篩選出具有語義信息的有效數(shù)據(jù),并回傳至云端。在云端,利用工具對(duì)AI的錯(cuò)誤輸出進(jìn)行糾正,并將這些數(shù)據(jù)整合入數(shù)據(jù)集群。這些數(shù)據(jù)進(jìn)一步用于訓(xùn)練車端的在線模型和云端的離線模型。最終,通過影子模式在車端進(jìn)行新模型的測試和不同版本指標(biāo)的比較,確保經(jīng)過驗(yàn)證的新模型得以部署,實(shí)現(xiàn)數(shù)據(jù)和模型的持續(xù)優(yōu)化。圖66:特斯拉數(shù)據(jù)引擎示意圖影子模式加速數(shù)據(jù)采集,訓(xùn)練質(zhì)量有望大幅提升。特斯拉通過影子模式實(shí)現(xiàn)了量產(chǎn)車上的自動(dòng)駕駛系統(tǒng)和傳感器的持續(xù)運(yùn)行與數(shù)據(jù)采集。在有人駕駛狀態(tài)下,系統(tǒng)進(jìn)行模擬決策并與駕駛員行為對(duì)比,不一致時(shí)觸發(fā)數(shù)據(jù)回傳,從而積累大量“極端工況”數(shù)據(jù)。這種模式不僅利用了量產(chǎn)車的廣泛覆蓋和低成本優(yōu)勢(shì),還顯著加速了數(shù)據(jù)的收集和訓(xùn)練模型的質(zhì)量提升。截至2024年4月底,特斯拉全自動(dòng)駕駛(FSD)用戶的累計(jì)行駛里程已超過13億英里,隨著更多駕駛員試用并可能訂購FSD,這一數(shù)字有望出現(xiàn)大幅增長。圖67:特斯拉FSD用戶的累計(jì)行駛里程已超過13億英里影子模式是特斯拉自動(dòng)駕駛系統(tǒng)中的關(guān)鍵技術(shù),通過內(nèi)置的觸發(fā)器記錄異常情況。在2021年CVPRWAD會(huì)議上,該模式已集成了221個(gè)觸發(fā)器。當(dāng)異常被觸發(fā)時(shí),影子模式會(huì)捕獲異常發(fā)生前后的原始數(shù)據(jù),這些數(shù)據(jù)經(jīng)過清洗后,一部分形成了驗(yàn)證集,而其余數(shù)據(jù)則通過離線自動(dòng)標(biāo)注算法生成標(biāo)簽。結(jié)合真實(shí)數(shù)據(jù)和標(biāo)簽,以及仿真和手動(dòng)校準(zhǔn)的數(shù)據(jù),形成了綜合訓(xùn)練數(shù)據(jù)集。這個(gè)數(shù)據(jù)集被用于訓(xùn)練車端的在線模型,涉及網(wǎng)絡(luò)占用、車道線和障礙物檢測以及規(guī)劃算法。同時(shí),該數(shù)據(jù)集也用于訓(xùn)練云端的離線模型,包括重建模型、感知模型的自動(dòng)標(biāo)注以及基于優(yōu)化的規(guī)劃模型。隨著在線算法的更新和新數(shù)據(jù)的采集,影子模式再次捕獲關(guān)鍵案例,并通
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 擊劍場景建設(shè)圍擋施工協(xié)議
- 建筑工程質(zhì)量管理:處方管理辦法
- 醫(yī)療機(jī)構(gòu)危險(xiǎn)廢棄物處理規(guī)范
- 旅游景區(qū)宣傳策劃團(tuán)隊(duì)聘用協(xié)議
- 建筑物流施工圖設(shè)計(jì)合同模板
- 體育場館地面施工合同
- 2025版化妝產(chǎn)品展示廳承包租賃合同3篇
- 2024年版油罐銷售協(xié)議3篇
- 2025年度保安服務(wù)市場調(diào)研與競爭分析合同3篇
- 2025年度綠色建材板材采購合同3篇
- 烘干煤泥合同范例
- 4.1.1陸地水體間的相互關(guān)系課件高中地理湘教版(2019)選擇性必修一
- 【MOOC】大學(xué)生心理學(xué)-中央財(cái)經(jīng)大學(xué) 中國大學(xué)慕課MOOC答案
- 2025年“三基”培訓(xùn)計(jì)劃
- 第20課 北洋軍閥統(tǒng)治時(shí)期的政治、經(jīng)濟(jì)與文化 教案
- 山東省青島實(shí)驗(yàn)高中2025屆高三物理第一學(xué)期期末綜合測試試題含解析
- 物理人教版2024版八年級(jí)上冊(cè)6.2密度課件03
- 2024年廣西普法云平臺(tái)考試答案
- 2023-2024學(xué)年廣東省深圳市福田區(qū)八年級(jí)(上)期末英語試卷
- 鐵路設(shè)備售后服務(wù)方案
- 2023年中國華電集團(tuán)有限公司招聘考試真題
評(píng)論
0/150
提交評(píng)論