汽車行業(yè)深度:Dojo助推特斯拉加速AI落地_第1頁
汽車行業(yè)深度:Dojo助推特斯拉加速AI落地_第2頁
汽車行業(yè)深度:Dojo助推特斯拉加速AI落地_第3頁
汽車行業(yè)深度:Dojo助推特斯拉加速AI落地_第4頁
汽車行業(yè)深度:Dojo助推特斯拉加速AI落地_第5頁
已閱讀5頁,還剩76頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

請(qǐng)務(wù)必閱讀正文后的聲明及說明特斯拉不僅在電動(dòng)汽車領(lǐng)域取得了革命性突破,更在智能駕駛和人形機(jī)器人領(lǐng)域展現(xiàn)出其作為AI公司的雄心和實(shí)力。特斯拉在智能駕駛技術(shù)上取得了顯著成就,其全自動(dòng)駕駛技術(shù)FSD已更新至V12版本。特斯拉的算法演進(jìn)經(jīng)歷了從HydraNets到端到端方案的四代變革,每一代都在感知、決策和規(guī)控方面實(shí)現(xiàn)了技術(shù)突破。最終端到端方案通過直接輸入傳感器信息到神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了高效的駕駛命令輸出。特斯拉在人形機(jī)器人領(lǐng)域的進(jìn)展同樣領(lǐng)先,自2021年首次發(fā)布概念以來,特斯拉人型機(jī)器人在運(yùn)動(dòng)能力、視覺感知能力和自主性方面取得了顯著進(jìn)步。2023年12月發(fā)布的Optimus第二代產(chǎn)品在行走速度、重量、平衡感和身體控制能力上都有了顯著提升,能夠在工廠環(huán)境中執(zhí)行精確的電池分揀任務(wù)。AI應(yīng)用的加速需要AI芯片。AI芯片是AI計(jì)算的核心工具,可分為訓(xùn)練和推理兩大類,也可分為云端和終端。不同場(chǎng)景對(duì)芯片的性能要求不同。云端訓(xùn)練芯片是AI時(shí)代最重要的武器之一,英偉達(dá)作為AI芯片市場(chǎng)的領(lǐng)導(dǎo)者,其GPU架構(gòu)從Fermi到Hopper不斷演進(jìn),每一代產(chǎn)品都在性能和效能上取得了顯著提升。特斯拉的Dojo芯片采用ASIC路線,高效支持自身算法訓(xùn)練。Dojo采用ASIC路線,Dojonode是Dojo芯片的最小節(jié)點(diǎn),具有標(biāo)量處理單元、向量處理單元、存儲(chǔ)單元和片上路由器。D1芯片集成了354個(gè)Dojonode,提供了高的算力和能效比。Dojo訓(xùn)練Tile通過集成多個(gè)D1芯片,形成了強(qiáng)大的訓(xùn)練矩陣,能夠支持大規(guī)模的AI模型訓(xùn)練。DojoExaPOD則進(jìn)一步集成了訓(xùn)練矩陣,提供了1.1EFLOPS的峰值算力和高速SRAM,為大規(guī)模并行計(jì)算任務(wù)提供了強(qiáng)大的硬件支持。Dojo的另一個(gè)可比對(duì)象:谷歌TPU。TPU是首款人工智能專用的計(jì)算芯片,于2016年首次發(fā)布,目前已經(jīng)從TPUv1迭代到了TPUv5,能力上也有巨大提升,是首個(gè)部署張量計(jì)算單元的芯片。雖然在數(shù)據(jù)中心訓(xùn)練和推理方面有其優(yōu)勢(shì),但在工業(yè)級(jí)別適配和開發(fā)生態(tài)方面面臨挑戰(zhàn)。特斯拉Dojo在設(shè)計(jì)理念和應(yīng)用模式上與TPU有相似之處,但也面臨著類似的大規(guī)模推廣壓力。歷史收益率曲線歷史收益率曲線2023/52023/82023/11206%行業(yè)數(shù)據(jù)行業(yè)數(shù)據(jù)相關(guān)報(bào)告相關(guān)報(bào)告《奇瑞汽車深度報(bào)告:出海持續(xù)增長,新能源式齊發(fā)力推動(dòng)行業(yè)走向落地》1.特斯拉:從制造公司到AI公司 5 5 5 7 9 20 20 22 25 25 27 28 29 29 31 31 32 34 36 37 40 40 41 41 434.5.DojoInterfaceProcessor 43 45 47 47 48 51 54 54 5 6 7 8 8 9 9 圖25云端、邊緣和終端AI芯片應(yīng)用情況 6 表5:云端訓(xùn)練芯片 表6:云端推理芯片 表10:TPU歷代發(fā)布時(shí)間 特斯拉最初以其顛覆性的電動(dòng)汽車而聞名于世,但公司的長期規(guī)劃和布局是希望成為一家AI公司。特斯拉在全自動(dòng)駕駛(FSD,F(xiàn)ullSelf-Drive)投入巨大并取得了卓越的成就,它不僅代表了公司在自動(dòng)駕駛領(lǐng)域的技術(shù)突破,而且體現(xiàn)了其在機(jī)器學(xué)習(xí)和數(shù)據(jù)處理方面的深厚實(shí)力。FSD技術(shù)通過不斷學(xué)習(xí)得到強(qiáng)大的神經(jīng)網(wǎng)絡(luò)和先進(jìn)的算法,使得特斯拉汽車能夠?qū)崿F(xiàn)接近人類的駕駛決特斯拉的智駕算法被認(rèn)為是行業(yè)的標(biāo)桿,也是Neck:頸部位于主干和頭部之間,用于提取一些更精細(xì)的特征。Head:在特征提取(Backbone)道檢測(cè)等大量任務(wù)聚合到一個(gè)全新的架構(gòu)布局中,該架構(gòu)有一個(gè)共同共享的主干, 在2020-2021年到來的的大模型時(shí)代,特斯拉引領(lǐng)自動(dòng)駕駛行業(yè)感知性能,完美實(shí)現(xiàn)了多攝像頭和多傳感器信息的融合從而獲得體積占用率,以此為基礎(chǔ)實(shí)現(xiàn)實(shí)時(shí)感知。占用網(wǎng)絡(luò)的1.1.4.特斯拉智能駕駛第四代算法:端到端方案特斯拉最新的FSDV12版本采用端到端方案,這是完全基于大模型和數(shù)據(jù)在自動(dòng)駕駛系統(tǒng)中,算法通??梢苑譃楦兄蜎Q策規(guī)控兩個(gè)主要部憑借著自身在智能駕駛和人工智能領(lǐng)域的積累,特斯拉積極投入人型機(jī)器人領(lǐng)域,并掀起了行業(yè)大潮。通過開發(fā)具有高度靈活性和智能的人型機(jī)器人,特斯拉正在探索AI在工業(yè)自動(dòng)化、家庭服務(wù)和復(fù)雜任務(wù)執(zhí)行中的潛力。這些機(jī)器人將能夠執(zhí)行重復(fù)性、危險(xiǎn)或需要高度精確度的工作,從而推動(dòng)生產(chǎn)力的提高和人類工作的轉(zhuǎn)型。的身體結(jié)構(gòu)和四肢以及靜態(tài)站立能力,但尚性和智能性,通過端到端神經(jīng)網(wǎng)絡(luò)的應(yīng)用,機(jī)器動(dòng)能力、視覺感知能力和自主性方面得到了提升,還在機(jī)器人的移動(dòng)實(shí)現(xiàn)需要幾個(gè)步驟,首先需要形成物理上的自我實(shí)現(xiàn)全身協(xié)調(diào)運(yùn)動(dòng)(利用相應(yīng)的傳感器以及的控制難題,機(jī)器人的骨盆位置、重心位置,使用更好的機(jī)器人模型來進(jìn)行訓(xùn)練,通過傳感器測(cè)量,將真實(shí)世界的復(fù)雜性引入訓(xùn)練環(huán)境成還是走不出三步就會(huì)倒。研發(fā)人員利用相應(yīng)的傳感器以及他們?cè)诂F(xiàn)實(shí)先捕捉人類搬箱子時(shí)的運(yùn)動(dòng)軌跡,再結(jié)合機(jī)器人自身特點(diǎn)有一個(gè)人類對(duì)某一動(dòng)作進(jìn)行了演示,研發(fā)人員通過視頻對(duì)其其映射到機(jī)器人上。這樣只需要一個(gè)演示視頻,研發(fā)人動(dòng)能力,同時(shí)學(xué)習(xí)人類完成一些精細(xì)的操作,逐漸在工廠里面承擔(dān)一些實(shí)際工作。在利用端到端神經(jīng)網(wǎng)絡(luò)的驅(qū)動(dòng)下,機(jī)器人的能力邊界不斷拓寬。AI算力芯片特點(diǎn)AI算力芯片種類硬件通用性延和成本因素ASIC人工智能的實(shí)現(xiàn)包括訓(xùn)練(Training)和推理(Inference)兩個(gè)環(huán)節(jié)。訓(xùn)練環(huán)節(jié)需要通過大量數(shù)據(jù)訓(xùn)練出一個(gè)復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,使其能夠定的通用性,可處理不同的任務(wù)。推理芯片云端訓(xùn)練:云端即數(shù)據(jù)中心,對(duì)神經(jīng)網(wǎng)絡(luò)云端推理:推理過程是指直接將數(shù)據(jù)輸入神經(jīng)網(wǎng)由于涉及海量的訓(xùn)練數(shù)據(jù)和復(fù)雜的深度絡(luò)并評(píng)估結(jié)果的正向計(jì)算過程。相比云端訓(xùn)練芯終端訓(xùn)練:訓(xùn)練對(duì)數(shù)據(jù)量的要求和終端場(chǎng)終端推理:在5G技術(shù)和AIoT技術(shù)高速發(fā)展的今天,終端推理芯片有越來越豐富的應(yīng)用場(chǎng)景,居等各種終端設(shè)備中,需求和約束也日趨多樣,圖25云端、邊緣和終端AI芯片應(yīng)用情況某些大型模型的推理過程也較為復(fù)雜,通過云端計(jì)算方式接觸或使用、不需要遠(yuǎn)程訪問的設(shè)備,或者直接和數(shù)據(jù)或傳感器一體的設(shè)在云端數(shù)據(jù)中心,訓(xùn)練和推理都需要用AI展性,因此其主要設(shè)計(jì)精力除了在計(jì)算部分之外,網(wǎng)絡(luò)通信部分(包括軟件接口)也至關(guān)重要。而推理芯片場(chǎng)景和功能相對(duì)更為單一,很高的場(chǎng)合,推斷過程必須在設(shè)備本身完成,因此要求終端設(shè)備具備足慮單位功耗算力、時(shí)延和成本等因素,市場(chǎng)除了有表4:云端訓(xùn)練芯片公司名稱V100V100V100S(最大功月月月月月月(稀疏技SSSSSSSSSSSS(稀疏技S表5:云端推理芯片NVIDIAAlveoU50AlveoU200AlveoU250AlveoU280BX316GB/s77GB/s77GB/s月月月月月月月SSUltraScaleUltraScaleUltraScaleUltraScale漸將該芯片的計(jì)算能力挖掘出來,英偉達(dá)也于2006年正式推出統(tǒng)一計(jì)算架構(gòu)具有眾多計(jì)算單元和超長流水線,只有非常簡單的控制邏輯,適用于大規(guī)模計(jì)算。水線化的整數(shù)算術(shù)邏輯單元(ALU)和浮點(diǎn)單元(FPU)負(fù)責(zé)計(jì)算。這些內(nèi)核由線核心參數(shù)計(jì)算架構(gòu),支持個(gè)LD/STUnit+192個(gè)減少到每組128個(gè),每個(gè)SM單元擁有更伏特NVLink2.0,CUDInt32+64個(gè)FP32+64個(gè)INT32+32個(gè)FP64+4個(gè)NVLink3.0,結(jié)構(gòu)列FP32+64個(gè)FP64+4個(gè)NVlink4.0,結(jié)構(gòu)更高的效率,SM的指令執(zhí)行與下發(fā)進(jìn)行了分塊;改進(jìn)了共享內(nèi)存結(jié)構(gòu),在同計(jì)算更高的要求。帶寬限制可能導(dǎo)致節(jié)點(diǎn)之間的通信效率下降,同時(shí)進(jìn)行了拆分,將FPU和ALU分離,可存器-ALU-寄存器-ALU-寄存器來回得光線追蹤技術(shù)在游戲中得以廣泛應(yīng)用,實(shí)現(xiàn)更逼真的光影效果和智能化的游戲體驗(yàn),為玩家?guī)砀映两胶蛣?chuàng)新性的游戲體驗(yàn)。賃和云服務(wù)需求提供了更靈活的算力配置。加速,為人工智能領(lǐng)域的應(yīng)用提供更大的靈活性。NVLinkC2C技術(shù)的應(yīng)用進(jìn)一步表7:英偉達(dá)芯片參數(shù)1應(yīng)用場(chǎng)景AI/HPC科學(xué)計(jì)算AlAI/HPC科學(xué)計(jì)算AINVLink4.0NVSwitch900GB/sNVLink4.0NVSwitch400GB/sNVLinkbridge600NVLinkbridge4001----表8:英偉達(dá)芯片參數(shù)1應(yīng)用場(chǎng)景AI/HPC科學(xué)計(jì)算AI/HPC科學(xué)計(jì)算AI/HPC科學(xué)計(jì)算AI/HPC科學(xué)計(jì)算AmpereAmpereAmpereAmpereNVLinkNVSwitchNVLinkNVSwitchNVLinkbridge600NVLinkbridge400---和英偉達(dá)相比,特斯拉在芯片設(shè)計(jì)上走了一條不一樣的道路。Dojo芯片對(duì)特定算法具有更高的執(zhí)行效率和更低的能耗。對(duì)于神經(jīng)網(wǎng)絡(luò)訓(xùn)基于D1芯片,特斯拉和臺(tái)積電一起推出了晶圓上系統(tǒng)級(jí)方案。通過臺(tái)積電(DojoInterfaceProcessor)來訪問高速內(nèi)存和外部的主Dojo相比英偉達(dá)具有更高的延遲和更好的訓(xùn)練效果。以往要用6Dojo相較于A100的優(yōu)勢(shì)分為兩點(diǎn):1、畫面幀數(shù)傳輸速度更快,相2016年,谷歌在開發(fā)者大會(huì)上,推出了自行研制的人工智能芯片TensorProcessing表9:TPU歷代發(fā)布時(shí)間180TFlops(集成4塊芯片)+64GB420TFlops+128GB(HB表10:TPU歷代芯片參數(shù)d

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論