版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
海外科技海外科技qinheping027734@gtj投資建議:ASIC針對特定場景設(shè)計,有配套的通信互聯(lián)和軟件生態(tài),雖然目前單顆ASIC算力相比最先進的GP數(shù)據(jù)中心加速計算芯片的16%,其規(guī)模約數(shù)據(jù)中心定制加速計算芯片規(guī)模有望超400故而在推理場景呈現(xiàn)更高的性價比;ASIC的芯片互聯(lián)以PCIe協(xié)議主導(dǎo),ASIC軟件生態(tài)有望逐步完善。云廠商普遍具備較強的能力,均為AIASIC研發(fā)了配套的全棧軟件生態(tài),開發(fā)了一系列的請務(wù)必閱讀正文之后的免責(zé)條款部分3of41 海外專題研究(美國)用效率可能會優(yōu)于可比的GPU。此外ASIC還有明顯-------384----注:紅色字體表示該未經(jīng)官方確認(rèn),為預(yù)測值;*表示采用稀疏技術(shù)下的算力;Maia100第三行為MxInt8性能界但由于其成本較低,在推理常用精度下,ASIC展現(xiàn)出了更高的性價比更高的性價比。而中國廠商AIASIC仍處于相對早期的發(fā)展階段,百度昆請務(wù)必閱讀正文之后的免責(zé)條款部分4of41 海外專題研究(美國)本,提升ROI。指標(biāo)有所不同。AIASIC主要采用HBM作為片外內(nèi)存,容量及帶寬持平略看,AIASIC普遍設(shè)計了較大的片上容量有助于降低時延,提高計算效率。有望高速增長。我們看好ASIC的大規(guī)模應(yīng)用帶來云廠商ROI提升,同時請務(wù)必閱讀正文之后的免責(zé)條款部分5of41 海外專題研究(美國)積計算性能(TFLOPS/mm^2)提升緩慢,其性能提升主要依靠面積變大。請務(wù)必閱讀正文之后的免責(zé)條款部分6of41 海外專題研究(美國)非Transformer架構(gòu),試圖提高計算效率、降低計算成本。目前主要分為究資源、軟硬件生態(tài)角度看,Transformer架構(gòu)具備較高的護城河,非請務(wù)必閱讀正文之后的免責(zé)條款部分7of41 海外專題研究(美國)增長,是英偉達(dá)的重要客戶,谷歌、微軟、亞馬遜、Meta和廠商預(yù)計貢獻了FY2025英偉達(dá)GPU六成以上的收入,預(yù)計接近500億美計70億美元左右,MarvellFY202450圖11:Marvell預(yù)計數(shù)據(jù)中心定制加速計算芯片市自研廠商往往需要與IP設(shè)計廠商合作,獲得授權(quán),此外,部分艱深的結(jié)構(gòu)請務(wù)必閱讀正文之后的免責(zé)條款部分8of41 海外專題研究(美國)加量產(chǎn)至少小20億美金。處于產(chǎn)能爬坡期,A客戶的AI推理芯片、C客戶的AI芯片預(yù)計分別2025將為谷歌提供AI服務(wù)器芯片的串行器和解串器(SerDes)方案,并協(xié)助整合請務(wù)必閱讀正文之后的免責(zé)條款部分9of41 海外專題研究(美國)MachineLearningwithHardwareSuppoMachineLearningwithHardwareSuppo3.云廠商積極布局ASIC,打造軟硬件全棧生態(tài)于加速機器學(xué)習(xí)工作負(fù)載的集成電路(ASIC),可以快速處理神經(jīng)網(wǎng)絡(luò)中使的考慮,選擇搭建團隊自研芯片,谷歌招募了DavidPatterson——RI片的集群規(guī)模,此外,借助Multislice訓(xùn)練技術(shù),TPUv5e可以實現(xiàn)5萬卡--Search等內(nèi)部項目和蘋果等外部客戶工作負(fù)載提供支持。蘋果披露其云側(cè) 海外專題研究(美國)TPU在矩陣乘法過程中,不需要訪問內(nèi)存。引擎、執(zhí)行銀行交易,或利用神易加載到饋出隊列中。然后,TPU主機從饋出隊列讀取結(jié)果并將其存儲在主機的內(nèi)存中。 海外專題研究(美國)3.1.3.創(chuàng)新引入3Dtorus架構(gòu)和光交換v4芯片組成4x4x4的立方體,4顆TPUv4搭配一顆CPU,64顆TPUv4和MachineLearningwithHardwareSuppoMachineLearningwithHardwareSuppo模塊結(jié)構(gòu)。64個機柜共同組成4096顆芯片規(guī)模的算力 海外專題研究(美國)圖20:4096個TPUv4組成的集群換光信號,減少了光電轉(zhuǎn)換過程中的功耗損失,OC本、功耗等方面均具備顯著優(yōu)勢。谷歌系統(tǒng)和服務(wù)基礎(chǔ)設(shè)施副總裁AminVahdat表示,平均而言,TPUv4集群在MLPerf測試中的表現(xiàn)比Nvidia 海外專題研究(美國)3.1.4.提供Mulislic行速度,而且可能完全不需要更改源代碼。 海外專題研究(美國)圖25:谷歌可基于JAX和PyTorch框3.2.1.MTIA快速迭代,目前主要用于AI推理InferenceAccelerator用于支持Meta的深度學(xué)習(xí)推薦模型,該模型是 海外專題研究(美國)對應(yīng)百億美金以上的資本開支。據(jù)扎克伯格預(yù)計,Llama4的計算能力是708TFLOPS/s(sparsity)耗節(jié)約、成本方面具備明顯的優(yōu)勢。MTIAv2在INT8精度下的GEMM計響了工作負(fù)載的表現(xiàn)。當(dāng)前工作負(fù)載運行很大一部分時間都被網(wǎng)絡(luò)通信占 海外專題研究(美國)彼此互聯(lián),可以作為一個整體運行任務(wù),也可以獨立處理任務(wù)。3.2.3.MTIAv2單機架容納72 海外專題研究(美國)運行時堆棧,負(fù)責(zé)與驅(qū)動程序/固件接口,最后,運行時與驅(qū)動程序交互。于編寫ML計算內(nèi)核,極大提高了開發(fā)人員效率。 海外專題研究(美國)第一代AI自研芯片的性能指標(biāo)也較為領(lǐng)先,未來有望成為云廠商ASIC領(lǐng) 海外專題研究(美國)MXFP4數(shù)據(jù)格式下的性能達(dá)到3200TFLOPS,MXInt8下達(dá)到1600面的競爭有一席之地。Ares機架中,微軟配置了Sidekick液設(shè)備,冷液從副設(shè)備流向Maia100表面的冷板,副設(shè)備吸取液體中熱量后再請務(wù)必閱讀正文之后的免責(zé)條款部分20of41 海外專題研究(美國)數(shù)據(jù)來源:測的拓?fù)鋱D來看,在Y方向上,每片Maia100通過400Gb/s的帶寬連接到器內(nèi)的4顆Maia100芯片通過Mesh連接,實現(xiàn)了1型的開發(fā),微軟為Maia100提供軟件配套,集成Pytorch、ONNXRunti3.4.1.亞馬遜在公有云市場布局廣闊,請務(wù)必閱讀正文之后的免責(zé)條款部分21of41 海外專題研究(美國)供了底層的網(wǎng)絡(luò)支持。2015年,亞馬遜收購了為其長期設(shè)計芯片的的速率。據(jù)亞馬遜估計,客戶使用最新一代的Graviton4可將IT費用減少代性能提升4倍。中每個核心中的標(biāo)量、矢量和張量引擎數(shù)量比上一代增加了一倍。另外,NeuronLink互連鏈路,是上一代芯片的2倍,總共能提供高達(dá)768GB/s的帶寬。NeuronLink-v2是AWS推出的最新一代芯片間互請務(wù)必閱讀正文之后的免責(zé)條款部分22of41 海外專題研究(美國)種高速互連的方式相互連接,在計算元素、網(wǎng)絡(luò)連接等層面上相較于存帶寬。據(jù)TheNextPlatform報道,含1NeuroCore-2NeuroCore-請務(wù)必閱讀正文之后的免責(zé)條款部分23of41 海外專題研究(美國)度學(xué)習(xí)模型進行訓(xùn)練時,Trn1實例比NvidiaA100芯片支持的P4d實效率更高。EFA(ElasticFabricAdapt從而達(dá)到加快分布式訓(xùn)練的目的。為實現(xiàn)高效的數(shù)據(jù)和模型并行性,每個在Trn1芯片互連中,Trn1實例支持最Trn1/Trn1n實例能部署在更大請務(wù)必閱讀正文之后的免責(zé)條款部分24of41 海外專題研究(美國)一項服務(wù)于機器學(xué)習(xí)的開發(fā)框架,方便開發(fā)者完成模型的訓(xùn)練和推理等工上構(gòu)建和部署可擴展的應(yīng)用程序和服務(wù)。最頂層的是亞馬遜生成式人工智請務(wù)必閱讀正文之后的免責(zé)條款部分25of41 海外專題研究(美國)數(shù)據(jù)來源:Microsoft3.5.1.特斯拉自研Dojo計算平臺,用駛系統(tǒng)的人工智能模型。特斯拉在設(shè)計和生產(chǎn)過程中與合作伙伴臺積電進自動駕駛技術(shù)FSD,使其獲得更多的學(xué)習(xí)經(jīng)驗,推動機器人出租車和網(wǎng)絡(luò)請務(wù)必閱讀正文之后的免責(zé)條款部分26of41 海外專題研究(美國)特斯拉預(yù)計2024年年底前投資超過10億美元來開發(fā)自己的超級計算機斯拉節(jié)省大額的成本。3.5.2.采用近存計算架構(gòu),單重輸入陣列,計算矩陣乘法后直接在輸出進行累加。每個Dojo核心包括4請務(wù)必閱讀正文之后的免責(zé)條款部分27of41 海外專題研究(美國)存儲、供電和通信無縫集成。每個訓(xùn)練板都配置了11GB的片上跨內(nèi)核這種封裝技術(shù)不需要額外PCB載板,就能將相關(guān)芯片集成散熱模塊,加速供電相位。特斯拉的電源調(diào)節(jié)模塊和液冷板采取與芯片本身垂直的立體結(jié)(800GB/s存儲帶寬支持特斯拉傳輸協(xié)議TTP,請務(wù)必閱讀正文之后的免責(zé)條款部分28of41 海外專題研究(美國)Dojo采用TTP專有通信協(xié)議,提供高帶寬芯片間通信片設(shè)計了TTP作為通信協(xié)議,這是一種基于連接著超高速存儲系統(tǒng):640GB運行內(nèi)存可以提供超過18TB/s的帶寬,請務(wù)必閱讀正文之后的免責(zé)條款部分29of41 海外專題研究(美國)圖51:DIP是一種高帶寬內(nèi)存的PCIe卡,支持特斯拉的TTPoE接口3.5.4.特斯拉為Dojo創(chuàng)建全棧軟件生態(tài)請務(wù)必閱讀正文之后的免責(zé)條款部分30of41 海外專題研究(美國)軟件棧。整個軟件生態(tài)的頂層是PyTo數(shù)據(jù)存儲、進行細(xì)粒度的并行計算并減少存儲占用。D用GDDR6顯存的通用AI芯片。昆侖芯2代于2021年量產(chǎn),采用7nm制程,整數(shù)精度(INT8)算力達(dá)到256TeraOPS,半精度(FP16)性能為128請務(wù)必閱讀正文之后的免責(zé)條款部分31of41 海外專題研究(美國)據(jù)百度方面預(yù)測,蘿卜快跑有望在2024年底在武漢實現(xiàn)盈虧平衡,并在感知和規(guī)劃大模型并進,逐步實現(xiàn)端到端自動駕駛系統(tǒng)。蘿卜快跑的核心請務(wù)必閱讀正文之后的免責(zé)條款部分32of41 海外專題研究(美國)平頭哥半導(dǎo)體是阿里巴巴集團的全資半導(dǎo)體芯片業(yè)務(wù)主體。平頭哥擁有端過核間通信(XCORE-COMM)緊密協(xié)作以處理更大更復(fù)雜的任務(wù)(例如頻、調(diào)壓進一步平衡功耗和性能。請務(wù)必閱讀正文之后的免責(zé)條款部分33of41 海外專題研究(美國)平頭哥推出了HGAI(HanGuangArtihciallntelligence)軟件開發(fā)包,協(xié)同含光800芯片提升AI運算效率。HGAI主要包括模型的前端GraphIR轉(zhuǎn)換、量化、編譯和運行時等幾部分。目前HGAI支持的主流深度學(xué)習(xí)框架主要騰訊芯片自研主要由蓬萊實驗室負(fù)責(zé)。2021年,騰訊公布旗下三款自研請務(wù)必閱讀正文之后的免責(zé)條款部分34of41 海外專題研究(美國)內(nèi)存帶寬有顯著優(yōu)勢。推出了扣子,支持用戶定制基于AI模型的各類問答B(yǎng)ot,此外,字節(jié)跳動芯片相關(guān)研發(fā)人員。在大模型領(lǐng)域,字節(jié)跳動擁有英偉達(dá)動目前發(fā)布了數(shù)百個與半導(dǎo)體相關(guān)的職位,其中包括15個ASIC芯片設(shè)計師的職位。請務(wù)必閱讀正文之后的免責(zé)條款部分35of41 海外專題研究(美國)深度學(xué)習(xí)編程框架由深度學(xué)習(xí)算法的基本操作封裝成的學(xué)習(xí)組件構(gòu)成,可00人工智能機器學(xué)習(xí)深度學(xué)習(xí)數(shù)據(jù)來源:騰訊云數(shù)據(jù)來源:前瞻產(chǎn)請務(wù)必閱讀正文之后的免責(zé)條款部分36of41 海外專題研究(美國)流圖被轉(zhuǎn)換為中間表示,可以支持jit的算子融合、內(nèi)存操作消除等優(yōu)化,CUDA架構(gòu)的核心在于并行計算模型,通過線程塊和網(wǎng)格實現(xiàn),這種層次的低級指令。核心開發(fā)包,是CUDA開發(fā)的基礎(chǔ)環(huán)境,包含編譯器(nvcc調(diào)試器(NsightSystems、Compute等性能分析工具(NsightGraphics、NsightP請務(wù)必閱讀正文之后的免責(zé)條款部分37of41 海外專題研究(美國)Thrust:C++模板庫,簡化了并行算其他包括cuSPARSE(稀疏矩陣運算庫),NVML(NVIDIA),許多第三方庫和工具構(gòu)建于CUDA之上,CUDA有強大的社區(qū)支持,包括教程、論壇、博客文章和大學(xué)課程千個應(yīng)用已部署到嵌入式系統(tǒng)、工作站、數(shù)據(jù)中心和云中的GPU。廣與大學(xué)、研究機構(gòu)和主要計算機廠商合作,幫助C發(fā)人員的注意力,存在先發(fā)優(yōu)勢。400350300250200150100500CUDA注冊開發(fā)者數(shù)(萬)1)CUDA可以最大限度地提高NVDIAGPU的性能。CUDA是專為成,CUDA代碼直接編譯到GPU的指令基準(zhǔn)測試一致表明,CUDA的吞吐量領(lǐng)先于NVIDIA芯片上的執(zhí)行效率通常高出60%;2)CUDA對深度學(xué)習(xí)的支持度高,CUDA為各種深度學(xué)習(xí)框架(如請務(wù)必閱讀正文之后的免責(zé)條款部分38of41 海外專題研究(美國)分析和調(diào)試工具等,程序員可以直接調(diào)用這些庫函數(shù)進行計算,如圖72:CUDA-XAI相對封閉的理念可能會導(dǎo)致其缺乏靈活性。決方案;請務(wù)必閱讀正文之后的免責(zé)條款部分39of41 海外專題研究(美國)圖73:AMD推出ROCm開源平臺圖73:AMD推出ROCm開源平臺PyTorch等,還提供Ascend云廠商持續(xù)迭代自研芯片及配套硬件的同時,也在積極培育相應(yīng)的軟件生請務(wù)必閱讀正文之后的免責(zé)條款部分40of41 海外專題研究(美國)軟件生態(tài)是影響算力集群效率的重要因素,如果云廠商等不能推出有競爭力的ASIC配套軟件生態(tài)服務(wù),那么用戶可能不愿意將工作任務(wù)遷移至持續(xù)進行研發(fā)投
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 店鋪產(chǎn)權(quán)租賃合同(3篇)
- 八平均數(shù)與條形統(tǒng)計圖平均數(shù)作業(yè)
- 積的乘方教學(xué)設(shè)計
- 合同法課件 教學(xué)課件
- 屏蔽門系統(tǒng)的結(jié)構(gòu)
- 生產(chǎn)經(jīng)營單位安全培訓(xùn)試題答案審定版
- 冶金行業(yè)管理王曉鵬礦井通風(fēng)與安全設(shè)計
- 公司管理人員安全培訓(xùn)試題及完整答案(歷年真題)
- 溜索教學(xué)課件教學(xué)課件
- 項目部安全培訓(xùn)試題含答案【突破訓(xùn)練】
- 2025屆【九省聯(lián)考】全國高三10月聯(lián)考數(shù)學(xué)試題
- T-CECS120-2021套接緊定式鋼導(dǎo)管施工及驗收規(guī)程
- 人教版八年級上冊數(shù)學(xué)期中考試試題含答案詳解
- 大學(xué)體育理論(山東聯(lián)盟)智慧樹知到課后章節(jié)答案2023年下泰山學(xué)院
- 新聞寫作培訓(xùn)主題課件
- 最新油汀裝配生產(chǎn)工藝及管制要點培訓(xùn)資料
- 癃閉中醫(yī)護理方案解答
- MCGS與1500連接配置說明
- 半掛車產(chǎn)品設(shè)計規(guī)范手冊
- 【設(shè)計】每天3000噸紡織印染廢水處理設(shè)計方案(精華版)
- 健康促進機關(guān)工作總結(jié)【八篇】
評論
0/150
提交評論