海外科技行業(yè)：算力需求高增AI+ASIC突圍在

上傳人：策*** IP屬地：山西上傳時間：2024-08-20 格式：DOCX 頁數(shù)：69 大?。?.31MB 積分：19.9 舉報 版權申訴

已閱讀5頁，還剩64頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

海外科技海外科技qinheping027734@gtj投資建議：ASIC針對特定場景設計，有配套的通信互聯(lián)和軟件生態(tài)，雖然目前單顆ASIC算力相比最先進的GP數(shù)據(jù)中心加速計算芯片的16%，其規(guī)模約數(shù)據(jù)中心定制加速計算芯片規(guī)模有望超400故而在推理場景呈現(xiàn)更高的性價比；ASIC的芯片互聯(lián)以PCIe協(xié)議主導，ASIC軟件生態(tài)有望逐步完善。云廠商普遍具備較強的能力，均為AIASIC研發(fā)了配套的全棧軟件生態(tài)，開發(fā)了一系列的請務必閱讀正文之后的免責條款部分3of41 海外專題研究(美國)用效率可能會優(yōu)于可比的GPU。此外ASIC還有明顯-------384----注：紅色字體表示該未經(jīng)官方確認，為預測值；*表示采用稀疏技術下的算力；Maia100第三行為MxInt8性能界但由于其成本較低，在推理常用精度下，ASIC展現(xiàn)出了更高的性價比更高的性價比。而中國廠商AIASIC仍處于相對早期的發(fā)展階段，百度昆請務必閱讀正文之后的免責條款部分4of41 海外專題研究(美國)本，提升ROI。指標有所不同。AIASIC主要采用HBM作為片外內存，容量及帶寬持平略看，AIASIC普遍設計了較大的片上容量有助于降低時延，提高計算效率。有望高速增長。我們看好ASIC的大規(guī)模應用帶來云廠商ROI提升，同時請務必閱讀正文之后的免責條款部分5of41 海外專題研究(美國)積計算性能（TFLOPS/mm^2）提升緩慢，其性能提升主要依靠面積變大。請務必閱讀正文之后的免責條款部分6of41 海外專題研究(美國)非Transformer架構，試圖提高計算效率、降低計算成本。目前主要分為究資源、軟硬件生態(tài)角度看，Transformer架構具備較高的護城河，非請務必閱讀正文之后的免責條款部分7of41 海外專題研究(美國)增長，是英偉達的重要客戶，谷歌、微軟、亞馬遜、Meta和廠商預計貢獻了FY2025英偉達GPU六成以上的收入，預計接近500億美計70億美元左右，MarvellFY202450圖11：Marvell預計數(shù)據(jù)中心定制加速計算芯片市自研廠商往往需要與IP設計廠商合作，獲得授權，此外，部分艱深的結構請務必閱讀正文之后的免責條款部分8of41 海外專題研究(美國)加量產(chǎn)至少小20億美金。處于產(chǎn)能爬坡期，A客戶的AI推理芯片、C客戶的AI芯片預計分別2025將為谷歌提供AI服務器芯片的串行器和解串器(SerDes)方案，并協(xié)助整合請務必閱讀正文之后的免責條款部分9of41 海外專題研究(美國)MachineLearningwithHardwareSuppoMachineLearningwithHardwareSuppo3.云廠商積極布局ASIC，打造軟硬件全棧生態(tài)于加速機器學習工作負載的集成電路(ASIC)，可以快速處理神經(jīng)網(wǎng)絡中使的考慮，選擇搭建團隊自研芯片，谷歌招募了DavidPatterson——RI片的集群規(guī)模，此外，借助Multislice訓練技術，TPUv5e可以實現(xiàn)5萬卡--Search等內部項目和蘋果等外部客戶工作負載提供支持。蘋果披露其云側海外專題研究(美國)TPU在矩陣乘法過程中，不需要訪問內存。引擎、執(zhí)行銀行交易，或利用神易加載到饋出隊列中。然后，TPU主機從饋出隊列讀取結果并將其存儲在主機的內存中。海外專題研究(美國)3.1.3.創(chuàng)新引入3Dtorus架構和光交換v4芯片組成4x4x4的立方體，4顆TPUv4搭配一顆CPU，64顆TPUv4和MachineLearningwithHardwareSuppoMachineLearningwithHardwareSuppo模塊結構。64個機柜共同組成4096顆芯片規(guī)模的算力海外專題研究(美國)圖20：4096個TPUv4組成的集群換光信號，減少了光電轉換過程中的功耗損失，OC本、功耗等方面均具備顯著優(yōu)勢。谷歌系統(tǒng)和服務基礎設施副總裁AminVahdat表示，平均而言，TPUv4集群在MLPerf測試中的表現(xiàn)比Nvidia 海外專題研究(美國)3.1.4.提供Mulislic行速度，而且可能完全不需要更改源代碼。海外專題研究(美國)圖25：谷歌可基于JAX和PyTorch框3.2.1.MTIA快速迭代，目前主要用于AI推理InferenceAccelerator用于支持Meta的深度學習推薦模型，該模型是海外專題研究(美國)對應百億美金以上的資本開支。據(jù)扎克伯格預計，Llama4的計算能力是708TFLOPS/s（sparsity)耗節(jié)約、成本方面具備明顯的優(yōu)勢。MTIAv2在INT8精度下的GEMM計響了工作負載的表現(xiàn)。當前工作負載運行很大一部分時間都被網(wǎng)絡通信占海外專題研究(美國)彼此互聯(lián)，可以作為一個整體運行任務，也可以獨立處理任務。3.2.3.MTIAv2單機架容納72 海外專題研究(美國)運行時堆棧，負責與驅動程序/固件接口，最后，運行時與驅動程序交互。于編寫ML計算內核，極大提高了開發(fā)人員效率。海外專題研究(美國)第一代AI自研芯片的性能指標也較為領先，未來有望成為云廠商ASIC領海外專題研究(美國)MXFP4數(shù)據(jù)格式下的性能達到3200TFLOPS，MXInt8下達到1600面的競爭有一席之地。Ares機架中，微軟配置了Sidekick液設備，冷液從副設備流向Maia100表面的冷板，副設備吸取液體中熱量后再請務必閱讀正文之后的免責條款部分20of41 海外專題研究(美國)數(shù)據(jù)來源：測的拓撲圖來看，在Y方向上，每片Maia100通過400Gb/s的帶寬連接到器內的4顆Maia100芯片通過Mesh連接，實現(xiàn)了1型的開發(fā)，微軟為Maia100提供軟件配套，集成Pytorch、ONNXRunti3.4.1.亞馬遜在公有云市場布局廣闊，請務必閱讀正文之后的免責條款部分21of41 海外專題研究(美國)供了底層的網(wǎng)絡支持。2015年，亞馬遜收購了為其長期設計芯片的的速率。據(jù)亞馬遜估計，客戶使用最新一代的Graviton4可將IT費用減少代性能提升4倍。中每個核心中的標量、矢量和張量引擎數(shù)量比上一代增加了一倍。另外，NeuronLink互連鏈路，是上一代芯片的2倍，總共能提供高達768GB/s的帶寬。NeuronLink-v2是AWS推出的最新一代芯片間互請務必閱讀正文之后的免責條款部分22of41 海外專題研究(美國)種高速互連的方式相互連接，在計算元素、網(wǎng)絡連接等層面上相較于存帶寬。據(jù)TheNextPlatform報道，含1NeuroCore-2NeuroCore-請務必閱讀正文之后的免責條款部分23of41 海外專題研究(美國)度學習模型進行訓練時，Trn1實例比NvidiaA100芯片支持的P4d實效率更高。EFA(ElasticFabricAdapt從而達到加快分布式訓練的目的。為實現(xiàn)高效的數(shù)據(jù)和模型并行性，每個在Trn1芯片互連中，Trn1實例支持最Trn1/Trn1n實例能部署在更大請務必閱讀正文之后的免責條款部分24of41 海外專題研究(美國)一項服務于機器學習的開發(fā)框架，方便開發(fā)者完成模型的訓練和推理等工上構建和部署可擴展的應用程序和服務。最頂層的是亞馬遜生成式人工智請務必閱讀正文之后的免責條款部分25of41 海外專題研究(美國)數(shù)據(jù)來源：Microsoft3.5.1.特斯拉自研Dojo計算平臺，用駛系統(tǒng)的人工智能模型。特斯拉在設計和生產(chǎn)過程中與合作伙伴臺積電進自動駕駛技術FSD，使其獲得更多的學習經(jīng)驗，推動機器人出租車和網(wǎng)絡請務必閱讀正文之后的免責條款部分26of41 海外專題研究(美國)特斯拉預計2024年年底前投資超過10億美元來開發(fā)自己的超級計算機斯拉節(jié)省大額的成本。3.5.2.采用近存計算架構，單重輸入陣列，計算矩陣乘法后直接在輸出進行累加。每個Dojo核心包括4請務必閱讀正文之后的免責條款部分27of41 海外專題研究(美國)存儲、供電和通信無縫集成。每個訓練板都配置了11GB的片上跨內核這種封裝技術不需要額外PCB載板，就能將相關芯片集成散熱模塊，加速供電相位。特斯拉的電源調節(jié)模塊和液冷板采取與芯片本身垂直的立體結（800GB/s存儲帶寬支持特斯拉傳輸協(xié)議TTP，請務必閱讀正文之后的免責條款部分28of41 海外專題研究(美國)Dojo采用TTP專有通信協(xié)議，提供高帶寬芯片間通信片設計了TTP作為通信協(xié)議，這是一種基于連接著超高速存儲系統(tǒng)：640GB運行內存可以提供超過18TB/s的帶寬，請務必閱讀正文之后的免責條款部分29of41 海外專題研究(美國)圖51：DIP是一種高帶寬內存的PCIe卡，支持特斯拉的TTPoE接口3.5.4.特斯拉為Dojo創(chuàng)建全棧軟件生態(tài)請務必閱讀正文之后的免責條款部分30of41 海外專題研究(美國)軟件棧。整個軟件生態(tài)的頂層是PyTo數(shù)據(jù)存儲、進行細粒度的并行計算并減少存儲占用。D用GDDR6顯存的通用AI芯片。昆侖芯2代于2021年量產(chǎn)，采用7nm制程，整數(shù)精度(INT8)算力達到256TeraOPS，半精度(FP16)性能為128請務必閱讀正文之后的免責條款部分31of41 海外專題研究(美國)據(jù)百度方面預測，蘿卜快跑有望在2024年底在武漢實現(xiàn)盈虧平衡，并在感知和規(guī)劃大模型并進，逐步實現(xiàn)端到端自動駕駛系統(tǒng)。蘿卜快跑的核心請務必閱讀正文之后的免責條款部分32of41 海外專題研究(美國)平頭哥半導體是阿里巴巴集團的全資半導體芯片業(yè)務主體。平頭哥擁有端過核間通信(XCORE-COMM)緊密協(xié)作以處理更大更復雜的任務(例如頻、調壓進一步平衡功耗和性能。請務必閱讀正文之后的免責條款部分33of41 海外專題研究(美國)平頭哥推出了HGAI(HanGuangArtihciallntelligence)軟件開發(fā)包，協(xié)同含光800芯片提升AI運算效率。HGAI主要包括模型的前端GraphIR轉換、量化、編譯和運行時等幾部分。目前HGAI支持的主流深度學習框架主要騰訊芯片自研主要由蓬萊實驗室負責。2021年，騰訊公布旗下三款自研請務必閱讀正文之后的免責條款部分34of41 海外專題研究(美國)內存帶寬有顯著優(yōu)勢。推出了扣子，支持用戶定制基于AI模型的各類問答B(yǎng)ot，此外，字節(jié)跳動芯片相關研發(fā)人員。在大模型領域，字節(jié)跳動擁有英偉達動目前發(fā)布了數(shù)百個與半導體相關的職位，其中包括15個ASIC芯片設計師的職位。請務必閱讀正文之后的免責條款部分35of41 海外專題研究(美國)深度學習編程框架由深度學習算法的基本操作封裝成的學習組件構成，可00人工智能機器學習深度學習數(shù)據(jù)來源：騰訊云數(shù)據(jù)來源：前瞻產(chǎn)請務必閱讀正文之后的免責條款部分36of41 海外專題研究(美國)流圖被轉換為中間表示，可以支持jit的算子融合、內存操作消除等優(yōu)化，CUDA架構的核心在于并行計算模型，通過線程塊和網(wǎng)格實現(xiàn)，這種層次的低級指令。核心開發(fā)包，是CUDA開發(fā)的基礎環(huán)境，包含編譯器（nvcc調試器（NsightSystems、Compute等性能分析工具（NsightGraphics、NsightP請務必閱讀正文之后的免責條款部分37of41 海外專題研究(美國)Thrust：C++模板庫，簡化了并行算其他包括cuSPARSE（稀疏矩陣運算庫），NVML（NVIDIA），許多第三方庫和工具構建于CUDA之上，CUDA有強大的社區(qū)支持，包括教程、論壇、博客文章和大學課程千個應用已部署到嵌入式系統(tǒng)、工作站、數(shù)據(jù)中心和云中的GPU。廣與大學、研究機構和主要計算機廠商合作，幫助C發(fā)人員的注意力，存在先發(fā)優(yōu)勢。400350300250200150100500CUDA注冊開發(fā)者數(shù)（萬）1）CUDA可以最大限度地提高NVDIAGPU的性能。CUDA是專為成，CUDA代碼直接編譯到GPU的指令基準測試一致表明，CUDA的吞吐量領先于NVIDIA芯片上的執(zhí)行效率通常高出60%；2）CUDA對深度學習的支持度高，CUDA為各種深度學習框架（如請務必閱讀正文之后的免責條款部分38of41 海外專題研究(美國)分析和調試工具等，程序員可以直接調用這些庫函數(shù)進行計算，如圖72：CUDA-XAI相對封閉的理念可能會導致其缺乏靈活性。決方案；請務必閱讀正文之后的免責條款部分39of41 海外專題研究(美國)圖73：AMD推出ROCm開源平臺圖73：AMD推出ROCm開源平臺PyTorch等，還提供Ascend云廠商持續(xù)迭代自研芯片及配套硬件的同時，也在積極培育相應的軟件生請務必閱讀正文之后的免責條款部分40of41 海外專題研究(美國)軟件生態(tài)是影響算力集群效率的重要因素，如果云廠商等不能推出有競爭力的ASIC配套軟件生態(tài)服務，那么用戶可能不愿意將工作任務遷移至持續(xù)進行研發(fā)投

人人文庫> 全部分類> 應用文書 > 研究報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

海外科技行業(yè)：算力需求高增AI+ASIC突圍在

文檔簡介

溫馨提示

最新文檔

評論

海外科技行業(yè)：算力需求高增AI+ASIC突圍在

文檔簡介

溫馨提示

最新文檔

評論

相關文檔