




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
AI算力產(chǎn)業(yè)鏈?zhǔn)崂恚篈IGC場景增多驅(qū)動算力需求提升1.ChatGPT浪潮帶動算力需求提升,以GPU為核心的硬件市場擴(kuò)容1.1.ChatGPT:基于生成式AI技術(shù)的大型語言模型,商業(yè)化迅速開啟ChatGPT(ChatGenerativePre-trainedTransformer)是由OpenAI開發(fā)的聊天機(jī)器人程序,于2022年11月推出。ChatGPT是目前為止最先進(jìn)的語言生成模型之一,使用基于GPT3.5架構(gòu)的大型語言模型(LLM),并通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,擁有語言理解和文本生成能力,適用于問答、對話、生成文本等多種場景。ChatGPT用戶規(guī)模擴(kuò)增迅速,根據(jù)SimilarWeb數(shù)據(jù),2023年1月期間,ChatGPT平均每天大約有1300萬獨立訪客,數(shù)量是2022年12月的兩倍多(Similarweb數(shù)據(jù));
根據(jù)瑞銀公開報告數(shù)據(jù),2023年1月(即上線兩個月后)實現(xiàn)全球1億月活躍用戶,是歷史上增長最快的消費者應(yīng)用程序。ChatGPT是生成式AI在文字生成領(lǐng)域的應(yīng)用,創(chuàng)造能力是其核心優(yōu)勢。傳統(tǒng)AI依靠邏輯進(jìn)行分類和判斷,而生成式AI的壁壘在于能夠創(chuàng)造新內(nèi)容,可以是多模態(tài)的、模仿人類情感的、具有互動和審美性質(zhì)的。傳統(tǒng)的聊天機(jī)器人(Chatbot),例如客服機(jī)器人,只能根據(jù)用戶輸入的內(nèi)容在數(shù)據(jù)庫中查詢到對應(yīng)答案,再機(jī)械地以模板的形式反饋給客戶;而ChatGPT采取生成式AI技術(shù),并且有工作人員每日優(yōu)化模型,在應(yīng)對用戶提問時會根據(jù)上下文內(nèi)容調(diào)整回答內(nèi)容,增強(qiáng)互動式、對話式的情感體驗,更加智能。OpenAI開放API,降本90%擴(kuò)大覆蓋用戶面。2023年3月1日,OpenAI官網(wǎng)宣布ChatGPT和Whisper(OpenAI去年發(fā)行的語音識別生成模型)的API開放使用,開發(fā)者可將模型集成到APP和其他產(chǎn)品中。ChatGPTAPI接入的模型為GPT-3.5-turbo,與GPT-3.5相比更加快捷、準(zhǔn)確,成本也更低,定價為每1000個tokens(約750個單詞)0.002美元,用戶則需要按照輸入和輸出的tokens總數(shù)來付費。OpenAI官方表示自2022年12月以來ChatGPT降低了90%的成本,開放API旨在使更多人受益于生成式AI技術(shù)。1.2.采用GPT-3.5預(yù)訓(xùn)練模型,參數(shù)量隨模型換代呈指數(shù)型增長GPT3.5是一種大型語言模型(LLM),參數(shù)量大,精準(zhǔn)度高。GPT-3.5采用深度學(xué)習(xí)中的Transformer架構(gòu),并通過大規(guī)模預(yù)訓(xùn)練(pre-training)的方式來學(xué)習(xí)自然語言處理任務(wù),可以進(jìn)行文本生成、對話生成、文本分類、命名實體識別、關(guān)鍵詞提取等自然語言處理任務(wù)。語言模型(LM)是指對語句概率分布的建模。具體是判斷語句的語序是否正常,是否可以被人類理解。它根據(jù)句子中先前出現(xiàn)的單詞,利用正確的語序預(yù)測句子中下一個單詞,以達(dá)到正確的語義。例如,模型比較“我是人類”和“是人類我”出現(xiàn)的概率,前者是正確語序,后者是錯誤語序,因此前者出現(xiàn)的概率比后者高,則生成的語句為“我是人類”。大型語言模型(LLM)是基于海量數(shù)據(jù)集進(jìn)行內(nèi)容識別、總結(jié)、翻譯、預(yù)測或生成文本等的語言模型。相比于一般的語言模型,LLM識別和生成的精準(zhǔn)度會隨參數(shù)量的提升大幅提高。ChatGPT需要通過預(yù)訓(xùn)練來形成GPT3.5的模型,從而可以在用戶端的網(wǎng)頁或APP進(jìn)行推理。預(yù)訓(xùn)練指先通過一部分?jǐn)?shù)據(jù)進(jìn)行初步訓(xùn)練,再在這個初步訓(xùn)練好的模型基礎(chǔ)上進(jìn)行重復(fù)訓(xùn)練,或者說是“微調(diào)”;
推理指將預(yù)訓(xùn)練學(xué)習(xí)到的內(nèi)容作為參考,對新的內(nèi)容進(jìn)行生成或判斷。預(yù)訓(xùn)練是模型運作的主要部分,所需要的精度較高,算力需求也較高;推理則相反。ChatGPT通過Transformer和RLHF兩種語言模型進(jìn)行預(yù)訓(xùn)練,可并行訓(xùn)練并大量優(yōu)化反饋。采用深度學(xué)習(xí)中的Transformer架構(gòu),并通過大規(guī)模預(yù)訓(xùn)練(pre-training)的方式來學(xué)習(xí)自然語言處理任務(wù),可以進(jìn)行文本生成、對話生成、文本分類、命名實體識別、關(guān)鍵詞提取等自然語言處理任務(wù)。長短期記憶網(wǎng)絡(luò)算法(LSTM)是一種時間循環(huán)神經(jīng)網(wǎng)絡(luò)。傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)擁有鏈?zhǔn)叫问?,就像人腦會忘記很久以前發(fā)生的事件,RNN也會忘記它在較長序列中學(xué)習(xí)的內(nèi)容,因此具有短時記憶。LSTM是一種特殊的RNN,它解決了傳統(tǒng)RNN的短時記憶問題,在Transformer問世前曾主導(dǎo)NLP領(lǐng)域,但也擁有無法并行訓(xùn)練、建模長度有限的缺點。Transformer是一個完全依賴于自注意力機(jī)制來計算其輸入和輸出的表示的轉(zhuǎn)換模型,所以與LSTM的順序處理不同,它可以并行同時處理所有的輸入數(shù)據(jù),模仿人類聯(lián)系上下文的習(xí)慣,從而更好地為LLM注入意義并支持處理更大的數(shù)據(jù)集。人類反饋信號強(qiáng)化學(xué)習(xí)(RLHF)指使用強(qiáng)化學(xué)習(xí)的方式直接優(yōu)化帶有人類反饋的語言模型,使得語言模型能夠與復(fù)雜的人類價值觀“對齊”。它負(fù)責(zé)ChatGPT預(yù)訓(xùn)練中微調(diào)的部分,首先在人類的幫助下訓(xùn)練一個獎賞網(wǎng)絡(luò)(RM),RM對多個聊天回復(fù)的質(zhì)量進(jìn)行排序,從而增加ChatGPT對話信息量,使其回答具有人類偏好。ChatGPT的預(yù)訓(xùn)練需要處理海量參數(shù),從而實現(xiàn)超高文本識別率。OpenAI目前沒有公布ChatGPT所使用的GPT-3.5的相關(guān)數(shù)據(jù),由表2可知,隨著新模型推出,新的參數(shù)量需求呈翻倍式增長。OpenAI首席執(zhí)行官SamAltman接受公開采訪表示,GTP-4參數(shù)量為GTP-3的20倍,需要的計算量為GTP-3的10倍;GTP-5在2024年底至2025年發(fā)布,它的參數(shù)量為GTP-3的100倍,需要的計算量為GTP-3的200-400倍。GPT-4功能升級,多模態(tài)拓展應(yīng)用場景。2023年3月14日,OpenAI正式發(fā)布GPT-4模型,早于此前23年下半年發(fā)布的時間規(guī)劃。根據(jù)OpenAI官方,GPT-4模型于2022年8月完成訓(xùn)練,之后通過6個月時間對模型進(jìn)行了安全性研究、風(fēng)險評估和迭代。GPT-4作為大型多模態(tài)模型,在多方面提升顯著:
1)多模態(tài)大模型——新增接受圖片和文本輸入并產(chǎn)生文本輸出能力,能分析圖片的符號意義,如理解圖片中的“笑?!?文字方面,GPT-4的輸入限制由3000字提升至2.5萬字,對于英語以外的語種支持有更多優(yōu)化。2)提升各種專業(yè)和學(xué)術(shù)水準(zhǔn)并有較好表現(xiàn)。能處理更長更復(fù)雜的文本,在沒有針對考試內(nèi)容進(jìn)行特別訓(xùn)練的基礎(chǔ)上,GPT-4在各項測試中均取得較高成績,如GPT-4在GRE考試中取得332+4分,GPT-4(novision)取得322+4分,而GPT-3.5分?jǐn)?shù)為301+4分。3)在安全、一致性上有較為明顯的提升。根據(jù)OpenAI的對抗性測試和紅隊測試結(jié)果,相比GPT-3.5,GPT-4產(chǎn)生客觀事實回答的可能性提升40%,響應(yīng)違禁內(nèi)容請求的可能性降低82%。根據(jù)公開新聞?wù)?,目前接入GPT-4支持的應(yīng)用端已有微軟的必應(yīng)瀏覽器newBing、嵌入于辦公軟件的Microsoft365Copilot人工智能服務(wù),外語培訓(xùn)教育機(jī)構(gòu)多鄰國的付費產(chǎn)品DuolingoMax、摩根士丹利等。我們認(rèn)為,隨著GPT-4等模型復(fù)雜度升級,并逐步支持圖片視頻識別等多模態(tài),對應(yīng)的算力及基礎(chǔ)設(shè)施需求有望持續(xù)增長;下游則有望拓展更多圖片視頻內(nèi)容端的商業(yè)化應(yīng)用場景。1.3.海量參數(shù)產(chǎn)生大算力需求,GPGPU等高壁壘AI芯片受益ChatGPT算力需求與參數(shù)量呈正相關(guān),對硬件的內(nèi)存容量和帶寬提出高要求。算力即計算能力,具體指硬件對數(shù)據(jù)收集、傳輸、計算和存儲的能力,算力的大小表明了對數(shù)字化信息處理能力的強(qiáng)弱,常用計量單位是FLOPS(Floating-pointoperationspersecond),表示每秒浮點的運算次數(shù)。硬件方面,運算量取決于GPU運算執(zhí)行時間的長短,而參數(shù)量取決于占用顯存的量。運算量(FLOPS)的數(shù)值通常與參數(shù)量(parametercount)成比例,不同模型架構(gòu)的換算關(guān)系不同。模型越復(fù)雜、參數(shù)量越大,所需計算量越大。GPGPU擁有硬件技術(shù)的核心壁壘:大顯存帶寬,進(jìn)行超高能效比的并行運算,可同時用于GPT模型的訓(xùn)練和推理過程。GPGPU(通用圖像處理器)是一種由GPU去除圖形處理和輸出,僅保留科學(xué)計算、AI訓(xùn)練和推理功能的GPU(圖形處理器)。GPU芯片最初用于計算機(jī)系統(tǒng)圖像顯示的運算,但因其相比于擅長橫向計算的CPU更擅長于并行計算,在涉及到大量的矩陣或向量計算的AI計算中很有優(yōu)勢,GPGPU應(yīng)運而生。目前,GPGPU的制造工藝在英偉達(dá)等企業(yè)的領(lǐng)導(dǎo)下已趨向成熟,成本在AI芯片中也較低,成為市場主流選擇,ChatGPT引起的AI浪潮有望提升其應(yīng)用規(guī)模。FPGA具有可編程的靈活性,ASIC性能佳、具有定制化特點,但成本方面與GPU相比稍顯劣勢,在GPT等AI模型的運用占比較GPU低。FPGA指現(xiàn)場可編程邏輯門陣列,具有靜態(tài)可重復(fù)編程和動態(tài)在系統(tǒng)重構(gòu)的特性,但其開發(fā)難度大、只適合定點運算,同時價格也比較昂貴,性能方面也不及GPU與ASIC,只在精度較低的推理過程有所應(yīng)用。ASIC指專用集成電路,是一種應(yīng)不同用戶需求和不同系統(tǒng)需要而設(shè)計、制造的集成電路。ASIC芯片的性能較GPU佳,能耗也較低,但因其定制性價格昂貴,在人工智能平臺和推理過程中有部分應(yīng)用。1.4.類ChatGPT成本高昂產(chǎn)品涌現(xiàn),國產(chǎn)大模型方興未艾大模型運行成本高昂,準(zhǔn)入壁壘較高。大模型對于訓(xùn)練時間和參數(shù)量都有高要求,以O(shè)penAICEOAltman在推特上回復(fù)馬斯克的留言可知,ChatGPT平均一次聊天成本為幾美分。根據(jù)SimilarWeb數(shù)據(jù),2023年1月27日至2月3日ChatGPT日活躍用戶達(dá)2500萬人。中性假設(shè)下,以平均單人單日對話7次,每次3美分成本進(jìn)行測算,對應(yīng)一年支出對話成本約為19.2億美元。根據(jù)英偉達(dá)官網(wǎng),A100作為DGXA100系統(tǒng)的一部分進(jìn)行銷售,該系統(tǒng)搭載8個A100GPU,一個由5臺DGXA100系統(tǒng)組成的機(jī)架可替代一個包括AI訓(xùn)練和推理基礎(chǔ)設(shè)施的數(shù)據(jù)中心,且功耗僅為其1/20,成本為其1/10,系統(tǒng)售價19.9萬美元。因此,在中性假設(shè)條件下,考慮到服務(wù)器約占數(shù)據(jù)中心成本的70%(中商產(chǎn)業(yè)研究院),則ChatGPT運營一年將需要6741個DGXA100系統(tǒng)用于支撐訪問量。因此我們推斷,在高昂成本及大數(shù)據(jù)量需求的限制下,僅有限數(shù)量的科技巨頭具備參與AI競賽的實力。ChatGPT帶動大模型競品發(fā)布,海內(nèi)外科技巨頭先后加碼AI布局。1)谷歌向AI公司Anthropic投資近4億美元,后者正在測試生成式AI工具Claude,且谷歌也推出對標(biāo)ChatGPT的聊天機(jī)器人Bard。2)微軟以100億美元投資ChatGPT的開發(fā)商OpenAI,并獲得其49%股權(quán)。2023年2月,微軟發(fā)布基于ChatGPT的newBing。3)亞馬遜云服務(wù)AWS宣布與AI公司HuggingFace開展合作,HuggingFace將在AWS上開發(fā)針對ChatGPT的開源競品,構(gòu)建開源語言模型的下個版本Bloom。4)阿里達(dá)摩院正研發(fā)類ChatGPT的對話機(jī)器人,目前已處于內(nèi)測階段。5)百度開發(fā)類ChatGPT項目“文心一言”(ERINEBot)。6)京東推出產(chǎn)業(yè)版ChatJD。基于昆侖芯+飛槳+文心大模型AI底座,百度推出“文心一言”拉開國產(chǎn)生成式AI序幕。2023年3月16日,百度正式推出國內(nèi)首款生成式AI產(chǎn)品“文心一言”,可支持文學(xué)創(chuàng)作、文案創(chuàng)作、數(shù)理推算、多模態(tài)生成等功能,目前已有多家廠商宣布接入?!拔男囊谎浴被谌珬W匝械腁I基礎(chǔ)設(shè)施進(jìn)行學(xué)習(xí)和訓(xùn)練:
昆侖芯2代AI芯片:“文心一言”的芯片層核心能力,采用自研XPU-R架構(gòu),通用性和性能顯著提升;256TOPS@INT8
和128TFLOPS@FP16
的算力水平,較一代提升2-3倍,保障“文心一言”算力需求;采用7nm先進(jìn)工藝,GDDR6高速顯存,支持虛擬化,芯片間互聯(lián)和視頻編解碼等功能。飛槳深度學(xué)習(xí)平臺:“文心一言”的框架層核心能力,系業(yè)內(nèi)首個動靜統(tǒng)一的框架、首個通用異構(gòu)參數(shù)服務(wù)器架構(gòu),支持端邊云多硬件和多操作系統(tǒng),為文心大模型提供有效、快捷、完整的訓(xùn)練框架。文心知識增強(qiáng)大模型:“文心一言”的模型層核心能力,該產(chǎn)品主要采用ERNIE系列文心NLP模型,擁有千億參數(shù)級別的ERNIE3.0Zeus為該系列最新模型,進(jìn)一步提升了模型對于不同下游任務(wù)的建模能力,大大拓寬了“文心一言”的應(yīng)用場景。我們認(rèn)為,隨著國產(chǎn)AI大模型應(yīng)用的不斷拓展,算力基礎(chǔ)設(shè)施加速升級,伴隨產(chǎn)業(yè)鏈自主研發(fā)需求及地緣政治不確定性,關(guān)于進(jìn)口高端AI芯片及服務(wù)器中美博弈升級,國產(chǎn)高算力GPU芯片、服務(wù)器及數(shù)據(jù)中心等廠商有望加速迭代,長期充分受益。1.5.以GPT-3為例測算:大算力需求驅(qū)動AI硬件市場空間提升GPT-3(GenerativePre-trainedTransformer是GPT-3.5的上一代語言模型,目前一般所說的GPT-3即為擁有1750億參數(shù)的最大GPT-3模型,OpenAI在公開發(fā)表的論文《LanguageModelsareFew-ShotLearners》中對GPT-3模型進(jìn)行了詳細(xì)分析。對于以ChatGPT為例的大模型算力需求,根據(jù)測算,我們預(yù)計用于高端GPGPU顯卡的訓(xùn)練及推理部分市場空間合計約145.32億元,其中訓(xùn)練市場規(guī)模為27.84億元,推理市場規(guī)模為117.48億元。1.6.GPT-4模型算力需求擴(kuò)增,架構(gòu)升級降本增效未來可期根據(jù)OpenAI官網(wǎng)顯示,目前GPT-4每4小時只能處理100條消息,且并沒有開放圖片識別功能。大模型升級帶來的運算需求逐漸加碼,且可推測目前算力已處于供不應(yīng)求狀態(tài)。多模態(tài)拓展,圖片識別算力需求升級十倍以上。關(guān)于從圖片到token的轉(zhuǎn)換方式,OpenAI未公布GPT-4的模型參數(shù),假設(shè)GPT-4處理圖片視覺任務(wù)使用VisionTransformer模型(ViT),則輸入圖片尺寸必須為224×224(ViT-B/16版本)。根據(jù)2021年ICLR論文,模型原理大致為把一張圖片分成nxn個Patch,每一個Patch作為一個Token。即把一張224×224×3的圖片,切分為16×16大小的Patch,每個Patch是三通道小圖片,得到16×16×3=768個token并作為向量輸入。相較之下,根據(jù)前文GPT-3部分假設(shè),假設(shè)每個文字問題50-100詞,即67-133token。我們可以粗略推論,圖像識別的所需算力是文字推理部分所需算力的十倍以上級別。編譯器性能升級,帶動大模型產(chǎn)品加速迭代。隨著2023年3月15日Pytorch2.0正式版的發(fā)布,編譯器的性能有大幅提升。Pytorch作為主流深度學(xué)習(xí)框架,用于構(gòu)建及訓(xùn)練深度學(xué)習(xí)模型。Pytorch2.0正式版包含的新高性能TransformAPI能使GPT-3等使用的先進(jìn)transformer模型的訓(xùn)練和部署更加容易、快速。根據(jù)PyTorch基金會數(shù)據(jù),在NvidiaA100GPU上使用PyTorch2.0對163個開源模型進(jìn)行的基準(zhǔn)測試,其中包括圖像分類、目標(biāo)檢測、圖像生成,以及各種NLP任務(wù),2.0版本的編譯時間比1.0提高43%。我們認(rèn)為,編譯器性能的提升帶動AI大模型編譯時間縮短,新產(chǎn)品推出進(jìn)展或?qū)⒊A(yù)期。同時我們認(rèn)為,目前模型的計算成本高,參數(shù)量大,長期看模型架構(gòu)的升級將縮小訓(xùn)練成本,并拓寬邊緣設(shè)備等部署場景,對算力的需求有望從單模型所需芯片價值量高的推演轉(zhuǎn)變?yōu)閼?yīng)用場景快速拓展的量的增長。(1)根據(jù)Nature2023年3月8日文章,有觀點認(rèn)為,更大參數(shù)量的模型只是在回答訓(xùn)練數(shù)據(jù)相關(guān)范圍的查詢上表現(xiàn)更好,并不具備獲得回答新問題的更優(yōu)能力。過往幾年,AI大模型的訓(xùn)練使用更高的算力和參數(shù)量,但一些小型性能好的模型涌現(xiàn),在訓(xùn)練中用了更高數(shù)據(jù)。具體而言,2023年2月Meta發(fā)布LLaMA小參數(shù)模型,130億參數(shù)但訓(xùn)練量多達(dá)1.4萬億個,表現(xiàn)優(yōu)于GPT-3。而同年3月14日,斯坦福發(fā)布基于LLaMA的AIpaca7B微調(diào)模型,其52000個指令的OpenAIAPI總成本不到500美元;微調(diào)過程在云計算平臺使用8個A10080GBGPU,用時3小時,成本約100美元。測試結(jié)果表明AIpaca7B性能和其指令資料來源的GPT-3模型相近。長期來看,大模型有望向規(guī)模更小、更智能高效的方向演進(jìn)。(2)多模態(tài)方面,舉例說明,根據(jù)清華大學(xué)2021年論文<DynamicViT:EffificientVisionTransformerswithDynamicTokenSparsifification>,ViT的最終預(yù)測僅基于信息最豐富的token的一個子集,該子集足以進(jìn)行圖像準(zhǔn)確識別,論文提出的動態(tài)token稀疏化框架可以理解為輕量化預(yù)測模塊,估計每個token的重要性,從而動態(tài)刪除冗余token,其框架的結(jié)論減少了31-37%FLOPS,提升40%以上吞吐量,同時精度下降小于5%。1.7.英偉達(dá)引領(lǐng)硬件端產(chǎn)品升級,國產(chǎn)GPU靜待花開大GPU優(yōu)勢在于通過并行計算實現(xiàn)大量重復(fù)性計算。GPGPU(GeneralPurposeGPU)即通用GPU,能夠幫助CPU進(jìn)行非圖形相關(guān)程序的運算。在類似的價格和功率范圍內(nèi),GPU能提供比CPU高得多的指令吞吐量和內(nèi)存帶寬。GPGPU架構(gòu)設(shè)計時去掉了GPU為了圖形處理而設(shè)計的加速硬件單元,保留了GPU的SIMT(SingleInstructionMultipleThreads)架構(gòu)和通用計算單元,通過GPU多條流水線的并行計算來實現(xiàn)大量計算。所以基于GPU的圖形任務(wù)無法直接運行在GPGPU上,但對于科學(xué)計算,AI訓(xùn)練、推理任務(wù)(主要是矩陣運算)等通用計算類型的任務(wù)仍然保留了GPU的優(yōu)勢,即高效的搬運和運算有海量數(shù)據(jù)的重復(fù)性任務(wù)。目前主要用于例如物理計算、加密解密、科學(xué)計算以及比特幣等加密貨幣的生成。英偉達(dá)
CUDA架構(gòu)引領(lǐng)GPGPU開發(fā)市場,算力底座筑造核心護(hù)城河。隨著超算等高并發(fā)性計算的需求不斷提升,英偉達(dá)以推動GPU從專用計算芯片走向通用計算處理器為目標(biāo)推出了GPGPU,并于2006年前瞻性發(fā)布并行編程模型CUDA,以及對應(yīng)工業(yè)標(biāo)準(zhǔn)的OpenCL。CUDA是英偉達(dá)的一種通用并行計算平臺和編程模型,它通過利用圖形處理器(GPU)的處理能力,可大幅提升計算性能。CUDA使英偉達(dá)的GPU能夠執(zhí)行使用C、C++、Fortran、OpenCL、DirectCompute和其他語言編寫的程序。在CUDA問世之前,對GPU編程必須要編寫大量的底層語言代碼;CUDA可以讓普通程序員可以利用C語言、C++等為CUDA架構(gòu)編寫程序在GPU平臺上進(jìn)行大規(guī)模并行計算,在全球GPGPU開發(fā)市場占比已超過80%。GPGPU與CUDA組成的軟硬件底座,構(gòu)成了英偉達(dá)引領(lǐng)AI計算及數(shù)據(jù)中心領(lǐng)域的根基。通過與云計算平臺的集成,CUDA可在未購買GPU硬件的基礎(chǔ)上提供強(qiáng)大計算能力。例如,假設(shè)客戶需要訓(xùn)練一個深度學(xué)習(xí)模型需要大量的計算資源和時間,通過在AWS上租用一個帶有NVIDIAGPU的實例,并在該實例上安裝CUDA,客戶可以使用CUDAAPI和庫來利用GPU的計算能力運行計算密集型工作負(fù)載,從而可以無需購買GPU硬件并快速完成訓(xùn)練任務(wù)。除了AWS,其他云計算提供商如MicrosoftAzure、GoogleCloudPlatform等也提供了與CUDA集成的服務(wù)。這些服務(wù)可以為客戶提供強(qiáng)大的GPU計算能力,從而加速計算密集型工作負(fù)載的處理速度。GPU架構(gòu)升級過程計算能力不斷強(qiáng)化,Hopper架構(gòu)適用于高性能計算(HPC)和AI工作負(fù)載。英偉達(dá)在架構(gòu)設(shè)計上,不斷加強(qiáng)GPU的計算能力和能源效率。在英偉達(dá)GPU架構(gòu)的演變中,從最先Tesla架構(gòu),分別經(jīng)過Fermi、Kepler、Maxwell、Pascal、Volta、Turing、Ampere至發(fā)展為今天的Hopper架構(gòu)。以Pascal架構(gòu)為分界點,自2016年后英偉達(dá)逐步開始向深度學(xué)習(xí)方向演進(jìn)。根據(jù)英偉達(dá)官網(wǎng),Pascal架構(gòu),與上一代Maxwell相比,神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度提高12倍多,并將深度學(xué)習(xí)推理吞吐量提升了7倍。Volta架構(gòu),配備640個Tensor內(nèi)核增強(qiáng)性能,可提供每秒超過100萬億次(TFLOPS)的深度學(xué)習(xí)性能,是上一代Pascal架構(gòu)的5倍以上。Turing架構(gòu),配備全新TensorCore,每秒可提供高達(dá)500萬億次的張量運算。Ampere架構(gòu),采用全新精度標(biāo)準(zhǔn)TensorFloat32(TF32),無需更改任何程序代碼即可將AI訓(xùn)練速度提升至20倍。最新Hopper架構(gòu)是第一個真正異構(gòu)加速平臺,采用臺積電
4nm工藝,擁有超800億晶體管,主要由HopperGPU、GraceCPU、NVLINKC2C互聯(lián)和NVSwitch交換芯片組成,根據(jù)英偉達(dá)官網(wǎng)介紹,其性能相較于上一代Megatron530B擁有30倍AI推理速度的提升。AMD數(shù)據(jù)中心領(lǐng)域布局全面,形成CPU+GPU+FPGA+DPU產(chǎn)品矩陣。與英偉達(dá)相比,AMD在服務(wù)器端CPU業(yè)務(wù)表現(xiàn)較好,根據(jù)Passmark數(shù)據(jù)顯示,2021年Q4AMDEPYC霄龍系列在英特爾
壟斷下有所增長,占全球服務(wù)器CPU市場的6%。依據(jù)CPU業(yè)務(wù)的優(yōu)勢,AMD在研發(fā)GPGPU產(chǎn)品時推出InfinityFabric技術(shù),將EPYC霄龍系列CPU與InstinctMI系列GPU直接相連,實現(xiàn)一致的高速緩存,形成協(xié)同效應(yīng)。此外,AMD分別于2022年2月、4月收購Xilinx和Pensando,補(bǔ)齊FPGA與DPU短板,全面進(jìn)軍數(shù)據(jù)中心領(lǐng)域。軟件方面,AMD推出ROCm平臺打造CDNA架構(gòu),但無法替代英偉達(dá)CUDA生態(tài)。AMD最新的面向GPGPU架構(gòu)為CDNA系列架構(gòu),CDNA架構(gòu)使用ROCm自主生態(tài)進(jìn)行編寫。AMD的ROCm生態(tài)采取HIP編程模型,但HIP與CUDA的編程語法極為相似,開發(fā)者可以模仿CUDA的編程方式為AMD的GPU產(chǎn)品編程,從而在源代碼層面上兼容CUDA。所以從本質(zhì)上來看,ROCm生態(tài)只是借用了CUDA的技術(shù),無法真正替代CUDA產(chǎn)生壁壘。前瞻性布局AI和云計算領(lǐng)域,英偉達(dá)獨占鰲頭。回顧英偉達(dá)發(fā)展歷程,在傳統(tǒng)游戲業(yè)務(wù)外,公司始終關(guān)注數(shù)據(jù)中心業(yè)務(wù)布局:英偉達(dá)早在2006年便推出CUDA架構(gòu),提高GPU解決復(fù)雜計算的能力;2007年推出專為高性能計算設(shè)計的Tesla系列GPU產(chǎn)品,此后開始快速迭代,性能不斷提升,至今已發(fā)展出8個架構(gòu);2016年推出世上首款臺式超級計算機(jī)DGX-1,主要應(yīng)用于AI領(lǐng)域;2019年收購Mellanox,降低云數(shù)據(jù)中心的運營成本。與AMD、英特爾相比,英偉達(dá)在AI計算領(lǐng)域獨占鰲頭:在2020年全球TOP500超級計算機(jī)榜單中,有333臺超級計算機(jī)采用了英偉達(dá)的技術(shù),占總數(shù)的66.6%,英偉達(dá)的統(tǒng)治地位可見一斑。軟硬件共同布局形成生態(tài)系統(tǒng),造就英偉達(dá)核心技術(shù)壁壘。硬件端:基于GPU、DPU和CPU構(gòu)建英偉達(dá)加速計算平臺生態(tài):
(1)主要產(chǎn)品TeslaGPU系列迭代速度快,從2008年至2022年,先后推出8種GPU架構(gòu),平均兩年多推出新架構(gòu),半年推出新產(chǎn)品。超快的迭代速度使英偉達(dá)的GPU性能走在AI芯片行業(yè)前沿,引領(lǐng)人工智能計算領(lǐng)域發(fā)生變革。(2)DPU方面,英偉達(dá)于2019年戰(zhàn)略性收購以色列超算以太網(wǎng)公司Mellanox,利用其InfiniBand(無限帶寬)技術(shù)設(shè)計出Bluefield系列DPU芯片,彌補(bǔ)其生態(tài)在數(shù)據(jù)交互方面的不足。InfiniBand與以太網(wǎng)相同,是一種計算機(jī)網(wǎng)絡(luò)通信標(biāo)準(zhǔn),但它具有極高的吞吐量和極低的延遲,通常用于超級計算機(jī)的互聯(lián)。英偉達(dá)的BluefieldDPU芯片可用于分擔(dān)CPU的網(wǎng)絡(luò)連接算力需求,從而提高云數(shù)據(jù)中心的效率,降低運營成本。(3)CPU方面,自主設(shè)計GraceCPU并推出GraceHopper超級芯片,解決內(nèi)存帶寬瓶頸問題。采用x86CPU的傳統(tǒng)數(shù)據(jù)中心會受到PCIe總線規(guī)格的限制,CPU到GPU的帶寬較小,計算效率受到影響;而GraceHopper超級芯片提供自研GraceCPU+GPU相結(jié)合的一致內(nèi)存模型,從而可以使用英偉達(dá)NVLink-C2C技術(shù)快速傳輸,其帶寬是第5代PCIe帶寬的7倍,極大提高了數(shù)據(jù)中心的運行性能。相較于A100GPU,H100性能再次大幅提升。在H100配備第四代TensorCore和Transformer引擎(FP8精度),同上一代A100相比,AI推理能力提升30倍。其核心采用的是TSMC目前最先進(jìn)的4nm工藝,H100使用雙精度TensorCore的FLOPS提升3倍。國內(nèi)GPGPU生態(tài)起步較晚,國產(chǎn)GPU亟待補(bǔ)位。根據(jù)華為2021年9月發(fā)布的《智能世界2030》報告,人類將于2030年進(jìn)入YB數(shù)據(jù)時代,通用算力相較2020年增長10倍、人工智能算力國產(chǎn)GPU廠商的核心架構(gòu)多為自研,難度極高,需投入海量資金以及高昂的人力和時間成本。由于我國GPU行業(yè)起步較晚,缺乏相應(yīng)生態(tài),目前同國際一流廠商仍存在較大差距。在中美摩擦加劇、經(jīng)濟(jì)全球化逆行的背景下,以海光信息、天數(shù)智芯、壁仞科技和摩爾線程等為代表的國內(nèi)GPU廠商進(jìn)展迅速,國產(chǎn)GPU自主可控未來可期。2.大算力場景遇到的問題及解決途徑2.1.“內(nèi)存墻”、“功耗墻”等掣肘AI的算力發(fā)展“存”“算”性能失配,內(nèi)存墻導(dǎo)致訪存時延高,效率低。內(nèi)存墻,指內(nèi)存的容量或傳輸帶寬有限而嚴(yán)重限制CPU性能發(fā)揮的現(xiàn)象。內(nèi)存的性能指標(biāo)主要有“帶寬”(Bandwidth)和“等待時間”(Latency)。近20年間,運算設(shè)備的算力提高了90000倍,提升非???。雖然存儲器從DDR發(fā)展到GDDR6x,能夠用于顯卡、游戲終端和高性能運算,接口標(biāo)準(zhǔn)也從PCIe1.0a升級到NVLink3.0,但是通訊帶寬的增長只有30倍,和算力相比提高幅度非常緩慢。馮諾依曼架構(gòu)下,數(shù)據(jù)傳輸導(dǎo)致嚴(yán)重的功耗損失。馮·諾依曼架構(gòu)要求數(shù)據(jù)在存儲器單元和處理單元之間不斷地“讀寫”,這樣數(shù)據(jù)在兩者之間來回傳輸就會消耗很多的傳輸功耗。根據(jù)
英特爾的研究表明,當(dāng)半導(dǎo)體工藝達(dá)到7nm時,數(shù)據(jù)搬運功耗高達(dá)35pJ/bit,占總功耗的63.7%。數(shù)據(jù)傳輸造成的功耗損失越來越嚴(yán)重,限制了芯片發(fā)展的速度和效率,形成了“功耗墻”問題。AI模型參數(shù)量極速擴(kuò)大,GPU內(nèi)存增長速度捉襟見肘。在GPT-2之前的模型時代,GPU內(nèi)存還能滿足AI大模型的需求。近年來,隨著Transformer模型的大規(guī)模發(fā)展和應(yīng)用,模型大小每兩年平均增長了240倍。GPT-3等大模型的參數(shù)增長已經(jīng)超過了GPU內(nèi)存的增長。傳統(tǒng)的設(shè)計趨勢已經(jīng)不能適應(yīng)當(dāng)前的需求,芯片內(nèi)部、芯片之間或AI加速器之間的通信成為了AI訓(xùn)練的瓶頸。AI訓(xùn)練不可避免地遇到了“內(nèi)存墻”問題。AI模型運算量增長速度不斷加快,推動硬件算力增長。預(yù)訓(xùn)練技術(shù)的進(jìn)步導(dǎo)致了各領(lǐng)域模型計算量的快速增長,大約每兩年就要增加15倍。而Transformer類模型的運算量更是每兩年就要增加750倍。這種近乎指數(shù)的增長趨勢促使AI硬件的研發(fā)方向發(fā)生變化,需要更高的峰值算力。當(dāng)前的研究為了實現(xiàn)更高的算力,甚至不惜簡化或者優(yōu)化其他部分組件,例如內(nèi)存的分層架構(gòu),將DRAM容量用于需要高性能訪問的熱數(shù)據(jù),將容量層用于處理需要大容量但性能要求不那么高的任務(wù),以適應(yīng)不同的數(shù)據(jù)類型、用例、技術(shù)需求和預(yù)算限制,適用于AI、ML和HPC等眾多應(yīng)用場景,能幫助企業(yè)以經(jīng)濟(jì)高效的方式滿足內(nèi)存需求。2.2.“內(nèi)存墻”、“功耗墻”等問題解決路徑2.2.1.存算一體技術(shù):以SRAM、RRAM為主的新架構(gòu),大算力領(lǐng)域優(yōu)勢大存算一體在存儲器中嵌入計算能力,以新的運算架構(gòu)進(jìn)行乘加運算。存算一體是一種以數(shù)據(jù)為中心的非馮諾依曼架構(gòu),它將存儲功能和計算功能有機(jī)結(jié)合起來,直接在存儲單元中處理數(shù)據(jù)。存算一體通過改造“讀”電路的存內(nèi)計算架構(gòu),可以直接從“讀”電路中得到運算結(jié)果,并將結(jié)果“寫”回存儲器的目標(biāo)地址,避免了在存儲單元和計算單元之間頻繁地轉(zhuǎn)移數(shù)據(jù)。存算一體減少了不必要的數(shù)據(jù)搬移造成的開銷,不僅大幅降低了功耗(降至1/10~1/100),還可以利用存儲單元進(jìn)行邏輯計算提高算力,顯著提升計算效率。它不僅適用于AI計算,也適用于感存算一體芯片和類腦芯片,是未來大數(shù)據(jù)計算芯片架構(gòu)的主流方向。SRAM、RRAM是存算一體介質(zhì)的主流研究方向。存算一體的成熟存儲器有幾種,比如NORFLASH、SRAM、DRAM、RRAM、MRAM等NVRAM。FLASH是非易失性存儲,成本低,可靠性高,但制程有瓶頸。SRAM速度快,能效比高,在存內(nèi)邏輯技術(shù)發(fā)展后有高能效和高精度的特點。DRAM容量大,成本低,但速度慢,需要不斷刷新電力。新型存儲器PCAM、MRAM、RRAM和FRAM也適用于存算一體。其中RRAM在神經(jīng)網(wǎng)絡(luò)計算中有優(yōu)勢,是下一代存算一體介質(zhì)的主流方向之一。除了SRAM之外,RRAM也是未來發(fā)展最快的新型存儲器之一,它結(jié)構(gòu)簡單,速度高,但材料不穩(wěn)定,工藝還需2-5年才能成熟。存算一體有著廣泛的應(yīng)用場景,在不同大小設(shè)備上均有需求。從技術(shù)領(lǐng)域來看,存算一體可以應(yīng)用于:
(1)AI和大數(shù)據(jù)計算:將AI計算中大量乘加計算的權(quán)重部分存在存儲單元中,從而在讀取的同時進(jìn)行數(shù)據(jù)輸入和計算處理,在存儲陣列中完成卷積運算。(2)感存算一體:集傳感、儲存和運算為一體構(gòu)建感存算一體架構(gòu),在傳感器自身包含的AI存算一體芯片上運算,來實現(xiàn)零延時和超低功耗的智能視覺處理能力。(3)類腦計算:使計算機(jī)像人腦一樣將存儲和計算合二為一,從而高速處理信息。存算一體天然是將存儲和計算結(jié)合在一起的技術(shù),是未來類腦計算的首選和產(chǎn)品快速落地的關(guān)鍵。從應(yīng)用場景來分,存算一體可以適用于各類人工智能場景和元宇宙計算,如可穿戴設(shè)備、移動終端、智能駕駛、數(shù)據(jù)中心等。(1)針對端側(cè)的可穿戴等小設(shè)備,對成本、功耗、時延難度很敏感。端側(cè)競品眾多,應(yīng)用場景碎片化,面臨成本與功效的難題。存算一體技術(shù)在端側(cè)的競爭力影響約占30%。(例如arm占30%,降噪或ISP占40%,AI加速能力只占30%)(2)針對云計算和邊緣計算的大算力設(shè)備,是存算一體芯片的優(yōu)勢領(lǐng)域。存算一體在大算力領(lǐng)域的競爭力影響約占90%。傳統(tǒng)存儲大廠紛紛入局,新興公司不斷涌現(xiàn)。(1)國外方面,三星電子在多個技術(shù)路線進(jìn)行嘗試,發(fā)布新型HBM-PIM(存內(nèi)計算)芯片、全球首個基于MRAM(磁性隨機(jī)存儲器)的存內(nèi)計算研究等。臺積電在ISSCC2021上提出基于數(shù)字改良的SRAM設(shè)計存內(nèi)計算方案。英特爾也早早提出近內(nèi)存計算戰(zhàn)略,將數(shù)據(jù)在存儲層級向上移動,使其更接近處理單元進(jìn)行計算。(2)國內(nèi)方面,阿里達(dá)摩院成功研發(fā)全球首款基于DRAM的3D鍵合堆疊存算一體芯片,可突破馮·諾依曼架構(gòu)的性能瓶頸。千芯科技是可重構(gòu)存算一體AI芯片的領(lǐng)導(dǎo)者和先驅(qū),核心產(chǎn)品包括高算力低功耗的存算一體AI芯片/IP核(支持多領(lǐng)域多模態(tài)人工智能算法)。后摩智能致力于突破智能計算芯片性能及功耗瓶頸,其提供的大算力、低功耗的高能效比芯片及解決方案,可應(yīng)用于無人車、泛機(jī)器人等邊緣端,以及云端推薦、圖像分析等云端推理場景。2.2.2.HBM技術(shù):高吞吐高帶寬,AI帶動需求激增HBM(HighBandwidthMemory)意為高帶寬存儲器,是一種硬件存儲介質(zhì),是高性能GPU的核心組件。HBM具有高吞吐高帶寬的特性,受到工業(yè)界和學(xué)術(shù)界的關(guān)注。它單顆粒的帶寬可以達(dá)到256GB/s,遠(yuǎn)超過DDR4和GDDR6。DDR4是CPU和硬件處理單元的常用外掛存儲設(shè)備,但是它的吞吐能力不足以滿足當(dāng)今計算需求,特別是在AI計算、區(qū)塊鏈和數(shù)字貨幣挖礦等大數(shù)據(jù)處理訪存需求極高的領(lǐng)域。GDDR6也比不上HBM,它單顆粒的帶寬只有64GB/s,是HBM的1/4。而DDR43200需要至少8顆粒才能提供25.6GB/s的帶寬,是HBM的1/10。HBM使用多根數(shù)據(jù)線實現(xiàn)高帶寬,完美解決傳統(tǒng)存儲效率低的問題。HBM的核心原理和普通的DDR、GDDR完全一樣,但是HBM使用多根數(shù)據(jù)線實現(xiàn)了高帶寬。HBM/HBM2使用1024根數(shù)據(jù)線傳輸數(shù)據(jù),作為對比,GDDR是32根,DDR是64根。HBM需要使用額外的硅聯(lián)通層,通過晶片堆疊技術(shù)與處理器連接。這么多的連接線保持高傳輸頻率會帶來高功耗。因此HBM的數(shù)據(jù)傳輸頻率相對很低,HBM2也只有2Gbps,作為對比,GDDR6是16Gbps,DDR43200是3.2Gbps。這些特點導(dǎo)致了HBM技術(shù)高成本,容量不可擴(kuò),高延遲等缺點。HBM可以被廣泛的應(yīng)用到汽車高帶寬存儲器,GPU顯存芯片,部分CPU的內(nèi)存芯片,邊緣AI加速卡,Chiplets等硬件中。在高端GPU芯片產(chǎn)品中,比如NVDIA面向數(shù)據(jù)中心的A100等加速卡中就使用了HBM;部分CPU的內(nèi)存芯片,如目前富岳中的A64FX等HPC芯片中也有應(yīng)用到。車輛在快速移動時,攝像頭、傳感器會捕獲大量的數(shù)據(jù),為了更快速的處理數(shù)據(jù),HBM是最合適的選擇。Chiplets在設(shè)計過程中沒有降低對內(nèi)存的需求,隨著異構(gòu)計算(尤其是小芯片)的發(fā)展,芯片會加速對高帶寬內(nèi)存的需求,無論是HBM、GDDR6還是LPDDR6。HBM緩解帶寬瓶頸,是AI時代不可或缺的關(guān)鍵技術(shù)。AI處理器架構(gòu)的探討從學(xué)術(shù)界開始,當(dāng)時的模型簡單,算力低,后來模型加深,算力需求增加,帶寬瓶頸出現(xiàn),也就是IO問題。這個問題可以通過增大片內(nèi)緩存、優(yōu)化調(diào)度模型等方法解決。但是隨著AI大模型和云端AI處理的發(fā)展,計算單元劇增,IO問題更嚴(yán)重了。要解決這個問題需要付出很高的代價(比如增加DDR接口通道數(shù)量、片內(nèi)緩存容量、多芯片互聯(lián)),這便是HBM出現(xiàn)的意義。HBM用晶片堆疊技術(shù)和硅聯(lián)通層把處理器和存儲器連接起來,把AI/深度學(xué)習(xí)完全放到片上,提高集成度,降低功耗,不受芯片引腳數(shù)量的限制。HBM在一定程度上解決了IO瓶頸。未來人工智能的數(shù)據(jù)量、計算量會越來越大,超過現(xiàn)有的DDR/GDDR帶寬瓶頸,HBM可能會是唯一的解決方案。巨頭領(lǐng)跑,各大存儲公司都已在HBM領(lǐng)域參與角逐。SK海力士、三星、美光等存儲巨頭在HBM領(lǐng)域展開了升級競賽,國內(nèi)佰維存儲等公司持續(xù)關(guān)注HBM領(lǐng)域。SK海力士早在2021年10月就開發(fā)出全球首款HBM3,2022年6月量產(chǎn)了HBM3DRAM芯片,并將供貨英偉達(dá),持續(xù)鞏固其市場領(lǐng)先地位。三星也在積極跟進(jìn),在2022年技術(shù)發(fā)布會上發(fā)布的內(nèi)存技術(shù)發(fā)展路線圖中,HBM3技術(shù)已經(jīng)量產(chǎn)。伴隨著ChatGPT的火熱,整個市場對于高性能計算卡等硬件產(chǎn)品的需求水漲船高,上游大廠如三星和海力士目前的DRAM業(yè)務(wù)相關(guān)訂單激增。GPU公司英偉達(dá)一直在要求SK海力士提供最新的HBM3內(nèi)存顆粒。服務(wù)器CPU公司英特爾在全新的第四代至強(qiáng)可擴(kuò)展處理器當(dāng)中也推出了配備SK海力士HBM的產(chǎn)品。2.2.3.Chiplet技術(shù):全產(chǎn)業(yè)鏈升級降本增效,國內(nèi)外大廠前瞻布局Chiplet即根據(jù)計算單元或功能單元將SOC進(jìn)行分解,分別選擇合適制程工藝制造。隨著處理器的核越來越多,芯片復(fù)雜度增加、設(shè)計周期越來越長,SoC芯片驗證的時間、成本也急劇增加,特別是高端處理芯片、大芯片。當(dāng)前集成電路工藝在物理、化學(xué)很多方面都達(dá)到了極限,大芯片快要接近制造瓶頸,傳統(tǒng)的SoC已經(jīng)很難繼續(xù)被采納。Chiplet,俗稱小芯片、芯粒,是將一塊原本復(fù)雜的SoC芯片,從設(shè)計的時候就按照不同的計算單元或功能單元進(jìn)行分解,然后每個單元分別選擇最合適的半導(dǎo)體制程工藝進(jìn)行制造,再通過先進(jìn)封裝技術(shù)將各自單元彼此互聯(lián)。Chiplet是一種類似搭樂高積木的方法,能將采用不同制造商、不同制程工藝的各種功能芯片進(jìn)行組裝,從而實現(xiàn)更高良率、更低成本。Chiplet可以從多個維度降低成本,延續(xù)摩爾定律的“經(jīng)濟(jì)效益”。隨著半導(dǎo)體工藝制程推進(jìn),晶體管尺寸越來越逼近物理極限,所耗費的時間及成本越來越高,同時所能夠帶來的“經(jīng)濟(jì)效益”的也越來越有限。Chiplet技術(shù)可從三個不同的維度來降低成本:
(1)可大幅度提高大型芯片的良率:芯片的良率與芯片面積有關(guān),Chiplet設(shè)計將大芯片分成小模塊可以有效改善良率,降低因不良率導(dǎo)致的成本增加。(2)可降低設(shè)計的復(fù)雜度和設(shè)計成本:Chiplet通過在芯片設(shè)計階段就將Soc按照不同功能模塊分解成可重復(fù)云涌的小芯粒,是一種新形式的IP復(fù)用,可大幅度降低設(shè)計復(fù)雜度和成本累次增加。(3)可降低芯片制造的成本:在Soc中的一些主要邏輯計算單元是依賴于先進(jìn)工藝制程來提升性能,但其他部分對制程的要求并不高,一些成熟制程即可滿足需求。將Soc進(jìn)行Chiplet化后對于不同的芯??蛇x擇對應(yīng)合適的工藝制程進(jìn)行分開制造,極大降低芯片的制造成本。Chiplet為全產(chǎn)業(yè)鏈提供了升級機(jī)會。在后摩爾時代,Chiplet可以開啟一個新的芯片生態(tài)。2022年3月,Chiplet的高速互聯(lián)標(biāo)準(zhǔn)——UCIe(UniversalChipletInterconnectExpress,通用芯?;ヂ?lián)技術(shù))正式推出,旨在芯片封裝層面確立互聯(lián)互通的統(tǒng)一標(biāo)準(zhǔn),打造一個開放性的Chiplet生態(tài)系統(tǒng)。巨頭們合力搭建起了統(tǒng)一的Chiplet互聯(lián)標(biāo)準(zhǔn),將加速推動開放的Chiplet平臺發(fā)展,并橫跨x86、Arm、RISC-V等架構(gòu)和指令集。Chiplet的影響力也從設(shè)計端走到芯片制造與封裝環(huán)節(jié)。在芯片小型化的設(shè)計過程中,需要添加更多I/O與其他芯片芯片接口,裸片尺寸必須要保持較大的空白空間。而且,要想保證Chiplet的信號傳輸質(zhì)量就需要發(fā)展高密度、大寬帶布線的先進(jìn)封裝技術(shù)。另外,Chiplet也影響到從EDA廠商、晶圓制造和封裝公司、芯粒IP供應(yīng)商、Chiplet產(chǎn)品及系統(tǒng)設(shè)計公司到Fabless設(shè)計廠商的產(chǎn)業(yè)鏈各個環(huán)節(jié)的參與者。乾坤未定,Chiplet是國內(nèi)芯片相關(guān)公司的重要發(fā)展機(jī)遇。(1)最先受到影響的是芯片IP設(shè)計企業(yè),Chiplet本質(zhì)就是不同的IP芯片化,國內(nèi)類似IP商均有望參與其中,比如華為海思有IP甚至指令集開發(fā)實力的公司,推出基于RISC-V內(nèi)核的處理器(玄鐵910)阿里平頭哥半導(dǎo)體公司,獨立的第三方IP廠商,如芯動科技、芯原股份、芯耀輝、銳成芯微、芯來等眾多IP公司等。(2)Chiplet需要EDA工具從架構(gòu)探索、芯片設(shè)計、物理及封裝實現(xiàn)等提供全面支持,為國內(nèi)EDA企業(yè)發(fā)展帶來了突破口。芯和半導(dǎo)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 北京鏈家購房合同范本
- 產(chǎn)品攝影廣告合同范例
- 劇目買斷合同范本
- 融資收費合同范本
- 勞動合同范本解除
- 單位車輛外包服務(wù)合同范本
- 分期出租房合同范本
- 醫(yī)療服務(wù)協(xié)議合同范本
- 單位招聘保安合同范本
- 分項付款合同范本
- PySide學(xué)習(xí)教程
- 數(shù)據(jù)結(jié)構(gòu)英文教學(xué)課件:chapter1 Introduction
- 人教三年級數(shù)學(xué)下冊表格式全冊
- 事業(yè)單位綜合基礎(chǔ)知識考試題庫 綜合基礎(chǔ)知識考試題庫.doc
- 優(yōu)秀教研組評比制度及實施細(xì)則
- 譯林初中英語教材目錄
- 物業(yè)交付后工程維修工作機(jī)制
- 農(nóng)作物病蟲害專業(yè)化統(tǒng)防統(tǒng)治管理辦法
- JJF 1752-2019全自動封閉型發(fā)光免疫分析儀校準(zhǔn)規(guī)范(高清版)
- GB 1886.300-2018 食品安全國家標(biāo)準(zhǔn) 食品添加劑 離子交換樹脂(高清版)
- 食品經(jīng)營單位經(jīng)營場所和設(shè)備布局、操作流程示意圖模板
評論
0/150
提交評論