ChatGPT對GPU算力的需求測算與相關(guān)分析_第1頁
ChatGPT對GPU算力的需求測算與相關(guān)分析_第2頁
ChatGPT對GPU算力的需求測算與相關(guān)分析_第3頁
ChatGPT對GPU算力的需求測算與相關(guān)分析_第4頁
ChatGPT對GPU算力的需求測算與相關(guān)分析_第5頁
已閱讀5頁,還剩64頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

半導(dǎo)體行業(yè)專題ChatGPT對GPU算力的需求測算與相關(guān)分析1核心觀點:單個大模型可帶來2萬GPU銷售量,搜索引擎帶來成倍空間核心觀點:短期內(nèi)GPU增量與市場規(guī)模:參考OpenAI算法,假設(shè)每日1億用戶,每人進行10條交互,每個問題的回答長度為50詞,算力利用率30

,則單個大語言模型(LLM)的日常需求有望帶來2.13萬片A100的增量,對應(yīng)市場規(guī)模2.13億美元。假設(shè)有5家大企業(yè)推出此類LLM,則總增量為10.7片A100,對應(yīng)市場規(guī)模10.7億美元。短期服務(wù)器增量與市場規(guī)模:單個服務(wù)器包含8個GPU,因此單個LLM帶來2669臺服務(wù)器需求,對應(yīng)市場規(guī)模3.39億美元,5家大企業(yè)共需要13345臺,對應(yīng)市場規(guī)模20億美元。長期市場空間:參考谷歌,若每日搜訪問30億次,需要106.74萬張A100,對應(yīng)13.3萬臺服務(wù)器DGX

A100,帶來市場空間200億美元。Raconteur,OpenAI:-,NVIDIA官網(wǎng),Amazon市場規(guī)模相關(guān)參數(shù)/假設(shè)A100單卡算力:19.5TFLOPS/s日常算力利用率:30(依據(jù)經(jīng)驗)GPU單價:1萬美元(A100)服務(wù)器單價:15萬美元(DGX

Station

A100)做LLM模型的企業(yè)數(shù)量:5(BAT、華為、字節(jié))每臺服務(wù)器搭載GPU數(shù)量:81億用戶所需GPU數(shù)量:21348(A100)近期單日交互+訓(xùn)練總算力1.08E+10TFLOPSA100單卡算力19.5T/s算力利用率30關(guān)鍵中間變量:GPU與服務(wù)器增量一個LLM模型所需GPU數(shù)量:21348(A100)1億用戶所需服務(wù)器數(shù)量:2669(DGX

A100)每臺服務(wù)器搭載GPU數(shù)量:85家企業(yè)對應(yīng)10.7萬片A100、1.33萬臺服務(wù)器短期國內(nèi)GPU/服務(wù)器增量市場規(guī)模一個LLM模型所需GPU數(shù)量:21348(A100)GPU單價:1萬美元(A100)1億用戶帶來國內(nèi)GPU總市場規(guī)模:2.13億美元一個LLM所需服務(wù)器數(shù)量:2669服務(wù)器單價:15萬美元(A100)1億用戶帶來國內(nèi)服務(wù)器市場規(guī)模:3.39億美元遠(yuǎn)期GPU增量空間谷歌+LLM所需GPU數(shù)量:1067415(A100)遠(yuǎn)期總算力需求:5.4

E+11

TFLOPSA100單卡算力:19.5TFLOPS/s算力利用率:305家企業(yè)對應(yīng)10.7億美元GPU、20億美元服務(wù)器谷歌+LLM所需服務(wù)器數(shù)量:133427(GPU/8)注:遠(yuǎn)期由于更高算力的GPU出現(xiàn)或更高效的計算方式,對應(yīng)市場空間可能變化。2核心觀點技術(shù)差距:GPGPU的核心壁壘是高精度浮點計算及CUDA生態(tài)。從高精度浮點計算能力來看,國內(nèi)GPU產(chǎn)品與國外產(chǎn)品的計算性能仍或有一代以上差距;在軟件和生態(tài)層面與英偉達(dá)CUDA生態(tài)的差距則更為明顯。AI計算GPU領(lǐng)域,國內(nèi)壁仞科技發(fā)布的BR100產(chǎn)品在FP32單精度計算性能上實現(xiàn)超越NVIDIA

A100芯片,但是不支持FP64雙精度計算;天數(shù)智芯推出的天垓100的FP32單精度計算性能實現(xiàn)超越A100芯片,但是在INT8整數(shù)計算性能方面卻低于A100;海光推出的DCU實現(xiàn)了FP64雙精度浮點計算,但是其性能為A100的60%左右,大概相當(dāng)于其4年前水平。因此,從高精度浮點計算能力來看,國內(nèi)GPU產(chǎn)品與國外產(chǎn)品的計算性能仍或有一代以上差距。但是,GPU不僅在硬件上需要提升算力,軟件層面對于GPU的應(yīng)用和生態(tài)布局尤其重要,英偉達(dá)憑借CUDA構(gòu)建生態(tài)壁壘占領(lǐng)全球GPU市場90%的份額。目前國內(nèi)企業(yè)多采用開源的OpenCL進行自主生態(tài)建設(shè),但這需要大量的時間進行布局;我們對比AMD從2013年開始建設(shè)GPU生態(tài),近10年時間后用于通用計算的ROCm開放式軟件平臺才逐步有影響力,且還是在兼容CUDA的基礎(chǔ)上。因此我們認(rèn)為國內(nèi)廠商在軟件和生態(tài)層面與英偉達(dá)CUDA生態(tài)的差距較計算性能更為明顯。雖然目前國內(nèi)產(chǎn)品的計算性能和軟件生態(tài)實力與國際廠商還有差距,但是,國內(nèi)廠商依然在奮起直追,努力實現(xiàn)GPGPU的國產(chǎn)化突破。我們認(rèn)為長久來看,美國對中國高端GPU的禁售令反而給國產(chǎn)GPGPU和AI芯片廠商帶來快速發(fā)展的機會。短期來看,我們認(rèn)為對高端通用計算GPU的禁令可能會影響英偉達(dá)和AMD的GPU產(chǎn)品在中國的銷售,中國AI計算、超級計算和云計算產(chǎn)業(yè)進步受到一定的阻礙??墒褂糜ミ_(dá)和AMD還沒有被禁止的及國產(chǎn)廠商的中高計算性能CPU、GPU、ASIC芯片等替代。長期來看,國產(chǎn)CPU、GPU、AI芯片廠商受益于龐大的國內(nèi)市場,疊加國內(nèi)信創(chuàng)市場帶來國產(chǎn)化需求增量,我們預(yù)期國內(nèi)AI芯片的國產(chǎn)化比例將顯著提升,借此機會進行產(chǎn)品升級,逐漸達(dá)到國際先進水平,突破封鎖。對于國內(nèi)廠商,建議重點關(guān)注實現(xiàn)自主創(chuàng)新,打造自主生態(tài)體系,打磨產(chǎn)品實現(xiàn)穩(wěn)定供貨的公司。重點關(guān)注能夠?qū)崿F(xiàn)GPU領(lǐng)域的自主創(chuàng)新,實現(xiàn)架構(gòu)、計算核、指令集及基礎(chǔ)軟件棧的全自研的設(shè)計公司。同時,不止成功點亮,要能滿足測試、客戶適配、穩(wěn)定供貨等一系列要求,成功量產(chǎn)并實現(xiàn)規(guī)模應(yīng)用,實現(xiàn)GPGPU的國產(chǎn)替代。建議關(guān)注:國內(nèi)企業(yè):1)芯片:龍芯中科(國內(nèi)PC

CPU龍頭,自主研發(fā)GPGPU產(chǎn)品)、海光信息(國內(nèi)服務(wù)器CPU龍頭,推出深度計算處理器DCU)、景嘉微(國內(nèi)圖形渲染GPU龍頭)、寒武紀(jì)(國內(nèi)ASIC芯片龍頭)、瀾起科技(國內(nèi)服務(wù)器內(nèi)存接口芯片龍頭);2)PCB:勝宏科技、興森科技、滬電股份;3)先進封裝:通富微電、甬矽電子、長電科技、長川科技等。海外企業(yè):英偉達(dá)(全球GPU龍頭)、AMD(全球CPU/GPU領(lǐng)先廠商)、英特爾(全球CPU龍頭)、美光(全球存儲芯片龍頭)。風(fēng)險因素:用戶拓展不及預(yù)期風(fēng)險,AI技術(shù)及新產(chǎn)品開發(fā)發(fā)展不及預(yù)期風(fēng)險,外部制裁加劇風(fēng)險,宏觀經(jīng)濟需求下行風(fēng)險。3ChatGPT相關(guān)上市公司及近期漲跌幅(截至2023年2月14日)相關(guān)上市公司分類公司名代碼市值(億元人民幣)ChatGPT

2022年11月30日上線至今漲跌幅2023年初至今漲跌幅CPU龍芯中科688047.SH488.7849%43%海光信息688041.SH1,235.8528%33%中科曙光603019.SH425.8824%31%英特爾INTC.O8,049.41-4%9%AMDAMD.O9,134.637%28%GPU景嘉微300474.SZ381.5145%54%英偉達(dá)NVDA.O36,527.9029%49%AI芯片寒武紀(jì)-U688256.SH342.6235%57%瀾起科技688008.SH713.46-7%0%MobileyeMBLY.O2,343.4450%22%FPGA紫光國微002049.SZ1,032.70-8%-8%復(fù)旦微電688385.SH443.24-9%-1%安路科技-U688107.SH283.4313%10%DPU左江科技300799.SZ136.254%2%IP芯原股份-U688521.SH308.6630%41%AI

SoC瑞芯微603893.SH368.6214%28%晶晨股份688099.SH348.4112%20%富瀚微300613.SZ152.0618%32%PCB興森科技002436.SZ205.111%25%勝宏科技300476.SZ155.6328%39%生益電子688183.SH94.0011%21%滬電股份002463.SZ294.9323%31%先進封裝長電科技600584.SH513.5815%25%通富微電002156.SZ334.5828%34%甬矽電子688362.SH112.76-1%27%華峰測控688200.SH276.3223%10%長川科技300604.SZ289.65-17%8%存儲美光MU.O4,470.815%20%WindCONTENTS目錄4ChatGPT是什么——OpenAI開發(fā)的聊天機器人,擁有創(chuàng)造能力GPGPU是什么GPGPU的壁壘是什么GPGPU主要應(yīng)用場景國內(nèi)GPGPU發(fā)展水平5不同于分析式AI只能做些分析型或機械式的認(rèn)知計算,生成式AI可以創(chuàng)造有意義并具備美感的東西,而且在某些情況下,其生成的結(jié)果可能比人類手工創(chuàng)造的還要好。機器可以分析數(shù)據(jù),并針對不同用例需求找到相應(yīng)的規(guī)律,且在不斷迭代,變得越來越聰明,這種機器被稱為“分析式人工智能”(Analytical

AI),或者傳統(tǒng)AI。機器并非如之前那樣僅分析已有的數(shù)據(jù),而是創(chuàng)造了全新的東西,這一新型的AI被稱為“生成式人工智能”(Generative

AI)。2017年谷歌推出一種用于自然語言理解的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)——Transformers模型,不但能生成質(zhì)量上乘的語言模型,同時具有更高的可并行性,大大降低了所需的訓(xùn)練時間。這些小樣本學(xué)習(xí)模型,可以更容易地針對特定領(lǐng)域做定制修改。2015-2020年,用于訓(xùn)練這些模型的計算量增加了6個數(shù)量級,其表現(xiàn)在手寫、語音和圖像識別、閱讀理解和語言理解方面超過了人類的基準(zhǔn)水平。《機器學(xué)習(xí)三個時代的計算趨勢》——Sevilla等人,arXiv,2022,《生成式AI:充滿創(chuàng)造力的新世界》——紅杉匯內(nèi)參微信公眾號《生成式AI:充滿創(chuàng)造力的新世界》——紅杉匯內(nèi)參微信公眾號隨著AI模型逐漸發(fā)展壯大,已經(jīng)開始超越人類的基準(zhǔn)水平生成式AI的應(yīng)用格局1.1

生成式AI:實現(xiàn)創(chuàng)造,部分領(lǐng)域的能力超越人類的基準(zhǔn)水平6預(yù)訓(xùn)練模型使得模型的訓(xùn)練可以被復(fù)用,大幅降低訓(xùn)練成本,但是前期需要大量的數(shù)據(jù)進行預(yù)訓(xùn)練。預(yù)訓(xùn)練模型是一種遷移學(xué)習(xí)的應(yīng)用,對句子每一個成員的上下文進行相關(guān)的表示,通過隱式的方式完成了語法語義知識的學(xué)習(xí)。預(yù)訓(xùn)練模型通過微調(diào)的方式具備很強的擴展性,每次擴展到新場景時,只需要針對這個場景的特定標(biāo)注數(shù)據(jù)進行定向的學(xué)習(xí),便可以快速應(yīng)用。2018年以來,國內(nèi)外超大規(guī)模預(yù)訓(xùn)練模型參數(shù)指標(biāo)不斷創(chuàng)出新高,“大模型”已成為行業(yè)巨頭發(fā)力的一個方向。谷歌、百度、微軟等國內(nèi)外科技巨頭紛紛投入大量人力、財力,相繼推出各自的巨量模型。國外廠商自2021年開始進入“軍備競賽”階段。2018年,谷歌提出3億參數(shù)BERT模型,大規(guī)模預(yù)訓(xùn)練模型開始逐漸走進人們的視野,成為人工智能領(lǐng)域的一大焦點。2019年,OpenAI推出15億參數(shù)的GPT-2,能夠生成連貫的文本段落,做到初步的閱讀理解、機器翻譯等。緊接著,英偉達(dá)推出83億參數(shù)的Megatron-LM,谷歌推出110億參數(shù)的T5,微軟推出170億參數(shù)的圖靈Turing-NLG。2020年,OpenAI以1750億參數(shù)的GPT-3,直接將參數(shù)規(guī)模提高到千億級別。2021

1

月,谷歌推出的Switch

Transformer模型以高達(dá)1.6

萬億的參數(shù)量打破了GPT-3作為最大AI模型的統(tǒng)治地位,成為史上首個萬億級語言模型。

2020年10月,微軟和英偉達(dá)聯(lián)手發(fā)布了5300億參數(shù)的Megatron-Turing自然語言生成模型(MT-NLG)。2021年12月,谷歌還提出了1.2萬億參數(shù)的通用稀疏語言模型GLaM,在7項小樣本學(xué)習(xí)領(lǐng)域的性能超過GPT-3。Xavier

Amatriain

,陳巍談芯@知乎《Large

Language

Models:A

New

Moore's

Law?》——Julien

Simon@Hugging

Face2018年以來LLM算法(大規(guī)模語言算法)成長的時間線近年來超大規(guī)模預(yù)訓(xùn)練模型參數(shù)增長趨勢1.2

預(yù)訓(xùn)練模型:大模型提高準(zhǔn)確率,2018年開始步入快車道7ChatGPT(Chat

Generative

Pre-trained

Transformer,聊天生成式預(yù)訓(xùn)練器)是OpenAI開發(fā)的聊天機器人,于2022年11月推出。它建立在OpenAI開發(fā)的GPT-3大型語言模型之上,并使用監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)(人類監(jiān)督)技術(shù)進行了微調(diào)。雖然聊天機器人的核心功能是模仿人類談話者,但ChatGPT是多功能的。例如,它可以編寫和調(diào)試計算機程序,創(chuàng)作音樂、電視劇、童話故事和學(xué)生論文;回答測試問題(有時根據(jù)測試的不同,答題水平要高于平均水平);寫詩和歌詞;模擬Linux系統(tǒng);模擬整個聊天室等。ChatGPT背后的公司為OpenAI,成立于2015年,由特斯拉CEO埃隆·馬斯克、PayPal聯(lián)合創(chuàng)始人彼得·蒂爾、Linkedin創(chuàng)始人里德·霍夫曼、創(chuàng)業(yè)孵化器Y

Combinator總裁阿爾特曼(Sam

Altman)等人出資10億美元創(chuàng)立。OpenAI的誕生旨在開發(fā)通用人工智能(AGI)并造福人類。ChatGPT中的GPT(Generative

Pre-trained

Transformer),是OpenAI推出的深度學(xué)習(xí)模型。ChatGPT就是基于GPT-3.5版本的聊天機器人。截至2022年12月4日,OpenAI估計ChatGPT用戶已經(jīng)超過100萬;2023年1月,ChatGPT用戶超過1億,成為迄今增長最快的消費應(yīng)用程序。2023年2月,OpenAI開始接受美國客戶注冊一項名為ChatGPT

Plus的高級服務(wù),每月收費20美元;此外,OpenAI正計劃推出一個每月42美元的ChatGPT專業(yè)計劃,當(dāng)需求較低時可以免費使用?!禩he

GPT-3

language

model,

revolution

or

evolution?》——Hello

Future《6個問題,用專業(yè)視角帶你全方位了解ChatGPT》——甲子光年微信公眾號GPT系列模型的數(shù)據(jù)集訓(xùn)練規(guī)模ChatGPT與GPT

1-3的技術(shù)對比1.3ChatGPT:基于OpenAI推出的深度學(xué)習(xí)模型GPT打造,成為迄今增長最快的消費應(yīng)用程序OpenAI預(yù)計人工智能科學(xué)研究要想取得突破,所需要消耗的計算資源每3~4個月就要翻一倍,資金也需要通過指數(shù)級增長獲得匹配。在算力方面,GPT-3.5在微軟Azure

AI超算基礎(chǔ)設(shè)施(由V100GPU組成的高帶寬集群)上進行訓(xùn)練,總算力消耗約

3640PF-days(即每秒一千萬億次計算,運行3640天)。在大數(shù)據(jù)方面,GPT-2用于訓(xùn)練的數(shù)據(jù)取自于Reddit上高贊的文章,數(shù)據(jù)集共有約800萬篇文章,累計體積約40G;GPT-3模型的神經(jīng)網(wǎng)絡(luò)是在超過45TB的文本上進行訓(xùn)練的,數(shù)據(jù)相當(dāng)于整個維基百科英文版的160倍。按照量子位給出的數(shù)據(jù),將一個大型語言模型(LLM)訓(xùn)練到GPT-3級的成本高達(dá)460萬美元。最新的GPT3.5在訓(xùn)練中使用了微軟專門建設(shè)的AI計算系統(tǒng),由1萬個英偉達(dá)V100

GPU組成的高性能網(wǎng)絡(luò)集群,總算力消耗約3640PF-days(PD),即假如每秒計算一千萬億(1020)次,需要計算3640天。采購一片英偉達(dá)頂級GPU成本為8萬元,GPU服務(wù)器成本通常超過40萬元。對于ChatGPT而言,支撐其算力基礎(chǔ)設(shè)施至少需要上萬顆英偉達(dá)GPU

A100,一次模型訓(xùn)練成本超過1200萬美元。資料來源:做AI做的事兒微信公眾號,

《6個問題,用專業(yè)視角帶你全方位了解ChatGPT》——甲子光年微信公眾號《AI算力的阿喀琉斯之踵:內(nèi)存墻》——Amir

Gholami@OneFlow社區(qū)

注:藍(lán)線上的是

CV,NLP和語音模型,模型運算量平均每兩年翻

15

倍,紅線上的是

Transformer

的模型,模型運算量平均

8每兩年翻

750

倍。而灰線則標(biāo)志摩爾定律下內(nèi)存硬件大小的增長,平均每兩年翻

2

倍。預(yù)訓(xùn)練模型參數(shù)及所需要的算力情況目前

SOTA

模型訓(xùn)練的浮點數(shù)運算量(以FLOPs為衡量單位)1.4

算力需求:計算資源每3~4個月翻一倍,投入資金指數(shù)級增長根據(jù)《財富》雜志報道的數(shù)據(jù),2022年OpenAI的收入為3000萬美元,但凈虧損預(yù)計為5.445億美元。公司預(yù)測其2023年收入2億美元,2024年收入預(yù)計超過10億美元。投入上:公司CEO阿爾特曼在推特上回答馬斯克的問題時表示,在用戶與ChatGPT的每次交互中,OpenAI花費的計算成本為“個位數(shù)美分”,隨著ChatGPT變得流行,每月的計算成本可能達(dá)到數(shù)百萬美元。創(chuàng)造價值上:ARK認(rèn)為,AI工具的發(fā)展將不斷提高生產(chǎn)力,到2030年,人工智能或?qū)⒅R工作者的生產(chǎn)力提高4倍以上,將軟件工程師的效率提高10倍以上,創(chuàng)造約200萬億美元的價值。大模型高昂的訓(xùn)練成本讓普通創(chuàng)業(yè)公司難以為繼,因此參與者基本都是科技巨頭。在國內(nèi)科技公司中,阿里巴巴達(dá)摩院在2020年推出了M6大模型,百度在2021年推出了文心大模型,騰訊在2022年推出了混元AI大模型。這些模型不僅在參數(shù)量上達(dá)到了千億級別,

而且數(shù)據(jù)集規(guī)模也高達(dá)TB

級別,

想要完成這些大模型的訓(xùn)練,

就至少需要投入超過1000PetaFlop/s-day的計算資源。Xavier

Amatriain

,陳巍談芯@知乎《6個問題,用專業(yè)視角帶你全方位了解ChatGPT》——甲子光年微信公眾號

注:1、清華大學(xué)和阿里達(dá)摩院等合作提出;2、上海人工智能實驗室聯(lián)合商湯科技、香港中文大學(xué)、上海交通大學(xué)

9發(fā)布;3、Pflops-day

為算力單位,意為一天可以進行約

1020運算。大模型計算布局呈爆發(fā)增長態(tài)勢目前全球大模型計算布局情況1.5

產(chǎn)業(yè)競爭:訓(xùn)練成本逐漸降低,國內(nèi)外科技巨頭加速布局101.6

ChatGPT帶來的算力/GPU需求——測算原理、預(yù)訓(xùn)練需求分析算力消耗測算原理模型訓(xùn)練總計算量(PF·日訓(xùn)練總計算量(flops)模型參數(shù)量(百萬)訓(xùn)練詞數(shù)(十億)單個詞語消耗的總計算次數(shù)計算反向傳播后的算力消耗倍數(shù)正向計算時每個詞消耗浮點計算次數(shù)核心原理:每個訓(xùn)練詞都會導(dǎo)致模型所有參數(shù)的更新,且每個訓(xùn)練詞都需要消耗固定的浮點算力。因此:總算力需求=模型參數(shù)量*訓(xùn)練詞數(shù)*每個詞的運算量測算過程:表格從右向左計算最基礎(chǔ)的“原子”運算:1個詞更新1個參數(shù),需要計算1次乘法和1次加法,共2次浮點運算。如果是訓(xùn)練,則需要反向傳播算法,反向傳播需要的運算次數(shù)是正向傳播2倍,故訓(xùn)練時每個詞的運算量是推理情況的3倍,需要消耗6次浮點運算。(2次運算*算力消耗倍數(shù)3)按照核心公式求解,GPT-3的總算力消耗為1.746E+11*3E+11*6=3.14E+23

FLOPS進行單位換算,

3.14E+23FLOPS

=3640

PF·日BERT-Base1.891.64E+20109250632BERT-Large6.165.33E+20355250632RoBERTa-Base17.361.50E+211252,000632RoBERTa-Large49.314.26E+213552,000632GPT-3Small2.602.25E+20125300632GPT-3Medium7.426.41E+20356300632GPT-3Large15.831.37E+21760300632GPT-3XL27.502.38E+211,320300632GPT-32.7B55.214.77E+212,650300632GPT-36.7B138.751.20E+226,660300632GPT-313B267.712.31E+2212,850300632GPT-3175B3637.503.14E+23174,600300632OpenAI:-:附錄D,中信證券研究部,注:為簡單起見,本測算方法忽略了Attention計算的算力消耗,該部分占總算力消耗的10%以下預(yù)訓(xùn)練算力消耗及GPU需求測算假設(shè)1:ChatGPT使用的數(shù)據(jù)集與GPT-3

175B模型相同假設(shè)2:ChatGPT使用FP32數(shù)據(jù)格式完成訓(xùn)練總計算量 GPU數(shù)量 GPU算力計算用時總計算量GPU數(shù)量GPU算力計算用時3.14E+23FLOPS19.5

TFLOPS/s(A100

FP32)1天/1個月/2個月/3個月186538/7723/3861/2574測算數(shù)據(jù)來源:總計算量來自上表OpenAI論文GPU算力來自NVIDIA官網(wǎng)計算用時取決于語言模型開發(fā)者試圖在多長時間內(nèi)完成訓(xùn)練左側(cè)求得GPU數(shù)量與右側(cè)計算用時一一對應(yīng),例如一個月完成訓(xùn)練需要7723張A100

GPUOpenAI:-,NVIDIA官網(wǎng),中信證券研究部3000億訓(xùn)練詞如何構(gòu)成數(shù)據(jù)集詞數(shù)(十億)訓(xùn)練輪數(shù)權(quán)重占比網(wǎng)頁爬蟲4100.4460WebText2192.922Books1121.98Books2550.438維基百科33.43不同數(shù)據(jù)集的數(shù)據(jù)質(zhì)量和重要度不一致,因此重要度和質(zhì)量更高的數(shù)據(jù)集會進行更多輪次的訓(xùn)練,從而提升其權(quán)重占比。將每個數(shù)據(jù)集的詞數(shù)乘以訓(xùn)練輪數(shù),加在一起即得到3000億詞的訓(xùn)練數(shù)據(jù)。111.7

ChatGPT帶來的算力需求——日常交互、日常訓(xùn)練需求分析階段1:ChatGPT+bing日常算力需求參數(shù)量總計算量詞數(shù)單個詞語計算次數(shù)1.05E+10T 1.75B 300億 2(推理)交互計算量 參數(shù)量 詞數(shù) 單個詞計算量參數(shù)量總計算量詞數(shù)單個詞語計算次數(shù)3.14E+8T 1.75B 9.06億 6(訓(xùn)練)訓(xùn)練計算量 參數(shù)量 詞數(shù) 單個詞計算量參數(shù)量總計算量詞數(shù)單個詞語計算參數(shù)量總計算量詞數(shù)單個詞語計算次數(shù)6(訓(xùn)練)訓(xùn)練計算量 參數(shù)量 詞數(shù)1.57E+10T 1.75B 150億階段2:LLM+Google日常算力需求交互計算量5.24E+11T參數(shù)量1.75B詞數(shù)15000億單個詞計算量次數(shù)2(推理)單個詞計算量核心假設(shè)2-算力需求分配:訓(xùn)練采用的數(shù)據(jù)占當(dāng)日新生成數(shù)據(jù)的1。假設(shè)依據(jù):根據(jù)OpenAI論文LanguageModelsareFew-ShotLearners,GPT-3采用的數(shù)據(jù)集清洗前大小45TB,清洗后大小570GB,清洗前后存在2個數(shù)量級的差距,因此可以認(rèn)為每天新生成的數(shù)據(jù)有1用于訓(xùn)練。階段1假設(shè):每日用戶訪問量1億(根據(jù)SimilarWeb統(tǒng)計,2023年1月ChatGPT注冊用戶1億,單月訪問量6.16億,月底日訪問2800萬次;bing日訪問約4000萬次,二者結(jié)合后短期有望迅速增長))核心假設(shè)1-算力需求影響因素:模型參數(shù)量(175B和單個詞計算量(訓(xùn)練6次,推理2次)不變,算力需求變化主要取決于詞數(shù)變化。詞數(shù)

=

用戶訪問詞數(shù)

*每次訪問的提問數(shù)量(默認(rèn)10)

*

每個回答包含的詞數(shù)(默認(rèn)50),詞數(shù)與用戶訪問數(shù)成正比。階段2假設(shè):Bing有望逐漸占據(jù)更多市場份額,市場空間參考谷歌,根據(jù)SimilarWeb,谷歌月訪問量約900億次,每日用戶訪問30億次。測算核心假設(shè)SimilarWeb,OpenAI:-0.15272666160100200300400500600700Nov-22Dec-22Jan-23ChatGPT月度訪問量(百萬次)Google/Bing/百度月度訪問量(億次)SimilarWebSimilarWeb85188312121150494910009008007006005004003002001000Nov-22Dec-22Jan-23Google Bing 百度864CONTENTS目錄12ChatGPT是什么GPGPU是什么——通用計算GPU,算力強大,應(yīng)用于加速計算場景GPGPU的壁壘是什么GPGPU主要應(yīng)用場景國內(nèi)GPGPU水平13GPU(Graphics

Processing

Unit,圖形處理器):是一種專門在個人電腦、工作站、游戲機和一些移動設(shè)備(如平板電腦、智能手機等)上做圖像加速和通用計算工作的微處理器。GPU是英偉達(dá)公司在1999年8月發(fā)表NVIDIA

GeForce

256(GeForce

256)繪圖處理芯片時首先提出的概念。GPU應(yīng)用場景圖形加速:此時GPU

內(nèi)部的頂點渲染、像素渲染以及幾何渲染操作都可以通過流處理器完成。通用計算:計算通常采用CPU+GPU異構(gòu)模式,由CPU負(fù)責(zé)執(zhí)行復(fù)雜邏輯處理和事務(wù)處理等不適合數(shù)據(jù)并行的計算,由GPU負(fù)責(zé)計算密集型的大規(guī)模數(shù)據(jù)并行計算。GPU

CPU

對比CPU

的邏輯運算單元較少,控制器(Control)和緩存(Cache)占比較大;GPU

的邏輯運算單元小而多,控制器功能簡單,緩存也較少。GPU

單個運算單元(ALU)處理能力弱于

CPU,但是數(shù)量眾多的ALU可以同時工作,當(dāng)面對高強度并行計算時,其性能要優(yōu)于

CPU。GPU可以利用多個ALU來做并行計算,而CPU只能按照順序進行串行計算,同樣運行3000次的簡單運算,CPU需要3000個時鐘周期,而配有3000個ALU的GPU運行只需要1個時鐘周期。資料來源:中信證券研究部《CUDA

編程手冊系列第一章:CUDA

簡介》——英偉達(dá)技術(shù)博客GPU的主要分類CPU與

GPU的芯片資源分布示例2.1

GPU是什么?類型 應(yīng)用場景 特點 代表產(chǎn)品獨立GPU封裝在獨立的電路板,專用的顯存(顯示儲存器)性能高,功耗大NVIDIA

Geforce系列AMDRadeon系列集成GPU內(nèi)嵌到主板上,共享系統(tǒng)內(nèi)存性能中等,功耗中等Intel

HD系列AMD

APU系列蘋果M芯片GPU移動端GPU嵌在

SoC(SystemOn

Chip)中,共享系統(tǒng)內(nèi)存性能低,功耗低Imagination

PowerVR系列高通Adreon系列AMD

Mali系列蘋果A芯片GPU14GPGPU(general-purpose

GPU,通用計算圖形處理器),利用圖形處理器進行非圖形渲染的高性能計算。為了進一步專注通用計算,GPGPU去掉或減弱GPU的圖形顯示部分能力,將其余部分全部投入通用計算,實現(xiàn)處理人工智能、專業(yè)計算等加速應(yīng)用。2007年6月,NVIDIA推出了CUDA(Computer

Unified

Device

Architecture計算統(tǒng)一設(shè)備結(jié)構(gòu))。CUDA是一種將GPU作為數(shù)據(jù)并行計算設(shè)備的軟硬件體系。在CUDA

的架構(gòu)中,不再像過去GPU架構(gòu)那樣將通用計算映射到圖形API中,對于開發(fā)者來說,CUDA

的開發(fā)門檻大大降低了。CUDA

的編程語言基于標(biāo)準(zhǔn)C,因此任何有C

語言基礎(chǔ)的用戶都很容易地開發(fā)CUDA

的應(yīng)用程序。由于這些特性,CUDA在推出后迅速發(fā)展,被廣泛應(yīng)用于石油勘測、天文計算、流體力學(xué)模擬、分子動力學(xué)仿真、生物計算、圖像處理、音視頻編解碼等領(lǐng)域。GPU并不是一個獨立運行的計算平臺,而是需要與CPU協(xié)同工作,可以看成是CPU的協(xié)處理器。GPU與CPU通過PCIe總線連接在一起來協(xié)同工作,因此GPU并行計算實際上指的是基于CPU+GPU的異構(gòu)計算架構(gòu)?!禛PU與GPGPU泛淡》

—夕陽嘆@CSDNPreofessionalCUDA?C

ProgrammingGPGPU的架構(gòu)與生態(tài)基于CPU+GPU的異構(gòu)計算應(yīng)用執(zhí)行邏輯2.2

從GPU到GPGPU的跨越,英偉達(dá)CUDA降低開發(fā)門檻15根據(jù)Verified

Market

Research數(shù)據(jù),2020年,全球GPU市場規(guī)模為254.1億美元(約1717.2億人民幣)。隨著需求的不斷增長,預(yù)計到2028年,這一數(shù)據(jù)將達(dá)到2465.1億美元(約1.67萬億人民幣),年復(fù)合增長率為32.82%。市場研究機構(gòu)JonPeddie

Research的最新數(shù)據(jù)顯示,2022年二季度,全球獨立GPU市場出貨量同比增長

2.4%

1040萬臺,但是較一季度環(huán)比則下滑了22.6%。從市場份額來看,英偉達(dá)的獨立GPU的市場份額從22Q1的75%增加到22Q2的79.6%,保持了與去年同期相當(dāng)?shù)姆蓊~。AMD和Intel則分別占比20%/1%。據(jù)VerifiedMarket

Research數(shù)據(jù),2020年中國大陸的獨立GPU市場規(guī)模為47.39億美元,預(yù)計2027年將超過345.57億美元。VerifiedMarket

ResearchJonPeddie

ResearchGPU全球市場規(guī)模(億美元)全球獨顯GPU市場各廠商份額占比2.3

2020年GPU全球市場254億美元,獨顯市場英偉達(dá)份額約80%20001800160014001200100080060040020002020 2021E2022E2023E2024E2025E2026E2027E81%80%83%81%75%79%19%20%17%19%24%1%20%1%100%90%80%70%60%50%40%30%20%10%0%21Q121Q221Q321Q422Q122Q2NVIDIA INTEL AMD16伴隨著人工智能應(yīng)用場景的多元化,新算法、新模型不斷涌現(xiàn),模型中的參數(shù)數(shù)量呈指數(shù)級增長,對算力的需求越來越大。OpenAI預(yù)估算力需求每3.5個月翻一倍,每年近10倍。根據(jù)WSTS數(shù)據(jù),2020年全球人工智能芯片市場規(guī)模約為175億美元。隨著人工智能技術(shù)日趨成熟,數(shù)字化基礎(chǔ)設(shè)施不斷完善,人工智能商業(yè)化應(yīng)用將加落地,推動AI芯片市場高速增長,預(yù)計2025年全球人工智能芯片市場規(guī)模將達(dá)到726億美元。未來,隨著自動駕駛級別的不斷提高,對于AI芯片的需求正不斷增長。L2和L3+級汽車都會用AI芯片來取代分立的MCU芯片進行自動駕駛相關(guān)的計算工作。WSTS預(yù)計AI芯片的數(shù)量將從2020年的899萬套增長至2025年的2380萬套。據(jù)IDC數(shù)據(jù),2021年,中國加速卡出貨量超過80萬片,其中英偉達(dá)占據(jù)超過80%市場份額,此外其他市場參與者還包括AMD、百度、寒武紀(jì)、燧原科技、新華三、華為、Intel和賽靈思等。2020年的采購主要集中在搭載V100、V100S、A100和T4的加速服務(wù)器上,此外英偉達(dá)的A10、A30、A40和Atlas系列加速卡在部分領(lǐng)域已經(jīng)開始使用。WSTSWSTS全球AI芯片(GPU、FPGA、ASIC等)的市場規(guī)模全球AI芯片銷售數(shù)量及預(yù)測(萬套)2.3

2020年全球AI芯片市場規(guī)模約為175億美元,英偉達(dá)份額超80%11017526039551063072659.1%48.6%51.9%29.1%23.5%15.2%0%10%20%30%40%50%60%70%01002003004005006007008002019202020212022E2023E2024E2025E全球AI芯片市場規(guī)模(億美元) YoY8991212143316401888238034.8%18.2%14.4%15.1%26.1%0%5%10%35%30%25%20%15%40%05001000150020002500202020212022E2023E2024E2025E全球AI芯片銷售數(shù)量(萬套) YoY17據(jù)IDC數(shù)據(jù),2021年,全球AI服務(wù)器市場規(guī)模達(dá)156億美元,同比增長39.1%;IDC預(yù)測,2025年全球AI服務(wù)器市場規(guī)模將達(dá)317.9億美元,年復(fù)合增長率為19%。IDC報告顯示,2021年中國加速服務(wù)器市場規(guī)模達(dá)到53.9億美元(約350.3億人民幣),同比+68.6%;預(yù)計到2026年將達(dá)到103.4億美元。年復(fù)合增長率為19%,占全球整體服務(wù)器市場近三成。根據(jù)IDC數(shù)據(jù),2021年,GPU服務(wù)器以91.9%的份額占國內(nèi)加速服務(wù)器市場的主導(dǎo)地位;NPU、ASIC和FPGA等非GPU加速服務(wù)器占比8.1%。IDC預(yù)計2024年中國GPU服務(wù)器市場規(guī)模將達(dá)到64億美元。從行業(yè)的角度看,互聯(lián)網(wǎng)依然是最大的采購行業(yè),占整體加速服務(wù)器市場近60%的份額;2021年,用于推理工作負(fù)載的加速服務(wù)器占比已經(jīng)達(dá)到57.6%,預(yù)計到2026年將超過60%。IDC

注:這里統(tǒng)計的AI服務(wù)器包括高性能計算IDC2021年中國AI服務(wù)器芯片占比情況2.3

中國市場,GPU服務(wù)器在AI服務(wù)器中占比92%,占主導(dǎo)地位020212025E全球及中國AI服務(wù)器市場規(guī)模中國市場規(guī)模(億美元) 全球市場規(guī)模(億美元)350300250CAGR=19%200150CAGR=19%1005091.9%6.3%GPU NPU ASIC FPGA1.5%0.3%18市場研究機構(gòu)Verified

Market

Research預(yù)測,到2025年,中國GPGPU芯片板卡的市場規(guī)模將達(dá)到458億元,是2019年86億元的5倍多,2019-2025年的年復(fù)合增長率為32%。其中,按行業(yè)來分,到2025年,預(yù)計互聯(lián)網(wǎng)及云數(shù)據(jù)中心需求為228億元,安防與政府?dāng)?shù)據(jù)中心為142億元,行業(yè)AI應(yīng)用為37億元,高性能計算為28億元。按應(yīng)用場景來分,到2025年,預(yù)計人工智能推理/人工智能訓(xùn)練/高性能計算需求分別為286/144/28億元,占比分別為62.4%/31.4%/6.1%。我們預(yù)計2021年中國GPGPU市場規(guī)模為149.8億元,其中人工智能推理/人工智能訓(xùn)練/高性能計算分別為93.5/47.1/9.1億元。IDC預(yù)測(2022-2026年均為預(yù)測)VerifiedMarket

Research2022~2026年中國加速計算服務(wù)器市場預(yù)測(單位:百萬美元)GPGPU市場按應(yīng)用場景拆分2.3

預(yù)計2021年中國GPGPU市場規(guī)模為149.8億元,其中AI推理/AI訓(xùn)練/高性能計算分別為93.5/47.1/9.1億元。人工智能推理63%人工智能訓(xùn)練31%高性能計算6%19GPGPU是一個門檻極高的領(lǐng)域,全球市場基本上被英偉達(dá)和AMD兩家國際龍頭掌控。根據(jù)

Ark

Invest

的數(shù)據(jù),2021

年,英偉達(dá)占據(jù)了全球數(shù)據(jù)加速器市場

90%

的份額。根據(jù)IDC數(shù)據(jù),2020年的GPGPU采購主要集中在搭載V100、V100S、A100和T4的加速服務(wù)器上,此外Nvidia的

A10、A30、A40和Atlas系列加速卡在部分領(lǐng)域已經(jīng)開始使用。2021年,中國加速卡出貨量超過80萬片,其中英偉達(dá)占據(jù)超過80%市場份額。根據(jù)天數(shù)智芯數(shù)據(jù),英偉達(dá)在2021年的中國的云端AI訓(xùn)練芯片市場份額達(dá)到90%。其中,某一款產(chǎn)品占整個市場的50%,另一款產(chǎn)品占25%。資料來源:智東西資料來源:英偉達(dá)官網(wǎng),中信證券研究部英偉達(dá)歷代GPGPU產(chǎn)品的詳細(xì)信息英偉達(dá)歷代GPGPU產(chǎn)品的FP32算力水平2.4

GPGPU市場英偉達(dá)一家獨大,全球市場份額約90%7000060000500004000030000200001000002010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023FP32算力

(GFLOPS)CONTENTS目錄20ChatGPT是什么GPGPU是什么GPGPU的壁壘是什么——高精度浮點計算+CUDA生態(tài)GPGPU主要應(yīng)用場景國內(nèi)GPGPU水平21CPU是串行處理器,而GPU是并行處理器。在機器學(xué)習(xí)中,絕大多數(shù)任務(wù)會涉及到耗費時間的大量運算,而且隨著數(shù)據(jù)集的增加,運算量會越來越大。解決這個問題的一個方法就是使用多線程并行計算。CUDA

核能夠以相對稍慢的速度運行,但是能夠通過使用大量運算邏輯單元(ALU)來提供很大的并行度。每個

GPU

核都能運行一個獨立的線程,對于矩陣相乘運算來說大大縮短了計算時間。對于每個小片的結(jié)果可以由一組線程負(fù)責(zé),其中每個線程對應(yīng)小片中的一個元素。這個線程組將

A

的行小片和

B

的列小片一一載入共享內(nèi)存,在共享內(nèi)存上對其做矩陣相乘,然后疊加在原有結(jié)果上。所以對于

2000×2000

的矩陣乘法,只需要

2000

次并行運行。但是對于CPU來說,因為是串行計算的,所以需要4000000次運行。Matthes,Alexander&Widera,Rene&Zenker,Erik&Worpitz,Benjamin&Huebl,Axel&Bussmann,Michael.(2017).Tuningandoptimizationforavarietyofmany-corearchitectureswithoutchangingasinglelineofimplementationcodeusingtheAlpaka

library.《CUDA

輕松入門編程(一):CUDA

C

編程及GPU

基本知識》——科技猛獸@極市網(wǎng)站矩陣相乘分片算法示意圖CUDA線程模型3.1

壁壘一——高精度浮點計算訓(xùn)練需要密集的計算得到模型,沒有訓(xùn)練,就不可能會有推理。訓(xùn)練是指通過大數(shù)據(jù)訓(xùn)練出一個復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,通過大量標(biāo)記過的數(shù)據(jù)來訓(xùn)練相應(yīng)的系統(tǒng)得到模型,使其能夠適應(yīng)特定的功能。訓(xùn)練需要較高的計算性能、能夠處理海量的數(shù)據(jù)、具有一定的通用性,以便完成各種各樣的學(xué)習(xí)任務(wù)(大數(shù)據(jù)分析淘寶推薦“你可能感興趣的產(chǎn)品”模型)。推理是指利用訓(xùn)練好的模型,使用新數(shù)據(jù)推理出各種結(jié)論。借助神經(jīng)網(wǎng)絡(luò)模型進行運算,利用輸入的新數(shù)據(jù)來一次性獲得正確結(jié)論的過程。這也有叫做預(yù)測或推斷(用戶打開手機被推送“可能感興趣的產(chǎn)品”)。訓(xùn)練需要較高的精度,推理的精度要求較低訓(xùn)練的時候因為要保證前后向傳播,每次梯度的更新是很微小的,這個時候需要相對較高的精度,一般來說需要float型,如FP32,32位的浮點型來處理數(shù)據(jù)。推理對精度的要求沒有那么高,可以用低精度,如FP16,也可以用8位的整型(INT8)來做推理,研究結(jié)果表明沒有特別大的精度損失,但是需要綜合考慮功耗、速度等其它問題?!禢VIDIA

DEEP

LEARNING

INSTITUTE

》——英偉達(dá)AI

Conference《Lower

Numerical

Precision

DeepLearning

Inference

andTraining》——Intel

注:FP32和22BF16提供了相同的動態(tài)范圍,F(xiàn)P32由于更大的尾數(shù)提供了更高的精度。推理是將深度學(xué)習(xí)訓(xùn)練成果投入使用的過程常見的32/16/8位數(shù)字格式對比3.1

人工智能的實現(xiàn)包括兩個環(huán)節(jié):推理(Inference)和訓(xùn)練(Training)訓(xùn)練推理浮點計數(shù)是利用浮動小數(shù)點的方式使用不同長度的二進制來表示一個數(shù)字,同樣的長度下浮點較整形能表達(dá)的數(shù)字范圍相比定點數(shù)更大,結(jié)果也更精確FP64雙精度計算:雙精度浮點數(shù)采用8個字節(jié)也就是64位二進制來表達(dá)一個數(shù)字,1位符號,11位指數(shù),52位小數(shù),有效位數(shù)為16位。FP32單精度計算:單精度的浮點數(shù)中采用4個字節(jié)也就是32位二進制來表達(dá)一個數(shù)字,1位符號,8位指數(shù),23位小數(shù),有效位數(shù)為7位。FP16半精度計算:半精度浮點數(shù)采用2個字節(jié)也就是16位二進制來表達(dá)一個數(shù)字,

1位符號、5位指數(shù)、10位小數(shù),有效位數(shù)為3位。因為采用不同位數(shù)的浮點數(shù)的表達(dá)精度不一樣,所以造成的計算誤差也不一樣。對于需要處理的數(shù)字范圍大而且需要精確計算的科學(xué)計算來說,可能需要采用雙精度浮點數(shù),例如:計算化學(xué),分子建模,流體動力學(xué)。對于常見的多媒體和圖形處理計算、深度學(xué)習(xí)、人工智能等領(lǐng)域,32位的單精度浮點計算已經(jīng)足夠了。對于要求精度更低的機器學(xué)習(xí)等一些應(yīng)用來說,半精度16位浮點數(shù)就可以,甚至8位浮點數(shù)就已經(jīng)夠用了。AI計算模型規(guī)模的持續(xù)擴大,導(dǎo)致模型訓(xùn)練和部署所需求的算力和功耗持續(xù)的擴張。面對算力的挑戰(zhàn),降低精度是一把利器?!兑黄饘嵺`神經(jīng)網(wǎng)絡(luò)INT8量化系列教程》——老潘的博客@CSDN《AI算力的阿喀琉斯之踵:內(nèi)存墻》——Amir

Gholami@OneFlow社區(qū)

注:藍(lán)線上的是CV,NLP和語音模型,模型運算量平均每兩年翻

15

倍,紅線上的是Transformer

的模型,模型運算量

23平均每兩年翻

750

倍。而灰線則標(biāo)志摩爾定律下內(nèi)存硬件大小的增長,平均每兩年翻

2

倍。TensorRT支持的計算精度AI模型訓(xùn)練算力消耗量與摩爾定律浮點數(shù)運算量(單位:

FLOPs)3.1.1

AI訓(xùn)練端:發(fā)展目標(biāo)是精度降低的同時保證模型的準(zhǔn)確性量化是通過一組離散符號或整數(shù)值去逼近一個連續(xù)信號的過程,利用低比特量化(權(quán)重或激活)可以在不影響精度的前提下加快推理階段。隨著模型越來越大,需求越來越高,模型的量化自然是少不了的一項技術(shù)。在低比特表達(dá)中(如FP16、INT16、FP8、INT8、INT4等),INT8因兼顧效率和精度,而被廣泛采用。一方面,INT8的運行速度是FP16/INT16的兩倍,并且相比FP8,能被更多的硬件設(shè)備支持。另一方面,INT8的量化范圍(-128~127)比INT4(-8~7)或其它更低的比特(小于4比特)大,表達(dá)能力更強。經(jīng)過INT8量化后的模型:模型容量變小了,F(xiàn)P32的權(quán)重變成INT8,大小直接縮了4倍模型,運行速度可以提升,使用INT8的模型耗電量更少,對于嵌入式側(cè)端設(shè)備來說提升巨大。資料來源:英偉達(dá)—developer.nvidia.

com/tensorrt《利用

NVIDIATensorRT

量化感知訓(xùn)練實現(xiàn)

INT8

推理的FP32

精度》——英偉達(dá)技術(shù)博客24INT8有更高的吞吐率、更低的內(nèi)存要求利用NVIDIA

TensorRT

量化感知訓(xùn)練實現(xiàn)INT8

推理的FP32

精度3.1.2

AI推理端:浮點型量化為整形數(shù)據(jù),降低算力、加速推理、降低功耗25對于浮點計算來說,CPU可以同時支持不同精度的浮點運算,但在GPU里針對單精度和雙精度需要各自獨立的計算單元。一般在GPU里支持單精度運算的單精度ALU(算術(shù)邏輯單元)稱之為FP32

core,而把用作雙精度運算的雙精度ALU稱之為DP

unit或者FP64

core在英偉達(dá)不同架構(gòu)不同型號的GPU之間,因為產(chǎn)品定位不同,單精度ALU和雙精度ALU的數(shù)量的比例差異很大,也決定了產(chǎn)品的定位。資料來源:英偉達(dá),《GPGPU

芯片設(shè)計:

原理與實踐》——陳巍談芯@知乎Nvidia

Hopper架構(gòu)中的SMP(流處理塊)英偉達(dá)不同GPU產(chǎn)品的CUDA計算核數(shù)對比3.1.3

GPU中設(shè)置各自獨立的計算單元,可以針對不同運算優(yōu)化資料來源:智東西微信公眾號26CUDA(Compute

Unified

Device

Architecture,統(tǒng)一計算設(shè)備架構(gòu))是由

NVIDIA

于2007年推出的通用并行計算架構(gòu),專為圖形處理單元

(GPU)

上的通用計算開發(fā)的并行計算平臺和編程模型。借助

CUDA,開發(fā)者能夠利用

GPU

的強大性能顯著加速計算應(yīng)用。它包含了

CUDA

指令集架構(gòu)(ISA)以及

GPU

內(nèi)部的并行計算引擎。CUDA

是一個全新的軟硬件架構(gòu),可以將

GPU

視為一個并行數(shù)據(jù)計算的設(shè)備,對所進行的計算進行分配和管理,無需將其映射到圖形API(OpenGL和Direct

3D)中運行。使用

CUDA

時,開發(fā)者使用主流語言(如

C、C++、Fortran、Python

MATLAB)進行編程,并通過擴展程序以幾個基本關(guān)鍵字的形式來表示并行性。NVIDIA

CUDA

工具包提供了開發(fā)

GPU

加速應(yīng)用所需的一切。CUDA

工具包中包含多個

GPU

加速庫、一個編譯器、多種開發(fā)工具以及

CUDA

運行環(huán)境。通過

CUDA

開發(fā)的數(shù)千個應(yīng)用已部署到嵌入式系統(tǒng)、工作站、數(shù)據(jù)中心和云中的

GPU?!禢vidia

并行計算架構(gòu)

CUDA

分析(一)——CUDA

簡介》——club111@阿里云資料來源:英偉達(dá)開發(fā)者社區(qū)CUDA

架構(gòu)的組件組成通過

CUDA

開發(fā)的部分應(yīng)用3.2

壁壘二——CUDA生態(tài):使

GPU

解決復(fù)雜計算問題,基于此開發(fā)數(shù)千個應(yīng)用27易于編程和性能飛躍,加上擁有廣泛而豐富的生態(tài)系統(tǒng),CUDA讓NVIDIA的GPU生態(tài)圈迅速成型。在2006年問世之初,英偉達(dá)就開始對CUDA系統(tǒng)在AI領(lǐng)域進行大力投入和推廣。一方面在年營業(yè)額只有30億美元的情況下,每年投入5億美元的研發(fā)經(jīng)費更新維護;另一方面,為當(dāng)時美國大學(xué)及科研機構(gòu)免費提供CUDA系統(tǒng),使其迅速在AI及通用計算領(lǐng)域開花結(jié)果。與任何新平臺一樣,CUDA的成功依賴于CUDA生態(tài)系統(tǒng)可用的工具、庫、應(yīng)用程序和合作伙伴。CUDA

支持

Windows、Linux、MacOS

三種主流操作系統(tǒng),支持

CUDA

C

語言和

OpenCL

CUDA

Fortran

語言。無論使用何種語言或接口,指令最終都會被驅(qū)動程序轉(zhuǎn)換成PTX(Parallel

Thread

Execution,并行線程執(zhí)行,CUDA架構(gòu)中的指令集,類似于匯編語言)代碼,交由GPU計算。但是,只有NVIDIA的GPUs才支持CUDA技術(shù),NVIDIA憑借CUDA在科學(xué)計算、生物、金融等領(lǐng)域的推廣牢牢把握著主流市場?!禖UDA

new

features

and

beyond》——英偉達(dá)《CUDA

11

功能揭曉》——Pramod

Ramarao@英偉達(dá)社區(qū)CUDA生態(tài)支持的主要應(yīng)用場景CUDA

11

中的平臺支撐3.2.1

CUDA:一家獨大,助力英偉達(dá)GPU生態(tài)建設(shè),軟硬件深度綁定28由于各個硬件廠家在

GPU

硬件設(shè)計上存在著較大差別,為了降低跨平臺的開發(fā)難度,需要一套能夠兼容各類硬件設(shè)備的計算框架。OpenCL

最初由蘋果公司開發(fā),擁有其商標(biāo)權(quán)。2008

年,蘋果公司向

Khronos

Group

提交了一份關(guān)于跨平臺計算框架

(OpenCL)

的草案,隨后與AMD、IBM、Intel、和

NVIDIA

公司合作逐步完善,其接口大量借鑒了

CUDA。后續(xù),OpenCL的管理權(quán)移交給了非盈利組織

Khronos

Group,且于2008年12月發(fā)布了

OpenCL

1.0。最新的OpenCL

3.0

2020

9

月發(fā)布。OpenCL是一個為異構(gòu)平臺(CPU/GPU/DSP/FPGA等)編程設(shè)計的框架,是一個面向異構(gòu)系統(tǒng)通用目的并行編程的開放式、免費標(biāo)準(zhǔn),也是一個統(tǒng)一的編程環(huán)境,便于軟件開發(fā)人員為高性能計算服務(wù)器、桌面計算系統(tǒng)、手持設(shè)備編寫高效輕便的代碼,只要按照標(biāo)準(zhǔn)實現(xiàn)了驅(qū)動的硬件,使用OPENCL加速的應(yīng)用原則上就都能使用,主要用于并行運算。在

OpenCL

中,首先需要一個主機處理器(Host),一般是

CPU。而其他的硬件處理器(多核CPU/GPU/DSP

等)被抽象成

OpenCL

設(shè)備(Device)。每個設(shè)備包含多個計算單元(Compute

Unit),每個計算單元又包含多個處理單元(Processing

Element)。在執(zhí)行中,主要的流程為

Host

端發(fā)送數(shù)據(jù)和任務(wù)給

Device

端,Device

端進行計算,最后在

Host

端進行同步?!兑苿佣怂惴▋?yōu)化》——高性能計算學(xué)院@知乎專欄《移動端算法優(yōu)化》——高性能計算學(xué)院@知乎專欄OpenCL

-

異構(gòu)計算框架OpenCL

平臺模型圖示3.2.2

OpenCL:開源計算框架,兼容各類硬件設(shè)備用于并行計算29OpenCL在應(yīng)用層次、簡便性、市場占有率方面都要弱于CUDA,但是在跨平臺和通用性上優(yōu)于CUDA。開發(fā)者友好程

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論