版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
正文目錄“ScalingLaw”驅(qū)動(dòng)大模型算力需求持續(xù)增長 3預(yù)訓(xùn)練:縮放定律下算力需求有望持續(xù)增長 5推理:高并發(fā)是推理計(jì)算需求的主要驅(qū)動(dòng)力 8調(diào)優(yōu):算力需求主要取決于調(diào)優(yōu)次數(shù) 10算力基礎(chǔ)設(shè)施需求有望持續(xù)釋放,關(guān)注算力產(chǎn)業(yè)機(jī)遇 12風(fēng)險(xiǎn)提示 14圖表目錄圖表1:大語言模型(LLM)演化樹 3圖表2:下一代大模型或向更大參數(shù)方向演化 4圖表3:大模型算力需求框架 4圖表4:大模型預(yù)訓(xùn)練效果主要由參數(shù)量、數(shù)量、計(jì)算量決定,且滿足“縮放定律” 5圖表5:大模型預(yù)訓(xùn)練算力需求 5圖表6:同等量下,模型越大效果越好 6圖表7:縮放定律應(yīng)該優(yōu)先考慮參數(shù)量的放大 6圖表8:大模型預(yù)訓(xùn)練算力需求 6圖表9:“Chinchilla縮放定律”下不同體量模型預(yù)訓(xùn)練所需算力 7圖表10:Transformer架構(gòu)解碼模塊堆疊形成GPT模型基礎(chǔ)架構(gòu) 8圖表大模型推理需要過程需要經(jīng)過從文本嵌入到文本輸出的過程 8圖表12:大模型推理算力需求 9圖表13:大模型推理算力需求測算 9圖表14:人工反饋的強(qiáng)化學(xué)習(xí)的基本原理 10圖表15:ChatGPT等大語言模型需要進(jìn)行微調(diào)以實(shí)現(xiàn)效果對(duì)齊 10圖表16:DeepspeedChat模型調(diào)優(yōu)服務(wù)所需GPU核時(shí)數(shù) 圖表17:不同參數(shù)體量模型30次調(diào)優(yōu)算力需求 圖表18:英偉達(dá)A100/A800加速卡性能 12圖表19:大模型GPU需求測算 12圖表20:模型廠商對(duì)服務(wù)器的需求測算 13圖表21:全球AIGPU市場規(guī)模 13圖表22:全球AI服務(wù)器市場規(guī)模 13圖表23:國產(chǎn)主流AIGPU對(duì)比英偉達(dá)A系列GPU 14“ScalingLaw”驅(qū)動(dòng)大模型算力需求持續(xù)增長Transformer的出現(xiàn)開啟了大模型演化之路。大語言模型(LLM)是在大量數(shù)據(jù)集上預(yù)訓(xùn)NLP(自然語言處理)任務(wù)方面顯示出了較大潛力,如自然語言理解(NLU、自然語言生成任務(wù)等。從M近年的發(fā)展2020GPT-3模型表現(xiàn)出的優(yōu)異性能;2)GPTOpenAI對(duì)其解碼器技術(shù)道路的堅(jiān)持;3)模型閉源Google等公司也開圖表1:大語言模型(LLM)演化樹資料來源:《HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyond》,YangJingfeng(2023)、大模型或?qū)⑾蚋髤?shù)的方向不斷演化GPT-4PaLM到Gemini型背后的能力來源,我們認(rèn)為參數(shù)和數(shù)據(jù)集是最重要的兩個(gè)變量。從十億規(guī)模,到百億、千億、萬億,模型參數(shù)量的增加類似人類神經(jīng)突觸數(shù)量的增加,帶來模型感知能力、推理能力、記憶能力的不斷提升。而數(shù)據(jù)集的增加,則類似人類學(xué)習(xí)知識(shí)的過程,不斷強(qiáng)化模型對(duì)現(xiàn)實(shí)世界的理解能力。因此,我們認(rèn)為下一代模型或仍將延續(xù)更大體量參數(shù)的路線,演化出更加智能的多模態(tài)能力。圖表2:下一代大模型或向更大參數(shù)方向演化資料來源:谷歌官網(wǎng),拆解來看,大模型的算力需求場景主要包括預(yù)訓(xùn)練、Finetune及日常運(yùn)營ChatGPT+FinetuneGPT-1/2/3這樣的基礎(chǔ)大模型;2)Finetune:在完成預(yù)訓(xùn)練的大模型基礎(chǔ)上,進(jìn)行監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)等二次或多次訓(xùn)練,實(shí)圖表3:大模型算力需求框架資料來源:OpenAI、預(yù)訓(xùn)練:縮放定律下算力需求有望持續(xù)增長大模型預(yù)訓(xùn)練效果主要由參數(shù)量、。根據(jù)OpenAI2020ScalingLawsforNeuralLanguageModels得最佳性能,這三個(gè)因素必須同時(shí)放大。當(dāng)不受其他兩個(gè)因素的制約時(shí),模型性能與每個(gè)圖表4:大模型預(yù)訓(xùn)練效果主要由參數(shù)量、Token數(shù)量、計(jì)算量決定,且滿足“縮放定律”資料來源:《ScalingLawsforNeuralLanguageModels》,OpenAI,2020、OpenAIC≈6NBS來刻畫OpenAI2020年發(fā)表的論文《ScalingLawsforNeuralLanguageModelsTransformer架(????)(????)個(gè)(Nkn((。其中,、S的乘積即為預(yù)訓(xùn)練所消耗的kn總數(shù)量?;诖?,我們可以通過C≈6NBS來刻畫大模型預(yù)訓(xùn)練所需要的算力大小。圖表5:大模型預(yù)訓(xùn)練算力需求資料來源:《ScalingLawsforNeuralLanguageModels》,OpenAI,2020、其中,OpenAIOpenAI著更多的計(jì)算變得可用,模型開發(fā)者可以選擇分配多少用于訓(xùn)練更大的模型,使用更大的批處理,以及訓(xùn)練更多的步驟。假設(shè)計(jì)算量增長十億倍,那么為了獲得最優(yōu)的計(jì)算效率訓(xùn)練,增加的大部分應(yīng)該用于增加模型大小。為了避免重用,只需要相對(duì)較小的數(shù)據(jù)增量。在增加的數(shù)據(jù)中,大多數(shù)可以通過更大的批處理大小來增加并行性,而所需的串行訓(xùn)練時(shí)間只增加很少一部分。圖表6:同等Token量下,模型越大效越好 圖表7:縮放定律應(yīng)該優(yōu)先考慮參數(shù)量的大資料來源:《ScalingLawsforNeuralLanguageModels》,OpenAI,2020、
資料來源:《ScalingLawsforNeuralLanguageModels》,OpenAI,2020、ChinchillaDeepMind2022年發(fā)表的《TrainingCompute-OptimalLargeLanguageModels數(shù)量和參數(shù)量的放大與模型性能之間的關(guān)系并不是線性數(shù)量達(dá)到特定比例的時(shí)刻,才能實(shí)現(xiàn)最佳的模型效果。為了驗(yàn)證這一規(guī)律,谷歌用1.4萬億個(gè)訓(xùn)練了一個(gè)700億個(gè)參數(shù)的模型“Chnchla,結(jié)果發(fā)現(xiàn)其效果比用0億個(gè)tken訓(xùn)練的0億參數(shù)模型GohrDeepMind進(jìn)一步的研究發(fā)現(xiàn),計(jì)算最優(yōu)語言模型的參數(shù)量和數(shù)據(jù)集大小的近似關(guān)系滿足:D=20P,其中D表示數(shù)量,P表示模型參數(shù)量,即在此比例下滿足“Chinchilla圖表8:大模型預(yù)訓(xùn)練算力需求資料來源:《TrainingCompute-OptimalLargeLanguageModels》,DeepMind,2022、1PFlop/s-day以上。我們假設(shè)不同參數(shù)體量的模型均滿足“Chnchila需的算力。以訓(xùn)練0Chnchla縮放定律”下所需的訓(xùn)練2OpenAIC=6NBS,可以計(jì)算得到,訓(xùn)10001.39x10^4PFlop/s-day5000億參數(shù)模型所需算力約3.7x105Flo/s-da1萬億參數(shù)模型所需算力約1.9x1^6Fop/s-da。圖表9:“Chinchilla縮放定律”下不同體量模型預(yù)訓(xùn)練所需算力參數(shù)量(億個(gè))Token(億個(gè))算力需求(PFlop/s-day)模型15001.00x10^43.47x10^3模型210002.00x10^41.39x10^4模型330006.00x10^41.25x10^5模型450001.00x10^53.47x10^5模型5100002.00x10^51.39x10^6模型6200004.00x10^55.56x10^6資料來源:《TrainingCompute-OptimalLargeLanguageModels》,DeepMind,2022、預(yù)測推理:高并發(fā)是推理計(jì)算需求的主要驅(qū)動(dòng)力GPT模型底層架構(gòu)由解碼器模塊構(gòu)成GPTGPT124896個(gè)模塊。模塊數(shù)量越多,則意味著模型參數(shù)量越大,模型體積也越大。圖表10:Transformer架構(gòu)解碼模塊堆疊形成GPT模型基礎(chǔ)架構(gòu)資料來源:《ImprovingLanguageUnderstandingbyGenerativePre-Training》,OpenAI,2018、化的文本數(shù)據(jù),實(shí)現(xiàn)大模型推理OpenAI2020年發(fā)表的論文《ScalingLawsforNeuralLanguageModels經(jīng)固定,參數(shù)配置完成之后即可進(jìn)行推理應(yīng)用。而推理過程實(shí)質(zhì)上就是對(duì)大模型參數(shù)的再次遍歷,通過輸入文本編碼后的向量,經(jīng)過注意力機(jī)制的計(jì)算,輸出結(jié)果并轉(zhuǎn)化為文字。(head)等。圖表11:大模型推理需要過程需要經(jīng)過從文本嵌入到文本輸出的過程資料來源:《ScalingLawsforNeuralLanguageModels》,OpenAI,2020、C≈2NBS來刻畫主要執(zhí)行前向傳播,主要計(jì)算量體現(xiàn)在文本編碼、注意力機(jī)制計(jì)算、文本解碼等環(huán)節(jié)。根OpenAI=2N+2??????????????????????????????,其中公式后半部分??????????????????????????????主要反映上下文窗口大KC≈2NBS。圖表12:大模型推理算力需求資料來源:《ScalingLawsforNeuralLanguageModels》,OpenAI,2020、ChatGPT5000PFlop/s以上。Similarweb數(shù)據(jù),20243ChatGPT18億次。我們假設(shè)每次用戶訪108004ChatGPT官網(wǎng)0.065倍。最后,假設(shè)不同參數(shù)模ChatGPTC≈2NBS1000、5000、10000億參數(shù)5555.6、27777.8、55555.6PFlop/s。圖表13:大模型推理算力需求測算參數(shù)假設(shè)1參數(shù)假設(shè)2參數(shù)假設(shè)3參數(shù)假設(shè)4參數(shù)假設(shè)5參數(shù)假設(shè)6推理算力需求(PFlop/s)2777.85555.616666.727777.855555.6111111.14月推理Token峰值消耗數(shù)量(億個(gè))0.30.30.30.30.30.34月秒均Token消耗量(億個(gè))0.060.060.060.060.060.064月訪問量(億次)181818181818每次訪問提問次數(shù)(次)101010101010每次問答Token數(shù)量(個(gè))800800800800800800峰值倍數(shù)555555模型參數(shù)量(億個(gè))5001000300050001000020000資料來源:Similarweb、預(yù)測調(diào)優(yōu):算力需求主要取決于調(diào)優(yōu)次數(shù)大模型完成預(yù)訓(xùn)練之后還需要進(jìn)行參數(shù)調(diào)優(yōu)以符合人類需求。一般而言,大語言模型在完(Finetune)OpenAI為例,模型調(diào)優(yōu)的過程采用人類反饋機(jī)制(RLHF)進(jìn)行。強(qiáng)化學(xué)習(xí)通過獎(jiǎng)勵(lì)(Reward)機(jī)制來指導(dǎo)模型訓(xùn)練,獎(jiǎng)勵(lì)機(jī)制可以視為傳統(tǒng)模訓(xùn)練機(jī)制的損失函數(shù)。獎(jiǎng)勵(lì)的計(jì)算要比損失函數(shù)更靈活和多樣(例如paGO的獎(jiǎng)勵(lì)是對(duì)局的勝負(fù),代價(jià)是獎(jiǎng)勵(lì)計(jì)算不可導(dǎo),不能直接拿來做反向傳播。強(qiáng)化學(xué)習(xí)的思路是通過對(duì)獎(jiǎng)勵(lì)的大量采樣來擬合損失函數(shù),從而實(shí)現(xiàn)模型的訓(xùn)練。類似的,人類反饋也不可導(dǎo),也可以作為強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì),從而產(chǎn)生基于人工反饋的強(qiáng)化學(xué)習(xí)。圖表14:人工反饋的強(qiáng)化學(xué)習(xí)的基本原理獎(jiǎng)勵(lì)預(yù)測獎(jiǎng)勵(lì)預(yù)測人類預(yù)測的獎(jiǎng)勵(lì)觀察行動(dòng)環(huán)境強(qiáng)化學(xué)習(xí)算法資料來源:OpenAI官網(wǎng)、以ChatGPTChatGPT的調(diào)優(yōu)過程主要分三步進(jìn)行:1)訓(xùn)練監(jiān)督模型;2)訓(xùn)練獎(jiǎng)勵(lì)模型;3)PPO化學(xué)習(xí)。調(diào)優(yōu)之后,模型的參數(shù)會(huì)得到更新,所生成的答案也會(huì)更加接近人類所期望的結(jié)果。因此,調(diào)優(yōu)過程對(duì)算力的需求實(shí)際上與預(yù)訓(xùn)練類似,都需要對(duì)模型參數(shù)進(jìn)行遍歷,但所使用的數(shù)據(jù)集較預(yù)訓(xùn)練會(huì)小得多。圖表15:ChatGPT等大語言模型需要進(jìn)行微調(diào)以實(shí)現(xiàn)效果對(duì)齊資料來源:OpenAI官網(wǎng)、GPU核時(shí)數(shù)倒推GPUDeepspeedChat(微軟旗下專注于模型調(diào)優(yōu)的服務(wù)商08張8080加速卡峰值算力約2TFLO(TF3。1300.9PFlop/s-day。以此類300億、660億、17501.9、5.2、8.3PFlop/s-day。圖表16:DeepspeedChat模型調(diào)優(yōu)服務(wù)所需GPU核時(shí)數(shù)模型1模型2模型3模型4模型參數(shù)(億)1303006601750單次Finetune算力(PFlop/s-day)0.91.95.28.3訓(xùn)練時(shí)長(小時(shí))91850.4208xA800算力(TF32,PFlop/s-day)2.52.52.520.0注:調(diào)優(yōu)1750億參數(shù)模型使用的服務(wù)器實(shí)例為8臺(tái),對(duì)應(yīng)64張A800加速卡資料來源:DeepspeedChat、英偉達(dá)、預(yù)測2000PFlop/s-day以上A800(8A800加速卡進(jìn)行調(diào)優(yōu)訓(xùn)練,且訓(xùn)練時(shí)長與模型參數(shù)量成正比。此外,考慮到調(diào)優(yōu)次數(shù)問題,我們假設(shè)每301000億參數(shù)模型每月調(diào)優(yōu)所需算力為216PFlop/s-day,1萬億參數(shù)模型每月調(diào)優(yōu)所需算力為2160PFlop/s-day。圖表17:不同參數(shù)體量模型30次調(diào)優(yōu)算力需求模型1模型2模型3模型4模型5模型6模型參數(shù)(億)5001000300050001000020000單次Finetune算力(PFlop/s-day)3.67.221.636.072.0144.0訓(xùn)練時(shí)長(小時(shí))356920834669213858xA800算力(TF32,PFlop/s-day)2.52.52.52.52.52.530次Finetune算力(PFlop/s-day)108.0216.0648.01080.02160.04320.0資料來源:DeepspeedChat、英偉達(dá)、華泰研究預(yù)測算力基礎(chǔ)設(shè)施需求有望持續(xù)釋放,關(guān)注算力產(chǎn)業(yè)機(jī)遇大模型訓(xùn)練推理調(diào)優(yōu)帶來算力硬件需求AIGPUA100、H100、B100等。據(jù)英偉達(dá),A100TF32312采用稀疏技術(shù)FP16624TFLOPS(采用稀疏技術(shù)??紤]到實(shí)際工作負(fù)載中,往往采用多卡互聯(lián)進(jìn)行模型的訓(xùn)練和SidBlack2022年發(fā)布的《GPT-NeoX-20B:AnOpen-SourceAutoregressiveLanguageModelA100TFLO(TF37.%234TFLOPS(FP16,采用稀疏技術(shù)。圖表18:英偉達(dá)A100/A800加速卡性能A100SXMA800SXM數(shù)據(jù)傳輸速率600GB/s400GB/s顯存帶寬2TB/s2TB/s顯存容量80GB80GBFP649.7TFLOPS9.7TFLOPSFP3219.5TFLOPS19.5TFLOPSTF32312TFLOPS312TFLOPSFP16624TFLOPS624TFLOPSINT81248TFLOPS1248TFLOPS注:TF32、FP16、INT8均為采用稀疏技術(shù)下的算力性能資料來源:英偉達(dá)官網(wǎng)、華泰研究我們預(yù)計(jì)千億模型訓(xùn)練推理A100GPU2.8萬張。對(duì)于大模型所需GPU/對(duì)算力的總需求即為預(yù)訓(xùn)練、推理和調(diào)優(yōu)的算力需求之和??紤]到模型預(yù)訓(xùn)練完成之后,服務(wù)器等基礎(chǔ)設(shè)施通常會(huì)被用于下一代模型的開發(fā),因此我們假設(shè)預(yù)訓(xùn)練、推理、調(diào)優(yōu)的算力需求將并發(fā)出現(xiàn)。此外,我們假設(shè)訓(xùn)練、推理、調(diào)優(yōu)均在一個(gè)月內(nèi)完成,基于此,測1000A100GPU2.8萬張,500021.8萬張,1000063.48A100加速卡,1000、5000、10000AI0.3、2.7、7.9萬臺(tái)。圖表19:大模型GPU需求測算模型1模型2模型3模型4模型5模型6模型參數(shù)(億)5001000300050001000020000總算力需求(PFlop/s-day)86914180772625648118163630577168893209預(yù)訓(xùn)練算力需求(PFlop/s-day)3472138891250003472221388889555555630天推理算力需求(PFlop/s-day)833331666675000008333331666667333333330次調(diào)優(yōu)算力需求(PFlop/s-day)108216648108021604320總GPU需求(A100,張)12891277601070222179406337272058844預(yù)訓(xùn)練GPU需求(張)989395735613989243956951582779推理GPU需求(張)118712374271225118708237417474834調(diào)優(yōu)GPU需求(張)31621853086151231總服務(wù)器需求(8卡,臺(tái))16113470133782724279216257355預(yù)訓(xùn)練GPU需求(臺(tái))12449544521236549462197847推理GPU需求(臺(tái))14842968890314839296775935430次調(diào)優(yōu)GPU需求(臺(tái))48233877154資料來源:NVIDIA官網(wǎng)、預(yù)測3169服務(wù)器市場空間。據(jù)中國科學(xué)技術(shù)信息研究2023520290%仍在持續(xù)增加,但隨著大模型的迭代,模型廠商之間的競爭或?qū)⒅鸩节呌诰?。基于此,我們保守假設(shè)未來或?qū)⒂?家廠商實(shí)現(xiàn)00家廠商實(shí)現(xiàn)100008A800159萬元1:7.23換22萬美元/需求規(guī)模為3169億美元。圖表20:模型廠商對(duì)服務(wù)器的需求測算廠商數(shù)量(家) 每個(gè)廠商的服務(wù)器需求量(臺(tái)) 服務(wù)器單價(jià)(萬美元)服務(wù)器需求規(guī)模(億美元)1000億模型 30 3470 2295000億模型202724222119810000億模型10792161742總計(jì)3169注:美元兌人民幣匯率假設(shè)為1:7.23資料來源:預(yù)測Gartner,2023AI534202425.7%IDC,2023AI2025318億美元,2024-2025CAGR22.7%3169/推理/調(diào)優(yōu)需求有望帶動(dòng)算力基礎(chǔ)設(shè)施建設(shè)需求快速增長。圖表21:全球GPU市場規(guī)模 圖表22:全球服務(wù)器市場規(guī)模0
全球AI芯片市場規(guī)模(億美元) yoy25.7%20.9%2022 2023E 2024E25.7%20.9%
3
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 藥理學(xué)知識(shí)培訓(xùn)課件
- 論文寫作指南
- 2025年度餐飲加盟連鎖經(jīng)營合作協(xié)議書3篇
- 2025年度廣告?zhèn)髅讲鸹锖贤瑓f(xié)議4篇
- 專業(yè)藝術(shù)教師勞務(wù)合作合同(2024版)一
- 二零二四醫(yī)院護(hù)士勞動(dòng)合同范本:護(hù)理危機(jī)管理與責(zé)任界定3篇
- 2025年茶山茶葉采摘與加工承包經(jīng)營合同4篇
- 2025年度快遞快遞業(yè)務(wù)市場營銷承包合同3篇
- 2025年度餐飲行業(yè)節(jié)能減排合作協(xié)議范本3篇
- 2025年度情侶忠誠保障不分手協(xié)議書電子版下載3篇
- 直播帶貨助農(nóng)現(xiàn)狀及發(fā)展對(duì)策研究-以抖音直播為例(開題)
- 腰椎間盤突出疑難病例討論
- 《光伏發(fā)電工程工程量清單計(jì)價(jià)規(guī)范》
- 2023-2024學(xué)年度人教版四年級(jí)語文上冊(cè)寒假作業(yè)
- (完整版)保證藥品信息來源合法、真實(shí)、安全的管理措施、情況說明及相關(guān)證明
- 營銷專員績效考核指標(biāo)
- 陜西麟游風(fēng)電吊裝方案專家論證版
- 供應(yīng)商審核培訓(xùn)教程
- 【盒馬鮮生生鮮類產(chǎn)品配送服務(wù)問題及優(yōu)化建議分析10000字(論文)】
- 肝硬化心衰患者的護(hù)理查房課件
- 2023年四川省樂山市中考數(shù)學(xué)試卷
評(píng)論
0/150
提交評(píng)論