全球AI算力需求繼續(xù)向上

上傳人：b*** IP屬地：北京上傳時(shí)間：2024-04-29 格式：DOCX 頁數(shù)：13 大?。?.26MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩8頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

正文目錄“ScalingLaw”驅(qū)動(dòng)大模型算力需求持續(xù)增長 3預(yù)訓(xùn)練：縮放定律下算力需求有望持續(xù)增長 5推理：高并發(fā)是推理計(jì)算需求的主要驅(qū)動(dòng)力 8調(diào)優(yōu)：算力需求主要取決于調(diào)優(yōu)次數(shù) 10算力基礎(chǔ)設(shè)施需求有望持續(xù)釋放，關(guān)注算力產(chǎn)業(yè)機(jī)遇 12風(fēng)險(xiǎn)提示 14圖表目錄圖表1：大語言模型（LLM）演化樹 3圖表2：下一代大模型或向更大參數(shù)方向演化 4圖表3：大模型算力需求框架 4圖表4：大模型預(yù)訓(xùn)練效果主要由參數(shù)量、數(shù)量、計(jì)算量決定，且滿足“縮放定律” 5圖表5：大模型預(yù)訓(xùn)練算力需求 5圖表6：同等量下，模型越大效果越好 6圖表7：縮放定律應(yīng)該優(yōu)先考慮參數(shù)量的放大 6圖表8：大模型預(yù)訓(xùn)練算力需求 6圖表9：“Chinchilla縮放定律”下不同體量模型預(yù)訓(xùn)練所需算力 7圖表10：Transformer架構(gòu)解碼模塊堆疊形成GPT模型基礎(chǔ)架構(gòu) 8圖表大模型推理需要過程需要經(jīng)過從文本嵌入到文本輸出的過程 8圖表12：大模型推理算力需求 9圖表13：大模型推理算力需求測算 9圖表14：人工反饋的強(qiáng)化學(xué)習(xí)的基本原理 10圖表15：ChatGPT等大語言模型需要進(jìn)行微調(diào)以實(shí)現(xiàn)效果對(duì)齊 10圖表16：DeepspeedChat模型調(diào)優(yōu)服務(wù)所需GPU核時(shí)數(shù) 圖表17：不同參數(shù)體量模型30次調(diào)優(yōu)算力需求圖表18：英偉達(dá)A100/A800加速卡性能 12圖表19：大模型GPU需求測算 12圖表20：模型廠商對(duì)服務(wù)器的需求測算 13圖表21：全球AIGPU市場規(guī)模 13圖表22：全球AI服務(wù)器市場規(guī)模 13圖表23：國產(chǎn)主流AIGPU對(duì)比英偉達(dá)A系列GPU 14“ScalingLaw”驅(qū)動(dòng)大模型算力需求持續(xù)增長Transformer的出現(xiàn)開啟了大模型演化之路。大語言模型（LLM）是在大量數(shù)據(jù)集上預(yù)訓(xùn)NLP（自然語言處理）任務(wù)方面顯示出了較大潛力，如自然語言理解（NLU、自然語言生成任務(wù)等。從M近年的發(fā)展2020GPT-3模型表現(xiàn)出的優(yōu)異性能；2）GPTOpenAI對(duì)其解碼器技術(shù)道路的堅(jiān)持；3）模型閉源Google等公司也開圖表1：大語言模型（LLM）演化樹資料來源：《HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyond》，YangJingfeng（2023）、大模型或?qū)⑾蚋髤?shù)的方向不斷演化GPT-4PaLM到Gemini型背后的能力來源，我們認(rèn)為參數(shù)和數(shù)據(jù)集是最重要的兩個(gè)變量。從十億規(guī)模，到百億、千億、萬億，模型參數(shù)量的增加類似人類神經(jīng)突觸數(shù)量的增加，帶來模型感知能力、推理能力、記憶能力的不斷提升。而數(shù)據(jù)集的增加，則類似人類學(xué)習(xí)知識(shí)的過程，不斷強(qiáng)化模型對(duì)現(xiàn)實(shí)世界的理解能力。因此，我們認(rèn)為下一代模型或仍將延續(xù)更大體量參數(shù)的路線，演化出更加智能的多模態(tài)能力。圖表2：下一代大模型或向更大參數(shù)方向演化資料來源：谷歌官網(wǎng)，拆解來看，大模型的算力需求場景主要包括預(yù)訓(xùn)練、Finetune及日常運(yùn)營ChatGPT+FinetuneGPT-1/2/3這樣的基礎(chǔ)大模型；2）Finetune：在完成預(yù)訓(xùn)練的大模型基礎(chǔ)上，進(jìn)行監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)等二次或多次訓(xùn)練，實(shí)圖表3：大模型算力需求框架資料來源：OpenAI、預(yù)訓(xùn)練：縮放定律下算力需求有望持續(xù)增長大模型預(yù)訓(xùn)練效果主要由參數(shù)量、。根據(jù)OpenAI2020ScalingLawsforNeuralLanguageModels得最佳性能，這三個(gè)因素必須同時(shí)放大。當(dāng)不受其他兩個(gè)因素的制約時(shí)，模型性能與每個(gè)圖表4：大模型預(yù)訓(xùn)練效果主要由參數(shù)量、Token數(shù)量、計(jì)算量決定，且滿足“縮放定律”資料來源：《ScalingLawsforNeuralLanguageModels》，OpenAI，2020、OpenAIC≈6NBS來刻畫OpenAI2020年發(fā)表的論文《ScalingLawsforNeuralLanguageModelsTransformer架（????）（????）個(gè)（Nkn（（。其中，、S的乘積即為預(yù)訓(xùn)練所消耗的kn總數(shù)量?；诖?，我們可以通過C≈6NBS來刻畫大模型預(yù)訓(xùn)練所需要的算力大小。圖表5：大模型預(yù)訓(xùn)練算力需求資料來源：《ScalingLawsforNeuralLanguageModels》，OpenAI，2020、其中，OpenAIOpenAI著更多的計(jì)算變得可用，模型開發(fā)者可以選擇分配多少用于訓(xùn)練更大的模型，使用更大的批處理，以及訓(xùn)練更多的步驟。假設(shè)計(jì)算量增長十億倍，那么為了獲得最優(yōu)的計(jì)算效率訓(xùn)練，增加的大部分應(yīng)該用于增加模型大小。為了避免重用，只需要相對(duì)較小的數(shù)據(jù)增量。在增加的數(shù)據(jù)中，大多數(shù)可以通過更大的批處理大小來增加并行性，而所需的串行訓(xùn)練時(shí)間只增加很少一部分。圖表6：同等Token量下，模型越大效越好圖表7：縮放定律應(yīng)該優(yōu)先考慮參數(shù)量的大資料來源：《ScalingLawsforNeuralLanguageModels》，OpenAI，2020、

資料來源：《ScalingLawsforNeuralLanguageModels》，OpenAI，2020、ChinchillaDeepMind2022年發(fā)表的《TrainingCompute-OptimalLargeLanguageModels數(shù)量和參數(shù)量的放大與模型性能之間的關(guān)系并不是線性數(shù)量達(dá)到特定比例的時(shí)刻，才能實(shí)現(xiàn)最佳的模型效果。為了驗(yàn)證這一規(guī)律，谷歌用1.4萬億個(gè)訓(xùn)練了一個(gè)700億個(gè)參數(shù)的模型“Chnchla，結(jié)果發(fā)現(xiàn)其效果比用0億個(gè)tken訓(xùn)練的0億參數(shù)模型GohrDeepMind進(jìn)一步的研究發(fā)現(xiàn)，計(jì)算最優(yōu)語言模型的參數(shù)量和數(shù)據(jù)集大小的近似關(guān)系滿足：D=20P，其中D表示數(shù)量，P表示模型參數(shù)量，即在此比例下滿足“Chinchilla圖表8：大模型預(yù)訓(xùn)練算力需求資料來源：《TrainingCompute-OptimalLargeLanguageModels》，DeepMind，2022、1PFlop/s-day以上。我們假設(shè)不同參數(shù)體量的模型均滿足“Chnchila需的算力。以訓(xùn)練0Chnchla縮放定律”下所需的訓(xùn)練2OpenAIC=6NBS，可以計(jì)算得到，訓(xùn)10001.39x10^4PFlop/s-day5000億參數(shù)模型所需算力約3.7x105Flo/s-da1萬億參數(shù)模型所需算力約1.9x1^6Fop/s-da。圖表9：“Chinchilla縮放定律”下不同體量模型預(yù)訓(xùn)練所需算力參數(shù)量（億個(gè)）Token（億個(gè)）算力需求（PFlop/s-day）模型15001.00x10^43.47x10^3模型210002.00x10^41.39x10^4模型330006.00x10^41.25x10^5模型450001.00x10^53.47x10^5模型5100002.00x10^51.39x10^6模型6200004.00x10^55.56x10^6資料來源：《TrainingCompute-OptimalLargeLanguageModels》，DeepMind，2022、預(yù)測推理：高并發(fā)是推理計(jì)算需求的主要驅(qū)動(dòng)力GPT模型底層架構(gòu)由解碼器模塊構(gòu)成GPTGPT124896個(gè)模塊。模塊數(shù)量越多，則意味著模型參數(shù)量越大，模型體積也越大。圖表10：Transformer架構(gòu)解碼模塊堆疊形成GPT模型基礎(chǔ)架構(gòu)資料來源：《ImprovingLanguageUnderstandingbyGenerativePre-Training》，OpenAI，2018、化的文本數(shù)據(jù)，實(shí)現(xiàn)大模型推理OpenAI2020年發(fā)表的論文《ScalingLawsforNeuralLanguageModels經(jīng)固定，參數(shù)配置完成之后即可進(jìn)行推理應(yīng)用。而推理過程實(shí)質(zhì)上就是對(duì)大模型參數(shù)的再次遍歷，通過輸入文本編碼后的向量，經(jīng)過注意力機(jī)制的計(jì)算，輸出結(jié)果并轉(zhuǎn)化為文字。（head）等。圖表11：大模型推理需要過程需要經(jīng)過從文本嵌入到文本輸出的過程資料來源：《ScalingLawsforNeuralLanguageModels》，OpenAI，2020、C≈2NBS來刻畫主要執(zhí)行前向傳播，主要計(jì)算量體現(xiàn)在文本編碼、注意力機(jī)制計(jì)算、文本解碼等環(huán)節(jié)。根OpenAI=2N+2??????????????????????????????，其中公式后半部分??????????????????????????????主要反映上下文窗口大KC≈2NBS。圖表12：大模型推理算力需求資料來源：《ScalingLawsforNeuralLanguageModels》，OpenAI，2020、ChatGPT5000PFlop/s以上。Similarweb數(shù)據(jù)，20243ChatGPT18億次。我們假設(shè)每次用戶訪108004ChatGPT官網(wǎng)0.065倍。最后，假設(shè)不同參數(shù)模ChatGPTC≈2NBS1000、5000、10000億參數(shù)5555.6、27777.8、55555.6PFlop/s。圖表13：大模型推理算力需求測算參數(shù)假設(shè)1參數(shù)假設(shè)2參數(shù)假設(shè)3參數(shù)假設(shè)4參數(shù)假設(shè)5參數(shù)假設(shè)6推理算力需求（PFlop/s）2777.85555.616666.727777.855555.6111111.14月推理Token峰值消耗數(shù)量（億個(gè)）0.30.30.30.30.30.34月秒均Token消耗量（億個(gè)）0.060.060.060.060.060.064月訪問量（億次）181818181818每次訪問提問次數(shù)（次）101010101010每次問答Token數(shù)量（個(gè)）800800800800800800峰值倍數(shù)555555模型參數(shù)量（億個(gè)）5001000300050001000020000資料來源：Similarweb、預(yù)測調(diào)優(yōu)：算力需求主要取決于調(diào)優(yōu)次數(shù)大模型完成預(yù)訓(xùn)練之后還需要進(jìn)行參數(shù)調(diào)優(yōu)以符合人類需求。一般而言，大語言模型在完（Finetune）OpenAI為例，模型調(diào)優(yōu)的過程采用人類反饋機(jī)制（RLHF）進(jìn)行。強(qiáng)化學(xué)習(xí)通過獎(jiǎng)勵(lì)（Reward）機(jī)制來指導(dǎo)模型訓(xùn)練，獎(jiǎng)勵(lì)機(jī)制可以視為傳統(tǒng)模訓(xùn)練機(jī)制的損失函數(shù)。獎(jiǎng)勵(lì)的計(jì)算要比損失函數(shù)更靈活和多樣（例如paGO的獎(jiǎng)勵(lì)是對(duì)局的勝負(fù)，代價(jià)是獎(jiǎng)勵(lì)計(jì)算不可導(dǎo)，不能直接拿來做反向傳播。強(qiáng)化學(xué)習(xí)的思路是通過對(duì)獎(jiǎng)勵(lì)的大量采樣來擬合損失函數(shù)，從而實(shí)現(xiàn)模型的訓(xùn)練。類似的，人類反饋也不可導(dǎo)，也可以作為強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)，從而產(chǎn)生基于人工反饋的強(qiáng)化學(xué)習(xí)。圖表14：人工反饋的強(qiáng)化學(xué)習(xí)的基本原理獎(jiǎng)勵(lì)預(yù)測獎(jiǎng)勵(lì)預(yù)測人類預(yù)測的獎(jiǎng)勵(lì)觀察行動(dòng)環(huán)境強(qiáng)化學(xué)習(xí)算法資料來源：OpenAI官網(wǎng)、以ChatGPTChatGPT的調(diào)優(yōu)過程主要分三步進(jìn)行：1）訓(xùn)練監(jiān)督模型；2）訓(xùn)練獎(jiǎng)勵(lì)模型；3）PPO化學(xué)習(xí)。調(diào)優(yōu)之后，模型的參數(shù)會(huì)得到更新，所生成的答案也會(huì)更加接近人類所期望的結(jié)果。因此，調(diào)優(yōu)過程對(duì)算力的需求實(shí)際上與預(yù)訓(xùn)練類似，都需要對(duì)模型參數(shù)進(jìn)行遍歷，但所使用的數(shù)據(jù)集較預(yù)訓(xùn)練會(huì)小得多。圖表15：ChatGPT等大語言模型需要進(jìn)行微調(diào)以實(shí)現(xiàn)效果對(duì)齊資料來源：OpenAI官網(wǎng)、GPU核時(shí)數(shù)倒推GPUDeepspeedChat（微軟旗下專注于模型調(diào)優(yōu)的服務(wù)商08張8080加速卡峰值算力約2TFLO（TF3。1300.9PFlop/s-day。以此類300億、660億、17501.9、5.2、8.3PFlop/s-day。圖表16：DeepspeedChat模型調(diào)優(yōu)服務(wù)所需GPU核時(shí)數(shù)模型1模型2模型3模型4模型參數(shù)（億）1303006601750單次Finetune算力（PFlop/s-day）0.91.95.28.3訓(xùn)練時(shí)長（小時(shí)）91850.4208xA800算力（TF32，PFlop/s-day）2.52.52.520.0注：調(diào)優(yōu)1750億參數(shù)模型使用的服務(wù)器實(shí)例為8臺(tái)，對(duì)應(yīng)64張A800加速卡資料來源：DeepspeedChat、英偉達(dá)、預(yù)測2000PFlop/s-day以上A800（8A800加速卡進(jìn)行調(diào)優(yōu)訓(xùn)練，且訓(xùn)練時(shí)長與模型參數(shù)量成正比。此外，考慮到調(diào)優(yōu)次數(shù)問題，我們假設(shè)每301000億參數(shù)模型每月調(diào)優(yōu)所需算力為216PFlop/s-day，1萬億參數(shù)模型每月調(diào)優(yōu)所需算力為2160PFlop/s-day。圖表17：不同參數(shù)體量模型30次調(diào)優(yōu)算力需求模型1模型2模型3模型4模型5模型6模型參數(shù)（億）5001000300050001000020000單次Finetune算力（PFlop/s-day）3.67.221.636.072.0144.0訓(xùn)練時(shí)長（小時(shí)）356920834669213858xA800算力（TF32，PFlop/s-day）2.52.52.52.52.52.530次Finetune算力（PFlop/s-day）108.0216.0648.01080.02160.04320.0資料來源：DeepspeedChat、英偉達(dá)、華泰研究預(yù)測算力基礎(chǔ)設(shè)施需求有望持續(xù)釋放，關(guān)注算力產(chǎn)業(yè)機(jī)遇大模型訓(xùn)練推理調(diào)優(yōu)帶來算力硬件需求AIGPUA100、H100、B100等。據(jù)英偉達(dá)，A100TF32312采用稀疏技術(shù)FP16624TFLOPS（采用稀疏技術(shù)?？紤]到實(shí)際工作負(fù)載中，往往采用多卡互聯(lián)進(jìn)行模型的訓(xùn)練和SidBlack2022年發(fā)布的《GPT-NeoX-20B:AnOpen-SourceAutoregressiveLanguageModelA100TFLO（TF37.%234TFLOPS（FP16，采用稀疏技術(shù)。圖表18：英偉達(dá)A100/A800加速卡性能A100SXMA800SXM數(shù)據(jù)傳輸速率600GB/s400GB/s顯存帶寬2TB/s2TB/s顯存容量80GB80GBFP649.7TFLOPS9.7TFLOPSFP3219.5TFLOPS19.5TFLOPSTF32312TFLOPS312TFLOPSFP16624TFLOPS624TFLOPSINT81248TFLOPS1248TFLOPS注：TF32、FP16、INT8均為采用稀疏技術(shù)下的算力性能資料來源：英偉達(dá)官網(wǎng)、華泰研究我們預(yù)計(jì)千億模型訓(xùn)練推理A100GPU2.8萬張。對(duì)于大模型所需GPU/對(duì)算力的總需求即為預(yù)訓(xùn)練、推理和調(diào)優(yōu)的算力需求之和?？紤]到模型預(yù)訓(xùn)練完成之后，服務(wù)器等基礎(chǔ)設(shè)施通常會(huì)被用于下一代模型的開發(fā)，因此我們假設(shè)預(yù)訓(xùn)練、推理、調(diào)優(yōu)的算力需求將并發(fā)出現(xiàn)。此外，我們假設(shè)訓(xùn)練、推理、調(diào)優(yōu)均在一個(gè)月內(nèi)完成，基于此，測1000A100GPU2.8萬張，500021.8萬張，1000063.48A100加速卡，1000、5000、10000AI0.3、2.7、7.9萬臺(tái)。圖表19：大模型GPU需求測算模型1模型2模型3模型4模型5模型6模型參數(shù)（億）5001000300050001000020000總算力需求（PFlop/s-day）86914180772625648118163630577168893209預(yù)訓(xùn)練算力需求（PFlop/s-day）3472138891250003472221388889555555630天推理算力需求（PFlop/s-day）833331666675000008333331666667333333330次調(diào)優(yōu)算力需求（PFlop/s-day）108216648108021604320總GPU需求（A100，張）12891277601070222179406337272058844預(yù)訓(xùn)練GPU需求（張）989395735613989243956951582779推理GPU需求（張）118712374271225118708237417474834調(diào)優(yōu)GPU需求（張）31621853086151231總服務(wù)器需求（8卡，臺(tái)）16113470133782724279216257355預(yù)訓(xùn)練GPU需求（臺(tái)）12449544521236549462197847推理GPU需求（臺(tái)）14842968890314839296775935430次調(diào)優(yōu)GPU需求（臺(tái)）48233877154資料來源：NVIDIA官網(wǎng)、預(yù)測3169服務(wù)器市場空間。據(jù)中國科學(xué)技術(shù)信息研究2023520290%仍在持續(xù)增加，但隨著大模型的迭代，模型廠商之間的競爭或?qū)⒅鸩节呌诰?。基于此，我們保守假設(shè)未來或?qū)⒂?家廠商實(shí)現(xiàn)00家廠商實(shí)現(xiàn)100008A800159萬元1:7.23換22萬美元/需求規(guī)模為3169億美元。圖表20：模型廠商對(duì)服務(wù)器的需求測算廠商數(shù)量（家）每個(gè)廠商的服務(wù)器需求量（臺(tái)）服務(wù)器單價(jià)（萬美元）服務(wù)器需求規(guī)模（億美元）1000億模型 30 3470 2295000億模型202724222119810000億模型10792161742總計(jì)3169注：美元兌人民幣匯率假設(shè)為1:7.23資料來源：預(yù)測Gartner，2023AI534202425.7%IDC，2023AI2025318億美元，2024-2025CAGR22.7%3169/推理/調(diào)優(yōu)需求有望帶動(dòng)算力基礎(chǔ)設(shè)施建設(shè)需求快速增長。圖表21：全球GPU市場規(guī)模圖表22：全球服務(wù)器市場規(guī)模0

全球AI芯片市場規(guī)模（億美元） yoy25.7%20.9%2022 2023E 2024E25.7%20.9%

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

全球AI算力需求繼續(xù)向上

文檔簡介

溫馨提示

最新文檔

評(píng)論

全球AI算力需求繼續(xù)向上

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔