版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
通信行業(yè)AI超算互聯(lián)網(wǎng)市場分析1.AI超算互聯(lián)網(wǎng)——算力的后周期市場當下,隨著大模型訓練的興起,全球顯卡與算力正在進入一段時間的快速膨脹期,國內(nèi)外均欲打造AI超算互聯(lián)網(wǎng)。與此同時,算力后周期市場也正在快速興起?!昂笾芷凇敝械暮?,與傳統(tǒng)市場中的行業(yè)末期,行業(yè)后期不同,“后”指的更多的是后服務市場,我們認為的后服務,包括了顯卡服務器到貨IDC后,從形成穩(wěn)定算力到輸出穩(wěn)定的商業(yè)推理結(jié)果的全過程。其中主要的環(huán)節(jié)包括了云化、調(diào)優(yōu)、調(diào)度、部署、落地、數(shù)據(jù)管理等等軟硬結(jié)合的數(shù)個環(huán)節(jié),參與其中的既包括全球一線大廠,也包括許多海外優(yōu)秀的創(chuàng)業(yè)公司。算力的后周期的市場需求迸發(fā),我們認為核心原因在于大模型訓練的難、大模型商用的貴以及大模型安全的憂。大模型訓練的難在于,超大規(guī)模的參數(shù)和運算量遠超單張或者單服務器顯卡的容量,各個顯卡之間如何實現(xiàn)數(shù)據(jù)并行與運算合作,是整個業(yè)界面臨的首要問題,為此,誕生出了云化、調(diào)優(yōu)、調(diào)度等后周期需求。大模型商用的貴體現(xiàn)在參數(shù)、效果、費用三者的矛盾之上,參數(shù)越多的模型,其對于實際問題的準確度越高,但其反應時間和消耗費用也越高,同時,如何將新迭代的模型快速部署至應用場景,也是開發(fā)者需要面臨的問題。大模型安全的憂則更多的體現(xiàn)在數(shù)據(jù)層面,如何實現(xiàn)安全情況下,企業(yè)原有數(shù)據(jù)庫與訓練系統(tǒng)的相互調(diào)用,如何實現(xiàn)原有數(shù)據(jù)對于“AI”訓練的可用等等??v觀全球算力后周期的發(fā)展態(tài)勢,我們認為正在形成兩個迥然不同的生態(tài),首先,在涉及算力使用和大模型訓練的等上層建筑時,整個行業(yè)對于資本支出、模型經(jīng)驗積累等等方面的壁壘正在逐漸加深,正如黃仁勛在發(fā)布會上經(jīng)常提到的“buymoresavemore”,大模型時代,天量資本支出已經(jīng)成為這一領域的入場券,模型研究從“巧奪天工”到“重劍無鋒”的轉(zhuǎn)變,使得大算力,大模型的壁壘不斷提高,行業(yè)格局加速走向巨頭通吃。但在涉及到商業(yè)落地,數(shù)據(jù)安全,平臺可視化等等模型偏下游環(huán)節(jié)時,我們反而從北美的創(chuàng)業(yè)公司上看到了百花齊放的生態(tài),在訓練過程與資源可視化,數(shù)據(jù)庫調(diào)用,模型加速部署與性價比調(diào)節(jié)等方面,都涌現(xiàn)出了一批優(yōu)秀的創(chuàng)業(yè)公司與解決方案,同時原有領域內(nèi)的龍頭軟件公司也在積極開發(fā)方案,對接AI需求。與大模型和算力戰(zhàn)爭中的巨頭壟斷局面相比,這里的各個環(huán)節(jié)更加富有生機,也更容易在細分環(huán)節(jié)中成長出新的優(yōu)秀獨角獸公司。最后,復盤海外前沿,展望國內(nèi)發(fā)展,我們認為隨著國內(nèi)算力資源起量與模型訓練深入,對于算力和模型層面的投資將會再度聚焦,聚焦大廠,聚焦通信能力。同時國內(nèi)相關軟件市場仍處于萌芽階段,對標海外優(yōu)秀創(chuàng)業(yè)產(chǎn)品,提早滿足客戶需求,將給國內(nèi)軟件和創(chuàng)業(yè)公司帶來新一輪機會。同時,國內(nèi)由于海外算力制裁等影響,國內(nèi)如昇騰等國產(chǎn)優(yōu)秀生態(tài)發(fā)展和起量過程中,可能也會涌現(xiàn)出一批優(yōu)秀的行業(yè)加速庫、生態(tài)軟件公司,基于此再擴展出中國特色的相關模型服務體系,有望走出一條有中國特色的模型服務體系之路。2.云化/調(diào)優(yōu)/調(diào)度——巨頭戰(zhàn)場,技術為骨,通信為魂2.1算力云化:算力租賃勢起,被AI重定義的云計算2.1.1AGI時代到來,GPU算力需求爆發(fā),云計算面臨新挑戰(zhàn)云計算是科技行業(yè)過去十年發(fā)展最為迅速的領域之一,伴隨的是全球數(shù)字化程度的持續(xù)提升。互聯(lián)網(wǎng)的高速發(fā)展,眾多中小型及初創(chuàng)公司數(shù)字化需求爆發(fā),通過自購ICT基礎設施的形式支出巨且運維難度高,不適合具有靈活需求高速發(fā)展的長尾客戶。而通過云計算,使用者可以隨時獲取云上資源,按需使用按需付費,可無限擴展。云計算將計算資源池化,通過軟件實現(xiàn)自動化管理,讓資源高效輸出,并發(fā)展出IAAS、PAAS、SAAS以及其他眾多形式,極大的促進了互聯(lián)網(wǎng)發(fā)展和全球數(shù)字化進程。生成式AI興起,算力需求從CPU向GPU躍遷。隨著openai旗下chatgpt的涌現(xiàn),在全球范圍內(nèi)引爆了生成式AI的發(fā)展浪潮,作為下一代最重要的技術方向,企業(yè)人工智能發(fā)展需求正在爆發(fā),擁有能夠支持開發(fā)人員創(chuàng)建新一波人工智能應用程序需求的基礎設施至關重要。許多企業(yè)正在轉(zhuǎn)向云計算,但與主流企業(yè)工作負載不同,人工智能提出了傳統(tǒng)云基礎設施無法充分支持的新需求。從CPU到GPU再到GPU集群,企業(yè)發(fā)現(xiàn)自己正在采用越來越復雜的基礎設施來滿足其人工智能模型訓練的需求。大模型持續(xù)發(fā)展,高速互聯(lián)高性能GPU集群是門檻。以openai為例,其gpt3具有1750億個參數(shù),是上一代版本的117倍,模型的持續(xù)發(fā)展迭代需要前所未有的規(guī)模,而對于大模型訓練而言,多GPU互聯(lián)基礎設施是門檻,不僅僅是gpu,更重要的是gpu之間的高速互聯(lián),是gpu與交換機、光模塊等基礎設施共同互聯(lián)后的集群,其資本開支和技術難度相較于以cpu和存儲服務器為主的傳統(tǒng)基礎設施,有明顯的提升,這也進一步抬高了大模型的門檻。大模型訓練需要數(shù)千片甚至上萬片GPU集群連續(xù)訓練數(shù)月時間,海量計算的同時還有海量數(shù)據(jù)交換需求,與傳統(tǒng)cpu和存儲集群比較,內(nèi)部通信互聯(lián)要求提高十分明顯。在傳統(tǒng)云計算時代,只有超大型數(shù)據(jù)中心核心節(jié)點才會用到高速光模塊和高端交換機,如400G和對應光模塊,而在超算集群中,以H100集群為例,其中第一層便使用400G光模塊,向上則使用800G光模塊和對應交換機,網(wǎng)絡互聯(lián)要求提升十分明顯。AI云計算對應能力要求全面提升。云服務能力對于致力于布局AGI的企業(yè)而言,傳統(tǒng)的云基礎設施即服務產(chǎn)品并沒有針對企業(yè)規(guī)模的人工智能進行優(yōu)化,隨著基礎設施的日益復雜,宕機的風險也越來越大,需要花費越來越多的精力和資源在維持運行上,開發(fā)企業(yè)人工智能不僅需要基礎設施服務,更需要的是全棧能力,人工智能企業(yè)需要將所有這些功能集成到他們的平臺中,從而避免與基礎設施的作斗爭:1、用于開發(fā)和部署特定于領域的端到端人工智能工作流的框架和工具——從數(shù)據(jù)準備和訓練到推理和部署。2、一個以開發(fā)人員為中心的平臺,用于管理從最簡單的計算機視覺應用程序到最復雜的大型語言模型的一切。3、智能編排層和調(diào)度程序,為每個作業(yè)提供適當大小的資源,動態(tài)高效地回收和重新分配資源。4、自動化的基礎設施管理,最大限度地提高了平臺的性能和正常運行時間,使每項工作都可以無憂地執(zhí)行。5、超高帶寬、低延遲的網(wǎng)絡集群,專門用于多節(jié)點訓練,可以在許多加速計算節(jié)點上并行處理大型人工智能模型。2.1.2DGXCloud發(fā)布,云算力進入GPU新時代2023年3月21日,英偉達正式發(fā)布了DGXCloud,這款多節(jié)點AI訓練即服務解決方案,針對企業(yè)AI的獨特需求進行了優(yōu)化。英偉達表示,DGXCloud將改變傳統(tǒng)的計算框架,為現(xiàn)代深度學習提供理想的環(huán)境。英偉達一直處于AI技術的前沿,其DGXCloud將人工智能和云計算結(jié)合,旨在為企業(yè)提供最先進的AI訓練服務。該平臺基于NVIDIADGXSuperPOD架構(gòu),可進行分布式訓練,其速度是不支持NVIDIA網(wǎng)絡的服務的兩倍以上。DGXCloud由BaseCommand平臺提供支持,BaseCommand是一個全面的AI工作流管理SaaS,涵蓋云和內(nèi)部資源,這個平臺可以幫助AI開發(fā)人員更有效地構(gòu)建、部署和管理AI應用。通過將BaseCommand與DGXCloud相結(jié)合,企業(yè)可以更靈活地滿足其獨特的AI需求。對于希望構(gòu)建自定義生成式AI模型的企業(yè)來說,DGXCloud提供了完整的AI開發(fā)環(huán)境,包括訓練、優(yōu)化和部署等環(huán)節(jié),降低了AI開發(fā)的門檻,同時也極大地提高了開發(fā)效率。英偉達DGXCloud為現(xiàn)代AI開發(fā)樹立了新的標桿。DGXCloud是世界上第一個專門用于開發(fā)生成式人工智能的人工智能平,英偉達推出DGXCloud專門針對了傳統(tǒng)laaS產(chǎn)品在AI時代面臨的困境,根據(jù)英偉達官網(wǎng)表述,DGXCloud的使用效率是傳統(tǒng)基礎設施的三倍,其集成了NVIDIA基礎命令平臺,簡化了人工智能開發(fā)。BaseCommandPlatform有效地配置和管理人工智能工作負載,提供集成的數(shù)據(jù)集管理,并在從單個GPU到大規(guī)模多節(jié)點集群的適當大小的資源上執(zhí)行它們。DGXCloud還包括NVIDIAAIEnterprise,它提供加速的數(shù)據(jù)科學庫、優(yōu)化的框架和預訓練的模型,使開發(fā)人員能夠更快地獲得生產(chǎn)就緒的模型。DGXCloud全面領先傳統(tǒng)IaaS。DGXCloud基于領先的NVIDIADGX技術,這是一個加速每個行業(yè)創(chuàng)新的解決方案。借助DGXCloud,企業(yè)可以專注于人工智能創(chuàng)新,而不用糾結(jié)于基礎設施,企業(yè)可獲得到可靠、快速的資源分配、完全優(yōu)化的執(zhí)行工作負載以及更少的時間精力,從而降低總體擁有成本。根據(jù)英偉達官網(wǎng)給出的比較,DGXCloud相比較傳統(tǒng)IssS服務,有著2-3倍的訓練速度,通過算力調(diào)優(yōu)有三倍的GPU利用率。以GPT-3為例,其具有400億個參數(shù)和3000億個token,訓練GPT-3大約需要160塊NVIDIAA100gpu訓練約一個月。從比較上來看,選擇DGXCloud的企業(yè)訓練速度將是傳統(tǒng)IaaS的2-3倍,僅需約一個月的時間僅可完成模型訓練,若升級采用DGXCloudH100則僅需20天,而傳統(tǒng)IaaS則需要超過3個月時間。DGXCloud能夠幫助企業(yè)快速迭代模型,降低成本的同時搶占先機。英偉達DGXCloud發(fā)布后,標志著英偉達正式入局AI云計算,考慮到英偉達GPU在AI領域的一家獨大,云計算行業(yè)正在進入新的時代。與此同時,甲骨文通過與英偉達深度綁定,正在越來越多的拿下AI領域的客戶,而亞馬遜aws、微軟azure、谷歌云為代表的頭部公有云也正在加速布局AI領域,英偉達憑借自身優(yōu)勢在AI云計算領域領先眾對手,云計算格局正在發(fā)生變化。而國內(nèi),算力租賃也在高速發(fā)展,擁有算力資源的公司和具備算力運營能力的企業(yè)正在逐漸體現(xiàn)出相應優(yōu)勢,伴隨國內(nèi)AI產(chǎn)業(yè)的高速發(fā)展,算力租賃行業(yè)也進入高速發(fā)展階段。2.1.3GPUVS比特幣礦機——爆發(fā)的需求、緊缺的供給和極短的回款周期算力行業(yè)正處于茁壯成長期,眾多企業(yè)“各顯神通”參與其中。我們認為,算力租賃生態(tài)鏈還遠未到格局固化的階段,可以積極關注新進入者。利通電子:算力租賃新“玩家”。公司此前披露已訂購255臺GPU服務器,近期公司表示,DGX服務器已批量到貨,預計10月全部完成交付。中科金財:算力租賃+AI應用雙布局。公司9月公告擬2億元投資設立全資子公司,主營算力租賃、AI應用生態(tài)服務等AGI業(yè)務。東方材料:算力調(diào)度平臺匯聚全國分布式算力群。子公司東方超算的“銀河”算力調(diào)度平臺聯(lián)合13家IDC打造全國一體化算力集群,現(xiàn)已提供基于英偉達A100、A800、H800、華為910B等GPU算力服務,面向全國政企用戶提供現(xiàn)貨算力資源服務。2.1.4現(xiàn)狀:GPU禁令,國產(chǎn)算力進程加速,合理分配利用資源重要性突顯高端人工智能芯片被禁售。根據(jù)英偉達2023年10月23日提交給SEC的8-K文件,美國政府通知英偉達,題為“實施附加出口管制:某些先進計算項目;超級計算機和半導體最終用途;更新和更正”,適用于“總處理性能”為4800或更高并為數(shù)據(jù)中心設計或銷售的產(chǎn)品,立即生效。本次影響的公司產(chǎn)品有:A100、A800、H100、H800和L40S。這些產(chǎn)品在10月17日被要求將于30天后限制出售。美國實體清單更新,無理加強對我國先進芯片限制。BIS將13家實體添加單實體清單中,其中包括壁仞高科技和摩爾線程兩家涉及先進計算芯片開發(fā)的中國實體及其子公司,這些實體還將受到使用美國技術生產(chǎn)的海外產(chǎn)品的限制。代工廠為這些列出的各方生產(chǎn)芯片將需要BIS許可證,然后代工廠才能將此類芯片發(fā)送給這些實體或代表這些實體行事的各方。被新列入實體清單的13家實體包括壁仞科技及其子公司、摩爾線程及其子公司、光線云(杭州)科技有限公司、超燃半導體(南京)有限公司,實體清單新規(guī)的生效日期為2023年10月17日。算力國產(chǎn)進程提速。國內(nèi)人工產(chǎn)業(yè)發(fā)展如火如荼,但隨著高端算力芯片禁令的立即生效,包括英偉達、AMD、intel在內(nèi)的眾多AI芯片均將無法購買,算力作為最核心的基本戰(zhàn)備物資,其國產(chǎn)進程必然將加速。目前來看華為、寒武紀、海光、壁仞、摩爾線程等均國產(chǎn)算力芯片商業(yè)化和生態(tài)建設有望加速,此前科大訊飛曾表示已與華為昇騰啟動專項攻關,合力打造通用人工智能新底座,當前華為昇騰910B能力已經(jīng)基本做到可對標英偉達A100。目前云計算形式獲取被限AI算力仍被允許。盡管市場擔心美國有可能禁止我國通過企業(yè)訪問AWS、Azure、谷歌云等在內(nèi)的公有云獲取AI算力資源,但截止到本報告發(fā)出日期為止,尚未有正式文件發(fā)布,AWS、Azure等云計算仍對中國地區(qū)開放如nvdaA100gpu等產(chǎn)品的云服務購買權(quán)限,用戶可通過其部署在全球各地的云計算資源來選擇需要的云服務滿足自身需求?,F(xiàn)貨AI服務器持續(xù)漲價,合理分配利用資源重要性突顯。禁令落地生效后,AI服務器短期確定性漲價,渠道及第三方、個人等屯貨的AI服務器產(chǎn)品數(shù)量不容小覷。在被禁大背景下,如何利用好這些零散分布在各種渠道的現(xiàn)貨AI服務器成為一個現(xiàn)實問題,若能統(tǒng)籌規(guī)劃,則將大大緩解產(chǎn)業(yè)算力困境。此外消費級顯卡如rtx4090也有著不錯性能,若能將長尾消費級顯卡利用在如推理測等要求較低的場景,也能緩解部分算力需求。2.1.5跨區(qū)域、跨集群、跨架構(gòu)的算力調(diào)度調(diào)優(yōu)能力日益重要在大規(guī)模訓練上,和傳統(tǒng)云計算比較,需要考慮的問題更加復雜。首先,面對單卡無法裝載的大模型,如何利用多卡來突破內(nèi)存限制的瓶頸是個問題。其次,大規(guī)模訓練會用到大量的計算資源,大量計算資源間如何通信、協(xié)作是另一個難題。最后,如何平衡各類層出不窮的大規(guī)模訓練技術,使得眾多技術形成一個完整高效的訓練方案,更是系統(tǒng)性工程。我們將大規(guī)模訓練技術面臨的挑戰(zhàn)分為四個部分:內(nèi)存、通訊、計算和調(diào)優(yōu)。內(nèi)存墻(GPUMemoryWall):在計算過程中,神經(jīng)網(wǎng)絡模型每一層的卷積或者全連接計算,都會把權(quán)重W_m長期保存下來,用作網(wǎng)絡的權(quán)重參數(shù)更新(靜態(tài)內(nèi)存)。另外針對諸如ADAM的優(yōu)化器,會存儲優(yōu)化器的動量等信息,用于優(yōu)化器計算(動態(tài)內(nèi)存)。一塊有16G顯存的AI芯片,最大能塞滿20+億參數(shù)的模型,但是這時候已經(jīng)沒有額外空間,留給動態(tài)內(nèi)存進行分配了。靜態(tài)內(nèi)存和動態(tài)內(nèi)存都可能造成內(nèi)存墻的問題。通訊墻:大模型通過模型并行、流水線并行切分到AI集群后,通訊便成了主要的性能瓶頸。隨著機器規(guī)模的擴大,基于同步的AllReduce通訊聚合方式,會因為大量的AI芯片和服務器之間頻繁進行同步,出現(xiàn)水桶效應,也就是最慢的一路通訊,將會決定整個AI集群的通訊的高度。如果采用目前比較流行的Ring-AllReduce的通信聚合方式,當通訊的環(huán)越大,通訊的延長將會不斷地被擴大。另外網(wǎng)絡協(xié)議的多次握手的方式,諸如此類的開銷會導致訓練無法有效利用帶寬。性能墻:性能墻呢主要是指計算資源利用率的問題。隨著大模型的提出,對算力需求更加迫切,理論上在4K的集群上每塊卡快1分鐘,總體就快了68個小時。大模型會增加對算力的需求,但是隨著大模型引入各項分布式并行技術的同時,會降低計算資源的利用率。調(diào)優(yōu)墻:所以在數(shù)千節(jié)點的集群上,需要考慮到提升算法工程師分布式調(diào)試調(diào)優(yōu)的效率,另外還要考慮降低工程師對大模型進行并行切分的難度。除了對人的考慮,還要對硬件集群的管理,需要保證計算的正確性、性能、可用性。要是有一臺機器壞了,如何快速恢復訓練中的參數(shù)。總結(jié)來看,現(xiàn)階段大模型訓練上,最核心的兩個要素分別是數(shù)據(jù)和算力,過去AI的發(fā)展方向聚焦在用少量的數(shù)據(jù)和參數(shù)做出模型,而隨著openAI現(xiàn)象級產(chǎn)品爆發(fā)后,人們發(fā)現(xiàn)用海量的數(shù)據(jù)和算力訓練出來的模型能力有了質(zhì)的飛躍,當前大模型還處在早期階段,現(xiàn)階段模型參數(shù)和算力需求依舊有這極大的提升空間,因此我們判斷,在很長一段時間,不斷地提高參數(shù)量和提升算力集群規(guī)模,是大模型發(fā)展的主要思路,通過“大力出奇跡”的形式反而更容易訓練出高質(zhì)量大模型。我們以百度為例,為了支撐超大規(guī)模的這張AIPod網(wǎng)絡,百度選擇了3層無收斂的CLOS組網(wǎng)結(jié)構(gòu)。服務器在最下面,連接到Leaf層交換機,也就是圖里的LF,然后Leaf交換再通過Spine交換機連接起來,就是圖里的SP。最后Spine交換機再通過SuperSpine,也就是SSP互聯(lián)起來。根據(jù)百度的數(shù)據(jù),平均單GPU的Allreduce帶寬有5GB/s的時候,大規(guī)模分布式的整體加速比只有70%。想要獲得90%的加速比,單GPU的AllReduce帶寬則需要做到20GB/s,相當于單GPU跑滿400G網(wǎng)卡。百度AIPod網(wǎng)絡采用了8通道的架構(gòu)。每個服務器上的8個網(wǎng)口,對應8個GPU,分別連接8個不同的Leaf交換機。這8個Leaf交換機一組,構(gòu)成了一個匯聚組Group。這樣的一個匯聚組下最大可以有512張GPU。進一步,8個Leaf交換機再往上連入不同的8個通道,每個通道內(nèi)Spine交換機和Leaf交換機之間做fullmesh全互聯(lián)。這樣的一個集群最大可以支持超過16KGPU。雖然主要的通信發(fā)生在同一個通道內(nèi),但總還是會存在跨通道的通信。百度通過SuperSpine把不同的通道的Spine交換機連接起來,打通各個通道。這就是AIPod的組網(wǎng)方式。AIPod的網(wǎng)絡采用了無收斂,或者說收斂比為1:1的方案,交換機的上聯(lián)帶寬等于下聯(lián)帶寬,確保集群內(nèi)互通帶寬充足。為了盡可能支撐更大的規(guī)模,百度在選擇交換機的時候,會選用當前頂級容量的交換芯片,比如曾經(jīng)的12.8T或者25.6T芯片,現(xiàn)在已經(jīng)演進到了單芯片51.2T的交換機。AI算力全球龍頭英偉達的通信之路。英偉達作為全球GPU領軍企業(yè),早在十年前就開始布局AI領域,對AI發(fā)展有著深刻思考和理解。我們回顧英偉達超算方案,從DGXA100到DGXH100,再到最新的DGXGH200,我們可以清楚的看到,除了GPU芯片計算能力的提升以外,通信能力的大幅度持續(xù)增長,是另一個最明顯的變化。在AI領域,通信的作用不亞于計算,通信能力的不足或確實將直接限制GPU芯片計算能力的發(fā)揮,英偉達早在2019年收購網(wǎng)絡交換公司Mellanox,加碼布局數(shù)據(jù)中心網(wǎng)絡交換領域,充分體現(xiàn)英偉達的超前眼光和對于通信的重視。我們以GH200為例,NVlink雙向?qū)拵?00GB/s,單向?qū)拵?50GB/s,8張卡即3.6Tbps,總帶寬28.8Tbps,分攤到三個NVlinkSwitch,單個NVlinkSwitch的上下行帶寬為9.6Tbps,對應800G光模塊為9.6T/800g*2=24只,一臺服務器共有72只800G光模塊,GPU與800G光模塊比例為1:9。而此前DGXH100架構(gòu)GPU與800G光模塊比例約為1:3,DGXA100則主要以400G光模塊為主。從英偉達產(chǎn)品的迭代來看,我們也清晰的看到算力龍頭在通信上的持續(xù)發(fā)力,通信匹配計算能力的提升將會一直演繹。打破通信墻,是目前高效發(fā)揮算力集群能力的無二之選。集群中顯卡數(shù)量的增長,對應算力若不能匹配線性提升,則無法發(fā)揮出高價買入的GPU能力。當前,最佳的發(fā)揮集群中GPU能力的方式,便是打破通信強,通過更高速率的互聯(lián),允許萬卡規(guī)模集群中跨GPU之間的數(shù)據(jù)交換,保證數(shù)據(jù)交換不出現(xiàn)阻塞,可以說,通信能力的提高,是當前最高效的“調(diào)優(yōu)”方式,再出色的調(diào)度和調(diào)優(yōu),也比不上廣泛使用高性能交換機和高端高速率光模塊修建的集群內(nèi)部“高速公路”。次外,目前跨架構(gòu)、跨集群的算力調(diào)度也是現(xiàn)實問題,英偉達不同代際產(chǎn)品之間并不能混合組網(wǎng),而不同數(shù)據(jù)中心之間的算力調(diào)度難度也不小。東數(shù)西算等跨區(qū)域算力調(diào)度需求也正在增長。具體到模型訓練層面,調(diào)優(yōu)也是一個重要方面。2.1.6從比特幣算力演變看AI算力發(fā)展1)根源:都有增長的內(nèi)驅(qū)力在過去的十年中,抖音、小紅書等平臺大幅降低了內(nèi)容創(chuàng)作、分享的壁壘,UGC模式的內(nèi)容豐富程度和規(guī)模遠超過往。而當前無論是帶貨直播還是內(nèi)容創(chuàng)作,門檻均比之前有所提高,UGC也“卷”了起來。而當AIGC來臨時,內(nèi)容競爭又將升維,例如數(shù)字虛擬人將實現(xiàn)包括外形、聲紋、對話內(nèi)容的模擬,我們看到的很多內(nèi)容將是AI生成,作為個體需要保證自身的內(nèi)容生產(chǎn)、進化速度快于行業(yè)均值,背后的算力投入將首當其沖,否則將直接影響賬號盈利能力。我們認為,市場忽略了算力的競爭性,考慮商業(yè)因素,算力生意存在分子與分母端。對比特幣挖礦而言,其分子是個體的算力,分母是全網(wǎng)算力,個體礦工能挖得的比特幣數(shù)量取決于其自身算力占全網(wǎng)算力的比例。而對AIGC而言,其能獲得的用戶注意力的分子是個體算力驅(qū)動下的內(nèi)容生產(chǎn)能力,分母是全網(wǎng)的內(nèi)容膨脹速度。從UGC到AIGC的升維中,誰的內(nèi)容生產(chǎn)力提升更快,誰就能獲得更多商業(yè)利益,因此產(chǎn)業(yè)自驅(qū)之下,市場將追求更高的算力、更優(yōu)的模型算法、更高功耗比的網(wǎng)絡架構(gòu)以及更便宜的電力。2)需求端:都增長迅猛根據(jù)BitInfoCharts,2023年10月31日比特幣全網(wǎng)日平均算力達476.73EH/s,相比2009年全網(wǎng)算力5MH/s上下波動,14年時間,比特幣算力增長超過89萬億倍。AI這端,在ChatGPT引發(fā)AI浪潮后,國內(nèi)大模型也開始于3、4月份密集發(fā)布,自研AI大模型進入“百花齊放”階段,而大模型的涌現(xiàn)開啟了算力“軍備賽”。根據(jù)OpenAI測算,自2012年至2018年,用于訓練AI所需要的算力大約每隔3-4個月翻倍,總共增長了30萬倍(而摩爾定律在相同時間只有7倍的增長),每年頭部訓練模型所需算力增長幅度高達10倍,整體呈現(xiàn)指數(shù)級上漲。舉例來說,AI大模型所需算力與模型參數(shù)及模型訓練使用的數(shù)據(jù)量正相關。2017年以來,AIGC模型的參數(shù)量逐年增加,2021年以來,這一趨勢呈現(xiàn)出明顯加快的狀態(tài),從ELMo的9400萬個參數(shù)一路飆升,至2020年年中,GPT-3引領行業(yè)走入千億參數(shù)時代,參數(shù)達1750億個,截至2021年年中,英偉達大語言模型MT-NLG更是超過了5300億。3)業(yè)態(tài):都在從個體戶走向集中化與云化從2009年1月中本聰使用多核CPU挖出比特幣創(chuàng)世區(qū)塊,到液冷礦機面市,比特幣礦機的發(fā)展經(jīng)歷了一個短暫而迅速的發(fā)展歷程。對比特幣挖礦而言,個體礦工能挖得的比特幣數(shù)量取決于其自身算力所占全網(wǎng)算力的比例。隨著全網(wǎng)算力持續(xù)增長,比特幣產(chǎn)出競爭逐漸成為芯片性能競爭,算力競爭推動礦機技術和挖礦模式產(chǎn)生變革。芯片更專業(yè):比特幣挖礦最初用CPU,后來用計算能力更強的GPU,后來用FPGA,目前用更專業(yè)的ASIC礦機。集中化與云化:挖礦模式方面,最初的礦工個人挖礦逐漸被礦場、礦池、云挖礦的方式取代。礦場:將大量礦機在物理上集中起來,共同運維管理。礦場負責尋找優(yōu)質(zhì)電力資源、通過風冷、液冷等方式為礦機散熱、檢測有無礦機宕機。礦池:突破了地理位置的限制,將分散在全球的礦工及礦場算力聯(lián)結(jié),云端合作“挖礦”。云挖礦:云挖礦服務提供商在云端向散戶出租算力。與比特幣挖礦相比,AI云算力發(fā)展也經(jīng)歷了類似過程。芯片更專業(yè)、計算能力更強:2012年,多倫多大學的研究人員AlexKrizhevsky在ImageNet計算機視覺挑戰(zhàn)賽中,首次使用GPU驅(qū)動的深度學習網(wǎng)絡擊敗其他競爭對手。由此,在深度學習算法中使用GPU驅(qū)動逐漸變?yōu)橹髁鳎鞔髲S商開始使用GPU訓練神經(jīng)網(wǎng)絡模型。我們統(tǒng)計了部分英偉達有代表性的顯卡,發(fā)現(xiàn)2017年以來,2022年3月面世的H100較2017年3月推出的GTX1080ti,在單精度(FP32)上,是后者的12倍(134/11.34),在AIGC常用的雙精度(FP64)算力上,是后者的192倍(68/0.35)。集中化:我們注意到,多個上市公司涉足AIDC行業(yè),類似于比特幣礦場,它們集中管理GPU,負責尋找優(yōu)質(zhì)電力、檢測GPU宕機情況并維修、調(diào)度算力與散熱等等。云化:面臨暴增的AI算力需求,大模型訓練模型使用的算力資源GPU陷入了供應短缺,“云算力”模式興起。它能讓AI大模型廠商無需購買英偉達A100顯卡等硬件,而直接按需租用云算力平臺算力,這使得初創(chuàng)企業(yè)或非頭部模型廠商也能嘗試進入AIGC領域。2.2算力調(diào)優(yōu):大模型時代,通信即調(diào)優(yōu)2.2.1算力調(diào)優(yōu)是算力發(fā)展的終身課題算力調(diào)優(yōu)概念范疇龐大,囊括軟硬件技術,涵蓋宏微觀場景?!八懔φ{(diào)優(yōu)”概念伴隨AI引發(fā)的算力需求熱潮隨之誕生,本質(zhì)上算力調(diào)優(yōu)是將算力作為一種資源,資源都是有限的,將有限的算力資源進行重新配置并達到帕累托最優(yōu)的過程即可稱之為“算力調(diào)優(yōu)”。算力調(diào)優(yōu)可以區(qū)分為宏觀和微觀兩大場景:微觀層面:微觀層面的算力調(diào)優(yōu)聚焦于模型調(diào)優(yōu)。一方面,大模型訓練最直接接觸到算力資源,伴隨深度學習模型越來越大,訓練模型需要的GPU越來越多,通過算力調(diào)優(yōu),可以減少模型訓練時占據(jù)的顯存,是降本增效的關鍵步驟;另一方面在大模型的推理領域,將模型放入嵌入式系統(tǒng)的需求相當普遍,通過算力調(diào)優(yōu)減少模型推理時的內(nèi)存也至關重要。宏觀層面:宏觀層面算力調(diào)優(yōu)包含模型調(diào)優(yōu)、網(wǎng)絡調(diào)優(yōu)、算力調(diào)度三大層級,除了直接影響算力使用效率的模型調(diào)優(yōu),網(wǎng)絡調(diào)優(yōu)的重要性也日益提高,在大模型對大規(guī)模分布式并行訓練有更強訴求的背景下,適應AI大模型的高性能網(wǎng)絡至少具備超大規(guī)模、超高帶寬和超長穩(wěn)定三大性能;算力調(diào)度本質(zhì)上是將算力作為資源,進行資源分配和優(yōu)化的過程,核心解決了算力資源供需不匹配的問題。算力發(fā)展產(chǎn)生三大邊際變化,推動算力調(diào)優(yōu)成為核心議題。算力調(diào)優(yōu)概念的誕生與興起,主要伴隨了算力及網(wǎng)絡的三大變化,算力需求總量、擴散趨勢和需求特征均在5G、AI等產(chǎn)業(yè)加速發(fā)展的背景下發(fā)生邊際變化:算力需求總量增加:一方面通用算力需求不斷增加,5G推進逐步落地,各類應用逐漸興起,對算力需求逐步提升,此外大數(shù)據(jù)、智能汽車、智慧城市、物聯(lián)網(wǎng)等各類新業(yè)態(tài)新平臺的興起也加大通用算力的需求量;另一方面智能算力需求提升迅速,伴隨AIGC產(chǎn)業(yè)的加速發(fā)展,國內(nèi)大模型訓練及推理快速推進,智算成為大模型落地必不可缺的生產(chǎn)力之一,需求空間龐大,根據(jù)IDC及浪潮預測,到2026年國內(nèi)通用算力規(guī)模將達到111.3EFLOPS,智能算力規(guī)模將達到1271.4EFLOPS。算力需求擴散:算力需求期初主要集中在單一設備上如計算機、工業(yè)智能設備等,伴隨5G和AI時代的到來,海量數(shù)據(jù)擴散到各類設備上,汽車、公路、城市智慧屏等各類終端都需要數(shù)據(jù)處理能力,算力需求從數(shù)據(jù)中心向網(wǎng)絡邊緣和終端設備擴散。算力需求多樣化:隨著數(shù)字經(jīng)濟的崛起,算力需求逐漸走向多元化,如自動駕駛對算力需求集中在高性能、低延遲、實時性;而生成式AI由于需要大量GPU并行計算,對算力需求集中在穩(wěn)定長時間輸出能力上;邊緣計算的需求點主要在于短距離和低時延。未來伴隨AI、5G、數(shù)字經(jīng)濟的持續(xù)發(fā)展,算力資源持續(xù)緊缺,算力調(diào)優(yōu)將成為算力使用者的終身課題。無論是傳統(tǒng)算力、智算算力、或邊緣算力,都對算力具備相當持久的需求,未來技術的迭代創(chuàng)新、各類AI應用的漸次爆發(fā)、算力輻射范圍從B端到C端的擴大,都會進一步加大算力資源的緊缺,無論是從效用角度、成本角度出發(fā),算力調(diào)優(yōu)都將成為算力使用方必須重視和投資的關鍵環(huán)節(jié)。2.2.2網(wǎng)絡調(diào)優(yōu):算力調(diào)優(yōu)的核心手段1)源起:從GPU的通信出發(fā)AI時代GPU成為核心處理器,分布式訓練訴求提升。GPU采用并行計算方式,擅長處理大量、簡單的運算,因此多適用于圖像圖形處理和AI推理。但是大模型復雜度日益提升,單卡GPU顯存有限,無法滿足訓練需求,比如百度文心一言大模型有2600億個參數(shù),但是實際上一個80G顯存的A800,算上訓練中間的計算狀態(tài),只能存放10-20億參數(shù),存放2600億的模型就需要100-200塊GPU;此外,后續(xù)大模型訓練需要更多參數(shù)和更多計算,由此產(chǎn)生的GPU需求更為龐大。為適應算力需求,需要聯(lián)合多張GPU甚至多臺服務器協(xié)同工作,分布式訓練成為核心訓練方式。網(wǎng)絡連接在分布式系統(tǒng)中擔任重要角色。網(wǎng)絡在分布式系統(tǒng)中提供了連接作用,可以根據(jù)連接層級區(qū)分為單卡、多卡、多機互聯(lián),單卡內(nèi)的網(wǎng)絡為計算用的神經(jīng)網(wǎng),多卡之間的連接(即GPU互聯(lián))通常采用PCIe或各種高帶寬通信網(wǎng)絡,多機之間的連接(即服務器互聯(lián))通常采用RDMA網(wǎng)絡。①多卡互聯(lián):傳統(tǒng)PCIe與NVLINK/CAPI/GenZ/CCIX/CXL的“百家爭鳴”總線是數(shù)據(jù)通信必備管道,PCIe是最泛使用的總線協(xié)議??偩€是服務器主板上不同硬件互相進行數(shù)據(jù)通信的管道,對數(shù)據(jù)傳輸速度起到?jīng)Q定性作用,目前最普及的總線協(xié)議為英特爾2001年提出的PCIe(PCI-Express)協(xié)議,PCIe主要用于連接CPU與其他高速設備如GPU、SSD、網(wǎng)卡、顯卡等,2003年PCIe1.0版本發(fā)布,后續(xù)大致每過三年會更新一代,目前已經(jīng)更新到6.0版本,傳輸速率高達64GT/s,16通道的帶寬達到256GB/s,性能和可擴展性不斷提高。PCIe總線樹形拓撲和端到端傳輸方式限制了連接數(shù)量和速度,PCIeSwitch誕生。PCIe采用端對端數(shù)據(jù)傳輸鏈路,PCIe鏈路的兩端只能各接入一個設備,設備識別數(shù)量有限,無法滿足有大量設備連接或需要高速數(shù)據(jù)傳輸?shù)膱鼍?,因此PCIeSwitch誕生。PCIeSwitch具備連接和交換雙重功能,可以讓一個PCIe端口識別和連接更多設備,解決通道數(shù)量不夠的問題,并可以將多條PCIe總線連接在一起,從而形成一個高速網(wǎng)絡,實現(xiàn)多設備通信,簡言之PCIeSwitch相當于PCIe的拓展器。GPU互聯(lián)時代,PCIe傳輸速率和網(wǎng)絡延遲無法滿足需求,NVLINK/CAPI/GenZ/CCIX/CXL等“百家爭鳴”時代開啟。AIGC的發(fā)展極大刺激算力需求的增加,GPU多卡組合成為趨勢,GPU互聯(lián)的帶寬通常需要在數(shù)百GB/S以上,PCIe的數(shù)據(jù)傳輸速率成為瓶頸,鏈路接口的串并轉(zhuǎn)換會網(wǎng)絡延時,影響GPU并行計算效率,還由于GPU發(fā)出的信號需要先傳遞到PCIeSwitch,PCIeSwitch涉及到數(shù)據(jù)的處理又會造成額外的網(wǎng)絡延時,此外PCIe總線與存儲器地址分離,每次訪問內(nèi)存會加重網(wǎng)絡延遲,因此PCIe協(xié)議在GPU多卡通信中效率并不高。為了將總線通信效率提升,降低延時,各家紛紛推出替代協(xié)議:CAPI協(xié)議:由IBM最早推出,后逐漸演化成OpenCAPI,本質(zhì)是現(xiàn)有高速I/O標準之上的應用程序擴展,添加了緩存一致性和更低延遲等內(nèi)容,但由于IBM服務器份額的持續(xù)下降,CAPI協(xié)議缺少用戶基礎,最終未能廣泛流傳。GenZ協(xié)議:GenZ是不依賴于任何芯片平臺的開放性組織,眾多廠家參與其中包括AMD、ARM、IBM、Nvidia、Xilinx等,GenZ將總線協(xié)議拓展成交換式網(wǎng)絡并加入GenZSwitch提高了拓展性。CXL協(xié)議(陸續(xù)兼并上述兩個協(xié)議):2019年由Intel推出,與CAPI協(xié)議思路類似,2021年底吸收GenZ協(xié)議共同發(fā)展,2022年兼并OpenCAPI協(xié)議,CXL具備內(nèi)存接口,逐漸成長為設備互連標準的重要主導協(xié)議之一。CCIX協(xié)議:ARM加入的另一個開放協(xié)議,功能類似GenZ但未被吸收兼并。NVLINK協(xié)議:英偉達提出的高速GPU互聯(lián)協(xié)議,對比傳統(tǒng)PCIe總線協(xié)議,NVLINK主要在三個方面做出較大改變:1)支持網(wǎng)狀拓撲目,解決通道有限問題;2)統(tǒng)一內(nèi)存,允許GPU共享公共內(nèi)存池,減少GPU之間復制數(shù)據(jù)的需要,從而提高效率;3)直接內(nèi)存訪問,不需要CPU參與,GPU可直接讀取彼此的內(nèi)存,從而降低網(wǎng)絡延遲。此外,為解決GPU之間通訊不均衡問題,英偉達還引入NVSwitch,一種類似交換機ASIC的物理芯片,通過NVLink接口將多個GPU高速互聯(lián),創(chuàng)建高帶寬多節(jié)點GPU集群。2023年5月29日,英偉達推出AI超級計算機DGXGH200,通過NVLink和NVSwitch連接256個GH200芯片,所有GPU連接成一個整體協(xié)同運行,可訪問內(nèi)存突破100TB。②多機互聯(lián):IB網(wǎng)絡與以太網(wǎng)絡并存分布式訓練下RDMA網(wǎng)絡成為最佳選擇,包含IB網(wǎng)絡和以太網(wǎng)絡。傳統(tǒng)的TCP/IP網(wǎng)絡通信是通過內(nèi)核發(fā)送消息,涉及較多數(shù)據(jù)移動和數(shù)據(jù)復制,不適用高性能計算、大數(shù)據(jù)分析等需要IO高并發(fā)、低時延的場景。RDMA是一種計算機網(wǎng)絡技術,可以直接遠程訪問內(nèi)存數(shù)據(jù),無需操作系統(tǒng)內(nèi)核介入,不占用CPU資源,可以顯著提高數(shù)據(jù)傳輸?shù)男阅懿⑶医档脱舆t,因此更適配于大規(guī)模并行計算機集群的網(wǎng)絡需求。目前有三種RDMA:Infiniband、RoCE、iWARP,后兩者是基于以太網(wǎng)的技術:Infiniband:是專為RDMA設計的網(wǎng)絡,從硬件級別保證可靠傳輸,具備更高的帶寬和更低的時延。但是成本高,需要配套IB網(wǎng)卡和IB交換機。RoCE:基于以太網(wǎng)做RDMA,可以使用普通的以太網(wǎng)交換機,成本較低,但是需要支持RoCE的網(wǎng)卡。iWARP:基于TCP的RDMA網(wǎng)絡,利用TCP達到可靠傳輸。相比RoCE,在大型組網(wǎng)的情況下,iWARP的大量TCP連接會占用大量的內(nèi)存資源,對系統(tǒng)規(guī)格要求更高??梢允褂闷胀ǖ囊蕴W(wǎng)交換機,但是需要支持iWARP的網(wǎng)卡。2.2.3現(xiàn)狀:AI的網(wǎng)絡新需求AI大模型的訓練和推理對網(wǎng)絡提出了有三大新的需求:超大規(guī)模、超高帶寬以及超長穩(wěn)定。1)超大規(guī)模-訓練快慢:規(guī)模的大小直接決定模型訓練的快慢。一個1750億的模型,如果采用2千張GPU,需要訓練100天以上。采用8千卡則可以把時間壓縮到30天左右。2)超高帶寬-效率:Allreduce帶寬直接決定大規(guī)模分布式下的整體效率。平均單GPU的Allreduce帶寬有5GB/s的時候,大規(guī)模分布式的整體加速比只有約70%;平均單GPU的Allreduce帶寬20GB/s才能獲得約90%的加速比,相當于單GPU跑滿400G網(wǎng)卡。3)超長穩(wěn)定-訓練不中斷:大模型訓練時長至少是幾個星期,長時間下的穩(wěn)定性尤為重要。穩(wěn)定性又可以細分為GPU可用性+網(wǎng)絡可用性:GPU可用性:根據(jù)百度智能云技術站測算,假定單GPU的月可用性是99.9%,那么在千卡規(guī)模下模型訓練一月內(nèi)遇到故障發(fā)生中斷的概率是60%,而如果采用8千卡中斷概率就有99%。即使GPU的可用性提升到99.99%,8千卡下的中斷概率仍然在50%左右。網(wǎng)絡可用性:存儲的讀寫性能也對大模型的訓練非常重要,這里面就包括了數(shù)據(jù)集的讀取以及訓練過程中checkpoint的讀寫。網(wǎng)絡必須保證更高的可用性,才能盡可能減少模型的訓練中斷,降低模型做checkpoint的頻率以及開銷。超長穩(wěn)定性能在三大基礎性能中,屬于必不可少的剛需地位,直接影響模型訓練和后續(xù)推理的延續(xù)性以及成功率。保持任務長時間不中斷對于大模型訓練至關重要,一旦硬件出現(xiàn)故障,在光模塊集群中容易造成“多米諾骨牌”式失誤,即演變成1*N個硬件出錯,影響模型訓練的整個流程,根據(jù)百度智能云技術站測算,一個可以承載16000卡的集群會有將近10萬個光模塊,假定一個模塊的MTBF(一個硬件設備在故障前的平均使用時長)是1千萬小時,由于模塊基數(shù)太大,哪怕是1000萬小時的MTBF,也會導致平均下來4天左右就會發(fā)生一個故障發(fā)生,在大基數(shù)背景下,單體的小概率事件會演變成總體的大概率事件。大模型訓練中,網(wǎng)絡極其復雜度,一些硬件故障無法被顯式直接感知,為保障模型訓練的長期穩(wěn)定性,各大平臺均在不同程度上應用智算可視化工具,對數(shù)據(jù)進行實時監(jiān)控采集。百度百舸平臺大模型配備兩大核心工具,任務可視化工具+故障診斷工具。其高精度可視化工具可以把一個任務的幾百上千個實例的監(jiān)控數(shù)據(jù)合并到一起來看,用于判斷任務是否正常訓練。openAI在訓練過程中加checkpoint保證連續(xù)性。在OpenAI和機器學習的背景下,checkpoint(檢查點)是指在訓練過程中保存的已訓練模型的特定時間點的版本,包含模型的權(quán)重、參數(shù)和其他重要信息。在訓練過程中加入checkpoint以后,一旦出現(xiàn)訓練中斷,可以隨時返回并使用已保存的checkpoint處的模型,無需從頭開始訓練。此外,checkpoint除了能提供恢復訓練功能,還有其他幾個作用,如實驗可重現(xiàn)性、模型評估、遷移學習等。2.2.4未來:網(wǎng)絡為主,可視化為輔面對AI大模型對算力網(wǎng)絡通信功能提出的新需求,核心在于網(wǎng)絡通信能力的提升,輔助以智算可視化等必備硬件。超大規(guī)模、超高帶寬、以及超長穩(wěn)定三大新需求,核心都在于網(wǎng)絡通信能力的提升,一方面可以采用英偉達全套架構(gòu),搭配以專業(yè)的IB網(wǎng)絡,另一條出路在于自研高規(guī)格的網(wǎng)絡架構(gòu),其本質(zhì)都是集中精力提升網(wǎng)絡性能。此外,輔助以核心硬件如網(wǎng)絡可視化,也是調(diào)優(yōu)的重要部分。在一個算力集群中,無論是使用以太網(wǎng)還是InfiniBand協(xié)議搭建通信網(wǎng)絡,數(shù)據(jù)都是以若干個包(packet)的形式進行傳輸。為了實現(xiàn)對通信網(wǎng)絡的流量監(jiān)控,避免網(wǎng)絡擁堵或硬件失效影響整個系統(tǒng)的效率,就需要實時監(jiān)測每條通信鏈路的的工作狀態(tài)。例如,在一個常規(guī)的三層網(wǎng)絡架構(gòu)中,有一種經(jīng)典的調(diào)優(yōu)方式DPFR(DataPlaneFastRecovery),可以做到毫秒級收斂。網(wǎng)絡調(diào)優(yōu)最核心的原理就是利用軟件或硬件技術抓取數(shù)據(jù)包進行分析。數(shù)據(jù)包的嗅探抓取分為軟件實現(xiàn)和硬件實現(xiàn)兩種路徑。以軟件實現(xiàn)的數(shù)據(jù)抓包最常用,國內(nèi)外知名產(chǎn)品有Wireshark(處理TCP/UDP)、Fiddler(處理HTTP/HTTPS)、tcpdump&windump、solarwinds、nast、Kismet等。以Wireshark為例,其基本工作原理是:程序?qū)⒕W(wǎng)卡的工作模式設置為“混雜模式”(普通模式下,網(wǎng)卡只處理屬于自己的MAC地址的數(shù)據(jù)包,混雜模式下,網(wǎng)卡會處理所有流經(jīng)的數(shù)據(jù)包),同時由Wireshark進行數(shù)據(jù)包的截獲、重發(fā)、編輯和轉(zhuǎn)存。軟件抓包會占用部分系統(tǒng)性能。首先,混雜模式下網(wǎng)卡處于“廣播模式”,會處理網(wǎng)絡下層收發(fā)的所有數(shù)據(jù)包,本身就會消耗網(wǎng)卡一部分性能;其次,軟件抓包不是在鏈路層串行或并行抓取,而是將數(shù)據(jù)包進行復制和存儲,占用了一部分CPU和存儲的資源。同時,類似Wireshark這種軟件大多只能做到對系統(tǒng)里的單一網(wǎng)絡節(jié)點進行流量監(jiān)控,難以覆蓋到全局網(wǎng)絡,適合被動的故障排除作業(yè),不適用于主動風險監(jiān)測。為不影響系統(tǒng)整體性能,并行或串行接入的軟硬件結(jié)合工具應運而生,常用的工具有DPI和DFI。DPI(DeepPacketInspection,深度報文檢測)是一種基于報文的應用層信息對流量進行檢測和控制的功能。DPI著重對應用層的分析,能夠識別各種應用及其內(nèi)容。當IP數(shù)據(jù)包、TCP或UDP數(shù)據(jù)流通過支持DPI技術的硬件設備時,設備會通過深入讀取報文載荷來進行重組和分析,從而識別整個應用程序的內(nèi)容,然后按照設備定義的管理策略對流量進行后續(xù)處理。DFI(Deep/DynamicFlowInspection,深度/動態(tài)流檢測)采用的是一種基于流量行為的應用識別技術,即不同的應用類型體現(xiàn)在會話連接或數(shù)據(jù)流上的狀態(tài)各有不同。DPI技術適用于需要精細和準確識別、精細管理的環(huán)境;而DFI技術適用于需要高效識別、粗放管理的環(huán)境。DPI/DFI由獨立硬件串/并接在物理層,不會影響物理層的性能表現(xiàn)。以浩瀚深度的DPI軟硬件產(chǎn)品為例,其可以部署在電信網(wǎng)絡的各層級網(wǎng)絡節(jié)點,同時通過SaaS/PaaS完成對各層級監(jiān)測節(jié)點數(shù)據(jù)收集、分析和呈現(xiàn)。DPI硬件串接或并接在通信物理層,通過鏡像數(shù)據(jù)包實現(xiàn)近乎無損的網(wǎng)絡監(jiān)測。DPI軟件嵌入在DPI硬件、獨立服務器或交換機/路由器中,實現(xiàn)網(wǎng)絡監(jiān)測。網(wǎng)絡可視化——流量監(jiān)控高效工具。流量監(jiān)控SaaS/PaaS用來實現(xiàn)對各層級DPI監(jiān)測節(jié)點的數(shù)據(jù)收集、分析和呈現(xiàn),將網(wǎng)絡數(shù)據(jù)以客戶和應用所需要的方式展示,幫助用戶精準掌握網(wǎng)絡運行情況,以及其中蘊含的有價值信息;同時結(jié)合大數(shù)據(jù)分析與挖掘、多維度數(shù)據(jù)關聯(lián)分析、流量控制和管理等手段,實現(xiàn)網(wǎng)絡管理、信息安全與商業(yè)智能的一類應用系統(tǒng),通常稱為網(wǎng)絡可視化。恒為科技進一步投入智算可視化研發(fā),從傳統(tǒng)網(wǎng)絡可視化、信創(chuàng)基礎產(chǎn)品,向智算基礎架構(gòu)方向積極擴展,新產(chǎn)品以及新技術研發(fā)持續(xù)推進,其中包括針對智算系統(tǒng)100G以太網(wǎng)/IB網(wǎng)、200G以太網(wǎng)/IB網(wǎng)的智算可視化運維系統(tǒng),以及100G類IB的低延時國產(chǎn)智算加速網(wǎng)卡和交換機系統(tǒng)。2.2.5模型調(diào)優(yōu)模型層面調(diào)優(yōu),亦或者是軟件層面調(diào)優(yōu),與我們平時所認為的例如對于游戲,軟件等等的性能優(yōu)化有一定區(qū)別。在當下模型快速迭代,參數(shù)戰(zhàn)爭依然如火如荼的當下,如何削減參數(shù),如何減少訓練時所需的GPU總數(shù)亦或是算力總量,并不是頭部玩家關注的重點,頭部玩家關心的是,如何讓自己重金投入的GPU集群快速達到滿載算力,從而進一步實現(xiàn)領先于對手的模型迭代與參數(shù)擴張。綜上,模型層面的調(diào)優(yōu),在當下的業(yè)界,可以理解為,如何通過模型架構(gòu)的設計,進一步壓榨GPU的性能,而并非壓縮模型的非必要環(huán)節(jié),從而節(jié)省模型的訓練所需的算力。當前的AI模型訓練過程主要基于兩個主要框架進行,即TensorFlow和PyTorch。這兩個框架除了給予AI訓練所必須的基本環(huán)境,包括了操作系統(tǒng)、工具和運算流程,也在壓榨GPU算力層面給予了較為完善的框架。模型訓練過程與我們?nèi)粘Ia(chǎn)中的流水線類似,即一個模型中有幾層訓練步驟,對應了生產(chǎn)線上有幾道工序。模型架構(gòu)層面優(yōu)化GPU使用能力的方法主要是并行,即對流水線的工人的任務分配或者流水線的優(yōu)化。模型層面的并行主要有兩種,第一種是數(shù)據(jù)并行,第二種是模型并行。首先,第一種數(shù)據(jù)并行。數(shù)據(jù)并行,是指將一層模型運算中所需要的數(shù)據(jù)切分至N張顯卡進行運算,N張顯卡運算出結(jié)果后,即可匯總進行下一層。模型并行指的是將一次模型訓練需要的N層運算,分別放入N張顯卡進行運算,但隨著模型體積愈發(fā)龐大,單個顯卡難以容納一整層的計算,所以模型并行在當下正在加速被數(shù)據(jù)并行所替代,數(shù)據(jù)并行的瓶頸則在于數(shù)據(jù)實時的切分與溝通,并行方式的變化,也在一定程度上,進一步提高了通信能力的重要性。此外除了框架或者訓練原理層面自帶的并行能力外,專用的訓練過程中調(diào)優(yōu)工具也進一步方便了用戶的使用,當下,全球模型訓練者使用的訓練調(diào)優(yōu)工具基本以微軟提供的開源工具庫Deepspeed為主,DeepSpeed通過將訓練數(shù)據(jù)預處理等方式,優(yōu)化了數(shù)據(jù)進入GPU的效率和所需空間,從而為發(fā)揮GPU集群性能或者提高小GPU訓練上限提供了解決方案。有了模型調(diào)優(yōu)層面的兩大工具,框架與Deepspeed,接下來的調(diào)優(yōu)便是利用這兩個環(huán)節(jié)提供的能力,進行經(jīng)驗的積累,例如數(shù)據(jù)并行的時候如何保證各個環(huán)節(jié)的先后順序,數(shù)據(jù)塊分配,如何利用Deepspeed進行進一步的數(shù)據(jù)處理等等,經(jīng)驗的積累會進一步加深各個頭部大模型廠商的訓練能力壁壘,從而使得大模型格局更集中。正如本節(jié)開頭所說,當下大模型時代,模型的算法層面調(diào)優(yōu),或者是去優(yōu)化模型訓練中所需要的算力與金錢性價比這種路線已經(jīng)逐漸式微。在過往的小模型時代,由于資金投入的有限,對于快速商業(yè)化的追求,行業(yè)內(nèi)和實驗室會更多的關注小算力下的小模型優(yōu)化。但是隨著以GPT為代表的大模型的橫空出世,重劍無鋒的參數(shù)、數(shù)據(jù)、算力堆疊,被業(yè)界逐漸認為是走向AGI的必經(jīng)之路,當下,模型算法層面的調(diào)優(yōu),模型性價比的提升可能會在一定程度上放緩,模型層面的進化,可能更多的會發(fā)生于訓練系統(tǒng)和工具庫層面如何去更好的調(diào)用GPU算力。2.3算力調(diào)度:全局最強輔助2.3.1What-算力調(diào)度是什么算力調(diào)度本質(zhì)上是將算力作為資源,進行資源分配和優(yōu)化的過程。從宏觀來看,算力調(diào)度是通過智能分配策略實現(xiàn)算力的靈活流動,解決國內(nèi)算力需求與資源分布不均的矛盾;從微觀來看,算力調(diào)度是對用戶的各種需求匹配合適的資源,根據(jù)不同業(yè)務場景對多樣性算力資源進行自動的需求匹配和調(diào)度。算力調(diào)度核心解決了算力資源供需不匹配的問題。算力調(diào)度主要用于解決算力供需矛盾、算力網(wǎng)絡傳輸問題、以及算力資源普惠問題,根據(jù)算力資源提供方的供給能力和應用需求方的動態(tài)資源需求,進行算力資源整合和分配,涉及基礎設施底層的計算、存儲、網(wǎng)絡等多維資源的一致性管理、一體化編排和統(tǒng)一調(diào)度。2.3.2Where-算力在哪里調(diào)度算力調(diào)度的場景較為廣泛,既可以按照產(chǎn)業(yè)鏈分為云與云之間、云和數(shù)據(jù)中心之間、云網(wǎng)端之間,也可以按照行業(yè)、地區(qū)、層級進行劃分,目前較為典型的兩個調(diào)度場景存在于跨區(qū)域和跨層級:跨區(qū)域調(diào)度:即“東數(shù)西算”,東部科技企業(yè)數(shù)量較多對算力的依賴性較高,且由于數(shù)據(jù)中心建設相對較早,缺乏統(tǒng)籌規(guī)劃,對需求估計不足,打通東西部算力資源、實現(xiàn)東西部算力協(xié)同,是建立在算力資源跨區(qū)域調(diào)度核心能力至上的??鐚蛹壵{(diào)度:算力不僅僅集中于數(shù)據(jù)中心,更是擴散到邊緣網(wǎng)關、甚至各類終端,因此云—邊—端的算力資源協(xié)調(diào)也稱為算力調(diào)度的重要應用場景之一。2.3.3How-如何實施算力調(diào)度目前尚處于逐步落地階段,具體實施步驟有待在執(zhí)行中逐漸完善,但是根據(jù)算力分布分散、需求具備多樣性和靈活性等特質(zhì),通常情況下算力調(diào)度至少需要包含三大步驟:整合多元異構(gòu)資源:算力調(diào)度首先需要標準化底層算力資源,如CPU、GPU、神經(jīng)網(wǎng)絡處理器等,建立度量模型,形成評估標準。然后,摸清算力調(diào)度區(qū)域的基礎設施和資源情況,整合不同所有方的閑置資源。搭建算力調(diào)度平臺:通過統(tǒng)一的平臺整合如實時感知、供需匹配、智能調(diào)度、服務運營和監(jiān)測管理等多種功能,平臺充當算網(wǎng)大腦,根據(jù)資源分布情況動態(tài)計算最佳調(diào)度策略,實現(xiàn)統(tǒng)一的算力交易和售賣。建立標準規(guī)范體系:標準規(guī)范體系包括算力交易、管理和安全規(guī)則,涉及產(chǎn)品定價、自動結(jié)算、賬本記錄、權(quán)利義務和可信服務機制。2.3.4Who-誰在參與算力調(diào)度平臺作為算網(wǎng)大腦,通過整合不同來源、類型和架構(gòu)的算力資源,按需調(diào)動分配算力,在算力發(fā)展中后期重要性將會進一步提升,目前國內(nèi)已經(jīng)涌現(xiàn)多個算力調(diào)度平臺,按照主導方的不同可以分為四大類,其中運營商算力調(diào)度平臺的基礎能力優(yōu)勢較為顯著:電信運營商主導平臺:由中國電信、中國移動、中國聯(lián)通牽頭或參與建設并運營的算力調(diào)度平臺,擁有強大的網(wǎng)絡基礎設施,能夠在全國范圍內(nèi)實現(xiàn)算力資源的高速互聯(lián),保障數(shù)據(jù)和算力的快速傳輸和穩(wěn)定運行。比如中國移動推出移動云智能算力調(diào)度平臺,中國電信天翼云下的“息壤”平臺即具備智能高效算力調(diào)度能力,中國聯(lián)通推出算網(wǎng)一體化編排調(diào)度體系進行算網(wǎng)資源的智能調(diào)配。地方政府主導平臺:由西部一些節(jié)點城市牽頭或建設運營的算力調(diào)度平臺,依托西部地區(qū)的自然資源和能源優(yōu)勢,建設低成本且符合低碳要求。比如貴州大數(shù)據(jù)與實體經(jīng)濟深度融合公共服務平臺,將建成面向全省專注于服務大數(shù)據(jù)與實體經(jīng)濟深度融合、數(shù)字化產(chǎn)業(yè)轉(zhuǎn)型的公共服務平臺。企業(yè)主導平臺:由部分互聯(lián)網(wǎng)或科技巨頭企業(yè)牽頭或參與的算力調(diào)度平臺,依托企業(yè)在AI、大數(shù)據(jù)、云計算等方面的技術積累和客戶積累,整合算力資源并實現(xiàn)跨區(qū)域、跨境、跨平臺的互聯(lián)互通和優(yōu)化配置。比如阿里云發(fā)布的洛神云網(wǎng)絡具備云企業(yè)網(wǎng)的全球化智能云網(wǎng)調(diào)度能力,中科曙光推出的曙光云計算平臺可提供云服務器、云存儲、云數(shù)據(jù)庫、云安全等服務。行業(yè)機構(gòu)主導型平臺:主要由行業(yè)機構(gòu)牽頭或參與參與的算力調(diào)度平臺,以強大的政策支撐力和行業(yè)影響力為基礎,促進算力資源的整合和共享,保證算力調(diào)度平臺的穩(wěn)定性和安全性。如中國信通院聯(lián)合中國電信發(fā)布全國一體化算力算網(wǎng)調(diào)度平臺可以實現(xiàn)跨資源池/跨架構(gòu)/跨廠商的異構(gòu)算力資源調(diào)度,目前已接入天翼云、華為云、阿里云等。3.軟件服務——海外先行,百花齊放,部署先行3.1軟件服務的三個方向:數(shù)據(jù)管理、模型落地、訓練可視化3.1.1數(shù)據(jù)管理模型微調(diào)的基礎是數(shù)據(jù)管理。優(yōu)質(zhì)的、結(jié)構(gòu)化的數(shù)據(jù)要素,推動大模型訓練向著高精確度、高安全性和垂直化專業(yè)化的方向前進?,F(xiàn)有的開源LLM稱為“預訓練模型”,也就是說其他人已經(jīng)收集了大量的訓練數(shù)據(jù)并提前訓練了模型,例如NVIDIANeMo和MetaLlama都是“多面手”,它們能流利地使用英各種語言,并且對各種話題都有不同程度的了解,但是礙于訓練時的數(shù)據(jù),這些LLM往往對某個專業(yè)領域不夠深入。以sno
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度年福建省高校教師資格證之高等教育心理學題庫練習試卷A卷附答案
- 2024年度山西省高校教師資格證之高等教育法規(guī)強化訓練試卷A卷附答案
- 2024年度年福建省高校教師資格證之高等教育學每日一練試卷B卷含答案
- 2024年數(shù)據(jù)采集傳輸系統(tǒng)項目資金籌措計劃書代可行性研究報告
- 2024年阿米妥投資申請報告
- 第21章 惡性腫瘤流行病學課件
- 2024年產(chǎn)權(quán)商鋪租賃買賣一體協(xié)議
- 2024合作社商用物業(yè)租賃協(xié)議范本
- 2024年農(nóng)藥采購協(xié)議:高效環(huán)保
- 2024年度玻璃鋼材質(zhì)化糞池購銷協(xié)議
- 服務與服務意識培訓課件
- 第5課《秋天的懷念》群文教學設計 統(tǒng)編版語文七年級上冊
- 二年級家長會語文老師課件
- 冬季安全生產(chǎn)特點及預防措施
- 視頻短片制作合同范本
- 結(jié)構(gòu)加固改造之整體結(jié)構(gòu)加固教學課件
- 高中數(shù)學-3.3 冪函數(shù)教學課件設計
- 抑郁癥與睡眠障礙課件
- 創(chuàng)新思維與創(chuàng)業(yè)實驗-東南大學中國大學mooc課后章節(jié)答案期末考試題庫2023年
- 第九講 全面依法治國PPT習概論2023優(yōu)化版教學課件
- 內(nèi)部控制學李曉慧課后參考答案
評論
0/150
提交評論