2023新型算力中心調(diào)研報告_第1頁
2023新型算力中心調(diào)研報告_第2頁
2023新型算力中心調(diào)研報告_第3頁
2023新型算力中心調(diào)研報告_第4頁
2023新型算力中心調(diào)研報告_第5頁
已閱讀5頁,還剩255頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

InfiniBand擴大規(guī)模 ),力網(wǎng)和東數(shù)西算。在《算力經(jīng)濟時代·數(shù)字中國萬里行2023新型算力1、從洞察算力到提出“算力經(jīng)濟”I22018年,有了“算力”這個名詞后,這一問題出現(xiàn)了轉(zhuǎn)折點。起初算I4綜上所述,圍繞算力本身產(chǎn)生的算力服務(wù)產(chǎn)業(yè)中,我們看到里面有芯另外一條路是人工智能內(nèi)容生成AIGC,包括大家在微信朋友圈里看到基于科學(xué)計算的深度學(xué)習(xí)怎么反哺科學(xué)計算、解決計算問題,AI范式提高了科學(xué)計算的精度,降低了成本。比如近年來,AlphaFold等人雜志上,Baker教授團隊帶來了蛋白質(zhì)設(shè)計的又一項革命性突破:利I6儲資源以及網(wǎng)絡(luò)資源的新型信息基礎(chǔ)設(shè)施。算力網(wǎng)絡(luò)體系包括算力度中I8一新的通用人工智能開始以更加高效的方式解決海量的開放式任務(wù),它更加接近人的智能,而且能夠產(chǎn)生有智慧的內(nèi)容,也帶來了新的研究強大的多模態(tài)基礎(chǔ)模型,通過強化學(xué)習(xí)和人的反饋,不斷解鎖模型而大規(guī)模深度學(xué)習(xí)模型的參數(shù)和數(shù)據(jù)量達到了一定量級,超大規(guī)模跡預(yù)測到行車規(guī)劃,上萬個算法模型需要同時完成高并發(fā)的并行計開始,人工智能算力成為主要增量,數(shù)字中國萬里行考察期間,小鵬汽車和阿里云共同發(fā)布在烏蘭察布合建當(dāng)時國內(nèi)最大的自動駕駛智算中心“扶搖”,專門用于自動駕駛模型訓(xùn)練,算力規(guī)模達的8個樞紐節(jié)點,出發(fā)點切合了國家后來提出“新基建”,路線選擇和洞察也與國家“東數(shù)西算”工程的規(guī)劃高度契合,深入實地對中里行2023年,中國云基礎(chǔ)設(shè)施服過去幾年,云計算行業(yè)均處于蓬勃發(fā)展階段,技術(shù)演進結(jié)合客戶需求釋放,推動市場規(guī)模加速增長,促使云服務(wù)商加大全球數(shù)據(jù)中心后,通貨膨脹推動公共云成本不斷上升,迫使企業(yè)客戶優(yōu)化公共云年全年,云基礎(chǔ)設(shè)施服務(wù)總支出從2021的1917億美元增長至同樣,SynergyResearchGroup的數(shù)據(jù)顯示,2022年第四季度全球企業(yè)在云基礎(chǔ)設(shè)施服務(wù)方面的支出超過610在一定程度上是意料之中的,但毫無疑問,當(dāng)前的經(jīng)濟環(huán)境也產(chǎn)生/newsroom/china-cloud-mark由互聯(lián)網(wǎng)轉(zhuǎn)向傳統(tǒng)企業(yè)。政企客戶對于云服務(wù)的安全、可控要求較作為算力的聚集點,云數(shù)據(jù)中心的規(guī)?;?yīng)使得算力得以普惠化,用戶按需采購算力、存儲、帶寬即可開展業(yè)務(wù)。隨著國內(nèi)大模型市場的快速發(fā)展對我國的基礎(chǔ)算力提出更高的要求,沒有算力基礎(chǔ),算法等發(fā)展難以為繼。此時,云計算廠商的算力基礎(chǔ)設(shè)施優(yōu)勢凸顯,大模型的爆發(fā)會導(dǎo)致訓(xùn)練的應(yīng)用場景越來越多,對訓(xùn)練的需求大幅增長,如何保證算力不衰減,對算力的高帶寬、存算一體等過官方微信公眾號官宣了旗下的超大規(guī)模語言模型;華為云也介紹中里行數(shù)據(jù)、機器學(xué)習(xí)等諸多領(lǐng)域的復(fù)雜系統(tǒng)性工程,需要有超大規(guī)模AI算力的商業(yè)應(yīng)用以及智算中心的發(fā)展。無論是智慧城市還是智能制多任務(wù)、多模態(tài)的能力需要強大的算力基礎(chǔ)設(shè)施,以數(shù)字中國萬里中里行超算算力是基于超級計算機等計算集群所提供各種互聯(lián)技術(shù)將多個計用所有被連接系統(tǒng)的綜合計算能力來處理大型計算問題,所以又通常被稱為高性能計算集群。算中心,多個省級超算過各種互聯(lián)技術(shù)將多個計算機系統(tǒng)連接在一起,利用所有被連接系統(tǒng)的綜合計算能力來處理大型計算問題,所以又通常被稱為高性能性能計算機性能TOP100排行榜來看,應(yīng)用于“算力服務(wù)”的系統(tǒng)工業(yè)/制造1%人工智能1%科學(xué)計算4%視頻3%政府1%教育科研3%金融3%互聯(lián)網(wǎng)1%電信1%超算中心18%能源/石油1%云計算4%大數(shù)據(jù)6%算力服務(wù)57%多樣性計算需求,加速算力格局變換?;趚86的通用計算繼續(xù)構(gòu)成5種加速器,并搭配以更為簡單易用、能夠降低部署和優(yōu)化難度中里行會期間,阿里云宣布搭載倚天710芯片的阿里云彈性計算實上線,從現(xiàn)場官方公布的數(shù)據(jù)來看,在新型云計算架構(gòu)體系下,倚的資源,作為現(xiàn)有部分適配難度較大的業(yè)務(wù)運行的非信創(chuàng)過渡資源在高性能計算領(lǐng)域,從全球來看,全球超級計算機TOP500排行榜架構(gòu)處理器的超級計算機建設(shè)計劃,Arm指令集兼容架構(gòu)有望成為核數(shù)2Armv8.2-A日本理研計Armv8.2-A日本東京大學(xué)信息技術(shù)Armv8.2-A日本宇宙航空工業(yè)振興Armv8.2-A日本名古屋大學(xué)信息技美國桑迪亞集兼容架構(gòu)的高性能處理器,面向高性能計算、大數(shù)據(jù)、分布式存儲和Arm原生應(yīng)用等場景,能夠充分發(fā)揮Arm指令集兼容架算力服務(wù)成為一種新的業(yè)態(tài),將通用計算、智能計算、并行計算等多樣性算力統(tǒng)一納管和調(diào)度,屏蔽不同硬件架構(gòu)差異,實現(xiàn)大規(guī)模異構(gòu)中里行現(xiàn)高精度到低精度算力的全覆蓋、多種計算類型的全覆蓋,以及AI從“東數(shù)西存”到“東數(shù)西算”,促使更多行業(yè)和企業(yè)重視數(shù)據(jù),帶動數(shù)據(jù)存儲、管理、使用的需求增長。用戶對數(shù)據(jù)存儲容量、數(shù)據(jù)傳輸速度、硬件設(shè)備性能略價值被大家認(rèn)同,東數(shù)西算是“全國一體化算力網(wǎng)絡(luò)”下轄的動數(shù)據(jù)存儲、管理、使用的需求增長。用戶對數(shù)據(jù)存儲容量、數(shù)在服務(wù)器中,大容量機械硬盤是海量數(shù)據(jù)的有效載體。機械硬盤的容量在持續(xù)增長。數(shù)字中國萬里行發(fā)現(xiàn),目前希捷的企業(yè)級銀設(shè)計、噪音振動等挑戰(zhàn)接踵而至,對服務(wù)器架構(gòu)的設(shè)計提出了更高的要求,硬盤廠商與服務(wù)器廠商需要更緊密協(xié)作,尋求硬盤和而在有些場景中,機械硬盤無法滿足現(xiàn)代工作負(fù)載對于數(shù)據(jù)訪問增加空間、電源、散熱和備件更換方面的成本。為了追求更高的帶寬、更短的延遲,SSD的應(yīng)用日趨廣泛。SSD擅長應(yīng)用在高展速度,但到目前為止,SSD的單位容量價格依然與硬盤有著數(shù)量級的差距。SSD與硬盤各自的特點需要各自繼續(xù)發(fā)展,而彼此中里行從硬盤角度,值得一提的是希捷的熱輔助磁記錄技術(shù)(英文縮寫為HAMR硬盤在讀寫速度、性能、可靠性、穩(wěn)定性等方面均表現(xiàn)卓根據(jù)希捷最新公布的技術(shù)路線圖,HAMRSSD的發(fā)展也多面開花。其一,通過接口、控制器的迭代(如正在層產(chǎn)品的論文。其三,NAND的多值化進一步提升了SSD的容量“隱形維度”?!稊?shù)字中國建設(shè)整體布局規(guī)劃》明確,數(shù)字中國建設(shè)按照“2522”地緣政治事件,45%的國家政府將認(rèn)為“數(shù)字主權(quán)對于保中里行2026年,買家將優(yōu)先考慮基主權(quán)、業(yè)務(wù)可用主權(quán)、供應(yīng)鏈主權(quán)和地域主權(quán)。通過多個層次的建設(shè),達到數(shù)字主到自生(Survivability)。注釋:G5000指的是global5000,就是全球5000強的大公司。安全效果不能依靠單一技術(shù)或產(chǎn)品來解決,需要依靠“系統(tǒng)論”原生安全產(chǎn)品、合規(guī)安全等構(gòu)建可信云原生安全架構(gòu)??尚旁圃ㄟ^構(gòu)建自主可控的算力調(diào)度服務(wù)平臺,逐管,系統(tǒng)優(yōu)化算力基礎(chǔ)設(shè)施布局,對通用算力、超算、智算、邊數(shù)據(jù)和人工智能是數(shù)實融合的關(guān)鍵,數(shù)智能設(shè)施,構(gòu)建云、網(wǎng)、智、算融合體系的數(shù)字經(jīng)濟基礎(chǔ)底座。加大網(wǎng)信產(chǎn)業(yè)資源,中國電子云能夠縱向打穿整個自主計算產(chǎn)業(yè)生態(tài)鏈,通過跨產(chǎn)線、跨企業(yè)的組合性產(chǎn)品解決方案,將各個單點優(yōu)勢再結(jié)合,形成電子云的整體優(yōu)勢,以云化形式對外輸出中國電原生安全三大關(guān)鍵技術(shù)優(yōu)勢的全棧分布式云,不斷提升專屬云運燕架構(gòu)”共同支撐,提供統(tǒng)一技術(shù)服務(wù)底座。其中,云管理平臺管平臺的全Operator化;基于容器操作系統(tǒng)實現(xiàn)計算虛擬化產(chǎn)滑線性進化,同時在多集群管理、多集群調(diào)度,以及在性能、損中里行東數(shù)西算是促進綠色節(jié)中和目標(biāo)的重要手段?!皷|數(shù)西算”工程聚焦模化、綠色化方面著重發(fā)力,支持高效供配電技術(shù)、制冷技術(shù)、節(jié)能勵自發(fā)自用、微網(wǎng)直供、本地儲能等手段提耗和靈活性等方面具有優(yōu)勢。例如,通過對大數(shù)據(jù)計算集群基于.落實“云數(shù)融合”。中國電子云”現(xiàn)有產(chǎn)品體系包含三層,一是提供算力基礎(chǔ)平臺的產(chǎn)品,包括專屬云CECSTACK、超融合在業(yè)務(wù)層可提供各種商業(yè)模式和業(yè)務(wù)架構(gòu)的分布式云全棧全域解決方案,包括運營云、專屬云、分支云、邊緣云等。同時產(chǎn)品性強算力通常意味著高能耗。當(dāng)數(shù)據(jù)中心的算耗也在增加。在雙碳背景下,數(shù)據(jù)中心迎來轉(zhuǎn)強算力通常意味著高能耗。當(dāng)數(shù)據(jù)中心的算力大幅度提升,CPU/傳統(tǒng)風(fēng)冷冷卻技術(shù)成熟,冷板式冷卻技術(shù)對數(shù)據(jù)中心架構(gòu)和機柜結(jié)構(gòu)所需改變較少,未來一段時間內(nèi),風(fēng)液混合成為數(shù)據(jù)中心首選。中里行浸沒式液冷技術(shù)需要對數(shù)據(jù)中心架構(gòu)做較大調(diào)整,更適合新建設(shè)的據(jù)中心分布式光伏項目已經(jīng)全容量并網(wǎng)發(fā)電。該項目充分利用8棟大平層機房樓的屋頂面積,共計安裝光伏組件2萬目。每個屋頂還配有光伏組件自動清洗機器人,保持光伏組件清潔人工智能大模型還是數(shù)字經(jīng)濟持續(xù)發(fā)展,對算力中心提出更高的挑超算系統(tǒng)追求完成(特定)任務(wù)所需的算力和效率,為其構(gòu)建的數(shù)據(jù)中心(超算中心)通常規(guī)模不是很大但具有很高的密度。從數(shù)據(jù)中心建設(shè)的角度,我們可以把云計算中心視為超算中心在通用算力方向上的大規(guī)?;虺笠?guī)模版本,而智算中心與超算計算機界“皇冠上的明珠”,合稱ABC的人工智能(Artificial中里行作為big.LITTLE技術(shù)的發(fā)明者,Arm把異構(gòu)核的理念帶入服務(wù)器內(nèi)存密集型應(yīng)用程序的系統(tǒng)提供盡可能高的.NeoverseN系列關(guān)注橫向擴展性能,提供經(jīng)過優(yōu)化的平衡的中里行如果把應(yīng)用場景限定在規(guī)模較大的云計算中心和智算中心、超算中),.定于2023年第四季度推出的第五代英特爾至強可擴展處理器第五代英特爾至強可擴展處理器與第四代共平臺,易于遷移,而各自增加核心數(shù)則是共識。CPU核心數(shù)量的持續(xù)增長要求更高的內(nèi)升晶體管密度的過程中,困難實在太多了,尤其是EUV(Extreme光刻技術(shù)之外的創(chuàng)新重新喚起了業(yè)界對半導(dǎo)體未來發(fā)展速度的期創(chuàng)造Chiplet這個概念,其實是向以往單一追求晶體管微之后十年并未復(fù)現(xiàn)。而現(xiàn)在的Chiplet,則是一條明確的長期演1、高性能、高并發(fā)的需求使得數(shù)據(jù)中心、超算等領(lǐng)域?qū)υ黾雍藨?yīng)商都會傾向于將晶體管數(shù)量和裸晶面積堆砌到工程上難以負(fù)高性能、高并發(fā)的需求使得數(shù)據(jù)中心、超算等領(lǐng)域?qū)υ黾雍诵囊?guī)模和級供應(yīng)商都會傾向于將晶體管數(shù)量和裸晶面積堆砌到工程上難以負(fù)荷的程度。通過微縮減少裸晶面積、降低單位成本,并不是高性能產(chǎn)品中里行2、28nm制造工藝之后,微縮已經(jīng)無法降低單位晶體管的生產(chǎn)c)存儲器件介于上述二者之間,且主流存儲器本質(zhì)上是電容,即便使用先進工藝,也不能獲得如邏輯器件那樣顯而高性能處理器對存儲帶寬及容量、I/O帶寬及數(shù)量的要求也越來越高,SRAM、存儲控制器、I/O控制器及PHY(物理層3、Chiplet的芯??梢詰?yīng)用到多款產(chǎn)品上,增加了產(chǎn)品開發(fā)的中的半數(shù)要水平旋轉(zhuǎn)180°,以保證4個CCD上的8個DDR內(nèi)存代英特爾至強可擴展處理器就已經(jīng)或主動或被動的歸類為Chiplet中里行),.獨立優(yōu)化:可以按照I/O、運算、存儲(SRAM)的不同要求分別選擇成本適宜的制程,譬如代號Genoa(熱那亞)的第四代.高度靈活:1個IOD可以搭配數(shù)量不等的CCD,以提供不同的如果將這個CCD看作8核的CPU,IOD看作原),微縮到封裝里的八路服務(wù)器,用這種方法構(gòu)建64核,難度比在單中里行第二至四代EPYC以IOD為中心連接多個較小規(guī)模的CCD,是比PCIe、內(nèi)存控制器的數(shù)量比較容易;劣勢是任意核心與其他資源的距離太遠(yuǎn),帶寬和時延會受限。在AMD享有明顯的制程優(yōu)勢(并作為x86陣營的帶頭大哥,英特爾從開啟至強可擴展處理器系列至),(2D)Mesh是水平(X)和垂直(Y)方向的連線組成的二維交Cache、DDR/PCIe控制器等設(shè)備。出于布線方便等考慮,內(nèi)存控制器、PCIe控制器、UPI/CCIX等負(fù)責(zé)對外I/O的設(shè)備都布置在最隨著矩陣規(guī)模的擴大,居中的核心訪問I/O資源的路徑也會有所延長,但通過增加I/O資源數(shù)量并優(yōu)化其分布及訪問策同樣是網(wǎng)格架構(gòu),Arm和英特爾在細(xì)節(jié)上還是有些值得注意CMN-700每個交叉點上的設(shè)備從CMN-600的2個增加到2片(slice)L3緩存,在矩陣邊上的節(jié)點還很可能會連接內(nèi)中里行英特爾至強可擴展處理器的每個(非I/O)節(jié)點上只有1個CPU核心及其對應(yīng)的L3Cache,考慮到每個CPU核心支持超線程Graviton、Ampere在服務(wù)器CPU市場似乎構(gòu)計算的興起,Arm在力基礎(chǔ)設(shè)施中的影響力偉達加入戰(zhàn)團,Arm在服務(wù)器CPU領(lǐng)域有望從遜、高通、華為等企業(yè)都推出了基于Arm指令集的服務(wù)器CPU。隨著亞馬遜的Graviton、AmpereAltra等系列產(chǎn)品逐漸在市場站穩(wěn)了腳跟,Arm在服務(wù)器CPU市場漸入佳境。而且,隨著異構(gòu)計早在2021年,英偉達就對外介紹了基于ArmNeoverse架構(gòu)的目前還沒看到NVIDIAGrace晶體管規(guī)模的相關(guān)資料,不妨先參照兩位“前輩”的數(shù)據(jù)。據(jù)推測基于ArmNeoverseV1的AWSNVIDIAGraceHopper超級芯片的渲染圖看,Grace的芯片面積與Hopper近似,而已知后者為800億晶體管,二者均基于臺積電N4制程節(jié)點。據(jù)此推測72核的Grace芯片的晶體管規(guī)模大于等系統(tǒng)I/O控制器)之間提供3.2TB/s的分段帶寬。網(wǎng)格的節(jié)點緩存分區(qū))。但從示意圖來看,位于網(wǎng)格角落的4個CSN連接的核心和2個SCC。整體而言,Grace的網(wǎng)格內(nèi)應(yīng)該有80個核心和76個SCC,其中8個核心應(yīng)該是出于良率等因素而屏蔽。而網(wǎng)格外圍“缺失”的4個核心和8個SCC對應(yīng)的位置被用于連接NVIDIAGrace支持Arm的許多管理特性,譬如服務(wù)器基礎(chǔ)系統(tǒng)架構(gòu)(SBSA)、服務(wù)器基礎(chǔ)啟動要求(SBBR)、內(nèi)存分區(qū)與監(jiān)控中里行題。高優(yōu)先級的任務(wù)可以優(yōu)先占用L3緩存,或者根據(jù)虛擬機預(yù)先V2)的實例,再加上其必將獲得自家GPGPU的深厚實力界從一開始就給予了高度關(guān)注,期待其在超算、機器學(xué)習(xí)等領(lǐng)域的可以說是全方位的,包括基于Armv9-A指令集、更高的性能和微架構(gòu)能效,加上更多的核心數(shù)和更大的L3緩存,NVIDIA英偉達畢竟是Arm服務(wù)器CPU領(lǐng)域的新手,在這方面資深的AmpereComputing(安晟培半導(dǎo)體)經(jīng)過多代產(chǎn)品積累之后,在2023年5月中正式發(fā)布擁有192個單線程自研核的AmpereOne系列處理器,這個核心數(shù)量也創(chuàng)下了(主流)服AmpereOne采用臺積電5nm制程,提供的Ampere(A1)一點與NeoverseV2(的上限)相當(dāng),達到AmpereAltra和中里行由于每個核心相對不那么復(fù)雜,又采用了比較先進的制片加上內(nèi)存的TDP“才”500瓦,即單個(需求。我們認(rèn)為,這種布局也與網(wǎng)格架構(gòu)的特性有關(guān),我們接下來流行的Chiplet技術(shù)并不出人意料。目前比較普遍的推測是做法與與EPYC家族的架構(gòu)比,網(wǎng)格架構(gòu)的整體性比較強,天生的單體式網(wǎng)格架構(gòu)必須考慮交叉點(節(jié)點)的利用率問題,如果有太多的交以初代英特爾至強可擴展處理器為例,為了滿足從4~28個的核中里行非增加die的構(gòu)型,而這又離不開公司規(guī)模和出貨量的支持——量英特爾認(rèn)為(XCC版)的第四代英特爾至強可擴展處理器4個die拼接的效果是一個準(zhǔn)單體式(quasi-m不難理解,常見的網(wǎng)格架構(gòu)就是如此,第四代英特爾至強可擴展處加速器(DSA/QAT/DLB/IAAUPI中里行如果沒有采用Chiplet技術(shù),XCC版本的第四代英特爾至強可擴展如果直接把這個單體式的die四等分,那每一部分就應(yīng)該是一個但事實是這4個die要連為一體,就要為它們增加一行一列的連接片互連橋接)是英特爾用于實現(xiàn)2.5D封裝的技術(shù)。第四代英特爾至強可擴展處理器內(nèi)部封裝了4個XCC的die,每個die擁有14面EMIB互聯(lián)的具體帶寬,我們僅能從工藝角度獲知EMIB互聯(lián)總),我們可以通過間接的方式進行估算。每die的4條EMIB對應(yīng)/s相鄰兩個XCC之間的互聯(lián)為600GB/s~1TB/s(左右向6中算存互連中算存互連屬。不過,既然都分級的一部分,需要為占地面積發(fā)愁的,主要是L3“東數(shù)西存”是“東數(shù)西算”的基礎(chǔ)、前奏,還是子集?這牽涉到數(shù)據(jù)在人口密集的東部產(chǎn)生,在地廣人稀的西部存儲,主要的難點計算需要頻繁的訪問數(shù)據(jù),在跨地域的情況下,網(wǎng)絡(luò)的帶寬和時延與數(shù)據(jù)的傳輸和計算相比,存儲不算耗能,但很占地。核心區(qū)域永遠(yuǎn)是稀缺資源,就像核心城市的核心地段不會用來建設(shè)超大規(guī)模數(shù)“東數(shù)西算”并非一日之功,超大規(guī)模數(shù)據(jù)中心與核心城市也是漸行漸遠(yuǎn),而且不是越遠(yuǎn)越好。同理,圍繞CPU早已構(gòu)筑了一套分層的存儲體系,雖然從Cache到內(nèi)存都是易失性的存儲器(Memory),但往往越是那些處于中間狀態(tài)的數(shù)據(jù),對訪問時延的要求越高,也就需要離核心更近——如果真是需要長期保存的數(shù)和L2Cache已經(jīng)屬于核心的一部分,需要為占地面積發(fā)愁的,主當(dāng)時業(yè)界便留意到一個問題:芯片的邏輯密度提高了1.84倍,而的論文還展示了2011~2019年SRAM面積的演進過程。在下圖中里行之后,SRAM面積的縮減近乎停滯,即使應(yīng)用了EUV技術(shù),改善程的SRAM單元面積為0.0199平方微米,相比N50.021平方微米,只縮小了5%。更要命的是,由于良率和成本問積極引入新制程生產(chǎn)CCD的AMD對SRAM成本的感受顯然比較AMD當(dāng)前架構(gòu)面臨內(nèi)存性能落后的問題,其原因包括核心數(shù)量較多導(dǎo)致的平均每核心的內(nèi)存帶寬偏小、核心與內(nèi)存的“距離”較遠(yuǎn)緩存芯片通過混合鍵合、TSV(ThroughSiliconVias,硅通孔)工藝與CCD(背面)垂直連接,該單元包含4個組成部分:最下層的CCD、上層中間部分L3D,以及上層兩側(cè)的支撐結(jié)構(gòu)——采用硅材質(zhì),將整組結(jié)構(gòu)在垂直方向找平,并將下方CCX(CoreAMD在Zen3架構(gòu)核心設(shè)計之初就備了這一手,預(yù)留了必要的邏輯電路以及TSV電路,相關(guān)部分大約使CCD中里行側(cè)的布局,另一方面是考慮到(L3)Cache的功率密度相對低于為8個切片,每片8MB。兩組Cache的每個切片之間是1024個隨著Zen4架構(gòu)處理器進入市場,第二代3DV-Cache也粉墨登場,其帶寬從上一代的2TB/s提升到2.5TB/s,容量依舊為64MB,制程依舊為7nm,但面積縮減為36mm2。縮要是來自TSV部分,AMD宣稱基于上一代積累的經(jīng)驗和改進,在),改進也確實是相當(dāng)明顯。代價方面,3DV-Cache限制了處理器整體功耗和核心頻率的提升,在豐富了產(chǎn)品矩陣的同時,用戶需要根對于數(shù)據(jù)中心,核數(shù)是硬指標(biāo)。表面上,目前竟一片L3D只有幾十平方毫米的大小。但其他高性能處理器的內(nèi)核尺直方向堆疊SRAM似乎的外形兼容性。堆疊于處理器頂部是兼容性最差的形態(tài),堆疊于側(cè)面的性能會有所限制,堆疊于底部則需要3D封裝的進一步普及。對于第三種情況,使用硅基礎(chǔ)層的門檻還是比較高的,可以看作是Chiplet的一個重大階段。以目前AMD通過IC載板布線水平封裝但其他高性能處理器的內(nèi)核尺寸比CCD大得多,在垂直方向堆疊SRAM似乎不太匹配。但實際上,這個是處理器內(nèi)部總線的特征決中里行緩存容量的問題,本質(zhì)上是彌補內(nèi)存的性能落差。SRAM快但是),提升DRAM性能的一種比較著名的嘗試是eDRAM(embedded這種愛好蔓延到了IBMZ15這樣的主機處理器。2019年發(fā)布的Z2壓力面前都會被壓榨到極限,eDRAM的單位成本雖低,也架不住△Z15△Z15中央處理器在處理器外部,eDRAM并非業(yè)界廣泛認(rèn)可的標(biāo)準(zhǔn)化產(chǎn)品,市場規(guī)HBM的好處都是通過與CPU核心中里行隨后三星、美光、NVIDIA、Synopsys等企業(yè)積42/4/84/8/124/8/12/16典型的實現(xiàn)方式是通過2.5D封裝將HBM與處理器核心連接,這在CPU、GPU等產(chǎn)品中均有應(yīng)用。早期也有觀點把HBM視作L4算卡在單一封裝內(nèi)集成了2顆計算核心和8顆HBM2e,容量共華為的昇騰910處理器也集成了4顆HBM。對于計算卡、智能網(wǎng)CPU也已開始集成HBM,其中最突出的案例是曾經(jīng)問鼎超算英特爾在2023年1月中與第四代至強可擴展處理器一同推出的至強Max系列,在前者的基礎(chǔ)上集成了64GB的HBM2e。這些HBM2e可以作為內(nèi)存獨立使用(HBMOnly模式),也可中里行值得一提的是,目前HBM與處理器“組裝”在一起都需要借助硅中介層。傳統(tǒng)的ABS材質(zhì)基板等難以勝任超高密度的觸點數(shù)量和高頻率。但硅中介層有兩種技術(shù)思路,代表是臺積電的CoWoS被稱為硅基礎(chǔ)層,因為中介層會完全承載其他芯片。換句話說,處理器和若干HBM的投影面積決定了硅基礎(chǔ)層的大小,而基礎(chǔ)層的面積會限制HBM的使用數(shù)量(常見的就是4顆)。硅中介層使用65nm之類的成熟工藝制造,其成本并不高昂,但尺寸受限于光刻是高性能的大芯片,而大芯片的規(guī)模本身就已經(jīng)逼近了掩膜尺寸極限,給HBM留下的面積非常有限。到了2016年,臺積電終于突破了這個限制,實現(xiàn)1.5倍于掩模尺寸的中介層,從此單芯片內(nèi)部英特爾認(rèn)為只需要通過硅中介層連接內(nèi)存和處信號依然可以直通基板。用了硅中介層和有機載板的技術(shù)特點和電氣特性,但也存在組裝成本毫米。硅中介層的面積如此發(fā)展,下一個瓶頸就是硅晶圓的切割效另一種思路是英特爾的EMIB,使用的硅中介層要小得多。以第四代英特爾至強可擴展處理器的渲染圖為例,棕色的小方塊就是結(jié)合HBM的架構(gòu)示意圖可以看出,英特爾認(rèn)為只需要通過硅中介體而言,EMIB充分利用了硅中介層和有機載板的技術(shù)特點和電氣特性,但也存在組裝成本高的缺點(需要在有機載板中鑲嵌,增加當(dāng)然,對于更復(fù)雜的“組裝”,英特爾也有對應(yīng)的方案,如代號制造工藝生產(chǎn)的47個小芯片,其中的基礎(chǔ)層(BaseDie)的面積中里行英特爾數(shù)據(jù)中心MaxGPU系列引入了BaseTile的概念,姑且稱之為基礎(chǔ)芯片。相對于中介層的概念,我們也可以把基礎(chǔ)芯片看做是基礎(chǔ)層?;A(chǔ)層表面上看與硅中介層功能類似,都是承載計算核質(zhì)是利用成熟的半導(dǎo)體光刻、沉積等工藝(65nm等級),在硅上形成超高密度的電氣連接。而基礎(chǔ)層更進一步:既然都要加工多層△△中里行Tile)。計算芯片采用臺積電N5工藝制造,每顆芯片自有4MBOptimized”的縮寫,即為帶寬優(yōu)化的隨機訪問存儲器。獨立的因此,在英特爾數(shù)據(jù)中心MaxGPU中,基礎(chǔ)芯片通過Cache交前面已經(jīng)提到,I/O芯片獨立是大勢所趨,共享Cache與I/O拉近也是趨勢。英特爾數(shù)據(jù)中心MaxGPU將Cache與各種高速I/O的PHY集成在同一芯片內(nèi),正是前述趨勢的集大成者。通過EMIB(爆炸圖中的橙色部分)連接在一起。根據(jù)英特爾在HotChips上公布的數(shù)據(jù),英特爾數(shù)據(jù)中心MaxGPU的L2Cache總帶寬可以達到13TB/s??紤]到封裝了兩組基礎(chǔ)芯片和計算芯片,我們給帶寬打個對折,基礎(chǔ)芯片和4顆的L2、L3Cache的帶寬。其實之前AMD已經(jīng)通過指甲蓋大小的3DV-Cache證明了3D封裝的性能,那就更不用說英特爾數(shù)據(jù)中中里行回顧一下3DV-Cache的弱點——“散熱”不良,我們還發(fā)現(xiàn)將Cache集成到基礎(chǔ)芯片當(dāng)中還有一個優(yōu)點:將高功耗的計算核心安再往遠(yuǎn)一些看,在網(wǎng)格化的處理器架構(gòu)中,L3Cache并非簡單的若干個塊(切片),而是分成數(shù)十甚至上百單元,分別掛在網(wǎng)格節(jié)中的SRAM可以分成等量的單元與處理器的網(wǎng)格節(jié)點相連。換句話說,對于網(wǎng)格化的處理器,將L3Cache移出到基礎(chǔ)芯片是有合的量級,足夠勝任每平方毫米內(nèi)數(shù)百至數(shù)千個連接的需要,可以滿足當(dāng)前網(wǎng)格節(jié)點帶寬的需求。更高密度的連接當(dāng)然也是可行的,10微米甚至亞微米的技術(shù)正在推進當(dāng)中,但優(yōu)先的場景是HBM、3DNAND這種高度定制化的內(nèi)部堆棧的混合鍵合,未必適合ChipletChiplet的優(yōu)勢已經(jīng)獲得了充分的驗證,接下來的問題就是通用化、標(biāo)準(zhǔn)化。通過標(biāo)準(zhǔn)化,來自不同供應(yīng)商的芯片可以更容易地實需要分別集成到不同客戶的芯片中,也不需要適配太多版本的生產(chǎn)在此愿景之下,2022年3月,通用處理器市場的核心玩家Intel、AMD、Arm等聯(lián)合發(fā)布了新的互聯(lián)標(biāo)準(zhǔn)UCIe(Universal與CXL的協(xié)同,說明UCIe的目標(biāo)不僅僅是解決芯片制造中的互聯(lián)互通問題,而是希望芯片與設(shè)備、設(shè)備與設(shè)備之間的交互是無縫package)和Rackspace(Offpackage)。中里行隨著新一代Arm和x86架構(gòu)服務(wù)器處理器平臺(第四代英特爾至跨設(shè)備讀寫數(shù)據(jù)時,在操作延遲期間,內(nèi)存數(shù)據(jù)可能已經(jīng)發(fā)生變化,因此需要額外加入驗證過程,這增加了指令復(fù)雜度和延遲。中里行過去十年間,CPU的核心數(shù)量從8~12個的水平,增長到了60乃通道。每通道的內(nèi)存在此期間也經(jīng)過了三次大的迭代,帶寬大概增加過去十年間,CPU的核心數(shù)量從8~12個的水平,增長到了60乃至96核,Arm已有192核的產(chǎn)品,而每插槽CPU的內(nèi)存通道數(shù)僅從4通道增加到8或12通道。每通道的內(nèi)存在此期間也經(jīng)過下降,每核心可以分配的內(nèi)存容量和內(nèi)存帶寬其實也有所下降。這為什么增加內(nèi)存通道如此緩慢?因為增加內(nèi)存通道不僅僅需要增加芯片面積,還需要擴展對外接口,在電氣連接方式?jīng)]有根本性改變的情況下,觸點數(shù)量的大量增加會導(dǎo)致CPU封裝面積劇增。10年前的英特爾至強(IntelXeon)處理器的LGA2011封裝尺寸為質(zhì)量的難度加大。CPU插槽面積增加、內(nèi)存槽數(shù)量增通過CXL擴展內(nèi)存,可以將CPU與內(nèi)存從沿革多年的緊耦合關(guān)系變?yōu)樗神詈?,利用PCIe/CXL通道的物理帶寬增加內(nèi)存總帶寬,而不僅僅限于內(nèi)存控制器自身的通道總數(shù)(即使前者的帶寬相對較低,但也是增量),利用機箱的立體空間容納更大容量的內(nèi)存,而△CXL內(nèi)存中里行這是由于內(nèi)存的分配是客戶按照預(yù)設(shè)的實例配置租用資源時,每個核存,譬如2GB。當(dāng)主機考慮到人工智能,尤其是機器學(xué)習(xí)領(lǐng)域的發(fā)展,模型容量在過去5年間大致增加了50倍,內(nèi)存容量的擴展方式確實值得突破一下。不過這也不是一蹴而就的,畢竟第四代英特爾至強可擴展處理器每插槽CPU只支持4個CXL設(shè)備,給計算卡之類的一分就沒了。所理器大核確實多,而且不論單路還是雙路處理器,內(nèi)存槽上限都是總之,不論這兩家通用處理器具體各懷啥心思,CXL的第一輪普及工作就是不盡如人意,顧此失彼。甚至現(xiàn)在還不到糾結(jié)內(nèi)存擴展的EDSFF,初步形成生態(tài)環(huán)境,就算是成功。至于內(nèi)存的大事情,且雖然增加了一些訪問延遲,但會降低內(nèi)存的總數(shù)據(jù)中心而言也是數(shù)以億計的資金節(jié)約。微軟預(yù)計通過CXL和內(nèi)存池這個階段將構(gòu)建機柜級的資源池化。這其中的好處多多,此處主要有約50%的服務(wù)器的實際內(nèi)存利用率不到一半。這是由于內(nèi)存的分配是與CPU核心綁定的,當(dāng)客戶按照預(yù)設(shè)的實例配置租用資源核心數(shù)量被分配完畢后,未被搭配的內(nèi)存便被閑置了。考慮到預(yù)先=16GB內(nèi)存將會被閑置。如果服務(wù)器核心未被充分利用,被閑置由此,無從分配的、未被分配的、分配但未充分使用的,這三種性由此,微軟提出通過內(nèi)存池來解決這個問題。各主機搭配容量較少如果減少10%的內(nèi)存搭配數(shù)量,對于大型數(shù)據(jù)中心而言也是數(shù)以除了節(jié)約總內(nèi)存投入,內(nèi)存池化還可以帶來內(nèi)存持久化、內(nèi)存故障其次,CXL3.0增加了對二層交換機的支持,也就是葉脊(Leaf-Spine)網(wǎng)絡(luò)架構(gòu),資源池化也不再局限于內(nèi)存,而是可以實現(xiàn)中里行CXL2.0實現(xiàn)的是機柜內(nèi)的池化,CXL3.0除了可以在一個機柜內(nèi)實現(xiàn)計算資源和存儲資源的解耦和池化,還可以在多個機柜之間建立更大的資源池。跨主機、跨機柜調(diào)度規(guī)模巨大的計算資源,已經(jīng)當(dāng)然,CXL3.0依舊暫時還未落地,而NVIDIA新一代的系統(tǒng)已經(jīng)確實不需要再去(替其他設(shè)備)管理那么多本地內(nèi)存。畢竟,計算更高效的計算資源存在,而不再負(fù)擔(dān)統(tǒng)籌的工作。到這一層次的時候,這幾年時不時被談起的諸如CPU為中心、DPU為中心之類的UCIe的Inpackage本質(zhì)就是將整個芯片封裝視作主板,在基板上組裝大量的芯粒,包括各種處理器、收發(fā)器,以及硬化的IP。整體而言,UCIe是一個基于并行連接的高性能系統(tǒng)隨著人工智能時代的到來,異構(gòu)計算已經(jīng)是顯學(xué),原則上,只要功除了集成度的考慮,標(biāo)準(zhǔn)化的Chiplet也帶來了功能和成本的靈活性,對于不需要的單元,在制造時不參與封裝即可——而對于傳統(tǒng)味著成本的浪費。一個典型的例子就是D展至強處理器中的若干加速器,用戶可以付費開啟,但是,如果用中里行和物理層(PhysicalLayer)。協(xié)議層支持PCIe6.0、CXL2.0和CXL3.0,也支持用戶自定義。根據(jù)不同的的封裝等級,UCIe也有不同的Packagemodule。通過用UCIe的適配層和PHY來替換PCIe/CXL的PHY和數(shù)據(jù)包,就可以實現(xiàn)更低功耗和性能更優(yōu)的輸距離和能耗將有數(shù)量級的差異。譬如對于先進封裝,凸塊間距2.5D封裝技術(shù)的特點。以英特爾的EMIB為例,當(dāng)前的凸塊間距即為50μm左右,未來將向25μm,甚至10μm演進。臺積電的中里行不同封裝的信號密度也是有本質(zhì)差異的,如標(biāo)準(zhǔn)封裝模塊對應(yīng)的是16對數(shù)據(jù)線(TX、RX),而高級封裝模塊包含64對數(shù)據(jù)線,每NAND)的內(nèi)部。UCIe能夠滿足通用總線的連接需求即可,如值得一提的是,UCIe對高速PCIe的深度捆綁,注定了它“嫌貧愛富”的格局。實際上,SoC(SystemonChip)是一個相當(dāng)寬泛的概念,UCIe面向的可以看做是宏系統(tǒng)集成(Macro-SystemonChip)。而在傳統(tǒng)觀念中適合低成本、高密度的SoC可能需要集成大量的收發(fā)器、傳感器、塊存儲設(shè)備等等。再譬如,一些面向邊緣場景的推理應(yīng)用、視頻流處理的IP設(shè)計企業(yè)相當(dāng)活躍,這些IP可能需要更靈活的商品化落地方式。既然相對低速設(shè)備的集成不在資源,積極制定本土的在國際大廠合縱連橫推出UCIe為代表的Chiplet連接標(biāo)準(zhǔn)之際,中國也并未缺席這一技術(shù)潮流,而是基于國內(nèi)產(chǎn)業(yè)界資源,積極制定本《小芯片接口總線技術(shù)要求》《小芯片接口總線技術(shù)要求》術(shù)聯(lián)盟(CCITA),重點圍繞Chiplet小芯片和微電子芯片光I/工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會立項了《小芯片接口總線技術(shù)》和《微電子2022年3月,由中科院計算所、工信部電子四院以及多家國內(nèi)2023年2月,由中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會審訂,首個由中國企業(yè)和專家主導(dǎo)制訂的Chiplet技術(shù)標(biāo)準(zhǔn)《小芯片接口總線技中里行Chiplet走出“初級階段”為了滿足板內(nèi)甚至封裝內(nèi)高速互聯(lián)的需要,半導(dǎo)體大廠(設(shè)計、代工)都有相關(guān)的互聯(lián)總線協(xié)議和接口標(biāo)準(zhǔn)。譬如板內(nèi)的有Intel的QPI/Rambus、Kandou、Cadence等,也提出了一些方案,而且主要是基于串行連接方式——選擇串行方案,通常意味著相對較低的成本、較遠(yuǎn)的傳輸距離,有利于吸引生態(tài)圈內(nèi)更多(更弱勢)的參與者。國內(nèi)學(xué)界和部分企業(yè)也在試圖建立自己的標(biāo)準(zhǔn),爭奪話語權(quán),絕大多數(shù)處于草案甚至立項階段。不論是大廠,還是產(chǎn)業(yè)界的老面孔,亦或是學(xué)界,積極探索Chiplet技術(shù)帶來了百花齊放百家爭鳴的局面,也會帶來資源浪費。湮沒在歷史長河中的標(biāo)準(zhǔn),不計其數(shù)。目前是Chiplet發(fā)展的早期階段,主要是解決技術(shù)瓶頸和成本約束的問題。這個階段內(nèi),Chiplet考慮的主要是芯片的切分問題,譬如由大拆小、功能與制程的匹配等。應(yīng)用這種思路的主要是服務(wù)器處理器為代表的“大芯片”,不論它們是來自老牌大廠,還是互聯(lián)網(wǎng)新貴。用”。進入這個階段的企業(yè)還不太多。其中的成功典型是AMD,其核心IP(CCD、IOD)都實現(xiàn)復(fù)用,可以滿足不同產(chǎn)品線甚至跨代產(chǎn)品線的需要,有效攤薄設(shè)計投入,也降低了生產(chǎn)成本。另一個能稱得上復(fù)用的例子是Apple的M1Max/Ultra、M2Max/Ultra這類產(chǎn)品。AWSGraviton3的內(nèi)存、PCIe控制器可能在未來的產(chǎn)品中也會被復(fù)用,尚第三階段就是本章開頭提到的愿景了,IP硬化、芯粒商品化、貨架化,不同廠商(而不是代工方)的芯片可以通用。這不僅需要包括UCIe、BoW在內(nèi)的多種標(biāo)準(zhǔn)完成競合,出現(xiàn)若干主導(dǎo)性的標(biāo)準(zhǔn),還需要整個產(chǎn)業(yè)界探索出新的設(shè)計、驗證流程,明確生產(chǎn)中的責(zé)任歸屬,甚至在安全性方面也會有巨大的挑戰(zhàn)。國內(nèi)產(chǎn)業(yè)界則將Chiplet視為“彎道超車”的機會。如果從第一階段角度看,在國外大廠面臨生產(chǎn)技術(shù)瓶頸的時候,國內(nèi)部分互聯(lián)網(wǎng)大廠、獨角獸企業(yè)確實有機會通過Chiplet以相對合理的成本推出有競爭力的明旗下產(chǎn)品持續(xù)迭代,產(chǎn)品矩陣羽翼豐滿,才有可能進入第二階段。至于第三階段,要的不僅僅是腳踏實地發(fā)展的耐心,還要有大格局。中算力互連中算力互連由內(nèi)及外,由小漸大與GPU在這方面偏偏存在“錯配”的現(xiàn)象:GPU的(AI)算力明控制器對應(yīng)著CPU外面封裝在一起的8個LPDD5X芯片,裸容量在英偉達的官方資料里,與512GB內(nèi)存容量同時出現(xiàn)的內(nèi)存帶寬中里行帶寬為900GB/s。每個封裝內(nèi)的傳輸距離為30mm,PCB上的傳),Intel代號SapphireRapids的第四代至強可擴展處理器包含3或中里行通過巨大的帶寬,兩顆GraceCPU被緊密聯(lián)系在一起,其“緊密”程度遠(yuǎn)超傳統(tǒng)的多路處理器系統(tǒng),已足以匹敵現(xiàn)有的基于有機載板簡而言之,CPU擁有的的,帶寬也還可以,但遲)就是一個非常值得重視的問題,尤其是超大機器學(xué)習(xí)模型的時配6組顯存控制器全開,容量96GB,顯存位寬6144bit,帶寬達到3TB/s。作為對比,獨立的GPU卡H100,根據(jù)不同版本,其與GPU之間是可以互相尋址內(nèi)存的。通過中里行的直接尋址還可以轉(zhuǎn)化為容量優(yōu)勢:GraceHopper超級芯片中的方案的核心優(yōu)勢。NVLink-C2C的另一個亮點是能效比,英偉達宣PCIe5.0的五分之一,再考慮速率,那就有25倍的能效差異了。的區(qū)別。但這個數(shù)據(jù)也有助于理解NVLink-C2C帶寬依舊為50GB/s,但線路數(shù)量減主要應(yīng)用于數(shù)據(jù)中心場景,其基本形態(tài)為長方形,正面看不到金手指,屬于一種mezzanine卡,采用類似CPU插座的水平安裝方式:(256xOSFPsingle-portNVIDIAConn中里行連接8個節(jié)點。256個節(jié)點總共分為32組,每組8個節(jié)點搭配3能更好,畢竟部分GPU及對內(nèi)存的原子操作。InfiniBand交換機上場了。對于GraceHopper超級芯片的大規(guī)模集群,NVIDIA的建議是采用Quantu),兩種架構(gòu)。一種是完全采用InfiniBand連接,另一種是混合配置竟部分GPU之間擁有更大的帶寬,以及對內(nèi)存的原子操作。譬如中里行其次,每張卡有接近足額的按照英偉達官方文檔的介紹,H100PCIe的雙插槽NVLink橋接沿用自上一代NVL的NVLink互連帶寬為中里行綠色低碳和可持續(xù)發(fā)展中中里行綠色低碳和可持續(xù)發(fā)展中),用算力規(guī)模,預(yù)計未來5年中國智能算力規(guī)模的年復(fù)合增長率將達0中里行從能源效率(能效)來看,芯片功耗提升,數(shù)生更多熱量,需要部署更多的空調(diào)控制機房溫度,空調(diào)本身的用電也會上升,使數(shù)據(jù)中心能源效率變低,PUE居高7007005004003002000(年)20132014201520162017201820192020202120222023IntelCPUAMDCPUNVIDIAGPUAMDGPUIT和基礎(chǔ)設(shè)施作為一個整體考慮,提升數(shù)據(jù)中心整體的能效,達到提高服務(wù)器的能效有助于節(jié)能。益企研究院出規(guī)模云數(shù)據(jù)中心考察報告》指出,在數(shù)據(jù)中心層面,更重要的是將IT和基礎(chǔ)設(shè)施作為一個整體考慮,提升數(shù)據(jù)中心整體的能效,達到進一步降低數(shù)據(jù)中心PUE的中提到2021年底,新建數(shù)據(jù)中心PUE降低到1.35以下,到中和目標(biāo)要求推動數(shù)據(jù)中心和5G等新型基礎(chǔ)設(shè)施綠色高質(zhì)量發(fā).2022年:工信部、發(fā)改委、財政部等六部門聯(lián)合發(fā)布《工業(yè)能效提升行動計劃》中提到2025年,新建大型、超大型數(shù)據(jù)中心液冷的優(yōu)勢在于,單位體積的液體帶走熱量的能力通常比空氣強得中里行△思源一號熱回收原理圖年全球超算大會(2016ISC)期間參觀位于德國萊布尼茨實驗室的在中國,神威·太湖之光全方位的綠色節(jié)能也是一大突破,采用液冷而在浸沒式液冷技術(shù)的應(yīng)用上,據(jù)公開資料顯示,華中科技大學(xué)成為了中國首個成功實現(xiàn)商業(yè)化應(yīng)用的全浸沒液冷高性能計算平臺和△北京大學(xué)高性能計算中心中里行隨著中國互聯(lián)網(wǎng)、云計算的發(fā)展,超大規(guī)模數(shù)據(jù)中心應(yīng)用的體量增加,數(shù)據(jù)中心的建設(shè)理念發(fā)生變化,最典型的是數(shù)據(jù)中心的建設(shè)與IT設(shè)備結(jié)合更緊密。大型互聯(lián)網(wǎng)公司對數(shù)據(jù)中心行業(yè)的改變也是真型互聯(lián)網(wǎng)公司將液冷技術(shù)規(guī)模應(yīng)用在數(shù)據(jù)中心,繼而促進了價值鏈為此,益企研究院提出并完善“全棧數(shù)據(jù)中心”理念。全棧數(shù)據(jù)中絡(luò)等技術(shù)和數(shù)據(jù)中心風(fēng)火水電作為一個整體看待;上層業(yè)務(wù)需求的據(jù)中心作為基礎(chǔ)設(shè)施也會相應(yīng)的產(chǎn)生自上而下的變化。這也意味著現(xiàn)應(yīng)用與技術(shù)聯(lián)動,以數(shù)據(jù)中心整體的視角將制冷、供電以及監(jiān)控冷板式液冷相對成熟,雖然各家形態(tài)不同,但技術(shù)上差異不大。冷板式液冷是指采用液體作為傳熱工質(zhì)在冷板內(nèi)部流道流動,通過熱蓋冷板,液體直接帶走這兩個高發(fā)熱部件的熱量。液體在冷板內(nèi)流結(jié)垢的去離子水或不導(dǎo)電、不腐蝕的特殊液體兩種。用戶可根據(jù)自冷板式液冷服務(wù)器對于目前的數(shù)據(jù)中心的架構(gòu)影響不大,不需要對機柜的形態(tài)進行大幅度的改變,具有低噪音,高能效以及低總體擁浸沒式液冷總體方向比冷板式更進一步,給元器件提供更可靠和穩(wěn)定的工作溫度,并具有更高的能效。冷板式的服務(wù)器是的風(fēng)冷和液相變式液冷,采用沸點低、易揮發(fā)的液體作為冷媒,利用CPU等器件工作發(fā)換熱器處冷凝,完成制冷循環(huán),可以把中里行單相式浸沒通過液體升溫帶走熱量,不需要發(fā)生相變,在整個過程中就可以把換熱設(shè)施和機柜實現(xiàn)分離,從而對換熱系統(tǒng)進行一定的冗余設(shè)置就可實現(xiàn)在線維護。兩種不同的設(shè)計方式也直接影響了維護方式。目前超算中心應(yīng)用相變式的浸沒液冷較多,單相式浸沒液過去幾年,整機柜服務(wù)器的設(shè)計已經(jīng)跳出機柜本身,以數(shù)據(jù)中心乃至數(shù)據(jù)中心的風(fēng)火水電基礎(chǔ)設(shè)施緊密協(xié)同,同時也能夠與上層的應(yīng)用和液冷技術(shù)的推廣應(yīng)用,是全棧數(shù)據(jù)中心理念的最佳落地實踐。舉例來說,液冷就很適合通過整機柜(服務(wù)器)的形式交付。傳統(tǒng)上在的分界線?;A(chǔ)設(shè)施團隊通常不會關(guān)注機柜里產(chǎn)品技術(shù)的演進(比如服務(wù)器產(chǎn)品IT業(yè)務(wù)團隊也很少了解基礎(chǔ)設(shè)施的細(xì)節(jié)?;ヂ?lián)網(wǎng)說阿里、騰訊、字節(jié),服務(wù)器保有量都是百萬臺量級,在這樣的規(guī)模下把服務(wù)器和機柜作為整體設(shè)計進行優(yōu)化,哪怕效率提升1%都可以節(jié)省一大筆支出。而液冷技術(shù)天然適合整機柜交付模式,畢竟中里行京東云自研液冷整機柜服務(wù)器盡量把業(yè)務(wù)功能涉及的模塊放在前數(shù)據(jù)中心基礎(chǔ)設(shè)施層面的能耗主要來自于制冷和供電模塊的損耗。水機組、冷凍水泵、空調(diào)等,都是用電設(shè)備;同樣數(shù)據(jù)中心供電架不起配電的作用,把電給到電源箱,電源箱到銅排(busbar)上配通常只部署一半的柜位空間,整機柜可以布滿,相對傳統(tǒng)的機架服持多元算力,機柜里的服務(wù)器可以集成計算型、計算存儲型包括異背后從供液到供電、網(wǎng)絡(luò)連接,在機柜后方部署有三條總線稱之為中里行盲插的技術(shù)難題在于有可能在插拔的時候出現(xiàn)漏液,為了提高可靠部署,也可應(yīng)用于新建液冷數(shù)據(jù)中心。采用混合液冷設(shè)計,對服務(wù)器里關(guān)鍵發(fā)熱器件比如CPU、內(nèi)存、硬盤、電源等等做了可選的液冷適配并匹配了液冷后門(液冷門),液冷門也是來自于冷塔的供水,把機柜里所有的熱量通過液體帶走,去掉機房空調(diào)和冷機做到件,液冷門也是選配,便于客戶靈活搭配,利舊現(xiàn)有的空調(diào)。在泄成天然能夠支持故障隔離的設(shè)計,無論通過它的圍擋結(jié)構(gòu)的設(shè)計還只會順著導(dǎo)流槽流往機柜積液盤,不會影響下一個節(jié)點,當(dāng)然前文監(jiān)控模塊也上報給FusionDirector,由于供水溫度很低液冷門出浸沒式液冷也成為一套復(fù)雜的系統(tǒng)工程,需要在可靠性、經(jīng)濟性和能效之間取得平衡,要解決散熱問題的同時解決冷卻液和系統(tǒng)中所有部件兼容性、IT設(shè)備高速信號問題。而在系統(tǒng)設(shè)計層面,要兼顧服務(wù)器和機柜的設(shè)計、冷卻和監(jiān)控系統(tǒng)的可靠性,從這個意義來2018年8月數(shù)字中國萬里行團隊考察了位于張北的阿里云數(shù)據(jù)中心,這里已經(jīng)開始部署浸沒式液冷服務(wù)器集群;2020年阿里仁和數(shù)據(jù)中心投入運營,成為更大規(guī)模浸沒液冷技術(shù)的典型實踐案

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論