版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
超級計算創(chuàng)新聯(lián)盟數(shù)據(jù)密集型超算工作組2023年8月編寫委員會陳國良張云泉周躍峰金鐘林新華唐卓張興軍王毅肖利民王怡東龐鑫顧雪軍副主編潘景山李少波韋建文王繼彬高巍蘇亮徐恩松張洋李亞子賈海鵬韓振興王旭東陳陽陳振華柴旭清戴奇志段芳成丁江波樊春范靖龔斌高亦沁高芬郭武郭洪星胡俊胡廣超李會民李昕偉劉暢李斌杰魯蔚征郄軍利宋平宋天宇孫曉藝孫敏淮唐小勇王青王成偉王繼彬王炳強(qiáng)萬林魏旗鵬姚舸曾帆曾令仿張凱麗張震鄒有趙順存責(zé)任編輯王世葆感謝以下機(jī)構(gòu)參編支持(排名不分先后):北京大學(xué)北京航空航天大學(xué)長沙理工大學(xué)貴州大學(xué)河南師范大學(xué)湖南大學(xué)蘭州大學(xué)南京大學(xué)上海交通大學(xué)山東大學(xué)深圳大學(xué)西安交通大學(xué)中國人民大學(xué)中國醫(yī)學(xué)科學(xué)院中國科學(xué)技術(shù)大學(xué)中南大學(xué)超級計算創(chuàng)新聯(lián)盟國家超算濟(jì)南中心國家超算長沙中心華為技術(shù)有限公司科大訊飛嶗山實(shí)驗(yàn)室聯(lián)科中國鵬城實(shí)驗(yàn)室青島國實(shí)科技有限公司中科院科學(xué)計算所中國信息通信研究院之江實(shí)驗(yàn)室數(shù)據(jù)是對客觀世界狀態(tài)變化的數(shù)字化記錄,在數(shù)字經(jīng)濟(jì)和數(shù)字中國的大戰(zhàn)略下,數(shù)據(jù)已成為國家基礎(chǔ)性戰(zhàn)略資源和關(guān)鍵生產(chǎn)要素,是數(shù)字化、網(wǎng)絡(luò)化、智能化的基礎(chǔ)。今年發(fā)布的《數(shù)字中國建設(shè)整體布局規(guī)劃》進(jìn)一步強(qiáng)調(diào)夯實(shí)數(shù)字基礎(chǔ)設(shè)施和數(shù)據(jù)資源體系“兩大基礎(chǔ)”。眾所周知,高性能計算是國家綜合國力和信息化建設(shè)能力的一個重要體現(xiàn),被譽(yù)為“國之重器”。數(shù)據(jù)密集型超算,是高性能計算與人工智能、大數(shù)據(jù)等新一代信息技術(shù)融合后圍繞數(shù)據(jù)價值,而產(chǎn)生的一個重要新增類型,是在高性能計算領(lǐng)域的一次有益的創(chuàng)新探索,在一定程度上代表了高性能計算的未來發(fā)展趨勢。我們很欣喜地看到,在過去兩年中數(shù)據(jù)密集型超算在產(chǎn)業(yè)各界的多方合作下持續(xù)創(chuàng)新,相繼在商業(yè)應(yīng)用、標(biāo)準(zhǔn)規(guī)范等取得了顯著的進(jìn)展。如文中所述,數(shù)據(jù)密集型超算在國家超算中心、高校等場景、基因測序、AI大模型等行業(yè)應(yīng)用中產(chǎn)生了很多優(yōu)秀實(shí)踐。與此同時,我們也看到中國高性能計算所面臨的挑戰(zhàn)和機(jī)遇:應(yīng)用層面,隨著數(shù)據(jù)爆炸,高性能計算從重計算模型,衍生到重IO,大帶寬包括混合負(fù)載的數(shù)據(jù)模型;算力層面,通過AI賦能,科學(xué)研究正邁向科學(xué)智能新階段,推動AI異構(gòu)加速;連接層面,隨著超算互聯(lián)作為國家戰(zhàn)略,需要實(shí)現(xiàn)更高效的網(wǎng)絡(luò)互聯(lián)和跨域全局管理。另外,在新的復(fù)雜國際安全形勢和低碳化全球趨勢下,超算安全、綠色節(jié)能、自主創(chuàng)新也成為高性能計算業(yè)內(nèi)人士關(guān)注的問題。白皮書結(jié)合高性能計算在數(shù)據(jù)密集型場景的發(fā)展趨勢給出了分析和建議,值得深思。面向未來,以ChatGPT為代表的AI大模型興起,數(shù)以千億的參數(shù)投入訓(xùn)練,產(chǎn)生對算力和數(shù)據(jù)的雙重需求。HPC與AI逐步走向融合,將成為數(shù)據(jù)密集型超算的典型應(yīng)用場景。數(shù)據(jù)的準(zhǔn)備至關(guān)重要,數(shù)據(jù)的質(zhì)量和規(guī)模決定AI的精度。為了更好應(yīng)對諸如新應(yīng)用帶來的生態(tài)復(fù)雜性變化、新業(yè)務(wù)催生的混合業(yè)務(wù)負(fù)載壓力、新數(shù)據(jù)與算力協(xié)同帶來的數(shù)據(jù)跨地域訪問等挑戰(zhàn),白皮書中創(chuàng)新性地提出新型數(shù)據(jù)密集型超算5A架構(gòu),以應(yīng)用為中心,較好地支撐HPDA(HPC+大數(shù)據(jù)+AI)多系統(tǒng)融合業(yè)務(wù)發(fā)長風(fēng)破浪會有時,直掛云帆濟(jì)滄海!HPDA正在加速提升科研創(chuàng)新及生產(chǎn)效率,在新的趨勢和發(fā)展機(jī)遇下,期待產(chǎn)業(yè)各方深化合作和持續(xù)創(chuàng)新,數(shù)據(jù)密集型超算在推動科研和數(shù)字經(jīng)濟(jì)發(fā)展上發(fā)揮更房一年一度的CCFHPCChina,給業(yè)界提供了很好的契機(jī),促使我們?nèi)ハ到y(tǒng)化地思考超算的過去、當(dāng)下和未來。數(shù)據(jù)密集型超算HPDA白皮書發(fā)布已經(jīng)兩年,這兩年間超算領(lǐng)域已經(jīng)發(fā)生了許多令人驚訝的變化,尤其當(dāng)生成式人工智能AIGC技術(shù)爆發(fā),超算的發(fā)展也正在迎來一個新的階段。超算正在加速與AI深度融合,驅(qū)動科學(xué)研究邁入科學(xué)智能時代AIGC熱潮的背后其實(shí)就是超級計算機(jī)技術(shù)與AI大模型技術(shù)相結(jié)合的結(jié)晶:早在2019年,微軟就為OpenAI的ChatGPT大模型訓(xùn)練部署超過上萬個GPU組成的大型AI超級計算機(jī)。超算從誕生開始就致力于加速重大科研的創(chuàng)新,而超算與AI的融合將實(shí)現(xiàn)科研創(chuàng)新的又一次通過Al賦能科學(xué)研究,可以解決傳統(tǒng)HPC算不了、算不準(zhǔn)、算不動的問題。且從科研創(chuàng)新的角度來看,提出問題比解決問題更重要。而AI的本質(zhì)上實(shí)際上是數(shù)據(jù)驅(qū)動通過AI算法擬合成一個符合大概率的規(guī)律,盡管有可能這些規(guī)律缺乏可解釋性,但這些“意料之外”的規(guī)律反而就是科研創(chuàng)新突破的最佳指引。這相當(dāng)于給科研人員開啟了一個上帝視角,一切未知皆為參數(shù),數(shù)據(jù)可及皆為樣本,洞明世事皆為模型,進(jìn)而讓科學(xué)研究邁入到了科學(xué)智能實(shí)際上數(shù)據(jù)密集型超算概念的提出就是洞悉到了超算與AI的融合,因?yàn)槠浜诵木褪菙?shù)據(jù)驅(qū)動,數(shù)據(jù)的重要性也隨著AI大模型的發(fā)展變得愈發(fā)凸顯。AI的三要素,數(shù)據(jù)、算法和算力。在算力水平基本一致的前提下,如果說當(dāng)前的AI時代角逐還是數(shù)據(jù)和算法并重,那么隨著AI算法的逐步標(biāo)準(zhǔn)化趨同,決定下一輪勝負(fù)的關(guān)鍵必然在數(shù)據(jù)上。譬如,Meta基于650億參數(shù)和4.5TB訓(xùn)練數(shù)據(jù)開發(fā)了LLaMA,而OpenAI基于1750億參數(shù)和570GB訓(xùn)練數(shù)據(jù)開發(fā)了GPT-3.5。雖然LLaMA在參數(shù)規(guī)模上不及GPT-3.5的50%,但其表現(xiàn)能力在多數(shù)基準(zhǔn)上均超越了后者,其主要原因在于數(shù)據(jù)規(guī)模提升了8倍。由此可見,提升AI大模型精度、數(shù)據(jù)規(guī)模以及數(shù)據(jù)質(zhì)量比模型參數(shù)更具決定性的作用,可以說數(shù)據(jù)決定了AI智能的高度。超算互聯(lián)上升為國家級戰(zhàn)略,數(shù)據(jù)互聯(lián)與流動“一橋飛架南北,天塹變通途”,超算互聯(lián)正是這一理念構(gòu)想在超算產(chǎn)業(yè)的踐行。在東數(shù)西算、算力互聯(lián)網(wǎng)等國家戰(zhàn)略實(shí)施的大背景下,超算互聯(lián)旨在構(gòu)建一體化超算算力網(wǎng)絡(luò)和服務(wù)平臺的目標(biāo)也上升為國家級戰(zhàn)略。歐盟等區(qū)域和國家也相繼發(fā)布了其國家版的超算互聯(lián)戰(zhàn)略,為下一個戰(zhàn)略制高點(diǎn)所謂內(nèi)行看門道,互聯(lián)普遍意義上是指算力的互聯(lián),實(shí)際上數(shù)據(jù)的互聯(lián)和流動才是超算互聯(lián)的底.從超算中心的物理部署來看,需要實(shí)現(xiàn)不同超算中心的數(shù)據(jù)互聯(lián),并提供跨地域、跨系統(tǒng)的全局統(tǒng)一數(shù)據(jù)視圖以及調(diào)度。讓任意位置的數(shù)據(jù)都隨時隨地可快速訪問,并實(shí)現(xiàn)數(shù)據(jù)的按需分級與流.從業(yè)務(wù)集群的建設(shè)模式來看,需要實(shí)現(xiàn)不同業(yè)務(wù)集群間的數(shù)據(jù)互聯(lián)。這是因?yàn)閿?shù)據(jù)密集型HPDA往往對應(yīng)的是數(shù)據(jù)驅(qū)動的一套序貫式科學(xué)業(yè)務(wù)流,譬如基因測序往往包括文庫制備、格式轉(zhuǎn)換以及生信分析等多個業(yè)務(wù)階段,傳統(tǒng)意義上不同的業(yè)務(wù)集群往往是煙囪式獨(dú)立建設(shè)模式,頻繁的數(shù)據(jù)拷貝與遷移成為影響科研效率的關(guān)鍵。因此,我們認(rèn)為超算互聯(lián)要面向多樣化業(yè)務(wù)要構(gòu)建安全、可靠的統(tǒng)一數(shù)據(jù)底座,基于高性能專業(yè)存儲的多協(xié)議、冷熱溫自動分級以及全局文件系統(tǒng)GFS等技術(shù)打破影響數(shù)據(jù)流動的層層壁壘。所謂流水不腐戶樞不蠹,數(shù)據(jù)只有在更大范圍的充分流動與共享,才能真正促進(jìn)信息的數(shù)字化,才會有價值超算中心大規(guī)模集群化,低碳綠色成為關(guān)鍵訴求。E級超算的建設(shè)當(dāng)前已經(jīng)是屢見不鮮,并且隨著整體應(yīng)用算力需求與單卡之間的算力剪刀差持續(xù)加大,導(dǎo)致集群規(guī)模越來越大。盡管大規(guī)模集群往往意味著國之重器,科研利器,但與此同時超算系統(tǒng)的能耗和散熱問題日益突出。因此,提高超算系統(tǒng)的能效比和降低碳排放已經(jīng)成為超算行業(yè)的重要.全面加速存儲閃存化:超算中心以及智算中心由于其極致的業(yè)務(wù)性能訴求,特別是隨著AIGC業(yè)務(wù)的爆發(fā),高性能的全閃專業(yè)存儲將成為首選。全閃存一方面意味著應(yīng)用性能的極致表現(xiàn);另一方面在單位容量的功耗上要大幅降低。不僅如此,隨著業(yè)界閃存大容量盤的加速推出,其逐步凸顯的性價比優(yōu)勢也將加速業(yè)界全.存儲創(chuàng)新提升GPU利用率:隨著超算業(yè)務(wù)的多樣化趨勢,算力的多元化以及數(shù)據(jù)的多模態(tài)發(fā)展愈發(fā)明顯。數(shù)據(jù)密集型應(yīng)用驅(qū)動在算力層面GPU占比越來越高。提升GPU的資源利用率,也就意味著用更少的GPU資源能耗去滿足相對確定的應(yīng)用算力需求,提高能效比。在存儲創(chuàng)新方面,一方面通過面向混合負(fù)載的極致高性能,通過減少GPU在數(shù)據(jù)加載等待時間提升利用率;另一方面還可以有通過近存計算實(shí)現(xiàn)近數(shù)據(jù)預(yù)處理,讓數(shù)據(jù)在存儲就完成部分?jǐn)?shù)據(jù)準(zhǔn)備任務(wù),減少計算和存儲之間的數(shù)據(jù)搬遷,進(jìn)一步提升GPU的這次數(shù)據(jù)密集型超算發(fā)展白皮書2023的發(fā)布,正好是在AI大模型這樣的時代背景下,其對于中國超算行業(yè)之重大意義,絲毫不亞于無線通訊領(lǐng)域從3G/4G時代突破式地邁向了5G時代。在全新的產(chǎn)業(yè)賽道上,中國科技要攜手起來堅定并堅持自主創(chuàng)新,引領(lǐng)超算行業(yè)的“5G”浪潮。1數(shù)據(jù)密集型超算最新趨勢1.1數(shù)據(jù)密集型趨勢下,高性能計算面臨六大挑戰(zhàn)和需求011.2數(shù)據(jù)密集型應(yīng)用加速發(fā)展,對存儲性能提出更高要求021.2.1大數(shù)據(jù)、AI技術(shù)應(yīng)用及科學(xué)觀測儀器能力提升,帶來更大數(shù)據(jù)量021.2.2數(shù)據(jù)密集型應(yīng)用,數(shù)據(jù)模型對存儲大帶寬和IOPS有更高的要求031.2.3多技術(shù)融合的新興業(yè)務(wù),帶來多業(yè)務(wù)混合負(fù)載041.3HPC和AI融合,加速改變科研及生產(chǎn)效率051.3.1AI加速科學(xué)研究范式變遷,數(shù)據(jù)驅(qū)動的AI方法改變科學(xué)的漸進(jìn)發(fā)展051.3.2數(shù)據(jù)決定AI智能的高度,數(shù)據(jù)存儲成為大模型時代的核心基礎(chǔ)設(shè)施061.3.3發(fā)展先進(jìn)數(shù)據(jù)存力基礎(chǔ)設(shè)施,是構(gòu)建大模型時代高質(zhì)量發(fā)展的基石071.4超算互聯(lián)上升至世界各國國家戰(zhàn)略,數(shù)據(jù)基礎(chǔ)設(shè)施先行081.4.1美國大力推動高性能數(shù)據(jù)密集型基礎(chǔ)設(shè)施互聯(lián)081.4.2歐洲成立超算聯(lián)合體,構(gòu)建一體化超算基礎(chǔ)設(shè)施091.4.3中國超算互聯(lián)網(wǎng)工程,構(gòu)建一體化算力網(wǎng)絡(luò)和數(shù)據(jù)平臺101.5超算安全關(guān)系國計民生,數(shù)據(jù)資產(chǎn)安全成為重點(diǎn)121.5.1國家級網(wǎng)絡(luò)攻擊對抗愈演愈烈,科研重點(diǎn)單位成為重點(diǎn)目標(biāo)之一121.5.2各國陸續(xù)出臺法律法規(guī),提升數(shù)據(jù)戰(zhàn)略地位,加強(qiáng)數(shù)據(jù)安全保護(hù)力度131.6中國“數(shù)據(jù)基礎(chǔ)設(shè)施”關(guān)鍵根技術(shù)有突破、有創(chuàng)新,可支持全棧自主可控141.7提高能效比和降低碳排放,支持超算發(fā)展和持續(xù)演進(jìn)151.7.1超算系統(tǒng)商業(yè)應(yīng)用和未來演進(jìn)面臨能效挑戰(zhàn)151.7.2通過軟硬件設(shè)計優(yōu)化提升超級計算機(jī)能效,實(shí)現(xiàn)超算系統(tǒng)可持續(xù)發(fā)展162數(shù)據(jù)密集型超算技術(shù)架構(gòu)2.1HPC與AI走向融合,構(gòu)建“5A”新型超算架構(gòu)2.2AnyApplication:新型應(yīng)用不斷涌現(xiàn),數(shù)據(jù)密集型超算應(yīng)具備豐富的應(yīng)用生態(tài)承載及演進(jìn)能力2.2.1應(yīng)用快速發(fā)展,需要多協(xié)議融合互通能力支撐業(yè)務(wù)未來演進(jìn)2.2.2數(shù)據(jù)分析廣泛應(yīng)用,需要支持科學(xué)計算工作流,提升業(yè)務(wù)效率2.3AnyWorkload:多技術(shù)融合帶來多樣負(fù)載,數(shù)據(jù)密集型超算應(yīng)具備承載動態(tài)混合負(fù)載及應(yīng)用加速能力2.3.1HPC+AI+BigData多樣性應(yīng)用,需要動態(tài)混合負(fù)載承載能力212.3.2E級大規(guī)模應(yīng)用,需要近計算實(shí)現(xiàn)加速222.3.3超算“性能墻”和“能耗墻”兩大挑戰(zhàn),推動分布式全閃存儲替代勢在必行232.4Anywhere:多地域超算互聯(lián),需要跨域全局?jǐn)?shù)據(jù)統(tǒng)一管理能力242.4.1算力和數(shù)據(jù)協(xié)同調(diào)度,數(shù)據(jù)全局可視242.4.2數(shù)據(jù)分級管理,應(yīng)用無感訪問242.5AnyCondition:全方位可信設(shè)計,保障業(yè)務(wù)永遠(yuǎn)在線,數(shù)據(jù)永不丟失252.5.1應(yīng)對數(shù)據(jù)風(fēng)險與業(yè)務(wù)風(fēng)險挑戰(zhàn),超算平臺進(jìn)行全方面安全保障252.5.2應(yīng)對災(zāi)難事件時生產(chǎn)中斷挑戰(zhàn),超算平臺穩(wěn)定性設(shè)計保障業(yè)務(wù)永遠(yuǎn)在線262.5.3數(shù)字資產(chǎn)作為企業(yè)核心財富,存儲數(shù)據(jù)要做到永遠(yuǎn)可靠不丟失272.6AnyView:多應(yīng)用場景的統(tǒng)一智能管理平臺提升管理效率272.6.1統(tǒng)一設(shè)備管理系統(tǒng),提升運(yùn)維管理效率272.6.2超算建設(shè)模式走向集約化,需要統(tǒng)一高效的作業(yè)管理282.6.3數(shù)據(jù)全生命周期管理,夯實(shí)高效、全面、智能的數(shù)據(jù)底座283數(shù)據(jù)密集型超算優(yōu)秀實(shí)踐3.1國家超算濟(jì)南中心:打造中國最大規(guī)模數(shù)據(jù)密集型超算應(yīng)用標(biāo)桿293.1.1國超濟(jì)南中心發(fā)展勢頭迅猛,構(gòu)建引領(lǐng)全球科技發(fā)展的“最強(qiáng)大腦”293.1.2面對海量數(shù)據(jù)存儲和計算效率的挑戰(zhàn),國超濟(jì)南中心積極追求HPC架構(gòu)轉(zhuǎn)型293.1.3國超濟(jì)南中心采用統(tǒng)一存儲底座,打造標(biāo)桿級新型超算中心303.1.4統(tǒng)一存力底座助力國超濟(jì)南中心成就超算標(biāo)桿303.2上海交通大學(xué):AI存力基座助力教育科研發(fā)展3.2.1AI時代,學(xué)校高性能計算中心面臨新場景海量數(shù)據(jù)挑戰(zhàn)323.2.2“一存力,多算力”的統(tǒng)一存力基座方案333.2.3存力基座助力教育科研發(fā)展343.3中國醫(yī)學(xué)科學(xué)院:全棧自主可控、GPU生信加速打造安全、高效的基因測序超算平臺363.3.1快速測序、海量基因數(shù)據(jù)存儲成為基因測序領(lǐng)域的重大挑戰(zhàn)363.3.2高效、敏捷、自主可控的一站式基因測序全棧解決方案373.3.3全棧國產(chǎn)化平臺助力醫(yī)學(xué)科研成果轉(zhuǎn)化383.4科大訊飛:高性能、穩(wěn)定可靠的統(tǒng)一數(shù)據(jù)管理底座是大模型訓(xùn)練的關(guān)鍵383.4.1AI大模型訓(xùn)練中的挑戰(zhàn)393.4.2強(qiáng)強(qiáng)聯(lián)合,打造最佳大模型算力+存力全棧方案403.4.3在HPC與AI的融合創(chuàng)新中走向獨(dú)立自主41縱觀全球,新一輪的科技革命和產(chǎn)業(yè)變革正在全方位的改變著社會生產(chǎn)生活,一個以數(shù)據(jù)服務(wù)能力為基礎(chǔ)的,萬物感知、萬物互聯(lián)、萬物智能的數(shù)字經(jīng)濟(jì)世界正在加速到來。實(shí)施數(shù)據(jù)戰(zhàn)略、積累數(shù)據(jù)資源、保障數(shù)據(jù)安全、做大做強(qiáng)數(shù)據(jù)產(chǎn)業(yè),已經(jīng)據(jù)國際權(quán)威數(shù)據(jù)分析研究機(jī)構(gòu)IDC《數(shù)據(jù)時代2025》報告預(yù)測,從2018年至2025年,全球數(shù)據(jù)將從2018年的33ZB增至2025年的175ZB,數(shù)據(jù)量增長4倍多。其中,中國數(shù)據(jù)圈增速迅速,預(yù)計將從2018年的7.6ZB到2025年將增至48.6ZB,占全球數(shù)據(jù)圈比重將從23.4%發(fā)展到27.8%,中國將成為全球最大的數(shù)據(jù)圈。因此,更先進(jìn)的數(shù)字技術(shù)、更強(qiáng)大的數(shù)據(jù)服務(wù)能力和更高水平的數(shù)字產(chǎn)業(yè),將成為新時代我國發(fā)展數(shù)字經(jīng)濟(jì)的根本內(nèi)容。超大規(guī)模的數(shù)據(jù)量對數(shù)據(jù)的存儲、數(shù)據(jù)的安全提出了前所未有的挑戰(zhàn),可靠高效的存儲能力是數(shù)據(jù)供給安全的高性能計算HPC是構(gòu)建下一代數(shù)據(jù)產(chǎn)業(yè)和科學(xué)計算的基石,是驅(qū)動科研創(chuàng)新的重要計算引擎,幫助人們從海量的數(shù)據(jù)中探索人類社會和宇宙的未來。早在2007年,圖靈獎得主詹姆斯·格雷就在題目為《科學(xué)方法的革命》的演講中提出,隨著數(shù)據(jù)的爆炸性增長,科學(xué)計算(即“第三范式”)中的數(shù)據(jù)密集型范式將成為一個獨(dú)特的科學(xué)研究范式,即“第四范式”。數(shù)據(jù)密集型超算,成為高性能計算與人工智能、大數(shù)據(jù)等新一代信息技術(shù)融合后而產(chǎn)生的一個重要新增類型,在一定程度上代表了高在此趨勢下,我們發(fā)現(xiàn)在高性能計算在應(yīng)用層、算力層、超算網(wǎng)絡(luò)互聯(lián)及全局管理、安全、綠色節(jié)能、系統(tǒng)全棧自主可控六個方面都面臨新的挑.應(yīng)用層面,隨著生成式AI、大數(shù)據(jù)應(yīng)用以及科學(xué)觀測儀器能力提升,帶來更大數(shù)據(jù)量,新的數(shù)據(jù)密集型應(yīng)用,產(chǎn)生了新的數(shù)據(jù)模邁向科學(xué)智能新階段,數(shù)據(jù)規(guī)模和質(zhì)量決定了AI智能高度。發(fā)展先進(jìn)數(shù)據(jù)存力基礎(chǔ)設(shè).聯(lián)接層面,需要科研機(jī)構(gòu)之間的大數(shù)據(jù)量互訪,推進(jìn)超算互聯(lián)工程進(jìn)程,打造集應(yīng)用、數(shù)據(jù)、算力服務(wù)于一體的超算,實(shí)現(xiàn)跨超算中心的聯(lián)接,一體化數(shù)據(jù)基礎(chǔ)設(shè)施已成為超.安全層面,對數(shù)據(jù)資產(chǎn)的安全提出更高的要求,提升數(shù)據(jù)戰(zhàn)略地位,保證數(shù)據(jù)安全和主.自主可控層面,從處理器,先進(jìn)閃存等核心硬件,到跨域數(shù)據(jù)管理系統(tǒng),分布式并行文件系統(tǒng),以及超算集群等軟件具備全棧自主.綠色節(jié)能層面,通過改進(jìn)硬件設(shè)計和制造過程,優(yōu)化軟件設(shè)計,提高超算系統(tǒng)的能源效應(yīng)用,數(shù)據(jù)密集型化從重計算模型,到重IO、大帶、混合負(fù)載數(shù)據(jù)模型算力,AI算力,AI異構(gòu)加速從科學(xué)計算到科學(xué)智能從網(wǎng)絡(luò)互聯(lián),到跨域超算互聯(lián)從科學(xué)計算到科學(xué)智能新安全,數(shù)據(jù)資產(chǎn)保護(hù)新安全,數(shù)據(jù)資產(chǎn)保護(hù)oo綠色,軟硬系統(tǒng)節(jié)能從網(wǎng)絡(luò)安全,到數(shù)據(jù)資產(chǎn)安全從計算能效節(jié)能,到軟件、硬件系統(tǒng)節(jié)能 全棧自主可控從芯片自主可控,到全棧自主可控隨著與大數(shù)據(jù)、AI等新的數(shù)據(jù)分析技術(shù)和工具結(jié)合,HPC的訴求從以數(shù)值計算為主,衍生到與大數(shù)據(jù)知識挖掘及AI訓(xùn)練推理結(jié)合的HPDA高性能數(shù)據(jù)分析時代。大數(shù)據(jù)、AI技術(shù)及科學(xué)觀測儀器能力提升,給應(yīng)用帶來更大的處理數(shù)據(jù)量。同時新的數(shù)據(jù)密集型應(yīng)用,產(chǎn)生了新的數(shù)據(jù)模型,驅(qū)動新的近1.2.1大數(shù)據(jù)、1.2.1大數(shù)據(jù)、AI技術(shù)應(yīng)用及科學(xué)觀測儀器能力提升,帶來更大數(shù)據(jù)量隨著物聯(lián)網(wǎng)技術(shù)、大數(shù)據(jù)技術(shù)的飛速發(fā)展,超算系統(tǒng)處理的數(shù)據(jù)量爆炸式增長。得益于科學(xué)觀測儀器能力的不斷提升,大幅提高了采集的速度和廣度,如:高通量測序儀通量從幾十個GB,提升到現(xiàn)在幾個TB級別通量;全球數(shù)以百萬計的傳感器都在對宇宙、氣象、生物、物理和化學(xué)過程進(jìn)行實(shí)時觀測和記錄,在取得更好的計算或者模擬效果的同時也產(chǎn)生大量觀測數(shù)據(jù)。計算設(shè)備運(yùn)行各種科學(xué)模型任務(wù),在進(jìn)行大規(guī)模模擬計算的同時會產(chǎn)生大量的10-30TB/天->6PB/年一臺冷凍電鏡500T/天->180PB/年1個FAST天眼6TB/天->8.5PB/年(含膨脹)1臺基因測序儀60TB/天->200PB/年1輛自動駕駛汽車50T/天->18PB/年1顆遙感衛(wèi)星1立方厘米->PB類腦研究500T/天>180PB/年1個高能同步輻射光源中心1Pb/s->4000EB/年1個SKA平方公里陣列圖1-2典型超算場景的數(shù)據(jù)量03從初步統(tǒng)計看,目前大部分典型的超算應(yīng)用起步檔已經(jīng)是PB級。面向新興的應(yīng)用譬如腦科學(xué)等,其單場80%的應(yīng)用場景數(shù)據(jù)量80%的應(yīng)用場景數(shù)據(jù)量PB級圖1-3典型場景數(shù)據(jù)量分析1.2.2數(shù)據(jù)密集型應(yīng)用,數(shù)據(jù)模型對存儲大帶寬和1.2.2數(shù)據(jù)密集型應(yīng)用,數(shù)據(jù)模型對存儲大帶寬和IOPS有更高的要求根據(jù)測試和分析,數(shù)據(jù)量的變大,會導(dǎo)致對應(yīng)的計算數(shù)據(jù)模型和存儲訪問數(shù)據(jù)模型也發(fā)生較大變化?;驕y序、氣象預(yù)測、油氣勘探等數(shù)據(jù)密集型應(yīng)用相對分子動力學(xué)、化學(xué)等數(shù)值型計算應(yīng)用,在寫IOPS和讀寫帶寬上產(chǎn)生數(shù)量級的增加,其文件大小普遍超過1GB以上。讀IOPS寫IOPS350015.8MB/s130B/s233739.56MB/s5KB/s20003.373GB/s1.275GB/s700460600MB/s500MB/s6000337MB/s729MB/s大文件(IO為4K以下,文表1-1數(shù)據(jù)模型041.2.3多技術(shù)融合的新興業(yè)務(wù),帶來多業(yè)務(wù)混合負(fù)載1.2.3多技術(shù)融合的新興業(yè)務(wù),帶來多業(yè)務(wù)混合負(fù)載隨著一些新興業(yè)務(wù)的出現(xiàn),帶來業(yè)務(wù)流程的復(fù)雜多樣。如自動駕駛業(yè)務(wù)涉及超過10個處理環(huán)節(jié),各個環(huán)節(jié)存在數(shù)據(jù)互訪、數(shù)據(jù)采集、標(biāo)注、訓(xùn)練集仿真數(shù)據(jù)訪問、AI推理。其中數(shù)據(jù)采集和預(yù)處理會借助大數(shù)據(jù)技術(shù)和組件;在AI訓(xùn)練階段會采用AI深度學(xué)習(xí)訓(xùn)練技術(shù);仿真階段會采用HPC技術(shù)。超聲波傳感器GPS激光雷達(dá)毫米波雷達(dá)攝像頭NFS/CIFSNFS/CIFSNFS/HDFS數(shù)據(jù)收集和預(yù)處理數(shù)據(jù)導(dǎo)入HDFSNFS仿真仿真驗(yàn)證驗(yàn)證S3/NFSPB級數(shù)十GB/S帶寬海量小文件極致OPS和時延數(shù)十~百GB/S帶寬<1ms時延同時,各個環(huán)節(jié)數(shù)據(jù)模型各有差異:如在數(shù)據(jù)收集和導(dǎo)入環(huán)節(jié)使用NFS/CIFS上傳脫敏數(shù)據(jù)到存儲資源池,此環(huán)節(jié)IO特征為大IO順序?qū)?;在?shù)據(jù)預(yù)處理環(huán)節(jié)采用大文件聚合,大IO順序讀,存在多客戶端順序?qū)懶∥募籄I模型訓(xùn)練主要是多線程小IO隨機(jī)讀多個小文件。仿真驗(yàn)證則是單線程大IO順序S3單客戶端順序?qū)懘笪募嗀I訓(xùn)練綜上所述,由于大數(shù)據(jù)、AI、HPC仿真等多技術(shù)的融合,業(yè)務(wù)呈現(xiàn)多樣業(yè)務(wù)混合負(fù)載特征。數(shù)據(jù)模型既需要支持高帶寬又需要支持高IOPS。HPC和AI融合,加速改變科研及生產(chǎn)效率1.3.11.3.1AI加速科學(xué)研究范式變遷,數(shù)據(jù)驅(qū)動的AI方法改變科學(xué)的漸進(jìn)發(fā)展AI賦能機(jī)理計算是目前超算的一大趨勢,通過數(shù)據(jù)驅(qū)動AI計算,利用人工智能技術(shù)對機(jī)理計算進(jìn)行優(yōu)化和加速,提高計算效率和精度,從而實(shí)現(xiàn)更圖1-5華為盤古氣象大模型研究成果在《Nature》正刊發(fā)表例如日前國際頂級學(xué)術(shù)期刊《Nature》雜志正刊發(fā)表了華為云盤古大模型研發(fā)團(tuán)隊研究成果《三維神經(jīng)網(wǎng)絡(luò)用于精準(zhǔn)中期全球天氣預(yù)報》。受限于氣象觀測的準(zhǔn)確度,大氣系統(tǒng)中物理過程的復(fù)雜性,傳統(tǒng)數(shù)值方法所需計算資源規(guī)模巨大,全球中期天氣預(yù)報的有效性每10年才提高1天。而華為盤古氣象大模型是首個精度超過傳統(tǒng)數(shù)值預(yù)報方法的AI模型,速度相比傳統(tǒng)數(shù)值預(yù)報提速10000倍以上,改變了近些年數(shù)值天氣預(yù)報精度提升緩慢的科學(xué)計算(HPC)面臨挑戰(zhàn)面臨挑戰(zhàn)算不了、算不準(zhǔn)、算不動算不了、算不準(zhǔn)、算不動++AI催生AI賦能機(jī)理計算DeePMD:分子動力學(xué)模擬AI賦能機(jī)理計算DeePMD:分子動力學(xué)模擬AI+分子動力學(xué)科學(xué)智能(HPDA=HPC+BigData+AI)數(shù)據(jù)驅(qū)動的AI計算AI+蛋白質(zhì)結(jié)構(gòu)預(yù)測機(jī)理計算與AI計算相結(jié)合AI+HPCAI+HPCAI+生物制藥圖1-6HPC和AI融合,科學(xué)計算走向科學(xué)智能科學(xué)研究正邁向科學(xué)智能新階段,通過Al賦能科學(xué)研究,解決傳統(tǒng)HPC算不快、算不準(zhǔn)、算不動的問題。如AI賦能機(jī)理計算,DeePMD基于深度學(xué)習(xí)的分子動力學(xué)模擬方法,將Al嵌入機(jī)理計算中,在空間尺度和時間尺度上基于數(shù)學(xué)方程推演,計算效率提高1000倍,計算空間尺度增大100倍。在數(shù)據(jù)驅(qū)動的Al計算中,如AlphaFold蛋白質(zhì)結(jié)構(gòu)預(yù)測,通過Al加速可以使藥物臨床研究耗時從年減少到月。1.3.2數(shù)據(jù)決定1.3.2數(shù)據(jù)決定AI智能的高度,數(shù)據(jù)存儲成為大模型時代的核心基礎(chǔ)設(shè)施一、數(shù)據(jù)數(shù)量和質(zhì)量決定AI智能的高度在我們探討機(jī)器學(xué)習(xí)的效果時,無法忽略的一點(diǎn)是高質(zhì)量數(shù)據(jù)的重要性。數(shù)據(jù)質(zhì)量越高,意味著更準(zhǔn)確、更可信、更相關(guān)、更有價值的數(shù)據(jù),給人工智能提供更可靠的輸入,提高模型的可用性和可靠性。如果沒有高質(zhì)量的數(shù)據(jù)輸入,無論多么先進(jìn)的算法、多么龐大的算力都無法帶來高質(zhì)量的成果。數(shù)據(jù)質(zhì)量決定AI智能的高度。傳統(tǒng)數(shù)據(jù)處理方法主要是針對小規(guī)模數(shù)據(jù),以統(tǒng)計模型為基礎(chǔ)尋找數(shù)據(jù)中的規(guī)律。然而基于小規(guī)模數(shù)據(jù)所建立的模型,其表達(dá)能力受限于數(shù)據(jù)規(guī)模,只能進(jìn)行粗粒度的模擬與預(yù)測,在精度要求比較高的情況就不再適用。如果想要進(jìn)一步提升模型精度就需要利用海量數(shù)據(jù)生成相關(guān)模型。數(shù)據(jù)規(guī)模越大,意味著更多的信息、更多的樣本、更多的特征,給人工智能模型提供更充分的訓(xùn)練和學(xué)習(xí)的機(jī)會,提高人工智能的泛化能力。數(shù)據(jù)數(shù)量同樣決定AI智能的高度。以華為盤古大模型研發(fā)團(tuán)隊發(fā)現(xiàn)為例,AI氣象預(yù)報模型的精度不足主要有兩個原因:第一,原有的AI氣象預(yù)報模型都是基于2D神經(jīng)網(wǎng)絡(luò),無法很好地處理不均勻的3D氣象數(shù)據(jù);第二,AI方法缺少數(shù)學(xué)物理機(jī)理約束,因此在迭代的過程中會不斷積累迭代誤差。為此,研究團(tuán)隊創(chuàng)造性地提出了適應(yīng)地球坐標(biāo)系統(tǒng)的三維神經(jīng)網(wǎng)絡(luò)(3DEarth-SpecificTransformer)來處理復(fù)雜的不均勻3D氣象數(shù)據(jù),通過提升數(shù)據(jù)數(shù)量還有質(zhì)量,并且使用層次化時域聚合策略來減少預(yù)報迭代次數(shù),從而減少迭代誤差。通過在43年的全球天氣數(shù)據(jù)上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),盤古氣象大模型在精度和速度方面超越傳統(tǒng)數(shù)二、數(shù)據(jù)存儲是大模型時代發(fā)展AI的核心在科學(xué)領(lǐng)域,從“數(shù)據(jù)”中可以提煉出經(jīng)驗(yàn)性“原理”,也可以使用“原理”來仿真模擬出“數(shù)首先,數(shù)據(jù)準(zhǔn)備時間長,數(shù)據(jù)來源分散,歸集慢,預(yù)處理百TB數(shù)據(jù)需10天左右,這不利于系統(tǒng)的其次,如今大模型的規(guī)模越來越大,達(dá)到千億甚至萬億的參數(shù)級,訓(xùn)練需要海量的計算資源和存儲空間。比如多模態(tài)大模型以海量文本、圖片為訓(xùn)練集,但是當(dāng)前海量小文件的加載速度不足其三,大模型參數(shù)頻繁調(diào)優(yōu),訓(xùn)練平臺不穩(wěn)定,平均約2天出現(xiàn)一次訓(xùn)練中斷,需要Check-最后,大模型實(shí)施門檻高,系統(tǒng)搭建繁雜,資源調(diào)度難,GPU資源利用率通常不到40%。為此,需要非常專業(yè)的軟件、硬件工程師來進(jìn)行實(shí)施并進(jìn)綜上所述,構(gòu)建大容量、高性能的存力數(shù)據(jù)基數(shù)據(jù)準(zhǔn)備時間長數(shù)據(jù)來源分散,歸集慢預(yù)處理時間長,百TB級需10天訓(xùn)練集加載效率低模型參數(shù)大,千億級、萬億級小文件性能差,數(shù)據(jù)加載不足100MB/s訓(xùn)練過程易中斷參數(shù)頻繁調(diào)優(yōu),訓(xùn)練平臺不穩(wěn)定平均約2天中斷一次企業(yè)實(shí)施門檻高系統(tǒng)搭建繁雜,資源調(diào)度難GPU資源利用率不到40%數(shù)據(jù)編織,近存計算海量小文件高吞吐Checkpoints并行高帶寬一站式交付圖1-7大模型訓(xùn)練時的關(guān)鍵數(shù)據(jù)挑戰(zhàn)1.3.3發(fā)展先進(jìn)數(shù)據(jù)存力基礎(chǔ)設(shè)施,是構(gòu)建大模型時代高質(zhì)量發(fā)展的1.3.3發(fā)展先進(jìn)數(shù)據(jù)存力基礎(chǔ)設(shè)施,是構(gòu)建大模型時代高質(zhì)量發(fā)展的基石過去十年,人工智能(AI)的飛速增長與數(shù)據(jù)基礎(chǔ)設(shè)施逐步演變密切相關(guān)。從存儲技術(shù)的革新,云計算的大規(guī)模采用,到數(shù)據(jù)湖和數(shù)據(jù)倉庫的出現(xiàn),以及向量數(shù)據(jù)庫的日益利用,每次的演變都在AI繁由于大模型的訓(xùn)練需要快速地處理數(shù)據(jù),對性能指標(biāo)有更高的要求,將會催生高性能存儲的新品類,也會加速存儲在各環(huán)節(jié)的融合,類似于數(shù)據(jù)湖存儲,而不是像過去預(yù)處理、訓(xùn)練、推理、歸集各自構(gòu)建。在原有的基礎(chǔ)架構(gòu)上,AIforScience時代下的先進(jìn)數(shù)據(jù)存力基礎(chǔ)設(shè)施將有以下四個方面的一、支持?jǐn)?shù)據(jù)新范式:數(shù)據(jù)編織大幅縮短AI大模型數(shù)據(jù)準(zhǔn)備時間多樣化數(shù)據(jù)快速歸集:基于GFS,針對S3、HDFS、文件等多種協(xié)議接入,支持多樣化數(shù)據(jù)0遷近計算加速:隨路處理縮短IO路徑,減少數(shù)據(jù)搬移,釋放CPU資源。AI高性能存儲:大、小文件自適應(yīng)讀寫,高IOPS支撐預(yù)處理和訓(xùn)練集聚合優(yōu)化,通過算力、存向量檢索:滿足千萬并發(fā)下的實(shí)時推理要求,三、面向AI業(yè)務(wù)模型分析的可靠數(shù)據(jù)存儲IO級負(fù)載均衡:單客戶端同時訪問多個節(jié)點(diǎn),元數(shù)據(jù)快速修復(fù):元數(shù)據(jù)損壞快速定界,支持故障快速恢復(fù):高性能、大容量存儲滿足PB級高頻度CheckPoint要求。四、支持?jǐn)?shù)據(jù)價值精準(zhǔn)識別與治理,降低數(shù)據(jù)全生命周期管理TCO全域統(tǒng)一元數(shù)據(jù):將線上、線下的元數(shù)據(jù)統(tǒng)一采集到線下進(jìn)行統(tǒng)計、分析,為客戶展示統(tǒng)一的數(shù)08級預(yù)取和淘汰。熱點(diǎn)數(shù)據(jù)識別后,數(shù)據(jù)安全流動,同步到多個集群上去。多源數(shù)據(jù)共池,一個集群故障后,客戶端自動failover到其他集群對應(yīng)的備份目錄。訓(xùn)練數(shù)據(jù)傳輸訓(xùn)練數(shù)據(jù)傳輸存儲網(wǎng)絡(luò)優(yōu)化訓(xùn)練據(jù)層原始數(shù)據(jù)層預(yù)處理服務(wù)器性能型存儲(必選)CheckPoint長期留存容量型存儲全局?jǐn)?shù)據(jù)視圖非結(jié)構(gòu)化文件訓(xùn)練服務(wù)器推理服務(wù)器近數(shù)據(jù)隨路處理推理結(jié)果修正和加速向量化存儲按需讀取訓(xùn)練數(shù)據(jù)結(jié)構(gòu)化文件模型長期留存模型加載視頻圖片CADE圖1-8面向AI先進(jìn)存力基礎(chǔ)設(shè)施1.4.1美國大力推動高性能數(shù)據(jù)密集型基礎(chǔ)設(shè)施互聯(lián)1.4.1美國大力推動高性能數(shù)據(jù)密集型基礎(chǔ)設(shè)施互聯(lián)美國將高性能數(shù)據(jù)密集型基礎(chǔ)設(shè)施上升至國家任務(wù),2023年3月10日美國能源部(DOE)宣布了一項提案,要求國家實(shí)驗(yàn)室主導(dǎo)高性能數(shù)據(jù)設(shè)施(HPDF)。該項目旨在創(chuàng)建一個專門從事數(shù)據(jù)密集型科學(xué)先進(jìn)基礎(chǔ)設(shè)施的新科學(xué)用戶設(shè)施,DOE預(yù)計HPDF項目在投資約為3-5億美元。HPDF的使命將是通過提供最先進(jìn)的數(shù)據(jù)管理基礎(chǔ)架構(gòu)、功能和工具來實(shí)現(xiàn)和加速科學(xué)發(fā)現(xiàn)。HPDF將在管理科學(xué)數(shù)據(jù)生命周期方面發(fā)揮領(lǐng)導(dǎo)作用,并將推進(jìn)能源部和政府對公眾獲取科學(xué)數(shù)據(jù)和公平數(shù)據(jù)原則(可查找、可訪問、可互操作和可重復(fù)使用)的承諾。該設(shè)施將設(shè)計為動態(tài)配置計算、網(wǎng)絡(luò)和存儲資源,以訪問靜止或運(yùn)動中的數(shù)據(jù),支持使用精心策劃的數(shù)據(jù)集,以及直接從實(shí)驗(yàn)或儀器對流數(shù)據(jù)進(jìn)行近乎實(shí)時的分析。09圖1-9ESnet6網(wǎng)絡(luò)連接地圖來源:/news-and-publications/welcome-esnet6/esnet6-maps/DOE的研究機(jī)構(gòu)之間經(jīng)常有任務(wù)式的PB級大數(shù)據(jù)量搬運(yùn),數(shù)據(jù)增長越來越快,且新型科學(xué)研究需要科研機(jī)構(gòu)之間的大數(shù)據(jù)量互訪。能源部設(shè)想,將以HPDF為基礎(chǔ)采用“Hub-and-Spoke”模型,在Hub處托管集中的資源,并通過在Spoke或其他地點(diǎn)部署和協(xié)調(diào)分布式基礎(chǔ)設(shè)施來支持高優(yōu)先級的美國能源部任務(wù)應(yīng)用。Hub和Spoke將通過Esnet進(jìn)行互聯(lián)。1.4.2歐洲成立超算聯(lián)合體,構(gòu)建一體化超算基礎(chǔ)設(shè)施1.4.2歐洲成立超算聯(lián)合體,構(gòu)建一體化超算基礎(chǔ)設(shè)施一、“一體化超算基礎(chǔ)設(shè)施”成為歐洲未來超算建設(shè)重點(diǎn)歐洲超算聯(lián)合體(EuroHPCJU),成立于2018年,旨在承載構(gòu)建一體化的世界級超算&數(shù)據(jù)基礎(chǔ)設(shè)施,支撐歐洲高競爭力創(chuàng)新的HPC&大數(shù)據(jù)生態(tài)的使命。圖1-10Federation2023+項目計劃互聯(lián)所有EuroHPC系統(tǒng)的HPC資源來源:https://eurohpc-ju.europa.eu/index_en2021-2033年期間將投資80億歐元新預(yù)算用于持續(xù)擴(kuò)大部署世界級的超算中心,其中Federation2023+項目,計劃互聯(lián)所有EuroHPC系統(tǒng)的HPC資源并提供以下服務(wù):(1)身份驗(yàn)證、授權(quán)和認(rèn)證服務(wù)2)算力服務(wù),包括交互式計算和云接入-虛擬機(jī)-容器的服務(wù);(3)數(shù)據(jù)服務(wù),包括歸檔服務(wù)和數(shù)據(jù)庫服務(wù),數(shù)據(jù)流動和傳輸服務(wù);(4)用戶和資源管理服務(wù)。二、意大利打造“國家數(shù)據(jù)湖云計算基礎(chǔ)設(shè)施”,打破計算存儲資源孤島壁壘意大利國家超算中心(ICSC),是由PNRR投資贊助的的五個國家中心之一,目標(biāo)最終建設(shè)成一個共享與開放的Cloud/HPC分布式基礎(chǔ)設(shè)施,為國家戰(zhàn)略部門存儲計算資源,最終通過科研界以及工業(yè)界加速國家的數(shù)字化。該中心超算建設(shè)戰(zhàn)略目標(biāo)是為國家戰(zhàn)略部門(超算,人工智能,數(shù)值模擬等)提供創(chuàng)新ICT資源,讓意大利成為一個建設(shè)配備國家數(shù)據(jù)湖云計算基礎(chǔ)設(shè)施的國家,該基礎(chǔ)設(shè)施可被動態(tài)和虛擬的分配給科研組織或者用戶,打破計算存儲資源孤島壁壘。所有用戶之間資源共享,以提升資源分配與使用的靈活性。ICSC成立博洛尼亞意大利數(shù)據(jù)谷(DataVal-ley),打造1個超算云架構(gòu),連接15+數(shù)據(jù)中心,承接10大領(lǐng)域科研課題。一方面將集中維護(hù)和加強(qiáng)意大利的HPC和大數(shù)據(jù)基礎(chǔ)設(shè)施,另一方面將開發(fā)先進(jìn)的數(shù)值方法,應(yīng)用程序以及軟件工具,將基礎(chǔ)設(shè)施和計算、模擬、收集和分析科研活動進(jìn)行整合,同時向云和分布式數(shù)據(jù)湖架構(gòu)演進(jìn)。1.4.3中國超算互聯(lián)網(wǎng)工程,構(gòu)建一體化算力網(wǎng)絡(luò)和數(shù)據(jù)平臺1.4.3中國超算互聯(lián)網(wǎng)工程,構(gòu)建一體化算力網(wǎng)絡(luò)和數(shù)據(jù)平臺近年來,在科技部和各省市政府的積極推動下,中國超算建設(shè)已取得一定成績,有效支撐了科技創(chuàng)新、社會民生、數(shù)字經(jīng)濟(jì)發(fā)展。隨著以大數(shù)據(jù)、人工智能為代表的新一代信息技術(shù)迅猛發(fā)展,全社會對算力提出了更高要求,亟需突破現(xiàn)有單體超算中心運(yùn)營模式,以應(yīng)對算力設(shè)施分布不均衡、接口不統(tǒng)一、應(yīng)用軟件自主研發(fā)和推廣不足等問題,更好地統(tǒng)籌協(xié)調(diào)全國超算中心算力。為了解決上述挑戰(zhàn),科技部于2023年4月啟動國家超算互聯(lián)網(wǎng)部署工作,用互聯(lián)網(wǎng)思維運(yùn)營超算,將全國眾多超算中心連接起來,并連接產(chǎn)業(yè)生態(tài)中的算力供給、應(yīng)用開發(fā)、運(yùn)營服務(wù)、用戶等各方能力和資源,構(gòu)建一體化超算算力網(wǎng)絡(luò)和服務(wù)平臺。按照計劃,到2025年底,國家超算互聯(lián)網(wǎng)將可形成技術(shù)先進(jìn)、模式創(chuàng)新、服務(wù)優(yōu)質(zhì)、生態(tài)完善的總體布局,有效支撐原始科學(xué)創(chuàng)新、重大工程突破、經(jīng)濟(jì)高質(zhì)量發(fā)展等目標(biāo)達(dá)成。國家超級計算濟(jì)南中心(以下簡稱“濟(jì)南超算”)在超算互聯(lián)走在了全國前列。2022年7月22日,2022中國算力峰會,超算互聯(lián)網(wǎng)工程正式上線。通過這一工程,各地的超算中心和大數(shù)據(jù)中心將實(shí)現(xiàn)數(shù)據(jù)和算力的互聯(lián)互通,整合成為一個算力圖1-12超算互聯(lián)網(wǎng)上線啟用圖1-13“東數(shù)西算”數(shù)據(jù)存儲集群系統(tǒng)上線濟(jì)南超算率先在建設(shè)省域沿黃9市的算力平臺,并逐步構(gòu)建濟(jì)南超算-山西超算-西安超算-鄭州超算的黃河流域高性能算力圈,并與黃河中上游三個國家一體化大數(shù)據(jù)中心樞紐節(jié)點(diǎn)相互聯(lián)接,圍繞數(shù)據(jù)存儲和應(yīng)用需求,建立健全多元異構(gòu)、云邊協(xié)同的一體化算力體系。濱州東營煙臺德州煙臺威海濟(jì)南超算中心聊城淄博濟(jì)南超算中心聊城青島海洋實(shí)青島海洋實(shí)驗(yàn)室泰安濟(jì)寧菏澤臨沂菏澤棗莊世界各國都在加速高性能數(shù)據(jù)基礎(chǔ)設(shè)施部署,推進(jìn)超算互聯(lián)工程進(jìn)程,打造集應(yīng)用、數(shù)據(jù)、算力服務(wù)于一體的超算平臺,實(shí)現(xiàn)跨超算中心的鏈接,包括算力資源和數(shù)據(jù)資產(chǎn)的統(tǒng)籌與調(diào)度。打破計算存儲資源孤島壁壘,支持所有用戶之間資源共享,以提升資源分配與使用的靈活性。一體化數(shù)據(jù)基礎(chǔ)設(shè)施已成為超算互聯(lián)建設(shè)共性需求。1.5.1國家級網(wǎng)絡(luò)攻擊對抗愈演愈烈,科研重點(diǎn)單位1.5.1國家級網(wǎng)絡(luò)攻擊對抗愈演愈烈,科研重點(diǎn)單位成為重點(diǎn)目標(biāo)之一超算中心是國家計算基礎(chǔ)設(shè)施,是推動科研創(chuàng)新和工業(yè)發(fā)展的關(guān)鍵動力,其平臺及數(shù)據(jù)安全關(guān)乎國計民生,也是國家級黑客組織的重點(diǎn)攻擊目標(biāo)之一。近年來,隨著網(wǎng)絡(luò)空間大國博弈的持續(xù)深入,網(wǎng)絡(luò)攻擊從民間組織上升到國家級黑客組織,對他2022年3月,根據(jù)360公司報告披露,具有境外背景的黑客組織對中國開展無差別網(wǎng)絡(luò)攻擊,攻擊行為極為隱蔽,持續(xù)長達(dá)十余年。目標(biāo)對象涵蓋了黨政機(jī)關(guān)、科研院所、高等院校、醫(yī)療機(jī)構(gòu)、行業(yè)龍頭企業(yè),以及關(guān)乎國計民生的各個行業(yè)關(guān)鍵信2022年9月,國家計算機(jī)病毒應(yīng)急處理中心和擊的調(diào)查報告。調(diào)查顯示,境外組織使用40余種網(wǎng)網(wǎng)絡(luò)交換機(jī)、路由器、防火墻等數(shù)以萬計的網(wǎng)絡(luò)設(shè)2023年7月,奇安信公司發(fā)布的《全球高級持續(xù)性威脅(APT)2023年中報告》顯示,2023年上半年全球范圍內(nèi),政府部門和國防軍事領(lǐng)域是APT攻擊的首要目標(biāo)。與去年同期相比,教育、科研領(lǐng)域相關(guān)的攻擊事件比例增高,占比分別為11%和9%。從近年網(wǎng)絡(luò)攻擊態(tài)勢看,國家級黑客組織的猖獗活動將愈發(fā)增多、愈演愈烈,各類基礎(chǔ)設(shè)施的安全將長期處于前所未有的戰(zhàn)略承壓期和高危風(fēng)險期,這一特征在相當(dāng)長一段時間內(nèi)不會改變。媒體3%制造3%加密貨幣4%通信4%30%金融9%9%9%圖1-152023年上半年高級威脅事件涉及行業(yè)分布情況1.5.2各國陸續(xù)出臺法律法規(guī),提升數(shù)據(jù)戰(zhàn)略地位,加強(qiáng)數(shù)據(jù)安全保1.5.2各國陸續(xù)出臺法律法規(guī),提升數(shù)據(jù)戰(zhàn)略地位,加強(qiáng)數(shù)據(jù)安全保護(hù)力度近幾年,全球主要經(jīng)濟(jì)體包括中國、美國、歐盟、英國等紛紛把數(shù)據(jù)競爭力上升為國家級戰(zhàn)略。雖然2020年受疫情影響,全球整體經(jīng)濟(jì)增長減緩,但“減少接觸,遠(yuǎn)程辦公”等措施反而使得數(shù)字經(jīng)濟(jì)發(fā)展的勢頭更加迅猛。各國更加重視數(shù)據(jù)競爭力,并紛紛出臺政策制定數(shù)據(jù)戰(zhàn)略,宣誓數(shù)據(jù)安全和主權(quán)。在保護(hù)數(shù)據(jù)安全的前提下,承認(rèn)數(shù)據(jù)價值、促進(jìn)數(shù)據(jù)利用,爭相在數(shù)據(jù)政策制訂方面建立·中國2020年4月,《中共中央國務(wù)院關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意見》公布,中央首次明確數(shù)據(jù)成為繼土地、勞動力、資本、和技術(shù)之外的第五大生產(chǎn)要素。2022年,黨的二十大報告提出了“加快建設(shè)網(wǎng)絡(luò)強(qiáng)國、數(shù)字中國”、“健全網(wǎng)絡(luò)綜合治理體系,推動形成良好網(wǎng)絡(luò)生態(tài)”、“強(qiáng)化網(wǎng)絡(luò)、數(shù)據(jù)安全保障體系建設(shè)”等重要部署要求,對“推進(jìn)國家安全體系和能力現(xiàn)代化,堅決維護(hù)國家安全和社會穩(wěn)定”進(jìn)行全局部署,為今后國家網(wǎng)絡(luò)安全和信息化的發(fā)展定下了主基調(diào)。為應(yīng)對數(shù)據(jù)安全風(fēng)險帶來的嚴(yán)峻威脅,2021年陸續(xù)頒布《中華人民共和國數(shù)據(jù)安全法》及《中華人民共和國個人信息保護(hù)法》?!吨腥A人民共和國數(shù)據(jù)安全法》是數(shù)據(jù)要素國家戰(zhàn)略的基本法,是我國數(shù)據(jù)時代的重要一步,體現(xiàn)了國家對支持?jǐn)?shù)字經(jīng)濟(jì)的決心與信息,是數(shù)字經(jīng)濟(jì)“安全與發(fā)展”并重的體現(xiàn)。同期,各個行業(yè)配套落地措施及標(biāo)準(zhǔn)陸續(xù)出臺。2022年,國家進(jìn)一步強(qiáng)化了前期法規(guī)的縱深推進(jìn)與落地實(shí)施,有力夯實(shí)了國家數(shù)據(jù)安全保障基結(jié)合我國前期發(fā)布的《國家安全法》、《網(wǎng)絡(luò)安全法》與上述其他規(guī)范形成配套組合,作為國家整體安全觀的組成部分,共同構(gòu)筑了國家信息網(wǎng)絡(luò)空間與基礎(chǔ)設(shè)施的安全壁壘,為保護(hù)國家和個人信息數(shù)據(jù)安全提供了法律依據(jù)?!っ绹?019年12月,美國白宮發(fā)布了《聯(lián)邦數(shù)據(jù)戰(zhàn)略和2020年行動計劃》。聯(lián)邦數(shù)據(jù)戰(zhàn)略以2020年為起始點(diǎn),描述了美國政府未來十年的數(shù)據(jù)愿景,其核心思想是將數(shù)據(jù)作為戰(zhàn)略資源來開發(fā),通過確立了一致的數(shù)據(jù)基礎(chǔ)設(shè)施和標(biāo)準(zhǔn)實(shí)踐,來逐步建立強(qiáng)大的數(shù)據(jù)治理能力,為國家經(jīng)濟(jì)和安全提供保障。2020年10月8日,美國國防部發(fā)布了《國防部數(shù)據(jù)戰(zhàn)略》(DoDDataStrategy),提出國防部應(yīng)加快向“以數(shù)據(jù)為中心”的過渡,并制定了數(shù)據(jù)戰(zhàn)略框架。并提出:數(shù)據(jù)是戰(zhàn)略資產(chǎn)、數(shù)據(jù)要集體管理、數(shù)據(jù)倫理、數(shù)據(jù)采集、數(shù)據(jù)訪問和可用性、人工智能訓(xùn)練數(shù)據(jù)、數(shù)據(jù)適當(dāng)目的、合規(guī)設(shè)計等八大原則;數(shù)據(jù)應(yīng)當(dāng):可見的、可訪問的、易于理解的、可鏈接的、可信賴的、可互操作的、安全的等可見,不管是美國白宮的《聯(lián)邦數(shù)據(jù)戰(zhàn)略》,還是美國國防部的《數(shù)據(jù)戰(zhàn)略》,都希望促進(jìn)美國內(nèi)部數(shù)據(jù)的訪問、共享、互操作性和安全性,使數(shù)據(jù)發(fā)揮更大的價值,支持更多創(chuàng)新算法的應(yīng)用,最終支持美國國家戰(zhàn)略和數(shù)字現(xiàn)代化戰(zhàn)略的實(shí)現(xiàn)。·歐盟2020年2月,歐盟發(fā)布了《歐盟數(shù)字化戰(zhàn)略》、《數(shù)據(jù)戰(zhàn)略》、《人工智能戰(zhàn)略》。其核心思想亦是在建立聯(lián)邦數(shù)據(jù)平臺的基礎(chǔ)上實(shí)現(xiàn)數(shù)據(jù)主權(quán)和技術(shù)主權(quán),從而達(dá)到數(shù)字經(jīng)濟(jì)時代,國家競爭同時,歐盟非常重視信息數(shù)據(jù)流通與個人權(quán)利保護(hù)相結(jié)合,在2018年5月發(fā)布了《通用數(shù)據(jù)保護(hù)條例》(GDPR),明確了個人數(shù)據(jù)定義和條例適用范圍。條例還確定了數(shù)據(jù)保護(hù)的合法性基礎(chǔ)、數(shù)據(jù)主體權(quán)利、數(shù)據(jù)控制者義務(wù)、數(shù)據(jù)流通標(biāo)準(zhǔn)、數(shù)據(jù)救濟(jì)和處罰等內(nèi)容。通過GDPR,歐盟對出境的個人數(shù)據(jù)保持了高水平保護(hù)。同時,歐盟認(rèn)為GDPR應(yīng)該成為世界的標(biāo)桿,在推動世界在數(shù)據(jù)戰(zhàn)略方面向歐盟看齊。因此GDPR也成為全球眾多國家、地區(qū)制定數(shù)據(jù)保護(hù)條例的重要參考對象。高性能計算做為體現(xiàn)國家綜合國力和信息化建設(shè)能力的“國之重器”,各國均頻繁從國家層面啟動研制計劃。在中國多次上榜全球高性能計算TOP500后,高性能計算從產(chǎn)業(yè)鏈條和技術(shù)層面被遏制,中國E級和后E級高性能計算的發(fā)展遇到在嚴(yán)峻的國際環(huán)境下,如何突破外部限制與封鎖,保持我國超級計算機(jī)的持續(xù)發(fā)展,自主可控成為唯一出路!面對挑戰(zhàn),中國超算產(chǎn)業(yè)需要在超算系統(tǒng)體系結(jié)構(gòu)的創(chuàng)新,關(guān)鍵技術(shù)的突破和軟件硬件的協(xié)同上發(fā)力。近十幾年,中國在超算關(guān)鍵根技術(shù)上不斷加大投入和自主創(chuàng)新,初步完成了超算自主可控生態(tài)體系的建設(shè)。隨著“天河”和“神威”超級計算機(jī)、“飛騰”和“申威”處理器等標(biāo)志性成果的出現(xiàn),打破了長期以來國產(chǎn)超級計算機(jī)平臺無“芯”可用的局面,奠定了安全、自主、可控的國產(chǎn)平臺技術(shù)基礎(chǔ)。在“磁退硅進(jìn)”的全球發(fā)展趨勢下,我國大力發(fā)展以半導(dǎo)體為核心的新一代閃存技術(shù)。目前我國企業(yè)已實(shí)現(xiàn)一部分關(guān)鍵技術(shù)的領(lǐng)先和芯片供貨的國產(chǎn)化,具備了一定的產(chǎn)業(yè)基礎(chǔ)。通過提升閃存等先進(jìn)存儲在超算存儲系統(tǒng)占比,可以有效規(guī)避當(dāng)前機(jī)械硬盤面臨的卡脖子風(fēng)險,進(jìn)一步構(gòu)筑自主可控數(shù)據(jù)底座。截至目前,中國在跨域數(shù)據(jù)管理系統(tǒng)、分布式并行文件系統(tǒng)以及超算集群等方面,相比國外廠家已取得優(yōu)勢;在超算/AI/大數(shù)據(jù)等應(yīng)用生態(tài)、容器應(yīng)用平臺。以歐拉為代表的操作系統(tǒng)等均實(shí)現(xiàn)對國外廠家的追趕。中國在存儲性能、集群擴(kuò)展、安全可信、綠色節(jié)能等領(lǐng)域充分體現(xiàn)了數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)的先進(jìn)性。領(lǐng)域國內(nèi)方案國際地位領(lǐng)域國內(nèi)方案國際地位集群擴(kuò)展支持10EF級計算集群并發(fā)支持?jǐn)U展至集群擴(kuò)展支持10EF級計算集群并發(fā)支持?jǐn)U展至EB級存儲集群綠色節(jié)能數(shù)據(jù)零丟失,服務(wù)永遠(yuǎn)在線自帶防攻擊,數(shù)據(jù)安全共享等保三級聚合帶寬>10TB/s聚合IOPS>3億IO時延<500us碳達(dá)峰、碳中和綠色數(shù)據(jù)中心安全可信存儲性能存儲根技術(shù)存儲根技術(shù)是中國超算產(chǎn)業(yè)健康發(fā)展的基石堅持科技自立自強(qiáng),發(fā)展自主可控數(shù)據(jù)基礎(chǔ)設(shè)施分布式文件系統(tǒng)CPU處理器介質(zhì)顆粒SSD控制器具備端到端全棧自主可控能力應(yīng)用生態(tài)HPC/AI應(yīng)用生態(tài)HPC/AI/大數(shù)據(jù)并跑容器應(yīng)用平臺并跑跨域數(shù)據(jù)管理系統(tǒng)GFS領(lǐng)跑分布式并行文件系統(tǒng)OceanFS領(lǐng)跑存儲介質(zhì)長江,長鑫等國家廠家追趕操作系統(tǒng)EulerOS并跑集群OceanStorPacificHPDA集群領(lǐng)跑存儲處理器&控制器鯤鵬+SSD鯤鵬+并跑圖1-16中國“數(shù)據(jù)基礎(chǔ)設(shè)施”關(guān)鍵根技術(shù)持續(xù)突破創(chuàng)新,實(shí)目前中國已初步具備建立自主可控數(shù)據(jù)基礎(chǔ)設(shè)施的條件,可基于端到端全棧完全自主能力構(gòu)建安全可信的1.7.1超算系統(tǒng)商業(yè)應(yīng)用和未來演進(jìn)面臨能效挑戰(zhàn)1.7.1超算系統(tǒng)商業(yè)應(yīng)用和未來演進(jìn)面臨能效挑戰(zhàn)隨著超算系統(tǒng)規(guī)模的不斷擴(kuò)大和性能的不斷提高,其能耗和散熱問題日益突出。根據(jù)國際能源署的數(shù)據(jù),全球超級計算機(jī)的能源消耗量已經(jīng)超過了一些小國家的總能源消耗量。在當(dāng)前可持續(xù)發(fā)展的宏觀背景下,超級計算的能效不僅影響了超算的運(yùn)行效率和可靠性,也關(guān)系到環(huán)境保護(hù)和資源利用效率。因此,提高超算系統(tǒng)的能效比和降低碳排放已經(jīng)成為超算行業(yè)的重要目標(biāo)。其中能效比是衡量計算機(jī)性能和能源消耗之間關(guān)系的指標(biāo),它表示單位計算能力所消耗的能源量。下圖是過去10年根據(jù)Green500榜單公布的歷年最佳超級計算機(jī)的能效比,雖然十年間能效比提升了10余倍,但是近兩年持平,維持在60GFLOPS/W。GFLOPS/W7060504030201020132014201520162017201820192020202120222023圖1-17近10年Green500最佳超算計算機(jī)能效比目前超算系統(tǒng)性能和能效的提升速度之間有大概十多倍的差距,如果性能提升1000倍,能效可能只能提高不到100倍?,F(xiàn)在E級計算機(jī)能耗大概50兆瓦,按此推算Z級計算機(jī)能耗大約在500兆瓦左右。從經(jīng)濟(jì)角度來說,P級計算機(jī)一年運(yùn)營經(jīng)費(fèi)大概幾千萬人民幣,E級大概幾個億,而Z級一年運(yùn)營經(jīng)費(fèi)需要幾十個億。超級計算機(jī)的高能耗也導(dǎo)致高過去超算技術(shù)進(jìn)步有兩條路,包括單個芯片性能的提高,以及系統(tǒng)所含的處理器數(shù)量的提高,即并行規(guī)模的擴(kuò)大。目前這兩條路都碰到了天花板,芯片工藝逐漸接近極限,摩爾定律接近失效;而并行規(guī)?;谏鲜瞿苄г蛞膊荒茉贌o限擴(kuò)展。從超1.7.2通過軟硬件設(shè)計優(yōu)化提升超級計算機(jī)能效,實(shí)現(xiàn)超算系統(tǒng)可1.7.2通過軟硬件設(shè)計優(yōu)化提升超級計算機(jī)能效,實(shí)現(xiàn)超算系統(tǒng)可持續(xù)發(fā)展為了解決超算系統(tǒng)的能源效率問題,研究人員和工程師們已經(jīng)提出了一系列的解決方案。首先,改進(jìn)硬件設(shè)計是提高能源效率的重要途徑。例如,通過改進(jìn)超級計算機(jī)的制造工藝,減少電子元件的能耗,提高能源利用效率;采用更先進(jìn)的散熱技術(shù),如液冷技術(shù)和熱管技術(shù),可以提高散熱效率,減少能耗。此外,研究人員還提出了一些新的功耗管理技術(shù),如采用動態(tài)電壓頻率調(diào)整(DVFS)技術(shù),根據(jù)負(fù)載情況動態(tài)調(diào)整處理器的電壓和頻率,其次,改進(jìn)軟件設(shè)計也是提高能源效率的關(guān)鍵。如通過優(yōu)化并行計算算法和任務(wù)調(diào)度策略,減少計算過程中的能耗;另外,超級計算機(jī)的大規(guī)模數(shù)據(jù)處理和存儲也是能耗的重要來源。通過采用數(shù)據(jù)壓縮和存儲優(yōu)化技術(shù),減少數(shù)據(jù)傳輸和存儲過程中的能耗。最后,通過采用能耗感知的任務(wù)調(diào)度策略,根據(jù)不同任務(wù)的能耗需求和計算資源的能耗特了很多優(yōu)秀實(shí)踐。國家超級計算無錫中心的神威太湖之光E級系統(tǒng)通過軟硬協(xié)同的多層級功耗管理和基礎(chǔ)設(shè)施“智冷”技術(shù),等將能耗指標(biāo)PUE值已降至1.22,實(shí)現(xiàn)年均節(jié)電量300萬千瓦時。超級計算機(jī)的能源效率是一個重要的研究領(lǐng)域,對于實(shí)現(xiàn)超算系統(tǒng)可持續(xù)發(fā)展具有重要意義。通過改進(jìn)硬件設(shè)計和制造過程,優(yōu)化軟件設(shè)計,以及借助新的能源技術(shù),可以有效提高超算系統(tǒng)的能2.1HPC與AI走向融合,構(gòu)建“5A”新型超算架構(gòu)為更好應(yīng)對新應(yīng)用帶來的生態(tài)復(fù)雜性變化、新業(yè)務(wù)催生的混合業(yè)務(wù)負(fù)載壓力、新數(shù)據(jù)與算力協(xié)同帶來的數(shù)據(jù)跨地域訪問需求、新平臺帶來的安全穩(wěn)定可靠及數(shù)據(jù)管理挑戰(zhàn),需要構(gòu)建以應(yīng)用為中心,支撐HPC、大數(shù)據(jù)、AI多系統(tǒng)融合業(yè)務(wù)的新型超任何視圖管理(AnyView)作業(yè)管理設(shè)備管理用戶管理數(shù)據(jù)管理統(tǒng)一作業(yè)調(diào)度統(tǒng)一設(shè)備監(jiān)控任何視圖管理(AnyView)作業(yè)管理設(shè)備管理用戶管理數(shù)據(jù)管理統(tǒng)一作業(yè)調(diào)度統(tǒng)一設(shè)備監(jiān)控統(tǒng)一用戶分析多維數(shù)據(jù)透視…任何應(yīng)用生態(tài)(AnyApplication)制造模擬生命科學(xué)天氣預(yù)測精準(zhǔn)醫(yī)療工業(yè)質(zhì)檢智能辦公……人工智能高性能計算+大數(shù)據(jù)人工智能高性能計算+CIFS、NFS、HDFS、S3、Posix、MPIOBurstBuffer存算均衡大規(guī)模部署全對稱架構(gòu)橫向擴(kuò)展動態(tài)混合負(fù)載性能型平衡型歸檔型 BurstBuffer存算均衡大規(guī)模部署全對稱架構(gòu)橫向擴(kuò)展動態(tài)混合負(fù)載性能型平衡型歸檔型 數(shù)據(jù)密集型存儲底座任何業(yè)務(wù)負(fù)載(AnyWorkload)ParallelIO、GCC、SparkShuffle、CheckPoint、BatchLoad……近計算機(jī)加速并行文件系統(tǒng)任何位置訪問任何位置訪問(AnyWhere)DC1DC3DC2一體化存儲集群,數(shù)據(jù)互聯(lián)互通邊緣邊緣任何狀況在線任何狀況在線(AnyCondition)設(shè)備故障、病毒攻擊、數(shù)據(jù)泄露、數(shù)據(jù)中心故障、供應(yīng)安全 穩(wěn)定多活多DC數(shù)據(jù)持久訪問 安全防病毒、防勒索全棧國密自主可控健康監(jiān)測 可靠冗余保護(hù)數(shù)據(jù)中心災(zāi)備圖示2-1數(shù)據(jù)密集型超算異構(gòu)融合全棧架構(gòu)·任何應(yīng)用生態(tài)(AnyApplication)HPC高性能計算、大數(shù)據(jù)分析及AI人工智能分析新型應(yīng)用不斷涌現(xiàn),業(yè)務(wù)生態(tài)走向融合,需要具備支持多協(xié)議融合、科學(xué)計算工作流優(yōu)化等能力。實(shí)現(xiàn)制造模擬、生命科學(xué)、天氣預(yù)測等傳統(tǒng)HPC應(yīng)用向精準(zhǔn)醫(yī)療、工業(yè)質(zhì)檢、智能辦公等HPC+大數(shù)·任何業(yè)務(wù)負(fù)載(AnyWorkload)HPC、大數(shù)據(jù)、AI多技術(shù)融合帶來多業(yè)務(wù)混合負(fù)載,面對HPC應(yīng)用并行IO訪問、GCC編譯、大數(shù)據(jù)SparkShuffle、AI大模型CheckPoint、BatchLoad等混合負(fù)載訴求,需要近計算加速Burst并行文件系統(tǒng)可解決帶寬和IOPS型業(yè)務(wù)共存的問題,應(yīng)對動態(tài)混合I/O負(fù)載,需要全對稱分布式架構(gòu)設(shè)計,根據(jù)不同業(yè)務(wù)訪問需求,多協(xié)議按需訪問,·任何位置訪問(AnyWhere)多中心部署正在成為新常態(tài),數(shù)據(jù)分布在核心超算中心、邊緣超算中心等多超算中心,需要融合數(shù)據(jù)資源池,面向不同類型的異構(gòu)設(shè)備及產(chǎn)生的海量數(shù)據(jù),提供統(tǒng)一數(shù)據(jù)存儲,實(shí)現(xiàn)跨超算中心的熱、溫、冷數(shù)據(jù)自動分級,全生命周期數(shù)據(jù)管理。面向跨集群的統(tǒng)一元數(shù)據(jù)管理,元數(shù)據(jù)全局可見,數(shù)據(jù)在任何位置都能輕松就近訪問、安全流動,突·任何狀況在線(AnyCondition)為了滿足新型HPDA多應(yīng)用場景對安全穩(wěn)定可靠的更高要求,應(yīng)對病毒攻擊、數(shù)據(jù)泄露新挑戰(zhàn),需要具備主動健康監(jiān)測、防病毒、防勒索、全棧國密的能力,同時保障供應(yīng)安全,實(shí)現(xiàn)安全的超算平臺,針對設(shè)備故障、超算中心故障等風(fēng)險,需要具備多活多DC、數(shù)據(jù)冗余保護(hù)、數(shù)據(jù)中心災(zāi)備等關(guān)鍵能力,保障超算數(shù)據(jù)平臺的穩(wěn)定可靠,實(shí)現(xiàn)數(shù)據(jù)訪·任何視圖管理(AnyView)面向HPDA平臺作業(yè)管理、設(shè)備管理、用戶管理、數(shù)據(jù)管理等全場景管理訴求,需要統(tǒng)一智能管理平臺提供統(tǒng)一作業(yè)調(diào)度、統(tǒng)一設(shè)備監(jiān)控、統(tǒng)一用戶管理、多維度數(shù)據(jù)透視,實(shí)現(xiàn)設(shè)備狀態(tài)持續(xù)監(jiān)AnyApplication:新型應(yīng)用不斷涌現(xiàn),數(shù)據(jù)密集型超算應(yīng)具備隨著數(shù)據(jù)密集型超算的發(fā)展,業(yè)務(wù)生態(tài)場景趨向復(fù)雜,常常需要考慮傳統(tǒng)HPC、大數(shù)據(jù)、AI混合疊加的情況。以油氣勘探場景數(shù)據(jù)的處理為例,需要對野外地震勘探所采集的地震數(shù)據(jù)進(jìn)行現(xiàn)場處理,然后到超算中心進(jìn)行多步預(yù)處理、合成地震記錄、三維地震解釋標(biāo)注、時深轉(zhuǎn)換、地質(zhì)建模、油藏模擬、數(shù)據(jù)歸檔等十多步數(shù)據(jù)處理環(huán)節(jié),最終由地質(zhì)專家根據(jù)生成的地質(zhì)構(gòu)造圖確定油氣位置、儲量大小、開采價值和策略等。數(shù)據(jù)采集階段需要使用CIFS/S3格式把數(shù)據(jù)存儲在邊緣存儲中,經(jīng)過預(yù)處理后,以NFS/POSIX格式傳入中心存儲作為核心數(shù)據(jù)。由中心存儲以POSIX格式共享給其他各個業(yè)務(wù)環(huán)節(jié)使用。場景中使用Omega、Geo-vation、Vista、Echos等幾十種軟件,中間數(shù)據(jù)會有10-20倍的膨脹,達(dá)到10PB級別。油氣勘探場景天然需要高性能計算對大規(guī)模的數(shù)據(jù)進(jìn)行三維重建,為滿足場景中多業(yè)務(wù)流程的需求,超算需要具備支持多協(xié)議互通、科學(xué)計算工作流優(yōu)化等能力,同時兼顧全應(yīng)用生態(tài)演進(jìn),立足當(dāng)下,滿足未來5-10年的發(fā)展需求。2.2.1應(yīng)用快速發(fā)展,需要多協(xié)議融合互通能力支撐業(yè)務(wù)未來演進(jìn)2.2.1應(yīng)用快速發(fā)展,需要多協(xié)議融合互通能力支撐業(yè)務(wù)未來演進(jìn)(1)從業(yè)務(wù)角度來看,各種應(yīng)用需要不同隨著業(yè)務(wù)應(yīng)用的發(fā)展,一套超算常常需要支持多種業(yè)務(wù)應(yīng)用。HPC業(yè)務(wù)采用S3、NFS、CIFS、SMB、標(biāo)準(zhǔn)POSIX、MPI-IO等協(xié)議訪問,大數(shù)據(jù)業(yè)務(wù)采用HDFS、MapReduce等協(xié)議訪問,AI業(yè)務(wù)采用NFS、標(biāo)準(zhǔn)POSIX等協(xié)議。面向未來業(yè)務(wù)應(yīng)用的融合超算,需要支撐兼容業(yè)務(wù)應(yīng)用的多種協(xié)(2)應(yīng)用不斷演進(jìn),新的協(xié)議還將層出業(yè)務(wù)的交叉演進(jìn),數(shù)據(jù)的不斷增加,迫使應(yīng)用不斷演進(jìn)出新的協(xié)議需求,如何面向未來,兼容新協(xié)議接口,做到系統(tǒng)內(nèi)部改動最小,接口迭代開(3)超算應(yīng)具備容器native承載能力容器作為一種輕量級的虛擬化技術(shù),可以將應(yīng)用程序及其依賴項打包成一個可移植的容器,通過讓應(yīng)用程序在不同的環(huán)境中運(yùn)行,提高業(yè)務(wù)的部署效率和可靠性,減少部署時間和成本。容器化還可以實(shí)現(xiàn)快速擴(kuò)容和縮容,以應(yīng)對業(yè)務(wù)高峰期和低谷期的變化,提高了系統(tǒng)的彈性和可靠性?;谌萜麟S著業(yè)務(wù)的發(fā)展,還將涌現(xiàn)出更多協(xié)議、技術(shù)棧,未來的超算應(yīng)支持多協(xié)議無損互通,支持多技2.2.2數(shù)據(jù)分析廣泛應(yīng)用,需要支持2.2.2數(shù)據(jù)分析廣泛應(yīng)用,需要支持科學(xué)計算工作流,提升業(yè)務(wù)效率科學(xué)計算工作流是指在科學(xué)研究中,通過計算機(jī)模擬、數(shù)據(jù)分析、比對等方式,對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行處理和分析,從而得出科學(xué)結(jié)論的一系列流程。在現(xiàn)代科學(xué)研究中,計算已被廣泛使用,然而不同應(yīng)用的計算流程差異很大,不同環(huán)節(jié)對超算系統(tǒng)要求也不同,如何針對應(yīng)用場景,支持計算流程是提升業(yè)務(wù)速率的關(guān)鍵,甚至直接決定了科研的商業(yè)轉(zhuǎn)化(1)存儲需要支持科學(xué)計算工作流,目錄以AI模型訓(xùn)練為例,業(yè)務(wù)流主要包括數(shù)據(jù)獲數(shù)據(jù)獲取主要是把多方獲取的數(shù)據(jù)進(jìn)行脫敏、合規(guī)、匯聚到邊緣存儲,再用NAS協(xié)議或S3協(xié)議統(tǒng)一存儲到中心存儲元數(shù)據(jù)庫中,作為原始數(shù)據(jù)。數(shù)據(jù)預(yù)處理是由預(yù)處理服務(wù)器對數(shù)據(jù)進(jìn)行格式統(tǒng)一、錯誤糾正、異常數(shù)據(jù)清理、重復(fù)數(shù)據(jù)清理的過程。這步一般采用NAS協(xié)議或HDFS協(xié)議進(jìn)行數(shù)據(jù)訪問,最終形成訓(xùn)練集數(shù)據(jù)和索引數(shù)據(jù)集。20流程階段數(shù)據(jù)預(yù)處理原始數(shù)據(jù)->訓(xùn)練數(shù)據(jù)推理應(yīng)用輸入數(shù)據(jù)+模型->Vector流程階段數(shù)據(jù)預(yù)處理原始數(shù)據(jù)->訓(xùn)練數(shù)據(jù)推理應(yīng)用輸入數(shù)據(jù)+模型->Vector->應(yīng)用模型訓(xùn)練原始數(shù)據(jù)+訓(xùn)練+調(diào)優(yōu)+評估-》模型數(shù)據(jù)獲取三方收集、網(wǎng)絡(luò)爬取、邊緣匯聚…計算處理流程計算處理流程預(yù)處理服務(wù)器格式標(biāo)準(zhǔn)化錯誤糾正異常數(shù)據(jù)清理重復(fù)數(shù)據(jù)清除 GPU4基礎(chǔ)大模型訓(xùn)&推理行業(yè)模型訓(xùn)推一體化預(yù)處理服務(wù)器格式標(biāo)準(zhǔn)化錯誤糾正異常數(shù)據(jù)清理重復(fù)數(shù)據(jù)清除 GPU4基礎(chǔ)大模型訓(xùn)&推理行業(yè)模型訓(xùn)推一體化脫敏、合規(guī)、審批、匯聚GPU1脫敏、合規(guī)、審批、匯聚GPU1GPU2邊緣存儲邊緣存儲GPU2邊緣存儲邊緣存儲GPU3…GPU3…模型加載數(shù)據(jù)并行模型加載數(shù)據(jù)并行小文件、高IO向量存儲加速HDFS協(xié)議小文件、高IO向量存儲加速HDFS協(xié)議NAS協(xié)議多協(xié)議融合互通GDS全域數(shù)據(jù)管理動態(tài)混合負(fù)載數(shù)據(jù)處理流程全域數(shù)據(jù)管理動態(tài)混合負(fù)載數(shù)據(jù)處理流程高性能層高性能層CheckCheck原始數(shù)據(jù)訓(xùn)練集數(shù)據(jù)索引數(shù)據(jù)LOG向量庫業(yè)務(wù)數(shù)據(jù)原始數(shù)據(jù)訓(xùn)練集數(shù)據(jù)索引數(shù)據(jù)LOG向量庫業(yè)務(wù)數(shù)據(jù)向量庫智能分級智能分級熱溫冷智能分級跨域數(shù)據(jù)災(zāi)備全域數(shù)據(jù)管理熱溫冷智能分級跨域數(shù)據(jù)災(zāi)備全域數(shù)據(jù)管理數(shù)據(jù)安全可信大容量層圖示2-2AI大模型業(yè)務(wù)全流程模型訓(xùn)練是由計算使用訓(xùn)練數(shù)據(jù)集對模型進(jìn)行訓(xùn)練,不斷調(diào)整模型參數(shù),使其能夠更好地擬合數(shù)據(jù)。一般采用GDS或POSIX等高速接口滿足動態(tài)推理應(yīng)用是通過訓(xùn)練好的模型對輸入數(shù)據(jù)進(jìn)行處理,系統(tǒng)需要存儲過程向量,完成明確目的的任務(wù)。多次訓(xùn)練需要頻繁訪問向量庫,處理過程是對GPT4未來訓(xùn)練數(shù)據(jù)可達(dá)PB級別,從單模態(tài)發(fā)展為兼容多模態(tài),海量數(shù)據(jù)分配到不同CPU、GPU上并行計算,小文件存儲被頻繁讀取,涉及到數(shù)據(jù)的頻繁遷移,系統(tǒng)間的IO性能差異可能成為制約業(yè)務(wù)的瓶頸。資源的使用需要通過科學(xué)計算工作流進(jìn)行管理和調(diào)度,以確保資源的充分利用和任務(wù)因此,加速AI全流程,需要系統(tǒng)支持多協(xié)議融合互通、支持混合負(fù)載的高性能訪問、支持?jǐn)?shù)據(jù)的全生命周期管理。當(dāng)前AI大模型訓(xùn)練有多種實(shí)現(xiàn)方式,早期的計算+共享存儲+本地SSD盤的存儲架構(gòu)已無法滿足大模型的未來發(fā)展要求。新的高性能、大容量、獨(dú)立融合的統(tǒng)一數(shù)據(jù)基座正成為新的主流(2)利用AI模型優(yōu)化傳統(tǒng)業(yè)務(wù)計算流,例如:利用盤古AI大模型優(yōu)化氣象預(yù)報。傳統(tǒng)業(yè)務(wù)把WRF、GFS、ECMWF、CAM等天氣預(yù)測軟件部署在超算上,軟件求解物理方程進(jìn)行預(yù)測,求解過程高頻反復(fù)迭代,累積誤差影響精度。如中國氣象局臺風(fēng)路徑預(yù)報精度很難控制在60km范圍內(nèi),面臨計算量大、高IO、耗時長(高IO)挑戰(zhàn),每天僅能進(jìn)行2-3次預(yù)報,通過將原先的HPC數(shù)值模擬流程采用。通過采用大模型預(yù)測算法,使推理過程迭代次數(shù)減少,累積誤差減小,計算更加高效,實(shí)現(xiàn)10秒~1分鐘內(nèi)出7天預(yù)報結(jié)果,每天可進(jìn)行多次預(yù)報。氣象人員還可根據(jù)經(jīng)驗(yàn)通過構(gòu)建多個數(shù)據(jù)模型初值,生成預(yù)報集合(集合預(yù)報),進(jìn)一氣象預(yù)報服務(wù)盤古氣象大模型(AI)同化系統(tǒng)預(yù)報系統(tǒng)(AI大模型推理)后處理系統(tǒng)氣象預(yù)報服務(wù)盤古氣象大模型(AI)圖示2-3氣象AI大模型推理流程AnyWorkload:多技術(shù)融合帶來多樣負(fù)載,數(shù)據(jù)密集型超算2.3.12.3.1HPC+AI+BigData多樣性應(yīng)用,需要動態(tài)混合負(fù)載承載能力世界各大超算系統(tǒng)被廣泛使用于需要高算力與高數(shù)據(jù)量的應(yīng)用,而近年來人工智能的發(fā)展也使愈來愈多的與人工智能技術(shù)相結(jié)合,更進(jìn)一步對超算系統(tǒng)·自動駕駛應(yīng)用隨著自動駕駛技術(shù)由L3向L4演進(jìn),數(shù)據(jù)量倍增,每車每天可產(chǎn)生約60TB數(shù)據(jù)。數(shù)據(jù)收集導(dǎo)入階段為PB級別的數(shù)據(jù)量寫入,而預(yù)處理后的數(shù)據(jù)集寫入即可對存儲系統(tǒng)產(chǎn)生百GB/s的帶寬需求。之后的訓(xùn)練階段則需要從存儲讀出海量大小文件,要求存儲提供百萬級IOPS。而仿真階段,亦要求存儲提供百GB/s以上帶寬。最后在推理階段,應(yīng)用的實(shí)時性要求數(shù)據(jù)讀寫.AI大模型訓(xùn)練如GPT-3這樣的大模型,擁有千億級參數(shù),訓(xùn)練數(shù)據(jù)集可達(dá)幾千億級,而文件平均大小往往在10KB-500KB之間。訓(xùn)練階段需要從存儲快速加載海量小文件,要求存儲系統(tǒng)提供千萬級IOPS性能。而下一代的GPT-4大模型,則會要求存儲提供億級IOPS性能用于訓(xùn)練。同時,由于大模型訓(xùn)練的出錯率較高,平均每天需要多次將體量較大的CheckPoint文件寫入存儲,而之后的模型評估也對存儲系統(tǒng)中模型的讀出有極高的帶寬要求。這意味著存儲系統(tǒng)需要能同時提供小文件的億級IOPS讀寫,以及大文件的TB/s級別讀寫帶寬。諸多應(yīng)用在統(tǒng)一超算平臺上同時運(yùn)行,需要超算平臺的數(shù)據(jù)存儲系統(tǒng)能同時滿足高性能計算(HPC)、人工智能(AI)、大數(shù)據(jù)分析(BigData)類別的數(shù)據(jù)訪問。順序大IO的帶寬類、隨機(jī)小IO的高IOPS類、批量元數(shù)據(jù)操作的OPS類、還有同時訪問同一個文件的并行IO類這些數(shù)據(jù)訪問包·批量元數(shù)據(jù)操作的OPS密集型··小文件隨機(jī)小IO的IOPS密集型···超算平臺的數(shù)據(jù)存儲系統(tǒng)需要設(shè)計動態(tài)均衡能實(shí)現(xiàn)以應(yīng)用為中心,面向高性能計算(HPC)、人2.3.2E級大規(guī)模應(yīng)用,需要近計算實(shí)現(xiàn)加速2.3.2E級大規(guī)模應(yīng)用,需要近計算實(shí)現(xiàn)加速新一代E級超算,作為國家在新信息技術(shù)領(lǐng)域的重要部署,將有力驅(qū)動國家信息技術(shù)產(chǎn)業(yè)創(chuàng)新發(fā)展,研發(fā)適配國產(chǎn)超級計算系統(tǒng)的關(guān)鍵技術(shù)和應(yīng)用軟件,構(gòu)建新的國產(chǎn)E級超級計算應(yīng)用生態(tài)。國家超級中心聯(lián)合發(fā)布了“面向新一代國產(chǎn)E級超算系統(tǒng)的十大應(yīng)用”,例如:面向通用人工智能的超大規(guī)模預(yù)訓(xùn)練模型、FAST超大規(guī)模觀測數(shù)據(jù)的高分辨率巡天圖像處理、全腦千億神經(jīng)元動力學(xué)仿真、完全分辨率的全球次中尺度海洋數(shù)值模擬等,以解決世上述大規(guī)模應(yīng)用對E級超算系統(tǒng)帶來了如下挑大規(guī)模RDMA連接導(dǎo)致內(nèi)存資源開銷大、網(wǎng)絡(luò)交互端口沖突帶來了長尾時延;(2)大規(guī)模應(yīng)用如何應(yīng)對整體系統(tǒng)可靠性:業(yè)界E級大規(guī)模集群MTBF較小,對CheckPoint具有較高依賴,業(yè)務(wù)效率對BB互相干擾:IO性能無法達(dá)到預(yù)期,單系統(tǒng)利用率不高;(4)如何避免少量存儲節(jié)點(diǎn)慢對整體速度的影響:少量存儲節(jié)點(diǎn)處于亞健康狀態(tài),導(dǎo)致的短木板BurstBuffer作為在E級超算中應(yīng)用的一種高速緩存技術(shù),需要提供近計算加速部署,突破性能和擴(kuò)容性瓶頸,利用分布式計算的優(yōu)勢加速大規(guī)模應(yīng)用計算問題的解決。同時,也要求計算節(jié)點(diǎn)和緩存節(jié)點(diǎn)根據(jù)拓?fù)潢P(guān)系分組配對,就近創(chuàng)建作業(yè),作業(yè)間數(shù)據(jù)隔離。通過RDMA網(wǎng)絡(luò),實(shí)現(xiàn)大規(guī)模網(wǎng)絡(luò)快速收斂,滿足數(shù)萬級計算擴(kuò)展能力,支撐EF/10EF計算匯聚網(wǎng)絡(luò)計算匯聚網(wǎng)絡(luò)計算接入網(wǎng)絡(luò)計算層計算接入網(wǎng)絡(luò)計算接入網(wǎng)絡(luò)計算接入網(wǎng)絡(luò)加速層加速層BurstbutterBurstbutter存儲層存儲接入網(wǎng)絡(luò)存儲層存儲接入網(wǎng)絡(luò)智能分級智能分級SSD存儲池
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年模具產(chǎn)業(yè)技術(shù)合作開發(fā)合同版
- 2024年煤礦工人固定期限勞動協(xié)議范本版
- 2024年標(biāo)準(zhǔn)短期車輛租賃合同范本版
- 2024年建筑工程施工人員意外傷害及養(yǎng)老保險合同6篇
- 《基于數(shù)據(jù)挖掘的參術(shù)寧心方干預(yù)乙酰膽堿誘導(dǎo)心房顫動大鼠的實(shí)驗(yàn)研究》
- 2024年房屋續(xù)租優(yōu)先權(quán)協(xié)議
- 2024年版權(quán)轉(zhuǎn)讓協(xié)議(文學(xué)作品)
- 2024年環(huán)保項目:廢物處理與資源回收利用合同
- 2024年度跨境電商勞動合同書3篇
- 早教課程機(jī)器人課程設(shè)計
- 設(shè)備安全調(diào)試維修作業(yè)安全培訓(xùn)
- 蘇軾的坎坷一生(被貶路線)課件
- 2024年心理咨詢師題庫及參考答案(考試直接用)
- 人教版七年級地理上冊期末測試題(共5套-含答案)
- 文旅企業(yè)消防安全培訓(xùn)課件
- 領(lǐng)導(dǎo)力:如何在組織中成就卓越
- 小學(xué)校本課程《跳繩》教材
- 鑄牢中華民族共同體意識調(diào)查報告
- 2023醫(yī)美術(shù)后科學(xué)修護(hù)指南
- 2023年大學(xué)生心理健康教育試題題庫含答案
- 外研社英語教材(一年級起點(diǎn))二年級上冊句型總結(jié)
評論
0/150
提交評論