面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)_第1頁
面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)_第2頁
面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)_第3頁
面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)_第4頁
面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)_第5頁
已閱讀5頁,還剩29頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)深圳清華大學(xué)研究院面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)超算互聯(lián)網(wǎng)的建設(shè)及其技術(shù)難題據(jù)國際超級(jí)計(jì)算機(jī)大會(huì)(ISC)2019年公布的最新數(shù)據(jù)顯示:目前全球速度TOP500超算設(shè)備中,中國境內(nèi)有228臺(tái)超算上榜,上榜數(shù)量第一,美國以117臺(tái)位列第二。從總算力上看,美國超算占比為37.1%,中國超算占比為32.3%。我國超算中心發(fā)展迅速面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)3超算中心難以運(yùn)營自循環(huán)超算中心接入帶寬不足,大計(jì)算量任務(wù)無法及時(shí)上傳各超算中心采用異構(gòu)硬件,用戶使用超算門檻較高單純提供算力的模式面臨激烈競爭,機(jī)時(shí)售價(jià)過低超算中心電力、帶寬、人員等成本負(fù)擔(dān)較高,難以盈虧平衡超算更新?lián)Q代迅速、硬件快速折舊,初始投入難以有效回收各超算中心相互獨(dú)立,單一超算中心組建市場化團(tuán)隊(duì)不經(jīng)濟(jì)各超算中心有力地支撐了國家科研工作與產(chǎn)業(yè)升級(jí)、搶占了技術(shù)制高點(diǎn),但也面臨著建設(shè)投資無法收回、運(yùn)營入不敷出等難題,各級(jí)政府的財(cái)政補(bǔ)貼與科研經(jīng)費(fèi)支持仍是超算中心的主要收入來源,超算中心難以實(shí)現(xiàn)自循環(huán)式的可持續(xù)發(fā)展。面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)4以超算互聯(lián)網(wǎng)為支撐構(gòu)建超算服務(wù)生態(tài)將各大超算中心接入高速專網(wǎng),開放統(tǒng)一接口,支持將任務(wù)快速可靠的分發(fā)到目標(biāo)集群資源完成計(jì)算,屏蔽底層硬件的異構(gòu)性面向應(yīng)用領(lǐng)域平臺(tái)提供服務(wù)接口,建立超算軟件生態(tài)建立統(tǒng)一的市場與運(yùn)營管理團(tuán)隊(duì),為用戶提供一流的服務(wù)面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)國家超算互聯(lián)網(wǎng)優(yōu)勢(shì)與服務(wù)領(lǐng)域6多物理復(fù)雜體系科學(xué)計(jì)算應(yīng)用平臺(tái)高性能多尺度生物與材料計(jì)算平臺(tái)面向環(huán)境治理與災(zāi)害防治的高性能計(jì)算平臺(tái)超算互聯(lián)網(wǎng)除服務(wù)教學(xué)科研、工程計(jì)算等傳統(tǒng)典型超算應(yīng)用外,將重點(diǎn)開拓AI大數(shù)據(jù)、互聯(lián)網(wǎng)/視頻等民用超大算力市場,并重點(diǎn)建設(shè)“多物理復(fù)雜體系科學(xué)計(jì)算應(yīng)用平臺(tái)”等應(yīng)用軟件平臺(tái)。教學(xué)科研AI/大數(shù)據(jù)工程計(jì)算互聯(lián)網(wǎng)/云計(jì)算支持方便的大數(shù)據(jù)量在線傳輸與計(jì)算支持靈活的任務(wù)調(diào)度找到適合的超算中心豐富的軟件生態(tài)方便用戶使用多超算中心協(xié)同支持更大規(guī)模計(jì)算面臨的技術(shù)問題算力調(diào)度問題多資源匹配問題,通過調(diào)度超算的帶寬、CPU/GPU、延遲、軟件資源,滿足用戶對(duì)于計(jì)算功能、延遲、帶寬的需求傳輸帶寬問題目前還處在寄硬盤的狀態(tài),即使有網(wǎng)絡(luò),帶寬因?yàn)閭鬏攨f(xié)議的問題,利用率不足40%激勵(lì)與信任的問題面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)各個(gè)超算屬于不同的管理實(shí)體,雖然有大量資源可以利用,怎么激勵(lì)超算加入,建立可信任的機(jī)制是大問題算力調(diào)度平臺(tái)面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)工作基礎(chǔ)與運(yùn)營商、央企集團(tuán)、地方政數(shù)局合作,構(gòu)建基于邊緣計(jì)算的算力調(diào)度平臺(tái),為時(shí)延敏感、大帶寬等業(yè)務(wù)提供服務(wù)面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)算力平臺(tái)架構(gòu)運(yùn)營系統(tǒng)邊緣云管控力系統(tǒng)(一級(jí))運(yùn)營系統(tǒng)邊緣云管控力系統(tǒng)(省級(jí))運(yùn)營系統(tǒng)邊緣云管控力系統(tǒng)(省級(jí))CDNAPPPaaS能力虛擬計(jì)算資源虛擬存儲(chǔ)資源虛擬網(wǎng)絡(luò)資源虛擬加速資源軟件資源層虛擬機(jī)Hypervisor容器Engine虛擬層邊緣云基礎(chǔ)設(shè)施資源層(ECI)硬件資源層計(jì)算資源存儲(chǔ)資源

網(wǎng)絡(luò)資源服務(wù)器/存儲(chǔ)/網(wǎng)絡(luò)/加速卡加速資源云平臺(tái)管理VIMCIMPIMVI-HAEF-VIVI-EICM-VIA省CDNAPPPaaS能力虛擬計(jì)算資源虛擬存儲(chǔ)資源虛擬網(wǎng)絡(luò)資源虛擬加速資源軟件資源層虛擬機(jī)Hypervisor容器Engine虛擬層邊緣云基礎(chǔ)設(shè)施資源層(ECI)硬件資源層計(jì)算資源存儲(chǔ)資源

網(wǎng)絡(luò)資源服務(wù)器/存儲(chǔ)/網(wǎng)絡(luò)/加速卡加速資源云平臺(tái)管理VIMCIMPIMVI-HAEF-VIVI-EICM-VIB省面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)10平臺(tái)管理架構(gòu)服務(wù)管理層調(diào)度分發(fā)層算例服務(wù)層服務(wù)管理平臺(tái)統(tǒng)一運(yùn)營支撐系統(tǒng)運(yùn)營管理子系統(tǒng)OMS(華為)OMS(中興)OMS(杭研)全局調(diào)度控制中心TCS(主)TCS(備)省會(huì)

算力節(jié)點(diǎn)地市

算力節(jié)點(diǎn)區(qū)縣

算力節(jié)點(diǎn)省公司1省公司2省公司31內(nèi)容中心·········上海節(jié)點(diǎn)面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)11北京節(jié)點(diǎn)廣州節(jié)點(diǎn)成都節(jié)點(diǎn)面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)基于集成接口的資源協(xié)同與任務(wù)調(diào)度資源請(qǐng)求:超算客戶向中央管理器提出應(yīng)用要求資源供應(yīng):超算資源所有者提供其資源描述平臺(tái)提供:任務(wù)與資源之間的對(duì)接匹配的通知在執(zhí)行期間透明訪問任務(wù)的文件機(jī)會(huì)調(diào)度:在有機(jī)會(huì)時(shí)調(diào)度資源任務(wù)與資源之間的對(duì)接通過匹配器匹配資源與任務(wù)需要搶占當(dāng)前資源時(shí)的保存檢查點(diǎn)作業(yè)狀態(tài)從另一個(gè)可用資源中的檢查點(diǎn)狀態(tài)重新啟動(dòng)作業(yè)超算中央控制器超級(jí)計(jì)算集群1超級(jí)計(jì)算集群2超級(jí)計(jì)算集群3超級(jí)計(jì)算集群4超級(jí)計(jì)算集群5超級(jí)計(jì)算集群63.任務(wù)編排策略2.集群資源信息4.射映指3.任務(wù)編排策略2.用戶和任務(wù)信息5.目標(biāo)集群的IP地址1.U

RL請(qǐng)求7.計(jì)算結(jié)果6.原始數(shù)據(jù)用戶代理(任務(wù)提交網(wǎng)址)DNS服務(wù)令器資源所有者代理(適合該任務(wù)所需資源)資源請(qǐng)求匹配通知資源供應(yīng)匹配通知協(xié)議對(duì)接集中調(diào)度管理系統(tǒng)總體架構(gòu)面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)13基于形式化語言的算力與任務(wù)的自動(dòng)匹配面向國家級(jí)超算中心計(jì)算資源特征,研究資源信息統(tǒng)一描述方法,形成面向超算的標(biāo)準(zhǔn)資源描述規(guī)范,研究資源信息分發(fā)與聚合方法,提高信息分發(fā)與聚合的效率與可靠性,支持用戶充分、便捷、有效地使用超算資源面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)14分層架構(gòu)從超算1從超算2從超算3從超算N···

···算力池主超算集群1主超算集群2算力匹配層抽象層

API應(yīng)用層其他數(shù)據(jù)調(diào)度適配層多物理復(fù)雜體系多尺度生物與材料環(huán)境治理災(zāi)害防治…天河神威…面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)算力資源與任務(wù)的自動(dòng)匹配資源匹配流程超算算力匹配中心資源供給實(shí)體資源需求實(shí)體匹配通知面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)公告公告匹配通知資源對(duì)接資源描述規(guī)范使用屬性(如類型,請(qǐng)求等級(jí),服務(wù)要求)描述資源請(qǐng)求和資源供給公告協(xié)議需求和供給實(shí)體定期將資源描述傳達(dá)給算力匹配中心對(duì)接資源基于資源請(qǐng)求者與供給者的資源進(jìn)行匹配選擇與請(qǐng)求者匹配度最高的進(jìn)行適配優(yōu)先匹配請(qǐng)求者必要資源,其次匹配請(qǐng)求者非必要資源同時(shí)滿足系統(tǒng)的策略限制以及負(fù)載均衡要求智能傳輸平臺(tái)面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)傳統(tǒng)TCP協(xié)議無法應(yīng)對(duì)高帶寬環(huán)境因?yàn)門CP

協(xié)議慢啟動(dòng)的原因,傳統(tǒng)TCP在高帶寬環(huán)境下表現(xiàn)不如人意,帶寬利用率極差。下圖展示了在(400Mbps,160ms

RTT)環(huán)境下,兩組TCP流量傳輸?shù)那闆r面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)18美國科研網(wǎng)絡(luò)Internet2在1Gbps帶寬條件下的測(cè)試Internet2

path

between

NICT

in

Japan

and

UIC

in

Chicago1Gbps

and

200ms

RTTOne

ideal

TCP

flow

testing,

followed

by

1

TCP-SACK

flow

testingPa

cke

t

los

sTim

e

(RTT)Cong

e

s

tion

a

voida

ncePa

cke

t

los

sPa

cke

t

los

scw

ndS

low

s

ta

rtPa

cke

t

los

s22,00010Gbps800046

minutes37

minutes 37

minutesTCPbigdecreaseslowincrease面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)TCP/QUIC均對(duì)非擁塞丟包很敏感當(dāng)前的丟包分類方法有如下不足:①

普適性差(不同網(wǎng)絡(luò)&

網(wǎng)絡(luò)動(dòng)態(tài)性)②

閾值調(diào)整設(shè)置難度大③

不易選取判斷標(biāo)準(zhǔn)④

相關(guān)性不直觀(橫&

縱方向)①

RTT>5ms面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)①

RTT>5s③

ECN?③

RTT?TCP對(duì)非擁塞丟包很敏感基于機(jī)器學(xué)習(xí)丟包分類器丟包分類定義:引入機(jī)器學(xué)習(xí),收集數(shù)據(jù),分析屬性,提取特征;選擇訓(xùn)練方法,訓(xùn)練算法模型;將丟包分類模型運(yùn)用于擁塞控制算法,實(shí)現(xiàn)智能化丟包類型區(qū)分。意義:優(yōu)化與提升網(wǎng)絡(luò)數(shù)據(jù)傳輸性能(吞吐量、頁面加載時(shí)間等)可選式、自動(dòng)化傳輸協(xié)議機(jī)制(可部署性)檢測(cè)丟包特征提取傳統(tǒng)擁控新型擁控?fù)砣?/p>

非擁塞面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)丟包分類器設(shè)計(jì)架構(gòu)?

?

?

??

?

?

??

?

?

??

?

?

??

?

?

??

?

?

?

??

??

??

??

??

?面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)?

?面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)特征選取LostDist=3ConstantLossPktCount=5

LostCount=1LostPacketCount=5LostDist=3ConstantLossPktCount=9

LostCount=2LostPacketCount=4LostDist=100ConstantLossPktCount=2LostCount=1LostPacketCount=2ACK200ACK201…5pkts4pktsACK1ACK2ACK3ACK4ACK5No

loss2pkts擁塞丟包通常會(huì)連續(xù)丟失多個(gè)數(shù)據(jù)包 丟包距離鏈路擁塞將引起排隊(duì)延遲RTT丟包類型∝丟包距離/密度23面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)實(shí)驗(yàn)結(jié)果PLT:首次連接vs.后續(xù)連接PLT:部署vs.未部署丟包分類器better基于多路徑與快速TCP的傳輸加速器優(yōu)勢(shì):外接設(shè)備,動(dòng)態(tài)插拔,靈活可擴(kuò)展傳輸效率高,持續(xù)穩(wěn)定有效應(yīng)對(duì)長時(shí)間或不規(guī)律超大文件面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)25傳輸加速器服務(wù)模式外接式硬件設(shè)備提高網(wǎng)絡(luò)傳輸速率

提高網(wǎng)絡(luò)傳輸穩(wěn)定性幫助用戶接入教育網(wǎng)和IPv6網(wǎng)絡(luò)國家超算云專網(wǎng)服務(wù)網(wǎng)絡(luò)+設(shè)備租賃產(chǎn)品形態(tài)產(chǎn)品功能市場化方式面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)26基于區(qū)塊鏈的可信平臺(tái)面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)基于區(qū)塊鏈技術(shù)的超算云優(yōu)勢(shì):區(qū)塊鏈方式存儲(chǔ)超算核心數(shù)據(jù),安全可靠,且可以非常方便的按照業(yè)務(wù)需求設(shè)置不同訪問權(quán)限;區(qū)塊鏈數(shù)據(jù)具有不可篡改特征,地方部門無法隱瞞真實(shí)數(shù)據(jù),完美解決分級(jí)管理帶來的信息不透明、信息不真實(shí)等問題;數(shù)據(jù)一致化存儲(chǔ)與管理,查詢和使用效率顯著提升,有效提升超算云的監(jiān)管力。算力使用數(shù)據(jù)業(yè)務(wù)核心信息區(qū)塊(內(nèi)部)文件系統(tǒng)修改數(shù)據(jù)機(jī)房管理維護(hù)數(shù)據(jù)賬戶管理數(shù)據(jù)…

…面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)28基于區(qū)塊鏈技術(shù)的超算云文件系統(tǒng)共享,在數(shù)據(jù)中心頂層看到各個(gè)數(shù)據(jù)中心的共享文件系統(tǒng),保證文件系統(tǒng)的一致性文件系統(tǒng)上鏈UserID統(tǒng)一根目錄統(tǒng)一

認(rèn)證權(quán)限統(tǒng)一ID系統(tǒng)上鏈記錄用戶的操作過程,記錄用戶使用的算力/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論