版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)深圳清華大學(xué)研究院面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)超算互聯(lián)網(wǎng)的建設(shè)及其技術(shù)難題據(jù)國際超級(jí)計(jì)算機(jī)大會(huì)(ISC)2019年公布的最新數(shù)據(jù)顯示:目前全球速度TOP500超算設(shè)備中,中國境內(nèi)有228臺(tái)超算上榜,上榜數(shù)量第一,美國以117臺(tái)位列第二。從總算力上看,美國超算占比為37.1%,中國超算占比為32.3%。我國超算中心發(fā)展迅速面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)3超算中心難以運(yùn)營自循環(huán)超算中心接入帶寬不足,大計(jì)算量任務(wù)無法及時(shí)上傳各超算中心采用異構(gòu)硬件,用戶使用超算門檻較高單純提供算力的模式面臨激烈競爭,機(jī)時(shí)售價(jià)過低超算中心電力、帶寬、人員等成本負(fù)擔(dān)較高,難以盈虧平衡超算更新?lián)Q代迅速、硬件快速折舊,初始投入難以有效回收各超算中心相互獨(dú)立,單一超算中心組建市場化團(tuán)隊(duì)不經(jīng)濟(jì)各超算中心有力地支撐了國家科研工作與產(chǎn)業(yè)升級(jí)、搶占了技術(shù)制高點(diǎn),但也面臨著建設(shè)投資無法收回、運(yùn)營入不敷出等難題,各級(jí)政府的財(cái)政補(bǔ)貼與科研經(jīng)費(fèi)支持仍是超算中心的主要收入來源,超算中心難以實(shí)現(xiàn)自循環(huán)式的可持續(xù)發(fā)展。面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)4以超算互聯(lián)網(wǎng)為支撐構(gòu)建超算服務(wù)生態(tài)將各大超算中心接入高速專網(wǎng),開放統(tǒng)一接口,支持將任務(wù)快速可靠的分發(fā)到目標(biāo)集群資源完成計(jì)算,屏蔽底層硬件的異構(gòu)性面向應(yīng)用領(lǐng)域平臺(tái)提供服務(wù)接口,建立超算軟件生態(tài)建立統(tǒng)一的市場與運(yùn)營管理團(tuán)隊(duì),為用戶提供一流的服務(wù)面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)國家超算互聯(lián)網(wǎng)優(yōu)勢(shì)與服務(wù)領(lǐng)域6多物理復(fù)雜體系科學(xué)計(jì)算應(yīng)用平臺(tái)高性能多尺度生物與材料計(jì)算平臺(tái)面向環(huán)境治理與災(zāi)害防治的高性能計(jì)算平臺(tái)超算互聯(lián)網(wǎng)除服務(wù)教學(xué)科研、工程計(jì)算等傳統(tǒng)典型超算應(yīng)用外,將重點(diǎn)開拓AI大數(shù)據(jù)、互聯(lián)網(wǎng)/視頻等民用超大算力市場,并重點(diǎn)建設(shè)“多物理復(fù)雜體系科學(xué)計(jì)算應(yīng)用平臺(tái)”等應(yīng)用軟件平臺(tái)。教學(xué)科研AI/大數(shù)據(jù)工程計(jì)算互聯(lián)網(wǎng)/云計(jì)算支持方便的大數(shù)據(jù)量在線傳輸與計(jì)算支持靈活的任務(wù)調(diào)度找到適合的超算中心豐富的軟件生態(tài)方便用戶使用多超算中心協(xié)同支持更大規(guī)模計(jì)算面臨的技術(shù)問題算力調(diào)度問題多資源匹配問題,通過調(diào)度超算的帶寬、CPU/GPU、延遲、軟件資源,滿足用戶對(duì)于計(jì)算功能、延遲、帶寬的需求傳輸帶寬問題目前還處在寄硬盤的狀態(tài),即使有網(wǎng)絡(luò),帶寬因?yàn)閭鬏攨f(xié)議的問題,利用率不足40%激勵(lì)與信任的問題面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)各個(gè)超算屬于不同的管理實(shí)體,雖然有大量資源可以利用,怎么激勵(lì)超算加入,建立可信任的機(jī)制是大問題算力調(diào)度平臺(tái)面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)工作基礎(chǔ)與運(yùn)營商、央企集團(tuán)、地方政數(shù)局合作,構(gòu)建基于邊緣計(jì)算的算力調(diào)度平臺(tái),為時(shí)延敏感、大帶寬等業(yè)務(wù)提供服務(wù)面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)算力平臺(tái)架構(gòu)運(yùn)營系統(tǒng)邊緣云管控力系統(tǒng)(一級(jí))運(yùn)營系統(tǒng)邊緣云管控力系統(tǒng)(省級(jí))運(yùn)營系統(tǒng)邊緣云管控力系統(tǒng)(省級(jí))CDNAPPPaaS能力虛擬計(jì)算資源虛擬存儲(chǔ)資源虛擬網(wǎng)絡(luò)資源虛擬加速資源軟件資源層虛擬機(jī)Hypervisor容器Engine虛擬層邊緣云基礎(chǔ)設(shè)施資源層(ECI)硬件資源層計(jì)算資源存儲(chǔ)資源
網(wǎng)絡(luò)資源服務(wù)器/存儲(chǔ)/網(wǎng)絡(luò)/加速卡加速資源云平臺(tái)管理VIMCIMPIMVI-HAEF-VIVI-EICM-VIA省CDNAPPPaaS能力虛擬計(jì)算資源虛擬存儲(chǔ)資源虛擬網(wǎng)絡(luò)資源虛擬加速資源軟件資源層虛擬機(jī)Hypervisor容器Engine虛擬層邊緣云基礎(chǔ)設(shè)施資源層(ECI)硬件資源層計(jì)算資源存儲(chǔ)資源
網(wǎng)絡(luò)資源服務(wù)器/存儲(chǔ)/網(wǎng)絡(luò)/加速卡加速資源云平臺(tái)管理VIMCIMPIMVI-HAEF-VIVI-EICM-VIB省面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)10平臺(tái)管理架構(gòu)服務(wù)管理層調(diào)度分發(fā)層算例服務(wù)層服務(wù)管理平臺(tái)統(tǒng)一運(yùn)營支撐系統(tǒng)運(yùn)營管理子系統(tǒng)OMS(華為)OMS(中興)OMS(杭研)全局調(diào)度控制中心TCS(主)TCS(備)省會(huì)
算力節(jié)點(diǎn)地市
算力節(jié)點(diǎn)區(qū)縣
算力節(jié)點(diǎn)省公司1省公司2省公司31內(nèi)容中心·········上海節(jié)點(diǎn)面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)11北京節(jié)點(diǎn)廣州節(jié)點(diǎn)成都節(jié)點(diǎn)面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)基于集成接口的資源協(xié)同與任務(wù)調(diào)度資源請(qǐng)求:超算客戶向中央管理器提出應(yīng)用要求資源供應(yīng):超算資源所有者提供其資源描述平臺(tái)提供:任務(wù)與資源之間的對(duì)接匹配的通知在執(zhí)行期間透明訪問任務(wù)的文件機(jī)會(huì)調(diào)度:在有機(jī)會(huì)時(shí)調(diào)度資源任務(wù)與資源之間的對(duì)接通過匹配器匹配資源與任務(wù)需要搶占當(dāng)前資源時(shí)的保存檢查點(diǎn)作業(yè)狀態(tài)從另一個(gè)可用資源中的檢查點(diǎn)狀態(tài)重新啟動(dòng)作業(yè)超算中央控制器超級(jí)計(jì)算集群1超級(jí)計(jì)算集群2超級(jí)計(jì)算集群3超級(jí)計(jì)算集群4超級(jí)計(jì)算集群5超級(jí)計(jì)算集群63.任務(wù)編排策略2.集群資源信息4.射映指3.任務(wù)編排策略2.用戶和任務(wù)信息5.目標(biāo)集群的IP地址1.U
RL請(qǐng)求7.計(jì)算結(jié)果6.原始數(shù)據(jù)用戶代理(任務(wù)提交網(wǎng)址)DNS服務(wù)令器資源所有者代理(適合該任務(wù)所需資源)資源請(qǐng)求匹配通知資源供應(yīng)匹配通知協(xié)議對(duì)接集中調(diào)度管理系統(tǒng)總體架構(gòu)面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)13基于形式化語言的算力與任務(wù)的自動(dòng)匹配面向國家級(jí)超算中心計(jì)算資源特征,研究資源信息統(tǒng)一描述方法,形成面向超算的標(biāo)準(zhǔn)資源描述規(guī)范,研究資源信息分發(fā)與聚合方法,提高信息分發(fā)與聚合的效率與可靠性,支持用戶充分、便捷、有效地使用超算資源面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)14分層架構(gòu)從超算1從超算2從超算3從超算N···
···算力池主超算集群1主超算集群2算力匹配層抽象層
API應(yīng)用層其他數(shù)據(jù)調(diào)度適配層多物理復(fù)雜體系多尺度生物與材料環(huán)境治理災(zāi)害防治…天河神威…面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)算力資源與任務(wù)的自動(dòng)匹配資源匹配流程超算算力匹配中心資源供給實(shí)體資源需求實(shí)體匹配通知面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)公告公告匹配通知資源對(duì)接資源描述規(guī)范使用屬性(如類型,請(qǐng)求等級(jí),服務(wù)要求)描述資源請(qǐng)求和資源供給公告協(xié)議需求和供給實(shí)體定期將資源描述傳達(dá)給算力匹配中心對(duì)接資源基于資源請(qǐng)求者與供給者的資源進(jìn)行匹配選擇與請(qǐng)求者匹配度最高的進(jìn)行適配優(yōu)先匹配請(qǐng)求者必要資源,其次匹配請(qǐng)求者非必要資源同時(shí)滿足系統(tǒng)的策略限制以及負(fù)載均衡要求智能傳輸平臺(tái)面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)傳統(tǒng)TCP協(xié)議無法應(yīng)對(duì)高帶寬環(huán)境因?yàn)門CP
協(xié)議慢啟動(dòng)的原因,傳統(tǒng)TCP在高帶寬環(huán)境下表現(xiàn)不如人意,帶寬利用率極差。下圖展示了在(400Mbps,160ms
RTT)環(huán)境下,兩組TCP流量傳輸?shù)那闆r面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)18美國科研網(wǎng)絡(luò)Internet2在1Gbps帶寬條件下的測(cè)試Internet2
path
between
NICT
in
Japan
and
UIC
in
Chicago1Gbps
and
200ms
RTTOne
ideal
TCP
flow
testing,
followed
by
1
TCP-SACK
flow
testingPa
cke
t
los
sTim
e
(RTT)Cong
e
s
tion
a
voida
ncePa
cke
t
los
sPa
cke
t
los
scw
ndS
low
s
ta
rtPa
cke
t
los
s22,00010Gbps800046
minutes37
minutes 37
minutesTCPbigdecreaseslowincrease面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)TCP/QUIC均對(duì)非擁塞丟包很敏感當(dāng)前的丟包分類方法有如下不足:①
普適性差(不同網(wǎng)絡(luò)&
網(wǎng)絡(luò)動(dòng)態(tài)性)②
閾值調(diào)整設(shè)置難度大③
不易選取判斷標(biāo)準(zhǔn)④
相關(guān)性不直觀(橫&
縱方向)①
RTT>5ms面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)①
RTT>5s③
ECN?③
RTT?TCP對(duì)非擁塞丟包很敏感基于機(jī)器學(xué)習(xí)丟包分類器丟包分類定義:引入機(jī)器學(xué)習(xí),收集數(shù)據(jù),分析屬性,提取特征;選擇訓(xùn)練方法,訓(xùn)練算法模型;將丟包分類模型運(yùn)用于擁塞控制算法,實(shí)現(xiàn)智能化丟包類型區(qū)分。意義:優(yōu)化與提升網(wǎng)絡(luò)數(shù)據(jù)傳輸性能(吞吐量、頁面加載時(shí)間等)可選式、自動(dòng)化傳輸協(xié)議機(jī)制(可部署性)檢測(cè)丟包特征提取傳統(tǒng)擁控新型擁控?fù)砣?/p>
非擁塞面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)丟包分類器設(shè)計(jì)架構(gòu)?
?
?
??
?
?
??
?
?
??
?
?
??
?
?
??
?
?
?
??
??
??
??
??
?面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)?
?面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)特征選取LostDist=3ConstantLossPktCount=5
LostCount=1LostPacketCount=5LostDist=3ConstantLossPktCount=9
LostCount=2LostPacketCount=4LostDist=100ConstantLossPktCount=2LostCount=1LostPacketCount=2ACK200ACK201…5pkts4pktsACK1ACK2ACK3ACK4ACK5No
loss2pkts擁塞丟包通常會(huì)連續(xù)丟失多個(gè)數(shù)據(jù)包 丟包距離鏈路擁塞將引起排隊(duì)延遲RTT丟包類型∝丟包距離/密度23面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)實(shí)驗(yàn)結(jié)果PLT:首次連接vs.后續(xù)連接PLT:部署vs.未部署丟包分類器better基于多路徑與快速TCP的傳輸加速器優(yōu)勢(shì):外接設(shè)備,動(dòng)態(tài)插拔,靈活可擴(kuò)展傳輸效率高,持續(xù)穩(wěn)定有效應(yīng)對(duì)長時(shí)間或不規(guī)律超大文件面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)25傳輸加速器服務(wù)模式外接式硬件設(shè)備提高網(wǎng)絡(luò)傳輸速率
提高網(wǎng)絡(luò)傳輸穩(wěn)定性幫助用戶接入教育網(wǎng)和IPv6網(wǎng)絡(luò)國家超算云專網(wǎng)服務(wù)網(wǎng)絡(luò)+設(shè)備租賃產(chǎn)品形態(tài)產(chǎn)品功能市場化方式面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)26基于區(qū)塊鏈的可信平臺(tái)面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)基于區(qū)塊鏈技術(shù)的超算云優(yōu)勢(shì):區(qū)塊鏈方式存儲(chǔ)超算核心數(shù)據(jù),安全可靠,且可以非常方便的按照業(yè)務(wù)需求設(shè)置不同訪問權(quán)限;區(qū)塊鏈數(shù)據(jù)具有不可篡改特征,地方部門無法隱瞞真實(shí)數(shù)據(jù),完美解決分級(jí)管理帶來的信息不透明、信息不真實(shí)等問題;數(shù)據(jù)一致化存儲(chǔ)與管理,查詢和使用效率顯著提升,有效提升超算云的監(jiān)管力。算力使用數(shù)據(jù)業(yè)務(wù)核心信息區(qū)塊(內(nèi)部)文件系統(tǒng)修改數(shù)據(jù)機(jī)房管理維護(hù)數(shù)據(jù)賬戶管理數(shù)據(jù)…
…面向超算互聯(lián)網(wǎng)的算力調(diào)度與資源協(xié)同平臺(tái)與技術(shù)28基于區(qū)塊鏈技術(shù)的超算云文件系統(tǒng)共享,在數(shù)據(jù)中心頂層看到各個(gè)數(shù)據(jù)中心的共享文件系統(tǒng),保證文件系統(tǒng)的一致性文件系統(tǒng)上鏈UserID統(tǒng)一根目錄統(tǒng)一
認(rèn)證權(quán)限統(tǒng)一ID系統(tǒng)上鏈記錄用戶的操作過程,記錄用戶使用的算力/
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 江蘇省泰州市姜堰區(qū)2024-2025學(xué)年七年級(jí)上學(xué)期期中地理試題(含答案)
- 數(shù)據(jù)中心項(xiàng)目投資計(jì)劃書
- 贛南師范大學(xué)《審計(jì)學(xué)》2021-2022學(xué)年第一學(xué)期期末試卷
- 2024年電動(dòng)開顱設(shè)備項(xiàng)目投資申請(qǐng)報(bào)告代可行性研究報(bào)告
- 阜陽師范大學(xué)《幼兒歌曲彈唱》2022-2023學(xué)年第一學(xué)期期末試卷
- 福建師范大學(xué)協(xié)和學(xué)院《跨國公司經(jīng)營與管理》2021-2022學(xué)年第一學(xué)期期末試卷
- 《股權(quán)轉(zhuǎn)讓合同》-企業(yè)管理
- 福建師范大學(xué)《漆畫人物創(chuàng)作大創(chuàng)作》2023-2024學(xué)年第一學(xué)期期末試卷
- 醫(yī)美行業(yè)研究框架關(guān)注上游高景氣賽道
- 福建師范大學(xué)《廣告史》2021-2022學(xué)年第一學(xué)期期末試卷
- 五年級(jí)上冊(cè)英語冀教版課件The Story of Nian
- 大學(xué)生職業(yè)生涯規(guī)劃完整全套教學(xué)課件
- 溝槽支護(hù)專項(xiàng)方案
- 丁香醫(yī)生:2022科學(xué)飲奶趨勢(shì)洞察報(bào)告
- 有機(jī)肥供貨及售后服務(wù)方案(投標(biāo)專用)
- 扣件式鋼管腳手架風(fēng)荷載標(biāo)準(zhǔn)值計(jì)算
- 八年級(jí)語文上冊(cè)期中考試卷(附帶答案)
- 輥道窯窯爐設(shè)計(jì)說明書
- 軍事訓(xùn)練課程教學(xué)設(shè)計(jì)
- 烽火悠悠亂世悲歌-春望、雁門太守行比較閱讀
- 工程竣工移交單移交甲方物業(yè)
評(píng)論
0/150
提交評(píng)論