版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術深圳清華大學研究院面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術超算互聯(lián)網(wǎng)的建設及其技術難題據(jù)國際超級計算機大會(ISC)2019年公布的最新數(shù)據(jù)顯示:目前全球速度TOP500超算設備中,中國境內(nèi)有228臺超算上榜,上榜數(shù)量第一,美國以117臺位列第二。從總算力上看,美國超算占比為37.1%,中國超算占比為32.3%。我國超算中心發(fā)展迅速面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術3超算中心難以運營自循環(huán)超算中心接入帶寬不足,大計算量任務無法及時上傳各超算中心采用異構硬件,用戶使用超算門檻較高單純提供算力的模式面臨激烈競爭,機時售價過低超算中心電力、帶寬、人員等成本負擔較高,難以盈虧平衡超算更新?lián)Q代迅速、硬件快速折舊,初始投入難以有效回收各超算中心相互獨立,單一超算中心組建市場化團隊不經(jīng)濟各超算中心有力地支撐了國家科研工作與產(chǎn)業(yè)升級、搶占了技術制高點,但也面臨著建設投資無法收回、運營入不敷出等難題,各級政府的財政補貼與科研經(jīng)費支持仍是超算中心的主要收入來源,超算中心難以實現(xiàn)自循環(huán)式的可持續(xù)發(fā)展。面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術4以超算互聯(lián)網(wǎng)為支撐構建超算服務生態(tài)將各大超算中心接入高速專網(wǎng),開放統(tǒng)一接口,支持將任務快速可靠的分發(fā)到目標集群資源完成計算,屏蔽底層硬件的異構性面向應用領域平臺提供服務接口,建立超算軟件生態(tài)建立統(tǒng)一的市場與運營管理團隊,為用戶提供一流的服務面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術國家超算互聯(lián)網(wǎng)優(yōu)勢與服務領域6多物理復雜體系科學計算應用平臺高性能多尺度生物與材料計算平臺面向環(huán)境治理與災害防治的高性能計算平臺超算互聯(lián)網(wǎng)除服務教學科研、工程計算等傳統(tǒng)典型超算應用外,將重點開拓AI大數(shù)據(jù)、互聯(lián)網(wǎng)/視頻等民用超大算力市場,并重點建設“多物理復雜體系科學計算應用平臺”等應用軟件平臺。教學科研AI/大數(shù)據(jù)工程計算互聯(lián)網(wǎng)/云計算支持方便的大數(shù)據(jù)量在線傳輸與計算支持靈活的任務調度找到適合的超算中心豐富的軟件生態(tài)方便用戶使用多超算中心協(xié)同支持更大規(guī)模計算面臨的技術問題算力調度問題多資源匹配問題,通過調度超算的帶寬、CPU/GPU、延遲、軟件資源,滿足用戶對于計算功能、延遲、帶寬的需求傳輸帶寬問題目前還處在寄硬盤的狀態(tài),即使有網(wǎng)絡,帶寬因為傳輸協(xié)議的問題,利用率不足40%激勵與信任的問題面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術各個超算屬于不同的管理實體,雖然有大量資源可以利用,怎么激勵超算加入,建立可信任的機制是大問題算力調度平臺面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術工作基礎與運營商、央企集團、地方政數(shù)局合作,構建基于邊緣計算的算力調度平臺,為時延敏感、大帶寬等業(yè)務提供服務面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術算力平臺架構運營系統(tǒng)邊緣云管控力系統(tǒng)(一級)運營系統(tǒng)邊緣云管控力系統(tǒng)(省級)運營系統(tǒng)邊緣云管控力系統(tǒng)(省級)CDNAPPPaaS能力虛擬計算資源虛擬存儲資源虛擬網(wǎng)絡資源虛擬加速資源軟件資源層虛擬機Hypervisor容器Engine虛擬層邊緣云基礎設施資源層(ECI)硬件資源層計算資源存儲資源
網(wǎng)絡資源服務器/存儲/網(wǎng)絡/加速卡加速資源云平臺管理VIMCIMPIMVI-HAEF-VIVI-EICM-VIA省CDNAPPPaaS能力虛擬計算資源虛擬存儲資源虛擬網(wǎng)絡資源虛擬加速資源軟件資源層虛擬機Hypervisor容器Engine虛擬層邊緣云基礎設施資源層(ECI)硬件資源層計算資源存儲資源
網(wǎng)絡資源服務器/存儲/網(wǎng)絡/加速卡加速資源云平臺管理VIMCIMPIMVI-HAEF-VIVI-EICM-VIB省面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術10平臺管理架構服務管理層調度分發(fā)層算例服務層服務管理平臺統(tǒng)一運營支撐系統(tǒng)運營管理子系統(tǒng)OMS(華為)OMS(中興)OMS(杭研)全局調度控制中心TCS(主)TCS(備)省會
算力節(jié)點地市
算力節(jié)點區(qū)縣
算力節(jié)點省公司1省公司2省公司31內(nèi)容中心·········上海節(jié)點面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術11北京節(jié)點廣州節(jié)點成都節(jié)點面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術基于集成接口的資源協(xié)同與任務調度資源請求:超算客戶向中央管理器提出應用要求資源供應:超算資源所有者提供其資源描述平臺提供:任務與資源之間的對接匹配的通知在執(zhí)行期間透明訪問任務的文件機會調度:在有機會時調度資源任務與資源之間的對接通過匹配器匹配資源與任務需要搶占當前資源時的保存檢查點作業(yè)狀態(tài)從另一個可用資源中的檢查點狀態(tài)重新啟動作業(yè)超算中央控制器超級計算集群1超級計算集群2超級計算集群3超級計算集群4超級計算集群5超級計算集群63.任務編排策略2.集群資源信息4.射映指3.任務編排策略2.用戶和任務信息5.目標集群的IP地址1.U
RL請求7.計算結果6.原始數(shù)據(jù)用戶代理(任務提交網(wǎng)址)DNS服務令器資源所有者代理(適合該任務所需資源)資源請求匹配通知資源供應匹配通知協(xié)議對接集中調度管理系統(tǒng)總體架構面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術13基于形式化語言的算力與任務的自動匹配面向國家級超算中心計算資源特征,研究資源信息統(tǒng)一描述方法,形成面向超算的標準資源描述規(guī)范,研究資源信息分發(fā)與聚合方法,提高信息分發(fā)與聚合的效率與可靠性,支持用戶充分、便捷、有效地使用超算資源面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術14分層架構從超算1從超算2從超算3從超算N···
···算力池主超算集群1主超算集群2算力匹配層抽象層
API應用層其他數(shù)據(jù)調度適配層多物理復雜體系多尺度生物與材料環(huán)境治理災害防治…天河神威…面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術算力資源與任務的自動匹配資源匹配流程超算算力匹配中心資源供給實體資源需求實體匹配通知面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術公告公告匹配通知資源對接資源描述規(guī)范使用屬性(如類型,請求等級,服務要求)描述資源請求和資源供給公告協(xié)議需求和供給實體定期將資源描述傳達給算力匹配中心對接資源基于資源請求者與供給者的資源進行匹配選擇與請求者匹配度最高的進行適配優(yōu)先匹配請求者必要資源,其次匹配請求者非必要資源同時滿足系統(tǒng)的策略限制以及負載均衡要求智能傳輸平臺面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術傳統(tǒng)TCP協(xié)議無法應對高帶寬環(huán)境因為TCP
協(xié)議慢啟動的原因,傳統(tǒng)TCP在高帶寬環(huán)境下表現(xiàn)不如人意,帶寬利用率極差。下圖展示了在(400Mbps,160ms
RTT)環(huán)境下,兩組TCP流量傳輸?shù)那闆r面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術18美國科研網(wǎng)絡Internet2在1Gbps帶寬條件下的測試Internet2
path
between
NICT
in
Japan
and
UIC
in
Chicago1Gbps
and
200ms
RTTOne
ideal
TCP
flow
testing,
followed
by
1
TCP-SACK
flow
testingPa
cke
t
los
sTim
e
(RTT)Cong
e
s
tion
a
voida
ncePa
cke
t
los
sPa
cke
t
los
scw
ndS
low
s
ta
rtPa
cke
t
los
s22,00010Gbps800046
minutes37
minutes 37
minutesTCPbigdecreaseslowincrease面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術TCP/QUIC均對非擁塞丟包很敏感當前的丟包分類方法有如下不足:①
普適性差(不同網(wǎng)絡&
網(wǎng)絡動態(tài)性)②
閾值調整設置難度大③
不易選取判斷標準④
相關性不直觀(橫&
縱方向)①
RTT>5ms面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術①
RTT>5s③
ECN?③
RTT?TCP對非擁塞丟包很敏感基于機器學習丟包分類器丟包分類定義:引入機器學習,收集數(shù)據(jù),分析屬性,提取特征;選擇訓練方法,訓練算法模型;將丟包分類模型運用于擁塞控制算法,實現(xiàn)智能化丟包類型區(qū)分。意義:優(yōu)化與提升網(wǎng)絡數(shù)據(jù)傳輸性能(吞吐量、頁面加載時間等)可選式、自動化傳輸協(xié)議機制(可部署性)檢測丟包特征提取傳統(tǒng)擁控新型擁控擁塞
非擁塞面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術丟包分類器設計架構?
?
?
??
?
?
??
?
?
??
?
?
??
?
?
??
?
?
?
??
??
??
??
??
?面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術?
?面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術特征選取LostDist=3ConstantLossPktCount=5
LostCount=1LostPacketCount=5LostDist=3ConstantLossPktCount=9
LostCount=2LostPacketCount=4LostDist=100ConstantLossPktCount=2LostCount=1LostPacketCount=2ACK200ACK201…5pkts4pktsACK1ACK2ACK3ACK4ACK5No
loss2pkts擁塞丟包通常會連續(xù)丟失多個數(shù)據(jù)包 丟包距離鏈路擁塞將引起排隊延遲RTT丟包類型∝丟包距離/密度23面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術實驗結果PLT:首次連接vs.后續(xù)連接PLT:部署vs.未部署丟包分類器better基于多路徑與快速TCP的傳輸加速器優(yōu)勢:外接設備,動態(tài)插拔,靈活可擴展傳輸效率高,持續(xù)穩(wěn)定有效應對長時間或不規(guī)律超大文件面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術25傳輸加速器服務模式外接式硬件設備提高網(wǎng)絡傳輸速率
提高網(wǎng)絡傳輸穩(wěn)定性幫助用戶接入教育網(wǎng)和IPv6網(wǎng)絡國家超算云專網(wǎng)服務網(wǎng)絡+設備租賃產(chǎn)品形態(tài)產(chǎn)品功能市場化方式面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術26基于區(qū)塊鏈的可信平臺面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術基于區(qū)塊鏈技術的超算云優(yōu)勢:區(qū)塊鏈方式存儲超算核心數(shù)據(jù),安全可靠,且可以非常方便的按照業(yè)務需求設置不同訪問權限;區(qū)塊鏈數(shù)據(jù)具有不可篡改特征,地方部門無法隱瞞真實數(shù)據(jù),完美解決分級管理帶來的信息不透明、信息不真實等問題;數(shù)據(jù)一致化存儲與管理,查詢和使用效率顯著提升,有效提升超算云的監(jiān)管力。算力使用數(shù)據(jù)業(yè)務核心信息區(qū)塊(內(nèi)部)文件系統(tǒng)修改數(shù)據(jù)機房管理維護數(shù)據(jù)賬戶管理數(shù)據(jù)…
…面向超算互聯(lián)網(wǎng)的算力調度與資源協(xié)同平臺與技術28基于區(qū)塊鏈技術的超算云文件系統(tǒng)共享,在數(shù)據(jù)中心頂層看到各個數(shù)據(jù)中心的共享文件系統(tǒng),保證文件系統(tǒng)的一致性文件系統(tǒng)上鏈UserID統(tǒng)一根目錄統(tǒng)一
認證權限統(tǒng)一ID系統(tǒng)上鏈記錄用戶的操作過程,記錄用戶使用的算力/
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版房地產(chǎn)抵押回購交易合同范本3篇
- 二零二五年度預應力鋼筋進出口代理合同3篇
- 室內(nèi)設計公司2025年度市場推廣合同2篇
- 二零二五年度船舶設備個人買賣合同2篇
- 二零二五年度高空作業(yè)安全責任免除服務合同3篇
- 二零二五版保姆雇傭合同與雇主合作共贏協(xié)議3篇
- 二零二五版抵債協(xié)議:債權債務清算與資產(chǎn)轉讓合同3篇
- 2025版超薄浮法玻璃出口貿(mào)易合同范本3篇
- 二零二五版建筑外墻防水涂料研發(fā)與銷售合同3篇
- 二零二五版快遞物流企業(yè)碳排放管理與減排協(xié)議合同3篇
- 【S洲際酒店婚禮策劃方案設計6800字(論文)】
- 醫(yī)養(yǎng)康養(yǎng)園項目商業(yè)計劃書
- 《穿越迷宮》課件
- 《C語言從入門到精通》培訓教程課件
- 2023年中國半導體行業(yè)薪酬及股權激勵白皮書
- 2024年Minitab全面培訓教程
- 社區(qū)電動車棚新(擴)建及修建充電車棚施工方案(純方案-)
- 項目推進與成果交付情況總結與評估
- 鐵路項目征地拆遷工作體會課件
- 醫(yī)院死亡報告年終分析報告
- 建設用地報批服務投標方案(技術方案)
評論
0/150
提交評論