智能計算 超算互聯網 參考架構 征求意見稿_第1頁
智能計算 超算互聯網 參考架構 征求意見稿_第2頁
智能計算 超算互聯網 參考架構 征求意見稿_第3頁
智能計算 超算互聯網 參考架構 征求意見稿_第4頁
智能計算 超算互聯網 參考架構 征求意見稿_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1智能計算超算互聯網參考架構GB/T37988—2019信息安全技術數據安全能力成熟度3.13.23.3超算中心sumpercomputingc具有超算資源的算力中心,可以接入到超算互聯服務3.43.5在超算互聯網平臺上注冊并購買資源的組織3.623.7在超算互聯網平臺開發(fā)應用軟件并對外提供服務的組織或個3.84縮略語API:應用編程接口(ApplicationProgrammingInterface)BPMN:業(yè)務流程建模標注(BusinessProcessMoCPU:中央處理器(CentralProcessingDCU:深度計算處理器(Deep-learningComputingUFPGA:現場可編程門陣列(FieldProgrammGPU:圖形處理器(GraphicsProcessingULDAP:輕量級目錄訪問協(xié)議(LightweightDirectoMLU:機器學習處理器(MachineLearningUnit)MPI:并行程序通訊協(xié)議(MessagePaNIS:網絡信息服務(NetworkInformationServicNPU:神經網絡處理器(NeuralProcessingUnit)SaaS:軟件即服務(SoftwareasaSLURM:簡易Linux資源管理工具(SimpleLinuxUtilityforResourceManagTOSCA:云應用拓撲與編排規(guī)范(TopologyandOrchestrationSpecificationforCApplications)5參考架構超算互聯網依托超算互聯平臺,通過角色-活動-功能的三層組織為生態(tài)系統(tǒng)中的各類參與者提供按需服務與統(tǒng)一管理,實現各超算中心獨立資源的高效共享為構建超算互聯網生態(tài)(見附錄A),超算互聯網以資源層、核心層、服務層、應用5.2總體架構3超算互聯網的總體架構如圖1所示,以應用層、服務層、核心層、資源層、跨層為功能架構核心內行中的角色/子角色,通過執(zhí)行具體活動來體現具體功能,其功能取決于超算互聯網的具體實現策略、4度等功能,向上支撐用戶的核心服務、交易、管理等功跨層:包括統(tǒng)一的運營服務體系、運維服務體系以及支撐超算互聯網的安全體系等內容。6.2功能描述軟件資源指部署于超算互聯網的各類支持MPI的并行軟件、應用軟件、推理訓練框架、模型、工具5b)提供多種資源接入方式,如代理、API方式c)應支持任務執(zhí)行過程的跟蹤,包括異常監(jiān)測a)計算資源的基本管理能力,包括計算資源創(chuàng)建、分配、b)存儲資源的基本管理能力,包括存儲資源創(chuàng)建、分配、配置等;c)網絡資源的基本管理能力,包括網絡創(chuàng)建、d)應用軟件資源的基本管理能力,包括軟件資源打包、e)數據資源的基本管理能力,包括數據共享6a)具備針對算力、應用、軟件、存儲、數據、模型、服務等多種類型資源的計量計費能b)支持根據運營策略定義各類產品及服務的計費模型;c)支持按照資源規(guī)格計費、按量計費、按需計費等a)支持命令行、批處理、交互式等多種方式c)支持作業(yè)運行狀態(tài)查詢,包括但不限于運行、排隊、掛起b)應支持用戶賬號管理功能,包括創(chuàng)建、應用封裝支持用戶根據不同的體系架構選擇合適的算力中心,根據封裝規(guī)范將應用軟件封裝為用統(tǒng)一認證負責平臺與算力中心間的用戶認證,統(tǒng)一c)宜具備單點登錄能力,實現平臺與多中心系統(tǒng)之7b)主機服務,以虛擬節(jié)點形式提供服務;8b)提供人工智能和容器服務,如文本語音分析、大模型、自動駕駛等;a)支持模型開發(fā),提供相關的開發(fā)與測試環(huán)境,實現模型的快速開發(fā)、測試、上線與部社區(qū)服務為用戶提供技術交流、供需對接等服務能力,應符合下b)具備社區(qū)用戶上傳內容、數據、文件、模型等功能;a)提供線上開發(fā)環(huán)境,包括開發(fā)框架、9接口服務提供對超算互聯服務各類服務的封裝以及對外服務接口,要求如b)應支持以API的形式,對用戶提供超算互聯網平臺各類服務能力;c)宜支持用戶在混合云場景下,遠程彈性接入用戶究、地震預測等應用提供強大的算力支持和高效的數據處理與分析其他c)支持多種編排模型,如TOSCA模f)支持基于角色的訪問控制,確保不同用戶角色只能訪問其權限范圍內的數c)建立用戶投訴渠道,并對用戶的投b)應支持定義和管理服務級別協(xié)議;a)定義各類資源、數據、軟件、模型等的產品化標準及流程,如規(guī)格、b)支持對算力資源、網絡資源、存儲資源、數據資源等實時監(jiān)控和可視化管理;c)支持通過調配等手段平衡各算力中心的資源使用率,確保整體e)支持對應用和作業(yè)占用資源情況進行監(jiān)控,包括CPU負載、內存使用率、存儲利用率、網絡流a)建立支撐程序開發(fā)與運行的環(huán)境,及時擴充環(huán)境所c)支持敏感數據傳輸和存儲加密,防止數據泄a)應對超算互聯網平臺各類服務進行性能監(jiān)測,并保留性能監(jiān)b)應及時針對性能監(jiān)測情況,發(fā)現平臺服務性能瓶頸,提出優(yōu)化方案;b)通過冗余設計和數據備份等措施,確保系統(tǒng)在問題發(fā)生時能夠繼續(xù)運行;c)支持日志查詢功能,包括用戶行為日志、系統(tǒng)運行日志、網絡運行日志、資資源監(jiān)測支持通過多種途徑收集算力中心的資源運行情況,實現異常告a)各中心應監(jiān)測設備、應用、服務的運行狀態(tài),包括計算/網絡/存儲等資源占用信a)支持網絡邊界訪問控制,并對超算互聯網的業(yè)務流量檢查,防止未授權的惡意訪b)支持網絡邊界入侵檢測和防御,并對計算節(jié)點和業(yè)務進行攻擊監(jiān)控;c)支持定義用戶訪問應用策略,僅授予管理用戶所b)商戶的子角色包括資源提供者、資源代理者、應用開發(fā)者;c)協(xié)作者的子角色包括運維服務者、運營服務者、平臺監(jiān)管者。7.2客戶者提出定制化需求,反饋資源的使用問題及跟蹤解決,并對超算資源質量進行評價。b)按銷量、評分等對超算互聯服務平臺商品排序;b)商品提交購買,形成訂單;b)所購買超算資源的運行狀態(tài)監(jiān)控及問題處理對接窗口;c)所購買超算資源用戶與商戶之間的溝通b)針對所購買的資源交付時效性、故障率、c)對違約資源及服務的賠償方案與商戶進行溝通。a)搜索及下載平臺上應用的安裝包;任務運行是指使用超算互聯網平臺上提供的應用、支持MPI的并行程序、工具軟件等,準備好軟件b)反饋商戶的服務質量;a)評價應用程序的質量;7.3商戶包括資源管理、資源定價、訂單管理、超算互聯網服務反饋、超算互聯網問題投訴。a)在商店進行資源上架;b)訂單收費模式的確定;a)對平臺的穩(wěn)定性及服務質量進行反饋;a)對平臺提出投訴;應用開發(fā)是指利用超算互聯平臺和各中心提供的開發(fā)環(huán)境、支持MPI的并行程序、工具軟件等,進e)將開發(fā)成果在測試環(huán)境進行測試運存儲、網絡資源及其他資源的限額,如果超過了資b)配置應用使用資源的參數及限額;應用服務反饋是指對超算應用開發(fā)過程中平臺的服務效果進行反饋的活動,有利于規(guī)范超算互聯a)反饋運營服務者的服務質量問題;),a)從資源提供者處購買資源;資源管理是指資源代理者根據自己的定義,經過資源整合得到的技術產品和技術服務通過超算互超算互聯網服務反饋是指資源代理者對超算互聯網平臺提供的服務質量及其他參與者的行為進行a)對平臺的穩(wěn)定性及服務質量進行反饋;7,4協(xié)作者運營服務者負責確保超算中心的資源開發(fā)、管理、配置和支持服務的高效運作。運營服務者相關角色活動包含資源注冊、資源配置、資源注銷、算力中心升級管理、資源a)在平臺上填寫注冊信息和配置文件(主動);c)查看平臺收到的中心發(fā)起的資源注冊請求;b)配置資源池和節(jié)點,包括規(guī)模、權限、隊列等信息。a)在平臺上填寫注銷信息和原因(主動);c)查看平臺收到的中心發(fā)起的資源注冊請e)檢查待注銷算力資源池是否有任務在運超算中心軟件升級管理是指接收超算互聯服務平臺發(fā)送的升級請求,超算中心升級管理者驗證升超算資源服務支持旨在為超算中心的用戶提供技術支持,并通過收集用戶反饋,持續(xù)提升超算中b)協(xié)助用戶移植和部署應用程序,提高應用性能;c)收集并分析用戶反饋,向開發(fā)團隊提供改進建a)監(jiān)控平臺運行狀態(tài),及時發(fā)現并處理異常情況;b)監(jiān)控平臺系統(tǒng)的頁面和各接口響應情況,及時發(fā)現性能問題并處理異常情況;a)監(jiān)控平臺計算、存儲、網絡各項資源使用情況;c)動態(tài)調整資源分配,優(yōu)化任務調度和資源調度;故障管理與處理是指快速響應和解決平臺運行過程中的各類故障,保障系統(tǒng)的高可用性和任務的a)迅速發(fā)現并定位系統(tǒng)故障的根源;b)執(zhí)行故障修復操作,確保系統(tǒng)恢復正常運行;b)實時監(jiān)控平臺的安全性,檢測潛在的安全威脅和攻擊行為;c)定期掃描和修復平臺軟件和系統(tǒng)中的安全漏洞;d)制定和執(zhí)行安全事件響應計劃,快速應對安全事件;c)提供實時支持,確保用戶正常使用平臺d)收集用戶和商戶反饋,持續(xù)改進和優(yōu)化運維流平臺監(jiān)管者是超算互聯網平臺的監(jiān)理者,其以獨立的第三方身份對超算互聯網平臺各方的行為進b)對上述日志中的信息進行標準化處理,發(fā)現安全漏洞、異常事件等問題;a)獲取商戶收到的服務評價及評價來源數據;問題投訴仲裁是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論