版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
何萬青阿里云高性能計算總監(jiān)基因研究預測017005011023029100MFlops100PFlopspsTFlopsps100基因研究預測017005011023029100MFlops100PFlopspsTFlopsps100TFlopsps100EFlopsps100GFlops10GFlopsps高性能計算(HighPerformanceComputing)是計算機科學的一個分支。主要聚焦于解決大規(guī)模科學問題的計算和海量數(shù)據(jù)的處理,如科學研究、氣象預報、計算模擬、軍事研究、CFD/CAE、生物制藥、基因測序、圖像處理等等。構(gòu)建高性能計算系統(tǒng)的主要目的就是提高運算速度,要達到每秒萬億次級的計算速度,對系統(tǒng)的處理器、內(nèi)存帶寬、運算方式、系統(tǒng)I/O、存儲等方面的要求都十分高,這其中的每一個環(huán)節(jié)都將直接影響到系統(tǒng)的運算速度。EFlopsPFlops里云超算阿里云3招拆解超算上云障礙低延遲RDMA50Gb網(wǎng)絡阿里云并行文件系統(tǒng)NAS/CPFS(Lustre*)低延遲RDMA50Gb網(wǎng)絡阿里云并行文件系統(tǒng)NAS/CPFS(Lustre*)ECS彈性裸金屬服務器?無硬件性能/特性損失?硬件隔離/獨占超級計算集群SCC?彈性資源?快速服務部署,橫向擴展和熱遷移?運維自動化?統(tǒng)一服務接口最高配置的單一實例2.0ps50Gb8xv10096核384GB基于Virtualization2.0的ECS彈性裸金屬服務器E-HPC控制臺一鍵創(chuàng)建集群WAN客戶PC頭節(jié)點用戶與資源管理、作業(yè)調(diào)度計算節(jié)點并行運行HPC作業(yè)LAN圖形節(jié)點圖形化的作業(yè)前后處理 (可選)文件存儲保存作業(yè)數(shù)據(jù)阿里云E-HPC服務超算中心或線下機房遠程桌面訪問,或直接本地進行前后處理一張圖描述E-HPCE-HPC控制臺一鍵創(chuàng)建集群WAN客戶PC頭節(jié)點用戶與資源管理、作業(yè)調(diào)度計算節(jié)點并行運行HPC作業(yè)LAN圖形節(jié)點圖形化的作業(yè)前后處理 (可選)文件存儲保存作業(yè)數(shù)據(jù)阿里云E-HPC服務超算中心或線下機房遠程桌面訪問,或直接本地進行前后處理從傳統(tǒng)超算到云超算,將云服務整合為HPC集群客戶客戶PCEIPAgentAgentAgentAgent客戶云上HPC集群EIPAgentAgentAgentAgent客戶云上HPC集群登錄節(jié)點與管理節(jié)點圖登錄節(jié)點與管理節(jié)點用用戶資源管理、作業(yè)調(diào)度 (可選)AgentVPC計算節(jié)點文件存儲計算節(jié)點并行運行HPC并行運行HPC作業(yè)AgentEE-HPC管控服務Region署OpenAPI作業(yè)管理彈性伸縮軟件部署性能監(jiān)控資源管理E-HPC環(huán)境搭建、部署與使用群開通并創(chuàng)建NAS任務提交和數(shù)據(jù)導入控制臺提交作業(yè)命令行提交作業(yè)OSS數(shù)據(jù)導入集諦性能分析工具彈性伸縮和可視化配置自動伸縮服務縮實例低至1折,至少保持1小用時長E-HPC讓云超算強大易用AlibabaCloudE-HPC精確到小時的付費粒度時釋放VPC服務(虛擬專用網(wǎng)絡)PBS/Slurm/GridEngine登錄節(jié)點GROMACS/LAMMPS/NAMD/GAUSSIAN……管控節(jié)點×M交作業(yè)低至1折,至少保持1小用時長E-HPC讓云超算強大易用AlibabaCloudE-HPC精確到小時的付費粒度時釋放VPC服務(虛擬專用網(wǎng)絡)PBS/Slurm/GridEngine登錄節(jié)點GROMACS/LAMMPS/NAMD/GAUSSIAN……管控節(jié)點×M交作業(yè)看結(jié)果虛擬交換機儲服務 (共享文件系統(tǒng))服務 (公網(wǎng)IP)安全組/云盾資源管理作業(yè)管理日志報表結(jié)果務GNU(gcc/g++/gfortran…)/Autotools(autoconf…)SCC/CPU計算型/GPU計算計算節(jié)點×N按周/月/年預付費,長期使用成本大減集群停機不收費單集群支持擴容多種規(guī)格計算節(jié)點鏡像市場與容器:鏡像市場與容器:支持鏡像市場鏡像部署集群,支持HPC容器模式一鍵啟動集群,一鍵修復異常集群務(對象存儲務(對象存儲)MPICH/OpenMPI/BLAS/Boost/CUDA…署模式:OneBox模式查看配置清單查看配置清單查查看配置拓撲圖SSHSSH登陸提交作業(yè)和查看導入/導出作業(yè)文件業(yè)調(diào)度器id對象存儲OSS對象存儲OSS控制臺命令行上傳數(shù)據(jù)通過OSS導入數(shù)據(jù)wgethttp://e-hpc-quickstart.vpc100-oss-cn-/test.datacurl-Ohttp://e-hpc-quickstart.vpc100-oss-cn-/test.data私用Bucket?臨時含簽名的URL?通過HTTP訪問VPC網(wǎng)絡Endpoint導入數(shù)據(jù)作業(yè)運行性能分析:CloudMetrics|集諦集群維度,定位實例熱集群維度,定位實例熱點函數(shù)熱點視圖進程維度,定位函數(shù)熱點實例維度,定位進程熱點節(jié)點性能視圖軟件進程視圖作業(yè)進程與函數(shù)級?對指定進程進行性能剖析?顯示各進程函數(shù)堆棧視圖,分析函數(shù)熱點OS級?顯示當前Top進程?顯示Top進程CPU占用率和內(nèi)存占用率CPU級?顯示CPU總體占用率、用戶態(tài)和內(nèi)核態(tài)占用率?顯示CPU本地內(nèi)存帶寬和總內(nèi)存帶寬磁盤、網(wǎng)絡與外設?顯示磁盤吞吐率、磁盤利用率?顯示網(wǎng)絡總吞吐率、入方向和出方向吞吐率?顯示GPU帶寬、GPU利用率、顯存利用率、功耗…?按作業(yè)運行檢索,按作業(yè)周期進行查看?多指標同時間軸顯示,可對比分析低性能受益難結(jié)構(gòu)網(wǎng)格,非結(jié)構(gòu)、無結(jié)構(gòu)…CPU型號,核數(shù),網(wǎng)絡,文件系統(tǒng),內(nèi)SOA低性能受益難結(jié)構(gòu)網(wǎng)格,非結(jié)構(gòu)、無結(jié)構(gòu)…CPU型號,核數(shù),網(wǎng)絡,文件系統(tǒng),內(nèi)SOA/AOS,負載均衡,并行化,向量化,循環(huán)優(yōu)化(block,unrollandjam,reorder…)…修改源碼或可借助編譯器進行優(yōu)化throughput/CPI),指令流水(亂序執(zhí)行),分支預測…運行環(huán)境 運行平臺)程序?qū)崿F(xiàn)CPU微架構(gòu)客戶應用云上優(yōu)化:優(yōu)化方法運運行環(huán)境 +運行平臺)程序?qū)崿F(xiàn)程序?qū)崿F(xiàn)CPUCPU微架構(gòu)2.性能優(yōu)化的關鍵是定位性能問題,確定優(yōu)化點。程序?qū)崿F(xiàn)CPU微架構(gòu)程序?qū)崿F(xiàn)CPU微架構(gòu)應集群級?層級遞進的性能監(jiān)控工具集群級運行環(huán)境 運行平臺)運行環(huán)境 運行平臺)節(jié)點級(系統(tǒng)資源飽和度),與作業(yè)調(diào)度按節(jié)點維度,查看指標間的變化關聯(lián);按指標維度,查看不同節(jié)點間的指標差異。進程級(進程信息),查看節(jié)點占用OS時函數(shù)級(熱點函數(shù)),確定占用CPU資源最多的函數(shù)信息——bottom-up(熱點函數(shù))和top-down(邏輯調(diào)用關系)。登錄節(jié)點與管理節(jié)點計算節(jié)點用戶資源管理、作業(yè)調(diào)度并行運行HPC作業(yè)登錄節(jié)點與管理節(jié)點計算節(jié)點用戶資源管理、作業(yè)調(diào)度并行運行HPC作業(yè)登錄節(jié)點與管理節(jié)點計算節(jié)點用戶資源管理、作業(yè)調(diào)度并行運行HPC作業(yè)基于作業(yè)負載的彈性伸縮登錄節(jié)點與管理節(jié)點計算節(jié)點用戶資源管理、作業(yè)調(diào)度并行運行HPC作業(yè)登錄節(jié)點與管理節(jié)點計算節(jié)點用戶資源管理、作業(yè)調(diào)度并行運行HPC作業(yè)登錄節(jié)點與管理節(jié)點計算節(jié)點用戶資源管理、作業(yè)調(diào)度并行運行HPC作業(yè)作業(yè)負作業(yè)負載t2,需4個節(jié)點,作業(yè)1繼續(xù)運行無新作業(yè)提交時間點t1:提交作業(yè)1需4個節(jié)點運行時間點t0,無作業(yè)提交登錄節(jié)點與管理節(jié)登錄節(jié)點與管理節(jié)點用戶資源管理、作業(yè)調(diào)度計算節(jié)點并行運行HPC計算節(jié)點??E-HPC管控服務監(jiān)控調(diào)度器作業(yè)資源需求,動態(tài)創(chuàng)建/刪除計算節(jié)點(數(shù)據(jù)保留在共享存儲),按實際負載彈性計費。?可針對調(diào)度器隊列制定差異化的伸縮策略,支持搶占式實例,支持跨可用區(qū)伸縮,降低客戶使用成本?;谧鳂I(yè)負載的彈性伸縮彈性伸縮縮容擴容縮容節(jié)點連續(xù)空閑次數(shù)額外節(jié)點百分比擴容時間間隔縮節(jié)點連續(xù)空閑次數(shù)額外節(jié)點百分比擴容時間間隔縮容時間間隔例外節(jié)點列表擴容比例節(jié)點數(shù)量E-HPC閑時計算方案與混合云將成本作為重要因素的云上計算方案,利用以下技術(shù)將云上普惠的高性能計算服務提供給絕大部分HPC用戶?搶占式實例:控制計算資源在期望的成本之下?自動伸縮:自動擴容搶占式實例,無需用戶干預?斷點續(xù)算:在計算資源被釋放和重新獲取之后,作業(yè)可以續(xù)算?在算例輸入文件中設定步長?在作業(yè)提交腳本中設定checkpoint文件生成的時間間隔作業(yè)后處理作業(yè)運行作業(yè)后處理作業(yè)運行數(shù)據(jù)全流程可視化作業(yè)運行——可視化性能分析?節(jié)點性能:按節(jié)點查看物理資源性能?進程性能:按進程查看軟件運行性能?性能剖析:剖析進程,查看函數(shù)級性能數(shù)據(jù)作作業(yè)前處理作業(yè)前處理——可視化編輯?調(diào)度器配置項可視化?控制臺直接作業(yè)文件編輯器作業(yè)后處理——計算結(jié)果可視化?控制臺直接提供Web化的圖形桌面?支持云圖站等多種可視化服務連接實例使用連接實例使用控制臺遠程可視化創(chuàng)創(chuàng)建實例創(chuàng)建可視化集群創(chuàng)建可視化實例連接實例創(chuàng)建可視化集群創(chuàng)建可視化實例連接實例可視化設置流程創(chuàng)創(chuàng)建計算集群??為連接會話提供token鑒權(quán)?每個用戶每次會話都有獨立的token?關閉連接后失效?管理一個或多個可視化實例?負責實例狀態(tài)的維護?管理實例連接token生命周期?支持不同硬件配置(CPU/內(nèi)存/GPU)?桌面型實例:每個實例提供一個遠程桌面?App型實例:每個實例提供一個遠程App?不同子賬號可分配不同實例?實例與計算集群數(shù)據(jù)互通阿里云阿里云VPCE-HPC計算集群EE-HPC計算集群E-HPC可視化實例數(shù)數(shù)據(jù)共享E-HPCNAS共享存儲⑥創(chuàng)建后處理作業(yè)能計算集群戶訪問阿里云控制臺③提交作業(yè)到調(diào)度器、執(zhí)行HPC工作流與數(shù)據(jù)遷移⑥創(chuàng)建后處理作業(yè)能計算集群戶訪問阿里云控制臺③提交作業(yè)到調(diào)度器、執(zhí)行控制流據(jù)傳輸方案控制流數(shù)據(jù)流⑦下載作業(yè)結(jié)果數(shù)據(jù)流⑦下載作業(yè)結(jié)果硬盤快遞上門,適合TB級數(shù)據(jù)高速通道服務數(shù)據(jù)中心①上傳作
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房屋租賃合同(附房屋交割清單)
- 2025年四川省職教高考《語文》核心考點必刷必練試題庫(含答案)
- 第2章 陸地和海洋(真題重組卷)-(解析版)
- 2025年河北軟件職業(yè)技術(shù)學院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 2025年河北政法職業(yè)學院高職單招職業(yè)技能測試近5年常考版參考題庫含答案解析
- 2025年江西水利職業(yè)學院高職單招職業(yè)適應性測試近5年常考版參考題庫含答案解析
- 2025年江西婺源茶業(yè)職業(yè)學院高職單招語文2018-2024歷年參考題庫頻考點含答案解析
- 2025年江蘇城鄉(xiāng)建設職業(yè)學院高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 2025年無錫科技職業(yè)學院高職單招職業(yè)適應性測試近5年??及鎱⒖碱}庫含答案解析
- 2025年承德石油高等??茖W校高職單招職業(yè)技能測試近5年常考版參考題庫含答案解析
- 蛋糕店服務員勞動合同
- 土地買賣合同參考模板
- 2025高考數(shù)學二輪復習-專題一-微專題10-同構(gòu)函數(shù)問題-專項訓練【含答案】
- 2025年天津市政建設集團招聘筆試參考題庫含答案解析
- 2024-2030年中國烘焙食品行業(yè)運營效益及營銷前景預測報告
- 寧德時代筆試題庫
- 康復醫(yī)院患者隱私保護管理制度
- 公司安全事故隱患內(nèi)部舉報、報告獎勵制度
- 沈陽理工大學《數(shù)》2022-2023學年第一學期期末試卷
- 北京三甲中醫(yī)疼痛科合作方案
- QCT957-2023洗掃車技術(shù)規(guī)范
評論
0/150
提交評論