版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
何萬青阿里云高性能計算總監(jiān)基因研究預測017005011023029100MFlops100PFlopspsTFlopsps100基因研究預測017005011023029100MFlops100PFlopspsTFlopsps100TFlopsps100EFlopsps100GFlops10GFlopsps高性能計算(HighPerformanceComputing)是計算機科學的一個分支。主要聚焦于解決大規(guī)模科學問題的計算和海量數(shù)據(jù)的處理,如科學研究、氣象預報、計算模擬、軍事研究、CFD/CAE、生物制藥、基因測序、圖像處理等等。構建高性能計算系統(tǒng)的主要目的就是提高運算速度,要達到每秒萬億次級的計算速度,對系統(tǒng)的處理器、內存帶寬、運算方式、系統(tǒng)I/O、存儲等方面的要求都十分高,這其中的每一個環(huán)節(jié)都將直接影響到系統(tǒng)的運算速度。EFlopsPFlops里云超算阿里云3招拆解超算上云障礙低延遲RDMA50Gb網(wǎng)絡阿里云并行文件系統(tǒng)NAS/CPFS(Lustre*)低延遲RDMA50Gb網(wǎng)絡阿里云并行文件系統(tǒng)NAS/CPFS(Lustre*)ECS彈性裸金屬服務器?無硬件性能/特性損失?硬件隔離/獨占超級計算集群SCC?彈性資源?快速服務部署,橫向擴展和熱遷移?運維自動化?統(tǒng)一服務接口最高配置的單一實例2.0ps50Gb8xv10096核384GB基于Virtualization2.0的ECS彈性裸金屬服務器E-HPC控制臺一鍵創(chuàng)建集群WAN客戶PC頭節(jié)點用戶與資源管理、作業(yè)調度計算節(jié)點并行運行HPC作業(yè)LAN圖形節(jié)點圖形化的作業(yè)前后處理 (可選)文件存儲保存作業(yè)數(shù)據(jù)阿里云E-HPC服務超算中心或線下機房遠程桌面訪問,或直接本地進行前后處理一張圖描述E-HPCE-HPC控制臺一鍵創(chuàng)建集群WAN客戶PC頭節(jié)點用戶與資源管理、作業(yè)調度計算節(jié)點并行運行HPC作業(yè)LAN圖形節(jié)點圖形化的作業(yè)前后處理 (可選)文件存儲保存作業(yè)數(shù)據(jù)阿里云E-HPC服務超算中心或線下機房遠程桌面訪問,或直接本地進行前后處理從傳統(tǒng)超算到云超算,將云服務整合為HPC集群客戶客戶PCEIPAgentAgentAgentAgent客戶云上HPC集群EIPAgentAgentAgentAgent客戶云上HPC集群登錄節(jié)點與管理節(jié)點圖登錄節(jié)點與管理節(jié)點用用戶資源管理、作業(yè)調度 (可選)AgentVPC計算節(jié)點文件存儲計算節(jié)點并行運行HPC并行運行HPC作業(yè)AgentEE-HPC管控服務Region署OpenAPI作業(yè)管理彈性伸縮軟件部署性能監(jiān)控資源管理E-HPC環(huán)境搭建、部署與使用群開通并創(chuàng)建NAS任務提交和數(shù)據(jù)導入控制臺提交作業(yè)命令行提交作業(yè)OSS數(shù)據(jù)導入集諦性能分析工具彈性伸縮和可視化配置自動伸縮服務縮實例低至1折,至少保持1小用時長E-HPC讓云超算強大易用AlibabaCloudE-HPC精確到小時的付費粒度時釋放VPC服務(虛擬專用網(wǎng)絡)PBS/Slurm/GridEngine登錄節(jié)點GROMACS/LAMMPS/NAMD/GAUSSIAN……管控節(jié)點×M交作業(yè)低至1折,至少保持1小用時長E-HPC讓云超算強大易用AlibabaCloudE-HPC精確到小時的付費粒度時釋放VPC服務(虛擬專用網(wǎng)絡)PBS/Slurm/GridEngine登錄節(jié)點GROMACS/LAMMPS/NAMD/GAUSSIAN……管控節(jié)點×M交作業(yè)看結果虛擬交換機儲服務 (共享文件系統(tǒng))服務 (公網(wǎng)IP)安全組/云盾資源管理作業(yè)管理日志報表結果務GNU(gcc/g++/gfortran…)/Autotools(autoconf…)SCC/CPU計算型/GPU計算計算節(jié)點×N按周/月/年預付費,長期使用成本大減集群停機不收費單集群支持擴容多種規(guī)格計算節(jié)點鏡像市場與容器:鏡像市場與容器:支持鏡像市場鏡像部署集群,支持HPC容器模式一鍵啟動集群,一鍵修復異常集群務(對象存儲務(對象存儲)MPICH/OpenMPI/BLAS/Boost/CUDA…署模式:OneBox模式查看配置清單查看配置清單查查看配置拓撲圖SSHSSH登陸提交作業(yè)和查看導入/導出作業(yè)文件業(yè)調度器id對象存儲OSS對象存儲OSS控制臺命令行上傳數(shù)據(jù)通過OSS導入數(shù)據(jù)wgethttp://e-hpc-quickstart.vpc100-oss-cn-/test.datacurl-Ohttp://e-hpc-quickstart.vpc100-oss-cn-/test.data私用Bucket?臨時含簽名的URL?通過HTTP訪問VPC網(wǎng)絡Endpoint導入數(shù)據(jù)作業(yè)運行性能分析:CloudMetrics|集諦集群維度,定位實例熱集群維度,定位實例熱點函數(shù)熱點視圖進程維度,定位函數(shù)熱點實例維度,定位進程熱點節(jié)點性能視圖軟件進程視圖作業(yè)進程與函數(shù)級?對指定進程進行性能剖析?顯示各進程函數(shù)堆棧視圖,分析函數(shù)熱點OS級?顯示當前Top進程?顯示Top進程CPU占用率和內存占用率CPU級?顯示CPU總體占用率、用戶態(tài)和內核態(tài)占用率?顯示CPU本地內存帶寬和總內存帶寬磁盤、網(wǎng)絡與外設?顯示磁盤吞吐率、磁盤利用率?顯示網(wǎng)絡總吞吐率、入方向和出方向吞吐率?顯示GPU帶寬、GPU利用率、顯存利用率、功耗…?按作業(yè)運行檢索,按作業(yè)周期進行查看?多指標同時間軸顯示,可對比分析低性能受益難結構網(wǎng)格,非結構、無結構…CPU型號,核數(shù),網(wǎng)絡,文件系統(tǒng),內SOA低性能受益難結構網(wǎng)格,非結構、無結構…CPU型號,核數(shù),網(wǎng)絡,文件系統(tǒng),內SOA/AOS,負載均衡,并行化,向量化,循環(huán)優(yōu)化(block,unrollandjam,reorder…)…修改源碼或可借助編譯器進行優(yōu)化throughput/CPI),指令流水(亂序執(zhí)行),分支預測…運行環(huán)境 運行平臺)程序實現(xiàn)CPU微架構客戶應用云上優(yōu)化:優(yōu)化方法運運行環(huán)境 +運行平臺)程序實現(xiàn)程序實現(xiàn)CPUCPU微架構2.性能優(yōu)化的關鍵是定位性能問題,確定優(yōu)化點。程序實現(xiàn)CPU微架構程序實現(xiàn)CPU微架構應集群級?層級遞進的性能監(jiān)控工具集群級運行環(huán)境 運行平臺)運行環(huán)境 運行平臺)節(jié)點級(系統(tǒng)資源飽和度),與作業(yè)調度按節(jié)點維度,查看指標間的變化關聯(lián);按指標維度,查看不同節(jié)點間的指標差異。進程級(進程信息),查看節(jié)點占用OS時函數(shù)級(熱點函數(shù)),確定占用CPU資源最多的函數(shù)信息——bottom-up(熱點函數(shù))和top-down(邏輯調用關系)。登錄節(jié)點與管理節(jié)點計算節(jié)點用戶資源管理、作業(yè)調度并行運行HPC作業(yè)登錄節(jié)點與管理節(jié)點計算節(jié)點用戶資源管理、作業(yè)調度并行運行HPC作業(yè)登錄節(jié)點與管理節(jié)點計算節(jié)點用戶資源管理、作業(yè)調度并行運行HPC作業(yè)基于作業(yè)負載的彈性伸縮登錄節(jié)點與管理節(jié)點計算節(jié)點用戶資源管理、作業(yè)調度并行運行HPC作業(yè)登錄節(jié)點與管理節(jié)點計算節(jié)點用戶資源管理、作業(yè)調度并行運行HPC作業(yè)登錄節(jié)點與管理節(jié)點計算節(jié)點用戶資源管理、作業(yè)調度并行運行HPC作業(yè)作業(yè)負作業(yè)負載t2,需4個節(jié)點,作業(yè)1繼續(xù)運行無新作業(yè)提交時間點t1:提交作業(yè)1需4個節(jié)點運行時間點t0,無作業(yè)提交登錄節(jié)點與管理節(jié)登錄節(jié)點與管理節(jié)點用戶資源管理、作業(yè)調度計算節(jié)點并行運行HPC計算節(jié)點??E-HPC管控服務監(jiān)控調度器作業(yè)資源需求,動態(tài)創(chuàng)建/刪除計算節(jié)點(數(shù)據(jù)保留在共享存儲),按實際負載彈性計費。?可針對調度器隊列制定差異化的伸縮策略,支持搶占式實例,支持跨可用區(qū)伸縮,降低客戶使用成本?;谧鳂I(yè)負載的彈性伸縮彈性伸縮縮容擴容縮容節(jié)點連續(xù)空閑次數(shù)額外節(jié)點百分比擴容時間間隔縮節(jié)點連續(xù)空閑次數(shù)額外節(jié)點百分比擴容時間間隔縮容時間間隔例外節(jié)點列表擴容比例節(jié)點數(shù)量E-HPC閑時計算方案與混合云將成本作為重要因素的云上計算方案,利用以下技術將云上普惠的高性能計算服務提供給絕大部分HPC用戶?搶占式實例:控制計算資源在期望的成本之下?自動伸縮:自動擴容搶占式實例,無需用戶干預?斷點續(xù)算:在計算資源被釋放和重新獲取之后,作業(yè)可以續(xù)算?在算例輸入文件中設定步長?在作業(yè)提交腳本中設定checkpoint文件生成的時間間隔作業(yè)后處理作業(yè)運行作業(yè)后處理作業(yè)運行數(shù)據(jù)全流程可視化作業(yè)運行——可視化性能分析?節(jié)點性能:按節(jié)點查看物理資源性能?進程性能:按進程查看軟件運行性能?性能剖析:剖析進程,查看函數(shù)級性能數(shù)據(jù)作作業(yè)前處理作業(yè)前處理——可視化編輯?調度器配置項可視化?控制臺直接作業(yè)文件編輯器作業(yè)后處理——計算結果可視化?控制臺直接提供Web化的圖形桌面?支持云圖站等多種可視化服務連接實例使用連接實例使用控制臺遠程可視化創(chuàng)創(chuàng)建實例創(chuàng)建可視化集群創(chuàng)建可視化實例連接實例創(chuàng)建可視化集群創(chuàng)建可視化實例連接實例可視化設置流程創(chuàng)創(chuàng)建計算集群??為連接會話提供token鑒權?每個用戶每次會話都有獨立的token?關閉連接后失效?管理一個或多個可視化實例?負責實例狀態(tài)的維護?管理實例連接token生命周期?支持不同硬件配置(CPU/內存/GPU)?桌面型實例:每個實例提供一個遠程桌面?App型實例:每個實例提供一個遠程App?不同子賬號可分配不同實例?實例與計算集群數(shù)據(jù)互通阿里云阿里云VPCE-HPC計算集群EE-HPC計算集群E-HPC可視化實例數(shù)數(shù)據(jù)共享E-HPCNAS共享存儲⑥創(chuàng)建后處理作業(yè)能計算集群戶訪問阿里云控制臺③提交作業(yè)到調度器、執(zhí)行HPC工作流與數(shù)據(jù)遷移⑥創(chuàng)建后處理作業(yè)能計算集群戶訪問阿里云控制臺③提交作業(yè)到調度器、執(zhí)行控制流據(jù)傳輸方案控制流數(shù)據(jù)流⑦下載作業(yè)結果數(shù)據(jù)流⑦下載作業(yè)結果硬盤快遞上門,適合TB級數(shù)據(jù)高速通道服務數(shù)據(jù)中心①上傳作
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年特色水果種植與深加工項目合作協(xié)議3篇
- 2024年球團膨潤土裝卸作業(yè)服務協(xié)議燒結廠專用版
- 2024年版室內油漆施工承包具體協(xié)議模板版B版
- 有圖形的影子課程設計
- 2024債轉股合同復雜多條款與債權債務轉換操作指引3篇
- 2024年版股權投資合同范本
- 2024年施工安全與環(huán)境保護風險評估與控制協(xié)議3篇
- 2024年版在線教育平臺服務合同
- 童裝直播課程設計
- 澳門大學課程設計
- 中華人民共和國民法典(總則)培訓課件
- IB課程-PYP小學項目省公開課獲獎課件說課比賽一等獎課件
- 上市央國企數(shù)智化進程中人才就業(yè)趨勢
- 釘釘數(shù)字化管理師中級題庫
- 解一元二次方程(公式法)(教學設計)-九年級數(shù)學上冊同步備課系列
- 2024版小學科學六年級上冊第四單元《能量》教學課件
- 2024年秋新滬教牛津版英語三年級上冊 Unit 6 第1課時 教學課件
- 江蘇揚州中學教育集團2023-2024學年中考三模數(shù)學試題含解析
- TSHZSAQS 00255-2024 食葵病蟲害防治技術規(guī)范
- 2024農(nóng)村機井轉讓合同范本
- 2024年院前急救護士理論考核參考題庫(含各題型)
評論
0/150
提交評論