高性能并行計算機介紹_第1頁
高性能并行計算機介紹_第2頁
高性能并行計算機介紹_第3頁
高性能并行計算機介紹_第4頁
高性能并行計算機介紹_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、高性能并行計算機簡介2010-06 1.1 并行計算機基礎知識 1.2 并行計算機系統架構 1.3 機群系統 1.4 高性能計算發(fā)展趨勢目錄什么是高性能并行計算機什么是高性能并行計算機由多個計算單元組成,運算速度快、存儲容量大、可靠性高的計算機系統。也稱為:巨型計算機、超級計算機目前任何高性能計算和超級計算都離不開使用并行技術,所以高性能計算機肯定是并行計算機。其發(fā)展歷程可以簡單的分為兩個時代其發(fā)展歷程可以簡單的分為兩個時代專用時代包括向量機,MPP系統,SGI NUMA 系統,SUN大型SMP系統,也包括我國的神威,銀河,曙光1000等。之所以稱為“專用”,并不是說它們只能運行某種應用,是指

2、它們的組成部件是專門設計的,它們的CPU板,內存板,I/O板,甚至操作系統,都是不能在其它系統中使用的。由于技術上桌面系統與高端系統的巨大差異,和用戶群窄小。普及時代高性能計算機價格下降,應用門檻降低,應用開始普及。兩個技術趨勢起到重要作用。商品化趨勢使得大量生產的商品部件接近了高性能計算機專有部件標準化趨勢使得這些部件之間能夠集成一個系統中,其中X86處理器、以太網、內存部件、Linux都起到決定性作用。機群系統是高性能計算機的一種,它的技術基礎和工業(yè)基礎都是商品化和標準化。曙光曙光1000曙光1000有36個結點機;峰值計算速度為浮點25.6億次/秒,實際達到15.8 億次/秒;內存容量為

3、1024兆字節(jié);基于Wormhole機制的二維Mesh通訊網,結點與網絡通訊總帶寬為2.88GB/秒;采用基于UNIX的并行操作系統和并行文件系統;并行計算機并行計算機-CRAYSystem Name Jaguar 1059000 GFlopsSystem Family Cray XT Operating System CNLInterconnect XT4 Internal Interconnect Processor AMD Opteron Quad Core 2300 MHz (9.2 GFlops) 并行計算機并行計算機-IBMSystem Name Roadrunner 110500

4、0 GFlopsSystem Family IBM Cluster Operating System Linux Interconnect Infiniband Processor PowerXCell 8i 3200 MHz (12.8 GFlops)并行計算機并行計算機-DAWNINGSystem Name Dawning 5000A 180600 GFlopsSystem Family Dawning Cluster Operating System Windows HPC server 2008 and SUSEInterconnect Infiniband DDR Processor

5、 AMD Opteron Quad Core 1900 MHz (7.6 GFlops)并行計算機所用的處理器并行計算機所用的處理器AMD OpteronXeon NoconaIntel ItaniumCompaq AlphaHP PA-RISCSun UltraSPARCIBM POWER5+,POWER6IBM BlueGene processorMIPS R10000龍芯最新TOP500cpu分布并行機處理器并行機處理器-AMDPERFORMANCE 1-WAYPERFORMANCE 2-WAYPERFORMANCE 4-WAY AND 8-WAYAMD Opteron 200 Seri

6、es & 2000 Series Processors Designed for 2-way Server / Workstation solutions First native x86 dual-core solution for 2-way computingAMD Opteron 100 Series & 1000 Series Processors Designed for 1-way Server / Workstation solutions First native x86 dual-core solution for 1-way computingAMD Op

7、teron 800 Series & 8000 Series Processors Designed for 4-way and 8-way Server solutions First native x86 dual-core solution for 4-way / 8-way computingAMD Opteron Processors for Servers and Workstations并行機處理器并行機處理器-Intel數據要求苛刻 雙核英特爾 至強 7000 系列處理器 最大限度提高性能、可靠性和可擴展性雙核英特爾 安騰 處理器 9000 大型機級服務器,具有頂級的靈

8、活性和可靠性 RISC 與大型機現代化基本 計算四核英特爾 至強 3000 系列處理器經濟、可靠的單路服務器高密度 基礎設施四核英特爾 至強 5000 系列處理器利用四核處理最大限度提高性能密度RISC 與大型機現代化并行機處理器并行機處理器-龍芯龍芯Godson意思為“教子”,相對于此的另一個詞叫教父(Godfather)并行計算機專用連接網絡并行計算機專用連接網絡 NumaLink (SGI) SP Switch,SP Switch2 (IBM) Cray Interconnect (Cray)并行計算機商品化網絡并行計算機商品化網絡互聯方式的選擇千兆以太網,帶寬?。ɡ碚撝?25MB/s)

9、,延遲大35-45 s ;Infiniband;MPI乒乓測試帶寬:850 MB/s,MPI短消息延遲: 7 s ;Myrinet:MPI乒乓測試帶寬:230 MB/s,MPI短消息延遲:7 s ;Qsnet:MPI乒乓測試帶寬:300 MB/s ,MPI短消息延遲:5 s;SCI:MPI乒乓測試帶寬:320 MB/s ;MPI短消息延遲:1 - 2 s ;最新TOP500網絡分布商品化網絡商品化網絡-Infiniband趨勢InfiniBand代表的就是性能和互操作性。如果你看一看超級計算機500強的話就會發(fā)現,InfiniBand技術已經從2005年的30席增長到了今天的142席,增長率超

10、過了25%。而且,采用專有互連技術的超級計算機正在不斷減少。商品化網絡商品化網絡-以太網絡以太網絡I/O性能瓶頸性能瓶頸 高性能網絡如InfiniBand的性能進步,使得PCI總線成為限制性能的瓶頸,PCI-X過渡為PCI-E,基本解決了這一問題; 基于共享總線結構的PCI架構具有局限性,需要面向高端的I/O方案:InfiniBand,Infiniband可能會徹底取代PCI局部總線結構,要實現這個取代,其前提是InfiniBand邏輯電路集成到芯片一級,也就是將南橋換成帶有HCA (Host Channel Adapters)的I/O橋接器件; 分布式存儲多處理器系統,程序和數據一般都是集中

11、存放,各進程執(zhí)行時需要傳輸程序和應用數據到處理器本地內存; NFS文件系統在數據傳輸上,類似于C/S結構,各個計算節(jié)點都從I/O節(jié)點傳輸數據,鏈路單一,性能瓶頸;存儲系統存儲系統-共享存儲共享存儲1、FC 4GB光纖鏈路2、4Gb磁盤FC接口3、并行I/O文件系統4、最大支持224塊物理磁盤5、支持1024LUN6、IOPS=280000Linpacku Linpack現在在國際上已經成為最流行的用于測試高性能計算機系統浮點性能的benchmark。通過利用高性能計算機,用高斯消元法求解一元N次稠密線性代數方程組的測試,評價高性能計算機的浮點性能。u Linpack測試包括三類,Linpack

12、100、Linpack1000和HPL。u Linpack100求解規(guī)模為100階的稠密線性代數方程組,它只允許采用編譯優(yōu)化選項進行優(yōu)化,不得更改代碼,甚至代碼中的注釋也不得修改。u Linpack1000要求求解規(guī)模為1000階的線性代數方程組,達到指定的精度要求,可以在不改變計算量的前提下做算法和代碼上做優(yōu)化。u HPL即High Performance Linpack,也叫高度并行計算基準測試,它對數組大小N沒有限制,求解問題的規(guī)模可以改變,除基本算法(計算量)不可改變外,可以采用其它任何優(yōu)化方法。u 理論浮點峰值CPU主頻CPU每個時鐘周期執(zhí)行浮點運算的次數系統中CPU數目 ,實測浮點

13、峰值是指Linpack測試值,也就是說在這臺機器上運行Linpack測試程序,通過各種調優(yōu)方法得到的最優(yōu)的測試結果。HPL測試中的主要參數測試中的主要參數 Rpeak:系統的理論峰值性能,按GFLOPS表示 Nmax: 給出達到最高GFLOPS值時的問題規(guī)模(矩陣規(guī)模) Rmax: 在Nmax問題規(guī)模下,達到的最大峰值 NB: 矩陣分塊大小,與高速緩存大小相關。一般在32到256之間中國高性能計算機中國高性能計算機TOP100排行榜排行榜u刀片產品占據絕對優(yōu)勢,漸成主流u采用開放系統已成為高性能計算的發(fā)展趨勢 1.1 并行計算機基礎知識 1.2 并行計算機系統架構 1.3 機群系統目錄1.2.

14、1 實現并行的手段實現并行的手段指令級并行指令級并行 從CPU內部挖掘并行性 提高主頻,增加核心數量 提高IPC(每個時鐘周期完成的指令數目) 提高CPU主頻和增加核心雙核、多核處理器 指令級并行導致處理器內的功能部件增多,系統復雜,導致晶體管數目增加,功耗和發(fā)熱帶來問題,且會受到物理極限的天花板作用多處理器(多計算機)并行多處理器(多計算機)并行 多處理器并行主要得益于微處理器的發(fā)展; 多處理器并行是構造強大系統的必由之路; 多處理器指在同一塊主板上通過主板總線實現并行。 多計算機并行,指在多臺計算節(jié)點上通過網絡實現并行。向量計算向量計算 向量處理器,采用向量流水部件,特別適合向量運算; 曾

15、經風靡一時; 設計困難,成本高,應用領域狹窄,向量技術被其他新興的技術所掩蓋; 地球模擬器的影響給向量處理技術帶來了新的一絲希望。1.2.2 并行計算機系統架構并行計算機系統架構對稱多處理機系統對稱多處理機系統(SMP)SMP 對稱式共享存儲:任意處理器可直接訪問任意內存地址,且訪問延遲、帶寬、機率都是等價的; 系統是對稱的; 微處理器: 一般少于64個; 處理器不能太多, 總線和交叉開關的一旦作成難于擴展; 例子: IBM R50, SGI Power Challenge, SUN Enterprise, 分布式共享存儲系統分布式共享存儲系統(DSM)DSM分布共享存儲: 內存模塊物理上局部

16、于各個處理器內部,但邏輯上(用戶)是共享存儲的; 這種結構也稱為基于Cache目錄的非一致內存訪問(CC-NUMA)結構;局部與遠程內存訪問的延遲和帶寬不一致,3-10倍高性能并行程序設計注意;與SMP的主要區(qū)別:DSM在物理上有分布在各個節(jié)點的局部內存從而形成一個共享的存儲器;微處理器: 16-128個;代表: SGI Origin 2000, Cray T3D;大規(guī)模并行計算機系統大規(guī)模并行計算機系統(MPP)MPP物理和邏輯上均是分布內存能擴展至成百上千個處理器(微處理器或向量處理器)采用高通信帶寬和低延遲的互聯網絡 (專門設計和定制的)一種異步的MIMD機器;程序系由多個進程組成,每個

17、都有其私有地址空間,進程間采用傳遞消息相互作用;代表:CRAY T3E(2048), ASCI Red(3072), IBM SP2機群系統機群系統(Cluster)Cluster 每個節(jié)點都是一個完整的計算機 各個節(jié)點通過高性能網絡相互連接 網絡接口和I/O總線松耦合連接 每個節(jié)點有完整的操作系統 曙光2000、 3000、4000, ASCI Blue Mountain 1.1 并行計算機基礎知識 1.2 并行計算機系統架構 1.3 機群系統 1.4 高性能計算發(fā)展趨勢目錄什么是機群系統什么是機群系統 機群系統(Cluster)利用標準網絡將一臺臺普通服務器或者PC機連接起來,為使用者提供

18、更高的計算能力和存儲能力并為使用者提供單一系統映象的系統。 單一系統映象使用者在使用機群系統的時候感覺上就象使用一個單獨的計算機系統一樣。單一系統映象實現方法:硬件層、操作系統層、軟件層機群系統的優(yōu)勢機群系統的優(yōu)勢極高的性價比大型機的主流良好的可擴展性更高的可管理性更低的使用維護成本更好的可使用性更好的系統魯棒性更多的應用支持機群使用越來越廣泛應用領域越來越多機群系統的應用領域機群系統的應用領域數學基因信息氣象預報生物物理石油勘探信息服務汽車制造船舶制造2010高性能計算機架構分布高性能計算機架構分布機群系統的應用分類機群系統的應用分類高性能計算機群高性能計算機群 應用于高性能計算領域; 整合

19、多個計算單元的并行計算性能; 注重整體性能的發(fā)揮; 目前成為高性能計算機的主體架構;高性能計算機群系統架構高性能計算機群系統架構節(jié)點機采用曙光天闊系列機架式服務器節(jié)點機采用曙光天闊系列機架式服務器 I系列和系列和A系統系統I系統采用Intel Xeon處理器A系列采用AMD Opteron處理器 2路、路、4路、路、8路、路、16路產品路產品 1U、2U、5U、12U . 計算節(jié)點計算節(jié)點 IO節(jié)點節(jié)點 管理節(jié)點管理節(jié)點 登入節(jié)點登入節(jié)點 . 如何選擇節(jié)點機如何選擇節(jié)點機?網絡和存儲網絡和存儲 網絡網絡 計算網 管理網 數據傳輸網 百兆以太網 千兆以太網 Myrinet Infiniband

20、存儲存儲 存儲產品 存儲結構 文件系統 SCSI SATA FC SAS DAS NAS SAN IPSAN NFS DCFS2 Lustre如何選擇?如何選擇?高性能機群層次架構高性能機群層次架構應用層機群操作系統層(DCOS)系統軟件層(OS, 編譯器)硬件層(節(jié)點, 網絡等)高性能機群的硬件構成高性能機群的硬件構成l 機柜(含供電電源);l 節(jié)點機(計算節(jié)點,登陸節(jié)點, I/O節(jié)點,監(jiān)控節(jié)點);l 互連網絡,每種網絡連接機群的全部或部分節(jié)點: 管理網(百兆以太網); 數據網(千兆以太網); 計算網(Infiniband等); 監(jiān)控網(監(jiān)控系統網絡); KVM網(SKVM系統); 存儲網(

21、SAN存儲網絡);l 存儲系統:盤陣或SAN存儲;高性能機群軟件系統高性能機群軟件系統石油領域:Geoeast、paradigm、cgg、omega、VSS物理化學:VASP、Gaussian材料化學:Materials Studio環(huán)保領域:MM5、Grapes、WRF結構力學:ABAQUS、NASTRAN性能評估:LINPACK、HPCC、NPB等等流體力學:fluent、CFX、Star_CD分子動力學:NAMD、GROWMACS、AMBER生物計算:BLAST、FASTA、MEME并行文件系統和數據庫:DCFS2、PVFS2、Lustre、Oracle RAC機群管理和監(jiān)控系統:DCO

22、S、DCMMII、Rocks、OSCAR曙光機群操作系統曙光機群操作系統(DCOS) 曙光機群管理系統曙光機群管理系統(DCMS) 曙光機群監(jiān)控系統曙光機群監(jiān)控系統(DCMM) 曙光機群部署系統曙光機群部署系統(DCIS) 曙光并行命令系統曙光并行命令系統(MTerm)曙光機群并行文件系統曙光機群并行文件系統DCFS2DCFS2(Dawning Cluster File Serving/SystemDawning Cluster File Serving/System)是曙光公司自主研發(fā)的第二)是曙光公司自主研發(fā)的第二代并行文件系統代并行文件系統 全局文件系統,提供單一系統映象與節(jié)點上的本地文件系統完全兼容支持大規(guī)模機群系統能夠提供很高的元數據處理性能可靠性好,具有快速故障恢復功能并行環(huán)境、開發(fā)環(huán)境、高性能數學庫并行環(huán)境、開發(fā)環(huán)境、高性能數學庫 并行環(huán)境并行環(huán)境 消息傳遞:MPI、PVM 共享存儲:OpenMP 開放環(huán)境開放環(huán)境 編譯器 調試器 性能分析器 高性能數學庫高性能數學庫 ACML APL MKL IPP 其他專業(yè)數學庫 1.1 并行計算機基礎知識 1.2 并行計算機系統架構 1.3 機群系統 1.4 高性能計算發(fā)展趨勢目錄低功耗設計和管理技術越來越重要基于Linpack對Top500和典型高性能計算機的發(fā)展趨勢進行外推,在2015-2018年左右,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論