




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、HPC網(wǎng)絡(luò)解決方案服務(wù)器的討論會耦合在網(wǎng)絡(luò)部分文檔目標(biāo)技術(shù)目標(biāo)技術(shù)目標(biāo) 闡述HPC網(wǎng)絡(luò)的架構(gòu) 各個功能區(qū)的分析應(yīng)用需求分析可選的網(wǎng)絡(luò)優(yōu)化措施Cisco產(chǎn)品選擇以及原因 計算節(jié)點子系統(tǒng) 存儲以及并行文件子系統(tǒng) 管理節(jié)點子系統(tǒng) 高頻交易類系統(tǒng) 聽眾目標(biāo)聽眾目標(biāo) 了解HPC網(wǎng)絡(luò)的應(yīng)用需求 了解Cisco拋棄infiniband的原因 了解Cisco在HPC網(wǎng)絡(luò)中的創(chuàng)新技術(shù) 和 解決方案 Solution應(yīng)用模板示范感謝!感謝!多位同事、專家的鼎力相助多位同事、專家的鼎力相助Shengli HouXu LuJun XieSteve YangWang JinGuoLing ZhangStarry Wu以
2、及以及其它其它HPC單位人員的幫助單位人員的幫助如如 RedHat / 氣象局氣象局 的專家的專家HPC網(wǎng)絡(luò)架構(gòu)網(wǎng)絡(luò)架構(gòu)簡述簡述HPC網(wǎng)絡(luò)架構(gòu)綜述計算節(jié)點計算網(wǎng)絡(luò)存儲網(wǎng)文件系統(tǒng)管理網(wǎng)計算節(jié)點特性計算網(wǎng)特性存儲網(wǎng)特性并行文件系統(tǒng)存儲節(jié)點特性管理網(wǎng)特性管理節(jié)點特性傳統(tǒng)HPC網(wǎng)絡(luò)設(shè)計Brief計算節(jié)點I/O 節(jié)節(jié)點點存儲: 磁盤前言前言.傳統(tǒng)傳統(tǒng)HPC 網(wǎng)絡(luò)架構(gòu)綜述網(wǎng)絡(luò)架構(gòu)綜述傳統(tǒng)的HPC網(wǎng)絡(luò)設(shè)計示意圖:多個網(wǎng)絡(luò)多個網(wǎng)絡(luò) for 不同的流量不同的流量 ! 存儲網(wǎng)SAN 或者 NAS以SAN 居多I/OI/O節(jié)點:節(jié)點:快速讀取磁盤快速讀取磁盤對計算節(jié)點提供并發(fā)文件存儲服務(wù)對計算節(jié)點提供并發(fā)文件存儲服
3、務(wù) 如果對存儲性能有要求,就一定會用SAN。 (NAS的性能很差I(lǐng)/O 網(wǎng)以前有Infiniband 或者GE 兩種方案;I/OI/O網(wǎng)的主要作用是為網(wǎng)的主要作用是為“并行文件系統(tǒng)并行文件系統(tǒng)”提供網(wǎng)絡(luò)通提供網(wǎng)絡(luò)通道道 帶寬敏感帶寬敏感+ +部分功能區(qū)時延敏感部分功能區(qū)時延敏感 計算通訊網(wǎng) - IPC以前是Infiniband或GE現(xiàn)在也有用10GE的Inter-Process Communication (IPC) Inter-Process Communication (IPC) 提供計算節(jié)點之間的通訊提供計算節(jié)點之間的通訊 絕對時延敏感絕對時延敏感 管理網(wǎng) 可以單建,也有可能和IPC 或
4、者I/O網(wǎng) 復(fù)用管理網(wǎng)的主要作用是管理網(wǎng)的主要作用是: :提供提供各各節(jié)點監(jiān)控、節(jié)點監(jiān)控、ImageImage分發(fā)等分發(fā)等等等流量不會太大流量不會太大前言前言.傳統(tǒng)傳統(tǒng)HPC網(wǎng)絡(luò)邏輯示意網(wǎng)絡(luò)邏輯示意SAN 網(wǎng)絡(luò)網(wǎng)絡(luò)I/O 節(jié)點節(jié)點MDS服務(wù)器服務(wù)器類似Master目錄服務(wù)器并行文件系統(tǒng)Master 節(jié)點節(jié)點用戶終端用戶終端不在不在重點重點討論范圍討論范圍IPC 網(wǎng)絡(luò)網(wǎng)絡(luò)計算節(jié)點計算節(jié)點用戶終端接入連接用戶終端接入連接User 接入連接的主要任務(wù): Job initiation 典型情況下是 SSH / Telnet / Bproc 等控制方式 觀測實時的任務(wù)結(jié)果 可能是圖形化的結(jié)果p 圖形化的
5、結(jié)果:一般情況下會從一臺若干臺特定的服務(wù)器上獲取。p 圖形的傳送一般GE帶寬 就夠了。 有時會被用作 Inter-Cluster (GRID) 的通訊 這種情況下需要參考IPC網(wǎng)絡(luò)的設(shè)計; 需要考慮: 安全 和 QOS 一般情況下User只會和Master Node通訊由Master Node 來管理其它節(jié)點通常用戶接入用GE & TCP/IP 足夠.UserMaster NodeHPC網(wǎng)絡(luò)架構(gòu)簡述:計算系統(tǒng)網(wǎng)絡(luò)架構(gòu)簡述:計算系統(tǒng)HPC網(wǎng)絡(luò)架構(gòu)綜述計算節(jié)點計算網(wǎng)絡(luò)存儲網(wǎng)文件系統(tǒng)管理網(wǎng)計算節(jié)點特性計算網(wǎng)特性存儲網(wǎng)特性并行文件系統(tǒng)存儲節(jié)點特性管理網(wǎng)特性管理節(jié)點特性傳統(tǒng)HPC網(wǎng)絡(luò)設(shè)計Brie
6、f1.1計算網(wǎng)絡(luò)特性簡析計算網(wǎng)絡(luò)特性簡析-AHPC 計算網(wǎng)絡(luò):主要負(fù)責(zé)計算網(wǎng)絡(luò):主要負(fù)責(zé)Process之間的通訊之間的通訊 松耦合 & 緊耦合 = 指Process之間的交互頻度某些特別的松耦合應(yīng)用甚至在Process之間沒有交互流量,這些用戶是對網(wǎng)絡(luò)不敏感的我們關(guān)心的是瓶頸在我們關(guān)心的是瓶頸在I/O上的上的HPC應(yīng)用場景應(yīng)用場景 包括帶寬包括帶寬&Latency如果如果HPC應(yīng)用是絕對的本地計算應(yīng)用是絕對的本地計算 那么重點在那么重點在CPU/Core/GPU/Memory速度速度&大小大小 首要考慮如何提高I/O傳輸時延 = Latencyp I/O Latency
7、 Process 就能越快地擺脫 等待的狀態(tài),CPU 利用率p 最直接的證明就是多CPU inter-connect 的超級計算機(jī)系統(tǒng)p 某些HPC應(yīng)用甚至?xí)肕ulticast 來同步數(shù)據(jù) L2 Multicast Latencyp Latency 會從/協(xié)議棧協(xié)議棧 /網(wǎng)卡網(wǎng)卡-IO /線路線路 /設(shè)備轉(zhuǎn)發(fā)設(shè)備轉(zhuǎn)發(fā) /拓?fù)渫負(fù)?/擁塞的擁塞的Queue 等多處引入 低延遲網(wǎng)絡(luò)方案有 Infiniband 或 10GE w Low Latency 或者 RDMA over Converged Ethernet (RoCE) 可選 必須是必須是DCB 的網(wǎng)絡(luò)的網(wǎng)絡(luò),才能支持 RoCE 1.1計
8、算網(wǎng)絡(luò)特性簡析計算網(wǎng)絡(luò)特性簡析-BHPC 計算網(wǎng)絡(luò)計算網(wǎng)絡(luò),其它:其它: 安全控制對故障Server的隔離,防止干擾整個L2域 : 廣播抑制、Loop防止、Flapping 網(wǎng)絡(luò)要求HA 對”實時實時HPC”應(yīng)用非常重要 流量統(tǒng)計和分析 QoS: 在多個網(wǎng)絡(luò)復(fù)用情況下的QoS (管理網(wǎng)復(fù)用; 個人不建議和I/O網(wǎng)復(fù)用,除非是松耦合)對關(guān)鍵流量的QoS 優(yōu)化 如果采用Socket Ethernetp 應(yīng)用流量模型是否允許采用不丟包的Ethernet技術(shù) p ToE 網(wǎng)卡的重要性 個人認(rèn)為必備 組播技術(shù)的用法 目前只在某些特定的HPC應(yīng)用系統(tǒng)中作為重點使用。10Gb Ethernet vs IB
9、HPC 領(lǐng)域領(lǐng)域Initiator SpeedTarget SpeedData ThrougputPer I/O NodeGigabit EthernetGigabit Ethernet112-118MBpsGigabit Ethernet10 Gigabit Ethernet325-350MBps10 Gigabit Ethernet10 Gigabit Ethernet700-1100MBpsIB SDR - IPoIBIB SDR - IPoIB350-375MBpsIB SDR IPoIBCM (ofed 1.2)IB SDR IPoIB (ofed 1.2)525-575MBpsIB
10、 SDR SDPIB SDR - SDP590-625MBpsIB DDR IPoIBIB DDR IPoIB350-375MBpsIB DDR IPoIBCM (ofed 1.2)IB DDR IPoIB (ofed 1.2)525-700MBpsIB DDR SDPIB DDR SDP920-1150MBpsSockets APIMPITCPSDPOFED 1.2MPIOFED 1.2IPIPoIBGE10 GE10 GE with ToESDR IBDDR IBSDR IBDDR IB10GLLEMVAPICHOMPILatency (us)35.325.89.020.314.310.0
11、8.83.823.293.32Bandwidth MB/s118121412195607278961033122013541351CPU9%25%25%23%26%27%28%25%25%25%比較的情況比較的情況 MPI編程接口p以太網(wǎng)卡用10G w RDMA 時效果相當(dāng)p編程用Sockets or MPI (各占50%, I/O敏感會選MPI)IPoIB 和10GE 比較無明顯優(yōu)勢 TCP Offload Engine (ToE) 必備p降低網(wǎng)絡(luò)時延p降低CPU利用率p解放PCI-E總線(小突發(fā)效率低)p注: TOE 有很多 Sub-FeatureSDP-IB vs 10GE w ToE
12、無任何優(yōu)勢交換機(jī)的低延遲 = DCE(DCB) SwitchTCP 協(xié)議棧的普適和靈活結(jié)論結(jié)論: 10GE w ToE 在非在非MPI 編程的環(huán)境中有明顯編程的環(huán)境中有明顯優(yōu)勢;優(yōu)勢;10GE w RDMA 在在MPI 環(huán)境中和環(huán)境中和IB 接近接近IB (2.5Gbps為單位為單位, x1 x4, x12 倍速倍速; 8B/10B編碼編碼)一般用一般用x4, 所以所以SDR/DDR等價以太網(wǎng)帶寬是等價以太網(wǎng)帶寬是 8G/16GServer背靠背背靠背要表達(dá)為消耗了多少HZ 的CPU才有意義 最差的情況是1bit耗用1HZ/Core的CPURoCE (RDMA Over Converged E
13、thernet)Source: Mellanox Corp.OFA Verbs InterfaceIBTransportProtocolNetwork LayerInfiniBand Link LayerInfiniBandOFA* StackInfinBand ManagementRDMA Application / ULPRDMAPDDPIPSCTPMPATCPEthernet Link LayeriWARPEthernetManagementRoCEEthernet Link LayerEthernetManagementIBTransportProtocolNetwork LayerI
14、/O Stack 比較比較Source: Mellanox Corp.Applications / OS ServicesSocketsSCSIFCP/FCTCPIPDCB EthernetFCoERoCEOFA RDMA VerbsiWARPiSCSISDPMPIRDS Single Chip 10 watts Available from major vendors Emulex RoCE NIC Qlogic iWARP NIC Intel iWARP Chelsio iWARP Cisco DCE/DCB switch Broadcom RoCE NIC Mellanox RoCE N
15、IC Brocade DCB Switch2nd CNAsMPI (MVAPICH2) Performance RoCE vs IB/performance/interNode.shtmlMVAPICH2 IB-DDRMVAPICH2 Ipath-DDRRoCEone-sided put latency micro-second micro-second3.353.357.657.654.834.83one-sided get latency (4Bytes) micro-second micro-second6.266.2612
16、.9112.9111.1311.13one-sided put bandwidth Million Bytes/secMillion Bytes/sec164116411950195011421142one-sided get bandwidth Million Bytes/secMillion Bytes/sec165116511333133311421142put bidirectional bandwidth Million Bytes/secMillion Bytes/sec298529853286328622842284在這個性能評測的結(jié)構(gòu)中,我們可以發(fā)現(xiàn)10GE RoCE 和Inf
17、iniband HCA 在“延遲”這個技術(shù)指標(biāo)上已經(jīng)非常接近了。所以除非是有很大的帶寬需求,否則所以除非是有很大的帶寬需求,否則RoCE完全可完全可以替代以替代Infiniband了。了。RoCE : RDMA over Ethernet. 最新的最新的Ethernet HPC 技術(shù),有取代技術(shù),有取代 iWARP 的趨勢。的趨勢。明確表示明確表示RoCE 需要網(wǎng)絡(luò)支持需要網(wǎng)絡(luò)支持DCB & lossless Ethernethttp:/ advances in lossless Ethernet (DCB) for an efficient RDMA over Ethernet Lo
18、west latency of 1.3 microseconds on lossless Ethernet RDMA Transport offload with zero copy for low CPU utilization Ethernet vs IB HPC 領(lǐng)域領(lǐng)域 市場份額市場份額45.6%42.8%Top 500 統(tǒng)計情況統(tǒng)計情況IB 生態(tài)環(huán)境!生態(tài)環(huán)境!1.2計算節(jié)點計算節(jié)點-AHPC 計算節(jié)點主要考慮節(jié)點內(nèi)的計算能力計算節(jié)點主要考慮節(jié)點內(nèi)的計算能力 將盡可能多的將盡可能多的Process/Core放在一個放在一個Server內(nèi)內(nèi)Core之間的交互可以走更高速的share L
19、2 cache,最差也是FSBMemoryCPU之間的交互可以通過Memory(DRAM) 有硬件Arbitor 4*CPU 的一般都是SMP,更復(fù)雜的還有NUMA/MPP方式.延遲更低、帶寬更高、不占外部延遲更低、帶寬更高、不占外部I/O;明顯明顯Core數(shù)量多,會有多個優(yōu)勢數(shù)量多,會有多個優(yōu)勢目前來看CPU-Memory 的帶寬不是瓶頸單一Server 能支持的Core/CPU 數(shù)量一般一個PC Server, 4個CPU是SMP 架構(gòu)下性能較好的數(shù)量單一Server內(nèi),需考慮操作系統(tǒng)對Core/CPU數(shù)量的支持能力;一般Core & Process 是一個量級的;出于性能考慮甚至
20、可以per Process per Core.1.2計算節(jié)點計算節(jié)點-BHPC 計算節(jié)點的其它考慮計算節(jié)點的其它考慮 內(nèi)存的I/O速度 某些應(yīng)用也會需要計算節(jié)點支持大內(nèi)存; 應(yīng)用算法會有明確的需求; 個人接觸到的: 最大16G/Process; 最小1G/Process; 本地存儲: SSD 是趨勢嗎是趨勢嗎 = 除非采用本地預(yù)讀取的方案;除非采用本地預(yù)讀取的方案; 網(wǎng)卡 Infiniband HCA: SDR、DDR、QDR = 一般用DDR (x4) GE - 管理接口(RDMA over Ethernet: 在MPI環(huán)境中,降低延遲、實現(xiàn)基于Ethernet的RDMA; 可以認(rèn)為是Eth
21、ernet Infiniband.)(TCP offload Engine: 在IP環(huán)境中,對降低延遲、減少CPU開銷、提高PCI-E總線吞吐量非常關(guān)鍵. 在和I/O 節(jié)點的通訊時,尤其重要. ) 可靠性:p 由于主控節(jié)點會把故障機(jī)的任務(wù)Re-Schedule,所有有一定的容忍度p 但實際上非常不希望出問題 (影響時效性)HPC網(wǎng)絡(luò)架構(gòu)簡述網(wǎng)絡(luò)架構(gòu)簡述: 文件系統(tǒng)文件系統(tǒng)HPC網(wǎng)絡(luò)架構(gòu)綜述計算節(jié)點計算網(wǎng)絡(luò)存儲網(wǎng)文件系統(tǒng)管理網(wǎng)計算節(jié)點特性計算網(wǎng)特性存儲網(wǎng)特性并行文件系統(tǒng)I/O節(jié)點特性管理網(wǎng)特性管理節(jié)點特性傳統(tǒng)HPC網(wǎng)絡(luò)設(shè)計Brief2.1 并行文件系統(tǒng)并行文件系統(tǒng) I/O節(jié)點簡析節(jié)點簡析-AHP
22、C 是一種并行計算的方式,所以會有多個節(jié)點對同一個文件進(jìn)行是一種并行計算的方式,所以會有多個節(jié)點對同一個文件進(jìn)行操作,具備這種能力的文件系統(tǒng)操作,具備這種能力的文件系統(tǒng) 并行文件系統(tǒng)并行文件系統(tǒng) GFS 就是一種設(shè)計架構(gòu)非常高效的分布式并行文件系統(tǒng) 鑒于目前的HPC中不常用GFS,所以我們在此不以GFS 為分析對象并行文件系統(tǒng)有很多,我們以比較典型的Linux開源的Lustre文件系統(tǒng)來說明甚至部署 NFS 文件系統(tǒng)時的技術(shù)需求也可以參照Lustre 的要求來設(shè)計 HPC并行文件系統(tǒng)的思路由多臺I/O 節(jié)點機(jī) 來并發(fā)并發(fā)地對外提供存儲的讀寫單個文件可以進(jìn)行“條紋化條紋化”處理,分散到不同的I/
23、O節(jié)點上由主控機(jī)(一臺或者多臺)來控制多個對象對同一個文件的操作 “鎖” 所以客戶端訪問文件時,首先要從主控機(jī)那里拿到權(quán)限&IndexI/O 節(jié)點機(jī)可互相提供LUN 的A/S備份 2.1 并行文件系統(tǒng)并行文件系統(tǒng) I/O節(jié)點簡析節(jié)點簡析-B并行文件系統(tǒng)并行文件系統(tǒng) Lustre 各個功能節(jié)點需求分析各個功能節(jié)點需求分析p Meta Data Server(MDS) 相當(dāng)于Index服務(wù)器服務(wù)器 = 快速存儲快速存儲 讀寫讀寫= 12% file-system; 強(qiáng)勁的強(qiáng)勁的CPU 能力能力(最少最少4 core) 典型的典型的I/O讀寫速度敏感,而非流讀寫速度敏感,而非流量量。需要有大
24、內(nèi)存做。需要有大內(nèi)存做Cache 給給Client 提供提供Index; p MDS 目前支持雙機(jī)主備(將來甚至更多A/A),所以要求有SAN連接;讀寫的特點是大量小數(shù)據(jù)塊的隨機(jī)讀寫p Object Storage Server(OSS) 相當(dāng)于文件的存儲點,它的任務(wù)是把RAW-Disk變成Client能讀寫的文件。所以它一方面要求高速的外部磁盤讀寫大數(shù)據(jù)塊的讀寫為主,另一方面需要給文件系統(tǒng)的Client大吞吐量回應(yīng)。一般性一般性能要求較高的場合會用能要求較高的場合會用 HBA(SAN)后端后端 & 10GE/IB前端前端;簡單地說就是;簡單地說就是大帶寬的系統(tǒng)總線通道大帶寬的系統(tǒng)總線
25、通道 最少要最少要2倍倍理論理論/3.5倍倍實際實際于于NIC/HBA/HCAp OSS節(jié)點也需要部分Memory,用來做CacheRead-Only File-不同的HPC應(yīng)用的讀寫比例不一樣讀2寫8 或者讀8寫2,需根據(jù)實際情況配置 。 CPU 在NIC/HCA-RDMA &HBA 做Offload 的情況下不會高,反之則會有相當(dāng)消耗 尤其是用CPU來處理TCP時。Lustre 組網(wǎng)示意圖組網(wǎng)示意圖2.2 并行文件系統(tǒng)并行文件系統(tǒng) 前端網(wǎng)絡(luò)簡析前端網(wǎng)絡(luò)簡析 并行文件系統(tǒng)的并行文件系統(tǒng)的前端前端網(wǎng)絡(luò)需求網(wǎng)絡(luò)需求 并行文件系統(tǒng)(Lustre)網(wǎng)絡(luò)需求簡析p 支持IB 或 TCP/IP
26、實踐中以IP 略多.p 整個系統(tǒng)的絕大部分流量基本為南北向;即Client OSSp 系統(tǒng)對帶寬敏感,后端的磁盤陣列是I/O瓶頸的主要焦點p 信令流量的關(guān)鍵部分呈以MDS為核心的星形結(jié)構(gòu);p MDS 的響應(yīng)能力是整個系統(tǒng)的關(guān)鍵 并行文件系統(tǒng)(Lustre) 前端網(wǎng)絡(luò)構(gòu)建要點p 并行文件系統(tǒng)的信令流量特點是: 流量不大、但要求快速響應(yīng)快速響應(yīng) (低延遲低延遲);p 并行文件系統(tǒng)的數(shù)據(jù)流量特點是 持續(xù)大流量持續(xù)大流量+大包大包;p 所以非常有必要對信令流量做專門的優(yōu)化!所以非常有必要對信令流量做專門的優(yōu)化!2.3 存儲網(wǎng)絡(luò)存儲網(wǎng)絡(luò)(SAN)簡析簡析SAN網(wǎng)絡(luò)需求網(wǎng)絡(luò)需求 MDS的SAN網(wǎng)絡(luò)需求簡析
27、p 外部存儲容量不大,約為數(shù)據(jù)文件系統(tǒng)的12%p 要求有冗余 目前MDS工作在A/S模式.p 對外部存儲的優(yōu)化方案 以 小數(shù)據(jù)塊的隨機(jī)讀寫為主 FC or SAS & RAID 0+1p 單列的“日志記錄”存儲 提高性能 20%! OSS的SAN網(wǎng)絡(luò)構(gòu)建要點p 網(wǎng)絡(luò)規(guī)模大小取決與OSS的能力 每個OSS能帶多少個外部存儲 以及對總體存儲容量的需求.p 要求有冗余 OSS 工作在分區(qū)模式的A/A模式p 對外部存儲的優(yōu)化方案 以大數(shù)據(jù)塊的順序讀寫為主 RAID 5 or RAID 6 striping patternHPC網(wǎng)絡(luò)架構(gòu)簡述:管理網(wǎng)絡(luò)架構(gòu)簡述:管理系統(tǒng)系統(tǒng)HPC網(wǎng)絡(luò)架構(gòu)綜述計算節(jié)
28、點計算網(wǎng)絡(luò)存儲網(wǎng)文件系統(tǒng)管理網(wǎng)計算節(jié)點特性計算網(wǎng)特性存儲網(wǎng)特性并行文件系統(tǒng)I/O節(jié)點特性管理網(wǎng)特性管理節(jié)點特性傳統(tǒng)HPC網(wǎng)絡(luò)設(shè)計Brief3.1 管理節(jié)點簡析管理節(jié)點簡析 Master Node (管理節(jié)點管理節(jié)點) 功能Image 分發(fā)、任務(wù)分發(fā)、調(diào)度預(yù)處理、后處理Monitoring & Report管理平臺 需求Master Node 可以監(jiān)控包括SAN 在內(nèi)的所有節(jié)點 這意味著有可能是多塊NIC/HBAMaster Node 在做Post-Process 時,某些應(yīng)用的特殊需要:Memory & Fast I/O & CPU/Core & 較大的存儲 等
29、等;(HPC 軟件會有直接的要求)Master Node 一般會做A/S 冗余,要求Dual Power Supply Master Node 的故障會導(dǎo)致整個系統(tǒng)Down; 但一般計算節(jié)點會保存一個中間狀態(tài)。下次計算開始時,可以從中間狀態(tài)再開始的3.2 管理網(wǎng)簡析管理網(wǎng)簡析 管理網(wǎng)管理網(wǎng) 流量分析除了特定的情況如Image分發(fā)、Post-Process時有大文件的檢查和拼裝 ,平時的流量都不大。平時的Monitoring 都是小包;Monitoring & Report管理平臺對實時性要求不高 網(wǎng)絡(luò)需求在沒有特定需求的情況下,GE 足夠可以和計算網(wǎng)、I/O網(wǎng) 復(fù)用HPC網(wǎng)絡(luò)詳解:網(wǎng)絡(luò)
30、詳解:Cisco 的解決方案的解決方案深入分析計算節(jié)點計算節(jié)點+網(wǎng)絡(luò)子系統(tǒng)網(wǎng)絡(luò)子系統(tǒng)存儲&并行文件 網(wǎng)絡(luò)子系統(tǒng)管理網(wǎng)絡(luò)子系統(tǒng)1.數(shù)據(jù)流量分析2.網(wǎng)絡(luò)方案選擇4.Cisco產(chǎn)品的匹配和優(yōu)勢1.數(shù)據(jù)流量分析3.Server的考慮2.網(wǎng)絡(luò)方案選擇3.Server的考慮4.Cisco產(chǎn)品的匹配和優(yōu)勢1.數(shù)據(jù)流量分析3.Server的考慮2.網(wǎng)絡(luò)方案選擇4.Cisco產(chǎn)品的匹配和優(yōu)勢總結(jié)Overview思科總拼裝圖+思科有利的配置傳統(tǒng)設(shè)計vs新設(shè)計計算子系統(tǒng):數(shù)據(jù)流量分析計算子系統(tǒng):數(shù)據(jù)流量分析我們在此關(guān)心對“延遲 & 帶寬”敏感的HPC 應(yīng)用u延遲敏感延遲敏感 延遲的引入延遲的引入:p
31、協(xié)議棧協(xié)議棧 +多次內(nèi)存讀寫多次內(nèi)存讀寫 +NIC(SFP) +線路線路 +Switch Forwarding +拓?fù)渫負(fù)?Nodes) +CongestionMPIRoCEToEInfinibandEthernetRDMARoCE w DCB或或 iWARPS/D/QDR10/40/100GESFP+光光vs電電IB SwitchDCE 10/40GE100GE Switch減少層次減少層次減少層次減少層次Credit 機(jī)制機(jī)制Lossless-E& Credit&Buffer& 擁塞控制擁塞控制u帶寬的考慮帶寬的考慮:pCPU/Core Memory 系統(tǒng)總線系統(tǒng)總
32、線 NIC/HCA/HBA NIC/HCA/HBA 網(wǎng)絡(luò)網(wǎng)絡(luò)4/8 Core 不是問題不是問題 (L2 Cache)4路路CPU 以內(nèi)也不是問題以內(nèi)也不是問題FSB: Intel-QPI & AMD HTPCI-E x16有效帶寬約有效帶寬約40Gbps !如果做如果做加速比法則:有效帶寬在加速比法則:有效帶寬在40/3.5=12G左右左右網(wǎng)絡(luò)設(shè)計無阻塞網(wǎng)絡(luò)設(shè)計無阻塞計算子系統(tǒng):網(wǎng)絡(luò)模型推薦計算子系統(tǒng):網(wǎng)絡(luò)模型推薦 - 1計算節(jié)點96Nexus 5596 or 5548網(wǎng)絡(luò)層面延遲分析網(wǎng)絡(luò)層面延遲分析 1500字節(jié)字節(jié)L2 Unicast 2us - FIFOL2 Multicast
33、6us (RFC3918)L3 主要用來做南北向流量;不是計算流量;主要用來做南北向流量;不是計算流量;從從10GE NIC 出來開始計算出來開始計算(的幀的幀):網(wǎng)絡(luò)上的網(wǎng)絡(luò)上的Unicast Latency:10GE Link (1.2us)+2us(FIFO) = 3.2us 網(wǎng)絡(luò)上網(wǎng)絡(luò)上的的Multicast Latency:10GE Link (1.2us)+6us(FIFO) = 7.2us 一般的小型一般的小型GE以太網(wǎng)交換機(jī)轉(zhuǎn)發(fā)時延以太網(wǎng)交換機(jī)轉(zhuǎn)發(fā)時延LIFO在在7us(Unicast) & 9us(Multicast)所以,相對應(yīng)的所以,相對應(yīng)的網(wǎng)絡(luò)上的網(wǎng)絡(luò)上的 Un
34、icast latency: GE Link(12us)+7us+GE Link(12us) = 31us網(wǎng)絡(luò)上的網(wǎng)絡(luò)上的 Multicast latency:GE Link(12us)+9us+GE Link(12us) = 33usInfiniband 96 ports 帶帶Fabric 420ns / 36 ports以內(nèi)不帶以內(nèi)不帶Fabric 140ns (組播性能不明組播性能不明)SDR Unicast: SDR Link(1.5us) +0.14us + SDR Link(1.5us) = 3.14usDDR Unicast:DDR Link(0.75us) +0.14us +
35、SDR Link(0.75us) = 1.64usNote: N50 xx 的的L2 組播組播 沒有優(yōu)化過,性能不好沒有優(yōu)化過,性能不好IB 比比10GE 提高的這幾個提高的這幾個us 的時延的時延優(yōu)勢,最終反映到應(yīng)用層面是非優(yōu)勢,最終反映到應(yīng)用層面是非常微弱的。常微弱的。10GE/GE 大概能提高大概能提高30%50%據(jù)此簡單計算據(jù)此簡單計算 IB/10GE +1.5%左右左右計算子系統(tǒng):網(wǎng)絡(luò)模型推薦計算子系統(tǒng):網(wǎng)絡(luò)模型推薦 - 2計算節(jié)點352 或者512Nexus 7018 or 7010 w F1N7K w F1 延遲分析延遲分析-1500字節(jié)字節(jié)L2 Unicast 輕載輕載6us;
36、 重載時會上升到重載時會上升到9usL2 Multicast RoCE/ToE * 10GE 解決方案解決方案 (大、中、小大、中、小)N7018/N7010: 512/256 * 10GE Ports 全線速N5596/N5548: 96/48 * 10GE Ports 全線速DCE/DCB 低延遲,Lossless Ethernet 完美支持 RoCE/ToE 技術(shù)低延遲、可擴(kuò)展的硬件組播能力扁平化的、可擴(kuò)展的網(wǎng)絡(luò)拓?fù)浞桨副馄交?、可擴(kuò)展的網(wǎng)絡(luò)拓?fù)浞桨竼螌訂螌蛹軜?gòu)提供最多512個個10GE節(jié)點節(jié)點 w 低延遲 & 全線速雙層雙層架構(gòu)(Fabric Path) 提供 8192 個個1
37、0GE節(jié)點節(jié)點 w 低延遲 & 全線速在現(xiàn)有平臺平滑地向在現(xiàn)有平臺平滑地向40GE/100GE 過渡的技術(shù)方案過渡的技術(shù)方案專業(yè)的專業(yè)的QoS 技術(shù)提供流量優(yōu)化和網(wǎng)絡(luò)復(fù)用的手段技術(shù)提供流量優(yōu)化和網(wǎng)絡(luò)復(fù)用的手段高可靠的設(shè)備高可靠的設(shè)備 以及以及 良好的安全保護(hù)能力良好的安全保護(hù)能力Cisco UCS 統(tǒng)一計算平臺提供適合HPC 的服務(wù)器計算平臺?深入分析計算節(jié)點+網(wǎng)絡(luò)子系統(tǒng)存儲存儲&并行文并行文件件 網(wǎng)絡(luò)子系統(tǒng)網(wǎng)絡(luò)子系統(tǒng)管理網(wǎng)絡(luò)子系統(tǒng)1.數(shù)據(jù)流量分析2.網(wǎng)絡(luò)方案選擇4.Cisco產(chǎn)品的匹配和優(yōu)勢1.數(shù)據(jù)流量分析3.Server的考慮2.網(wǎng)絡(luò)方案選擇3.Server的考慮4.Cis
38、co產(chǎn)品的匹配和優(yōu)勢1.數(shù)據(jù)流量分析3.Server的考慮2.網(wǎng)絡(luò)方案選擇4.Cisco產(chǎn)品的匹配和優(yōu)勢總結(jié)Overview思科總拼裝圖+思科有利的配置傳統(tǒng)設(shè)計vs新設(shè)計信令數(shù)據(jù)流uMDS :p頻繁的信令交互 小包p要求快速的響應(yīng)uOSS :p持續(xù)的大流量數(shù)據(jù)包p根據(jù)前面的分析,根據(jù)前面的分析,PCI-E 服務(wù)器服務(wù)器 做做Transport 的時候,帶寬的時候,帶寬 最高也就最高也就11Gbps 左右;左右;p所以可以支持前端10GE & 后端8G FC HBA p網(wǎng)絡(luò)過載時,對Buffer敏感由于由于存儲的數(shù)據(jù)流量的特點是持續(xù)的大流量存儲的數(shù)據(jù)流量的特點是持續(xù)的大流量所以如何保證所
39、以如何保證信令流量不受數(shù)據(jù)流量的影響信令流量不受數(shù)據(jù)流量的影響OSSServerHBA 8GFCoE 10GE10GE NICuSAN :p標(biāo)準(zhǔn)的A/B 平面設(shè)計;p8G FC 或 條件允許的話條件允許的話10GE FCoE是優(yōu)選是優(yōu)選(FCoE可以獲得輕微的帶寬和延遲優(yōu)勢可以獲得輕微的帶寬和延遲優(yōu)勢);pIndex&日志 用RAID 0/1;Data用Raid 5/6MDS 的信令通道需要Switch 支持 QoS所以這里是比所以這里是比 IB 有優(yōu)勢的地方有優(yōu)勢的地方Switch QoS 比較簡單的做法是 根據(jù)Src/Dst MDS_IP_Addresses因為文件的讀寫 是一種持
40、續(xù)的大流量行為,所以不建議將它和計算網(wǎng)合并如果如果SAN 支持支持FCoE,倒是正好可以考慮和前,倒是正好可以考慮和前端端的網(wǎng)絡(luò)合并。的網(wǎng)絡(luò)合并。流量正好不沖突流量正好不沖突目前高密度的FCoE/Ethernet 要明年Q1 Ready小規(guī)模的情況下,N55xx 比較適合做這種融合的網(wǎng)絡(luò)Fabric Path 提供網(wǎng)絡(luò)矩陣提供網(wǎng)絡(luò)矩陣網(wǎng)絡(luò)的流量主要從網(wǎng)絡(luò)的流量主要從OSS Client 主要對帶寬敏感;主要對帶寬敏感;OSSOSS節(jié)點節(jié)點256256N7018N7018128*10GE128*10GEFabric Path16*8 10GE合計對合計對Client提供提供512個個10GE 接口接口SAN網(wǎng)絡(luò)網(wǎng)絡(luò)最好最好8G FC或者或者10G FCoEMDS10GE前端網(wǎng)絡(luò)前端網(wǎng)絡(luò)負(fù)責(zé)負(fù)責(zé)Client到到OSS節(jié)點節(jié)點Raid 5/6Raid 0/1OSSOSS節(jié)點節(jié)點48 8G/16G = 轉(zhuǎn)發(fā)有效轉(zhuǎn)發(fā)有效1212G G1G10G10G延遲1.643.5 1.643.5 微妙微妙33 微妙3.2/7.23.2/7.2微妙微妙組播有擴(kuò)展性問題(5001000個組,性能未知)-好,延遲低好,延遲低HA能力
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 山東滕州市八年級政治上冊 第1單元 讓愛駐我家 第2課 我們共有一個家教學(xué)實錄與檢測 魯教版
- 達(dá)州市通川區(qū)楊家溝煤業(yè)有限公司楊家溝煤礦礦山地質(zhì)環(huán)境保護(hù)與土地復(fù)墾方案情況
- 四川化工職業(yè)技術(shù)學(xué)院
- 肝膿腫護(hù)理相關(guān)知識
- 【人教PEP版英語四年級下冊】期中測試卷6
- 人教版小學(xué)四年級語文下冊2024-2025學(xué)年度第二學(xué)期第一單元質(zhì)量檢測試卷含參考答案
- 人教版小學(xué)四年級語文下冊2024-2025學(xué)年度第二學(xué)期第八單元質(zhì)量檢測試卷
- 第5單元 第14課 新年賀卡-綜合制作-教學(xué)設(shè)計2023-2024學(xué)年清華大學(xué)版(2012)初中信息技術(shù)八年級上冊001
- 網(wǎng)絡(luò)安全運(yùn)維專家簡歷
- 安徽省部分地市2024-2025學(xué)年高三下學(xué)期2月聯(lián)合考試物理試題(解析版)
- 混凝土抗壓強(qiáng)度統(tǒng)計評定表(自動計算-數(shù)理-非數(shù)理)
- 公司清潔生產(chǎn)的審核報告書
- 貨運(yùn)車輛交通安全講座教案
- 2024露天煤礦智能化建設(shè)與管理規(guī)范
- 中國成人患者腸外腸內(nèi)營養(yǎng)臨床應(yīng)用指南(2023版)
- 高速公路機(jī)械施工方案設(shè)計
- 學(xué)校桌椅采購?fù)稑?biāo)方案(技術(shù)方案)
- 乳腺結(jié)節(jié)健康宣教
- GA/T 2012-2023竊照專用器材鑒定技術(shù)規(guī)范
- 內(nèi)部控制及內(nèi)部審計
- 學(xué)前比較教育全套教學(xué)課件
評論
0/150
提交評論