大學(xué)高性能運算方案建議書_第1頁
大學(xué)高性能運算方案建議書_第2頁
大學(xué)高性能運算方案建議書_第3頁
大學(xué)高性能運算方案建議書_第4頁
大學(xué)高性能運算方案建議書_第5頁
已閱讀5頁,還剩70頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

Ni

xxx大學(xué)高性能運算方案建議書

XXX大學(xué)高性能運算方案建議書

ProposalInsert文檔說明

本文內(nèi)容來源于IBM提供給某個實際客戶的方案建議書的部分章節(jié),經(jīng)SalesTransaction

HubPCoETeam整理為可重復(fù)利用的方案建議書插件,供IBM內(nèi)部人員使用。

版本方案提供計劃更新

方案整理聯(lián)系方式完成日期名稱

號與確認日期

ChangJie

XuKeJin-HaoChangJXXX大學(xué)高性能運算方

1.0Hao/China/2010/9/302011/9/30

GCGPCoEie案建議書

IBM

描述:隨著“211工程”建設(shè)的進?步深入,各高等院校教育信息化形成-定規(guī)模,教育形

式和學(xué)習(xí)方式都發(fā)生了前大變革。為了應(yīng)對H益擴大的教育資源需求和滿足高校對學(xué)科研究的強

大計算需求,國內(nèi)許多高校紛紛建立了高性能計算系統(tǒng)平臺。

本文從高校的實際需求出發(fā),為用戶設(shè)計了HPC解決方案:選用IBMiDataPlex服務(wù)器集群

方案搭建高性能計算中心平臺。詳細介紹了方案設(shè)計思路、方案構(gòu)成、特性及優(yōu)勢。

國際商業(yè)機器(中國)有限公司文檔說明

XXX大學(xué)高性能運算方案建議書

請刪除此介紹性頁面

怎樣使用這些模板

模板中有[紅色字體]顯示的“提示文字”。請您確保在仔細通讀本文檔說明后再刪除這些內(nèi)容。

[藍色字體]的章節(jié)標(biāo)題用于幫助您組織文檔。

■更新頂端藍色的標(biāo)題以反映項目或RFP標(biāo)題。

-雙擊“頁眉或頁腳”>轉(zhuǎn)至“頁眉和頁腳”編輯狀態(tài)。

-要更新頁眉或頁腳中的文本,請選中要替換的文本,然后輸入正確的內(nèi)容。

-關(guān)閉頁眉和頁腳

■參照“提示"-您會發(fā)現(xiàn)在有些頁面中均有紅色的提示,它們將幫助您設(shè)計每個章節(jié)的內(nèi)

容。

■當(dāng)提案完成后,請更新目錄(TOC)中的頁碼和章節(jié)名:

-右鍵單擊“目錄”頁>“更新域”〉更新整個目錄。

-這樣便可更新章節(jié)標(biāo)題和頁碼。

重要提示:請刪除所有介紹性頁面、指示信息、未使用的圖表和紅色的“提示”內(nèi)容。查看整個

文檔,以確保您沒有無意中遺留無關(guān)的信息。仔細檢查目錄,以確保頁碼、章節(jié)標(biāo)題和副標(biāo)題正

確無誤。

國際商業(yè)機器(中國)有限公司文檔說明

XXX大學(xué)高性能運算方案建議書

目錄

第1章摘要.............................................................1

1.1我們對您的目標(biāo)的理解.........................................................1

1.2我們?nèi)绾螏湍鷮崿F(xiàn)目標(biāo).........................................................2

1.1.1方案建設(shè)思路............................................................2

1.1.2方案產(chǎn)品選擇要點........................................................2

1.3方案簡述.....................................................................3

第2章方案介紹........................................................5

2.1方案構(gòu)成組件..................................................................5

2.2方案結(jié)構(gòu)圖....................................................................6

2.3PC集群方案網(wǎng)絡(luò)設(shè)計..........................................................7

2.3.1硬件管理網(wǎng)絡(luò).............................................................8

2.3.2軟件分發(fā)網(wǎng)絡(luò).............................................................8

2.3.3數(shù)據(jù)管理網(wǎng)絡(luò).............................................................8

2.3.4高速計算網(wǎng)絡(luò).............................................................8

IBM4036高性能交換機簡介................................................9

23.4.2UFM管理軟件...........................................................12

UFM核心特點...........................................................13

23.4.4UFM網(wǎng)絡(luò)狀況發(fā)現(xiàn)與控制.................................................13

網(wǎng)絡(luò)拓撲結(jié)構(gòu)自動發(fā)現(xiàn),網(wǎng)絡(luò)瓶頸實時顯示.................................14

國際商業(yè)機器(中國)有限公司目錄

t?

XXX大學(xué)高性能運算方案建議書

23.4.6網(wǎng)絡(luò)分區(qū)優(yōu)化與路由通訊優(yōu)化...........................................15

全網(wǎng)絡(luò)通訊日志收集與保存..............................................16

UFM支持的InfiniBand網(wǎng)絡(luò)設(shè)備以及主機平臺..............................17

2.3.5顯示切換系統(tǒng)(KVM)......................................................................................................17

2.4PC集群之軟件環(huán)境............................................................18

2.4.1集群管理軟件CSM/xCAT簡介............................................19

2.4.2IBM并行文件系統(tǒng)(GPFS)方案介紹.........................................21

2.4.3系統(tǒng)管理方案設(shè)計與實現(xiàn)介紹(IBMSystemsDirector)..................................................26

IBMSystemsDirector發(fā)現(xiàn)和資產(chǎn)管理器....................................26

IBMSystemsDirector狀態(tài)管理器和自動任務(wù)................................29

IBMSystemsDirector配置管理器..........................................34

IBMSystemsDirector虛擬化管理器........................................38

IBMSystemsDirector更新管理器..........................................43

IBMSystemsDirector的擴展插件..........................................47

2.5存儲系統(tǒng)方案建議............................................................50

2.6胖節(jié)點系統(tǒng)方案建議..........................................................51

2.7計算節(jié)點....................................................................53

2.8管理節(jié)點/登錄節(jié)點/調(diào)度節(jié)點和I/O節(jié)點........................................54

第3章IBM解決方案特點和優(yōu)勢..........................................55

3.1IBM【DATAPLEX集群技術(shù)的特點有優(yōu)勢.........................................55

3.2IBM綠色解決方案優(yōu)勢........................................................57

國際商業(yè)機器(中國)有限公司目錄

t?

XXX大學(xué)高性能運算方案建議書

3.3IBM智能系統(tǒng)管理優(yōu)勢........................................................61

3.4IBM豐富的系統(tǒng)管理工具......................................................62

第4章項目實施........................................................64

第5章產(chǎn)品配置及報價..................................................65

第6章為什么選擇IBM....................................................................................................66

6.1IBM豐富的高性能計算方面的經(jīng)驗.............................................66

6.2IBMPOWERSYSTEM高性能計算技術(shù)發(fā)展前景....................................66

國際商業(yè)機器(中國)有限公司目錄

XXX大學(xué)高性能運算方案建議書

第1章摘要

1.1我們對您的目標(biāo)的理解

為落實科教興國戰(zhàn)略、迎接世界新技術(shù)革命的挑戰(zhàn)而實施的“211工程”是我國推進高等教育

發(fā)展所采取的重要舉措,這項旃世紀的戰(zhàn)略工程目前已進入第三期建設(shè)階段。要實施科教興國,

就必須加強科技創(chuàng)新和教育創(chuàng)新。隨著信息技術(shù)的S速發(fā)展和“211工程”建設(shè)的進步深入,各

高等院校教育信息化形成一定規(guī)模,教育形式和學(xué)習(xí)方式都發(fā)生了重大變革。

目前,為了應(yīng)對日益擴大的教育資源需求和滿足高校對學(xué)科研究的強大計算需求,國內(nèi)許多

高校紛紛建立了高性能計算系統(tǒng)平臺。這樣,一方面可以滿足院校自身在科研、學(xué)科以及重要課

題研究等方面的計算資源需求,另一方面將能夠進一步擴大院校的科研水平和研究能力,提升院

校在教育行業(yè)的影響力和行業(yè)競爭力。

XXX大學(xué)……請補充實際客戶的具體需求

我們認為,新一代的高性能計算中心不應(yīng)該僅僅是提供傳統(tǒng)的高性能計算,更不是一個單純

的高性能計算設(shè)備方案。建設(shè)新一代的高性能計算中心,除了要考慮軟硬件設(shè)備選型,更需要全

面考慮中心運作、應(yīng)用效率、技術(shù)合作與創(chuàng)新等多方面因素;需要增加資源管理,用戶管理,虛

擬化管理,動態(tài)產(chǎn)生和回收資源等功能,即基于云計算模型的高性能計算中心。從而實現(xiàn)總體架

構(gòu)的合理性和資源管理的高效性,提供長遠的高性能運算科研和供應(yīng)能力,確保高性能計算中心

能夠發(fā)揮更大的效益。

我們理解您需要一個運行穩(wěn)定、技術(shù)先進、性能優(yōu)異、易于擴充和管理的高性能計算環(huán)境來

滿足計算需求。因此,所搭建的計算平臺應(yīng)該具備如下特性:

>先進性:計算平臺不僅能夠滿足高性能計算中心目前業(yè)務(wù)的需要,還能適應(yīng)未來技術(shù)發(fā)

展的趨勢和需要。

>靈活性:優(yōu)化系統(tǒng)資源配置比例,實現(xiàn)最大的應(yīng)用靈活性,滿足在解決大問題的同時運

行多個中小型任務(wù)的綜合需求。

>可擴展性:在設(shè)計上充分考慮到可擴展性需求,提供具有最高可伸縮性的系統(tǒng),并保護

現(xiàn)有的投資。

>穩(wěn)定性:能夠確保系統(tǒng)穩(wěn)定、高效、持續(xù)運營,支持全天24小時的連續(xù)運行需求。

國際商業(yè)機器(中國)有限公司第1頁

z-H謊運廳方案建議15

>開放性:采用開放標(biāo)準、開放結(jié)構(gòu)、開放系統(tǒng)組件和開放用戶接口。充分滿足用戶投資

保護和業(yè)務(wù)擴展、系統(tǒng)維護等方面的需求。

>高管理性:對所有計算機系統(tǒng)資源集中進行統(tǒng)?監(jiān)控與管理,建立統(tǒng)一高效的資源管理

系統(tǒng),高效率、反應(yīng)靈敏的技術(shù)服務(wù)機制,標(biāo)準化、自動化的管理流程,達到提供優(yōu)質(zhì)

的資源管理服務(wù),更好的為中心的業(yè)務(wù)發(fā)展服務(wù)。

>高能效:采用綠色節(jié)能設(shè)備和技術(shù),使系統(tǒng)在保障正常運行的情況下消耗較少的能源。

1.2我們?nèi)绾螏湍鷮崿F(xiàn)目標(biāo)

1.1.1方案建設(shè)思路

基于對您的目標(biāo)和需求的理解,我們推薦采用以下建設(shè)思路:

?應(yīng)用為先:根據(jù)調(diào)研結(jié)果和應(yīng)用的需求來選擇最合適的軟硬件平臺,讓應(yīng)用決定平臺,

而不是由平臺限制應(yīng)用。

依據(jù)高性能計算中心的服務(wù)內(nèi)容、最終用戶的應(yīng)用需求,我們的方案將確保其跨硬

件平臺、跨操作系統(tǒng)平臺,能夠滿足各種應(yīng)用的不同需求。

?創(chuàng)新為體:高性能計算技術(shù)發(fā)展日新月異,在架構(gòu)設(shè)計時,應(yīng)充分考慮技術(shù)發(fā)展趨勢,

采用先進的產(chǎn)品和創(chuàng)新的思路,最大化利用現(xiàn)有投入,并考慮到今后擴展的需求。

基于對高性能計算中心的平臺建設(shè)目標(biāo)的理解,我們認為本次高性能計算中心的建

設(shè),絕不僅僅是一個高性能設(shè)備的建設(shè),而是一個多功能、多應(yīng)用、多客戶的服務(wù)

平臺,所以我們采用了目前最先進的高性能計算技術(shù)架構(gòu)來滿足中心的建設(shè)需求。

?效率為要:不僅僅以峰值運算能力或單一的Linpack測試指標(biāo)作為設(shè)備選型的依據(jù),而

是充分考慮總體架構(gòu)的合理性和資源管理等要素,實現(xiàn)一個高效率計算(High

ProductivityComputing)的平臺。

在多用戶、多應(yīng)用的使用場景下,我們不單單要考慮到整體設(shè)備的高性能,還需要

考慮到系統(tǒng)在使用過程中,如何通過虛擬化、資源共享、自動化等手段來協(xié)調(diào)整個

計算平臺的計算資源利用,提高整體利用率,實現(xiàn)一個綠色、高效的計算環(huán)境。

1.1.2方案產(chǎn)品選擇要點

■選用盡可能高性能的處理器作為計算資源的基礎(chǔ)

國際商'業(yè)機器(中國)有限公司第2頁

XXX大學(xué)高性能運算方案建議書

高性能處理器是縮短任務(wù)完成周期的必要條件,尤其是當(dāng)前很多計算任務(wù)由于程序本身擴展

性和數(shù)據(jù)規(guī)模的限制還不能做到在大量處理器上高效率地并行運算,所以高性能處理器往往是唯

一能夠真正縮短作業(yè)運行時間的技術(shù)手段。即便是能夠在較大數(shù)量處理器上運行的應(yīng)用,在100

個高性能處理器和在100個低性能處理器上的運行效率也是不可同日而語的。

■選擇提供更高能效的設(shè)備

根據(jù)IBM多年高性能計算中心建設(shè)和運行的經(jīng)驗,在大型高性能計算機中心的運行中,能源

消耗將是最大的開銷,因此我們不僅在方案中推薦選用功耗較低的硬件設(shè)備,而且配置先進的管

理工具來合理的監(jiān)視和控制設(shè)備的使用情況,例如監(jiān)測CPU的溫度狀況,動態(tài)控制風(fēng)扇轉(zhuǎn)速以減

少所需要的能量,從而降低能源的消耗。

■選擇具有更高散熱效率的設(shè)備

由于刀片服務(wù)器等高密度設(shè)備的部署,加上本高性能計算機系統(tǒng)的規(guī)模巨大,僅依靠空調(diào)制

冷的傳統(tǒng)方式容易導(dǎo)致機房“局部過熱”,產(chǎn)生熱點或熱區(qū),影響設(shè)備的正常運行和使用。因此

要著重考慮如何解決數(shù)據(jù)中心散熱問題。

IBMiDataPlex服務(wù)器和機箱能夠憑借高能效的設(shè)計將能源要求最多降低40%k其次,可選

的水冷IBMRearDoorHeateXchanger安裝在機柜后端,能夠?qū)C柜內(nèi)部生成的熱量100%散

掉,令數(shù)據(jù)中心絲毫不受影響。事實上,它甚至能夠幫助冷卻數(shù)據(jù)中心,從而降低對計算機房空

調(diào)量(CRAC)的需求,還允許您進一步拉近機柜之間的距離,切實避免了在一排滿配機柜之間建立

“熱通道”的需求。

iDataPlex服務(wù)器的設(shè)計使空氣從前到后全程只需穿行18英寸,而不是企業(yè)級服務(wù)器的30英

寸。路徑的縮短源于iDataPlex服務(wù)器超高的冷卻效力一距離越短、氣流效果越好。

1.3方案簡述

IBMiDataPlex提供了更高的計算密度、更高效的數(shù)據(jù)中心空間利用以及更加可控制的電源和

散熱成本,最適合于高性能計算及Web2.0應(yīng)用。

40臺iDataPlex2U的兩路6核心iDataPlex可提供每秒大約10萬億次的浮點計算能力,能夠

滿足各種用戶和應(yīng)用的計算需求。同時,配置IBMSystemStorageDS3500磁盤存儲來存放相關(guān)的

數(shù)據(jù);配置通用并行文件系統(tǒng)GPFS,以便將數(shù)據(jù)共享給用戶使用。另外,為了解決數(shù)據(jù)中心高熱

密度問題,我們建議采用IBM創(chuàng)新的后門熱交換器(水冷門),提高散熱效率、降低能源消耗,

達到節(jié)省電力成本的目的。水冷門安裝于機柜后門處,既不占用機房地板空間,對機房層高也無

額外要求。

國際商業(yè)機器(中國)有限公司第3頁

XXX大學(xué)高性能運算方案建議書

根據(jù)招標(biāo)文件要求的各項技術(shù)指標(biāo),我們建議選用IBMiDataPlex服務(wù)器集群方案搭建高性能

計算中心平臺。

國際商業(yè)機器(中國)有限公司第4頁

\\\大學(xué)X。件能運莫方案化議15

第2章方案介紹

2.1方案構(gòu)成組件

如前所述,我們建議選用IBMiDataPlex服務(wù)器集群方案搭建高性能計算中心平臺。鑒于PC

服務(wù)器芯片技術(shù)飛速發(fā)展,我們提供的iDataPlex集群系統(tǒng)的方案,充分考慮了未來的發(fā)展?fàn)顩r,

為將來系統(tǒng)的完善和擴充留有足夠的接口。

配置80臺主頻為2.93GHZ的IBMDX360M3雙路刀片服務(wù)器為計算節(jié)點,其峰值處理能力大

于10萬億次。本方案建議的iDataPlex集群系統(tǒng)中主要包含以下組成部分:

,硬件主要組成:

名稱組成數(shù)量

計算節(jié)點iDataPlexdx360M3server80

42U標(biāo)準機柜IBM42UEnterpriseRack4

管理節(jié)點/登錄節(jié)點/調(diào)度節(jié)點x3650M34

存儲節(jié)點(I/O節(jié)點)x3650M36+2

核心Infiniband交換機IBMOEMInfiniBand交換機40366

千兆以太網(wǎng)交換機滿足整個集群系統(tǒng)需要1

>軟件主要組成:

功能組成配置簡要說明

操作系統(tǒng)滿足應(yīng)用需要的Linux版本集群操作系統(tǒng)

集群管理系統(tǒng)CSM/xCAT集群管理系統(tǒng),集群上/下電,軟件安裝等

集群硬件監(jiān)控管IBMDirector硬件狀態(tài)監(jiān)控,信息收集

理系統(tǒng)

并行文件系統(tǒng)IBMGPFS集群并行文件系統(tǒng),完成用戶應(yīng)用數(shù)據(jù)交換,存

儲。

作業(yè)調(diào)度系統(tǒng)MOAB用戶作業(yè)調(diào)度系統(tǒng),包括用戶作業(yè)排隊,掛起,

查詢,斷點等功能

并行環(huán)境MPICH提供MPI并行庫

編譯環(huán)境Gnu或商用的C/C++及提供C/C++和Fortran語言的編譯

Fortran編譯器

國際商業(yè)機器(中國)有限公司第5頁

XXX大學(xué)高性能運算方案建議書

2.2方案結(jié)構(gòu)圖

刀片計算集群

80臺IDataPIx

(OPFS并行文件系統(tǒng)X3650M3)

6臺4XQDR40GBInfiniBand交換機

高性能運算拓撲結(jié)構(gòu)圖

IWIVCW*

?-?M>??*?(MMM)

機柜放置示意圖

國際商業(yè)機器(中國)有限公司笫6頁

XXX大學(xué)高性能運算方案建議書

2.3PC集群方案網(wǎng)絡(luò)設(shè)計

本方案共配置如下5套網(wǎng)絡(luò):

>Infiniband網(wǎng)絡(luò)交換系統(tǒng),作為計算網(wǎng)絡(luò);

>硬件管理網(wǎng)絡(luò)(AMM);

>軟件管理分發(fā)網(wǎng)絡(luò)(Softwarenetwork);

,數(shù)據(jù)管理網(wǎng)絡(luò)(Datanetwork);

>顯示切換系統(tǒng)(KVM);

網(wǎng)絡(luò)配置簡表

功能組成配置簡要功能說明數(shù)量

計算網(wǎng)絡(luò)Infiniband交換系統(tǒng)■計算網(wǎng)絡(luò)1

■6*36端口■數(shù)據(jù)傳輸網(wǎng)絡(luò)

Infinband交換機

硬件管理網(wǎng)絡(luò)以太網(wǎng)絡(luò)交換系統(tǒng)■PC服務(wù)器管理網(wǎng)絡(luò)1

■連接所有的刀片中心管理模塊

?連接所有服務(wù)器(含管理、登錄、

I/O節(jié)點)

軟件分發(fā)管理網(wǎng)絡(luò)/以太網(wǎng)絡(luò)交換系統(tǒng)■集群管理網(wǎng)絡(luò)通道/GPFS數(shù)據(jù)管理1

數(shù)據(jù)管理網(wǎng)絡(luò)網(wǎng)絡(luò)通道

■連接到刀片中心的以太網(wǎng)絡(luò)模塊

■連接所有服務(wù)器

顯示切換系統(tǒng)IBMACT顯示切換系統(tǒng)?連接所有服務(wù)器,刀片中心的顯1

(KVM)(KVM)示,鍵盤和鼠標(biāo)。

國際商業(yè)機器(中國)有限公司第7頁

XXX大學(xué)高性能運算方案建議書

卜表是集群硬件系統(tǒng)網(wǎng)絡(luò)連接的詳細說明:

各PC服務(wù)器與網(wǎng)絡(luò)的關(guān)系表

軟件分發(fā)管

服晶ZKVMInfiniband硬件管理網(wǎng)絡(luò)數(shù)據(jù)管理網(wǎng)絡(luò)

理網(wǎng)絡(luò)

管理節(jié)點連接——連接連接連接

登錄節(jié)點連接—連接連接連接

存儲節(jié)點連接連接連接連接連接

計算節(jié)點連接連接連接連接連接

2.3.1硬件管理網(wǎng)絡(luò)

為了實現(xiàn)刀片服務(wù)器的管理,刀片中心的管理模塊通過AMM網(wǎng)絡(luò)互聯(lián)(iDataPlex節(jié)點,有一

個管理以太網(wǎng)口)。

2.3.2軟件分發(fā)網(wǎng)絡(luò)

軟件的分發(fā)和管理通過軟件管理分發(fā)網(wǎng)絡(luò)實現(xiàn),在本方案中,軟件分發(fā)通過以太網(wǎng)絡(luò)進行。

2.3.3數(shù)據(jù)管理網(wǎng)絡(luò)

通過千兆以太網(wǎng),配合以IBM管理軟件實現(xiàn)。

2.3.4高速計算網(wǎng)絡(luò)

為了實現(xiàn)并行計算的高速數(shù)據(jù)交換,采用Infiniband網(wǎng)絡(luò)互聯(lián)所有的計算節(jié)點和I/O節(jié)點,本

方案共配置6臺36端口infiniband交換機做為核心交換系統(tǒng),如下圖所示:

國際商業(yè)機器(中國)有限公司第8頁

XXX大學(xué)高性能運算方案建議書

IBMiDataPlex-80ServersInfiniBand架構(gòu)匡

IDataPtx80甘:

8臺凱架式管理、

I/O巧目*

6臺外置具有瞥

理功燒加惴口

InfhUBand文操

機?

-Voltaire

2036364X

QDRPORTS

INHRNALLY

8臺ITO*務(wù)等MANAGED.

DUALPS-24

FRU

4XODR40GBIB線貨

8條4XQDR40GBIB線纜

IBM4036高性能交換機簡介

IBMOEMVoltaire4036交換機為高性能計算集群和網(wǎng)格提供了水平空前的性能和擴展性。

Voltaire4036能使高性能應(yīng)用運行在分布式的服務(wù)器、存儲和網(wǎng)絡(luò)資源上。對單個機箱中的36

個節(jié)點精心設(shè)計了10/20/40Gb自適應(yīng)全雙向帶寬,多臺Voltaire4036以及配合Voltaire更大

的交換機ISR2004/ISR2012/ISR4700也

可以互聯(lián)組成更大規(guī)模的集群。能夠配

置的節(jié)點范圍從十兒個到兒千個,優(yōu)良

的擴展性能使你能隨所需節(jié)點。

無與倫比的的性能

Voltaire4036以最大的交換容量在InfiniBand業(yè)界處于領(lǐng)先地位。每個端口提供全雙向帶

寬。Voltaire4036支持36個InfiniBandQDR端口,單向速率達到40Gb/s,雙向速率達到

80Gb/s?線速無阻塞交換能力結(jié)合小于100納秒的低延時使Voltaire4036成為可用的性能最高

的交換機。

大型集群和網(wǎng)格成本效益高的解決方案

國際商業(yè)機器(中國)有限公司笫9頁

XXX大學(xué)高性能運算方案建議書

巨大的交換容量,使用臺或兒分即可組建大型集群,顯著地降低集群的總成本。Voltaire

4036的完整的組網(wǎng)能力和與存儲設(shè)備的連通性使得組網(wǎng)需要較少的設(shè)備,因此使集群的組建變得

簡。

全面的管理

Voltaire4036內(nèi)置了硬件設(shè)備管理軟件以及SM子網(wǎng)管理器,提供了全面的和強大的管理能

力。管理軟件安裝在交換機上,不依賴任何外部管理軟件即可訪問管理軟件??梢蕴峁┱麄€網(wǎng)絡(luò)

的診斷、路由算法設(shè)定及調(diào)整、通訊流量監(jiān)控等功能。

高可用性

為了達到最高的可用性,Voltaire4036絕大多數(shù)部件都是可熱插拔的。電源模塊以及風(fēng)扇都

為系統(tǒng)提供了高可用性和易服務(wù)性。

國際商業(yè)機器(中國)有限公司第10頁

XXX大學(xué)高性能運算方案建議書

VoltaireGridDirector4036

可安裝于19”機架的機箱,高1U。

-數(shù)據(jù)吞吐量:2880Gbps(QDR),1440Gbps(DDR)

-端口到端口延遲:100納秒(最大值)

交換機技術(shù)規(guī)

-數(shù)據(jù)虛擬通道:8

-管理虛擬通道:1

-MTU:4096Bytes(最大值)

-36個QDR端口或36個4XDDR端口。

InfiniBand-互連選項:銅纜和/或光纖,支持介質(zhì)轉(zhuǎn)換器。

4X/12X-指示器:每端口的物理連通和邏輯連通LED指示燈,電源指示燈和信息指

主機連接模塊示燈

-所有端口都位于后面板上。

嵌入的管理套件包括:

-SM子網(wǎng)管理,機箱和設(shè)備管理。

-符合InfiniBand1.2標(biāo)準

管理模塊支持的管理協(xié)議:SNMPv2c,Telnet,SSH,HTTP,FTP,IBTA,

SMI/GSI

-連接器:RS232DB9-M,I2CDB9-F

指示器:電源,子網(wǎng)管理器活動,機箱管理器活動,信息和熱插拔LED指

示器。

-連接器:EIA/TIA-232ConsoleDB-9,10/100EthernetRJ45

后部控制模塊

-管理/設(shè)備reset按鈕

1個或2個廠內(nèi)已安裝的電源模塊

供電需求

電源輸入:100-240VAC,50/60HZ自動感知

可安裝在19”機架上

-尺寸(高x寬x深):1.69in.(43mm)x16.93in.(430mm)x15.7

in.(400mm)

物理尺寸

-使用選項的支腳可安全的堆置

可選擇前面或后面安裝于機架

重量:171b(7.7Kg),包括機架安裝件

工作

環(huán)境要求-環(huán)境溫度:32oF-113oF(OoC-45oC)

-濕度:15%-80%,無凝結(jié)

國際商業(yè)機器(中國)有限公司第11頁

XXX大學(xué)高性能運算方案建議書

-海拔高度:0-9843ft(3000m)

儲存

-環(huán)境溫度:T3oF-158oF(-25oC-70oC)

-濕度:5%-90%,無凝結(jié)

-海拔高度:0-15000ft(4570m)

安全

-UL60950

-CBIEC60950

-CSA-C22.2No.60950-00

認證

電磁兼容

-47CFRFCCpart15

-EN55022:98/EN55024:98/EN61000-3-2:00/EN61000-3-3:95

-VCCI

2.3.4.ZUFM管理軟件

隨著科學(xué)計算在眾多領(lǐng)域的普及與發(fā)展,高性能計算系統(tǒng)正在被廣泛應(yīng)用于科研、制造、勘

探、氣象、金融、電信等諸多領(lǐng)域,CPU以及內(nèi)存技術(shù)的不斷進步使得計算機個體的計算能力大

大提高,由此也帶來了并行計算系統(tǒng)環(huán)境中交換網(wǎng)絡(luò)通訊帶寬、延遲以及優(yōu)化管理的諸多迫切需

求。InfiniBand技術(shù)在10余年的發(fā)展過程中歷經(jīng)起伏,憑借其低延遲、高帶寬、開放架構(gòu)的多種

國際商業(yè)機器(中國)有限公司第12頁

\\\人中/件能運W方案建議「

優(yōu)勢逐步被用戶所接受并廣泛使用。在大規(guī)模集群系統(tǒng)的部署與管理過程中,對于InfiniBand網(wǎng)絡(luò)

的監(jiān)控與優(yōu)化的需求變得日益迫切。

針對廣大用戶的需求并結(jié)合Voltaire在InfiniBand領(lǐng)域多年來的技術(shù)沉淀于積累,Voltaire在

2009年7月正式發(fā)布了面向InfiniBand網(wǎng)絡(luò)的統(tǒng)一管理軟件一UnifiedFabricManager,Voltaire

UnifiedFabricManager(UFM)是-一個功能強大的網(wǎng)絡(luò)管理平臺,在針對Scale-Out(橫向擴展)架

構(gòu)的集群計算環(huán)境中,借助VoltaireUFM管理軟件,InfiniBand網(wǎng)絡(luò)不再是個神秘的黑盒子,整個

網(wǎng)絡(luò)的監(jiān)控與管理將變得透明化、系統(tǒng)化。

UFM核心特點

?以應(yīng)用軟件為中心的網(wǎng)絡(luò)管理;

?無限可擴展性提供對應(yīng)用軟件、數(shù)據(jù)庫以及存儲系統(tǒng)的無縫支持;

?直觀的展現(xiàn)網(wǎng)絡(luò)交通以及設(shè)備運行狀況,確保用戶清晰并深度掌握網(wǎng)絡(luò)工作狀況;

?先進的網(wǎng)絡(luò)阻塞狀況發(fā)現(xiàn)與分析優(yōu)化處理功能;

?基于應(yīng)用軟件工作流以及網(wǎng)絡(luò)拓撲結(jié)構(gòu)的通訊路由優(yōu)化功能;

?可設(shè)定與調(diào)節(jié)的故障預(yù)警機制,使用戶對網(wǎng)絡(luò)通訊狀況了如指掌;

?提供網(wǎng)絡(luò)分區(qū)以及多服務(wù)等級的分區(qū)功能,方便用戶設(shè)定與調(diào)整;

?提供在一個共享的網(wǎng)絡(luò)中實現(xiàn)多個基于應(yīng)用軟件的獨立通訊區(qū)域設(shè)定;

?集中化的InfiniBand網(wǎng)絡(luò)設(shè)備管理使得大型網(wǎng)絡(luò)中設(shè)備管理更為便捷:

?安全可靠的HA架構(gòu)設(shè)計確保UFM管理系統(tǒng)的高可用性:

?提供API接口,方便用戶將UFM管理納入現(xiàn)有的綜合管理系統(tǒng)中。

23.4.4UFM網(wǎng)絡(luò)狀況發(fā)現(xiàn)與控制

UFM集成了先進的網(wǎng)絡(luò)監(jiān)控引擎,對InfiniBand網(wǎng)絡(luò)交換機以及連接到InfiniBand網(wǎng)絡(luò)的主

機提供實時的監(jiān)控。

UFM提供了一個可自行設(shè)定的公告牌界面,可以提供網(wǎng)絡(luò)健康狀況以及主機CPU、內(nèi)存、磁

盤等資源的使用狀況,通過公告牌界面,我們可以方便的看到服務(wù)器中網(wǎng)絡(luò)通訊帶寬開銷最大的

ToplO(數(shù)量可以自行設(shè)定),網(wǎng)絡(luò)中阻塞最多的ToplO,網(wǎng)絡(luò)中故障報警的實時列表,網(wǎng)絡(luò)中阻

塞問題的熱點出現(xiàn)在哪里等等。

國際商業(yè)機器(中國)有限公司第13頁

XXX大學(xué)高性能運算方案建議書

網(wǎng)絡(luò)拓撲結(jié)構(gòu)自動發(fā)現(xiàn),網(wǎng)絡(luò)瓶頸實時顯示

UFM能夠自動監(jiān)測網(wǎng)絡(luò)拓撲結(jié)構(gòu)并自動繪制出相應(yīng)的拓撲結(jié)構(gòu)圖,同時,通過實時的通訊鏈

路監(jiān)控,UFM能夠自動發(fā)現(xiàn)網(wǎng)路擁塞的熱點區(qū)域并通過圖表方式顯示給用戶,此功能可以幫助用

戶精確的定位網(wǎng)絡(luò)通訊的阻塞狀況,為下一步性能優(yōu)化提供參考數(shù)據(jù)。

CongestionMap

國際商業(yè)機器(中國)有限公司第14頁

t?

XXX大學(xué)高性能運算方案建議書

網(wǎng)絡(luò)分區(qū)優(yōu)化與路由通訊優(yōu)化

UFM提供先進的網(wǎng)絡(luò)通訊優(yōu)化功能,針對不同需求的計算群組(低延遲、高帶寬等等)可以

創(chuàng)建相應(yīng)的邏輯計算機資源組,在同一個組內(nèi)的計算節(jié)點之間通訊會自動根據(jù)所設(shè)定的網(wǎng)絡(luò)需求

類型進行優(yōu)化,確保網(wǎng)絡(luò)通訊能夠分層進行,大大提高網(wǎng)絡(luò)通訊效率;

HighThroughput

LowLatency

Network

Network

SL1(LowPriorityVL)

SLO(HighPriorityVL)

LowLatency

Application

(eg.MPI)

同時,UFM還提供了獨有的TrafficOptimizedRouting(TOR)路由算法,經(jīng)過優(yōu)化后,網(wǎng)絡(luò)中

的阻塞熱點會自動被均衡再分配,大大降低網(wǎng)絡(luò)帶寬資源爭搶所造成的整體計算效率下降的問

題。

國際商業(yè)機器(中國)有限公司第15頁

XXX大學(xué)高性能運算方案建議書

CongestionMapCongestionMap

Mn

■Avg

■Max

Mn

■Avg

■MDX

4中11T1.21Ti.3握中4

——fMlf—■?國

全網(wǎng)絡(luò)通訊日志收集與保存

UFM會自動收集并保存整個網(wǎng)絡(luò)(包括交換機端、計算節(jié)點I/O節(jié)點端)的通訊II志,為系

統(tǒng)通訊狀況分析以及故障排查提供強有力的資源支持。

國際商業(yè)機器(中國)有限公司第16頁

XXX大學(xué)高性能運算方案建議書

Search6rven*tagflte

2.348UFM支持的InfiniBand網(wǎng)絡(luò)設(shè)備以及主機平臺

UFM支持的硬件交換機平分:

/VoltaireISR9024系列

VoltaireISR2004/2012系列

/Voltaire2036/4036系列

/Voltaire4700系列

VoltaireUFM支持的主機平臺:

/Redhat5.1/5.2/5.3

/Centos5.1/5.2/5.3

/Windows

2.3.5顯示切換系統(tǒng)(KVM)

國際商業(yè)機器(中國)有限公司第17頁

t?

2大學(xué)而性能也算方案建議書

IBM先進連接技術(shù)(ACT),采用小巧、靈活的CAT5線纜代替龐大、笨重的KVM線纜,可

以極大地簡化集群系統(tǒng)的安裝,同時減少線纜數(shù)量,提高系統(tǒng)可靠性。CAT5轉(zhuǎn)換選件可以饋入到

用于本地管理(LCM)的便宜的CAT5控制臺交換機或面向大型配置或遠程管理的遠程控制臺管理

(RCM),并和傳統(tǒng)產(chǎn)品向后兼容,提供無限的可擴展性,通過級聯(lián)能夠支持多達2048臺服務(wù)器端

口連接。如下圖所示:

2.4PC集群之軟件環(huán)境

本方案中,操作系統(tǒng)選擇適合應(yīng)用的Linux,集群管理軟件選擇CSM/xCAT,作業(yè)調(diào)度軟件

選擇IBMLoadLeveler或LSF或者MOAB,并行文件系統(tǒng)選擇IBMGPFS,硬件監(jiān)控管理選擇

IBMDirector,編譯環(huán)境推薦采用Intel編譯環(huán)境,這些軟件在集群中的邏輯關(guān)系,見下圖。

國際商業(yè)機器(中國)有限公司第18頁

XXX大學(xué)高性能運算方案建議書

下面詳細介紹這些軟件和實現(xiàn)方式。

2.4.1集群管理軟件CSM/xCAT簡介

本系統(tǒng)集群管理軟件采用CSM/xCAT完成集群管理功能,本方案建議主管理節(jié)點作為

CSM/xCAT的管理節(jié)點,安裝CSM/xCAT服務(wù)器端軟件,CSM/xCAT服務(wù)器端軟件通過AMM網(wǎng)

絡(luò)和刀片中心的管理模塊通訊,得到刀片的狀態(tài)信息,抓去部署操作系統(tǒng)的刀片網(wǎng)卡MAC地址等

功能,通過軟件分發(fā)網(wǎng)絡(luò),與存儲節(jié)點和登陸節(jié)點通訊進行硬件管理;CSM/xCAT管理操作,可

以通過軟件分發(fā)網(wǎng)絡(luò),與計算節(jié)點,存儲節(jié)點,登陸節(jié)點通訊。副管理節(jié)點做為主管理節(jié)點的備

份。CSM/xCAT工作邏輯如下圖所示:

國際商業(yè)機器(中國)有限公司第19頁

t?

XXX大學(xué)高性能運算方案建議書

CSM/XCAT

Managenodeprlm?r>

Chimistnswitch,onelink

‘RackedserverloNwitch

||CSM/xCATClient

IICSM/xCATSvrvui

IBM提供的跨平臺集群系統(tǒng)管理軟件CSM,允許通過一個單點控制和管理整個集群系統(tǒng)。它

來源于IBM多年來的PSSP技術(shù),可以實現(xiàn)集群的組成,管理和控制。CSM軟件是一個客戶/服務(wù)

器模式的集群軟件。在服務(wù)節(jié)點上安裝CSMServer,在所有計算節(jié)點、I/O節(jié)點和登錄節(jié)點上安裝

CSMClient,經(jīng)過配置即可構(gòu)成集群?通過CSM可以完成節(jié)點軟件遠程安裝和更新、集群內(nèi)所有

節(jié)點運行狀態(tài)的持續(xù)監(jiān)控、節(jié)點故障偵測和自動響應(yīng)、文件的單點修改和分發(fā)或同步、節(jié)點上電/

關(guān)機/重啟動等功能。CSM的管理界面已經(jīng)與smit和WSM集成,管理員可以通過字符或圖形方式

使用CSM管理整個集群。

CSM同時支持運行Linux的IBMxSeries服務(wù)器和運行AIX的IBMpSeries服務(wù)器,為系統(tǒng)今

后擴展打下了良好基礎(chǔ)。

e326withBMCprocessor

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論