




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
Ni
xxx大學(xué)高性能運算方案建議書
XXX大學(xué)高性能運算方案建議書
ProposalInsert文檔說明
本文內(nèi)容來源于IBM提供給某個實際客戶的方案建議書的部分章節(jié),經(jīng)SalesTransaction
HubPCoETeam整理為可重復(fù)利用的方案建議書插件,供IBM內(nèi)部人員使用。
版本方案提供計劃更新
方案整理聯(lián)系方式完成日期名稱
號與確認日期
ChangJie
XuKeJin-HaoChangJXXX大學(xué)高性能運算方
1.0Hao/China/2010/9/302011/9/30
GCGPCoEie案建議書
IBM
描述:隨著“211工程”建設(shè)的進?步深入,各高等院校教育信息化形成-定規(guī)模,教育形
式和學(xué)習(xí)方式都發(fā)生了前大變革。為了應(yīng)對H益擴大的教育資源需求和滿足高校對學(xué)科研究的強
大計算需求,國內(nèi)許多高校紛紛建立了高性能計算系統(tǒng)平臺。
本文從高校的實際需求出發(fā),為用戶設(shè)計了HPC解決方案:選用IBMiDataPlex服務(wù)器集群
方案搭建高性能計算中心平臺。詳細介紹了方案設(shè)計思路、方案構(gòu)成、特性及優(yōu)勢。
國際商業(yè)機器(中國)有限公司文檔說明
XXX大學(xué)高性能運算方案建議書
請刪除此介紹性頁面
怎樣使用這些模板
模板中有[紅色字體]顯示的“提示文字”。請您確保在仔細通讀本文檔說明后再刪除這些內(nèi)容。
[藍色字體]的章節(jié)標(biāo)題用于幫助您組織文檔。
■更新頂端藍色的標(biāo)題以反映項目或RFP標(biāo)題。
-雙擊“頁眉或頁腳”>轉(zhuǎn)至“頁眉和頁腳”編輯狀態(tài)。
-要更新頁眉或頁腳中的文本,請選中要替換的文本,然后輸入正確的內(nèi)容。
-關(guān)閉頁眉和頁腳
■參照“提示"-您會發(fā)現(xiàn)在有些頁面中均有紅色的提示,它們將幫助您設(shè)計每個章節(jié)的內(nèi)
容。
■當(dāng)提案完成后,請更新目錄(TOC)中的頁碼和章節(jié)名:
-右鍵單擊“目錄”頁>“更新域”〉更新整個目錄。
-這樣便可更新章節(jié)標(biāo)題和頁碼。
重要提示:請刪除所有介紹性頁面、指示信息、未使用的圖表和紅色的“提示”內(nèi)容。查看整個
文檔,以確保您沒有無意中遺留無關(guān)的信息。仔細檢查目錄,以確保頁碼、章節(jié)標(biāo)題和副標(biāo)題正
確無誤。
國際商業(yè)機器(中國)有限公司文檔說明
XXX大學(xué)高性能運算方案建議書
目錄
第1章摘要.............................................................1
1.1我們對您的目標(biāo)的理解.........................................................1
1.2我們?nèi)绾螏湍鷮崿F(xiàn)目標(biāo).........................................................2
1.1.1方案建設(shè)思路............................................................2
1.1.2方案產(chǎn)品選擇要點........................................................2
1.3方案簡述.....................................................................3
第2章方案介紹........................................................5
2.1方案構(gòu)成組件..................................................................5
2.2方案結(jié)構(gòu)圖....................................................................6
2.3PC集群方案網(wǎng)絡(luò)設(shè)計..........................................................7
2.3.1硬件管理網(wǎng)絡(luò).............................................................8
2.3.2軟件分發(fā)網(wǎng)絡(luò).............................................................8
2.3.3數(shù)據(jù)管理網(wǎng)絡(luò).............................................................8
2.3.4高速計算網(wǎng)絡(luò).............................................................8
IBM4036高性能交換機簡介................................................9
23.4.2UFM管理軟件...........................................................12
UFM核心特點...........................................................13
23.4.4UFM網(wǎng)絡(luò)狀況發(fā)現(xiàn)與控制.................................................13
網(wǎng)絡(luò)拓撲結(jié)構(gòu)自動發(fā)現(xiàn),網(wǎng)絡(luò)瓶頸實時顯示.................................14
國際商業(yè)機器(中國)有限公司目錄
t?
XXX大學(xué)高性能運算方案建議書
23.4.6網(wǎng)絡(luò)分區(qū)優(yōu)化與路由通訊優(yōu)化...........................................15
全網(wǎng)絡(luò)通訊日志收集與保存..............................................16
UFM支持的InfiniBand網(wǎng)絡(luò)設(shè)備以及主機平臺..............................17
2.3.5顯示切換系統(tǒng)(KVM)......................................................................................................17
2.4PC集群之軟件環(huán)境............................................................18
2.4.1集群管理軟件CSM/xCAT簡介............................................19
2.4.2IBM并行文件系統(tǒng)(GPFS)方案介紹.........................................21
2.4.3系統(tǒng)管理方案設(shè)計與實現(xiàn)介紹(IBMSystemsDirector)..................................................26
IBMSystemsDirector發(fā)現(xiàn)和資產(chǎn)管理器....................................26
IBMSystemsDirector狀態(tài)管理器和自動任務(wù)................................29
IBMSystemsDirector配置管理器..........................................34
IBMSystemsDirector虛擬化管理器........................................38
IBMSystemsDirector更新管理器..........................................43
IBMSystemsDirector的擴展插件..........................................47
2.5存儲系統(tǒng)方案建議............................................................50
2.6胖節(jié)點系統(tǒng)方案建議..........................................................51
2.7計算節(jié)點....................................................................53
2.8管理節(jié)點/登錄節(jié)點/調(diào)度節(jié)點和I/O節(jié)點........................................54
第3章IBM解決方案特點和優(yōu)勢..........................................55
3.1IBM【DATAPLEX集群技術(shù)的特點有優(yōu)勢.........................................55
3.2IBM綠色解決方案優(yōu)勢........................................................57
國際商業(yè)機器(中國)有限公司目錄
t?
XXX大學(xué)高性能運算方案建議書
3.3IBM智能系統(tǒng)管理優(yōu)勢........................................................61
3.4IBM豐富的系統(tǒng)管理工具......................................................62
第4章項目實施........................................................64
第5章產(chǎn)品配置及報價..................................................65
第6章為什么選擇IBM....................................................................................................66
6.1IBM豐富的高性能計算方面的經(jīng)驗.............................................66
6.2IBMPOWERSYSTEM高性能計算技術(shù)發(fā)展前景....................................66
國際商業(yè)機器(中國)有限公司目錄
XXX大學(xué)高性能運算方案建議書
第1章摘要
1.1我們對您的目標(biāo)的理解
為落實科教興國戰(zhàn)略、迎接世界新技術(shù)革命的挑戰(zhàn)而實施的“211工程”是我國推進高等教育
發(fā)展所采取的重要舉措,這項旃世紀的戰(zhàn)略工程目前已進入第三期建設(shè)階段。要實施科教興國,
就必須加強科技創(chuàng)新和教育創(chuàng)新。隨著信息技術(shù)的S速發(fā)展和“211工程”建設(shè)的進步深入,各
高等院校教育信息化形成一定規(guī)模,教育形式和學(xué)習(xí)方式都發(fā)生了重大變革。
目前,為了應(yīng)對日益擴大的教育資源需求和滿足高校對學(xué)科研究的強大計算需求,國內(nèi)許多
高校紛紛建立了高性能計算系統(tǒng)平臺。這樣,一方面可以滿足院校自身在科研、學(xué)科以及重要課
題研究等方面的計算資源需求,另一方面將能夠進一步擴大院校的科研水平和研究能力,提升院
校在教育行業(yè)的影響力和行業(yè)競爭力。
XXX大學(xué)……請補充實際客戶的具體需求
我們認為,新一代的高性能計算中心不應(yīng)該僅僅是提供傳統(tǒng)的高性能計算,更不是一個單純
的高性能計算設(shè)備方案。建設(shè)新一代的高性能計算中心,除了要考慮軟硬件設(shè)備選型,更需要全
面考慮中心運作、應(yīng)用效率、技術(shù)合作與創(chuàng)新等多方面因素;需要增加資源管理,用戶管理,虛
擬化管理,動態(tài)產(chǎn)生和回收資源等功能,即基于云計算模型的高性能計算中心。從而實現(xiàn)總體架
構(gòu)的合理性和資源管理的高效性,提供長遠的高性能運算科研和供應(yīng)能力,確保高性能計算中心
能夠發(fā)揮更大的效益。
我們理解您需要一個運行穩(wěn)定、技術(shù)先進、性能優(yōu)異、易于擴充和管理的高性能計算環(huán)境來
滿足計算需求。因此,所搭建的計算平臺應(yīng)該具備如下特性:
>先進性:計算平臺不僅能夠滿足高性能計算中心目前業(yè)務(wù)的需要,還能適應(yīng)未來技術(shù)發(fā)
展的趨勢和需要。
>靈活性:優(yōu)化系統(tǒng)資源配置比例,實現(xiàn)最大的應(yīng)用靈活性,滿足在解決大問題的同時運
行多個中小型任務(wù)的綜合需求。
>可擴展性:在設(shè)計上充分考慮到可擴展性需求,提供具有最高可伸縮性的系統(tǒng),并保護
現(xiàn)有的投資。
>穩(wěn)定性:能夠確保系統(tǒng)穩(wěn)定、高效、持續(xù)運營,支持全天24小時的連續(xù)運行需求。
國際商業(yè)機器(中國)有限公司第1頁
z-H謊運廳方案建議15
>開放性:采用開放標(biāo)準、開放結(jié)構(gòu)、開放系統(tǒng)組件和開放用戶接口。充分滿足用戶投資
保護和業(yè)務(wù)擴展、系統(tǒng)維護等方面的需求。
>高管理性:對所有計算機系統(tǒng)資源集中進行統(tǒng)?監(jiān)控與管理,建立統(tǒng)一高效的資源管理
系統(tǒng),高效率、反應(yīng)靈敏的技術(shù)服務(wù)機制,標(biāo)準化、自動化的管理流程,達到提供優(yōu)質(zhì)
的資源管理服務(wù),更好的為中心的業(yè)務(wù)發(fā)展服務(wù)。
>高能效:采用綠色節(jié)能設(shè)備和技術(shù),使系統(tǒng)在保障正常運行的情況下消耗較少的能源。
1.2我們?nèi)绾螏湍鷮崿F(xiàn)目標(biāo)
1.1.1方案建設(shè)思路
基于對您的目標(biāo)和需求的理解,我們推薦采用以下建設(shè)思路:
?應(yīng)用為先:根據(jù)調(diào)研結(jié)果和應(yīng)用的需求來選擇最合適的軟硬件平臺,讓應(yīng)用決定平臺,
而不是由平臺限制應(yīng)用。
依據(jù)高性能計算中心的服務(wù)內(nèi)容、最終用戶的應(yīng)用需求,我們的方案將確保其跨硬
件平臺、跨操作系統(tǒng)平臺,能夠滿足各種應(yīng)用的不同需求。
?創(chuàng)新為體:高性能計算技術(shù)發(fā)展日新月異,在架構(gòu)設(shè)計時,應(yīng)充分考慮技術(shù)發(fā)展趨勢,
采用先進的產(chǎn)品和創(chuàng)新的思路,最大化利用現(xiàn)有投入,并考慮到今后擴展的需求。
基于對高性能計算中心的平臺建設(shè)目標(biāo)的理解,我們認為本次高性能計算中心的建
設(shè),絕不僅僅是一個高性能設(shè)備的建設(shè),而是一個多功能、多應(yīng)用、多客戶的服務(wù)
平臺,所以我們采用了目前最先進的高性能計算技術(shù)架構(gòu)來滿足中心的建設(shè)需求。
?效率為要:不僅僅以峰值運算能力或單一的Linpack測試指標(biāo)作為設(shè)備選型的依據(jù),而
是充分考慮總體架構(gòu)的合理性和資源管理等要素,實現(xiàn)一個高效率計算(High
ProductivityComputing)的平臺。
在多用戶、多應(yīng)用的使用場景下,我們不單單要考慮到整體設(shè)備的高性能,還需要
考慮到系統(tǒng)在使用過程中,如何通過虛擬化、資源共享、自動化等手段來協(xié)調(diào)整個
計算平臺的計算資源利用,提高整體利用率,實現(xiàn)一個綠色、高效的計算環(huán)境。
1.1.2方案產(chǎn)品選擇要點
■選用盡可能高性能的處理器作為計算資源的基礎(chǔ)
國際商'業(yè)機器(中國)有限公司第2頁
XXX大學(xué)高性能運算方案建議書
高性能處理器是縮短任務(wù)完成周期的必要條件,尤其是當(dāng)前很多計算任務(wù)由于程序本身擴展
性和數(shù)據(jù)規(guī)模的限制還不能做到在大量處理器上高效率地并行運算,所以高性能處理器往往是唯
一能夠真正縮短作業(yè)運行時間的技術(shù)手段。即便是能夠在較大數(shù)量處理器上運行的應(yīng)用,在100
個高性能處理器和在100個低性能處理器上的運行效率也是不可同日而語的。
■選擇提供更高能效的設(shè)備
根據(jù)IBM多年高性能計算中心建設(shè)和運行的經(jīng)驗,在大型高性能計算機中心的運行中,能源
消耗將是最大的開銷,因此我們不僅在方案中推薦選用功耗較低的硬件設(shè)備,而且配置先進的管
理工具來合理的監(jiān)視和控制設(shè)備的使用情況,例如監(jiān)測CPU的溫度狀況,動態(tài)控制風(fēng)扇轉(zhuǎn)速以減
少所需要的能量,從而降低能源的消耗。
■選擇具有更高散熱效率的設(shè)備
由于刀片服務(wù)器等高密度設(shè)備的部署,加上本高性能計算機系統(tǒng)的規(guī)模巨大,僅依靠空調(diào)制
冷的傳統(tǒng)方式容易導(dǎo)致機房“局部過熱”,產(chǎn)生熱點或熱區(qū),影響設(shè)備的正常運行和使用。因此
要著重考慮如何解決數(shù)據(jù)中心散熱問題。
IBMiDataPlex服務(wù)器和機箱能夠憑借高能效的設(shè)計將能源要求最多降低40%k其次,可選
的水冷IBMRearDoorHeateXchanger安裝在機柜后端,能夠?qū)C柜內(nèi)部生成的熱量100%散
掉,令數(shù)據(jù)中心絲毫不受影響。事實上,它甚至能夠幫助冷卻數(shù)據(jù)中心,從而降低對計算機房空
調(diào)量(CRAC)的需求,還允許您進一步拉近機柜之間的距離,切實避免了在一排滿配機柜之間建立
“熱通道”的需求。
iDataPlex服務(wù)器的設(shè)計使空氣從前到后全程只需穿行18英寸,而不是企業(yè)級服務(wù)器的30英
寸。路徑的縮短源于iDataPlex服務(wù)器超高的冷卻效力一距離越短、氣流效果越好。
1.3方案簡述
IBMiDataPlex提供了更高的計算密度、更高效的數(shù)據(jù)中心空間利用以及更加可控制的電源和
散熱成本,最適合于高性能計算及Web2.0應(yīng)用。
40臺iDataPlex2U的兩路6核心iDataPlex可提供每秒大約10萬億次的浮點計算能力,能夠
滿足各種用戶和應(yīng)用的計算需求。同時,配置IBMSystemStorageDS3500磁盤存儲來存放相關(guān)的
數(shù)據(jù);配置通用并行文件系統(tǒng)GPFS,以便將數(shù)據(jù)共享給用戶使用。另外,為了解決數(shù)據(jù)中心高熱
密度問題,我們建議采用IBM創(chuàng)新的后門熱交換器(水冷門),提高散熱效率、降低能源消耗,
達到節(jié)省電力成本的目的。水冷門安裝于機柜后門處,既不占用機房地板空間,對機房層高也無
額外要求。
國際商業(yè)機器(中國)有限公司第3頁
XXX大學(xué)高性能運算方案建議書
根據(jù)招標(biāo)文件要求的各項技術(shù)指標(biāo),我們建議選用IBMiDataPlex服務(wù)器集群方案搭建高性能
計算中心平臺。
國際商業(yè)機器(中國)有限公司第4頁
\\\大學(xué)X。件能運莫方案化議15
第2章方案介紹
2.1方案構(gòu)成組件
如前所述,我們建議選用IBMiDataPlex服務(wù)器集群方案搭建高性能計算中心平臺。鑒于PC
服務(wù)器芯片技術(shù)飛速發(fā)展,我們提供的iDataPlex集群系統(tǒng)的方案,充分考慮了未來的發(fā)展?fàn)顩r,
為將來系統(tǒng)的完善和擴充留有足夠的接口。
配置80臺主頻為2.93GHZ的IBMDX360M3雙路刀片服務(wù)器為計算節(jié)點,其峰值處理能力大
于10萬億次。本方案建議的iDataPlex集群系統(tǒng)中主要包含以下組成部分:
,硬件主要組成:
名稱組成數(shù)量
計算節(jié)點iDataPlexdx360M3server80
42U標(biāo)準機柜IBM42UEnterpriseRack4
管理節(jié)點/登錄節(jié)點/調(diào)度節(jié)點x3650M34
存儲節(jié)點(I/O節(jié)點)x3650M36+2
核心Infiniband交換機IBMOEMInfiniBand交換機40366
千兆以太網(wǎng)交換機滿足整個集群系統(tǒng)需要1
>軟件主要組成:
功能組成配置簡要說明
操作系統(tǒng)滿足應(yīng)用需要的Linux版本集群操作系統(tǒng)
集群管理系統(tǒng)CSM/xCAT集群管理系統(tǒng),集群上/下電,軟件安裝等
集群硬件監(jiān)控管IBMDirector硬件狀態(tài)監(jiān)控,信息收集
理系統(tǒng)
并行文件系統(tǒng)IBMGPFS集群并行文件系統(tǒng),完成用戶應(yīng)用數(shù)據(jù)交換,存
儲。
作業(yè)調(diào)度系統(tǒng)MOAB用戶作業(yè)調(diào)度系統(tǒng),包括用戶作業(yè)排隊,掛起,
查詢,斷點等功能
并行環(huán)境MPICH提供MPI并行庫
編譯環(huán)境Gnu或商用的C/C++及提供C/C++和Fortran語言的編譯
Fortran編譯器
國際商業(yè)機器(中國)有限公司第5頁
XXX大學(xué)高性能運算方案建議書
2.2方案結(jié)構(gòu)圖
刀片計算集群
80臺IDataPIx
(OPFS并行文件系統(tǒng)X3650M3)
6臺4XQDR40GBInfiniBand交換機
高性能運算拓撲結(jié)構(gòu)圖
IWIVCW*
?-?M>??*?(MMM)
機柜放置示意圖
國際商業(yè)機器(中國)有限公司笫6頁
XXX大學(xué)高性能運算方案建議書
2.3PC集群方案網(wǎng)絡(luò)設(shè)計
本方案共配置如下5套網(wǎng)絡(luò):
>Infiniband網(wǎng)絡(luò)交換系統(tǒng),作為計算網(wǎng)絡(luò);
>硬件管理網(wǎng)絡(luò)(AMM);
>軟件管理分發(fā)網(wǎng)絡(luò)(Softwarenetwork);
,數(shù)據(jù)管理網(wǎng)絡(luò)(Datanetwork);
>顯示切換系統(tǒng)(KVM);
網(wǎng)絡(luò)配置簡表
功能組成配置簡要功能說明數(shù)量
計算網(wǎng)絡(luò)Infiniband交換系統(tǒng)■計算網(wǎng)絡(luò)1
■6*36端口■數(shù)據(jù)傳輸網(wǎng)絡(luò)
Infinband交換機
硬件管理網(wǎng)絡(luò)以太網(wǎng)絡(luò)交換系統(tǒng)■PC服務(wù)器管理網(wǎng)絡(luò)1
■連接所有的刀片中心管理模塊
?連接所有服務(wù)器(含管理、登錄、
I/O節(jié)點)
軟件分發(fā)管理網(wǎng)絡(luò)/以太網(wǎng)絡(luò)交換系統(tǒng)■集群管理網(wǎng)絡(luò)通道/GPFS數(shù)據(jù)管理1
數(shù)據(jù)管理網(wǎng)絡(luò)網(wǎng)絡(luò)通道
■連接到刀片中心的以太網(wǎng)絡(luò)模塊
■連接所有服務(wù)器
顯示切換系統(tǒng)IBMACT顯示切換系統(tǒng)?連接所有服務(wù)器,刀片中心的顯1
(KVM)(KVM)示,鍵盤和鼠標(biāo)。
國際商業(yè)機器(中國)有限公司第7頁
XXX大學(xué)高性能運算方案建議書
卜表是集群硬件系統(tǒng)網(wǎng)絡(luò)連接的詳細說明:
各PC服務(wù)器與網(wǎng)絡(luò)的關(guān)系表
軟件分發(fā)管
服晶ZKVMInfiniband硬件管理網(wǎng)絡(luò)數(shù)據(jù)管理網(wǎng)絡(luò)
理網(wǎng)絡(luò)
管理節(jié)點連接——連接連接連接
登錄節(jié)點連接—連接連接連接
存儲節(jié)點連接連接連接連接連接
計算節(jié)點連接連接連接連接連接
2.3.1硬件管理網(wǎng)絡(luò)
為了實現(xiàn)刀片服務(wù)器的管理,刀片中心的管理模塊通過AMM網(wǎng)絡(luò)互聯(lián)(iDataPlex節(jié)點,有一
個管理以太網(wǎng)口)。
2.3.2軟件分發(fā)網(wǎng)絡(luò)
軟件的分發(fā)和管理通過軟件管理分發(fā)網(wǎng)絡(luò)實現(xiàn),在本方案中,軟件分發(fā)通過以太網(wǎng)絡(luò)進行。
2.3.3數(shù)據(jù)管理網(wǎng)絡(luò)
通過千兆以太網(wǎng),配合以IBM管理軟件實現(xiàn)。
2.3.4高速計算網(wǎng)絡(luò)
為了實現(xiàn)并行計算的高速數(shù)據(jù)交換,采用Infiniband網(wǎng)絡(luò)互聯(lián)所有的計算節(jié)點和I/O節(jié)點,本
方案共配置6臺36端口infiniband交換機做為核心交換系統(tǒng),如下圖所示:
國際商業(yè)機器(中國)有限公司第8頁
XXX大學(xué)高性能運算方案建議書
IBMiDataPlex-80ServersInfiniBand架構(gòu)匡
IDataPtx80甘:
8臺凱架式管理、
I/O巧目*
6臺外置具有瞥
理功燒加惴口
InfhUBand文操
機?
-Voltaire
2036364X
QDRPORTS
INHRNALLY
8臺ITO*務(wù)等MANAGED.
DUALPS-24
FRU
4XODR40GBIB線貨
8條4XQDR40GBIB線纜
IBM4036高性能交換機簡介
IBMOEMVoltaire4036交換機為高性能計算集群和網(wǎng)格提供了水平空前的性能和擴展性。
Voltaire4036能使高性能應(yīng)用運行在分布式的服務(wù)器、存儲和網(wǎng)絡(luò)資源上。對單個機箱中的36
個節(jié)點精心設(shè)計了10/20/40Gb自適應(yīng)全雙向帶寬,多臺Voltaire4036以及配合Voltaire更大
的交換機ISR2004/ISR2012/ISR4700也
可以互聯(lián)組成更大規(guī)模的集群。能夠配
置的節(jié)點范圍從十兒個到兒千個,優(yōu)良
的擴展性能使你能隨所需節(jié)點。
無與倫比的的性能
Voltaire4036以最大的交換容量在InfiniBand業(yè)界處于領(lǐng)先地位。每個端口提供全雙向帶
寬。Voltaire4036支持36個InfiniBandQDR端口,單向速率達到40Gb/s,雙向速率達到
80Gb/s?線速無阻塞交換能力結(jié)合小于100納秒的低延時使Voltaire4036成為可用的性能最高
的交換機。
大型集群和網(wǎng)格成本效益高的解決方案
國際商業(yè)機器(中國)有限公司笫9頁
XXX大學(xué)高性能運算方案建議書
巨大的交換容量,使用臺或兒分即可組建大型集群,顯著地降低集群的總成本。Voltaire
4036的完整的組網(wǎng)能力和與存儲設(shè)備的連通性使得組網(wǎng)需要較少的設(shè)備,因此使集群的組建變得
簡。
全面的管理
Voltaire4036內(nèi)置了硬件設(shè)備管理軟件以及SM子網(wǎng)管理器,提供了全面的和強大的管理能
力。管理軟件安裝在交換機上,不依賴任何外部管理軟件即可訪問管理軟件??梢蕴峁┱麄€網(wǎng)絡(luò)
的診斷、路由算法設(shè)定及調(diào)整、通訊流量監(jiān)控等功能。
高可用性
為了達到最高的可用性,Voltaire4036絕大多數(shù)部件都是可熱插拔的。電源模塊以及風(fēng)扇都
為系統(tǒng)提供了高可用性和易服務(wù)性。
國際商業(yè)機器(中國)有限公司第10頁
XXX大學(xué)高性能運算方案建議書
VoltaireGridDirector4036
可安裝于19”機架的機箱,高1U。
-數(shù)據(jù)吞吐量:2880Gbps(QDR),1440Gbps(DDR)
-端口到端口延遲:100納秒(最大值)
交換機技術(shù)規(guī)
-數(shù)據(jù)虛擬通道:8
格
-管理虛擬通道:1
-MTU:4096Bytes(最大值)
-36個QDR端口或36個4XDDR端口。
InfiniBand-互連選項:銅纜和/或光纖,支持介質(zhì)轉(zhuǎn)換器。
4X/12X-指示器:每端口的物理連通和邏輯連通LED指示燈,電源指示燈和信息指
主機連接模塊示燈
-所有端口都位于后面板上。
嵌入的管理套件包括:
-SM子網(wǎng)管理,機箱和設(shè)備管理。
-符合InfiniBand1.2標(biāo)準
管理模塊支持的管理協(xié)議:SNMPv2c,Telnet,SSH,HTTP,FTP,IBTA,
SMI/GSI
-連接器:RS232DB9-M,I2CDB9-F
指示器:電源,子網(wǎng)管理器活動,機箱管理器活動,信息和熱插拔LED指
示器。
-連接器:EIA/TIA-232ConsoleDB-9,10/100EthernetRJ45
后部控制模塊
-管理/設(shè)備reset按鈕
1個或2個廠內(nèi)已安裝的電源模塊
供電需求
電源輸入:100-240VAC,50/60HZ自動感知
可安裝在19”機架上
-尺寸(高x寬x深):1.69in.(43mm)x16.93in.(430mm)x15.7
in.(400mm)
物理尺寸
-使用選項的支腳可安全的堆置
可選擇前面或后面安裝于機架
重量:171b(7.7Kg),包括機架安裝件
工作
環(huán)境要求-環(huán)境溫度:32oF-113oF(OoC-45oC)
-濕度:15%-80%,無凝結(jié)
國際商業(yè)機器(中國)有限公司第11頁
XXX大學(xué)高性能運算方案建議書
-海拔高度:0-9843ft(3000m)
儲存
-環(huán)境溫度:T3oF-158oF(-25oC-70oC)
-濕度:5%-90%,無凝結(jié)
-海拔高度:0-15000ft(4570m)
安全
-UL60950
-CBIEC60950
-CSA-C22.2No.60950-00
認證
電磁兼容
-47CFRFCCpart15
-EN55022:98/EN55024:98/EN61000-3-2:00/EN61000-3-3:95
-VCCI
2.3.4.ZUFM管理軟件
隨著科學(xué)計算在眾多領(lǐng)域的普及與發(fā)展,高性能計算系統(tǒng)正在被廣泛應(yīng)用于科研、制造、勘
探、氣象、金融、電信等諸多領(lǐng)域,CPU以及內(nèi)存技術(shù)的不斷進步使得計算機個體的計算能力大
大提高,由此也帶來了并行計算系統(tǒng)環(huán)境中交換網(wǎng)絡(luò)通訊帶寬、延遲以及優(yōu)化管理的諸多迫切需
求。InfiniBand技術(shù)在10余年的發(fā)展過程中歷經(jīng)起伏,憑借其低延遲、高帶寬、開放架構(gòu)的多種
國際商業(yè)機器(中國)有限公司第12頁
\\\人中/件能運W方案建議「
優(yōu)勢逐步被用戶所接受并廣泛使用。在大規(guī)模集群系統(tǒng)的部署與管理過程中,對于InfiniBand網(wǎng)絡(luò)
的監(jiān)控與優(yōu)化的需求變得日益迫切。
針對廣大用戶的需求并結(jié)合Voltaire在InfiniBand領(lǐng)域多年來的技術(shù)沉淀于積累,Voltaire在
2009年7月正式發(fā)布了面向InfiniBand網(wǎng)絡(luò)的統(tǒng)一管理軟件一UnifiedFabricManager,Voltaire
UnifiedFabricManager(UFM)是-一個功能強大的網(wǎng)絡(luò)管理平臺,在針對Scale-Out(橫向擴展)架
構(gòu)的集群計算環(huán)境中,借助VoltaireUFM管理軟件,InfiniBand網(wǎng)絡(luò)不再是個神秘的黑盒子,整個
網(wǎng)絡(luò)的監(jiān)控與管理將變得透明化、系統(tǒng)化。
UFM核心特點
?以應(yīng)用軟件為中心的網(wǎng)絡(luò)管理;
?無限可擴展性提供對應(yīng)用軟件、數(shù)據(jù)庫以及存儲系統(tǒng)的無縫支持;
?直觀的展現(xiàn)網(wǎng)絡(luò)交通以及設(shè)備運行狀況,確保用戶清晰并深度掌握網(wǎng)絡(luò)工作狀況;
?先進的網(wǎng)絡(luò)阻塞狀況發(fā)現(xiàn)與分析優(yōu)化處理功能;
?基于應(yīng)用軟件工作流以及網(wǎng)絡(luò)拓撲結(jié)構(gòu)的通訊路由優(yōu)化功能;
?可設(shè)定與調(diào)節(jié)的故障預(yù)警機制,使用戶對網(wǎng)絡(luò)通訊狀況了如指掌;
?提供網(wǎng)絡(luò)分區(qū)以及多服務(wù)等級的分區(qū)功能,方便用戶設(shè)定與調(diào)整;
?提供在一個共享的網(wǎng)絡(luò)中實現(xiàn)多個基于應(yīng)用軟件的獨立通訊區(qū)域設(shè)定;
?集中化的InfiniBand網(wǎng)絡(luò)設(shè)備管理使得大型網(wǎng)絡(luò)中設(shè)備管理更為便捷:
?安全可靠的HA架構(gòu)設(shè)計確保UFM管理系統(tǒng)的高可用性:
?提供API接口,方便用戶將UFM管理納入現(xiàn)有的綜合管理系統(tǒng)中。
23.4.4UFM網(wǎng)絡(luò)狀況發(fā)現(xiàn)與控制
UFM集成了先進的網(wǎng)絡(luò)監(jiān)控引擎,對InfiniBand網(wǎng)絡(luò)交換機以及連接到InfiniBand網(wǎng)絡(luò)的主
機提供實時的監(jiān)控。
UFM提供了一個可自行設(shè)定的公告牌界面,可以提供網(wǎng)絡(luò)健康狀況以及主機CPU、內(nèi)存、磁
盤等資源的使用狀況,通過公告牌界面,我們可以方便的看到服務(wù)器中網(wǎng)絡(luò)通訊帶寬開銷最大的
ToplO(數(shù)量可以自行設(shè)定),網(wǎng)絡(luò)中阻塞最多的ToplO,網(wǎng)絡(luò)中故障報警的實時列表,網(wǎng)絡(luò)中阻
塞問題的熱點出現(xiàn)在哪里等等。
國際商業(yè)機器(中國)有限公司第13頁
XXX大學(xué)高性能運算方案建議書
網(wǎng)絡(luò)拓撲結(jié)構(gòu)自動發(fā)現(xiàn),網(wǎng)絡(luò)瓶頸實時顯示
UFM能夠自動監(jiān)測網(wǎng)絡(luò)拓撲結(jié)構(gòu)并自動繪制出相應(yīng)的拓撲結(jié)構(gòu)圖,同時,通過實時的通訊鏈
路監(jiān)控,UFM能夠自動發(fā)現(xiàn)網(wǎng)路擁塞的熱點區(qū)域并通過圖表方式顯示給用戶,此功能可以幫助用
戶精確的定位網(wǎng)絡(luò)通訊的阻塞狀況,為下一步性能優(yōu)化提供參考數(shù)據(jù)。
CongestionMap
國際商業(yè)機器(中國)有限公司第14頁
t?
XXX大學(xué)高性能運算方案建議書
網(wǎng)絡(luò)分區(qū)優(yōu)化與路由通訊優(yōu)化
UFM提供先進的網(wǎng)絡(luò)通訊優(yōu)化功能,針對不同需求的計算群組(低延遲、高帶寬等等)可以
創(chuàng)建相應(yīng)的邏輯計算機資源組,在同一個組內(nèi)的計算節(jié)點之間通訊會自動根據(jù)所設(shè)定的網(wǎng)絡(luò)需求
類型進行優(yōu)化,確保網(wǎng)絡(luò)通訊能夠分層進行,大大提高網(wǎng)絡(luò)通訊效率;
HighThroughput
LowLatency
Network
Network
SL1(LowPriorityVL)
SLO(HighPriorityVL)
LowLatency
Application
(eg.MPI)
同時,UFM還提供了獨有的TrafficOptimizedRouting(TOR)路由算法,經(jīng)過優(yōu)化后,網(wǎng)絡(luò)中
的阻塞熱點會自動被均衡再分配,大大降低網(wǎng)絡(luò)帶寬資源爭搶所造成的整體計算效率下降的問
題。
國際商業(yè)機器(中國)有限公司第15頁
XXX大學(xué)高性能運算方案建議書
CongestionMapCongestionMap
Mn
■Avg
■Max
Mn
■Avg
■MDX
4中11T1.21Ti.3握中4
——fMlf—■?國
全網(wǎng)絡(luò)通訊日志收集與保存
UFM會自動收集并保存整個網(wǎng)絡(luò)(包括交換機端、計算節(jié)點I/O節(jié)點端)的通訊II志,為系
統(tǒng)通訊狀況分析以及故障排查提供強有力的資源支持。
國際商業(yè)機器(中國)有限公司第16頁
XXX大學(xué)高性能運算方案建議書
Search6rven*tagflte
2.348UFM支持的InfiniBand網(wǎng)絡(luò)設(shè)備以及主機平臺
UFM支持的硬件交換機平分:
/VoltaireISR9024系列
VoltaireISR2004/2012系列
/Voltaire2036/4036系列
/Voltaire4700系列
VoltaireUFM支持的主機平臺:
/Redhat5.1/5.2/5.3
/Centos5.1/5.2/5.3
/Windows
2.3.5顯示切換系統(tǒng)(KVM)
國際商業(yè)機器(中國)有限公司第17頁
t?
2大學(xué)而性能也算方案建議書
IBM先進連接技術(shù)(ACT),采用小巧、靈活的CAT5線纜代替龐大、笨重的KVM線纜,可
以極大地簡化集群系統(tǒng)的安裝,同時減少線纜數(shù)量,提高系統(tǒng)可靠性。CAT5轉(zhuǎn)換選件可以饋入到
用于本地管理(LCM)的便宜的CAT5控制臺交換機或面向大型配置或遠程管理的遠程控制臺管理
(RCM),并和傳統(tǒng)產(chǎn)品向后兼容,提供無限的可擴展性,通過級聯(lián)能夠支持多達2048臺服務(wù)器端
口連接。如下圖所示:
2.4PC集群之軟件環(huán)境
本方案中,操作系統(tǒng)選擇適合應(yīng)用的Linux,集群管理軟件選擇CSM/xCAT,作業(yè)調(diào)度軟件
選擇IBMLoadLeveler或LSF或者MOAB,并行文件系統(tǒng)選擇IBMGPFS,硬件監(jiān)控管理選擇
IBMDirector,編譯環(huán)境推薦采用Intel編譯環(huán)境,這些軟件在集群中的邏輯關(guān)系,見下圖。
國際商業(yè)機器(中國)有限公司第18頁
XXX大學(xué)高性能運算方案建議書
下面詳細介紹這些軟件和實現(xiàn)方式。
2.4.1集群管理軟件CSM/xCAT簡介
本系統(tǒng)集群管理軟件采用CSM/xCAT完成集群管理功能,本方案建議主管理節(jié)點作為
CSM/xCAT的管理節(jié)點,安裝CSM/xCAT服務(wù)器端軟件,CSM/xCAT服務(wù)器端軟件通過AMM網(wǎng)
絡(luò)和刀片中心的管理模塊通訊,得到刀片的狀態(tài)信息,抓去部署操作系統(tǒng)的刀片網(wǎng)卡MAC地址等
功能,通過軟件分發(fā)網(wǎng)絡(luò),與存儲節(jié)點和登陸節(jié)點通訊進行硬件管理;CSM/xCAT管理操作,可
以通過軟件分發(fā)網(wǎng)絡(luò),與計算節(jié)點,存儲節(jié)點,登陸節(jié)點通訊。副管理節(jié)點做為主管理節(jié)點的備
份。CSM/xCAT工作邏輯如下圖所示:
國際商業(yè)機器(中國)有限公司第19頁
t?
XXX大學(xué)高性能運算方案建議書
CSM/XCAT
Managenodeprlm?r>
Chimistnswitch,onelink
‘RackedserverloNwitch
||CSM/xCATClient
IICSM/xCATSvrvui
IBM提供的跨平臺集群系統(tǒng)管理軟件CSM,允許通過一個單點控制和管理整個集群系統(tǒng)。它
來源于IBM多年來的PSSP技術(shù),可以實現(xiàn)集群的組成,管理和控制。CSM軟件是一個客戶/服務(wù)
器模式的集群軟件。在服務(wù)節(jié)點上安裝CSMServer,在所有計算節(jié)點、I/O節(jié)點和登錄節(jié)點上安裝
CSMClient,經(jīng)過配置即可構(gòu)成集群?通過CSM可以完成節(jié)點軟件遠程安裝和更新、集群內(nèi)所有
節(jié)點運行狀態(tài)的持續(xù)監(jiān)控、節(jié)點故障偵測和自動響應(yīng)、文件的單點修改和分發(fā)或同步、節(jié)點上電/
關(guān)機/重啟動等功能。CSM的管理界面已經(jīng)與smit和WSM集成,管理員可以通過字符或圖形方式
使用CSM管理整個集群。
CSM同時支持運行Linux的IBMxSeries服務(wù)器和運行AIX的IBMpSeries服務(wù)器,為系統(tǒng)今
后擴展打下了良好基礎(chǔ)。
e326withBMCprocessor
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人力資源管理概述
- 大就業(yè)安全教育
- 2025年版企業(yè)股權(quán)轉(zhuǎn)讓合同范本
- 2025標(biāo)準版廣告合同(雜志上投放)
- 2025企業(yè)經(jīng)營保證貸款合同
- 品牌管理與保護操作手冊
- 就業(yè)協(xié)議書模板在找
- 2025《合同管理與招投標(biāo)策略》工程管理專業(yè)講義
- 智能制造系統(tǒng)集成知到課后答案智慧樹章節(jié)測試答案2025年春上海電機學(xué)院
- 中國當(dāng)代文學(xué)知到課后答案智慧樹章節(jié)測試答案2025年春鶴崗師范高等??茖W(xué)校
- 班主任培訓(xùn)課件如何開好家長會學(xué)習(xí)資料
- 大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目申報書(模板)
- 爭做最美班級主題班會課件
- 鐵路職工政治理論應(yīng)知應(yīng)會題庫
- 2020年交安A、B、C證(公路)考試題庫1088題(含答案)
- 墻繪驗收單模板
- 節(jié)后復(fù)工檢查表
- 財務(wù)有哪些制度要上墻
- 醫(yī)學(xué)教學(xué)課件:軟組織腫瘤影像診斷
- 礦山礦石損失與貧化管理規(guī)程
- 安全生產(chǎn)晨會管理制度
評論
0/150
提交評論