版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
#高性能計(jì)算系統(tǒng)
方案設(shè)計(jì)第1章需求分析高性能計(jì)算的和大規(guī)模數(shù)據(jù)處理的應(yīng)用高性能計(jì)算作為一種先進(jìn)的科研手段,在國(guó)內(nèi)的應(yīng)用發(fā)展很快,得到了普遍的重視,近年來(lái)國(guó)家投入逐年加大。高性能計(jì)算的應(yīng)用條件已經(jīng)成熟,表現(xiàn)在:?價(jià)格相對(duì)低廉的高性能機(jī)群系統(tǒng)為高性能計(jì)算應(yīng)用提供了物質(zhì)基礎(chǔ);?高性能計(jì)算應(yīng)用的技術(shù)門檻逐漸降低;國(guó)家鼓勵(lì)相關(guān)單位做高性能計(jì)算的研究,相關(guān)投入不斷加大;很多高校的科研人員使用高性能計(jì)算手段,取得了很好的成果。1.1.1計(jì)算機(jī)架構(gòu)由于各學(xué)科高性能計(jì)算應(yīng)用軟件種類繁多,各種軟件的應(yīng)用特點(diǎn)也各不相同,對(duì)計(jì)算資源的需求存在差別,方案的設(shè)計(jì)需要充分考慮到實(shí)際應(yīng)用的特點(diǎn).作為高性能計(jì)算基礎(chǔ)設(shè)施的核心,現(xiàn)代高性能計(jì)算機(jī)的發(fā)展從20世紀(jì)70年代的向量計(jì)算機(jī)開(kāi)始,也已經(jīng)有了30年的發(fā)展歷程?先后出現(xiàn)了向量機(jī)、多處理器并行向量機(jī)、MPP大規(guī)模并行處理機(jī)、SMP對(duì)稱多處理機(jī)、DSM分布式共享存儲(chǔ)計(jì)算機(jī)、Constellation星群系統(tǒng)、Cluster集群系統(tǒng)、混和系統(tǒng)等多種主體的架構(gòu),并分別在不同的時(shí)期占據(jù)著應(yīng)用的主流。開(kāi)放的Cluster集群系統(tǒng)具有較多的優(yōu)勢(shì),已經(jīng)占據(jù)了目前高性能計(jì)算機(jī)的主流位置,在TOP500中占據(jù)了約80%的份額,在中小規(guī)模的高性能計(jì)算系統(tǒng)中更是占據(jù)統(tǒng)治地位.
500Architectureshareoverlime19<33-7OOQMPRClusterSMPCnrZilldlifir500Architectureshareoverlime19<33-7OOQMPRClusterSMPCnrZilldlifirI、|GinqlcProcessorothersooOooO321f呂rsl/SQ9呂魚(yú)s寸呂0/90seleass養(yǎng)ResmgQo000^^0506B6E0op建洛QTEB6VSQ9561/90豊曹s§0ArchitectureShoreOverTime1993-20091.1.2軟件的并行特點(diǎn)按照應(yīng)用程序是否為并行程序,可以分為如下幾類:?串行程序程序運(yùn)行中只有一個(gè)進(jìn)程或線程。串行程序不能利用高性能計(jì)算機(jī)多個(gè)處理器的并行特點(diǎn),但可以同時(shí)運(yùn)行程序的多個(gè)任務(wù)或算例.?共享內(nèi)存并行程序程序運(yùn)行中可以有多個(gè)進(jìn)程或多個(gè)線程,可以使用多個(gè)處理器進(jìn)行并行計(jì)算。但這種并行程序不能在分布式內(nèi)存的機(jī)群系統(tǒng)上運(yùn)行.?消息傳遞并行程序消息傳遞式并行程序可以在所有架構(gòu)的計(jì)算機(jī)上運(yùn)行,可以同時(shí)使用數(shù)目很多的處理器,以加速程序的運(yùn)行.在高性能集群系統(tǒng)上,各種程序都可以運(yùn)行,可以使用集群系統(tǒng)的一個(gè)CPU,—個(gè)節(jié)點(diǎn)或多個(gè)節(jié)點(diǎn)。1?1?3互連網(wǎng)絡(luò)高性能計(jì)算系統(tǒng)的互連網(wǎng)絡(luò)包括計(jì)算網(wǎng)絡(luò),數(shù)據(jù)io網(wǎng)絡(luò),管理監(jiān)控網(wǎng)絡(luò)等。對(duì)于并行程序來(lái)說(shuō),進(jìn)程之間的通信量也有著顯著差別。對(duì)于進(jìn)程間通信量較小的程序來(lái)說(shuō),使用高性價(jià)比的千兆以太網(wǎng)就可以滿足需求。對(duì)于通信密集型的并行程序,多個(gè)進(jìn)程之間數(shù)據(jù)交換頻繁,對(duì)互連網(wǎng)絡(luò)的性能要求很高,要求具有較高的帶寬和很低的延遲,千兆以太網(wǎng)就不能很好滿足要求,需要使用高速網(wǎng)絡(luò),如Infiniband,其單向帶寬達(dá)到20Gb,延遲小于2微秒。NovennberInt'crconnectFamily/Pcrtdrman匚右NOWWEIlhflr訂fl[nrinSbandFropn^cary■-Others^CUEE&m[nrinSbandFropn^cary■-Others^CUEE&mGag-abltEthm「zt從2010TOP500排行榜中我們可以看到,千兆以太網(wǎng)和Infiniband網(wǎng)成為高性能計(jì)算機(jī)網(wǎng)絡(luò)互聯(lián)的主流,尤其從性能份額上來(lái)說(shuō),Infiniband網(wǎng)更是占據(jù)了絕大部分的份額,所以在國(guó)際主流的較大系統(tǒng)中‘Infiniband計(jì)算網(wǎng)逐漸成為主流。高性能網(wǎng)絡(luò)的基本性能如下
Pingpong帶寬O004oOoOoO32O001XPingpong延時(shí)Pingpong帶寬O004oOoOoO32O001XPingpong延時(shí)我們可以看到,對(duì)于千兆以太網(wǎng),帶寬達(dá)到112MB/S,延時(shí)非常高,達(dá)到47.57us。而使用萬(wàn)兆以太網(wǎng),雖然帶寬和延時(shí)均有顯著提高,但是與Infiniband網(wǎng)相比,還是有較大差距.萬(wàn)兆以太網(wǎng)使用TCP/IP協(xié)議,帶寬達(dá)到770MB,延時(shí)約為12us,使用Iwarp的RDMA協(xié)議,性能有一定提升,帶寬達(dá)到1046MB/S,延時(shí)達(dá)到7。68us。對(duì)于Infiniband網(wǎng),DDR和QDR的帶寬有較大差距,但是延時(shí)比較接近,分別為1.6us和1.3us?值得注意的是,QDR的IPoverIB的性能有了大幅的提升。1.1.4操作系統(tǒng)高性能計(jì)算的操作系統(tǒng)由最初的Unix操作系統(tǒng)為主,目前隨著集群架構(gòu)的逐漸廣泛和Linux操作系統(tǒng)的逐漸成熟,Linux操作系統(tǒng)逐漸成為高性能計(jì)算機(jī)的主流,占到80%以上的市場(chǎng)份額.OpeiratinqsystemFamilvShareOve『Time1903-201040030D20D10DUlIIXIZlUXBSDBased40030D20D10DUlIIXIZlUXBSDBasedIwxedOthersSODosso^QosoKooso^ssoSCDSO寸冒/9口鬥呂E怎口.Z口口E/9口I呂nl/9口‘oooso-養(yǎng)so-卜範(fàn)善wsso寸661/9口E061/9口為了使得集群系統(tǒng)有較好的兼容性,可以配置多種操作系統(tǒng),如Linux(Redhat,Suse),WindowsHPCserver等。第2章系統(tǒng)方案設(shè)計(jì)2.1方案總體設(shè)計(jì)2.1.1系統(tǒng)配■表序號(hào)名稱技術(shù)規(guī)格單位數(shù)量1硬件部分1。1計(jì)算子系統(tǒng)刀片平臺(tái)TC4600標(biāo)準(zhǔn)19英寸5U機(jī)架式刀片機(jī)箱、可以支持14個(gè)計(jì)算刀片;1*管理模塊,集成遠(yuǎn)程KVM和遠(yuǎn)程虛擬媒體;2*千兆網(wǎng)絡(luò)交換模塊,提供6個(gè)RJ45千兆接口;4水冗余熱插拔散熱模塊;4*2000W電源(3+1冗余熱拔插);臺(tái)5計(jì)算刀片CB60-G15帶FDR計(jì)算刀片2*IntelXeonE5-2660八核處器(2。2GHz);8*8GBDDR31333MHz;1*300G2.5寸10000轉(zhuǎn)SAS硬盤;1*56GbInfiniband接口;2*1000M以太網(wǎng)接口;片632U機(jī)架式;2XIntelXeonE5—2660八核處器(2.2GHz);管理/登錄
節(jié)點(diǎn)曙光管理/登錄
節(jié)點(diǎn)曙光I620r—GIO8X4GBDDR31333MHz;1X300G2.5寸10000轉(zhuǎn)SAS硬盤;1X56GbInfiniband接口;2X1000M以太網(wǎng)接口;1*冗余電源;1*超薄DVD-RW;1*上架導(dǎo)軌;1.2存儲(chǔ)子系統(tǒng)存儲(chǔ)系統(tǒng)曙光DS600-G10雙控FC3U,16盤位,雙控制器,4個(gè)8Gb/sFC+8個(gè)1GbISCSI主機(jī)通道,雙鋰電池,2*2GBCache;冗余電源;含4個(gè)SFP(8Gb);Cache容量可升級(jí)為2*16GB;600G15000轉(zhuǎn)6GbSAS硬盤*16塊套11.3網(wǎng)絡(luò)子系統(tǒng)計(jì)算網(wǎng)絡(luò)IB交換機(jī)FDRInfiniband交換機(jī),36端口臺(tái)2Infiniband線纜MXMC2207310-00556GBQSFPFDR5MIB光纜根65管理網(wǎng)絡(luò)千兆交換機(jī)48端口交換機(jī),10/100/1000baseT銅接口臺(tái)2防火墻集群安全模塊TLFW-1000T龍芯防火墻標(biāo)配6個(gè)千兆電口,1U機(jī)架。并發(fā)連接數(shù)120萬(wàn),吞吐量1G,支持SSLVPN隧道數(shù)300配合Nikey智能密鑰*10:曙光精心打造的USBKey解決方案,內(nèi)置8位國(guó)產(chǎn)安全芯片,自主開(kāi)發(fā)COS。硬件實(shí)現(xiàn)數(shù)字簽名,私鑰永不出Key。臺(tái)11.4機(jī)柜子系統(tǒng)機(jī)柜系統(tǒng)曙光天潮標(biāo)準(zhǔn)機(jī)柜標(biāo)配2個(gè)PDU、雙側(cè)門,無(wú)電源箱,無(wú)監(jiān)控液晶觸摸一體機(jī)個(gè)3曙光天潮標(biāo)準(zhǔn)電源箱380V無(wú)監(jiān)控電源箱個(gè)1監(jiān)控系統(tǒng)曙光智能機(jī)柜監(jiān)控系統(tǒng)支持四臺(tái)機(jī)柜溫濕度遠(yuǎn)程監(jiān)控套1曙光集群監(jiān)控中心監(jiān)控液晶觸摸一體機(jī),含LCD、觸摸屏、監(jiān)控主機(jī)各1套,安裝在機(jī)柜前面板門上套1控制臺(tái)曙光集群控制臺(tái)1U手動(dòng)伸縮控制臺(tái)(曙光17"液晶顯示器、鼠標(biāo)、鍵盤、8口切換器等)套1視頻切換系統(tǒng)SKVMSKVMIVOverIP(包含鍵盤鼠標(biāo))臺(tái)1CIMKVM節(jié)點(diǎn)控制模塊個(gè)72軟件部分操作系統(tǒng)LinuxSuSELinux企業(yè)版套1集群管理
系統(tǒng)曙光GridView2。5曙光應(yīng)用門戶
系統(tǒng)GridviewClusportal
系統(tǒng)應(yīng)用開(kāi)發(fā)
環(huán)境數(shù)學(xué)庫(kù)MPI并行環(huán)2.1.2系統(tǒng)拓?fù)鋱DGridViewHPC版,支持系統(tǒng)部署、系統(tǒng)監(jiān)控、集群管理、數(shù)據(jù)報(bào)表、統(tǒng)一告警、作業(yè)調(diào)度。basicportal,包含serial和mpi,支持互動(dòng)作業(yè),作業(yè)故障自動(dòng)切換重啟,文件傳輸,查看修改文件操作。GridviewClusQuota集群配額系統(tǒng),可支持用戶機(jī)時(shí)配額管理,充值計(jì)費(fèi)管理,用戶信用管理等功能。(可選)包含F(xiàn)luent軟件作業(yè)調(diào)度GNU編譯器,支持C/C++Fortran77/90Intel編譯器,支持C/C++FortranMKL,BLAS、LAPACK、ScaLAPACK、FFTWOpenMPI(支持Infiniband和以太網(wǎng)的MPI環(huán)境)MPICH2(支持千兆以太網(wǎng)的MPI環(huán)境)系統(tǒng)拓扌卜閹丁品「新軸/■一「Im651并行存儲(chǔ)系統(tǒng)(96T)骨理/登陸節(jié)點(diǎn)計(jì)十.a■.斗亠-叢*■燦較耀:冏7J片^?(TC4600片地KYM控制臺(tái)HUF胖節(jié)點(diǎn)<-KFL^J點(diǎn)機(jī)房壞境2.1.3系統(tǒng)方案說(shuō)明.計(jì)算系統(tǒng)CPU整體峰值性能達(dá)到17。7萬(wàn)億次,可以擴(kuò)展到500萬(wàn)億次;.主要產(chǎn)品都采用了冗余設(shè)計(jì)(電源、風(fēng)扇等),存儲(chǔ)系統(tǒng)采用冗余設(shè)計(jì),系統(tǒng)的可靠性有較高保證;.系統(tǒng)功耗(不含空調(diào)制冷系統(tǒng))不超過(guò)為,150千瓦,電費(fèi)可按此核算;.曙光公司將為用戶提供完善的服務(wù),包括安裝調(diào)試、系統(tǒng)優(yōu)化、用戶培訓(xùn)等,這些都不單獨(dú)收費(fèi),用戶不必考慮這些方面的費(fèi)用;.曙光公司提供5年免費(fèi)上門服務(wù),極大降低了用戶的運(yùn)行維護(hù)費(fèi)用;.曙光公司是領(lǐng)先的專業(yè)高性能機(jī)算機(jī)及方案提供商,擁有較多的成功案例,包括百萬(wàn)億次超級(jí)機(jī)算機(jī)的成功案例,產(chǎn)品的可靠性和穩(wěn)定性得到了充分驗(yàn)證。2.1.4需求相應(yīng)分析先進(jìn)性本系統(tǒng)中,我們使用的刀片集群架構(gòu),為目前高性能發(fā)展的先進(jìn)趨勢(shì).使用的最新一代IntelE5—2600處理器,為目前性能最高的X86處理器。使用的FDR網(wǎng)絡(luò),也為目前最為先進(jìn)的網(wǎng)絡(luò)技術(shù)。同時(shí),系統(tǒng)中使用的并行文件系統(tǒng)、自動(dòng)功耗管理系統(tǒng)和HPC應(yīng)用WEBpotal,均代表著HPC的先進(jìn)的發(fā)展方向。高可靠、高可用需求系統(tǒng)采用刀片服務(wù)器,冗余電源,雙控制器存儲(chǔ)系統(tǒng)、高級(jí)別RAID系統(tǒng),以及關(guān)鍵節(jié)點(diǎn)的HA雙機(jī),同時(shí),高效管理監(jiān)控系統(tǒng)也是保證系統(tǒng)高可靠、高可用的保證。適合用戶應(yīng)用軟件需求用戶應(yīng)用軟件眾多,用戶眾多,對(duì)計(jì)算需求大,系統(tǒng)共配置101TFLOPS的計(jì)算能力。針對(duì)部分應(yīng)用對(duì)節(jié)點(diǎn)間網(wǎng)絡(luò)需求高,配置了高帶寬低延時(shí)的FDRInfiniband網(wǎng)。帶寬達(dá)到56Gbps,延時(shí)小于1us。同時(shí),海量計(jì)算時(shí)的I0并發(fā)讀寫(xiě)量巨大,對(duì)存儲(chǔ)的容量和性能需求驚人,系統(tǒng)配置了并行存儲(chǔ)系統(tǒng),能夠?qū)崿F(xiàn)所有存儲(chǔ)的統(tǒng)一地址和并發(fā)讀寫(xiě)。易使用需求系統(tǒng)配置了HPCWEBPortal,可以有效降低用戶使用難度。同時(shí),針對(duì)系統(tǒng)和應(yīng)用的專業(yè)培訓(xùn),也能提高使用人員的使用水平。針對(duì)應(yīng)用軟件的安裝調(diào)試也大大降低了用戶的使用難度。?可擴(kuò)展性需求集群的架構(gòu)可以保證計(jì)算系統(tǒng)的良好擴(kuò)展,同時(shí),并行存儲(chǔ)的架構(gòu)也實(shí)現(xiàn)對(duì)存儲(chǔ)系統(tǒng)的擴(kuò)展。易管理維護(hù)需求配置高效管理系統(tǒng),支持監(jiān)控、告警、管理、報(bào)表等多項(xiàng)功能,解決管理員的后顧之憂,同時(shí),對(duì)管理員的培訓(xùn)和對(duì)系統(tǒng)的運(yùn)維支持,也能有效提高系統(tǒng)的管理水平。節(jié)能環(huán)保需求配置了刀片系統(tǒng)和高效節(jié)能系統(tǒng),支持空載節(jié)點(diǎn)的自動(dòng)待機(jī),能夠有效降低能耗,幫助用戶節(jié)省運(yùn)維成本。計(jì)算系統(tǒng)2.2.1刀片集群系統(tǒng)共配置63個(gè)雙路8核刀片服務(wù)器,主頻2.2Ghz,雙精度峰值接訴17萬(wàn)億次.目前,開(kāi)放的集群(Cluster)系統(tǒng)具有較多的優(yōu)勢(shì),已經(jīng)占據(jù)了目前高性能計(jì)算機(jī)的主流位置,在T0P500中占據(jù)了80%以上的份額,在中小規(guī)模的高性能計(jì)算系統(tǒng)中更是占據(jù)統(tǒng)治地位。刀片式集群系統(tǒng)在計(jì)算密度、功耗散熱、運(yùn)營(yíng)成本、維護(hù)成本、可靠性等方面,都明顯優(yōu)于其它系統(tǒng),且為系統(tǒng)的擴(kuò)容升級(jí)提供了良好的基礎(chǔ),刀片系統(tǒng)的優(yōu)勢(shì)主要體現(xiàn)在以下幾個(gè)方面.■計(jì)算密度更高提高計(jì)算密度是刀片服務(wù)器發(fā)展的主要?jiǎng)恿χ弧?duì)于大規(guī)模并行計(jì)算機(jī)來(lái)說(shuō),提高計(jì)算密度尤其重要,刀片式集群系統(tǒng)有效提高了計(jì)算密度。機(jī)房要求降低大規(guī)模高性能計(jì)算機(jī)將對(duì)機(jī)房空間提出較高的要求,并且要為系統(tǒng)的擴(kuò)容升級(jí)留下空間。刀片式集群系統(tǒng)實(shí)現(xiàn)了較高的計(jì)算密度,并且有效降低了系統(tǒng)功耗,對(duì)系統(tǒng)空調(diào)等散熱系統(tǒng)的要求也相對(duì)降低。功耗散熱降低刀片服務(wù)器的功耗部件較少.刀片柜中的電源將由多個(gè)刀片共享,所以會(huì)使用高效率電源,減小了系統(tǒng)功耗,同時(shí)產(chǎn)生的熱量減少,減少了冷卻系統(tǒng)的耗電量.節(jié)能的設(shè)計(jì)體現(xiàn)在曙光刀片服務(wù)器的各個(gè)層面:1)根據(jù)實(shí)時(shí)功耗確定工作電源個(gè)數(shù),使電源工作在最佳效率曲線上。2)修改計(jì)算刀片操作系統(tǒng)內(nèi)核,實(shí)現(xiàn)節(jié)能3)多計(jì)算刀片任務(wù)調(diào)整調(diào)度布線簡(jiǎn)單在機(jī)架式服務(wù)器構(gòu)成的集群系統(tǒng)中,系統(tǒng)布線是一個(gè)很大的問(wèn)題.系統(tǒng)的線纜可能包括高性能計(jì)算網(wǎng)絡(luò)(Infiniband,以太網(wǎng)等)、數(shù)據(jù)網(wǎng)絡(luò)、管理網(wǎng)絡(luò)、監(jiān)控網(wǎng)絡(luò)、電源網(wǎng)絡(luò)、KVM網(wǎng)絡(luò)等,這些線纜需要連接到每一個(gè)計(jì)算單元。尤其是在高密度、計(jì)算單元數(shù)目又比較多的情況下,系統(tǒng)布線是令設(shè)計(jì)人員頭疼的問(wèn)題。刀片式集群系統(tǒng)可以大大減少系統(tǒng)布線的數(shù)量.多個(gè)刀片服務(wù)器可以共用冗余電源,內(nèi)置的交換機(jī)將高速網(wǎng)絡(luò)(Infiniband等)、數(shù)據(jù)網(wǎng)絡(luò)、管理網(wǎng)絡(luò)、KVM網(wǎng)絡(luò)集成在一起,只需要對(duì)刀片柜進(jìn)行布線,刀片柜內(nèi)部的計(jì)算刀片通過(guò)背板連接,無(wú)需布線。根據(jù)計(jì)算,使用刀片式集群,可以節(jié)省85%以上的系統(tǒng)布線??煽啃蕴岣呤锕獾镀?wù)器采用無(wú)源背板進(jìn)行系統(tǒng)互連,與傳統(tǒng)的線纜連接方式相比,把可靠性提高到了一個(gè)數(shù)量級(jí)以上.刀片系統(tǒng)采取模塊化、冗余、熱插拔設(shè)計(jì),進(jìn)一步提高了系統(tǒng)的可靠性。管理方便曙光刀片服務(wù)器管理監(jiān)控高度集成:通過(guò)統(tǒng)一的監(jiān)控界面,監(jiān)控所有刀片資源,包括機(jī)箱電源、風(fēng)扇、計(jì)算刀片、背板、交換機(jī)。管理系統(tǒng)整合目前兩大監(jiān)控技術(shù),即IPMI以及KVM(OverIP),真正實(shí)現(xiàn)監(jiān)視控制一體化。同時(shí),為實(shí)現(xiàn)方便快捷的刀片服務(wù)器管理,通過(guò)優(yōu)化的管理軟硬件設(shè)計(jì),改善可管理性,增強(qiáng)部署和可服務(wù)性,這些將降低總的所有權(quán)成本。2?2?2IntelE5—2600處理器性能優(yōu)勢(shì)2012年3月,IntelXeon處理器E5—2600發(fā)布,E5—2600處理器相比上代雙路服務(wù)器Xeon5600系列處理器在處理器架構(gòu)上進(jìn)行了重大調(diào)整,從而帶來(lái)最高達(dá)到77%的性能提升.E5-2600相比上代5600處理器,在處理器核心數(shù)、流水線長(zhǎng)度、內(nèi)存帶寬等多個(gè)方面都對(duì)做出了重大提升,所以導(dǎo)致了性能的巨大飛躍。對(duì)于最能衡量高性能計(jì)算處理能力的speccpu2006f性能,相比上一代處理器,最多
高達(dá)77%的性能提升。Intel?Xeon?ProcessorE5-26Q0ProductFamily加gh!回Higheri$betterES2660EE-2C70E5-2665XE£6DEE-2ME5-2E3O65-2620AlleshmflbKawymcM[Htd?Compiler】工】曲嚴(yán)8C115W2.4GHzIjgh1mw8C115W?_6GHz孤説5?fiC95WJ.aOGHrAddIIR5ktE5-3E(X]SKL%■'―_iB=.--JZ~.Wcrk-ilajtiicMi.艸SKUS75丄_Xeon*pro&BSSor&enesE5W7|4€KOW2.13GHzEEW6[iSSE5-3fi43P」EP匸misBCMW2,2GHz加gh!回Higheri$betterES2660EE-2C70E5-2665XE£6DEE-2ME5-2E3O65-2620AlleshmflbKawymcM[Htd?Compiler】工】曲嚴(yán)8C115W2.4GHzIjgh1mw8C115W?_6GHz孤説5?fiC95WJ.aOGHrAddIIR5ktE5-3E(X]SKL%■'―_iB=.--JZ~.Wcrk-ilajtiicMi.艸SKUS75丄_Xeon*pro&BSSor&enesE5W7|4€KOW2.13GHzEEW6[iSSE5-3fi43P」EP匸misBCMW2,2GHz8C冊(cè)2,0GHzSC80W2.53GHzLX5&4&f——21B―Hl?0iSocnrX56454CaowI2MGHzXE$2DXSfiSD右護(hù)崛2JGh13OW+37**E5-2637LowPower1T.r—E5-265OLr8*!4CMWZ4GHz^5-2BD9|rjcaow1.8GHzE5-2&D3|AitSKUa,fr^qu&nc^ia/ldfeattFieJarePR£LiMfNAfi¥andcanchangewithoutnobce■K563A(UoEtil,&€)1E5-2fi?Q1■K563A(UoEtil,&€)1E5-2fi?Q12.9GJHZ,BCjJS:iEJaml^niiiida^ara?UTik:■對(duì)于眾多高性能計(jì)算應(yīng)用,相比上代處理器,基本都超過(guò)50%以上的性能提升。2SSandyBridge-EPHPCA叩licationPerformanceHPCSuiteWorkloads,SingleNodeR4stv>aFtaf?rmanes(Hgp*izba:tci'|■UsingXeon*F^-Z690COScopping(SandyBndgeLP|?BestHIConfig.TurtoONXeon^E5-2690deliveringgreatgenerationRperformanceincreaseFarrwcrAfv*fl>$o1o>ltl^MMnfc£gBpfirEQHR.Rsat;fantenESVK&dbzod:<iiftnuI亡胡□護(hù)&aidarcpnucbd-FM[加阿<es出?1y.呵Memccnqfstankrdwatoran^udKnKifptfi^ruraz.(Bi^n^ttElD11.lhfe:Cmp^eikt.UfTELCONFTDCVWM--HDAREQUIRED通過(guò)調(diào)整流水線的長(zhǎng)度和增加CPU核心數(shù),相比上代處理器,linpack性能最多超過(guò)
100%的性能提升。Intel?Xeon?ProcessorE5-2600ProductFamilyMatrixMultiplicationPerformanceonLmpaekHigharisbsttGt"322JAllesbmatssassume95%effiaency,
calculatedi^BinqTDPfne口uanay\^221JQl.E加inHigharisbsttGt"322JAllesbmatssassume95%effiaency,
calculatedi^BinqTDPfne口uanay\^221JQl.E加in匸仍"■-2fl1.fi79dJr:人21—E-s竺?.l5l—Qpwnn"ozm沖旳i3.WH3.FHiW479QHE.比*;E>2*?d蹴rE5-ifl05t2-?KHTrE3Z6frO|Z.K3?t.EH即班W匚ll&ihij135^1M世1llE^J115L啊3皿(5-20J0C5-Z0**椅-姒0r..h■■■(2EG甌i|2\3GHr.(2?Htp(33GH]p17DQHE.丘躬Hli;H時(shí).亠I!“川繪*<;4匚比9W95W1弼時(shí)iIL叱9SW1貝匚匸eslErat:巳matrixniultipiicationperformancebyupto2X
withtheIntel?Xeon?processorE5-2600productfamitycbf*3*"dsmaiYbe匚<aimedzthe.pvopcfb/cf□:cbf*3*"dsmaiYbe匚<aimedzthe.pvopcfb/cf□:hersIMTEtO0?FTDeNTlAL-NDAREQU1H.EDGPGPU計(jì)算節(jié)點(diǎn)系統(tǒng)共配置4臺(tái)GPGPU節(jié)點(diǎn),該GPGPU節(jié)點(diǎn)配置4塊NVDIAC2075GPU卡,共提供單精度峰值16TFL0PS.雙精度峰值8TFL0PS.GPGPU計(jì)算是指利用圖形卡來(lái)進(jìn)行一般意義上的計(jì)算,而不是傳統(tǒng)意義上的圖形繪制。時(shí)至今日,GPU已發(fā)展成為一種高度并行化、多線程、多核的處理器,具有杰出的計(jì)算功率和極高的存儲(chǔ)器帶寬,如圖所示。J0IjHxQuaGTMO-GcT-cr-m-Sn3?兇?J0IjHxQuaGTMO-GcT-cr-m-Sn3?兇?artcm-S&W砸G?L-Gcrann7M?Egaj■tsduHEptuvcrxnjwo■卻做亡沖■■血IWX--[rfF?caPi5-3SC>U?n11Vi"-MfiMEFK5H.UAQjn聊MiJOH踰CPU和GPU的每秒浮點(diǎn)運(yùn)算次數(shù)和存儲(chǔ)器帶寬CPU和GPU之間浮點(diǎn)功能之所以存在這樣的差異,原因就在于GPU專為計(jì)算密集型、高度并行化的計(jì)算而設(shè)計(jì),上圖顯示的正是這種情況,因而,GPU的設(shè)計(jì)能使更多晶體管用于數(shù)據(jù)處理,而非數(shù)據(jù)緩存和流控制,如圖所示.ControlALUALUALUALUControlALUALUALUALUDRAMDRAMCPUGPUCPUGPU中的更多晶體管用于數(shù)據(jù)處理目前,已經(jīng)有非常多的高性能應(yīng)用完成了在GPU系統(tǒng)上的移植。GPGPU適用的應(yīng)用&用領(lǐng)域應(yīng)用軟件金融/敷據(jù)挖捏MATLABJacket(MATLABPlugln|MathematicsNlAGMurex音視顛處豐JPB52OOOCUDaEncode*H2&4分子功力學(xué)AmberLammpsGromacsAbaloneMAMD/VMDHOOMD-BlueACEMGJCP2KDL_POL¥AbinitQ-CHEMTerflChemtipre^MCi/PWscfNwch^m分子可規(guī)■憂AmiraCoreHoppingFastROCSVMD序列KW3M序DNABiStCUDA-ECCUDA-BLASTPCUDA-MEMEGPUBlastCUDASW+*WHMMERSARUMANMUMm-erGPUMUMmerGPU++StqNFindUGEIME藥物/工業(yè)設(shè)計(jì)HEXProtein(kickirig朮rriEgiSirnuli?結(jié)構(gòu)力學(xué)An$y$:MechanicalPAM-CRASHIMPETUSAfesLS^DYNARADIOSAbaqusNJSCnsnMSCMarc掘體力學(xué)AutcKdieskMoldfl-QWOpenFOAMSolverTurbostreamAltairAcuSolveSandiaNL53CFEFLO(Lehner)PrometechPirti-clewQrksSD*+(Jameson}LBuRraFluiDyna工業(yè)謎計(jì);CADD^iultSystemes:CATIAAutodeskSolHworksPTC醫(yī)學(xué)成像DigisenSDigiHCTAccclrwar^AKlRe-conSiiSifn已醮Fmjrsight電鐵學(xué)C5TAftdentEMFfPSPEAGSGMCA&XRemtomx記舊國(guó)防怙攝iktriBESRIIntergraphManirfcild世染MentalimsnesAdobeAvidM^inConceprAurodesfeM&EsonyPfitf徉/環(huán)境ASUCANIMCAMHIRLAMGEOS-5HOMMEMriigciviHYCOMQuda(IL-QCD)地麗莊闕牡理SchlumburgerrkP^nidigmRTM$oh*>e「cufftcublasculapack2.3網(wǎng)絡(luò)系統(tǒng)本方案的網(wǎng)絡(luò)系統(tǒng)的設(shè)計(jì)從性能和可靠?jī)蓚€(gè)原則出發(fā),采用2套網(wǎng)絡(luò)。網(wǎng)絡(luò)配置都考慮了擴(kuò)展余量,以便系統(tǒng)擴(kuò)充。
網(wǎng)絡(luò)方案設(shè)計(jì)充分考慮到了計(jì)算節(jié)點(diǎn)、存儲(chǔ)節(jié)點(diǎn)、網(wǎng)絡(luò)交換機(jī)的性能參數(shù),在保證了系統(tǒng)穩(wěn)定的前提下,使每臺(tái)設(shè)備都能得到最大限度的利用。2?3?1千兆管理網(wǎng)絡(luò)配置1臺(tái)高端千兆交換機(jī),配合刀片機(jī)箱的管理模塊,連成千兆管理網(wǎng)絡(luò)。該交換機(jī)1U高,48個(gè)千兆端口,實(shí)現(xiàn)系統(tǒng)中所有節(jié)點(diǎn)的聯(lián)通。千兆管理網(wǎng)絡(luò)用于系統(tǒng)管理控制、系統(tǒng)監(jiān)控、作業(yè)的遞交、作業(yè)監(jiān)控管理等方面的數(shù)據(jù)通訊。2?3?2Infiniband高速網(wǎng)系統(tǒng)配置2臺(tái)36端口InfinibandFDR交換機(jī),共同組成56GbpsFDR全線速網(wǎng)絡(luò)。單向56Gb的FDRInfiniband網(wǎng)絡(luò)相比,相比上代單向40Gb的QDRInfiniband網(wǎng)絡(luò),性能得到了非常大的提升。這得益于三方面:FDR網(wǎng)絡(luò)傳輸性能的提高,傳輸性能從QDR的40Gb增加到FDR的56Gb。FDR網(wǎng)絡(luò)編碼效率的提升,編碼效率從QDR的8/10提高到FDR的64/66。PCI—E3。0編碼效率的提升,編碼效率從PCI—E2。0的8/10提高到PCI—E3。0的128/130。綜合起來(lái),QDR網(wǎng)絡(luò)由于編碼效率的影響,帶寬僅能達(dá)到Bandwidth(QDR)=40Gbps*0。8*0.8/8=3。2GBps而FDR的帶寬可達(dá)到Bandwidth(QDR)=56Gbps*(64/66)*(128/130)/8=6。6GBps實(shí)際達(dá)到一倍以上的性能提升InfiniBandBandwidthBi-Directional1JMJO12MJO14XM0SOM12MJO14XM0SOM"中華誥祈酬少褂誠(chéng)*肚迖廿Byt#sIBQDR——IBFDR
InfiniBandlatencyL石對(duì)于網(wǎng)絡(luò)密集型的高性能應(yīng)用,F(xiàn)DR網(wǎng)絡(luò)帶來(lái)的性能提升也是非常明顯,如下圖所示的分子動(dòng)力學(xué)應(yīng)用NAMD,網(wǎng)絡(luò)設(shè)備升級(jí)成FDR后,性能和擴(kuò)展性都得到大幅提升。NAMDPerformance>swuUBUXyo>swuUBUXyo」①dFDRInfiniBand/PCIe3.0QDRInfiniBand/PCIe2.02.4存儲(chǔ)系統(tǒng)2?4?1高性能集群存儲(chǔ)的需求特點(diǎn)高性能計(jì)算集群在多個(gè)節(jié)點(diǎn)進(jìn)行大規(guī)模并行計(jì)算的同時(shí),需要進(jìn)行大量文件及數(shù)據(jù)訪問(wèn),對(duì)于系統(tǒng)的存儲(chǔ)性能也提出非常高的要求,系統(tǒng)對(duì)存儲(chǔ)要求主要?dú)w結(jié)為以下幾點(diǎn)。全局文件的統(tǒng)一印象;高性能集群相比其它應(yīng)用而言,一個(gè)顯著的特點(diǎn)為保證參與計(jì)算的所有節(jié)點(diǎn)具有統(tǒng)一的文件印象,也就是說(shuō),在任何一個(gè)節(jié)點(diǎn)、對(duì)某一個(gè)文件的讀寫(xiě)、修改都會(huì)在其它節(jié)點(diǎn)生效,實(shí)現(xiàn)這一個(gè)功能,往往需要通過(guò)網(wǎng)絡(luò)文件系統(tǒng)來(lái)實(shí)現(xiàn),較為傳統(tǒng)的為nfs系統(tǒng),當(dāng)前,由于集群規(guī)模的增大和訪問(wèn)性能的要求逐漸提高,并行文件系統(tǒng)在中大規(guī)模的高性能集群中使用越來(lái)越廣泛.全局文件的高速訪問(wèn);對(duì)于某些規(guī)模較大集群,或者某些高10應(yīng)用集群,由于對(duì)存儲(chǔ)的訪問(wèn)量很大,對(duì)共享存儲(chǔ)的訪問(wèn)性能也提出了較高要求.通常,我們需要通過(guò)提高磁盤陣列的性能、存儲(chǔ)介質(zhì)的性能、磁盤陣列訪問(wèn)接口的性能和IO節(jié)點(diǎn)的網(wǎng)絡(luò)性能來(lái)提高存儲(chǔ)的訪問(wèn)性能。對(duì)于更高IO需求的系統(tǒng),可以通過(guò)并行存儲(chǔ)系統(tǒng)來(lái)實(shí)現(xiàn)海量文件的并發(fā)讀寫(xiě)。存儲(chǔ)系統(tǒng)的大容量;由于高性能集群的規(guī)模巨大、數(shù)據(jù)處理能力驚人,高性能集群集中存儲(chǔ)的容量也往往非常驚人,動(dòng)輒達(dá)到數(shù)十TB,在某些對(duì)海量存儲(chǔ)需求的系統(tǒng)中,存儲(chǔ)往往達(dá)到上百TB,甚至PB量級(jí)。存儲(chǔ)系統(tǒng)的高可靠性;高性能集群承擔(dān)著重要的科研任務(wù),用戶的數(shù)據(jù)具有極高的價(jià)值,同時(shí),存儲(chǔ)為全局系統(tǒng),一旦出現(xiàn)故障,將導(dǎo)致整個(gè)系統(tǒng)的不可用。所以在存儲(chǔ)系統(tǒng)中,無(wú)論IO節(jié)點(diǎn)、存儲(chǔ)交換機(jī)、還是存儲(chǔ)磁盤陣列,存儲(chǔ)介質(zhì),每個(gè)環(huán)節(jié)都要盡可能的保證高可靠性和高可用性.可以通過(guò)冗余電源、高級(jí)別raid、雙機(jī)熱備、數(shù)據(jù)備份等各種手段保證存儲(chǔ)系統(tǒng)的高可靠性2?4?2Parastor200并行存儲(chǔ)系統(tǒng)系統(tǒng)配置曙光Parastor200并行存儲(chǔ)系統(tǒng),裸容量達(dá)到192TB,可用容量96T。曙光parastor200并行存儲(chǔ)系統(tǒng)采用多副本、全冗余技術(shù),支持單一存儲(chǔ)命名空間、支持容量海量擴(kuò)展,性能線性擴(kuò)展,能夠滿足高性能計(jì)算中心海量文件并發(fā)讀寫(xiě)需求.Parastor200并行存儲(chǔ)技術(shù)特點(diǎn)按使用計(jì)費(fèi)動(dòng)態(tài)擴(kuò)展服務(wù)質(zhì)量保證高可靠性高容錯(cuò)性多租戶多訪問(wèn)協(xié)議全局命名空間大規(guī)模資源池化運(yùn)營(yíng)管理高性能按使用計(jì)費(fèi)動(dòng)態(tài)擴(kuò)展服務(wù)質(zhì)量保證高可靠性高容錯(cuò)性多租戶多訪問(wèn)協(xié)議全局命名空間大規(guī)模資源池化運(yùn)營(yíng)管理高性能集群化并行存儲(chǔ)架構(gòu),數(shù)據(jù)分布存儲(chǔ),并發(fā)讀寫(xiě)容量、性能線性增長(zhǎng),資源配額和性能質(zhì)量保證,統(tǒng)一調(diào)度分配存儲(chǔ)空間全局目錄、單一系統(tǒng)映像,虛擬存儲(chǔ)池,精簡(jiǎn)配置資產(chǎn)生命周期管理、帶寬分配管理、記賬計(jì)費(fèi),存儲(chǔ)空間租賃與管理多企業(yè)、個(gè)人用戶,多訪問(wèn)協(xié)議:CTDB、CIFS、FTP、RESP、SOAP多副本、全冗余架構(gòu),保證系統(tǒng)的可靠性與可用性Parastor200系統(tǒng)組成管理控制器-提供命令行和圖形界面兩種接口—內(nèi)嵌并行存儲(chǔ)管理系統(tǒng),對(duì)軟硬件進(jìn)行一體化監(jiān)控管理索引控制器—管理存儲(chǔ)系統(tǒng)中所有元數(shù)據(jù)和命名空間-支持多副本,Active-Active運(yùn)行方式數(shù)據(jù)控制器—提供數(shù)據(jù)存儲(chǔ)空間,48TB裸容量—支持多副本容錯(cuò),自動(dòng)處理磁盤失效應(yīng)用服務(wù)器—向上應(yīng)用提供數(shù)據(jù)訪問(wèn)接口
—支持多種Linux內(nèi)核■Parastor200體系架構(gòu)訓(xùn)ebl卅務(wù)雎應(yīng)用垠務(wù)霽咅戶竭腔擬馭卄畔文nilK^SSrr??“??i*r比41幾血舟1n比41幾血舟1n■Parastor200統(tǒng)一管理界面基于GridviowSS—管理框架Q^uuauLk4H<4l2<-■■■?!'S'l-i.'.STP.Br^rTWIthwRi?--FUM:j?.wp!4ji.iv*Qw?w\lWUffl-jN-t?-i??二wnAfalMIUit1iilPFiK&nipIMIlAmwNnMn?w?aKCh'UIhau町flSih*■7>51■0ME起沁aHhI?■fiC-illI?rMFtiH?IthNk^?K?HnK>II監(jiān)控營(yíng)理監(jiān)控營(yíng)理系統(tǒng)部誓妄裝配置2?4?3DBstor備份系統(tǒng)系統(tǒng)酉F置DBstor備份系統(tǒng)20TB,保證系統(tǒng)關(guān)鍵數(shù)據(jù)的安全。DBstor支持重復(fù)數(shù)據(jù)刪除的SmartDisk技術(shù),能有效備份數(shù)據(jù)的同時(shí),大大節(jié)省存儲(chǔ)空間。曙光DBstor備份系統(tǒng)具有如下特點(diǎn):1)為關(guān)鍵數(shù)據(jù)提供高速、基于備份時(shí)間點(diǎn)的恢復(fù)DBstor利用全線速的雙千兆數(shù)據(jù)傳輸鏈路、高速磁盤控制器組并行接收/發(fā)送應(yīng)用服務(wù)器的備份/恢復(fù)數(shù)據(jù),保障數(shù)據(jù)備份/恢復(fù)的高效;在備份時(shí),DBstor鎖定應(yīng)用服務(wù)器特定時(shí)間點(diǎn)的數(shù)據(jù)影像,并對(duì)影像做數(shù)據(jù)一致性對(duì)比校驗(yàn),保證備份集的絕對(duì)可用性,從而最終保證DBstor基于時(shí)間點(diǎn)恢復(fù)的可靠性2)高速、高效、大容量的虛擬磁帶庫(kù)(VTL)功能DBstor采用獨(dú)特的磁盤介質(zhì)管理方式,在文件系統(tǒng)之上創(chuàng)建虛擬磁帶庫(kù)(VTL),保證備份數(shù)據(jù)在邏輯上保持連續(xù),避免頻繁磁盤尋道帶來(lái)的時(shí)間損耗,最大限度的利用磁盤組的并行讀寫(xiě)能力,從而提高備份與恢復(fù)速度;為充分利用DBstor的硬件性能,用戶可以根據(jù)實(shí)際情況定義虛擬磁帶庫(kù)的控制器數(shù)據(jù)、槽位、容量等,為支持更多客戶端并行的備份提供策略保障;DBstor支持10TB和20TB兩種VTL備份容量、滿足絕大部分關(guān)鍵數(shù)據(jù)備份場(chǎng)合的空間需求3)SmartDisk技術(shù)與重復(fù)數(shù)據(jù)刪除技術(shù)的有機(jī)結(jié)合DBstor支持VTL的同時(shí),提供另外一種性價(jià)比更高的介質(zhì)管理技術(shù)一SmartDisk,SmartDisk不等同于文件系統(tǒng)的磁盤管理技術(shù),SmartDisk以網(wǎng)絡(luò)服務(wù)的形式為DBstor提供磁盤存儲(chǔ)空間,并帶有高效的去重功能,可以實(shí)現(xiàn)高達(dá)數(shù)倍的存儲(chǔ)空間壓縮比;這樣既發(fā)揮磁盤存儲(chǔ)的高性能和高可用,又充分利用了存儲(chǔ)空間,可以大大節(jié)省客戶的投資4)備份策略的自動(dòng)化管理備份自動(dòng)化:用戶可以根據(jù)自身的實(shí)際情況,定義自動(dòng)執(zhí)行的備份策略和日程表,備份策略一旦制定,就可以按照規(guī)定動(dòng)作在無(wú)人職守的情況化,自動(dòng)完成備份任務(wù);5)報(bào)表生成自動(dòng)化每天的備份任務(wù)執(zhí)行情況,DBstor會(huì)自動(dòng)形成報(bào)表,詳細(xì)描述所有備份任務(wù)的招待情況,系統(tǒng)管理員可以選擇合適的方式進(jìn)行通知,比如經(jīng)由Windows信使,SNMP,自動(dòng)發(fā)送至管理人員的郵箱等6)全面的Vmware集成主機(jī)的虛擬化使用日益廣泛,DBstor對(duì)典型的虛擬化環(huán)境Vmware提供了全方位的支持,用戶既可以通過(guò)DBstor對(duì)應(yīng)的client調(diào)用VCB來(lái)對(duì)虛擬機(jī)進(jìn)行備份,也可以直接在虛擬機(jī)上對(duì)應(yīng)用數(shù)據(jù)進(jìn)行備份,給虛擬機(jī)的備份提供靈活的選擇7)配置管理易用性統(tǒng)一用戶圖形管理界面;數(shù)據(jù)庫(kù)備份不需要編輯腳本,純圖形操作;在做設(shè)備檢測(cè)時(shí),會(huì)自動(dòng)發(fā)現(xiàn)和配置存儲(chǔ)設(shè)備,并集中管理所有業(yè)務(wù)服務(wù)器進(jìn)行全自動(dòng)備份8)完善的介質(zhì)控制功能當(dāng)備份數(shù)據(jù)過(guò)期時(shí),備份介質(zhì)會(huì)自動(dòng)回收以釋放存儲(chǔ)空間;對(duì)全備份及增量備份會(huì)自動(dòng)合并,以產(chǎn)生新的全備份,并可以按照策略對(duì)數(shù)據(jù)格式轉(zhuǎn)換和加密9)獨(dú)特的備份管理方式可以根據(jù)備份任務(wù)多少靈活配置驅(qū)動(dòng)器數(shù)及磁帶數(shù),DBstor支持自動(dòng)數(shù)據(jù)庫(kù)數(shù)據(jù)導(dǎo)出并自動(dòng)進(jìn)行備份;對(duì)備份介質(zhì)和其中內(nèi)容進(jìn)行自動(dòng)分組管理;根據(jù)需要對(duì)所備份的數(shù)據(jù)進(jìn)行自動(dòng)恢復(fù),且可以實(shí)現(xiàn)對(duì)不同時(shí)間的備份內(nèi)容有選擇的進(jìn)行恢復(fù)10)多應(yīng)用及異構(gòu)操作系統(tǒng)支持DBstor支持多種操作系統(tǒng)客戶端,對(duì)操作系統(tǒng)可以做到一鍵式的備份與恢復(fù),支持Windows,linux,AIX等多平臺(tái)客戶端;對(duì)常見(jiàn)的數(shù)據(jù)庫(kù),如0RACLE,SYBASE,SQLSERVER等可實(shí)現(xiàn)在線的數(shù)據(jù)庫(kù)備份,配合日志的備份,可以將數(shù)據(jù)庫(kù)恢復(fù)到最新時(shí)間點(diǎn)11)優(yōu)異的硬件性能高性能的處理器和緩存以及RAID控制器,對(duì)于光纖SAN網(wǎng)絡(luò),單臺(tái)服務(wù)器的備份效率可以達(dá)到200GB/小時(shí);數(shù)據(jù)庫(kù)RAC在線備份效率可以達(dá)到200GB/小時(shí)2.5管理調(diào)度系統(tǒng)2.5.1管理/登陸節(jié)點(diǎn)系統(tǒng)配置2臺(tái)曙光天闊I620R-G雙路服務(wù)器,作為管理/登陸節(jié)點(diǎn),實(shí)現(xiàn)雙機(jī)互備。管理節(jié)點(diǎn)主要用于運(yùn)行集群管理軟件,Infinibandopensm服務(wù),作業(yè)調(diào)度服務(wù)、時(shí)間同步服務(wù)器等系統(tǒng)級(jí)服務(wù)進(jìn)程,管理節(jié)點(diǎn)對(duì)性能要求不高,但對(duì)可靠性要求很高。登錄節(jié)點(diǎn)主要用于用戶程序編譯、算例準(zhǔn)備,文件上傳下載,作業(yè)提交控制等用戶交互作業(yè)。登錄節(jié)點(diǎn)的負(fù)載根據(jù)用戶的數(shù)量和操作有較大變化。由于登錄節(jié)點(diǎn)可能存在用戶的非法操作而導(dǎo)致系統(tǒng)宕機(jī),所以只要預(yù)算允許的前提下,登錄節(jié)點(diǎn)和管理節(jié)點(diǎn)分開(kāi)的方案能提高整個(gè)系統(tǒng)的可靠性。KVM系統(tǒng)KVM系統(tǒng)用于視頻切換,可以通過(guò)一套視頻輸出設(shè)備(顯示器,鍵盤,鼠標(biāo))實(shí)現(xiàn)對(duì)集群中所有的節(jié)點(diǎn)的視頻切換和鍵盤鼠標(biāo)輸入操作.曙光SKVMoverIP(SuperKeyVideoMouse)系統(tǒng)是大型機(jī)群管理、部署、維護(hù)和監(jiān)控不可或缺的設(shè)備,與傳統(tǒng)的集線器式的8口或16口的KVM切換器相比,基于CIM/USTS的曙光SKVM系統(tǒng)有著不可替代的優(yōu)點(diǎn).SKVM采用普通網(wǎng)線傳輸,采用菊花鏈?zhǔn)竭B接,由CIM和USTS組成,每個(gè)USTS可以擴(kuò)展999個(gè)節(jié)點(diǎn),由于采用了信號(hào)轉(zhuǎn)換技術(shù)管理員可以在300m外進(jìn)行KVM信號(hào)的切換,極大的方便了管理員的工作,并且在這距離上無(wú)需專門的傳輸線,采用普通的網(wǎng)線即可。為實(shí)現(xiàn)機(jī)群設(shè)備的監(jiān)控管理,曙光SKVM系統(tǒng),可從單一控制臺(tái)(鍵盤/屏幕/鼠標(biāo))操作管理多臺(tái)服務(wù)器。單個(gè)USTS使用獨(dú)創(chuàng)的通信技術(shù),控制多達(dá)999臺(tái)服務(wù)器,不需傳統(tǒng)的KVM切換器及難以管理的電纜線,支持所有服務(wù)器管理高挑戰(zhàn)性的需求。2.5.3GridView集群管理調(diào)度系統(tǒng)構(gòu)建一套大規(guī)模高性能集群系統(tǒng)涉及到三個(gè)層面的內(nèi)容:最底層的是硬件平臺(tái),它是完成任務(wù)的最基礎(chǔ)設(shè)施;其次是os平臺(tái),包括節(jié)點(diǎn)機(jī)的操作系統(tǒng)以及集群操作系統(tǒng);最后是應(yīng)用環(huán)境平臺(tái),包括并行開(kāi)發(fā)環(huán)境以及編譯環(huán)境。高效率的集群系統(tǒng)需要幾個(gè)層面的緊密耦合、協(xié)調(diào)工作。曙光TC4000的注重效率的設(shè)計(jì)思路貫穿到每一個(gè)細(xì)節(jié),在每個(gè)層面上都做到性能最優(yōu)?尤其是OS平臺(tái)以及應(yīng)用環(huán)境平臺(tái)。曙光GridView大型機(jī)監(jiān)控管理系統(tǒng)繼承曙光DCMM2、DCAS等監(jiān)控管理產(chǎn)品的主要功能和技術(shù)特色,并增加多項(xiàng)優(yōu)秀功能開(kāi)發(fā)而成的機(jī)群監(jiān)控管理系統(tǒng)產(chǎn)品。GridView提供統(tǒng)一的集中式監(jiān)控平臺(tái),具備可擴(kuò)展性、集成性、可靠性和易用性,提供對(duì)各種商用、自己研發(fā)的管理工具的集成接口,從而滿足同時(shí)對(duì)各不同廠家大型機(jī)的環(huán)境、硬件、軟件等各方面進(jìn)行監(jiān)控的需求。集群監(jiān)控功能列表狀態(tài)監(jiān)測(cè)對(duì)服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備等各種設(shè)備的運(yùn)行狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)測(cè);
圖1.1系統(tǒng)整體實(shí)時(shí)統(tǒng)計(jì)信息對(duì)各種應(yīng)用程序的運(yùn)行狀態(tài)進(jìn)行監(jiān)測(cè);對(duì)運(yùn)行大型機(jī)的機(jī)房環(huán)境及設(shè)備運(yùn)行環(huán)境進(jìn)行實(shí)時(shí)監(jiān)測(cè);(|bHh.?*??■■■k-■■.'=■■--W-B*11(|bHh.?*??■■■k-■■.'=■■--49k<IH^VicWi*wiri^.<hmh--.l.wflfl-:Skhme.-4:wv.-Cjnis■-MWiferM&常」和譏町白■ftPEi■:HPM'J盤孰結(jié)PCI1r^(lSrwiE^*i|d?百W罕>r?4.'=Jt'Amn-30FV5SI說(shuō)■芒■Ih4*r1-|培出?F,—Bwm?±^ni調(diào)5-/Z/ZZZWZAW/Z//ZZ/Z/WZ衣"71網(wǎng)宜FUH犬鈿些豐屯兀呻上二I….IM#e:農(nóng)■二SM:肩辰-q:WZfrdoik?^圖1.2實(shí)時(shí)狀態(tài)監(jiān)測(cè)拓?fù)滹@示支持機(jī)柜方式的物理拓?fù)浞绞?按設(shè)備實(shí)際位置和相應(yīng)尺寸顯示,使管理員對(duì)整個(gè)
支持機(jī)柜方式的物理拓?fù)浞绞?按設(shè)備實(shí)際位置和相應(yīng)尺寸顯示,使管理員對(duì)整個(gè)圖1.3圖1.3物理機(jī)柜視圖告警管理■實(shí)時(shí)告警圖形顯示及列表查詢;■歷史告警列表查詢及統(tǒng)計(jì)分析■odvnAEuiicnKn-an?MotfanMaiiffKLi*iri>斑切m.131lMi]jWMb4"?晉仝.阪瑋*「■上5J-匕Rilj'WliE曲^SKKHIWWKttE3ttJGEff-13S?frfl5■fUi-FF*FI5ETFfiUS-■*-WH*-□WZ7KI7WTTI7Ht?=*¥t?=*¥尹.<e.T4?M^taKli*aSBLi!ElTJ|iU:'>SXXtEnar辭n鮎EirqiLBaguv-Mi廠i*SftHW5Fr^MSanti-dl2-ttEyiLrt;l74te>E|叱皿越舄a=*¥MlrIl鼻H阿LiJIElTmiUtjSkxIek?DR電常口訐耳IUDaghv-Mi廠仲H*?MWiiFrRBtt8ant=■Ld)x-ttE?iLrj;i7qte<応?E|a?t¥厶.rIf鼻闿田世ElTmiU卸SXXtEnar叱“片**辭H鮎EirqitBaguv-Mi廠i*SftHW5Fr^MSanti-dl2-ttEyiLrt;l74te>E|叱皿越舄a=*¥MlrIl鼻H阿LiJIElTmiUtjSkxIek?DR電??谟摱鶬UDaghv-Min仲H*?MWiiFrRBtt8ant頑Blij二!1輸I&VB9KE.碗ail,的鋼]|KHIKM-Uingl魁劍士『1]ZIM-II-:]3IHV?士:】凰國(guó):■□■mi齊陽(yáng)井21范歳撈訊:asiWBiOM?ItUfiirE啊Hl■比石1■HMi-ZWEI:lE/th■?'ttijiBMinn?i?PipKIliJESIX-HbJILrxIF^MI*迪■kuMEJ:BCiflt-Oi丸栽|「知!3]3IH-II-333IHE?FB4rl33>E!?^ai>嚇iil陽(yáng)1卜淚請(qǐng)腋期Mi:hbMbN呼呂:iFSUrcWSil丹■tMiJimg訃卿寵lE/tlF°曲羽JIBMIUliHEIT*.■6"pkjuJEEI:HuhTEiJIJ5i6■KHiiJaMS魁栽1r*呵3IM-II-:]]IHI-!-■□■mid畤4H1卅除i*訊:aiiWBiiSM?ItUfiirE啊加啊jin-ifrysimn■Kiih-?nEI:Ab.F■K>I冏JIHLII-nilHlIQ■pkiiiJESIX-HtJUrxh耐■耳皿^i■g”EJ:■0卄0iFi4v;a£3:-MtHR-PiEi?^ai->咖il陽(yáng)1卜淚證藥仙Mi:iibwH用旳:啊Hl■曲l|丹■KiiLriHIQ:*W5^*Ci賈*j-注.壽握*s曰!W?S5fcB?£-HV|ife-□彈科.r盲■科|T,.jd&ncHi■MU背Rqaumft-au圖1。4告警查詢■通過(guò)多級(jí)告警分析,定位最終告警原因
.T±£tn;**■:■■■>??.KVMtFK?WJiOHSiiR-圍iaiH仝Mni*ve-a吋we+:*y-SI31XIT4-嗣■MN片力:.T±£tn;**■:■■■>??.KVMtFK?WJiOHSiiR-圍iaiH仝Mni*ve-a吋we+:*y-SI31XIT4-嗣■MN片力:If旳*気Ili>xb|MUEin'J|ii!M'>flKSVE■■?!]<K:tfx-HibJilrx■輕:VX-HitJILrx■4v3i£S:li-l-itH4^1Simiaamsp?jaJiE]:d41MHTXIKtrnzfEiti?aiiaLi:zIV^REAi.riBMIUE.SKisttIF5III-.i|H?e-:■MIS?>in^圖1。5告警分析報(bào)表分析Gridview有豐富的報(bào)表功能,這在很多同類的監(jiān)控產(chǎn)品中是不多見(jiàn)的。支持小時(shí)報(bào)、日?qǐng)?bào)、月報(bào)、年報(bào)等多個(gè)時(shí)間段的報(bào)表生成;關(guān)聯(lián)報(bào)表,可以把多個(gè)設(shè)備的指標(biāo)在一個(gè)報(bào)表中生成并進(jìn)行多設(shè)備對(duì)比分析;也可以把一個(gè)設(shè)備的多個(gè)指標(biāo)在一個(gè)報(bào)表中生成,從而進(jìn)行多指標(biāo)之間的關(guān)聯(lián)分析;方便用戶查看報(bào)表可以導(dǎo)出成Pdf和方便用戶查看報(bào)表可以導(dǎo)出成Pdf和Exel文件圖1。6報(bào)表接口規(guī)范■采用標(biāo)準(zhǔn)接口,易于多套異構(gòu)系統(tǒng)的整合和統(tǒng)一監(jiān)控;集群管理功能列表管理授權(quán)一負(fù)責(zé)管理過(guò)程的授權(quán)控制,只有將管理節(jié)點(diǎn)的公鑰部署到被管理節(jié)點(diǎn),才能執(zhí)行各種集群管理操作。用戶管理—負(fù)責(zé)管理集群系統(tǒng)中的用戶與組群,允許集群系統(tǒng)管理員查看集群系統(tǒng)中用戶與組的配置,并且可以完成對(duì)集群系統(tǒng)的用戶和組的增加,刪除,修改等功能。進(jìn)程管理—顯示集群中運(yùn)行的進(jìn)程信息,在選定的節(jié)點(diǎn)組上運(yùn)行特定進(jìn)程,以及殺死特定進(jìn)程,保存當(dāng)前運(yùn)行的進(jìn)程信息等.服務(wù)管理—顯示集群中運(yùn)行的服務(wù)信息,在選定的節(jié)點(diǎn)組上啟動(dòng)、停止、禁用指定的系統(tǒng)服務(wù)文件管理—集群由少到幾個(gè)節(jié)點(diǎn)多到上百個(gè)節(jié)點(diǎn)組成,而管理集群中的文件則變成相當(dāng)復(fù)雜的任務(wù)°DCMS的集群文件瀏覽器Spreader是用于集群文件管理的工具,界面風(fēng)格猶如微機(jī)Windows下Explorer,操作方便、直觀。網(wǎng)絡(luò)配置-支持集群網(wǎng)絡(luò)管理中最常見(jiàn)的幾種工作:維護(hù)系統(tǒng)hosts表,以及設(shè)置網(wǎng)絡(luò)設(shè)備的IP地址.并行終端一可在多節(jié)點(diǎn)并發(fā)執(zhí)行命令,并提供SSH終端對(duì)直接登陸至被管理節(jié)點(diǎn)執(zhí)行各種操作。關(guān)機(jī)管理—快速的對(duì)選定節(jié)點(diǎn)或整個(gè)集群進(jìn)行關(guān)機(jī)/重啟/開(kāi)進(jìn)操作。集群用戶和組管理集群用戶組管理器(UserandGroupManager)是管理集群系統(tǒng)中的用戶與組群的一個(gè)工具,負(fù)責(zé)完成集群系統(tǒng)的用戶和組的管理工作,集群系統(tǒng)管理員可以通過(guò)它查看集群系統(tǒng)中用戶與組的配置,以及完成對(duì)集群系統(tǒng)中的用戶和組的增加,刪除,修改等操作。
圖2。1集群用戶管理界面組成進(jìn)程管理■顯示所選服務(wù)節(jié)點(diǎn)上的進(jìn)程信息,包括進(jìn)程名,運(yùn)行參數(shù),進(jìn)程依賴關(guān)系,CPU使用率,運(yùn)行時(shí)間,虛擬內(nèi)存大小等重要參數(shù),并且支持中文信息的顯示?!鼋K止若干個(gè)節(jié)點(diǎn)上(可以是運(yùn)行Linux或Windows2000系列操作系統(tǒng)的節(jié)點(diǎn))的某個(gè)進(jìn)程。對(duì)于運(yùn)行Linux操作系統(tǒng)的節(jié)點(diǎn),還可以向進(jìn)程發(fā)送特定的信號(hào),包括Terminate.Hangup,Interrupt等常見(jiàn)的信號(hào)。
圖圖2.2進(jìn)程列表集群系統(tǒng)hosts表hosts表最初的作用是提供從域名到IP地址的轉(zhuǎn)換,其作用類似現(xiàn)在的DNS系統(tǒng)。它出現(xiàn)于internet發(fā)展的初期,當(dāng)時(shí)連到internet上的機(jī)器并不多,每臺(tái)機(jī)器都維護(hù)一個(gè)hosts文件以提供域名到IP地址的轉(zhuǎn)換。隨著internet的發(fā)展,聯(lián)網(wǎng)機(jī)器的數(shù)目增多,域名IP的變化也越來(lái)越頻繁,每臺(tái)聯(lián)網(wǎng)機(jī)器都維護(hù)一個(gè)hosts數(shù)據(jù)表的做法越來(lái)越不實(shí)際,于是就出現(xiàn)了DNS系統(tǒng)。雖然在功能上DNS已經(jīng)完全取代了hosts表,但hosts表仍然被廣泛的使用,因?yàn)樗峁┮环N方便的名稱到IP的轉(zhuǎn)換。如讀者對(duì)hosts表的歷史信息感興趣可參考RFC952。Linux及Unix系統(tǒng)和Windows系統(tǒng)都提供hosts表功能,雖然在單機(jī)上手工直接修改系統(tǒng)的hosts表并不麻煩,但是在集群環(huán)境中,特別是大型集群或異構(gòu)集群,逐一修改維護(hù)集群中所有節(jié)點(diǎn)的hosts表是一件很繁重的工作。使用DCMS集群管理系統(tǒng)的hosts表管理模塊可以很輕松的維護(hù)管理整個(gè)集群的hosts表。]圈J醪一]圈J醪一f」Uix能群■/nodaSVHOdA1]nod亡1$nodtG』node?■/nndaB自卑El棚匪-uiLodxiii-iLod^slO:OPBodiU:電Vn詞創(chuàng)耳:魚(yú)』nock9:住/nod.15過(guò)iffl:r-近n-別若LL.]].IIL5let.a.ai1E-rkLKoxilarklc1-aKhlhnxt■1LL.]].11L5l監(jiān).】&a□.lhntda]□LL.]].11.L5L?.388.0.£bjiod^2LL.n.11.L5L血D.3LL.n.11.L5L吧J06.D.4.LL.11L5LflE.1&3.05biiodtSLL.ILL5LK.1&3.D&biiodt6LL.]].11.L5LW.IBS.0.TbTiDdtTLL.]].IILELW.DBLL.]].IILEL52.】&3[J日bxit■日TLL.]].ILL5L?.]&3010biiDdalOLL.n.11.L5L童.]M.0.1LbjiLdal1LL.jj.11.L5L童.i閃.0.12bnodblSLL.n.li.L5Lffi.168.0.13bnodtl?LL.11L5L?.1&3JJ.HbnodtHLL.11L5LflZ.J66.D.15biiodtlSLL.]].IIL5LW.□.LBbnc■日■】£LL.]].11LELL]].n1atda-LLL.]].II.L£LL.]].31.£HE-T41--.'狀;ft:行:圖2。3Hosts表管理IP管理
IP管理模塊提供設(shè)置修改節(jié)點(diǎn)網(wǎng)絡(luò)設(shè)備IP地址及其它參數(shù)的功能,IP管理模塊的大部分功能都同時(shí)支持Linux(Unix)系統(tǒng)及Windows系統(tǒng)。通過(guò)IP管理模塊,系統(tǒng)管理員能夠很方便的修改集群系統(tǒng)中各個(gè)Linux節(jié)點(diǎn)的IP地址信息.EjO3+E^llrl^L^了対LLLLL^LlkA4>h4ylh>h>lh4?:atdf.cl?.d4.d?.EjO3+E^llrl^L^了対LLLLL^LlkA4>h4ylh>h>lh4?:atdf.cl?.d4.d?.d4.EhE]rl>rl>rl>rl>nan"nan"^E:l!jlcllrllnlrllnlfl.l^Ml/Ml/MMl?al?l?,[7[7[7lJ-l-/&曰E1L.1L.LILELI.11.1L.15iLEII.1I.1L.Mipaddrsa:_.u.0ooO00000o-yJ:[S£!KE.皿獲Q獲決QZ55.酥喊喊烝0^.竺竺ss.w.a.w.l^wra.kFFF^IJjLEE.3QD.QLtIJJUL.ELEE.3QD.O.ELBE.]QD.a4LE.1E.3E.4IJJ1JLAJJJJL.5LBE.3GB.O.GUJJJL.JLBE.IGB.QE^IIIL.12LB2.lQB.OlLELJJJ.JL.&LB2.lQB.0lQLJ.li.JL.n£35.□.<].□K5.2S5.ESE.O1+fifLlVa1+afrLl1+fifLi.Va仙竝應(yīng)仙竝應(yīng)tAicLI.?ssz小tAicLI.?slwn,cLi,Y9iliii,crU,Y9lwn,cLi,Y9lni.rti.¥shicLiv*ItKLLYahicLiv*hxLi■丫■■?ihl.-ihLIs-ihlelM!eUxLelM!iHUilEiHxLi-IHl9-Ud.i-IHlilbJ.■-tHI■ihl■-tHI■ihlKtAtLJtlTiMnt?ti.a£IT*MkcaILjtratmSUtL-2tracinijti9UtL>:上時(shí)cinijti9UtL>:上時(shí)Eed;心EeEed;心tEa>;rHcLe-m.Le-m■twtiuLe-m.Le-mLri?■LhU-:xtstie自粉日動(dòng)的舌E動(dòng)卻.'九初沖|申MlpJXH^IPI?iflHhp|0來(lái)讓切Ir^.]Pwsxl童匚唇7J■XXcu圖2。4IP管理集群文件瀏覽器集群由少到幾個(gè)節(jié)點(diǎn)多到上百個(gè)節(jié)點(diǎn)組成,而瀏覽集群中的文件則變成相當(dāng)復(fù)雜的任務(wù)。集群文件瀏覽器是用于集群文件瀏覽的工具,它可在集群內(nèi)完成文件目錄的瀏覽,新建,修改文件目錄名,刪除以及編輯文本文件等功能。集群并行命令集群并行命令終端可同時(shí)對(duì)多個(gè)被管理節(jié)點(diǎn)執(zhí)行相同的命令,并整理各節(jié)點(diǎn)執(zhí)行結(jié)果返回至客戶端,方便管理員對(duì)多個(gè)節(jié)點(diǎn)的并發(fā)管理,另外本系統(tǒng)還整合了通過(guò)SSH來(lái)登錄被管理節(jié)點(diǎn)的客戶端工具,管理員可直接登錄至被管理節(jié)點(diǎn),執(zhí)行各種操作.系統(tǒng)部署集群系統(tǒng)的安裝主要是指在各個(gè)結(jié)點(diǎn)上安裝操作系統(tǒng)、文件系統(tǒng)、并行程序運(yùn)行庫(kù)、作業(yè)管理軟件和系統(tǒng)管理軟件等。它是集群系統(tǒng)投入應(yīng)用的前提,所以集群系統(tǒng)的安裝是一件非常重要的任務(wù)。系統(tǒng)主要功能特色:采用P2P技術(shù)對(duì)多節(jié)點(diǎn)同時(shí)快速部署,極大提高工作效率;支持樣板機(jī)模式,針對(duì)不同的節(jié)點(diǎn)分發(fā)不同的系統(tǒng)鏡像,在一個(gè)機(jī)群內(nèi)支持部署多種不同的系統(tǒng)軟件;采用B/S架構(gòu),安裝后節(jié)點(diǎn)信息直接存儲(chǔ)在管理系統(tǒng)的數(shù)據(jù)庫(kù)中,方便管理配置。安裝過(guò)程中很少需要手動(dòng)干預(yù),唯一的干預(yù)是在部署的初始階段根據(jù)提示為節(jié)點(diǎn)輸入節(jié)點(diǎn)名稱.安裝完成的系統(tǒng)最終的ip地址和主機(jī)名為用戶安裝時(shí)指定,能自動(dòng)適應(yīng)更大硬盤,各節(jié)點(diǎn)的軟硬件配置不必完全相同。支持多種Linux系統(tǒng),如RedhatLinux,TurboLinux,DebianGNU/Linux,SUSE等.■同時(shí)支持64位和32位cpu和操作系統(tǒng)圖3.1集群部署GridviewClusportal應(yīng)用門戶模塊>高性能集群用戶的煩惱1作業(yè)腳本很難寫(xiě),Linux命令很難學(xué)。大部分的使用計(jì)算機(jī)的用戶均習(xí)慣windows的封閉提問(wèn)操作和圖形界面的操作,對(duì)于基于Linux命令行操作和基于命令行操作的作業(yè)調(diào)度系統(tǒng),往往難以習(xí)慣,導(dǎo)致用戶常常感覺(jué)自己無(wú)法適應(yīng)高性能計(jì)算作業(yè)的工作模式,需要長(zhǎng)時(shí)間的培訓(xùn)和摸索才能逐漸掌握這一過(guò)程。2為什么我的作業(yè)等了3天了,還在排隊(duì),別人的作業(yè)都算了好幾回了?由于用戶往往無(wú)法正確的了解現(xiàn)有系統(tǒng)資源,自己可訪問(wèn)的權(quán)限和資源;而基于命令行的作業(yè)調(diào)度系統(tǒng)開(kāi)放式操作又常常讓用戶無(wú)法準(zhǔn)確的去根據(jù)自己可訪問(wèn)的資源去申請(qǐng)資源,導(dǎo)致用戶在申請(qǐng)資源時(shí)常常申請(qǐng)錯(cuò)誤,這樣用戶的作業(yè)就長(zhǎng)時(shí)間處于排隊(duì)狀態(tài)了。3為什么我的作業(yè)等了2天才開(kāi)始算,可是只用10幾秒就錯(cuò)誤退出了?由于命令行操作的開(kāi)放式操作,導(dǎo)致用戶往往在撰寫(xiě)作業(yè)腳本或者算例文件時(shí),很容易出現(xiàn)一些細(xì)微的錯(cuò)誤,導(dǎo)致很不容易排到開(kāi)始計(jì)算,往往一開(kāi)始就錯(cuò)誤退出了。
ibasic^|mpi13senai■白610^MPIBLASTDABACUS目曲Y£3<M^V3_L5OY1'JASCFX^QDMSOL^CSTOIQ3FA57RANSfekqS)FLUEMTibasic^|mpi13senai■白610^MPIBLASTDABACUS目曲Y£3<M^V3_L5OY1'JASCFX^QDMSOL^CSTOIQ3FA57RANSfekqS)FLUEMT習(xí)GSHS-'.r尉AMBERHCHAfiMU3Gf?owce菊LAHM嗎丸NL仙通勻卵「grapes討mm3£)romiJBC^md=35i&sfaOPMO*Gridvi^wClusPortal19L':?aa1.0&]ohScheduleParzwnetffKQu<QUB^LcfefiOrterre:Ha凹強(qiáng)」ofcFE>Clusportal主要功能■錯(cuò)誤檢查功能口對(duì)所有的申請(qǐng)的資源會(huì)設(shè)置最大值,并檢查配額,隊(duì)列設(shè)置,用戶設(shè)置等資源限制口對(duì)應(yīng)用的輸入文件進(jìn)行檢查口自動(dòng)轉(zhuǎn)化輸入文件UNIX格式■功能齊全,與其它產(chǎn)品無(wú)縫融合口支持文件上傳下載口可視化作業(yè)口文件格式轉(zhuǎn)化口自動(dòng)checkpoint/restart
文件上傳下載功能'口ParaPelFLUENT^>HQde43>pd.pbns,Ham](oninode43)_□HrMrshDefineSohr也IciptSurfMnDjspldy世portF^rdtel娜k世越1直題[]爭(zhēng)□>Prctlem甲坤General文件上傳下載功能'口ParaPelFLUENT^>HQde43>pd.pbns,Ham](oninode43)_□HrMrshDefineSohr也IciptSurfMnDjspldy世portF^rdtel娜k世越1直題[]爭(zhēng)□>Prctlem甲坤GeneralModelsMalerld^CellloreCondftiomC^n^unfchl&sti陽(yáng)&時(shí)艸詢騙$SdultnSdutnnMethidsSdutnn匚onrtrnh:MonlorsRunc^cuiaUoriCJ^ihK$andME血onsPlot$Refaorl$G&neraJla+DDla-01l-s-02Iq-03Iq-OiJia-n~>\l^-0BIle-077iA-oeANSY0200400500ECOIOCiO12C0IterationsScaledResidualsOct24,201ANSY5FLUENT12.1[26.pbnsjam11EQL1EL11221123112411253.4034s<133+4Q34c<i33*4033日-QS3+^Q33b-033+d033E-035/17205-00b^gafc-QB5uBS97e-QH4』395s-0日c|P3766e-O03占旳5-03^+3BG5e-D3^+32Q7e-DSd+4兇生-OSd+O729e-O0Z34FC4MZE了:田論211:35d195:41:E194:^:C可視化互動(dòng)作業(yè)■通用性高、操作簡(jiǎn)單口一個(gè)portal頁(yè)面開(kāi)放接口眾多,達(dá)到30個(gè),可以滿足用戶的各種作業(yè)需求??谀J(rèn)值設(shè)置合理,90%的作業(yè),用戶只需修改5個(gè)以內(nèi)的選項(xiàng)。口Portal種類多,超過(guò)30個(gè),幾乎包含所有高性能應(yīng)用,同時(shí)可定制.口具有2個(gè)基礎(chǔ)版portal,可以適用于所有串行程序,多線程程序、MPI程序??诟鶕?jù)用戶輸入記憶,提高工作效率■性能更高口開(kāi)啟了進(jìn)程綁定、共享內(nèi)存通信等運(yùn)行優(yōu)化選項(xiàng),提高作業(yè)運(yùn)行效率?!鯟lusportal主要種類口basic(基礎(chǔ))portal包含serial和mpi,支持互動(dòng)作業(yè),作業(yè)故障自動(dòng)切換重啟,文件傳輸,查看修改文件操作??贑AEportal包含Ansys,Fluent,Abiqus,CFX,Nastran,Fecko,James,Comsol共7個(gè)Portal??赒chem(量子化學(xué))Portal包含vasp,Gaussian,siesta,CPMD,abinit,PWSCF共5個(gè)Portal??贛D(分子動(dòng)力學(xué))Portal包含Namd,Gromacs,lammps,charmm,amber共5個(gè)portal.口BIO(生命科學(xué))Portal包含mpiblast,dock共2個(gè)portal.GridviewClusquota集群配額模塊產(chǎn)品概述SugonClusQuota1。2。0集群計(jì)費(fèi)業(yè)務(wù)系統(tǒng),可實(shí)現(xiàn)計(jì)算資源的量化計(jì)費(fèi)和用戶配額制,對(duì)各種計(jì)算資源(CPU、內(nèi)存、商業(yè)軟件License等)進(jìn)行有效的統(tǒng)籌、分析和調(diào)度。SugonClusQuota1。2.0通過(guò)預(yù)充值和實(shí)時(shí)計(jì)費(fèi)方式,集群管理員可及時(shí)掌握用戶對(duì)計(jì)算資源的使用情況,并為外部計(jì)費(fèi)和內(nèi)部核算提供有力保證.
SugcrOusQuDldSugcrOusQuDld產(chǎn)品特色>靈活的用戶配額制度傳統(tǒng)高性能集群的資源的分配方式比較粗放,用戶缺乏合理的引導(dǎo)、約束機(jī)制,導(dǎo)致計(jì)算資源的分配不均衡。ClusQu。ta1.2。0采用統(tǒng)一的量化手段描述資源的數(shù)量,在高性能集群中引入配額策略,對(duì)用戶的可用資源進(jìn)行預(yù)分配和實(shí)時(shí)計(jì)費(fèi),并可靈活控制用戶配額的有效期限,精確地記錄和控制用戶資源使用量,從而實(shí)現(xiàn)精細(xì)粒度的資源記賬和配額統(tǒng)籌>直觀的資源配額査詢ClusQuota1.2。0的“余額查詢”功能為集群用戶提供了直觀的配額信息,包括每個(gè)用戶當(dāng)前可用的機(jī)時(shí)配額,以及目前由于正運(yùn)行的作業(yè)而凍結(jié)的配額數(shù)量ClusQuota1.2。0可實(shí)現(xiàn)先充值、后使用(機(jī)時(shí))的功能,在用戶提交作業(yè)時(shí)即從計(jì)費(fèi)系統(tǒng)中做預(yù)授權(quán),作業(yè)結(jié)束后根據(jù)實(shí)際使用情況結(jié)算,有效避免超額占用機(jī)時(shí)。>完善的賬號(hào)管理功能ClusQuota1。2.0可以將多套集群都納入進(jìn)來(lái)作為一個(gè)整體管理,提供全局統(tǒng)一的用戶配額策略。ClusQuota1.2。0提供完善的計(jì)費(fèi)賬號(hào)管理功能,可根據(jù)需要,自由設(shè)定每個(gè)計(jì)費(fèi)賬號(hào)所對(duì)應(yīng)的集群用戶,以及相應(yīng)可訪問(wèn)的集群資源。ClusQuota1。2。0既可以實(shí)現(xiàn)一個(gè)集群用戶對(duì)應(yīng)一個(gè)計(jì)費(fèi)賬號(hào),專項(xiàng)專用,也可以實(shí)現(xiàn)多個(gè)集群用戶共同使用一個(gè)計(jì)費(fèi)賬號(hào),適于多個(gè)研究組共享計(jì)算資源。>詳盡的作業(yè)統(tǒng)計(jì)功能ClusQuota1.2。0提供了詳細(xì)的作業(yè)統(tǒng)計(jì)列表,包括每個(gè)作業(yè)的用戶、所屬集群、所屬隊(duì)列、節(jié)點(diǎn)類型、并行規(guī)模、實(shí)際消費(fèi)機(jī)時(shí)等信息。集群管理員根據(jù)作業(yè)記錄,可以對(duì)計(jì)算資源的使用情況實(shí)現(xiàn)全局的、綜合的、動(dòng)態(tài)的精細(xì)粒度的統(tǒng)計(jì),并通過(guò)分析找出影響系統(tǒng)性能的資源瓶頸.>詳細(xì)的充值明細(xì)記錄ClusQuota1.2.0針對(duì)每個(gè)計(jì)費(fèi)賬號(hào)提供了詳細(xì)的充值明細(xì)記錄,任何一次充值操作均有據(jù)可查,方便集群管理員隨時(shí)核對(duì)記錄.>詳細(xì)的支出明細(xì)記錄ClusQuota1.2。0針對(duì)每個(gè)計(jì)費(fèi)賬號(hào)提供了詳細(xì)的支出明細(xì)記錄,每一次作業(yè)計(jì)費(fèi)均記錄在案,為配額計(jì)費(fèi)和內(nèi)部核算提供有力保證。ClusQuota1.2.0使集群管理員對(duì)系統(tǒng)的整體運(yùn)行狀態(tài)一目了然,能夠?qū)崟r(shí)動(dòng)態(tài)地跟蹤、反映用戶對(duì)高性能計(jì)算機(jī)資源的使用情況,并能及時(shí)實(shí)施資源使用控制策略.>靈活多樣的自定義費(fèi)率ClusQuota1.2.0可靈活設(shè)置費(fèi)率,針對(duì)不同的計(jì)算資源(節(jié)點(diǎn)、隊(duì)列、CPU速度等)實(shí)現(xiàn)區(qū)別計(jì)費(fèi)。2.6集群基礎(chǔ)軟件環(huán)境2.6.1編譯環(huán)境GNUC/C++、GNUFortran編譯器GNUCC(GNUCompilerCollection)是一個(gè)編譯器套件,是GNU推出的功能強(qiáng)大、性能優(yōu)越的多平臺(tái)編譯器,是GNU的代表作品之一。gcc是可以在多種硬件平臺(tái)上編譯出可執(zhí)行程序的超級(jí)編譯器,其執(zhí)行效率與一般的編譯器相比平均效率要高20%~30%。它不僅能夠編譯C、ObjectiveC和C++程序,而且還能編譯Fortran、Pascal等語(yǔ)言寫(xiě)的程序.單就編譯器而言,它是目前公認(rèn)編譯最快、效率最高的編譯器.Intel編譯器Intel編譯器(IntelCompiler)是由美國(guó)Intel公司開(kāi)發(fā),包括C/C++編譯器和Fortran編譯器適用于Linux、MicrosoftWindows和MacOSX操作系統(tǒng).Intel編譯器的C語(yǔ)言編譯器為icc,C++編譯器為icpc,Fortran編譯器為ifort,支持Fortran77,Fortran90/95標(biāo)準(zhǔn).Intel編譯器支持IA—32、Intel64、Itanium2、IntelAtom處理器和某些非Intel的兼容處理器(例如某些AMD處理器),開(kāi)發(fā)人員應(yīng)當(dāng)檢查系統(tǒng)需求。適用于IA—32和Intel64的IntelC++編譯器的主要特點(diǎn)是自動(dòng)向量化器,它能夠生成SSE、SSE2和SSE3的SIMD指令及其適用于Intel無(wú)線MMX和MMX2的嵌入式變種。Intel編譯器進(jìn)一步支持OpenMP3.0和適用于對(duì)稱多處理的自動(dòng)并行化.借助于ClusterOpenMP的附加能力,編譯器還可為分布存儲(chǔ)多處理根據(jù)OpenMP指示自動(dòng)生成消息傳遞接口調(diào)用。Intel編譯器可以對(duì)程序進(jìn)行眾多編譯優(yōu)化,最大限度地利用Intel處理器及其它一些處理器的優(yōu)化指令,使得程序性能獲得巨大的性能提升,隨著處理器的不斷更新,Intel編譯器也不斷的加入一些新的優(yōu)化指令,目前Intel編譯器的最新版本為12.PGI編譯器PGI編譯器(PGICompiler)是由波蘭PGI公司開(kāi)發(fā),包括C/C++編譯器和Fortran編譯器適用于Linux和MicrosoftWindows.PGI編譯器的C語(yǔ)言編譯器為pgcc,C++編譯器為pgCC,Fortran77編譯器為pgf77,Fortran90編譯器為pgf90.PGI編譯器支持AMD處理器和Intel處理器,可程序可以進(jìn)行各種級(jí)別的編譯器優(yōu)化,包括內(nèi)聯(lián)函數(shù)、循環(huán)展開(kāi)、向量化以及SSE2、SSE3等指令優(yōu)化.PGI編譯器進(jìn)一步支持OpenMP3.0和適用于對(duì)稱多處理的自動(dòng)并行化,支持按照OPENMP標(biāo)準(zhǔn)編寫(xiě)的程序的編譯,滿足單節(jié)點(diǎn)內(nèi)程序的并行移植。PGI編譯器能夠有效簡(jiǎn)化GPGPU程序的開(kāi)發(fā)難度,其特有的accelerate模塊能夠使得GPGPU的程序的編寫(xiě)類似于OPENMP,大大簡(jiǎn)化GPGPU程序的移植難度。圖形開(kāi)發(fā)環(huán)境GTK+和QTGtk+(GIMPToolKit,GIMP工具包)Gtk+最初用于開(kāi)發(fā)GIMP,是一個(gè)用于創(chuàng)造圖形用戶接口的圖形庫(kù)。Gtk+是基于LGPL授權(quán)的,因此可以用Gtk+開(kāi)發(fā)開(kāi)放源碼軟件的自由軟件或商業(yè)的非自由的軟件。Gtk+是在Gdk(GIMPDrawingKit,GIMP繪圖包)的基礎(chǔ)上創(chuàng)建的。Gdk是對(duì)Xlib函數(shù)的包裝。一般用GTK代表軟件包和共享庫(kù),用Gtk+代表GTK的圖形構(gòu)件集.Gtk+圖形庫(kù)使用一些稱為“構(gòu)件〃的對(duì)象來(lái)創(chuàng)建GUI應(yīng)用程序。它提供了窗口、按鈕、框架、列表框、組合框、樹(shù)、狀態(tài)條等很多構(gòu)件可以構(gòu)造豐富的用戶界面。在Gtk+圖形庫(kù)構(gòu)件基礎(chǔ)上,又開(kāi)發(fā)了一些新構(gòu)件,這些構(gòu)件都是Gtk+構(gòu)件庫(kù)的補(bǔ)充,它們提供了許多Gtk+構(gòu)件沒(méi)有的功能。一般把這些構(gòu)件稱為Gnome構(gòu)件?使用Gnome構(gòu)件可以使開(kāi)發(fā)界面一致的應(yīng)用程序變得更加容易°Gnome的應(yīng)用程序開(kāi)發(fā)結(jié)構(gòu)核心是一套庫(kù),是由C語(yǔ)言編寫(xiě)的,對(duì)很多語(yǔ)言都提供了GnomeAPI接口,包括Ada、Scheme、Python、Perl、Tom、Eiffel、Dylan等.Qt是一個(gè)完整的C++商業(yè)化圖形程序開(kāi)發(fā)框架,包含類庫(kù)和跨平臺(tái)國(guó)際化開(kāi)發(fā)工具。QtAPI和開(kāi)發(fā)工具對(duì)所有支持平臺(tái)都是一致的,從而可以進(jìn)行獨(dú)立于平臺(tái)的程序開(kāi)發(fā)和配置。它使得跨平臺(tái)軟件編程直觀、簡(jiǎn)易和方便。QT被用在KDE桌面這一包含大量自由軟件集合的開(kāi)發(fā)項(xiàng)目中。2.6.2并行環(huán)境>MPI并行程序設(shè)計(jì)標(biāo)準(zhǔn)MPI(MassagePassingInterface消息傳遞接口):是由MPI論壇開(kāi)發(fā)的消息傳遞函數(shù)庫(kù)的標(biāo)準(zhǔn)規(guī)范,支持Fortran和C語(yǔ)言.MPI是目前應(yīng)用最廣泛的并行程序開(kāi)發(fā)環(huán)境,具有移植性好、功能強(qiáng)大、效率高、實(shí)用性強(qiáng)等優(yōu)點(diǎn)。它得到了幾乎所有并行計(jì)算機(jī)廠商的支持,目前已成為并行計(jì)算編程事實(shí)上的標(biāo)準(zhǔn).MPI—種新的庫(kù)描述,不是一種語(yǔ)言。共有上百個(gè)函數(shù)調(diào)用接口,在Fortran和C語(yǔ)言中可以直對(duì)這些函數(shù)進(jìn)行調(diào)用.MPI是一種標(biāo)準(zhǔn)或規(guī)范的代表,而不是特指某一個(gè)對(duì)它的具體實(shí)現(xiàn)。MPI是一種消息傳遞編程模型,并成為這種編程模型的代表和事實(shí)上的標(biāo)準(zhǔn)。目前MPI已在所有主流的并行機(jī)、IBMPC機(jī)、所有主要的Unix工作站、MSWindows得到實(shí)現(xiàn)。使用MPI作消息傳遞的C或Fortran并行程序可不加改變地運(yùn)行在IBMPC、MSWindows、Unix工作站、以及各種并行機(jī)上?它是高性能大規(guī)模并行計(jì)算最可信賴平臺(tái),大量科研和工程軟件(氣象、石油、地震、空氣動(dòng)力學(xué)、核等)已移植到MPI平臺(tái)。MPI相對(duì)于PVM,具有功能強(qiáng)大、性能高、適應(yīng)面廣、使用方便、可擴(kuò)展性好等優(yōu)點(diǎn)。MPI得到廣泛的應(yīng)用,目前最為流行的MPI的為mpich2,mvapich2,openmpi,intelmpi,lsfmpi,以及僅僅支持windows的msmpi等等.1)OPENMPIOpenMPI是一個(gè)開(kāi)源的、免費(fèi)的MPI實(shí)現(xiàn),兼容MPI-1和MPI—2標(biāo)準(zhǔn)。OpenMPI由開(kāi)源社區(qū)開(kāi)發(fā)維護(hù),支持大多數(shù)類型的HPC平臺(tái),并具有很高的性能。OpenMPI的官方網(wǎng)站:/MPICH2MPICH2是一個(gè)高性能、易移植的MPI標(biāo)準(zhǔn)的實(shí)現(xiàn),由美國(guó)阿貢國(guó)家實(shí)驗(yàn)室(ArgonneNationalLaboratory)開(kāi)發(fā)。MPICH2支持MPI—1和MPI-2標(biāo)準(zhǔn),為免費(fèi)開(kāi)源軟件,最新版本為MPICH2-1.4.1p1.官方網(wǎng)站:/mpi/mpichMPICH2不支持Infiniband設(shè)備RDMA協(xié)議通信,如用IB網(wǎng)絡(luò)請(qǐng)參考MVAPICH2.MVAPICH2MVAPICH2是基于MPICH2的一個(gè)MPI拓展實(shí)現(xiàn),提供了對(duì)IB,iWARP,PSM,uDAPL等新型通信設(shè)備和協(xié)議的支持。MVAPICH2由美國(guó)俄亥俄大學(xué)開(kāi)發(fā),官方網(wǎng)站為:/overview/mvap
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度專業(yè)園藝設(shè)計(jì)施工合同3篇
- 2024年金融科技服務(wù)平臺(tái)委托合同
- 2025年度餐飲企業(yè)食品安全管理體系建設(shè)合同范本3篇
- 二零二五年度租賃鏟車附帶工程驗(yàn)收合同3篇
- 二零二五版企業(yè)社會(huì)責(zé)任LOGO設(shè)計(jì)合同3篇
- 2024年高標(biāo)準(zhǔn)管溝開(kāi)挖工程合同
- 2025年度離婚協(xié)議及子女監(jiān)護(hù)權(quán)及財(cái)產(chǎn)分割合同3篇
- 2024裝飾項(xiàng)目工程承包合同版B版
- 2025年度航空航天器零部件加工與供應(yīng)合同規(guī)范4篇
- 年度其它網(wǎng)絡(luò)系統(tǒng)專用設(shè)備戰(zhàn)略市場(chǎng)規(guī)劃報(bào)告
- 2025年工程合作協(xié)議書(shū)
- 2025年山東省東營(yíng)市東營(yíng)區(qū)融媒體中心招聘全媒體采編播專業(yè)技術(shù)人員10人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025年宜賓人才限公司招聘高頻重點(diǎn)提升(共500題)附帶答案詳解
- KAT1-2023井下探放水技術(shù)規(guī)范
- 垃圾處理廠工程施工組織設(shè)計(jì)
- 天皰瘡患者護(hù)理
- 駕駛證學(xué)法減分(學(xué)法免分)題庫(kù)及答案200題完整版
- 2024年四川省瀘州市中考英語(yǔ)試題含解析
- 2025屆河南省九師聯(lián)盟商開(kāi)大聯(lián)考高一數(shù)學(xué)第一學(xué)期期末學(xué)業(yè)質(zhì)量監(jiān)測(cè)模擬試題含解析
- 撫養(yǎng)權(quán)起訴狀(31篇)
- 2024年“一崗雙責(zé)”制度(五篇)
評(píng)論
0/150
提交評(píng)論