曙光高性能集群系統(tǒng)使用及管理-201408_第1頁
曙光高性能集群系統(tǒng)使用及管理-201408_第2頁
曙光高性能集群系統(tǒng)使用及管理-201408_第3頁
曙光高性能集群系統(tǒng)使用及管理-201408_第4頁
曙光高性能集群系統(tǒng)使用及管理-201408_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

曙光高性能集群管理及使用解決方案中心2014年8

月集群系統(tǒng)的登錄方式程序編譯與作業(yè)提交使用Gridview和ClusPortal提交和管理作業(yè)集群系統(tǒng)的管理與維護(hù)目錄Windows用戶可以用SSHSecureShellClient,Xshell,PuTTY,SecureCRT等SSH客戶端軟件登錄。

推薦使用SSHSecureShellClientLinux用戶可直接在命令行終端中執(zhí)行ssh命令登錄命令行終端登錄$sshusername@登錄節(jié)點(diǎn)IP地址Windows用戶可使用SSHSecureShellClient,Xftp,WinScp等軟件實(shí)現(xiàn)文件的上傳下載

推薦使用SSHSecureShellClientLinux用戶可直接在命令行終端中執(zhí)行scp命令登錄文件上傳下載$scp文件名username@登錄節(jié)點(diǎn)IP地址:文件路徑遠(yuǎn)程圖形界面登錄推薦使用VNC方式。第一次使用VNC登錄前,需要先以命令行終端方式登錄到集群登錄節(jié)點(diǎn),執(zhí)行vncserver命令,會提示用戶輸入VNC登錄密碼,輸入后會得到一個VNC會話,一般是“主機(jī)名:VNC會話號”格式,如“node32:4”。Windows用戶推薦使用RealVNC軟件,登錄時輸入集群登錄節(jié)點(diǎn)IP地址加VNC會話號即可:Linux用戶可直接在命令行終端中執(zhí)行vncviewer命令圖形界面登錄(遠(yuǎn)程桌面)$vncviewer[登錄節(jié)點(diǎn)IP地址]:[sessionnumber]GridviewWeb登錄普通用戶可通過Web方式登入曙光GridView集群管理系統(tǒng),進(jìn)行查看、監(jiān)控、和使用等操作。在瀏覽器中輸入以下URL即可出現(xiàn)登錄界面:http://*.*.*.*:6080/gridview_portalneeded程序編譯與作業(yè)提交使用Gridview和ClusPortal提交和管理作業(yè)集群系統(tǒng)的管理與維護(hù)集群系統(tǒng)的登錄方式目錄串行程序的運(yùn)行方法一:方法二:$cd/home/your_account/your_workdir$./your_code$cd$HOME$vim.bashrc

exportPATH=/home/your_account/your_workdir:$PATH$your_code并行程序的編譯運(yùn)行(openmpi)OpenMPI提供了C/C++,F(xiàn)ortran等語言的MPI編譯器,如下表:MPI編譯器是對底層編譯器的一層包裝,通過-show參數(shù)可以查看實(shí)際使用的編譯器:語言類型MPI編譯器CmpiccC++mpicxxFortran77mpif77Fortran90mpif90$mpicc-showicc-I/public/software/mpi/openmpi-16-intel/include-pthread-L/public/software/mpi/openmpi-16-intel/lib-lmpi-ldl-lm-lnuma-Wl,--export-dynamic-lrt-lnsl-lutil并行程序的編譯運(yùn)行(openmpi)編譯程序:$source/public/software/profile.d/openmpi-intel-env.sh$mpicc-ohellohello.c$mpif90-ohellohello.f90$mpirun-npN-hostfile<filename><program>node1slots=8node2slots=8運(yùn)行程序:OpenMPI使用自帶的OpenRTE進(jìn)程管理器,啟動命令為mpirun/mpiexec/orterun,基本格式如下:

其中-npN:表示運(yùn)行N個進(jìn)程-hostfile:指定計(jì)算節(jié)點(diǎn),文件格式如:創(chuàng)建腳本并提交作業(yè)在PBS系統(tǒng)中,可以使用qsub命令提交作業(yè)運(yùn)行程序的命令及PBS環(huán)境變量設(shè)置組成PBS作業(yè)腳本,格式如下:注釋以“#”開頭PBS指令以“#PBS”開頭SHELL命令運(yùn)行程序的命令及PBS簡單腳本提交示例:$qsub

xxx.pbs#PBS-Ntest#PBS-lnodes=1:ppn=1#PBS-lwalltime=12:00:00#PBS-qbatchcd$PBS_O_WORKDIRmpirun./test.exe$vimtest.pbs$qsub

test.pbsPBS作業(yè)提交步驟準(zhǔn)備:編寫描述改作業(yè)的腳本,包括作業(yè)名,需要的資源等。提交:使用qsub命令將該作業(yè)提交給PBS服務(wù)器排隊(duì):服務(wù)器將該任務(wù)排入適當(dāng)?shù)年?duì)列調(diào)度:服務(wù)器檢查各工作節(jié)點(diǎn)的狀態(tài)是否符合該作業(yè)的要求,并進(jìn)行調(diào)度。執(zhí)行:當(dāng)條件滿足時,作業(yè)被發(fā)給相應(yīng)的執(zhí)行服務(wù)器執(zhí)行。程序運(yùn)行時執(zhí)行服務(wù)器會收集程序的標(biāo)準(zhǔn)輸出和標(biāo)準(zhǔn)錯誤流,等程序結(jié)束時,將這些信息返回給用戶。查詢和調(diào)整:當(dāng)作業(yè)在運(yùn)行時,用戶可以使用qstat進(jìn)行狀態(tài)查詢。用戶發(fā)現(xiàn)作業(yè)提交錯誤時,可以使用qdel刪除正在運(yùn)行的作業(yè)。查看結(jié)果:使用文本編輯軟件vi或者系統(tǒng)命令cat,less等查看輸出及錯誤信息顯示。PBS的基本命令qmgr-c'ps'此命令可以查看作業(yè)調(diào)度系統(tǒng)的配置信息;qstat–q

該命令可以查看系統(tǒng)中存在的隊(duì)列,qstat還有其他參數(shù)比較常用:-B:列出PBS服務(wù)器的相關(guān)信息

-Q:列出隊(duì)列的一些限制信息

-an:列出隊(duì)列中的所有作業(yè)及其分配的節(jié)點(diǎn)

-r:列出正在運(yùn)行的作業(yè)

-fjobid:列出指定作業(yè)的詳細(xì)信息

-Qfqueue:列出指定隊(duì)列的所有信息pestat

該命令可以查看節(jié)點(diǎn)的狀態(tài)信息,其中excl:所有CPU資源已被占用;

busy:CPU已接近滿負(fù)荷運(yùn)行;

free:全部或部分CPU空閑;

offl:管理員手動指定離線狀態(tài);PBS的基本命令qdel<作業(yè)號>此命令可以刪除隊(duì)列中的作業(yè),普通用戶只能刪除自己的作業(yè);pbsnodes此命令也可以查看節(jié)點(diǎn)的狀態(tài),該命令常用以下參數(shù):-a:列出所有結(jié)點(diǎn)及其屬性,屬性包括“state”和“properties”

-l:以行的方式列出被標(biāo)記的結(jié)點(diǎn)的狀態(tài),如-lfree,-loffline

-o:將指定結(jié)點(diǎn)的狀態(tài)標(biāo)記為“offline”(管理員)-c:清除結(jié)點(diǎn)列表中的“offline”狀態(tài)設(shè)置,使結(jié)點(diǎn)可用(管理員)-r:重設(shè)“offline”或“down”的節(jié)點(diǎn)的狀態(tài),如果可用,設(shè)為free(管理員)qorder<作業(yè)號1><作業(yè)號2>qmove<隊(duì)列名><作業(yè)號>qalter-l<所需資源><作業(yè)號>qhold<作業(yè)號>qrls<作業(yè)號>qsub-N<作業(yè)名>

-l<所需資源>

-q<隊(duì)列名><PBS作業(yè)腳本>PBS資源的申請#PBS-lmem=200mb#PBS-lwalltime=01:00:00#PBS-lnodes=1:ppn=4#PBS-lnodes=4:ppn=2#PBS-lnodes=node01+node02+node03#PBS-lnodes=server:ib+3:bigmem:ib#PBS-lnodes=2:blue:ppn=2+red:ppn=3+b1014#PBS-lnodes=4:ppn=4,mem=200mb#PBS-lother=matlab$catTORQUEHOME/server_priv/nodes

node01np=4serverdualcoreibnode02np=8bigmemmatlabib……PBS常用環(huán)境變量變量名說明登陸SHELL繼承來的變量$HOME,$LANG,$PATH,$MAIL,$SHELL等$PBS_O_HOSTqsub

提交的節(jié)點(diǎn)名稱$PBS_O_QUEUEqsub

提交的作業(yè)的最初隊(duì)列名稱$PBS_O_WORKDIRqsub

提交的作業(yè)的絕對路徑$PBS_JOBID作業(yè)被PBS系統(tǒng)指定的作業(yè)號$PBS_JOBNAME用戶指定的作業(yè)名,可以在作業(yè)提交的時候用qsub–N<作業(yè)名>指定,或者在PBS腳本中加入#PBS–N<作業(yè)名>。$PBS_NODEFILEPBS系統(tǒng)指定的作業(yè)運(yùn)行的節(jié)點(diǎn)名。該變量在并行機(jī)和機(jī)群中使用。當(dāng)在PBS腳本中用#PBS–lnodes=2:ppn=2指定程序運(yùn)行的節(jié)點(diǎn)數(shù)時,可以使用$PBS_NODEFILE在腳本中引用PBS系統(tǒng)指定的作業(yè)運(yùn)行的節(jié)點(diǎn)名。比如:#PBS–lnodes=2:ppn=2mpirun–np4–machinefile$PBS_NODEFILE<程序名>$PBS_QUEUEPBS腳本在執(zhí)行時的隊(duì)列名串行腳本示例#PBS-Nserial#PBS-lnodes=1:ppn=1#PBS-joe#PBS-lwalltime=60:00:00#PBS-qserialecho"Thisjobsis"$PBS_JOBID@$PBS_QUEUEcd${PBS_O_WORKDIR}echobegintimeis`date`sleep100hostnameechoendtimeis`date`#PBS-lnodes=1:ppn=1表示申請1個節(jié)點(diǎn)上的1顆CPU。#PBS-qserial表示提交到集群上的serial隊(duì)列。并行腳本示例(openmpiforcpi)#PBS-Nopenmpi#PBS-lnodes=1:ppn=8#PBS-joe#PBS-lwalltime=2:00:00cd$PBS_O_WORKDIRLOGFILE=openmpi.logNP=`cat$PBS_NODEFILE|wc-l`echomyjobidis$PBS_JOBID|tee$LOGFILEechorunnodesisfollowing:|tee-a$LOGFILEcat$PBS_NODEFILE|tee-a$LOGFILEechobegintimeis`date`|tee-a$LOGFILEmpirun-np$NP-hostfile$PBS_NODEFILE--mcaorte_rsh_agentssh--mcabtlself,openib,sm./cpi2>&1|tee-a$LOGFILEechoendtimeis`date`|tee-a$LOGFILE使用Gridview和ClusPortal提交和管理作業(yè)集群系統(tǒng)的管理與維護(hù)集群系統(tǒng)的登錄方式程序編譯與作業(yè)提交目錄使用Gridview和Clusportal集群分區(qū)調(diào)度作業(yè)調(diào)度中間件作業(yè)調(diào)度Portal作業(yè)提交應(yīng)用模板作業(yè)管理策略管理用戶記賬隊(duì)列管理用戶管理節(jié)點(diǎn)管理調(diào)度器管理普通用戶可通過Web方式登入曙光GridView集群管理系統(tǒng),進(jìn)行查看、監(jiān)控、和使用等操作。在瀏覽器中輸入以下URL即可出現(xiàn)登錄界面:http://*.*.*.*:6080/gridview_portalneeded使用Gridview和Clusportal使用Gridview和Clusportal普通用戶可以做什么?普通用戶可以做什么?普通用戶可以做什么?普通用戶可以做什么?使用Clusportal提交作業(yè)完善的參數(shù)Portal統(tǒng)計(jì)報(bào)表

……Clusportal集群應(yīng)用門戶優(yōu)勢Gridview的一個子模塊:平臺無關(guān)的單一系統(tǒng)映像。減小了用戶的軟件安裝以及跨平臺使用的學(xué)習(xí)成本,實(shí)現(xiàn)了對高性能計(jì)算的完美封裝,降低高性能計(jì)算的使用門檻。高容錯性保障。實(shí)現(xiàn)了對用戶輸入、系統(tǒng)命令、文件權(quán)限、作業(yè)文件、計(jì)算資源等多方面的檢查與確認(rèn)功能,更加安全的用戶作業(yè)提交方式,減小誤操作幾率;基于web方式的提交。提交方式的限制,可降低用戶操作難度,減少用戶操作帶來的系統(tǒng)不穩(wěn)定因素,同時提高高性能和計(jì)算內(nèi)部網(wǎng)絡(luò)的安全性。與綜合管理系統(tǒng)的無縫集成,可實(shí)現(xiàn)可視化交互式作業(yè)提交,且支持用戶定制開發(fā)集成Clusnap接口,集成Clusquota接口,實(shí)現(xiàn)作業(yè)自動故障遷移,實(shí)現(xiàn)計(jì)算資源可視化。SerialandOpenMPClusportalSerialandOpenMPClusportalSerial是GridviewClusportal最基本的portal,可以支持串行程序和openmp程序的作業(yè)提交運(yùn)行,并支持vnc的圖形作業(yè),支持clusnap的自動checkpoint功能,支持和Clusquota的集成。此portal適用串行程序和openmp程序,故支持的節(jié)點(diǎn)數(shù)只能為1。參數(shù)名稱配置說明(詳細(xì)信息可參見手冊)QueueStatus顯示當(dāng)前集群上的工作隊(duì)列及其可用資源ClusQuotaDiskUsage顯示您目前可用存儲配額(配置Clusquota)ClusQuotaCPUTime顯示您目前可用機(jī)時配額(配置Clusquota)PBSOptions需要手動添加PBS作業(yè)的高級參數(shù)Nnodes任務(wù)需要使用的節(jié)點(diǎn)個數(shù)(串行為1)Cores/Node每個節(jié)點(diǎn)需要使用的CPU核數(shù)WallTime作業(yè)的墻上時間Queue作業(yè)提交到的隊(duì)列Name,ManageJobFile,Program,Arguments,WorkingDIR,OutputFile

……MPIClusportalMPIClusportalMPI(MessagePassingInterface)是并行程序使用最為廣泛的程序設(shè)計(jì)標(biāo)準(zhǔn),可以支持大規(guī)模多節(jié)點(diǎn)并行。支持的MPI的具體實(shí)現(xiàn)為openmpi、intelmpi、mvapich、mpich等。參數(shù)名稱配置說明(詳細(xì)信息可參見手冊)MPIType選擇MPI并行環(huán)境RemoteShell節(jié)點(diǎn)之間的訪問協(xié)議,默認(rèn)采用SSHCommucation數(shù)據(jù)交換采用何種網(wǎng)絡(luò)ShareMemory節(jié)點(diǎn)內(nèi)的MPI進(jìn)程采用共享內(nèi)存CPUBinding進(jìn)程綁定MPIProgram需要運(yùn)行的MPI程序用戶portal配置

Serial:$HOME/.clusportal/serial.settingMPI:$HOME/.clusportal/mpi.setting應(yīng)用Clusportal目前集成了19種軟件,根據(jù)用戶應(yīng)用和使用習(xí)慣的要求,可以進(jìn)行有針對性的訂制,實(shí)現(xiàn)用戶所需要的軟件提交界面。完成作業(yè)提交并查看新提交的作業(yè)作業(yè)管理主要包含對作業(yè)的查詢、控制和刪除等操作。作業(yè)控制包括保留、釋放、掛起、恢復(fù)、重新運(yùn)行等操作。新作業(yè)查詢功能管理員可以刪除任何作業(yè);普通用戶只能刪除自己的作業(yè),可以選擇多個作業(yè)同時刪除。作業(yè)管理和作業(yè)控制集群統(tǒng)計(jì)視圖VNC會話登錄

VNC登錄可以打開一個到某個集群管理節(jié)點(diǎn)的VNC會話。1.每個VNC會話窗口都是在一個Tab頁中打開。2.每個集群只能打開一個VNC會話。提供了查詢、打開和刪除等管理操作的功能。root和Gridview管理員可以查詢或者打開所有的VNC會話,而普通用戶僅能查詢和打開自身的VNC會話。按鈕區(qū)域集群列表會話列表VNC會話管理VNC會話打開和刪除選中某一個VNC會話,然后單擊“打開會話”按鈕,這時系統(tǒng)會打開一個新的“VNC打開”Tab頁來呈現(xiàn)當(dāng)前選中的VNC會話的窗口內(nèi)容。1.每次只能選擇并打開一個VNC會話。如果選擇多個打開,則界面會提示錯誤。2.同一時刻只允許打開一個VNC會話。如果在已經(jīng)有一個會話在“VNC打開”Tab頁中顯示,則再在“VNC管理”中選擇一個會話打開的話,原有Tab頁中只會顯示最新的會話窗口。集群系統(tǒng)的管理與維護(hù)集群系統(tǒng)的登錄方式程序編譯與作業(yè)提交使用Gridview和ClusPortal提交和管理作業(yè)目錄集群系統(tǒng)的開機(jī)集群系統(tǒng)設(shè)備的開啟和關(guān)閉需要安裝一定的順序進(jìn)行,如果不按照合理順序進(jìn)行,容易導(dǎo)致集群工作不正常。集群系統(tǒng)開機(jī)的順序?yàn)椋簷C(jī)柜上電。將機(jī)柜電源箱空開撥至“ON”狀態(tài),將每個機(jī)柜PDU的空開撥至“ON”狀態(tài)。一般情況下,機(jī)柜上電后,會自動開啟網(wǎng)絡(luò)交換機(jī)、存儲磁盤陣列、KVM等設(shè)備。確保已開啟網(wǎng)絡(luò)交換設(shè)備,包括以太網(wǎng)交換機(jī)、IB交換機(jī)、存儲交換機(jī)等。確保已開啟磁盤陣列。檢查磁盤陣列指示燈或顯示屏,確保磁盤陣列已啟動。開啟IO節(jié)點(diǎn),等待操作系統(tǒng)完全啟動后,檢查確保已掛載上磁盤陣列存儲空間。開啟登陸管理節(jié)點(diǎn),操作系統(tǒng)完全啟動后,檢查是否掛載上IO節(jié)點(diǎn)的網(wǎng)絡(luò)共享存儲。開啟計(jì)算節(jié)點(diǎn),包括刀片計(jì)算節(jié)點(diǎn)、GPGPU計(jì)算節(jié)點(diǎn)、SMP胖節(jié)點(diǎn)等,其中開啟刀片計(jì)算節(jié)點(diǎn)前,需要按刀片機(jī)箱電源按鈕為刀片機(jī)箱上電。集群系統(tǒng)關(guān)閉的順序原則上與開啟順序相反:關(guān)閉所有計(jì)算節(jié)點(diǎn),包括刀片計(jì)算節(jié)點(diǎn)、GPGPU計(jì)算節(jié)點(diǎn)、SMP胖節(jié)點(diǎn)等。關(guān)閉登陸管理節(jié)點(diǎn)。關(guān)閉IO節(jié)點(diǎn)。機(jī)柜下電,將機(jī)柜PDU的空開撥至“OFF”狀態(tài),將機(jī)柜電源箱空開也撥至“OFF”狀態(tài)。機(jī)柜下電同時也關(guān)閉了網(wǎng)絡(luò)交換機(jī)、磁盤陣列、KVM等設(shè)備。集群系統(tǒng)的關(guān)機(jī)clusconf批量開機(jī)當(dāng)集群規(guī)模較大時,逐臺對集群進(jìn)行開機(jī)工作量較大,可利用clusconf相關(guān)命令對集群進(jìn)行批量開關(guān)機(jī),clusconf命令利用ipmi的開關(guān)機(jī)功能,所以需要使用此功能,需要確認(rèn)服務(wù)器配置或集成了ipmi芯片,并且已經(jīng)配好了可訪問的ipmi地址:

1.確認(rèn)系統(tǒng)爭取上點(diǎn)、交換機(jī)、存儲設(shè)備都已經(jīng)正常開啟2.手動打開集群中一臺管理節(jié)點(diǎn),并登陸到這臺管理節(jié)點(diǎn)上。3.IO節(jié)點(diǎn)批量開關(guān)機(jī): clusconf-pio-in4.管理節(jié)點(diǎn)批量開關(guān)機(jī)(多臺管理節(jié)點(diǎn)): clusconf-padmin-in5.計(jì)算節(jié)點(diǎn)批量開關(guān)機(jī) clusconf-pcomput-in6.掛載首先開機(jī)的管理節(jié)點(diǎn)的文件系統(tǒng)由于首先開啟的管理節(jié)點(diǎn)先于IO節(jié)點(diǎn)開機(jī),所以管理節(jié)點(diǎn)的文件系統(tǒng)并沒有正確掛載,在整個系統(tǒng)開啟后,需要掛載文件系統(tǒng)。掛載文件系統(tǒng)可以讓這個節(jié)點(diǎn)重啟,也可以運(yùn)行相關(guān)命令,一般文件掛載命令均寫在/etc/rc.local中(suse系統(tǒng)為/etc/init.d/after.local)中。

source/etc/rc.local 當(dāng)集群規(guī)模較大時,逐臺對集群進(jìn)行開機(jī)工作量較大,可利用clusconf相關(guān)命令對集群進(jìn)行批量開關(guān)機(jī),clusconf命令利用ipmi的開關(guān)機(jī)功能,所以需要使用此功能,需要確認(rèn)服務(wù)器配置或集成了ipmi芯片,并且已經(jīng)配好了可訪問的ipmi地址:1.登陸到一臺管理節(jié)點(diǎn)上。2.計(jì)算節(jié)點(diǎn)批量開關(guān)機(jī) clusconf-pcomput–if3.IO節(jié)點(diǎn)批量開關(guān)機(jī): clusconf-pio-if4.管理節(jié)點(diǎn)批量開關(guān)機(jī)(多臺管理節(jié)點(diǎn)): clusconf-padmin–if

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論