高性能計(jì)算技術(shù)、方案和行業(yè)全面解析_第1頁
高性能計(jì)算技術(shù)、方案和行業(yè)全面解析_第2頁
高性能計(jì)算技術(shù)、方案和行業(yè)全面解析_第3頁
高性能計(jì)算技術(shù)、方案和行業(yè)全面解析_第4頁
高性能計(jì)算技術(shù)、方案和行業(yè)全面解析_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 高性能計(jì)算技術(shù)、方案和行業(yè)全面解析(第2版) 讀者朋友們好,今天給大家?guī)黼娮訒?,?017年發(fā)布第一版以來,一直收到讀者朋友的好評(píng),也有人拿著這本電子書用轉(zhuǎn)換工具盜版,并在百度文庫上高價(jià)兜售,有個(gè)叫“托起智慧城市的搖籃的店”用戶在百度上賣出了98元的價(jià)格,還真有人買。百度文庫版權(quán)一直是個(gè)世紀(jì)難題,維權(quán)需蓋章等材料,時(shí)間成本太高。希望讀者朋友支持原創(chuàng),而且原版價(jià)格更實(shí)惠(只收辛苦費(fèi))。電子書一直沒有很好的版本保護(hù)方法,相信侵權(quán)者也是本號(hào)讀者,希望不要跟隨我更新的步伐,再次通過PDF轉(zhuǎn)化軟件,惡意刪除文中本號(hào)出處和申明信息,侵權(quán)獲利。第二版更新的內(nèi)容還比較多(大約80多頁,本次調(diào)小了文章字

2、體),包括HPC場景梳理和應(yīng)用軟件總結(jié),并行環(huán)境數(shù)量(數(shù)學(xué)庫、編譯器和MPI等),并行編程知識(shí)和MPI-IO對(duì)并行文件優(yōu)化;DDN方案更新,增加曙光超算方案和Dell EMC解決方案(NFS,BeeGFS,PixStor/ GPGS,Lustre和Isilon等),以及TOP500相關(guān)內(nèi)容。詳細(xì)內(nèi)容請(qǐng)大家參考微店電子書目錄(點(diǎn)擊“”進(jìn)店),購買過或微店全店鋪技術(shù)資料打包(全)的讀者,請(qǐng)?jiān)谖⒌炅粞?,免費(fèi)獲取更新下載地址。今天跟大家分享一下,Dell EMC的BeeGFS高性能解決方案知識(shí)。(配圖來自Dell EMC解決方案)BeeGFS高性能方案面向高I/O,scratch存儲(chǔ)解決方案場景。該解

3、決方案的核心亮點(diǎn)是使用高速NVMe SSD,降低塊層調(diào)度和排隊(duì)帶來的性能瓶頸,提供高的帶寬和低延遲。BeeGFS同時(shí)支持高聚合I/O吞吐量。BeeGFS高性能解決方案參考架構(gòu)管理服務(wù)器通過以太網(wǎng)連接到元數(shù)據(jù)和存儲(chǔ)服務(wù)器。每個(gè)元數(shù)據(jù)和存儲(chǔ)服務(wù)器都有兩個(gè)InfiniBand鏈接,并通過以太網(wǎng)連接到內(nèi)部專用網(wǎng)絡(luò)。客戶端具有一個(gè)InfiniBand鏈接,并通過以太網(wǎng)連接到內(nèi)部專用接口。BeeGFS體系結(jié)構(gòu)包含四個(gè)主要服務(wù):管理服務(wù):1臺(tái)PowerEdgeR640存儲(chǔ)服務(wù):5臺(tái)PowerEdge R740 xd客戶端服務(wù):采用PowerEdgeC6420元數(shù)據(jù)服務(wù):1臺(tái)PowerEdge R740 xd

4、,根據(jù)多路CPU內(nèi)存訪問方式,分NUMA 0區(qū)和NUMA 1區(qū),避免多CPU帶來的NUMA問題。在BeeGFS中,除了客戶端服務(wù)做為內(nèi)核模塊之外,管理,元數(shù)據(jù)和存儲(chǔ)服務(wù)都是用戶空間進(jìn)程。BeeGFS存儲(chǔ)解決方案的參考體系結(jié)構(gòu),映射到BeeGFS文件系統(tǒng)的常規(guī)體系結(jié)構(gòu)。管理服務(wù)器:每個(gè)BeeGFS文件系統(tǒng)或名稱空間只有一個(gè)管理服務(wù)。管理服務(wù)是第一個(gè)需要設(shè)置的服務(wù),系統(tǒng)配置的所有其他服務(wù)都需要在管理服務(wù)中注冊(cè)。PowerEdge R640用作管理服務(wù)器。運(yùn)行管理服務(wù)(beegfs-mgmtd.service)和監(jiān)視服務(wù)(beegfs-mon.service),監(jiān)視服務(wù)使用時(shí)間序列數(shù)據(jù)庫Influx

5、DB收集系統(tǒng)統(tǒng)計(jì)數(shù)據(jù)提供給用戶,通過預(yù)定義的Grafana實(shí)現(xiàn)可視化數(shù)據(jù),管理服務(wù)器配置6個(gè)300GB HDD(RAID 10)供為操作系統(tǒng)和InfluxDB存儲(chǔ)數(shù)據(jù)??蛻舳朔?wù)器:BeeGFS客戶端模塊需要加載到需要訪問BeeGFS文件系統(tǒng)的所有客戶端服務(wù)器上。當(dāng)beegfs客戶端被加載時(shí),它將掛載在/etc/beegfs/beegfs-mounts.conf中定義的文件系統(tǒng),并非基于/etc/ fstab配置。像其他任何Linux服務(wù)一樣,可通過服務(wù)啟動(dòng)腳本啟動(dòng)beegfs-client。系統(tǒng)更新將自動(dòng)重新編譯BeeGFS客戶端模塊。當(dāng)客戶端模塊重新加載后,定義在beegfs-mounts

6、.conf中的文件系統(tǒng)將被重新安裝。元數(shù)據(jù)服務(wù)器:元數(shù)據(jù)服務(wù)是橫向擴(kuò)展服務(wù),每個(gè)元數(shù)據(jù)服務(wù)都有一個(gè)確切的元數(shù)據(jù)目標(biāo)(ST)來存儲(chǔ)元數(shù)據(jù)。在元數(shù)據(jù)目標(biāo)(MDT)上,BeeGFS為每個(gè)用戶創(chuàng)建的文件創(chuàng)建一個(gè)元數(shù)據(jù)文件。BeeGFS元數(shù)據(jù)是按目錄分布的。元數(shù)據(jù)服務(wù)向客戶端提供數(shù)據(jù)條帶化信息(Coordinate),并不參與文件打開/關(guān)閉數(shù)據(jù)訪問。PowerEdge R740 xd用于元數(shù)據(jù)存儲(chǔ),24個(gè)Intel P4600 1.6TB NVMe驅(qū)動(dòng)器。由于BeeGFS元數(shù)據(jù)對(duì)存儲(chǔ)容量的需求非常小的,所以不使用專用元數(shù)據(jù)服務(wù)器,而只在NUMA0區(qū)域的12個(gè)驅(qū)動(dòng)器用來承載MetaData Targets

7、(MDTs),而NUMA區(qū)主機(jī)上的剩余的12個(gè)驅(qū)動(dòng)器用來承載(STs)。元數(shù)據(jù)服務(wù):NUMA0區(qū)的驅(qū)動(dòng)器配置將用于元數(shù)據(jù),12個(gè)驅(qū)動(dòng)器配置為6* RAID 1磁盤組,每組包括2個(gè)驅(qū)動(dòng)器,每個(gè)驅(qū)動(dòng)器均用作MDT。運(yùn)行6個(gè)元數(shù)據(jù)服務(wù),每個(gè)元數(shù)據(jù)服務(wù)處理一個(gè)MDT。存儲(chǔ)服務(wù):NUMA1區(qū)剩余的12個(gè)存儲(chǔ)驅(qū)動(dòng)器,配置3* RAID 0磁盤組,每組4個(gè)驅(qū)動(dòng)器。在NUMA 1區(qū)域上運(yùn)行3個(gè)存儲(chǔ)服務(wù),對(duì)應(yīng)3個(gè)ST。因此,元數(shù)據(jù)服務(wù)器同時(shí)運(yùn)行6個(gè)元數(shù)據(jù)目標(biāo)和3個(gè)存儲(chǔ)目標(biāo)服務(wù),具有6個(gè)MDT和3個(gè)ST。每個(gè)MDT是基于RAID 1配置的ext4文件系統(tǒng),ST基于RAID 0中配置的XFS文件系統(tǒng)。存儲(chǔ)服務(wù)器:采

8、用5臺(tái)PowerEdge R740 xd服務(wù)器。每個(gè)存儲(chǔ)服務(wù)器被配置為用6*RAID 0組,每組4個(gè)驅(qū)動(dòng)器,每臺(tái)服務(wù)器6個(gè)STs(每個(gè)NUMA區(qū)3個(gè))。元數(shù)據(jù)服務(wù)一樣,存儲(chǔ)服務(wù)也是橫向擴(kuò)展服務(wù)。BeeGFS文件系統(tǒng)中可能有許多存儲(chǔ)服務(wù)實(shí)例。但是,與元數(shù)據(jù)服務(wù)不同,每個(gè)存儲(chǔ)服務(wù)可以有多個(gè)存儲(chǔ)目標(biāo)。存儲(chǔ)服務(wù)存儲(chǔ)條帶化用戶文件的內(nèi)容,也稱為數(shù)據(jù)塊文件。BeeGFS方案包含6個(gè)MDTs和33(3+30)個(gè)STs,5*存儲(chǔ)服務(wù)器可提供211TB的原始容量和190TiB的可用容量。TiB估算的可用容量=驅(qū)動(dòng)器數(shù)*每個(gè)驅(qū)動(dòng)器的容量TB x 0.99(文件系統(tǒng)開銷)*(10 12/2 40)。鑒于以下因素,選

9、擇RAID 0配置,而不是RAID 10作為存儲(chǔ)目標(biāo)。使用dd命令創(chuàng)建一個(gè)塊為1MiB的10GiB文件,測試IO寫入性能,對(duì)于RAID 0設(shè)備,每個(gè)設(shè)備的平均速度約為5.1GB/s,而對(duì)于RAID10設(shè)備,平均的速度為3.4GB/s。StorageBench基準(zhǔn)測試顯示,RAID 0配置的最大吞吐量為5.5 GB / s,而RAID 10配置的最大吞吐量為3.4 GB / s。類似于使用dd命令獲得的結(jié)果。RAID 10可將磁盤容量利用率降低50,寫入性能也可降低50。使用RAID10是獲得存儲(chǔ)冗余方案成本昂貴。NVMe驅(qū)動(dòng)器價(jià)格昂貴,并且RAID 0配置性能最好。英特爾P4600固態(tài)硬盤具備

10、DWPD=3的可靠性,這意味著單盤每天可寫4.8 TB的數(shù)據(jù),支持未來5年數(shù)據(jù)量寫入。BeeGFS高性能存儲(chǔ)解決方案組網(wǎng)方案元數(shù)據(jù)和存儲(chǔ)服務(wù)器都采用PowerEdgeR740 xd,每個(gè)服務(wù)器配24*Intel P4600 1.6TB NVMe,2*Mellanox EDR適配器。服務(wù)器內(nèi)2個(gè)x16 NVMe橋接卡做為底板上的PCIe交換板,分別連接12*NVMe磁盤(驅(qū)動(dòng)器為x4)和一個(gè)CPU,在Non-Uniform MemoryAccess (NUMA),CPU訪問本地內(nèi)存效率更高, 24個(gè)磁盤中,為了優(yōu)化性能和時(shí)延,將配置為使用特定的NUMA區(qū)域,每個(gè)NUMA區(qū)域可處理12個(gè)驅(qū)動(dòng)器,關(guān)

11、閉自動(dòng)NUMA平衡。同時(shí),每個(gè)CPU連接到一個(gè)InfiniBand適配器,2張IB卡分別處理不同NUMA區(qū)域12塊NVMe SSD,確保處理器在處理往返于NVMe驅(qū)動(dòng)器的I /O請(qǐng)求處于負(fù)載均衡,以提供最佳性能。BeeGFS高性能存儲(chǔ)解決方案軟硬件配置管理服務(wù)器服務(wù)器1個(gè)戴爾EMC PowerEdge R640處理器2個(gè)Intel Xeon Gold 5218 2.3 GHz,16核內(nèi)存12個(gè)8GB DDR4 2666MT / s DIMM-96GB本地磁盤6個(gè)300GB 15K RPM SAS 2.5英寸硬盤RAID控制器PERC H740P集成RAID控制器帶外管理帶Lifecycle C

12、ontroller的iDRAC9 Enterprise電源雙1100W電源設(shè)備BIOS2.2.11操作系統(tǒng)CentOS7.6內(nèi)核版本3.10.0-957.27.2.el7.x86_64元數(shù)據(jù)和存儲(chǔ)服務(wù)器服務(wù)器6個(gè)戴爾EMC PowerEdge R740 xd處理器2個(gè)Intel Xeon Platinum 8268 CPU 2.90GHz,24核內(nèi)存12 x 32GB DDR4 2933MT / s DIMM-384GBBOSS卡RAID 1中的2個(gè)240GB M.2 SATA SSD用于操作系統(tǒng)本地驅(qū)動(dòng)器24個(gè)Dell Express Flash NVMe P4600 1.6TB 2.5“

13、U.2Mellanox EDR卡2個(gè)Mellanox ConnectX-5 EDR卡(插槽1和8)帶外管理帶Lifecycle Controller的iDRAC9 Enterprise電源雙路2000W電源單元客戶端服務(wù)器客戶端32個(gè)Dell EMC PowerEdge C6420計(jì)算節(jié)點(diǎn)BIOS2.2.9處理器2個(gè)Intel Xeon Gold 6148 CPU 2.40GHz,每個(gè)處理器20個(gè)核記憶12 x 16GB DDR4 2666 MT / s DIMM-192GB磁盤2個(gè)120GB M.2 OS驅(qū)動(dòng)器,RAID1配置操作系統(tǒng)紅帽企業(yè)版Linux服務(wù)器7.6版內(nèi)核版本3.10.0-9

14、57.el7.x86_64互連線1個(gè)Mellanox ConnectX-4 EDR卡OFED版本4.5-1.0.1.0軟件配置(元數(shù)據(jù)和存儲(chǔ)服務(wù)器)BIOS2.2.11CPLD1.1.3操作系統(tǒng)CentOS 7.6內(nèi)核版本3.10.0-957.el7.x86_64iDRAC3.34.34.34系統(tǒng)管理工具OpenManage服務(wù)器管理器9.3.0-407_A00Mellanox OFED4.5-1.0.1.0NVMe固態(tài)硬盤QDV1DP13英特爾數(shù)據(jù)中心工具3.0.19BeeGFS7.1.3Grafana6.3.2InfluxDB1.7.7IOzone Benchmark3.487BeeGFS

15、高性能存儲(chǔ)解決方案性能測試測試工具Iozone,基準(zhǔn)測試評(píng)估了順序讀取/寫入吞吐量,隨機(jī)讀取/寫入IOPS性能。線程數(shù)從1個(gè)線程開始,以2的冪遞增,直到1024個(gè)線程。BeeGFS的條帶大小選擇為2MB,條帶數(shù)選擇為3(默認(rèn)4),測試最大程度地減少來自服務(wù)器以及BeeGFS客戶端的緩存影響順序讀寫N:N(每個(gè)線程對(duì)一個(gè)文件或N個(gè)客戶端對(duì)N個(gè)文件):1024個(gè)線程的峰值讀取性能為132 GB/s,256個(gè)線程的峰值寫入性能為121 GB/s。順序?qū)懞妥x:iozone -i 0 -i 1 -c -e -w -r 1m -I -s $ Size -t $Thread-+ n-+ m / path / to / threadlist測試從4個(gè)線程到最多1024個(gè)線程的線程數(shù)進(jìn)行,有操作都繞過緩沖區(qū)緩存并直接進(jìn)入磁盤。BeeGFS的條帶計(jì)數(shù)為3,塊大小為2MB。IOzone使用4KiB請(qǐng)求大小。隨機(jī)讀寫N:N:512個(gè)線程處隨機(jī)寫入性能約360萬IOPS,而隨機(jī)讀取在256個(gè)線程處達(dá)到約350萬IOPS,IO請(qǐng)求增加時(shí),讀取性能上升(NVMe支持64K IO隊(duì)列,每個(gè)隊(duì)列支持64K命令,龐大的NVMe隊(duì)列池提供更高IO并行性。隨機(jī)讀取和寫入:iozone -i 2 -w -c -O -I -r 4K -s $ Size -t $ Thread-+ n-+

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論