-InfiniBand技術(shù)與存儲網(wǎng)絡(luò)_第1頁
-InfiniBand技術(shù)與存儲網(wǎng)絡(luò)_第2頁
-InfiniBand技術(shù)與存儲網(wǎng)絡(luò)_第3頁
-InfiniBand技術(shù)與存儲網(wǎng)絡(luò)_第4頁
-InfiniBand技術(shù)與存儲網(wǎng)絡(luò)_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第十講第十講 InfiniBand技術(shù)與存儲網(wǎng)絡(luò)技術(shù)與存儲網(wǎng)絡(luò) InfiniBand是一串行網(wǎng)絡(luò)技術(shù),它繼承了目前多數(shù)開放是一串行網(wǎng)絡(luò)技術(shù),它繼承了目前多數(shù)開放系統(tǒng)服務(wù)器使用的系統(tǒng)服務(wù)器使用的PCI總線。作為一種低成本的系統(tǒng)及組總線。作為一種低成本的系統(tǒng)及組件設(shè)計(jì)技術(shù),件設(shè)計(jì)技術(shù),InfiniBand串行總線串行總線/網(wǎng)絡(luò)被認(rèn)為是增長最快網(wǎng)絡(luò)被認(rèn)為是增長最快的網(wǎng)絡(luò)技術(shù)之一,它的應(yīng)用潛力遠(yuǎn)遠(yuǎn)超過當(dāng)今所知的系統(tǒng)的網(wǎng)絡(luò)技術(shù)之一,它的應(yīng)用潛力遠(yuǎn)遠(yuǎn)超過當(dāng)今所知的系統(tǒng)總線。總線。 本講簡要概述本講簡要概述InfiniBand如何替代如何替代PCI總線,討論集群中的存儲,總線,討論集群中的存儲,以及基于以及

2、基于InfiniBand的存儲的存儲I/O技術(shù)的相關(guān)進(jìn)展技術(shù)的相關(guān)進(jìn)展InfiniBand產(chǎn)生的背景產(chǎn)生的背景 計(jì)算機(jī)的整體性能取決于三個子系統(tǒng)的相互關(guān)系,處計(jì)算機(jī)的整體性能取決于三個子系統(tǒng)的相互關(guān)系,處理器、存儲和理器、存儲和I/O。要使整個系統(tǒng)的性能得到發(fā)揮,必須。要使整個系統(tǒng)的性能得到發(fā)揮,必須協(xié)調(diào)好三者之間的平衡關(guān)系。協(xié)調(diào)好三者之間的平衡關(guān)系。Moore定律準(zhǔn)確地預(yù)測半導(dǎo)定律準(zhǔn)確地預(yù)測半導(dǎo)體每體每18個月性能加倍,并在處理器和存儲方面得到了很好個月性能加倍,并在處理器和存儲方面得到了很好的驗(yàn)證。然而,的驗(yàn)證。然而,I/O互連受到機(jī)械和電器方面地限制,使互連受到機(jī)械和電器方面地限制,使其

3、性能提高遠(yuǎn)低于半導(dǎo)體的發(fā)展,因而限制了系統(tǒng)性能。其性能提高遠(yuǎn)低于半導(dǎo)體的發(fā)展,因而限制了系統(tǒng)性能。 當(dāng)前被普遍采用的當(dāng)前被普遍采用的I/O技術(shù)主要是技術(shù)主要是PCI。用于替代。用于替代PCI作為下一代作為下一代server互連標(biāo)準(zhǔn),互連標(biāo)準(zhǔn),InfiniBand受到所有主要受到所有主要OEM server開發(fā)商的支持。這是第一種具有工業(yè)標(biāo)準(zhǔn)的開發(fā)商的支持。這是第一種具有工業(yè)標(biāo)準(zhǔn)的高性能高性能I/O互連,它擴(kuò)展了傳統(tǒng)內(nèi)部總線的角色,引入了互連,它擴(kuò)展了傳統(tǒng)內(nèi)部總線的角色,引入了底板解決方案,并允許互連走出機(jī)箱,這種互連方式以前底板解決方案,并允許互連走出機(jī)箱,這種互連方式以前是網(wǎng)絡(luò)互連所特有的。

4、是網(wǎng)絡(luò)互連所特有的。 InfiniBand的最終目標(biāo)是取代現(xiàn)在的最終目標(biāo)是取代現(xiàn)在各種不同的網(wǎng)絡(luò)各種不同的網(wǎng)絡(luò)存儲、通信和存儲、通信和I/O。PCI技術(shù)規(guī)格簡介技術(shù)規(guī)格簡介 從從1992年創(chuàng)立規(guī)范到如今,年創(chuàng)立規(guī)范到如今,PCI總線已成為了計(jì)算機(jī)的一總線已成為了計(jì)算機(jī)的一種標(biāo)準(zhǔn)總線。種標(biāo)準(zhǔn)總線。 PCI總線取代了早先的總線取代了早先的ISA總線。當(dāng)然與在總線。當(dāng)然與在PCI總線后面出總線后面出現(xiàn)專門用于顯卡的現(xiàn)專門用于顯卡的AGP總線,與現(xiàn)在總線,與現(xiàn)在PCI Express總線,但是總線,但是PCI能從能從1992用到現(xiàn)在,說明他有許多優(yōu)點(diǎn),比如即插即用用到現(xiàn)在,說明他有許多優(yōu)點(diǎn),比如即插即

5、用(Plug and Play)、中斷共享等。、中斷共享等。 從數(shù)據(jù)寬度上看,從數(shù)據(jù)寬度上看,PCI總線有總線有32bit、64bit之分;從總線速之分;從總線速度上分,有度上分,有33MHz、66MHz兩種。目前流行的是兩種。目前流行的是32bit 33MHz,而,而64bit系統(tǒng)正在普及中。改良的系統(tǒng)正在普及中。改良的PCI系統(tǒng),系統(tǒng),PCI-X,最高可以達(dá)到最高可以達(dá)到64bit 133MHz,這樣就可以得到超過,這樣就可以得到超過1GB/s的的數(shù)據(jù)傳輸速率。數(shù)據(jù)傳輸速率。 替代替代PCI的的InfiniBand InfiniBand是一新的網(wǎng)絡(luò)技術(shù)。它集成了系統(tǒng)功能,使是一新的網(wǎng)絡(luò)技術(shù)

6、。它集成了系統(tǒng)功能,使它可以替代它可以替代PCI系統(tǒng)總線的功能。系統(tǒng)總線的功能。 作為總線替代品,它的一些主要特征如下:作為總線替代品,它的一些主要特征如下: InfiniBand基于全雙工,交換串行傳輸;基于全雙工,交換串行傳輸; 單項(xiàng)傳輸速率可達(dá)單項(xiàng)傳輸速率可達(dá)2.5GB/s; 系統(tǒng)通過外部系統(tǒng)擴(kuò)展,而不是系統(tǒng)系統(tǒng)通過外部系統(tǒng)擴(kuò)展,而不是系統(tǒng)“卡槽卡槽”; 隨著內(nèi)部擴(kuò)展需求的消失,系統(tǒng)縮減;隨著內(nèi)部擴(kuò)展需求的消失,系統(tǒng)縮減; 支持熱切換,與支持熱切換,與PCI不同;不同; 為每一個擴(kuò)展外設(shè)提供獨(dú)立電源;為每一個擴(kuò)展外設(shè)提供獨(dú)立電源; 主機(jī)主機(jī)I/O控制功能成為網(wǎng)橋功能??刂乒δ艹蔀榫W(wǎng)橋功能

7、。 InfiniBand是一新的網(wǎng)絡(luò)技術(shù)。它集成了系統(tǒng)功能,使是一新的網(wǎng)絡(luò)技術(shù)。它集成了系統(tǒng)功能,使它可以替代它可以替代PCI系統(tǒng)總線的功能。系統(tǒng)總線的功能。 作為總線替代品,它的一些主要特征如下:作為總線替代品,它的一些主要特征如下: InfiniBand基于全雙工,交換串行傳輸;基于全雙工,交換串行傳輸; 單項(xiàng)傳輸速率可達(dá)單項(xiàng)傳輸速率可達(dá)2.5GB/s; 系統(tǒng)通過外部系統(tǒng)擴(kuò)展,而不是系統(tǒng)系統(tǒng)通過外部系統(tǒng)擴(kuò)展,而不是系統(tǒng)“卡槽卡槽”; 隨著內(nèi)部擴(kuò)展需求的消失,系統(tǒng)縮減;隨著內(nèi)部擴(kuò)展需求的消失,系統(tǒng)縮減; 支持熱切換,與支持熱切換,與PCI不同;不同; 為每一個擴(kuò)展外設(shè)提供獨(dú)立電源;為每一個擴(kuò)

8、展外設(shè)提供獨(dú)立電源; 主機(jī)主機(jī)I/O控制功能成為網(wǎng)橋功能??刂乒δ艹蔀榫W(wǎng)橋功能。1串行傳輸串行傳輸InfiniBand使用串行傳輸技術(shù)可提供比使用串行傳輸技術(shù)可提供比PCI并行總線更遠(yuǎn)并行總線更遠(yuǎn)的距離和更強(qiáng)的尋址能力。的距離和更強(qiáng)的尋址能力。InfiniBand有一個組件名為主機(jī)通道適配器(有一個組件名為主機(jī)通道適配器(HCA)。它)。它將替代將替代PCI橋芯片將外設(shè)連接到系統(tǒng)總線。橋芯片將外設(shè)連接到系統(tǒng)總線。2傳輸率傳輸率InfiniBand是全雙工通信,單方連接速度可達(dá)是全雙工通信,單方連接速度可達(dá)2.5GB/s, InfiniBand版本版本1的全雙工通信速度可達(dá)道的全雙工通信速度可達(dá)

9、道5GB/s。另外另外InfiniBand支持主動連接,可建立多個傳輸組,跨越支持主動連接,可建立多個傳輸組,跨越4到到12個連接,性能提高個連接,性能提高4倍及倍及12倍。這樣倍。這樣InfiniBand單項(xiàng)傳單項(xiàng)傳輸速度是輸速度是2.5GB/s,10GB/s,和和30GB/s。遠(yuǎn)超過。遠(yuǎn)超過PCI的的1GB/s的最高傳輸速率。的最高傳輸速率。3外部系統(tǒng)擴(kuò)展外部系統(tǒng)擴(kuò)展多年來將外設(shè)裝載到系統(tǒng)內(nèi)部是實(shí)現(xiàn)高速系統(tǒng)的最容易和多年來將外設(shè)裝載到系統(tǒng)內(nèi)部是實(shí)現(xiàn)高速系統(tǒng)的最容易和最可靠的方式。原因之一是并行總線信號不易通過外部電最可靠的方式。原因之一是并行總線信號不易通過外部電纜傳輸。纜傳輸。 因使用因

10、使用PCI難以進(jìn)一步縮短系統(tǒng)板尺寸、以及提高難以進(jìn)一步縮短系統(tǒng)板尺寸、以及提高吞吐量、可靠性、系統(tǒng)擴(kuò)展等因素,推動了吞吐量、可靠性、系統(tǒng)擴(kuò)展等因素,推動了InfiniBand的應(yīng)的應(yīng)用。用。5熱交換熱交換 InfiniBand使用邏輯網(wǎng)絡(luò)地址,建立系統(tǒng)和外設(shè)的連接,使用邏輯網(wǎng)絡(luò)地址,建立系統(tǒng)和外設(shè)的連接,代替實(shí)際使用的總線共享數(shù)據(jù)和地址線,更容易將連接和代替實(shí)際使用的總線共享數(shù)據(jù)和地址線,更容易將連接和設(shè)備隔離,而不影響整個信道。其結(jié)果是設(shè)備隔離,而不影響整個信道。其結(jié)果是InfiniBand網(wǎng)絡(luò)網(wǎng)絡(luò)上的設(shè)備可以熱交換(熱插拔)。上的設(shè)備可以熱交換(熱插拔)。6.獨(dú)立電源獨(dú)立電源 置于外部的外

11、設(shè)可通過外置電源供電而不通過系統(tǒng)總置于外部的外設(shè)可通過外置電源供電而不通過系統(tǒng)總線供電。因此電源容量可以隨系統(tǒng)的增長而隨時增加,不線供電。因此電源容量可以隨系統(tǒng)的增長而隨時增加,不必儲備多余的電源。必儲備多余的電源。4系統(tǒng)縮減系統(tǒng)縮減沒有了總線插槽上的內(nèi)部控制器,基于沒有了總線插槽上的內(nèi)部控制器,基于InfiniBand的系統(tǒng)的系統(tǒng)會更小。會更小。 從結(jié)構(gòu)上看,從結(jié)構(gòu)上看, InfiniBand控制器與網(wǎng)關(guān)類似,可跨越兩個不同網(wǎng)絡(luò),控制器與網(wǎng)關(guān)類似,可跨越兩個不同網(wǎng)絡(luò),如以太網(wǎng)或光纖通道如以太網(wǎng)或光纖通道SAN。主機(jī)控制器的網(wǎng)絡(luò)網(wǎng)關(guān)功能主機(jī)控制器的網(wǎng)絡(luò)網(wǎng)關(guān)功能 傳統(tǒng)的系統(tǒng)總線傳統(tǒng)的系統(tǒng)總線I/

12、O系統(tǒng)控制器和適配器位于系統(tǒng)機(jī)箱內(nèi),并提供與系統(tǒng)控制器和適配器位于系統(tǒng)機(jī)箱內(nèi),并提供與外部網(wǎng)絡(luò)和總線的連接。但使用外部網(wǎng)絡(luò)和總線的連接。但使用InfiniBand,I/O控制器可以置于網(wǎng)絡(luò)的控制器可以置于網(wǎng)絡(luò)的任何位置,嵌入式系統(tǒng)和存儲子系統(tǒng),并作為網(wǎng)絡(luò)中的獨(dú)立設(shè)備。任何位置,嵌入式系統(tǒng)和存儲子系統(tǒng),并作為網(wǎng)絡(luò)中的獨(dú)立設(shè)備。 集群集群InfiniBand的特點(diǎn)有利于高可的特點(diǎn)有利于高可用性、高性能及可擴(kuò)展集群解用性、高性能及可擴(kuò)展集群解決方案的發(fā)展。作為串行網(wǎng)絡(luò)決方案的發(fā)展。作為串行網(wǎng)絡(luò)技術(shù),技術(shù), InfiniBand可用于將系可用于將系統(tǒng)與系統(tǒng)內(nèi)存總線緊密連接在統(tǒng)與系統(tǒng)內(nèi)存總線緊密連接在一

13、起。一起。 InfiniBand連接系統(tǒng)的連接系統(tǒng)的能力比其他網(wǎng)絡(luò)通過適配器和能力比其他網(wǎng)絡(luò)通過適配器和橋連接具有更大的優(yōu)勢。橋連接具有更大的優(yōu)勢。集群的主要挑戰(zhàn)就是找到一種集群的主要挑戰(zhàn)就是找到一種方法整合系統(tǒng),以提高系統(tǒng)處方法整合系統(tǒng),以提高系統(tǒng)處理能力、存儲能力和冗余。理能力、存儲能力和冗余。集群是一種高可靠性、改進(jìn)了處理性集群是一種高可靠性、改進(jìn)了處理性能并有著大存儲容量的解決方案,隨能并有著大存儲容量的解決方案,隨著應(yīng)用的增長,著應(yīng)用的增長,集集群可能遇到一些在群可能遇到一些在單機(jī)系統(tǒng)上不會發(fā)生的問題。單機(jī)系統(tǒng)上不會發(fā)生的問題。集群的優(yōu)點(diǎn)集群的優(yōu)點(diǎn)1. 集群的可用性集群的一個主要優(yōu)點(diǎn)

14、是:隨著應(yīng)用和數(shù)據(jù)的增長,它能夠在集群的一個主要優(yōu)點(diǎn)是:隨著應(yīng)用和數(shù)據(jù)的增長,它能夠在較短的時間里處理較多的數(shù)據(jù)。一般來較短的時間里處理較多的數(shù)據(jù)。一般來講講,開發(fā)的應(yīng)用程序,開發(fā)的應(yīng)用程序是在單系統(tǒng)環(huán)境下運(yùn)行的,如果系統(tǒng)發(fā)生了問題,應(yīng)用程序是在單系統(tǒng)環(huán)境下運(yùn)行的,如果系統(tǒng)發(fā)生了問題,應(yīng)用程序及其數(shù)據(jù)有可能不可用。而在一個集群系統(tǒng)中,這個應(yīng)用可及其數(shù)據(jù)有可能不可用。而在一個集群系統(tǒng)中,這個應(yīng)用可以在集群中的另一個系統(tǒng)中繼續(xù)運(yùn)行。以在集群中的另一個系統(tǒng)中繼續(xù)運(yùn)行。2. 集群的處理能力集群的處理能力 一個含有多個處理機(jī)的集群,應(yīng)該能比一個處理機(jī)完成工一個含有多個處理機(jī)的集群,應(yīng)該能比一個處理機(jī)完成

15、工作快。但這個結(jié)論極大的依賴于應(yīng)用程序的類型及集群系統(tǒng)作快。但這個結(jié)論極大的依賴于應(yīng)用程序的類型及集群系統(tǒng)的特點(diǎn)。的特點(diǎn)。 通常,測試對比系統(tǒng)并不能代表真實(shí)結(jié)果(運(yùn)行特定程序通常,測試對比系統(tǒng)并不能代表真實(shí)結(jié)果(運(yùn)行特定程序所得到的運(yùn)行效率,加速比等),但可以高度優(yōu)化以達(dá)到完所得到的運(yùn)行效率,加速比等),但可以高度優(yōu)化以達(dá)到完美的測試結(jié)果。事物處理測試表明對數(shù)據(jù)庫采用集群的方法美的測試結(jié)果。事物處理測試表明對數(shù)據(jù)庫采用集群的方法是合理的。是合理的。集群的存儲能力與I/O性能通過增加集群主機(jī)的原始存儲容量,集群同樣允許連接大量的存儲。例通過增加集群主機(jī)的原始存儲容量,集群同樣允許連接大量的存儲。

16、例如,一個擁有如,一個擁有10TB磁盤存儲容量的單機(jī)系統(tǒng)可以擴(kuò)展成支持磁盤存儲容量的單機(jī)系統(tǒng)可以擴(kuò)展成支持20TB的具的具有等兩級主機(jī)的雙系統(tǒng)集群,如圖有等兩級主機(jī)的雙系統(tǒng)集群,如圖13-5所示。所示。集群的重要優(yōu)點(diǎn)是存儲容量,與其相關(guān)的優(yōu)點(diǎn)就是提供附加系統(tǒng)和相關(guān)集群的重要優(yōu)點(diǎn)是存儲容量,與其相關(guān)的優(yōu)點(diǎn)就是提供附加系統(tǒng)和相關(guān)I/O能力。集群中用于存取存儲的方法是一個非常重要的設(shè)計(jì)問題。能力。集群中用于存取存儲的方法是一個非常重要的設(shè)計(jì)問題。 集群處理集群處理用用NAS和和SAN建立一個雙節(jié)點(diǎn)集群建立一個雙節(jié)點(diǎn)集群 下圖所示為集群配置兩個下圖所示為集群配置兩個NAS系統(tǒng)和兩個存儲子系統(tǒng)的情況。系

17、統(tǒng)和兩個存儲子系統(tǒng)的情況。NAS系統(tǒng)通過冗余連接設(shè)備,包括以太網(wǎng)雙網(wǎng)絡(luò)接口卡和系統(tǒng)通過冗余連接設(shè)備,包括以太網(wǎng)雙網(wǎng)絡(luò)接口卡和SAN雙工雙工HBA。高可用目標(biāo)高可用目標(biāo) 本例中假設(shè)用集群實(shí)現(xiàn)高可用性,要有極快的故障恢復(fù)速度,并且要本例中假設(shè)用集群實(shí)現(xiàn)高可用性,要有極快的故障恢復(fù)速度,并且要切換切換NAS服務(wù)器,前面介紹的一般數(shù)據(jù)復(fù)制技術(shù)都不能滿足需要服務(wù)器,前面介紹的一般數(shù)據(jù)復(fù)制技術(shù)都不能滿足需要。通過通過“心跳心跳”監(jiān)視運(yùn)行情監(jiān)視運(yùn)行情況況“心跳心跳”信號是集群系統(tǒng)之間的一個短促而持續(xù)連接,使得所有主機(jī)知道集群信號是集群系統(tǒng)之間的一個短促而持續(xù)連接,使得所有主機(jī)知道集群中的其它系統(tǒng)工作正常。每

18、各集群主機(jī)都有一個相應(yīng)進(jìn)程響應(yīng)從其它主機(jī)接中的其它系統(tǒng)工作正常。每各集群主機(jī)都有一個相應(yīng)進(jìn)程響應(yīng)從其它主機(jī)接收心跳信號。如果沒有受到預(yù)期的心跳信號,這個進(jìn)程就開始把資源從故障收心跳信號。如果沒有受到預(yù)期的心跳信號,這個進(jìn)程就開始把資源從故障系統(tǒng)轉(zhuǎn)移到集群中的其它系統(tǒng)。系統(tǒng)轉(zhuǎn)移到集群中的其它系統(tǒng)。對于雙主機(jī)集群,心跳系統(tǒng)很簡單。每個主機(jī)向?qū)Ψ桨l(fā)送有規(guī)律的、特定心對于雙主機(jī)集群,心跳系統(tǒng)很簡單。每個主機(jī)向?qū)Ψ桨l(fā)送有規(guī)律的、特定心跳信號。然而,對于有更多主機(jī)的集群,心跳系統(tǒng)的復(fù)雜度會相應(yīng)提高。跳信號。然而,對于有更多主機(jī)的集群,心跳系統(tǒng)的復(fù)雜度會相應(yīng)提高。為了獲得心跳信號傳輸?shù)目煽啃裕话闶褂梅蛛x、

19、獨(dú)立的連接。為了獲得心跳信號傳輸?shù)目煽啃?,一般使用分離、獨(dú)立的連接。切換過程切換過程針對雙主機(jī)針對雙主機(jī)NAS集群,如果主機(jī)集群,如果主機(jī)A出了故障,主機(jī)出了故障,主機(jī)B敘準(zhǔn)備接管主機(jī)敘準(zhǔn)備接管主機(jī)A的工作。的工作。集群中的共享存儲集群中的共享存儲 切換主機(jī)必須能夠訪問停機(jī)主機(jī)正在處理的數(shù)據(jù)。為了切換主機(jī)必須能夠訪問停機(jī)主機(jī)正在處理的數(shù)據(jù)。為了做到這一點(diǎn),就必須假設(shè):切換主機(jī)有訪問該數(shù)據(jù)的路徑;可以找到故障發(fā)做到這一點(diǎn),就必須假設(shè):切換主機(jī)有訪問該數(shù)據(jù)的路徑;可以找到故障發(fā)生時中途停止寫的數(shù)據(jù),并回退。第一個假設(shè)可以通過生時中途停止寫的數(shù)據(jù),并回退。第一個假設(shè)可以通過I/O通道技術(shù)實(shí)現(xiàn)。第通道

20、技術(shù)實(shí)現(xiàn)。第二個假設(shè)可以利用數(shù)據(jù)庫和文件系統(tǒng)技術(shù)來解決。二個假設(shè)可以利用數(shù)據(jù)庫和文件系統(tǒng)技術(shù)來解決。數(shù)據(jù)庫事務(wù)提交數(shù)據(jù)庫事務(wù)提交日志和日志結(jié)構(gòu)的文件系統(tǒng)日志和日志結(jié)構(gòu)的文件系統(tǒng)數(shù)據(jù)完整性驗(yàn)證數(shù)據(jù)完整性驗(yàn)證1. 接管接管IP地址地址 切換過程的最后任務(wù)之一是接管停機(jī)系統(tǒng)地切換過程的最后任務(wù)之一是接管停機(jī)系統(tǒng)地IP地址。地址。集群中的數(shù)據(jù)存取設(shè)計(jì)集群中的數(shù)據(jù)存取設(shè)計(jì)非共享存儲非共享存儲 非共享是指每個集群成員各自控制著自己的資源,存取這些非共享是指每個集群成員各自控制著自己的資源,存取這些資源需通過內(nèi)部集群通信從一個集群主機(jī)傳送到另一個集群主機(jī)。當(dāng)集群資源需通過內(nèi)部集群通信從一個集群主機(jī)傳送到另一

21、個集群主機(jī)。當(dāng)集群的一個主機(jī)存取另一個集群主機(jī)的存儲子系統(tǒng)時,的一個主機(jī)存取另一個集群主機(jī)的存儲子系統(tǒng)時, 它必須通過集群網(wǎng)絡(luò)它必須通過集群網(wǎng)絡(luò)傳送請求,接收到請求的主機(jī)開始工作,并將結(jié)果送回請求主機(jī)。傳送請求,接收到請求的主機(jī)開始工作,并將結(jié)果送回請求主機(jī)。 非共享方法的優(yōu)點(diǎn)是數(shù)據(jù)緩非共享方法的優(yōu)點(diǎn)是數(shù)據(jù)緩存和數(shù)據(jù)鎖定有主機(jī)單獨(dú)管存和數(shù)據(jù)鎖定有主機(jī)單獨(dú)管理,使得集群操作簡單、易理,使得集群操作簡單、易理解。理解。非共享集群的缺點(diǎn)之一是集非共享集群的缺點(diǎn)之一是集群之間瓶頸的發(fā)生。另一缺群之間瓶頸的發(fā)生。另一缺點(diǎn)是:一旦發(fā)生切換,切換點(diǎn)是:一旦發(fā)生切換,切換成員必須存取并加載停機(jī)服成員必須存取并

22、加載停機(jī)服務(wù)器的文件系統(tǒng)。務(wù)器的文件系統(tǒng)。2 共享存儲共享存儲 主要優(yōu)點(diǎn)是,一旦確認(rèn)停機(jī),其他集群主要優(yōu)點(diǎn)是,一旦確認(rèn)停機(jī),其他集群成員可以直接訪問共享資源,使切換工作比較簡單。成員可以直接訪問共享資源,使切換工作比較簡單。 共享系統(tǒng)存儲集群本身要共享系統(tǒng)存儲集群本身要比非共享存儲集群要復(fù)雜得比非共享存儲集群要復(fù)雜得多。首先,要處理復(fù)雜的設(shè)多。首先,要處理復(fù)雜的設(shè)備鎖定問題。備鎖定問題。 共享存儲集群的另一個問共享存儲集群的另一個問題是如何使集群成員寫入題是如何使集群成員寫入緩緩存的數(shù)據(jù)存的數(shù)據(jù)對其他成員可見,對其他成員可見,并最終寫入存儲系統(tǒng)。并最終寫入存儲系統(tǒng)。3 智能子系統(tǒng)的數(shù)據(jù)共享智能

23、子系統(tǒng)的數(shù)據(jù)共享 使用智能存儲子系統(tǒng)可使用智能存儲子系統(tǒng)可以提高對寫操作、提交進(jìn)程和回退管理,它的角色更以提高對寫操作、提交進(jìn)程和回退管理,它的角色更像一個集群對等體(像一個集群對等體(peer),而不是一個從屬者。它),而不是一個從屬者。它可以在單一操作中容納整個文件升級或數(shù)據(jù)庫事務(wù)信可以在單一操作中容納整個文件升級或數(shù)據(jù)庫事務(wù)信息。這種息。這種“peer”可以管理自己的日志文件和帶有集群可以管理自己的日志文件和帶有集群性質(zhì)的進(jìn)程,以便有序的利用切換過程。例如,一個性質(zhì)的進(jìn)程,以便有序的利用切換過程。例如,一個“集群對等體集群對等體”存儲子系統(tǒng)可以參與集群中的心跳和存儲子系統(tǒng)可以參與集群中的

24、心跳和正常狀態(tài)監(jiān)視系統(tǒng),并報告那些正在維持他們心跳信正常狀態(tài)監(jiān)視系統(tǒng),并報告那些正在維持他們心跳信號但卻不能從存儲子系統(tǒng)傳送和接收的系統(tǒng)錯誤。號但卻不能從存儲子系統(tǒng)傳送和接收的系統(tǒng)錯誤。 另外,一個集群對等體存儲子系統(tǒng)可以通過建立和釋放停機(jī)系統(tǒng)的鎖為集另外,一個集群對等體存儲子系統(tǒng)可以通過建立和釋放停機(jī)系統(tǒng)的鎖為集群提供鎖管理者需要執(zhí)行新的分配鎖協(xié)議。群提供鎖管理者需要執(zhí)行新的分配鎖協(xié)議。InfiniBand網(wǎng)絡(luò)組件網(wǎng)絡(luò)組件InfiniBand設(shè)計(jì)的交換設(shè)計(jì)的交換光纖網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)與光光纖網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)與光纖通道光纖網(wǎng)絡(luò)及交換纖通道光纖網(wǎng)絡(luò)及交換以太網(wǎng)相同,與以太網(wǎng)相同,與PCI總線總線結(jié)構(gòu)完全不

25、同。結(jié)構(gòu)完全不同。 右圖顯示了右圖顯示了InfiniBand可以很方便地擴(kuò)展系統(tǒng)??梢院芊奖愕財U(kuò)展系統(tǒng)。 出錯率、編碼與傳輸介質(zhì)出錯率、編碼與傳輸介質(zhì)與千兆以太網(wǎng)相同,與千兆以太網(wǎng)相同,InfiniBand采用來自光纖通道的傳輸采用來自光纖通道的傳輸介質(zhì)和連接技術(shù)。介質(zhì)和連接技術(shù)。 多心纜線多心纜線 4X 、 12X 虛擬線路虛擬線路 同時容納多個進(jìn)程并發(fā),即一個端節(jié)點(diǎn)可以同時容納多個進(jìn)程并發(fā),即一個端節(jié)點(diǎn)可以同時與多個端節(jié)點(diǎn)同時通信,并發(fā)送不同內(nèi)容。同時與多個端節(jié)點(diǎn)同時通信,并發(fā)送不同內(nèi)容。 交換機(jī)與路由器交換機(jī)與路由器 交換機(jī)在單個物理網(wǎng)絡(luò)提供快速報傳交換機(jī)在單個物理網(wǎng)絡(luò)提供快速報傳送,路

26、由器在多個物理網(wǎng)之間提供包傳送。送,路由器在多個物理網(wǎng)之間提供包傳送。分區(qū)分區(qū) 目的是將系統(tǒng)和子系統(tǒng)用分區(qū)的方法避免潛在的目的是將系統(tǒng)和子系統(tǒng)用分區(qū)的方法避免潛在的沖突,建立管理域,方便新設(shè)備已平穩(wěn),有序,無干擾的沖突,建立管理域,方便新設(shè)備已平穩(wěn),有序,無干擾的方式加入網(wǎng)絡(luò)。方式加入網(wǎng)絡(luò)。2. InfiniBand網(wǎng)絡(luò)中的節(jié)點(diǎn)網(wǎng)絡(luò)中的節(jié)點(diǎn) InfiniBand中的節(jié)點(diǎn)指系統(tǒng)(處理器節(jié)點(diǎn))、子系統(tǒng)中的節(jié)點(diǎn)指系統(tǒng)(處理器節(jié)點(diǎn))、子系統(tǒng)(I/O節(jié)點(diǎn))或路由器。節(jié)點(diǎn))或路由器。端節(jié)點(diǎn)使用名為通道適配器(端節(jié)點(diǎn)使用名為通道適配器(channel adapter)的新型)的新型網(wǎng)絡(luò)適配器。一個網(wǎng)絡(luò)適配器

27、。一個InfiniBand網(wǎng)絡(luò)的通道適配器可以由多網(wǎng)絡(luò)的通道適配器可以由多個端口連接個端口連接InfiniBand網(wǎng)絡(luò)。網(wǎng)絡(luò)。 由于多數(shù)由于多數(shù)InfiniBand網(wǎng)絡(luò)中網(wǎng)絡(luò)中(老)(老)的應(yīng)用使用系統(tǒng)服務(wù)的應(yīng)用使用系統(tǒng)服務(wù)作為他們的作為他們的I/O接口,面向接口,面向InfiniBand未來的應(yīng)用將可以通未來的應(yīng)用將可以通過采用底層系統(tǒng)軟件作為網(wǎng)絡(luò)設(shè)備驅(qū)動。過采用底層系統(tǒng)軟件作為網(wǎng)絡(luò)設(shè)備驅(qū)動。 InfiniBand軟件軟件應(yīng)用很可能用于解決集群應(yīng)用。這類集群應(yīng)用的例子如數(shù)應(yīng)用很可能用于解決集群應(yīng)用。這類集群應(yīng)用的例子如數(shù)據(jù)庫集群和網(wǎng)絡(luò)存儲集群。據(jù)庫集群和網(wǎng)絡(luò)存儲集群。通道適配器通道適配器In

28、finiBand網(wǎng)絡(luò)中相應(yīng)的主機(jī)網(wǎng)絡(luò)中相應(yīng)的主機(jī)I/O適配器稱為通道適配器。適配器稱為通道適配器。 InfiniBand指定兩種通道適配器,主機(jī)通道適配器(指定兩種通道適配器,主機(jī)通道適配器(HCA)和目標(biāo)通道適配器(和目標(biāo)通道適配器(TCA)。)。1)主機(jī)通道適配器)主機(jī)通道適配器 主機(jī)通道適配器負(fù)責(zé)與系統(tǒng)處理器主機(jī)通道適配器負(fù)責(zé)與系統(tǒng)處理器和內(nèi)存總線的接口。它是系統(tǒng)專有組成部分,也將是系統(tǒng)和內(nèi)存總線的接口。它是系統(tǒng)專有組成部分,也將是系統(tǒng)設(shè)計(jì)的核心組件。主機(jī)通道適配器可以設(shè)計(jì)用于高級通信。設(shè)計(jì)的核心組件。主機(jī)通道適配器可以設(shè)計(jì)用于高級通信。InfiniBand網(wǎng)絡(luò)不像其他網(wǎng)絡(luò)是專用系統(tǒng),網(wǎng)

29、絡(luò)不像其他網(wǎng)絡(luò)是專用系統(tǒng),IB網(wǎng)絡(luò)中的系網(wǎng)絡(luò)中的系統(tǒng)是網(wǎng)絡(luò)中的主要實(shí)體。統(tǒng)是網(wǎng)絡(luò)中的主要實(shí)體。2)目標(biāo)通道適配器)目標(biāo)通道適配器 目標(biāo)通道適配器目標(biāo)通道適配器提供端到非提供端到非IB網(wǎng)絡(luò)網(wǎng)絡(luò)(如以太網(wǎng)和光纖網(wǎng)(如以太網(wǎng)和光纖網(wǎng)絡(luò))的節(jié)點(diǎn)接口。目絡(luò))的節(jié)點(diǎn)接口。目標(biāo)通道適配器也提供標(biāo)通道適配器也提供與其它非網(wǎng)絡(luò)外設(shè)類與其它非網(wǎng)絡(luò)外設(shè)類的接口,包括各種總的接口,包括各種總線技術(shù),如線技術(shù),如SCSI總總線或線或USB總線。總線。3)通道適配器和多線技術(shù))通道適配器和多線技術(shù) 主機(jī)和目標(biāo)通道適配器可以主機(jī)和目標(biāo)通道適配器可以選擇采用控制器技術(shù)和物理連選擇采用控制器技術(shù)和物理連接器連接接器連接4X和和

30、12X的連接,同的連接,同時使用虛擬線路所需的軟、硬時使用虛擬線路所需的軟、硬件資源。件資源。4)存儲子系統(tǒng)中的通道適配)存儲子系統(tǒng)中的通道適配器器 InfiniBand網(wǎng)絡(luò)中的存儲子網(wǎng)絡(luò)中的存儲子系統(tǒng)將通過目標(biāo)通道適配器連系統(tǒng)將通過目標(biāo)通道適配器連接到網(wǎng)絡(luò)中,接到網(wǎng)絡(luò)中,SAN網(wǎng)絡(luò)和網(wǎng)絡(luò)和InfiniBand的一個不同點(diǎn)就是的一個不同點(diǎn)就是主機(jī)主機(jī)I/O控制器的位置??刂破鞯奈恢?。但使用但使用InfiniBand系統(tǒng)就不需要將主機(jī)系統(tǒng)就不需要將主機(jī)I/O控制器置于主機(jī)中。控制器置于主機(jī)中。InfiniBand網(wǎng)絡(luò)子系統(tǒng)也網(wǎng)絡(luò)子系統(tǒng)也有一個外部有一個外部InfiniBand端口和內(nèi)部光纖通道或

31、端口和內(nèi)部光纖通道或SCSI設(shè)備。兩種方式如圖設(shè)備。兩種方式如圖13-17所示。所示。使用使用VI協(xié)議管理遠(yuǎn)程系統(tǒng)存儲協(xié)議管理遠(yuǎn)程系統(tǒng)存儲 VI(virtual interface architecture)的主要思想是允許應(yīng)用在集群網(wǎng)絡(luò))的主要思想是允許應(yīng)用在集群網(wǎng)絡(luò)系統(tǒng)和存儲之間遠(yuǎn)程操作存儲資源,即支持直接遠(yuǎn)程存儲存?。ㄏ到y(tǒng)和存儲之間遠(yuǎn)程操作存儲資源,即支持直接遠(yuǎn)程存儲存?。╮emote direct memory access,RDMA) 。RDMA傳輸?shù)奶攸c(diǎn)是使用網(wǎng)絡(luò)中類似傳輸?shù)奶攸c(diǎn)是使用網(wǎng)絡(luò)中類似系統(tǒng)存儲的操作在網(wǎng)絡(luò)中發(fā)送和接收數(shù)據(jù)。系統(tǒng)存儲的操作在網(wǎng)絡(luò)中發(fā)送和接收數(shù)據(jù)。使用使用VI

32、和和RDMA,沒有低延遲、高可靠性的網(wǎng)絡(luò)是不行的。,沒有低延遲、高可靠性的網(wǎng)絡(luò)是不行的。VI是是InfiniBand所選擇的協(xié)議,所選擇的協(xié)議, VI和和RDMA也可以用于其它網(wǎng)絡(luò)。也可以用于其它網(wǎng)絡(luò)。 VI在光纖的在光纖的FC-4級已被定義為高端協(xié)議(級已被定義為高端協(xié)議(ULP),iSCSI工作組也有相應(yīng)的工作組也有相應(yīng)的RDMA標(biāo)準(zhǔn)。標(biāo)準(zhǔn)。InfiniBand用戶(應(yīng)用)使用用戶(應(yīng)用)使用VI在網(wǎng)絡(luò)中發(fā)送和接收數(shù)據(jù)。與系統(tǒng)中的虛在網(wǎng)絡(luò)中發(fā)送和接收數(shù)據(jù)。與系統(tǒng)中的虛存一樣,存一樣,VI提供虛存地址轉(zhuǎn)換函數(shù)使應(yīng)用可以從其它節(jié)點(diǎn)通過集群網(wǎng)絡(luò)申提供虛存地址轉(zhuǎn)換函數(shù)使應(yīng)用可以從其它節(jié)點(diǎn)通過集群網(wǎng)

33、絡(luò)申請和存取存儲資源。請和存取存儲資源。VI協(xié)議通過建立工作隊(duì)列對(協(xié)議通過建立工作隊(duì)列對(work queue pairs)工作,它充當(dāng))工作,它充當(dāng)InfiniBand用戶和用戶和InfiniBand網(wǎng)絡(luò)之間的接口設(shè)備。網(wǎng)絡(luò)之間的接口設(shè)備。每個隊(duì)列對使用一個隊(duì)列發(fā)送,另一個用于接收。網(wǎng)絡(luò)中從一個節(jié)點(diǎn)傳送每個隊(duì)列對使用一個隊(duì)列發(fā)送,另一個用于接收。網(wǎng)絡(luò)中從一個節(jié)點(diǎn)傳送到另一個節(jié)點(diǎn)的數(shù)據(jù)首先置于發(fā)送節(jié)點(diǎn)的發(fā)送對列中,然后傳輸?shù)浇邮芄?jié)到另一個節(jié)點(diǎn)的數(shù)據(jù)首先置于發(fā)送節(jié)點(diǎn)的發(fā)送對列中,然后傳輸?shù)浇邮芄?jié)點(diǎn)的接收隊(duì)列中。點(diǎn)的接收隊(duì)列中。1.工作隊(duì)列對工作隊(duì)列對隊(duì)列對為特定用戶而設(shè),通道適配器中的所有的隊(duì)

34、列對相對其它隊(duì)列對而隊(duì)列對為特定用戶而設(shè),通道適配器中的所有的隊(duì)列對相對其它隊(duì)列對而言是獨(dú)立的和被保護(hù)的。一個用戶可以使用多個隊(duì)列對。言是獨(dú)立的和被保護(hù)的。一個用戶可以使用多個隊(duì)列對??傊?,通道適配器可以由多個用戶,每個用戶用自己專有的隊(duì)列對在總之,通道適配器可以由多個用戶,每個用戶用自己專有的隊(duì)列對在InfiniBand網(wǎng)絡(luò)中通信。網(wǎng)絡(luò)中通信。圖13-18 用戶用自己專有的隊(duì)列對在InfiniBand網(wǎng)絡(luò)中通信通道適配器2. InfiniBand、FC和以太網(wǎng)和以太網(wǎng)/TCP/IP網(wǎng)絡(luò)的協(xié)議處理對比網(wǎng)絡(luò)的協(xié)議處理對比InfiniBand使用系統(tǒng)存儲操作原有的命令語法。隊(duì)列對有一個相關(guān)的傳輸協(xié)

35、議,決定了系統(tǒng)與存隊(duì)列對有一個相關(guān)的傳輸協(xié)議,決定了系統(tǒng)與存儲間通信的整體可靠性。儲間通信的整體可靠性。InfiniBand的這個傳輸服的這個傳輸服務(wù)是:務(wù)是:3. 傳輸服務(wù)傳輸服務(wù)可靠連接??煽窟B接。非可靠連接。非可靠連接??煽繑?shù)據(jù)報??煽繑?shù)據(jù)報。非可靠數(shù)據(jù)報。非可靠數(shù)據(jù)報。原始數(shù)據(jù)報。原始數(shù)據(jù)報。4. 流控制流控制InfiniBand與光纖的與光纖的“緩沖對緩沖緩沖對緩沖”和和“端到端端到端”的流控制相同,支持連的流控制相同,支持連接級和端對端的流控制。接級和端對端的流控制。5.光纖通道上的光纖通道上的VIVI協(xié)議是光纖通道的上層協(xié)議。迄今為止,這一協(xié)議尚未使用,假設(shè)光協(xié)議是光纖通道的上層

36、協(xié)議。迄今為止,這一協(xié)議尚未使用,假設(shè)光纖通道與纖通道與InfiniBand技術(shù)有著同樣的錯誤機(jī)制,即與光纖通道集群的開技術(shù)有著同樣的錯誤機(jī)制,即與光纖通道集群的開發(fā)在技術(shù)上是可行的。發(fā)在技術(shù)上是可行的。InfiniBand集群集群圖圖13-19所示為一個簡單的非共享所示為一個簡單的非共享InfiniBand集群。這個集群由兩個系集群。這個集群由兩個系統(tǒng)通過兩個目標(biāo)通道適配器控制兩個統(tǒng)通過兩個目標(biāo)通道適配器控制兩個SCSI硬盤驅(qū)動器。一個獨(dú)立的連硬盤驅(qū)動器。一個獨(dú)立的連接負(fù)責(zé)兩個系統(tǒng)的心跳系統(tǒng)。另外,分區(qū)用于強(qiáng)調(diào)這種非共享結(jié)構(gòu)。接負(fù)責(zé)兩個系統(tǒng)的心跳系統(tǒng)。另外,分區(qū)用于強(qiáng)調(diào)這種非共享結(jié)構(gòu)。圖13

37、-19一個簡單的非共享InfiniBand集群圖圖13-20所示為一個共享集群。磁盤驅(qū)動器由智能存儲子系統(tǒng)代替,它是用嵌入在所示為一個共享集群。磁盤驅(qū)動器由智能存儲子系統(tǒng)代替,它是用嵌入在兩個子系統(tǒng)兩個子系統(tǒng)HCA中的分配鎖管理其功能。所有設(shè)備,兩個系統(tǒng)和兩個存儲子系統(tǒng),中的分配鎖管理其功能。所有設(shè)備,兩個系統(tǒng)和兩個存儲子系統(tǒng),都使用一個共享緩存系統(tǒng)都使用一個共享緩存系統(tǒng)“開銷開銷”以協(xié)調(diào)應(yīng)用以協(xié)調(diào)應(yīng)用。圖13-20 帶共享緩存的共享InfiniBand集群 集群成員系統(tǒng) 集群成員系統(tǒng)心跳 心跳 心跳緩存 心跳 心跳緩存緩存緩存鎖鎖PCI替代結(jié)構(gòu)替代結(jié)構(gòu)InfiniBand最主最主要的配置就是

38、要的配置就是替代替代PCI總線到總線到SAN的連接。的連接。在圖在圖13-21所示所示的網(wǎng)絡(luò)中,的網(wǎng)絡(luò)中,HCA為與主機(jī)為與主機(jī)系統(tǒng)中,光纖系統(tǒng)中,光纖通道通道TCA與主與主機(jī)系統(tǒng)相鄰。機(jī)系統(tǒng)相鄰。InfiniBand模型層次模型層次InfiniBand體系結(jié)構(gòu)采用多個層次,每層獨(dú)立操作。它包括物理層,體系結(jié)構(gòu)采用多個層次,每層獨(dú)立操作。它包括物理層,鏈路層,網(wǎng)絡(luò)層,傳輸層和上層。見圖鏈路層,網(wǎng)絡(luò)層,傳輸層和上層。見圖1所示:所示:本地IBA操作SAR網(wǎng)絡(luò)鏈路編碼MAC上層傳輸層網(wǎng)絡(luò)層鏈路層物理層事務(wù)消息(QP)子網(wǎng)間路由(IPV6)網(wǎng)內(nèi)路由(LID)流量控制報文中繼MAC遠(yuǎn)程IBA操作SAR

39、網(wǎng)絡(luò)鏈路編碼MAC報文中繼鏈路MAC終端節(jié)點(diǎn)交換機(jī)路由器終端節(jié)點(diǎn) 圖1 InfiniBand 的層次物理層物理層: InfiniBand規(guī)范的物理層定義了電器和機(jī)械特性,包括光纖和銅規(guī)范的物理層定義了電器和機(jī)械特性,包括光纖和銅介質(zhì)的電纜和插孔、底板接頭、熱交換特性等。介質(zhì)的電纜和插孔、底板接頭、熱交換特性等。 InfiniBand采用全采用全雙工串行傳輸雙工串行傳輸,單線傳輸速率為單線傳輸速率為2.5Gb/s,。InfiniBand定義了物理層定義了物理層的三種鏈路速度,的三種鏈路速度,1X、4X或或12X線并行來擴(kuò)展信道,具有較高的容線并行來擴(kuò)展信道,具有較高的容錯性和抗毀性。錯性和抗毀性

40、。鏈路層鏈路層: 鏈路層和傳輸層是鏈路層和傳輸層是InfiniBand結(jié)構(gòu)的核心。鏈路層定義了報文格結(jié)構(gòu)的核心。鏈路層定義了報文格式、點(diǎn)到點(diǎn)鏈路操作,以及本地子網(wǎng)內(nèi)的交換。式、點(diǎn)到點(diǎn)鏈路操作,以及本地子網(wǎng)內(nèi)的交換。在鏈路層中有兩種報文在鏈路層中有兩種報文:管理報文管理報文和和數(shù)據(jù)報文數(shù)據(jù)報文。管理報文用于鏈路配。管理報文用于鏈路配置和維護(hù),提供的控制操作包括:設(shè)備枚舉、子網(wǎng)指示和容錯。數(shù)據(jù)置和維護(hù),提供的控制操作包括:設(shè)備枚舉、子網(wǎng)指示和容錯。數(shù)據(jù)報文用于傳輸信息,最大傳輸負(fù)載為報文用于傳輸信息,最大傳輸負(fù)載為4k。鏈路層還允許使用鏈路層還允許使用虛信道(虛信道(VL),VL是獨(dú)立的邏輯鏈路,

41、它們共享是獨(dú)立的邏輯鏈路,它們共享一條物理鏈路一條物理鏈路。每條物理鏈路可以支持。每條物理鏈路可以支持15條標(biāo)準(zhǔn)條標(biāo)準(zhǔn)VL和一條管理信道和一條管理信道VL15。VL15具有最高優(yōu)先級,具有最高優(yōu)先級,VL0的優(yōu)先級最低。管理報文獨(dú)占使的優(yōu)先級最低。管理報文獨(dú)占使用用VL15。虛信道可以同時容納多個通信進(jìn)程的并發(fā),即一個端節(jié)電。虛信道可以同時容納多個通信進(jìn)程的并發(fā),即一個端節(jié)電可以同時與幾個不同的端點(diǎn)通信并傳輸不同的內(nèi)容,而不會發(fā)生連接可以同時與幾個不同的端點(diǎn)通信并傳輸不同的內(nèi)容,而不會發(fā)生連接阻塞。阻塞。為了確保可靠性和性能,為了確保可靠性和性能, InfiniBand提供基于預(yù)約的流量控制管

42、理提供基于預(yù)約的流量控制管理例程和兩階段的數(shù)據(jù)完整檢查。例程和兩階段的數(shù)據(jù)完整檢查。網(wǎng)絡(luò)層網(wǎng)絡(luò)層: InfiniBand網(wǎng)絡(luò)層提供報文在網(wǎng)絡(luò)層提供報文在子網(wǎng)間的路由子網(wǎng)間的路由,在子網(wǎng)內(nèi),在子網(wǎng)內(nèi)部傳輸時不需要網(wǎng)絡(luò)層。每個路由報文使用部傳輸時不需要網(wǎng)絡(luò)層。每個路由報文使用全局路由首部(全局路由首部(GRH)和一個和一個128位位IPV6地址表示源和目的節(jié)點(diǎn)地址。網(wǎng)絡(luò)層還為子網(wǎng)中每地址表示源和目的節(jié)點(diǎn)地址。網(wǎng)絡(luò)層還為子網(wǎng)中每個設(shè)備賦予個設(shè)備賦予64位唯一位唯一全局標(biāo)志(全局標(biāo)志(GUID),報文通過路由器時,就是,報文通過路由器時,就是基于該標(biāo)志在子網(wǎng)間傳輸。當(dāng)只在一個子網(wǎng)中傳輸時,基于該標(biāo)志在

43、子網(wǎng)間傳輸。當(dāng)只在一個子網(wǎng)中傳輸時, InfiniBand不需要網(wǎng)絡(luò)層信息和頭開銷。不需要網(wǎng)絡(luò)層信息和頭開銷。傳輸層傳輸層: InfiniBand體系結(jié)構(gòu)的最后一層負(fù)責(zé)實(shí)際報文的傳輸。傳體系結(jié)構(gòu)的最后一層負(fù)責(zé)實(shí)際報文的傳輸。傳輸層控制的幾個重要方面,包括報文發(fā)送、通道多路復(fù)用和基本傳輸輸層控制的幾個重要方面,包括報文發(fā)送、通道多路復(fù)用和基本傳輸服務(wù)。服務(wù)。 InfiniBand有一項(xiàng)重要的改進(jìn),那就是有一項(xiàng)重要的改進(jìn),那就是使用硬件機(jī)制完成了傳使用硬件機(jī)制完成了傳輸層的所有功能輸層的所有功能。傳輸層還負(fù)責(zé)處理發(fā)送時數(shù)據(jù)分段,接收時重組。傳輸層還負(fù)責(zé)處理發(fā)送時數(shù)據(jù)分段,接收時重組。 Infini

44、Band規(guī)定了多種傳輸服務(wù)用于提高數(shù)據(jù)可靠性,可以支持規(guī)定了多種傳輸服務(wù)用于提高數(shù)據(jù)可靠性,可以支持各種高層協(xié)議,如各種高層協(xié)議,如IP和和SCSI,定義了實(shí)現(xiàn)管理功能所需要的信息和消,定義了實(shí)現(xiàn)管理功能所需要的信息和消息和協(xié)議。這些管理協(xié)議分為子網(wǎng)管理和子網(wǎng)服務(wù)。息和協(xié)議。這些管理協(xié)議分為子網(wǎng)管理和子網(wǎng)服務(wù)。InfiniBand特性特性InfiniBand采用了當(dāng)今的先進(jìn)技術(shù),其優(yōu)越的性能。歸納如下:聚集帶寬 InfiniBand交換方式提供了專用的無沖突的節(jié)點(diǎn)間通信,支持多條并發(fā)連接。當(dāng)加入節(jié)點(diǎn)時,交換結(jié)構(gòu)可以增加帶寬。分布式系統(tǒng)的通用互聯(lián) InfiniBand可以構(gòu)造全局公用的互聯(lián)結(jié)構(gòu),

45、用于在任何構(gòu)造模塊間進(jìn)行通信,必要時管理員可以加入專用構(gòu)造模塊。各種設(shè)備可以使用同一鏈路連接,這樣管理員可以通過多種方式增加分布式系統(tǒng)和共享資源。 內(nèi)建安全機(jī)制 InfiniBand管理結(jié)構(gòu)基于安全密鑰,它定義了改變結(jié)構(gòu)或重新編程所需的授權(quán)。可以指定系統(tǒng)管理員只操作特定的子網(wǎng),需要授權(quán)才能訪問的設(shè)備。低軟件管理開銷 InfiniBand規(guī)范采用VIA(Virtual Interface Architecture)瘦傳輸層中隊(duì)列通信模型和機(jī)制,消除了并行應(yīng)用程序集群中server間的通信開銷。錯誤隔離 InfiniBand點(diǎn)到點(diǎn)體系結(jié)構(gòu)可以隔離交換結(jié)構(gòu)的故障區(qū)。某一連接中的錯誤可以標(biāo)志出來,而不

46、會影響其它I/O設(shè)備。QoS 在InfiniBand中,HCA和TCA之間的QoS定義了基于虛鏈路的隊(duì)列和帶寬,可提供更好的一些服務(wù)。RAS優(yōu)點(diǎn) 在可靠性方面,InfiniBand使用點(diǎn)到點(diǎn)的鏈路,信號少,基本鏈路連接使用四信號線,同PCI多信號線比較,故障率很小。InfiniBand標(biāo)準(zhǔn)為每個I/O單元提供了多個端口,可提供多個物理路由到同一個I/O單元,提高了系統(tǒng)的可靠性??捎眯缘脑鰪?qiáng)通過冗余和標(biāo)準(zhǔn)的網(wǎng)絡(luò)管理技術(shù)實(shí)現(xiàn)。 主要存儲協(xié)議主要存儲協(xié)議 隨著對存儲需求的不斷增長,塊存儲管理依舊是存儲管理的一個熱隨著對存儲需求的不斷增長,塊存儲管理依舊是存儲管理的一個熱點(diǎn)。塊存儲管理中使用的是點(diǎn)。塊

47、存儲管理中使用的是SCSI協(xié)議,雖然并行協(xié)議,雖然并行UltraSCSI也支持千兆也支持千兆網(wǎng)絡(luò)速度,但是距離(一米)和互連限制(網(wǎng)絡(luò)速度,但是距離(一米)和互連限制(16臺設(shè)備或者通道)使得它臺設(shè)備或者通道)使得它難于滿足將來的存儲網(wǎng)絡(luò)。因此,光纖通道(難于滿足將來的存儲網(wǎng)絡(luò)。因此,光纖通道(Fibre Channel),),Infiniband, iSCSI這三種千兆網(wǎng)絡(luò)技術(shù)成為存儲網(wǎng)絡(luò)(這三種千兆網(wǎng)絡(luò)技術(shù)成為存儲網(wǎng)絡(luò)(SAN)中塊存)中塊存儲管理協(xié)議的競爭者。圖儲管理協(xié)議的競爭者。圖2是三種技術(shù)的發(fā)展?jié)摿︻A(yù)測是三種技術(shù)的發(fā)展?jié)摿︻A(yù)測。 前面我們已經(jīng)詳細(xì)介紹了前面我們已經(jīng)詳細(xì)介紹了Infi

48、niband,下面我們簡要與,下面我們簡要與光纖通道和光纖通道和iSCS進(jìn)行簡要比較。進(jìn)行簡要比較。 光纖通道協(xié)議覆蓋了光纖通道協(xié)議覆蓋了OSI網(wǎng)絡(luò)模型的物理、鏈路、網(wǎng)網(wǎng)絡(luò)模型的物理、鏈路、網(wǎng)絡(luò)和傳輸層。它可以提供多種不同的服務(wù)類別,包含了絡(luò)和傳輸層。它可以提供多種不同的服務(wù)類別,包含了SCSI over Fibre Channel 定義,稱為定義,稱為FCP。光纖通道。光纖通道是一種二級網(wǎng)絡(luò)協(xié)議(是一種二級網(wǎng)絡(luò)協(xié)議(PCI等為一級協(xié)議,等為一級協(xié)議,Infiniband可以是一級協(xié)議也可以是二級協(xié)議)。幀、序列和交換可以是一級協(xié)議也可以是二級協(xié)議)。幀、序列和交換是是FC中三種主要的數(shù)據(jù)傳輸

49、結(jié)構(gòu)。幀是數(shù)據(jù)傳輸?shù)幕腥N主要的數(shù)據(jù)傳輸結(jié)構(gòu)。幀是數(shù)據(jù)傳輸?shù)幕締挝?。在一個方向上傳輸?shù)囊唤M幀稱為序列。雙向的本單位。在一個方向上傳輸?shù)囊唤M幀稱為序列。雙向的一組序列稱為交換。光纖通道當(dāng)前支持的速度可以達(dá)到一組序列稱為交換。光纖通道當(dāng)前支持的速度可以達(dá)到4Gbps,可以采用交換式網(wǎng)絡(luò)環(huán)境??梢圆捎媒粨Q式網(wǎng)絡(luò)環(huán)境。 iSCSI協(xié)議定義了協(xié)議定義了SCSI over TCP操作。操作。 iSCSI協(xié)議協(xié)議借用千兆以太網(wǎng)上面的借用千兆以太網(wǎng)上面的TCP/IP。因?yàn)?。因?yàn)門CP可以用于局可以用于局域網(wǎng)和廣義網(wǎng),域網(wǎng)和廣義網(wǎng), iSCSI也是一種二級協(xié)議。也是一種二級協(xié)議。 iSCSI使使用用TCP流

50、量控制、擁塞控制、分段機(jī)制,還使用了流量控制、擁塞控制、分段機(jī)制,還使用了IP尋址和發(fā)現(xiàn)機(jī)制。尋址和發(fā)現(xiàn)機(jī)制。 iSCSI實(shí)現(xiàn)的時候可以采用商用千兆以太網(wǎng)卡加實(shí)現(xiàn)的時候可以采用商用千兆以太網(wǎng)卡加TCP/IP, iSCSI層采用軟件實(shí)現(xiàn):或者使用專用網(wǎng)卡層采用軟件實(shí)現(xiàn):或者使用專用網(wǎng)卡實(shí)現(xiàn)以太網(wǎng)、實(shí)現(xiàn)以太網(wǎng)、IPTCP和和iSCSI層。千兆以太網(wǎng)當(dāng)前支層。千兆以太網(wǎng)當(dāng)前支持的鏈路速度主要是為持的鏈路速度主要是為1Gbps(以后將是以后將是10Gbps)。)。下圖顯示了幾種可用于存儲的協(xié)議以及它們應(yīng)用領(lǐng)域的分布下圖顯示了幾種可用于存儲的協(xié)議以及它們應(yīng)用領(lǐng)域的分布處理器處理器互聯(lián)互聯(lián)存儲區(qū)域網(wǎng)存儲區(qū)

51、域網(wǎng)絡(luò)互連絡(luò)互連外部存儲外部存儲內(nèi)部存儲內(nèi)部存儲點(diǎn)到點(diǎn)交換式InfinibandInfiniband光纖通道以太網(wǎng)SCSISCSI圖圖3 幾種用于存儲的協(xié)議及領(lǐng)域分布幾種用于存儲的協(xié)議及領(lǐng)域分布Infiniband,iSCSI和和FC協(xié)議的比較協(xié)議的比較我們按照下面的標(biāo)準(zhǔn)對這三種協(xié)議進(jìn)行評價:我們按照下面的標(biāo)準(zhǔn)對這三種協(xié)議進(jìn)行評價: 協(xié)議用于千兆速度網(wǎng)絡(luò)的有效性協(xié)議用于千兆速度網(wǎng)絡(luò)的有效性 協(xié)議可擴(kuò)展性,是否可以方便地映射到協(xié)議可擴(kuò)展性,是否可以方便地映射到IP網(wǎng)絡(luò)網(wǎng)絡(luò) 兼容兼容SAN協(xié)議和環(huán)境,在局域網(wǎng)范圍內(nèi)協(xié)議必須高效,協(xié)議和環(huán)境,在局域網(wǎng)范圍內(nèi)協(xié)議必須高效,可以高效處理可以高效處理SCS

52、I協(xié)議(大部協(xié)議(大部 分分server磁盤和磁帶都是磁盤和磁帶都是基于基于SCSI的),并且安全可靠。的),并且安全可靠。使用千兆線路速度光纖通道的效率使用千兆線路速度光纖通道的效率 數(shù)據(jù)通信開銷包括軟件開銷和線路傳輸開銷。網(wǎng)絡(luò)通信研究表明,數(shù)據(jù)通信開銷包括軟件開銷和線路傳輸開銷。網(wǎng)絡(luò)通信研究表明,當(dāng)前物理鏈路傳輸開銷已經(jīng)很小。因此,軟件開銷決定了千兆線路速當(dāng)前物理鏈路傳輸開銷已經(jīng)很小。因此,軟件開銷決定了千兆線路速度的效益,這主要體現(xiàn)在它們的物理度的效益,這主要體現(xiàn)在它們的物理I/O結(jié)構(gòu)、對零拷貝的支持和對結(jié)構(gòu)、對零拷貝的支持和對報文分割和重組上。報文分割和重組上。 FC和和iSCSI都是

53、二級網(wǎng)絡(luò)協(xié)議,必須使用都是二級網(wǎng)絡(luò)協(xié)議,必須使用PCI總線協(xié)議才能把數(shù)總線協(xié)議才能把數(shù)據(jù)從網(wǎng)卡傳到內(nèi)存。但是據(jù)從網(wǎng)卡傳到內(nèi)存。但是Infiniband(IBA)可以作為一級,也可以)可以作為一級,也可以作為二級網(wǎng)絡(luò)。因此,數(shù)據(jù)可以直接從作為二級網(wǎng)絡(luò)。因此,數(shù)據(jù)可以直接從IBA網(wǎng)卡傳到系統(tǒng)內(nèi)存。網(wǎng)卡傳到系統(tǒng)內(nèi)存。IBA采用了交換式互連結(jié)構(gòu),比通常的采用了交換式互連結(jié)構(gòu),比通常的PCI或者或者PCI-X更具有擴(kuò)展能更具有擴(kuò)展能力。力。PCI和和iSCSI也可以采用也可以采用IBA作為一級網(wǎng)絡(luò),但是同直接使用作為一級網(wǎng)絡(luò),但是同直接使用IBA既作為一級又作為二級網(wǎng)絡(luò)相比,增加了協(xié)議轉(zhuǎn)換開銷。既作為一

54、級又作為二級網(wǎng)絡(luò)相比,增加了協(xié)議轉(zhuǎn)換開銷。 在在TCP/IP 協(xié)議棧中數(shù)據(jù)需要首先從網(wǎng)卡拷貝到內(nèi)核內(nèi)存,然后協(xié)議棧中數(shù)據(jù)需要首先從網(wǎng)卡拷貝到內(nèi)核內(nèi)存,然后從內(nèi)核內(nèi)存拷貝到應(yīng)用程序內(nèi)存。從內(nèi)核內(nèi)存拷貝到應(yīng)用程序內(nèi)存。如果處理大塊數(shù)據(jù)的時候,主機(jī)如果處理大塊數(shù)據(jù)的時候,主機(jī)CPU就成為瓶頸,限制了協(xié)議的吞吐率。當(dāng)把數(shù)據(jù)從網(wǎng)卡直接拷貝就成為瓶頸,限制了協(xié)議的吞吐率。當(dāng)把數(shù)據(jù)從網(wǎng)卡直接拷貝到應(yīng)用程序內(nèi)存時,稱為零拷貝,它縮短了傳輸路徑的長度,降低到應(yīng)用程序內(nèi)存時,稱為零拷貝,它縮短了傳輸路徑的長度,降低了了CPU開銷。開銷。 在在FC中,中,F(xiàn)C網(wǎng)卡執(zhí)行必要的零拷貝處理。網(wǎng)卡執(zhí)行必要的零拷貝處理。幀中

55、包含了幀中包含了Exchange ID,Sequence ID和和Frame Number信息,丟失的幀或者亂序到達(dá)的幀不信息,丟失的幀或者亂序到達(dá)的幀不會影響零拷貝。會影響零拷貝。 IBA中雙隊(duì)列和中雙隊(duì)列和RDMA的概念可以實(shí)現(xiàn)零拷貝語義。的概念可以實(shí)現(xiàn)零拷貝語義。在在IBA中,當(dāng)中,當(dāng)發(fā)送方發(fā)出了讀請求時,同時還發(fā)送發(fā)送方發(fā)出了讀請求時,同時還發(fā)送Rkey和存放返回數(shù)據(jù)的內(nèi)存起始和存放返回數(shù)據(jù)的內(nèi)存起始地址。接受方進(jìn)行地址。接受方進(jìn)行RDMA寫操作,把數(shù)據(jù)直接寫到發(fā)送方應(yīng)用程序內(nèi)寫操作,把數(shù)據(jù)直接寫到發(fā)送方應(yīng)用程序內(nèi)存。存。 TCP協(xié)議是基于流的協(xié)議,難以實(shí)現(xiàn)零拷貝語義,因?yàn)閰f(xié)議是基于流

56、的協(xié)議,難以實(shí)現(xiàn)零拷貝語義,因?yàn)門CP段可能段可能分布到多個以太網(wǎng)幀。因此分布到多個以太網(wǎng)幀。因此iSCSI報文頭和數(shù)據(jù)可能分布到多個以太網(wǎng)報文頭和數(shù)據(jù)可能分布到多個以太網(wǎng)幀。同樣,無關(guān)的多個幀。同樣,無關(guān)的多個iSCSI請求也可能作為一個請求也可能作為一個TCP段到達(dá)。段到達(dá)。 應(yīng)用程序發(fā)出的應(yīng)用程序發(fā)出的I/O請求通常為請求通常為4k到到64k。如果發(fā)出的塊請求為。如果發(fā)出的塊請求為8k,在在iSCSI中需要映射為中需要映射為1.5k的的IP網(wǎng)幀,網(wǎng)幀,2k大小的大小的FC-2幀,幀,4k的的IBA幀。因幀。因此引發(fā)分割和重組開銷。使用大幀的協(xié)議有優(yōu)勢。此引發(fā)分割和重組開銷。使用大幀的協(xié)議

57、有優(yōu)勢。FC和和IBA網(wǎng)卡執(zhí)行分網(wǎng)卡執(zhí)行分割和重組操作,如果割和重組操作,如果iSCSI采用專門的采用專門的iSCSI網(wǎng)卡,也可以減輕網(wǎng)卡,也可以減輕CPU的負(fù)的負(fù)載。使用通用以太網(wǎng)卡后,載。使用通用以太網(wǎng)卡后,TCP分割和重組的工作需要主機(jī)來完成,增分割和重組的工作需要主機(jī)來完成,增加了主機(jī)加了主機(jī)CPU的開銷。的開銷。協(xié)議擴(kuò)展能力協(xié)議擴(kuò)展能力地址長度、設(shè)備發(fā)現(xiàn)、地址長度、設(shè)備發(fā)現(xiàn)、IP協(xié)議映射協(xié)議映射是協(xié)議可擴(kuò)展能力的幾個主要因素。是協(xié)議可擴(kuò)展能力的幾個主要因素。 地址空間地址空間 FC使用使用24位地址,位地址,IBA和和iSCSI使用使用128位地址。因此,位地址。因此,F(xiàn)C地址少于地

58、址少于其他兩種協(xié)議。在子網(wǎng)內(nèi)部其他兩種協(xié)議。在子網(wǎng)內(nèi)部IBA使用使用16位尋址。在位尋址。在FC中,網(wǎng)卡對于并發(fā)中,網(wǎng)卡對于并發(fā)的注冊數(shù)量有限制,進(jìn)一步限制了它的擴(kuò)展能力。的注冊數(shù)量有限制,進(jìn)一步限制了它的擴(kuò)展能力。 設(shè)備發(fā)現(xiàn)設(shè)備發(fā)現(xiàn) 在在FC中,當(dāng)加入一個新設(shè)備的時候,它同管理員(交換機(jī))進(jìn)行接中,當(dāng)加入一個新設(shè)備的時候,它同管理員(交換機(jī))進(jìn)行接觸。管理員會通知其它設(shè)備。在觸。管理員會通知其它設(shè)備。在FC中,當(dāng)一個設(shè)備在線加入,它需要中,當(dāng)一個設(shè)備在線加入,它需要注冊到本區(qū)的其它設(shè)備中。劃分區(qū)是為了進(jìn)行訪問控制,通信只能在成注冊到本區(qū)的其它設(shè)備中。劃分區(qū)是為了進(jìn)行訪問控制,通信只能在成員間

59、進(jìn)行。而且,設(shè)備與之聯(lián)系的交換機(jī)會通知其它交換機(jī)。在規(guī)模成員間進(jìn)行。而且,設(shè)備與之聯(lián)系的交換機(jī)會通知其它交換機(jī)。在規(guī)模成千的交換機(jī)和設(shè)備中,會產(chǎn)生許多消息。千的交換機(jī)和設(shè)備中,會產(chǎn)生許多消息。 IBA中子網(wǎng)管理員扮演了重要的角色。一組中子網(wǎng)管理員扮演了重要的角色。一組IBA設(shè)備作為一個子網(wǎng),設(shè)備作為一個子網(wǎng),子網(wǎng)中具有子網(wǎng)管理員。子網(wǎng)管理員活躍的時候會查詢子網(wǎng)中的所有子網(wǎng)中具有子網(wǎng)管理員。子網(wǎng)管理員活躍的時候會查詢子網(wǎng)中的所有設(shè)備,更新數(shù)據(jù)庫中活躍端口和路由信息。子網(wǎng)管理員掃描子網(wǎng)更新設(shè)備,更新數(shù)據(jù)庫中活躍端口和路由信息。子網(wǎng)管理員掃描子網(wǎng)更新活躍和部活躍端口信息。即使掃描限制在子網(wǎng)內(nèi)部,也會

60、產(chǎn)生許多多活躍和部活躍端口信息。即使掃描限制在子網(wǎng)內(nèi)部,也會產(chǎn)生許多多余的流量。余的流量。 iSCSI使用的發(fā)現(xiàn)機(jī)制中,節(jié)點(diǎn)可以采用地址硬編碼,或者查詢存使用的發(fā)現(xiàn)機(jī)制中,節(jié)點(diǎn)可以采用地址硬編碼,或者查詢存儲名字服務(wù)器,或者發(fā)送一個多路傳輸消息查詢它可以訪問的設(shè)備。儲名字服務(wù)器,或者發(fā)送一個多路傳輸消息查詢它可以訪問的設(shè)備。在規(guī)模上千的大型網(wǎng)絡(luò)中,存儲節(jié)點(diǎn)采用查詢存儲名字服務(wù)器的機(jī)制在規(guī)模上千的大型網(wǎng)絡(luò)中,存儲節(jié)點(diǎn)采用查詢存儲名字服務(wù)器的機(jī)制而不是多路傳輸方法。一旦消息發(fā)送節(jié)點(diǎn)(發(fā)起者)獲得了接收設(shè)備而不是多路傳輸方法。一旦消息發(fā)送節(jié)點(diǎn)(發(fā)起者)獲得了接收設(shè)備(目標(biāo))(目標(biāo))IP地址和地址和T

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論