FTPA- 一種具有可配置核的靈活多核處理器結(jié)構(gòu)(二)-技術(shù)方案_第1頁(yè)
FTPA- 一種具有可配置核的靈活多核處理器結(jié)構(gòu)(二)-技術(shù)方案_第2頁(yè)
FTPA- 一種具有可配置核的靈活多核處理器結(jié)構(gòu)(二)-技術(shù)方案_第3頁(yè)
FTPA- 一種具有可配置核的靈活多核處理器結(jié)構(gòu)(二)-技術(shù)方案_第4頁(yè)
FTPA- 一種具有可配置核的靈活多核處理器結(jié)構(gòu)(二)-技術(shù)方案_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

精品文檔-下載后可編輯FTPA:一種具有可配置核的靈活多核處理器結(jié)構(gòu)(二)-技術(shù)方案2靈活多核處理器FTPA結(jié)構(gòu)設(shè)計(jì)

2.1現(xiàn)有靈活多核處理器結(jié)構(gòu)面臨的問(wèn)題

●通信開銷問(wèn)題

靈活多核處理器結(jié)構(gòu)可以根據(jù)應(yīng)用特征,將多個(gè)物理核組合成一個(gè)功能強(qiáng)大的邏輯核。邏輯核的粒度決定了有多少超塊可以被推測(cè)執(zhí)行,從而構(gòu)建不同大小的指令窗口。對(duì)于采用EDGE指令集的結(jié)構(gòu)(如TFlex),雖然超塊內(nèi)指令間的數(shù)據(jù)依賴關(guān)系在編譯時(shí)已經(jīng)獲得,但是由于長(zhǎng)延遲指令的存在和訪存延遲的不確定性,即使依靠編譯器靜態(tài)地面向多個(gè)物理核調(diào)度指令,也不能有效地隱藏實(shí)際執(zhí)行時(shí)超塊內(nèi)指令間的通信開銷。因此超塊在邏輯核上的平鋪式映射在很多情況下并不適合。

●邏輯核重構(gòu)開銷問(wèn)題

靈活多核處理器中每個(gè)物理核都包含構(gòu)成邏輯核的所有資源:寄存器文件,指令窗口,執(zhí)行部件以及高速緩存等。當(dāng)多個(gè)物理核組合成一個(gè)邏輯核時(shí),指令窗口和執(zhí)行部件可以很容易的組合,但寄存器文件和高速緩存的內(nèi)容則需要重建,因?yàn)檫@些資源里的內(nèi)容通常是按照地址索引交錯(cuò)存放的,一旦資源數(shù)量或者位置發(fā)生改變,則需要清空原有數(shù)據(jù)后重建。例如在TFlex中,邏輯核的重構(gòu)就需要數(shù)千個(gè)時(shí)鐘周期,因此難以實(shí)現(xiàn)實(shí)時(shí)的細(xì)粒度資源調(diào)整。

●靈活性問(wèn)題

靈活多核處理器的主要特點(diǎn)是邏輯核的可配置性。CoreFusion、Federation和WiDGET結(jié)構(gòu)由于緊耦合的設(shè)計(jì),靈活性十分有限;Voltron只能靜態(tài)地配置邏輯核粒度,缺乏實(shí)時(shí)性;TFlex雖然提出了邏輯核的動(dòng)態(tài)配置機(jī)制,但靈活性仍受到很大約束:TFlex處理器包含32個(gè)同構(gòu)的細(xì)粒度物理核,通過(guò)4×8的片上mesh網(wǎng)絡(luò)進(jìn)行連接,要求邏輯核配置必須為2×2,4×4,2×4等特定的mesh拓?fù)?,即物理核總?shù)和mesh邊長(zhǎng)都是2的指數(shù)倍。這樣的限制有其軟硬件兩方面的原因:一方面,由于TFlex編譯器將超塊內(nèi)指令靜態(tài)調(diào)度到128項(xiàng)的邏輯空間,因此2的指數(shù)倍大小的拓?fù)浞奖愠瑝K指令從邏輯空間映射到硬件空間,如4×4×8或4×2×16硬件空間;另一方面,寄存器文件和物理核內(nèi)的高速緩存等共享資源,由于采用地址交錯(cuò)索引的方式,不規(guī)則的拓?fù)鋵⑹顾饕兊脧?fù)雜。因此,TFlex邏輯核粒度只能在這些特定的拓?fù)渲g切換,不僅限制了靈活性,而且也容易引起資源的浪費(fèi)。

針對(duì)上述3個(gè)問(wèn)題,本文提出一個(gè)新的靈活多核處理器結(jié)構(gòu)FTPA.相比于已有的設(shè)計(jì),F(xiàn)TPA具有以下3個(gè)技術(shù)創(chuàng)新點(diǎn):1)FTPA將單個(gè)超塊獨(dú)立的映射在單個(gè)物理核上,降低超塊內(nèi)指令間通信開銷;并且根據(jù)超塊級(jí)推測(cè)執(zhí)行的深度調(diào)整邏輯核的粒度,以此適應(yīng)程序不同階段的并行特征,提高資源利用率。2)FTPA將物理核資源劃分成需要頻繁調(diào)整的計(jì)算資源和不經(jīng)常重構(gòu)的共享資源分別管理,以此降低邏輯核重構(gòu)開銷。3)FTPA在物理Mesh網(wǎng)絡(luò)上建立額外的邏輯上環(huán)形拓?fù)涞木W(wǎng)絡(luò)連接計(jì)算資源,以此支持任意粒度的邏輯核,提供高度的靈活性。以下2節(jié)分別敘述FTPA的物理核和邏輯核設(shè)計(jì)。

2.2物理核設(shè)計(jì)

將單個(gè)超塊單獨(dú)的映射在單個(gè)物理核上,而不是平鋪式的映射在多個(gè)物理核上,雖然能夠有效降低超塊內(nèi)指令間通信開銷,但有可能會(huì)損失對(duì)超塊指令級(jí)并行性的開發(fā)。因此,我們需要首先對(duì)超塊的并行性有一個(gè)準(zhǔn)確的判斷。本文采用如下公式對(duì)超塊并行性做統(tǒng)計(jì)性的判斷:

超塊并行性=超塊內(nèi)指令數(shù)/超塊長(zhǎng)依賴路徑長(zhǎng)度。

文獻(xiàn)[13]的統(tǒng)計(jì)結(jié)果顯示,對(duì)于類似SPEC2K的通用應(yīng)用,由4個(gè)單發(fā)射或2個(gè)雙發(fā)射的物理核組成的邏輯核,可以滿足絕大多數(shù)超塊并行性的需要。因此,F(xiàn)TPA采用4發(fā)射的物理核設(shè)計(jì)以保證對(duì)單個(gè)超塊并行性的開發(fā),并使用指令窗口分體的設(shè)計(jì)(如圖1)來(lái)降低指令選擇發(fā)射邏輯的復(fù)雜度。

根據(jù)文獻(xiàn)[12-13]中對(duì)超塊大小的分析,F(xiàn)TPA采用和TFlex相同的超塊限制,即限制每個(gè)超塊多包含128條指令,所以在每個(gè)物理核內(nèi)需要維護(hù)128入口項(xiàng)的指令隊(duì)列?;贓DGE指令顯式數(shù)據(jù)流特征,編譯器可以根據(jù)指令間的數(shù)據(jù)依賴關(guān)系將指令靜態(tài)地調(diào)度到128入口項(xiàng)的任意位置上。因此我們將物理核內(nèi)指令隊(duì)列劃分為4個(gè)子隊(duì)列(如圖1),每個(gè)獨(dú)立的子指令隊(duì)列對(duì)應(yīng)各自的邏輯功能部件,包括獨(dú)占一個(gè)ALU和共享一個(gè)浮點(diǎn)運(yùn)算部件。這樣在保證4發(fā)射的同時(shí),有效降低了指令選擇發(fā)射邏輯的復(fù)雜度。物理核內(nèi)指令執(zhí)行的簡(jiǎn)要數(shù)據(jù)通路(通過(guò)路由網(wǎng)絡(luò)訪問(wèn)本地或異地的物理核高速緩存)也在圖1中示出。

2.3邏輯核設(shè)計(jì)

本節(jié)通過(guò)敘述FTPA針對(duì)現(xiàn)有靈活多核結(jié)構(gòu)(如TFlex)的高邏輯核重構(gòu)開銷和低靈活性2個(gè)問(wèn)題的解決方案來(lái)闡述FTPA的邏輯核設(shè)計(jì)。邏輯核重配置涉及的資源主要包括:指令窗口、執(zhí)行部件、寄存器文件和物理核內(nèi)高速緩存。其中,邏輯核的指令窗口大小和執(zhí)行部件數(shù)目,可以隨著物理核的數(shù)目低開銷地、快速地重配置,更多的物理核意味著更大的指令窗口和發(fā)射寬度;但是邏輯核的寄存器文件和高速緩存由于采用分布式共享機(jī)制,內(nèi)容按照地址交錯(cuò)放置在各個(gè)物理核上,當(dāng)邏輯核重構(gòu)需要刷新后重建,從而帶來(lái)較大的性能開銷。

然而,由于EDGE指令集的顯式數(shù)據(jù)流特征,寄存器文件的讀寫依賴是編譯時(shí)靜態(tài)可知的。因此,如果超塊之間通過(guò)寄存器通信的數(shù)據(jù)量較少的話,我們就可以將寄存器文件對(duì)物理核私有化,即每個(gè)物理核內(nèi)的指令只需訪問(wèn)本地寄存器文件,而超塊之間的數(shù)據(jù)依賴則由不同物理核上寄存器文件之間的通信完成。這樣就可以避免寄存器文件在邏輯核內(nèi)各個(gè)物理核上的分布式共享。

圖2示出了超塊間寄存器通信數(shù)目的統(tǒng)計(jì)信息。從圖2中可以看出,平均85%以上的超塊只有不到5個(gè)的寄存器寫操作,并且寫操作是在執(zhí)行過(guò)程中離散發(fā)生的,而非突發(fā)式訪問(wèn),所以FTPA將寄存器文件對(duì)物理核私有化,并采用寄存器文件間的點(diǎn)對(duì)點(diǎn)通信代替分布式共享,不會(huì)造成性能瓶頸。

不同于寄存器訪問(wèn),訪存地址不能靜態(tài)確定,因此高速緩存不能簡(jiǎn)單采用類似寄存器文件的私有化方法。FTPA的解決方案是將物理核內(nèi)的資源分為2類:1)計(jì)算資源,包括指令窗口、執(zhí)行部件和私有化后的寄存器文件;2)共享資源,主要包括高速緩存資源。通過(guò)將物理核的計(jì)算資源和共享資源分別管理,邏輯核內(nèi)各個(gè)物理核的計(jì)算資源之間可以組成邏輯上環(huán)形的拓?fù)溥B接(如圖3(a)所示).需要頻繁調(diào)整的計(jì)算資源的重構(gòu)只需改變環(huán)的大小,從而實(shí)現(xiàn)了粒度任意數(shù)值的增減;而對(duì)于會(huì)引起清空刷新操作的共享資源的重構(gòu),可以獨(dú)立于計(jì)算資源,進(jìn)行粗粒度的調(diào)整。這樣不僅降低了邏輯核重構(gòu)帶來(lái)的開銷,同時(shí)也提高了FTPA結(jié)構(gòu)的靈活性。

圖3(a)示例了一個(gè)由8個(gè)物理核組成的FTPA邏輯核結(jié)構(gòu)。雖然物理上是4×2的Mesh網(wǎng)絡(luò)連接,但是8個(gè)物理核的計(jì)算資源額外的建立了一個(gè)邏輯上環(huán)形的拓?fù)溥B接。訪存請(qǐng)求通過(guò)片上Mseh網(wǎng)絡(luò)傳輸至所訪問(wèn)的高速緩存所在的位置。程序執(zhí)行時(shí),8個(gè)超塊按照迭代推測(cè)次序依次映射到0到7號(hào)物理核上,即非推測(cè)超塊0映射到處理器核0上,然后根據(jù)超塊0推測(cè)產(chǎn)生超塊1,映射到處理器核1上,再根據(jù)超塊1推測(cè)產(chǎn)生超塊2,放置到處理器核2上,依此類推,從而8個(gè)超塊也組成一個(gè)環(huán)形的邏輯結(jié)構(gòu)。本例中超塊執(zhí)行的推測(cè)深度為8.文獻(xiàn)[15]討論了推測(cè)深度的預(yù)測(cè)機(jī)制,不同的預(yù)測(cè)機(jī)制都可以應(yīng)用在FTPA上。

圖3(b)示例了FTPA上2個(gè)邏輯核的動(dòng)態(tài)重配置,計(jì)算資源(環(huán)形)和共享資源(陰影表示)在邏輯上實(shí)現(xiàn)分離,在對(duì)計(jì)算資源的數(shù)量進(jìn)行調(diào)整時(shí),共享資源可以保持不變。圖3(b)中第2種配置示

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論