在65nmFPGA設(shè)計(jì)中如何獲得更高的性能_第1頁
在65nmFPGA設(shè)計(jì)中如何獲得更高的性能_第2頁
在65nmFPGA設(shè)計(jì)中如何獲得更高的性能_第3頁
在65nmFPGA設(shè)計(jì)中如何獲得更高的性能_第4頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、.在65nm FPGA設(shè)計(jì)中如何獲得更高的性能隨著系統(tǒng)復(fù)雜度不斷增加以及功能需求越來越苛刻,利用當(dāng)今的FPGA實(shí)現(xiàn)最大的性能越來越具挑戰(zhàn)性。在FPGA系統(tǒng)設(shè)計(jì)中要最大化系統(tǒng)性能,需要平衡性能-效率組件,包括邏輯結(jié)構(gòu)、片上存儲(chǔ)器、DSP模塊和I/O帶寬。本文將探討FPGA設(shè)計(jì)師如何受益于最新的FPGA構(gòu)建模塊來滿足他們要求的更高系統(tǒng)級(jí)性能。我們會(huì)用實(shí)例來研究新的65納米結(jié)構(gòu)的特點(diǎn),量化期望邏輯和算術(shù)功能性能改善。 要支持期望的性能等級(jí),硬IP模塊是必要的,這種性能等級(jí)可能受到結(jié)構(gòu)之外的潛在瓶頸限制,例如片上存儲(chǔ)器緩存、DSP模塊或I/O。為此,要提供不同設(shè)計(jì)基準(zhǔn)的分析來更好地理解新產(chǎn)品的影響以及

2、技術(shù)創(chuàng)新,以及更好地對期望值進(jìn)行量化。 邏輯結(jié)構(gòu)性能 自從1980年中期推出第一塊FPGA以來,絕大多數(shù)的FPGA的邏輯結(jié)構(gòu)都是基于相同的基本4輸入查找表(LUT)架構(gòu)。今天高性能65納米FPGA,例如Xilinx Virtex-5系列,提供了真正的基于6輸入LUT(6-LUT)的架構(gòu),具有獨(dú)立(非共享)的輸入。在65納米節(jié)點(diǎn)轉(zhuǎn)換到6-LUT架構(gòu)能提供最有效的關(guān)鍵路徑延時(shí)與可利用的硅片面積折衷,關(guān)鍵路徑延時(shí)是邏輯結(jié)構(gòu)性能的決定性因素(圖1)。 在65納米的FPGA中,互連時(shí)序延時(shí)超過關(guān)鍵路徑延時(shí)的50%。賽靈思在其65納米FPGA中開發(fā)了一個(gè)新的互連模式,通過在很少的跳轉(zhuǎn)來達(dá)到更多的地方以使延

3、時(shí)最小。新的模式大大地增加了在兩跳或三跳中可獲得的邏輯連接數(shù)量。而且,這種互連方法的更為正規(guī)的布線模式更易于布局布線軟件來發(fā)現(xiàn)最優(yōu)的路徑。盡管對FPGA設(shè)計(jì)師透明,但這些互連特點(diǎn)轉(zhuǎn)換為更高的總體性能和更簡單的設(shè)計(jì)布線。 更清楚展示這種好處的實(shí)例是典型的復(fù)用器(MUX)設(shè)計(jì)。在90納米的FPGA中實(shí)現(xiàn)一個(gè)8:1 MUX需要四個(gè)4-LUT,而65納米架構(gòu)只需要兩個(gè)6-LUT。這樣可以獲得更佳的性能和更高的邏輯利用率。 65納米工藝技術(shù)和新的進(jìn)位鏈結(jié)構(gòu)的結(jié)合還能提供更高的算術(shù)運(yùn)算性能。在表1中可以很容易地看到對關(guān)鍵路徑延時(shí)的影響。 分布式存儲(chǔ)器功能,例如LUT RAM或ROM還從其它方面受益于更大的

4、6-LUT架構(gòu)。新的縱橫比允許小存儲(chǔ)器功能非常密集的包裝,獲得如表2中描述的很大的性能好處。采用6-LUT架構(gòu)的改良邏輯結(jié)構(gòu)提供的性能改善以及互連結(jié)構(gòu)很重要,但僅僅是開端。 表1:在采用Virtex-5 FPGA實(shí)現(xiàn)設(shè)計(jì)時(shí),各算術(shù)功能顯示出路經(jīng)延時(shí)顯著降低 表2:基于LUT的RAM/ROM實(shí)現(xiàn)也顯示出采用Virtex-5 FPGA的顯著改善 Block RAM性能 片上存儲(chǔ)器的性能對于獲得更高系統(tǒng)性能來說也非常關(guān)鍵,因?yàn)閺V泛用來存儲(chǔ)算法過程之間的數(shù)據(jù)。無論是基于LUT的分布式存儲(chǔ)器、Block RAM或FIFO,片上存儲(chǔ)器用于相對較小的緩存存儲(chǔ)。不同的應(yīng)用需要不同的存儲(chǔ)器大小以及存取時(shí)間。選擇

5、正確的存儲(chǔ)器層級(jí)以及完全利用片上存儲(chǔ)器可以大大地提高系統(tǒng)性能。例如,分布式LUT RAM非常適合于更小尺寸(<4Kb)和快速的時(shí)鐘到數(shù)據(jù)輸出,而Block RAM可以提供更大緩存,頻率高達(dá)550MHz。 采用65納米,Block RAM時(shí)鐘速度增長10%,達(dá)到550MHz。然而,為獲得當(dāng)前絕大多數(shù)應(yīng)用期望的性能,Block RAM不能僅僅更快-還需要更大。Block RAM的大小倍增到36KB。這種更大的塊(包含兩個(gè)18Kb的存儲(chǔ)器)將支持簡單雙端口模式的72比特的數(shù)據(jù)字,這樣Block RAM帶寬倍增。而且,新的架構(gòu)提供了專門的連接,使設(shè)計(jì)師能將兩個(gè)相鄰的36KB Block RAM在

6、Block RAM對列中層疊起來,這樣來實(shí)現(xiàn)72KB的存儲(chǔ)器,運(yùn)行在最大550MHz速度下。 DSP性能 很多圖像、信號(hào)和數(shù)據(jù)處理應(yīng)用需要能在更高速度下實(shí)現(xiàn)數(shù)學(xué)算法的增強(qiáng)并行特性的專用邏輯。某些最新的FPGA產(chǎn)品使設(shè)計(jì)師能配置DSP片段來實(shí)現(xiàn)復(fù)用器、計(jì)數(shù)器、乘法累加器、加法器和很多其它功能,這些都不需要占用邏輯結(jié)構(gòu)資源。 為了滿足對DSP性能似乎無止盡的需求,65納米DSP模塊的性能得到增加,在時(shí)鐘速度和精度上提高,時(shí)鐘速度增加到550MHz,與90納米相比,精度從18×18比特增加到25×18比特。DSP48也針對加法器鏈的實(shí)現(xiàn)進(jìn)行了優(yōu)化,一種非常強(qiáng)大的功能使得效率非常高

7、的高性能濾波器的創(chuàng)新得以實(shí)現(xiàn)。 每個(gè)DSP48的輸入輸出上的專用布線資源允許任意數(shù)量的片段在隊(duì)列中被“鏈接在一起”。這種專用的布線資源能確保在鏈條中的每一個(gè)DSP48片段在不占用任何的結(jié)構(gòu)布線或邏輯資源的條件下全速運(yùn)行,就像其它FPGA所要求的一樣。這些改善減少了一半的實(shí)現(xiàn)普通高精度功能所需要的資源。例如,在90納米的FPGA中,實(shí)現(xiàn)35×25比特乘法需要四個(gè)DSP48,但是對于65納米FPGA中更寬的DSP48模塊,則只需要兩個(gè)。 圖1:在65納米工藝中6-LUT架構(gòu)提供了關(guān)鍵路徑延時(shí)與裸片面積的最優(yōu)折衷 I/O性能 正如性能測試基準(zhǔn)所顯示的,F(xiàn)PGA可以處理數(shù)據(jù)的速度只與器件的I

8、/O帶寬條件相關(guān),即大量數(shù)據(jù)移入移出器件的速度。當(dāng)使用外部存儲(chǔ)器對接口進(jìn)行緩存時(shí),速度必須是數(shù)據(jù)處理速度的兩倍以上,因?yàn)閿?shù)據(jù)必須在FPGA之外寫入,以及讀入到FPGA。 65納米FPGA相對于前一代的90納米器件的I/O帶寬增加了,包括每個(gè)管腳數(shù)據(jù)速度,以及更大封裝可用的管腳數(shù)。例如,在像DDR2 SDRAM這樣流行的存儲(chǔ)器接口上,每個(gè)管腳的帶寬從534Mbps增加到667Mbps,當(dāng)考慮到并發(fā)開關(guān)輸出(SSO)要求,數(shù)據(jù)I/O的數(shù)量也從432個(gè)增加到576個(gè)。這些實(shí)質(zhì)性的改善是由于65納米技術(shù)帶來的每個(gè)封裝更多的I/O數(shù)量嵌入到每個(gè)I/O模塊的硬IP數(shù)量,以及先進(jìn)的封裝技術(shù)能提供更佳電源與地

9、分布,從而使SSO噪聲最小。 設(shè)計(jì)基準(zhǔn)與分析 為評估FPGA邏輯結(jié)構(gòu)實(shí)現(xiàn)的性能改善,賽靈思利用其集成軟件環(huán)境(ISE)實(shí)現(xiàn)了一組客戶設(shè)計(jì),這些設(shè)計(jì)都用VHDL或Verilog寫成。某些特定設(shè)計(jì)單元,例如存儲(chǔ)器和FIFO使用直接存儲(chǔ)器組件實(shí)例或綜合推論來實(shí)現(xiàn),但是其中很多也是采用EDIF模塊實(shí)現(xiàn),EDIF模塊由CoreGenerator產(chǎn)生,CoreGenerator是ISE軟件的一部分。 對于這些測試基準(zhǔn),利用來自Synplicity公司的Synplify Pro,使用嚴(yán)格的、真實(shí)約束條件以時(shí)序驅(qū)動(dòng)的方式有效地測試性能。這樣做以確保所有的特殊優(yōu)化和邏輯復(fù)制得到實(shí)行。 在更多的布局布線工作下,可

10、以完成在ISE中的實(shí)現(xiàn)。時(shí)鐘按5%的增量緊緊重復(fù),直到設(shè)計(jì)不能滿足設(shè)計(jì)約束。其結(jié)果是獲得比上一代的90納米Virtex-4 FPGA實(shí)現(xiàn)的設(shè)計(jì)的平均性能高30%,如圖2所示。 圖2:基于74個(gè)采用Xilinx ISE 8.2i的用戶設(shè)計(jì)比較 具有最大改進(jìn)的設(shè)計(jì)擁有大量的邏輯,例如關(guān)鍵路徑實(shí)現(xiàn)了一個(gè)大的、通常很復(fù)雜的邏輯等式。一般地,對于在關(guān)鍵路徑中的大量邏輯,ASIC原型設(shè)計(jì)具有很少的寄存器。這些類型的設(shè)計(jì)展現(xiàn)了65納米結(jié)構(gòu)的重大改進(jìn)。 例如,在設(shè)計(jì)套件中的第二個(gè)最大的改進(jìn)(53%)是視頻應(yīng)用的用戶設(shè)計(jì)。乘法器大小需要非常完美地適合65納米FPGA的DSP48片斷。90納米上的相同實(shí)現(xiàn)需要兩個(gè)乘法器以及一個(gè)加法器,使關(guān)鍵路徑對于設(shè)計(jì)中指定的延時(shí)更慢。 表現(xiàn)出適當(dāng)改善的設(shè)計(jì)不是具有較少的邏輯,就是提供很少使用硬IP模塊的機(jī)會(huì)或改進(jìn)性能的進(jìn)位鏈結(jié)構(gòu)。 在另外一個(gè)實(shí)例中,其中一個(gè)設(shè)計(jì)表現(xiàn)出一般改進(jìn),在這個(gè)實(shí)例中只有5%,因?yàn)樵O(shè)計(jì)得到很好的管線處理而且在90納米的設(shè)計(jì)中邏輯的層次就很少,因此減少邏輯層次的機(jī)會(huì)很少。分析顯示為改進(jìn)這種特定的設(shè)計(jì),Block RAM需要進(jìn)行完全的管線處理,因?yàn)樗鼤?huì)增加關(guān)鍵路徑的延時(shí)。當(dāng)其兩級(jí)管線都使用時(shí),Block RAM只全速運(yùn)行。 本文小結(jié) 在對更高性能的研究中,當(dāng)前FPGA設(shè)計(jì)師必須評估最新

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論