在65nmFPGA設(shè)計(jì)中如何獲得更高的性能

上傳人：A*** IP屬地：廣東上傳時(shí)間：2021-12-26 格式：DOCX 頁數(shù)：5 大小：178.05KB 積分：22 舉報(bào) 版權(quán)申訴

免費(fèi)預(yù)覽已結(jié)束，剩余1頁可下載查看

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、.在65nm FPGA設(shè)計(jì)中如何獲得更高的性能隨著系統(tǒng)復(fù)雜度不斷增加以及功能需求越來越苛刻，利用當(dāng)今的FPGA實(shí)現(xiàn)最大的性能越來越具挑戰(zhàn)性。在FPGA系統(tǒng)設(shè)計(jì)中要最大化系統(tǒng)性能，需要平衡性能-效率組件，包括邏輯結(jié)構(gòu)、片上存儲(chǔ)器、DSP模塊和I/O帶寬。本文將探討FPGA設(shè)計(jì)師如何受益于最新的FPGA構(gòu)建模塊來滿足他們要求的更高系統(tǒng)級(jí)性能。我們會(huì)用實(shí)例來研究新的65納米結(jié)構(gòu)的特點(diǎn)，量化期望邏輯和算術(shù)功能性能改善。要支持期望的性能等級(jí)，硬IP模塊是必要的，這種性能等級(jí)可能受到結(jié)構(gòu)之外的潛在瓶頸限制，例如片上存儲(chǔ)器緩存、DSP模塊或I/O。為此，要提供不同設(shè)計(jì)基準(zhǔn)的分析來更好地理解新產(chǎn)品的影響以及

2、技術(shù)創(chuàng)新，以及更好地對期望值進(jìn)行量化。邏輯結(jié)構(gòu)性能自從1980年中期推出第一塊FPGA以來，絕大多數(shù)的FPGA的邏輯結(jié)構(gòu)都是基于相同的基本4輸入查找表(LUT)架構(gòu)。今天高性能65納米FPGA，例如Xilinx Virtex-5系列，提供了真正的基于6輸入LUT(6-LUT)的架構(gòu)，具有獨(dú)立(非共享)的輸入。在65納米節(jié)點(diǎn)轉(zhuǎn)換到6-LUT架構(gòu)能提供最有效的關(guān)鍵路徑延時(shí)與可利用的硅片面積折衷，關(guān)鍵路徑延時(shí)是邏輯結(jié)構(gòu)性能的決定性因素(圖1)。在65納米的FPGA中，互連時(shí)序延時(shí)超過關(guān)鍵路徑延時(shí)的50%。賽靈思在其65納米FPGA中開發(fā)了一個(gè)新的互連模式，通過在很少的跳轉(zhuǎn)來達(dá)到更多的地方以使延

3、時(shí)最小。新的模式大大地增加了在兩跳或三跳中可獲得的邏輯連接數(shù)量。而且，這種互連方法的更為正規(guī)的布線模式更易于布局布線軟件來發(fā)現(xiàn)最優(yōu)的路徑。盡管對FPGA設(shè)計(jì)師透明，但這些互連特點(diǎn)轉(zhuǎn)換為更高的總體性能和更簡單的設(shè)計(jì)布線。更清楚展示這種好處的實(shí)例是典型的復(fù)用器(MUX)設(shè)計(jì)。在90納米的FPGA中實(shí)現(xiàn)一個(gè)8:1 MUX需要四個(gè)4-LUT，而65納米架構(gòu)只需要兩個(gè)6-LUT。這樣可以獲得更佳的性能和更高的邏輯利用率。 65納米工藝技術(shù)和新的進(jìn)位鏈結(jié)構(gòu)的結(jié)合還能提供更高的算術(shù)運(yùn)算性能。在表1中可以很容易地看到對關(guān)鍵路徑延時(shí)的影響。分布式存儲(chǔ)器功能，例如LUT RAM或ROM還從其它方面受益于更大的

4、6-LUT架構(gòu)。新的縱橫比允許小存儲(chǔ)器功能非常密集的包裝，獲得如表2中描述的很大的性能好處。采用6-LUT架構(gòu)的改良邏輯結(jié)構(gòu)提供的性能改善以及互連結(jié)構(gòu)很重要，但僅僅是開端。表1：在采用Virtex-5 FPGA實(shí)現(xiàn)設(shè)計(jì)時(shí)，各算術(shù)功能顯示出路經(jīng)延時(shí)顯著降低表2：基于LUT的RAM/ROM實(shí)現(xiàn)也顯示出采用Virtex-5 FPGA的顯著改善 Block RAM性能片上存儲(chǔ)器的性能對于獲得更高系統(tǒng)性能來說也非常關(guān)鍵，因?yàn)閺V泛用來存儲(chǔ)算法過程之間的數(shù)據(jù)。無論是基于LUT的分布式存儲(chǔ)器、Block RAM或FIFO，片上存儲(chǔ)器用于相對較小的緩存存儲(chǔ)。不同的應(yīng)用需要不同的存儲(chǔ)器大小以及存取時(shí)間。選擇

5、正確的存儲(chǔ)器層級(jí)以及完全利用片上存儲(chǔ)器可以大大地提高系統(tǒng)性能。例如，分布式LUT RAM非常適合于更小尺寸(<4Kb)和快速的時(shí)鐘到數(shù)據(jù)輸出，而Block RAM可以提供更大緩存，頻率高達(dá)550MHz。采用65納米，Block RAM時(shí)鐘速度增長10%，達(dá)到550MHz。然而，為獲得當(dāng)前絕大多數(shù)應(yīng)用期望的性能，Block RAM不能僅僅更快-還需要更大。Block RAM的大小倍增到36KB。這種更大的塊(包含兩個(gè)18Kb的存儲(chǔ)器)將支持簡單雙端口模式的72比特的數(shù)據(jù)字，這樣Block RAM帶寬倍增。而且，新的架構(gòu)提供了專門的連接，使設(shè)計(jì)師能將兩個(gè)相鄰的36KB Block RAM在

6、Block RAM對列中層疊起來，這樣來實(shí)現(xiàn)72KB的存儲(chǔ)器，運(yùn)行在最大550MHz速度下。 DSP性能很多圖像、信號(hào)和數(shù)據(jù)處理應(yīng)用需要能在更高速度下實(shí)現(xiàn)數(shù)學(xué)算法的增強(qiáng)并行特性的專用邏輯。某些最新的FPGA產(chǎn)品使設(shè)計(jì)師能配置DSP片段來實(shí)現(xiàn)復(fù)用器、計(jì)數(shù)器、乘法累加器、加法器和很多其它功能，這些都不需要占用邏輯結(jié)構(gòu)資源。為了滿足對DSP性能似乎無止盡的需求，65納米DSP模塊的性能得到增加，在時(shí)鐘速度和精度上提高，時(shí)鐘速度增加到550MHz，與90納米相比，精度從18×18比特增加到25×18比特。DSP48也針對加法器鏈的實(shí)現(xiàn)進(jìn)行了優(yōu)化，一種非常強(qiáng)大的功能使得效率非常高

7、的高性能濾波器的創(chuàng)新得以實(shí)現(xiàn)。每個(gè)DSP48的輸入輸出上的專用布線資源允許任意數(shù)量的片段在隊(duì)列中被“鏈接在一起”。這種專用的布線資源能確保在鏈條中的每一個(gè)DSP48片段在不占用任何的結(jié)構(gòu)布線或邏輯資源的條件下全速運(yùn)行，就像其它FPGA所要求的一樣。這些改善減少了一半的實(shí)現(xiàn)普通高精度功能所需要的資源。例如，在90納米的FPGA中，實(shí)現(xiàn)35×25比特乘法需要四個(gè)DSP48，但是對于65納米FPGA中更寬的DSP48模塊，則只需要兩個(gè)。圖1：在65納米工藝中6-LUT架構(gòu)提供了關(guān)鍵路徑延時(shí)與裸片面積的最優(yōu)折衷 I/O性能正如性能測試基準(zhǔn)所顯示的，F(xiàn)PGA可以處理數(shù)據(jù)的速度只與器件的I

8、/O帶寬條件相關(guān)，即大量數(shù)據(jù)移入移出器件的速度。當(dāng)使用外部存儲(chǔ)器對接口進(jìn)行緩存時(shí)，速度必須是數(shù)據(jù)處理速度的兩倍以上，因?yàn)閿?shù)據(jù)必須在FPGA之外寫入，以及讀入到FPGA。 65納米FPGA相對于前一代的90納米器件的I/O帶寬增加了，包括每個(gè)管腳數(shù)據(jù)速度，以及更大封裝可用的管腳數(shù)。例如，在像DDR2 SDRAM這樣流行的存儲(chǔ)器接口上，每個(gè)管腳的帶寬從534Mbps增加到667Mbps，當(dāng)考慮到并發(fā)開關(guān)輸出(SSO)要求，數(shù)據(jù)I/O的數(shù)量也從432個(gè)增加到576個(gè)。這些實(shí)質(zhì)性的改善是由于65納米技術(shù)帶來的每個(gè)封裝更多的I/O數(shù)量嵌入到每個(gè)I/O模塊的硬IP數(shù)量，以及先進(jìn)的封裝技術(shù)能提供更佳電源與地

9、分布，從而使SSO噪聲最小。設(shè)計(jì)基準(zhǔn)與分析為評估FPGA邏輯結(jié)構(gòu)實(shí)現(xiàn)的性能改善，賽靈思利用其集成軟件環(huán)境(ISE)實(shí)現(xiàn)了一組客戶設(shè)計(jì)，這些設(shè)計(jì)都用VHDL或Verilog寫成。某些特定設(shè)計(jì)單元，例如存儲(chǔ)器和FIFO使用直接存儲(chǔ)器組件實(shí)例或綜合推論來實(shí)現(xiàn)，但是其中很多也是采用EDIF模塊實(shí)現(xiàn)，EDIF模塊由CoreGenerator產(chǎn)生，CoreGenerator是ISE軟件的一部分。對于這些測試基準(zhǔn)，利用來自Synplicity公司的Synplify Pro，使用嚴(yán)格的、真實(shí)約束條件以時(shí)序驅(qū)動(dòng)的方式有效地測試性能。這樣做以確保所有的特殊優(yōu)化和邏輯復(fù)制得到實(shí)行。在更多的布局布線工作下，可

10、以完成在ISE中的實(shí)現(xiàn)。時(shí)鐘按5%的增量緊緊重復(fù)，直到設(shè)計(jì)不能滿足設(shè)計(jì)約束。其結(jié)果是獲得比上一代的90納米Virtex-4 FPGA實(shí)現(xiàn)的設(shè)計(jì)的平均性能高30%，如圖2所示。圖2：基于74個(gè)采用Xilinx ISE 8.2i的用戶設(shè)計(jì)比較具有最大改進(jìn)的設(shè)計(jì)擁有大量的邏輯，例如關(guān)鍵路徑實(shí)現(xiàn)了一個(gè)大的、通常很復(fù)雜的邏輯等式。一般地，對于在關(guān)鍵路徑中的大量邏輯，ASIC原型設(shè)計(jì)具有很少的寄存器。這些類型的設(shè)計(jì)展現(xiàn)了65納米結(jié)構(gòu)的重大改進(jìn)。例如，在設(shè)計(jì)套件中的第二個(gè)最大的改進(jìn)(53%)是視頻應(yīng)用的用戶設(shè)計(jì)。乘法器大小需要非常完美地適合65納米FPGA的DSP48片斷。90納米上的相同實(shí)現(xiàn)需要兩個(gè)乘法器以及一個(gè)加法器，使關(guān)鍵路徑對于設(shè)計(jì)中指定的延時(shí)更慢。表現(xiàn)出適當(dāng)改善的設(shè)計(jì)不是具有較少的邏輯，就是提供很少使用硬IP模塊的機(jī)會(huì)或改進(jìn)性能的進(jìn)位鏈結(jié)構(gòu)。在另外一個(gè)實(shí)例中，其中一個(gè)設(shè)計(jì)表現(xiàn)出一般改進(jìn)，在這個(gè)實(shí)例中只有5%，因?yàn)樵O(shè)計(jì)得到很好的管線處理而且在90納米的設(shè)計(jì)中邏輯的層次就很少，因此減少邏輯層次的機(jī)會(huì)很少。分析顯示為改進(jìn)這種特定的設(shè)計(jì)，Block RAM需要進(jìn)行完全的管線處理，因?yàn)樗鼤?huì)增加關(guān)鍵路徑的延時(shí)。當(dāng)其兩級(jí)管線都使用時(shí)，Block RAM只全速運(yùn)行。本文小結(jié) 在對更高性能的研究中，當(dāng)前FPGA設(shè)計(jì)師必須評估最新

人人文庫> 全部分類> 應(yīng)用文書 > 工作計(jì)劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

在65nmFPGA設(shè)計(jì)中如何獲得更高的性能

文檔簡介

溫馨提示

最新文檔

評論

在65nmFPGA設(shè)計(jì)中如何獲得更高的性能

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔