高端FPGA市場三強爭霸 產品本身質量成為取勝關鍵_第1頁
高端FPGA市場三強爭霸 產品本身質量成為取勝關鍵_第2頁
高端FPGA市場三強爭霸 產品本身質量成為取勝關鍵_第3頁
高端FPGA市場三強爭霸 產品本身質量成為取勝關鍵_第4頁
高端FPGA市場三強爭霸 產品本身質量成為取勝關鍵_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

高端FPGA市場三強爭霸產品本身質量成為取勝關鍵英特爾在早前宣布,他們已開始將其第一批新的AgilexFPGA交付給搶先體驗的客戶。這使得最大的兩家FPGA供應商之間競爭進入到了“正面交鋒”階段。Xilinx于6月份交付了他們的第一款“VersalACAP”FPGA,因此,在經歷了一場漫長而有爭議的“誰能首先交付?”之戰(zhàn)之后。事實證明,這兩家競爭公司都可以在大約兩個月內,開始交付其可用來與對手對標的FPGA產品線。這意味著,與其他憑借第一時間引入先進節(jié)點來提升性能的競爭不同,這兩家公司都沒有足夠的時間去利用一種新的、更先進的技術來贏得設計上的勝利。不過,這次競爭的領域擴大了,新玩家Achronix聲稱他們將在今年年底之前交付其新型Speedster7tFPGA的首批樣品。對于開發(fā)團隊而言,這意味著到今年年底,將有三款完全不同的高端FPGA產品可供選擇——所有這些產品都采用類似的工藝技術,并且均具有獨特的功能。本篇文章是比較這三家供應商的新高端FPGA系列的多部分系列中的第一部分。我們將研究底層的工藝,FPGA邏輯組織(LUT)本身,用于加速處理和聯網的強化資源,存儲器架構,芯片/封裝/定制架構,I/O資源,設計工具策略,每個產品的獨特和新穎的特性和功能,以及營銷策略。如果您是可以從大量FLOPS,瘋狂的帶寬或是從設計過的一些有趣,功能強大的半導體器件中獲得樂趣的人,那么,這對你來說將是一次令人興奮的旅行。注意事項–英特爾和Achronix都參與其中,并提供了本文的信息。Xilinx沒有回應我們對信息的請求。這一次,高端FPGA的霸主地位有所改變。過去,高端FPGA最大的市場是在網絡方面,市場份額的變化也是如此,這主要取決于誰可以為部署最新一輪的有線和無線網絡客戶的產品提供最豐富的設計,,誰就可以取得較大的市場份額。然而,5G推出的時機已經改變了這一動態(tài)。在當前的FPGA技術浪潮到來之前,5G就已經開始加速擴展。因此,第一輪5G的主干網是建立在上一代可編程邏輯上的。這些器件將融入一個已經很強大的5G生態(tài)系統(tǒng),因此,我們無法確定5G的徹底革命和新一代FPGA的誕生之間是否保持了一致。這些FPGA的設計已經充分理解了5G的機制。但是,不要低估FPGA對5G的重要性,或者5G對FPGA市場的重要性。今天,當你使用手機時,你的通話有99%的可能是通過FPGA進行的。有了5G,FPGA的影響會更大。隨著數據中心加速(主要是針對AI工作負載)這一新興市場的快速擴展,這一現象引起了人們的興趣。據估計,人工智能加速市場將在未來幾年中飛速發(fā)展,因而這三家供應商都將以其令人印象深刻的性價比和更高的能效來爭奪這些設備的大部分市場份額,并聲稱他們提供的解決方案可以一直延伸到邊緣/端側。這些供應商中的每一個都非常清楚地意識到占領這些AI加速卡插槽是當務之急,并且他們都圍繞這個想法設計了新芯片。讓我們看看所有這些因素吧?從底層工藝技術來看,Xilinx和AchronixFPGA系列在基于TSMC7nm而設計,而IntelAgilex則采用了性能相近的Intel10nm工藝。不要被7/10命名差異所迷惑。不要被7/10的命名法差異所混淆。我們很早以前就曾指出,半導體行業(yè)的營銷團體根據市場上聽起來不錯的東西來命名節(jié)點,而不是從晶體管本身的任何可識別的特征中推導出它們。據我們估計,TSMC的7nm和Intel10nm是大致相當的工藝,使用這兩種工藝的廠商基本一致。這意味著英特爾在工藝技術方面長期保持的領先地位似乎已經消失,不過,當我們接近摩爾定律的瓶頸時,硅加工領域的競爭升級是不可避免的。當推進到最新的半導體工藝節(jié)點,這三個供應商都獲得了適度的推動。然而這種推進已不可能達到摩爾定律的歷史標準,因為在過去幾個工藝節(jié)點的新流程更新所帶來的收益增量一直在穩(wěn)步下降。每個人從FinFET技術問世中都獲得了一次臨時性的推動,現在,隨著摩爾定律即將在經濟層面上終結,我們可能會發(fā)現邊際收益遞減趨勢將一直延續(xù)。在過去,隨著晶體管尺寸的減小,每個新工藝節(jié)點都讓晶體管的密度大量提升,并獲得更好的性能和更低的功耗?,F在,供應商必須在這三者之間進行權衡,并且即使在他們偏愛的指標上,通常也只能得到較小的回報。同時,轉移到新工藝節(jié)點的non-recurring費用繼續(xù)呈指數級增長。這意味著FPGA公司所承擔的風險急劇上升,這是因為為了保持競爭力,他們需要不斷投資才能獲取不斷減少的收益。這也意味著我們正在進入一個新時代,FPGA本身的架構和功能、FPGA工具以及這三家公司的營銷策略將成為影響收益的關鍵因素,而不是誰將率先使用新的制程工藝??紤]到工藝技術實際上是一種洗禮,讓我們看一下每個供應商產品的功能和特性。從最基本的FPGA功能–LUT結構開始。我們經常感嘆每個公司對LUT的計算都不一樣,而且這個游戲每一代都變得更加復雜。Xilinx和Achronix當前使用的是6輸入LUT,而Intel的ALM本質上是8輸入LUT。廠商或多或少地同意我們可以使用2.2LUT4sperLUT6,,和2.99LUT4sperLUT8將不同的LUT轉換為等價的4輸入LUT。根據這方法一計算,AchronixSpeedster7T系列包括從363K到2.6MLUT6(相當于800K到5.76M的等效LUT4)領先業(yè)界,IntelAgilex系列包括132K到912K的ALM(相當于395K到2.7M的等效LUT4),Xilinx的Versal系列產品包含了約246K到984KCLB(可換算成541K到2.2M的等效LUT4)。每個供應商都聲稱自己的體系結構優(yōu)越,著重強調了可以提高某些特定應用或配置中的邏輯密度,性能或可布線性的設計功能。目前,我們尚不清楚任何供應商的LUT是否明顯優(yōu)于其他任何供應商的LUT。但是,FPGA可用資源不僅取決于LUT的數量。還必須考慮以下挑戰(zhàn):被有效使用LUT的百分比(我們將在稍后討論設計工具時進行討論),以及集成到邏輯模塊中的強化功能的數量,這些功能允許以最小的方式實現設計功能LUT結構的參與。根據您的設計,您可能會發(fā)現更多內容被塞入一個或多個FPGA中,而這些內容和LUT數量無關。FPGA“擅長”人工智能推理的主要原因是其可以并行完成大量的算術運算(主要是各種精度的乘法累加),這要歸功于編織在可編程邏輯結構中的存在大量“DSP塊陣列”。這使得FPGA能夠比傳統(tǒng)的馮·諾依曼結構的處理器更有效地執(zhí)行例如卷積等矩陣運算。分析對AI推理至關重要的硬件乘法器,Achronix的可變精度乘法器可實現41Kint-8乘法或82Kint-4乘法。英特爾Agilex具有2K-17K18×19乘法器,XilinxVersal有500-3K“DSP引擎”,大概是“DSP58slice”,包括27×24乘法器和新的硬件浮點功能。這種比較肯定是“從蘋果到橙子到芒果”,至于哪種水果更適合您的應用,它必須是“由設計者決定的”。現在,這三個供應商都增強了對浮點乘法的支持。Achronix為他們的DSP塊提供了一個全新的架構,他們稱之為“機器學習處理器”(MLP)。每個MLP包含多達32個乘法器/累加器(MAC)、4-24位整數模式和各種浮點模式,可支持包括TensorFlow的Bfloat16格式和塊浮點格式。最重要的是,AchronixMLP將嵌入式存儲器模塊與計算單元緊密耦合,從而使MAC操作能夠以750MHz的頻率運行,而等待通過FPGA組織訪問存儲器獲取數據。英特爾還使用具有硬件浮點的可變精度DSP模塊(基本上就像它們已經提供了多年的功能一樣)。英特爾的浮點支持也許是三者中最廣泛和最成熟的。借助Agilex,他們推出了兩種新的浮點模式,即半精度浮點(FP16)和塊浮點(Bfloat16),并且進行了架構調整,以使其DSP運算更加高效。Xilinx已將其以前的DSP48Slice升級到DSP58——大概是因為它們現在包括了硬件浮點,并且其乘法器也升級到了27×24。因此,在這一代產品中,另外兩家供應商也加入了英特爾的行列,提供支持浮點運算的硬件乘法器。對于Xilinx而言,這是一個逆轉。賽靈思此前聲稱,FPGA中實現浮點硬件乘法器不是一個好主意,因為浮點運算主要用于訓練,而FPGA則主要針對推理應用。就可用的浮點格式而言,Versal(最多2.1K乘法器)和Agilex(最多8.7K乘法器)都支持FP32格式。這三個系列均支持半精度(FP16)——Versal最多可支持2.1K乘法器,Agilex最多可支持17.1K乘法器,Speedster最多可支持5.1K乘法器。Agilex(最多17.1K乘法器)和Speedster(最多5.1K個)支持Bfloat16。對于FP24格式浮點乘法,Versal和Agilex可能會使用FP32單元,而Speedster則具有高達2.6K的乘法器。AchronixSpeedster還支持多達81.9K的塊浮點乘法器。Xilinx還帶來了一種新的軟件可編程矢量處理器——高達400個1GHz+VLIW-SIMD矢量處理核心陣列,具有增強計算和緊密耦合的內存。這為并行化復雜的向量運算并利用FPGA豐富的計算資源提供了更為簡單的編程模型??傮w而言,是在Xilinx的“kitchensink”競爭策略上選中了“GPU/推理引擎”。稍后我們將詳細討論這一點。英特爾對AchronixMLP和Xilinx矢量處理器的回應是老派的演變。他們指出,AgilexDSP模塊實現了與其他供應商的新DSP功能相同的功能。可以利用已建立并充分理解的FPGA設計開發(fā)流程,并且不需要客戶在器件的各個體系結構中去劃分他們的設計。如果您的團隊具有FPGA/RTL設計專業(yè)知識,這是一件好事。但如果你的應用需要由軟件工程師來開發(fā)DSP,Xilinx的軟件可編程方法可能有優(yōu)勢。除了簡單地計算乘數外,我們還可以通過查看供應商關于理論性能的聲明來比較這些能力。但有一點需要注意,這些說法被嚴重夸大了,而且很難精確定義。供應商通常通過將芯片上的乘法器數目乘以這些乘法器的最大工作頻率來得出一個數,得出一個“最多XXTOPS或TFLOPS”的數字。顯然,現實世界中的設計不會使用到100%的乘法器,沒有任何一個設計能夠達到這些乘法器的最大理論時鐘速率,也沒有一個設計能夠以適當的速率持續(xù)為這些乘法器提供輸入數據,并且這些乘法運算的精度因供應商而異。如果必須估算的話,我們可以說FPGA在實際設計中可以實際達到其理論最大值的50-90%。這要比GPU更好,后者被認為在現實世界中只能達到其理論最大值的10-20%。在推測INT8操作的TOPS數量時,如果我們將其矢量處理器中的133個TOPS包含在內,則XilinxVersal以大約171個TOPS位居榜首。12個來自其DSP塊,26個來自其邏輯結構。Speedster緊隨其后,有大約86個TOPS,其中61個來自他們的MLP模塊,25個來自他們的邏輯結構。Agilexint8操作最大值為92個TOPS,其中51個來自DSP塊,41個來自邏輯結構。從Bfloat16格式的TFLOPS來看,Agilex以40個領先,Versal以9個緊隨其后,Speedster以8個墊底。Speedster在塊浮點操作上上獲得了很大的優(yōu)勢,但是,它有123個TFLOPS,其次是Agilex的41個和Versal的15個。這些數字均來自公司自己的數據表。正如我們所提到的,它們是理論上的最大值,在實際的實際應用中是不可能達到的。Achronix宣稱的“可用性”具有一定的價值,因為它們的MLP是獨特的設計,旨在將可變精度乘法運算維持在模塊本身內進行,并以最大時鐘速率運行,而無需數據往返于邏輯結構即可完成AI推理中最常見的操作。同樣,Xilinx的矢量處理器體系結構應能很好地保持數據平穩(wěn)地流經算術單元。也就是說,我們還沒有看到基準或參考設計以任何有意義的方式來證明這些公司的聲稱。當然,要使用所有這些LUT和乘法器,就需要讓您的設計實際布局和布線并滿足所選芯片的時序要求。隨著FPGA的發(fā)展,這已成為越來越困難的挑戰(zhàn)。單比他網絡和邏輯路徑通過有限的路由資源分布在巨大芯片上,這使傳統(tǒng)的時序收斂逐漸變成一場噩夢。用于在同步設計上實現時序收斂的常規(guī)技術均遇到了障礙,無法擴展。Xilinx和Achronix都通過添加覆蓋傳統(tǒng)邏輯和路由結構的片上網絡(NoC)在新一代FPGA中解決了這一問題。NoC從本質上改變了游戲規(guī)則,因為整個芯片不再需要在一個巨大的魔術般的融合中實現時序收斂?,F在,較小的同步塊可以通過NoC傳遞數據,減輕了傳統(tǒng)路由結構的負擔,并將巨大的設計自動化工具需要解決的問題分解為更小、更易于管理的問題。幾代以前,英特爾已經采取了另一種方法來解決這一問題——用稱為“HyperFlex寄存器”的大量微寄存器鋪平到整個邏輯結構。這些寄存器允許對更長、更復雜的邏輯路徑進行重新定時和流水線處理,從而使整個設計實質上變得異步。有趣的是,這也是Xilinx和Achronix使用的NoC的效果。每種方法都面臨挑戰(zhàn),因為這兩種方法都會給芯片設計和我們使用的設計工具增加大量復雜性。據報道,在英特爾的案例中HyperFlex寄存器對邏輯架構可以實現的整體速度也有一些負面影響。英特爾表示,AgilexFPGA中的HyperFlex體系結構是第二代,并且與上一代HyperFlex體系結構相比具有改進和增強,可以提高性能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論