版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
FPGA和SoC對(duì)機(jī)器學(xué)習(xí)的優(yōu)化方案解析KEVINFOGARTY一系列機(jī)器學(xué)習(xí)優(yōu)化芯片預(yù)計(jì)將在未來幾個(gè)月內(nèi)開始出貨,但數(shù)據(jù)中心需要一段時(shí)間才能決定這些新的加速器是否值得采用,以及它們是否真的能在性能上獲得大幅提升。有大量的報(bào)道稱,為機(jī)器學(xué)習(xí)設(shè)計(jì)的定制芯片將提供100倍于現(xiàn)有選擇的性能,但它們?cè)谝髧?yán)格的商業(yè)用途的實(shí)際測(cè)試中的功能尚未得到證實(shí),數(shù)據(jù)中心是新技術(shù)最保守的采用者之一。不過,Graphcore、Habana、ThinCI和WaveComputing等知名初創(chuàng)公司表示,它們已經(jīng)將早期芯片提供給客戶進(jìn)行測(cè)試。但還沒有一家公司開始發(fā)貨,甚至沒有展示這些芯片。這些新設(shè)備有兩個(gè)主要市場(chǎng)。機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)將數(shù)據(jù)分為兩個(gè)主要階段:訓(xùn)練和推理,并且在每個(gè)階段中使用不同的芯片。雖然神經(jīng)網(wǎng)絡(luò)本身通常駐留在訓(xùn)練階段的數(shù)據(jù)中心中,但它可能具有用于推理階段的邊緣組件?,F(xiàn)在的問題是什么類型的芯片以及哪種配置能夠產(chǎn)生最快、最高效的深度學(xué)習(xí)??磥鞦PGAs和SoCs正在獲得更多的吸引力。TiriasResearch總裁吉姆·麥格雷戈(JimMcGregor)說,這些數(shù)據(jù)中心需要可編程芯片的靈活性和高I/O能力,這有助于FPGA在訓(xùn)練和推理的高數(shù)據(jù)量、低處理能力需求中發(fā)揮作用。與幾年前相比,F(xiàn)PGA的設(shè)置現(xiàn)在用于訓(xùn)練的頻率更低了,但它們?cè)谄渌魏问虑樯系氖褂妙l率都要高得多,而且它們很可能在明年繼續(xù)增長(zhǎng)。即使大約50家致力于神經(jīng)網(wǎng)絡(luò)優(yōu)化處理器迭代開發(fā)的初創(chuàng)公司今天都交付了成品,在任何規(guī)??捎^的數(shù)據(jù)中心的生產(chǎn)流程中,也需要9到18個(gè)月的時(shí)間。McGregor說:“沒有人會(huì)買現(xiàn)成的數(shù)據(jù)中心,然后把它放到生產(chǎn)機(jī)器上?!薄澳仨毚_保它滿足可靠性和性能要求,然后才能將其全部部署?!眻D1:不同類型深度學(xué)習(xí)芯片占比對(duì)于新的架構(gòu)和微體系架構(gòu),仍然有機(jī)會(huì)。ML工作負(fù)載正在迅速擴(kuò)展。OpenAI5月份的一份報(bào)告顯示,用于最大AI/ML訓(xùn)練的計(jì)算能力每3.5個(gè)月就增加一倍,自2012年以來,計(jì)算能力的總量增加了30萬倍。相比之下,按照摩爾定律,可用資源每18個(gè)月增加一倍,最終總?cè)萘績(jī)H增加12倍。Open.AI指出,用于最大規(guī)模訓(xùn)練的系統(tǒng)(其中一些需要幾天或幾周的時(shí)間才能完成)需要花費(fèi)數(shù)百萬美元購(gòu)買,但它預(yù)計(jì),用于機(jī)器學(xué)習(xí)硬件的大部分資金將用于推理。
圖2:計(jì)算需求正在增加
這是一個(gè)巨大的全新的機(jī)遇。Tractica在5月30日的一份報(bào)告中預(yù)測(cè),到2025年,深度學(xué)習(xí)芯片組的市場(chǎng)規(guī)模將從2017年的16億美元增至663億美元,其中包括CPU,GPU,F(xiàn)PGA,ASIC,SoC加速器和其他芯片組。其中很大一部分將來自于非芯片公司,它們正在發(fā)布自己的深度學(xué)習(xí)加速器芯片組。谷歌的TPU就是這么做的,業(yè)內(nèi)人士表示,亞馬遜和Facebook正在走同樣的道路。McGregor說,現(xiàn)在主要轉(zhuǎn)向SoC而不是獨(dú)立的組件,并且SoC、ASIC和FPGA供應(yīng)商的策略和封裝的多樣性日益增加。Xilinx、Inetel和其他公司正試圖通過向FPGA陣列添加處理器和其他組件來擴(kuò)大FPGA的規(guī)模。其他的,如FlexLogix、Achronix和Menta,將FPGA資源嵌入到靠近SoC特定功能區(qū)域的小塊中,并依賴高帶寬互連來保持?jǐn)?shù)據(jù)的移動(dòng)和高性能。McGregor說:“你可以在任何你想要可編程I/O的地方使用FPGA,人們會(huì)將它們用于推理,有時(shí)還會(huì)進(jìn)行訓(xùn)練,但是你會(huì)發(fā)現(xiàn)它們會(huì)更多地用于處理大數(shù)據(jù)任務(wù)而不是訓(xùn)練,這需要大量的矩陣乘法,更適合于GPU?!比欢?,GPU并不是瀕臨滅絕的物種。根據(jù)MoorInsights&Strategy分析師KarlFreund在一篇博客文章中所說。英偉達(dá)本月早些時(shí)候公布了NVIDIATensorRT超大尺寸推理平臺(tái)的聲明,其中包括提供65TFLOPS用于訓(xùn)練的TeslaT4GPU和每秒260萬億次4位整數(shù)運(yùn)算(TOPS)的推理-足以同時(shí)處理60個(gè)視頻流速度為每秒30幀。它包括320“TuringTensorcores”,針對(duì)推理所需的整數(shù)計(jì)算進(jìn)行了優(yōu)化。
新的架構(gòu)Graphcore是最著名的初創(chuàng)公司之一,正在開發(fā)一款236億晶體管的“智能處理單元”(IPU),具有300MB的片上存儲(chǔ)器,1216個(gè)核心,每個(gè)核心可以達(dá)到11GFlops,內(nèi)部存儲(chǔ)器帶寬為30TB/s。其中兩個(gè)采用單個(gè)PCIe卡,每個(gè)卡都設(shè)計(jì)用于在單個(gè)芯片上保存整個(gè)神經(jīng)網(wǎng)絡(luò)模型。GraphCore即將推出的芯片基于圖形架構(gòu),該架構(gòu)依賴于其軟件將數(shù)據(jù)轉(zhuǎn)換為頂點(diǎn),其中數(shù)字輸入,應(yīng)用于它們的函數(shù)(加,減,乘,除)和結(jié)果是單獨(dú)定義的,可以是并行處理。其他幾家ML初創(chuàng)公司也使用類似的方法。
WaveComputing沒有透露何時(shí)發(fā)貨,但在上周的人工智能硬件會(huì)議上透露了更多關(guān)于其架構(gòu)的信息。該公司計(jì)劃銷售系統(tǒng)而不是芯片或電路板,使用帶有15Gbyte/秒端口的16nm處理器和HMC存儲(chǔ)器和互連,這種選擇旨在快速推送圖形通過處理器集群而無需通過處理器發(fā)送數(shù)據(jù)超過瓶頸一個(gè)PCIe總線。該公司正在探索轉(zhuǎn)向HBM內(nèi)存以獲得更快的吞吐量。圖3:Wave計(jì)算的第一代數(shù)據(jù)流處理單元機(jī)器學(xué)習(xí)的異構(gòu)未來和支持的硅片的最佳指標(biāo)之一來自微軟-這是FPGA,GPU和其他深度學(xué)習(xí)的巨大買家?!半m然面向吞吐量的架構(gòu),如GPGPUs和面向批處理的NPU,在離線訓(xùn)練和服務(wù)中很受歡迎,但對(duì)于DNN模型的在線、低延遲的服務(wù),它們的效率并不高,”2018年5月發(fā)表的一篇論文描述了Brainwave項(xiàng)目,這是微軟在deepneuralnetworking(DNN)中高效FPGA的最新版本。微軟率先將FPGA廣泛用作大規(guī)模數(shù)據(jù)中心DNN推理的神經(jīng)網(wǎng)絡(luò)推理加速器。Rambus的杰出發(fā)明人兼企業(yè)解決方案技術(shù)副總裁StevenWoo表示,該公司不是將它們用作簡(jiǎn)單的協(xié)處理器,而是“更靈活,一流的計(jì)算引擎”。根據(jù)微軟的說法,Brainwave項(xiàng)目可以使用英特爾Stratix10FPGA池提供39.5TFLOPS的有效性能,這些FPGA可以被共享網(wǎng)絡(luò)上的任何CPU軟件調(diào)用??蚣軣o關(guān)系統(tǒng)導(dǎo)出深度神經(jīng)網(wǎng)絡(luò)模型,將它們轉(zhuǎn)換為微服務(wù),為Bing搜索和其他Azure服務(wù)提供“實(shí)時(shí)”推理。圖4:微軟的Brainwave項(xiàng)目將DNN模型轉(zhuǎn)換為可部署硬件微服務(wù),將任何DNN框架導(dǎo)出為通用圖形表示,并將子圖分配給CPU或FPGABrainwave是德勤全球(DeloitteGlobal)所稱的“戲劇性轉(zhuǎn)變”的一部分,這一轉(zhuǎn)變將強(qiáng)調(diào)FPGA和ASIC,到2018年,它們將占據(jù)機(jī)器學(xué)習(xí)加速器25%的市場(chǎng)份額。2016年,CPU和GPU占據(jù)了不到20萬臺(tái)的市場(chǎng)份額。德勤預(yù)測(cè),到2018年,CPU和GPU將繼續(xù)占據(jù)主導(dǎo)地位,銷量將超過50萬部,但隨著ML項(xiàng)目數(shù)量在2017年至2018年翻一番、在2018年至2020年再翻一番,總市場(chǎng)將包括20萬FPGA和10萬ASIC。德勤(Deloitte)表示,F(xiàn)PGA和ASIC的耗電量遠(yuǎn)低于GPU、CPU,甚至比谷歌每小時(shí)75瓦的TPU耗電量還要低。它們還可以提高客戶選擇的特定功能的性能,這可以隨著編程的變化而改變。Achronix的營(yíng)銷副總裁SteveMensor說:“如果人們有他們的選擇,他們會(huì)在硬件層面上用ASIC構(gòu)建東西,但是FPGA比GPU有更好的功耗/性能,而且他們?cè)诙c(diǎn)或可變精度架構(gòu)方面非常擅長(zhǎng)?!?/p>
ArterisIP的董事長(zhǎng)兼首席執(zhí)行官CharlieJanac說:“有很多很多的內(nèi)存子系統(tǒng),你必須考慮低功耗和物聯(lián)網(wǎng)應(yīng)用,網(wǎng)格和環(huán)路?!薄八阅憧梢园阉羞@些都放到一個(gè)芯片中,這是你決策物聯(lián)網(wǎng)芯片所需要的,或者你可以添加高吞吐量的HBM子系統(tǒng)。但是工作負(fù)載非常特殊,每個(gè)芯片有多個(gè)工作負(fù)載。因此,數(shù)據(jù)輸入是巨大的,尤其是如果你要處理雷達(dá)和激光雷達(dá)之類的東西,而這些東西沒有先進(jìn)的互連是不可能存在的。由于應(yīng)用程序的特殊性,連接到該互連的處理器或加速器的類型可能會(huì)有很大的不同。NetSpeedSystems負(fù)責(zé)營(yíng)銷和業(yè)務(wù)開發(fā)的副總裁阿努什?莫罕達(dá)斯(AnushMohandass)表示:“在核心領(lǐng)域,迫切需要大規(guī)模提高效率?!薄啊拔覀兛梢苑胖肁SIC和FPGA以及SoC,我們的預(yù)算越多,我們就可以放入機(jī)架?!钡罱K你必須高效;你必須能夠進(jìn)行可配置或可編程的多任務(wù)處理。如果你能將多播應(yīng)用到向量處理工作負(fù)載上,而向量處理工作負(fù)載是大部分訓(xùn)練階段的內(nèi)容,那么您能夠做的事情就會(huì)大大擴(kuò)展。“FPGA并不是特別容易編程,也不像樂高積木那樣容易插入設(shè)計(jì),盡管它們正在朝著這個(gè)方向快速發(fā)展,SoC比FPGA更容易使用計(jì)算核心、DSP核心和其他IP模塊。但是,從類似SoC的嵌入式FPGA芯片轉(zhuǎn)變?yōu)榫哂嗅槍?duì)機(jī)器學(xué)習(xí)應(yīng)用優(yōu)化的數(shù)據(jù)背板的芯片上的完整系統(tǒng)并不像聽起來那么容易。
Mohandass說:“性能環(huán)境是如此的極端,需求是如此的不同,以至于AI領(lǐng)域的SoC與傳統(tǒng)的架構(gòu)完全不同?!薄艾F(xiàn)在有更多的點(diǎn)對(duì)點(diǎn)通信。你正在做這些向量處理工作,有成千上萬的矩陣行,你有所有這些核心可用,但我們必須能夠跨越幾十萬個(gè)核心,而不是幾千個(gè)。性能是至關(guān)重要的。設(shè)計(jì)、集成、可靠性和互操作性的便捷性也是如此——SoC供應(yīng)商將重點(diǎn)放在底層框架和設(shè)計(jì)/開發(fā)環(huán)境上,而不僅僅是針對(duì)機(jī)器學(xué)習(xí)項(xiàng)目的特定需求的芯片組。NetSpeed推出了專門為深度學(xué)習(xí)和其他人工智能應(yīng)用程序設(shè)計(jì)的SoC集成平臺(tái)的更新版本,該服務(wù)使集成NetSpeedIP變得更容易,該設(shè)計(jì)平臺(tái)使用機(jī)器學(xué)習(xí)引擎推薦IP塊來完成設(shè)計(jì)。該公司表示,其目標(biāo)是在整個(gè)芯片上提供帶寬,而不是傳統(tǒng)設(shè)計(jì)的集中式處理和內(nèi)存。Mohandass說:“從ASIC到神經(jīng)形態(tài)芯片,再到量子計(jì)算,一切都在進(jìn)行中,但即使我們不需要改變我們當(dāng)前架構(gòu)的整體基礎(chǔ)(以適應(yīng)新的處理器),這些芯片的大規(guī)模生產(chǎn)仍遙遙無期?!钡覀兌荚诮鉀Q同樣的問題。當(dāng)他們從上到下進(jìn)行工作時(shí),我們也從下到上進(jìn)行工作。FlexLogix的CEOGeoffTate認(rèn)為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 餅干盒印刷課程設(shè)計(jì)
- 魚頭烹飪課程設(shè)計(jì)
- 短視頻編輯運(yùn)營(yíng)課程設(shè)計(jì)
- 道路勘察課程設(shè)計(jì)范文
- 申論公文講話稿課程設(shè)計(jì)
- 網(wǎng)絡(luò)數(shù)據(jù)庫(kù)課程設(shè)計(jì)PLSQL
- 鐵道橋梁課程設(shè)計(jì)
- 頂吹課程設(shè)計(jì)
- 統(tǒng)計(jì)課程設(shè)計(jì)實(shí)驗(yàn)建議
- 螢石的課程設(shè)計(jì)
- 農(nóng)化分析土壤P分析
- GB/T 18476-2001流體輸送用聚烯烴管材耐裂紋擴(kuò)展的測(cè)定切口管材裂紋慢速增長(zhǎng)的試驗(yàn)方法(切口試驗(yàn))
- GA 1551.5-2019石油石化系統(tǒng)治安反恐防范要求第5部分:運(yùn)輸企業(yè)
- 拘留所教育課件02
- 沖壓生產(chǎn)的品質(zhì)保障
- 《腎臟的結(jié)構(gòu)和功能》課件
- 2023年湖南聯(lián)通校園招聘筆試題庫(kù)及答案解析
- 上海市徐匯區(qū)、金山區(qū)、松江區(qū)2023屆高一上數(shù)學(xué)期末統(tǒng)考試題含解析
- 護(hù)士事業(yè)單位工作人員年度考核登記表
- 產(chǎn)科操作技術(shù)規(guī)范范本
- 人教版八年級(jí)上冊(cè)地理全冊(cè)單元測(cè)試卷(含期中期末試卷及答案)
評(píng)論
0/150
提交評(píng)論