制約AI產業(yè)發(fā)展的硬件瓶頸_第1頁
制約AI產業(yè)發(fā)展的硬件瓶頸_第2頁
制約AI產業(yè)發(fā)展的硬件瓶頸_第3頁
制約AI產業(yè)發(fā)展的硬件瓶頸_第4頁
制約AI產業(yè)發(fā)展的硬件瓶頸_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

陳怡然杜克大學電子與計算機工程系副教授杜克進化智能中心聯(lián)合主任美國自然科學基金委新型可持續(xù)智能計算中心主任制約AI產業(yè)發(fā)展的硬件瓶頸TheHardwareBottlenecksHinderingDevelopmentofAIIndustry人工智能發(fā)展的三次浪潮ENIACUNIVACIIBM7090Pentium

IVIBM360/75CDC7600SDS920DEC-CK-10AppleIISun-2

Sun-3AT&TGlobalyst600PowerTower180eFijitsu

SPARC64

VIIIfx

Gateway-486DX2/66IBMPCMACIIfxIBMPS/290PowerMac8100/80AMD

Athlon

FX-57MacG4DELL340/2GMacG3Intel

Core

2

QX9770第一次興起Perception,1957

第二次興起MLP,19862012AlexNet2014GoogleNet2014VGG192015ResNet1522016DenseNet2502012,GTX5802013,GTX780Ti2014,GTX9802015,GTX9802016,GTX1080第三次興起CNN,2012

GPU相對性能相對網絡深度

/1/533/533492.html人工智能應用的硬件要求圖靈機和馮?諾依曼體系結構HeadTape內存計算邏輯單元控制單元計算、存儲分離串行計算計算精度高單線程性能受限于所運行指令之間的數(shù)據(jù)依賴關系內存帶寬瓶頸片上功率密度上限現(xiàn)有AI計算芯片2014-2018硬件神經元高速存儲,高速互聯(lián)經典機器學習算法寒武紀2014-2017SP:流式處理器SM:流式多處理器SFU:特殊函數(shù)處理器英偉達GPU2014-2017基于算法優(yōu)化的FPGA神經網絡硬件加速器賽靈思深鑒科技2016-2018TPU脈沖陣列混合精度計算部件加速神經網絡推斷和訓練谷歌云TPU服務谷歌TPU一:大容量存儲和高密度計算ILSVRC’12:AlexNet8層/1.4G操作ILSVRC’15:ResNet34~152

層/~3.9G操作ILSVRC’14:VGG16~19層/~15.5G操作模型復雜度越來越高剪枝(Pruning)非結構化剪枝結構化剪枝盡可能減少權重數(shù)量極大減小存儲空間在AlexNet等網絡上壓縮10x以上剪枝同時維持結構化的存儲訪問減小存儲的同時提高運算速度達到3x左右的速度提升非0值0值無效訪問有效訪問結構化剪枝CNN:剪除部分通道,縮小卷積核,剪除整層(W.Wenetal.,2016)5.17倍加速低精度量化低精度量化最小化目標:概率正則化

a=b=0.5零偏差最大化偏差低精度神經網絡訓練參數(shù)服務器p'=p+Δp降低通信開銷DistBelief

by

Google三值量化降低通信開銷WeiWenetal.,CEINIPS,2017截取前截斷后三值量化最終結果降低訓練的通信開銷WeiWenetal.,CEINIPS,2017降低梯度的精度訓練加速保證網絡模型的精確性生產環(huán)境測試:128節(jié)點GPU集群;高速互連網絡……參數(shù)服務器計算節(jié)點TernGrad3x訓練加速,<2%精確性降低手勢識別醫(yī)療診斷自動駕駛目標定位機器翻譯語音識別二:面向特定領域的架構設計應用場景越來越豐富面向RNN的優(yōu)化CE隱藏CE輸出CE輸出CE輸出CE輸出多功能管理單元(TMU)數(shù)據(jù)重用內存效率內在并行數(shù)據(jù)模式轉換激活函數(shù)近似資源利用定制化PE設計可擴展性相比CPU平臺(IntelXeonE5-2630),性能提高16倍,能耗降低60.7倍面向LSTM的優(yōu)化藍色條帶:LSTM中的隱藏結構結構化稀疏LSTM中的隱藏結構下一層權重xhh

WeiWenetal.,CEIICLR,2018優(yōu)化后模型性能提升10.59倍面向GAN的優(yōu)化GANFanChenet.al,CEI,ASPDAC,2018相比于GPU平臺,性能提升240倍能效提升94倍三:“云-終端”平臺特點不同高安全性低能耗低延遲數(shù)據(jù)采集終端推理終端訓練海量數(shù)據(jù)存儲海量數(shù)據(jù)處理云端訓練及推斷高并行高帶寬高存儲高時延傳輸安全性移動平臺的神經網絡訓練分布式訓練架構傳輸優(yōu)化TernGrad1-BitQuantization梯度量化:并行性優(yōu)化針對不同手機計算能力的查找表移動平臺的神經網絡推斷卷積層優(yōu)化全連接層優(yōu)化卷積層計算量巨大全連接層參數(shù)巨大系統(tǒng)性能隨節(jié)點數(shù)呈線性提升MobileNets:EfficientConvolutionalNeuralNetworksforMobileVisionApplications

MoDNN:LocaldistributedmobilecomputingsystemforDeepNeuralNetwork四:芯片設計要求高,周期長,成本昂貴/verification-validation-testing-asicsoc-designs-differences/AI加速EDA設計片上系統(tǒng)印刷電路板PCB系統(tǒng)級封裝DARPA:24小時無人值守規(guī)則檢測熱點ZhiyaoXieetal.CEI,ICCAD18架構及工藝面臨挑戰(zhàn)摩爾定律放緩憶阻器(memristor)是一種被動電子元件,被認為是電路的第四種基本元件。憶阻器的特性與神經元突觸類似憶阻器單元“三明治”結構上電極金屬氧化層下電極矩陣乘運算新型器件—憶阻器交叉開關陣列HPlab,2012神經元突觸神經網絡憶阻器人工智能芯片20152016.022016.052016.102017.02Testkeys脈沖憶阻器700x700μm2脈沖憶阻器3152x3152μm2ML1SL1SL2TestML2BSBMCLF1LF2脈沖憶阻器2520x2520μm2脈沖憶阻器2520x2520μm2電壓憶阻器2847x2471μm2基于憶阻器的加速芯片CNN加速器圖加速器相比于GPU平臺,性能提升42.5倍能效提升7.17倍相比于GPU平臺,性能提升16.01倍能效提升33.82倍Linghaosonget.al,CEI,HPCA,2017Linghaosonget.al,CEI,HPCA,2018適應性(AD)性能(PE)功效(PO)可編程(PR)擴展性(SC)通用硬件平臺P.J.Fox,Tech.Report,2013Grafetal,NIPS,2009ASICMisraetal,Neurocomputing,2010可編程硬件Grafetal,NIPS,2009Misraetal,Neurocomputing,2010基于新型器件的可編程設計H.Li,HPEC,20104,DAC,2015NSFIUCRCASICCenterMembersincludefacultyacrossthreeresearchsites:YiranChenCenter/SiteDirectorHai"Helen"LiCenter/SiteCo-DirectorRobertCalderbankKrishChakrabartyXinLiMiroslavPajicChaoliWangPatrickJ.FlynnYiyuShiSiteDirectorSharonHuSiteCo-DirectorDannyChenWalterScheirerMichaelNiemierSiteCo-DirectorQinruQiuSiteDirectorYanzhiWangSiteCo-DirectorChilukuriMohanJaeOhVirPhohaPramodVashneySenemVelipasalarBeiYuBenjaminLeeCenter/SiteCo-DirectorIndustrypartners:TheAlterna

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論