智能計算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 第七章-深度學(xué)習(xí)處理器架構(gòu)_第1頁
智能計算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 第七章-深度學(xué)習(xí)處理器架構(gòu)_第2頁
智能計算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 第七章-深度學(xué)習(xí)處理器架構(gòu)_第3頁
智能計算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 第七章-深度學(xué)習(xí)處理器架構(gòu)_第4頁
智能計算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 第七章-深度學(xué)習(xí)處理器架構(gòu)_第5頁
已閱讀5頁,還剩144頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

智能計算系統(tǒng)

第七章

深度學(xué)習(xí)處理器架構(gòu)中國科學(xué)院計算技術(shù)研究所陳云霽研究員cyj@總體架構(gòu)計算訪存通信2計算三種計算單元矩陣向量標量3計算三種計算單元矩陣向量標量4TPUv4i計算單元Cambricon架構(gòu)Volta架構(gòu)“達芬奇”

架構(gòu)計算三種計算單元矩陣向量標量常見三種共存各司其職5TPUv4i計算單元Cambricon架構(gòu)Volta架構(gòu)“達芬奇”

架構(gòu)矩陣運算單元一種實現(xiàn):由內(nèi)積單元堆疊而成6×輸入(激活值)輸入(權(quán)值)輸出乘法器計算-I/O比例=1:3矩陣運算單元一種實現(xiàn):由內(nèi)積單元堆疊而成7×輸入(激活值)輸入(權(quán)值)輸出向量乘法器×計算-I/O比例=1:3矩陣運算單元一種實現(xiàn):由內(nèi)積單元堆疊而成8×輸入(激活值)輸入(權(quán)值)輸出向量內(nèi)積單元×+計算-I/O比例=3:5=1:1.6矩陣運算單元一種實現(xiàn):由內(nèi)積單元堆疊而成9×輸入(激活值)輸入(權(quán)值)輸出向量內(nèi)積單元×+××++計算-I/O比例=7:9=1:1.3矩陣運算單元多個內(nèi)積單元組成矩陣乘向量單元10輸入(激活值)輸入(權(quán)值1)輸出矩陣乘向量單元××+××++計算-I/O比例=1:1.3××+××++輸入(權(quán)值2)矩陣運算單元近端數(shù)據(jù)(權(quán)值)存儲在內(nèi)積單元附近的電路中采用小而快的存儲器11輸入(激活值)局部權(quán)值存儲(1)輸出矩陣乘向量單元××+××++計算-I/O比例=7:5=1:0.7××+××++局部權(quán)值存儲(2)局部權(quán)值存儲(1)××+××++局部權(quán)值存儲(2)矩陣運算單元所有內(nèi)積單元共享激活值,采用廣播12輸入(激活值)輸出矩陣乘向量單元計算-I/O比例=7:3=1:0.4××+××++輸入(激活值)矩陣運算單元整理示意圖13計算-I/O比例=1:0.4內(nèi)積單元內(nèi)積單元矩陣乘向量單元局部權(quán)值局部權(quán)值輸出輸入(激活值)矩陣運算單元增加內(nèi)積單元數(shù)量14輸出計算-I/O比例=7:2=1:0.3內(nèi)積單元內(nèi)積單元矩陣乘向量單元局部權(quán)值局部權(quán)值內(nèi)積單元局部權(quán)值內(nèi)積單元局部權(quán)值矩陣運算單元提出權(quán)值15輸出計算-I/O比例=28:24=1:0.9內(nèi)積單元內(nèi)積單元矩陣乘向量單元內(nèi)積單元內(nèi)積單元輸入(激活值)局部權(quán)值局部權(quán)值局部權(quán)值局部權(quán)值矩陣運算單元增加一組矩陣乘向量單元16輸出計算-I/O比例=1:0.9內(nèi)積單元內(nèi)積單元多個矩陣乘向量單元內(nèi)積單元內(nèi)積單元激活值局部權(quán)值局部權(quán)值局部權(quán)值局部權(quán)值內(nèi)積單元內(nèi)積單元內(nèi)積單元內(nèi)積單元激活值局部權(quán)值局部權(quán)值局部權(quán)值局部權(quán)值矩陣運算單元采用廣播共享權(quán)值17輸出計算-I/O比例=56:32=1:0.6內(nèi)積單元內(nèi)積單元矩陣乘矩陣單元內(nèi)積單元內(nèi)積單元激活值權(quán)值權(quán)值權(quán)值權(quán)值內(nèi)積單元內(nèi)積單元內(nèi)積單元內(nèi)積單元激活值矩陣運算單元擴大規(guī)模18輸出計算-I/O比例=112:48=1:0.4內(nèi)積內(nèi)積矩陣乘矩陣單元內(nèi)積內(nèi)積權(quán)值內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積激活值矩陣運算單元矩陣乘向量單元計算密度已經(jīng)較好矩陣乘矩陣單元優(yōu)勢:規(guī)模大時,理論上較好(第六章)困難:連線復(fù)雜,距離遠、扇出多規(guī)模不大時,未取得實際優(yōu)勢19計算-I/O比例=1:0.4計算-I/O比例=1:0.3矩陣運算單元如何完成矩陣運算?20×輸入(激活值)輸入(權(quán)值)向量內(nèi)積單元×+計算-I/O比例=3:5=1:1.6

輸出矩陣運算單元如何完成矩陣運算?21×輸入(激活值)輸入(權(quán)值)輸出向量內(nèi)積單元×+計算-I/O比例=1:1.6

矩陣運算單元如何完成矩陣運算?22

×輸入(激活值)輸入(權(quán)值)輸出向量內(nèi)積單元×+計算-I/O比例=1:1.6

矩陣運算單元如何完成矩陣運算?23

×輸入(激活值)輸入(權(quán)值)輸出向量內(nèi)積單元×+計算-I/O比例=1:1.6

矩陣運算單元如何完成矩陣運算?24

×輸入(激活值)輸入(權(quán)值)輸出向量內(nèi)積單元×+計算-I/O比例=1:1.6

矩陣運算單元如何完成矩陣運算?25×輸入(激活值)輸入(權(quán)值)輸出向量內(nèi)積單元×+計算-I/O比例=1:1.6

矩陣運算單元如何完成矩陣運算?26×輸入(激活值)輸入(權(quán)值)輸出向量內(nèi)積單元×+計算-I/O比例=1:1.6

矩陣運算單元如何完成矩陣運算?27×輸入(激活值)輸入(權(quán)值)輸出向量內(nèi)積單元×+計算-I/O比例=1:1.6

矩陣運算單元如何完成矩陣運算?28×輸入(激活值)輸入(權(quán)值)輸出向量內(nèi)積單元×+計算-I/O比例=1:1.6

矩陣運算單元如何完成矩陣運算?29計算-I/O比例=1:1

矩陣乘矩陣單元輸出內(nèi)積內(nèi)積內(nèi)積內(nèi)積激活值權(quán)值矩陣運算單元如何完成矩陣運算?30計算-I/O比例=1:1

內(nèi)積內(nèi)積激活值

矩陣乘矩陣單元

內(nèi)積內(nèi)積權(quán)值輸出矩陣運算單元如何完成矩陣運算?31計算-I/O比例=1:1

輸出內(nèi)積內(nèi)積內(nèi)積內(nèi)積激活值

矩陣乘矩陣單元權(quán)值

矩陣運算單元如何完成矩陣運算?32計算-I/O比例=1:1

輸出內(nèi)積內(nèi)積內(nèi)積內(nèi)積激活值

矩陣乘矩陣單元權(quán)值矩陣運算單元問題:連線距離遠、扇出多還有其他方式嗎?33脈動陣列機34輸入(激活值)輸入(權(quán)值)計算-I/O比例=?脈動陣列機如何完成矩陣運算?35輸入(激活值)輸入(權(quán)值)計算-I/O比例=?

脈動陣列機如何完成矩陣運算?36輸入(激活值)輸入(權(quán)值)計算-I/O比例=?

脈動陣列機如何完成矩陣運算?37輸入(激活值)輸入(權(quán)值)計算-I/O比例=?

脈動陣列機如何完成矩陣運算?38輸入(激活值)輸入(權(quán)值)計算-I/O比例=?

脈動陣列機如何完成矩陣運算?39輸入(激活值)輸入(權(quán)值)計算-I/O比例=?

脈動陣列機如何完成矩陣運算?40輸入(激活值)輸入(權(quán)值)計算-I/O比例=?

+脈動陣列機如何完成矩陣運算?41輸入(激活值)輸入(權(quán)值)計算-I/O比例=?

+脈動陣列機如何完成矩陣運算?42輸入(激活值)輸入(權(quán)值)計算-I/O比例=?

+

+

+

脈動陣列機如何完成矩陣運算?43輸入(激活值)輸入(權(quán)值)計算-I/O比例=?

+

+

+

脈動陣列機如何完成矩陣運算?44輸入(激活值)輸入(權(quán)值)計算-I/O比例=?

+

+

+

+

脈動陣列機如何完成矩陣運算?45輸入(激活值)輸入(權(quán)值)計算-I/O比例=?

+

+

+

+

脈動陣列機如何完成矩陣運算?46輸入(激活值)輸入(權(quán)值)計算-I/O比例=1:0.7

+

+

+

+輸出

脈動陣列機如何完成矩陣運算?47輸入(激活值)輸入(權(quán)值)計算-I/O比例=1:0.7

輸出

脈動陣列機如何完成矩陣運算?48輸入(激活值)輸入(權(quán)值)計算-I/O比例=1:0.7

輸出

脈動陣列機如何完成矩陣運算?49輸入(激活值)輸入(權(quán)值)計算-I/O比例=1:0.7

輸出

輸入(激活值)輸入(權(quán)值)輸出矩陣運算單元脈動陣列機vs矩陣乘矩陣單元優(yōu)勢:計算-I/O比例更高電路采用局部短連接扇出少困難:延遲高,需要等待啟動/排空專用性更強,高效支持矩乘、卷積,但很難改造為同時支持其他功能51計算-I/O比例=1:0.4計算-I/O比例=1:0.2歷史脈動陣列機(systolicarray)相似概念出現(xiàn)于二戰(zhàn)時期英國巨人計算機二型(ColossusMarkII,1944)用于破譯納粹德國軍事密文,長期處于保密狀態(tài),戰(zhàn)后被銷毀孔祥重、CharlesE.Leiserson于1978年發(fā)明多種結(jié)構(gòu),對應(yīng)多種算法分別用于矩乘、線性方程組求解、LU分解、最大公約數(shù)等52向量和標量單元主要功能:池化、歸一化Dropout、ReLU、Sigmoid、Softmax等特殊變換求最大/最小值、排序、計數(shù)、前綴求和等數(shù)據(jù)重排布53便箋存儲器寄存器堆運算單元池化/均一化如何完成池化?5401452367891213101114150145236789121310111415014523678912131011141501452367891213101114153711153711153711151.55.59.513.5池化/均一化如何完成池化?550145236789121310111415014523678912131011141501452367891213101114150145236789121310111415便箋存儲器000011114444555522223333…池化/均一化如何完成池化?560145236789121310111415014523678912131011141501452367891213101114150145236789121310111415便箋存儲器000011114444555522223333…池化/均一化如何完成池化?571452367891213101114150145236789121310111415014523678912131011141501452367891213101114150便箋存儲器000011114444555522223333…0000池化/均一化如何完成池化?580452367891213101114151045236789121310111415104523678912131011141510452367891213101114151便箋存儲器000011114444555522223333…1111池化/均一化如何完成池化?590145236789121310111415014523678912131011141501452367891213101114150145367891213101114152便箋存儲器000011114444555522223333…3333池化/均一化如何完成池化?600145236789121310111415014523678912131011141501452367891213101114150145267891213101114153便箋存儲器000011114444555522223333…6666池化/均一化如何完成池化?610145236789121310111415014523678912131011141501452367891213101114150145236789121310111415便箋存儲器000011114444555522223333…1.51.51.51.5池化/均一化如何完成池化?620145236789121310111415014523678912131011141501452367891213101114150145236789121310111415便箋存儲器000011114444555522223333…1.51.51.51.51.51.51.51.57111537111537111535.59.513.51.5池化/均一化如何完成池化?630152367891213101114154015236789121310111415401523678912131011141540152367891213101114154便箋存儲器000011114444555522223333…1.51.51.51.54444池化/均一化運算單元結(jié)構(gòu)6444445555池化/均一化運算單元結(jié)構(gòu)6544445555++++9999AA池化/均一化運算單元結(jié)構(gòu)6644445555++++9999MUX0AAMUX0AAMUX0AAMUX0AA池化/均一化運算單元結(jié)構(gòu)67151515157777++++22222222MUX0AAMUX0AAMUX0AAMUX0AA池化/均一化運算單元結(jié)構(gòu)68151515157777++++22MUX0AAMUX0AAMUX0AAMUX0×22×22×22×1/41/41/41/45.55.55.55.5AA池化/均一化支持AvgPool69151515157777++++22MUX0AAMUX0AAMUX0AAMUX0×22×22×22×1/41/41/41/45.55.55.55.5AA池化/均一化支持AvgPool、MaxPool、BatchNorm70

+/max+/max+/max+/maxMUX0AAMUX0AAMUX0AAMUX0××××

激活函數(shù)如何計算雙曲正切激活(tanh)?71

激活函數(shù)如何計算雙曲正切激活(tanh)?72

激活函數(shù)如何計算雙曲正切激活(tanh)?73

激活函數(shù)如何計算雙曲正切激活(tanh)?74

激活函數(shù)如何計算雙曲正切激活(tanh)?75

激活函數(shù)如何計算雙曲正切激活(tanh)?76

abs

×+

精確計算特殊函數(shù)分段線性插值在深度學(xué)習(xí)推理任務(wù)中,基本滿足需求如果需要精確計算,怎么辦?77精確計算特殊函數(shù)分段線性插值在深度學(xué)習(xí)推理任務(wù)中,基本滿足需求如果需要精確計算,怎么辦?可以采用硬件或軟件實現(xiàn):各函數(shù)的快速數(shù)值算法例如:Beame-Cook-Hoover快速倒數(shù)算法數(shù)值方法例如:牛頓迭代法78精確計算特殊函數(shù)分段線性插值在深度學(xué)習(xí)推理任務(wù)中,基本滿足需求如果需要精確計算,怎么辦?可以采用硬件或軟件實現(xiàn):各函數(shù)的快速數(shù)值算法例如:Beame-Cook-Hoover快速倒數(shù)算法數(shù)值方法例如:牛頓迭代法79分段插值/快速估計+數(shù)值方法例如:0x5f3759df算法+牛頓迭代法前綴計算

80

前綴計算實現(xiàn)很簡單。有高效的方式嗎?81前綴計算實現(xiàn)很簡單。有高效的方式嗎?82

前綴計算實現(xiàn)很簡單。有高效的方式嗎?83

前綴計算實現(xiàn)很簡單。有高效的方式嗎?84

前綴計算實現(xiàn)很簡單。有高效的方式嗎?85

前綴計算實現(xiàn)很簡單。有高效的方式嗎?86

前綴計算實現(xiàn)很簡單。有高效的方式嗎?87

前綴計算實現(xiàn)很簡單。有高效的方式嗎?88

前綴計算實現(xiàn)很簡單。有高效的方式嗎?89

前綴計算實現(xiàn)很簡單。有高效的方式嗎?90

前綴計算實現(xiàn)很簡單。有高效的方式嗎?91

數(shù)據(jù)重排布以向量為單位計算,很難使向量上不同位置的數(shù)據(jù)“相遇”因為便箋訪問是對齊的例子:如何計算4a+5c+6b+7d?92便箋存儲器012345

67…ab

cdefgh數(shù)據(jù)重排布以向量為單位計算,很難使向量上不同位置的數(shù)據(jù)“相遇”因為便箋訪問是對齊的例子:如何計算4a+5c+6b+7d?先交換b和c的位置93便箋存儲器012345

67…ab

cdefghac

bd數(shù)據(jù)重排布以向量為單位計算,很難使向量上不同位置的數(shù)據(jù)“相遇”因為便箋訪問是對齊的例子:如何計算4a+5c+6b+7d?先交換b和c的位置再進行內(nèi)積計算94便箋存儲器012345

67…ab

cdefghac

bd數(shù)據(jù)重排布以向量為單位計算,很難使向量上不同位置的數(shù)據(jù)“相遇”因為便箋訪問是對齊的例子:如何計算4a+5c+6b+7d?先交換b和c的位置可以用標量指令編程完成交換95便箋存儲器012345

67…ab

cdefghac

bd數(shù)據(jù)重排布以向量為單位計算,很難使向量上不同位置的數(shù)據(jù)“相遇”因為便箋訪問是對齊的例子:如何計算4a+5c+6b+7d?先交換b和c的位置可以用標量指令編程完成交換增加向量重排列功能,更高效!96便箋存儲器012345

67…ab

cdefghac

bd數(shù)據(jù)重排布使用排列網(wǎng)絡(luò)97X

數(shù)據(jù)重排布使用排列網(wǎng)絡(luò)98X

XXX

XXXX

數(shù)據(jù)重排布使用排列網(wǎng)絡(luò)99X

XXX

XXXX

Bene?網(wǎng)絡(luò)每兩線接入開關(guān)每兩線接入開關(guān)

數(shù)據(jù)重排布使用排列網(wǎng)絡(luò)100X

XXX

XXX

Waksman網(wǎng)絡(luò)每兩線接入開關(guān)每兩線接入開關(guān)省去第一個開關(guān)

計算小結(jié)矩陣運算單元可設(shè)計為矩陣乘向量單元、矩陣乘法單元、脈動陣列機等各有優(yōu)勢區(qū)間向量/標量運算單元增設(shè)累加寄存器,可以實現(xiàn)池化一組硬件可以同時支持多種功能采用分段線性近似可以計算特殊函數(shù)增設(shè)前綴計算、重排布等功能,有助于拓展通用性101總體架構(gòu)計算訪存通信102訪存訪問便箋存儲器訪問外部存儲器與計算的協(xié)同103便箋存儲器便箋存儲器大多采用SRAM實現(xiàn)連接矩陣運算單元(2R,1W)連接向量運算單元(2R,1W)連接標量寄存器(1RW)連接DMA/外存/其他核(1RW)...104便箋存儲器寄存器堆運算單元便箋存儲器便箋是DLP核當中的數(shù)據(jù)“樞紐”105便箋存儲器便箋是DLP核當中的數(shù)據(jù)“樞紐”106矩陣單元標量單元向量單元DMA便箋存儲器其他特殊功能單元便箋存儲器便箋是DLP核當中的數(shù)據(jù)“樞紐”107矩陣單元標量單元向量單元DMA便箋存儲器其他特殊功能單元便箋存儲器如何緩解擁堵?拓寬“道路”規(guī)劃“車流”108便箋存儲器109拓寬“道路”多端口SRAM增加一個端口,面積+50%~100%面積意味著成本、能耗、延時便箋存儲器110拓寬“道路”多端口SRAM增加一個端口,面積+50%~100%面積意味著成本、能耗、延時分組SRAM開關(guān)陣列面積~O(分組數(shù)量2)分組沖突(bankconflict)便箋存儲器規(guī)劃“車流”通用處理器中,采用哈佛結(jié)構(gòu)解決取指-取數(shù)據(jù)沖突深度學(xué)習(xí)處理器中的哈佛結(jié)構(gòu)?111原始馮·諾伊曼結(jié)構(gòu)哈佛結(jié)構(gòu)便箋存儲器規(guī)劃“車流”通用處理器中,采用哈佛結(jié)構(gòu)解決取指-取數(shù)據(jù)沖突深度學(xué)習(xí)處理器中的哈佛結(jié)構(gòu)?112原始馮·諾伊曼結(jié)構(gòu)哈佛結(jié)構(gòu)便箋存儲器DMA便箋存儲器規(guī)劃“車流”通用處理器中,采用哈佛結(jié)構(gòu)解決取指-取數(shù)據(jù)沖突分離式便箋存儲器(二分離/三分離/...)113原始馮·諾伊曼結(jié)構(gòu)哈佛結(jié)構(gòu)便箋存儲器DMA輸入神經(jīng)元存儲器DMA權(quán)重存儲器輸出神經(jīng)元存儲器分離式便箋存儲器按數(shù)據(jù)劃分神經(jīng)元/權(quán)值輸入神經(jīng)元/輸出神經(jīng)元/權(quán)值114輸入神經(jīng)元DMA權(quán)重輸出神經(jīng)元分離式便箋存儲器按數(shù)據(jù)劃分神經(jīng)元/權(quán)值輸入神經(jīng)元/輸出神經(jīng)元/權(quán)值按功能單元劃分向量/標量矩陣/向量/標量115輸入神經(jīng)元DMA權(quán)重輸出神經(jīng)元向量矩陣標量DMA分離式便箋存儲器按數(shù)據(jù)劃分神經(jīng)元/權(quán)值輸入神經(jīng)元/輸出神經(jīng)元/權(quán)值按功能單元劃分向量/標量矩陣/向量/標量按處理階段劃分輸入數(shù)據(jù)/累加器116輸入神經(jīng)元DMA權(quán)重輸出神經(jīng)元向量矩陣標量DMA輸入累加DMA分離式便箋存儲器對數(shù)據(jù)進行分流提高了處理效率對使用方式進行了約束(損失通用性)117輸入累加DMA分離式便箋存儲器對數(shù)據(jù)進行分流提高了處理效率對使用方式進行了約束(損失通用性)體系結(jié)構(gòu)設(shè)計人員的職責:尋找一組高效、合理的約束118輸入累加DMA外部存儲器訪問通用處理器的訪存持續(xù)數(shù)個周期訪存和計算爭用取指譯碼資源119IFREGEXMEMWBIFREGEXMEMWBIFREGEXMEMWBloadcomputestore時間指令1周期外部存儲器訪問處理大小為224×224×3的圖像通用處理器工作在內(nèi)存上需要執(zhí)行30萬條load/store指令120外部存儲器訪問處理大小為224×224×3的圖像通用處理器工作在內(nèi)存上需要執(zhí)行30萬條load/store指令深度學(xué)習(xí)處理器工作在便箋存儲器上1條load指令裝載一整塊圖像1條指令完成計算1條store指令送回內(nèi)存121直接內(nèi)存訪問(DMA)如何實現(xiàn)“1條load指令裝載一整塊圖像”?處理器控制:DMA控制:122loadrloadgloadbloadrloadgloadr~bDMADMADMA計算..計算..外部存儲器訪問深度學(xué)習(xí)處理器的訪存持續(xù)數(shù)百至數(shù)十萬個周期123DMAEXloadcomputestore時間指令DMA100~100000周期外部存儲器訪問深度學(xué)習(xí)處理器的訪存持續(xù)數(shù)百至數(shù)十萬個周期124DMAEXload 1compute 1store 1時間指令DMADMAEXload 2compute 2store 2DMA外部存儲器訪問深度學(xué)習(xí)處理器的訪存“軟件流水線”125DMAEX時間指令DMADMAEXDMAload 1compute 1store 1load 2compute 2store 2外部存儲器訪問深度學(xué)習(xí)處理器的訪存重新安排指令順序,簡化硬件126時間指令DMAload 1EXcompute 1DMAstore 1DMAload 2EXcompute 2DMAstore 2外部存儲器訪問深度學(xué)習(xí)處理器的訪存重新安排指令順序,簡化硬件顯式控制同步,簡化硬件127時間指令DMAload 1EXcompute 1DMAstore 1DMAload 2EXcompute 2DMAstore 2syncsyncsync軟件流水線如何實現(xiàn)同步指令(sync)?簡化硬件模型描述:計算模塊:隨時執(zhí)行收到的指令DMA模塊:隨時執(zhí)行收到的指令指令發(fā)射模塊:計算指令發(fā)射到計算模塊訪存指令發(fā)射到DMA模塊遇到sync時:阻塞,直到整個處理器空閑下來,再發(fā)射新的指令128EXDMA指令發(fā)射軟件流水線129load 1syncload 2compute 1syncstore 1compute 2load 3syncstore 2compute 3load 4syncstore 3compute 4load 5syncstore 4compute 5load 6syncstore 5compute 6syncstore 6DMAEXDMAEXDMADMAEXDMADMAEXDMADMAEXDMADMAEXDMADMA訪存小結(jié)便箋存儲器是DLP核心的數(shù)據(jù)樞紐訪問便箋可能成為瓶頸“拓寬道路”:增加端口、設(shè)計為分組SRAM代價:硬件開銷增加“規(guī)劃車流”:根據(jù)算法特征,采用分離式設(shè)計代

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論