人工智能芯片設(shè)計(jì)第7章-人工智能芯片架構(gòu)設(shè)計(jì)

上傳人：h*** IP屬地：山東上傳時(shí)間：2024-10-15 格式：PPTX 頁數(shù)：62 大?。?.36MB 積分：15 舉報(bào) 版權(quán)申訴

人工智能芯片設(shè)計(jì)第7章-人工智能芯片架構(gòu)設(shè)計(jì)_第2頁

人工智能芯片設(shè)計(jì)第7章-人工智能芯片架構(gòu)設(shè)計(jì)_第3頁

人工智能芯片設(shè)計(jì)第7章-人工智能芯片架構(gòu)設(shè)計(jì)_第4頁

人工智能芯片設(shè)計(jì)第7章-人工智能芯片架構(gòu)設(shè)計(jì)_第5頁

已閱讀5頁，還剩57頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第七章：人工智能芯片架構(gòu)設(shè)計(jì)人工智能芯片設(shè)計(jì)ArtificialIntelligenceChipDesign7.1卷積神經(jīng)網(wǎng)絡(luò)加速器整體設(shè)計(jì)2ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign內(nèi)容介紹

本章中的卷積神經(jīng)網(wǎng)絡(luò)硬件加速器針對卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用——推理過程進(jìn)行硬件加速實(shí)現(xiàn)，對于給定的輸入圖像信息，加速器利用已訓(xùn)練好的網(wǎng)絡(luò)模型對其進(jìn)行處理。即本章的硬件加速器僅涉及卷積神經(jīng)網(wǎng)絡(luò)的前向傳播過程，而不包含反向傳播過程。鑒于VGGNet系列網(wǎng)絡(luò)模型在實(shí)際工程中應(yīng)用較為廣泛，且本身結(jié)構(gòu)統(tǒng)一具有代表性，本章主要針對VGGNet設(shè)計(jì)硬件加速架構(gòu)。7.1.1加速器設(shè)計(jì)分析3ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign為什么需要硬件加速器？

卷積神經(jīng)網(wǎng)絡(luò)（CNN）是計(jì)算密集型模型，需要高效的計(jì)算支持。傳統(tǒng)CPU和GPU在能耗和并行計(jì)算能力上存在局限。硬件加速器通過優(yōu)化存儲(chǔ)管理和運(yùn)算單元，實(shí)現(xiàn)超高效能和計(jì)算速度。CPU與GPU在CNN計(jì)算上的局限性CPU適用于串行任務(wù)處理，不足以支撐大規(guī)模并行卷積計(jì)算。GPU雖然并行度高，但功耗大，不適合移動(dòng)設(shè)備等低功耗環(huán)境。7.1.1加速器設(shè)計(jì)分析4ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

為何選擇FPGA？FPGA具有高能量效率和可重配置的優(yōu)點(diǎn)。適合于能耗敏感和成本控制嚴(yán)格的應(yīng)用場景。靈活性高，適合快速開發(fā)和市場適應(yīng)。FPGA部署CNN的挑戰(zhàn)復(fù)雜的浮點(diǎn)運(yùn)算需求。高數(shù)據(jù)傳輸量對帶寬的挑戰(zhàn)。7.1.1加速器設(shè)計(jì)分析5ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積神經(jīng)網(wǎng)絡(luò)加速器的設(shè)計(jì)優(yōu)化并行計(jì)算：提升輸入通道間、輸出通道間和像素間的并行度。數(shù)據(jù)交互：設(shè)計(jì)高效的存儲(chǔ)管理單元，減少數(shù)據(jù)讀寫次數(shù)，提高數(shù)據(jù)利用效率。運(yùn)算與存儲(chǔ)協(xié)同：優(yōu)化數(shù)據(jù)傳輸與計(jì)算的協(xié)同效率，減少等待時(shí)間。7.1.1加速器設(shè)計(jì)分析6ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

使用Roofline模型分析性能Roofline模型建立了系統(tǒng)性能與片外存儲(chǔ)流量以及硬件平臺(tái)所能提供的帶寬和計(jì)算峰值間的聯(lián)系，如圖7-1所示。圖7-1Roofline模型通過提高數(shù)據(jù)利用率和優(yōu)化計(jì)算與傳輸比率能夠顯著提升系統(tǒng)吞吐量。7.1.1加速器設(shè)計(jì)分析7ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

VGGNet16-D網(wǎng)絡(luò)模型介紹

由多個(gè)卷積層和寬卷積層組成，優(yōu)于特征提取。應(yīng)用于圖像識別和其他視覺任務(wù)。層名特征圖尺寸卷積核尺寸輸入通道輸出通道稀疏化比例參數(shù)量Conv1_1224336411728Conv1_2224364647.694905Conv2_11123641284.3516974Conv2_211231281285.2627612Conv33568004Conv3_25632562567.1484933Conv3_35632562566.2595319Conv4_12832565124.35273051Conv4_22835125126.25388242Conv4_32835125125.26456363Conv5_11435125122.38989901Conv5_21435125122.171095804Conv5_31435125122.44967671Fc6--2508840968.3312241300Fc7--409640964.543605500Fc8--4096100014096000表7-1VGGNet16-D稀疏化后各層特征參數(shù)表7.1.1加速器設(shè)計(jì)分析8ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

存儲(chǔ)挑戰(zhàn)分析與策略

存儲(chǔ)挑戰(zhàn)：Conv1_2層：數(shù)據(jù)量最大的卷積層，大多數(shù)硬件平臺(tái)無法滿足其高存儲(chǔ)需求。優(yōu)化策略：圖7-2表示輸出特征圖上一點(diǎn)像素的計(jì)算，計(jì)算數(shù)據(jù)僅與周圍像素點(diǎn)數(shù)據(jù)相關(guān)，因此可將特征圖劃分為獨(dú)立的圖像塊，每塊包括邊緣像素，減少對周圍數(shù)據(jù)的依賴。實(shí)際應(yīng)用：所有特征圖劃分為統(tǒng)一尺寸的像素塊，適應(yīng)不同卷積層的特征圖尺寸。減少了復(fù)雜的控制過程，滿足大多數(shù)硬件設(shè)備的處理能力。圖7-2卷積窗在特征圖上卷積7.1.1加速器設(shè)計(jì)分析9ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

計(jì)算流水線設(shè)計(jì)優(yōu)化計(jì)算流程的挑戰(zhàn)：卷積層與全連接層不能并行計(jì)算，需順序執(zhí)行；復(fù)雜的依賴關(guān)系增加了計(jì)算邏輯時(shí)間，影響整體效率。流水線的優(yōu)勢：流水線可以提升卷積和全連接計(jì)算單元的效率；同時(shí)處理相關(guān)計(jì)算任務(wù)，減少空閑時(shí)間。圖7-3系統(tǒng)級流水示意圖

如圖7-3為本文設(shè)計(jì)的兩級計(jì)算流水結(jié)構(gòu)。這種方式下，首先有利于提高卷積的計(jì)算單元和全連接的計(jì)算單元的計(jì)算效率；并且在卷積運(yùn)算進(jìn)行計(jì)算時(shí)，全連接的計(jì)算單元也在進(jìn)行相關(guān)的計(jì)算任務(wù)。7.1.2加速器系統(tǒng)架構(gòu)10ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

加速器系統(tǒng)架構(gòu)如圖7-4所示，圖中紅色線條代表控制信號通路，黑色線條代表數(shù)據(jù)信號通路，整個(gè)系統(tǒng)從功能上主要分為系統(tǒng)控制、卷積和全連接計(jì)算、和存儲(chǔ)管理三大模塊。圖7-4加速器系統(tǒng)架構(gòu)7.1.2加速器系統(tǒng)架構(gòu)11ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

計(jì)算模塊

卷積引擎(CE)：處理卷積層，包含多個(gè)并行的處理單元陣列(PEA)。

全連接引擎(FCE)：處理全連接層，配置一個(gè)PEA。

存儲(chǔ)管理模塊

PCIe接口：連接計(jì)算機(jī)主機(jī)與加速器，負(fù)責(zé)數(shù)據(jù)交互。直接與PCIe交互的是片外存儲(chǔ)DDR。

片上緩存單元：暫存所需特征圖和權(quán)值數(shù)據(jù)。包括輸入緩存（CIB）、輸出緩存（COB）、權(quán)值

緩存和全連接緩存（FCB）。

系統(tǒng)控制模塊

CNN控制器：調(diào)度計(jì)算單元和存儲(chǔ)管理單元工作；控制系統(tǒng)流水和并行處理的時(shí)序。7.1.3硬件架構(gòu)運(yùn)行機(jī)理12ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

系統(tǒng)初始化與數(shù)據(jù)傳輸

主機(jī)端以Batch方式向FPGA傳輸圖像和VGGNet-16權(quán)值。圖像和權(quán)值數(shù)據(jù)存儲(chǔ)在DDR3中。

計(jì)算控制啟動(dòng)加速器啟動(dòng)后，CNN控制單元接管操作。數(shù)據(jù)交互單元（DEU）從DDR3載入輸入圖像和參數(shù)到內(nèi)存陣列MMA。

卷積計(jì)算過程卷積計(jì)算引擎（CE）啟動(dòng)，處理輸入數(shù)據(jù)。輸出數(shù)據(jù)存儲(chǔ)在MMA，進(jìn)行ReLU操作后寫回DDR3。13ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

流水線操作與全連接計(jì)算

卷積結(jié)果形成讀取-卷積-寫出的流水線操作。

全連接計(jì)算完全在片上RAM進(jìn)行，減少數(shù)據(jù)交互。

四級流水線結(jié)構(gòu)

整體結(jié)構(gòu)包括讀取數(shù)據(jù)、卷積計(jì)算、寫出數(shù)據(jù)和

全連接計(jì)算的四級流水。

廣義流水架構(gòu)提高時(shí)序協(xié)調(diào)性和計(jì)算效率。

圖7-5頂層流水線示意圖7.1.3硬件架構(gòu)運(yùn)行機(jī)理7.2

加速器系統(tǒng)控制策略14ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign7.2.1基于循環(huán)分塊的卷積運(yùn)算策略15ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign卷積層占據(jù)了整個(gè)卷積神經(jīng)網(wǎng)絡(luò)99%以上的計(jì)算量，因此針對卷積層運(yùn)算的系統(tǒng)控制設(shè)計(jì)是CNN加速器設(shè)計(jì)的重點(diǎn)內(nèi)容，本章針對卷積層提出一種基于循環(huán)分塊的并行和流水運(yùn)行策略，其偽代碼如算法7-1所示。

循環(huán)分塊機(jī)制由于FPGA片上存儲(chǔ)限制，特征圖被分割為多個(gè)小區(qū)域（tiles）。Tiles基于VGGNet特征圖尺寸設(shè)計(jì)，以實(shí)現(xiàn)高效的并行處理。

并行與流水線操作使用雙端口RAM設(shè)計(jì)的輸入緩存單元（CIB）。并行處理64個(gè)PEA進(jìn)行卷積運(yùn)算，提高數(shù)據(jù)預(yù)讀取效率。7.2.1基于循環(huán)分塊的卷積運(yùn)算策略16ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign輸入與輸出特征圖優(yōu)先模式

輸出特征圖優(yōu)先模式：多個(gè)輸入特征圖并行處理，以快速生成輸出特征圖。輸入特征圖優(yōu)先模式：優(yōu)化帶寬需求，減少數(shù)據(jù)讀取次數(shù)，提高計(jì)算效率。

優(yōu)化結(jié)果與成本

輸入特征圖優(yōu)先模式在帶寬和功耗上表現(xiàn)優(yōu)異。需要更多片上緩存資源來存儲(chǔ)中間計(jì)算結(jié)果圖7-6輸入、輸出特征圖優(yōu)先卷積計(jì)算7.2.2存算并行與流水控制17ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign并行計(jì)算概述卷積神經(jīng)網(wǎng)絡(luò)中的三種并行運(yùn)算方式：輸出通道間并行、輸入通道間并行和卷積核內(nèi)部并行。并行計(jì)算挑戰(zhàn)：FPGA的帶寬和存儲(chǔ)器空間限制是實(shí)現(xiàn)并行計(jì)算的主要障礙；高效的硬件加速器設(shè)計(jì)需要平衡帶寬和計(jì)算并行度。優(yōu)化策略：

數(shù)據(jù)預(yù)讀?。和ㄟ^預(yù)讀取數(shù)據(jù)到片上緩存，減少運(yùn)行時(shí)的帶寬需求。

數(shù)據(jù)重復(fù)利用：有效管理數(shù)據(jù)流，減少對外部存儲(chǔ)的頻繁訪問。7.2.2存算并行與流水控制18ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign并行計(jì)算實(shí)現(xiàn)與流水線控制實(shí)現(xiàn)的并行計(jì)算卷積核內(nèi)部并行：在處理元素陣列（PEA）內(nèi)部實(shí)現(xiàn)，加速單個(gè)特征圖的處理。輸入通道間并行：多個(gè)輸入通道的數(shù)據(jù)同時(shí)處理，提高整體計(jì)算效率。流水線操作主要流程：數(shù)據(jù)讀取、卷積運(yùn)算、寫出輸出特征圖。存算并行控制：優(yōu)化數(shù)據(jù)流，實(shí)現(xiàn)數(shù)據(jù)預(yù)讀取與卷積運(yùn)算的并行執(zhí)行。圖7-7卷積層存算并行與流水控制7.2.2存算并行與流水控制19ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign全連接層流水結(jié)構(gòu)三級流水結(jié)構(gòu)：讀取數(shù)據(jù)、計(jì)算、寫出數(shù)據(jù)。構(gòu)造卷積-全連接四級流水結(jié)構(gòu)：讀取數(shù)據(jù)、卷積運(yùn)算、寫出數(shù)據(jù)、全連接運(yùn)算。

流水線效率優(yōu)化時(shí)序協(xié)調(diào)：優(yōu)化各模塊的工作協(xié)同，減少處理延遲。效率提升：通過精確控制數(shù)據(jù)流向和處理時(shí)間，提高整體系統(tǒng)性能圖7-8

卷積-全連接流水結(jié)構(gòu)7.3卷積層加速器設(shè)計(jì)20ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign7.3.1卷積加速器整體設(shè)計(jì)21ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign圖7-9

卷積計(jì)算單元結(jié)構(gòu)框圖卷積層加速器的重要性與設(shè)計(jì)概述卷積層是CNN中最重要的層，貢獻(xiàn)最大的計(jì)算量。稀疏化的目標(biāo)：通過卷積核級別的稀疏化減少計(jì)算

量，同時(shí)盡量保持識別精度。設(shè)計(jì)需求：稀疏化后的結(jié)構(gòu)不完整性要求特別設(shè)計(jì)

加速計(jì)算單元。

卷積計(jì)算單元結(jié)構(gòu)卷積計(jì)算單元主要包括輸入特征圖緩存、輸出部分

和緩存、多并行引擎、參數(shù)緩存、片上計(jì)算寄存器緩存等。7.3.2

混合計(jì)算分析22ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign圖7-10浮點(diǎn)數(shù)據(jù)塊浮點(diǎn)化混合計(jì)算分析概述計(jì)算挑戰(zhàn)：傳統(tǒng)32位浮點(diǎn)數(shù)計(jì)算復(fù)雜，消耗大量邏輯資源和時(shí)間，限制了計(jì)算效率。量化策略：目前主流的量化是使用16比特浮點(diǎn)數(shù)和低比特的定點(diǎn)數(shù)，以提高計(jì)算速度。塊浮點(diǎn)介紹：塊浮點(diǎn)的數(shù)據(jù)形式是一種浮點(diǎn)數(shù)據(jù)表示形式，不過是針對一個(gè)完整的數(shù)據(jù)塊而言的。在使用塊浮點(diǎn)時(shí)，首先是整個(gè)數(shù)據(jù)塊共有的一個(gè)指數(shù)位，這個(gè)指數(shù)位數(shù)值上取原始數(shù)據(jù)塊浮點(diǎn)表達(dá)中指數(shù)位最大的數(shù)值。而對于每個(gè)單獨(dú)的數(shù)據(jù)，則有各自單獨(dú)的符號位和尾數(shù)位，這樣表示的數(shù)據(jù)實(shí)際以定點(diǎn)數(shù)的形式存儲(chǔ)，如圖7-10所示。7.3.2

混合計(jì)算分析23ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign塊浮點(diǎn)數(shù)據(jù)的結(jié)構(gòu)和優(yōu)勢數(shù)據(jù)結(jié)構(gòu)：塊浮點(diǎn)數(shù)據(jù)包括共享的指數(shù)位和每個(gè)數(shù)據(jù)的符號位與尾數(shù)位。存儲(chǔ)與計(jì)算：塊浮點(diǎn)數(shù)據(jù)實(shí)際以定點(diǎn)數(shù)形式存儲(chǔ)，減少存儲(chǔ)需求和提高計(jì)算速度。數(shù)據(jù)劃分：將輸入特征圖像和卷積參數(shù)劃分為數(shù)據(jù)塊，共用一個(gè)指數(shù)位，減少量化誤差?；旌嫌?jì)算策略的實(shí)施計(jì)算過程：卷積核內(nèi)部采用塊浮點(diǎn)計(jì)算，部分和累加時(shí)采用16比特浮點(diǎn)計(jì)算。效率與精度：塊浮點(diǎn)計(jì)算簡化了計(jì)算過程，同時(shí)16比特浮點(diǎn)計(jì)算保證了累加精度。存儲(chǔ)需求降低：轉(zhuǎn)換成16比特浮點(diǎn)數(shù)后存儲(chǔ)部分和，降低了存儲(chǔ)需求。7.3.3

混合算術(shù)卷積引擎設(shè)計(jì)24ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign混合算術(shù)卷積引擎概述卷積引擎目標(biāo)：針對VGGNet16-D網(wǎng)絡(luò)進(jìn)行硬件加速器設(shè)計(jì)。計(jì)算方式：通過卷積窗在圖像塊上滑動(dòng)完成卷積操作，優(yōu)化輸入像素重疊處理。設(shè)計(jì)重點(diǎn)：實(shí)現(xiàn)輸入特征圖的復(fù)用和塊浮點(diǎn)計(jì)算的集成。圖7-11卷積窗在像素塊上卷積7.3.3

混合算術(shù)卷積引擎設(shè)計(jì)25ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign多級乘加器（MMAC）結(jié)構(gòu)與卷積計(jì)算MMAC功能：完成數(shù)據(jù)的乘加任務(wù)，提高卷積計(jì)算效率。計(jì)算過程：從輸入數(shù)據(jù)緩存中導(dǎo)入數(shù)據(jù)到MMAC，并進(jìn)行多級乘加運(yùn)算。累加與轉(zhuǎn)化：對計(jì)算后的數(shù)據(jù)進(jìn)行累加，并轉(zhuǎn)化為16比特浮點(diǎn)數(shù)據(jù)。圖7-12混合算術(shù)卷積引擎結(jié)構(gòu)7.3.3

混合算術(shù)卷積引擎設(shè)計(jì)26ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign解決稀疏化引起的挑戰(zhàn)：稀疏化的影響：

稀疏化處理增加了卷積引擎之間的結(jié)果不確定性。

稀疏化后的卷積引擎結(jié)果在數(shù)據(jù)通道上顯示不完整，難以實(shí)時(shí)訪問共享緩存。解決策略：

采用片上寄存器存儲(chǔ)方式，優(yōu)化數(shù)據(jù)存取和減少?zèng)_突。

輸出的部分和結(jié)果被細(xì)分為四個(gè)獨(dú)立的像素塊存儲(chǔ)，每塊需求一定位寬。技術(shù)細(xì)節(jié)

每個(gè)寄存器緩存陣列設(shè)計(jì)為足夠的比特寬度，保證數(shù)據(jù)處理需求。

存儲(chǔ)操作僅需1個(gè)時(shí)鐘周期，極大優(yōu)化整體計(jì)算時(shí)間消耗。

實(shí)現(xiàn)卷積引擎對部分和緩存的輪流訪問，有效避免沖突。7.3.4

片上存儲(chǔ)系統(tǒng)設(shè)計(jì)27ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign輸出部分和緩存結(jié)構(gòu)設(shè)計(jì)：輸出部分和緩存分成四塊，增加數(shù)據(jù)訪問速度。使用雙端口BRAM，實(shí)現(xiàn)高效的讀寫分離。輸出部分和緩存的寬度設(shè)計(jì)，確?？焖僭L問和數(shù)據(jù)整合。圖7-13輸出部分和緩存方案

片上存儲(chǔ)系統(tǒng)是卷積神經(jīng)網(wǎng)絡(luò)加速器中重要部分之一。存儲(chǔ)訪問效率也是卷積神經(jīng)網(wǎng)絡(luò)加速器的計(jì)算效率重要影響因素。本節(jié)主要針對性的設(shè)計(jì)了稀疏化神經(jīng)網(wǎng)絡(luò)加速器片上部分和緩存和稀疏化卷積核緩存系統(tǒng)。7.3.4

片上存儲(chǔ)系統(tǒng)設(shè)計(jì)28ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign卷積參數(shù)存儲(chǔ)優(yōu)化采取稀疏化方法優(yōu)化參數(shù)存儲(chǔ)，削減空閑存儲(chǔ)空間。利用壓縮存儲(chǔ)技術(shù)（CSC和CSR），提高存儲(chǔ)效率。將剩余的卷積核參數(shù)重新排列，減少訪問次數(shù)和功耗。圖7-14卷積核存儲(chǔ)方案7.3.5

稀疏化卷積計(jì)算調(diào)度系統(tǒng)29ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign（1）卷積層加速器控制流程狀態(tài)控制與數(shù)據(jù)流程狀態(tài)機(jī)控制輸入數(shù)據(jù)讀取、參數(shù)加載、卷積開始和輸

出數(shù)據(jù)寫出。優(yōu)化數(shù)據(jù)流，減少等待時(shí)間，使計(jì)算過程更高效。數(shù)據(jù)與參數(shù)管理策略在卷積計(jì)算期間邊計(jì)算邊讀取數(shù)據(jù)和參數(shù)，避免計(jì)算停滯。一旦完成所有參數(shù)和數(shù)據(jù)加載，直接啟動(dòng)卷積計(jì)算。卷積層計(jì)算完成后，將結(jié)果直接寫入全連接層的緩存或

DDR，為下一步計(jì)算準(zhǔn)備。圖7-15卷積層加速器的整體流程7.3.5

稀疏化卷積計(jì)算調(diào)度系統(tǒng)30ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign（2）卷積引擎控制方式原始控制方案按序加載卷積引擎中的數(shù)據(jù)，按需計(jì)算。控制器指導(dǎo)卷積窗移動(dòng)進(jìn)行卷積運(yùn)算?，F(xiàn)有方案導(dǎo)致高并行計(jì)算時(shí)效率低下，數(shù)據(jù)等待

時(shí)間長。優(yōu)化控制方案新方案在數(shù)據(jù)加載后立即啟動(dòng)計(jì)算，減少等待。優(yōu)化數(shù)據(jù)加載，每個(gè)卷積引擎加載后立即計(jì)算，

減少空閑時(shí)間。圖7-16原始卷積引擎計(jì)算和數(shù)據(jù)加載控制方案圖7-17優(yōu)化卷積引擎計(jì)算和數(shù)據(jù)加載控制方案7.4全連接層加速器設(shè)計(jì)31ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign7.4.1

全連接層存儲(chǔ)方案32ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign雙緩存設(shè)計(jì)為防止計(jì)算過程中覆蓋輸入神經(jīng)元數(shù)據(jù)，采用雙緩存設(shè)計(jì)。利用兵乓讀取控制方式，優(yōu)化輸入輸出數(shù)據(jù)的交替訪問，減少位置置換。計(jì)算效率提升策略緩存主要用于存儲(chǔ)從DDR中讀取的參數(shù)數(shù)據(jù)，確保全連接計(jì)算過程中快速獲取參數(shù)。乒乓讀取方式減少數(shù)據(jù)加載對計(jì)算效率的影響。圖7-18雙緩存與乒乓讀取訪問7.4.2計(jì)算單元設(shè)計(jì)33ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign稀疏化參數(shù)存儲(chǔ)與訪問稀疏化參數(shù)與對應(yīng)輸入神經(jīng)元一同存儲(chǔ)。使用標(biāo)志位表示這個(gè)參數(shù)是否參與特定輸出通道的計(jì)算。輸入神經(jīng)元數(shù)據(jù)管理設(shè)計(jì)FIFO緩存結(jié)構(gòu)，保證輸入神經(jīng)元數(shù)據(jù)與參數(shù)位置對應(yīng)。神經(jīng)元數(shù)據(jù)按輸出通道需求加載到FIFO中，實(shí)現(xiàn)有序的乘加操作。參數(shù)與數(shù)據(jù)同步參數(shù)存儲(chǔ)于片外緩存，相應(yīng)的FIFO緩存結(jié)構(gòu)存儲(chǔ)匹配的參數(shù)數(shù)據(jù)。確保計(jì)算中參數(shù)和神經(jīng)元數(shù)據(jù)精準(zhǔn)對應(yīng)，提高計(jì)算效率。圖7-19全連接計(jì)算單元結(jié)構(gòu)7.5存儲(chǔ)管理單元34ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign7.5存儲(chǔ)管理單元35ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign高效存儲(chǔ)管理單元目的：高效的存儲(chǔ)管理單元設(shè)計(jì)能夠提高片上數(shù)據(jù)利用率；提升數(shù)據(jù)交互效率；降低系統(tǒng)帶寬需求數(shù)據(jù)傳輸與系統(tǒng)瓶頸：由于計(jì)算單元必須要在數(shù)據(jù)到來之后才能開始工作，盡管本章采取了一系列乒乓緩存和數(shù)據(jù)預(yù)讀取機(jī)制，并結(jié)合卷積流水線操作來消除數(shù)據(jù)等待的延遲，但是數(shù)據(jù)傳輸仍是制約加速器吞吐量的關(guān)鍵所在。存儲(chǔ)管理單元組成：片外存儲(chǔ)：DDR；片上緩存：包括卷積層和全連接層緩存區(qū)。系統(tǒng)功耗考量：來自片外存儲(chǔ)DDR和片上緩存RAM以及寄存器狀態(tài)翻轉(zhuǎn)的功耗；頻繁數(shù)據(jù)讀寫增加系統(tǒng)功耗；需優(yōu)化特征圖和權(quán)值的組織方式以提升數(shù)據(jù)傳輸效率。7.5.1存儲(chǔ)管理單元的重要性36ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign高效存儲(chǔ)管理單元的重要性對功耗的影響功耗估算：基于寄存器的反轉(zhuǎn)次數(shù)。寄存器填充的能量消耗，取決于存儲(chǔ)區(qū)域大小和寄存器數(shù)量。內(nèi)存填充方式和尋址邏輯影響功耗。對計(jì)算速度的影響高效的內(nèi)存管理可以最大化數(shù)據(jù)利用率，減少讀取次數(shù)。降低時(shí)序空閑。數(shù)據(jù)讀取與卷積計(jì)算的流水線操作減少等待周期?？傮w計(jì)算速度受限于外部存儲(chǔ)的I/O帶寬和讀寫操作。圖7-20

數(shù)據(jù)讀取對計(jì)算速度的影響圖7-20

數(shù)據(jù)讀寫對計(jì)算速度的影響7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)37ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

存儲(chǔ)單元概述存儲(chǔ)管理單元的設(shè)計(jì)關(guān)鍵在于高效的內(nèi)存組織和快速訪問能力。主要包括輸入緩存區(qū)、輸出緩存區(qū)、權(quán)值緩存區(qū)、偏置緩存區(qū)和預(yù)讀取緩存區(qū)。具體緩存配置輸入緩存區(qū)：2個(gè)大小的寄存器組。輸出緩存區(qū)：16個(gè)大小的寄存器組。權(quán)值緩存區(qū)：2個(gè)大小的寄存器組。偏置緩存區(qū)：512個(gè)寄存器組。預(yù)讀取緩存區(qū)：側(cè)邊緩沖區(qū)和頂部預(yù)讀取區(qū)，分別由寄存器組成。圖7-21片上緩存結(jié)構(gòu)7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)38ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

卷積操作和輸入緩存卷積操作基于塊執(zhí)行，稱為輸入緩存。卷積周期對應(yīng)一個(gè)核心區(qū)域塊的大小。

像素補(bǔ)齊和緩存大小在塊邊緣進(jìn)行卷積需要進(jìn)行像素補(bǔ)齊。輸入緩存大小調(diào)整以適應(yīng)邊緣像素補(bǔ)齊需求。

存儲(chǔ)單位和數(shù)據(jù)連續(xù)性輸入特征圖以存儲(chǔ)，保證數(shù)據(jù)在外部存儲(chǔ)DDR3中地址連續(xù)性。提高DDR3的數(shù)據(jù)讀取速度。圖7-23卷積塊操作示意圖7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)39ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

數(shù)據(jù)存儲(chǔ)方式特征圖數(shù)據(jù)在DDR3中以單元存儲(chǔ)，地址連續(xù)。采用Z字形卷積方式，行優(yōu)先完成數(shù)據(jù)卷積。邊緣像素讀取問題邊緣像素從非連續(xù)存儲(chǔ)區(qū)域讀取，增加低效數(shù)據(jù)交互。讀取數(shù)據(jù)和卷積計(jì)算的流水線操作效率問題。緩存設(shè)計(jì)方案數(shù)據(jù)預(yù)讀取機(jī)制：減少外部存儲(chǔ)數(shù)據(jù)交互。乒乓緩存機(jī)制：提高架構(gòu)流水線效率。輸入特征圖優(yōu)先機(jī)制：最大化利用讀入到片上內(nèi)存的數(shù)據(jù)。圖7-24DDR3內(nèi)存組織結(jié)構(gòu)7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)40ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

數(shù)據(jù)預(yù)讀取機(jī)制目的：減少卷積計(jì)算之間的等待時(shí)間，提高數(shù)據(jù)讀取效率；預(yù)防重復(fù)讀取邊緣數(shù)據(jù)，邊緣數(shù)據(jù)在DDR3中存儲(chǔ)非連

續(xù)，讀取耗時(shí)較長。預(yù)讀取操作：在讀取當(dāng)前輸入緩存區(qū)的同時(shí)，額外讀取相鄰的邊緣數(shù)據(jù)。左側(cè)邊緣數(shù)據(jù)（陰影部分）和下方數(shù)據(jù)（黃色部分）同時(shí)預(yù)

讀取。圖7-25緩存更新示意圖7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)41ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

數(shù)據(jù)預(yù)讀取機(jī)制緩存更新和數(shù)據(jù)填充預(yù)讀取數(shù)據(jù)立即更新至側(cè)邊和頂部預(yù)讀取緩存區(qū)；下一個(gè)卷積周期使用時(shí)，直接從預(yù)讀取緩存填充，避免外部存儲(chǔ)重讀。預(yù)讀取緩存區(qū)側(cè)部：存儲(chǔ)當(dāng)前輸入緩存區(qū)左側(cè)的8列數(shù)據(jù)；減少外部讀取，提高緩存區(qū)填充速度。頂部：存儲(chǔ)一整行的輸入特征圖數(shù)據(jù)，寬度設(shè)為256，考慮數(shù)據(jù)重疊；使頂部像素從預(yù)讀

取緩存中獲取，無需重復(fù)從DDR3中讀取。優(yōu)化結(jié)果顯著減少數(shù)據(jù)交互次數(shù)，提升數(shù)據(jù)傳輸速率；降低系統(tǒng)功耗，優(yōu)化計(jì)算效率。7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)42ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

乒乓緩存機(jī)制目的：允許數(shù)據(jù)讀取和卷積計(jì)算流水線高效運(yùn)行，防止緩存區(qū)在卷積計(jì)算時(shí)不能接收新數(shù)據(jù)。緩存結(jié)構(gòu)：輸入緩存區(qū)和權(quán)值緩存區(qū)均設(shè)計(jì)為雙緩存結(jié)構(gòu)，即分別擁有兩組相同的緩存區(qū)域。流水線操作和效率實(shí)現(xiàn)卷積計(jì)算與數(shù)據(jù)讀取的連續(xù)流水線操作，避免因數(shù)據(jù)交互導(dǎo)致的運(yùn)行中斷。調(diào)整卷積核計(jì)算時(shí)間和數(shù)據(jù)讀取時(shí)間匹配，確保流水線高效且無間斷運(yùn)行。圖7-26讀取數(shù)據(jù)和卷積計(jì)算流水線7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)43ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

輸入特征圖優(yōu)先機(jī)制定義輸出特征圖優(yōu)先：優(yōu)先完成一個(gè)輸出特征圖的所有相關(guān)輸入特征圖卷積計(jì)算。輸入特征圖優(yōu)先：優(yōu)先完成一個(gè)輸入特征圖對所有輸出特征圖的卷積計(jì)算。影響分析輸出特征圖優(yōu)先：需要頻繁讀取每個(gè)通道的輸入特征圖，導(dǎo)致高緩存刷新率和存儲(chǔ)帶寬消耗。輸入特征圖優(yōu)先：一旦輸入特征圖加載至緩存，用于多個(gè)輸出計(jì)算，減少讀取次數(shù)，降低與

外部存儲(chǔ)的數(shù)據(jù)交互。7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)44ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

輸入特征圖優(yōu)先機(jī)制優(yōu)化選擇采用輸入特征圖優(yōu)先機(jī)制，優(yōu)化存儲(chǔ)交互，提高片上

緩存的利用率，降低外部存儲(chǔ)帶寬需求。計(jì)算效率對比輸出特征圖優(yōu)先模式：每個(gè)輸入特征圖多次加載，增加數(shù)據(jù)讀取次數(shù)。輸入特征圖優(yōu)先模式：每個(gè)輸入特征圖僅加載一次，顯著減少DDR3交互。減少數(shù)據(jù)交互次數(shù)，提高系統(tǒng)整體效率。圖7-27讀取數(shù)據(jù)和卷積計(jì)算流水線7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)45ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

輸出緩存管理輸出緩存區(qū)的功能：存儲(chǔ)每個(gè)卷積周期內(nèi)的部分和數(shù)據(jù)；支持中間數(shù)據(jù)的累加操作；在所有輸入通道處理完畢后，持有最終的輸出特征圖。緩存區(qū)大小和結(jié)構(gòu)輸出緩存區(qū)大小為16×V，其中V是卷積塊的體積?？偣?12個(gè)卷積核分成32路并行設(shè)計(jì)，因此輸出緩存區(qū)由

16個(gè)大小的寄存器組構(gòu)成。每個(gè)卷積周期內(nèi)，卷積計(jì)算引擎輸出中間特征圖數(shù)據(jù)到指定的寄存器組，并與已存在數(shù)據(jù)進(jìn)行累加。圖7-28輸出緩沖區(qū)結(jié)構(gòu)示意圖7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)46ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

輸出緩存管理

COB的功能和結(jié)構(gòu)：輸出緩存區(qū)（COB）用于暫存卷積計(jì)算引擎產(chǎn)生的部分和數(shù)據(jù)；在輸

入特征圖優(yōu)先的計(jì)算過程中，COB存儲(chǔ)當(dāng)前特征圖對應(yīng)的部分和，為下一個(gè)特征圖計(jì)算提

供累加初始值；最終輸出特征圖在所有輸入特征圖處理完成后保存在COB中，隨后寫出到

外部存儲(chǔ)DDR3。

COB與卷積計(jì)算引擎和DDR3的數(shù)據(jù)交互過程過程a:COB接收來自卷積計(jì)算引擎的部分和數(shù)據(jù)。過程b:卷積計(jì)算引擎從COB讀取部分和數(shù)據(jù)作為下一次計(jì)算的累加初始值。過程c:最終的輸出特征圖從COB寫出到DDR3。7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)47ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

輸出緩存管理卷積計(jì)算引擎與COB的協(xié)調(diào)包含64個(gè)PPMAC處理單元，對應(yīng)64個(gè)輸出通道；COB直接接收并存儲(chǔ)來自64個(gè)輸出通道的部分和數(shù)據(jù)；使用桶形移位存儲(chǔ)策略，以優(yōu)化COB的數(shù)據(jù)組織和最小化過程c的時(shí)間。圖7-29卷積輸出緩存工作方式7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)48ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

輸出緩存管理

桶形移位輸入和輸出方案是保證COB正常工作的關(guān)鍵，具體過程如圖7-30所示。圖7-30桶形移位輸入輸出方案7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)49ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

輸出緩存管理桶形移位的工作原理：在卷積計(jì)算引擎（CE）產(chǎn)生數(shù)據(jù)并傳送到輸出緩存區(qū)（COB）的過程a中，數(shù)據(jù)按照指定的桶形移位邏輯（shuffle_i）流動(dòng)。數(shù)據(jù)流向由黑色帶方向線條指示，順序右移保證數(shù)據(jù)按正確順序存儲(chǔ)到各個(gè)BRAM單元。數(shù)據(jù)存儲(chǔ)與移位邏輯：每個(gè)BRAM單元存儲(chǔ)來自相同卷積引擎的部分和數(shù)據(jù)。例如，

PEA#0在不同時(shí)鐘周期產(chǎn)生的數(shù)據(jù)會(huì)被存儲(chǔ)在不同的BRAM中，如“0#0”存于BRAM0，而“0#1”存于BRAM1。數(shù)據(jù)讀取與輸出過程在過程b中，數(shù)據(jù)需從BRAM中按照原始順序左移回CE，邏輯由shuffle_i控制，以便進(jìn)行下一輪計(jì)算。過程c涉及將所有相關(guān)數(shù)據(jù)從BRAM讀出并傳輸?shù)酵獠看鎯?chǔ)DDR3。這一過程中，shuffle_o負(fù)責(zé)選擇與輸出特征圖對應(yīng)的部分和數(shù)據(jù)，并確保其連續(xù)性，允許一次性讀出所有相關(guān)數(shù)據(jù)。7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)50ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

全連接層緩存區(qū)設(shè)計(jì)全連接層流水線架構(gòu)設(shè)計(jì)三級緩存結(jié)構(gòu)優(yōu)化流水線操作:第一級緩存：接收來自卷積層的輸出數(shù)據(jù)。第二級和第三級緩存：形成乒乓結(jié)構(gòu)，交替作為輸入和

輸出緩存，支持連續(xù)的數(shù)據(jù)處理。權(quán)值緩存也采用乒乓結(jié)構(gòu)，保持流水線效率。全連接計(jì)算速度與卷積層協(xié)調(diào)全連接計(jì)算可能比卷積層慢，要求第一級緩存專門接收卷積層輸出，支持不斷的數(shù)據(jù)流。圖7-31全連接層緩存結(jié)構(gòu)7.5.3系統(tǒng)帶寬需求分析51ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

帶寬需求卷積層和全連接層的帶寬需求計(jì)算為Gbyte/s。不同卷積層由于輸入輸出通道數(shù)的變化，帶寬需求不同。最大帶寬需求出現(xiàn)在執(zhí)行第一層卷積時(shí)。系統(tǒng)寬帶與需求對比系統(tǒng)的I/O帶寬明顯高于各層的帶寬需求，特別是全連接層。圖7-32顯示了VGGNet-16各層的帶寬需求，突出顯示了全連接層和第一層卷積層的帶寬對比。圖7-32系統(tǒng)中各個(gè)卷積層和全連接層的帶寬需求7.5.4緩存設(shè)計(jì)和其他模塊的協(xié)調(diào)工作52ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

操作流程總控狀態(tài)機(jī)發(fā)出讀取外部數(shù)據(jù)請求信號。啟動(dòng)數(shù)據(jù)交互模塊，首先將輸入特征圖數(shù)據(jù)和參數(shù)（權(quán)值和偏置）讀取到片上緩存。數(shù)據(jù)和參數(shù)讀取完成后，啟動(dòng)卷積操作引擎(CE)。輸出緩存區(qū)持續(xù)檢測CE的輸出數(shù)據(jù)有效性，并進(jìn)行數(shù)據(jù)累加。

卷積與全連接層的流水線操作卷積完成后，啟動(dòng)ReLU激活和池化操作。輸出數(shù)據(jù)寫出到外部DDR3。啟動(dòng)全連接層計(jì)算引擎，進(jìn)行全連接層計(jì)算。全連接層采用三級乒乓緩存結(jié)構(gòu)，以提高數(shù)據(jù)讀寫效率。7.5.4緩存設(shè)計(jì)和其他模塊的協(xié)調(diào)工作53ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

狀態(tài)機(jī)協(xié)調(diào)圖7-33展示了總控狀態(tài)機(jī)與各子系統(tǒng)的交互和流水

線操作結(jié)構(gòu)。系統(tǒng)協(xié)調(diào)工作由總控狀態(tài)機(jī)和各子級狀態(tài)機(jī)控制。狀態(tài)機(jī)確保讀取數(shù)據(jù)和卷積操作并發(fā)執(zhí)行，優(yōu)化流

水線操作。卷積層與全連接層計(jì)算過程由不同狀態(tài)機(jī)控制。圖7-33緩存控制狀態(tài)機(jī)7.5.5緩存設(shè)計(jì)比較54ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

緩存設(shè)計(jì)是卷積神經(jīng)網(wǎng)絡(luò)硬件加速架構(gòu)很重要的一部分，在作為以片上內(nèi)存管理為導(dǎo)向的架構(gòu)設(shè)計(jì)中，如何最大化利用片上緩存和最小化數(shù)據(jù)傳輸帶寬是一個(gè)繞不開的問題。

文獻(xiàn)[1]:優(yōu)化內(nèi)存使用的卷積網(wǎng)絡(luò)加速架構(gòu)架構(gòu)設(shè)計(jì)：以最小化片上內(nèi)存為中心，使用5個(gè)FPGABlockRAMs(BRAMs)構(gòu)建成循環(huán)存儲(chǔ)

結(jié)構(gòu)的輸入特征圖緩存區(qū)。卷積計(jì)算機(jī)制采用輸出特征圖優(yōu)先機(jī)制，不斷從外部存儲(chǔ)讀入所需輸入特征圖數(shù)據(jù)。設(shè)計(jì)簡化了卷積計(jì)算結(jié)構(gòu)和輸出緩沖區(qū)的控制。設(shè)計(jì)權(quán)衡與挑戰(zhàn)增加了與外部存儲(chǔ)的交互次數(shù)，影響整體架構(gòu)的運(yùn)行速度。采用多輸出通道卷積核并行計(jì)算，但緩存設(shè)計(jì)限制了并行度。7.5.5緩存設(shè)計(jì)比較55ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

文獻(xiàn)[2]:金字塔型卷積計(jì)算架構(gòu)Fused-Layer主要目標(biāo)：充分利用輸出特征圖，減少片上內(nèi)存與片外存儲(chǔ)之間的數(shù)據(jù)交互次數(shù)。架構(gòu)設(shè)計(jì)：多層卷積層融合操作：不是在當(dāng)前卷積層所有輸出計(jì)算完成后再開始下一層，而是當(dāng)前

卷積塊的所有輸出計(jì)算完成后，立即在該區(qū)域上開始下一層卷積層的計(jì)算，依次類推。金字塔形卷積：因每層輸出特征圖尺寸逐漸減小，可融合多層卷積，直至輸出特征圖尺

寸小于卷積核尺寸。7.5.5緩存設(shè)計(jì)比較56ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

文獻(xiàn)[2]:金字塔型卷積計(jì)算架構(gòu)Fused-Layer優(yōu)點(diǎn)：減少數(shù)據(jù)交互：只輸出部分特征圖，可以全部存儲(chǔ)在片上，無需

外部存儲(chǔ)，極大減少數(shù)據(jù)交互次數(shù)。缺點(diǎn)：計(jì)算過程獨(dú)立性：每次金字塔型計(jì)算過程都相互獨(dú)立，卷積操作

的特性導(dǎo)致連續(xù)兩個(gè)計(jì)算過程的數(shù)據(jù)重疊，重疊區(qū)域增加緩存需求。增加片上緩存：大卷積塊尺寸導(dǎo)致更多的重疊計(jì)算區(qū)域，增加額

外片上緩存需求。圖7-34

Fused-layer中數(shù)據(jù)重疊計(jì)算7.5.5緩存設(shè)計(jì)比較57ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

文獻(xiàn)[3]:vDNN：面向GPU的高效可擴(kuò)展卷積計(jì)算架構(gòu)

在AlexNet網(wǎng)絡(luò)測試下，vDNN架構(gòu)使GPU內(nèi)存使用量相比原來降低了89%。傳統(tǒng)方法與vDNN的對比：傳統(tǒng)方法：在確定網(wǎng)絡(luò)結(jié)構(gòu)后，立即為每一層分配固定的全局內(nèi)存，導(dǎo)致大量內(nèi)存在計(jì)算

過程中處于空閑狀態(tài)。vDNN方法：拋棄從全局角度

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

人工智能芯片設(shè)計(jì)第7章-人工智能芯片架構(gòu)設(shè)計(jì)

文檔簡介

溫馨提示

最新文檔

評論

人工智能芯片設(shè)計(jì)第7章-人工智能芯片架構(gòu)設(shè)計(jì)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔