人工智能芯片設計第6章-人工智能芯片的數(shù)據(jù)流設計_第1頁
人工智能芯片設計第6章-人工智能芯片的數(shù)據(jù)流設計_第2頁
人工智能芯片設計第6章-人工智能芯片的數(shù)據(jù)流設計_第3頁
人工智能芯片設計第6章-人工智能芯片的數(shù)據(jù)流設計_第4頁
人工智能芯片設計第6章-人工智能芯片的數(shù)據(jù)流設計_第5頁
已閱讀5頁,還剩66頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第六章:人工智能芯片的數(shù)據(jù)流設計人工智能芯片設計ArtificialIntelligenceChipDesign6.1卷積神經(jīng)網(wǎng)絡模型分析2ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis近十余年間,卷積神經(jīng)網(wǎng)絡飛速發(fā)展,尤其是在計算機視覺領域,涌現(xiàn)出了一大批性能卓越的網(wǎng)絡模型,如AlexNet、VGGNet、GoogLeNet、ResNet等。在圖像分類識別這一基本任務中取得了遠超傳統(tǒng)算法的準確率。從表中可以看出,卷積神經(jīng)網(wǎng)絡的主要發(fā)展趨勢是深度上的增加,隨著網(wǎng)絡層數(shù)的增加,模型提取特征的能力增強,最終表現(xiàn)為分類準確率的大幅提升。6.1卷積神經(jīng)網(wǎng)絡模型分析3AlexNet是首次在大規(guī)模圖像數(shù)據(jù)集上進行訓練和測試的卷積神經(jīng)網(wǎng)絡,于2012年ImageNet大賽上獲得了圖像分類項目的冠軍,其結構如圖6-1所示。與LeNet非常相似,但網(wǎng)絡更深,有5個卷積層和3個全連接層,有11×11、5×5、3×3三種尺寸的卷積核在每個卷積層和全連接層后都使用ReLU

函數(shù)進行激活處理訓練過程中引入dropout來緩解過擬合,采取數(shù)據(jù)擴充、SGD等方法提高學習的有效性圖6-1AlexNet模型結構示意圖

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.1卷積神經(jīng)網(wǎng)絡模型分析4VGGNet由牛津大學的VisualGeometryGroup于2014年提出,為適應不同場景,VGGNet包含6個不同的網(wǎng)絡,深度從11到19不等,其中最常用的VGGNet-16,結構如圖6-2所示。圖6-2VGGNet-16網(wǎng)絡結構小尺寸的卷積核是VGGNet的一個重要特征,VGGNet沒有采用AlexNet中的大尺寸卷積核,如7×7、5×5的卷積核,而是通過采取小尺寸的卷積核、堆疊卷積子層來提升特征提取能力。卷積神經(jīng)網(wǎng)絡各層的時間復雜度(Time),即模型運算次數(shù)可用式(6-1)表示:ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.1卷積神經(jīng)網(wǎng)絡模型分析5

(6-1)ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.1卷積神經(jīng)網(wǎng)絡模型分析6

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis問題總結部署卷積神經(jīng)網(wǎng)絡的瓶頸主要由兩方面:龐大的參數(shù)規(guī)模需要大量的存儲空間,在運算過程中需要將參數(shù)搬運到處理器片上緩存,這對硬件平臺的傳輸帶寬要求極大;浮點運算的復雜度要遠高于定點運算,反映在實際應用中就是浮點運算任務在處理器上運行時的能量消耗和資源占用量要遠超定點運算。例如,通過實驗發(fā)現(xiàn),在FPGA中,1個16位的4階浮點乘法器要消耗2個DSP(數(shù)字信號處理器)、51個LUT(查找表)和95個FF(觸發(fā)器),最大工作頻率約為219MHz;而一個16位的定點乘法器僅需要1個DSP,且可以輕松達到300MHz的工作頻率。解決辦法使用基于塊浮點數(shù)的數(shù)據(jù)量化算法在基于塊浮點數(shù)的卷積神經(jīng)網(wǎng)絡中,復雜的浮點乘加運算可用定點數(shù)運算代替6.1卷積神經(jīng)網(wǎng)絡模型分析7ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.2塊浮點數(shù)設計8

圖6-3單精度浮點數(shù)結構Exponent全零Exponent全1Mantissa全零0無窮大的數(shù)據(jù)Mantissa非零(NAN)ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis

6.2塊浮點數(shù)設計9ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis

106.2塊浮點數(shù)設計圖6-4半精度浮點數(shù)結構ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.2塊浮點數(shù)設計116.2.2塊浮點數(shù)結構設計基于塊浮點數(shù)(Block-Floating-Point,BFP)的卷積神經(jīng)網(wǎng)絡部署方案中,塊浮點數(shù)可看作是一種特殊的浮點數(shù)表示形式,基本結構如圖6-5所示:塊浮點數(shù)讓一批數(shù)據(jù)共享同一個指數(shù)塊浮點數(shù)內部保留有指數(shù)部分,所以擁有較高的數(shù)據(jù)表示動態(tài)范圍,兩個BFP數(shù)據(jù)塊的計算復雜度降低到了定點數(shù)程度圖6-5塊浮點數(shù)結構ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.2塊浮點數(shù)設計12

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.2塊浮點數(shù)設計13

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.2.3無偏差溢出數(shù)據(jù)處理塊浮點算法中的精度損失主要來自于浮點數(shù)與塊浮點數(shù)間的轉換,在尾數(shù)部分的移位操作過程中,即式(6-7),不可避免的會有一部分比特位無法完整保留下來,這部分比特數(shù)據(jù)稱為溢出數(shù)據(jù)。處理溢出數(shù)據(jù)的兩種常用方法:截斷操作,直接舍棄掉溢出數(shù)據(jù),但會引入較大的向下偏差且會在卷積層間累積,最終產生明顯偏差舍入操作,只會引入高斯白噪聲,不存在明顯的偏差由于尾數(shù)位寬有限,所以浮點數(shù)能精確表達的數(shù)值也有限,在兩個相鄰的浮點數(shù)之間,一定有無數(shù)個不能用浮點數(shù)精確表達的實數(shù),IEEE754標準中,對于這些不能被精確表達的數(shù)字,用最接近它們取值的浮點數(shù)近似表示,即舍入。6.2塊浮點數(shù)設計14ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis一共有以下四種常見的舍入模式:表6-3以實例的形式展示了四種舍入方式的計算規(guī)則(僅保留整數(shù)部分),可以發(fā)現(xiàn)后三種模式都保持有向上或向下的偏差,容易在卷積神經(jīng)網(wǎng)絡中逐層累積,造成層間累積誤差,而RN模式則不會,是一種無偏差的舍入模式。在RN模式下,會根據(jù)需要保留的最后一位的奇偶情況決定是進位或是舍棄,以保證舍入后的數(shù)據(jù)為偶數(shù)。從統(tǒng)計意義上考慮,須保留的最后一位為奇數(shù)或偶數(shù)的概率相當,向下和向上的偏差相互抵消。6.2塊浮點數(shù)設計15RN:舍入到最近的可表示的值,當有兩個最接近的可表示的值時首選偶數(shù)值RZ:向零的方向舍入RU:向正無窮大方向舍入RD:向負無窮大方向舍入ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis16ArtificialIntelligenceChipDesign,

Lecture

01:

Introduction6.3卷積神經(jīng)網(wǎng)絡數(shù)據(jù)量化算法6.3.1輕量級塊劃分模式塊浮點通過共享塊指數(shù)和壓縮尾數(shù)位寬量化浮點數(shù),以降低卷積神經(jīng)網(wǎng)絡的參數(shù)規(guī)模和計算復雜度。尾數(shù)向右移位導致部分數(shù)據(jù)丟失,尤其對絕對值較小的數(shù)據(jù),這被稱為BFP量化誤差。量化誤差取決于數(shù)據(jù)塊大小、塊內數(shù)據(jù)分布和尾數(shù)位寬。較小數(shù)據(jù)塊、均勻分布和更大尾數(shù)位寬能減少誤差,但會增加參數(shù)規(guī)模和計算復雜度,需平衡權衡。卷積矩陣化運算

17ArtificialIntelligenceChipDesign,

Lecture

01:

Introduction表6-4顯示,等式(6-10)和(6-12)的BFP塊劃分方案涉及超過50176次塊格式化,且塊指數(shù)的存儲成本是等式(6-9)和(6-11)方案的數(shù)百倍。這種高成本在卷積神經(jīng)網(wǎng)絡的各隱藏層中普遍存在,因此代價過高,不符合減少參數(shù)規(guī)模和計算復雜度的目標。為了評估這兩種塊格式化方案的精確度,基于ImageNet圖像分類數(shù)據(jù)集在VGGNet-16上進行了測試。實驗結果顯示,等式(6-11)的塊格式化方案相比等式(6-9),Top-1和Top-5準確率分別高出1.59%和0.68%,因此最終選擇等式(6-11)方案。

6.3.2低比特塊浮點數(shù)設計文獻表明,定點運算相比浮點運算在能量和資源占用上更少,尤其是加操作,且降低數(shù)據(jù)位寬可減少硬件資源消耗。分析表明,5-bit的塊指數(shù)位寬與半精度浮點數(shù)一致,足夠滿足卷積網(wǎng)絡需求,而尾數(shù)位寬對參數(shù)規(guī)模、計算復雜度和表示精度影響更大。為選擇最短尾數(shù)位寬的塊浮點格式,基于Caffe平臺進行了一系列實驗,測試VGGNet-16、GoogLeNet和ResNet-50三種經(jīng)典網(wǎng)絡,使用ImageNet數(shù)據(jù)集對9組不同尾數(shù)位寬組合進行評估。實驗將輸入特征圖和權值進行塊格式化,進行矩陣乘法后輸出特征圖再轉化為浮點數(shù)。結果表明,當尾數(shù)位寬為8時,分類準確率下降不超過0.12%,模型精度幾乎無損,特別是GoogLeNet在未重新訓練下?lián)p失最小。6.3.3面向硬件加速器的塊浮點數(shù)據(jù)流結構基于FPGA的加速器設計考慮并行計算,提出了簡化計算、節(jié)省片上存儲和帶寬的塊浮點數(shù)據(jù)流結構。卷積運算數(shù)據(jù)包括輸入特征圖、權重和偏置項。權重可提前轉化為塊浮點格式存儲,減少計算和存儲需求。偏置項根據(jù)輸入特征圖動態(tài)轉化。6.3.4四階誤差分析模型第一階段

第二階段

第三階段

第四階段

6.4卷積神經(jīng)網(wǎng)絡稀疏化算法24卷積神經(jīng)網(wǎng)絡的計算量和參數(shù)量主要來自卷積層和全連接層。鑒于卷積層和全連接層在結構上區(qū)別,導致卷積層和全連接層的稀疏化工作上存在較大區(qū)別。因此,本節(jié)將對卷積神經(jīng)網(wǎng)絡的卷積層和全連接層分別進行分析,并設計相應的稀疏化方案,最終綜合卷積層和全連接層的稀疏化方案,實現(xiàn)對卷積神經(jīng)網(wǎng)絡的整體的參數(shù)壓縮和計算量削減工作。6.4.1卷積層稀疏化算法引入的掩碼層(MarkLayer):掩碼層其結構如圖6-7所示,掩碼層在網(wǎng)絡結構中首先是通過層參數(shù)大小起到篩選卷積層的卷積核的作用,在掩碼層完成篩選卷積核之后,卷積層就產生了稀疏化的效果。圖6-7掩碼層在卷積神經(jīng)網(wǎng)絡中作用ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis

6.4卷積神經(jīng)網(wǎng)絡稀疏化算法25ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.4卷積神經(jīng)網(wǎng)絡稀疏化算法26

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis

6.4卷積神經(jīng)網(wǎng)絡稀疏化算法27ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.4卷積神經(jīng)網(wǎng)絡稀疏化算法28

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.4卷積神經(jīng)網(wǎng)絡稀疏化算法29

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.4卷積神經(jīng)網(wǎng)絡稀疏化算法30

圖6-8掩碼層參數(shù)篩選卷積核示意圖ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis3.參數(shù)微調在完成整個網(wǎng)絡卷積層的卷積核篩選之后,掩碼層的參數(shù)分布如圖6-9所示。由于掩碼層的參數(shù)只是接近于0,這些卷積核的被剔除之后依然會對網(wǎng)絡的預測精度產生一定的影響。在大多數(shù)情況下,一般會在完成卷積核的稀疏化之后對網(wǎng)絡進行甚于參數(shù)進行微調。注:在大多數(shù)情況下,一般會在完成卷積核的稀疏化之后對網(wǎng)絡進行參數(shù)微調。由于在稀疏化工作中使用稀疏化正則項進行約束,使得參數(shù)產生約束效果,但參數(shù)微調的過程中,不需要剩余卷積核參數(shù)產生稀疏化效果。因此,在此處本章遵循原始網(wǎng)絡訓練效果,使用原始網(wǎng)絡訓練的正則化約束項。6.4卷積神經(jīng)網(wǎng)絡稀疏化算法31圖6-9掩碼層參數(shù)分布情況ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.4卷積神經(jīng)網(wǎng)絡稀疏化算法32

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.4卷積神經(jīng)網(wǎng)絡稀疏化算法33然而,一般情況下在卷積層提取的高層此特征圖像的數(shù)量較多和圖像尺寸較大,因此這樣導致最終的全連接層的參數(shù)比較多。全連接層部分參數(shù)占整體參數(shù)量的85%以上對于全連接層,其參數(shù)龐大的主要來源就是卷積層輸入輸出完全互連的情況下,參數(shù)就會出現(xiàn)較多參數(shù)量。但是對于所有的每一個輸出神經(jīng)元,不是每一個輸入高層的特征存在較多信息。降低全連接層之間的互連數(shù)量就成為降低全連接層參數(shù)量的一種重要的方法。ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.4卷積神經(jīng)網(wǎng)絡稀疏化算法34

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.4卷積神經(jīng)網(wǎng)絡稀疏化算法35計算相關系數(shù)過程中,采用的50000個樣本作為樣本數(shù)據(jù)。采樣后計算的全連接層的相關系數(shù)分布在-1和1之間,其中-1表示負相關,1表示。相關,0表示不相關。圖6-10表示全連接層fc7的相關系數(shù)分布情況。圖6-10全連接層fc7的相關系數(shù)分布圖從圖中可以明顯發(fā)現(xiàn),全連接層的輸入輸出之間的相關系數(shù)大多集中的0附近,這就表明全連接層之間的輸入輸出數(shù)據(jù)大多數(shù)是一種弱相關的關系。本章將對于全連接層中的fc6和fc7進行稀疏化操作注:最后一層fc8由于直接輸出分類結果,如果對其進行稀疏化工作的話,將會嚴重影響最終的識別準確率。ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.4卷積神經(jīng)網(wǎng)絡稀疏化算法36對于稀疏化后全連接層,其結構由原來的輸入輸出全部連接變成選擇性連接,結構如圖6-11所示。圖6-11全連接層稀疏化前后網(wǎng)絡結構ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.4卷積神經(jīng)網(wǎng)絡稀疏化算法376.4.3卷積神經(jīng)網(wǎng)絡整體稀疏化算法在前兩個小節(jié)中,已經(jīng)針對卷積神經(jīng)網(wǎng)絡的卷積層和全連接層分別進行了稀疏化算法的研究及其單獨的性能分析。大多數(shù)網(wǎng)絡的稀疏化工作則是對整個卷積神經(jīng)網(wǎng)絡模型而言的,因此本章需要將上述兩種方法同時應用在卷積神經(jīng)網(wǎng)絡模型上,并且測試其效果,本章選取VGGNet16-D作為測試網(wǎng)絡。圖6-12網(wǎng)絡整體稀疏化后的網(wǎng)絡參數(shù)微調的損失和識別準確率實驗方案:在卷積層,本章設置了2組實驗用于驗證的卷積層的算法的有效性,采用80%計算量削減的FLOPs組配置。此外,本節(jié)將稀疏化卷積層和稀疏化的全連接層進行了融合,得到新的稀疏化網(wǎng)絡模型。同時對參數(shù)進行了微調,其微調過程中的損失和識別準確率如圖6-12所示。實驗結果:在稀疏化網(wǎng)絡模型識別精度基本不變的情況下,實現(xiàn)整個網(wǎng)絡參數(shù)削減達到18.39%和計算量削減到不足原始網(wǎng)絡的20%。ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.4卷積神經(jīng)網(wǎng)絡稀疏化算法38

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.4卷積神經(jīng)網(wǎng)絡稀疏化算法39算法總結表6-9是本章算法、DeepCompression方法和Sensitivity-Oriented方法在VGGNet16-D上的參數(shù)壓縮率和計算加速比實驗結果。在整體網(wǎng)絡參數(shù)方面,本節(jié)實現(xiàn)的算法達到18%的參數(shù)壓縮率在網(wǎng)絡的計算加速方面,本節(jié)將計算量單獨分析,在全連接層實施了基于數(shù)據(jù)訓練的掩碼層進行卷積層稀疏化,最終實現(xiàn)整體網(wǎng)絡5.02倍理論計算加速效果,相比于參數(shù)壓縮率較高的Sensitivity-Oriented方法,本節(jié)的計算加速效果是其1.98倍。在算法效率方面,本章采取直接參數(shù)訓練方式對卷積層進行稀疏化,這種方式首先特點是根據(jù)數(shù)據(jù)集動態(tài)調整用于評價卷積核的掩碼層參數(shù),在稀疏化正則項和稀疏化網(wǎng)絡損失的共同約束下,實現(xiàn)最小的網(wǎng)絡損失得到需要稀疏化比例的網(wǎng)絡模型。同時在全連接層中,本章采取基于數(shù)據(jù)分析的相關系數(shù)方法,充分考慮到了數(shù)據(jù)在網(wǎng)絡模型適應性問題。ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速40從前述分析可以看出,具有高準確率的卷積神經(jīng)網(wǎng)絡的參數(shù)規(guī)模一般很大(百兆級別)、涉及的計算量通常也是在GFLOP的數(shù)量級上。這種巨大的存儲和計算量需求非常不利于移動嵌入式設備的部署。但是網(wǎng)絡參數(shù)存在很大的冗余性,通過合理的網(wǎng)絡結構轉換和參數(shù)表示,原始網(wǎng)絡參數(shù)的10%就能完成同樣的分類任務。本節(jié)從另外一個角度提出了基于網(wǎng)絡Low-Rank特性的加速方案6.5.1卷積神經(jīng)網(wǎng)絡的Low-Rank特性卷積神經(jīng)網(wǎng)絡中卷積層的卷積核在網(wǎng)絡設計時希望不同卷積核能提取到圖像的不同特征,但實驗表明,各卷積層部分卷積核提取的圖像特征相似,即存在相關性。如圖6-13所示(輸入圖像在第一層卷積層提取的特征圖)圖6-13卷積層輸出特征圖之間相關性ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速41

圖6-14輸出特征圖相關性定量衡量ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速42

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速43例如:對一個有個通道的的輸入特征圖,對應的卷積核通道數(shù)也是個,卷積核大小是,這里處于簡單考慮,設定輸出卷積核的為個,卷積計算的示意圖如圖6-15所示。圖6-15卷積計算示意圖

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis

6.5基于Low-Rank的算法加速44圖6-16全連接計算示意圖ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速45

conv1_2的卷積核重要性分布(b)fc6的卷積核重要性分布圖6-17VGGNet-16卷積層的卷積核和全連接層的神經(jīng)元的重要性分布ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速46

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速47

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速48

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速49

圖6-18(a)卷積層結構分解ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速50

圖6-18(b)卷積層結構分解ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速51

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速52基于Low-Rank的卷積加速在有效壓縮參數(shù)、降低計算量的過程中,又保留了卷積操作的高度并行性。同時變換后的網(wǎng)絡結構很好解決了Low-Rank分解后網(wǎng)絡無法微調的問題,如果對原始網(wǎng)絡進行微調,由于網(wǎng)絡結構不具有Low-Rank特性,因此在微調的過程中,SVD分解后的參數(shù)可能會朝著原始參數(shù)集的方向進行更新,使網(wǎng)絡參數(shù)喪失Low-Rank特性,如圖6-19所示。圖6-19(a)表示VGGNet-16中FC6層基于分解之后的網(wǎng)絡進行微調后,權值矩陣的特征值分布,圖6-19(b)表示利用原始的網(wǎng)絡結構對權值矩陣進行微調后的奇異值分布??梢钥吹皆谠季W(wǎng)絡上微調,經(jīng)過SVD分解后去除的奇異值有恢復到原始值的傾向。圖6-19微調奇異值分布ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速53

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速54

圖6-20全連接層結構分解ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速55

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速56由此可以看出,基于SVD分解相比其他方法的優(yōu)點:參數(shù)壓縮比等效于計算加速比。這在基于剪枝的算法中是無法達到的。剪枝算法可以實現(xiàn)更大的壓縮比,但是剪枝算法無法在參數(shù)壓縮后維持網(wǎng)絡并行計算的特性,只是起到參數(shù)壓縮的作用,而在基于SVD分解的算法中,網(wǎng)絡的并行計算適應性并沒有改變,不必像剪枝算法中設計專有的稀疏計算方法就能取得加速效果。ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速57

固定其他層不變,更改當前層基的數(shù)量統(tǒng)計top-1分類準確率隨的變化曲線,得到不同層中基的數(shù)量對top-1分類準確率的影響程度。如圖6-21所示,表示的是VGGNet-16中conv2_2和conv4_1卷積層的誤差隨基卷積核數(shù)量變化曲線,可以看出每層的分類準確率曲線有很大差別。圖6-21VGGNet-16conv2_2和conv4_1誤差隨基卷積核的數(shù)量變化曲線ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis

6.5基于Low-Rank的算法加速58ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速59

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速60

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速616.5.5實驗結果與分析本實驗中,選擇VGGNet-16和VGGNet-19作為目標網(wǎng)絡對加速算法進行驗證。實驗采用的軟件平臺是Caffe和Torch深度學習工具包,硬件平臺采用8核i7-3770KCPU,NVIDIAGTX1080GPU,另外還使用到CUDA8.0通用并行計算平臺,cuDNN5深度學習加速工具包。網(wǎng)絡訓練和驗證數(shù)據(jù)集均采用ImageNet比賽官方數(shù)據(jù)集。ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速62

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速63如圖6-22表示的是VGGNet-16和VGGNet-19卷積神經(jīng)網(wǎng)絡各層在理想加速比分別為2,3,4的情況下,微調前后的最終分類準確率變化。圖6-22VGGNet-16和VGGNet-19各層微調前后準確率變化(線條:Loss;條形圖:Top5準確率;AF:微調前;BF:微調后)

ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速64

圖6-23VGGNet-16各層理想的和實際加速比對比ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速65全連接層:對于基于SVD分解的全連接層參數(shù)壓縮,一方面要盡可能壓縮參數(shù),另一方面,全連接層參數(shù)的壓縮也要適應于前面卷積層的加速,即在盡可能加速卷積計算的同時,為了保證網(wǎng)絡的分類準確率,應盡可能多保留全連接層的參數(shù)。在本節(jié),首先會驗證每層全連接層保留的神經(jīng)元個數(shù)對最終分類準確率的影響,依此來衡量每層全連接層的冗余度,然后根據(jù)最終壓縮和分類準確率的要求對全連接層進行必要的壓縮。關于全局優(yōu)化和局部優(yōu)化的比較,從直觀上來說,全局優(yōu)化在參數(shù)更新的過程中,考慮到當前層和其他網(wǎng)絡層的協(xié)調作用,所以優(yōu)化最終尋找的最優(yōu)解比局部優(yōu)化更好。本節(jié)從定量的角度比較了全局優(yōu)化相對于局部優(yōu)化的優(yōu)勢。ArtificialIntelligenceChipDesign,

Lecture

06:

Convolutionalneuralnetworkmodelanalysis6.5基于Low-Rank的算法加速66圖6-24是VGGNet-16FC6層在全局微調和局部微調前后的權值分布變化圖。圖6-24(a)是權值分布圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論