深度學(xué)習(xí)與信號處理:原理與實踐 課件 第10章 深度自編碼器.完成_第1頁
深度學(xué)習(xí)與信號處理:原理與實踐 課件 第10章 深度自編碼器.完成_第2頁
深度學(xué)習(xí)與信號處理:原理與實踐 課件 第10章 深度自編碼器.完成_第3頁
深度學(xué)習(xí)與信號處理:原理與實踐 課件 第10章 深度自編碼器.完成_第4頁
深度學(xué)習(xí)與信號處理:原理與實踐 課件 第10章 深度自編碼器.完成_第5頁
已閱讀5頁,還剩117頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

PPT模板下載:/moban/行業(yè)PPT模板:/hangye/節(jié)日PPT模板:/jieri/PPT素材下載:/sucai/PPT背景圖片:/beijing/PPT圖表下載:/tubiao/優(yōu)秀PPT下載:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/資料下載:/ziliao/PPT課件下載:/kejian/范文下載:/fanwen/試卷下載:/shiti/教案下載:/jiaoan/PPT論壇:

10.1自編碼器10.2稀疏性自適應(yīng)編碼器10.3變分自編碼器10.4自編碼回聲狀態(tài)網(wǎng)絡(luò)10.5深度典型相關(guān)稀疏自編碼器10.6條件雙重對抗自編碼網(wǎng)絡(luò)10.7自編碼應(yīng)用模型第十章深度自編碼器10.8改進LDA和自編碼器的調(diào)制識別算法210.1自編碼器210.1.1自編碼原理1.編碼-解碼圖中,輸入經(jīng)編碼器,得到編碼結(jié)果為編碼經(jīng)解碼器解碼或稱重構(gòu)為310.1自編碼器3重構(gòu)的與輸入的接近程度,可以用損失函數(shù)來衡量。損失函數(shù)記為,用于測量重建的好壞,目標(biāo)是最小化的期望值??梢杂卸喾N多樣的定義,其中均方誤差是最常見的一種形式,即圖10.2顯示了重構(gòu)存在的誤差error。410.1自編碼器4編碼器將高維原始輸入特征量映射到一個低維隱藏空間向量z(M維),解碼器再將z映射到一個N維輸出層,從而實現(xiàn)了對原始輸入特征量的復(fù)現(xiàn)。圖10.3也對應(yīng)于由輸入層、映射層(編碼層)、瓶頸層、解映射層(解碼層)和輸出層構(gòu)成的自編碼網(wǎng)絡(luò),如圖10.4所示。2.自編碼器自編碼器是深度學(xué)習(xí)中的一種無監(jiān)督學(xué)習(xí)模型,先通過編碼器將高維特征映射到低維度的隱藏表示,再通過解碼器將輸入特征量復(fù)現(xiàn),如圖10.3所示。510.1自編碼器5圖(a)為5層結(jié)構(gòu),圖(b)簡化為3層結(jié)構(gòu)。假設(shè)輸入層的輸入向量、編碼層的編碼函數(shù)、輸出層,解碼層的解碼函數(shù),N是輸入樣本和輸出樣本的維度,是隱含層的維度。隱含層與輸入層之間的映射關(guān)系為(a)五層結(jié)構(gòu)(b)三層結(jié)構(gòu)610.1自編碼器6式中,為線性或非線性的激勵函數(shù),是權(quán)值矩陣,

是隱含層的偏置向量。同理,隱含層到輸出層也可以由一個函數(shù)g映射得到,關(guān)系為式中,為激勵函數(shù),是權(quán)值矩陣,是輸出層的偏置向量。AE的基本思想為:從網(wǎng)絡(luò)的輸入層到輸出層,學(xué)習(xí)一個函數(shù)使。激勵函數(shù)均選取sigmoid函數(shù),其形式為710.1自編碼器7由于的值域在0到1之間,所以需要對數(shù)據(jù)進行歸一化自動編碼器的參數(shù)包括網(wǎng)絡(luò)權(quán)值和偏置向量,即

,可以通過最小化損失函數(shù)進行求解。假設(shè)訓(xùn)練樣本為,N為樣本個數(shù),,則損失函數(shù)為810.1自編碼器8基于以上假設(shè),反向傳播算法的步驟如下:

步驟1:計算前向傳播各層神經(jīng)元的激活值,即步驟2:計算第層(輸出層)第個輸出神經(jīng)元的梯度差,即步驟3:計算第層(隱含層)第個輸出神經(jīng)元的梯度差,即910.1自編碼器9式中步驟4:計算最終網(wǎng)絡(luò)中的偏導(dǎo)數(shù)1010.2稀疏性自適應(yīng)編碼器10自編碼器要求輸出盡可能等于輸入,并且它的隱藏層必須滿足一定的稀疏性,即隱藏層不能攜帶太多信息。所以隱藏層對輸入進行了壓縮,并在輸出層中解壓縮。整個過程肯定會丟失信息,但訓(xùn)練能夠使丟失的信息盡量少。稀疏自編碼網(wǎng)絡(luò)就是在自編碼網(wǎng)絡(luò)基礎(chǔ)上,對隱含層增加稀疏性限制,并且可以將多個自編碼網(wǎng)絡(luò)進行堆疊[207204-208205]。

圖10.5為堆疊兩個自編碼網(wǎng)絡(luò)的稀疏自編碼網(wǎng)絡(luò),第一個自編碼網(wǎng)絡(luò)訓(xùn)練好后,取其隱含層作為下一個自編碼網(wǎng)絡(luò)的輸入與期望輸出。如此反復(fù)堆疊,直至達(dá)到預(yù)定網(wǎng)絡(luò)層數(shù)。最后進入網(wǎng)絡(luò)微調(diào)過程,將輸入層、第一層隱含層、第二層隱含層以及之后所有的隱層整合為一個新的神經(jīng)網(wǎng)絡(luò),最后連接一個數(shù)據(jù)分類器,利用全部帶標(biāo)數(shù)據(jù)有監(jiān)督地重新調(diào)整網(wǎng)絡(luò)的參數(shù)。1110.2稀疏性自適應(yīng)編碼器11由于網(wǎng)絡(luò)常用的激活函數(shù)為sigmoid函數(shù),其輸出范圍是0到1,所以使第個隱含層第j個神經(jīng)元對第個隱含層所有神經(jīng)元激活平均值,即1210.2稀疏性自適應(yīng)編碼器12總接近一個比較小的實數(shù),即,表示稀疏度目標(biāo),就可保證網(wǎng)絡(luò)隱含層的稀疏性。為使兩值盡量接近,引入Kullback-Liebler散度(KL散度)。KL散度定義為式中,表示隱含層節(jié)點的數(shù)量。稀疏自編碼器(SparseAutoencoder,SAE)的總代價函數(shù)表示為式中,表示稀疏性懲罰項。通過最小化成本函數(shù),可以獲得最優(yōu)參數(shù)。因為代價函數(shù)多了一項,所以梯度的表達(dá)式也有變化。1310.2稀疏性自適應(yīng)編碼器13為了方例起見,對稀疏性懲罰項只計算第1層參數(shù)參,令所以1410.2稀疏性自適應(yīng)編碼器14所以相當(dāng)于變成1510.3變分自編碼器1510.3.1變分自編碼理論變分自動編碼器(VariationalAutocoder,VAE)[是自編碼器的一種,VAE能將高維原始特征量提取成低維的高階特征量而盡可能多地保留原本的信息。與一般的自編碼器不同,VAE基于變分貝葉斯推斷,通過尋找高階隱藏變量所滿足的高斯分布使映射得到的高階特征,具有更強的魯棒性,有利于增強分類器的泛化能力、減少噪聲來帶的干擾。

變分自編碼器通常由3層神經(jīng)網(wǎng)絡(luò)組成,包括輸入層、隱含層和輸出層。通過對輸入(D為樣本維數(shù),N為樣本數(shù))進行編碼得到隱含層輸出(為隱含層空間維數(shù)),再通過解碼將隱含層輸出重構(gòu)回樣本原始空間維度,得到重構(gòu)樣本。自編碼器的訓(xùn)練是使輸出不斷地逼近輸入,進而獲得能表征輸入樣本特性的隱含層特征。1610.3變分自編碼器16VAE作為一類生成模型,基本結(jié)構(gòu)如圖10.6所示。VAE利用隱變量表征原始數(shù)據(jù)集的分布,通過優(yōu)化生成參數(shù);利用隱變量生成數(shù)據(jù),使與原始數(shù)據(jù)高概率的相似,即最大化邊緣分布式中,表示由隱變量重構(gòu)原始數(shù)據(jù);表示隱變量的先驗分布,這里采用高斯分布。由于沒有標(biāo)簽與對應(yīng),會導(dǎo)致利用生成的樣本不能與原始樣本相對應(yīng)。因此,采用表示由原始數(shù)據(jù)通過學(xué)習(xí)得到隱變量,從而建立與的關(guān)系。1710.3變分自編碼器17由于真實的后驗分布很難計算,故采用服從高斯分布的近似后驗代替真實后驗,兩個分布的Kullback-Leibler散度為

將式(10.3.2)進行變換,得1810.3變分自編碼器18由于KL散度非負(fù),令式(10.3.3)右側(cè)等于,得。是需要最大化的對數(shù)似然函數(shù),而又希望近似后驗分布接近真實后驗分布,使接近于0,這里稱為的變分下界。為優(yōu)化和,可由似然函數(shù)的變分下界定義VAE的損失函數(shù),即

式中,表示正則化項;表示重構(gòu)誤差。與自編碼器類似,可表示為一個變分參數(shù)為的編碼器,可表示為一個生成參數(shù)為的解碼器。1910.3變分自編碼器19通過假設(shè)服從,服從的高斯分布,計算式(10.3.4)的右側(cè)第1項

計算式(10.3.4)的右側(cè)第2項,有式中,表示對采樣的次數(shù),一般=1。由于采樣過程不可導(dǎo),為避免無法直接對z進行求導(dǎo),而不能通過梯度下降更新網(wǎng)絡(luò)參數(shù),利用重參數(shù)化技巧,對隨機變量進行重參數(shù)化,令2010.3變分自編碼器20式中,為對N維獨立標(biāo)準(zhǔn)高斯分布的一次隨機采樣值,表示元素積,為均值、為方差。為計算式(10.3.6),一般選擇伯努利分布或者高斯分布。如果則有網(wǎng)絡(luò)的輸入信號,為非二值型數(shù)據(jù),這里的分布選擇高斯分布,有

由此即可計算式(10.3.8),有由式(10.3.5)和式(10.8.8)計算,即可得VAE的損失函數(shù)。2110.3變分自編碼器根據(jù)式(10.3.7)~式(10.3.9),N維標(biāo)準(zhǔn)差向量;N維數(shù)學(xué)期望向量。這時,圖10.6可以改畫為圖10.7。

2210.3變分自編碼器VAE模型訓(xùn)練的目標(biāo)是最小化重構(gòu)誤差和使盡可能地接近標(biāo)準(zhǔn)多元高斯分布。VAE的損失函數(shù)為

式中,為原始第i輸入特征量;為復(fù)現(xiàn)的第i維原始輸入特征量。損失函數(shù)由2部分組成:(1)交叉熵?fù)p失函數(shù),用來度量復(fù)現(xiàn)特征與原始輸入特征之間的差異程度;(2)為相對熵?fù)p失函數(shù),即KL(Kullback-Leibler)度,用來度量標(biāo)準(zhǔn)多元高斯分布之間的差異程度。2310.3變分自編碼器2310.3.2堆疊變分自動編碼器1.堆疊變分自動編碼器結(jié)構(gòu)堆疊變分自動編碼器(stackedVariationalAutoencoder,SVAE)是將多個VAE堆疊構(gòu)成的深層網(wǎng)絡(luò)結(jié)構(gòu),SVAE逐層降低輸入特征的維度,提取高階特征。整個模型的訓(xùn)練過程分為無監(jiān)督的預(yù)訓(xùn)練和有監(jiān)督的微調(diào)二個階段。評估模型的結(jié)構(gòu),如圖10.8所示[210207]。圖中,輸入層中的圓點表示神經(jīng)元為第k個VAE提取的高階特征值。2410.3變分自編碼器預(yù)訓(xùn)練階段,模型從最底層的VAE開始訓(xùn)練,當(dāng)充分完成對本層特征的學(xué)習(xí)之后,本層VAE輸出的高階特征將作為上一層VAE的輸入,繼續(xù)對上一層VAE進行訓(xùn)練,直至所有VAE都得到了充分的訓(xùn)練。SVAE通過學(xué)習(xí)特征的分布情況,在訓(xùn)練時加入高斯噪聲,泛化能力強、提取的高階特征具有抗噪聲能力。與單個VAE直接提取特征相比,SVAE由于其深層的網(wǎng)絡(luò)結(jié)構(gòu),對于高維的非線性系統(tǒng)擁有更好的擬合能力,更適合復(fù)雜的分類任務(wù)。經(jīng)過SVAE提取后的高階特征輸入Logistic分類器,使用反向傳播算法對整個網(wǎng)絡(luò)的參數(shù)進行有監(jiān)督的微調(diào),根據(jù)公式得到模型的最優(yōu)參數(shù)。

式中,函數(shù)為使函數(shù)取最小值時的取值;為模型參數(shù)矩陣;為訓(xùn)練樣本的期望標(biāo)簽值;為訓(xùn)練樣本的預(yù)測標(biāo)簽值。2510.3變分自編碼器2.L2正則化為了提高判別模型的泛化能力,引入L2正則化。加入L2正則化后的損失函數(shù)為式中,為原始的目標(biāo)函數(shù);為神經(jīng)元的權(quán)重值參數(shù);為所有神經(jīng)元的權(quán)重值集合;為懲罰系數(shù)。L2正則化通過在損失函數(shù)中加入L2正則化項,使判別模型在訓(xùn)練時傾向于使用較小的權(quán)重值參數(shù),一定程度上減小模型的過擬合,增強泛化能力。2610.3變分自編碼器2610.3.3深度卷積變分自編碼器1.深度卷積變分自編碼器結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)(CNN)通常由輸入層、卷積層、池化層、激活函數(shù)、全連接層和輸出層組成。

卷積層由多個特征面構(gòu)成,每個特征面由多個神經(jīng)元組成,當(dāng)前層神經(jīng)元的輸入是通過卷積核與上一層特征面的局部區(qū)域相連,利用連接權(quán)值和偏置進行卷積操作,并采用激活函數(shù)激活得到當(dāng)前層神經(jīng)元的輸入值;連接權(quán)值的大小由卷積核的大小決定。池化層一般在卷積層之后,類似于下采樣操作,起到二次特征提取的作用。全連接層中的每個神經(jīng)元與上一層中的所有神經(jīng)元進行全連接,可以整合卷積層或者池化層中具有類別區(qū)分性的局部信息。2710.3變分自編碼器27VAE中的神經(jīng)網(wǎng)絡(luò)與多層感知器(Multi-layerperceptron,MLP)類似,采用的是全連接方式,文獻(xiàn)[211208]采用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造VAE,以減小網(wǎng)絡(luò)復(fù)雜度,得到深度卷積變分自編碼器(DeepconvolutionalvariationalAutoencoder,DCVAE),如圖所示。2810.3變分自編碼器28DCVAE模型由兩部分組成,虛線框內(nèi)是VAE的編碼和解碼過程,虛線框外是一個多層卷積神經(jīng)網(wǎng)絡(luò)。通過VAE的無監(jiān)督學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)的有監(jiān)督學(xué)習(xí)完成DCVAE模型的訓(xùn)練。

在VAE編碼階段,輸入層后連接第1個卷積層Convl,16@64×1表示16個特征面,64×1表示卷積核的大小為(64,1),Stride為(2,1),也即在特征面的縱向上滑動步長為2、橫向上為1不進行滑動;將卷積層Conv1的輸出進行BN歸一化,并作為池化層的輸入,用ReLU函數(shù)作激活函數(shù),其中,批量歸一化是對某一層的輸入的小批量樣本數(shù)據(jù)進行歸一化處理,以減小每次輸入數(shù)據(jù)分布的變化,有利于網(wǎng)絡(luò)參數(shù)的訓(xùn)練,使網(wǎng)絡(luò)快速收斂,也能提高網(wǎng)絡(luò)的泛化能力。2910.3變分自編碼器29池化操作選擇最大池化(Maxpooling),步長為2;將第1個池化層的輸出進行Dropout操作,起到加入噪聲的作用,并將其作為第2個卷積層Conv2的輸入,同樣再進行BN歸一化和最大池化處理,通過一個200個神經(jīng)元的全連接層,輸出隱含層的均值和方差的對數(shù),利用重參數(shù)化采樣得到隱含層的特征;由于VAE是無監(jiān)督學(xué)習(xí),需要利用解碼過程重構(gòu)輸入數(shù)據(jù)完成訓(xùn)練,解碼過程是編碼過程的反向操作,用反卷積替換卷積操作。3010.3變分自編碼器30完成對VAE的訓(xùn)練后,得到隱含變量,并將作為卷積神經(jīng)網(wǎng)絡(luò)中卷積層Conv3的輸入。卷積層Conv3有32個特征面,卷積核大小為(4,1),Stride步長為1;將Conv3的輸出進行BN歸一化,再采用最大池化處理,并進入Dropout操作;Conv4有64個特征面,卷積核大小為(4,1),Stride步長為1;將Conv4的輸出進行BN歸一化,采用最大池化處理;池化層后連接一個100個神經(jīng)元的全連接層,并輸入到Softmax分類器。

利用交叉熵構(gòu)建多層卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型的損失函數(shù),通過反向微調(diào)更新網(wǎng)絡(luò)參數(shù)。多次訓(xùn)練后,完成對DCVAE網(wǎng)絡(luò)的優(yōu)化學(xué)習(xí)。3110.3變分自編碼器31本節(jié)采用式(10.3.14)所示的變化的Dropout,其中,p值逐步減小,并且p值取較大值的次數(shù)大于取較小值的次數(shù)。當(dāng)值取較大值,用于學(xué)習(xí)數(shù)據(jù)的細(xì)節(jié)特征;當(dāng)值取較小值,用于學(xué)習(xí)數(shù)據(jù)魯棒的判別性特征,降低模型對微小擾動的敏感性。如圖10.18所示,在DCVAE中,在VAE訓(xùn)練階段和多層卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練階段的第1個Maxpooling層后均使用了Dropout。式中,為網(wǎng)絡(luò)迭代訓(xùn)練的次數(shù);為第次迭代訓(xùn)練;為第次訓(xùn)練超參數(shù)的取值。3210.3變分自編碼器323.學(xué)習(xí)率更新學(xué)習(xí)率是一個重要的超參數(shù),控制著神經(jīng)網(wǎng)絡(luò)反向傳播權(quán)重更新的速度。學(xué)習(xí)率越大,沿著梯度下降的速度越快,網(wǎng)絡(luò)訓(xùn)練可能會錯過局部最優(yōu)解;學(xué)習(xí)率越小,權(quán)重更新速度越慢,錯過局部最優(yōu)解的概率越小,但網(wǎng)絡(luò)達(dá)到收斂所需要的時間相對更長。

為加快網(wǎng)絡(luò)收斂,在訓(xùn)練開始時,學(xué)習(xí)率取較大值;在接近最大訓(xùn)練次數(shù)時,學(xué)習(xí)率可取較小值。現(xiàn)采用利用隨機梯度下降法(stochasticgradientdescent,SGD)更新網(wǎng)絡(luò)參數(shù),學(xué)習(xí)率的取值為式中,為網(wǎng)絡(luò)迭代訓(xùn)練的次數(shù);為第次迭代訓(xùn)練;為第次迭代訓(xùn)練。3310.4自編碼回聲狀態(tài)網(wǎng)絡(luò)33回聲狀態(tài)網(wǎng)絡(luò)是一種具有新型結(jié)構(gòu)的遞歸神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)中特殊之處在于具有一個動態(tài)神經(jīng)元儲備池(dynamicneuronsreservoir,DNR)。儲備池由很多的神經(jīng)元組成,具有時序記憶功能。儲備池中的節(jié)點是隨機大規(guī)模產(chǎn)生并采用稀疏連接(1%~5%連接),采用廣義逆方法求取輸出權(quán)重,可以獲得全局最優(yōu)解,學(xué)習(xí)速度快。然而,回聲狀態(tài)網(wǎng)絡(luò)在處理高維、復(fù)雜過程數(shù)據(jù)時,儲備池需要配置大量的節(jié)點。樣本數(shù)據(jù)經(jīng)儲備池大量節(jié)點映射之后復(fù)雜度增大、維數(shù)升高,使網(wǎng)絡(luò)的計算量變大,進一步影響回聲狀態(tài)網(wǎng)絡(luò)的精度。

另一方面,求解回聲狀態(tài)網(wǎng)絡(luò)輸出權(quán)值采用廣義逆或者最小二乘法,這在處理高維數(shù)據(jù)尤其是存在共線性的數(shù)據(jù)時,求解的輸出權(quán)值不準(zhǔn)確。經(jīng)過儲備池大量節(jié)點的映射,儲備池輸出矩陣很容易存在共線性,從而影響輸出權(quán)值的求解,降低回聲狀態(tài)網(wǎng)絡(luò)模型的精度。3410.4自編碼回聲狀態(tài)網(wǎng)絡(luò)34為了解決該問題,對儲備池的輸出做降維處理。其中,自編碼神經(jīng)網(wǎng)絡(luò)就是一種有效的非線性特征提取方法。自編碼神經(jīng)網(wǎng)絡(luò)與自聯(lián)想神經(jīng)網(wǎng)絡(luò)模型具有相似的結(jié)構(gòu)和功能,都具有鏡像結(jié)構(gòu),輸入與輸出相同、中間層節(jié)點數(shù)目少于輸入輸出維度,因此,通過隱含層節(jié)點的映射可實現(xiàn)對輸入數(shù)據(jù)的壓縮。

自編碼神經(jīng)網(wǎng)絡(luò)中間瓶頸層在壓縮數(shù)據(jù)的同時能夠除去數(shù)據(jù)的噪聲,使得通過自編碼神經(jīng)網(wǎng)絡(luò)提取的特征既能實現(xiàn)降維又能去除噪聲。由于自編碼神經(jīng)網(wǎng)絡(luò)隱含層采用非線性激活函數(shù),從而保證了提取特征之間沒有共線性。3510.4自編碼回聲狀態(tài)網(wǎng)絡(luò)3510.4.1回聲狀態(tài)網(wǎng)絡(luò)回聲狀態(tài)網(wǎng)絡(luò)是一種特殊的遞歸神經(jīng)網(wǎng)絡(luò),如圖10.10所示。圖10.10為含有N個輸入節(jié)點、J個節(jié)點的儲備池和M個輸出節(jié)點的回聲狀態(tài)網(wǎng)絡(luò)。3610.4自編碼回聲狀態(tài)網(wǎng)絡(luò)36回聲狀態(tài)網(wǎng)絡(luò)的基本方程為式中,x、y、z分別為回聲狀態(tài)網(wǎng)絡(luò)的輸入、狀態(tài)和輸出變量;、、分別為輸入權(quán)值矩陣、儲備池權(quán)值矩陣、反饋權(quán)值矩陣;為輸出連接權(quán)值矩陣;為內(nèi)部激活函數(shù),設(shè)置為雙曲正切函數(shù)Tanh;為輸出層的激活函數(shù),設(shè)置為恒等函數(shù)。在實際應(yīng)用中,為了保證回聲狀態(tài)網(wǎng)絡(luò)的性能和穩(wěn)定性,需要保證狀態(tài)權(quán)矩陣的譜半徑小于1。輸出權(quán)值通過廣義逆的方式得到,當(dāng)儲備池中的節(jié)點過多時,儲備池的輸出(連接輸出層的輸出)維數(shù)過高,且數(shù)據(jù)之間存在共線性,這將影響輸出權(quán)值的求解。因此,通過自編碼神經(jīng)網(wǎng)絡(luò)實現(xiàn)數(shù)據(jù)降維和去除共線性,以提高回聲狀態(tài)網(wǎng)絡(luò)的精度。3710.4自編碼回聲狀態(tài)網(wǎng)絡(luò)3710.4.2自編碼-回聲狀態(tài)網(wǎng)絡(luò)FEAE-ESN模型建立步驟如下:步驟1:獲取有P組N個輸入M個輸出的訓(xùn)練數(shù)據(jù)樣本,步驟2:樣本經(jīng)過回聲狀態(tài)網(wǎng)絡(luò)的儲備池得到新狀態(tài)變量為式中,k代表數(shù)據(jù)采樣時間點;y為回聲狀態(tài)網(wǎng)絡(luò)的狀態(tài)變量;通過隨機方式生成、、。步驟3:狀態(tài)變量經(jīng)過更新后,連接輸出節(jié)點的數(shù)據(jù)為3810.4自編碼回聲狀態(tài)網(wǎng)絡(luò)38對于有P組N個輸入M個輸出的數(shù)據(jù)樣本,連接輸出節(jié)點的數(shù)據(jù)矩陣為對式(10.4.5)中的矩陣數(shù)據(jù)進行降維、去線性化,將其輸入到自編碼神經(jīng)網(wǎng)絡(luò)模型中,自編碼輸入節(jié)點數(shù)目與輸出節(jié)點數(shù)目為矩陣H的列數(shù),映射層的節(jié)點數(shù)目為,瓶頸層的神經(jīng)元個數(shù)設(shè)為。自編碼神經(jīng)網(wǎng)絡(luò)經(jīng)過誤差反傳算法訓(xùn)練好之后,映射層的輸出,瓶頸層的輸出,F(xiàn)為輸入H時自編碼神經(jīng)網(wǎng)絡(luò)的映射層輸出矩陣,G為自編碼神經(jīng)網(wǎng)絡(luò)的瓶頸層輸出矩陣,為輸入層與映射層神經(jīng)元連接權(quán)值矩陣。3910.4自編碼回聲狀態(tài)網(wǎng)絡(luò)39表示連接輸入層第i個輸入神經(jīng)元與第j個映射層神經(jīng)元的權(quán)值,為映射層的閾值向量,為映射層與瓶頸層神經(jīng)元連接權(quán)值矩陣;表示連接第j個映射神經(jīng)元與第m個瓶頸層神經(jīng)元的權(quán)值,為瓶頸層的閾值向量,為激活函數(shù),選為式中,為輸出連接權(quán)值矩陣,Y為期望輸出值;為矩陣G的廣義逆。步驟5:利用測試樣本對其特性進行驗證。4010.4自編碼回聲狀態(tài)網(wǎng)絡(luò)40綜上,F(xiàn)EAE-ESN模型結(jié)構(gòu),如圖10.11所示;其建立步驟,如圖10.12所示。圖10.11圖10.124110.5深度典型相關(guān)稀疏自編碼器41為了尋找兩種類型數(shù)據(jù)之間復(fù)雜的非線性關(guān)系并解決小樣本問題,文獻(xiàn)[227224]提出深度典型相關(guān)稀疏自編碼器(DeepCanonicallyCorrelatedSparseAutoencoder,DCCSAE)。。4210.5深度典型相關(guān)稀疏自編碼器4210.5.1深度典型相關(guān)分析Andrew等[226223]設(shè)計了一種稱為DCCA的典型相關(guān)分析的深度神經(jīng)網(wǎng)絡(luò)如圖所示。DCCA可以克服無法檢測復(fù)雜非線性相關(guān)性的CCA限制。在DCCA中,兩個DNN可以學(xué)習(xí)每個數(shù)據(jù)集的非線性表示。4310.5深度典型相關(guān)稀疏自編碼器43DCCA是通過最大化兩個DNN輸出的典型相關(guān)性獲得的,即式中式中,N表示數(shù)據(jù)總數(shù),X和Y表示兩個數(shù)據(jù)集的輸入矩陣,I是單位矩陣,f(X)和g(Y)分別表示具有參數(shù)和的兩個DNN的非線性表示,而U和V是最終輸出的投影向量。4410.5深度典型相關(guān)稀疏自編碼器4410.5.2堆砌稀疏自編碼器自動編碼器可以進一步堆疊在一起,以獲取更多的信息。通過使用多個自編碼器,得到堆疊稀疏自編碼器(StackSparseAutoencode,SSAE)[228225],如圖10.14所示,編碼層連接到下一個SAE的輸入層,以便更好地提取特征。4510.5深度典型相關(guān)稀疏自編碼器4510.5.3DCCSAE在探索兩類數(shù)據(jù)的非線性映射時,DCCA的效果良好。SAE在尋求單個數(shù)據(jù)的非線性表示方面取得了巨大成功。然而DCCA無法實現(xiàn)有效的非線性降維,SAE無法探索跨模態(tài)數(shù)據(jù)之間的相關(guān)性。將DCCA與SAE結(jié)合起來以獲得兩種數(shù)據(jù)類型的最佳表示,得到DCCSAE,如圖10.15所示。DCCSAE尋求兩個數(shù)據(jù)集的深度網(wǎng)絡(luò)表示,最大化兩者之間的典型相關(guān)性,同時最小化稀疏自編碼器的重建誤差。DCCSAE的代價函數(shù)定義為4610.5深度典型相關(guān)稀疏自編碼器46式中,和是用于為每個數(shù)據(jù)集提取非線性特征的DNN,同時對每個輸入進行編碼。和是將DNN輸出投影到具有L個單位頂層的CCA方向;和分別表示輸入和輸入重建。定義為式中,表示這個隱含層神經(jīng)元j對輸入層所有節(jié)點激活平均值,對于也是類似的。4710.6條件雙重對抗自編碼網(wǎng)絡(luò)47當(dāng)前,基于深度學(xué)習(xí)的紅外目標(biāo)識別最大問題是難以獲取足夠的已標(biāo)注的真實目標(biāo)數(shù)據(jù)集,導(dǎo)致對模型訓(xùn)練不充分,影響系統(tǒng)的整體性能。文獻(xiàn)[229226]首次提出了基于生成對抗網(wǎng)絡(luò)(GAN)的紅外目標(biāo)仿真方法,但由于GAN訓(xùn)練不穩(wěn)定等問題,導(dǎo)致目標(biāo)圖像的生成效果并不理想。

針對上述問題,文獻(xiàn)[229226]提出了條件雙重對抗自編碼建模方法。該方法通過將GAN和變分自編碼(VAE)相結(jié)合,在保證圖像真實性和網(wǎng)絡(luò)多樣性前提下生成了不同類別的紅外目標(biāo),為目標(biāo)識別算法的訓(xùn)練提供了更加豐富的樣本,提高了目標(biāo)識別的準(zhǔn)確率。4810.6條件雙重對抗自編碼網(wǎng)絡(luò)4810.6.1CDAAE模型與GAN相比,VAE的訓(xùn)練通常比較穩(wěn)定且能夠覆蓋數(shù)據(jù)集中所有的樣本。然而,VAE在計算KL散度時實際優(yōu)化的是對數(shù)似然函數(shù)的下界而非似然函數(shù)本身,因此實際生成的圖像通常比較模糊。

結(jié)合GAN和VAE各自的優(yōu)缺點,文獻(xiàn)[229226]提出了一種條件雙重對抗自編碼器(conditionaldoubleadversarialautoencoderingnetwork,CDAAE)的紅外目標(biāo)建模方法,該方法在VAE基礎(chǔ)上通過加入判別器和目標(biāo)類別信息來生成多種類別的紅外目標(biāo)圖像。CDAAE模型框架共包含四個網(wǎng)絡(luò),如圖10.16所示,分別為編碼器、解碼器、潛空間判別器及樣本判別器。4910.6條件雙重對抗自編碼網(wǎng)絡(luò)49

在CDAAE模型中,為了使映射到潛空間的數(shù)據(jù)滿足特定的數(shù)據(jù)分布,不再使用VAE中近似計算KL散度的方式,而是設(shè)計了一個潛空間判別器,通過神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)該數(shù)據(jù)分布,形成了模型中的第一重對抗。5010.6條件雙重對抗自編碼網(wǎng)絡(luò)50

在CDAAE模型中,為了使映射到潛空間的數(shù)據(jù)滿足特定的數(shù)據(jù)分布,不再使用VAE中近似計算KL散度的方式,而是設(shè)計了一個潛空間判別器,通過神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)該數(shù)據(jù)分布,形成了模型中的第一重對抗。5110.6條件雙重對抗自編碼網(wǎng)絡(luò)51編碼器輸出的潛空間數(shù)據(jù)在和類別標(biāo)簽y結(jié)合后,經(jīng)過解碼器生成重構(gòu)后的樣本。

除常規(guī)通過計算重構(gòu)樣本與真實樣本的均方誤差(MSE)來優(yōu)化解碼器網(wǎng)絡(luò)的方式外,采用平均誤差(MAE)準(zhǔn)則設(shè)計樣本判別器,以對重構(gòu)樣本與真實樣本進行邏輯判別和分類,從而進一步約束解碼器網(wǎng)絡(luò),提高樣本生成效果,由此形成模型的第二重對抗。通過對整個網(wǎng)絡(luò)的訓(xùn)練,最后僅需將類別標(biāo)簽和符合分布的隨機采樣數(shù)據(jù)輸入解碼器中,即可獲得形貌逼真、樣式豐富的紅外目標(biāo)圖像。5210.6條件雙重對抗自編碼網(wǎng)絡(luò)5210.6.2算法原理為了高效地生成符合要求的紅外目標(biāo)圖像,文獻(xiàn)[229226]建立了基于CDAAE的紅外建模方法。整個算法分為模型訓(xùn)練和目標(biāo)生成兩個階段。在模型訓(xùn)練階段,通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)樣本的潛在數(shù)據(jù)分布,在目標(biāo)生成階段利用學(xué)習(xí)得到的網(wǎng)絡(luò)參數(shù)生成期望類別的紅外目標(biāo)。1.模型訓(xùn)練第一重對抗為編碼器E與潛空間判別器之間的對抗,圖10.17給出了二者的網(wǎng)絡(luò)結(jié)構(gòu)。編碼器E包含2個卷積層和2個全連接層,共4個中間層,其中所有卷積層的卷積核尺寸均為4×4、步長均為2。潛空間判別器包含3個全連接層并以其作為中間層。為了提高訓(xùn)練效率和穩(wěn)定性,所有的中間層在完成數(shù)據(jù)非線性變換后均使用批量歸一化(BN)處理,并將LReLU作為激活函數(shù)。5310.6條件雙重對抗自編碼網(wǎng)絡(luò)535410.6條件雙重對抗自編碼網(wǎng)絡(luò)54訓(xùn)練開始階段,首先從數(shù)據(jù)集中隨機選取M張圖片組成批處理樣本集合x,并將其作為編碼器E的輸入。x在通過兩層卷積(Conv1,Conv2)處理后,將維度從四維降到二維,再通過2個全連接層(FC1,F(xiàn)C2)對數(shù)據(jù)進行壓縮,輸出維度為的潛空間數(shù)據(jù),從而完成從原始數(shù)據(jù)到潛空間數(shù)據(jù)的映射。為了使映射后的數(shù)據(jù)滿足特定的數(shù)據(jù)分布,將潛空間數(shù)據(jù)和從中隨機采樣的數(shù)據(jù)分別輸入到潛空間判別器中,經(jīng)過3個全連接層(FC1,F(xiàn)C2,F(xiàn)C3)處理后,通過Sigmoid函數(shù)輸出判別概率。最后利用判別概率分別計算編碼器和潛空間判別器的熵?fù)p失函數(shù)和,并反向傳播更新兩個網(wǎng)絡(luò)的參數(shù)和,以達(dá)到最小化損失函數(shù)的目標(biāo)。和的表達(dá)式為5510.6條件雙重對抗自編碼網(wǎng)絡(luò)55完成第一重對抗的訓(xùn)練后﹐進入第二重對抗訓(xùn)練。第二重對抗為解碼器與樣本判別器之間的對抗,圖10.18為二者的網(wǎng)絡(luò)結(jié)構(gòu)。由于解碼實際上是編碼的逆過程,因而解碼器采用與編碼器對稱的網(wǎng)絡(luò)結(jié)構(gòu),包含3個全連接層和2個反卷積層,實現(xiàn)了潛空間數(shù)據(jù)到重構(gòu)樣本的映射。樣本判別器由于輸入數(shù)據(jù)與編碼器相同,因而采用了與其類似的中間層網(wǎng)絡(luò)結(jié)構(gòu),包含2個卷積層和2個全連接層。

其中,解碼器和樣本判別器的所有卷積層和反卷積層的卷積核大小均為4×4、步長均為2。在所有中間層的最后均進行BN處理并使用LReLU作為激活函數(shù)。圖10.18表明,樣本判別器最終不僅會辨別樣本的真?zhèn)危瑫r還會輸出樣本的類別標(biāo)簽,因而該網(wǎng)絡(luò)還具備標(biāo)注未分類樣本的功能。5610.6條件雙重對抗自編碼網(wǎng)絡(luò)56第二重對抗開始,首先對第一重對抗中編碼器的輸出與對應(yīng)樣本集合的類別標(biāo)簽進行連接,并且以此作為解碼器

的輸入。其中,類別標(biāo)簽是對原始類別標(biāo)簽onehot編碼后的結(jié)果,的維度為(m×n)。在經(jīng)過3個全連接層(FC1,F(xiàn)C2,F(xiàn)C3)處理后﹐再通過2層反卷積(Deconvl,Deconv2)完成數(shù)據(jù)的上采樣,最終生成重構(gòu)后的樣本。利用重構(gòu)樣本,將MSE和MAE相結(jié)合的重構(gòu)損失函數(shù)作為解碼器總損失函數(shù)的一部分,表達(dá)式為式中,為重構(gòu)樣本和原始樣本的MSE;為重構(gòu)樣本和原始樣本的MAE;為MSE和MAE的權(quán)重系數(shù),取值范圍為(0,1)。5710.6條件雙重對抗自編碼網(wǎng)絡(luò)57將生成的重構(gòu)樣本與真實樣本分別送入樣本判別器。經(jīng)過卷積層(Convl,Conv2)和全連接層(FC1,F(xiàn)C2)一系列處理,最終輸出經(jīng)Sigmoid函數(shù)變換的判別概率和經(jīng)Softmax函數(shù)變換的類別概率。5810.6條件雙重對抗自編碼網(wǎng)絡(luò)利用該輸出結(jié)果,可分別計算解碼器和樣本判別器的熵?fù)p失函數(shù)和,表達(dá)式為式中,當(dāng)輸入為重構(gòu)樣本時,為樣本判別器判斷重構(gòu)樣本為真的概率,為樣本判別器估計重構(gòu)樣本類別為

的概率。式中,當(dāng)輸入為重構(gòu)樣本時,為樣本判別器判斷重構(gòu)樣本為假的概率;當(dāng)輸入為真實樣本時,為樣本判別器判斷真實樣本為真的概率,為樣本判別器估計真實樣本類別為y的概率。5910.7自編碼應(yīng)用模型稀疏自動編碼器在特征提取時的重構(gòu)誤差將輸入樣本每一維的重構(gòu)精度視為同等地位,但事實上軟測量模型的各個輸入變量(樣本的每一維)與輸出變量之間的相關(guān)性各不相同。

因此,為了提取與輸出變量相關(guān)性更強的特征,對于與輸出變量相關(guān)性高的輸入變量,應(yīng)該使樣本所對應(yīng)維度的重構(gòu)精度更高。為此,文獻(xiàn)[232229]將引入互信息計算輸入變量與輸出變量之間的相關(guān)性來對稀疏自編碼器的重構(gòu)誤差項進行加權(quán),從而進一步提高軟測量模型的精度。10.7.1基于互信息稀疏自編碼的軟測量模型6010.7自編碼應(yīng)用模型1.互信息互信息是兩個隨機變量之間統(tǒng)計相關(guān)性的測度,它可以給出兩個變量之間的線性相關(guān)性和非線性相關(guān)性程度。令表示兩個隨機變量和之間的互信息,它是非負(fù)的,可表示為式中,表示和之間的聯(lián)合概率密度,和分別表示它們的邊緣概率密度。互信息的求解主要基于概率密度、和的估計,但由于對數(shù)據(jù)分布沒有先驗知識,需要單從數(shù)據(jù)本身來擬合出其概率密度分布,因此該密度估計較為復(fù)雜,現(xiàn)采用非參數(shù)估計的核密度估計方法來進行計算。6110.7自編碼應(yīng)用模型假設(shè)數(shù)據(jù)樣本集為則每一維輸入變量與輸出變量之間的互信息,則可以表示為,,則每一維輸入變量與輸出變量之間的互信息可以表示為式中,

表示第維輸入變量的N個采樣值。再利用求出的互信息計算出每一維輸入變量對應(yīng)的權(quán)值6210.7自編碼應(yīng)用模型2.互信息稀疏自編碼利用求得的權(quán)值對重構(gòu)誤差項進行加權(quán),則式(10.6.1)可修改為因此,最后得到的互信息稀疏自編碼代價函數(shù)為式中,β表示稀疏項系數(shù),一般憑經(jīng)驗或?qū)嶒灲o出。使用擬牛頓法(Limited-memoryBFGS,LBFGS)對進行最小化,從而得到編碼器所需參數(shù)。6310.7自編碼應(yīng)用模型2.互信息稀疏自編碼利用求得的權(quán)值對重構(gòu)誤差項進行加權(quán),則式(10.6.1)可修改為因此,最后得到的互信息稀疏自編碼代價函數(shù)為式中,β表示稀疏項系數(shù),一般憑經(jīng)驗或?qū)嶒灲o出。使用擬牛頓法(Limited-memoryBFGS,LBFGS)對進行最小化,從而得到編碼器所需參數(shù)。6410.7自編碼應(yīng)用模型LBFGS方法是牛頓法的一種改進,具體步驟如下:步驟1:給定初始對稱正定矩陣,誤差限,參數(shù)矩陣初值,迭代次數(shù)。步驟2:計算梯度,若,算法終止;否則令,轉(zhuǎn)步驟3。步驟3:由線性搜索確定步長大小(一般設(shè)置初始步長為1),需要滿足如Wolfe-Powell條件:式中,,,則。6510.7自編碼應(yīng)用模型步驟4:計算:式中,為非負(fù)整數(shù),用來控制向量組的存儲個數(shù),令。步驟5:計算:步驟6:令k=k+1,轉(zhuǎn)到步驟2。6610.7自編碼應(yīng)用模型3.最小二乘支持向量機軟測量建模支持向量機的基本思想是將輸入向量映射到高維特征空間,再構(gòu)造最優(yōu)決策函數(shù)。最小二乘支持向量機是支持向量機的一種擴展,它只求解線性方程,因而求解速度更快。現(xiàn)用一組非線性映射將樣本從原始空間映射到高維特征空間,則在高維空間中構(gòu)造最優(yōu)決策函數(shù)。利用結(jié)構(gòu)風(fēng)險最小化原則,最小二乘支持向量機的目標(biāo)函數(shù)為式中,為正規(guī)化參數(shù),利用拉格朗日法求解6710.7自編碼應(yīng)用模型式中,是拉格朗日乘子,由KKT條件為消除、,得到矩陣線性方程組:可得6810.7自編碼應(yīng)用模型式中,,,,是核函數(shù),}。選取不同的核函數(shù),可以構(gòu)造不同的支持向量機。由于徑向基函數(shù)有良好的跟蹤性能,因此比較適合被選取用于建立軟測量模型,其形式為式中,為核函數(shù)的帶寬。6910.7自編碼應(yīng)用模型最終方程組求解得到回歸函數(shù)最小二乘支持向量機的超參數(shù)、可以通過遺傳算法(Geneticalgorithm,GA)最小化均方根誤差(Rootmeansquareerror,RMSE)尋優(yōu)得到。將互信息稀疏自編碼和最小二乘支持向量機結(jié)合進行軟測量建模,其步驟如下:步驟1:將數(shù)據(jù)集劃分為訓(xùn)練樣本和測試樣本。本節(jié)用和分別表示訓(xùn)練樣本的輸入和輸出,和分別表示測試樣本的輸入和輸出。步驟2:對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,將數(shù)據(jù)置于0到1之間。7010.7自編碼應(yīng)用模型步驟3:利用式(10.7.2)計算每一維輸入變量與所需要估計的輸出變量之間的互信息,再利用式(10.7.3)計算出對應(yīng)的權(quán)值。步驟4:用訓(xùn)練樣本的輸入來訓(xùn)練所提互信息稀疏自編碼器,通過最小化成本函數(shù)(式(10.7.4)),獲得自編碼器的網(wǎng)絡(luò)參數(shù),并且得到的特征。步驟5:將作為輸入數(shù)據(jù),作為輸出數(shù)據(jù),通過遺傳算法對參數(shù)進行尋優(yōu),訓(xùn)練最小二乘支持向量機模型。步驟6:將訓(xùn)練好的模型應(yīng)用于測試樣本,即提取的隱含層特征,并輸入到訓(xùn)練好的LSSVM模型中得到其模型估計值。7110.7自編碼應(yīng)用模型步驟7:具體軟測量建模和預(yù)測流程框圖,如圖10.20所示7210.7自編碼應(yīng)用模型深度自編碼的網(wǎng)絡(luò)模糊推理系統(tǒng)是用深度自編碼網(wǎng)絡(luò)與模糊推理系統(tǒng)相結(jié)合的方法。其中模糊推理系統(tǒng)采用Sugeno模糊模型,與傳統(tǒng)If-then推理模型相比,其對非線性系統(tǒng)動態(tài)特性描述能力更強。10.7.2基于深度自編碼網(wǎng)絡(luò)的模糊推理模型1.模糊推理系統(tǒng)不失一般性,僅以二輸入一階Sugeno模型的模糊if-then規(guī)則進行說明,其規(guī)則如下:式中,和為輸入值;和為模糊集,,為對應(yīng)模糊規(guī)則下各規(guī)則的加權(quán)輸出;,和為訓(xùn)練后的加權(quán)系數(shù)。7310.7自編碼應(yīng)用模型模糊推理系統(tǒng),如圖10.21所示。第一層為模糊化處理層,所有節(jié)點都是自適應(yīng)節(jié)點,其輸出是輸入的模糊隸屬度,即式中,和可以采用任何模糊隸屬函數(shù),采用鐘形隸屬函數(shù)實現(xiàn)輸入信號的模糊化,即。7410.7自編碼應(yīng)用模型式中,,和為隸屬度函數(shù)參數(shù);為第一層輸出。第二層為可信度處理層,即將第一層的輸出信號進行相乘,得到每一條規(guī)則下的可信度,該層的輸出為第三層為歸一化處理層,得到歸一化后的可信度指標(biāo);第四層為規(guī)則輸出層,即計算輸入數(shù)據(jù)對應(yīng)輸出規(guī)則下的加權(quán)輸出;第五層為最終結(jié)果層,即輸出最終的推理結(jié)果。模糊推理系統(tǒng)的推理精度提升即確定最優(yōu)的權(quán)重系數(shù),和,可采用梯度下降法與最小二乘法相結(jié)合加以解決。7510.7自編碼應(yīng)用模型2.深度自編碼網(wǎng)絡(luò)-模糊推理系統(tǒng)[236233]當(dāng)輸入特征量的數(shù)量較多時,傳統(tǒng)模糊推理系統(tǒng)會存在計算時間復(fù)雜度過大即訓(xùn)練時長過長的缺點,故采用深度自編碼網(wǎng)絡(luò)對其進行改進。對于輸入層到可信度處理層,采用編碼器進行改進,而規(guī)則輸出層到最終的推理輸出層則采用自編碼網(wǎng)絡(luò)進行改進。

不妨設(shè)輸入數(shù)據(jù)為N維,可信度處理層為J維,規(guī)則輸出層為M維,最終推理結(jié)果層為1維。從而輸入層到可信度處理層的映射以及規(guī)則輸出層到推理輸出層的映射表示為式中,為隸屬度函數(shù);為輸入特征量;、分別為對應(yīng)維度的權(quán)重矩陣。7610.7自編碼應(yīng)用模型設(shè)輸入樣本集,每個樣本均包含N個特征量,即,深度自編碼網(wǎng)的損失函數(shù)定義為實際求解過程同樣可采用梯度下降法進行求解,步驟如下:步驟1:求解關(guān)于權(quán)重矩陣的偏導(dǎo)數(shù)。由于的列數(shù)相同,不妨令損失函數(shù)(10.8.10)定義了輸入特征向量通過所提出的深度自編碼模糊系統(tǒng)后與最終輸出結(jié)果之間的誤差。故而可采用最小化損失函數(shù)來訓(xùn)練權(quán)值矩陣、,即目標(biāo)函數(shù)可選擇為7710.7自編碼應(yīng)用模型則偏導(dǎo)數(shù)記為步驟2:不斷更新。每次迭代的訓(xùn)練樣本,其權(quán)重矩陣的調(diào)整都沿著梯度最小的方向進行減少,數(shù)學(xué)表達(dá)為7810.7自編碼應(yīng)用模型神經(jīng)網(wǎng)絡(luò)中隱含層節(jié)點數(shù)越多,網(wǎng)絡(luò)的處理效果越好,但隱含層節(jié)點的增多會導(dǎo)致網(wǎng)絡(luò)參數(shù)規(guī)模增大,進而使網(wǎng)絡(luò)的訓(xùn)練時間大幅增加,甚至導(dǎo)致硬件儲存空間不足等問題,如何快速訓(xùn)練網(wǎng)絡(luò)就成為重要的研究課題。

文獻(xiàn)[238235]提出一種基于特征聚類的快速稀疏自編碼模型。首先對已有特征進行K均值聚類以降低特征冗余度,并選擇聚類最佳分類數(shù)作為網(wǎng)絡(luò)的本質(zhì)特征個數(shù),重新訓(xùn)練獲取網(wǎng)絡(luò)本質(zhì)特征,再對本質(zhì)特征進行旋轉(zhuǎn)和彈性扭曲,擴充特征多樣性,保證網(wǎng)絡(luò)處理效果。10.7.3基于特征聚類的快速稀疏自編碼模型7910.7自編碼應(yīng)用模型1.特征聚類特征可視化的網(wǎng)絡(luò)特征中計算出部分特征的相似度較高,表明一般網(wǎng)絡(luò)訓(xùn)練的特征冗余度大。因此提出對已有特征進行K均值聚類以降低特征冗余度大,并選擇最佳分類后的個數(shù)作為網(wǎng)絡(luò)的本質(zhì)特征個數(shù),將本質(zhì)特征進行旋轉(zhuǎn)和彈性扭曲操作擴充其多樣性。(1)特征重復(fù)現(xiàn)象為探究網(wǎng)絡(luò)學(xué)習(xí)到的信息,可按照模最大化的方式將網(wǎng)絡(luò)隱含層學(xué)習(xí)到的特征可視化,其主要原理是求解使隱含層節(jié)點響應(yīng)最大的輸入模式并可視化。在處理手寫體數(shù)字圖像數(shù)據(jù)時,經(jīng)典稀疏自編碼網(wǎng)絡(luò)的196個初級特征可視化結(jié)果,如圖10.22所示。8010.7自編碼應(yīng)用模型該圖顯示網(wǎng)絡(luò)初級特征為輸入數(shù)據(jù)的邊緣信息,且其中多處特征相似度高,圖中框出的是相似度高的一類特征。大量實驗證實這種特正冗余現(xiàn)象普遍存在,可通過適當(dāng)縮減網(wǎng)絡(luò)中隱含層的節(jié)點個數(shù)來降低特征的冗余性、縮短訓(xùn)練時間。8110.7自編碼應(yīng)用模型在調(diào)整網(wǎng)絡(luò)參數(shù)或多次重復(fù)實驗時,需要不斷初始化網(wǎng)絡(luò)進行重復(fù)訓(xùn)練,若利用K均值聚類方法確定網(wǎng)絡(luò)的本質(zhì)特征個數(shù),則可直接使用本質(zhì)特征個數(shù)初始化網(wǎng)絡(luò)的隱含層神經(jīng)元個數(shù),而本質(zhì)特征個數(shù)遠(yuǎn)少于一般網(wǎng)絡(luò)隱含層神經(jīng)元個數(shù),所以待訓(xùn)練的特征個數(shù)大幅減少,使網(wǎng)絡(luò)訓(xùn)練耗時下降。(2)特征聚類為降低特征的冗余度,可對已有特征進行K均值聚類,得到最佳類別數(shù)也稱為網(wǎng)絡(luò)本質(zhì)特征個數(shù)。由于數(shù)據(jù)被最佳分類后,同類數(shù)據(jù)之間聚合性強、不同類別數(shù)據(jù)間距離大,所以可按照類間距與類內(nèi)距比值最大原則選擇最佳分類數(shù)。求取最佳聚類數(shù)的算法是先設(shè)定最大類別數(shù)為,再使類別數(shù)從1遍歷到,對每個類別數(shù)計算8210.7自編碼應(yīng)用模型式中,為樣本與同類中其他樣本的平均距離,為樣本所在類別中樣本的總個數(shù);為樣本與其他類別中心樣本的最小距離,表示樣本所在類別,為第類數(shù)據(jù)的中心樣本,為樣本劃分的類別數(shù);為樣本分為類的聚合效果指標(biāo),為樣本的總量,越大則表示分類結(jié)果的聚合性越好。8310.7自編碼應(yīng)用模型試驗遍歷類別數(shù)后,得到值最大對應(yīng)的類別數(shù),再通過多次重復(fù)試驗,選取結(jié)果中出現(xiàn)次數(shù)最多的類別數(shù)作為最佳分類個數(shù),得到本質(zhì)特征個數(shù)后,可將自編碼網(wǎng)絡(luò)隱含層節(jié)點個數(shù)初始化為本質(zhì)特征個數(shù),重新構(gòu)造自編碼網(wǎng)絡(luò)訓(xùn)練得到數(shù)據(jù)的本質(zhì)特征。

網(wǎng)絡(luò)在使用本質(zhì)特征時減少了特征冗余度,但同時也會小幅降低網(wǎng)絡(luò)的分類準(zhǔn)確率,因此還需通過旋轉(zhuǎn)扭曲操作增加特征的多樣性。(3)增加特征多樣性圖10.22表明,相似特征之間存在的細(xì)微差別構(gòu)成了特征的多樣性。一般擴充圖像特征多樣性時,可采取旋轉(zhuǎn)操作豐富特征圖像的方向性,也可采取對圖像數(shù)據(jù)的扭曲增加圖像的多樣性。8410.7自編碼應(yīng)用模型對特征圖像旋轉(zhuǎn)不同角度以增加特征圖像的方向性,而對旋轉(zhuǎn)后的部分特征進行彈性扭曲則可進一步增加特征的圖像多樣性。彈性扭曲操作的第一步是對圖像進行隨機映射,利用雙線性差值法計算坐標(biāo)為

處的像素值,然后利用式(10.7.15)更新坐標(biāo)為的像素值式中,是彈性形變參數(shù),控制彈性扭曲程度;表示圖像在坐標(biāo)點為處的新像素值和、為大小-1到1之間的隨機數(shù)。彈性扭曲操作第二步則是對第一步得到結(jié)果進行高斯模糊。8510.7自編碼應(yīng)用模型

圖10.23為普通數(shù)字圖像經(jīng)彈性扭曲兩個步驟的處理結(jié)果對比,該圖表明若僅僅對圖像進行隨機映射,圖像數(shù)字邊緣呈鋸齒狀,與原圖像差別過大,所以扭曲操作的第二步,可使數(shù)據(jù)的邊緣趨于平滑。網(wǎng)絡(luò)的本質(zhì)特征經(jīng)過旋轉(zhuǎn)扭曲操作后,其多樣性會得到很大的優(yōu)化,網(wǎng)絡(luò)特征豐富的多樣性可以防止網(wǎng)絡(luò)過擬合,使網(wǎng)絡(luò)特征在原特征圖像基礎(chǔ)之上增加新的信息,從而得到更高的分類準(zhǔn)確率。8610.7自編碼應(yīng)用模型4.基于特征聚類的快速稀疏自編碼器算法架構(gòu)基于特征聚類的稀疏自編碼快速算法架構(gòu)如下:步驟1:隨機選取數(shù)據(jù)的一部分作為訓(xùn)練數(shù)據(jù)輸入自編碼網(wǎng)絡(luò),并設(shè)置網(wǎng)絡(luò)層數(shù)和每層網(wǎng)絡(luò)節(jié)點數(shù)等超參數(shù),通過LBFCS梯度下降法訓(xùn)練網(wǎng)絡(luò);步驟2:對訓(xùn)練好的第一個自編碼網(wǎng)絡(luò)特征進行K均值聚類,得到最佳聚類個數(shù);步驟3:構(gòu)造一個新的自編碼網(wǎng)絡(luò),設(shè)置網(wǎng)絡(luò)的隱含層結(jié)點個數(shù)為,提取訓(xùn)練好的隱含層特征;步驟4:對個特征進行扭曲和旋轉(zhuǎn),擴充特征;步驟5:構(gòu)造第二個自編碼網(wǎng)絡(luò),以步驟4獲得的特征為輸入,訓(xùn)練學(xué)習(xí)網(wǎng)絡(luò);步驟6:重復(fù)步驟2~步驟5直至達(dá)到初始設(shè)置的網(wǎng)絡(luò)層數(shù),并利用全部數(shù)據(jù)對網(wǎng)絡(luò)進行微調(diào)。8710.7自編碼應(yīng)用模型極限學(xué)習(xí)機(ExtremeLearningMachine,ELM)是一種簡單高效的單隱層前饋神經(jīng)網(wǎng)絡(luò)(SingleHiddenLayerFeedforwardNeuralNetwork,SLFN)。ELM輸入權(quán)重和隱含層偏置均為隨機生成,輸出權(quán)值通過求解最小化平方損失函數(shù)獲得,能夠有效解決傳統(tǒng)SLFN收斂速度慢、容易產(chǎn)生局部最優(yōu)解問題。棧式降噪稀疏自編碼器(stackedDenoisingSparseAuto-Encoder,sDSAE)加入了稀疏性約束使網(wǎng)絡(luò)結(jié)構(gòu)得到優(yōu)化,能夠更好地提取數(shù)據(jù)的深層特征;而去噪處理則降低了噪聲干擾,增強了算法魯棒性。將sDSAE與ELM相結(jié)合的sDSAE-ELM利用sDSAE產(chǎn)生ELM的輸入權(quán)值和隱含層偏置,以解決ELM輸入權(quán)重和隱含層偏置隨機賦值導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、魯棒性弱的問題,同時保留ELM訓(xùn)練速度快的優(yōu)勢。10.7.4基于棧式降噪稀疏自編碼器的極限學(xué)習(xí)機8810.7自編碼應(yīng)用模型1.極限學(xué)習(xí)機ELM是一種具有快速學(xué)習(xí)能力的SLFN算法﹐其網(wǎng)絡(luò)結(jié)構(gòu)如圖10.24所示。10.7.4基于棧式降噪稀疏自編碼器的極限學(xué)習(xí)機8910.7自編碼應(yīng)用模型1.極限學(xué)習(xí)機ELM是一種具有快速學(xué)習(xí)能力的SLFN算法﹐其網(wǎng)絡(luò)結(jié)構(gòu)如圖10.24所示。在ELM中,輸入層有N個節(jié)點,隱含層有J個節(jié)點,輸出層有M個節(jié)點,輸入層與隱含層節(jié)點的連接權(quán)值和隱含層節(jié)點的偏置隨機產(chǎn)生。假設(shè)N個樣本,,則該網(wǎng)絡(luò)的輸出為式中,,為N個輸入層節(jié)點與第j個隱含層節(jié)點之間的輸入權(quán)值向量,為第j個隱含層節(jié)點偏置值,是隱含層節(jié)點的激活函數(shù),為第j個隱含層節(jié)點與M個輸出層節(jié)點之間的輸出權(quán)值向量。9010.7自編碼應(yīng)用模型令表示輸入數(shù)據(jù)的隱層輸出﹐用表示數(shù)據(jù)樣本在隱含層的輸出矩陣,即令表示樣本的目標(biāo)輸出,則該系統(tǒng)矩陣表達(dá)式為9110.7自編碼應(yīng)用模型網(wǎng)絡(luò)的訓(xùn)練過程相當(dāng)于求解式(10.7.17)的最小二乘解,得通常情況下,隱層節(jié)點數(shù)1小于訓(xùn)練樣本數(shù)N。因此,對求解得到:式中,表示的Moore-Penrose(MP)廣義逆,此解具有唯一性,可使網(wǎng)絡(luò)訓(xùn)練誤差達(dá)到最小值。的表達(dá)式為9210.7自編碼應(yīng)用模型為獲得更好的學(xué)習(xí)能力,采用正交投影法計算輸出權(quán)值,在的對角線上增加一個正實數(shù)[14],則式(10.11.6)轉(zhuǎn)化為式中,Ⅰ為單位矩陣,C為正則化系數(shù)。9310.7自編碼應(yīng)用模型ELM的學(xué)習(xí)過程如算法10.1所示。算法10.1ELM輸入訓(xùn)練集,,激活函數(shù),隱含層節(jié)點數(shù)輸出輸出權(quán)重步驟1:隨機生成輸入權(quán)值和隱層偏置。步驟2:根據(jù)式(10.7.16)計算隱層輸出矩陣H。步驟3:據(jù)式(10.7.21)計算輸出權(quán)重。9410.7自編碼應(yīng)用模型2.降噪稀疏自編碼器降噪稀疏自編碼器(DSAE)是在SAE基礎(chǔ)上,對原始樣本數(shù)據(jù)進行退化處理,其目的在于排除噪聲干擾,更好地重構(gòu)原始輸入,增強算法的魯棒性。DSAE網(wǎng)絡(luò)結(jié)構(gòu),如圖10.25所示。

DSAE的訓(xùn)練過程包括退化﹑稀疏編碼和解碼3個階段。首先根據(jù)事先設(shè)定好的退化率

將原始輸入數(shù)據(jù)

置0,得到退化數(shù)據(jù);然后對退化后的數(shù)據(jù)進行稀疏編碼,得到編碼數(shù)據(jù);最后對編碼數(shù)據(jù)進行解碼,得到重構(gòu)數(shù)據(jù)。9510.7自編碼應(yīng)用模型在此基礎(chǔ)上,調(diào)整各層參數(shù)最小化重構(gòu)誤差,用損失函數(shù)來表示,得到輸入特征的最優(yōu)表示。稀疏編碼和解碼過程的計算公式,分別為式中,為激活函數(shù),一般取sigmoid函數(shù),和分別為稀疏編碼的權(quán)重矩陣和偏置向量,和分別為解碼的權(quán)值矩陣和偏置向量,。假設(shè)訓(xùn)練集,則DSAE的整體損失函數(shù)為9610.7自編碼應(yīng)用模型式中,等號右邊的第一部分為平方差誤差項,第二部分是權(quán)重衰減項(也稱為正則化項),其目的是減小權(quán)重大小防止過擬合,是權(quán)重衰減參數(shù),第三部分是稀疏懲罰項,為稀疏懲罰權(quán)重,為隱層節(jié)點數(shù)。3.棧式降噪稀疏自編碼器DSAE屬于淺層網(wǎng)絡(luò),學(xué)習(xí)能力有限,而棧式降噪稀疏自編碼器(sDSAE)由多個DSAE堆棧而成,其以前一隱含層輸出作為后一隱含層輸入,逐層訓(xùn)練,在處理高維大數(shù)據(jù)集時整體性能優(yōu)于淺層網(wǎng)絡(luò)。但sDSAE的性能取決于網(wǎng)絡(luò)層數(shù)和節(jié)點數(shù),網(wǎng)絡(luò)層數(shù)并非越多越好,層數(shù)太多容易引起梯度彌散現(xiàn)象,也會訓(xùn)練過擬合[249246]。因此,本節(jié)設(shè)置2層sDSAE網(wǎng)絡(luò)。9710.7自編碼應(yīng)用模型4.sDSAE-ELM算法為避免ELM中出現(xiàn)過多的隨機冗余節(jié)點,利用sDSAE獲取輸入數(shù)據(jù)的特征表達(dá),通過加入稀疏性限制使網(wǎng)絡(luò)可以學(xué)到輸入數(shù)據(jù)中更優(yōu)的結(jié)構(gòu)特征,從而更好地描述輸入數(shù)據(jù),為ELM提供所需的輸入權(quán)值和隱含層偏置,更有利于ELM進行分類。理論上,sDSAE-ELM算法比ELM算法能夠獲得更優(yōu)的輸入權(quán)值和隱含層偏置。一方面,sDSAE-ELM算法利用sDSAE具有稀疏化的網(wǎng)絡(luò)結(jié)構(gòu)對原始輸入數(shù)據(jù)進行學(xué)習(xí)訓(xùn)練,將得到的輸入權(quán)值和隱含層偏置分別作為sDSAE-ELM輸入權(quán)值和隱含層偏置;另一方面,sDSAE-ELM通過sDSAE產(chǎn)生極限學(xué)習(xí)機的輸入權(quán)值與隱層偏置,克服了ELM因隱含層參數(shù)隨機賦值產(chǎn)生冗余節(jié)點、降低算法分類準(zhǔn)確率的弊端。9810.7自編碼應(yīng)用模型此外,sDSAE-ELM優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu),如圖10.26所示,其對原始輸入數(shù)據(jù)進行退化處理,從而有效消除噪聲的干擾,增強魯棒性。9910.7自編碼應(yīng)用模型sDSAE-ELM學(xué)習(xí)過程如算法10.2所示。算法10.2sDSAE-ELM輸入訓(xùn)練集,各DSAE的激活函數(shù),退化率,稀疏性參數(shù)。輸出權(quán)重步驟1:對原始輸入進行預(yù)處理和退化處理。訓(xùn)練DSAE1,得到第一隱含層的輸出以及網(wǎng)絡(luò)參數(shù)。步驟2:輸入,訓(xùn)練DSAE2,得到第二隱含層的輸出,以及最優(yōu)網(wǎng)絡(luò)參數(shù),。步驟3:將、和,分別作為ELM的輸入、輸入權(quán)值和隱含偏置,ELM的隱含層輸出為,根據(jù)式(10.7.21)計算得到。10010.8實例11:基于改進LDA和自編碼器的調(diào)制識別算法自動調(diào)制信號識別(AutomaticModulationRecognition,AMR)是接收端解調(diào)前的一項復(fù)雜且困難的技術(shù),它在軍事和民用領(lǐng)域都有廣泛的應(yīng)用。因此,研究自動調(diào)制信號識別具有重要的意義?;谀J阶R別的AMR算法流程為:信號預(yù)處理,提取信號特征和分類算法。信號特征包括:瞬時幅度、相位和頻率、高階累積量、循環(huán)譜等。分類算法有:支持向量機(SupportVectorMachine,SVM)、K最鄰近(KNearestNeighbor,KNN)和樸素貝葉斯等等,但這些算法基本適合高斯白噪聲信道或所受干擾擾較少的情況。本節(jié)研究了高斯白噪聲信道和瑞利衰落信道下,一種基于LDA和SSDAE網(wǎng)絡(luò)的調(diào)制識別算法。10110.8實例11:基于改進LDA和自編碼器的調(diào)制識別算法1.信號模型在復(fù)雜信道下,接收端接收到的信號表示為10.8.1基于特征聚類的快速稀疏自編碼模型式中,為接收信號;為發(fā)送信號;為復(fù)雜信道下的信道效應(yīng),為瑞利衰落、多普勒頻移和頻率、相位誤差;

為均值為零的高斯白噪聲。2.高階累積量調(diào)制信號的復(fù)隨機過程為式中,表示共軛10210.8實例11:基于改進LDA和自編碼器的調(diào)制識別算法的二至八階累積量如下所示,將各類調(diào)制信號代入式(10.8.3)~式(10.8.11)計算出各階累積量即本文欲提取的特征參數(shù)。10310.8實例11:基于改進LDA和自編碼器的調(diào)制識別算法1.A-ALDA算法LDA是一種類似主成分分析的降維特征提取算法,該算法保證了樣本在新的子空間有最大的類間距離和最小的類內(nèi)距離,即投影后的樣本具有最佳可分離性。假設(shè)共有個樣本,個類別。即樣本和標(biāo)簽集合

,為特征,為標(biāo)簽,其中為類別。此外,定義為第類樣本的個數(shù),為第類樣本的集合,為第類樣本的均值,為第類樣本的協(xié)方差矩陣,則類內(nèi)散度矩陣為10.8.2算法設(shè)計10410.8實例11:基于改進LDA和自編碼器的調(diào)制識別算法類間散度矩陣為式中,m為所有樣本的均值。LDA多類優(yōu)化目標(biāo)函數(shù)為公式最右邊是廣義瑞利熵的形式,其最大值即為的最大特征值。此時投影矩陣為這最大的個特征值對應(yīng)的特征向量所張開的矩陣。10510.8實例11:基于改進LDA和自編碼器的調(diào)制識別算法經(jīng)過LDA投影后的特征參數(shù)為式(10.8.13)中,類間散度矩陣為每類樣本均值與所有類樣本總均值的協(xié)方差矩陣,投影后的效果為每類樣本遠(yuǎn)離樣本總均值。為提高每類樣本對周圍別類的混淆樣本的區(qū)別度,將A-ALDA算法的類間散度矩陣定義為式中,為每類的權(quán)重系數(shù),為該類樣本均值到此類混淆樣本歐式距離的倒數(shù)平方,,即某類樣本距離混淆樣本越近,權(quán)重越大。10610.8實例11:基于改進LDA和自編碼器的調(diào)制識別算法為周圍混淆樣本的均值,定義為式(10.8.17)中,為類樣本周圍的混淆樣本的個數(shù),為混淆樣本。值的選擇直接影響A-ALDA的性能,取值的過程,如圖10.27所示。10710.8實例11:基于改進LDA和自編碼器的調(diào)制識別算法圖10.27(a)所示,五類樣本和每類對應(yīng)的樣本均值均用同一形狀、不同顏色在圖中標(biāo)出,為16QAM樣本均值點,其它信號樣本均值同理在圖中標(biāo)出。為類內(nèi)樣本與該類均值的最大歐幾里得距離,為類外樣本與該類均值的歐幾里得距離?;煜龢颖镜膫€數(shù)為滿足所有類外樣本的個數(shù),即圖中圓內(nèi)不屬于16QAM樣本的個數(shù)。但是對于個別信號受噪聲較大,出現(xiàn)圖10.27(b)情況。由于存在受噪聲影響較大的樣本,以為半徑的圓包含了本不為混淆樣本的其它類信號,這種情況下,定義為10810.8實例11:基于改進LDA和自編碼器的調(diào)制識別算法式(10.8.18)中,為類樣本的個數(shù),為

類中最遠(yuǎn)的

個樣本點的均值,q為接近1的常數(shù),為1時,為j類樣本與均值的歐氏距離的最大值。為所有j類樣本與此類均值的歐氏距離,且按距離遞增的順序排列。由此,類內(nèi)樣本與該類均值的最大歐式距離為一些較遠(yuǎn)樣本距離的平均,避免了大噪聲點的影響。10910.8實例11:基于改進LDA和自編碼器的調(diào)制識別算法2.稀疏降噪自動編碼器傳統(tǒng)的單層稀疏自動編碼器在學(xué)習(xí)特征時易丟失樣本的深層特征信息,使特征缺乏魯棒性,大大降低了分類的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論