R語(yǔ)言與機(jī)器學(xué)習(xí)(5)神經(jīng)網(wǎng)絡(luò)

上傳人：1*** IP屬地：湖北上傳時(shí)間：2021-11-26 格式：DOCX 頁(yè)數(shù)：31 大?。?59.61KB 積分：30 舉報(bào) 版權(quán)申訴

R語(yǔ)言與機(jī)器學(xué)習(xí)(5)神經(jīng)網(wǎng)絡(luò)_第2頁(yè)

R語(yǔ)言與機(jī)器學(xué)習(xí)(5)神經(jīng)網(wǎng)絡(luò)_第3頁(yè)

R語(yǔ)言與機(jī)器學(xué)習(xí)(5)神經(jīng)網(wǎng)絡(luò)_第4頁(yè)

R語(yǔ)言與機(jī)器學(xué)習(xí)(5)神經(jīng)網(wǎng)絡(luò)_第5頁(yè)

已閱讀5頁(yè)，還剩26頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、算法五：神經(jīng)網(wǎng)絡(luò)(優(yōu)化算法) 人工神經(jīng)網(wǎng)絡(luò)(ANN)，簡(jiǎn)稱神經(jīng)網(wǎng)絡(luò)，是一種模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能的數(shù)學(xué)模型或計(jì)算模型。神經(jīng)網(wǎng)絡(luò)由大量的人工神經(jīng)元聯(lián)結(jié)進(jìn)行計(jì)算。大多數(shù)情況下人工神經(jīng)網(wǎng)絡(luò)能在外界信息的基礎(chǔ)上改變內(nèi)部結(jié)構(gòu)，是一種自適應(yīng)系統(tǒng)?，F(xiàn)代神經(jīng)網(wǎng)絡(luò)是一種非線性統(tǒng)計(jì)性數(shù)據(jù)建模工具，常用來(lái)對(duì)輸入和輸出間復(fù)雜的關(guān)系進(jìn)行建模，或用來(lái)探索數(shù)據(jù)的模式。人工神經(jīng)網(wǎng)絡(luò)從以下四個(gè)方面去模擬人的智能行為:物理結(jié)構(gòu)：人工神經(jīng)元將模擬生物神經(jīng)元的功能計(jì)算模擬：人腦的神經(jīng)元有局部計(jì)算和存儲(chǔ)的功能，通過(guò)連接構(gòu)成一個(gè)系統(tǒng)。人工神經(jīng)網(wǎng)絡(luò)中也有大量有局部處理能力的神經(jīng)元，也能夠?qū)⑿畔⑦M(jìn)行大規(guī)模并行處理

2、存儲(chǔ)與操作：人腦和人工神經(jīng)網(wǎng)絡(luò)都是通過(guò)神經(jīng)元的連接強(qiáng)度來(lái)實(shí)現(xiàn)記憶存儲(chǔ)功能，同時(shí)為概括、類比、推廣提供有力的支持訓(xùn)練：同人腦一樣，人工神經(jīng)網(wǎng)絡(luò)將根據(jù)自己的結(jié)構(gòu)特性，使用不同的訓(xùn)練、學(xué)習(xí)過(guò)程，自動(dòng)從實(shí)踐中獲得相關(guān)知識(shí) 神經(jīng)網(wǎng)絡(luò)是一種運(yùn)算模型，由大量的節(jié)點(diǎn)(或稱“神經(jīng)元”，或“單元”)和之間相互聯(lián)接構(gòu)成。每個(gè)節(jié)點(diǎn)代表一種特定的輸出函數(shù)，稱為激勵(lì)函數(shù)。每?jī)蓚€(gè)節(jié)點(diǎn)間的連接都代表一個(gè)對(duì)于通過(guò)該連接信號(hào)的加權(quán)值，稱之為權(quán)重，這相當(dāng)于人工神經(jīng)網(wǎng)絡(luò)的記憶。網(wǎng)絡(luò)的輸出則依網(wǎng)絡(luò)的連接方式，權(quán)重值和激勵(lì)函數(shù)的不同而不同。而網(wǎng)絡(luò)自身通常都是對(duì)自然界某種算法或者函數(shù)的逼近，也可能是對(duì)一種邏輯策略的表達(dá)。

3、0; 一、感知器感知器相當(dāng)于神經(jīng)網(wǎng)絡(luò)的一個(gè)單層，由一個(gè)線性組合器和一個(gè)二值閾值原件構(gòu)成：構(gòu)成ANN系統(tǒng)的單層感知器：感知器以一個(gè)實(shí)數(shù)值向量作為輸入，計(jì)算這些輸入的線性組合，如果結(jié)果大于某個(gè)閾值，就輸出1，否則輸出1。感知器函數(shù)可寫(xiě)為：sign(w*x)有時(shí)可加入偏置b，寫(xiě)為sign(w*x+b)學(xué)習(xí)一個(gè)感知器意味著選擇權(quán)w0,wn的值。所以感知器學(xué)習(xí)要考慮的候選假設(shè)空間H就是所有可能的實(shí)數(shù)值權(quán)向量的集合算法訓(xùn)練步驟：1、定義變量與參數(shù)x(輸入向量),w(權(quán)值向量),b(偏置),y(實(shí)際輸出),d(期望輸出),a(學(xué)習(xí)率參數(shù))2、初始化，n=0,w=

4、03、輸入訓(xùn)練樣本，對(duì)每個(gè)訓(xùn)練樣本指定其期望輸出：A類記為1，B類記為-14、計(jì)算實(shí)際輸出y=sign(w*x+b)5、更新權(quán)值向量w(n+1)=w(n)+ad-y(n)*x(n),06、判斷，若滿足收斂條件，算法結(jié)束，否則返回3 注意，其中學(xué)習(xí)率a為了權(quán)值的穩(wěn)定性不應(yīng)過(guò)大，為了體現(xiàn)誤差對(duì)權(quán)值的修正不應(yīng)過(guò)小，說(shuō)到底，這是個(gè)經(jīng)驗(yàn)問(wèn)題。從前面的敘述來(lái)看，感知器對(duì)于線性可分的例子是一定收斂的，對(duì)于不可分問(wèn)題，它沒(méi)法實(shí)現(xiàn)正確分類。這里與我們前面講到的支持向量機(jī)的想法十分的相近，只是確定分類直線的辦法有所不同?？梢赃@么說(shuō)，對(duì)于線性可分的例子，支持向量機(jī)找到了“最優(yōu)的”那條分類直線，而單層感知器

5、找到了一條可行的直線。我們以鳶尾花數(shù)據(jù)集為例，由于單層感知器是一個(gè)二分類器，所以我們將鳶尾花數(shù)據(jù)也分為兩類，“setosa”與“versicolor”(將后兩類均看做第2類)，那么數(shù)據(jù)按照特征：花瓣長(zhǎng)度與寬度做分類。運(yùn)行下面的代碼：#感知器訓(xùn)練結(jié)果：a<-0.2w<-rep(0,3)iris1<-t(as.matrix(iris,3:4)d<-c(rep(0,50),rep(1,100)e<-rep(0,150)p<-rbind(rep(1,150),iris1)max<-100000eps<-rep(0,100000)i<-0

6、repeatv<-w%*%p;y<-ifelse(sign(v)>=0,1,0);e<-d-y;epsi+1<-sum(abs(e)/length(e)if(epsi+1<0.01)print("finish:");print(w);break;w<-w+a*(d-y)%*%t(p);i<-i+1;if(i>max)print("max time loop");print(epsi)print(y);break;#繪圖程序plot(Petal.LengthPetal.Width,xlim=c(0,3)

7、,ylim=c(0,8),data=irisiris$Species="virginica",)data1<-irisiris$Species="versicolor",points(data1$Petal.Width,data1$Petal.Length,col=2)data2<-irisiris$Species="setosa",points(data2$Petal.Width,data2$Petal.Length,col=3)x<-seq(0,3,0.01)y<-x*(-w2/w3)-w1/w3lines

8、(x,y,col=4)#繪制每次迭代的平均絕對(duì)誤差plot(1:i,eps1:i,type="o") 分類結(jié)果如圖：這是運(yùn)行了7次得到的結(jié)果。與我們前面的支持向量機(jī)相比，顯然神經(jīng)網(wǎng)絡(luò)的單層感知器分類不是那么的可信，有些弱。我們可以嘗試來(lái)做交叉驗(yàn)證，可以發(fā)現(xiàn)交叉驗(yàn)證結(jié)果并不理想。二、線性神經(jīng)網(wǎng)絡(luò) 盡管當(dāng)訓(xùn)練樣例線性可分時(shí)，感知器法則可以成功地找到一個(gè)權(quán)向量，但如果樣例不是線性可分時(shí)它將不能收斂。因此，人們?cè)O(shè)計(jì)了另一個(gè)訓(xùn)練法則來(lái)克服這個(gè)不足，稱為delta法則。如果訓(xùn)練樣本不是線性可分的

9、，那么delta法則會(huì)收斂到目標(biāo)概念的最佳近似。delta法則的關(guān)鍵思想是使用梯度下降來(lái)搜索可能權(quán)向量的假設(shè)空間，以找到最佳擬合訓(xùn)練樣例的權(quán)向量。我們將算法描述如下：1、定義變量與參數(shù)。x(輸入向量),w(權(quán)值向量),b(偏置),y(實(shí)際輸出),d(期望輸出),a(學(xué)習(xí)率參數(shù))(為敘述簡(jiǎn)便，我們可以將偏置并入權(quán)值向量中)2、初始化w=03、輸入樣本，計(jì)算實(shí)際輸出與誤差。e(n)=d-x*w(n)4、調(diào)整權(quán)值向量w(n+1)=w(n)+a*x*e(n)5、判斷是否收斂，收斂結(jié)束，否則返回3Hayjin證明，只要學(xué)習(xí)率a<2/maxeign, delta法則按方差收斂。其中maxeigen為

10、xx的最大特征值。故我們這里使用1/maxeign作為a的值。我們還是以上面的鳶尾花數(shù)據(jù)為例來(lái)說(shuō)這個(gè)問(wèn)題。運(yùn)行代碼：p<-rbind(rep(1,150),iris1)d<-c(rep(0,50),rep(1,100)w<-rep(0,3)a<-1/max(eigen(t(p)%*%p)$values)max<-1000e<-rep(0,150)eps<-rep(0,1000)i<-0for(i in 1:max)v<-w%*%p;y<-v;e<-d-y;epsi+1<-sum(e2)/length(e)w<-w+a

11、*(d-y)%*%t(p);if(i=max)print(w) 得到分類直線：相比感知器分類而言已經(jīng)好了太多了，究其原因不外乎傳遞函數(shù)由二值閾值函數(shù)變?yōu)榱司€性函數(shù)，這也就是我們前面提到的delta法則會(huì)收斂到目標(biāo)概念的最佳近似。增量法則漸近收斂到最小誤差假設(shè)，可能需要無(wú)限的時(shí)間，但無(wú)論訓(xùn)練樣例是否線性可分都會(huì)收斂。為了明了這一點(diǎn)我們考慮鳶尾花數(shù)據(jù)后兩類花的分類(這里我們將前兩類看做一類)，使用感知器：使用線性分類器：但是要解釋的一點(diǎn)是，收斂并不意味著分類效果更好，要解決線性不可分問(wèn)題需要的是添加非線性輸入或者增加

12、神經(jīng)元。我們以Minsky & Papert (1969)提出的異或例子為例說(shuō)明這一點(diǎn)。使用線性神經(jīng)網(wǎng)絡(luò)，代碼與上面完全相同，略。第一個(gè)神經(jīng)元輸出：權(quán)值： ,1 ,2 ,31, 0.75 0.5 -0.5測(cè)試： ,1 ,2 ,3 ,41, 1 0 1 1第二個(gè)神經(jīng)元輸出：權(quán)值： ,1 ,2 ,31, 0.75 -0.5 0.5測(cè)試： ,1 ,2 ,3 ,41, 1 1 0 1求解異或邏輯(相同取0，不同取1)有結(jié)果：(代碼xor(c(1,0,1,1),c(1,1,0,1)1 FALSE TRUE TRUE FALSE即0，1，1，0，分類正確。最后再說(shuō)一點(diǎn)，Delta規(guī)則只

13、能訓(xùn)練單層網(wǎng)絡(luò)，但這不會(huì)對(duì)其功能造成很大的影響。從理論上說(shuō)，多層神經(jīng)網(wǎng)絡(luò)并不比單層神經(jīng)網(wǎng)絡(luò)更強(qiáng)大，他們具有同樣的能力。三、BP神經(jīng)網(wǎng)絡(luò) 1、sigmoid函數(shù)分類回顧我們前面提到的感知器，它使用示性函數(shù)作為分類的辦法。然而示性函數(shù)作為分類器它的跳點(diǎn)讓人覺(jué)得很難處理，幸好sigmoid函數(shù)y=1/(1+e-x)有類似的性質(zhì)，且有著光滑性這一優(yōu)良性質(zhì)。我們通過(guò)下圖可以看見(jiàn)sigmoid函數(shù)的圖像： Sigmoid函數(shù)有著計(jì)算代價(jià)不高，易于理解與實(shí)現(xiàn)的優(yōu)點(diǎn)但也有著欠擬合，分類精度不高的特性，我們?cè)谥С窒蛄繖C(jī)一章中就可以看到sigmoid函數(shù)差勁的分類結(jié)果。2、BP神經(jīng)

14、網(wǎng)絡(luò)結(jié)構(gòu)BP (Back Propagation)神經(jīng)網(wǎng)絡(luò)，即誤差反傳誤差反向傳播算法的學(xué)習(xí)過(guò)程，由信息的正向傳播和誤差的反向傳播兩個(gè)過(guò)程組成。由下圖可知，BP神經(jīng)網(wǎng)絡(luò)是一個(gè)三層的網(wǎng)絡(luò): 輸入層(input layer)：輸入層各神經(jīng)元負(fù)責(zé)接收來(lái)自外界的輸入信息，并傳遞給中間層各神經(jīng)元;隱藏層(Hidden Layer):中間層是內(nèi)部信息處理層，負(fù)責(zé)信息變換，根據(jù)信息變化能力的需求，中間層可以設(shè)計(jì)為單隱層或者多隱層結(jié)構(gòu);最后一個(gè)隱層傳遞到輸出層各神經(jīng)元的信息，經(jīng)進(jìn)一步處理后，完成一次學(xué)習(xí)的正向傳播處理過(guò)程;輸出層(Output Layer):顧名思義，輸出層向外界輸出信息處理結(jié)果;當(dāng)

15、實(shí)際輸出與期望輸出不符時(shí)，進(jìn)入誤差的反向傳播階段。誤差通過(guò)輸出層，按誤差梯度下降的方式修正各層權(quán)值，向隱藏層、輸入層逐層反傳。周而復(fù)始的信息正向傳播和誤差反向傳播過(guò)程，是各層權(quán)值不斷調(diào)整的過(guò)程，也是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練的過(guò)程，此過(guò)程一直進(jìn)行到網(wǎng)絡(luò)輸出的誤差減少到可以接受的程度，或者預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止。3、反向傳播算法反向傳播這一算法把我們前面提到的delta規(guī)則的分析擴(kuò)展到了帶有隱藏節(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò)。為了理解這個(gè)問(wèn)題，設(shè)想Bob給Alice講了一個(gè)故事，然后Alice又講給了Ted，Ted檢查了這個(gè)事實(shí)真相，發(fā)現(xiàn)這個(gè)故事是錯(cuò)誤的?，F(xiàn)在 Ted 需要找出哪些錯(cuò)誤是Bob造成的而哪些又歸咎于Alic

16、e。當(dāng)輸出節(jié)點(diǎn)從隱藏節(jié)點(diǎn)獲得輸入，網(wǎng)絡(luò)發(fā)現(xiàn)出現(xiàn)了誤差，權(quán)系數(shù)的調(diào)整需要一個(gè)算法來(lái)找出整個(gè)誤差是由多少不同的節(jié)點(diǎn)造成的，網(wǎng)絡(luò)需要問(wèn)，“是誰(shuí)讓我誤入歧途?到怎樣的程度?如何彌補(bǔ)?”這時(shí)，網(wǎng)絡(luò)該怎么做呢?同樣源于梯度降落原理，在權(quán)系數(shù)調(diào)整分析中的唯一不同是涉及到t(p,n)與y(p,n)的差分。通常來(lái)說(shuō)Wi的改變?cè)谟冢篴lpha * s'(a(p,n) * d(n) *X(p,i,n)其中d(n)是隱藏節(jié)點(diǎn)n的函數(shù)，讓我們來(lái)看：n 對(duì)任何給出的輸出節(jié)點(diǎn)有多大影響;輸出節(jié)點(diǎn)本身對(duì)網(wǎng)絡(luò)整體的誤差有多少影響。一方面，n 影響一個(gè)輸出節(jié)點(diǎn)越多，n 造成網(wǎng)絡(luò)整體的誤差也越多。另一方面，如果

17、輸出節(jié)點(diǎn)影響網(wǎng)絡(luò)整體的誤差越少，n 對(duì)輸出節(jié)點(diǎn)的影響也相應(yīng)減少。這里d(j)是對(duì)網(wǎng)絡(luò)的整體誤差的基值，W(n,j) 是 n 對(duì) j 造成的影響，d(j) * W(n,j) 是這兩種影響的總和。但是 n 幾乎總是影響多個(gè)輸出節(jié)點(diǎn)，也許會(huì)影響每一個(gè)輸出結(jié)點(diǎn)，這樣，d(n) 可以表示為：SUM(d(j)*W(n,j)這里j是一個(gè)從n獲得輸入的輸出節(jié)點(diǎn)，聯(lián)系起來(lái)，我們就得到了一個(gè)培訓(xùn)規(guī)則。第1部分：在隱藏節(jié)點(diǎn)n和輸出節(jié)點(diǎn)j之間權(quán)系數(shù)改變，如下所示：alpha *s'(a(p,n)*(t(p,n) - y(p,n) * X(p,n,j)第 2 部分：在輸入節(jié)點(diǎn)i和輸出節(jié)點(diǎn)n之間權(quán)系數(shù)改變，如下所

18、示：alpha *s'(a(p,n) * sum(d(j) * W(n,j) * X(p,i,n)這里每個(gè)從n接收輸入的輸出節(jié)點(diǎn)j都不同。關(guān)于反向傳播算法的基本情況大致如此。通常把第 1部分稱為正向傳播，把第2部分稱為反向傳播。反向傳播的名字由此而來(lái)。4、最速下降法與其改進(jìn)最速下降法的基本思想是：要找到某函數(shù)的最小值，最好的辦法是沿函數(shù)的梯度方向探尋，如果梯度記為d,那么迭代公式可寫(xiě)為w=w-alpha*d，其中alpha可理解為我們前面提到的學(xué)習(xí)速率。最速下降法有著收斂速度慢(因?yàn)槊看嗡阉髋c前一次均正交，收斂是鋸齒形的)，容易陷入局部最小值等缺點(diǎn)，所以他的改進(jìn)辦法也有不少，最常見(jiàn)的是

19、增加動(dòng)量項(xiàng)與學(xué)習(xí)率可變。增加沖量項(xiàng)(Momentum)修改權(quán)值更新法則，使第n次迭代時(shí)的權(quán)值的更新部分地依賴于發(fā)生在第n1次迭代時(shí)的更新Delta(w)(n)=-alpha*(1-mc)*Delta(w)(n)+mc*Delta(w)(n-1)右側(cè)第一項(xiàng)就是權(quán)值更新法則，第二項(xiàng)被稱為沖量項(xiàng)梯度下降的搜索軌跡就像一個(gè)球沿誤差曲面滾下，沖量使球從一次迭代到下一次迭代時(shí)以同樣的方向滾動(dòng)沖量有時(shí)會(huì)使這個(gè)球滾過(guò)誤差曲面的局部極小值或平坦區(qū)域沖量也具有在梯度不變的區(qū)域逐漸增大搜索步長(zhǎng)的效果，從而加快收斂。改變學(xué)習(xí)率當(dāng)誤差減小趨近目標(biāo)時(shí)，說(shuō)明修正方向是正確的，可以增加學(xué)習(xí)率;當(dāng)誤差增加超過(guò)一個(gè)范圍時(shí)，說(shuō)明修

20、改不正確，需要降低學(xué)習(xí)率。5、BP神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)(1)數(shù)據(jù)讀入，這里我們還是使用R的內(nèi)置數(shù)據(jù)鳶尾花數(shù)據(jù)，由于神經(jīng)網(wǎng)絡(luò)本質(zhì)是2分類的，所以我們將鳶尾花數(shù)據(jù)也分為兩類(將前兩類均看做第2類)，按照特征：花瓣長(zhǎng)度與寬度做分類。(2)劃分訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)(3)初始化BP網(wǎng)絡(luò)，采用包含一個(gè)隱含層的神經(jīng)網(wǎng)絡(luò)，訓(xùn)練方法使用包含動(dòng)量的最速下降法，傳遞函數(shù)使用sigmoid函數(shù)。(4)輸入樣本，對(duì)樣本進(jìn)行歸一化，計(jì)算誤差，求解誤差平方和(5)判斷是否收斂(6)根據(jù)誤差調(diào)整權(quán)值。權(quán)值根據(jù)以下公式進(jìn)行調(diào)整：Delta(w)= alpha *s'(a(p,n)*(t(p,n) - y(p,n) * X(p,

21、n,j)其中，alpha為學(xué)習(xí)率，s'(a(p,n)*(t(p,n)- y(p,n)為局部梯度。此外，由于使用了有動(dòng)量因子的最速下降法，除第一次外，后續(xù)改變量應(yīng)為：Delta(w)(n)=-alpha*(1-mc)*Delta(w)(n)+mc*Delta(w)(n-1)(7)測(cè)試，輸出分類正確率。完整的R代碼：iris1<-as.matrix(iris,3:4)iris1<-cbind(iris1,c(rep(1,100),rep(0,50)set.seed(5)n<-length(iris1,1)samp<-sample(1:n,n/5)traind<

22、-iris1-samp,c(1,2)train1<-iris1-samp,3testd<-iris1samp,c(1,2)test1<-iris1samp,3 set.seed(1)ntrainnum<-120nsampdim<-2 net.nin<-2net.nhidden<-3net.nout<-1w<-2*matrix(runif(net.nhidden*net.nin)-0.5,net.nhidden,net.nin)b<-2*(runif(net.nhidden)-0.5)net.w1<-cbind

23、(w,b)W<-2*matrix(runif(net.nhidden*net.nout)-0.5,net.nout,net.nhidden)B<-2*(runif(net.nout)-0.5)net.w2<-cbind(W,B) traind_s<-traindtraind_s,1<-traind,1-mean(traind,1)traind_s,2<-traind,2-mean(traind,2)traind_s,1<-traind_s,1/sd(traind_s,1)traind_s,2<-traind_s,2/sd(traind_

24、s,2) sampinex<-rbind(t(traind_s),rep(1,ntrainnum)expectedout<-train1 eps<-0.01a<-0.3mc<-0.8maxiter<-2000iter<-0 errrec<-rep(0,maxiter)outrec<-matrix(rep(0,ntrainnum*maxiter),ntrainnum,maxiter) sigmoid<-function(x)y<-1/(1+exp(-x)return(y) for(

25、i in 1:maxiter)hid_input<-net.w1%*%sampinex;hid_out<-sigmoid(hid_input);out_input1<-rbind(hid_out,rep(1,ntrainnum);out_input2<-net.w2%*%out_input1;out_out<-sigmoid(out_input2);outrec,i<-t(out_out);err<-expectedout-out_out;sse<-sum(err2);errreci<-sse;iter<-iter+1;if(sse&

26、lt;=eps)break Delta<-err*sigmoid(out_out)*(1-sigmoid(out_out)delta<-(matrix(net.w2,1:(length(net.w21,)-1)%*%Delta*sigmoid(hid_out)*(1-sigmoid(hid_out); dWex<-Delta%*%t(out_input1)dwex<-delta%*%t(sampinex) if(i=1)net.w2<-net.w2+a*dWex;net.w1<-net.w1+a*dwex;elsenet.w2&

27、lt;-net.w2+(1-mc)*a*dWex+mc*dWexold;net.w1<-net.w1+(1-mc)*a*dwex+mc*dwexold; dWexold<-dWex;dwexold<-dwex; testd_s<-testdtestd_s,1<-testd,1-mean(testd,1)testd_s,2<-testd,2-mean(testd,2)testd_s,1<-testd_s,1/sd(testd_s,1)testd_s,2<-testd_s,2/sd(testd_s,2) in

28、ex<-rbind(t(testd_s),rep(1,150-ntrainnum)hid_input<-net.w1%*%inexhid_out<-sigmoid(hid_input)out_input1<-rbind(hid_out,rep(1,150-ntrainnum)out_input2<-net.w2%*%out_input1out_out<-sigmoid(out_input2)out_out1<-out_out out_out1out_out<0.5<-0out_out1out_out>=0.5<-1&#

29、160;rate<-sum(out_out1=test1)/length(test1) 分類正確率為：0.9333333，是一個(gè)不錯(cuò)的學(xué)習(xí)器。這里需要注意的是動(dòng)量因子mc的選取，mc不能過(guò)小，否則容易陷入局部最小而出不去，在本例中，如果mc=0.5，分類正確率僅為：0.5333333，學(xué)習(xí)效果很不理想。四、R中的神經(jīng)網(wǎng)絡(luò)函數(shù) 單層的前向神經(jīng)網(wǎng)絡(luò)模型在包nnet中的nnet函數(shù)，其調(diào)用格式為：nnet(formula,data, weights, size, Wts, linout = F, entropy = F,sof

30、tmax = F, skip = F, rang = 0.7,decay = 0, maxit = 100,trace = T)參數(shù)說(shuō)明:size, 隱層結(jié)點(diǎn)數(shù);decay, 表明權(quán)值是遞減的(可以防止過(guò)擬合);linout, 線性輸出單元開(kāi)關(guān);skip，是否允許跳過(guò)隱層;maxit, 最大迭代次數(shù);Hess, 是否輸出Hessian值適用于神經(jīng)網(wǎng)絡(luò)的方法有predict,print和summary等，nnetHess函數(shù)用來(lái)計(jì)算在考慮了權(quán)重參數(shù)下的Hessian矩陣，并且檢驗(yàn)是否是局部最小。我們使用nnet函數(shù)分析Vehicle數(shù)據(jù)。隨機(jī)選擇半數(shù)觀測(cè)作為訓(xùn)練集，剩下的作為測(cè)試集，構(gòu)建只有包含

31、3個(gè)節(jié)點(diǎn)的一個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)。輸入如下程序：library(nnet); #安裝nnet軟件包library(mlbench); #安裝mlbench軟件包data(Vehicle); #調(diào)入數(shù)據(jù)n=length(Vehicle,1); #樣本量set.seed(1); #設(shè)隨機(jī)數(shù)種子samp=sample(1:n,n/2); #隨機(jī)選擇半數(shù)觀測(cè)作為訓(xùn)練集b=class.ind(Vehicle$Class); #生成類別的示性函數(shù)test.cl=function(true,pred)true<-max.col(true);cres=max.col(pred);table(true,cr

32、es);a=nnet(Vehiclesamp,-19,bsamp,size=3,rang=0.1,decay=5e-4,maxit=200); #利用訓(xùn)練集中前18個(gè)變量作為輸入變量，隱藏層有3個(gè)節(jié)點(diǎn)，初始隨機(jī)權(quán)值在-0.1,0.1，權(quán)值是逐漸衰減的。test.cl(bsamp,predict(a,Vehiclesamp,-19)#給出訓(xùn)練集分類結(jié)果test.cl(b-samp,predict(a,Vehicle-samp,-19);#給出測(cè)試集分類結(jié)果#構(gòu)建隱藏層包含15個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)。接著上面的語(yǔ)句輸入如下程序：a=nnet(Vehiclesamp,-19,bsamp,size=15,ran

33、g=0.1,decay=5e-4,maxit=10000);test.cl(bsamp,predict(a,Vehiclesamp,-19);test.cl(b-samp,predict(a,Vehicle-samp,-19);再看手寫(xiě)數(shù)字案例最后，我們回到最開(kāi)始的那個(gè)手寫(xiě)數(shù)字的案例，我們?cè)囍弥С窒蛄繖C(jī)重做這個(gè)案例。(這個(gè)案例的描述與數(shù)據(jù)參見(jiàn)R語(yǔ)言與機(jī)器學(xué)習(xí)學(xué)習(xí)筆記(分類算法)(1)由于nnet包對(duì)輸入的維數(shù)有一定限制(我也不知道為什么，可能在權(quán)值計(jì)算的時(shí)候出現(xiàn)了一些bug，反正將支持向量機(jī)那一節(jié)的代碼平行的移過(guò)來(lái)是會(huì)報(bào)錯(cuò)的)。我們這里采用手寫(xiě)數(shù)字識(shí)別技術(shù)中常用的辦法處理這個(gè)案例：計(jì)算數(shù)字

34、的特征。選擇數(shù)字特征的辦法有許多種，你隨便百度一篇論文都有敘述。我們這里采用結(jié)構(gòu)特征與統(tǒng)計(jì)特征結(jié)合的辦法計(jì)算圖像的特征。我們這里采用的統(tǒng)計(jì)特征與上圖有一點(diǎn)的不同(結(jié)構(gòu)特征一致)，我們是將圖片分為16塊(4*4)，統(tǒng)計(jì)每個(gè)小方塊中點(diǎn)的個(gè)數(shù)，這樣我們就有25維的特征向量了。為了保證結(jié)果的可比性，我們也報(bào)告支持向量機(jī)的分類結(jié)果。運(yùn)行下列代碼：setwd("D:/R/data/digits/trainingDigits")names<-list.files("D:/R/data/digits/trainingDigits")data<-p

35、aste("train",1:1934,sep="")for(i in 1:length(names)assign(datai,as.matrix(read.fwf(namesi,widths=rep(1,32)library(nnet)label<-factor(rep(0:9,c(189,198,195,199,186,187,195,201,180,204) feature<-matrix(rep(0,length(names)*25),length(names),25)for(i in 1:length(names)feat

36、urei,1<-sum(get(datai),16)featurei,2<-sum(get(datai),8)featurei,3<-sum(get(datai),24)featurei,4<-sum(get(datai)16,)featurei,5<-sum(get(datai)11,)featurei,6<-sum(get(datai)21,)featurei,7<-sum(diag(get(datai)featurei,8<-sum(diag(get(datai),32:1)featurei,9<-sum(get(datai)17:3

37、2,17:32)featurei,10<-sum(get(datai)1:8,1:8)featurei,11<-sum(get(datai)9:16,1:8)featurei,12<-sum(get(datai)17:24,1:8)featurei,13<-sum(get(datai)25:32,1:8)featurei,14<-sum(get(datai)1:8,9:16)featurei,15<-sum(get(datai)9:16,9:16)featurei,16<-sum(get(datai)17:24,9:16)featurei,17<

38、-sum(get(datai)25:32,9:16)featurei,18<-sum(get(datai)1:8,17:24)featurei,19<-sum(get(datai)9:16,17:24)featurei,20<-sum(get(datai)17:24,17:24)featurei,21<-sum(get(datai)25:32,17:24)featurei,22<-sum(get(datai)1:8,25:32)featurei,23<-sum(get(datai)9:16,25:32)featurei,24<-sum(get(data

39、i)17:24,25:32)featurei,25<-sum(get(datai)25:32,25:32)data1 <- data.frame(feature,label)m1<-nnet(label.,data=data1,size=25,maxit = 2000,decay = 5e-6, rang = 0.1)pred<-predict(m1,data1,type="class")table(pred,label)sum(diag(table(pred,label)/length(names) library("e1071

40、")m <- svm(feature,label,cross=10,type="C-classification")msummary(m)pred<-fitted(m)table(pred,label) setwd("D:/R/data/digits/testDigits")name<-list.files("D:/R/data/digits/testDigits")data1<-paste("train",1:1934,sep="")for(i in

41、 1:length(name)assign(data1i,as.matrix(read.fwf(namei,widths=rep(1,32) feature<-matrix(rep(0,length(name)*25),length(name),25)for(i in 1:length(name)featurei,1<-sum(get(data1i),16)featurei,2<-sum(get(data1i),8)featurei,3<-sum(get(data1i),24)featurei,4<-sum(get(data1i)16,)featurei

42、,5<-sum(get(data1i)11,)featurei,6<-sum(get(data1i)21,)featurei,7<-sum(diag(get(data1i)featurei,8<-sum(diag(get(data1i),32:1)featurei,9<-sum(get(data1i)17:32,17:32)featurei,10<-sum(get(data1i)1:8,1:8)featurei,11<-sum(get(data1i)9:16,1:8)featurei,12<-sum(get(data1i)17:24,1:8)fe

43、aturei,13<-sum(get(data1i)25:32,1:8)featurei,14<-sum(get(data1i)1:8,9:16)featurei,15<-sum(get(data1i)9:16,9:16)featurei,16<-sum(get(data1i)17:24,9:16)featurei,17<-sum(get(data1i)25:32,9:16)featurei,18<-sum(get(data1i)1:8,17:24)featurei,19<-sum(get(data1i)9:16,17:24)featurei,20<-sum(get(data1i)17:24,17:24)featurei,21

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

R語(yǔ)言與機(jī)器學(xué)習(xí)(5)神經(jīng)網(wǎng)絡(luò)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

R語(yǔ)言與機(jī)器學(xué)習(xí)(5)神經(jīng)網(wǎng)絡(luò)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔