機(jī)器學(xué)習(xí)算法與實(shí)踐 課件 第11、12章 半監(jiān)督學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)_第1頁(yè)
機(jī)器學(xué)習(xí)算法與實(shí)踐 課件 第11、12章 半監(jiān)督學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)_第2頁(yè)
機(jī)器學(xué)習(xí)算法與實(shí)踐 課件 第11、12章 半監(jiān)督學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)_第3頁(yè)
機(jī)器學(xué)習(xí)算法與實(shí)踐 課件 第11、12章 半監(jiān)督學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)_第4頁(yè)
機(jī)器學(xué)習(xí)算法與實(shí)踐 課件 第11、12章 半監(jiān)督學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)_第5頁(yè)
已閱讀5頁(yè),還剩58頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第十一章半監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)(Semi-SupervisedLearning,SSL)是模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域研究的重點(diǎn)問(wèn)題,是監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法。許多實(shí)例采用無(wú)監(jiān)督標(biāo)記來(lái)提高預(yù)測(cè)精度和學(xué)習(xí)算法的速度;通過(guò)引入加權(quán)系數(shù)動(dòng)態(tài)調(diào)整無(wú)類標(biāo)簽樣例的影響,提高了分類準(zhǔn)確度;建立每類中具有多個(gè)混合部分的模型,使貝葉斯偏差減小。半監(jiān)督學(xué)習(xí)使用大量的未標(biāo)記數(shù)據(jù),同時(shí)使用標(biāo)記數(shù)據(jù)來(lái)進(jìn)行模式識(shí)別工作。111.1未標(biāo)記樣本

如果圖中有一個(gè)樣本恰好位于正負(fù)實(shí)例中間,可以在圖中看到大體上類似于隨機(jī)猜測(cè)。如果觀察到圖中的未標(biāo)記樣本,則可以基于聚類假設(shè)來(lái)利用未標(biāo)記樣本,由于待預(yù)測(cè)樣本與正例樣本通過(guò)未標(biāo)記樣本的“撮合”聚集在一起,與相對(duì)分離的反例樣本相比,可以將該樣本判定為正例。211.1未標(biāo)記樣本

311.2半監(jiān)督學(xué)習(xí)方法半監(jiān)督學(xué)習(xí)可進(jìn)一步劃分為純半監(jiān)督學(xué)習(xí)和直推學(xué)習(xí),前者假設(shè)訓(xùn)練數(shù)據(jù)中的樣本不顯著,而后者則假定學(xué)習(xí)過(guò)程中所考慮的未標(biāo)記樣本恰好是待預(yù)測(cè)數(shù)據(jù),學(xué)習(xí)目的就是在這些未標(biāo)記樣本中獲得最優(yōu)泛化性能。4

11.2.1生成式方法

5

11.2.1生成式方法6

(11-2)

11.2.1生成式方法7

11.2.1生成式方法8

生成式方法簡(jiǎn)單,易于實(shí)現(xiàn),在有標(biāo)記數(shù)據(jù)極少的情形下往往比其他方法性能更好。

然而,此類方法中模型假設(shè)必須準(zhǔn)確,即假設(shè)的生成式模型必須與真是數(shù)據(jù)分布吻合,否則未用未標(biāo)記數(shù)據(jù)反倒會(huì)降低泛化性能。現(xiàn)實(shí)任務(wù)中,除非擁有充分可靠的領(lǐng)域知識(shí),否則往往很難事先做出準(zhǔn)確的模型假設(shè)。

11.2.2半監(jiān)督SVM半監(jiān)督支持向量機(jī)(Semi-SupervisedSupportVectorMachine,簡(jiǎn)稱S3VM),S3VM是一種在半監(jiān)督學(xué)習(xí)上推廣的廣義支持向量機(jī)。在不考慮未標(biāo)記樣本的情況下,支持向量機(jī)嘗試尋找最大間隔劃分超平面。在考慮未標(biāo)記樣本后,S3VM嘗試尋找能夠劃分開(kāi)兩類有標(biāo)記樣本,且可以通過(guò)低密度區(qū)域分割將它們分開(kāi)的超平面,如圖所示,其中“+”和“-”分別表示有標(biāo)記的正例和反例,藍(lán)色點(diǎn)表示未標(biāo)記樣本。9

11.2.2半監(jiān)督SVM10

在傳統(tǒng)的支持向量機(jī)有監(jiān)督學(xué)習(xí)中,我們?cè)噲D找到超平面的分割點(diǎn),使得兩個(gè)半監(jiān)督學(xué)習(xí)點(diǎn)之間的距離很小。S3VM考慮了超平面通過(guò)區(qū)域的情況,S3VM的主要思想是將每個(gè)標(biāo)記樣本分為陽(yáng)性樣本和陰性樣本。首先利用標(biāo)記樣本集和初始支持向量機(jī)進(jìn)行訓(xùn)練,然后利用機(jī)器對(duì)未標(biāo)記樣本進(jìn)行標(biāo)記,使所有樣本穩(wěn)定然后采用局部迭代搜索最優(yōu)策略。

11.2.3圖半監(jiān)督學(xué)習(xí)基于圖的半監(jiān)督學(xué)習(xí)方法是一種利用數(shù)據(jù)集的圖結(jié)構(gòu)進(jìn)行學(xué)習(xí)的技術(shù)。其主要思想是通過(guò)構(gòu)建一個(gè)圖來(lái)表示數(shù)據(jù)集,其中節(jié)點(diǎn)代表標(biāo)記和未標(biāo)記的數(shù)據(jù)點(diǎn),邊表示數(shù)據(jù)點(diǎn)之間的相似性或關(guān)聯(lián)關(guān)系。通過(guò)賦予邊權(quán)重來(lái)度量數(shù)據(jù)點(diǎn)的相似性,權(quán)重越大表示相似性越高。在該方法中,如果兩個(gè)樣本之間的相似度較高,就可以將它們映射到相應(yīng)的節(jié)點(diǎn)上。通過(guò)給已標(biāo)記的樣本節(jié)點(diǎn)著色,未標(biāo)記的樣本節(jié)點(diǎn)不著色,可以觀察到節(jié)點(diǎn)的顏色分布情況,從而進(jìn)行半監(jiān)督學(xué)習(xí)。11

11.2.3圖半監(jiān)督學(xué)習(xí)基于圖的半監(jiān)督學(xué)習(xí)方法通常包括以下步驟:1)構(gòu)建圖:根據(jù)數(shù)據(jù)集的相似性,構(gòu)建一個(gè)圖結(jié)構(gòu),其中節(jié)點(diǎn)表示數(shù)據(jù)點(diǎn),邊表示相似性關(guān)系。2)賦權(quán)重:為圖中的邊賦予權(quán)重,以度量數(shù)據(jù)點(diǎn)之間的相似性,常用的距離度量有歐幾里德距離、馬氏距離、切比雪夫距離等。3)標(biāo)記節(jié)點(diǎn):將已標(biāo)記的樣本節(jié)點(diǎn)著色,表示其已知類別信息。4)擴(kuò)散過(guò)程:通過(guò)圖的結(jié)構(gòu)和節(jié)點(diǎn)的顏色信息,將標(biāo)記信息擴(kuò)散到未標(biāo)記的節(jié)點(diǎn)上,以獲得它們的預(yù)測(cè)標(biāo)簽。5)分類或回歸:使用已標(biāo)記和預(yù)測(cè)標(biāo)記的節(jié)點(diǎn)進(jìn)行分類或回歸任務(wù)。12

11.2.4基于分歧的方法基于分歧的方法使用多學(xué)習(xí)器,而學(xué)習(xí)器之間的“分歧”的決策,就需要用到未標(biāo)記數(shù)據(jù)。在某些應(yīng)用任務(wù)中,一個(gè)數(shù)據(jù)集可能包含多個(gè)屬性集,此時(shí)每個(gè)數(shù)據(jù)樣本同時(shí)擁有多個(gè)特征向量描述;這里的每個(gè)屬性集即被稱為數(shù)據(jù)的一個(gè)“視圖(View)”。基于分歧的半監(jiān)督學(xué)習(xí)的起源、也是最著名的代表性方法是“協(xié)同訓(xùn)練法”,由于最初的設(shè)計(jì)是針對(duì)多視圖數(shù)據(jù)的,所以也被看作是多視圖學(xué)習(xí)的代表。協(xié)同訓(xùn)練法要求數(shù)據(jù)具有兩個(gè)充分冗余且滿足條件獨(dú)立性的視圖,“充分”是指每個(gè)視圖都包含足夠產(chǎn)生最優(yōu)學(xué)習(xí)器的信息,此時(shí)對(duì)其中任一視圖來(lái)說(shuō),另一個(gè)視圖則是“冗余”的;同時(shí),對(duì)類別標(biāo)記來(lái)說(shuō)這兩個(gè)視圖條件獨(dú)立。13

11.2.4基于分歧的方法協(xié)同訓(xùn)練法的學(xué)習(xí)過(guò)程:首先分別在每個(gè)視圖上利用有標(biāo)記樣本訓(xùn)練一個(gè)分類器,然后,每個(gè)分類器從未標(biāo)記樣本中挑選若干標(biāo)記置信度(即對(duì)樣本賦予正確標(biāo)記的置信度)高的樣本進(jìn)行標(biāo)記,并把這些“偽標(biāo)記”樣本(即其標(biāo)記是由學(xué)習(xí)器給出的)加入另一個(gè)分類器的訓(xùn)練集中,以便對(duì)方利用這些新增的有標(biāo)記樣本進(jìn)行更新。這個(gè)“互相學(xué)習(xí)、共同進(jìn)步”的過(guò)程不斷迭代進(jìn)行下去,直到兩個(gè)分類器都不再發(fā)生變化,或達(dá)到預(yù)先設(shè)定的學(xué)習(xí)輪數(shù)為止。1411.3半監(jiān)督聚類半監(jiān)督聚類是一種結(jié)合了無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)思想的聚類方法。它利用有限的標(biāo)記數(shù)據(jù)和大量的未標(biāo)記數(shù)據(jù),通過(guò)將樣本分組成不同的簇來(lái)發(fā)現(xiàn)隱藏在數(shù)據(jù)中的結(jié)構(gòu)和模式。傳統(tǒng)的聚類算法通常只利用未標(biāo)記數(shù)據(jù)進(jìn)行無(wú)監(jiān)督學(xué)習(xí),而半監(jiān)督聚類則通過(guò)引入標(biāo)記數(shù)據(jù)的先驗(yàn)知識(shí)或約束條件來(lái)指導(dǎo)聚類過(guò)程,從而提高聚類的準(zhǔn)確性和魯棒性。15這類方法使用用戶提供的標(biāo)簽或先驗(yàn)知識(shí)作為約束條件來(lái)指導(dǎo)聚類過(guò)程。常見(jiàn)的約束條件包括“必連”和“勿連”關(guān)系,即將兩個(gè)樣本標(biāo)記為必須屬于同一簇或不能屬于同一簇。基于約束的方法通常通過(guò)優(yōu)化目標(biāo)函數(shù)來(lái)確保盡量滿足約束條件。具體可以分為如下幾種:

11.3.1基于約束的方法讓樣本無(wú)條件滿足給定的約束條件引入懲罰因子(或罰參數(shù))施加獨(dú)立的類標(biāo)簽(或種子集)作為約束16約束K均值聚類算法的基本過(guò)程:1)初始化:選擇初始的K個(gè)聚類中心。2)聚類分配:根據(jù)當(dāng)前的聚類中心,將每個(gè)樣本分配到最近的聚類中心所代表的簇。3)約束調(diào)整:根據(jù)給定的約束信息,對(duì)聚類結(jié)果進(jìn)行調(diào)整??梢愿鶕?jù)約束條件來(lái)判斷當(dāng)前的聚類結(jié)果是否滿足要求,并對(duì)不符合約束的樣本進(jìn)行調(diào)整。調(diào)整的具體方式可以根據(jù)具體約束的特點(diǎn)而定,例如將不滿足約束的樣本重新分配到合適的簇中。4)更新聚類中心:根據(jù)調(diào)整后的聚類結(jié)果,更新每個(gè)簇的聚類中心。5)重復(fù)步驟2至步驟4,直到滿足停止條件(例如達(dá)到最大迭代次數(shù)或聚類結(jié)果不再變化)。

11.3.1基于約束的方法17基于距離的半監(jiān)督聚類方法是一種常見(jiàn)的半監(jiān)督聚類算法,它結(jié)合了無(wú)標(biāo)簽數(shù)據(jù)和有標(biāo)簽數(shù)據(jù)中的距離信息,來(lái)指導(dǎo)聚類過(guò)程。通常情況下,已知標(biāo)簽數(shù)據(jù)會(huì)提供一些關(guān)于簇之間相對(duì)位置或距離的先驗(yàn)知識(shí),從而有助于更準(zhǔn)確地分配無(wú)標(biāo)簽數(shù)據(jù)到相應(yīng)的簇中。

11.3.2基于距離的方法18基于距離的半監(jiān)督聚類方法的一般步驟:1)初始化:選擇初始的聚類中心。2)聚類分配:根據(jù)當(dāng)前的聚類中心,將每個(gè)無(wú)標(biāo)簽樣本分配到最近的聚類中心所代表的簇。3)標(biāo)簽約束:使用已知標(biāo)簽數(shù)據(jù)來(lái)調(diào)整聚類結(jié)果??梢酝ㄟ^(guò)計(jì)算帶標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)之間的距離,然后將這些距離作為約束引入聚類過(guò)程。可以根據(jù)已知標(biāo)簽數(shù)據(jù)的信息,對(duì)聚類中心進(jìn)行調(diào)整,或者調(diào)整樣本之間的距離度量方式,以更好地滿足先驗(yàn)的標(biāo)簽約束。4)更新聚類中心:根據(jù)調(diào)整后的聚類結(jié)果,更新每個(gè)簇的聚類中心。5)重復(fù)步驟2至步驟4,直到滿足停止條件(例如達(dá)到最大迭代次數(shù)或聚類結(jié)果不再變化)。

11.3.2基于距離的方法19常見(jiàn)的基于距離的半監(jiān)督聚類方法可以分為以下三種:基于凸優(yōu)化問(wèn)題調(diào)整樣本間的距離基于最短路徑算法調(diào)節(jié)樣本之間的距離基于譜聚類方法,通過(guò)約束信息來(lái)控制樣本之間的距離

11.3.2基于距離的方法20

11.3.2基于約束和距離的方法快速K均值算法(FastK-means)該方法使用已知標(biāo)簽數(shù)據(jù)的信息來(lái)調(diào)整樣本之間的距離,從而改善聚類結(jié)果。具體而言,該方法通過(guò)引入距離約束,將已知標(biāo)簽數(shù)據(jù)限制在其對(duì)應(yīng)的簇附近,并根據(jù)這些約束來(lái)更新聚類中心。這樣可以更好地利用已知標(biāo)簽的信息,提高聚類的準(zhǔn)確性。21

11.3.2基于約束和距離的方法快速K均值算法的基本過(guò)程:

1)隨機(jī)選擇k個(gè)樣本作為初始聚類中心;2)根據(jù)當(dāng)前的聚類中心,計(jì)算每個(gè)樣本與聚類中心的距離,并將樣本分配給距離最近的聚類中心所對(duì)應(yīng)的簇;3)對(duì)每個(gè)簇,計(jì)算簇內(nèi)所有樣本的均值,并將該均值作為新的聚類中心;4)重復(fù)執(zhí)行步驟2,步驟3直到收斂,即簇的分配不再改變或達(dá)到最大迭代次數(shù)5)在步驟4中將每個(gè)樣本的簇分配結(jié)果進(jìn)行記錄。22

11.3.2基于約束和距離的方法度量學(xué)習(xí)半監(jiān)督聚類(MetricLearningforSemi-SupervisedClustering)

該方法旨在通過(guò)學(xué)習(xí)一個(gè)合適的距離度量來(lái)改善聚類質(zhì)量。該方法使用已知標(biāo)簽數(shù)據(jù)的信息來(lái)訓(xùn)練一個(gè)度量函數(shù),使得同一類別樣本之間的距離較小,不同類別樣本之間的距離較大。通過(guò)優(yōu)化度量函數(shù),可以調(diào)整樣本之間的距離,從而更好地聚類數(shù)據(jù)。23

11.3.2基于約束和距離的方法度量學(xué)習(xí)半監(jiān)督聚類算法的基本過(guò)程:

1)根據(jù)樣本距離矩陣D構(gòu)建簇關(guān)聯(lián)矩陣A;2)將簇關(guān)聯(lián)矩陣A規(guī)范化得到拉普拉斯矩陣L;3)對(duì)拉普拉斯矩陣L進(jìn)行特征分解,得到特征值和特征向量;4)根據(jù)前k個(gè)最小的特征值對(duì)應(yīng)的特征向量構(gòu)建新的數(shù)據(jù)表示Z;5)使用K-means聚類算法對(duì)新的數(shù)據(jù)表示Z進(jìn)行聚類,得到聚類結(jié)果C。24

11.4本章小結(jié)本章主要介紹了半監(jiān)督學(xué)習(xí)算法,給出了未標(biāo)記樣本的定義,并介紹了常見(jiàn)的半監(jiān)督學(xué)習(xí)方法及半監(jiān)督聚類。。半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的混合體,訓(xùn)練數(shù)據(jù)包括標(biāo)注數(shù)據(jù)和非標(biāo)注數(shù)據(jù)。本章首先介紹了半監(jiān)督學(xué)習(xí)的定義及基于的假設(shè)等相關(guān)基本概念,描述了未標(biāo)記樣本。在此基礎(chǔ)上,詳細(xì)介紹了常見(jiàn)的幾種半監(jiān)督學(xué)習(xí)算法,生成式方法、半監(jiān)督SVM、圖半監(jiān)督學(xué)習(xí)及基于分歧的方法等。最后介紹了常見(jiàn)的半監(jiān)督聚類方法,分析了每種方法的特點(diǎn)。25第十二章神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks,簡(jiǎn)稱ANNs)也稱為神經(jīng)網(wǎng)絡(luò)(NNs)或稱為連接模型(ConnectionModel)。神經(jīng)網(wǎng)絡(luò)是由具有適應(yīng)性的簡(jiǎn)單單元組成的廣泛并行互連的網(wǎng)絡(luò),它的組織能夠模擬生物神經(jīng)系統(tǒng)對(duì)真實(shí)世界物體所做出的交互反應(yīng)。2612.1人工神經(jīng)網(wǎng)絡(luò)概述生物神經(jīng)元

生物神經(jīng)系統(tǒng)由大量名為神經(jīng)元的基本單元通過(guò)某種方式構(gòu)成,其工作原理如下圖所示:

樹(shù)突是神經(jīng)元的分支,負(fù)責(zé)接收其他神經(jīng)元的信號(hào)。軸突是神經(jīng)元的傳遞通道,負(fù)責(zé)將信號(hào)傳遞給其他神經(jīng)元。其工作原理維:軸突接收其他神經(jīng)元的“信號(hào)”,當(dāng)這些“信號(hào)”疊加達(dá)到一定“閾值”時(shí),會(huì)導(dǎo)致神經(jīng)元的電位發(fā)生變化,那么此神經(jīng)元會(huì)“興奮”起來(lái),把新的“信號(hào)”通過(guò)軸突傳遞給其他神經(jīng)元。2712.1人工神經(jīng)網(wǎng)絡(luò)概述M-P神經(jīng)元

2812.1人工神經(jīng)網(wǎng)絡(luò)概述激活函數(shù)①階躍函數(shù)

階躍函數(shù)具有不連續(xù),不光滑等性質(zhì),對(duì)后續(xù)模型的求解不利。2912.1人工神經(jīng)網(wǎng)絡(luò)概述②Sigmoid函數(shù)

3012.1人工神經(jīng)網(wǎng)絡(luò)概述Sigmoid函數(shù)變型

3112.1人工神經(jīng)網(wǎng)絡(luò)概述人工神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)由相互連接的M-P神經(jīng)元(也稱為節(jié)點(diǎn)或者處理單元)構(gòu)成。生物神經(jīng)元的連接和連接的強(qiáng)弱,在人工神經(jīng)網(wǎng)絡(luò)中以節(jié)點(diǎn)間的連線以及連接權(quán)重來(lái)表示。根據(jù)網(wǎng)絡(luò)的層數(shù)可分為兩層神經(jīng)網(wǎng)絡(luò)、三層及以上的神經(jīng)網(wǎng)絡(luò)或多層神經(jīng)網(wǎng)絡(luò)。3212.1人工神經(jīng)網(wǎng)絡(luò)概述33

如右圖所示。圖中橢圓表示節(jié)點(diǎn),有向線段表示節(jié)點(diǎn)之間的連接。人工神經(jīng)網(wǎng)絡(luò)一般分為輸入層、隱藏層、輸出層,隱藏層可以有也可以沒(méi)有,也可以有多層。如右圖,只有輸入層和輸出層,沒(méi)有隱藏層,即為最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),感知機(jī)(Perception)模型。

感知機(jī)能力有限,需要通過(guò)很多神經(jīng)元協(xié)作完成復(fù)雜的功能。通過(guò)一定的鏈接方式或信息傳遞方式進(jìn)行協(xié)作的多個(gè)神經(jīng)元可以看作一個(gè)神經(jīng)網(wǎng)絡(luò),稱為人工神經(jīng)網(wǎng)絡(luò),也簡(jiǎn)稱為神經(jīng)網(wǎng)絡(luò)。到目前為止,研究者已經(jīng)發(fā)明了各種各樣的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。本章主要介紹“多層前饋神經(jīng)網(wǎng)絡(luò)”(Multi-LayerFeedforwardNeuralNetworks),也可稱為多層感知機(jī)(MultipleLayersPerception,簡(jiǎn)記為MLP)。12.1人工神經(jīng)網(wǎng)絡(luò)概述34如左圖所示,其中輸入層負(fù)責(zé)接收外界信號(hào)輸入,隱藏層和輸出層負(fù)責(zé)對(duì)信號(hào)進(jìn)行處理,最后由輸出層輸出,其中隱藏層可以是單層也可以是多層,分別稱為“單隱層前饋網(wǎng)絡(luò)”和“多隱層前饋網(wǎng)絡(luò)”。多層前饋神經(jīng)網(wǎng)絡(luò)能夠解決復(fù)雜的分類和回歸問(wèn)題。12.2

感知機(jī)

感知機(jī)是一種最基本的前饋式神經(jīng)網(wǎng)絡(luò)模型,僅由輸入層和輸出層構(gòu)成。

感知機(jī)模型原理

3512.2

感知機(jī)

感知機(jī)模型的幾何解釋感知機(jī)模型的適用性(1)對(duì)于線性可分問(wèn)題感知機(jī)為線性模型,可以解決線性可分問(wèn)題,例如邏輯與、或、非運(yùn)算

3612.2

感知機(jī)它們都可以通過(guò)只有兩個(gè)輸入節(jié)點(diǎn)的簡(jiǎn)單感知機(jī)模型實(shí)現(xiàn):

3712.2

感知機(jī)(2)對(duì)于非線性可分問(wèn)題感知機(jī)原理簡(jiǎn)單容易理解,但能力有限,不能解決非線性問(wèn)題。比如邏輯異或。

此問(wèn)題非線性可分,不存在直線可以將正負(fù)類分開(kāi),需要多層神經(jīng)網(wǎng)絡(luò)解決。

3812.2

感知機(jī)感知機(jī)的學(xué)習(xí)策略

3912.2

感知機(jī)1)我們可以通過(guò)隨機(jī)梯度下降法極小化目標(biāo)函數(shù)

4012.2

感知機(jī)2)我們可以通過(guò)對(duì)偶法極小化目標(biāo)函數(shù)

4112.2

感知機(jī)感知機(jī)隨機(jī)梯度下降法步驟

4212.2

感知機(jī)感知機(jī)對(duì)偶算法步驟

4312.3多層前饋神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)

4412.3多層前饋神經(jīng)網(wǎng)絡(luò)45

12.3多層前饋神經(jīng)網(wǎng)絡(luò)

多層前饋神經(jīng)網(wǎng)絡(luò)的表示能力非常強(qiáng)大,例如可以輕松解決邏輯“異或”問(wèn)題46

12.3多層前饋神經(jīng)網(wǎng)絡(luò)誤差傳播算法

前饋神經(jīng)網(wǎng)絡(luò)表示能力非常強(qiáng),但隨著隱藏層的層數(shù)以及神經(jīng)元的個(gè)數(shù)的增加,需要確定的參數(shù)也會(huì)增加。訓(xùn)練如此多的參數(shù)需要強(qiáng)大的學(xué)習(xí)算法,誤差傳播(ErrorBackPropagation,簡(jiǎn)稱BP)算法是目前最成功的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法。(1)標(biāo)準(zhǔn)BP算法

4712.3多層前饋神經(jīng)網(wǎng)絡(luò)

48結(jié)合Sigmoid函數(shù)的性質(zhì)得

12.3多層前饋神經(jīng)網(wǎng)絡(luò)

49

并且各參數(shù)的更新公式如下:

12.3多層前饋神經(jīng)網(wǎng)絡(luò)(2)累積BP算法

累積BP算法在讀取整個(gè)訓(xùn)練集后才對(duì)參數(shù)進(jìn)行更新,其參數(shù)相對(duì)標(biāo)準(zhǔn)BP算法來(lái)說(shuō)更新的頻率低得多。但是,當(dāng)累積誤差下降到一定程度時(shí),下降速度會(huì)變得非常緩慢,此時(shí)標(biāo)準(zhǔn)BP算法會(huì)更快得到問(wèn)題得解,尤其當(dāng)訓(xùn)練集為大規(guī)模數(shù)據(jù)集時(shí)。

5012.3多層前饋神經(jīng)網(wǎng)絡(luò)正則化(Regularization)

由于BP神經(jīng)網(wǎng)絡(luò)表示能力非常強(qiáng),在實(shí)際使用過(guò)程中經(jīng)常出現(xiàn)過(guò)擬合問(wèn)題,常用的方法有“早?!保‥arlyStopping)和“正則化”(Regularization)。早停(EarlyStopping)

指將數(shù)據(jù)分成訓(xùn)練集和驗(yàn)證集。訓(xùn)練集用來(lái)訓(xùn)練網(wǎng)絡(luò)參數(shù),更新權(quán)重和閾值,驗(yàn)證集用來(lái)估計(jì)誤差。在訓(xùn)練過(guò)程中,當(dāng)訓(xùn)練集誤差降低但驗(yàn)證集誤差升高時(shí),停止訓(xùn)練,同時(shí)返回權(quán)重和閾值。

在目標(biāo)函數(shù)上增加正則項(xiàng),用來(lái)描述網(wǎng)絡(luò)的復(fù)雜程度,在目標(biāo)函數(shù)和正則項(xiàng)之間設(shè)置不同權(quán)重,用來(lái)折中誤差和網(wǎng)絡(luò)復(fù)雜度。例如設(shè)置目標(biāo)函數(shù)為:

5112.3

多層前饋神經(jīng)網(wǎng)絡(luò)BP算法步驟

5212.4其他神經(jīng)網(wǎng)絡(luò)介紹

12.4.1常用神經(jīng)網(wǎng)絡(luò)記憶網(wǎng)絡(luò)(MemoryNetworks)

也稱為反饋網(wǎng)絡(luò),是一種用于自然語(yǔ)言處理(NLP)任務(wù)的神經(jīng)網(wǎng)絡(luò)模型。其中的神經(jīng)元不但可以接收其他神經(jīng)元的信息,也可以接收自己的歷史信息,具有記憶功能,在不同時(shí)刻具有不同的狀態(tài)。其在問(wèn)答系統(tǒng)、機(jī)器翻譯、閱讀理解等任務(wù)中取得了顯著的成果,并且在處理具有不確定性和復(fù)雜上下文的自然語(yǔ)言問(wèn)題方面具有很大的潛力。

5312.4.1常用神經(jīng)網(wǎng)絡(luò)輸入模塊(InputModule):將輸入文本轉(zhuǎn)換為向量形式,并存儲(chǔ)到外部存儲(chǔ)器中。通常使用詞嵌入(WordEmbedding)技術(shù)將單詞表示為連續(xù)向量。記憶模塊(MemoryModule):通過(guò)查詢內(nèi)存存儲(chǔ)的信息來(lái)獲取答案。它將查詢向量與存儲(chǔ)的鍵進(jìn)行匹配,并使用注意力機(jī)制(AttentionMechanism)來(lái)加權(quán)選擇相關(guān)的值。

輸出模塊(OutputModule):把從記憶模塊中檢索到的信息進(jìn)行整合和處理,并生成最終的輸出。常見(jiàn)的方法是使用全連接層或邏輯回歸等。更新模塊(UpdateModule):根據(jù)查詢和輸出的結(jié)果,更新外部存儲(chǔ)器中的信息。

記憶網(wǎng)絡(luò)的訓(xùn)練過(guò)程常常采用端到端的方式,通過(guò)最小化預(yù)測(cè)與真實(shí)答案之間的損失來(lái)優(yōu)化模型參數(shù)。

記憶網(wǎng)絡(luò)包含循環(huán)神經(jīng)網(wǎng)絡(luò)、Hopfield網(wǎng)絡(luò),波爾茲曼機(jī)、受限波爾茲曼機(jī)等。此外,為了提高記憶網(wǎng)絡(luò)的性能,還可以使用額外的技術(shù),如多層結(jié)構(gòu)、注意力機(jī)制和長(zhǎng)短期記憶(LSTM)單元等,稱為記憶增強(qiáng)神經(jīng)網(wǎng)絡(luò)(MemoryAugmentedNeuralNetwork,簡(jiǎn)稱MANN)54

基本結(jié)構(gòu)由輸入模塊(InputModule)、記憶模塊(MemoryModule)、輸出模塊(OutputModule)、更新模塊(UpdateModule)四個(gè)主要組件組成。12.4.1常用神經(jīng)網(wǎng)絡(luò)圖網(wǎng)絡(luò)(GraphNeuralNetwork,簡(jiǎn)稱GNN)

GNN是一類用于處理圖結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)主要處理向量和序列數(shù)據(jù)不同,圖網(wǎng)絡(luò)能夠捕捉和利用圖中節(jié)點(diǎn)之間的關(guān)系和拓?fù)浣Y(jié)構(gòu)。

輸入數(shù)據(jù)被表示為圖的形式,由節(jié)點(diǎn)(或稱為頂點(diǎn))和邊組成。每個(gè)節(jié)點(diǎn)可以包含與之相關(guān)的特征或?qū)傩孕畔ⅲ總€(gè)節(jié)點(diǎn)都由一個(gè)或一組神經(jīng)元構(gòu)成。

實(shí)現(xiàn)方式包括圖卷積網(wǎng)絡(luò)(GraphConvolutionalNetwork,GCN)、圖注意力網(wǎng)絡(luò)(GraphAttentionNetwork,GAT)、消息傳遞神經(jīng)網(wǎng)絡(luò)(MessagePassingNeuralNetwork,MPNN)等。5512.4.1常用神經(jīng)網(wǎng)絡(luò)GNN的設(shè)計(jì)目標(biāo)是對(duì)每個(gè)節(jié)點(diǎn)進(jìn)行聚合和更新,以綜合其相鄰節(jié)點(diǎn)的信息,并將這些信息反饋給下一層的節(jié)點(diǎn)。這種迭代的過(guò)程使得網(wǎng)絡(luò)能夠逐步地獲取全局圖結(jié)構(gòu)的信息。通常由以下幾個(gè)關(guān)鍵組件構(gòu)成:

輸入編碼(InputEncoding):將節(jié)點(diǎn)和邊的特征轉(zhuǎn)換為向量的形式,常見(jiàn)的方法包括使用詞嵌入、圖像特征提取等技術(shù)。

圖卷積層(GraphConvolutionalLayer):圖卷積層用于聚合節(jié)點(diǎn)的鄰居信息。通過(guò)考慮節(jié)點(diǎn)特征和鄰居節(jié)點(diǎn)特征之間的關(guān)系,可以有效地更新節(jié)點(diǎn)的表示。

節(jié)點(diǎn)更新(NodeUpdate):根據(jù)聚合的鄰居信息來(lái)更新節(jié)點(diǎn)的表示。這些更新可以采用不同的函數(shù)和操作,如加權(quán)求和、非線性激活函數(shù)等。

輸出預(yù)測(cè)(OutputPrediction):根據(jù)圖網(wǎng)絡(luò)中得到的節(jié)點(diǎn)表示,可以進(jìn)行各種任務(wù)的預(yù)測(cè),如節(jié)點(diǎn)分類、圖分類、鏈接預(yù)測(cè)等。56圖池化(GraphPooling):有時(shí)候,為了減少圖的規(guī)?;蛱崛D的關(guān)鍵信息,需要對(duì)圖進(jìn)行匯聚操作。圖池化可以將一個(gè)圖縮減為一個(gè)更小的子圖,保留重要的節(jié)點(diǎn)和邊。12.4.2

深度神經(jīng)網(wǎng)絡(luò)57為了學(xué)習(xí)一種好的表示,需要構(gòu)建具有一定“深度”的模型,并通過(guò)學(xué)習(xí)算法來(lái)讓模型自動(dòng)學(xué)習(xí)出好的特征表示(從底層特征,到中層特征,再到高層特征),從而最終提升預(yù)測(cè)模型的準(zhǔn)確率。所謂“深度”是指原始數(shù)據(jù)進(jìn)行非線性特征轉(zhuǎn)換的次數(shù)。理論上來(lái)說(shuō),參數(shù)越多的模型復(fù)雜度越高、"容量"(capacity)越大。這意味著它能完成更復(fù)雜的學(xué)習(xí)任務(wù)。但一般情形下,復(fù)雜模型的訓(xùn)練效率低,易陷入過(guò)擬合,因此難以受到人們青睞。而隨著云計(jì)算、大數(shù)據(jù)時(shí)代的到來(lái),計(jì)算能力的大幅提高可緩解訓(xùn)練低效性,訓(xùn)練數(shù)據(jù)的大幅增加則可降低過(guò)擬合風(fēng)險(xiǎn),因此,以“深度學(xué)習(xí)”(DeepLearning)為代表的復(fù)雜模型開(kāi)始受到人們的關(guān)注,典型的深度學(xué)習(xí)模型就是很深層的神經(jīng)網(wǎng)絡(luò)。本小節(jié)介紹幾種常用的深度學(xué)習(xí)模型。12.4.2

深度神經(jīng)網(wǎng)絡(luò)58全連接層用于將特征圖與輸出進(jìn)行連接,進(jìn)行分類或預(yù)測(cè)任務(wù)。它將所有特征圖中的神經(jīng)元連接到每個(gè)輸出神經(jīng)元,實(shí)現(xiàn)輸入與輸出之間的全連接。全連接層通常使用softmax函數(shù)進(jìn)行多分類預(yù)測(cè),或者使用線性激活函數(shù)得到回歸預(yù)測(cè)??偟膩?lái)說(shuō),卷積神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)學(xué)習(xí)到輸入數(shù)據(jù)中的空間和位置信息,具有對(duì)平移和縮放的魯棒性。它在圖像處理和計(jì)算機(jī)視覺(jué)任務(wù)中表現(xiàn)出色,在許多挑戰(zhàn)性的數(shù)據(jù)集上取得了優(yōu)異的性能。卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)CNN廣泛應(yīng)用于圖像識(shí)別和計(jì)算機(jī)視覺(jué)任務(wù)。主要由卷積層、池化層和全連接層組成.

卷積層是CNN的核心組件,它通過(guò)卷積操作對(duì)輸入進(jìn)行特征提取。卷積操作使用一個(gè)濾波器(也稱為卷積核)在輸入數(shù)據(jù)上滑動(dòng),計(jì)算每個(gè)位置的局部乘積,并將其求和得到輸出特征圖。通過(guò)多個(gè)卷積核的并行計(jì)算,CNN能夠?qū)W習(xí)到輸入數(shù)據(jù)的不同特征表示。卷積操作還具有權(quán)值共享的特性,即同一個(gè)卷積核在輸入的不同位置共享相同的參數(shù),大大減少了模型的參數(shù)數(shù)量。

池化層用于減小特征圖的尺寸并保留重要的特征。常見(jiàn)的池化操作有最大池化和平均池化,它們分別選擇局部區(qū)域中的最大值或平均值作為輸出。通過(guò)降低特征圖的維度,池化層能夠提高模型的計(jì)算效率,并增強(qiáng)模型對(duì)輸入的平移和縮放不變性。12.4.2

深度神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetworks,RNN)

RNN是一種常用于處理序列數(shù)據(jù)的深度學(xué)習(xí)模型,它主要用于自然語(yǔ)言處理、語(yǔ)音識(shí)別等任務(wù)。通過(guò)引入遞歸的結(jié)構(gòu)來(lái)建模序列數(shù)據(jù)之間的依賴關(guān)系。

RNN的基本結(jié)構(gòu)是一個(gè)循環(huán)單元,它包含一個(gè)隱藏狀態(tài)和一個(gè)輸入。在處理序列數(shù)據(jù)時(shí),RNN會(huì)根據(jù)當(dāng)前的輸入和前一時(shí)刻的隱藏狀態(tài)計(jì)算出當(dāng)前時(shí)刻的隱藏狀態(tài)。這樣,RNN可以在時(shí)間維度上共享權(quán)重,并捕捉到序列數(shù)據(jù)的上下文信息。同時(shí),為了有效解決RNN梯度消失和梯度爆炸問(wèn)題,提出了門(mén)控循環(huán)單元(GRU),它將LSTM的輸入門(mén)和遺忘門(mén)合并為一個(gè)更新門(mén),并引入候選隱藏狀態(tài)。GRU相對(duì)于LSTM具有更簡(jiǎn)化的結(jié)構(gòu),在某些情況下能夠取得與LSTM相當(dāng)?shù)男阅堋?912.4.2

深度神經(jīng)網(wǎng)絡(luò)長(zhǎng)短期記憶網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)

LSTM是一種特殊類型的循環(huán)神經(jīng)網(wǎng)絡(luò),專門(mén)用于解決傳統(tǒng)RNN難以處理長(zhǎng)期依賴問(wèn)題的挑戰(zhàn)。LSTM通過(guò)引入門(mén)控機(jī)制來(lái)解決模型無(wú)法有效地“記住”較早期的信息這一問(wèn)題,并在序列數(shù)據(jù)中選擇性地存儲(chǔ)和遺忘信息。已經(jīng)在自然語(yǔ)言處理、語(yǔ)音識(shí)別、機(jī)器翻譯等多個(gè)領(lǐng)域取得

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論