神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)基礎(chǔ)_第1頁(yè)
神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)基礎(chǔ)_第2頁(yè)
神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)基礎(chǔ)_第3頁(yè)
神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)基礎(chǔ)_第4頁(yè)
神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)基礎(chǔ)_第5頁(yè)
已閱讀5頁(yè),還剩58頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)基礎(chǔ)1第一頁(yè),共六十三頁(yè),2022年,8月28日信號(hào)和權(quán)值向量空間將神經(jīng)網(wǎng)絡(luò)的輸入、輸出以及權(quán)值矩陣的行作為向量看待是非常有好處的。這些都是中的向量。是標(biāo)準(zhǔn)的n維歐基里德空間2第二頁(yè),共六十三頁(yè),2022年,8月28日線性向量空問(wèn)3第三頁(yè),共六十三頁(yè),2022年,8月28日如圖1所示。顯然它是一個(gè)向量空間,并且對(duì)于向量加和標(biāo)量乘全部滿足10個(gè)條件。的子集又將如何?考慮圖2中方框內(nèi)的區(qū)域x。向量x和y在區(qū)域內(nèi),但是x+y卻可能不在的區(qū)域內(nèi)。從這個(gè)例子可以看出,任何限定邊界的集合都不可能是向量空間。所有經(jīng)過(guò)坐標(biāo)軸原點(diǎn)的直線都滿足上述10個(gè)條件。但是,如果直線不經(jīng)過(guò)坐標(biāo)軸的原點(diǎn),那么至少這種直線不能滿足第4個(gè)條件。

4第四頁(yè),共六十三頁(yè),2022年,8月28日如果已經(jīng)習(xí)慣于將向量看作是一列數(shù)字,那么這兩個(gè)元素的確是奇怪的向量。但是請(qǐng)記?。阂粋€(gè)集合只要滿足上述10個(gè)條件,就可以被認(rèn)為是一個(gè)向量空間。例如考慮最高階數(shù)小于或等于2的多項(xiàng)式集合此集合的兩個(gè)元素是:5第五頁(yè),共六十三頁(yè),2022年,8月28日由于兩個(gè)連續(xù)函數(shù)的和仍然是一個(gè)連續(xù)函數(shù),一個(gè)標(biāo)量乘以一連續(xù)函數(shù)仍然是一個(gè)連續(xù)函數(shù),所以集合也是一個(gè)向量空間這個(gè)集合與前面討論過(guò)的向量空間不同,它是無(wú)限維的。6第六頁(yè),共六十三頁(yè),2022年,8月28日線性無(wú)關(guān)線性無(wú)關(guān)與之相反,如果當(dāng)且僅當(dāng)每個(gè)均等于零,那么稱其是一組線性無(wú)關(guān)的向量。注意這些定義實(shí)際上等價(jià)于:如果一個(gè)向量集合是無(wú)關(guān)的,那么這個(gè)集合中的任何向量都不能表示成該集合中其他向量的線性組合。7第七頁(yè),共六十三頁(yè),2022年,8月28日生成空間X的基集是由生成它的線性無(wú)關(guān)的向量所組成的集合。任何基集包含了生成空間所需要的最少個(gè)數(shù)的向量。X的維數(shù)就等于基集中元素的個(gè)數(shù)。任何向量空間都可以有多個(gè)基集,但每一個(gè)基集都必須包含相同數(shù)目的元素。8第八頁(yè),共六十三頁(yè),2022年,8月28日9第九頁(yè),共六十三頁(yè),2022年,8月28日內(nèi)積10第十頁(yè),共六十三頁(yè),2022年,8月28日范數(shù)11第十一頁(yè),共六十三頁(yè),2022年,8月28日正交性12第十二頁(yè),共六十三頁(yè),2022年,8月28日向量展開(kāi)式13第十三頁(yè),共六十三頁(yè),2022年,8月28日互逆基向量如果需要向量展開(kāi)式,而基集又不是正交的,那么就必須引人下列等式所定義的互逆基底:14第十四頁(yè),共六十三頁(yè),2022年,8月28日15第十五頁(yè),共六十三頁(yè),2022年,8月28日16第十六頁(yè),共六十三頁(yè),2022年,8月28日17第十七頁(yè),共六十三頁(yè),2022年,8月28日18第十八頁(yè),共六十三頁(yè),2022年,8月28日19第十九頁(yè),共六十三頁(yè),2022年,8月28日20第二十頁(yè),共六十三頁(yè),2022年,8月28日由此可以看出,當(dāng)要用一列數(shù)字表示一個(gè)一般向量時(shí),必須知道其向量展開(kāi)式所采用的基集是什么。在如果沒(méi)有特殊說(shuō)明,那么假設(shè)所采用的都是標(biāo)準(zhǔn)基集。21第二十一頁(yè),共六十三頁(yè),2022年,8月28日Gram矩陣只是向量個(gè)數(shù)比這些向量的原始空間中向量個(gè)數(shù)要少(R4空間中的3個(gè)向量)。在這種情況下,由這3個(gè)向量所構(gòu)成的矩陣不再是一個(gè)方陣,所以不能計(jì)算其行列式的值??梢圆捎梅Q為Gram的方法,這種方法按可以求出一個(gè)矩陣的行列式,矩陣的第i行第j列的元素是向量i和向量j的內(nèi)積。這些向量是線性相關(guān)的當(dāng)且僅當(dāng)G矩陣的行列式為零。22第二十二頁(yè),共六十三頁(yè),2022年,8月28日23第二十三頁(yè),共六十三頁(yè),2022年,8月28日神經(jīng)網(wǎng)絡(luò)中的線性變換諸如特征值、特征向量和基變換等基本概念,這些概念對(duì)理解一些諸如性能學(xué)習(xí)(反傳學(xué)習(xí)算法)以及Hopfield網(wǎng)絡(luò)的收斂特性等神經(jīng)網(wǎng)絡(luò)關(guān)鍵課題是十分重要的。24第二十四頁(yè),共六十三頁(yè),2022年,8月28日線性變換變換:一個(gè)變換由三部分組成25第二十五頁(yè),共六十三頁(yè),2022年,8月28日旋轉(zhuǎn)變換兩個(gè)向量之和的旋轉(zhuǎn)伸縮向量的變換26第二十六頁(yè),共六十三頁(yè),2022年,8月28日矩陣表示可以證明兩個(gè)有限維向量空間之間的任何線性變換都可以用一個(gè)矩陣來(lái)表示(這和在有限維的向量空間中的任何一個(gè)向量可以用一個(gè)數(shù)列來(lái)表示是一樣的)。請(qǐng)記住:與一般向量的數(shù)列表示形式并不是惟一的類似,一個(gè)變換的矩陣表示也不是惟一的。如果改變定義域或值域的基集,那么變換的矩陣表示也會(huì)隨之改變。27第二十七頁(yè),共六十三頁(yè),2022年,8月28日

以旋轉(zhuǎn)變換為例,來(lái)討論變換的矩陣表示,看看如何找到該變換的矩陣表示。28第二十八頁(yè),共六十三頁(yè),2022年,8月28日可以看到展式中的兩個(gè)系數(shù)就是的矩陣中的第一列。29第二十九頁(yè),共六十三頁(yè),2022年,8月28日從展式中可以得到矩陣表示中的第二列。所以,完整的矩陣表示可以由下式:30第三十頁(yè),共六十三頁(yè),2022年,8月28日特征值和特征向量考慮一個(gè)線性交換::(定義域和值域相同)。分別稱滿足下式的那些不等于0的向量和標(biāo)量分別是特征向量和特征值:請(qǐng)注意,特征向量實(shí)際上并不是一個(gè)真正的向量,而是一個(gè)向量空間。所以,給定變換的一個(gè)特征向量表示一個(gè)方向,當(dāng)對(duì)任何取該方向的向量進(jìn)行變換時(shí),它們都將繼續(xù)指向相同的方向,僅僅是按照特征值對(duì)向量的長(zhǎng)度進(jìn)行縮放。31第三十一頁(yè),共六十三頁(yè),2022年,8月28日如果某個(gè)變換有n個(gè)不同的特征值,則可以保證得到該變換n個(gè)線性無(wú)關(guān)的特征向量,因此特征向量組成變換的向量空間的一個(gè)基集。32第三十二頁(yè),共六十三頁(yè),2022年,8月28日性能曲面和最優(yōu)點(diǎn) 介紹的是一類稱為性能學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練的基礎(chǔ)知識(shí)。神經(jīng)網(wǎng)絡(luò)有幾種不同類型的學(xué)習(xí)規(guī)則,如聯(lián)想學(xué)習(xí)(Hebb學(xué)習(xí))和競(jìng)爭(zhēng)學(xué)習(xí)。性能學(xué)習(xí)是一類重要的學(xué)習(xí)規(guī)則,其目的在于調(diào)整網(wǎng)絡(luò)參數(shù)以優(yōu)化網(wǎng)絡(luò)性能。主要目的是研究性能曲面,并確定性能曲面存在極大點(diǎn)和極小點(diǎn)的條件。33第三十三頁(yè),共六十三頁(yè),2022年,8月28日性能優(yōu)化

這種優(yōu)化過(guò)程分兩個(gè)步驟進(jìn)行。第一步是定義“性能”的含義。換言之,需要找到一個(gè)衡量網(wǎng)絡(luò)性能的定量標(biāo)準(zhǔn),即性能指數(shù),性能指數(shù)在網(wǎng)絡(luò)性能良好時(shí)很小,反之則很大。優(yōu)化過(guò)程的第二步是搜索減小性能指數(shù)的參數(shù)空間(調(diào)整網(wǎng)絡(luò)權(quán)值和偏置值)。34第三十四頁(yè),共六十三頁(yè),2022年,8月28日泰勒級(jí)數(shù)假定性能指數(shù)是一個(gè)解析函數(shù),它的各級(jí)導(dǎo)數(shù)均存在。35第三十五頁(yè),共六十三頁(yè),2022年,8月28日36第三十六頁(yè),共六十三頁(yè),2022年,8月28日向量的情況神經(jīng)網(wǎng)絡(luò)的性能指數(shù)并不僅是一個(gè)純量的函數(shù),它是所有網(wǎng)絡(luò)參數(shù)(各個(gè)權(quán)值和偏置值)的函數(shù),參數(shù)的數(shù)量可能是很大的。因此,需要將泰勒級(jí)數(shù)展開(kāi)形式擴(kuò)展為多變量形式。37第三十七頁(yè),共六十三頁(yè),2022年,8月28日38第三十八頁(yè),共六十三頁(yè),2022年,8月28日39第三十九頁(yè),共六十三頁(yè),2022年,8月28日方向?qū)?shù)40第四十頁(yè),共六十三頁(yè),2022年,8月28日41第四十一頁(yè),共六十三頁(yè),2022年,8月28日最大斜率在什么方向上?當(dāng)方向向量與梯度的內(nèi)積最大時(shí)斜率最大,故當(dāng)方向向量與梯度同向時(shí)會(huì)出現(xiàn)最大斜率(注意方向向量的長(zhǎng)度對(duì)此沒(méi)有影響,因?yàn)樗驯灰?guī)格化)。42第四十二頁(yè),共六十三頁(yè),2022年,8月28日極小點(diǎn)43第四十三頁(yè),共六十三頁(yè),2022年,8月28日44第四十四頁(yè),共六十三頁(yè),2022年,8月28日45第四十五頁(yè),共六十三頁(yè),2022年,8月28日46第四十六頁(yè),共六十三頁(yè),2022年,8月28日優(yōu)化的必要條件定義了最優(yōu)點(diǎn)(極小點(diǎn))后,必須給出這種點(diǎn)需要滿足的條件。這里還要用到泰勒級(jí)來(lái)推導(dǎo)這些條件:47第四十七頁(yè),共六十三頁(yè),2022年,8月28日駐點(diǎn):一個(gè)極小點(diǎn)處的梯度一定為零。這就是局部極小點(diǎn)的一階必要條件(不是充分條件)。48第四十八頁(yè),共六十三頁(yè),2022年,8月28日二階條件49第四十九頁(yè),共六十三頁(yè),2022年,8月28日可以通過(guò)檢驗(yàn)矩陣特征值來(lái)檢驗(yàn)這些條件,如果所有特征值為正則矩陣為正定矩陣;如果所有特征值非負(fù),則矩陣為半正定矩陣。充分條件:一個(gè)正定的赫森矩陣是一個(gè)強(qiáng)極小點(diǎn)存在的二階充分條件,但不是必要條件。如果泰勒級(jí)數(shù)的二階項(xiàng)為零,但三階項(xiàng)為正,仍可能存在強(qiáng)極小點(diǎn)。所以強(qiáng)極小點(diǎn)存在的二階充分條件是赫森矩陣為半正定矩陣。50第五十頁(yè),共六十三頁(yè),2022年,8月28日二次函數(shù)二次函數(shù)的所有的高階導(dǎo)數(shù)為零。51第五十一頁(yè),共六十三頁(yè),2022年,8月28日研究赫森矩陣的特征值和特征向量得到二次函數(shù)性質(zhì)??紤]以原點(diǎn)為駐點(diǎn)且其值為0的二次函數(shù):由于A為對(duì)稱矩陣,所以其特征向量?jī)蓛烧???捎锰卣飨蛄孔鳛榱邢蛄繕?gòu)成一個(gè)的矩陣:52第五十二頁(yè),共六十三頁(yè),2022年,8月28日53第五十三頁(yè),共六十三頁(yè),2022年,8月28日用方向?qū)?shù)的概念說(shuō)明A的特征值和特征向量的物理意義以及確定二次函數(shù)的曲面特性:(特征向量集可作為向量空間的基)54第五十四頁(yè),共六十三頁(yè),2022年,8月28日首先,這個(gè)二階導(dǎo)數(shù)是特征值的加權(quán)平均。所以它總不大于最大的特征值,或不小于最小特征值。換句話說(shuō):55第五十五頁(yè),共六十三頁(yè),2022年,8月28日56第五十六頁(yè),共六十三頁(yè),2022年,8月28日所以,在最大特征值的特征向量方向上存在最大的二階導(dǎo)數(shù)。事實(shí)上:在每個(gè)特征向量方向的二階導(dǎo)數(shù)都等于相應(yīng)的特征值。在其他方向上二階導(dǎo)數(shù)等于特征值的加權(quán)平均值。特征向量方向上的相應(yīng)特征值即是在該方向上的二階導(dǎo)數(shù)。57第五十七頁(yè),共六十三頁(yè),2022年,8月28日現(xiàn)將二次函數(shù)的一些特點(diǎn)小結(jié)如下:1)如果赫森矩陣的所有特征值為正,則函數(shù)有一個(gè)強(qiáng)極小點(diǎn)2)如果赫森矩陣的所有特征值為負(fù),則函數(shù)有一個(gè)強(qiáng)極大點(diǎn)3)如果赫森矩陣的特征值有正有負(fù),則函數(shù)有一個(gè)鞍點(diǎn)。4)如果赫森矩陣的所有特征值為非負(fù),但某些特征值為零,則函數(shù)要么有一個(gè)弱極小點(diǎn),要么沒(méi)有駐點(diǎn)。5)如果赫森矩陣的所有特征值為非正,但某些特征值為零,則函數(shù)要么有一個(gè)弱極大點(diǎn),要么沒(méi)有駐點(diǎn)58第五十八頁(yè),共六十三頁(yè),2022年,8月28日性能優(yōu)化討論三類優(yōu)化算法:最速下降法、牛頓法以及共扼梯度法。這些算法將用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練所有將要討論的算法都是迭代的。首先,給定一個(gè)初始猜測(cè)值,然后按照等式:59第五十九頁(yè),共六十三頁(yè),2022年,8月28日最速下降法60第六十頁(yè),共六十三頁(yè),2022年,8月28日下降方向滿足上式的任意向量稱為一個(gè)下降方向。如果沿此方向取足夠小的步長(zhǎng),函數(shù)一定遞減。這帶來(lái)了另一個(gè)問(wèn)題:最速下降的方向在哪里?(即在什么方向上函數(shù)遞減速度最快?)這種情況發(fā)生于下式為最大的負(fù)數(shù)時(shí):(設(shè)長(zhǎng)度不變,只改變方向

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論