




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
3.4算法總結(jié)3.1算法概述3.2算法原理3.3算法案例目錄第三章線性回歸算法3.人工智能算法與實(shí)踐—1—01算法概述PartTHREE—2—回歸分析是一種分析數(shù)據(jù)的統(tǒng)計(jì)方法?;貧w分析的目的是了解兩個(gè)或兩個(gè)以上變量是否相關(guān)、相關(guān)的方向和強(qiáng)度,并建立數(shù)學(xué)模型觀察特定變量,預(yù)測(cè)研究者感興趣的變量?;貧w分析主要分為前期的模型學(xué)習(xí)與后期的預(yù)測(cè)兩個(gè)過(guò)程,前者主要是通過(guò)給定的數(shù)據(jù)集來(lái)進(jìn)行學(xué)習(xí)并且建立回歸模型,后者是輸入需要預(yù)測(cè)的數(shù)據(jù)到模型中,然后輸出預(yù)測(cè)值。
線性回歸模型形式相對(duì)簡(jiǎn)單,易于建模,但是其中卻蘊(yùn)涵著機(jī)器學(xué)習(xí)中的很多重要的基本思想。有很多功能更為強(qiáng)大的非線性模型都能夠建立在線性模型的基礎(chǔ)上,通過(guò)引入層級(jí)結(jié)構(gòu)或者一些映射完成。3.1算法概述基本概念—3—02算法原理PartTHREE—4—一元線性回歸模型多元線性回歸模型12算法原理3.2算法原理算法原理—5—3線性回歸模型4梯度下降求解線性回歸模型在統(tǒng)計(jì)學(xué)中,線性回歸是一種回歸分析方法,它利用最小二乘函數(shù)(稱(chēng)為線性回歸方程)對(duì)一個(gè)或多個(gè)自變量與因變量之間的關(guān)系進(jìn)行建模。線性回歸也是一種被廣泛應(yīng)用的回歸分析方法,分為一元線性回歸和多元線性回歸,通常采用最小二乘法進(jìn)行擬合。3.2.1線性回歸模型基本概念—6—多元線性回歸如果回歸分析包含兩個(gè)或兩個(gè)以上的自變量,并且因變量與自變量之間的關(guān)系是線性的,這種回歸分析稱(chēng)為多元線性回歸分析。一元線性回歸如果回歸分析中只包含一個(gè)自變量和一個(gè)因變量,并且兩者之間的關(guān)系可用直線近似表示,這種回歸分析稱(chēng)為一元線性回歸分析。3.2.1線性回歸模型基本概念—7—公式表示
一元線性回歸
3.2.2一元線性回歸一元線性回歸—8—
3.2.2一元線性回歸一元線性回歸—9—如何最小化以下最小損失函數(shù)?
3.2.2一元線性回歸一元線性回歸—10—通過(guò)特定算法,如最小二乘法、梯度下降算法等來(lái)確定代價(jià)函數(shù)(損失函數(shù))取最小值時(shí)的參數(shù)。最小二乘法降低損失函數(shù)3.2.2一元線性回歸一元線性回歸—11—
最小二乘法降低損失函數(shù)3.2.2一元線性回歸一元線性回歸—12—令上述兩個(gè)方程等于0,聯(lián)立方程,通過(guò)數(shù)學(xué)公式的推導(dǎo),就可以將a和b的值解出來(lái),最終解得的結(jié)果為:算法實(shí)現(xiàn)步驟3.2.2一元線性回歸一元線性回歸—13—
多元線性回歸多元線性回歸模型,其參數(shù)眾多,究竟該如何推導(dǎo)呢?由于其涉及的參數(shù)個(gè)數(shù)較多導(dǎo)致上述的方法不再適用,因此一般采用矩陣推導(dǎo)的方式來(lái)降低損失函數(shù)。3.2.3多元線性回歸多元線性回歸—14—
3.2.3多元線性回歸多元線性回歸—15—算法實(shí)現(xiàn)步驟3.2.3多元線性回歸多元線性回歸—16—
梯度下降求解線性回歸模型3.2.4梯度下降求解線性回歸模型多元線性回歸—17—采用最小二乘法來(lái)處理多元線性回歸問(wèn)題都是在矩陣滿秩的情況下進(jìn)行的,那么當(dāng)矩陣不滿秩時(shí),就需要采用梯度下降算法來(lái)進(jìn)行求解。當(dāng)目標(biāo)函數(shù)為凸函數(shù)時(shí),梯度下降法的解為全局解。一般情況下,解不一定是全局最優(yōu)解,梯度下降法的速度也不一定是最快的。梯度下降算法是一種通過(guò)不斷迭代的方式來(lái)求取代價(jià)函數(shù)的最小值或最大值的算法。其具體的算法思想類(lèi)似于一個(gè)人在山頂尋找最快的下山方式,即找到最陡峭的位置;當(dāng)找到一個(gè)位置下山后,再重復(fù)上述過(guò)程,直至到達(dá)山底。梯度下降求解線性回歸模型3.2.4梯度下降求解線性回歸模型多元線性回歸—18—
3.2.4梯度下降求解線性回歸模型多元線性回歸—19—在求取參數(shù)中,通常采取以下幾種方式。(1)批量梯度下降(BatchGradientDescent)。批量梯度下降法是梯度下降法最常用的形式,具體做法也就是在更新參數(shù)時(shí)使用所有的樣本來(lái)進(jìn)行更新,更新參數(shù)時(shí),每次都使用全部數(shù)據(jù)集,即在給定的步長(zhǎng)的情況下,對(duì)所有的樣本的梯度和進(jìn)行迭代,其核心公式如下:它的優(yōu)點(diǎn)是易于獲取到全局的最優(yōu)解,總體的迭代次數(shù)不多,并且實(shí)現(xiàn)了并行,但其缺點(diǎn)是,如果實(shí)驗(yàn)中所給的樣本數(shù)據(jù)量很大,則每次迭代都將會(huì)耗費(fèi)很長(zhǎng)的時(shí)間,最終導(dǎo)致總體效率較低。3.2.4梯度下降求解線性回歸模型多元線性回歸—20—(2)隨機(jī)梯度下降(StochasticGradientDescent)。隨機(jī)梯度下降算法的原理實(shí)際上與批量梯度下降算法的原理相似。不同的是它沒(méi)有使用實(shí)驗(yàn)中所給的樣本的全部數(shù)據(jù),而是只選取其中的一個(gè)樣本來(lái)計(jì)算梯度,其原理是每次從樣本集中抽取一個(gè)點(diǎn)更新參數(shù),核心公式如下:隨機(jī)梯度下降算法和批量梯度下降算法是兩個(gè)極端。一個(gè)是使用所有數(shù)據(jù)進(jìn)行梯度下降,另一個(gè)是使用一個(gè)樣本進(jìn)行梯度下降。它們的優(yōu)勢(shì)和劣勢(shì)自然也非常突出。在訓(xùn)練速度上,隨機(jī)梯度下降算法每次只需迭代一個(gè)樣本,訓(xùn)練速度很快,而批量梯度下降算法在樣本量較大時(shí)不能滿足訓(xùn)練速度的要求。對(duì)于收斂速度,由于隨機(jī)梯度下降算法每次都只迭代一個(gè)樣本,因此每次迭代的方向變化都會(huì)很大,不能快速地收斂到局部的最優(yōu)解。隨機(jī)梯度下降算法的優(yōu)點(diǎn)就是每次只抽取一個(gè)樣本點(diǎn)來(lái)更新參數(shù),實(shí)驗(yàn)的整體效率較高,但是不易獲得全局的最優(yōu)解,導(dǎo)致實(shí)驗(yàn)整體的正確率下降,并且不易于并行實(shí)現(xiàn)。3.2.4梯度下降求解線性回歸模型多元線性回歸—21—(3)小批量梯度下降(Mini-batchGradientDescent)。小批量梯度下降是批量梯度下降與隨機(jī)梯度下降兩種算法的折中,每次迭代的數(shù)據(jù)是從總體數(shù)據(jù)集中選取指定個(gè)數(shù)的樣本更新數(shù)據(jù),核心公式如下:小批量梯度下降算法的優(yōu)點(diǎn)是每次使用一個(gè)小批量的樣本更新參數(shù),這樣可以有效地減少收斂所需要的迭代次數(shù),提高了實(shí)驗(yàn)的整體效率;相對(duì)于隨機(jī)梯度下降方法更易于獲取全局最優(yōu)解,并且能夠并行實(shí)現(xiàn)。但是,如果批量值選取不當(dāng),則可能會(huì)導(dǎo)致內(nèi)存消耗較大、收斂到局部解等問(wèn)題。3.2.4梯度下降求解線性回歸模型多元線性回歸—22—Python實(shí)現(xiàn)梯度下降算法核心步驟:(1)先定義幾個(gè)變量,thera0、thera1分別表示
0、
1
初始值;alplf表示學(xué)習(xí)率
;error、error1分別表示上次迭代的誤差以及當(dāng)前迭代后的誤差;break_t表示閾值;count表示迭代次數(shù)。(2)進(jìn)行迭代,可以設(shè)定一個(gè)循環(huán)次數(shù),主要是防止步長(zhǎng)選取過(guò)大時(shí),出現(xiàn)發(fā)散的情況而進(jìn)入死循環(huán)。(3)定義一個(gè)列表thera01,thera01[0]代表thera0的偏導(dǎo)數(shù),thera01[1]代表thera1的偏導(dǎo)數(shù),用一個(gè)列表存儲(chǔ)方便后續(xù)同時(shí)更新thera0與thera1的值。(4)再次進(jìn)行迭代,遍歷整個(gè)數(shù)據(jù)集,不斷更新thera01列表,遍歷完成后,再同時(shí)更新thera0、thera1的值。(5)通過(guò)迭代求得此次迭代后的誤差平方和,并求其均值得到平均誤差error1。(6)將此次誤差error1與上次誤差error做差得到的值取完絕對(duì)值后與閾值進(jìn)行比較,若比閾值小,則近似看作達(dá)到最低點(diǎn),即取得最優(yōu)值,跳出循環(huán),否則將error1賦值給error,再次進(jìn)行循環(huán)。(7)為了防止(2)中可能出現(xiàn)的死循環(huán),每次計(jì)數(shù)count加1后與程序開(kāi)始設(shè)定的循環(huán)次數(shù)做比較,當(dāng)?shù)螖?shù)達(dá)到設(shè)定次數(shù)后,程序自動(dòng)跳出循環(huán),循環(huán)結(jié)束。3.2.4梯度下降求解線性回歸模型多元線性回歸—23—03算法案例PartTHREE—24—以波士頓房?jī)r(jià)預(yù)測(cè)的實(shí)現(xiàn)為例,其是一個(gè)回歸問(wèn)題,數(shù)據(jù)背景見(jiàn)左表所示。每個(gè)類(lèi)觀察值的數(shù)量都是均等的,共有506個(gè)觀察值,13個(gè)輸入變量以及1個(gè)輸出變量。每條數(shù)據(jù)包含了房屋以及房屋周?chē)脑敿?xì)信息,其中包含了該鎮(zhèn)的人均犯罪率、一氧化氮濃度、每棟房屋的平均客房數(shù)、到波士頓5個(gè)就業(yè)中心的加權(quán)距離等。3.3算法案例算法案例—25—對(duì)于波士頓房?jī)r(jià)預(yù)測(cè),在此僅采用其中一個(gè)屬性作為變量x,即LSTAT,表示地區(qū)中地位較低的人所占百分比。實(shí)驗(yàn)具體過(guò)程如下所述。1.?dāng)?shù)據(jù)讀入因?yàn)樵趕klearn庫(kù)中已經(jīng)封裝了波士頓房?jī)r(jià)信息,所以直接調(diào)用即可。3.3算法案例算法案例—26—2.編寫(xiě)梯度下降函數(shù)并調(diào)用與上述批量梯度下降算法基本一致,需要做的是將函數(shù)封裝,并且對(duì)函數(shù)里面的參數(shù)進(jìn)行調(diào)整,防止出現(xiàn)因“步長(zhǎng)”過(guò)大而發(fā)散的情況,具體代碼實(shí)現(xiàn)如下:3.3算法案例算法案例—27—3.3算法案例算法案例—28—3.將結(jié)果可視化為了將運(yùn)行結(jié)果可視化,可以在代碼中引入可視化包,由步驟2中計(jì)算得到的a和b(即thera1和thera0)繪制出直線以及LSTAT
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 太陽(yáng)能熱電聯(lián)產(chǎn)系統(tǒng)的技術(shù)發(fā)展現(xiàn)狀
- 第二單元第十二課《使用傳感器采集信息》-教學(xué)設(shè)計(jì) 2023-2024學(xué)年粵教版(2019)初中信息技術(shù)八年級(jí)下冊(cè)
- 湖南省部分學(xué)校2024-2025學(xué)年高一上學(xué)期12月月考地理試題(解析版)
- 2025年河北政法職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)完美版
- 2025至2030年中國(guó)插簧插片數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)指紋控制保管箱管理系統(tǒng)數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 太陽(yáng)能熱電聯(lián)產(chǎn)系統(tǒng)技術(shù)背景
- 2025年教育創(chuàng)新:《教育學(xué)原理》課件的實(shí)踐與反思
- 商場(chǎng)租賃合同模板五篇
- 2025至2030年中國(guó)弱酸艷紅染料數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 合同-勞動(dòng)主體變更三方協(xié)議
- 我國(guó)新聞短視頻的創(chuàng)新模式及對(duì)策研究
- 阿米巴經(jīng)營(yíng)-稻盛和夫經(jīng)營(yíng)哲學(xué)的實(shí)學(xué)應(yīng)用
- 八段錦口令標(biāo)準(zhǔn)版合集
- JCT414-2017 硅藻土的標(biāo)準(zhǔn)
- 鋼結(jié)構(gòu)主要技術(shù)標(biāo)準(zhǔn)和要求
- 新版藥品管理法培訓(xùn)完整版本課件
- 北師大版高中英語(yǔ)選擇性必修四全冊(cè)課文及翻譯(中英文Word)
- 臘八粥 第一課時(shí)自學(xué)導(dǎo)學(xué)單
- 心靈手巧織美好-精美掛件我會(huì)編 (教案)-二年級(jí)下冊(cè)勞動(dòng)浙教版
- IPO項(xiàng)目律師盡職調(diào)查查驗(yàn)計(jì)劃表模版
評(píng)論
0/150
提交評(píng)論