版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、A、線性回歸假設(shè)有數(shù)據(jù)有:r=J工叫小d叫付_/舊用IiQ,其中上一產(chǎn)由r,gFR.其中m為練習(xí)集樣本數(shù),n為樣本維度,y是樣本的真實(shí)值.線性回歸采用一個(gè)高維的線性函數(shù)來(lái)盡可能的擬合所有的數(shù)據(jù)點(diǎn),最簡(jiǎn)單的想法就是最小化函數(shù)值與真實(shí)值誤差的平方概率解釋-高斯分布加最大似然估計(jì).即有如下目標(biāo)函數(shù):J=招嚴(yán)1=millJ電其中線性函數(shù)如下:兒工,|=/十仇/,+仇4+,*十仇*:H;-1=&lxJ構(gòu)建好線性回歸模型的目標(biāo)函數(shù)之后,接下來(lái)就是求解目標(biāo)函數(shù)的最優(yōu)解,即一個(gè)優(yōu)化問(wèn)題.常用的梯度優(yōu)化方法都可以拿來(lái)用,這里以梯度下降法來(lái)求解目標(biāo)函數(shù).o%:=/一0西4.J1=1ma=內(nèi)-cfX&quo
2、t;-J西i=l3m=Oj-a2G_婢i=1另外,線性回歸也可以從最小二乘法的角度來(lái)看,下面先將樣本表示向量化,Ke叱YGI/",構(gòu)成如下數(shù)據(jù)矩陣.那么目標(biāo)函數(shù)向量化形式如下:可以看出目標(biāo)函數(shù)是一個(gè)凸二次規(guī)劃問(wèn)題,其最優(yōu)解在導(dǎo)數(shù)為0處取到.je=xxT-xy=o00=XXTXY值得注意的上式中存在計(jì)算矩陣的逆,一般來(lái)講當(dāng)樣本數(shù)大于數(shù)據(jù)維度時(shí),矩陣可逆,可以采用最小二乘法求得目標(biāo)函數(shù)的閉式解.當(dāng)數(shù)據(jù)維度大于樣本數(shù)時(shí),矩陣線性相關(guān),不可逆.此時(shí)最小化目標(biāo)函數(shù)解不唯一,且非常多,出于這樣一種情況,我們可以考慮奧卡姆剃刀準(zhǔn)那么來(lái)簡(jiǎn)化模型復(fù)雜度,使其不必要的特征對(duì)應(yīng)的w為0.所以引入正那么項(xiàng)使
3、得模型中w非0個(gè)數(shù)最少.當(dāng)然,嶺回歸,lasso回歸的最根本的目的不是解決不可逆問(wèn)題,而是預(yù)防過(guò)擬合.B、概率解釋損失函數(shù)與最小二乘法采用最小化平方和的概率解釋.假設(shè)模型預(yù)測(cè)值與真實(shí)值的誤差為一,那么預(yù)測(cè)值與真實(shí)值,之間有如下關(guān)系:=幾/+1根據(jù)中央極限定理,當(dāng)一個(gè)事件與很多獨(dú)立隨機(jī)變量有關(guān),該事件服從正態(tài)分布.一般來(lái)說(shuō),連續(xù)值我們都傾向于假設(shè)服從正態(tài)分布.假設(shè)每個(gè)樣本的誤差獨(dú)立同分布均值為0,方差為6的高斯分布3,所以有:即表示v"滿足以均值為兒“卜,方差為"的高斯分布.由最大似然估計(jì)有:max=Q"'"出"0mL;="&q
4、uot;|淚"日嶺回歸和Lasso回歸嶺回歸的目標(biāo)函數(shù)在一般的線性回歸的根底上參加了正那么項(xiàng),在保證最正確擬合誤差的同時(shí),使得參數(shù)盡可能的“簡(jiǎn)單,使得模型的泛化水平強(qiáng)即不過(guò)分相信從練習(xí)數(shù)據(jù)中學(xué)到的知識(shí).正那么項(xiàng)一般采用一,二范數(shù),使得模型更具有泛化性,同時(shí)可以解決線性回歸中不可逆情況.nnn1丈h»y十人卜其迭代優(yōu)化函數(shù)如下:另外從最小二乘的角度來(lái)看,通過(guò)引入二范正那么項(xiàng),使其主對(duì)角線元素來(lái)強(qiáng)制矩陣可逆.白j(日)=xxre-xy+人日=o68=(XXT+AZ)-1XYLasso回歸采用一范數(shù)來(lái)約束,使參數(shù)非零個(gè)數(shù)最少.而Lasso和嶺回歸的區(qū)別很好理解,在優(yōu)化過(guò)程中,最優(yōu)
5、解為函數(shù)等值線與約束空間的交集,正那么項(xiàng)可以看作是約束空間.可以看出二范的約束空間是一個(gè)球形,而一范的約束空間是一個(gè)方形,這也就是二范會(huì)得到很多參數(shù)接近0的值,而一范那么盡可能非零參數(shù)最少.值得注意的是線性模型的表示水平有限,但是并不一定表示線性模型只能處理線性分布的數(shù)據(jù).這里有兩種常用的線性模型非線性化.對(duì)于上面的線性函數(shù)的構(gòu)造,我們可以看出模型在以“口'工的坐標(biāo)上是線性的,但是并不表示線性的模型就一定只能用于線性分布問(wèn)題上.假設(shè)我們只有一個(gè)特征,而實(shí)際上回歸值是,等,我們同樣可以采用線性模型,由于我們完全可以把輸入空間映射到高維空間3'入土.工|,其實(shí)這也是核方法以及PCA
6、空間變換的一種思想,但凡對(duì)輸入空間進(jìn)行線性,非線性的變換,都是把輸入空間映射到特征空間的思想,所以只需要把非線性問(wèn)題轉(zhuǎn)化為線性問(wèn)題即可.另外一種是局部線性思想,即對(duì)每一個(gè)樣本構(gòu)建一個(gè)加權(quán)的線性模型.局部加權(quán)線性回歸考慮到線性回歸的表示水平有限,可能出現(xiàn)欠擬合現(xiàn)象.局部加權(quán)線性回歸為每一個(gè)待預(yù)測(cè)的點(diǎn)構(gòu)建一個(gè)加權(quán)的線性模型.具加權(quán)的方式是根據(jù)預(yù)測(cè)點(diǎn)與數(shù)據(jù)集中點(diǎn)的距離來(lái)為數(shù)據(jù)集中的點(diǎn)賦權(quán)重,當(dāng)某點(diǎn)距離預(yù)測(cè)點(diǎn)較遠(yuǎn)時(shí),其權(quán)重較小,反之較大.由于這種權(quán)重的機(jī)制引入使得局部加權(quán)線性回歸產(chǎn)生了一種局局部段擬合的效果.由于該方法對(duì)于每一個(gè)預(yù)測(cè)點(diǎn)構(gòu)建一個(gè)加權(quán)線性模型,都要重新計(jì)算與數(shù)據(jù)集中所有點(diǎn)的距離來(lái)確定權(quán)重值
7、,進(jìn)而確定針對(duì)該預(yù)測(cè)點(diǎn)的線性模型,計(jì)算本錢(qián)高,同時(shí)為了實(shí)現(xiàn)無(wú)參估計(jì)來(lái)計(jì)算權(quán)重,需要存儲(chǔ)整個(gè)數(shù)據(jù)集.局部加權(quán)線性回歸,在線性回歸根底上引入權(quán)重,其目標(biāo)函數(shù)(下面的目標(biāo)函數(shù)是針對(duì)一個(gè)預(yù)測(cè)樣本的)如下:的二5£加"('3(工)y一般選擇下面的權(quán)重函數(shù),權(quán)重函數(shù)選擇并非由于其類(lèi)似于高斯函數(shù),而是根據(jù)數(shù)據(jù)分布的特性,但權(quán)重函數(shù)的選取并不一定依賴于數(shù)據(jù)特性.其中是待預(yù)測(cè)的一個(gè)數(shù)據(jù)點(diǎn).對(duì)于上面的目標(biāo)函數(shù),我們的目標(biāo)同樣是求解使得損失函數(shù)最小化,同樣局部加權(quán)線性回歸可以采用梯度的方法,也可以從最小二乘法的角度給出閉式解.=XWXTO-XWY=00(XWXTIXWY其中'
8、39;是對(duì)角矩陣,線性回歸核心思想最小化平方誤差,可以從最小化損失函數(shù)和最小二乘角度來(lái)看,優(yōu)化過(guò)程可以采用梯度方法和閉式解.在閉式解問(wèn)題中需要注意矩陣可逆問(wèn)題.考慮到過(guò)擬合和欠擬合問(wèn)題,有嶺回歸和lasso回歸來(lái)預(yù)防過(guò)擬合,局部加權(quán)線性回歸通過(guò)加權(quán)實(shí)現(xiàn)非線性表示.代碼實(shí)戰(zhàn)A、線性回歸/*線性回歸函數(shù)的實(shí)現(xiàn),考慮一般的線性回歸,最小平方和作為損失函數(shù),那么目標(biāo)函數(shù)是一個(gè)無(wú)約束的凸二次規(guī)劃問(wèn)題,由凸二次規(guī)劃問(wèn)題的極小值在導(dǎo)數(shù)為0處取到,且極小值為全局最小值,且有閉式解.根據(jù)數(shù)學(xué)表達(dá)式實(shí)現(xiàn)矩陣之間的運(yùn)算求得參數(shù)Wo*/intregression(Matrixx,Matrixy)(MatrixxT=x
9、.transposeMatrix();MatrixxTx=xTx.multsMatrix(xT,x);MatrixxTx_1=xTx.niMatrix();MatrixxTx_1xT=xTx_1xT.multsMatrix(xTx_1,xT);Matrixws;ws=ws.multsMatrix(xTx_1xT,y);cout<<"ws"<<endl;ws.print();return0;B、嶺回歸和Lasso回歸/*下面的嶺回歸函數(shù)只是在一般的線性回歸函數(shù)的根底上在對(duì)角線上引入了嶺的概念,不僅有解決矩陣不可逆的線性,同樣也有正那么項(xiàng)的目的,采用常用
10、的二范數(shù)就得到了直接引入lam的形式.*/intridgeRegres(Matrixx,Matrixy,doublelam)MatrixxT=x.transposeMatrix();MatrixxTx=xTx.multsMatrix(xT,x);Matrixdenom(xTx.row,xTx.col,lam,"diag");xTx=xTx.addMatrix(xTx,denom);MatrixxTx_1=xTx.niMatrix();MatrixxTx_1xT=xTx_1xT.multsMatrix(xTx_1,xT);Matrixws=ws.multsMatrix(xTx
11、_1xT,y);cout<<"ws"<<endl;ws.print();return0;C、局部加權(quán)線性回歸/*局部加權(quán)線性回歸是在線性回歸的根底上對(duì)每一個(gè)測(cè)試樣本(練習(xí)的時(shí)候就是每一個(gè)練習(xí)樣本)在其已有的樣本進(jìn)行一個(gè)加權(quán)擬合,權(quán)重確實(shí)定可以通過(guò)一個(gè)核來(lái)計(jì)算,常用的有高斯核(離測(cè)試樣本越近,權(quán)重越大,反之越小),這樣對(duì)每一個(gè)測(cè)試樣本就得到了不一樣的權(quán)重向量,所以最后得出的擬合曲線不再是線性的了,這樣就增加的模型的復(fù)雜度來(lái)更好的擬合非線性數(shù)據(jù).*/需要注意的是局部加權(quán)線性回歸是對(duì)每一個(gè)樣本進(jìn)行權(quán)重計(jì)算,所以對(duì)于每一個(gè)樣本都有一個(gè)權(quán)重w,所以下面的函數(shù)只
12、是局部線性回歸的一個(gè)主要輔助函數(shù)MatrixlocWeightLineReg(Matrixtest,Matrixx,Matrixy,constdouble&k)Matrixw(x.row,x.row,0,"T");doubletemp=0;inti,j;/*根據(jù)測(cè)試樣本點(diǎn)與整個(gè)樣本的距離已經(jīng)選擇的核確定局部加權(quán)矩陣,采用對(duì)角線上為局部加權(quán)值*/for(i=0;i<x.row;i+)(temp=0;for(j=0;j<x.col;j+)(temp+=(test.data0j-x.dataij)*(test.data0j-x.dataij);w.dataii=exp(temp/-2.0*k*k);MatrixxT=x.transposeMatrix();Matrixwx=wx.multsMatrix(w,x);MatrixxTwx;xTwx=xTwx.multsM
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度高新技術(shù)產(chǎn)業(yè)合作合同風(fēng)險(xiǎn)管理與保障3篇
- 2024版銷(xiāo)售代理居間協(xié)議3篇
- 2025年煙草制品倉(cāng)儲(chǔ)物流服務(wù)合同2篇
- 2024配送合同模板
- 2025年度二零二五年度電商平臺(tái)攤位合作租賃協(xié)議3篇
- 二零二五年度門(mén)禁系統(tǒng)市場(chǎng)分析與營(yíng)銷(xiāo)推廣合同3篇
- 二零二四年幼兒園糕點(diǎn)品牌授權(quán)與校園市場(chǎng)合作合同3篇
- 2025年度鉆井工程安全與環(huán)保管理合同范本3篇
- 二零二四年專(zhuān)業(yè)舞臺(tái)燈光音響租賃合同標(biāo)準(zhǔn)模板3篇
- 二零二四年保險(xiǎn)合同及理賠服務(wù)合同
- 春節(jié)行車(chē)安全常識(shí)普及
- 電機(jī)維護(hù)保養(yǎng)專(zhuān)題培訓(xùn)課件
- 汽車(chē)租賃行業(yè)利潤(rùn)分析
- 春節(jié)拜年的由來(lái)習(xí)俗來(lái)歷故事
- 2021火災(zāi)高危單位消防安全評(píng)估導(dǎo)則
- 佛山市服務(wù)業(yè)發(fā)展五年規(guī)劃(2021-2025年)
- 房屋拆除工程監(jiān)理規(guī)劃
- 醫(yī)院保安服務(wù)方案(技術(shù)方案)
- 高效能人士的七個(gè)習(xí)慣:實(shí)踐應(yīng)用課程:高級(jí)版
- 小數(shù)加減法計(jì)算題100道
- 通信電子線路(哈爾濱工程大學(xué))智慧樹(shù)知到課后章節(jié)答案2023年下哈爾濱工程大學(xué)
評(píng)論
0/150
提交評(píng)論