



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、邏輯回歸算法邏輯回歸算法LR邏輯回歸相信很多人都很熟悉,這個算法科能不如隨機森林、SVM、神經(jīng)網(wǎng)絡(luò)、GBDT等分類算法那么復(fù)雜那么高深,但是絕不能小瞧這個算法,因為這個這個算法有幾個優(yōu)點是那幾個算法無法達到的,一是邏輯回歸算法已經(jīng)比較成熟,預(yù)測較為準(zhǔn)確;二是模型求出的系數(shù)易于理解,便于解釋,不屬于黑盒模型,尤其在金融業(yè),80%的預(yù)測是使用邏輯回歸;三是結(jié)果是概率值,可以做rankingmodel;四是訓(xùn)練快。當(dāng)然它也有缺點,分類較多的y都不是很適用;對于自變量的多重共線性比較敏感,所以需要利用因子分析或者聚類分析來選擇代表性的自變量;另外,預(yù)測結(jié)果呈現(xiàn)S型,兩端概率變化比較小,中間的概率變化比
2、較大比較敏感,導(dǎo)致很多區(qū)間的變化對目標(biāo)概率的影響沒有區(qū)分度,無法確定閾值。下面我先具體介紹下這個模型。一、邏輯回歸LR介紹首先要搞清楚當(dāng)你的目標(biāo)變量是分類變量時,才會考慮邏輯回歸,并且主要用于二分類問題。舉個例子說醫(yī)生希望通過腫瘤的大小XI、長度x2、種類x3等特征來判斷病人的腫瘤時惡性還是良性的,這是目標(biāo)變量y就是分類變量(0良性腫瘤,1惡性腫瘤)。顯然我們希望像保留線性回歸一樣可以通過一些列x與y之間的線性關(guān)系來進行預(yù)測,但是此時由于y時分類變量,它的取值只能是0,1或者0,1,2等,不可能時負(fù)無窮或者正無窮,這個問題怎么解決呢?此時引入一個sigmoid函數(shù),這個函數(shù)的性質(zhì),非常好的滿足
3、了x的輸入是負(fù)無窮到正無窮,而輸出y總是【0,1】,并且當(dāng)x=0時,y=0.5,以一種概率的形式表示x=0時,y=0.5這是決策邊界。當(dāng)你確定腫瘤是良性還是惡性而通過sigmoid函數(shù),可以將我們喜歡的線性表示的函數(shù)嵌入其中,當(dāng)theta*x得到的值大于0,貝Uh(x)得到的概率值大于0.5時,表示屬于該分類;當(dāng)theta*x的值小于0,貝Uh(x)小于0.5時表示不屬于該分類。這樣就形成了我們看到的邏輯回歸,具體如下:其theta是向量:二、邏輯回歸估計(最小化損失函數(shù)lossfunction)損失函數(shù)是在機器學(xué)習(xí)中經(jīng)常出現(xiàn)的概念,用于衡量均方誤差(模型估計值-模型實際值產(chǎn)2/n最小,即預(yù)測
4、的準(zhǔn)確度,因而需要損失函數(shù)最小,得到的參數(shù)才最優(yōu)。線性回歸中的最小二乘估計也是由此而來)但是由于邏輯回歸的這種損失函數(shù)非凸,不能找到全局最低點。因此,需要采用另一種方式,將其轉(zhuǎn)化為最大似然,如下:如果y=1,你膽敢給出一個h(x)很小的概率值如0.01,那么損失函數(shù)就會變得很大:(應(yīng)的“心!.寧貳処叨邛-1摘號丙戳丿叫-E匚嚥伽(曲環(huán)勺rr=一盤工0嗨加0亠(1-財)咤(1-帕妙為別丘7正劇優(yōu)事m=L_.LL-.*此時的損失函數(shù)就變成了凸函數(shù),theta的求解,就是梯度下降法球最小值,此時引入正則項,是解決過擬合問題(過擬合問題:如果我們的模型有非常多的特征,模型很復(fù)雜,模型對原始數(shù)據(jù)的擬合效
5、果很好,但是喪失一般性,對新的待預(yù)測樣本預(yù)測效果很差)。那么怎么解決呢?限制參數(shù)theta,損失函數(shù)加上theta的限制,即如果theta太多太大,則就給予懲罰L2正則化該公式將一直被迭代執(zhí)行,直到達到收斂(J(theta)在每一步迭代中都減小,如果某一步減小的值小于某一個很小的閾值(小于0.001),則判定其收斂;或者達到某個停止條件為止(如迭代次數(shù)達到閾值或者算法達到某個可以允許的誤差范圍)。三、評價指標(biāo)roc曲線/auc值模型的評價主要用ROC曲線ROC曲線實際上是對概率輸出設(shè)置一個門檻D,當(dāng)P(C|x)D時,事件C為真,而roc曲線反應(yīng)了,在一系列可能門檻值下,真正率(TPR)和假正率
6、(FPR)的值,一個好的模型必須在一個高的真正率和一個低的假正率中取得一個折中水平,即auc(areaofroc表1:混淆矩陣:roc曲線下的面積)越大越好,最大值為1.預(yù)測值真實值positivenegativepositivetruepositive(TP)falsenegative(FN)negativefalsepositive(FP)truenegative(TN)TP(真正):被模型預(yù)測為正的正樣本FN(假負(fù)):被模型預(yù)測為負(fù)的正樣本FP(假正):被模型預(yù)測為正的負(fù)樣本TN(真負(fù)):被模型預(yù)測為負(fù)的負(fù)樣本TPR=TP/(TP+FN)#正樣本預(yù)測結(jié)果數(shù)/正樣本實際數(shù)FPR=FP/(F
7、P+TN)#被預(yù)測為正的負(fù)樣本結(jié)果數(shù)/負(fù)樣本實際數(shù)FNR=FN/(FN+TP)TNR=TN/(TN+FP)圖1:roc曲線00-LRSVM-iANNbaseline四、LR應(yīng)用經(jīng)驗匚口口如果連續(xù)變量,注意做標(biāo)準(zhǔn)化處理LR對樣本分布敏感,所以要注意樣本的平衡性(y=1不能太少)樣本量足的情況下采用下采樣,不足的情況用上采樣。lr對于特征處理非常重要,常用的處理手段包括:通過組合特征引入個性化因素;注意特征的頻度;聚類、分桶。但是lr不怕特征大,GBDT比較怕。對于連續(xù)變量的離散化,可以用cart(GBDT)查看離散的結(jié)果,生成新特征,最用LR。LR和FM對于稀疏高維特征處理時無壓力的,GBDT對于連續(xù)值自己會找到合適的切分點,xgboost也可以處理分類類型的特征,無需one-hot,平展開的高維稀疏特征對它沒有好處。算法調(diào)優(yōu)方面,選擇合適的正則化,正則化系數(shù),收斂閾值e、迭代輪數(shù),
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 德克士炸雞的市場營銷策略
- 危重病患的護理處理方案與技巧
- 德克士 品質(zhì)美食體驗絕妙
- 小型水庫度汛安全管護要點
- 炸雞店的品牌識別系統(tǒng)
- 施工機械的綠色改造策略
- 土木工程中的BIM與虛擬現(xiàn)實結(jié)合案例
- 炸雞店的產(chǎn)品包裝設(shè)計
- 化妝的正確步驟 緊跟流程不走樣
- 卡通小熊的春節(jié)探險
- 關(guān)節(jié)型機器人腕部結(jié)構(gòu)設(shè)計(全套,CAD有圖)
- 帶傳動教學(xué)課件
- 部編語文八年級語文下冊專題復(fù)習(xí)課件
- 真空系統(tǒng)設(shè)計課件
- 2021年英語專業(yè)四級TEM4考試真題和答案
- 蘇教版四年級下冊三位數(shù)乘兩位數(shù)整理和復(fù)習(xí)課件
- 公司崗位價值評估報告
- 中國華電集團公司火電廠煙氣脫硫工程(石灰石-石膏濕法)設(shè)計導(dǎo)則(A版)
- 《小學(xué)英語小組合作學(xué)習(xí)的研究》課題結(jié)題報告
- 試驗設(shè)計與數(shù)據(jù)處理作業(yè)333333
- 排骨架檢驗標(biāo)準(zhǔn)_圖文
評論
0/150
提交評論