




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、你應(yīng)該要掌握的 7 種回歸分析方法標(biāo)簽: 機(jī)器學(xué)習(xí)回歸分析2015-08-24 11:29 4749 人閱讀 評(píng)論 (0) 收藏 舉報(bào) 分類:機(jī)器學(xué)習(xí) (5)目錄(?)+: 原文: 7 Types of Regression Techniques you should know!(譯者 /帝偉 審校 /翔宇、朱正貴 責(zé)編 /周建?。┦裁词腔貧w分析?回歸分析是一種預(yù)測(cè)性的建模技術(shù),它研究的是因變量(目標(biāo))和自變量(預(yù)測(cè)器)之間的 關(guān)系。 這種技術(shù)通常用于預(yù)測(cè)分析, 時(shí)間序列模型以及發(fā)現(xiàn)變量之間的 因果關(guān)系 。例如,司 機(jī)的魯莽駕駛與道路交通事故數(shù)量之間的關(guān)系,最好的研究方法就是回歸?;貧w分析是建
2、模和分析數(shù)據(jù)的重要工具。在這里,我們使用曲線/線來擬合這些數(shù)據(jù)點(diǎn),在這種方式下,從曲線或線到數(shù)據(jù)點(diǎn)的距離差異最小。我會(huì)在接下來的部分詳細(xì)解釋這一點(diǎn)。我們?yōu)槭裁词褂没貧w分析?如上所述, 回歸分析估計(jì)了兩個(gè)或多個(gè)變量之間的關(guān)系。 下面, 讓我們舉一個(gè)簡(jiǎn)單的例子來 理解它:比如說,在當(dāng)前的經(jīng)濟(jì)條件下, 你要估計(jì)一家公司的銷售額增長(zhǎng)情況。 現(xiàn)在,你有公司最新 的數(shù)據(jù),這些數(shù)據(jù)顯示出銷售額增長(zhǎng)大約是經(jīng)濟(jì)增長(zhǎng)的2.5 倍。 那么使用回歸分析,我們就可以根據(jù)當(dāng)前和過去的信息來預(yù)測(cè)未來公司的銷售情況。使用回歸分析的好處良多。具體如下:1.它表明自變量和因變量之間的 顯著關(guān)系 ;2. 它表明多個(gè)自變量對(duì)一個(gè)因變
3、量的 影響強(qiáng)度 。 回歸分析也允許我們?nèi)ケ容^那些衡量不同尺度的變量之間的相互影響, 如價(jià)格變動(dòng)與促銷活 動(dòng)數(shù)量之間聯(lián)系。 這些有利于幫助市場(chǎng)研究人員, 數(shù)據(jù)分析人員以及數(shù)據(jù)科學(xué)家排除并估計(jì) 出一組最佳的變量,用來構(gòu)建預(yù)測(cè)模型。我們有多少種回歸技術(shù)?有各種各樣的回歸技術(shù)用于預(yù)測(cè)。 這些技術(shù)主要有三個(gè)度量 (自變量的個(gè)數(shù), 因變量的類型 以及回歸線的形狀)。我們將在下面的部分詳細(xì)討論它們。對(duì)于那些有創(chuàng)意的人, 如果你覺得有必要使用上面這些參數(shù)的一個(gè)組合, 你甚至可以創(chuàng)造出 一個(gè)沒有被使用過的回歸模型。但在你開始之前,先了解如下最常用的回歸方法:1. Linear Regression 線性回歸它是
4、最為人熟知的建模技術(shù)之一。線性回歸通常是人們?cè)趯W(xué)習(xí)預(yù)測(cè)模型時(shí)首選的技術(shù)之一。 在這種技術(shù)中, 因變量是連續(xù)的, 自變量可以是連續(xù)的也可以是離散的, 回歸線的性質(zhì)是線 性的。線性回歸使用最佳的擬合直線(也就是回歸線)在因變量( Y )和一個(gè)或多個(gè)自變量( X ) 之間建立一種關(guān)系。用一個(gè)方程式來表示它,即 Y=a+b*X + e ,其中 a表示截距, b表示直線的斜率, e是誤差 項(xiàng)。這個(gè)方程可以根據(jù)給定的預(yù)測(cè)變量( s )來預(yù)測(cè)目標(biāo)變量的值。一元線性回歸和多元線性回歸的區(qū)別在于,多元線性回歸有( 1 )個(gè)自變量,而一元線性 回歸通常只有 1 個(gè)自變量?,F(xiàn)在的問題是 “我們?nèi)绾蔚玫揭粋€(gè)最佳的擬合
5、線呢? ”。如何獲得最佳擬合線( a 和 b 的值)?這個(gè)問題可以使用 最小二乘法 輕松地完成。最小二乘法也是用于擬合回歸線最常用的方法。 對(duì)于觀測(cè)數(shù)據(jù), 它通過最小化每個(gè)數(shù)據(jù)點(diǎn)到線的垂直偏差平方和來計(jì)算最佳擬合線。 因?yàn)樵?相加時(shí),偏差先平方,所以正值和負(fù)值沒有抵消。我們可以使用 R-square 指標(biāo)來評(píng)估模型性能。想了解這些指標(biāo)的詳細(xì)信息,可以閱讀:模 型性能指標(biāo) Part 1 ,Part 2 .要點(diǎn):自變量與因變量之間必須有線性關(guān)系 多元回歸存在多重共線性,自相關(guān)性和異方差性。 線性回歸對(duì)異常值非常敏感。它會(huì)嚴(yán)重影響回歸線,最終影響預(yù)測(cè)值。 多重共線性會(huì)增加系數(shù)估計(jì)值的方差,使得在模型
6、輕微變化下,估計(jì)非常敏感。結(jié) 果就是系數(shù)估計(jì)值不穩(wěn)定在多個(gè)自變量的情況下,我們可以使用向前選擇法,向后剔除法和逐步篩選法來選 擇最重要的自變量。2.Logistic Regression 邏輯回歸邏輯回歸是用來計(jì)算 “事件 =Success”和 “事件 =Failure ”的概率。當(dāng)因變量的類型屬于二元 (1 / 0 ,真/假,是 /否)變量時(shí),我們就應(yīng)該使用邏輯回歸。這里,Y的值從 0到 1,它可以用下方程表示。odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence ln(o
7、dds) = ln(p/(1-p)logit(p) = ln(p/(1-p) = b0+b1X1+b2X2+b3X3+bkXk上述式子中, p 表述具有某個(gè)特征的概率。你應(yīng)該會(huì)問這樣一個(gè)問題: “我們?yōu)槭裁匆诠?式中使用對(duì)數(shù) log 呢? ”。因?yàn)樵谶@里我們使用的是的二項(xiàng)分布 (因變量) ,我們需要選擇一個(gè)對(duì)于這個(gè)分布最佳的連 結(jié)函數(shù)。它就是 Logit 函數(shù)。在上述方程中,通過觀測(cè)樣本的極大似然估計(jì)值來選擇參數(shù), 而不是最小化平方和誤差(如在普通回歸使用的)。要點(diǎn):它廣泛的用于分類問題。邏輯回歸不要求自變量和因變量是線性關(guān)系。它可以處理各種類型的關(guān)系,因?yàn)樗鼘?duì)預(yù)測(cè)的相對(duì)風(fēng)險(xiǎn)指數(shù) OR 使用
8、了一個(gè)非線性的 log 轉(zhuǎn)換。為了避免過擬合和欠擬合,我們應(yīng)該包括所有重要的變量。有一個(gè)很好的方法來確保這種情況,就是使用逐步篩選方法來估計(jì)邏輯回歸。它需要大的樣本量,因?yàn)樵跇颖緮?shù)量較少的情況下,極大似然估計(jì)的效果比普通的 最小二乘法差。自變量不應(yīng)該相互關(guān)聯(lián)的,即不具有多重共線性。然而,在分析和建模中,我們可 以選擇包含分類變量相互作用的影響。如果因變量的值是定序變量,則稱它為序邏輯回歸。如果因變量是多類的話,則稱它為多元邏輯回歸。3. Polynomial Regression多項(xiàng)式回歸對(duì)于一個(gè)回歸方程, 如果自變量的指數(shù)大于 1 ,那么它就是多項(xiàng)式回歸方程。 如下方程所示:y=a+b*x2
9、在這種回歸技術(shù)中,最佳擬合線不是直線。而是一個(gè)用于擬合數(shù)據(jù)點(diǎn)的曲線。重點(diǎn):雖然會(huì)有一個(gè)誘導(dǎo)可以擬合一個(gè)高次多項(xiàng)式并得到較低的錯(cuò)誤,但這可能會(huì)導(dǎo)致過 擬合。你需要經(jīng)常畫出關(guān)系圖來查看擬合情況,并且專注于保證擬合合理,既沒有過擬 合又沒有欠擬合。下面是一個(gè)圖例,可以幫助理解:明顯地向兩端尋找曲線點(diǎn),看看這些形狀和趨勢(shì)是否有意義。更高次的多項(xiàng)式最后 可能產(chǎn)生怪異的推斷結(jié)果。4. Stepwise Regression 逐步回歸在處理多個(gè)自變量時(shí), 我們可以使用這種形式的回歸。 在這種技術(shù)中, 自變量的選擇是在一 個(gè)自動(dòng)的過程中完成的,其中包括非人為操作。這一壯舉是通過觀察統(tǒng)計(jì)的值,如R-square
10、 , t-stats 和 AIC 指標(biāo),來識(shí)別重要的變量。逐步回歸通過同時(shí)添加 /刪除基于指定標(biāo)準(zhǔn)的協(xié)變量來擬合模型。下面列出了一些最常用的逐 步回歸方法:標(biāo)準(zhǔn)逐步回歸法做兩件事情。即增加和刪除每個(gè)步驟所需的預(yù)測(cè)。向前選擇法從模型中最顯著的預(yù)測(cè)開始,然后為每一步添加變量。 向后剔除法與模型的所有預(yù)測(cè)同時(shí)開始,然后在每一步消除最小顯著性的變量。這種建模技術(shù)的目的是使用最少的預(yù)測(cè)變量數(shù)來最大化預(yù)測(cè)能力。 這也是處理高維數(shù)據(jù)集的 方法之一。5. Ridge Regression 嶺回歸嶺回歸分析是一種用于存在多重共線性 (自變量高度相關(guān)) 數(shù)據(jù)的技術(shù)。 在多重共線性情況 下,盡管最小二乘法( OLS
11、 )對(duì)每個(gè)變量很公平,但它們的差異很大,使得觀測(cè)值偏移并遠(yuǎn) 離真實(shí)值。嶺回歸通過給回歸估計(jì)上增加一個(gè)偏差度,來降低標(biāo)準(zhǔn)誤差。上面,我們看到了線性回歸方程。還記得嗎?它可以表示為:y=a+ b*x這個(gè)方程也有一個(gè)誤差項(xiàng)。完整的方程是: y=a+b*x+e (error term), error term is the value needed to correct for a prediction error between the observed and predicted value= y=a+y= a+ b1x1+ b2x2+e, for multiple independent var
12、iables.在一個(gè)線性方程中,預(yù)測(cè)誤差可以分解為 2 個(gè)子分量。一個(gè)是偏差,一個(gè)是方差。預(yù)測(cè)錯(cuò) 誤可能會(huì)由這兩個(gè)分量或者這兩個(gè)中的任何一個(gè)造成。 在這里, 我們將討論由方差所造成的 有關(guān)誤差。嶺回歸通過 收縮參數(shù) ( lambda )解決多重共線性問題??聪旅娴墓皆谶@個(gè)公式中,有兩個(gè)組成部分。第一個(gè)是最小二乘項(xiàng),另一個(gè)是2( -平方)的 倍,其中 是相關(guān)系數(shù)。為了收縮參數(shù)把它添加到最小二乘項(xiàng)中以得到一個(gè)非常低的方差。要點(diǎn):除常數(shù)項(xiàng)以外,這種回歸的假設(shè)與最小二乘回歸類似; 它收縮了相關(guān)系數(shù)的值,但沒有達(dá)到零,這表明它沒有特征選擇功能 這是一個(gè)正則化方法,并且使用的是 L2 正則化 。6. L
13、asso Regression 套索回歸它類似于嶺回歸, Lasso ( Least Absolute Shrinkage and Selection Operator)也會(huì)懲罰回歸系數(shù)的絕對(duì)值大小。 此外, 它能夠減少變化程度并提高線性回歸模型的精度。看看下面的公式:Lasso 回歸與 Ridge 回歸有一點(diǎn)不同,它使用的懲罰函數(shù)是絕對(duì)值,而不是平方。這導(dǎo)致 懲罰(或等于約束估計(jì)的絕對(duì)值之和)值使一些參數(shù)估計(jì)結(jié)果等于零。 使用懲罰值越大,進(jìn) 一步估計(jì)會(huì)使得縮小值趨近于零。這將導(dǎo)致我們要從給定的 n 個(gè)變量中選擇變量。要點(diǎn):除常數(shù)項(xiàng)以外,這種回歸的假設(shè)與最小二乘回歸類似; 它收縮系數(shù)接近零(等
14、于零),這確實(shí)有助于特征選擇; 這是一個(gè)正則化方法,使用的是 L1 正則化 ;如果預(yù)測(cè)的一組變量是高度相關(guān)的, Lasso 會(huì)選出其中一個(gè)變量并且將其它的收縮為零。7. ElasticNet 回歸ElasticNet 是 Lasso 和 Ridge 回歸技術(shù)的混合體。它使用 L1 來訓(xùn)練并且 L2 優(yōu)先作為正則 化矩陣。當(dāng)有多個(gè)相關(guān)的特征時(shí), ElasticNet 是很有用的。 Lasso 會(huì)隨機(jī)挑選他們其中的一 個(gè),而 ElasticNet 則會(huì)選擇兩個(gè)。Lasso 和 Ridge 之間的實(shí)際的優(yōu)點(diǎn)是,它允許 ElasticNet 繼承循環(huán)狀態(tài)下 Ridge 的一些穩(wěn) 定性。要點(diǎn):在高度相關(guān)
15、變量的情況下,它會(huì)產(chǎn)生群體效應(yīng); 選擇變量的數(shù)目沒有限制; 它可以承受雙重收縮。除了這 7 個(gè)最常用的回歸技術(shù), 你也可以看看其他模型, 如 Bayesian 、Ecological 和 Robust 回歸。如何正確選擇回歸模型? 當(dāng)你只知道一個(gè)或兩個(gè)技術(shù)時(shí),生活往往很簡(jiǎn)單。我知道的一個(gè)培訓(xùn)機(jī)構(gòu)告訴他們的學(xué)生, 如果結(jié)果是連續(xù)的,就使用線性回歸。如果是二元的,就使用邏輯回歸!然而,在我們的處 理中,可選擇的越多,選擇正確的一個(gè)就越難。類似的情況下也發(fā)生在回歸模型中。在多類回歸模型中, 基于自變量和因變量的類型, 數(shù)據(jù)的維數(shù)以及數(shù)據(jù)的其它基本特征的情 況下,選擇最合適的技術(shù)非常重要。以下是你要選擇正確的回歸模型的關(guān)鍵因素:1. 數(shù)據(jù)探索是構(gòu)建預(yù)測(cè)模型的必然組成部分。在選擇合適的模型時(shí),比如識(shí)別變量的 關(guān)系和影響時(shí),它應(yīng)該首選的一步。2. 比較適合于不同模型的優(yōu)點(diǎn),我們可以分析不同的指標(biāo)參數(shù),如統(tǒng)計(jì)意義的參數(shù), R-square , Adjusted R-square ,AIC , BIC 以及誤差項(xiàng),另一個(gè)是 Mallows Cp 準(zhǔn)則。 這個(gè)主要是通過將模型與所有可能的子模型進(jìn)行對(duì)比(或謹(jǐn)慎選擇他們),檢查在你 的模型中可能出現(xiàn)的偏差。3. 交叉驗(yàn)證是評(píng)估預(yù)測(cè)模型
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- TY/T 3501.1-2024高山滑雪板性能測(cè)定第1部分:彈性
- 智能電網(wǎng)立項(xiàng)課題申報(bào)書
- 共建公司合同范本
- 減負(fù)教學(xué)課題研究申報(bào)書
- 課題申報(bào)書封面對(duì)不齊
- 旅游管理課題申報(bào)書
- 教改課題申報(bào)書文庫(kù)
- 護(hù)理課題申報(bào)書是什么
- 員工合同范本快遞
- 課題申報(bào)書文獻(xiàn)參考
- 2024年度智慧城市建設(shè)綜合解決方案投標(biāo)書實(shí)例3篇
- 《勞動(dòng)工具的改進(jìn)設(shè)計(jì)》六年級(jí)綜合實(shí)踐課件
- TDT1055-2019第三次全國(guó)國(guó)土調(diào)查技術(shù)規(guī)程
- 2021年河南公務(wù)員行測(cè)考試真題及答案
- 廣告安裝施工及方案
- 單晶爐車間安全培訓(xùn)
- 英語演講技巧與實(shí)訓(xùn)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 2024年海南省公務(wù)員錄用考試《行測(cè)》試題及答案解析
- 九年級(jí)化學(xué)人教版跨學(xué)科實(shí)踐3水質(zhì)檢測(cè)及自制凈水器教學(xué)設(shè)計(jì)
- 【醫(yī)院藥品管理系統(tǒng)探析與設(shè)計(jì)(論文)10000字】
- 螺旋體病梅毒課件
評(píng)論
0/150
提交評(píng)論