數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch06】回歸分析_第1頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch06】回歸分析_第2頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch06】回歸分析_第3頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch06】回歸分析_第4頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch06】回歸分析_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第六章回歸分析數(shù)據(jù)分析與數(shù)據(jù)挖掘01數(shù)據(jù)的預處理一元線性回歸是量化地研究兩個變量之間的線性關系。

一元線性回歸求解步驟如下:①繪制自變量和因變量的散點圖,觀察自變量和因變量之間是否具有線性關系;②求解回歸方程;③確認回歸方程的精度;④總體回歸的方差分析;⑤進行殘差分析;⑥回歸方程參數(shù)檢驗;⑦預測與控制。一元線性回歸問題描述一元線性回歸模型與求解

一元線性回歸模型與求解尋找參數(shù)a和b使得由式(6.3)計算的殘差平方和最小,正好屬于著名的“最小二乘法”(Leastsquaremethod)求解或最小均方誤差求解。殘差平方和Se是由式(6.3)確定的,而其中包括的a和b是待求解參數(shù),為了使得Se最小,要求a和b對應的偏導數(shù)為0,即滿足式(6.4)。第4章中使用相關系數(shù)R來計算兩個數(shù)值屬性的線性相關程度,4.3.2節(jié)中得到x和y的相關系數(shù)R,,如式(6.9)所示,即如果將x和y分別看作兩個向量,則相關系數(shù)R,代表x和y這兩個向量去中心化的夾角余弦值。確認回歸方程的精度由于回歸方程是建立在多次實驗上的,為便于描述和理解線性回歸的條件,將式(6.1)改寫為式(6.13)??傮w回歸的方差分析在回歸分析中,個別異常數(shù)據(jù)會對回歸方程的計算有較大影響,因此殘差分析主要是利用回歸技術發(fā)現(xiàn)那些可能是異常數(shù)據(jù)(離群點)的數(shù)據(jù)點,再由人工確認。對于確認屬于異常數(shù)據(jù)的點,可以先去除再進行回歸分析。殘差分析回歸方程參數(shù)檢驗令總體回歸方程為p=Ax+B,總體的方差為σ2,則數(shù)理統(tǒng)計中已經(jīng)證明E(a)=A,E(b)=B,而方差滿足式(6.33)。當建立了回歸方程,并且檢驗了回歸方程的有效性后,回歸方程常用于預測和控制。預測的形式包括兩種:①進行點估計,直接利用回歸方程計算得到;②進行區(qū)間估計,指定置信度1-α下的置信區(qū)間估計?;貧w方程預測與控制02多元線性回歸多元線性回歸問題描述

一元線性回歸模型有一個因變量和一個自變量。多元線性回歸是指存在一個因變量而存在多個自變量的線性回歸分析。多元線性回歸模型與求解多元線性回歸分析的流程:①畫出各自變量和因變量的散點圖,以幫助分析是否各個自變量與因變量之間存在線性相關;②考慮自變量之間的多重共線性,常使用方差膨脹因子(VIP),見7.4節(jié);③求解回歸方程;④確認回歸方程的精度;⑤進行回歸系數(shù)檢驗;⑥進行總體回歸模型的檢驗;⑦殘差分析,常包括異常值剔除和殘差序列自相關性分析;⑧進行解釋或預測。根據(jù)回歸方程式(6.53),可以計算X矩陣各行對應的預測值p。確認回歸方程的精度

殘差分析回歸方程參數(shù)檢驗

多元線性回歸中的標準誤差s,也稱均方誤差MSE,如式(6.70)所示。式(6.69)中的D(e)也可以由式(6.70)中的s2來估計,當n較大時,1/n非常小,只是式(6.69)屬于修正估計下的標準殘差計算。

與一元線性回歸進行點預測和區(qū)間預測相似,多元回歸方程中的點預測是指利用回歸方程計算出預測值?;貧w方程預測03常用的曲線回歸曲線回歸問題曲線回歸是指對于自變量與因變量呈現(xiàn)非線性關系的變量進行回歸分析。曲線回歸中有一類曲線能夠轉(zhuǎn)換為線性回歸問題,借助線性回歸方法求解,有時也稱曲線的線性化求解;還有一類曲線難以或不能轉(zhuǎn)換為線性回歸問題。對于不能借助線性回歸求解的回歸分析,有一部分回歸方程可以計算偏導數(shù),常借助最小二乘法通過梯度下降等策略求解;還有一部分無法計算偏導數(shù),則可以借助窮舉法、網(wǎng)格法、隨機法或者智能優(yōu)化算法求解回歸方程系數(shù)。

回歸函數(shù)是回歸變量多項式的回歸,稱為多項式回歸。自變量只有1個時,稱為一元多項式回歸;自變量有多個時,稱為多元多項式回歸。多項式回歸在指數(shù)回歸中,指數(shù)函數(shù)中的自變量x作為指數(shù)出現(xiàn),其方程形如p=ap”。參數(shù)b一般用于描述增長或衰減的速度。指數(shù)回歸也常轉(zhuǎn)換為一元線性回歸求解,如果y的觀察值都是正數(shù),p是正數(shù),則將y=ap*兩側(cè)取自然對數(shù),如式(6.85)所示。指數(shù)回歸與對數(shù)回歸其他常見曲線回歸

04最小二乘法及其應用最小二乘法線性擬合偽逆矩陣求解Moore-Pseudo逆矩陣最小均方誤差算法將式(6.91)最小誤差平方和代入式(6.101),該式的最小化等價于式(6.102)的最小均方誤差函數(shù)。所以,有時也將式(6.101)視作最小均方誤差(LeastMeanSquared,LMS)函數(shù)。非線性回歸非線性模型(Nonlinearmodel)指反映自變量與因變量間非線性關系的數(shù)學表達式,它相對于線性模型而言,其因變量與自變量間不能在坐標空間表示為線性對應關系。非線性模型的一般形式是Yi=f(Xn,X?,…,Xk,β,…,Fm)+6,其中,Y是因變量,也稱被解釋變量,Y是第i個樣本的因變量觀察值;Xn,X?,,Xu是自變量,也稱解釋變量,共k個解釋變量;β,B,…,β是模型的參數(shù),共m個模型參數(shù);ε為誤差項,E為第i個樣本的誤差項。智能優(yōu)化求解技術此優(yōu)化問題可使用智能優(yōu)化算法,常包括遺傳算法、粒子群算法、模擬退火算法、蟻群算法、禁忌搜索算法等,甚至使用這些算法的組合優(yōu)化策略。智能優(yōu)化算法求解時一般面臨如下問題:①往往每次優(yōu)化目標的計算都需遍歷一次數(shù)據(jù)集,因此計算量可能會很大,特別是大規(guī)模數(shù)據(jù)集,計算代價較大;②智能優(yōu)化算法屬于啟發(fā)式概率求解技術,找到最優(yōu)解存在一定概率,不能保證找到最優(yōu)解。05Logistic回歸Logistic回歸分類與基本函數(shù)Logistic回歸系數(shù)計算06本章小結(jié)本章小結(jié)線性回歸是最常用的回歸分析,已應用在許多描述性任務和預測性任務中。在影響

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論