




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據挖掘與機器學習第5章回歸分析第5章回歸分析在生活中存在很多相互制約又相互依賴的關系,這些關系主要有確定關系和非確定關系。確定關系指變量之間存在明確的函數關系,如圓的周長與半徑之間的關系。非確定關系指各變量之間雖然有制約依賴關系,但無法用確定的函數表達式來表示,如人的血壓與體重之間存在密切關系,但無法找到一個能準確表達其關系的函數,變量之間存在的這種非確定性關系,稱為相對關系。10十一月20242第5章回歸分析事實上,有一些確定關系,由于測量誤差的影響,也經常表現出某種程度的不確定性。對于不確定的關系,通過大量觀測數值,可以發(fā)現其中變量間存在的統計規(guī)律。通過回歸分析,可以表明自變量和因變量之間的顯著關系或者表明多個自變量對一個因變量的影響強度?;貧w問題在形式上與分類問題十分相似,但是在分類問題中預測值y是一個離散變量,它代表通過特征x所預測出來的類別;而在回歸問題中,y是一個連續(xù)變量。3第5章回歸分析回歸分析是一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關系。這種技術通常用于預測分析,時間序列模型以及發(fā)現變量之間的因果關系。例如,司機的魯莽駕駛與道路交通事故數量之間的關系,最好的研究方法就是回歸。10十一月20244它表明自變量和因變量之間的顯著關系;它表明多個自變量對一個因變量的影響強度。第5章回歸分析
回歸分析的定義與分類回歸分析是一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關系。具體來說,回歸分析法指利用數據統計原理,對大量統計數據進行數學處理,并確定因變量與某些自變量的相關關系,建立一個相關性較好的回歸方程(函數表達式),并加以外推,用于預測今后因變量變化的分析?;貧w分析通常用于預測分析,時間序列模型以及發(fā)現變量之間的因果關系。10十一月20245
3.1.1回歸任務6
第5章回歸分析第5章回歸分析10十一月20247根據因變量和自變量的個數分為一元回歸分析、多元回歸分析、邏輯回歸分析和其他回歸分析;根據因變量和自變量的函數表達式分為線性回歸分析和非線性回歸分析。線性回歸是回歸分析中最基本的方法。對于非線性回歸,可以借助數學手段將其轉化為線性回歸,一旦線性回歸問題得到解決,非線性回歸問題也就迎刃而解。常用的回歸分析技術有線性回歸、邏輯回歸、多項式回歸和嶺回歸等。有各種各樣的回歸技術用于預測。這些技術主要有三個度量(自變量的個數,因變量的類型以及回歸線的形狀)第5章回歸分析8
第5章回歸分析
回歸分析的過程回歸分析可以簡單理解為數據分析與預測,通過對數據進行分析實現預測,也就是適當擴大已有自變量的取值范圍,并承認該回歸方程在擴大的定義域內成立。一般來說,回歸分析的主要過程和步驟如下:(1)收集一組包含因變量和自變量的數據;(2)根據因變量和自變量之間的關系,初步設定回歸模型;(3)求解合理的回歸系數;(4)進行相關性檢驗,確定相關系數;(5)利用模型對因變量作出預測或解釋,并計算預測值的置信區(qū)間。10十一月20249第5章回歸分析一元線性回歸分析一元線性回歸分析預測法,是根據自變量X和因變量Y的相關關系,建立X與Y的線性回歸方程進行預測的方法。由于市場現象一般是受多種因素的影響,而并不是僅僅受一個因素的影響。只有當諸多的影響因素中,確實存在一個對因變量影響作用明顯高于其他因素的變量,才能將它作為自變量,應用一元相關回歸分析市場預測法進行預測。10一元線性回歸分析11在簡單的回歸模型中,回歸函數是解釋變量的線性函數,回歸模型則稱為一元線性回歸模型,表達式如式5.2。回歸模型的設定給出了回歸函數的形式,但模型中的回歸參數是未知的。要對模型參數進行估計和統計推斷,需要從總體樣本中抽樣獲得數據。設從總體中第5章回歸分析10十一月202412一元線性回歸分析【例5-1】分析預測房子的大?。ㄆ椒接⒊撸┖头績r(美元)之間的對應關系。數據如下:y=[6450,7450,8450,94501,11450,15450,18450]x=[150,200,250,300,350,400,600]13一元線性回歸分析如果散點圖的趨勢大概呈現線性關系,可以建立線性方程,若不呈線性分布,可以建立其他回歸模型。從散點圖可以看出,房屋面積和售價之間存在明顯的線性關系。獲得樣本后,要對回歸模型進行參數估計和統計推斷。14一元線性回歸分析一元線性回歸模型的參數估計一元線性回歸模型中參數估計方法有最小二乘法、矩方法和極大似然方法.最小二乘法(LeastSqureEstimation,LSE)又稱最小平方法,它通過最小化誤差的平方和尋找數據的最佳函數匹配。15一元線性回歸分析最小二乘法也是用于擬合回歸線最常用的方法。對于觀測數據,它通過最小化每個數據點到線的垂直偏差平方和來計算最佳擬合線。因為在相加時,偏差先平方,所以正值和負值沒有抵消。10十一月202416一元線性回歸分析要點:1.自變量與因變量之間必須有線性關系2.多元回歸存在多重共線性,自相關性和異方差性。3.線性回歸對異常值非常敏感。它會嚴重影響回歸線,最終影響預測值。4.多重共線性會增加系數估計值的方差,使得在模型輕微變化下,估計非常敏感。結果就是系數估計值不穩(wěn)定5.在多個自變量的情況下,我們可以使用向前選擇法,向后剔除法和逐步篩選法來選擇最重要的自變量。10十一月202417一元線性回歸分析一元線性回歸模型的參數估計根據微積分求極值原理,通過求偏導并置為0得到:18求解方程組得到:一元線性回歸分析一元線性回歸模型的誤差方差估計19求解方程組得到:一元線性回歸分析一元線性回歸模型的誤差方差估計20一元線性回歸分析一元回歸模型的主要統計檢驗回歸分析要通過樣本所估計的參數來代替總體的真實參數,或者說用樣本回歸線代替總體回歸線。盡管從統計性質上已知,如果有足夠多的重復抽樣,參數的估計值的期望就等于總體的參數真值,但在一次抽樣中,估計值不一定就等于該真值。那么在一次抽樣中,參數的估計值與真值的差異有多大,是否顯著,就需要進一步進行統計檢驗。21一元線性回歸分析一元回歸模型的主要統計檢驗在一元回歸的統計檢驗主要包括擬合優(yōu)度檢驗,變量顯著性檢驗和殘差標準差檢驗。1.擬合優(yōu)度檢驗擬合優(yōu)度檢驗是用卡方統計量進行統計顯著性檢驗的重要內容之一。它是依據總體分布狀況,計算出分類變量中各類別的期望頻數,與分布的觀察頻數進行對比,判斷期望頻數與觀察頻數是否有顯著差異,從而達到從分類變量進行分析的目的。它是對樣本回歸直線與樣本觀測值之間擬合程度的檢驗。22一元線性回歸分析一元回歸模型的主要統計檢驗在一元回歸的統計檢驗主要包括擬合優(yōu)度檢驗,變量顯著性檢驗和殘差標準差檢驗。2.變量的顯著性檢驗(t檢驗)顯著性檢驗就是事先對總體(隨機變量)的參數或總體分布形式做出一個假設,然后利用樣本信息來判斷這個假設(備擇假設)是否合理,即判斷總體的真實情況與原假設是否有顯著性差異。顯著性檢驗是針對我們對總體所做的假設進行檢驗,其原理就是“小概率事件實際不可能性原理”來接受或否定假設。23回歸算法的評價在評價線性回歸算法時,將樣本分為訓練集(Trainset)和測試集(Testset),利用訓練集進行回歸模型的參數求解,利用測試集上的相關指標評價模型的好壞。1.回歸算法的評價指標(1)平均絕對誤差(MeanAbsoluteError,MAE)2410十一月2024回歸算法的評價1.回歸算法的評價指標(2)均方誤差(MeanSquaredError,MSE)2510十一月2024(3)均方根誤差(RootMeanSquaredError,RMSE)回歸算法的評價1.回歸算法的評價指標4)
(RSquared)MSE、RMSE、MAE都難以解決在不同問題的模型中有一個統一的評判尺度,因此引入2610十一月2024一元線性回歸分析例:對鳶尾花數據集中的'petal-length'和'petal-width'兩列數據進行回歸分析。27一元線性回歸分析例:對鳶尾花數據集中的'petal-length'和'petal-width'兩列數據進行回歸分析。28print(u"系數:",clf.coef_
)print(u"截距:",ercept_
)fromsklearn.metricsimportmean_squared_errorass_mean_squared_errorfromsklearn.metricsimportmean_absolute_errorass_mean_absolute_errorfromsklearn.metricsimportr2_scoreass_r2_scoreprint('MAE:%.4f'%s_mean_squared_error(y_test,pre))
print('MSE:%.4f'%s_mean_absolute_error(y_test,pre))
print('R^2:%.4f'%s_r2_score(y_test,pre))系數:
[[0.4118243]]截距:
[-0.3571818]MAE:0.0529MSE:0.1676R^2:0.9117多元線性回歸在實際經濟問題中,一個變量往往受到多個變量的影響。例如,家庭消費支出,除了受家庭可支配收入的影響外,還受諸如家庭所有的財富、物價水平、金融機構存款利息等多種因素的影響。也就是說,一個因變量和多個自變量有依存關系,而且有時幾個影響因素主次難以區(qū)分,或者有的因素雖屬次要,但也不能忽略。這時采用一元回歸分析進行預測難以奏效,需要多元回歸分析。29多元線性回歸多元回歸分析是指通過對兩個或兩個以上的自變量與一個因變量的相關分析,建立預測模型進行預測的方法。當自變量與因變量之間存在線性關系時稱為多元線性回歸分析。30多元線性回歸31多元線性回歸建立多元線性回歸模型時,為了保證回歸模型具有優(yōu)良的解釋能力和預測效果,應首先注意自變量的選擇,其準則是:(1)自變量對因變量必須有顯著的影響,并呈密切的線性相關;(2)自變量與因變量之間的線性相關必須是真實的,而不是形式上的;(3)自變量之間應具有一定的互斥性,即自變量之間的相關程度不應高于自變量與因變量之間的相關程度;(4)自變量應具有完整的統計數據,其預測值容易確定。32多元線性回歸多元線性回歸模型的參數估計多元線性回歸模型的參數估計,同一元線性回歸方程一樣,也是在要求誤差最小的前提下,用最小二乘法求解參數。以二元線性回歸模型為例,求解回歸參數的標準方程組為:33多元線性回歸多元線性回歸的假設檢驗及其評價1將回歸方程中所有變量作為一個整體來檢驗它們與因變量之間是否具有線性關系(方差分析法、復相關系數);2對回歸方程的預測或解釋能力做出綜合評價(決定系數);3在此基礎上進一步對各個變量的重要性作為評價(偏回歸平方和、t檢驗和標準回歸系數)。34多元線性回歸35例題:波士頓房價預測完整的分析過程=》作業(yè)邏輯回歸線性回歸算法能對連續(xù)值的結果進行預測,而邏輯回歸模型是機器學習從統計領域借鑒的另一種技術,用于分析二分類或有序的因變量與解釋變量之間的關系。邏輯回歸算法是一種廣義的線性回歸分析方法,它僅在線性回歸算法的基礎上,利用Sigmoid函數對事件發(fā)生的概率進行預測。也就是說,在線性回歸中可以得到一個預測值,然后將該值通過邏輯函數進行轉換,將預測值轉為概率值,再根據概率值實現分類。邏輯回歸常用于數據挖掘、疾病自動診斷和經濟預測等領域。36邏輯回歸Logistic回歸模型37邏輯回歸38邏輯回歸11/10/2024邏輯回歸11/10/2024邏輯回歸41邏輯回歸上述邏輯回歸模型中假設樣本輸出為0或者1兩類,因此被稱為二元邏輯回歸模型。二元邏輯回歸的模型和損失函數很容易推廣到多元邏輯回歸。比如總是認為某種類型為正值,其余為0值,這種方法就是常用的one-vs-rest,簡稱OvR。另一種多元邏輯回歸的方法是Many-vs-Many(MvM),他會選擇一部分類別的樣本和另一部分類別的樣本來做邏輯回歸二分類。11/10/2024多項式回歸線性回歸是用一條直線或者一個平面(超平面)去近似原始樣本在空間中的分布。線性回歸的局限性是只能應用于存在線性關系的數據中,但是在實際生活中,很多數據之間是非線性關系,雖然也可以用線性回歸擬合非線性回歸,但是效果會變差,這時候就需要對線性回歸模型進行改進,使之能夠擬合非線性數據。非線性回歸是用一條曲線或者曲面去逼近原始樣本在空間中的分布,它“貼近”原始分布的能力一般較線性回歸更強。43多項式回歸線性回歸的局限性是只能應用于存在線性關系的數據中,但是在實際生活中,很多數據之間是非線性關系,雖然也可以用線性回歸擬合非線性回歸,但是效果會變差,這時候就需要對線性回歸模型進行改進,使之能夠擬合非線性數據。多項式回歸(PolynomialRegression)是研究一個因變量與一個或多個自變量間多項式關系的回歸分析方法。多項式回歸模型是非線性回歸模型中的一種。由泰勒級數可知,在某點附近,如果函數n次可導,那么它可以用一個n次的多項式來近似。44多項式回歸研究一個因變量與一個或多個自變量間多項式的回歸分析方法,稱為多項式回歸(PolynomialRegression)。如果自變量只有一個時,稱為一元多項式回歸;如果自變量有多個時,稱為多元多項式回歸。在一元回歸分析中,如果因變量y與自變量x的關系為非線性的,但又找不到適當的函數曲線來擬合,則可以采用一元多項式回歸。在這種回歸技術中,最佳擬合線不是直線,而是一個用于擬合數據點的曲線。多項式回歸的最大優(yōu)點是可以通過增加x的高次項對觀測點進行逼近,直到滿意為止。多項式回歸在回歸分析中占有重要地位,因為任意函數都可以分段用多項式逼近。45多項式回歸
46示例先擬定一個一元三次多項式作為目標函數,然后再加上一些噪聲產生樣本集,再用轉化的線性回歸模型來完成擬合,最后對測試集進行預測。采用sklearn.linear_model包中的LinearRegression函數來完成。目標函數:3.3多項式回歸47示例產生樣本集與測試集:3.3多項式回歸48示例:三次多項式擬合:3.3多項式回歸49多項式回歸Python實現50多項式回歸Python實現51欠擬合、過擬合問題10十一月202452明顯地向兩端尋找曲線點,看看這些形狀和趨勢是否有意義。更高次的多項式最后可能產生怪異的推斷結果。欠擬合、過擬合示例模型在訓練樣本上產生的誤差叫訓練誤差(trainingerror。在測試樣本上產生的誤差叫測試誤差(testerror)。欠擬合、過擬合與泛化能力53
線性回歸模型三次多項式模型五次多項式模型九次多項式模型訓練誤差20195342094測試誤差578247123238492和2597781144138496泛化能力與模型復雜度衡量模型好壞的是測試誤差,它標志了模型對未知新實例的預測能力,因此一般追求的是測試誤差最小的那個模型。模型對新實例的預測能力稱為泛化能力,模型在新實例上的誤差稱為泛化誤差。能夠求解問題的模型往往不只一個。一般來說,只有合適復雜程度的模型才能最好地反映出訓練集中蘊含的規(guī)律,取得最好的泛化能力。
欠擬合、過擬合與泛化能力54嶺回歸嶺回歸(RidgeRegression)是一種專用于共線性數據分析的有偏估計回歸方法,實質上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價,獲得回歸系數更為符合實際、更可靠的回歸方法,對病態(tài)數據的耐受性遠遠強于最小二乘法。嶺回歸的目標函數在一般的線性回歸的基礎上加入了L2正則項,在保證最佳擬合誤差的同時,使得參數盡可能的“簡單”,使得模型的泛化能力強,同時可以解決線性回歸中不可逆情況。55嶺回歸嶺回歸算法是在原線性回歸模型的損失函數中增加L2正則項11/10/2024其中表示參數向量的范數。嶺回歸在保證最佳擬合誤差的同時,增強模型的泛化能力,同時可以解決線性回歸求解中的不可逆問題。嶺回歸方程的R2(回歸平方和與總離差平方和的比值)會稍低于普通回歸分析,但回歸系數的顯著性往往明顯高于普通回歸,在存在共線性問題和病態(tài)數據偏多的研究中有較大的實用價值。嶺回歸57模型驗證=》交叉驗證Lasso回歸Lasso回歸原理嶺回歸無法剔除變量,而Lasso(LeastAbsoluteShrinkageandSelectionOperator)回歸模型,將懲罰項由L2范數變?yōu)長1范數,可以將一些不重要的回歸系數縮減為0,達到剔除變量的目的。58Lasso回歸Lasso回歸原理59彈性回歸11/10/2024逐步回歸在處理多個自變量時,需要使用逐步回歸(StepwiseRegression)。逐步回歸中,自變量的選擇是在一個自動的過程中完成的,其中包括非人為操作。逐步回歸是通過觀察統計的值,如R-square,t-stats和AIC指標,來識別重要的變量并通過同時添加/刪除基于指定標準的協變量來擬合模型。61逐步回歸逐步回歸是通過觀察統計的值,如R-square,t-stats和AIC指標,來識別重要的變量并通過同時添加/刪除基于指定標準的協變量來擬合模型。常用的逐步回歸方法有:
標
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年大學物理考試溫度與熱量考點試題及答案
- 2025年商務英語考試演練平臺試題及答案
- 2025年大學化學考試中常見考點的對策及試題及答案
- 2025年商務英語應用場景分析試題及答案
- 2025年大學化學探索活動試題及答案
- 2025年模塊化家具設計考核試題及答案
- 2025年土木工程師考試如何提升記憶力試題及答案
- 國企銀行面試題及答案
- 2025年注冊土木工程師考試的重要性與試題及答案
- 創(chuàng)業(yè)扶持政策在推動區(qū)域合作中的作用試題及答案
- 2025年北京市三類人員安全員c3證考試題庫及答案
- GB/T 45434.3-2025中國標準時間第3部分:公報
- 北京市消防條例解讀
- 2025年中國城市軌道交通維修行業(yè)投資潛力分析及行業(yè)發(fā)展趨勢報告
- 公司轉讓租賃合同樣本
- 建筑工程檢測行業(yè)市場現狀分析及未來三到五年發(fā)展趨勢報告
- 《建筑裝飾設計收費標準》(2024年版)
- 煙草行業(yè)網絡安全體系建設
- 2024年全國英語競賽《C類本科生》決賽試題真題及答案
- 2025屆高考語文專項【語用新增題型】修改錯別字名校最模擬題
- 小學生態(tài)文明教案課件
評論
0/150
提交評論