




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第五講線性回歸第一頁,共五十四頁,2022年,8月28日問題例1、某企業(yè)多年為自己的產品在電視、報紙與Internet等不同的媒體投放廣告,其廣告支出每年皆有變化。在新的一年來臨之際,公司需要作出決定,在各個媒體應投放增減多少廣告費?第二頁,共五十四頁,2022年,8月28日例2、對于國家的某個經(jīng)濟發(fā)展時期,應保持多大的經(jīng)濟發(fā)展增速,才能保證全社會的就業(yè)與通脹保持在可接受的水平?第三頁,共五十四頁,2022年,8月28日例3、一個地區(qū)的石油需求取決于該地區(qū)生產與消費水平,尤其是制造業(yè)產值、產業(yè)結構以及汽車保有量等。如何預測2020年中國的石油需求以及對外石油依存度?第四頁,共五十四頁,2022年,8月28日例4、一個人的幸福程度是取決于其本人收入水平的增長還是取決于其與周圍人群的比較?第五頁,共五十四頁,2022年,8月28日模型例1、以企業(yè)銷量或利潤為隨機因變量(響應變量),不同媒體的廣告投放為自變量(可控制因素)建立函數(shù)關系:第六頁,共五十四頁,2022年,8月28日例2、以就業(yè)率與通脹率作為隨機響應變量,以經(jīng)濟增長的指標變量(可包含總量與結構)作為自變量(可控制因素)建立函數(shù)關系:第七頁,共五十四頁,2022年,8月28日例3、以石油需求量作為隨機因變量,以制造業(yè)產值、產業(yè)結構以及汽車保有量等作為可控自變量,建立函數(shù)關系:第八頁,共五十四頁,2022年,8月28日例4、以個人幸福程度作為隨機因變量,以本人收入水平和比較差距作為自變量,建立函數(shù)關系:第九頁,共五十四頁,2022年,8月28日線性回歸模型若f(x)的系數(shù)關系為線性的,且問題聚焦于隨機變量的均值變化規(guī)律,即稱為線性回歸模型,我們以n個樣本決定模型系數(shù)。一般樣本回歸模型如下,稱為多重線性回歸模型:當Y為一元隨機變量時,稱為一元線性回歸模型。否則稱為多元線性回歸模型。本課程僅討論Y為一元隨機變量的情形,參照多數(shù)資料的叫法,以自變量的維度來稱呼一元(或多元)線性回歸第十頁,共五十四頁,2022年,8月28日多重線性回歸模型的一般表達其中:k為解釋變量的數(shù)目,j稱為回歸參數(shù)(regressioncoefficient),也被稱為偏回歸系數(shù),表示在其他解釋變量保持不變的情況下,Xj每變化1個單位時,Y的均值E(Y)的變化;或者說j給出了Xj的單位變化對Y均值的“直接”或“凈”(不含其他變量)影響。第十一頁,共五十四頁,2022年,8月28日續(xù)或或第十二頁,共五十四頁,2022年,8月28日其中:(模型假設條件)第十三頁,共五十四頁,2022年,8月28日模型參數(shù)估計普通最小二乘法(Theordinaryleastsquaresapproach,OLS)最大似然估計(ML)矩估計(MM)第十四頁,共五十四頁,2022年,8月28日OLS方法使因變量的觀察值與估計值之間的離差平方和達到最小來求得和的方法。即用最小二乘法擬合的直線來代表x與y之間的關系與實際數(shù)據(jù)的誤差比其他任何直線都小第十五頁,共五十四頁,2022年,8月28日參數(shù)估計結果第十六頁,共五十四頁,2022年,8月28日OLS系數(shù)的不確定性隨機變量y的誤差e取決于其方差s2,而方差s2可以根據(jù)殘差來估計,估計量為:根據(jù)模型假設,顯然有:第十七頁,共五十四頁,2022年,8月28日Y的置信區(qū)間自變量為x時y的平均響應值為:統(tǒng)計量服從自由度為n-2的t分布,其置信區(qū)間可得??蓪С觯旱谑隧摚参迨捻?,2022年,8月28日Y的預測區(qū)間當自變量為xi時y的真實值為:其預測區(qū)間的計算方法同置信區(qū)間。可導出:第十九頁,共五十四頁,2022年,8月28日線性回歸模型的統(tǒng)計檢驗回歸模型檢驗包括整體模型顯著性檢驗與自變量顯著性檢驗兩種。第二十頁,共五十四頁,2022年,8月28日目的在于檢驗模型中所有自變量系數(shù)是否全部為0,當自變量系數(shù)不全為0時,Y與(X1,X2,…,XK)才具有某種程度的函數(shù)關系。零假設及對立假設:H0:j=0,
對所有jH1:j0
,對某些j(j=1,2,…,K)檢驗統(tǒng)計量:1、模型檢驗第二十一頁,共五十四頁,2022年,8月28日顯然檢驗可以使用方差分析表:變化來源回歸隨機誤差總和k為預測變量個數(shù)(不含β0)續(xù)第二十二頁,共五十四頁,2022年,8月28日若模型檢驗顯著,即應進行自變量顯著性檢驗(也稱邊際檢驗MarginalTests),即檢驗個別回歸系數(shù)(j,j=1,2,…,K)是否顯著異于某一特定數(shù)值,共包括K個檢驗。備則假設H1:jj0(雙尾檢驗),j>j0
或H1:j<j0
(單尾檢驗)通常,我們只關心H0:j=0檢驗統(tǒng)計量:2、自變量顯著性檢驗:第二十三頁,共五十四頁,2022年,8月28日校正決定系數(shù)(Adjusteddeterminationcoefficient)3、數(shù)據(jù)集合優(yōu)度——樣本決定系數(shù):式中:n為樣本數(shù),k為自變量的個數(shù)。可證,Y與X的多重相關系數(shù)第二十四頁,共五十四頁,2022年,8月28日線性回歸模型的意義考慮一元的情形,隨機變量y與可控變量之間存在這樣一種關系,其均值隨自變量變化而變化。第二十五頁,共五十四頁,2022年,8月28日例1:一個假想的社區(qū)有100戶家庭組成,要研究該社區(qū)每月家庭消費支出Y與每月家庭可支配收入X的關系。
為達到此目的,將該100戶家庭劃分為組內收入差不多的10組,以分析每一收入組的家庭消費支出。第二十六頁,共五十四頁,2022年,8月28日第二十七頁,共五十四頁,2022年,8月28日(1)由于不確定因素的影響,對同一收入水平X,不同家庭的消費支出不完全相同;(2)由統(tǒng)計知,給定收入水平X的消費支出Y的分布是確定的,即以X的給定值為條件的Y的條件分布是已知的,如:P(Y=561|X=800)=1/4。因此,給定收入X的值Xi,可得消費支出Y的條件均值(conditionalmean)或條件期望(conditionalexpectation):E(Y|X=Xi)該例中:E(Y|X=800)=605分析:第二十八頁,共五十四頁,2022年,8月28日描出散點圖發(fā)現(xiàn):隨著收入的增加,消費“平均地說”也在增加,且Y的條件均值均落在一根正斜率的直線上。這條直線稱為回歸線。05001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消費支出Y(元)
第二十九頁,共五十四頁,2022年,8月28日條件分布示意圖第三十頁,共五十四頁,2022年,8月28日線性回歸模式參數(shù)的含義一元線性模型中:y=dependentvariablex=independentvariableb0=y-interceptb1=slopeoftheline=errorvariablexyb0RunRiseb1=Rise/Runb0andb1areunknown,therefore,areestimatedfromthedata.第三十一頁,共五十四頁,2022年,8月28日模型參數(shù)最小二乘估計的含義方程系數(shù)的估計取決于:從總體中抽出的樣本以及,所計算的樣本統(tǒng)計量。然后,生成一條從數(shù)據(jù)中無偏地穿過的直線.wwwwwwwwwwwwwwwThequestionis:Whichstraightlinefitsbest?xy第三十二頁,共五十四頁,2022年,8月28日Errors直線不同,產生不等的誤差,同時亦造成了不等的誤差平方和。XY不同直線產生的誤差不一樣:第三十三頁,共五十四頁,2022年,8月28日33離差平方和最小的那一條直線為最佳擬合直線。wwww4114(1,2)22(2,4)(3,1.5)Sumofsquareddifferences=(2-1)2+(4-2)2+(1.5-3)2+(4,3.2)(3.2-4)2=6.89Sumofsquareddifferences=(2-2.5)2+(4-2.5)2+(1.5-2.5)2+(3.2-2.5)2=3.992.5LetuscomparetwolinesThesecondlineishorizontalThesmallerthesumofsquareddifferencesthebetterthefitofthelinetothedata.第三十四頁,共五十四頁,2022年,8月28日例:廣告支出與銷售額(單位:千元)營業(yè)單位 廣告支出 年銷售額北京 1400 16800上海 1100 14400廣州 560 12300深圳 650 13200南京
560 12800昆明 880 14400成都 1100 15900重慶 350 10000第三十五頁,共五十四頁,2022年,8月28日分析:作散點圖第三十六頁,共五十四頁,2022年,8月28日參數(shù)估計:第三十七頁,共五十四頁,2022年,8月28日結果:第三十八頁,共五十四頁,2022年,8月28日推論:1、廣告投入有力促進了銷售額的增長;2、在當前的投放水平下,大約每增加1千元的廣告將增加5.75千元的銷售收入。第三十九頁,共五十四頁,2022年,8月28日SPSS軟件操作:Analyze——〉Regression——〉Linear…EXCEL軟件操作:工具——〉數(shù)據(jù)分析——〉回歸房價、面積與衛(wèi)浴.xls第四十頁,共五十四頁,2022年,8月28日回歸系數(shù)再解釋例:某汽車代理商想要了解二手汽車行駛里程數(shù)與售價間之關系。隨機選取100輛二手交易汽車,記錄其里程數(shù)與售價數(shù)據(jù)。見右表:IndependentvariablexDependentvariabley第四十一頁,共五十四頁,2022年,8月28日利用SPSS求解:Tools>Dataanalysis>Regression>[Shadetheyrangeandthexrange]>OK第四十二頁,共五十四頁,2022年,8月28日Thisistheslopeoftheline.Foreachadditionalmileontheodometer,thepricedecreasesbyanaverageof$0.0312Theinterceptisb0=6533.65330NodataDonotinterprettheinterceptasthe“Priceofcarsthathavenotbeendriven”第四十三頁,共五十四頁,2022年,8月28日假設1、解釋變量X是確定性變量,不是隨機變量;假設2、隨機誤差項具有零均值、同方差:E(i)=0i=1,2,…,nVar(i)=2i=1,2,…,n假設3、隨機誤差項與解釋變量X之間不相關:Cov(Xi,i)=0i=1,2,…,n假設4(不是必須的)、服從零均值、同方差、零協(xié)方差的正態(tài)分布i~N(0,2)i=1,2,…,n模型假設的意義第四十四頁,共五十四頁,2022年,8月28日從這些假設我們有::y是具有均值E(y)=b0+b1x,和方差
se的正態(tài)分布。如圖示。m3b0+b1x1b0+b1x2b0+b1x3E(y|x2)E(y|x3)x1x2x3m1E(y|x1)m2Thestandarddeviationremainsconstant,butthemeanvaluechangeswithx第四十五頁,共五十四頁,2022年,8月28日樣本決定系數(shù)的意義:y的總體變化TheregressionmodelRemains,inpart,unexplainedTheerrorExplainedinpartbyy的方差=ESS+RSS第四十六頁,共五十四頁,2022年,8月28日R2測度由x變化所引起的y的變化占y全部變化的比重.R2
取值在0與1之間R2=1:Perfectmatchbetweenthelineandthedatapoints.R2=0:Therearenolinearrelationshipbetweenxandy.R2越接近1,說明模型與實際觀測值越接近,擬合優(yōu)度越高。第四十七頁,共五十四頁,2022年,8月28日x1x2y1y2yTwodatapoints(x1,y1)and(x2,y2)ofacertainsampleareshown.TotalvariationinyVariationexplainedbytheregressionline)Unexplainedvariation(error)TotalSumofSquaresTSSExplainedSumofSquaresESSResidualSumofSquaresRSS+=+=第四十八頁,共五十四頁,2022年,8月28日qqqqqqqqqqqqqqqqqqqqqq斜率檢驗的直觀含義如果兩個變量之間不存在線性關系,那么回歸直線一定是水平的,即斜率為0.qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T-ZJBS 001-2024 城市公共標識系統(tǒng)設計規(guī)范
- T-ZSA 230-2024 虛擬數(shù)字人多模態(tài)交互信息規(guī)范
- 二零二五年度荒山土地流轉與林業(yè)碳匯項目合作合同
- 二零二五年度企業(yè)合規(guī)管理體系法律服務合同范本
- 二零二五年度離婚協(xié)議書模板及婚姻關系終止及財產分配
- 二零二五年度診所醫(yī)療事故處理及責任劃分合同
- 二零二五年度養(yǎng)老護理型住宅正規(guī)房屋出租合同
- 二零二五年度混凝土班組勞務合作施工安全責任合同
- 二零二五年度銷售信息保密管理承諾書
- 2025年度耕地租賃與農業(yè)科技推廣合同
- DB33- 1015-2021《居住建筑節(jié)能設計標準》
- DB1310T 225-2020 木本植物滯納空氣顆粒物能力測定方法
- (高職)國際金融(第四版)電子課件(全套)
- 《飲料工藝學》課件第一章-緒論
- 中外合作辦學的可行性報告
- 母嬰保健課程標準
- 《農民專業(yè)合作社登記管理條例》條文解讀(一
- 一年級的小豌豆我喜歡的一本書(課堂PPT)
- 電廠機組深度調峰摸底試驗方案
- 地球上的大氣知識結構圖
- 新加坡SM1向性測試模擬試卷
評論
0/150
提交評論