多元回歸分析進一步問題_第1頁
多元回歸分析進一步問題_第2頁
多元回歸分析進一步問題_第3頁
多元回歸分析進一步問題_第4頁
多元回歸分析進一步問題_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

關于多元回歸分析進一步問題1第一頁,共五十五頁,編輯于2023年,星期日2MultipleRegressionAnalysis

多元回歸分析

y=b0+b1x1+b2x2+...bkxk+u4.FurtherIssues進一步的問題第二頁,共五十五頁,編輯于2023年,星期日3ChapterOutline本章大綱EffectsofDataScalingonOLSStatistics數據的測度單位換算對OLS統計量的影響MoreonFunctionalForm對函數形式的進一步討論MoreonGoodness-of-FitandSelectionofRegressors擬合優(yōu)度和回歸元選擇的進一步探討PredictionandResidualAnalysis預測和殘差分析第三頁,共五十五頁,編輯于2023年,星期日4LectureNotes課堂筆記EffectsofRedefiningvariables重新定義變量的影響Estimatedcoefficients估計系數RsquaredR平方tstatisticst統計量Functionalform函數形式 Logarithmicform對數函數形式ModelswithQuadratics含二次式的模型Modelswithinteractionterms含交叉項的模型第四頁,共五十五頁,編輯于2023年,星期日5RedefiningVariables

重新定義變量Whywouldwewanttodoso?為什么我們想這樣做?Often,datascalingisusedtoreducethenumberofzerosafteradecimalpointinanestimatedcoefficient,sothattheresultsappearprettier.數據測度單位變換經常被用于減少被估參數小數點后的零的個數,這樣結果更好看一些。Sincethisismainlyanactionofdecoration,weexpectnothingessentialshouldchange.既然這樣做主要為了好看,我們希望本質的東西不改變。第五頁,共五十五頁,編輯于2023年,星期日6RedefiningVariables:Anexample

重新定義變量:一個例子Consideramodelrelatinginfantbirthweighttocigarettesmokingandfamilyincome:以下模型反映了嬰兒出生體重與孕婦吸煙量和家庭收入之間的關系:(1)Considerthefollowingrescaling:考慮如下單位變換:(2)Birthweightischangedfromouncestopounds出生體重單位由盎司變?yōu)榘?3)Numberofcigarettesischangedtopacksofcigrattes香煙的支數變?yōu)榘鼣礣heestimationresultsispresentedinthefollowingtable.估計結果列于下表

第六頁,共五十五頁,編輯于2023年,星期日7Table6.1Y(column)(1)bwght(2)bwghtlbs(3)bwghtX(rows)Cigs-0.4634(0.0916)-0.0289(0.0057)--Packs-----9.268(1.832)Faminc0.0927(0.0292)0.0058(0.0018)0.0927(0.0292)Intercept116.794(1.049)7.3109(0.0656)116.974(1.049)Observations138813881388R-squared0.02980.02980.0298SSR557,485.512177.5778557.485.51SER20.0631.253920.063第七頁,共五十五頁,編輯于2023年,星期日8Impactofchangingthescaleofthedependentvariable

改變被解釋變量測度單位的影響Since1lbs=16oz,thedependentvariableistransformedbydividing16.因為1磅=16盎司,被解釋變量被除以16。Wecomparecolumns(1)and(2).比較第1列與第2列。Theestimatedcoefficientsin(1)/16=thosein(2).(1)中被估參數/16=(2)中被估參數Thestandarderrorsofestimatedcoefficientsin(1)/16=thosein(2)(1)中被估參數的標準差/16=(2)中被估參數的標準差第八頁,共五十五頁,編輯于2023年,星期日9Impactofchangingthescaleofthedependentvariable

改變被解釋變量測度單位的影響Thetstatisticsin(1)and(2)areidentical.(1)和(2)中t統計量相同TheRsquaredareidentical.R平方相同SSRin(1)/(16*16)=SSRin(2)(1)中SSR/(16*16)=(2)中SSRSER(standarderror)in(1)/16=SERin(2)(1)中SER(標準差)/16=(2)中SER第九頁,共五十五頁,編輯于2023年,星期日10Impactofchangingthescaleoftheindependentvariable

改變解釋變量測度單位的影響Nownumberofcigarettesischangedtopacksofcigarettes.現在香煙數量單位變?yōu)榘?。Nowcomparecolumns(1)and(3).現在比較第(1)列和第(3)列。Coefficientsestimatesandstandarderrorsonfamincandinterceptarethesame.變量faminc系數和截距項的估計值和其標準差分析同上。Coefficientsestimatesandstandarderrorsonpacksare20timeslarger.packs的系數估計值和標準差變?yōu)?0倍。第十頁,共五十五頁,編輯于2023年,星期日11Impactofchangingthescaleoftheindependentvariable

改變解釋變量測度單位的影響Thetstatisticsareidentical.t統計量相同TheRsquaredareidentical.R平方相同TheSSRareidentical.SSR相同TheSERareidentical.SER相同第十一頁,共五十五頁,編輯于2023年,星期日12RedefiningVariables

重新定義變量

Changingthescaleoftheyvariablewillleadtoacorrespondingchangeinthescaleofthecoefficientsandstandarderrors,sonochangeinthesignificanceorinterpretation改變變量y的測度單位會導致系數和標準差相應的改變,所以解釋變量系數顯著性和對其解釋沒有改變。Changingthescaleofonexvariablewillleadtoachangeinthescaleofthatcoefficientandstandarderror,sonochangeinthesignificanceorinterpretationonthisvariableandothervariables.改變一個變量x的測度單位會導致該變量系數和標準差的相應改變,所以所有解釋變量顯著性和對其解釋沒有改變。第十二頁,共五十五頁,編輯于2023年,星期日13RedefiningVariables

重新定義變量Ifthedependentvariableappearsinlogarithmform,changingtheunitofmeasurementofthedependentvariabledoesnotaffectanyoftheslopecoefficient.如果被解釋變量以對數形式出現,改變被解釋變量度量單位對任何斜率系數沒有影響。Thisfollowsfromlog(cy)=log(c)+log(y),rescalingywillresultinchangestotheinterceptbutnottheslopecoefficients.來自log(cy)=log(c)+log(y),改變y測度單位將改變截距,不改變斜率系數。第十三頁,共五十五頁,編輯于2023年,星期日14BetaCoefficientsBeta系數Considerasampleregressionfunctionofthefollowingform:考慮如下形式的樣本回歸方程:

?=200+20,000x1

+0.2x2Canwesaythatx1

isthemostimportantvariable?我們能說x1是最重要的變量嗎?Nowlookattheunitsofeachvariable:現在,查看以下各個變量的單位:yindollarsy單位:美元x1incentsx1單位:美分x2inthousandsx2單位:千美元第十四頁,共五十五頁,編輯于2023年,星期日15BetaCoefficientsBeta系數Whatproblemdoestheaboveexamplereveal?上例揭示了什么問題?Themagnitudeoftheestimatedcoefficientsarenotcomparable.被估計系數的大小是不可比較的。Arelatedproblemiswhenthemagnitudesofvariablesdiffertoomuch,theround-offerrorcanbeseriousinregressioncalculations.一個相關的問題是,當變量大小差別過大時,在回歸中因運算近似而導致的誤差會比較大。第十五頁,共五十五頁,編輯于2023年,星期日16BetaCoefficientsBeta系數

Occasionallyyou’llseereferencetoa“standardizedcoefficient”or“betacoefficient”whichhasaspecificmeaning有時,我們會看見“標準化系數”或“Beta系數”,這些名稱有著特殊的意義Ideaistoreplaceyandeachxvariablewithastandardizedversion–i.e.subtractmeananddividebystandarddeviation使用Beta系數是因為有時我們把y和各個x替換為標準化版本——也就是,減去均值后除以標準離差。Coefficientreflectsstandarddeviationofyforaonestandarddeviationchangeinx

系數反映對于一單位x的標準離差的y的標準離差。第十六頁,共五十五頁,編輯于2023年,星期日17BetaCoefficientsBeta系數第十七頁,共五十五頁,編輯于2023年,星期日18BetaCoefficientsBeta系數第十八頁,共五十五頁,編輯于2023年,星期日19FunctionalForm函數形式

OLScanbeusedforrelationshipsthatarenotstrictlylinearinxandybyusingnonlinearfunctionsofxandy–willstillbelinearintheparametersOLS也可以用在x和y不是嚴格線性的情況,通過使用非線性方程,使得關于參數仍為線性。Cantakethenaturallogofx,yorboth可以取x,y(一個或全部)的自然對數Canusequadraticformsofx可以用x的平方形式Canuseinteractionsofxvariables可以用x的交叉項第十九頁,共五十五頁,編輯于2023年,星期日20InterpretationofLogModels

對數模型的解釋

Ifthemodelisln(y)=b0+b1ln(x)+u如果模型是ln(y)=b0+b1ln(x)+u

b1istheelasticityofywithrespecttoxb1是y對于x的彈性Ifthemodelisln(y)=b0+b1x+u如果模型是ln(y)=b0+b1x+u

b1isapproximatelythepercentagechangeinygivena1unitchangeinx,oftencalledsemi-elasticity.b1近似是,給定一單位x的改變,y的百分比變化,常被稱為半彈性。第二十頁,共五十五頁,編輯于2023年,星期日21Whyuselogmodels?

為什么使用對數模型?

TheslopecoefficientsonLoggedvariablesareinvarianttothescaleofthevariables.取對數后變量的斜率系數,不隨變量測度單位改變。Theygiveadirectestimateofelasticityifbothregressorandregressandhavetakenlogs.如果回歸元和回歸子都取對數形式,斜率系數給出對彈性的一個直接估計。Formodelswithy>0,theconditionaldistributionisoftenheteroskedasticorskewed,whileln(y)ismuchlessso對于y>0的模型,條件分布經常偏斜或存在異方差,而ln(y)就小多了,所以Thedistributionofln(y)ismorenarrow,limitingtheeffectofoutliersln(y)的分布窄多了,限制了異常(或極端)觀測值(outliers)的影響。第二十一頁,共五十五頁,編輯于2023年,星期日22SomeRulesofThumb

一些經驗法則

Whattypesofvariablesareoftenusedinlogform?什么類型的變量經常用對數形式?Dollaramountsthatmustbepositive,wages,salaries,firmsales,andfirmmarketvalue.肯定為正的錢數:工資,薪水,企業(yè)銷售額和企業(yè)市值。Verylargevariables,suchaspopulation,totalnumberofemployees,schoolenrollment,etc.非常大的變量:如人口,雇員總數和學校注冊人數等。第二十二頁,共五十五頁,編輯于2023年,星期日23SomeRulesofThumb

一些經驗法則Whattypesofvariablesareoftenusedinlevelform?什么類型的變量經常用水平值形式?Variablesmeasuredinyears,e.g.,education,experience,tenure,age用年測量的變量:如教育年限,工作經歷,任期年限和年齡Variables,thatcanappeareitherinlogorinlevel:可以以水平值或對數形式出現的變量:Variablesthatareaproportionorpercent:unemployrate,theparticipationrateinapension,etc.比例或百分比變量:失業(yè)率,養(yǎng)老保險金參與率等。第二十三頁,共五十五頁,編輯于2023年,星期日24LimitationsofLogs

對數形式的限制Itcannotbeusedifavariabletakesonzeroofnegativevalues.一個變量取零或負值,則不能使用對數。Incaseswhenyisnonnegativebutcantake0,log(1+y)issometimesused.如果y非負但可以取零,則有時使用log(1+y)。Usinglog(1+y)andtheninterpretingtheestimatesasiftheestimateswerelog(y)isacceptablewhenthedataonyarenotdominatedbyzeros.當數據并非多數為零時,使用log(1+y)估計,并且假定變量為log(y),解釋所得的估計值,是可以接受的。第二十四頁,共五十五頁,編輯于2023年,星期日25CautionsinusingLogs

慎重使用對數形式Noticethatwhenyisinlogform,itismoredifficulttopredicttheoriginalvariables,sincetheoriginalmodelallowustopredictlog(y)insteadofy.注意到,當y取對數形式時,更難以預測原變量的值,因為原模型允許我們預測log(y)而不是y。第二十五頁,共五十五頁,編輯于2023年,星期日26CautionsinusingLogs

慎重使用對數形式第二十六頁,共五十五頁,編輯于2023年,星期日27QuadraticModels

含二次式的模型

Foramodeloftheformy=b0+b1x+b2x2+uwecan’tinterpretb1aloneasmeasuringthechangeinywithrespecttox,weneedtotakeintoaccountb2aswell,since對于形式為y=b0+b1x+b2x2+u的模型,我們不能單獨將b1解釋為關于x,y變化的度量,我們需要將b2也考慮進來,因為第二十七頁,共五十五頁,編輯于2023年,星期日28QuadraticModels

含二次式的模型Ifoneisinterestedincalculatingthepredictedchangesinygivenastartingvalueofxandachangeinx,onecandirectlyuse(1).如果感興趣的是,給定x的初始值和變動,預測y的變化,那么可以直接使用(1)。Ingeneral,wemayusetheaveragevalueofx,orthemedian,orthelowerandupperquantilestopredicty,dependingonthequestionofourinterest.一般來說,我們可以使用x的平均值,中值,或上下四分位數來預測y,取決于我們感興趣的問題。第二十八頁,共五十五頁,編輯于2023年,星期日29QuadraticModels

含二次式的模型第二十九頁,共五十五頁,編輯于2023年,星期日30QuadraticModels

含二次式的模型第三十頁,共五十五頁,編輯于2023年,星期日313.737.3724.4experwage第三十一頁,共五十五頁,編輯于2023年,星期日32MoreonQuadraticModels

對含二次式模型的進一步討論

Supposethatthecoefficientonxispositiveandthecoefficientonx2isnegative假如x的系數為正,x2的系數為負。Thenyisincreasinginxatfirst,butwilleventuallyturnaroundandbedecreasinginx那么,y首先隨x上升而上升,但最終轉向隨x上升而下降。第三十二頁,共五十五頁,編輯于2023年,星期日33MoreonQuadraticModels

對含二次式模型的進一步討論

Supposethatthecoefficientonxisnegativeandthecoefficientonx2ispositive假如x的系數為負,x2的系數為正。Thenyisdecreasinginxatfirst,butwilleventuallyturnaroundandbeincreasinginx那么,y首先隨x上升而下降,但最終轉向隨x上升而上升。第三十三頁,共五十五頁,編輯于2023年,星期日34InteractionTerms

交叉項

Foramodeloftheformy=b0+b1x1+b2x2+b3x1x2+uwecan’tinterpretb1aloneasmeasuringthechangeinywithrespecttox1,weneedtotakeintoaccountb3aswell,since對于形式為y=b0+b1x1+b2x2+b3x1x2+u的模型,我們不能單獨將b1解釋為關于x1,y變化的度量,我們需要將b3也考慮進來,因為第三十四頁,共五十五頁,編輯于2023年,星期日35InteractionTerms

交叉項第三十五頁,共五十五頁,編輯于2023年,星期日36InteractionTerms

交叉項Example6.3,page195.mple6.3,page195.第三十六頁,共五十五頁,編輯于2023年,星期日37MoreonGoodness-of-FitandSelectionofRegressors

擬合優(yōu)度和解釋變量選擇的進一步探討AdjustedR-Squared第三十七頁,共五十五頁,編輯于2023年,星期日38MoreonGoodness-of-FitandSelectionofRegressors

擬合優(yōu)度和解釋變量選擇的進一步探討WedefinethepopulationR-squaredistheproportionofthevariationinyinthepopulationexplainedbytheindependentvariables,as我們定義總體R2為:y的變異在總體中能被解釋變量解釋的比例,為TheadjustedR-squareisstillnotanunbiasedestimatorofthepopulationR-squared,becausetheratiooftwounbiasedestimatorsisnotanunbiasedestimator.調整過的R2仍不是總體R2的一個無偏估計量,因為兩個無偏估計量的比例不是一個無偏估計量。第三十八頁,共五十五頁,編輯于2023年,星期日39MoreonGoodness-of-FitandSelectionofRegressors

擬合優(yōu)度和解釋變量選擇的進一步探討Theprimaryattractivenessofisthatisimposesapenaltyforaddingmoreindependentvariablestoamodel.調整過的R2最根本的吸引力,在于它對向模型增加自變量的懲罰。Ifweaddanewindependentvariabletoaregressionequation,increasesifandonlyifthetstatisticonthenewvariableisgreaterthanoneinabsolutevalue.如果我們向回歸模型加入一個新的解釋變量,當且僅當新變量的t統計量的絕對值大于1時,調整過的R2增加。第三十九頁,共五十五頁,編輯于2023年,星期日40UsingAdjustedR-SqraredtoChooseBetweenNonnestedModels

利用調整的R2在兩個非嵌套模型中進行選擇Twomodelsarenonnestedifneithermodelisaspecialcaseoftheother.如果兩個模型中任何一個都不是另一個的特例,則兩個模型是非嵌套的。TheFstatisticsonlyallowustotestnestedmodels,sincetherestrictedmodelisaspecialcaseoftheunrestrictedmodel.F統計量只允許我們檢驗嵌套的模型,因為有限制的模型是無限制模型的特例。Weneedsomeguidanceinchoosingamongnonnestedmodels.我們需要一些在無嵌套模型間進行選擇的指導。第四十頁,共五十五頁,編輯于2023年,星期日41UsingAdjustedR-SquaredtoChooseBetweenNonnestedModels

利用調整的R2在兩個非嵌套模型中進行選擇

Comparingtochooseamongdifferentnonnestedsetsofindependentvariablescanbevaluablewhenthesevariablesrepresentdifferentfunctionalform. 當變量有不同函數形式時,通過比較調整過的R2,在不同的解釋變量的非嵌套組合中進行選擇,是頗有價值的。Forexample,onemodelisy=b0+b1x1+b2log(x2)buttheotherisy=b0+b1x1+b2x2+b3x22.IftheAdjustedR-Squaredis0.3butitis0.6fromthesecondone,wetendtochoosethesecondmodel.例如,一個模型是y=b0+b1x1+b2log(x2), 另一個是y=b0+b1x1+b2x2+b3x22。 如果第一個模型調整過的R平方為0.3,而第二個為0.6,我們傾向于選擇第二個模型第四十一頁,共五十五頁,編輯于2023年,星期日42UsingAdjustedR-SquaredtoChooseBetweenNonnestedModels

利用調整的R2在兩個非嵌套模型中進行選擇TheLimitationofAdjustedR-squared:wecannotuseittochoosebetweendifferentfunctionalformsforthedependentvariable.調整過的R2的限制:我們不能利用它在關于因變量函數形式不同的模型間進行選擇第四十二頁,共五十五頁,編輯于2023年,星期日43PredictionAnalysis:theestimator

預測分析:估計量第四十三頁,共五十五頁,編輯于2023年,星期日44PredictionAnalysis:thestandarderror預測分析:標準差第四十四頁,共五十五頁,編輯于2023年,星期日45PredictionAnalysis:theConfidenceInterval

預測分析:置信區(qū)間第四十五頁,共五十五頁,編輯于2023年,星期日46PredictionAnalysis:ConfidenceIntervalforaparticulary

預測分析:一個特殊y的置信區(qū)間第四十六頁,共五十五頁,編輯于2023年,星期日47PredictionAnalysis:PredictionIntervalfory0

預測分析:y0的預測區(qū)間第四十七頁,共五十五頁,編輯于2023年,星期日48PredictionAnalysis:PredictionIntervalfory0

預測分析:y0的預測區(qū)間第四十八頁,共五十五頁,編輯于2023年,星期日49Sometimes,itisusefultoexamineindividualobservationstoseewheth

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論