版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、多元回歸分析Multiple Regression Analysis y = b0 + b1x1 + b2x2 + . . . bkxk + u 4.進(jìn)一步的問題本章大綱n數(shù)據(jù)的測度單位換算對OLS統(tǒng)計量的影響n對函數(shù)方式的進(jìn)一步討論n擬合優(yōu)度和回歸元選擇的進(jìn)一步討論n預(yù)測和殘差分析課堂提綱n重新定義變量的影響n估計系數(shù)nR 平方nt 統(tǒng)計量n函數(shù)方式n對數(shù)函數(shù)方式n含二次式的模型n含交叉項的模型重新定義變量n為什么我們想這樣做?n數(shù)據(jù)測度單位變換經(jīng)常被用于減少被估參數(shù)小數(shù)點后的零的個數(shù),這樣結(jié)果更美觀一些。n既然這樣做主要為了美觀,我們希望本質(zhì)的東西不改動。重新定義變量:一個例子n以下模型反
2、映了嬰兒出生體重與孕婦吸煙量和家庭收入之間的關(guān)系:n(1)n思索如下單位變換:n(2) 出生體重單位由盎司變?yōu)榘鮪(3) 香煙的支數(shù)變?yōu)榘鼣?shù)n估計結(jié)果列于下表n012minbwghtcigsfacTable 6.1Y (column) (1) bwght(2)bwghtlbs(3) bwghtX (rows)Cigs-0.4634 (0.0916)-0.0289 (0.0057)-Packs-9.268 (1.832)Faminc0.0927 (0.0292)0.0058 (0.0018)0.0927(0.0292)Intercept116.794 (1.049)7.3109 (0.0656)
3、116.974(1.049)Observations888R-squared0.02980.02980.0298SSR557,485.512177.5778557.485.51SER20.0631.253920.063改動被解釋變量測度單位的影響n由于1磅16盎司,被解釋變量被除以16。n比較第1列與第2列。n(1)中被估參數(shù)/16 (2)中被估參數(shù)n(1)中被估參數(shù)的規(guī)范差/16 (2)中被估參數(shù)的規(guī)范差n(1)和(2)中 t 統(tǒng)計量一樣nR平方一樣n(1)中SSR/16*16 (2)中SSRn(1)中SER(規(guī)范差)/16 (2)中SER012/16/16(/16)(/16)minbwgh
4、tcigsfac改動解釋變量測度單位的影響n如今香煙數(shù)量單位變?yōu)榘?。n如今比較 第(1)列和第(3)列。n變量faminc系數(shù)和截距項的估計值和其規(guī)范差分析同上。npacks的系數(shù)估計值和規(guī)范差變?yōu)?0倍。nt 統(tǒng)計量一樣nR平方一樣nSSR一樣nSER一樣012(*20)(/20)minbwghtcigsfac重新定義變量n改動變量y的測度單位會導(dǎo)致系數(shù)和規(guī)范差相應(yīng)的改動,所以解釋變量系數(shù)顯著性和對其解釋沒有改動。n改動一個變量x的測度單位會導(dǎo)致該變量系數(shù)和規(guī)范差的相應(yīng)改動,所以一切解釋變量顯著性和對其解釋沒有改動。n假設(shè)被解釋變量以對數(shù)方式出現(xiàn),改動被解釋變量度量單位對任何斜率系數(shù)沒有影響
5、。n來自log(cy)=log(c)+log(y),改動y測度單位將改動截距,不改動斜率系數(shù)。Beta系數(shù)n思索如下方式的樣本回歸方程:n=200+20,000 x1 +0.2x2n我們能說x1是最重要的變量嗎?n如今,查看以下各個變量的單位:ny單位:美圓nx1單位:美分nx2單位:千美圓Beta系數(shù)n上例提示了什么問題?n被估計系數(shù)的大小是不可比較的。n一個相關(guān)的問題是,當(dāng)變量大小差別過大時,在回歸中因運算近似而導(dǎo)致的誤差會比較大。Beta系數(shù)n有時,我們會看見“規(guī)范化系數(shù)或“Beta系數(shù),這些稱號有著特殊的意義n運用Beta系數(shù)是由于有時我們把y和各個x交換為規(guī)范化版本也就是,減去均值后
6、除以規(guī)范離差。n系數(shù)反映對于一單位x的規(guī)范離差的y的規(guī)范離差。Beta系數(shù)j12k01 12 2yxy1 x2 xx., zz zzz.z(2)jikkijjiiiyxyjkjjyxxxxxyyyxzzbbbb樣本回歸方程的標(biāo)準(zhǔn)形式是標(biāo)準(zhǔn)化和 ,。現(xiàn)在將 向回歸得到注意沒有截距項現(xiàn)在,與的關(guān)系如何?Beta系數(shù)1122121212.,1,2,.,iiikikkkyyyykjjjyjijijyyxxxxxxbjkbxyb可以看到令傳統(tǒng)上被稱為標(biāo)準(zhǔn)化系數(shù)或 系數(shù)。意思是,如果 改變一單位標(biāo)準(zhǔn)離差,則 改變單位標(biāo)準(zhǔn)離差。例子 ustratiodistroomscrimenoxprice543210z
7、stratiozdistzroomszcrimeznoxceizpr270. 0235. 0514. 0143. 0340. 0函數(shù)方式nOLS也可以用在x和y不是嚴(yán)厲線性的情況,經(jīng)過運用非線性方程,使得關(guān)于參數(shù)仍為線性。n可以取x,y一個或全部的自然對數(shù)n可以用x的平方方式n可以用x的交叉項對數(shù)模型的解釋n假設(shè)模型是 ln(y) = b0 + b1ln(x) + unb1是y對于x的彈性n假設(shè)模型是ln(y) = b0 + b1x + unb1近似是,給定一單位x的改動,y的百分比變化,常被稱為半彈性。為什么運用對數(shù)模型?n取對數(shù)后變量的斜率系數(shù),不隨變量測度單位改動。n假設(shè)回歸元和回歸子都
8、取對數(shù)方式,斜率系數(shù)給出對彈性的一個直接估計。n對于y0的模型,條件分布經(jīng)常偏斜或存在異方差,而ln(y)就小多了,所以nln(y)的分布窄多了,限制了異常或極端觀測值(outliers)的影響。一些閱歷法那么n什么類型的變量經(jīng)常用對數(shù)方式?n一定為正的錢數(shù):工資,薪水,企業(yè)銷售額和企業(yè)市值。n非常大的變量:如人口,雇員總數(shù)和學(xué)校注冊人數(shù)等。n什么類型的變量經(jīng)常用程度值方式?n用年丈量的變量:如教育年限,任務(wù)閱歷,任期年限和年齡n可以以程度值或?qū)?shù)方式出現(xiàn)的變量:n比例或百分比變量:失業(yè)率,養(yǎng)老保險金參與率等。對數(shù)方式的限制n一個變量取零或負(fù)值,那么不能運用對數(shù)。n假設(shè)y非負(fù)但可以取零,那么有
9、時運用log(1+y)。n當(dāng)數(shù)據(jù)并非多數(shù)為零時,運用log(1+y) 估計,并且假定變量為log(y),解釋所得的估計值,是可以接受的。慎重運用對數(shù)方式n留意到,當(dāng)y取對數(shù)方式時,更難以預(yù)測原變量的值,由于原模型允許我們預(yù)測log(y)而不是y。01 1111111log( ).1log( )% exp( log( ) 1 100*(exp() 1) yxxyyxyyyyxy 考慮如果我們想知道時, 的百分比變化,我們不能只報告 ,因為,所以含二次式的模型n對于方式為y = b0 + b1x + b2x2 + u的模型,我們不能單獨將b1解釋為關(guān)于x,y變化的度量,我們需求將b2也思索進(jìn)來,由
10、于20121212(1) (2) 2, so(3) 2yxxyxxyxx n假設(shè)感興趣的是,給定x的初始值和變動,預(yù)測y的變化,那么可以直接運用1。n普通來說,我們可以運用x的平均值,中值,或上下四分位數(shù)來預(yù)測y,取決于我們感興趣的問題。含二次式的模型122(0.35)(0.041)(0.0009)01 ,所以調(diào)整過的R2總比R2小。n參與一個解釋變量有兩個相反的效果。1SSR降低導(dǎo)致調(diào)整過的R2添加。2 (n-1)/(n-k-1) 添加導(dǎo)致調(diào)整過的R2降低。n調(diào)整過的R2能夠是負(fù)的,發(fā)生在以下情況:一切解釋變量使殘差平方和下降的太少,缺乏以抵消因子(n-1)/(n-k-1)。n R2只需在過
11、原點回歸中才能夠為負(fù)。比較R2和Adjusted R2nR2和調(diào)整過的R2通知我們,解釋變量能否很好地預(yù)測了,或“解釋了,手頭數(shù)據(jù)中被解釋變量的值。nR2和調(diào)整過的R2并沒有通知我們n被包含變量能否統(tǒng)計顯著n解釋變量能否是被解釋變量變動的真正緣由n能否有脫漏變量偏誤,或n能否選取了最適宜的解釋變量組合R2和Adjusted R2 在決議某個變量能否應(yīng)該被參與模型時,R2和Adjusted R2并非理想的工具。決議一個解釋變量能否屬于模型的要素應(yīng)該是,該解釋變量在總體中對y的部分效應(yīng)能否為零。擬合優(yōu)度和解釋變量選擇的進(jìn)一步討論擬合優(yōu)度和解釋變量選擇的進(jìn)一步討論nAdjusted R-Square
12、d2/11/SSRSSR nRSSTSST n 2/(1)111/(1)1SSRnkSSRnRSSTnSST nk 2211 (1)1nRRnk n我們定義總體R2為:y的變異在總體中能被解釋變量解釋的比例,為n調(diào)整過的R2仍不是總體R2的一個無偏估計量,由于兩個無偏估計量的比例不是一個無偏估計量。221/.uy擬合優(yōu)度和解釋變量選擇的進(jìn)一步討論擬合優(yōu)度和解釋變量選擇的進(jìn)一步討論n調(diào)整過的R2最根本的吸引力,在于它對向模型添加自變量的懲罰。n假設(shè)我們向回歸模型參與一個新的解釋變量,當(dāng)且僅當(dāng)新變量的t統(tǒng)計量的絕對值大于1時,調(diào)整過的R2添加。擬合優(yōu)度和解釋變量選擇的進(jìn)一步討論擬合優(yōu)度和解釋變量選
13、擇的進(jìn)一步討論利用調(diào)整的R2在兩個非嵌套模型中進(jìn)展選擇n假設(shè)兩個模型中任何一個都不是另一個的特例,那么兩個模型是非嵌套的。nF統(tǒng)計量只允許我們檢驗嵌套的模型,由于有限制的模型是無限制模型的特例。n我們需求一些在無嵌套模型間進(jìn)展選擇的指點。n當(dāng)變量有不同函數(shù)方式時,經(jīng)過比較調(diào)整過的R2 ,在不同的解釋變量的非嵌套組合中進(jìn)展選擇,是頗有價值的。n例如,一個模型是y= b0 + b1x1 + b2log(x2 ) ,n另一個是y= b0 + b1x1 +b2 x2+b3 x22 。n假設(shè)第一個模型調(diào)整過的R平方為0.3,而第二個為0.6,我們傾向于選擇第二個模型利用調(diào)整的R2在兩個非嵌套模型中進(jìn)展選
14、擇n 調(diào)整過的R2的限制:我們不能利用它在關(guān)于因變量函數(shù)方式不同的模型間進(jìn)展選擇利用調(diào)整的R2在兩個非嵌套模型中進(jìn)展選擇預(yù)測分析:估計量01 112001 11001 1.c ,.,.( |,.,).kkkkkkkkyxxccccE y cccc設(shè)想我們有估計方程 。我們將自變量的具體數(shù)值代入其中時,得到y(tǒng)的一個預(yù)測值。例如,令分別代表k個自變量中每一個的具體值,想要估計的參數(shù):。它的估計量是。0001 101110.().()kkkkkccyxcxcu如何得到 的標(biāo)準(zhǔn)誤差?本質(zhì)上講,這是一個尋找OLS估計量的線性組合的標(biāo)準(zhǔn)誤差的問題。因為 ,我們可以得到 。的標(biāo)準(zhǔn)誤差就是新的回歸截距項的標(biāo)準(zhǔn)
15、誤差。預(yù)測分析:規(guī)范差預(yù)測分析:置信區(qū)間00000*( ), *( )c sec sec在得到估計量和相應(yīng)的標(biāo)準(zhǔn)誤之后,下一步比較直接的是估計 的置信區(qū)間:,其中 是給定顯著性水平的臨界值。預(yù)測分析:一個特殊y的置信區(qū)間0 10(|,.)kE y xxy我們剛剛定義,因此,我們可以為y的平均值建立一個置信區(qū)間。如何為總體中的一個特定的值, 建立置信區(qū)間呢?需要考慮進(jìn)不可觀察誤差的變化。預(yù)測分析: y0的預(yù)測區(qū)間10 000010000yO LS y.,ey .E (e )0kkxxy令的回 歸 線 為則 , 預(yù) 測 誤 差 為 ,容 易 證 明。000020000V(e )(y )()(y )
16、y*(e ),y*(e )VV uVc sec se我們也可以證明。現(xiàn)在預(yù)測區(qū)間為。預(yù)測分析: y0的預(yù)測區(qū)間10 000010000yO LS y.,ey .E (e )0kkxxy令的回 歸 線 為則 , 預(yù) 測 誤 差 為 ,容 易 證 明。n有時,檢驗個體觀測值來看它的因變量高于還是低于預(yù)測值是有用的。n也就是,檢驗個體觀測值的殘差。殘差分析殘差分析n例:將房價對一些可觀測特點回歸,得預(yù)測值,算出殘差。殘差為負(fù)那么闡明根據(jù)可觀測要素房價偏低。負(fù)的程度最大值的大小闡明我們還沒有控制要素的重要程度??蔀楦闹到㈩A(yù)測區(qū)間。 y = b0 + b1x1 + b2x2 + . . . bkxk
17、+ u 5. Dummy Variables虛擬變量n 虛擬變量是一個取值為1或0的變量。n例: male (= 1 if are male, 0 otherwise), south (= 1 if in the south, 0 otherwise), etc.n虛變量也稱二值變量。虛擬變量n思索只需一個解釋變量(x)和一個虛擬變量(d)的簡單模型。n y = b0 + d0d + b1x + un 該模型可以看做是一個截距的變化。This can be interpreted as an intercept shiftn假設(shè)d = 0, 那么 y = b0 + b1x + un 假設(shè) d = 1, 那么y = (b0 + d0) + b1x + und = 0組為基組。Example of d0 0 xyd00y = (b0 + d0) + b1xy = b0 + b1xslope = b1d = 0d = 1例1 日本1985-1995年水稻產(chǎn)量與耕種面積的變化 年份產(chǎn)量10萬噸Y耕種面積萬公頃X19851162321986116228198710621219889920919891032081990105206199
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《針灸按摩基礎(chǔ)》課件
- 2020-2021學(xué)年遼寧省鐵嶺市六校高一下學(xué)期期末聯(lián)考地理試題
- 小學(xué)一年級口算題:20以內(nèi)的加減混合
- 小學(xué)一年級20以內(nèi)加減法試題口算速算練習(xí)題
- 2020年石油知識競賽試題215題及答案
- 三年級上冊25 灰雀
- 《紅樹灣營銷報告》課件
- 《騰訊內(nèi)外環(huán)境分析》課件
- 人的生殖和發(fā)育北師大版-課件
- 《焦點課題模板PU生產(chǎn)模式改善和環(huán)境治理》課件
- 第二十四章 相似三角形(50道壓軸題專練)
- 浙江省溫州市第二中學(xué)2024-2025學(xué)年上學(xué)期九年級英語10月月考試題
- 2024年海南公務(wù)員考試申論試題(A卷)
- 網(wǎng)絡(luò)安全中的量子密碼學(xué)與未來安全技術(shù)考核試卷
- 急性ST抬高型心肌梗死溶栓指南課件
- 海堤工程施工組織設(shè)計
- 【基于單片機(jī)控制的數(shù)字鐘設(shè)計(論文)10000字】
- 走進(jìn)創(chuàng)業(yè)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 2024年石油石化技能考試-鉆井液工考試近5年真題附答案
- 世界經(jīng)典神話與傳說故事閱讀測試(四)
- 2024年第五屆插花花藝行業(yè)技能競賽理論考試題庫(含答案)
評論
0/150
提交評論