![數(shù)學(xué)建模培訓(xùn)統(tǒng)計(jì)分析模型與SAS軟件課件_第1頁(yè)](http://file4.renrendoc.com/view/4246694c8dd6f7dd35701a7af70aabdc/4246694c8dd6f7dd35701a7af70aabdc1.gif)
![數(shù)學(xué)建模培訓(xùn)統(tǒng)計(jì)分析模型與SAS軟件課件_第2頁(yè)](http://file4.renrendoc.com/view/4246694c8dd6f7dd35701a7af70aabdc/4246694c8dd6f7dd35701a7af70aabdc2.gif)
![數(shù)學(xué)建模培訓(xùn)統(tǒng)計(jì)分析模型與SAS軟件課件_第3頁(yè)](http://file4.renrendoc.com/view/4246694c8dd6f7dd35701a7af70aabdc/4246694c8dd6f7dd35701a7af70aabdc3.gif)
![數(shù)學(xué)建模培訓(xùn)統(tǒng)計(jì)分析模型與SAS軟件課件_第4頁(yè)](http://file4.renrendoc.com/view/4246694c8dd6f7dd35701a7af70aabdc/4246694c8dd6f7dd35701a7af70aabdc4.gif)
![數(shù)學(xué)建模培訓(xùn)統(tǒng)計(jì)分析模型與SAS軟件課件_第5頁(yè)](http://file4.renrendoc.com/view/4246694c8dd6f7dd35701a7af70aabdc/4246694c8dd6f7dd35701a7af70aabdc5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2011年數(shù)學(xué)建模培訓(xùn)
統(tǒng)計(jì)分析模型與軟件
張景祥2011年數(shù)學(xué)建模培訓(xùn)
統(tǒng)計(jì)分析模型與軟件
張景祥1一、統(tǒng)計(jì)學(xué)分析方法1.1回歸分析1.2聚類分析1.3數(shù)據(jù)分類1.4判別分析1.5主成分分析1.6因子分析1.7殘差分析1.8典型相關(guān)分析1.9時(shí)間序列一、統(tǒng)計(jì)學(xué)分析方法27月10日(培訓(xùn)主要內(nèi)容)
第一部分回歸模型
第二部分與數(shù)據(jù)7月10日(培訓(xùn)主要內(nèi)容)
第一部分回歸模型
3回歸分析模型一元線性回歸一元非線性回歸多元線性回歸多元非線性回歸主要應(yīng)用于變量間相關(guān)關(guān)系的分析回歸分析模型一元線性回歸主要應(yīng)用于變量間相關(guān)關(guān)系的分析4回歸這一術(shù)語(yǔ)是1886年英國(guó)生物學(xué)家高爾頓在研究遺傳現(xiàn)象時(shí)引進(jìn)的.他發(fā)現(xiàn):雖然高個(gè)子的先代會(huì)有高個(gè)子的后代,但后代的增高并不與先代的增高等量.他稱這一現(xiàn)象為“向平常高度的回歸”.回歸這一術(shù)語(yǔ)是1886年英國(guó)生物學(xué)家高爾頓在研究遺傳現(xiàn)象時(shí)5爾后,他的朋友麥爾遜等人搜集了上千個(gè)家庭成員的身高數(shù)據(jù):0.51633.73(英寸)分析出兒子的身高y和父親的身高x大致為如下關(guān)系:爾后,他的朋友麥爾遜等人搜集了上千個(gè)家庭成員的身高數(shù)據(jù):0.6這意味著,若父親身高超過父親平均身高6英寸,那么其兒子的身高大約只超過兒子平均身高3英寸,可見有向平均值返回的趨勢(shì).誠(chéng)然,如今對(duì)回歸這一概念的理解并不是高爾頓的原意,但這一名詞卻一直沿用下來,成為統(tǒng)計(jì)學(xué)中最常用的概念之一.6英寸3英寸這意味著,若父親身高超過父親平均身高6英寸,那么其兒子的7在回歸分析中,當(dāng)變量只有兩個(gè)時(shí),稱為一元回歸分析;當(dāng)變量在兩個(gè)以上時(shí),稱為多元回歸分析.變量間成線性關(guān)系,稱線性回歸,變量間不具有線性關(guān)系,稱非線性回歸.一元回歸多元回歸線性非線性在這一講里,我們主要討論的是一元線性回歸.它是處理兩個(gè)變量之間關(guān)系的最簡(jiǎn)單的模型.它雖然比較簡(jiǎn)單,但我們從中可以了解到回歸分析的基本思想、方法和應(yīng)用.在回歸分析中,當(dāng)變量只有兩個(gè)時(shí),稱為一元8設(shè)隨機(jī)變量y與變量x之間存在著某種相關(guān)關(guān)系,其中x是能夠控制或可以精確測(cè)量的變量.年齡身高施肥量積雪深度x…y灌溉面積產(chǎn)量血壓體重…為了今后研究方便,我們把x當(dāng)作普通變量,而不把它看作隨機(jī)變量.設(shè)隨機(jī)變量y與變量x之間存在著某種相關(guān)關(guān)系,其9對(duì)于x的一組不完全相同的值x1,x2,…作獨(dú)立觀察,得到隨機(jī)變量y相應(yīng)的觀察值y12,…,構(gòu)成n對(duì)數(shù)據(jù).用這n對(duì)數(shù)據(jù)可作出一個(gè)散點(diǎn)圖,直觀地描述一下兩變量之間的關(guān)系.yxo············對(duì)于x的一組不完全相同的值x1,x2,…作獨(dú)立觀察,得到10這里有三幅散點(diǎn)圖.yxo··········(1)oyx············(2)yxo····················(3)這里有三幅散點(diǎn)圖.yxo··········(1)oyx··11根據(jù)散點(diǎn)圖,考慮以下幾個(gè)問題:(1)兩變量之間的關(guān)系是否密切,或者說我們能否由x來估計(jì)y.(2)兩變量之間的關(guān)系是呈一條直線還是呈某種曲線.(3)是否存在某個(gè)點(diǎn)偏離過大.(4)是否存在其它規(guī)律.根據(jù)散點(diǎn)圖,考慮以下幾個(gè)問題:(1)兩變量之間的關(guān)系是否12yxo··········(1)oyx············(2)yxo····················(3)考慮采用線性方程擬合采用非線性方程擬合yxo··········(1)oyx···········13一元線性回歸為了估計(jì)山上積雪融化后對(duì)下游灌溉的影響,在山上建立了一個(gè)觀測(cè)站,測(cè)量了最大積雪深度x與當(dāng)年灌溉面積y,得到連續(xù)10年的數(shù)據(jù)如下表:年序最大積雪深度x(米)灌溉面積y(公頃)15.1190723.5128737.1269346.2237358.8326067.8300074.5194785.6227398.03113106.42493一元線性回歸為了估計(jì)山上積雪融化后對(duì)下游灌溉的影14為了研究這些數(shù)據(jù)中所蘊(yùn)含的規(guī)律性,我們由10對(duì)數(shù)據(jù)作出散點(diǎn)圖.從圖看到,數(shù)據(jù)點(diǎn)大致落在一條直線附近,這告訴我們變量x和y之間大致可看作線性關(guān)系.yxo4000300020001000246810···········從圖中還看到,這些點(diǎn)又不完全在一條直線上,這表明x和y的關(guān)系并沒有確切到給定x就可以唯一確定y的程度.為了研究這些數(shù)據(jù)中所蘊(yùn)含的規(guī)律性,我們由10對(duì)15事實(shí)上,還有許多其它因素對(duì)y產(chǎn)生影響,如當(dāng)年的平均氣溫、當(dāng)年的降雨量等等,都是影響y取什么值的隨機(jī)因素.其中a和b是未知常數(shù),稱回歸系數(shù),ε表示其它隨機(jī)因素對(duì)灌溉面積的影響.σ2未知yε如果我們只研究x和y的關(guān)系,可以假定有如下結(jié)構(gòu)式:實(shí)際中常假定ε服從正態(tài)分布N(0,σ2),即事實(shí)上,還有許多其它因素對(duì)y產(chǎn)生影響,16
y=a+bx+ε,ε~N(0,)(1)為一元線性回歸模型.通常稱由(1)式,我們不難算得y的數(shù)學(xué)期望:E(y)該式表示當(dāng)x已知時(shí),可以精確地算出E(y).由于ε是不可控制的隨機(jī)因素,通常就用E(y)作為y的估計(jì),記作.這樣我們得到稱此方程為y關(guān)于x的回歸方程.(2)y=a+bx+ε,ε~N(0,)17現(xiàn)對(duì)模型(1)中的變量x,y進(jìn)行了n次獨(dú)立觀察,得樣本(x1,y1),…,(xn,yn)(3)據(jù)(1)式,此樣本的構(gòu)造可由方程
y=a+bx+ε,ε~N(0,)(1),i=1,2,…,n(4)這里是第i次觀察時(shí)隨機(jī)誤差所取的值,它是不能觀察的.來描述.現(xiàn)對(duì)模型(1)中的變量x,y進(jìn)行了n次獨(dú)立觀察181,2,…(5)(4)式和(5)式結(jié)合,給出了樣本(x11),…,()的概率性質(zhì).它是對(duì)理論模型進(jìn)行統(tǒng)計(jì)分析推斷的依據(jù).也常稱(4)+(5)為一元線性回歸模型.由于各次觀察獨(dú)立,有,i=1,2,…,n(4)1,2,…(5)(4)式19由于此方程的建立有賴于通過觀察或試驗(yàn)積累的數(shù)據(jù),所以有時(shí)又稱其為經(jīng)驗(yàn)回歸方程或經(jīng)驗(yàn)公式.(6)
回歸分析的任務(wù)是利用n組獨(dú)立觀察數(shù)據(jù)(x1,y1),…,(xn,yn)來估計(jì)a和b,以估計(jì)值和分別代替(2)式中的a和b,得回歸方程那么要問,如何利用n組獨(dú)立觀察數(shù)據(jù)來估計(jì)a和b?由于此方程的建立有賴于通過觀察或試驗(yàn)積累的數(shù)據(jù),所以有時(shí)201.用最小二乘法估計(jì)首先舉例說明最小二乘法的思想:假設(shè)為估計(jì)某物體的重量,對(duì)它進(jìn)行了n次稱量,因稱量有誤差,故n次稱量結(jié)果x1,x2,…,xn有差異,現(xiàn)在用數(shù)去估計(jì)物重,則它與上述n次稱量結(jié)果的偏差的平方和是:1.用最小二乘法估計(jì)首先舉例說明最小二乘法的思想:21于是就提出了下面的估計(jì)原則:用這種方法作出的估計(jì)叫最小二乘估計(jì).最小二乘法認(rèn)為,一個(gè)好的估計(jì),應(yīng)使這個(gè)平方和盡可能地小.尋找,使上述平方和達(dá)到最小,以這個(gè)作為物重的估計(jì)值,這就是最小二乘法.于是就提出了下面的估計(jì)原則:用這種方法作出的估計(jì)叫最小二乘估22現(xiàn)在的情況是,對(duì)(x,y)作了n次觀察或試驗(yàn),得到n對(duì)數(shù)據(jù),我們想找一條直線,盡可能好地?cái)M合這些數(shù)據(jù).
yx
由回歸方程,當(dāng)x取值xi時(shí),應(yīng)取值a+bxi,而實(shí)際觀察到的為yi,這樣就形成了偏差現(xiàn)在的情況是,對(duì)(x,y)作了n次觀察或試驗(yàn),得23依照最小二乘法的思想,提出目標(biāo)量Q(7)它是所有實(shí)測(cè)值yi與回歸值的偏差平方和.yx依照最小二乘法的思想,提出目標(biāo)量Q(7)它是所有實(shí)測(cè)值yi與24yx我們可設(shè)法求出a,b的估計(jì)值,,使偏差平方和Q達(dá)到最小.(7)yx我們可設(shè)法求出a,b的估計(jì)值,,使偏差平25(7)我們可設(shè)法求出a,b的估計(jì)值,,使偏差平方和Q達(dá)到最小.由此得到的回歸直線是在所有直線中偏差平方和Q最小的一條.yx(7)我們可設(shè)法求出a,b的估計(jì)值,,使偏差26通??刹捎梦⒎e分中求極值的辦法,求出使Q達(dá)到最小的,.(7)即解方程:得(8)其中通常可采用微積分中求極值的辦法,求出使Q達(dá)到最小27從而得到回歸方程按照上述準(zhǔn)則,我們可求出前面例子中灌溉面積y對(duì)最大積雪深度x的回歸方程是:可以看出,最大積雪深度每增加一個(gè)單位,灌溉面積平均增加364個(gè)單位.從而得到回歸方程按照上述準(zhǔn)則,我們可求出前面例子中灌溉面積y28可以證明,我們用最小二乘法求出的估計(jì)分別是a,b的無偏估計(jì),它們都是y1,y2,…,yn的線性函數(shù),而且在所有y1,y2,…,yn的線性函數(shù)中,最小二乘估計(jì)的方差最小.可以證明,我們用最小二乘法求出的估計(jì)分別是29
求出回歸方程,問題尚未結(jié)束,由于是從觀察得到的回歸方程,它會(huì)隨觀察結(jié)果的不同改變,并且它只反映了由x的變化引起的y的變化,而沒有包含誤差項(xiàng).(1)回歸方程是否有意義?即自變量x的變化是否真的對(duì)因變量y有影響?因此,有必要對(duì)回歸效果作出檢驗(yàn).因此在獲得這樣的回歸方程后,通常要問這樣的問題:求出回歸方程,問題尚未結(jié)束,30(2)如果方程真有意義,用它預(yù)測(cè)y時(shí),預(yù)測(cè)值與真值的偏差能否估計(jì)?(1)回歸方程是否有意義?即自變量x的變化是否真的對(duì)因變量y有影響?因此,有必要對(duì)回歸效果作出檢驗(yàn).2.回歸方程的顯著性檢驗(yàn)對(duì)任意兩個(gè)變量的一組觀察因此需要考察y與x間是否確有線性相關(guān)關(guān)系,這就是回歸效果的檢驗(yàn)問題.都可以用最小二乘法形式上求得y對(duì)x的回歸方程,如果y與x沒有線性相關(guān)關(guān)系,這種形式的回歸方程就沒有意義.(,),1,2,…,n(2)如果方程真有意義,用它預(yù)測(cè)y時(shí),預(yù)測(cè)值與真值的偏差能31我們注意到只反映了x對(duì)y的影響,所以回歸值就是yi中只受xi影響的那一部分,而
則是除去xi的影響后,受其它種種因素影響的部分,故將
稱為殘差.
我們注意到32于是觀測(cè)值yi可以分解為兩部分和,
并且也可分解為兩部分.因此,y1,y2,…,的總變差為:(9)于是觀測(cè)值yi可以分解為兩部分和33可以證明即可以分解為兩部分:回歸平方和與殘差平方和.(10)可以證明即可以分解為兩部分:回歸平方和34(10)反映了由于自變量x的變化引起的因變量y的差異,體現(xiàn)了x對(duì)y的影響;而反映了種種其它因素對(duì)y的影響,這些因素沒有反映在自變量中,它們可作為隨機(jī)因素看待.(10)反映了由于自變量x的變化引起35可見,/為x的影響部分與隨機(jī)因素影響部分的相對(duì)比值.它的作用和隨機(jī)因素的作用相當(dāng),于是由數(shù)據(jù)得到的回歸方程就沒有什么意義.若它不是顯著地大,表明我們所選的x,并不是一個(gè)重要的因素.可見,/為x的影響部分與隨機(jī)因素影響36可見,/為x的影響部分與隨機(jī)因素影響部分的相對(duì)比值.如果它顯著地大,表明x的作用是顯著地比隨機(jī)因素大,這樣,方程就有意義.通常我們可假設(shè)y和x沒有線性相關(guān)關(guān)系,對(duì)回歸方程是否有意義進(jìn)行顯著性檢驗(yàn).可見,/為x的影響部分與隨機(jī)因素影響37(11)
因此用來檢驗(yàn)b的絕對(duì)值是否顯著大于0(或者說檢驗(yàn)回歸方程是否有意義).可以證明:的關(guān)系式中b=0時(shí),有當(dāng)(1,2)(12)(11)因此用來檢驗(yàn)b的絕對(duì)值是否顯著大于0(或者說檢38給定顯著性水平,通過查F分布分位數(shù)表,求出否定域,便可判斷回歸方程是否有意義.拒絕域?yàn)椋?/p>
由上面的討論可知,要問回歸方程是否有意義,就是要檢驗(yàn)假設(shè)H0:0;H1:b≠0使用的檢驗(yàn)統(tǒng)計(jì)量為:~F(1,n-2)給定顯著性水平,通過查F分布分位數(shù)表,求出否定域,39我們可以用更簡(jiǎn)單的公式計(jì)算回歸平方和與殘差平方和:
(14)(13)我們可以用更簡(jiǎn)單的公式計(jì)算回歸平方和與殘差平方40現(xiàn)在對(duì)例中建立的回歸方程進(jìn)行檢驗(yàn),可計(jì)算得:=3393025-3318355=355.5對(duì)α=0.01,由F表查得=11.26,由于F>,故回歸方程有意義.現(xiàn)在對(duì)例中建立的回歸方程進(jìn)行檢驗(yàn),可計(jì)算得:=33941當(dāng)檢驗(yàn)認(rèn)為回歸方程確有意義.則可用來進(jìn)行予測(cè)或控制,這也是建立回歸方程的重要目的.當(dāng)檢驗(yàn)認(rèn)為回歸方程確有意義.則可用來進(jìn)行予測(cè)或控制,這也42對(duì)給定的x值,由回歸方程就可得的值.3.預(yù)測(cè)當(dāng)已知最大積雪深度為9.2米時(shí),就可以預(yù)測(cè)灌溉面積:=142+364×9.2=3489(公頃).由灌溉面積y對(duì)最大積雪深度x的回歸方程例如,對(duì)給定的x值,由回歸方程43實(shí)際的y與預(yù)測(cè)的不一定相等,重要的是它們的偏差有多大.即事實(shí)上我們無法確切定出y-的值,只能估計(jì)的范圍.通??杉俣ㄍㄟ^對(duì)σ的估計(jì),就知道的取值范圍.已知有所以實(shí)際的y與預(yù)測(cè)的不一定相等,重要的是它們的偏差有多大.即44根據(jù)建立回歸方程時(shí)算得的,可以算得.于是可以用去估計(jì)標(biāo)準(zhǔn)差,記它為,即(15)用3倍標(biāo)準(zhǔn)差準(zhǔn)則,就有(16)(17)這樣估計(jì)y的值落在區(qū)間[]內(nèi)或[]內(nèi),相應(yīng)的概率分別為0.99和0.95.
根據(jù)建立回歸方程時(shí)算得的,可以算得.45可見,利用回歸方程預(yù)測(cè)y,可歸結(jié)為,對(duì)給定的x,以一定的置信水平預(yù)測(cè)對(duì)應(yīng)的y的觀察值的取值范圍,即所謂預(yù)測(cè)區(qū)間.比如,某一年測(cè)得最大積雪深度為9.2米,以99%的置信水平預(yù)測(cè)灌溉面積在3199公頃與3779公頃之間.根據(jù)可見,利用回歸方程預(yù)測(cè)y46上面的方法中,由于是估計(jì)值,上面兩式只是近似式,在一些要求不高的問題中,這是可行的.如要求出更為精確的值,可進(jìn)一步查閱回歸分析的書.上面的方法中,由于是估計(jì)值,上面兩式只是近似式,在一些47在許多實(shí)際問題中,兩個(gè)變量之間并不一定是線性關(guān)系,而是某種曲線關(guān)系,應(yīng)該用曲線來擬合.在有些情況下,可以進(jìn)行適當(dāng)?shù)淖兞看鷵Q,把它線性化,這樣就把一個(gè)非線性回歸問題化為線性回歸問題而得以解決.非線性回歸問題在許多實(shí)際問題中,兩個(gè)變量之間并不一定是線性48非線性回歸模型當(dāng)自變量與因變量存在某種曲線相關(guān)關(guān)系時(shí),可擬合曲線回歸模型。例如:雙曲線:a>0b>0a>0b<0xxyy指數(shù)曲線:b>0b<0xxyyy非線性回歸模型當(dāng)自變量與因變量存在某種曲線相關(guān)關(guān)系時(shí),可49冪函數(shù)曲線:a>0b>0xyb<11b>1曲線模型的判別方法:理論和經(jīng)驗(yàn)判斷;觀察散點(diǎn)圖曲線模型的確定方法:通常用變量代換法將曲線轉(zhuǎn)換為直線。按線性模型求解參數(shù),而后再變換為曲線模型。冪函數(shù)曲線:a>0b>0xyb<11b>1曲線模型的判別50線性回歸多元線性回歸模型1·多元線性回歸模型的性質(zhì)與模型的確定二元線性回歸模型:總體多元線性回歸模型的一般形式Y(jié)的數(shù)學(xué)期望E(Y)隨機(jī)誤差表明自變量共同變動(dòng)引起的Y的平均變動(dòng)。也稱總體的二元線性回歸方差。常數(shù)項(xiàng),和Y構(gòu)成的平面與Y軸的截距偏回歸系數(shù),表示在固定時(shí)每變化一個(gè)單位引起的Y的平均變動(dòng);案例線性回歸多元線性回歸模型1·多元線性回歸模型的性質(zhì)與模型51偏回歸系數(shù),表示在固定時(shí)每變化一個(gè)單位引起的Y的平均變動(dòng);隨機(jī)誤差,其理論假定與一元線性回歸模型中的一樣。在多元回歸模型中,還要求各自變量之間不存在顯著相關(guān),或高度相關(guān)也即不得存在多重共線性。樣本多元線性回歸模型的一般形式二元線性回歸模型為:其數(shù)學(xué)期望也稱樣本(或估計(jì)的)二元線性回歸方程。偏回歸系數(shù),表示在固定時(shí)每變化一個(gè)單位引起52二元線性回歸方程的確定根據(jù)實(shí)際資料,用最小平方法,即使,分別對(duì)a、b1、b2求編導(dǎo)并令其為零,求得三個(gè)標(biāo)準(zhǔn)方程:解此聯(lián)立方程便可得到a、b1、b2。二元線性回歸方程的確定根據(jù)實(shí)際資料,用最小平方法,即使532·多元線性回歸模型的判定系數(shù)和估計(jì)標(biāo)準(zhǔn)誤判定系數(shù)0<r2<1修正的判定余數(shù):2·多元線性回歸模型的判定系數(shù)和估計(jì)標(biāo)準(zhǔn)誤判定系數(shù)0<r254估計(jì)標(biāo)準(zhǔn)誤((x1、x2))r2和(x1、x2)都是對(duì)回歸模型擬合優(yōu)度的評(píng)價(jià)指標(biāo)。(x1、x2)也是用自變量對(duì)因變量進(jìn)行區(qū)間估計(jì)的抽樣誤差。估計(jì)標(biāo)準(zhǔn)誤((x1、x2))r2和(x1、x2)都是對(duì)回歸553·多元回歸模型的顯著性檢驗(yàn)對(duì)偏回歸系數(shù)的t檢驗(yàn)H0:β1=0,H1:β1≠0; H0:β2=0, H1:β2≠0。檢驗(yàn)統(tǒng)計(jì)量:3·多元回歸模型的顯著性檢驗(yàn)對(duì)偏回歸系數(shù)的t檢驗(yàn)H0:56按顯著性水平α和自由度(3)查t表可得到臨界值t0模型整體的F檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量:(k—自變量個(gè)數(shù))或按給定的α和自由度(2)和(3)查F表可得到臨界值Fα按顯著性水平α和自由度(3)查t表可得到臨界值t0模型整體574·多元回歸中的相關(guān)分析復(fù)相關(guān):指一個(gè)因變量同多個(gè)自變量的相關(guān)關(guān)系。復(fù)相關(guān)系數(shù)恒取正值。偏相關(guān)(凈相關(guān))指各個(gè)自變量在其他自變量固定不變時(shí),單個(gè)變量同因變量的相關(guān)關(guān)系。計(jì)算偏相關(guān)系數(shù)需借助相關(guān)系數(shù)矩陣表的資料。二元回歸中的相關(guān)系數(shù)矩陣表yyx1x1x2x212r121.001.001.00x1與y的偏相關(guān)系數(shù):x2與y的偏相關(guān)系數(shù):案例4·多元回歸中的相關(guān)分析復(fù)相關(guān):指一個(gè)因變量同多個(gè)自585·應(yīng)用多元回歸方程進(jìn)行區(qū)間估計(jì)Y的平均值的區(qū)間估計(jì)Y的特點(diǎn)值的區(qū)間估計(jì)式中,是即區(qū)間估計(jì)的抽樣誤差。的抽樣分布的標(biāo)準(zhǔn)差,式中,是的抽樣分布的標(biāo)準(zhǔn)差,即區(qū)間估計(jì)的抽樣誤差。5·應(yīng)用多元回歸方程進(jìn)行區(qū)間估計(jì)Y的平均值的區(qū)間估計(jì)Y的特點(diǎn)59數(shù)學(xué)建模培訓(xùn)統(tǒng)計(jì)分析模型與SAS軟件60牙膏的銷售量問題建立牙膏銷售量與價(jià)格、廣告投入之間的模型預(yù)測(cè)在不同價(jià)格和廣告費(fèi)用下的牙膏銷售量收集了30個(gè)銷售周期本公司牙膏銷售量、價(jià)格、廣告費(fèi)用,及同期其它廠家同類牙膏的平均售價(jià)9.260.556.804.253.70307.930.055.803.853.80298.510.256.754.003.7527.38-0.055.503.803.851銷售量(百萬支)價(jià)格差(元)廣告費(fèi)用(百萬元)其它廠家價(jià)格(元)本公司價(jià)格(元)銷售周期牙膏的銷售量問題建立牙膏銷售量與價(jià)格、廣告投入之間的模型61基本模型y~公司牙膏銷售量x1~其它廠家與本公司價(jià)格差x2~公司廣告費(fèi)用x2yx1yx1,x2~解釋變量(回歸變量,自變量)被解釋變量(因變量)0,1,2,3~回歸系數(shù)~隨機(jī)誤差(均值為零的正態(tài)分布隨機(jī)變量)基本模型y~公司牙膏銷售量x1~其它廠家與本公司價(jià)格差x262統(tǒng)計(jì)工具箱模型求解[]()輸入x=~n4數(shù)據(jù)矩陣,第1列為全1向量(置信水平,0.05)的估計(jì)值的置信區(qū)間r~殘差向量的置信區(qū)間檢驗(yàn)統(tǒng)計(jì)量R2,p維數(shù)據(jù)向量輸出由數(shù)據(jù)12估計(jì)參數(shù)參數(shù)估計(jì)值置信區(qū)間17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p=0.00000123統(tǒng)計(jì)工具箱模型求解[]()輸入x=63結(jié)果分析y的90.54%可由模型確定參數(shù)參數(shù)估計(jì)值置信區(qū)間17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p=0.00000123F遠(yuǎn)超過F檢驗(yàn)的臨界值p遠(yuǎn)小于=0.052的置信區(qū)間包含零點(diǎn)(右端點(diǎn)距零點(diǎn)很近)x2對(duì)因變量y的影響不太顯著x22項(xiàng)顯著可將x2保留在模型中模型從整體上看成立結(jié)果分析y的90.54%可由模型確定參數(shù)參數(shù)估計(jì)值置信區(qū)間64銷售量預(yù)測(cè)價(jià)格差x1=其它廠家價(jià)格x3-本公司價(jià)格x4估計(jì)x3調(diào)整x4控制價(jià)格差x1=0.2元,投入廣告費(fèi)x2=650萬元銷售量預(yù)測(cè)區(qū)間為[7.8230,8.7636](置信度95%)上限用作庫(kù)存管理的目標(biāo)值下限用來把握公司的現(xiàn)金流若估計(jì)x3=3.9,設(shè)定x4=3.7,則可以95%的把握知道銷售額在7.83203.729(百萬元)以上控制x1通過x1,x2預(yù)測(cè)y(百萬支)銷售量預(yù)測(cè)價(jià)格差x1=其它廠家價(jià)格x3-本公司價(jià)格x4估計(jì)65模型改進(jìn)x1和x2對(duì)y的影響?yīng)毩?shù)參數(shù)估計(jì)值置信區(qū)間17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p=0.00000123參數(shù)參數(shù)估計(jì)值置信區(qū)間29.1133[13.701344.5252]11.1342[1.977820.2906]-7.6080[-12.6932-2.5228]0.6712[0.25381.0887]-1.4777[-2.8518-0.1037]R2=0.9209F=72.7771p=0.000030124x1和x2對(duì)y的影響有交互作用模型改進(jìn)x1和x2對(duì)y的影響?yīng)毩?shù)參數(shù)估計(jì)值置信區(qū)間1766兩模型銷售量預(yù)測(cè)比較(百萬支)區(qū)間[7.8230,8.7636]區(qū)間[7.8953,8.7592](百萬支)控制價(jià)格差x1=0.2元,投入廣告費(fèi)x2=6.5百萬元預(yù)測(cè)區(qū)間長(zhǎng)度更短略有增加兩模型銷售量預(yù)測(cè)比較(百萬支)區(qū)間[7.8230,8.7667x2=6.5x1=0.2x1x1x2x2兩模型與x1,x2關(guān)系的比較x2=6.5x1=0.2x1x1x2x2兩模型與x168交互作用影響的討論價(jià)格差x1=0.1價(jià)格差x1=0.3加大廣告投入使銷售量增加(x2大于6百萬元)價(jià)格差較小時(shí)增加的速率更大x2價(jià)格優(yōu)勢(shì)會(huì)使銷售量增加
價(jià)格差較小時(shí)更需要靠廣告來吸引顧客的眼球交互作用影響的討論價(jià)格差x1=0.1價(jià)格差x1=0.369完全二次多項(xiàng)式模型中有命令直接求解x1x2從輸出Export可得完全二次多項(xiàng)式模型中有命令直接求解x1x2從輸出Expo70第二部分與數(shù)據(jù)系統(tǒng)是用于數(shù)據(jù)分析與決策支持的大型集成式模塊化軟件包。(其早期的名稱為)第二部分與數(shù)據(jù)系統(tǒng)是用于數(shù)據(jù)分析與決策支持的大型集成式模71系統(tǒng)介紹數(shù)據(jù)訪問
數(shù)據(jù)管理
.
數(shù)據(jù)分析,,,數(shù)據(jù)呈現(xiàn)
,,,,,開發(fā)工具分布式計(jì)算環(huán)境
系統(tǒng)介紹數(shù)據(jù)訪問數(shù)據(jù)管理數(shù)據(jù)分析,數(shù)據(jù)呈現(xiàn)開分72啟動(dòng)SAS:在Windows桌面系統(tǒng)下雙擊
SAS圖標(biāo)系統(tǒng)簡(jiǎn)介
提供的基本運(yùn)行環(huán)境或運(yùn)行系統(tǒng)目錄下(例C:\)的可
執(zhí)行程序常用的是交互運(yùn)行方式。也可用提交批作業(yè)方式運(yùn)行的啟動(dòng)SAS:在Windows桌面系統(tǒng)下雙擊
SAS圖標(biāo)系統(tǒng)73為交互方式運(yùn)行提供的環(huán)境顯示管理系統(tǒng)
下拉菜單(彈出菜單) 命令框、工具欄 三個(gè)基本窗口窗口、窗口、窗口工作界面介紹74為交互方式運(yùn)行提供的環(huán)境工作界面介紹74訪問和編輯已有的SAS程序編寫新的SAS程序遞交SAS程序?qū)AS程序存為文件是一個(gè)基本的窗口,缺省地打開依次記錄SAS進(jìn)程中各程序運(yùn)行的信息可用命令清空是一個(gè)基本的敞口,缺省地打開依次記錄程序輸出的結(jié)果有結(jié)果輸出時(shí)自動(dòng)轉(zhuǎn)到前臺(tái)訪問和編輯已有的SAS程序是一個(gè)基本的窗口,缺省地打開是一個(gè)75編程基本概念用戶提交的程序由許多程序步構(gòu)成。數(shù)據(jù)步
過程步
原始數(shù)據(jù)表表報(bào)告數(shù)據(jù)步常用于創(chuàng)建數(shù)據(jù)集過程步常用于處理數(shù)據(jù)集(生成報(bào)表、圖形和實(shí)現(xiàn)數(shù)據(jù)分析功能)編程基本概念用戶提交的程序由許多程序步構(gòu)成。數(shù)據(jù)步過程步76一與數(shù)據(jù)的轉(zhuǎn)換1數(shù)據(jù)輸入,了解數(shù)據(jù)步語(yǔ)言的格式。2.調(diào)用數(shù)據(jù)3輸出結(jié)果的保存與轉(zhuǎn)化成數(shù)據(jù)二.數(shù)據(jù)圖表與曲線,掌握數(shù)據(jù)步語(yǔ)言的作用數(shù)學(xué)建模培訓(xùn)統(tǒng)計(jì)分析模型與SAS軟件77[格式]:數(shù)據(jù)集名;[功能]:標(biāo)志數(shù)據(jù)步的開始,并定義所建數(shù)據(jù)集的名稱。例:a;b;1.語(yǔ)句2.語(yǔ)句[格式]:變量名表;[功能]:讀入由語(yǔ)句指定的數(shù)據(jù)列;為相應(yīng)數(shù)據(jù)定義變量名;確定變量格式及讀入方式。[格式]:數(shù)據(jù)集名;1.語(yǔ)句2.語(yǔ)句[781)列表輸入或自由格式例:$;說明:$表示為字符型變量;表示連續(xù)讀入記錄,如果缺省,表示僅讀下每行第一個(gè)記錄。3種描述記錄值的方法:2)列方式例:$1-20$2224-25;說明:要求各變量數(shù)據(jù)在數(shù)據(jù)區(qū)排列在固定區(qū)域,在語(yǔ)句的變量表中要在變量名后指出該變量所占的列范圍。1)列表輸入或自由格式例:$;3種描述793)格式化輸入例:$10.4.2;說明:要求在變量后給出一個(gè)輸入格式,用來說明變量的數(shù)據(jù)類型和字段的寬度。3)格式化輸入例:$10.4.2;說明:要803.語(yǔ)句[格式];數(shù)據(jù)塊;[功能]引導(dǎo)數(shù)據(jù)行。例:a1;$$;;08160.50826408359.5;;;3.語(yǔ)句例:a1;08160.50826814.賦值語(yǔ)句[格式]:Z=X+Y;Y=Y+1;[功能]:利用現(xiàn)有變量產(chǎn)生新變量。
b1;xy;(x);();;
;;;例:12441664.賦值語(yǔ)句[格式]:Z=X+Y;Y=Y+825.語(yǔ)句[常用格式]數(shù)據(jù)集1數(shù)據(jù)集2...;[功能]調(diào)用數(shù)據(jù)集或縱向聯(lián)接數(shù)據(jù)集。數(shù)據(jù)步語(yǔ)句例:B;A;打開數(shù)據(jù)集B,并從數(shù)據(jù)集A讀入數(shù)據(jù)。C;AB;將A和B縱向聯(lián)接起來,存放在數(shù)據(jù)集C中。5.語(yǔ)句[常用格式][功能]調(diào)用數(shù)據(jù)集或縱向聯(lián)接數(shù)據(jù)83程序?qū)嵗齜1;$;;;;;b2;$;;;;;b3;b1b2;;;
語(yǔ)言基礎(chǔ)17165.219167.120168.918156.321180.2程序?qū)嵗?4創(chuàng)建數(shù)據(jù)集的途徑1)將數(shù)據(jù)行直接寫在語(yǔ)句后,以“;”結(jié)束。例:a;xy;;;123456創(chuàng)建數(shù)據(jù)集的途徑1)將數(shù)據(jù)行直接寫在語(yǔ)句后,以“;”結(jié)束。85*2)其他軟件產(chǎn)生的標(biāo)準(zhǔn)格式文件與數(shù)據(jù)集之間的互相轉(zhuǎn)換,如:,文件等。
863)利用已經(jīng)創(chuàng)建的數(shù)據(jù)集產(chǎn)生所需的新數(shù)據(jù)集。
使用語(yǔ)句、語(yǔ)句可利用已創(chuàng)建的數(shù)據(jù)集產(chǎn)生所需的新數(shù)據(jù)集。*:縱向聯(lián)接:橫向聯(lián)接3)利用已經(jīng)創(chuàng)建的數(shù)據(jù)集產(chǎn)生所需的新數(shù)據(jù)集。87*4)從外部文件讀取數(shù)據(jù)。
使用語(yǔ)句指定從哪一文件中讀入數(shù)據(jù)。例:03; 'd:\統(tǒng)計(jì)實(shí)習(xí)\03';$$$;;;*4)從外部文件讀取數(shù)據(jù)。
使用語(yǔ)句指定從哪一文件中88練習(xí)建立數(shù)據(jù)集1,包含以下數(shù)據(jù):建立數(shù)據(jù)集2,包含以下數(shù)據(jù):將1、2縱向合并,存放在數(shù)據(jù)集中,并生成新變量z,z為y值取常用對(duì)數(shù)。練習(xí)建立數(shù)據(jù)集1,包含以下數(shù)據(jù):89附錄一數(shù)據(jù)輸入和調(diào)用數(shù)據(jù)、輸出結(jié)果轉(zhuǎn)化成表格一維數(shù)據(jù)輸入:E21;N$x1x2x3;/*說明N是字符型變量后加$*/121*x21**3;/*用加,乘,乘方產(chǎn)生新變量*/;/*說明以下輸入數(shù)據(jù)*/A1.12.63.8B4.55.76.0C7.68.29.7;/*空語(yǔ)句說明數(shù)據(jù)輸入結(jié)束*/;/*有此打印語(yǔ)句則在窗口有輸出,否則只在—儲(chǔ)存*/;程序不區(qū)分大小寫字母請(qǐng)看演示附錄一數(shù)據(jù)輸入和調(diào)用數(shù)據(jù)、輸出結(jié)果轉(zhuǎn)化成表格一維數(shù)據(jù)輸入:90數(shù)據(jù)輸入(帶三個(gè)下標(biāo)的一維變量)數(shù)據(jù)輸入(帶三個(gè)下標(biāo)的一維變量)91數(shù)學(xué)建模培訓(xùn)統(tǒng)計(jì)分析模型與SAS軟件92數(shù)據(jù)輸入(帶二個(gè)下標(biāo)的二維變量())數(shù)據(jù)輸入(帶二個(gè)下標(biāo)的二維變量())93數(shù)學(xué)建模培訓(xùn)統(tǒng)計(jì)分析模型與SAS軟件94數(shù)學(xué)建模培訓(xùn)統(tǒng)計(jì)分析模型與SAS軟件95輸出結(jié)果轉(zhuǎn)化成表或進(jìn)行修改的方法將的輸出結(jié)果保存后,重點(diǎn),點(diǎn),點(diǎn),”文件類型”選中”””,打到該文件后,右擊,選中記事本打開方式,重新存入某位置(要記住該位置)(如果需要修改或解釋此時(shí)可在記事本上進(jìn)行);打開空白,>數(shù)據(jù)>導(dǎo)入外部數(shù)據(jù)>導(dǎo)入數(shù)據(jù)>找到記事本所在位置并打開>按提示進(jìn)行:將數(shù)據(jù)文件f66轉(zhuǎn)化成文件1.打開,運(yùn)行p252.點(diǎn)擊保存(設(shè)起名為f66)3.(點(diǎn)擊后)點(diǎn),文件類型選擇為后找到保存的文件,右擊文件名f66,選擇用記事本打開,并重新保存在某位置。4.打開空白,>數(shù)據(jù)>導(dǎo)入外部數(shù)據(jù)>導(dǎo)入數(shù)據(jù)>找到記事本所在位置并打開f66>按提示進(jìn)行(選擇按”固定寬度”),最后對(duì)文件保存輸出結(jié)果轉(zhuǎn)化成表或進(jìn)行修改的方法96插值與回歸(擬合)由數(shù)據(jù)表研究變量x與y的關(guān)系插值問題:例1.機(jī)翼與樣條函數(shù)2.降雨量特點(diǎn):要求(插值)函數(shù)經(jīng)過數(shù)據(jù)點(diǎn)回歸問題:例蒸汽量與氣溫(例E621)特點(diǎn):要求回歸方程在數(shù)據(jù)點(diǎn)附近經(jīng)過xx1x2…yy1y2…插值與回歸(擬合)由數(shù)據(jù)表xx1x2…yy1y2…97回歸分析問題:研究一個(gè)或多個(gè)連續(xù)變量x1,x2,…,和連續(xù)變量y之間的關(guān)系(給出回歸方程)在現(xiàn)實(shí)世界中,存在著大量這樣的情況:一個(gè)變量和一個(gè)或多個(gè)變量,譬如y和x1,x2,…,有一些依賴關(guān)系,由x1,x2,…,可以部分地決定y的值,但這種決定往往不很確切.常常用來說明這種依賴關(guān)系的最簡(jiǎn)單、直觀的例子是體重與身高、腰圍.若用x1表示某人的身高,用x2表示某人的腰圍,用y表示他的體重,眾所周知,一般說來,當(dāng)x1,x2大時(shí),y也傾向于大,但由x1,x2不能嚴(yán)格地決定y.類似的例子還很多.變量之間的這種關(guān)系稱為“相關(guān)關(guān)系”,回歸模型就是研究相關(guān)關(guān)系的一個(gè)有力工具.回歸分析問題:研究一個(gè)或多個(gè)連續(xù)變量x1,x2,…,和連續(xù)98回歸方程的最小二乘估計(jì)
一元線性回歸的例6.2.1E621;$yx;;數(shù)據(jù)略;;;請(qǐng)看演示回歸方程的最小二乘估計(jì)
99例6.2.1散點(diǎn)圖例6.2.1散點(diǎn)圖100回歸模型的檢驗(yàn)不能替我們選擇模型,模型的選擇是我們決定的.但可以幫我們判斷模型選擇的好壞,與此有關(guān)的就是方程的顯著性檢驗(yàn)和失擬檢驗(yàn).看例E123;x;;0.11.100.21.360.31.380.41.450.51.560.61.410.71.390.81.360.91.081.00.96;;;回歸模型的檢驗(yàn)101用直線擬合數(shù)據(jù)E123用直線擬合數(shù)據(jù)E123102用拋物線擬合數(shù)據(jù)E123用拋物線擬合數(shù)據(jù)E123103關(guān)于參數(shù)的線性模型例6.6.1經(jīng)鉆探某地區(qū)煤礦上表面高度數(shù)據(jù)如表6.6.1,其中x為橫坐標(biāo),y為縱坐標(biāo),為了作趨勢(shì)面分析,建立上表面高度h的回歸方程.我們用二次多項(xiàng)式擬合這組數(shù)據(jù),從而建立回歸模型0123x245y2+ε(6.6.1)其中ε是零均值隨機(jī)變量,結(jié)合表6.6.1,我們得表6.6.1地質(zhì)鉆探數(shù)據(jù)關(guān)于參數(shù)的線性模型例6.6.1經(jīng)鉆探某地區(qū)煤礦上表面104只要令x22,*y,y22,則模型(6.6.1)式就變成5個(gè)自變量的線性回歸模型:0123x245y2+ε(6.6.2)從而可以用線性回歸的計(jì)算公式和檢驗(yàn)方法.用軟件來計(jì)算例6.6.1的程序是:/*數(shù)據(jù)h可看成帶行、列下標(biāo)的變量*/230.25;y=64–0.5;h;x2**2**2;;;;;只要令x22,*y,y22,則模型(6.6.1)式就變105-110102031-11-191930-12-281929-13-271828-141361727;;yx2y2;;一般,如果回歸模型形如01f1(x12,…)+…(x12,…)+ε其中(x12,…)是不含未知參數(shù)的函數(shù),則稱為關(guān)于參數(shù)的線性模型,令(x12,…)(1,2,…)就可轉(zhuǎn)化成線性回歸模型01X1+…ε從而采用回歸程序數(shù)學(xué)建模培訓(xùn)統(tǒng)計(jì)分析模型與SAS軟件106數(shù)學(xué)建模培訓(xùn)統(tǒng)計(jì)分析模型與SAS軟件10764;xy;1;1;;2106.423108.204109.585109.507110.008109.9310110.4911110.5914110.6015110.9016110.7618111.0019111.20;;;然后進(jìn)行u對(duì)v的回歸,請(qǐng)看演示64;108非線性回歸非線性回歸是指模型從參數(shù)角度為非線性的且無法線性化的模型,例如01x12x211x1212x1x222x22是諸參數(shù)及的線性模型(從自變量x12角度模型是非線性的),是可以線性化的非線性模型(線性化后(y)*(a),而(())是非線性的且無法線性化的模型.此時(shí)采用非線性回歸程序非線性回歸非線性回歸是指模型從參數(shù)角度為非線性的且無法線109程序形式:=…;因變量=非線性函數(shù)表達(dá)式;參數(shù)1=初值參數(shù)2=初值…;.參數(shù)1=偏導(dǎo)表達(dá)式;.參數(shù)2=偏導(dǎo)表達(dá)式;……………;;方法:采用迭代求參數(shù),要給出參數(shù)的一階偏導(dǎo)表達(dá)式.參數(shù)=…;,要賦參數(shù)初值參數(shù)=…;請(qǐng)看例子演示程序形式:110;xy;;數(shù)據(jù)(略);;/*調(diào)用進(jìn)行非線性回歸*/自由度=變量個(gè)數(shù)-約束方程個(gè)數(shù)譬如在單因素方差分析中:();/*簡(jiǎn)化記號(hào)*/*;/*因變量=非線性函數(shù)表達(dá)式,即(())*/701.10.2;/*賦參數(shù)初值*/;/*給出參數(shù)的一階偏導(dǎo)表達(dá)式*/**;*x**;;;111當(dāng)隨便賦初值導(dǎo)致不收斂時(shí)初值的采用方法一:分析函數(shù)是否可以使參數(shù)形式上具線性
方法二:對(duì)于參數(shù)的適當(dāng)范圍用均勻設(shè)計(jì)得參數(shù)的多組值試行當(dāng)隨便賦初值導(dǎo)致不收斂時(shí)初值的采用方法一:分析函數(shù)是否可以使112以下是Excel數(shù)據(jù)P48中變量x分別與變量y、z、u、v的散點(diǎn)圖由上面圖可以直觀地看出大致的相關(guān)性類型和相關(guān)程度。對(duì)線性相關(guān)性進(jìn)一步進(jìn)行定量討論以下是Excel數(shù)據(jù)P48中變量x分別與變量y、z、u、v的113演講完畢,謝謝觀看!演講完畢,謝謝觀看!1142011年數(shù)學(xué)建模培訓(xùn)
統(tǒng)計(jì)分析模型與軟件
張景祥2011年數(shù)學(xué)建模培訓(xùn)
統(tǒng)計(jì)分析模型與軟件
張景祥115一、統(tǒng)計(jì)學(xué)分析方法1.1回歸分析1.2聚類分析1.3數(shù)據(jù)分類1.4判別分析1.5主成分分析1.6因子分析1.7殘差分析1.8典型相關(guān)分析1.9時(shí)間序列一、統(tǒng)計(jì)學(xué)分析方法1167月10日(培訓(xùn)主要內(nèi)容)
第一部分回歸模型
第二部分與數(shù)據(jù)7月10日(培訓(xùn)主要內(nèi)容)
第一部分回歸模型
117回歸分析模型一元線性回歸一元非線性回歸多元線性回歸多元非線性回歸主要應(yīng)用于變量間相關(guān)關(guān)系的分析回歸分析模型一元線性回歸主要應(yīng)用于變量間相關(guān)關(guān)系的分析118回歸這一術(shù)語(yǔ)是1886年英國(guó)生物學(xué)家高爾頓在研究遺傳現(xiàn)象時(shí)引進(jìn)的.他發(fā)現(xiàn):雖然高個(gè)子的先代會(huì)有高個(gè)子的后代,但后代的增高并不與先代的增高等量.他稱這一現(xiàn)象為“向平常高度的回歸”.回歸這一術(shù)語(yǔ)是1886年英國(guó)生物學(xué)家高爾頓在研究遺傳現(xiàn)象時(shí)119爾后,他的朋友麥爾遜等人搜集了上千個(gè)家庭成員的身高數(shù)據(jù):0.51633.73(英寸)分析出兒子的身高y和父親的身高x大致為如下關(guān)系:爾后,他的朋友麥爾遜等人搜集了上千個(gè)家庭成員的身高數(shù)據(jù):0.120這意味著,若父親身高超過父親平均身高6英寸,那么其兒子的身高大約只超過兒子平均身高3英寸,可見有向平均值返回的趨勢(shì).誠(chéng)然,如今對(duì)回歸這一概念的理解并不是高爾頓的原意,但這一名詞卻一直沿用下來,成為統(tǒng)計(jì)學(xué)中最常用的概念之一.6英寸3英寸這意味著,若父親身高超過父親平均身高6英寸,那么其兒子的121在回歸分析中,當(dāng)變量只有兩個(gè)時(shí),稱為一元回歸分析;當(dāng)變量在兩個(gè)以上時(shí),稱為多元回歸分析.變量間成線性關(guān)系,稱線性回歸,變量間不具有線性關(guān)系,稱非線性回歸.一元回歸多元回歸線性非線性在這一講里,我們主要討論的是一元線性回歸.它是處理兩個(gè)變量之間關(guān)系的最簡(jiǎn)單的模型.它雖然比較簡(jiǎn)單,但我們從中可以了解到回歸分析的基本思想、方法和應(yīng)用.在回歸分析中,當(dāng)變量只有兩個(gè)時(shí),稱為一元122設(shè)隨機(jī)變量y與變量x之間存在著某種相關(guān)關(guān)系,其中x是能夠控制或可以精確測(cè)量的變量.年齡身高施肥量積雪深度x…y灌溉面積產(chǎn)量血壓體重…為了今后研究方便,我們把x當(dāng)作普通變量,而不把它看作隨機(jī)變量.設(shè)隨機(jī)變量y與變量x之間存在著某種相關(guān)關(guān)系,其123對(duì)于x的一組不完全相同的值x1,x2,…作獨(dú)立觀察,得到隨機(jī)變量y相應(yīng)的觀察值y12,…,構(gòu)成n對(duì)數(shù)據(jù).用這n對(duì)數(shù)據(jù)可作出一個(gè)散點(diǎn)圖,直觀地描述一下兩變量之間的關(guān)系.yxo············對(duì)于x的一組不完全相同的值x1,x2,…作獨(dú)立觀察,得到124這里有三幅散點(diǎn)圖.yxo··········(1)oyx············(2)yxo····················(3)這里有三幅散點(diǎn)圖.yxo··········(1)oyx··125根據(jù)散點(diǎn)圖,考慮以下幾個(gè)問題:(1)兩變量之間的關(guān)系是否密切,或者說我們能否由x來估計(jì)y.(2)兩變量之間的關(guān)系是呈一條直線還是呈某種曲線.(3)是否存在某個(gè)點(diǎn)偏離過大.(4)是否存在其它規(guī)律.根據(jù)散點(diǎn)圖,考慮以下幾個(gè)問題:(1)兩變量之間的關(guān)系是否126yxo··········(1)oyx············(2)yxo····················(3)考慮采用線性方程擬合采用非線性方程擬合yxo··········(1)oyx···········127一元線性回歸為了估計(jì)山上積雪融化后對(duì)下游灌溉的影響,在山上建立了一個(gè)觀測(cè)站,測(cè)量了最大積雪深度x與當(dāng)年灌溉面積y,得到連續(xù)10年的數(shù)據(jù)如下表:年序最大積雪深度x(米)灌溉面積y(公頃)15.1190723.5128737.1269346.2237358.8326067.8300074.5194785.6227398.03113106.42493一元線性回歸為了估計(jì)山上積雪融化后對(duì)下游灌溉的影128為了研究這些數(shù)據(jù)中所蘊(yùn)含的規(guī)律性,我們由10對(duì)數(shù)據(jù)作出散點(diǎn)圖.從圖看到,數(shù)據(jù)點(diǎn)大致落在一條直線附近,這告訴我們變量x和y之間大致可看作線性關(guān)系.yxo4000300020001000246810···········從圖中還看到,這些點(diǎn)又不完全在一條直線上,這表明x和y的關(guān)系并沒有確切到給定x就可以唯一確定y的程度.為了研究這些數(shù)據(jù)中所蘊(yùn)含的規(guī)律性,我們由10對(duì)129事實(shí)上,還有許多其它因素對(duì)y產(chǎn)生影響,如當(dāng)年的平均氣溫、當(dāng)年的降雨量等等,都是影響y取什么值的隨機(jī)因素.其中a和b是未知常數(shù),稱回歸系數(shù),ε表示其它隨機(jī)因素對(duì)灌溉面積的影響.σ2未知yε如果我們只研究x和y的關(guān)系,可以假定有如下結(jié)構(gòu)式:實(shí)際中常假定ε服從正態(tài)分布N(0,σ2),即事實(shí)上,還有許多其它因素對(duì)y產(chǎn)生影響,130
y=a+bx+ε,ε~N(0,)(1)為一元線性回歸模型.通常稱由(1)式,我們不難算得y的數(shù)學(xué)期望:E(y)該式表示當(dāng)x已知時(shí),可以精確地算出E(y).由于ε是不可控制的隨機(jī)因素,通常就用E(y)作為y的估計(jì),記作.這樣我們得到稱此方程為y關(guān)于x的回歸方程.(2)y=a+bx+ε,ε~N(0,)131現(xiàn)對(duì)模型(1)中的變量x,y進(jìn)行了n次獨(dú)立觀察,得樣本(x1,y1),…,(xn,yn)(3)據(jù)(1)式,此樣本的構(gòu)造可由方程
y=a+bx+ε,ε~N(0,)(1),i=1,2,…,n(4)這里是第i次觀察時(shí)隨機(jī)誤差所取的值,它是不能觀察的.來描述.現(xiàn)對(duì)模型(1)中的變量x,y進(jìn)行了n次獨(dú)立觀察1321,2,…(5)(4)式和(5)式結(jié)合,給出了樣本(x11),…,()的概率性質(zhì).它是對(duì)理論模型進(jìn)行統(tǒng)計(jì)分析推斷的依據(jù).也常稱(4)+(5)為一元線性回歸模型.由于各次觀察獨(dú)立,有,i=1,2,…,n(4)1,2,…(5)(4)式133由于此方程的建立有賴于通過觀察或試驗(yàn)積累的數(shù)據(jù),所以有時(shí)又稱其為經(jīng)驗(yàn)回歸方程或經(jīng)驗(yàn)公式.(6)
回歸分析的任務(wù)是利用n組獨(dú)立觀察數(shù)據(jù)(x1,y1),…,(xn,yn)來估計(jì)a和b,以估計(jì)值和分別代替(2)式中的a和b,得回歸方程那么要問,如何利用n組獨(dú)立觀察數(shù)據(jù)來估計(jì)a和b?由于此方程的建立有賴于通過觀察或試驗(yàn)積累的數(shù)據(jù),所以有時(shí)1341.用最小二乘法估計(jì)首先舉例說明最小二乘法的思想:假設(shè)為估計(jì)某物體的重量,對(duì)它進(jìn)行了n次稱量,因稱量有誤差,故n次稱量結(jié)果x1,x2,…,xn有差異,現(xiàn)在用數(shù)去估計(jì)物重,則它與上述n次稱量結(jié)果的偏差的平方和是:1.用最小二乘法估計(jì)首先舉例說明最小二乘法的思想:135于是就提出了下面的估計(jì)原則:用這種方法作出的估計(jì)叫最小二乘估計(jì).最小二乘法認(rèn)為,一個(gè)好的估計(jì),應(yīng)使這個(gè)平方和盡可能地小.尋找,使上述平方和達(dá)到最小,以這個(gè)作為物重的估計(jì)值,這就是最小二乘法.于是就提出了下面的估計(jì)原則:用這種方法作出的估計(jì)叫最小二乘估136現(xiàn)在的情況是,對(duì)(x,y)作了n次觀察或試驗(yàn),得到n對(duì)數(shù)據(jù),我們想找一條直線,盡可能好地?cái)M合這些數(shù)據(jù).
yx
由回歸方程,當(dāng)x取值xi時(shí),應(yīng)取值a+bxi,而實(shí)際觀察到的為yi,這樣就形成了偏差現(xiàn)在的情況是,對(duì)(x,y)作了n次觀察或試驗(yàn),得137依照最小二乘法的思想,提出目標(biāo)量Q(7)它是所有實(shí)測(cè)值yi與回歸值的偏差平方和.yx依照最小二乘法的思想,提出目標(biāo)量Q(7)它是所有實(shí)測(cè)值yi與138yx我們可設(shè)法求出a,b的估計(jì)值,,使偏差平方和Q達(dá)到最小.(7)yx我們可設(shè)法求出a,b的估計(jì)值,,使偏差平139(7)我們可設(shè)法求出a,b的估計(jì)值,,使偏差平方和Q達(dá)到最小.由此得到的回歸直線是在所有直線中偏差平方和Q最小的一條.yx(7)我們可設(shè)法求出a,b的估計(jì)值,,使偏差140通??刹捎梦⒎e分中求極值的辦法,求出使Q達(dá)到最小的,.(7)即解方程:得(8)其中通常可采用微積分中求極值的辦法,求出使Q達(dá)到最小141從而得到回歸方程按照上述準(zhǔn)則,我們可求出前面例子中灌溉面積y對(duì)最大積雪深度x的回歸方程是:可以看出,最大積雪深度每增加一個(gè)單位,灌溉面積平均增加364個(gè)單位.從而得到回歸方程按照上述準(zhǔn)則,我們可求出前面例子中灌溉面積y142可以證明,我們用最小二乘法求出的估計(jì)分別是a,b的無偏估計(jì),它們都是y1,y2,…,yn的線性函數(shù),而且在所有y1,y2,…,yn的線性函數(shù)中,最小二乘估計(jì)的方差最小.可以證明,我們用最小二乘法求出的估計(jì)分別是143
求出回歸方程,問題尚未結(jié)束,由于是從觀察得到的回歸方程,它會(huì)隨觀察結(jié)果的不同改變,并且它只反映了由x的變化引起的y的變化,而沒有包含誤差項(xiàng).(1)回歸方程是否有意義?即自變量x的變化是否真的對(duì)因變量y有影響?因此,有必要對(duì)回歸效果作出檢驗(yàn).因此在獲得這樣的回歸方程后,通常要問這樣的問題:求出回歸方程,問題尚未結(jié)束,144(2)如果方程真有意義,用它預(yù)測(cè)y時(shí),預(yù)測(cè)值與真值的偏差能否估計(jì)?(1)回歸方程是否有意義?即自變量x的變化是否真的對(duì)因變量y有影響?因此,有必要對(duì)回歸效果作出檢驗(yàn).2.回歸方程的顯著性檢驗(yàn)對(duì)任意兩個(gè)變量的一組觀察因此需要考察y與x間是否確有線性相關(guān)關(guān)系,這就是回歸效果的檢驗(yàn)問題.都可以用最小二乘法形式上求得y對(duì)x的回歸方程,如果y與x沒有線性相關(guān)關(guān)系,這種形式的回歸方程就沒有意義.(,),1,2,…,n(2)如果方程真有意義,用它預(yù)測(cè)y時(shí),預(yù)測(cè)值與真值的偏差能145我們注意到只反映了x對(duì)y的影響,所以回歸值就是yi中只受xi影響的那一部分,而
則是除去xi的影響后,受其它種種因素影響的部分,故將
稱為殘差.
我們注意到146于是觀測(cè)值yi可以分解為兩部分和,
并且也可分解為兩部分.因此,y1,y2,…,的總變差為:(9)于是觀測(cè)值yi可以分解為兩部分和147可以證明即可以分解為兩部分:回歸平方和與殘差平方和.(10)可以證明即可以分解為兩部分:回歸平方和148(10)反映了由于自變量x的變化引起的因變量y的差異,體現(xiàn)了x對(duì)y的影響;而反映了種種其它因素對(duì)y的影響,這些因素沒有反映在自變量中,它們可作為隨機(jī)因素看待.(10)反映了由于自變量x的變化引起149可見,/為x的影響部分與隨機(jī)因素影響部分的相對(duì)比值.它的作用和隨機(jī)因素的作用相當(dāng),于是由數(shù)據(jù)得到的回歸方程就沒有什么意義.若它不是顯著地大,表明我們所選的x,并不是一個(gè)重要的因素.可見,/為x的影響部分與隨機(jī)因素影響150可見,/為x的影響部分與隨機(jī)因素影響部分的相對(duì)比值.如果它顯著地大,表明x的作用是顯著地比隨機(jī)因素大,這樣,方程就有意義.通常我們可假設(shè)y和x沒有線性相關(guān)關(guān)系,對(duì)回歸方程是否有意義進(jìn)行顯著性檢驗(yàn).可見,/為x的影響部分與隨機(jī)因素影響151(11)
因此用來檢驗(yàn)b的絕對(duì)值是否顯著大于0(或者說檢驗(yàn)回歸方程是否有意義).可以證明:的關(guān)系式中b=0時(shí),有當(dāng)(1,2)(12)(11)因此用來檢驗(yàn)b的絕對(duì)值是否顯著大于0(或者說檢152給定顯著性水平,通過查F分布分位數(shù)表,求出否定域,便可判斷回歸方程是否有意義.拒絕域?yàn)椋?/p>
由上面的討論可知,要問回歸方程是否有意義,就是要檢驗(yàn)假設(shè)H0:0;H1:b≠0使用的檢驗(yàn)統(tǒng)計(jì)量為:~F(1,n-2)給定顯著性水平,通過查F分布分位數(shù)表,求出否定域,153我們可以用更簡(jiǎn)單的公式計(jì)算回歸平方和與殘差平方和:
(14)(13)我們可以用更簡(jiǎn)單的公式計(jì)算回歸平方和與殘差平方154現(xiàn)在對(duì)例中建立的回歸方程進(jìn)行檢驗(yàn),可計(jì)算得:=3393025-3318355=355.5對(duì)α=0.01,由F表查得
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年機(jī)械膜片式汽油泵項(xiàng)目投資價(jià)值分析報(bào)告
- 2025至2030年吊磅項(xiàng)目投資價(jià)值分析報(bào)告
- 2025至2030年中國(guó)塑料睫毛膏管數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 美容院預(yù)存活動(dòng)方案
- 工程建設(shè)勞務(wù)分包合同
- 房屋建筑面積測(cè)繪合同協(xié)議書
- 電子商務(wù)行業(yè)電商物流優(yōu)化方案
- 2025年度辦公室租賃及能源管理服務(wù)合同范本
- 科技企業(yè)孵化器入孵協(xié)議書范本
- 吊車機(jī)械設(shè)備租賃合同范本
- 2025版職業(yè)院校與企業(yè)合作育人合同3篇
- 自動(dòng)化設(shè)備項(xiàng)目評(píng)估報(bào)告模板范文
- DB32T 4969-2024大型醫(yī)用設(shè)備使用監(jiān)督管理平臺(tái)基礎(chǔ)數(shù)據(jù)采集規(guī)范
- 2025年廣東廣州市海珠區(qū)官洲街道辦事處政府雇員招聘5人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 《道路交通安全法》課件完整版
- (2024)甘肅省公務(wù)員考試《行測(cè)》真題及答案解析
- 人教版五年級(jí)數(shù)學(xué)上冊(cè)專項(xiàng)計(jì)算題12套(每日一練)
- 新課程關(guān)鍵詞
- 會(huì)議審批表模板
- 空調(diào)線路安裝施工方案與技術(shù)措施
- 建筑工程施工質(zhì)量驗(yàn)收規(guī)范檢驗(yàn)批填寫全套表格+示范填寫與說明
評(píng)論
0/150
提交評(píng)論