第4章-回歸與相關(guān)分析[114頁(yè)]課件_第1頁(yè)
第4章-回歸與相關(guān)分析[114頁(yè)]課件_第2頁(yè)
第4章-回歸與相關(guān)分析[114頁(yè)]課件_第3頁(yè)
第4章-回歸與相關(guān)分析[114頁(yè)]課件_第4頁(yè)
第4章-回歸與相關(guān)分析[114頁(yè)]課件_第5頁(yè)
已閱讀5頁(yè),還剩109頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第四章 回歸與相關(guān)分析 客觀事物在發(fā)展過(guò)程中是相互聯(lián)系、相互影響,常常要研究?jī)蓚€(gè)或兩個(gè)以上變量間的關(guān)系。 第一節(jié) 回歸與相關(guān)的概念一類是完全確定性的關(guān)系,又稱函數(shù)關(guān)系,可以用精確的數(shù)學(xué)表達(dá)式來(lái)表示,即當(dāng)變量x的值取定后,變量y有唯一確定的值與之對(duì)應(yīng)。 如長(zhǎng)方形的面積(S) 與 長(zhǎng)(a)和寬(b)的關(guān)系: S=ab。它們之間的關(guān)系是確定性的,只要知道了其中兩個(gè)變量的值就可以精確地計(jì)算出另一個(gè)變量的值,這類變量間的關(guān)系稱為函數(shù)關(guān)系。各種變量間的關(guān)系大致可分為兩類:確定性關(guān)系非確定性關(guān)系 如人的身高與體重的關(guān)系,作物種植密度與產(chǎn)量的關(guān)系,食品價(jià)格與需求量的關(guān)系等等,這些變量間都存在著十分密切的關(guān)系,

2、但不能由一個(gè)或幾個(gè)變量的值精確地求出另一個(gè)變量的值。統(tǒng)計(jì)學(xué)中把這些變量間的關(guān)系稱為相關(guān)關(guān)系,把存在相關(guān)關(guān)系的變量稱為相關(guān)變量。 另一類是 非確定性關(guān)系,不能用精確的數(shù)學(xué)公式來(lái)表示,當(dāng)變量x的值取定后,y有若干種可能取值。 在一定范圍內(nèi),對(duì)一個(gè)變量的任意數(shù)值(xi),雖然沒有另一個(gè)變量的確定數(shù)值yi與之對(duì)應(yīng),但是卻有一個(gè)特定yi的條件概率分布與之對(duì)應(yīng),這種變量的不確定關(guān)系,稱為相關(guān)關(guān)系。x=x1時(shí)y的分布x=x1時(shí)的E(y) 一種是因果關(guān)系,即一個(gè)變量的變化受另一個(gè)或幾個(gè)變量的影響。如食品干燥速率受原料含水率、干燥溫度、干燥方式等因素影響。子女的身高受父母身高的影響等; 另一種是平行關(guān)系,即兩個(gè)

3、以上變量之間共同受到另外因素的影響,如人的身高和體重之間的關(guān)系,兄弟身高之間的關(guān)系等都屬于平行關(guān)系。相關(guān)變量間的關(guān)系一般分為兩種: 研究“一因一果”,即一個(gè)自變量與一個(gè)依變量的回歸分析稱為一元回歸分析; 研究“多因一果”,即多個(gè)自變量與一個(gè)依變量的回歸分析稱為多元回歸分析。 一元回歸分析又分為直線回歸分析與曲線回歸分析兩種;多元回歸分析又分為多元線性回歸分析與多元非線性回歸分析兩種。 統(tǒng)計(jì)學(xué)上采用回歸分析 (regression analysis)方法研究呈因果關(guān)系的相關(guān)變量間的關(guān)系。表示原因的變量稱為自變量,表示結(jié)果的變量稱為依變量。一、回歸分析回歸分析的任務(wù)就是揭示出呈因果關(guān)系的相關(guān)變量間

4、的聯(lián)系形式,建立它們之間的回歸方程,利用所建立的回歸方程,由自變量(原因)來(lái)預(yù)測(cè)、控制依變量(結(jié)果)?;貧w分析主要包括:找出回歸方程;檢驗(yàn)回歸方程是否顯著;通過(guò)回歸方程來(lái)預(yù)測(cè)或控制另一變量。 對(duì)多個(gè)變量進(jìn)行相關(guān)分析時(shí),研究一個(gè)變量與多個(gè)變量間的線性相關(guān)稱為復(fù)相關(guān)分析;研究其余變量保持不變的情況下兩個(gè)變量間的線性相關(guān)稱為偏相關(guān)分析。統(tǒng)計(jì)學(xué)上采用相關(guān)分析 (correlation analysis)來(lái)研究呈平行關(guān)系相關(guān)變量之間的關(guān)系。 對(duì)兩個(gè)變量間的直線關(guān)系進(jìn)行相關(guān)分析稱為簡(jiǎn)單相關(guān)分析(也叫直線相關(guān)分析);二、相關(guān)分析圖4-1 變量間的關(guān)系示意圖三、回歸與相關(guān)的關(guān)系(一) 相關(guān)分析與回歸分析的聯(lián)系

5、 相關(guān)分析是回歸分析的基礎(chǔ)和前提,回歸分析則是相關(guān)分析的深入和繼續(xù)。相關(guān)分析需要依靠回歸分析來(lái)表現(xiàn)變量之間數(shù)量相關(guān)的具體形式,而回歸分析則需要依靠相關(guān)分析來(lái)表現(xiàn)變量之間數(shù)量變化的相關(guān)程度。只有當(dāng)變量之間存在高度相關(guān)時(shí),進(jìn)行回歸分析尋求其相關(guān)的具體形式才有意義。如果在沒有對(duì)變量之間是否相關(guān)以及相關(guān)方向和程度做出正確判斷之前,就進(jìn)行回歸分析,很容易造成“虛假回歸”。與此同時(shí),相關(guān)分析只研究變量之間相關(guān)的方向和程度,不能推斷變量之間相互關(guān)系的具體形式,也無(wú)法從一個(gè)變量的變化來(lái)推測(cè)另一個(gè)變量的變化情況,因此,在具體應(yīng)用過(guò)程中,只有把相關(guān)分析和回歸分析結(jié)合起來(lái)才能達(dá)到研究和分析的目的。2. 相關(guān)分析與回

6、歸分析的區(qū)別 (1) 相關(guān)分析中涉及的變量不存在自變量和因變量的劃分問題,變量之間的關(guān)系是對(duì)等的;而在回歸分析中,則必須根據(jù)研究對(duì)象的性質(zhì)和研究分析的目的,對(duì)變量進(jìn)行自變量和因變量的劃分。因此,在回歸分析中,變量之間的關(guān)系是不對(duì)等的。 (2) 在相關(guān)分析中所有的變量都必須是隨機(jī)變量;而在回歸分析中,自變量是確定的,因變量才是隨機(jī)的,即將自變量的給定值代入回歸方程后,所得到的因變量的估計(jì)值不是唯一確定的,而會(huì)表現(xiàn)出一定的隨機(jī)波動(dòng)性。 (3) 相關(guān)分析主要是通過(guò)一個(gè)指標(biāo)(統(tǒng)計(jì)量)即相關(guān)系數(shù)來(lái)反映變量之間相關(guān)程度的大小,由于變量之間是對(duì)等的,因此相關(guān)系數(shù)是唯一確定的。而在回歸分析中,對(duì)于互為因果的兩

7、個(gè)變量 (如人的身高與體重),則有可能存在多個(gè)回歸方程。需要指出的是,變量之間是否存在“真實(shí)相關(guān)”,是由變量之間的內(nèi)在聯(lián)系所決定的。相關(guān)分析和回歸分析只是定量分析的手段,通過(guò)相關(guān)分析和回歸分析,雖然可以從數(shù)量上反映變量之間的聯(lián)系形式及其密切程度,但是無(wú)法準(zhǔn)確判斷變量之間內(nèi)在聯(lián)系的存在與否,也無(wú)法判斷變量之間的因果關(guān)系。因此,在具體應(yīng)用過(guò)程中,一定要注意把定性分析和定量分析結(jié)合起來(lái),在定性分析的基礎(chǔ)上開展定量分析。表4-1為直線相關(guān)與直線回歸的比較。區(qū)別直線相關(guān)直線回歸變量地位變量x變量y處于平等的地位,彼此相關(guān)關(guān)系變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預(yù)測(cè)因變量的變化變量性質(zhì)所

8、涉及的變量x和y都是隨機(jī)變量,要求兩個(gè)變量都服從正態(tài)分布因變量y是隨機(jī)變量,自變量x可以是隨機(jī)變量,也可以是非隨機(jī)的確定變量實(shí)際作用主要是描述兩個(gè)變量之間線性關(guān)系的密切程度(相關(guān)系數(shù)無(wú)單位)揭示變量x對(duì)變量y的影響大?。ɑ貧w系數(shù)有單位),還可以由回歸方程進(jìn)行預(yù)測(cè)和控制表4-1 直線相關(guān)與直線回歸第二節(jié) 一元線性回歸 一、一元線性回歸數(shù)學(xué)模型 對(duì)于兩個(gè)相關(guān)變量,一個(gè)變量用x表示,另一個(gè)變量用y表示,如果通過(guò)試驗(yàn)或調(diào)查獲得兩個(gè)變量的n對(duì)觀測(cè)值:(x1,y1),(x2,y2),(xn,yn)。 (i=1,2, , n) 若呈因果關(guān)系的兩個(gè)相關(guān)變量y(依變量)與x(自變量)間的關(guān)系是直線關(guān)系,那么,由

9、于依變量y的實(shí)際觀測(cè)值總是帶有隨機(jī)誤差,因而依變量y的實(shí)際觀測(cè)值yi可用自變量x的實(shí)際觀測(cè)值xi表示為: 式中: 、 為未知參數(shù), i為相互獨(dú)立,且服從N(0, )的隨機(jī)變量。這就是一元線性回歸數(shù)學(xué)模型。 總體線性回歸模型的圖示YX觀察值觀察值總體線性回歸模型因變量自變量參數(shù)隨機(jī)誤差y條件平均數(shù)設(shè)回歸直線方程為:二、 參數(shù)、的估計(jì)其中, 是的估計(jì)值,b是的估計(jì)值。最小二乘估計(jì)法一元線性回歸分析就是根據(jù)樣本觀測(cè)數(shù)據(jù)資料對(duì)未知參數(shù)、進(jìn)行估計(jì)。,建立 樣本線性回歸方程的方法最小二乘法實(shí)際觀察值與樣本回歸線上的點(diǎn)的距離的平方和最小xy e1e2e3e4最小 、b應(yīng)使回歸估計(jì)值 與實(shí)際觀測(cè)值y的偏差平方

10、和最小,即:總的離回歸平方和,即剩余平方和 根據(jù)微積分學(xué)中的求極值的方法,令 Q對(duì)a、b的一階偏導(dǎo)數(shù)等于0,即:最小 經(jīng)整理,得關(guān)于a、b的正規(guī)方程組: 解正規(guī)方程組,得: 其中,分子為自變量x的離均差與依變量y的離均差的乘積和 ,簡(jiǎn)稱乘積和,記作 ,分母是自變量x的離均差平方和,記作SSx。 所以 a為回歸截距(regression intercept),是回歸直線與y軸交點(diǎn)的縱坐標(biāo),當(dāng)x=0時(shí), ; b為回歸系數(shù)(regression coefficient),表示x變化一個(gè)單位,y平均變化的數(shù)量;b的符號(hào)反映了x影響y的性質(zhì),b的絕對(duì)值大小反映了x 影響y的程度; 為回歸估計(jì)值,是當(dāng)x在

11、其研究范圍內(nèi)取某一個(gè)值時(shí),y值平均數(shù) 的估計(jì)值。 如果x和y變量間并不存在直線關(guān)系, 但由n對(duì)觀測(cè)值(xi,yi)也可以根據(jù)上面介紹的方法求得一個(gè)回歸方程 。 顯然,這樣的回歸方程所反應(yīng)的兩個(gè)變量間的直線關(guān)系是不真實(shí)的。 由樣本數(shù)據(jù)建立了變量y與x之間的回歸關(guān)系,但并不能說(shuō)明兩個(gè)變量關(guān)系密切。那么如何判斷所配置的回歸方程有意義的,需要進(jìn)行回歸方程的顯著性檢驗(yàn)。如果y與x之間沒有線性關(guān)系,那么回歸模型中的=0,所以回歸方程顯著性檢驗(yàn)就是檢驗(yàn)是否等于0 。要檢驗(yàn)假設(shè)H0:=0 是否成立,可采用F檢驗(yàn)法,也可采用t檢驗(yàn)法。 三、回歸方程的顯著性檢驗(yàn)圖4-2 的分解圖1. 平方和與自由度的分解y總變異

12、的分解 由于所以于是由圖4-2可以看出:則有所以有反映了y的總變異程度,稱為y的總偏差平方和,記為SSy;反映了由于y與x間存在直線關(guān)系所引起的y的變異程度,稱為回歸平方和,記為SSR; 反映了除y與x存在直線關(guān)系以外的一切因素(包括x對(duì)y的非線性影響及其他一切未加控制的隨機(jī)因素)所引起的y的變異程度,稱為離回歸平方和或剩余平方和,記為SSr或SSe。 所以,y的總變異平方和可分解為: 表明y的總平方和可剖分為 回歸平方和 與離回歸平方和兩部分。與此相對(duì)應(yīng),y的總自由度dfy也可分解為回歸自由度dfr與離回歸自由度dfr兩部分,即 在直線回歸分析中,回歸自由度等于自變量的個(gè)數(shù),即 ;y的總自由

13、度 ;離回歸自由度 。所以離回歸均方 回歸均方 x與y兩個(gè)變量間是否存在直線關(guān)系,可用F檢驗(yàn)法進(jìn)行檢驗(yàn)。 無(wú)效假設(shè)HO:=0,備擇假設(shè)HA:0。 在無(wú)效假設(shè)成立的條件下,回歸均方與離回歸均方的比值服從 和 的F分布,所以,可以用下式來(lái)檢驗(yàn)回歸方程的顯著性。2. 回歸方程的顯著性檢驗(yàn)F檢驗(yàn)df1=1,df2=n-2回歸平方和的計(jì)算:所以,離回歸平方和的計(jì)算公式為:回歸方程顯著性檢驗(yàn)結(jié)果見表4-2。表4-2 直線回歸方程顯著性檢驗(yàn)方差分析表對(duì)于給定的顯著水平,查F分布表得 ,如果 ,則F檢驗(yàn)不顯著,回歸方程沒有意義,變量x與y沒有明顯的線性關(guān)系。若 ,則F檢驗(yàn)顯著,說(shuō)明x與y有顯著的線性關(guān)系,所建

14、回歸方程有意義。 若回歸方程檢驗(yàn)不顯著時(shí)有以下幾種可能:影響y的因素除x外,可能還有其他不可忽略的因素;x與y之間不是直線關(guān)系,有可能是曲線關(guān)系;x與y根本無(wú)任何關(guān)系。 應(yīng)該指出,上述用剩余平方和去檢驗(yàn)回歸平方和所作出的“回歸方程顯著”這一判斷,只是表明相對(duì)其他因素及試驗(yàn)誤差來(lái)說(shuō),因素x的一次項(xiàng)對(duì)指標(biāo)y的影響是主要的,但并不能說(shuō)明影響y的因素除x外,是否還有一個(gè)或幾個(gè)不可忽視的其他因素,以及x和y的關(guān)系確是線性關(guān)系,也就是說(shuō),在上述意義下“回歸方程顯著”并不表明這個(gè)回歸方程是擬合得很好。3. 回歸系數(shù)的顯著性檢驗(yàn)t檢驗(yàn)采用回歸系數(shù)的顯著性檢驗(yàn)t檢驗(yàn)也可檢驗(yàn)x與y間是否存在直線關(guān)系?;貧w系數(shù)顯著

15、性檢驗(yàn)時(shí),原假設(shè) 備擇假設(shè) 。 在原假設(shè) 成立的條件下,t的計(jì)算公式為 其中,Sb為回歸系數(shù)標(biāo)準(zhǔn)誤,Syx反映回歸估測(cè)值 與實(shí)測(cè)值y的偏離程度。t與臨界值ta(n-2)比較,以判斷顯著性。例4-1 某食品干制加工試驗(yàn)中,10批物料平均含水率x/%與干燥初速度y/(kg/h)的測(cè)定結(jié)果見表4-3,試建立干燥初速度y對(duì)平均含水率x的回歸關(guān)系。四、一元線性回歸分析實(shí)例表4-3 物料平均含水率與干燥初速度的試驗(yàn)結(jié)果 平均含水率x/%3.604.054.274.584.604.855.235.405.585.90干燥初速度y/ (kg/h)5.255.435.646.155.856.136.386.60

16、6.716.891. 作散點(diǎn)圖 以物料平均含水率x為橫坐標(biāo),干燥速度y為縱坐標(biāo)作散點(diǎn)圖,如圖4-3所示。可以看出,物料平均含水率x與干燥初速度y之間存在直線關(guān)系,所以有必要建立其線性回歸關(guān)系。 圖4-3 物料平均含水率x與干燥初速度y的關(guān)系散點(diǎn)圖2. 計(jì)算回歸截距a,回歸系數(shù)b,建立直線回歸方程根據(jù)實(shí)際觀測(cè)值計(jì)算:所以,y對(duì)x的直線回歸方程為:然后計(jì)算出b、a:3. 回歸方程的顯著性檢驗(yàn)F檢驗(yàn)由SSx、SPxy、SSy,計(jì)算回歸平方和SSR和剩余平方和SSrdfy=n-1=10-1=9,dfR=1,dfr=10-2=8構(gòu)造F統(tǒng)計(jì)量,計(jì)算F統(tǒng)計(jì)量值 列方差分析表進(jìn)行回歸關(guān)系顯著性檢驗(yàn)變異來(lái)源自由

17、度平方和均方F顯著性回歸12.6932.693269.3*剩余80.0800.010總和92.773表4-4 方差分析表查F表可得 ,因?yàn)?表明y與x之間具有高度顯著線性關(guān)系,回歸直線方程有效。物料干燥初速度y與平均含水率x之間的關(guān)系可以用 來(lái)描述。 4. 回歸系數(shù)的顯著性檢驗(yàn)t檢驗(yàn)由資料計(jì)算得構(gòu)造t統(tǒng)計(jì)量,計(jì)算 當(dāng) ,查t值表,得 因 ,P0.01 , 否定HO:0,接受HA:0,表明直線回歸系數(shù)b=0.754是極顯著的,回歸直線方程有意義,可用所建立的直線回歸方程來(lái)進(jìn)行 預(yù)測(cè)和控制。 最后需要指出的是,一元線性回歸分析中,回歸方程的顯著性檢驗(yàn)(F檢驗(yàn))和回歸系數(shù)的顯著性檢驗(yàn)(t檢驗(yàn))效果一

18、致,在實(shí)際應(yīng)用時(shí)選擇一種即可。但多元回歸分析中,應(yīng)分別進(jìn)行回歸方程的顯著性檢驗(yàn)和回歸系數(shù)的顯著性檢驗(yàn)。以上計(jì)算也可在回歸計(jì)算表中進(jìn)行。序號(hào)kxkykxk2xkykyk213.60 5.25 12.96 18.90 27.56 24.05 5.43 16.40 21.99 29.48 34.27 5.64 18.23 24.08 31.81 44.58 6.15 20.98 28.17 37.82 54.60 5.85 21.16 26.91 34.22 64.85 6.13 23.52 29.73 37.58 75.23 6.38 27.35 33.37 40.70 85.40 6.60 29

19、.16 35.64 43.56 95.58 6.71 31.14 37.44 45.02 105.90 6.89 34.81 40.65 47.47 48.0661.03235.7136296.882375.2395回歸方程計(jì)算表1(一級(jí)數(shù)據(jù))xk=48.06yk=61.03n=10 =4.806=6.103xk2=235.714xk yk=296.882yk2=375.240(xk)2/n=230.976(xk)(yk)/n=293.310(yk)2/n=372.466SSx=4.738SPxy=3.572SSy=2.774b= SPxy/SSx0.754 a=y-bx6.103-0.754

20、4.806=2.479 y=2.479+0.754x回歸方程計(jì)算表2(二級(jí)數(shù)據(jù)) 特別要指出的是:利用直線回歸方程進(jìn)行預(yù)測(cè)或控制時(shí),一般只適用于原來(lái)研究的范圍,不能隨意把范圍擴(kuò)大,因?yàn)樵谘芯康姆秶鷥?nèi)兩變量是直線關(guān)系,這并不能保證在這研究范圍之外仍然是直線關(guān)系。若需要擴(kuò)大預(yù)測(cè)和控制范圍,則要有充分的理論依據(jù)或進(jìn)一步的實(shí)驗(yàn)依據(jù)。利用直線回歸方程進(jìn)行預(yù)測(cè)或控制 , 一 般只能內(nèi)插,不要輕易外延。Excel數(shù)據(jù)分析庫(kù)-回歸分析Excel回歸分析結(jié)果復(fù)相關(guān)系數(shù)R決定系數(shù)R2校正決定系數(shù)回歸方程顯著性檢驗(yàn)回歸系數(shù)顯著項(xiàng)檢驗(yàn)y=13.958+1.255x,方程顯著。五、可直線化的曲線回歸 曲線回歸分析:是通

21、過(guò)兩個(gè)相關(guān)變量x與y的實(shí)際觀測(cè)數(shù)據(jù)建立曲線回歸方程,以揭示x與y間的曲線聯(lián)系的形式。 曲線回歸分析最困難和首要的工作是確定變量y與x間的曲線關(guān)系的類型。通常通過(guò)兩個(gè)途徑來(lái)確定: 1、利用有關(guān)的專業(yè)知識(shí),根據(jù)已知的理論規(guī)律和實(shí)踐經(jīng)驗(yàn)。 2、在沒有已知的理論規(guī)律和經(jīng)驗(yàn)可資利用時(shí),則可用描點(diǎn)法將實(shí)測(cè)點(diǎn)在直角坐標(biāo)紙上描出,觀察實(shí)測(cè)點(diǎn)的分布趨勢(shì)與哪一類已知的函數(shù)曲線最接近,然后再選用該函數(shù)關(guān)系式來(lái)擬合實(shí)測(cè)點(diǎn)??删€性化的曲線函數(shù)類型(1) 雙曲線型方法:變量替換(2) 指數(shù)曲線型令v=lny,得到:指數(shù)曲線型令y=lny,x1/x,得到:(3) 冪函數(shù)型v=lny,u=lnx,得到:4. 對(duì)數(shù)曲線型令u=

22、lgx,得到:(5) S曲線型令:得到:Excel繪制散點(diǎn)圖根據(jù)散點(diǎn)圖選擇合適的模型!Excel非線性回歸分析結(jié)果第三節(jié) 直線相關(guān)分析 在前面討論的事例中,x和y有自變量和因變量之分,或具有由x決定y的性質(zhì)。但是也有不少的變數(shù)資料,其散點(diǎn)圖呈現(xiàn)明顯的線性關(guān)系,卻并不能區(qū)別出自變量和因變量。例如大豆蛋白質(zhì)含量與脂肪含量的測(cè)定結(jié)果呈負(fù)相關(guān),但既不能認(rèn)為蛋白質(zhì)含量決定脂肪含量,又不能認(rèn)為脂肪含量決定蛋白質(zhì)含量。在這種情況下,求取回歸方程并不是恰當(dāng)?shù)?,而需確定一個(gè)不因自變量和因變量區(qū)分而變化的統(tǒng)計(jì)量即相關(guān)系數(shù)(coefficient of correlation)。 直線相關(guān)分析的基本任務(wù)在于根據(jù)x、

23、y的實(shí)際觀測(cè)值,計(jì)算表示兩個(gè)相關(guān)變量x、y間線性相關(guān)程度和性質(zhì)的統(tǒng)計(jì)量相關(guān)系數(shù)r,并進(jìn)行顯著性檢驗(yàn)。一、決定系數(shù)和相關(guān)系數(shù) 直線回歸分析中: 由這個(gè)等式不難看出,y與x直線回歸效果的好壞取決于回歸平方和 與離回歸平方和 的大小,或者說(shuō)取決于回歸平方和在y的總平方和 中所占的比例的大小。這個(gè)比例越大,y與x的直線回歸效果就越好,反之則差。 我們把比值 叫 做 x 對(duì) y 的決定系數(shù)( determination coefficient ),記為 r2,即 決定系數(shù)的大小表示了回歸方程估測(cè)可靠程度的高低,或者說(shuō)表示了回歸直線擬合度的高低,或者表示x對(duì)y的變異影響大小。顯然有0r21。如r20.81

24、,表明SSR占SSy的81,也就是說(shuō),x決定了y變異的81,決定作用強(qiáng)。 SPxy/SSx是以x為自變量、y為依變量時(shí)的回歸系數(shù)byx。 若把y作為自變量、x作為依變量 ,則回歸系數(shù) bxy =SPxy/SSy ,所以決定系數(shù)r2等于y對(duì)x的回歸系數(shù)與 x對(duì)y的回歸系數(shù)的乘積。這就是說(shuō),決定系數(shù)反應(yīng)了x為自變量、y為依變量和y為自變量、x為依變量時(shí)兩個(gè)相關(guān)變量x與y直線相關(guān)的信息 ,即決定系數(shù)表示了 兩個(gè)互為因果關(guān)系的相關(guān)變量間直線相關(guān)的程度。但決定系數(shù)介于0和1之間,不能反應(yīng)直線關(guān)系的性質(zhì)是同向增減或是異向增減。 相關(guān)系數(shù)可表示y與x的直線相關(guān)的密切程度,也可表示直線相關(guān)的性質(zhì),記為r,即r

25、 = 0(h)r 0(f)r-1(d)r1(b)0r1(a)-1r0時(shí),表示兩個(gè)變量正相關(guān);(2) r 0時(shí),表示兩個(gè)變量為負(fù)相關(guān);(3)當(dāng)| r |=1時(shí),表示兩個(gè)變量為完全線性相關(guān);(4)當(dāng)r =0時(shí),表示兩個(gè)變量間無(wú)線性相關(guān)關(guān)系;(5)當(dāng)0| r |1時(shí),表示兩個(gè)變量存在一定程度的線性相關(guān),且| r |越接近1,兩個(gè)變量間線性關(guān)系越密切;(6)|r|越接近于0,表示兩個(gè)變量的線性相關(guān)程度越弱。二、相關(guān)系數(shù)的計(jì)算例4-2 操作壓力與水果出汁率的關(guān)系測(cè)定結(jié)果見表4-5,計(jì)算二者的相關(guān)系數(shù)。批次12345678910操作壓力/kg68707071717173747676水果出汁率/%50606

26、865697271737577表4-5 操作壓力與水果出汁率的數(shù)據(jù)資料x偏差平方和y偏差平方和x、y離差積和根據(jù)表4-5所列數(shù)據(jù)計(jì)算:操作壓力與果實(shí)出汁率的相關(guān)系數(shù)為0.8475。所以, 由實(shí)際觀測(cè)值計(jì)算的相關(guān)系數(shù)r是樣本相關(guān)系數(shù), 它是雙變量正態(tài)總體中的總體相關(guān)系數(shù)的估計(jì)值。樣本相關(guān)系數(shù)r是否來(lái)自0的總體,也需對(duì)樣本相關(guān)系數(shù)r 進(jìn)行顯著性檢驗(yàn)。 此時(shí)無(wú) 效假設(shè)、備擇假設(shè)為H0:=0,HA:0。與直線回歸關(guān)系顯著性檢驗(yàn)一樣,可采用t檢驗(yàn)法與F檢驗(yàn)法對(duì)相關(guān)系數(shù)r的顯著性進(jìn)行檢驗(yàn)。 三、相關(guān)系數(shù)的顯著性檢驗(yàn) 其中 為相關(guān)系數(shù)標(biāo)準(zhǔn)誤。df1=1,df2=n-2df=n-2t檢驗(yàn):F檢驗(yàn): 為了方便應(yīng)

27、用,統(tǒng)計(jì)學(xué)家已根據(jù)相關(guān)系數(shù)r顯著性t檢驗(yàn)法計(jì)算出了臨界r值并列出了表格。 所以可以直接采用查表法對(duì)相關(guān)系數(shù)r進(jìn)行顯著性檢驗(yàn)。 具體作法是: 先根據(jù) 自由度 n-2 查臨界 r 值 (附表9 ),得 , 。 若|r| ,P0.05,則相關(guān)系數(shù)r不顯著,在r的右上方標(biāo)記“ns”;若 |r| ,0.01P0.05,則相關(guān)系數(shù) r 顯著,在r的右上方標(biāo)記“*”;若|r| , P 0.01, 則相關(guān) 系 數(shù) r 極顯著,在 r 的右上方標(biāo)記“*”。 而實(shí)際計(jì)算的r = 0.8475 ,P0.01,表明操作壓力與果實(shí)出汁率的相關(guān)系數(shù)極顯著,兩個(gè)變量高度相關(guān)。 對(duì)于【例4-2】,df =n-2=10-2=8

28、,查附表9得: 直線回歸和相關(guān)分析由于方法簡(jiǎn)單、結(jié)果直觀,在科學(xué)研究中得到了廣泛的應(yīng)用,是普及和應(yīng)用最廣的統(tǒng)計(jì)方法之一。但雖然簡(jiǎn)單,實(shí)踐中也出現(xiàn)了不少的誤用,或者對(duì)結(jié)果的不恰當(dāng)?shù)慕忉屌c推斷。為了正確應(yīng)用這一工具,必須注意以下幾點(diǎn): 第四節(jié) 應(yīng)用直線回歸與相關(guān)的注意事項(xiàng)(1)回歸和相關(guān)分析要有學(xué)科專業(yè)知識(shí)作指導(dǎo)。變量間是否存在相關(guān)以及在什么條件下會(huì)發(fā)生什么相關(guān)等問題,都必須由各具體學(xué)科本身來(lái)決定??陀^規(guī)律要由各具體學(xué)科根據(jù)自己的理論和實(shí)踐去發(fā)現(xiàn),回歸和相關(guān)分析只是作為一種工具,幫助完成有關(guān)的認(rèn)識(shí)和解釋。如果不以一定的科學(xué)依據(jù)為前提,把風(fēng)馬牛不相及的資料隨意地湊到一起作回歸或相關(guān)分析,那是根本性的

29、錯(cuò)誤。 (2)要嚴(yán)格控制研究對(duì)象(x和y)以外的有關(guān)因素,即要在x和y的變化過(guò)程中盡量使其它因素保持穩(wěn)定一致。由于自然界各種事物間的相互聯(lián)系和相互制約,一事物的變化通常都會(huì)受到許多其他事物的影響。因此,如果僅研究該事物(y)和另一事物(x)的關(guān)系,則要求其余事物的均勻性必須得到盡可能嚴(yán)格的控制。否則,回歸和相關(guān)分析有可能導(dǎo)致完全虛假的結(jié)果。例如研究種植密度和產(chǎn)量的關(guān)系,由于品種、播期、肥水條件等的不同也影響產(chǎn)量,所以這些條件必須盡可能地控制一致,才能比較真實(shí)地反映出密度和產(chǎn)量的關(guān)系。 (3)直線回歸和相關(guān)分析結(jié)果不顯著,并不意味著x和y沒有關(guān)系,而只說(shuō)明x和y沒有顯著的線性關(guān)系,但并不能排除兩

30、變量間存在曲線關(guān)系的可能性。(4)一個(gè)顯著的r或b并不代表x和y的關(guān)系就一定是線性的,因?yàn)樗⒉慌懦饽軌蚋玫孛枋鰔和y的各種曲線的存在。一般地說(shuō),如x和y的真實(shí)關(guān)系是拋物線、雙曲線或指數(shù)曲線等,當(dāng)僅僅觀察(x,y)的某一區(qū)間時(shí),完全有可能給出一個(gè)極顯著的線性關(guān)系。對(duì)這一問題的正確認(rèn)識(shí)更有賴于專業(yè)知識(shí)的支持。(5)雖然顯著的線性相關(guān)和回歸并不意味著x和y的真實(shí)關(guān)系就是線性,但在農(nóng)學(xué)和生物學(xué)研究中要發(fā)現(xiàn)x和y的真實(shí)曲線關(guān)系又是相當(dāng)困難的。因此,在x和y的一定區(qū)間內(nèi),用線性關(guān)系作近似描述是允許的,它的精確度至少要比僅用描述y變量有顯著提高。但是,研究結(jié)果的適用范圍應(yīng)加以限制,一般應(yīng)以觀察區(qū)間為準(zhǔn)。

31、外推到這一區(qū)間之外是危險(xiǎn)的,因?yàn)樵搮^(qū)間外的x和y的關(guān)系是否仍為線性,試驗(yàn)未給出任何信息。(6)一個(gè)顯著的相關(guān)或回歸并不一定具有實(shí)踐上的預(yù)測(cè)意義。例如當(dāng)n50時(shí),|r|=0.273檢驗(yàn)顯著,但這表明x和y可用線性關(guān)系說(shuō)明的部分僅占總變異的7.4%,未被說(shuō)明的部分高達(dá)92.6%,顯然由x預(yù)測(cè)y并不可靠。一般而言,當(dāng)需要由x預(yù)測(cè)y時(shí),|r|必須在0.7以上,此時(shí)y的變異將有49%以上可以為x的變異說(shuō)明。(7)為了提高回歸和相關(guān)分析的準(zhǔn)確性,兩個(gè)變量的樣本容量n(觀察值對(duì)數(shù))要盡可能大一些,至少應(yīng)有5對(duì)以上。同時(shí),x變量的取值范圍也應(yīng)盡可能寬些,這樣一方面可降低回歸方程的誤差,另一方面也能及時(shí)發(fā)現(xiàn)x和

32、y間可能存在的曲線關(guān)系。第五節(jié) 多元線性回歸分析(選學(xué)內(nèi)容)一元線性回歸是對(duì)客觀現(xiàn)象進(jìn)行高度簡(jiǎn)化的結(jié)果。在實(shí)際問題中,一個(gè)變量往往受許多因素(或變量)的影響,要研究它們之間的關(guān)系就是多元回歸問題(multiple regression)。而其中最為簡(jiǎn)單、常用的是多元線性回歸分析(multiple linear regression analysis),許多非線性回歸(non-linear regression)和多項(xiàng)式回歸(polynomial regression)都可以轉(zhuǎn)化為多元線性回歸來(lái)解決,多元線性回歸分析有著廣泛的應(yīng)用。 多元線性回歸分析的基本任務(wù):根據(jù)依變量與多個(gè)自變量的實(shí)際觀測(cè)值

33、建立依變量對(duì)多個(gè)自變量的多元線性回歸方程;檢驗(yàn)、分析各個(gè)自變量對(duì)依自變量的綜合線性影響的顯著性;檢驗(yàn)、分析各個(gè)自變量對(duì)依變量的單純線性影響的顯著性,選擇僅對(duì)依變量有顯著線性影響的自變量,建立最優(yōu)多元線性回歸方程;評(píng)定各個(gè)自變量對(duì)依變量影響的相對(duì)重要性以及測(cè)定最優(yōu)多元線性回歸方程的偏離度等。 設(shè)因變量 y 與 m 個(gè)自變量 x1, x2, , xm 共有 n 組實(shí)際觀測(cè)數(shù)據(jù),數(shù)據(jù)模式見表4-6。 表4-6 因變量y與m個(gè)自變量x1、x2、xm對(duì)應(yīng)的n組觀測(cè)數(shù)據(jù) 一、多元線性回歸方程的建立試驗(yàn)號(hào) 假定依變量y與自變量x1、x2、xm間存在線性關(guān)系,那么式中,x1、x2、xm為可以觀測(cè)的一般變量(可

34、以觀測(cè)的隨機(jī)變量);y為可以觀測(cè)的隨機(jī)變量,隨x1、x2、xm而變,受試驗(yàn)誤差影響; 為相互獨(dú)立且都服從 的隨機(jī)變量。上式就是多元線性回歸的數(shù)學(xué)模型。若假設(shè)y對(duì)x1、x2、xm的m元線性回歸方程為: 式中 b0、b1、b2、bm為 的最小二乘估計(jì)值。即要求b0、b1、b2、bm應(yīng)使實(shí)際觀測(cè)值y與回歸估計(jì)值 的偏差平方和最小。即 最小。是關(guān)于b0、b1、b2、bm的m+1元非負(fù)二次函數(shù),存在最小值。根據(jù)微分學(xué)中復(fù)合函數(shù)求極值的方法,要使Q最小,則應(yīng)使即 稱為正規(guī)方程組, 對(duì)正規(guī)方程組求解,獲得b0, ,bj. 經(jīng)整理可得到關(guān)于偏回歸系數(shù)b1、b2、bm的正規(guī)方程組(normal equation

35、s)為:若記解此正規(guī)方程組即可得偏回歸系數(shù)b1、b2、bm的解。 附:可直接由原始觀測(cè)值的結(jié)構(gòu)矩陣出發(fā)來(lái)解正規(guī)方程組正規(guī)方程組如果令A(yù)為正規(guī)方程組的系數(shù)矩陣,即 :(m+1) (m+1)方陣 (m+1) nn (m+1)為X的轉(zhuǎn)置陣(p+1) NN 1令B為正規(guī)方程組右端的常數(shù)項(xiàng)矩陣,即:令 則正規(guī)方程組對(duì)上式求解,得: 可以寫成矩陣形式:例欲建立的二元線性回歸方程為: 試建立x1 、 x2與y之間的二元線性回歸方程。 表6-2 試驗(yàn)數(shù)據(jù)序號(hào)x1x2y116291392163215031432133412391425182614361437160716311478143816191440169

36、101628134常數(shù)項(xiàng)矩陣y 矩陣結(jié)構(gòu)矩陣結(jié)構(gòu)矩陣y 矩陣常數(shù)項(xiàng)矩陣對(duì) 求解得:A-1 是方程系數(shù)矩陣的逆矩陣, 稱相關(guān)矩陣。自變量x1、x2與因變量y之間的二元線性回歸方程為 二、 多元線性回歸方程的顯著性檢驗(yàn) 與一元線性回歸分析一樣,將因變量y的總平方和SSy分解為回歸平方和SSR與剩余平方和SSr兩部分 (一) 回歸方程的顯著性檢驗(yàn) 建立了多元線性回歸方程后,還必須對(duì)因變量與多個(gè)自變量間的線性關(guān)系假設(shè)進(jìn)行顯著性檢驗(yàn),也就是進(jìn)行多元線性回歸關(guān)系的顯著性檢驗(yàn),采用F檢驗(yàn)法。1. 平方和與自由度的分解SSy = SSr + SSR反映了因變量y的總變異。 反映了由于依變量y與多個(gè)自變量x1、

37、x2、xm間存在線性關(guān)系所引起的變異,或者反映了多個(gè)自變量對(duì)依變量的綜合線性影響所引起的變異。 反映了除依變量與多個(gè)自變量間線性關(guān)系以外的其他因素(包括試驗(yàn)誤差)所引起的變異。 平方和的計(jì)算自由度的分解2. 計(jì)算回歸均方與離回歸均方總自由度: dfy = n 1 回歸自由度: df回 = m 剩余自由度: df剩 = dfy - df回 = n 1 mm為回歸方程中自變量的個(gè)數(shù),n為實(shí)際觀測(cè)數(shù)據(jù)的組數(shù)。3. 構(gòu)造F統(tǒng)計(jì)量,進(jìn)行顯著性檢驗(yàn)檢驗(yàn)多元線性回歸關(guān)系是否顯著,實(shí)質(zhì)也就是檢驗(yàn)各自變量的總體偏回歸系數(shù) 是否全部等于零。所以顯著性檢驗(yàn)的無(wú)效假設(shè)為 ,備擇假設(shè) 不全為零。在H0成立條件下,有服從F分布,且df1=dfR,df2=dfr 由F統(tǒng)計(jì)量進(jìn)行F檢驗(yàn)即可推斷多元線性回歸關(guān)系的顯著性。 這里特別要說(shuō)明的是,上述顯著性檢驗(yàn)實(shí)質(zhì)上是測(cè)定各自變量對(duì)因變量的綜合線性影響的顯著性,或者是測(cè)定因變量與各自變量的綜合線性關(guān)系的顯著性。如果經(jīng)過(guò)F檢驗(yàn),多元線性回歸關(guān)系或多元線性回歸方程是顯著的,但并不一定說(shuō)明每一個(gè)自變量與依變量的線性關(guān)系都是顯著的,或者說(shuō)每一個(gè)偏回歸系數(shù)不一定都是顯著的。在上述多元線性回歸關(guān)系顯著性檢驗(yàn)中,無(wú)法區(qū)別全部自變量中,哪些是對(duì)依變量的線性影響是顯著的,哪些是不顯著的。因此,當(dāng)多元線性回歸關(guān)系經(jīng)檢驗(yàn)為顯著時(shí),還必須逐一對(duì)各偏回歸系數(shù)進(jìn)行顯著性

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論