![第四章 相關分析和._第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-5/28/192bd74e-e41c-4437-96db-a152760c77e6/192bd74e-e41c-4437-96db-a152760c77e61.gif)
![第四章 相關分析和._第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-5/28/192bd74e-e41c-4437-96db-a152760c77e6/192bd74e-e41c-4437-96db-a152760c77e62.gif)
![第四章 相關分析和._第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-5/28/192bd74e-e41c-4437-96db-a152760c77e6/192bd74e-e41c-4437-96db-a152760c77e63.gif)
![第四章 相關分析和._第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-5/28/192bd74e-e41c-4437-96db-a152760c77e6/192bd74e-e41c-4437-96db-a152760c77e64.gif)
![第四章 相關分析和._第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-5/28/192bd74e-e41c-4437-96db-a152760c77e6/192bd74e-e41c-4437-96db-a152760c77e65.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第四章第四章 相關分析和回歸分析相關分析和回歸分析相關分析和回歸分析相關分析和回歸分析第一節(jié)第一節(jié) 地理要素間的地理要素間的相關分析相關分析第二節(jié)第二節(jié) 地理要素間的地理要素間的回歸分析回歸分析一一 相關關系與函數關系相關關系與函數關系二二 地理要素的相關類型地理要素的相關類型三三 相關程度的程度方法及顯相關程度的程度方法及顯著性檢驗著性檢驗 第一節(jié)第一節(jié) 地理要素間的地理要素間的相關分析相關分析一一 相關關系與函數關系相關關系與函數關系 1.確定性的函數關系確定性的函數關系 。 2.不確定性的統計關系不確定性的統計關系相關關系相關關系3. 相關關系與函數關系的共同點,區(qū)別與聯系相關關系與函數
2、關系的共同點,區(qū)別與聯系(1) 共同點:都是反映現象變量之間存在的相互依存關系。共同點:都是反映現象變量之間存在的相互依存關系。 (2) 區(qū)別:相關關系是一種不嚴格的依存關系,函數關系區(qū)別:相關關系是一種不嚴格的依存關系,函數關系是嚴格確定的依存關系。是嚴格確定的依存關系。 (3) 聯系:由于觀察值和測量誤差的存在,函數關系在現聯系:由于觀察值和測量誤差的存在,函數關系在現實生活中往往通過相關關系表現出來;而相關關系又往往要實生活中往往通過相關關系表現出來;而相關關系又往往要使用函數關系的形式來模擬描述使用函數關系的形式來模擬描述。()Yf X()Yf Xn為了研究父親與成年兒為了研究父親與成
3、年兒子身高之間的關系,卡子身高之間的關系,卡爾爾.皮爾遜測量了皮爾遜測量了1078對對父子的身高。把父子的身高。把1078對對數字表示在坐標上,如數字表示在坐標上,如圖。圖。n它的形狀象一塊橄欖狀它的形狀象一塊橄欖狀的云,中間的點密集,的云,中間的點密集,邊沿的點稀少,其主要邊沿的點稀少,其主要部分是一個橢圓。部分是一個橢圓。正相關 負相關 完全正相關 完全負相關 零相關 二二 地理要素間的相關類型地理要素間的相關類型曲線相關(非線性相關)曲線相關(非線性相關)按變量按變量 數量數量兩個變量兩個變量兩個以上兩個以上 變量變量直線相關(線性相關)直線相關(線性相關)復相關復相關偏相關偏相關按質量
4、按質量等級相關(順序相關)等級相關(順序相關)品質相關品質相關 三三 相關程度的度量及顯著性檢驗相關程度的度量及顯著性檢驗由于地理相關類型各不相同,因此測度的方法也不同。由于地理相關類型各不相同,因此測度的方法也不同。(一)線性相關程度的測度(一)線性相關程度的測度所謂所謂相關程度相關程度,就是研究它們之間的相互關系是否密切。,就是研究它們之間的相互關系是否密切。所謂所謂相關方向相關方向,又可以分兩種,即正相關和負相關。,又可以分兩種,即正相關和負相關。n正相關正相關變量同方向變化,同增同減變量同方向變化,同增同減n負相關負相關變量反方向變化,一增一減變量反方向變化,一增一減n 不相關不相關用
5、來測度直線相關程度和方向的指標就是相關系數。用來測度直線相關程度和方向的指標就是相關系數。 當兩個變量之間為直線相關時當兩個變量之間為直線相關時,可以利用皮爾遜相關系數可以利用皮爾遜相關系數表示變量之間的相關關系及程度表示變量之間的相關關系及程度 設設 表示變量表示變量 , 的取值的取值, 為兩為兩個變量的算術平均數個變量的算術平均數, , 為這兩個變量的標準差為這兩個變量的標準差, 為自為自變量數列與因變量數列的協方差,變量數列與因變量數列的協方差, 為相關系數,則直線相關為相關系數,則直線相關系數定義為:系數定義為:),2 , 1)(,(niyxiiXYyx,x2yxyxyxr2y1. 簡
6、單相關系數公式及檢驗簡單相關系數公式及檢驗 r(1) 簡單相關系數公式簡單相關系數公式22)(1)(xxnnxxx)(12yyxxnxy22)(1)(yynnyyy22)()()(yyxxyyxxr222222)2()(xxxxxxxxxxnyyyy222)(nyxxyyyxx)( )(2222)(22nxnxnxxxnxxxnxx22)(nxxxx222)()(22)()()(yyxxyyxxrnyynxxyxnxyr22221(2)相關系數的性質)相關系數的性質相關系數的分布范圍,介于相關系數的分布范圍,介于-1-1和和+1+1之間之間當相關系數為正值時,表示兩個要素(或變數)之間呈正相當
7、相關系數為正值時,表示兩個要素(或變數)之間呈正相關,相關系數為負值時,表示兩個要素(或變數)之間為負相關;關,相關系數為負值時,表示兩個要素(或變數)之間為負相關;相關系數的絕對值越大。表示兩個要素間相關程度越密切。相關系數的絕對值越大。表示兩個要素間相關程度越密切。當r=+1時,為完全正相關。R=-1時,為完全負相關;r=0則完全無直線相關,可能存在其他形式的相關關系。 (3)相關程度的判斷)相關程度的判斷當當 時,時,X與與Y高度相關高度相關當當 時,時,X與與Y顯著相關顯著相關當當 時,時,X與與Y低度相關低度相關當當 時,時,X與與Y微相關或不相關微相關或不相關0 . 18 . 0r
8、8 . 05 . 0r5 . 03 . 0r3 . 00 . 0r 例 某企業(yè)生產某種產品的月產量和生產費用的統計資料如表,試判斷月產量與生產費用之間存在怎樣相關關系,相關程度為多少。 序號 月產量 生產費用 序號 月產量 生產費用 1 2 3 4 1.2 2.0 3.1 3.8 62 86 80 110 5 6 7 8 5.0 6.1 7.2 8.0 115 132 135 160 表 月產量和生產費用的統計資料(4)簡單相關系數的應用)簡單相關系數的應用序號 iX iY 2iX 2iY iiYX 1 2 3 4 5 6 7 8 1.2 2.0 3.1 3.8 5.0 6.1 7.2 8.0
9、 62 86 80 110 115 132 135 160 1.44 4.00 9.61 14.44 25.00 37.21 51.84 64.00 3844 7396 6400 12100 13225 17424 18225 25600 74.4 172.0 248.0 418.0 575.0 805.2 972.0 1280.0 合計 36.4 880 207.54 104214 4544.6 相關系數數據計算表 nyynxxyxnxyr22221)8880104214)(84 .3654.207()880)(4 .36(816 .45442297. 0741492.416 .540表明X
10、與Y之間存在線性相關關系,且是高度相關。 和和 都是相互對稱的隨機變量都是相互對稱的隨機變量 線性線性相關系數只反映變量間的線性相關程度,不相關系數只反映變量間的線性相關程度,不 能說明非線性相關關系能說明非線性相關關系 樣本相關系數是總體相關系數的樣本估計值,由樣本相關系數是總體相關系數的樣本估計值,由 于抽樣波動,樣本相關系數是個隨機變量,其統于抽樣波動,樣本相關系數是個隨機變量,其統 計顯著性有待檢驗計顯著性有待檢驗 相關系數只能反映線性相關程度,不能確定因果相關系數只能反映線性相關程度,不能確定因果關系,不能說明相關關系具體接近哪條直線關系,不能說明相關關系具體接近哪條直線 使用簡單相
11、關系數時的注意事項使用簡單相關系數時的注意事項XY 相關系數是根據要素之間的樣本值計算出來相關系數是根據要素之間的樣本值計算出來的,它隨著樣本數的多少或取樣方式的不同而不的,它隨著樣本數的多少或取樣方式的不同而不同,因此它只是要素之間的樣本相關系數,只有同,因此它只是要素之間的樣本相關系數,只有通過檢驗,才能知道它的可信度。通過檢驗,才能知道它的可信度。 (5)相關系數的顯著性檢驗)相關系數的顯著性檢驗 一般情況下,相關系數的檢驗,是在給定的一般情況下,相關系數的檢驗,是在給定的置信水平下,通過查相關系數檢驗的臨界值表來置信水平下,通過查相關系數檢驗的臨界值表來完成的。完成的。檢驗相關系數檢驗
12、相關系數=0的臨界值(的臨界值(ra)表表prra=f f值稱為自由度,值稱為自由度,其數值為其數值為f=n-2f=n-2,這里這里n n為樣本數為樣本數a a代表不同的代表不同的顯著性水平顯著性水平表內的數值表內的數值代表不同的代表不同的置信水平下置信水平下相關系數相關系數=0=0的臨界的臨界值,值,即即ra公式公式p=p=r rrara=a=a的意的意思是當所計算的相關系數思是當所計算的相關系數r r的的絕對值大于在絕對值大于在a a水平下的臨界水平下的臨界值值rara時,兩要素不相關(即時,兩要素不相關(即=0)=0)的可能性只有的可能性只有a a。相關系數相關系數r的具體檢驗方法步驟如
13、下:的具體檢驗方法步驟如下:(1)計算相關系數)計算相關系數r(2)給定顯著水平)給定顯著水平,按按n-2查相關系數臨界值,查相關系數臨界值,查出相應的臨界值查出相應的臨界值(3)比較)比較r的絕對值與臨界值的大小。當的絕對值與臨界值的大小。當r的絕的絕對值大于或等于臨界值時,說明兩變量在對值大于或等于臨界值時,說明兩變量在水平水平上達到顯著性;若小于臨界值,則說明兩變量沒上達到顯著性;若小于臨界值,則說明兩變量沒有達到所要求的精度。有達到所要求的精度。如果仍需研究二者的關系如果仍需研究二者的關系,可考慮降低精度,即修改顯著性水平,可考慮降低精度,即修改顯著性水平、相關系數的顯著性檢驗步驟相關
14、系數的顯著性檢驗步驟2、等級相關系數的計算公式及檢驗、等級相關系數的計算公式及檢驗表示兩個變量順序間直線相關程度和方向表示兩個變量順序間直線相關程度和方向的系數,稱為等級(或順序)相關系數。等級的系數,稱為等級(或順序)相關系數。等級相關系數不僅適用于數量指標的相關分析,同相關系數不僅適用于數量指標的相關分析,同時亦適用于質量指標的相關分析。時亦適用于質量指標的相關分析。等級相關系數,又稱順序相關系數是將兩等級相關系數,又稱順序相關系數是將兩要素的樣本值按數值的大小順序排列位次,以要素的樣本值按數值的大小順序排列位次,以各要素樣本值的位次代替實際數據而求得的一各要素樣本值的位次代替實際數據而求
15、得的一種統計量。實際上,它是位次分析方法的數量種統計量。實際上,它是位次分析方法的數量化?;?。(1)等級相關系數的計算公式)等級相關系數的計算公式) 1(*61212nndRniid(2)等級相關系數的計算及檢驗)等級相關系數的計算及檢驗1985年全國各?。ㄊ校瑓^(qū)年全國各?。ㄊ校瑓^(qū))總人口與社會總產值總人口與社會總產值即:總人口(即:總人口(x)x)與社會總產值(與社會總產值(y)y)的等級相關系的等級相關系數為數為0.7260.726等級相關系數檢驗的臨界值等級相關系數檢驗的臨界值在上例中,在上例中,n=29n=29,表中沒有給出相應的樣本數,表中沒有給出相應的樣本數下的臨界值下的臨界值ra
16、ra,但我們發(fā)現,在同一顯著水平,但我們發(fā)現,在同一顯著水平下,隨著樣本數的增大,臨界值下,隨著樣本數的增大,臨界值rara減少。在減少。在n = 2 8n = 2 8 時 , 查 表 可 知 :時 , 查 表 可 知 : r 0 . 0 5 = 0 . 3 1 7r 0 . 0 5 = 0 . 3 1 7 ,r0.01=0.448r0.01=0.448,由于,由于rxy=0.726rxy=0.726r0.01=0.448r0.01=0.448,故故rxyrxy在在a=0.01a=0.01的置信水平上是顯著的。的置信水平上是顯著的。等級相關系數檢驗結果等級相關系數檢驗結果(二)(二)多要素間相
17、關程度的測定多要素間相關程度的測定1.偏相關系數的計算與檢驗偏相關系數的計算與檢驗 在多要素所構成的地理系統中,當我們研究在多要素所構成的地理系統中,當我們研究某一個要素對另一個要素的影響或相關程度時,某一個要素對另一個要素的影響或相關程度時,把其它要素的影響視為常數(保持不變把其它要素的影響視為常數(保持不變),即,即暫不考慮其它要素的影響,而單獨研究那兩個暫不考慮其它要素的影響,而單獨研究那兩個要素之間的相互關系的密切程度時,則稱為偏要素之間的相互關系的密切程度時,則稱為偏相關。用以度量偏相關程度的統計量,稱為偏相關。用以度量偏相關程度的統計量,稱為偏相關系數。相關系數。624C當研究當研
18、究2 2個相關變量個相關變量x1x1、x2x2的關系時的關系時,用直線相關,用直線相關系數系數r12r12表示表示x1x1與與x2x2線性相關的性質與程度。此時固定的線性相關的性質與程度。此時固定的變量個數為變量個數為0 0,所以直線相關系數,所以直線相關系數r12r12又叫做零級偏相關系又叫做零級偏相關系數。數。當研究當研究3 3個相關變量個相關變量x1x1、x2x2、x3x3的相關時的相關時,我們把我們把x3x3保持固定不變,保持固定不變,x1x1與與x2x2的相關系數稱為的相關系數稱為x1x1與與x2x2的偏相關的偏相關系數,記為系數,記為r12.3r12.3,類似地,還有偏相關系數,類
19、似地,還有偏相關系數r13.2r13.2、 r23.1r23.1。這。這3 3個偏相關系數固定的變量個數為個偏相關系數固定的變量個數為1 1,所以都叫,所以都叫做一級偏相關系數。做一級偏相關系數。當研究當研究4 4個相關變量個相關變量x1x1、x2x2、x3x3、x4x4的相關時的相關時,須將其中的須將其中的2 2個變量固定不變,研究另外兩個變量間的相個變量固定不變,研究另外兩個變量間的相關。即此時只有二級偏相關系數才真實地反映兩個相關變關。即此時只有二級偏相關系數才真實地反映兩個相關變量間線性相關的性質與程度。二級偏相關系數共有量間線性相關的性質與程度。二級偏相關系數共有6 6個:個:r12
20、.34r12.34,r13.24r13.24,r14.23r14.23,r23.14r23.14,r24.13r24.13,r34.12r34.12。624C2/ ) 1(2mmCm一般,當研究一般,當研究m個相關變量個相關變量x1、x2、xm的的相關時,只有將其中的相關時,只有將其中的m-2個變量保持固定不變,個變量保持固定不變,研究另外兩個變量的相關才能真實地反映這兩個研究另外兩個變量的相關才能真實地反映這兩個相關變量間的相關,即此時只有相關變量間的相關,即此時只有m-2級偏相關系數級偏相關系數才真實地反映了這兩個相關變量間線性相關的性才真實地反映了這兩個相關變量間線性相關的性質與程度。質
21、與程度。m-2級偏相關系數共有級偏相關系數共有個。個。xi與與xj的的m-2級偏相關系數記為級偏相關系數記為rij.(i,j=1,2,m,ij)。偏相關系數,可利用單相關系數來計算。偏相關系數,可利用單相關系數來計算。假設有三個要素假設有三個要素x1,x2,x3,其兩兩間單,其兩兩間單相關系數矩陣為相關系數矩陣為對于上述三個要素對于上述三個要素x1,x2,x3,它們之間的偏,它們之間的偏相關系數共有三個,即相關系數共有三個,即r123,r132,r231(下(下標點后面的數字,代表在計算偏相關系數時,保標點后面的數字,代表在計算偏相關系數時,保持不變量,如持不變量,如r123即表示即表示x3保
22、持不變保持不變),其計算,其計算公式分別如下:公式分別如下:式(式(5)(7)表示三個偏表示三個偏相關系數,相關系數,稱為一級偏稱為一級偏相關系數。相關系數。若有四個要素若有四個要素X1,X2,X3,X4,則有六個偏相,則有六個偏相關系數,即關系數,即r1234,r1324,r1423,r2314,r2412,r3412,它們稱為二級偏相關系數,其,它們稱為二級偏相關系數,其計算公式分別如下:計算公式分別如下:在式(在式(8)8)中,中,r1234r1234表示在表示在x3x3和和x4x4保持不變保持不變的條件,的條件,x1x1和和x2x2的偏相的偏相關系數。關系數。為了計算二級偏相關系數,需
23、要先計算一級偏相為了計算二級偏相關系數,需要先計算一級偏相關系數,由(關系數,由(5)式可求得式可求得 同理,依次可以計算出其它各一級偏相關系數,同理,依次可以計算出其它各一級偏相關系數,見下表見下表 在一級偏相關系數求出以后,便可代入公式計算二級偏相關系數,如由(8)式計算可得同理,依次可計算出其它各二級偏相關系數,見同理,依次可計算出其它各二級偏相關系數,見下表下表 偏相關系數具有下述性質:偏相關系數具有下述性質:(1)偏相關系數分布的范圍在偏相關系數分布的范圍在-1到到1之間;之間;(2) 偏相關系數的絕對值越大,表示其偏相關程偏相關系數的絕對值越大,表示其偏相關程度越大;度越大;(3)
24、偏相關系數的絕對值必小于或最多等于由同)偏相關系數的絕對值必小于或最多等于由同一系列資料所求得的復相關系數,即一系列資料所求得的復相關系數,即 R123|r123|。偏相關系數的顯著性檢驗偏相關系數的顯著性檢驗偏相關系數的顯著性檢驗,一般采用偏相關系數的顯著性檢驗,一般采用t檢驗法。檢驗法。其統計量計算公式為其統計量計算公式為在(在(15)15)式中,式中,r1234mr1234m為偏相關系數,為偏相關系數,n n為為樣本數,樣本數,m m為自變量個數。為自變量個數。對于前述計算得到的偏相關系數對于前述計算得到的偏相關系數r2413=0.821,由于由于n=23,m=3,故,故查查t分布表,可
25、得出不同顯著水平上的臨界值分布表,可得出不同顯著水平上的臨界值ta,若若t ta ,則表示偏相關顯著;反之,則表示偏相關顯著;反之,tta,則,則偏相關不顯著。在自由度為偏相關不顯著。在自由度為23-3-1=19時,查表得時,查表得t0.001=3.883,所以,所以tta,這表明在顯著性水平,這表明在顯著性水平a=0.001上,偏相關系數上,偏相關系數r2413是顯著的。是顯著的。年份年份GDPGDP(億元)(億元)人口(萬人)人口(萬人)199019901511.191511.1984248424199119911810.541810.5485348534199219922196.5321
26、96.5385808580199319932770.372770.3786208620199419943844.53844.586538653199519954953.354953.3587018701199619965883.85883.887478747199719976537.076537.0788108810199819987021.357021.3588728872199919997493.847493.8489228922200020008337.478337.4789758975200120019195.049195.04902490242002200210275.510275.
27、5906990692003200312078.1512078.15910891082004200415021.8415021.84916391632005200518516.8718516.87921292122006200622077.3622077.3692829282Correlations1.943*.998*.000.000171717.943*1.940*.000.000171717.998*.940*1.000.000.171717Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPears
28、on CorrelationSig. (2-tailed)NVAR00001VAR00002VAR00003VAR00001VAR00002VAR00003Correlation is significant at the 0.01 level (2-tailed).*. 1.計算簡單相關系數計算簡單相關系數n- - - P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S - - Controlling for. 時間時間n GDP 人口人口nGDP 1.0000 -.0690n人口人口 -.0690 1.0000 2.計算偏
29、相關系數計算偏相關系數 如果令時間如果令時間 T不變不變 ,計算人口與計算人口與 GDP的偏相關系數為的偏相關系數為 =- 0. 0690 ,且且 t = -0.259 0. 8 =。由此可以看出。由此可以看出 ,如果如果去掉時間的因素去掉時間的因素 ,人口與人口與 GDP之間的偏相關系數很小之間的偏相關系數很小 ,即即如果固定時間不變如果固定時間不變 ,人口與人口與 GDP 之間的關系是微弱的之間的關系是微弱的 ,且且經檢驗人口與經檢驗人口與 GDP之間沒有什么內在的必然的線性聯系。之間沒有什么內在的必然的線性聯系。人口越多未必人口越多未必 GDP越高越高 ,這是比較合乎實際的。這是比較合乎
30、實際的。2.復相關系數的計算與檢驗復相關系數的計算與檢驗 復相關系數:反映幾個要素與某一個要復相關系數:反映幾個要素與某一個要素之間的復相關程度素之間的復相關程度 。n復相關系數的計算復相關系數的計算 當有兩個自變量時當有兩個自變量時 當有三個自變量時當有三個自變量時)1)(1 (11 . 221212.yyyrrR)1)(1)(1 (112. 321 . 2212123.yyyyrrrR當有當有k個自變量時個自變量時)1 )1)(1 (1) 1.(12.21 . 2212.12. kykyykyrrrR復相關系數的性質復相關系數的性質 復相關系數介于復相關系數介于0到到1之間,即之間,即10
31、12.kyR 復相關系數越大,則表明要素(變量)之間的相復相關系數越大,則表明要素(變量)之間的相關程度越密切。復相關系數為關程度越密切。復相關系數為1,表示完全相關;,表示完全相關;復相關系數為復相關系數為0,表示完全無關。,表示完全無關。 復相關系數必大于或至少等于單相關系數的絕對復相關系數必大于或至少等于單相關系數的絕對值。值。n復相關系數的顯著性檢驗復相關系數的顯著性檢驗 F檢驗法。其統計量計算公式為檢驗法。其統計量計算公式為kknRRFkyky11212.212.例題:在上例中,若以例題:在上例中,若以x4為因變量,為因變量,x1,x2,x3為自為自變量,試計算變量,試計算x4與與x
32、1,x2,x3之間的復相關系數。之間的復相關系數。 解:按照公式計算解:按照公式計算 檢驗:檢驗: ,故復相關達到了,故復相關達到了極顯著水平。極顯著水平。974. 0337. 01)(956. 01)(579. 01 (1)1)(1)(1 (1222212.4321 .42241123. 4)rrrR3010. 57190.12001. 0FF一一 回歸分析的意義與研究內容回歸分析的意義與研究內容二二 一元回歸分析一元回歸分析三三 多元回歸分析多元回歸分析四四 非線性回歸模型非線性回歸模型第二節(jié)第二節(jié) 地理要素間的地理要素間的回歸分析回歸分析1 1、 回歸分析意義回歸分析意義回歸的古典意義回
33、歸的古典意義: 高爾頓遺傳學的回歸概念高爾頓遺傳學的回歸概念 ( 父母身高與子女身高的關系父母身高與子女身高的關系)回歸的現代意義回歸的現代意義: 一個因變量對若干自變量一個因變量對若干自變量 依存關系依存關系 的研究的研究回歸的目的(實質)回歸的目的(實質): 由固定的自變量去由固定的自變量去 估計因變量的平均值估計因變量的平均值一一 回歸分析的意義與研究內容回歸分析的意義與研究內容2、回歸分析的概念、回歸分析的概念 就是對具有相互聯系的要素,根據其就是對具有相互聯系的要素,根據其聯系的形態(tài),選擇一個合適的數學模式,聯系的形態(tài),選擇一個合適的數學模式,用來近似地表達要素間平均變化關系的用來近
34、似地表達要素間平均變化關系的數理統計方法。這個數學模式稱為回歸數理統計方法。這個數學模式稱為回歸模型(回歸方程)模型(回歸方程) 3、回歸分析的目的、回歸分析的目的10 用樣本回歸函數去估計總體回歸函數。用樣本回歸函數去估計總體回歸函數。 由于樣本對總體總是存在代表性誤差,樣本回歸函由于樣本對總體總是存在代表性誤差,樣本回歸函數總會過數總會過 高或過低估計總體回歸函數。高或過低估計總體回歸函數。要解決的問題:要解決的問題:尋求一種規(guī)則和方法,使得到的樣本回歸函數的參尋求一種規(guī)則和方法,使得到的樣本回歸函數的參數數 和和 盡可能盡可能“接近接近”總體回歸函數中的參數總體回歸函數中的參數 和和 。
35、這樣的這樣的“規(guī)則和方法規(guī)則和方法”有多種,最常用的是最小二有多種,最常用的是最小二乘法乘法10iY 樣本 總體 A iY()iiE Y XiYYiXX4、回歸分析研究的主要內容回歸分析研究的主要內容 從一組地理數據出發(fā),確定這些要素(變量)從一組地理數據出發(fā),確定這些要素(變量)間的定量數學表達式,即回歸模型。間的定量數學表達式,即回歸模型。 根據一個或幾個要素(自變量)的值來預測根據一個或幾個要素(自變量)的值來預測或控制另一個要素(因變量)的取值?;蚩刂屏硪粋€要素(因變量)的取值。 從影響某一地理過程中的許多要素中,找出從影響某一地理過程中的許多要素中,找出哪些要素(變量)是主要的,哪些
36、因素是次要的,哪些要素(變量)是主要的,哪些因素是次要的,這些要素之間又有什么聯系。這些要素之間又有什么聯系。 回歸分析研究的地理數學模型,依要素(變量)的回歸分析研究的地理數學模型,依要素(變量)的多少可分為一元地理回歸模型和多元地理回歸模型。多少可分為一元地理回歸模型和多元地理回歸模型。5、回歸分析與相關分析回歸分析與相關分析 相關分析所研究的變量是對等關系;回歸分析所相關分析所研究的變量是對等關系;回歸分析所研究的兩個變量不是對等關系。研究的兩個變量不是對等關系。 對兩個變量來說,相關分析只能計算出一個相關對兩個變量來說,相關分析只能計算出一個相關系數,而回歸分析,可分別建立兩個不同的回
37、歸方程。系數,而回歸分析,可分別建立兩個不同的回歸方程。 相關分析要求兩個變量都必須是隨機的,而回歸相關分析要求兩個變量都必須是隨機的,而回歸分析的要求,自變量是給定的,因變量是隨機的。分析的要求,自變量是給定的,因變量是隨機的。計量地理學關心:變量間的因果關系及隱藏在計量地理學關心:變量間的因果關系及隱藏在隨機性后面的統計規(guī)律性,這有賴于回歸分析隨機性后面的統計規(guī)律性,這有賴于回歸分析方法方法二、二、 一元回歸分析一元回歸分析(一)一元線性回歸及其基本思想(一)一元線性回歸及其基本思想 1. 一元線性回歸的最小二乘法一元線性回歸的最小二乘法某城市各年居民生活費收入與消費支出額的數據表序號生活
38、費收入消費支出額序號生活費收入消費支出額12345250290360420450170250290310330678910490570650750820370400500550640根據表中的資料,確定生活費收入與消費支出之間存在的關系。 用X表示生活費收入,Y表示消費支出,把表中數據的關系用坐標系中的相關點表示, XY10)(iiYY iX 從圖中我們看到,相關點的分布呈現出線性的形態(tài),這說明,生活費收入與消費支出之間不僅存在著相關關系相關關系,而且它們之間具有線性關系線性關系。因此我們就希望通過這些相關點確定出一條直線,利用這條直線表示它們的線性關系。 設這條直線的方程為XY10 對于這些
39、相關點,可以做出多條直線表示變量之間的關系,我們希望在這些直線中找出最有“代表性”的直線。尋找最有“代表性”直線的常用方法是“最小二乘法”。稱為回歸系數稱為回歸方程,1010,XY)(n3 , 2 , 1ieYii10iX或 最小二乘法的基本思想是最小二乘法的基本思想是:最有 “代表性” 的直線應該是直線到各點的距離最近。等價的提法是:各點到直線的縱向距離最近。 對于變量X 的每一個值,相關點到直線的縱向距離是離差 ,為避免出現負號可用 表示。對于多個點,點到直線的距離用 表示。即利用離差的平方和表示多個點到直線的距離。 根據最小二乘法的原理,最佳的直線是“的實際值與估計值 之間的離差平方和為
40、最小” iXiYiiYY2)(iiYY2)(iiYYiYiYYniiiXYSSE121010)(),(最小即使得niiiYYSSE12)(SSE 稱為誤差平方和,將 代入上式得到 iiXY10達到最小的條件是:根據極值理論SSE,0)(0)(10SSESSE,02)(100XYSSE02)(101XXYSSE22110)(11XnXYXnXYXY0021010XXXYXnYXYXXYXn21010解方程組得2.一元回歸方程參數的求解公式一元回歸方程參數的求解公式22110)(11XnXYXnXYXY22110)(1111XnXYXnXYXnYn( (手算)手算)3 3、具體計算方法、具體計算方
41、法(1 1)將原始數據根據需要列表)將原始數據根據需要列表(2 2)根據公式計算)根據公式計算(3 3)計算)計算(4 4)寫出回歸模型)寫出回歸模型(5 5)一般情況下還要求出相關系數)一般情況下還要求出相關系數01序號 iX iY 2iX 2iY iiYX 1 2 3 4 5 6 7 8 9 10 250 290 360 420 450 490 570 650 750 820 170 250 290 310 330 370 400 500 550 640 62500 84100 129600 176400 202500 240100 324900 422500 562500 672400
42、28900 62500 84100 96100 108900 136900 160000 250000 302500 409600 42500 72500 104400 130200 148500 181300 228000 325000 412500 524800 合計 5050 3810 2877500 1639500 2169700 回歸方程數據表回歸方程數據表50501niiX38101niiY287750012niiX163950012niiY21697001niiiYX21)5050(1012877503810505010121697003272502456507506.0974.
43、 150501017506. 038101010X7506.0974.1XY10得回歸方程為:iX(二)一元線性回歸模型應用條件(二)一元線性回歸模型應用條件 自變量X與因變量Y,X與Y之間的線性相關關系用函數關系表達式一般可以表示為 XY10德國數學家高斯提出了如下理論假設. 1. 零均值假設。又稱為無偏性假設,在給定 的條件下, 的條件數學期望等于0.即 2 同方差假設。又稱為等方差性假設。即對所有的 , 的條件方差都相等,且為常數。即 i0)(iEi)(iDiX 3. 無自相關假設。又稱為獨立性假設。它假設隨機誤差項的逐次觀察值互不相關,即4. 與X不相關假設?;貧w模型中的隨機誤差項 與
44、自變量 各自獨立影響因變量Yi。即 5. 正態(tài)性假設。假設隨機誤差項 服從均值為零,方差為 的正態(tài)分布。即: 0),(jiCOVi0),(jixCOV2iX), 0(2Ni 1、 線性關系檢驗線性關系檢驗 線性關系檢驗:是指檢驗自變量與因變量之間關系能否用一個線性模型來表示。 擬合優(yōu)度檢驗擬合優(yōu)度檢驗判定系數法判定系數法 擬合優(yōu)度檢驗就是檢驗回歸模型擬和實際數據的擬和程度。 一元分析中Y值的變化可以看成是由兩個原因兩個原因的變化引起的,一個是由于自變量自變量X變動引起的,二是由于其它因素其它因素變動引起的,如圖。(三)回歸模型的檢驗(三)回歸模型的檢驗擬合優(yōu)度擬合優(yōu)度? ? 概念概念:樣本回歸
45、線是對樣本數據樣本回歸線是對樣本數據的一種擬合,不同估計方的一種擬合,不同估計方法可擬合出不同的回歸線,法可擬合出不同的回歸線,擬合的回歸線與樣本觀測擬合的回歸線與樣本觀測值總有偏離。值總有偏離。 樣本回歸線對樣本觀測數據擬合的優(yōu)劣程度樣本回歸線對樣本觀測數據擬合的優(yōu)劣程度 擬合優(yōu)度擬合優(yōu)度擬合優(yōu)度的度量建立在對總變差分解的基礎上擬合優(yōu)度的度量建立在對總變差分解的基礎上XY總變差的分解總變差的分解 分析分析Y Y 的觀測值、估計值與平均值的關系的觀測值、估計值與平均值的關系將上式兩邊平方加總,可證得將上式兩邊平方加總,可證得 (TSSTSS) (ESSESS) (RSSRSS) )()(iii
46、iYYYYYY222)()()(iiiiYYYYYY 總變差總變差 (TSSTSS):因變量):因變量Y Y的觀測值與其平均值的觀測值與其平均值的離差平方和(總平方和)的離差平方和(總平方和) 解釋了的變差解釋了的變差 (ESSESS):因變量):因變量Y Y的估計值與其的估計值與其平均值的離差平方和(回歸平方和)平均值的離差平方和(回歸平方和) 剩余平方和剩余平方和 (RSSRSS):因變量觀測值與估計值之):因變量觀測值與估計值之差的平方和(未解釋的平方和)差的平方和(未解釋的平方和)2iy2iy2ieiY 總變差i(Y -Y)i(Y -Y )來自回歸ie來自殘差iXY變差分解的圖示變差分
47、解的圖示YX可決系數可決系數 以TSS同除總變差等式兩邊: 或 定義:定義:回歸平方和(解釋了的變差回歸平方和(解釋了的變差ESS) 在總變在總變 差(差(TSS) 中所占的比重稱為可決系數,用中所占的比重稱為可決系數,用 表示表示: 或 222iyyrTSSRSSTSSESSTSSTSS2iy2r2iy2221iiyer22221iiiyeyy 簡捷計算公式: YnYYnXYY22102r222)()(rYYYY或 222)()(1rYYYYR作用:作用:可決系數越大,說明在總變差中由模型作出了可決系數越大,說明在總變差中由模型作出了解釋的部分占的比重越大,模型擬合優(yōu)度越好。反解釋的部分占的
48、比重越大,模型擬合優(yōu)度越好。反之可決系數小,說明模型對樣本觀測值的擬合程度之可決系數小,說明模型對樣本觀測值的擬合程度越差。越差。特點:特點:可決系數取值范圍:可決系數取值范圍: 隨抽樣波動,樣本可決系數隨抽樣波動,樣本可決系數 是隨抽樣是隨抽樣 而變動的隨機變量而變動的隨機變量 可決系數是非負的統計可決系數是非負的統計可決系數的作用和特點可決系數的作用和特點102 r2r可決系數與相關系數的關系可決系數與相關系數的關系a聯系聯系 數值上,可決系數等于因變量與自變量之間簡單相數值上,可決系數等于因變量與自變量之間簡單相關系數的平方關系數的平方:222222222222222()()()()ii
49、iiiiiiiiiiiyxx yxRyyxyx yrxy可決系數與相關系數的關系可決系數與相關系數的關系可決系數可決系數相關系數相關系數就模型而言就模型而言就兩個變量而言就兩個變量而言說明解釋變量對應變量的說明解釋變量對應變量的解釋程度解釋程度度量兩個變量線性依存程度量兩個變量線性依存程度。度。度量不對稱的因果關系度量不對稱的因果關系度量不含因果關系的對稱度量不含因果關系的對稱相關關系相關關系取值:取值:0,1取值:取值:1,1b區(qū)別區(qū)別 在上例 中50501niiX38101niiY287750012niiX974. 1021697001niiiYXYnYYnXYYR221027506. 0
50、1222) 1 .38(101639500) 1 .38(1021697007506. 03810974. 1R1 .1451616395001 .1451682.162857694.75209 .162498366.1621581997906. 02R2、 回歸系數檢驗回歸系數檢驗 回歸系數檢驗主要是對 檢驗 10:10H(1) 假設(2) 計算檢驗統計量其中 是 的標準差,111St 2)(1XXSy2)(2nYYyn為樣本中數據的個數1給定顯著性水平 ,查 自由度為n-2的 t 分布表得臨界值(3)根據統計知識可知 服從自由度為n-2的 分布)2(2nt(4) 用樣本計算 t 的值 若:
51、 則拒絕 ,認為X,Y之間有線性關系 若: 則接受 ,認為X,Y之間無線性關系)(2tt )(2tt 0H0H1tt)2(1ntt即0:1OH55.20)2(111St231. 255.201tt31. 22t現對上例中的模型進行t檢驗(1) 假設 (3) 給定顯著性水平=0.05,查自由度為8的 t 分布臨界值表,得(4) 因為則方程的 t 檢驗通過,說明X與Y之間是線性關系的假設成立.基本思想基本思想在多元回歸中有多個解釋變量,需要說明所有解在多元回歸中有多個解釋變量,需要說明所有解釋變量聯合起來對應變量影響的總顯著性或整個釋變量聯合起來對應變量影響的總顯著性或整個方程總的聯合顯著性。對方
52、程總顯著性檢驗需要方程總的聯合顯著性。對方程總顯著性檢驗需要在方差分析的基礎上進行在方差分析的基礎上進行F檢驗。檢驗。3、回歸方程的顯著性檢。、回歸方程的顯著性檢。 總變差 自由度 模型解釋了的變差 自由度 剩余變差 自由度變差來源變差來源 平方和平方和 自由度自由度 方差方差歸于回歸模型歸于回歸模型歸于剩余歸于剩余總變差總變差方差分析表方差分析表22TSS( - )iiY Yy2ESS(- )iY Y2RSS( - )iiY Y2ESS( - )iY Y1n-2TSS( - )iY Y2RSS( - )iiY YTSS/ -1nESS/ -1kRSS/ n-k1n-檢驗的步驟為: F0:iO
53、H(1) 提出假設 (2) 計算回歸方程的 檢驗值 F(3) 確定檢驗的臨界值 F1)() 1,(22knYYkYYknkFiii)( 服從自由度為 , 的 分布,對于給定的顯著性水平 ,可以通過 分布表查得顯著性水平為 、自由度分別為 、 的臨界值 ) 1,( knkFkn 1FFkn 112knnF12knn 1) 若 ,則否定假設,回歸方程總體線性關系的顯著性檢驗通過, 將 值與臨界值 比較 ) 1,( knkFFF 2) 若 ,則接受假設,回歸方程總體線性關系的顯著性檢驗未通過, ) 1,( knkFF) 1,( knkF 對上例中的模型進行檢驗 1) 假設 2) 計算 3) 給定顯著
54、性水平0.05,查 分布的臨界值表 4) 檢驗: 5.23= ,則模型的 檢驗通過。0:1OH325.422) 2, 1 (nF21)() 2, 1 (22nYYYYnF)(325.4228988.349210246.184397)2, 1 (nFF32. 5FFF三、多元線性回歸分析三、多元線性回歸分析 (一)二元線性回歸分析(一)二元線性回歸分析 二元線性回歸分析的模型可以由下式表示: 22110XXY,是回歸值Y,210是參數稱為偏回歸系數是自變量21,XX二元線性回歸分析就是根據 n 個已知的樣本觀察值),(21111XXY),(22122XXY),(21nnnXXY, 來計算出參數值
55、,得到回歸模型 參數的計算主要是采用最小二乘法 )(或n3 , 2 , 1ieYii 22i 110iXX由最小二乘法,參數的計算是使SSE 最小2210)(),(YYSSE222110210)(),(XXYSSE0)(0SSE0)(1SSE0)(2SSE0)(20)(20)(222211021221101221100XXXYSSEXXXYSSEXXYSSE22221120221221110122110XXXXYXXXXXYXXXnY221222121121222212221212221122110)()(XXXXXXYXXYXXXXXXXYXXYXXXY(二)(二) 多元線性回歸分析多元線性
56、回歸分析 kkXXXY ,22110k元線性回歸模型為 kkiiiiniXXXY,), 2 , 1(),(1021,計算出,根據觀察值 1、 多元線性回歸模型多元線性回歸模型 模型中參數模型中參數 是偏回歸系數。是偏回歸系數。偏回歸系數偏回歸系數:控制其它自變量不變的條件下,:控制其它自變量不變的條件下,第第k個自變量的單位變動對因變量平均值的個自變量的單位變動對因變量平均值的影響。影響。k,10,)(n3 , 2 , 1ie,iii22i 110i kkXXX或或2、多元線性回歸模型的矩陣表示、多元線性回歸模型的矩陣表示 K K個解釋變量的多元線性回歸模型的個解釋變量的多元線性回歸模型的n
57、n個觀測個觀測樣本,可表示為樣本,可表示為 1112211101e, kkXXX1222221102e, kkXXX1nn22n110e,n kkXXX 1n用矩陣表示用矩陣表示1nXYnyyy21knnnkkxxxxxxxxxxxx2132313222121k211111.11k10neee21)(1kn11k )(e樣本回歸函數樣本回歸函數或或其中:其中:Y,e都是有都是有n個元素的列向量個元素的列向量是有是有k+1個元素的列向量個元素的列向量X是第一列為是第一列為1的的n*( k+1)階自)階自變量數據矩陣變量數據矩陣 (截距項可視為解截距項可視為解釋變量取值為釋變量取值為1)XeXi2
58、2110e, kkXXXY最小210)(),(YYSSEk nikikiiiXXXY1222110)(0)(0SSE0)(1SSE0)(kSSEk元線性回歸模型為 kkiiiiniXXXY,), 2 , 1(),(1021,計算出,根據觀察值 由最小二乘法 , 3、 最小二乘法確定回歸模型最小二乘法確定回歸模型 0),(20),(20)(2122110112211011221100nikikikiiikniikikiiinikikiiiXXXXYSSEXXXXYSSEXXXYSSEnikikniikinikiniikinikiikniiniiniiinikikniiniiniiXXXXYXXX
59、XXYXXXXnY1211110111121111011112211101 方程組式稱為正規(guī)方程組。 引入矩陣knnnkkxxxxxxxxxxxxX2132313222121k211111.11knnnkkkknkkknnxxxxxxxxxxxxxxxxxxxxxxxxXXA213231322212121113212232221113121111111111nknknknknknnnnnnnnknnxxxxxxxxxxxxxxxxxxxxxn1i2i1iii21iii 11ii1iii21i2i21ii2i 11ii21iii 11ii2i 11i2i 11ii 11ii1ii21ii 1ny
60、yyY21n210 則正規(guī)方程組式可以進一步寫成矩陣形式BAnknnnnknkkknnyyyxyxyyyyyxxxxxxxxxxxxYX1iii1iii21iii 11ii321321223222111312111111B-1 = (X X) X Y(三)多元線性回歸模型的檢驗(三)多元線性回歸模型的檢驗 1、判定系數檢驗、判定系數檢驗 222)()()(YYYYYYiiii2222)()()()(1YYYYYYYYiiiii222)()(YYYYRii222)()(1YYYYRiii222)()(1YYYYRiii1)(1)(1222nYYknYYRiii11)1 (122knnRR調整判定
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 帶貨主播試用期轉正工作總結(6篇)
- 初級焊工安全知識培訓
- 連續(xù)性血液凈化治療腎衰竭合并重癥心力衰竭的價值
- 智研咨詢-中國數字生活行業(yè)市場調查、產業(yè)鏈全景、需求規(guī)模預測報告
- 車載SINS-GNSS緊組合導航系統研究
- 基于混合樣本的對抗對比域適應算法及理論
- 產前檢查科護士的工作概覽
- 打造專業(yè)化服務團隊的目標計劃
- 二零二五年度商業(yè)綜合體物業(yè)施工安全管理合同范本3篇
- 2025版物流運輸車隊與保險企業(yè)合作合同3篇
- (一模)蕪湖市2024-2025學年度第一學期中學教學質量監(jiān)控 英語試卷(含答案)
- 完整版秸稈炭化成型綜合利用項目可行性研究報告
- 2025中國海油春季校園招聘1900人高頻重點提升(共500題)附帶答案詳解
- 膽汁淤積性肝硬化護理
- 《數據采集技術》課件-Scrapy 框架的基本操作
- (2024)河南省公務員考試《行測》真題及答案解析
- 醫(yī)療保險結算與審核制度
- 圍城讀書分享課件
- 醫(yī)院投訴糾紛及處理記錄表
- YY/T 0698.5-2023最終滅菌醫(yī)療器械包裝材料第5部分:透氣材料與塑料膜組成的可密封組合袋和卷材要求和試驗方法
- 【深度教學研究國內外文獻綜述2100字】
評論
0/150
提交評論