版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第7章
分類(lèi)數(shù)據(jù)分析1第7章分類(lèi)數(shù)據(jù)分析——目錄7.1一個(gè)分類(lèi)變量的擬合優(yōu)度檢驗(yàn)7.2兩個(gè)分類(lèi)變量的獨(dú)立性檢驗(yàn)7.3卡方檢驗(yàn)中需要注意的地方2
37.1一個(gè)分類(lèi)變量的擬合優(yōu)度檢驗(yàn)擬合優(yōu)度檢驗(yàn)的原假設(shè)和備擇假設(shè)的一般形式如下:4
7.1一個(gè)分類(lèi)變量的擬合優(yōu)度檢驗(yàn)H0:觀察頻數(shù)與期望頻數(shù)一致H1:觀察頻數(shù)與期望頻數(shù)不一致擬合優(yōu)度檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量如下:
7.1一個(gè)分類(lèi)變量的擬合優(yōu)度檢驗(yàn)
56例:B連鎖餐廳老板想要了解顧客在餐廳就餐時(shí)最喜歡的主食,對(duì)120位顧客進(jìn)行調(diào)查,結(jié)果如表7-1所示。試評(píng)價(jià)顧客在這四種主食中選擇時(shí)是否存在明顯偏好。表7-1120人樣本中最?lèi)?ài)點(diǎn)的主食
7.1一個(gè)分類(lèi)變量的擬合優(yōu)度檢驗(yàn)最?lèi)?ài)點(diǎn)的主食頻數(shù)雜糧24面條29米飯32饅頭35合計(jì)1207
SPSS輸出的結(jié)果如表7-2和表7-3所示:
注意擬合優(yōu)度檢驗(yàn)除了可以處理期望頻數(shù)相同的數(shù)據(jù),同樣可以處理期望頻數(shù)不同的分類(lèi)數(shù)據(jù)。7.1一個(gè)分類(lèi)變量的擬合優(yōu)度檢驗(yàn)
觀察數(shù)期望數(shù)剩余殘差雜糧2430.0-6.0面條2930.0-1.0米飯3230.02.0饅頭3530.05.0總數(shù)120
主食偏好卡方2.200df3漸近顯著性.532表7-2顧客主食偏好的擬合優(yōu)度檢驗(yàn)(一)人數(shù)表7-3顧客主食偏好的擬合優(yōu)度檢驗(yàn)(二)檢驗(yàn)統(tǒng)計(jì)量8
7.2兩個(gè)分類(lèi)變量的獨(dú)立性檢驗(yàn)利用χ2檢驗(yàn)來(lái)判斷兩個(gè)分類(lèi)變量是否有關(guān)聯(lián)
獨(dú)立性檢驗(yàn)的原假設(shè)和備擇假設(shè)的一般形式如下:
7.2兩個(gè)分類(lèi)變量的獨(dú)立性檢驗(yàn)
獨(dú)立性檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量如下:
97.2兩個(gè)分類(lèi)變量的獨(dú)立性檢驗(yàn)
10例:葡萄酒行業(yè)協(xié)會(huì)想要了解飲酒者性別與葡萄酒偏好是否有關(guān)聯(lián),對(duì)200名飲酒者進(jìn)行調(diào)研,其中男性132人、女性68人,共三種葡萄酒類(lèi)型:甜葡萄酒、半干葡萄酒、干葡萄酒,樣本資料見(jiàn)表7-4。試評(píng)價(jià)飲酒者性別與葡萄酒偏好是否獨(dú)立。表7-4男性與女性飲酒者葡萄酒偏好的樣本資料
7.2兩個(gè)分類(lèi)變量的獨(dú)立性檢驗(yàn)葡萄酒偏好飲酒者性別合計(jì)男性女性甜葡萄酒513990半干葡萄酒562177干葡萄酒25833合計(jì)132682001112
SPSS輸出的結(jié)果如表7-5和表7-6所示:
7.2兩個(gè)分類(lèi)變量的獨(dú)立性檢驗(yàn)表7-5飲酒者性別與葡萄酒偏好的頻數(shù)分布飲酒者性別*葡萄酒偏好交叉制表
飲酒者性別合計(jì)男女葡萄酒偏好甜葡萄酒計(jì)數(shù)513990期望的計(jì)數(shù)59.430.690.0半干葡萄酒計(jì)數(shù)25833期望的計(jì)數(shù)21.811.233.0干葡萄酒計(jì)數(shù)562177期望的計(jì)數(shù)50.826.277.0合計(jì)計(jì)數(shù)13268200期望的計(jì)數(shù)132.068.0200.0
值df漸進(jìn)Sig.(雙側(cè))Pearson卡方6.4472.040似然比6.4612.040有效案例中的N200
7.3卡方檢驗(yàn)中需要注意的地方卡方檢驗(yàn)中需要注意的地方有:?jiǎn)卧獢?shù)量為2,各單元的期望頻率需大于5,如表7-7;單元數(shù)量大于2,期望頻率小于5的單元比例不超過(guò)20%,如表7-8。特殊情況該如何處理:擴(kuò)大樣本量;將期望頻數(shù)小于5的類(lèi)別合并。單元190922108單元19092210838180456567644表7-7準(zhǔn)則1說(shuō)明表表7-8準(zhǔn)則2說(shuō)明表13第8章
方差分析14第8章方差分析——目錄8.1方差分析引論8.2單因素方差分析8.3雙因素方差分析15
8.1方差分析引論1617例:某企業(yè)研發(fā)了一種新型有機(jī)發(fā)光二極管(OLED),為確定其性能的優(yōu)劣,企業(yè)決定考察三種使用溫度和三種電極對(duì)OLED壽命的影響。在每種電極材料和使用溫度下檢測(cè)三個(gè)OLED。表8-1有機(jī)分光二極管壽命數(shù)據(jù)溫度電極13015518034407221698015018812412612211125705713811016117412015296104828.1方差分析引論——例題因素(factor),又稱(chēng)為因子,是在方差分析中待檢驗(yàn)的自變量。水平(level),又稱(chēng)為處理(treatment),是因素的每個(gè)取值電極和溫度為兩個(gè)因素。在每個(gè)因素下,如電極,一共有三個(gè)水平。8.1方差分析引論——基本概念18單因素方差分析,是一種僅討論單一因素對(duì)試驗(yàn)結(jié)果有無(wú)顯著影響的分析。僅討論電極或溫度對(duì)電池壽命的影響。雙因素方差分析,是一種討論兩種因素對(duì)試驗(yàn)結(jié)果有無(wú)顯著影響的分析。同時(shí)討論電極和溫度對(duì)電池壽命的影響8.1方差分析引論——基本概念19主效應(yīng),指因素僅對(duì)因變量產(chǎn)生的影響。交互效應(yīng),指一個(gè)因素各個(gè)水平之間的差異隨其他因素的不同水平而發(fā)生變化的現(xiàn)象。無(wú)交互作用雙因素方差分析,在方差分析中僅考慮兩個(gè)因素的主效應(yīng)。有交互作用雙因素方差分析,在方差分析中除了考慮兩個(gè)因素的主效應(yīng),還要考慮兩個(gè)因素的交互效應(yīng)。8.1方差分析引論——基本概念20總誤差(totalerror),反映全部觀測(cè)數(shù)據(jù)的誤差。電池壽命的全部27個(gè)樣本的誤差組內(nèi)誤差(within-grouperror),同一水平下的數(shù)據(jù)誤差。其他隨機(jī)因素產(chǎn)生的誤差。組間誤差(between-grouperror),不同水平之間的數(shù)據(jù)誤差??赡苁怯呻S機(jī)誤差引起的,也可能是由水平差異引起的。8.1方差分析引論——基本原理218.1方差分析引論——基本原理總離差平方和(totalerror),反映全部觀測(cè)數(shù)據(jù)的誤差,記為SST。組間誤差平方和(between-grouperrorsumofsquares),反映不同水平之間的數(shù)據(jù)誤差,記為SSA。組內(nèi)平方和(within-groupsumofsquares),反映隨機(jī)因素產(chǎn)生的誤差,記為SSE。
統(tǒng)計(jì)學(xué)中,常利用平方和來(lái)表示誤差,三種誤差的平方和表現(xiàn)形式如下:22如果因素對(duì)因變量的影響不顯著,則每單位自由度的組間誤差與組內(nèi)誤差的差異不大,它們的比值接近1。如果因素對(duì)因變量有顯著影響,每單位自由度的組間誤差與組內(nèi)誤差的比值就會(huì)大于1。當(dāng)這個(gè)比值大到某種程度時(shí),就可以說(shuō)不同水平之間存在著顯著差異,即自變量對(duì)因變量有影響。8.1方差分析引論——基本原理23(一)正態(tài)性——每個(gè)總體應(yīng)滿(mǎn)足正態(tài)分布每個(gè)電極或者溫度水平下,電池使用壽命的樣本數(shù)據(jù)必須服從正態(tài)分布。(二)方差齊性——每個(gè)總體的方差應(yīng)相同每個(gè)電極或者溫度水平下,電池使用壽命樣本數(shù)據(jù)的方差必須相同。(三)獨(dú)立性——數(shù)據(jù)觀測(cè)值是獨(dú)立的每個(gè)電極或者溫度水平下,電池使用壽命樣本數(shù)據(jù)來(lái)自不同的獨(dú)立樣本。8.1方差分析引論——基本假設(shè)24(一)正態(tài)性假設(shè)的檢驗(yàn)1.圖形檢驗(yàn)法直方圖8.1方差分析引論——假設(shè)的檢驗(yàn)三個(gè)溫度水平下的電池使用壽命頻數(shù)直方圖根據(jù)直方圖的形狀可對(duì)數(shù)據(jù)的正態(tài)性進(jìn)行判斷,但是結(jié)果并不具備充分性,仍需要進(jìn)一步的驗(yàn)證25(一)正態(tài)性假設(shè)的檢驗(yàn)1.圖形檢驗(yàn)法P-P圖和Q-Q圖8.1方差分析引論——假設(shè)的檢驗(yàn)合并三種溫度水平后的正態(tài)概率圖根據(jù)P-P圖和Q-Q圖中樣本點(diǎn)是否均勻且隨機(jī)分布在理論正態(tài)分布直線(xiàn)周?chē)?,可?duì)數(shù)據(jù)的正態(tài)性進(jìn)行判斷,但是結(jié)果仍不充分,需要通過(guò)進(jìn)一步的驗(yàn)證才能得到準(zhǔn)確結(jié)論。26(一)正態(tài)性假設(shè)的檢驗(yàn)2.參數(shù)檢驗(yàn)法:K-S檢驗(yàn)8.1方差分析引論——假設(shè)的檢驗(yàn)根據(jù)檢驗(yàn)結(jié)果,在顯著性水平為0.05情況下,三種溫度下的檢驗(yàn)結(jié)果均不顯著,所以不拒絕正態(tài)性假設(shè)
溫度Kolmogorov-Smirnova統(tǒng)計(jì)量dfSig.T1.1129.200*T2.2119.200*T3.1939.200*a.Lilliefors顯著水平修正三種溫度下電池壽命的K-S正態(tài)性檢驗(yàn)27(二)方差齊次性假設(shè)的檢驗(yàn)1.圖形檢驗(yàn)法箱線(xiàn)圖8.1方差分析引論——假設(shè)的檢驗(yàn)根據(jù)箱線(xiàn)圖,不同因素水平下箱體的離散程度對(duì)數(shù)據(jù)方差是否滿(mǎn)足齊次性進(jìn)行判斷,但是檢驗(yàn)結(jié)果不充分,仍需配合其他方法得到準(zhǔn)確結(jié)論。三種溫度水平下的電池壽命箱線(xiàn)圖28(二)方差齊次性假設(shè)的檢驗(yàn)1.圖形檢驗(yàn)法殘差圖8.1方差分析引論——假設(shè)的檢驗(yàn)根據(jù)殘差圖中標(biāo)準(zhǔn)化殘差是否隨著預(yù)測(cè)值的變化產(chǎn)生較大差異,可對(duì)方差齊次做出判斷,但是想得到準(zhǔn)確結(jié)論仍然需要進(jìn)一步驗(yàn)證單溫度因素方差分析的殘差圖29(二)方差齊性假設(shè)的檢驗(yàn)2.參數(shù)檢驗(yàn)法Levene檢驗(yàn)8.1方差分析引論——假設(shè)的檢驗(yàn)根據(jù)檢驗(yàn)結(jié)果,在顯著性水平為0.05情況下,檢驗(yàn)結(jié)果不顯著,所以不拒絕方差齊性的假設(shè)。因變量:使用壽命Levene統(tǒng)計(jì)量df1df2顯著性2.251224.127三種溫度水平下方差齊性的levene檢驗(yàn)法30觀察值因素(A)
水平A1水平A2…水平Ak12::n
x11x12…x1kx21x22…x2k::::::::xn1
xn2…xnk8.2單因素方差分析——數(shù)據(jù)結(jié)構(gòu)318.2單因素方差分析——分析步驟(一)提出原假設(shè)和備擇假設(shè)原假設(shè):自變量對(duì)因變量沒(méi)有顯著影響()備擇假設(shè):自變量對(duì)因變量存在顯著影響()(二)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量1.均值令為第j水平的均值令為總體均值328.2單因素方差分析——分析步驟(二)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量2.離差平方和總平方和組間平方和組內(nèi)平方和
338.2單因素方差分析——分析步驟
348.2單因素方差分析——分析步驟
F檢驗(yàn)35
誤差來(lái)源平方和(SS)自由度(df)均方(MS)F值P值F臨界值因素ASSAk-1**誤差SSEn-k總和SSTn-18.2單因素方差分析——方差分析表368.2單因素方差分析——均值的多重比較均值的多重比較用方差分析解決問(wèn)題的時(shí)候,當(dāng)?shù)贸鲲@著性結(jié)論時(shí),僅表明各水平的均值不全相等,至于是哪些水平之間的差異具有顯著性,哪些水平之間不具有顯著性是無(wú)法判斷的,需要進(jìn)一步進(jìn)行比較。這里主要介紹最小顯著性差異(LSD)法:LSD的檢驗(yàn)統(tǒng)計(jì)量為t統(tǒng)計(jì)量,378.2單因素方差分析——均值的多重比較
我們將最小顯著性差異(LSD)定義為3839
8.2單因素方差分析——例題408.2單因素方差分析——例題解:總離差平方和SST為:組間離差平方和SSA為:組內(nèi)離差平方和SSE為:418.2單因素方差分析——例題MSA為:
MSE為:
F為:
8.3無(wú)交互作用雙因素方差分析——數(shù)據(jù)結(jié)構(gòu)428.3無(wú)交互作用雙因素方差分析——分析步驟
43(二)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量2.離差平方和總平方和組間平方和組內(nèi)平方和
四者滿(mǎn)足:SST=SSA+SSB+SSE8.3無(wú)交互作用雙因素方差分析——分析步驟44
8.3無(wú)交互作用雙因素方差分析——分析步驟45
8.3無(wú)交互作用雙因素方差分析——分析步驟46誤差來(lái)源平方和(SS)自由度(df)均方(MS)F值P值F臨界值因素ASSAk-1MSAMSAMSE**因素BSSBr-1MSBMSBMSE**誤差SSE(k-1)(r-1)MSE總和SSTkr-18.3無(wú)交互作用雙因素方差分析——方差分析表4748例:某化工廠(chǎng)采購(gòu)了一批聚乙烯生產(chǎn)設(shè)備,為了研究聚乙烯聚合度與聚合時(shí)間及反應(yīng)溫度的關(guān)系,現(xiàn)選擇四個(gè)聚合溫度和三個(gè)聚合時(shí)間。試驗(yàn)數(shù)據(jù)見(jiàn)表。聚合度數(shù)據(jù)表8.3無(wú)交互作用雙因素方差分析——例題49解:聚合時(shí)間為22min水平的均值為
反應(yīng)溫度為160℃水平的均值為
總體均值為
8.3無(wú)交互作用雙因素方差分析——例題
50解:總離差平方和SST為:聚合時(shí)間離差平方和SSA為:組內(nèi)離差平方和SSE為:反應(yīng)溫度離差平方和SSB為:8.3無(wú)交互作用雙因素方差分析——例題51MSA為:
MSE為:
MSB為:
8.3無(wú)交互作用雙因素方差分析——例題
8.3無(wú)交互作用雙因素方差分析——例題528.3有交互作用雙因素方差分析——數(shù)據(jù)結(jié)構(gòu)538.3有交互作用雙因素方差分析——分析步驟
548.3有交互作用雙因素方差分析——分析步驟
558.3有交互作用雙因素方差分析——分析步驟(二)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量離差平方和
總平方和
組間平方和交互平方和組內(nèi)平方和
五者滿(mǎn)足:SST=SSA+SSB+SSAB+SSE56
8.3有交互作用雙因素方差分析——分析步驟
57
8.3有交互作用雙因素方差分析——分析步驟58
8.3有交互作用雙因素方差分析——分析步驟59誤差來(lái)源平方和(SS)自由度(df)均方(MS)F值P值F臨界值因素ASSAk-1MSAFA**因素BSSBr-1MSBFB**交互ABSSAB(k-1)(r-1)MSABFAB**誤差SSEKr(m-1)MSE總和SSTn-1注:m為樣本的行數(shù)8.3有交互作用雙因素方差分析——方差分析表6061例:某企業(yè)研發(fā)了一種新型有機(jī)發(fā)光二極管(OLED),為確定其性能的優(yōu)劣,企業(yè)決定考察三種使用溫度和三種電極對(duì)OLED壽命的影響。在每種電極材料和使用溫度下檢測(cè)三個(gè)OLED。表8-1有機(jī)分光二極管壽命數(shù)據(jù)溫度電極13015518034407221698015018812412612211125705713811016117412015296104828.3有交互作用雙因素方差分析——例題62
8.3有交互作用雙因素方差分析——例題
解:總離差平方和SST為:電極種類(lèi)離差平方和SSA為:使用溫度離差平方和SSB為:
交互作用離差平方和SSAB為:
誤差離差平方和為SSE為:8.3有交互作用雙因素方差分析——例題
63
MSA為:
MSAB為:MSB為:8.3有交互作用雙因素方差分析——例題
MSE為:64
8.3有交互作用雙因素方差分析——例題
65第9章
一元線(xiàn)性回歸66第9章一元線(xiàn)性回歸——目錄9.1一元線(xiàn)性回歸模型及其參數(shù)估計(jì)9.2一元線(xiàn)性回歸模型的評(píng)估9.3利用回歸模型進(jìn)行預(yù)測(cè)9.4殘差分析679.1.1一元線(xiàn)性回歸模型9.1.2參數(shù)的最小二乘估計(jì)689.1一元線(xiàn)性回歸模型及其參數(shù)估計(jì)69什么是回歸分析?(Regression)回歸分析是研究變量之間相互關(guān)系的一種統(tǒng)計(jì)分析技術(shù)。一般是將一個(gè)變量當(dāng)做被影響變量,其他變量當(dāng)做影響這一變量的因素。主要目的就是通過(guò)采集樣本構(gòu)建變量之間的關(guān)系模型,可以通過(guò)該模型預(yù)測(cè)被影響變量的取值。回歸模型的類(lèi)型一個(gè)自變量?jī)蓚€(gè)及兩個(gè)以上自變量回歸模型多元回歸一元回歸線(xiàn)性回歸非線(xiàn)性回歸線(xiàn)性回歸非線(xiàn)性回歸70一元線(xiàn)性回歸模型71一元線(xiàn)性回歸一個(gè)自變量的回歸因變量y與自變量x之間為線(xiàn)性關(guān)系被預(yù)測(cè)或被解釋的變量稱(chēng)為因變量(dependentvariable),用y表示用來(lái)預(yù)測(cè)或用來(lái)解釋因變量的一個(gè)或多個(gè)變量稱(chēng)為自變量(independentvariable),用x表示因變量與自變量之間的關(guān)系用一個(gè)線(xiàn)性方程來(lái)表示72描述因變量y如何依賴(lài)于自變量x和誤差項(xiàng)
的方程稱(chēng)為回歸模型一元線(xiàn)性回歸模型可表示為
y為因變量,x為自變量
為截距,
為直線(xiàn)斜率和是模型的參數(shù)為一個(gè)隨機(jī)變量,稱(chēng)為誤差項(xiàng),表示除x之外,其他因素或者是無(wú)法觀測(cè)的因素對(duì)y的影響保持不變,y和x呈線(xiàn)性函數(shù)關(guān)系。73一元線(xiàn)性回歸
一元線(xiàn)性回歸模型——基本假定x=x3時(shí)的E(y)x=x2時(shí)y的分布x=x1時(shí)y的分布x=x2時(shí)的E(y)x3x2x1x=x1時(shí)的E(y)
0xyx=x3時(shí)y的分布
0+1x75一元線(xiàn)性回歸模型——基本假定參數(shù)
0和
1的最小二乘估計(jì)76估計(jì)(經(jīng)驗(yàn))回歸方程總體回歸參數(shù)和
是未知的,要利用樣本數(shù)據(jù)去估計(jì)用樣本統(tǒng)計(jì)量
和代替回歸方程中的未知參數(shù)和,就得到了估計(jì)的回歸方程。簡(jiǎn)單線(xiàn)性回歸中估計(jì)的回歸方程為其中:表示y軸上的截距,是斜率,?表示給定x的一個(gè)值,y的估計(jì)值或預(yù)測(cè)值,也是y
的期望E(y)的估計(jì)值。77
求解方程得
最小二乘法78
最小二乘法對(duì)于平面的n個(gè)點(diǎn),可以使用無(wú)數(shù)條曲線(xiàn)進(jìn)行擬合,需要選擇一條盡可能更好地?cái)M合這組數(shù)據(jù)的直線(xiàn)79估計(jì)方程的求法——實(shí)例例:某知名連鎖餐飲企業(yè)在全國(guó)有很多連鎖店,為研究它的營(yíng)業(yè)收入和員工培訓(xùn)費(fèi)用的關(guān)系,隨機(jī)抽取25家連鎖店,得到它們的年?duì)I業(yè)收入和員工培訓(xùn)費(fèi)用的數(shù)據(jù),數(shù)據(jù)如表所示,求營(yíng)業(yè)收入和員工培訓(xùn)費(fèi)用的估計(jì)的回歸方程。80序號(hào)營(yíng)業(yè)收入(萬(wàn)元)員工培訓(xùn)費(fèi)用(萬(wàn)元)1213.4011.702248.0015.303513.4022.904390.8026.405598.0033.606312.4034.307480.2039.408601.6045.509821.8055.4010504.8060.8011870.6066.2012603.1070.1013872.3074.9014970.5078.6015643.2085.3016974.1090.40171060.5093.6018870.6098.80191180.50102.50201290.40107.80211380.10119.90221067.20127.50231472.40137.90241290.40149.50251590.90158.00估計(jì)方程的求法——實(shí)例例:根據(jù)例中的數(shù)據(jù),將其輸入SPSS進(jìn)行分析得到以下結(jié)果。81回歸系數(shù)=8.654表示,員工培訓(xùn)費(fèi)用每增加1萬(wàn)元,營(yíng)業(yè)收入增加8.654萬(wàn)元。估計(jì)方程的求法——實(shí)例例:根據(jù)例中的數(shù)據(jù),將其輸入SPSS進(jìn)行分析得到以下結(jié)果。82
9.2.1判定系數(shù)9.2.2顯著性檢驗(yàn)9.2.3回歸模型解釋的注意點(diǎn)839.2一元線(xiàn)性回歸模型的評(píng)估判定系數(shù)84離差平方和的分解因變量y的取值是不同的,y取值的這種波動(dòng)稱(chēng)為變差。變差來(lái)源于兩個(gè)方面由于自變量x的取值不同造成的由其他隨機(jī)因素導(dǎo)致的測(cè)量模型擬合好壞的方式就是測(cè)量x的值對(duì)于預(yù)測(cè)y值的貢獻(xiàn)程度85離差平方和的分解(圖示)xyy{}}
離差分解圖86離差平方和的分解——三個(gè)平方和的關(guān)系1.從圖上看有
2.兩端平方后求和有SST=SSR+SSE總平方和(SST)回歸平方和(SSR)殘差平方和(SSE)87離差平方和的分解——三個(gè)平方和的意義
88判定系數(shù)R2
(coefficientofdetermination)1.回歸平方和占總離差平方和的比例2.反映回歸直線(xiàn)的擬合度3.取值范圍在[0,1]之間4.R2
1,說(shuō)明回歸方程擬合的越好;
R20,說(shuō)明回歸方程擬合的越差5.一元線(xiàn)性回歸中,判定系數(shù)等于相關(guān)系數(shù)的平方,即R2=r2
89判定系數(shù)——例題分析營(yíng)業(yè)收入實(shí)例的判定系數(shù)的意義是:營(yíng)業(yè)收入的變異性有87.3%可以由和員工培訓(xùn)費(fèi)用之間的線(xiàn)性關(guān)系所解釋?zhuān)瑢?duì)于估計(jì)的回歸方程,這個(gè)模型的擬合效果較高。90ModelSummaryModel RRSquareAdjustedRSquareStd.ErroroftheEstimate1.934a.873.867143.09319a.Predictors:(Constant),員工培訓(xùn)費(fèi)用(續(xù)前例)顯著性檢驗(yàn)91回歸方程總體的顯著性檢驗(yàn)——F檢驗(yàn)檢驗(yàn)自變量與因變量之間的線(xiàn)性關(guān)系是否顯著具體方法是將回歸均方(MSR)同殘差均方(MSE)加以比較,應(yīng)用F檢驗(yàn)來(lái)分析二者之間的差別是否顯著回歸均方:回歸平方和SSR除以相應(yīng)的自由度(自變量的個(gè)數(shù)k)殘差均方:殘差平方和SSE除以相應(yīng)的自由度(n-k-1)如果拒絕原假設(shè),則兩個(gè)變量之間存在顯著關(guān)系如果不拒絕原假設(shè),則沒(méi)有證據(jù)表明兩個(gè)變量之間存在顯著關(guān)系92回歸方程總體的顯著性檢驗(yàn)——檢驗(yàn)步驟1.提出原假設(shè)和備擇假設(shè)H0:H1:2.構(gòu)造檢驗(yàn)統(tǒng)計(jì)量
93
回歸方程的顯著性檢驗(yàn)——方差分析表(續(xù)前例)方差分析表平方和均方
94回歸系數(shù)的顯著性檢驗(yàn)——t檢驗(yàn)95
估計(jì)方程的求法——實(shí)例96(續(xù)前例)回歸系數(shù)的顯著性檢驗(yàn)——要點(diǎn)
979.3.1點(diǎn)估計(jì)9.3.2平均值的置信區(qū)間9.3.3個(gè)別值的預(yù)測(cè)區(qū)間989.3利用回歸模型進(jìn)行預(yù)測(cè)利用回歸方程進(jìn)行估計(jì)和預(yù)測(cè)回歸模型主要的作用之一是用來(lái)對(duì)因變量進(jìn)行預(yù)測(cè)。使用最小二乘法通過(guò)樣本數(shù)據(jù),求得估計(jì)一元線(xiàn)性回歸方程。對(duì)該回歸方程進(jìn)行顯著性檢驗(yàn)和判定系數(shù)驗(yàn)證。使用該方程對(duì)因變量進(jìn)行估計(jì)和預(yù)測(cè)。99點(diǎn)估計(jì)100點(diǎn)估計(jì)
101區(qū)間估計(jì)102區(qū)間估計(jì)點(diǎn)估計(jì)作為一個(gè)單一的值,不能提供有關(guān)估計(jì)量精度的相關(guān)信息。因此,在點(diǎn)估計(jì)的基礎(chǔ)上,可以建立一個(gè)區(qū)間估計(jì)。對(duì)于自變量x的一個(gè)給定值x0,根據(jù)回歸方程得到因變量y的一個(gè)估計(jì)區(qū)間區(qū)間估計(jì)有兩種類(lèi)型置信區(qū)間估計(jì)
給定一個(gè)x值,y的平均值的一個(gè)區(qū)間估計(jì)預(yù)測(cè)區(qū)間估計(jì)
給定一個(gè)x值,y的個(gè)別值的一個(gè)區(qū)間估計(jì)。103置信區(qū)間估計(jì)y的平均值的置信區(qū)間估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0
,求出因變量y的平均值E(y0)的估計(jì)區(qū)間,這一估計(jì)區(qū)間稱(chēng)為置信區(qū)間。
E(y0)
在1-
置信水平下的置信區(qū)間為s為估計(jì)標(biāo)準(zhǔn)差104預(yù)測(cè)區(qū)間估計(jì)
s為估計(jì)標(biāo)準(zhǔn)差105區(qū)間估計(jì)——算例【例】根據(jù)前例,求出求出每個(gè)給定的員工培訓(xùn)費(fèi)用水平下,年?duì)I業(yè)收入的置信區(qū)間和預(yù)測(cè)區(qū)間
解:SPSS輸出結(jié)果如下:106序號(hào)預(yù)測(cè)值置信下限置信上限預(yù)測(cè)上限預(yù)測(cè)下限1274.24496164.78344383.70648-41.35642589.846342305.39769200.21837410.57701-8.74415619.539533371.16456274.75162467.5775059.84823682.480904401.45194308.92826493.9756191.31804711.585845463.75739378.87091548.64388155.81564771.699146469.81487385.64102553.98872162.06880777.560947513.94790434.77945593.11635207.53307820.362738566.73447493.05460640.41433261.69164871.777309652.40447586.15170718.65725349.06995955.7390010699.13357635.96222762.30491396.457131001.8100011745.86266684.94920806.77612443.649401048.0759212779.61145719.76256839.46034477.610961081.6119413821.14842761.91486880.38198519.269271123.0275714853.16650793.86969912.46331551.274941155.0580715911.14519850.55280971.73759608.996481213.2939016955.27822892.731461017.82499652.731531257.8249217982.96954918.804671047.13441680.084191285.85489181027.96792960.594571095.34128724.386681331.54917191059.98601989.939911130.03210755.800441364849751031.488431180.21107800.641601411.05789211210.557531124.647251296.46780902.331991518.78306221276.324401182.261941370.38686965.727961586.92084231366.321171260.319861472.322481051.903171680.73918241466.702191346.620681586.783691147.262091786257241409.491371671.023111216.649271863.86521區(qū)間估計(jì)——算例【例】根據(jù)前例,求出每個(gè)給定的員工培訓(xùn)費(fèi)用水平下,年?duì)I業(yè)收入的置信區(qū)間和預(yù)測(cè)區(qū)間
解:SPSS輸出結(jié)果如下:107影響區(qū)間寬度的因素
108置信區(qū)間、預(yù)測(cè)區(qū)間、回歸方程預(yù)測(cè)上限置信上限預(yù)測(cè)下限置信下限
x處兩區(qū)間寬度最小1099.4.1誤差的均值為零9.4.2誤差的正態(tài)性9.4.3誤差的方差齊性9.4.4誤差的獨(dú)立性9.4.5異常值和有影響的觀測(cè)1109.4殘差分析殘差分析
111誤差的均值為零112誤差的均值為零——?dú)埐顖D該圖為非隨機(jī)模型,殘差呈二次曲線(xiàn)的形狀,殘差的范圍可以分為三段,較小的x對(duì)應(yīng)的殘差在0水平線(xiàn)之上,中等的x對(duì)應(yīng)的殘差在0水平線(xiàn)之下,較大的x對(duì)應(yīng)的殘差又在0水平線(xiàn)之上,這說(shuō)明隨機(jī)誤差
的均值在x取值的三段范圍內(nèi)可能不為0。因此可說(shuō)明該回歸模型所對(duì)應(yīng)的誤差的均值為0的假設(shè)不成立,需要重新檢查回歸模型是否合理。113誤差的均值為零——?dú)埐顖D114
誤差的正態(tài)性115誤差的正態(tài)性116檢驗(yàn)隨機(jī)誤差項(xiàng)?是否近似于正態(tài)分布,可通過(guò)標(biāo)準(zhǔn)化殘差圖進(jìn)行判斷。每個(gè)殘差除以其標(biāo)準(zhǔn)差就得到了標(biāo)準(zhǔn)化殘差。
其中,誤差的正態(tài)性——算例117要滿(mǎn)足正態(tài)性假設(shè),標(biāo)準(zhǔn)化殘差至少大約有95%都應(yīng)該落在-2到+2之間的區(qū)域,從該例的圖中可以看出,?
是近似服從于正態(tài)分布。誤差的正態(tài)性——算例118除標(biāo)準(zhǔn)化殘差圖之外,標(biāo)準(zhǔn)化殘差的直方圖和正態(tài)概率也可以確定誤差項(xiàng)?
是否服從正態(tài)分布。從標(biāo)準(zhǔn)化殘差直方圖來(lái)看,中間稍低,左右兩側(cè)不完全對(duì)稱(chēng),有一定瑕疵。誤差的正態(tài)性——算例119從標(biāo)準(zhǔn)化殘差的P-P圖來(lái)看,雖然散點(diǎn)并沒(méi)有全部靠近斜線(xiàn),并不完美,但較多的點(diǎn)聚集在45度直線(xiàn)附近。綜合而言,殘差正態(tài)性結(jié)果不是最好的,但也可以接受誤差項(xiàng)?
服從正態(tài)分布。誤差的方差齊性120誤差的方差齊性121利用殘差圖,還可以幫助判斷誤差項(xiàng)的方差是否恒定,即方差齊性的判斷。雖然殘差整體形狀不同,但殘差的取值范圍都是隨著自變量x的增大而增大,這就是意味著殘差隨著x的增大而增大,殘差的方差并不是一個(gè)恒定的值。誤差的方差齊性122殘差范圍呈梭子狀,取值范圍先隨著x的增大而增大,然后又隨著x的增大而減小,很顯然殘差的也不是恒定的值。誤差的方差齊性123如果?的方差相等的假設(shè)成立,而且回歸模型也是合理的,那么殘差圖中殘差點(diǎn),應(yīng)該隨機(jī)地落在一條水平帶之內(nèi)。誤差的獨(dú)立性124誤差的獨(dú)立性125誤差的獨(dú)立性假設(shè)要求一系列誤差變量之間是不相關(guān)的。這個(gè)假設(shè)不總是滿(mǎn)足,尤其在時(shí)間數(shù)據(jù)中表現(xiàn)比較明顯。為了驗(yàn)證在該類(lèi)數(shù)據(jù)中的誤差獨(dú)立性假設(shè)是否滿(mǎn)足,可以繪制殘差與時(shí)間的關(guān)系圖來(lái)實(shí)現(xiàn)。如果殘差-時(shí)間圖呈現(xiàn)了某種規(guī)律,說(shuō)明各個(gè)殘差之間可能存在某種相關(guān)性,那么很有可能就不滿(mǎn)足獨(dú)立性要求。誤差的獨(dú)立性——自相關(guān)126呈現(xiàn)出正負(fù)誤差交替出現(xiàn)的規(guī)律,因此不滿(mǎn)足誤差獨(dú)立性的假設(shè)。呈現(xiàn)出誤差值隨著時(shí)間遞減的規(guī)律,因此也不滿(mǎn)足誤差獨(dú)立性的假設(shè)。誤差的獨(dú)立性127各誤差點(diǎn)之間是隨機(jī)分布,誤差之間相互獨(dú)立。誤差的獨(dú)立性——D-W檢驗(yàn)128Durbin–WatsonTest,通過(guò)統(tǒng)計(jì)檢驗(yàn)方法驗(yàn)證殘差獨(dú)立性是否滿(mǎn)足。檢測(cè)誤差項(xiàng)之間是否存在一階自相關(guān),即誤差項(xiàng)和是否存在某種關(guān)系,其中i表示時(shí)間間隔。決策準(zhǔn)則:
異常值和有影響的觀測(cè)129異常值檢測(cè)——識(shí)別130異常值可通過(guò)數(shù)據(jù)集的散點(diǎn)圖進(jìn)行識(shí)別。如圖
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版LNG液化天然氣運(yùn)輸責(zé)任險(xiǎn)合同2篇
- 2025年上教版選修2地理下冊(cè)月考試卷含答案
- 2025年人教版九年級(jí)科學(xué)上冊(cè)階段測(cè)試試卷含答案
- 2024年煙臺(tái)黃金職業(yè)學(xué)院高職單招語(yǔ)文歷年參考題庫(kù)含答案解析
- 二手房交易簡(jiǎn)易協(xié)議范本2024適用版版
- 二手房購(gòu)置全權(quán)代表合同版B版
- 二零二五年藝術(shù)品買(mǎi)賣(mài)合同協(xié)議書(shū)模板3篇
- 2024版國(guó)有土地轉(zhuǎn)讓協(xié)議
- 2024年湘西民族職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試歷年參考題庫(kù)含答案解析
- 二零二五年度智慧城市建設(shè)合同變更補(bǔ)充條款3篇
- 資質(zhì)模型與測(cè)評(píng)技術(shù)(中國(guó)人民大學(xué)勞動(dòng)人事學(xué)院 孫健敏)
- SMW工法型鋼拔除專(zhuān)項(xiàng)施工方案
- 大健康商業(yè)招商計(jì)劃書(shū)
- 高一上半學(xué)期總結(jié)教學(xué)課件
- 高速公路初步設(shè)計(jì)匯報(bào)課件
- 申根簽證申請(qǐng)表模板
- 企業(yè)會(huì)計(jì)準(zhǔn)則、應(yīng)用指南及附錄2023年8月
- 2022年浙江省事業(yè)編制招聘考試《計(jì)算機(jī)專(zhuān)業(yè)基礎(chǔ)知識(shí)》真題試卷【1000題】
- 認(rèn)養(yǎng)一頭牛IPO上市招股書(shū)
- GB/T 3767-2016聲學(xué)聲壓法測(cè)定噪聲源聲功率級(jí)和聲能量級(jí)反射面上方近似自由場(chǎng)的工程法
- GB/T 23574-2009金屬切削機(jī)床油霧濃度的測(cè)量方法
評(píng)論
0/150
提交評(píng)論