版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
SAS統(tǒng)計(jì)分析
第七講
景學(xué)安2023/2/31
多元線性回歸
一、基本概念
多元線性回歸簡稱多元回歸,是研究一個(gè)應(yīng)變量與多個(gè)自變量間線性依存關(guān)系數(shù)量變化規(guī)律的一種方法。
二、多元線性回歸方程
式中:b0為回歸方程常數(shù)項(xiàng),亦稱為截距;bj(j=1,2,┅,m)為偏回歸系數(shù),即在其他自變量固定的條件下,Xj改變一個(gè)單位時(shí)應(yīng)變量的改變量。
2023/2/32
三、多元線性回歸方程的應(yīng)用
預(yù)測應(yīng)變量的估計(jì)值
探索影響應(yīng)變量y的主要因素當(dāng)X為某一定值時(shí),估計(jì)應(yīng)變量的容許區(qū)間當(dāng)X為某一定值時(shí),估計(jì)其應(yīng)變量的總體均數(shù)的置信區(qū)間2023/2/33
四、分類變量的數(shù)量化
在實(shí)際研究中,自變量常常會(huì)是分類變量,主要包括三種類型的分類變量:①兩分類變量,如性別(男、女);②有序分類變量,如病情(輕度、中度、重度);③無序分類變量,如職業(yè)(干部、職員、工人、農(nóng)民)。進(jìn)行多元回歸分析,必須將這樣的指標(biāo)數(shù)量化,常用的數(shù)量化方法有:
1.兩分類變量
可用0和1表示。例如:
0為男,1為女;0為陰性,1為陽性。
2.有序分類變量
由于有序的分類變量的各類之間有一定的數(shù)量關(guān)系,可以用0,1,2,3,┄表示。如0為輕度,1為中度,2為重度。2023/2/34
3.無序分類變量
由于各類別之間無數(shù)量關(guān)系,常用多個(gè)0,1變量表示,即建立多個(gè)啞變量(dummyvariable)。如表無序四分類變量用三個(gè)啞變量表示職業(yè)分類變量賦值X1X2X3干部職員工人農(nóng)民100001000010一般來說,m個(gè)類別的分類變量需要(m-1)個(gè)啞變量表示。2023/2/35五、SAS語句格式
同單變量線性回歸基本相同。
procreg[選項(xiàng)];
model應(yīng)變量=自變量名列/[選項(xiàng)];必選語句,定義回歸分析模型
[freq變量名];可選項(xiàng),定義頻數(shù)變量。
[outputout=數(shù)據(jù)集名統(tǒng)計(jì)量=變量名…統(tǒng)計(jì)量=變量名];
可選項(xiàng)。Output語句創(chuàng)建一個(gè)包括對(duì)每個(gè)觀察值計(jì)算統(tǒng)計(jì)量的新輸出的數(shù)據(jù)集。2023/2/36
(一)procreg語句的[選項(xiàng)]1.data=數(shù)據(jù)集
指明回歸分析所用的數(shù)據(jù)集。
2.outest=數(shù)據(jù)集
指定一個(gè)輸出數(shù)據(jù)集,用以存儲(chǔ)回歸分析所得的參數(shù)估計(jì)。3.simple
輸出每個(gè)變量的簡單統(tǒng)計(jì)結(jié)果。(二)model語句的/[選項(xiàng)]
1.selection=method
規(guī)定變量篩選方法和建立最優(yōu)模型的準(zhǔn)則。method的以下幾種主要選項(xiàng):
⑴forward(或f)前進(jìn)法,按照sle規(guī)定的α值從無到有依次選一個(gè)變量進(jìn)入模型
⑵backward(或b)后退法,按照sls規(guī)定的α值從含有全部變量的模型開始,以次剔除一個(gè)變量。2023/2/37⑶stepwise
逐步法,按照sle的α值依次選入變量,同時(shí)對(duì)模型中現(xiàn)有的變量按sls的α值剔除不顯著的變量。⑷adjrsq
選擇最優(yōu)模型的決定系數(shù)準(zhǔn)則(R2)。應(yīng)選擇R2最大的模型。⑸cp
選擇最優(yōu)模型的Cp準(zhǔn)則。應(yīng)選擇Cp值與(p+1)最接近的模型。⑹aic
選擇最優(yōu)模型的aic準(zhǔn)則。應(yīng)選擇aic值最小的模型。
注:[選項(xiàng)]中selection語句沒有篩選變量的方法時(shí),模型中含有全部自變量的回歸模型。
2.sle=概率值
入選標(biāo)準(zhǔn),規(guī)定變量入選模型的顯著性水平,前進(jìn)法默認(rèn)為0.5,逐步法默認(rèn)為0.15。
3.sls=概率值
剔除標(biāo)準(zhǔn),指定變量保留在模型的顯著性水平,后退法默認(rèn)為0.1,逐步法默認(rèn)為0.15。
2023/2/38
4.P
輸出實(shí)際值Yi、預(yù)測值、殘差及其標(biāo)準(zhǔn)誤。
5.stb
輸出各自變量的標(biāo)準(zhǔn)偏回歸系數(shù)。
6.cli
輸出x對(duì)應(yīng)值的95%容許區(qū)間上下限
7.clm
輸出預(yù)測值的均值的95%可信區(qū)間上下限。
8.tol
輸出各自變量的容許值。0≤tol值≤1,越接近于0,共線性越嚴(yán)重。
9.vif
輸出各自變量的方差膨脹因子。當(dāng)vif≥10時(shí),可認(rèn)為多元共線性嚴(yán)重存在。2023/2/39
10.collin
要求詳細(xì)分析自變量之間的共線性,給出信息矩陣的特征根、條件指數(shù)和方差比,當(dāng)條件指數(shù)≥10,方差比>0.5時(shí),可認(rèn)為存在多元共線性。
11.collinoint
與選擇項(xiàng)collin作用相同,但不包括回歸常數(shù)。
12.R
進(jìn)行預(yù)測值的殘差分析(即異常值識(shí)別與強(qiáng)影響分析),輸出學(xué)生化殘差值和Cook’s距離D值。當(dāng)學(xué)生化殘差值>2時(shí),所對(duì)應(yīng)的點(diǎn)可能是異常點(diǎn),當(dāng)D值>0.5時(shí),可認(rèn)為對(duì)應(yīng)的變量值對(duì)回歸函數(shù)是強(qiáng)影響點(diǎn)。
2023/2/310
完全多元線性回歸
例11-527名糖尿病人的血清總膽固醇、甘油三酯、空腹胰島素、糖化血紅蛋白、空腹血糖的測定值列于表11-4中,試建立血糖與其他指標(biāo)的多元線性回歸方程。dataex11_5;infile'e:\sasx\sas7\ex11_5.txt';inputx1-x4y@@;procreg;modely=x1-x4/stb;run;2023/2/311
TheREGProcedureModel:MODEL1DependentVariable:y
AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel4133.7106933.427678.280.0003Error2288.841174.03823CorrectedTotal26222.55185RootMSE2.00954R-Square0.6008DependentMean11.92593AdjR-Sq0.5282CoeffVar16.850152023/2/312
ParameterEstimatesParameterStandardStandardizedVariableDFEstimateErrortValuePr>|t|EstimateIntercept15.943272.828592.100.04730x110.142450.365650.390.70060.07758x210.351470.204201.720.09930.30931x31-0.270590.12139-2.230.0363-0.33948x410.638200.243262.620.01550.397742023/2/313
逐步回歸
簡介
逐步回歸是篩選自變量的常用的方法之一。篩選自變量的方法還有前進(jìn)法,后退法和最優(yōu)回歸子集法。逐步回歸法是依據(jù)事先給定的兩個(gè)顯著性水平SLE和SLS,將自變量逐個(gè)引入方程,同時(shí)每引入一個(gè)新變量后,對(duì)已選入的變量要進(jìn)行逐個(gè)檢驗(yàn),將不顯著的變量剔除,這樣保證最后所得的變量都有顯著性。自變量間的多重共線性(multicollinearity)
多重共線性是指在進(jìn)行多元回歸時(shí),自變量間存在線性相關(guān)關(guān)系。共線關(guān)系存在,可使估計(jì)系數(shù)方差加大,系數(shù)估計(jì)不穩(wěn)定,結(jié)果分析困難。出現(xiàn)以下現(xiàn)象提示可能存在自變量之間的共線關(guān)系。
2023/2/314整個(gè)回歸方程的統(tǒng)計(jì)檢驗(yàn)P<α,而各偏回歸系數(shù)的檢驗(yàn)均出現(xiàn)P>α的矛盾現(xiàn)象。偏回歸系數(shù)的估計(jì)值明顯與實(shí)際情況不符,或者是偏回歸系數(shù)的符號(hào)與專業(yè)知識(shí)的情況相反。據(jù)專業(yè)知識(shí),該自變量與應(yīng)變量間關(guān)系密切,而偏回歸系數(shù)檢驗(yàn)結(jié)果P>α。
增加(或刪除)一個(gè)變量,或者改變(或去除)一個(gè)觀察值,引起回歸系數(shù)估計(jì)值發(fā)生大的變化。多重共線性是引起上述問題的重要原因。解決多重共線性的辦法找出存在共線性且不重要的那些自變量,剔除出方程,另行回歸分析。
用主成分回歸或嶺回歸等有偏估計(jì)替代最小二乘估計(jì)。用逐步回歸等方法篩選自變量。
2023/2/315
例11-6
dataex11_6;infile'e:\sasx\sas7\ex11_5.txt';inputx1-x4y@@;proc
reg;modely=x1-x4/stbselection=cpaicadjrsq;modely=x1-x4/tolvifcollincollinointR;modely=x1-x4/selection=stepwisesle=0.15sls=0.15stb;run;2023/2/3162023/2/3172023/2/3182023/2/3192023/2/3202023/2/3212023/2/3222023/2/3232023/2/3242023/2/3252023/2/3262023/2/3272023/2/328第八章協(xié)方差分析
概念
協(xié)方差分析(analysisofcovariance)是把線性回歸與方差分析結(jié)合起來,檢驗(yàn)兩個(gè)或多個(gè)修正均數(shù)間有無差別的方法。如研究不同的飼料對(duì)動(dòng)物體重的增長情況,但每只動(dòng)物的進(jìn)食量是不同的,對(duì)體重的增長是有影響的,進(jìn)食量即為混雜因素,亦稱為協(xié)變量。協(xié)方差分析檢驗(yàn)的意義是:用直線回歸的方法找出食量(協(xié)變量x)與所增體重(應(yīng)變量y)的線性關(guān)系,求得當(dāng)食量化為相等時(shí)(即扣除食量的影響),各飼料組動(dòng)物所增體重的修正均數(shù),然后用方差分析檢驗(yàn)各修正均數(shù)間的差別。2023/2/329
協(xié)方差分析的應(yīng)用條件
1.各處理組資料(x,y)來自正態(tài)總體分布,且總體方差相等。
2.各處理組的總體直線回歸系數(shù)βi
相等(回歸線平行),且都不為0。
3.協(xié)變量是定量變量,且與處理因素不存在交互作用。
4.各處理組的協(xié)變量均數(shù)差別不能太大。2023/2/330
協(xié)方差分析常用公式
修正均數(shù)間比較的F值如修正均數(shù)間有差別,必要時(shí)再作兩兩比較。公共回歸系數(shù)bc各修正均數(shù)的計(jì)算2023/2/331
SAS常用語句格式
Procglm[data=<數(shù)據(jù)集名>];
Class
分組變量;/*指明分組變量,
必須放在model語句前*/
Model
應(yīng)變量=分組變量協(xié)變量/[選項(xiàng)];
Lsmeans分組變量/[選項(xiàng)];
/*輸出各組變量的最小二乘均數(shù)(修正均數(shù))*/
run;
2023/2/332
model語句常用的[選項(xiàng)]
solution/*輸出回歸方程中各參數(shù)的估計(jì)值
*/lsmeans語句常用的[選項(xiàng)]
stderr
/*輸出修正均數(shù)的標(biāo)準(zhǔn)誤
*/
pdiff
/*輸出修正均數(shù)間兩兩比較的概率值
*/2023/2/333一、完全隨機(jī)設(shè)計(jì)資料的協(xié)方差分析
例8-1為研究A、B、C三種飼料喂養(yǎng)8頭豬一段時(shí)間,測得每頭豬的初始重量(X)和增重(Y),數(shù)據(jù)見表8-3。試分析三種飼料對(duì)豬的催肥效果是否不同?A飼料B飼料C飼料X1Y1X2Y2X3Y312┆781513┆14178583┆84901716┆19189790┆99942224┆30328991┆105110
表8-3三種飼料喂養(yǎng)豬的進(jìn)食量與增重(kg)2023/2/334dataex8_1;dofood=1to3;doi=1to8;inputxy@@;output;end;end;cards;1585138311651276128016911484179017971690181001895211032210619991894228924912083239525100271023010532110;procglm;classfood;modely=foodx/solution;lsmeansfood/stderrpdiff;run;2023/2/335SAS計(jì)算結(jié)果
TheGLMProcedureDependentVariable:y
SumofSourceDFSquares
MeanSquare
FValue
Pr>FModel3
2328.343765
776.114588
68.20
<.0001Error20
227.614568
11.380728CorrectedTotal23
2555.958333R-SquareCoeffVarRootMSEyMean0.9109473.6585993.37353492.20833
(以上說明總體模型有統(tǒng)計(jì)學(xué)意義,P=<.0001)2023/2/336SourceDFTypeISSMeanSquareFValuePr>FFOOD21317.583333
658.79166757.89<.0001X11010.7604321010.76043288.81<.0001SourceDFTypeIIISSMeanSquareFValuePr>FFOOD2707.218765353.60938231.07<.0001
SS修正均數(shù)MS修正均數(shù)
F值P值X11010.7604321010.76043288.81<.0001(從TypeⅢSS結(jié)果看,三種飼料修正均數(shù)間的差異有統(tǒng)計(jì)學(xué)意義,P<0.0001,說明三種飼料對(duì)豬的體重影響是不同的。協(xié)變量P<0.0001,差異有統(tǒng)計(jì)學(xué)意義,即x和y之間有線性回歸關(guān)系。)
2023/2/337
StandardParameterEstimateErrortValuePr>|t|Intercept35.93518188B6.575471405.47<.0001food112.79324180B3.408989473.750.0013food217.33559201B2.409151137.20<.0001food30.00000000B...x2.401569190.254833219.42<.0001
公共回歸系數(shù)bc
=35.94+2.40X+12.79foodfood=A=35.94+2.40X+17.34foodfood=B=35.94+2.40Xfood=C2023/2/338
TheGLMProcedureLeastSquaresMeansStandardLSMEANfoodyLSMEANErrorPr>|t|Number
修正均數(shù)標(biāo)準(zhǔn)誤
194.95863051.8403872<.00011299.50098071.2033114<.00012382.16538871.9643967<.00013LeastSquaresMeansforeffectfoodPr>|t|forH0:LSMean(i)=LSMean(j)DependentVariable:y兩兩比較的概率值
i/j12310.04240.001320.0424<.000130.0013<.00012023/2/339二、隨機(jī)區(qū)組(配伍組)設(shè)計(jì)資料的協(xié)方差分析
例8-2表8-4三組大白鼠的進(jìn)食量(x,g)與所增體重(y,g)區(qū)組
A組B組C組
x
y
x
y
x
y
12┆┆1112
256.9271.6┆┆
356.9198.2
27.041.7┆┆76.09.2
260.3271.1┆┆356.3199.2
32.047.7┆┆102.18.1
544.7481.2┆┆559.6371.9
160.396.1┆┆169.854.32023/2/340dataex8_2;doa=1to12;dob=1to3;inputxy@@;output;end;end;cards;256.927.0260.332.0544.7160.3271.641.7271.147.1481.296.1210.225.0214.736.7418.9114.6300.152.0300.165.0556.6134.8262.214.5269.739.0394.576.3304.448.8307.537.9426.672.8272.448.0278.951.5416.199.4248.29.5256.226.7549.9133.7242.837.0240.841.0580.5147.0342.956.5340.761.3608.3165.8356.976.0356.3102.1559.6169.8198.29.2199.28.1371.954.3;procglm;classab;modely=xab/solution;lsmeansb/stderrpdiff;run;程序2023/2/341TheGLMProcedureDependentVariable:YSourceDFSumofSquaresMeanSquareFValuePr>FModel1473529.470805252.1050649.39<.0001Error212233.13892106.33995CorrectedTotal3575762.60972
R-SquareC.V.RootMSEYMean0.97005215.3460610.3121369.19722SourceDFTypeIIISSMeanSquareFValuePr>FX16175.0305216175.03052158.07<.0001A113761.318706341.9380643.220.0103B2469.156885234.5784432.210.13502023/2/342
StandardLSMEANbyLSMEANErrorPr>|t|Number167.43015524.9702654<.00011275.10234934.8681166<.00012359.05916218.3787077<.00013
LeastSquaresMeansforeffectbPr>|t|forH0:LSMean(i)=LSMean(j)DependentVariable:yi/j12310.08280.511720.08280.210530.51170.21052023/2/343
兩條或多條回歸直線的比較對(duì)兩條或多條回歸直線進(jìn)行比較,即檢驗(yàn)其總體回歸直線的斜率是否相等(回歸直線是否平行),檢驗(yàn)其總體截距是否相等。如兩者都相同即可合并為一條回歸直線。例11-4某地方病研究所調(diào)查了8名正常兒童和10名大骨節(jié)病兒童的年齡與其尿肌酐含量(mmol/24h),正常兒童數(shù)據(jù)見表11-1,大骨節(jié)病兒童數(shù)據(jù)見表11-3。是比較兩樣本尿肌酐含量(Y)對(duì)其年齡(X)的回歸直線是否平行。2023/2/344
表8名正常兒童和10名大骨節(jié)病患兒的年齡(歲)與尿肌酐含量(mmol/24h)正常兒童大骨節(jié)病患兒年齡,X尿肌酐含量,Y年齡,X尿肌酐含量,Y1311968101273.543.013.092.482.563.363.182.65109111215168710153.012.832.923.093.983.892.212.392.743.362023/2/345dataex11_4;doc=1to2;inputn;doi=1ton;inputxy@@;output;end;end;cards;8133.54113.0193.0962.4882.56103.36123.1872.6510103.0192.83112.92123.09153.98163.8982.2172.39102.74153.36;procglm;classc;modely=xcx*c/ss1;/*通過檢驗(yàn)交互作用看其回歸線是否平行*/procglm;classc;modely=xc/ss3;/*通過檢驗(yàn)兩組修正均數(shù)是否相同看其截距是否相同*/run;2023/2/346
TheGLMProcedureDependentVariable:ySumofSourceDFSquaresMeanSquareFValuePr>FModel33.442019961.1473399927.18
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 溫病息風(fēng)止痙法
- 消毒設(shè)備維護(hù)管理
- 沈陽城市學(xué)院《中國現(xiàn)代文學(xué)》2021-2022學(xué)年第一學(xué)期期末試卷
- 規(guī)劃課題申報(bào)范例:“五金”建設(shè)助推高職院校關(guān)鍵辦學(xué)能力提升的理論與實(shí)踐(附可修改技術(shù)路線圖)
- 精準(zhǔn)加油站租賃合同協(xié)議書
- 假山小區(qū)施工合同承包書
- 個(gè)人肖像定制畫師招聘合同
- 鄉(xiāng)村道路硬化合同樣本
- 籃球館舞蹈展覽租賃合同
- 品安全監(jiān)管財(cái)務(wù)規(guī)范
- 論高等院校開展工業(yè)設(shè)計(jì)專業(yè)的必要性
- 中央空調(diào)人員培訓(xùn)內(nèi)容表
- 發(fā)現(xiàn)生活中的美-完整版PPT
- 小學(xué)道德與法治人教三年級(jí)上冊(cè)第三單元安全護(hù)我成長-《遭遇陌生人》教案
- CAMDS操作方法及使用技巧
- 平狄克《微觀經(jīng)濟(jì)學(xué)》(第8版)筆記和課后習(xí)題詳解
- 最優(yōu)化理論與算法課程教學(xué)大綱
- 2022年湖北省武漢市江岸區(qū)育才第二小學(xué)六上期中數(shù)學(xué)試卷
- (最新版)中小學(xué)思政課一體化建設(shè)實(shí)施方案三篇
- PSA提氫裝置操作規(guī)程
- 水工隧洞概述(67頁清楚明了)
評(píng)論
0/150
提交評(píng)論