SAS2005 Ch7 相關(guān)與回歸分析_第1頁
SAS2005 Ch7 相關(guān)與回歸分析_第2頁
SAS2005 Ch7 相關(guān)與回歸分析_第3頁
SAS2005 Ch7 相關(guān)與回歸分析_第4頁
SAS2005 Ch7 相關(guān)與回歸分析_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

直線相關(guān)與回歸分析

LinearCorrelationandRegression相關(guān)分析和回歸分析是研究變量與變量間相互關(guān)系的重要方法。為此,SAS系統(tǒng)提供了強大的相關(guān)分析與回歸分析手段。相關(guān)分析可用CORR過程來處理,而回歸分析則可用REG過程來完成。當(dāng)然,特殊的回歸分析SAS提供了專用的過程。這里,僅僅討論CORR過程和REG過程的常規(guī)用法。

PROCCORR<option(s)>;

VARvariables;

WITHvariables;

PARTIALvariables;

一、直線相關(guān)分析

SAS提供的相關(guān)分析過程是CORR過程,它位于BASE模塊中,可以計算的相關(guān)系數(shù)有:Pearson積差相關(guān)系數(shù)、Spearman等級相關(guān)系數(shù)、Kendall‘stau-b統(tǒng)計量、Hoeffding’s獨立性分析統(tǒng)計量D。此外,還可以計算偏相關(guān)系數(shù)等。CORR過程只有第一條語句(下劃線部份)是必需的,其它語句都是可選的。常用語句及格式:語句說明1、PROCCORR[options];

這里的選項有20多項。我們現(xiàn)在只介紹最簡單的兩個選項:缺省值:即第一條語句只有兩個單詞加上分號,即

Proccorr;

這時,SAS系統(tǒng)計算Pearson積差相關(guān)系數(shù)(普通相關(guān)系數(shù))和進行顯著性檢驗,以及簡單統(tǒng)計量。Spearman:即Proccorr

spearman;

此時,SAS系統(tǒng)計算Spearman等級相關(guān)系數(shù)。2、VARvariables;

指明要計算相關(guān)系數(shù)的變量。3、WITHvariables;

與VAR語句配合使用。計算VAR語句指定的變量與WITH語句指定的變量間的相關(guān)系數(shù)。輸出的相關(guān)矩陣用VAR語句指定的變量作為列變量放在相關(guān)陣的上方,而用WITH語句指定的變量作為行變量放在相關(guān)陣的左邊。假如有以下兩句,

varxy;withab;

則,輸出的相關(guān)陣形式為:

xya

-0.08297-0.61185

0.8319

0.0799b

0.26553-0.14309

0.4899

0.7134例7-1為了了解年齡與總膽固醇之間的關(guān)系,隨機抽查了20高血脂病人治療前的總膽固醇水平(mmol/L)與年齡,資料見下表。試問年齡與膽固醇之間是否存在相關(guān)關(guān)系?首先建立SAS數(shù)據(jù)集dataex71;inputagechol;cards;24 5.4360 10.2728 7.49……….51 9.7234 5.7237 7.1231 7.54;run;由于數(shù)據(jù)太長,此處以省略號代之調(diào)用CORR過程PROC

CORRdata=ex71;RUN;程序中只有兩條語句,第一條語句調(diào)用CORR過程,并指明分析數(shù)據(jù)集;第二條詞句就是程序結(jié)束語句RUN。程序中沒有VAR語句,則SAS系統(tǒng)對數(shù)據(jù)集中所有數(shù)值型變量進行相關(guān)分析。分析結(jié)果TheCORRProcedure2Variables:agechol

SimpleStatisticsVariableNMeanStdDevSumMinimumMaximumage2039.4500013.01204789.0000020.0000060.00000chol208.205502.17555164.110004.7100011.73000

PearsonCorrelationCoefficients,N=20

Prob>|r|underH0:Rho=0

agecholage1.00000

0.84993

<.0001chol0.84993

<.00011.00000

CORR過程的默認(rèn)輸出結(jié)果主要包括各個變量的簡單統(tǒng)計描述和一個相關(guān)系數(shù)矩陣。簡單統(tǒng)計描述:包括變量名、例數(shù)、均數(shù)、標(biāo)準(zhǔn)差等,這些都是前面的統(tǒng)計過程經(jīng)常出現(xiàn)的。相關(guān)系數(shù)矩陣:

在相關(guān)系數(shù)矩陣的上方指明了相關(guān)系數(shù)的類型,如本例是”PearsonCorrelationCoefficients”,接下來就是對相關(guān)系數(shù)矩陣的說明,矩陣中每一個格子有兩個數(shù)據(jù),上方的數(shù)據(jù)是對應(yīng)變量的相關(guān)系數(shù),其下方的數(shù)據(jù)是該相關(guān)系數(shù)的顯著性檢驗。本例中,age與chol的相關(guān)系數(shù)r=0.84993,p<.0001,因此可以認(rèn)為年齡與膽固醇之間存在著較強的正相關(guān)。等級相關(guān)系數(shù)PROC

CORRSpearmandata=ex71;RUN;計算等級相關(guān)系數(shù)只需在調(diào)用CORR過程的語句中加入選項“Spearman”即可。SpearmanCorrelationCoefficients,N=20

Prob>|r|underH0:Rho=0

agecholage1.00000

0.84456

<.0001chol0.84456

<.00011.00000

本例計算的age與chol的等級相關(guān)系數(shù)rs=0.84456,p<.0001SAS提供的回歸分析的過程中,REG過程是一個最常用的過程。它采用最小二乘法擬合線性回歸模型,同時還提供多種“最優(yōu)”回歸子集的方法,是一個應(yīng)用廣泛的回歸過程。我們這里只介紹一元回歸的情形。二、直線回歸分析語句格式PROCREG[options];

MODELdependent=regressors;PRINTstb;PLOT[Y*X][/options];此過程中,下劃線的部份是必需的。語句說明1、PROCREG[options];

這里的選項有兩類共十項,我們只介紹兩項,其余的選項請查閱SAS幫助。CORR:對model語句中列出的變量輸出相關(guān)陣。SIMPLE:對用REG過程進行分析的每個變量輸出簡單統(tǒng)計量。2、MODELdependent=regressors;

指定因變量(dependent)和自變量(regressors),即指定回歸方程模型,如,y=x等。3、PRINTstb;

要求輸出標(biāo)準(zhǔn)化回歸系數(shù)。對于高版本的SAS系統(tǒng),REG過程不會自動輸出標(biāo)準(zhǔn)化回歸系數(shù),因此,需用該語句強制輸出標(biāo)準(zhǔn)化回歸系數(shù)。對于SAS6.12版,可以自動輸出標(biāo)準(zhǔn)化回歸系數(shù)。4、PLOT[Y*X];

以Y變量為縱軸、X變量為橫軸作散點圖,并自動繪制擬合的回歸直線。實例分析仍然采用例7-1的數(shù)據(jù)資料,試以膽固醇為應(yīng)變量,年齡為自變量建立直線回歸方程。數(shù)據(jù)集的建立完全同相關(guān)分析。PROCREG

data=ex71;MODEL

chol=age;RUN;調(diào)用REG過程進行回歸分析Model語句中,chol是應(yīng)變量,放在等號的左邊,age是自變量,放在等號的右邊。分析結(jié)果TheREGProcedureModel:MODEL1DependentVariable:cholAnalysisofVarianceSourceDFSumof

SquaresMean

SquareFValuePr

>

FModel164.9613664.9613646.84<.0001Error1824.965941.38700

CorrectedTotal1989.92730

RootMSE1.17771R-Square0.7224DependentMean8.20550AdjR-Sq0.7070Coeff

Var14.35267

ParameterEstimatesVariableDFParameter

EstimateStandard

Errort

ValuePr

>

|t|Intercept12.599510.860443.020.0073age10.142100.020766.84<.0001模型的顯著性檢驗一些統(tǒng)計量參數(shù)估計及檢驗結(jié)果的解釋結(jié)果主要分為三部份:回歸模型的顯著性檢驗、一些統(tǒng)計量、回歸參數(shù)的估計及檢驗。對回歸模型的顯著性檢驗:F=46.84,p<.0001,可以認(rèn)為回歸模型是成立的。一些統(tǒng)計量包括:RootMSE(均方根),即誤差均方的平方根;R-Square(R2),即決定系數(shù);AdjR-Sq(校正R平方);Coeff

Var(應(yīng)變量的變異系數(shù))。參數(shù)估計及檢驗:回歸方程的截距intercept=2.59951,自變量age的回歸系數(shù)為0.14210,因此回歸方程為:

chol=2.59951+0.14210age

對回歸系數(shù)的假設(shè)檢驗得t=6.84,p<0.0001,因此可以認(rèn)為回歸系數(shù)具有統(tǒng)計學(xué)意義,即總體回歸系數(shù)β≠0。以上結(jié)果均表明血中膽固醇水平與年齡之間具有直線關(guān)系。PROCREGdata=ex71;MODELchol=age;PRINTstb;PLOTchol*age;RUN;輸出標(biāo)準(zhǔn)化回歸系數(shù)及繪制回歸直線在程序中添加兩條語句(紅色部份)。PRINTstb;語句表示輸出標(biāo)準(zhǔn)化回歸系數(shù);PLOTc

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論