SAS系統(tǒng)和數(shù)據(jù)分析Spearman等級(jí)相關(guān)分析_第1頁
SAS系統(tǒng)和數(shù)據(jù)分析Spearman等級(jí)相關(guān)分析_第2頁
SAS系統(tǒng)和數(shù)據(jù)分析Spearman等級(jí)相關(guān)分析_第3頁
SAS系統(tǒng)和數(shù)據(jù)分析Spearman等級(jí)相關(guān)分析_第4頁
SAS系統(tǒng)和數(shù)據(jù)分析Spearman等級(jí)相關(guān)分析_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余22頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第三十課Spearman等級(jí)相關(guān)分析一、秩相關(guān)的Spearman等級(jí)相關(guān)分析前面介紹了使用非參數(shù)方法比較總體的位置或刻度參數(shù),我們同樣也可以用非參數(shù)方法比較兩總體之間的相關(guān)問題。秩相關(guān)(rankcorrelation)又稱等級(jí)相關(guān),它是一種分析x,y,等級(jí)間是否相關(guān)的方法。適用于某些不能準(zhǔn)確地測(cè)量指標(biāo)值而只能以嚴(yán)重程度、名次先后、反應(yīng)大小等定出的等級(jí)資料,也適用于某些不呈正態(tài)分布或難于判斷分布的資料。設(shè)R和Q分別為Xi和y各自在變量X和變量Y中的秩,如果變量X與變量Y之間存在著正相關(guān),那么X與Y應(yīng)當(dāng)是同時(shí)增加或減少,這種現(xiàn)象當(dāng)然會(huì)反映在(為,y)相應(yīng)的秩(R,Qi)±o反之,若(R,Qi)具有同步性,那么(X,X)的變化也具有同步性。TOC\o"1-5"\h\z因此:nn22d="di='、(Ri-Qi)(30.1)i1i1具有較小的數(shù)值。如果變量X與變量Y之間存在著負(fù)相關(guān),那么X與Y中一個(gè)增加時(shí),另一個(gè)在減小,d具有較大的數(shù)值。既然由(Xi,y)構(gòu)成的樣本相關(guān)系數(shù)反映了X與丫之間相關(guān)與否的信息,那么在參數(shù)相關(guān)系數(shù)的公式r(X,Y)中以R和Q分別代替Xi和yi,不是同樣地反映了這種信息嗎?基于這種想法,CharlesSpearman秩相關(guān)系數(shù)rs(R,Q)應(yīng)運(yùn)而生:TOC\o"1-5"\h\z一1一1一(30.2)、(Ri--"Ri)(Qi一Qi)rs(R,Q):nn(30.2).(Ri二Ri)2E(Qi匚Qi)2nnrs(R,Q)與r(X,Y)形式上完全一致,但在rs(R,Q)中的秩,不管X與Y取值如何,總是只取1到n之間的數(shù)值,因此它不涉及X與Y總體其他的內(nèi)在性質(zhì),例如,秩相關(guān)不需要總體具有有限兩階矩的要求。由于:二12二12_n(n1)

2n(n1)(2n1)n(n1)(2n1)

6nn'Ri2='、Qi2=1222n2i1i1因此,公式(30.2)可以化簡為:22(30.3)_1_6£(Ri—Qi)2_1_6£d:(30.3)rsn(n2-1)n(n2-1)n(n1)(2n1)-2._RiQi顯然在R=Qi時(shí),秩相關(guān)系數(shù)n(n1)(2n1)-2._RiQi一一、2__2__2___(Ri-Qi)='Ri,.二Qi-2.1.RiQi=而£RiQi在每對(duì)R+Qi=n+1時(shí)達(dá)到最小值,最小值求法為:'、(n1)2=、、Ri2八Qi22RQi所以,最小的£RiQi為:n(n1)2n(n1)(2n1)一62最大的z(Ri-Qi)為:2n(n1)(2n1)2=n(n2一1)一3故秩相關(guān)系數(shù)rs的最小值為1-2=-1o在原假設(shè)Ri在原假設(shè)Ri和Qi不相關(guān)的情況為真時(shí),即秩相關(guān)系數(shù)為0時(shí),rs的期望值ts為0,本的方差為2Sr2Srs1-%2

n-2(30.4)自由度為n-2且分布關(guān)于零點(diǎn)對(duì)稱。當(dāng)n之10時(shí),rs的樣本分布可以標(biāo)準(zhǔn)化為近似的t分布:?t(n-2)(30.5)?t(n-2)(30.5)例30.1某公司想要知道是否職工期望成為好的銷售員而實(shí)際上就能有好的銷售記錄。為了調(diào)查這個(gè)問題,公司的副總裁仔細(xì)地查看和評(píng)價(jià)了公司10個(gè)職工的初始面試摘要、學(xué)科成績、推薦信等材料,最后副總裁根據(jù)他們成功的潛能給出了單獨(dú)的等級(jí)評(píng)分。二年后獲得了實(shí)際的銷售記錄,得到了第二份等級(jí)評(píng)分,見表30.1中的第1到4列所示。統(tǒng)計(jì)問題為是否職工的銷售潛能與開始二年的實(shí)際銷售成績一致。

職,編號(hào)潛能等級(jí)R銷售成績成績等級(jí)Qidi=Ri-Qidi2124001112436031137300524412956-525562807—11633504—11710200100089260811982209—111053852392d;=44表30.1職工的銷售潛能與銷售成績的秩相關(guān)分析Spearman秩相關(guān)系數(shù)rs(R,Q)的計(jì)算過程見表30.1中的第5至U6列所不,最后計(jì)算結(jié)果為26di6(44)「1--.-=10.7333n(n2-1)10(100-1)表明潛能與成績之間是較強(qiáng)的正相關(guān),高的潛能趨向于好的成績。秩相關(guān)系數(shù)rs(R,Q)原假10-2設(shè)為0的t檢驗(yàn)統(tǒng)計(jì)量為:10-2=3.05t=0.73332=3.0511-(0.7333)2查表自由度為8,t=3.05的雙側(cè)p=0.0158。在0.05顯著水平上,t分布的上臨界點(diǎn)為2.30,由于3.05>2.30,因此,拒絕秩相關(guān)系數(shù)為0的原假設(shè),接受潛能與成績之間存在秩相關(guān)。Corr相關(guān)過程Corr相關(guān)過程用于計(jì)算變量之間的相關(guān)系數(shù),包括Pearson(皮爾遜)的乘積矩相關(guān)和加權(quán)乘積矩相關(guān)。還能產(chǎn)生三個(gè)非參數(shù)的關(guān)聯(lián)測(cè)量:Spearman的秩相關(guān),Kendall的tau-b和Hoeffding的相關(guān)性度量D。該過程也可以計(jì)算偏相關(guān)等一些單變量的描述性統(tǒng)計(jì)量。Corr過程說明proccorr過程一般由下列語句控制:proccorrdata=數(shù)據(jù)集<選項(xiàng)>;var變量列表;with變量列表;

partial變量列表weight變量;freq變量;By變量列表run;proccorr語句調(diào)用corr過程,且是唯一必需的語句。如果只使用proccorr這一條語句,過程計(jì)算輸入數(shù)據(jù)集中所有數(shù)值變量之間的相關(guān)系數(shù)。其余語句是供選擇的。proccorr語句的選項(xiàng)outp=數(shù)據(jù)集名產(chǎn)生含有Pearson相關(guān)系數(shù)的一個(gè)新數(shù)據(jù)集。0優(yōu)5=數(shù)據(jù)集名產(chǎn)生含有Spearman等級(jí)相關(guān)系數(shù)的一個(gè)新數(shù)據(jù)集。0優(yōu)卜=數(shù)據(jù)集名——產(chǎn)生含有Kendall°b相關(guān)系數(shù)的一個(gè)新數(shù)據(jù)集。0優(yōu)卜=數(shù)據(jù)集名產(chǎn)生含有HoeffdingD統(tǒng)計(jì)量的一個(gè)新數(shù)據(jù)集。pearson要求計(jì)算通常的pearson乘積矩相關(guān)系數(shù),是缺省值。hoeffding要求計(jì)算并輸出Hoeffding的D統(tǒng)計(jì)量。kendall——要求計(jì)算并輸出Kendalltb相關(guān)系數(shù)。spearman要求計(jì)算并輸出Spearman等級(jí)相關(guān)系數(shù)。vardef=df|weight|wgt|wdf指定計(jì)算方差時(shí)的除數(shù):df(自由度nT),weight或wgt(權(quán)重之和),n(觀察數(shù)),wdf(權(quán)重之和—1)。缺省值為df。cov計(jì)算協(xié)方差一方差矩陣。sscp要求輸出平方和與交叉積和。csscp要求輸出偏差平方和與交叉積和。bestWI妞t——對(duì)每個(gè)變量輸出指定個(gè)數(shù)的絕對(duì)值最大的相關(guān)系數(shù)。noprint禁止所有打印輸出。noprob禁止輸出同這些相關(guān)有聯(lián)系的顯著性概率。nosimple對(duì)原始數(shù)據(jù)執(zhí)行標(biāo)準(zhǔn)方差分析。rank要求按絕對(duì)值從高到低的次序?qū)γ總€(gè)變量輸出相關(guān)系數(shù)。nocorr抑制Pearson相關(guān)的計(jì)算及輸出。nomiss——將帶有某一變量缺失值的觀測(cè)值從所有計(jì)算中除去。nosimple不輸出每個(gè)變量的簡單描述性統(tǒng)計(jì)量。var語句該語句列出要計(jì)算相關(guān)系數(shù)的變量。例如,varabc;則計(jì)算a和b,a和c,b和c三對(duì)變量之間的相關(guān)系數(shù)。with語句為了得到變量間的特殊組合的相關(guān)系數(shù),該語句和var語句聯(lián)合使用。用var語句列出的變量在輸出相關(guān)陣的上方,而用with語句列出的變量豎在相關(guān)陣左邊。例如,varab;withxyz;則生成x和a,y和a,z和a,x和b,y和b,z和b。partial語句

為了計(jì)算Pearson偏相關(guān),Spearman偏秩相關(guān),Kendall偏tau-b,用該語句給出偏出去(即固定)的變量名。weight語句為了計(jì)算加權(quán)的乘積矩相關(guān)系數(shù),用該語句給出權(quán)數(shù)變量名。該語句僅用于Pearson相關(guān)。freq語句當(dāng)規(guī)定freq語句時(shí),輸入數(shù)據(jù)集中的每個(gè)觀察假定代表n個(gè)觀察,其中n是該觀察中freq變量中的值。觀察的總數(shù)規(guī)定為freq變量值的和。by語句使用by語句能夠獲得用by變量定義的分組觀察的獨(dú)立分析結(jié)果。三、實(shí)例分析例30.1的SAS程序如下:datastudy.persons;inputxy@@;y=400-y;cards;24004360730012956280335010200926082205385;proccorrdata=study.personsspearman;varx;withy;run;程序說明:建立輸入數(shù)據(jù)集persons,要注意實(shí)際數(shù)據(jù)所表示的等級(jí)次序大小與SAS系統(tǒng)中自動(dòng)給出的等級(jí)次序大小的不同。輸入變量x,獲彳#從1到10的數(shù)據(jù),表示潛能等級(jí)從最高到最低,而輸入變量y,獲得從最大銷售額400到最小銷售額220,轉(zhuǎn)換銷售成績等級(jí)應(yīng)該是從高到低,即從1到10。但在SAS系統(tǒng)中把銷售成績數(shù)值從小到大按等級(jí)值從1到10給予。因此,需要顛倒變量x或變量y中數(shù)值大小的次序,本程序用最大銷售額400減去原來的銷售額實(shí)現(xiàn)次序顛倒,即語句y=400-yo等級(jí)相關(guān)與一般參數(shù)相關(guān)一樣仍然調(diào)用corr過程,只需要在選擇項(xiàng)中指定為何種等級(jí)相關(guān),我們選擇計(jì)算spearman秩相關(guān)系數(shù)。var語句列出要計(jì)算相關(guān)系數(shù)的第一個(gè)變量x,with語句必須要與var語句聯(lián)合使用,列出的要計(jì)算相關(guān)系數(shù)的第二變量V。主要結(jié)果如表30.2所示。表30.2用corr過程進(jìn)行多樣本輸出結(jié)果

CorrelationAnalysis1"WITH'Variables:Y1'VAR'Variables:XSimpleStatisticsVariableNMeanStdDevMedianMinimumMaximumY1095.00000067.905163102.5000000200.000000X105.5000003.0276505.5000001.00000010.000000SpearmanCorrelationCoefficients/Prob>|R|underHo:Rho=0/N=10XY0.733330.0158結(jié)果說明:Spearman等級(jí)相關(guān)系數(shù)為0.73333,是一個(gè)比較大的正相關(guān)系數(shù)。這個(gè)相關(guān)系數(shù)為0的原假設(shè)檢驗(yàn)結(jié)果是p=0.0158<0.05,因此,我們拒絕相關(guān)系數(shù)為0的原假設(shè),接受了這個(gè)0.73333等級(jí)相關(guān)系數(shù)。結(jié)論為銷售潛能的高低與銷售成績好壞之間存在明顯的正相關(guān)性。第三十一課一元線性回歸分析回歸分析是一種統(tǒng)計(jì)分析方法,它利用兩個(gè)或兩個(gè)以上變量之間的關(guān)系,由一個(gè)或幾個(gè)變量來預(yù)測(cè)另一個(gè)變量。在SAS/STAT中有多個(gè)進(jìn)行回歸的過程,如REG、GLM等,REG過程常用于進(jìn)行一般線性回歸模型分析。四、回歸模型1.基本概念回歸模型是一種正規(guī)工具,它表示統(tǒng)計(jì)關(guān)系中兩個(gè)基本的內(nèi)容:①用系統(tǒng)的形式表示因變量Y隨一個(gè)或幾個(gè)自變量X變化的趨勢(shì);②表現(xiàn)觀察值圍繞統(tǒng)計(jì)關(guān)系曲線的散布情況。這兩個(gè)特點(diǎn)是由下列假設(shè)決定的:在與抽樣過程相聯(lián)系的觀察值總體中,對(duì)應(yīng)于每一個(gè)X值,存在Y的一個(gè)概率分布;這些概率分布的均值以一些系統(tǒng)的方式隨X變化。圖31.1是用透視的方法來顯示回歸曲線。Y對(duì)給定X具有概率分布這一概念總是與統(tǒng)計(jì)關(guān)系中的經(jīng)驗(yàn)分布形式上相對(duì)應(yīng);同樣,描述概率分布的均值與X之間關(guān)系的回歸曲線,與統(tǒng)計(jì)關(guān)系中丫系統(tǒng)地隨X變化的一般趨勢(shì)相對(duì)應(yīng)。

統(tǒng)計(jì)關(guān)系線oooooooooooooooooaooaOA-8TG543_2lo_s87-65432121111111111S1圖31.1線性回歸模型的圖示統(tǒng)計(jì)關(guān)系線oooooooooooooooooaooaOA-8TG543_2lo_s87-65432121111111111S1圖31.1線性回歸模型的圖示在回歸模型中,X稱為“自變量”,Y稱為“因變量”;這只是傳統(tǒng)的稱法,并不表明在給定的情況下Y因果地依賴于X,無論統(tǒng)計(jì)關(guān)系多么密切,回歸模型不一定是因果關(guān)系,在某些應(yīng)用中,比如我們由溫度表水銀柱高度(自變量)來估計(jì)溫度(因變量)時(shí),自變量實(shí)際上依賴于因變量。此外,回歸模型的自變量可以多于一個(gè)。2.回歸模型的構(gòu)造1)自變量的選擇構(gòu)造回歸模型時(shí)必須考慮到易處理性,所以在有關(guān)的任何問題中,回歸模型只能(或只應(yīng)該)包括有限個(gè)自變量或預(yù)測(cè)變量。2)回歸方程的函數(shù)形式選擇回歸方程函數(shù)形式與選擇自變量緊密相關(guān)。有時(shí)有關(guān)理論可能指出適當(dāng)?shù)暮瘮?shù)形式。然而,通常我們預(yù)先并不能知道回歸方程的函數(shù)形式,要在收集和分析數(shù)據(jù)后,才能確定函數(shù)形式。我們經(jīng)常使用線性和二次回歸函數(shù)來作為未知性質(zhì)回歸方程的最初近似值。圖31.2(a)表示復(fù)雜回歸函數(shù)可以由線性回歸函數(shù)近似的情況,圖31.2(b)表示復(fù)雜回歸函數(shù)可以由兩個(gè)線性回歸函數(shù)分段近似的情況。

圖31.2用線性回歸函數(shù)近似復(fù)雜回歸函數(shù)3)模型的范圍在建立回歸模型時(shí),通常需要限制模型的自變量或因變量取值的區(qū)間范圍,這個(gè)范圍由調(diào)查設(shè)計(jì)和已掌握數(shù)據(jù)的情況決定。4)回歸分析的運(yùn)用回歸分析主要有3個(gè)目的:描述,控制和預(yù)測(cè)。五、未指定誤差項(xiàng)分布的回歸模型1.模型的正規(guī)表述現(xiàn)在我們只限于一個(gè)自變量的基本回歸模型,且回歸函數(shù)是線性的,可表述如下:Y二二+PXt;t(31.1)其中,Yt是第t次觀測(cè)或試驗(yàn)中因變量的取值,3和P是參數(shù),Xt為第t次觀測(cè)或試驗(yàn)中自變量的取值,即是隨機(jī)誤差項(xiàng),其基本假設(shè)應(yīng)該滿足三個(gè)條件:均值E(.)=0方差Var(;t)=c-2協(xié)方差CovG,4)=0,當(dāng)產(chǎn)j時(shí)。即對(duì)所有的i#j,鳥與相互不相關(guān)模型(31.1)稱為簡單模型,參數(shù)是線性的,自變量也是線性的。所謂“簡單”,是因?yàn)樗挥幸粋€(gè)自變量,“參數(shù)線性”是指沒有參數(shù)具有指數(shù)形式,或者被另一個(gè)參數(shù)相乘或相除,“自變量線性”是指這個(gè)自變量是一次的。參數(shù)和自變量都是線性的模型稱為一階模型。

2.模型的重要特點(diǎn)第t次觀察中Y的觀察值Y包^2部分:常數(shù)項(xiàng)a十PXt和隨機(jī)項(xiàng)明的和。所以,Yt是隨機(jī)變量。因?yàn)镋(5)=0,這樣:E(Yt)-:XtE(--Xt(31.2)其中,n+PXt是常數(shù)。因此,當(dāng)?shù)趖次試驗(yàn)中X取為Xt時(shí),相應(yīng)的丫來自一個(gè)概率分布,其均值是:E(Yt)-:Xt(31.3)所以,模型(31.1)的回歸函數(shù)是:E(Y)=:X(31.4)這樣對(duì)任何給定的X,回歸函數(shù)把X水平與Y的概率分布均值聯(lián)系起來。在第t次試驗(yàn)中,Y的觀察值超過或低于回歸函數(shù)值的部分為誤差項(xiàng)部分碼。假設(shè)誤差項(xiàng)&具有相同的方差仃2,則相應(yīng)的Yt的方差為:Var(Yt)=c2這是因?yàn)椋篤ar(Yt)=Var(u+PXt+丸)=Var(羯)=仃2。無論自變量X取值如何,模型(31.1)總是假設(shè)Y的概率分布具有相同的方差仃2,且假設(shè)誤差項(xiàng)互不相關(guān)。因此,任何一次試驗(yàn)的結(jié)果對(duì)其他各次試驗(yàn)的誤差項(xiàng)都沒有影響,相應(yīng)的Y與Yj也互不相關(guān)??傊?,模型(31.1)的含義為:對(duì)所有水平的X來說,因變量觀察值Yt都來自均值E(YJ=u+BXt、方差仃2的概率分布。此外,任何兩個(gè)觀察值Yi與Yj是互不相關(guān)的。六、最小二乘估計(jì)法.觀測(cè)數(shù)據(jù)圖設(shè)有一組T期間內(nèi)關(guān)于二變量X和Y的樣本觀測(cè)值(為,乂)(t=1,2,…,N),在X和Y之間存在著函數(shù)關(guān)系,如果將這些觀測(cè)數(shù)據(jù),在2維平面上用圖來表示,只要數(shù)據(jù)至少有3個(gè)以上,那么所有的點(diǎn)大概不可能都在一條直線上。以被認(rèn)為在X和丫之間成立的

未知回歸直線:丫=:+X為中心,觀測(cè)點(diǎn)總是適當(dāng)?shù)厣⒉荚谄渲車?。未知回歸直線和各觀測(cè)點(diǎn)的垂直方向的間隔就是上節(jié)引進(jìn)的概率誤差項(xiàng)。由于a和B的數(shù)值未知,因此,不能準(zhǔn)確地知道與各觀測(cè)點(diǎn)對(duì)應(yīng)的概率誤差項(xiàng)的值。大致來說,可以認(rèn)為回歸直線是從散布在平面上的各觀測(cè)點(diǎn)的中央穿過的直線。根據(jù)所給的觀測(cè)數(shù)據(jù)來估計(jì)這條直線的位置(a和B的值),是我們需要解決的主要問題。.誤差二乘和的最小化估計(jì)回歸直線的方式(規(guī)則)有各種各樣的考慮。但是,對(duì)于確定儀和B的值時(shí),要使所有的觀測(cè)點(diǎn)和直線的“距離”從整體來說為最小這個(gè)一般的規(guī)則,大概無論誰也沒有異議。意見的分歧在于究竟要用什么尺度來衡量各觀測(cè)點(diǎn)和回歸直線的“距離”。也就是說,即使都承認(rèn)上述的一般規(guī)則,但由于按什么標(biāo)準(zhǔn)來測(cè)定“點(diǎn)和線的距離”的看法不同,推導(dǎo)出的估計(jì)方式也是多種多樣的。假定估計(jì)出的直線為:Y=二*:*X(31.5)則同X=Xt對(duì)應(yīng)的估計(jì)直線上的點(diǎn)是a*+p*xt。觀測(cè)點(diǎn)(xt,yt)同估計(jì)直線垂直方向的間隔:,*:*、et=yt-(二:xt)(31.1.6)叫做殘差(residual)。(這里將各觀測(cè)點(diǎn)看作是已經(jīng)觀測(cè)完畢的一對(duì)已知數(shù)組,用小寫字母來表示)。應(yīng)當(dāng)注意的是誤差項(xiàng)和殘差的區(qū)別:誤差項(xiàng)是未知回歸直線同觀測(cè)點(diǎn)的間隔,而殘差是已知的估計(jì)直線同觀測(cè)點(diǎn)的間隔。為了便于討論,我們暫且將測(cè)量點(diǎn)和直線之間距離的“評(píng)價(jià)函數(shù)”限定為殘差et的函數(shù)。對(duì)照我們的常識(shí),要求評(píng)價(jià)函數(shù)滿足以下各條件:)殘差可能為正也可能為負(fù),但不管是正的殘差還是負(fù)的殘差,只要其絕對(duì)值相等,用與直線的離差這一標(biāo)準(zhǔn)來衡量,就應(yīng)當(dāng)完全平等地評(píng)價(jià)。)評(píng)價(jià)函數(shù)必須是各殘差絕對(duì)值的非減函數(shù)。把評(píng)價(jià)函數(shù)記為V(e,e2,…,eN),將以上兩條件用數(shù)學(xué)方式表現(xiàn),可得:V(e1,e2,"1,eN)=丫峋,區(qū),…JeJ)(31.7)%-?!?2,N(31.8)同時(shí),為了方便起見,除以上2個(gè)條件外,暫且再追加以下2個(gè)條件。3)N個(gè)觀測(cè)點(diǎn)都具有同等資格。即et和es(t#s)作為評(píng)價(jià)函數(shù)的變量應(yīng)得到同樣的對(duì)待。這一條件同各期誤差項(xiàng)的方差為一定值的假定有著密切的關(guān)系。將條件(3)用數(shù)學(xué)方式表現(xiàn),可得,對(duì)于(1,2,…,N)的任意重新排列(i1,i2,…,iN)有:

V白色,,eN=v,e4)我們已經(jīng)假定時(shí)期不同的概率誤差項(xiàng)相互之間不相關(guān)。因此,評(píng)價(jià)函數(shù)中各e的作用最好是相互無關(guān)的。將這一敘述用數(shù)學(xué)方式表示,可得:-:2V=0,t=S(31.9)a:es根據(jù)以上的討論,備擇的評(píng)價(jià)函數(shù)被限定在相當(dāng)狹的范圍內(nèi),作為滿足資格的函數(shù),例如可以考慮:N

,kV=%|et|,k_1(31.10)t4當(dāng)k為偶數(shù)時(shí),絕對(duì)值的符號(hào)就失去意義。殘差是回歸系數(shù)的估計(jì)值(u,B)的函數(shù)。因此,如果給定了觀測(cè)數(shù)據(jù)(5,yt),則可以把V看作是以a*和B*為變量的二變量函數(shù)。從而可以考慮確定能使V為最小的u*和P*的值。當(dāng)然,使V的值為最小的a*和B*的值要依存于N個(gè)觀測(cè)數(shù)據(jù)。當(dāng)k=1時(shí),評(píng)價(jià)函數(shù)式(31.10)是殘差絕對(duì)值的總和。就某種意義來說,這一評(píng)價(jià)函數(shù)在直觀上也許是最容易理解的。通過使它為最小來確定儀和B的方式,叫做最小絕對(duì)離差估計(jì)法(leastabsolutedeviationestimationmethod)。當(dāng)k=2時(shí),評(píng)價(jià)函數(shù)是殘差的平萬和。確定能使這一評(píng)價(jià)函數(shù)為最小的ot和B的方式,便是最小二乘法(leastsquaresmethod)。令k=2,將式(31.6)代入式(31.10),可得:N**2Y='ytxt(31.11)11把樣本觀測(cè)值看作已知數(shù),從而可以把把樣本觀測(cè)值看作已知數(shù),從而可以把V當(dāng)作和P的函數(shù)來考慮,利用解決最大最小問題的方法,令V對(duì)口*和P*的偏導(dǎo)數(shù)為零,可以推導(dǎo)出關(guān)于口*和B*的二元聯(lián)立一次方程組為::VN*-*—--2yt-:--xt=0(31.12)二11—二一—二一2xtyt-二*xt=0(31.13)這一聯(lián)立方程叫做正規(guī)方程式,其解如下:'、Xt-Xyt-y(31.14)二*(31.14)一NvXt.X211=y——(31.15)_1N=y——(31.15)_1N_XXt,y=Nt4Nyt11(31.16)在求解時(shí),利用了下列恒等式:N在求解時(shí),利用了下列恒等式:N£(Xt-X)2t4因?yàn)椋琕因?yàn)?,V的駐點(diǎn)(使偏導(dǎo)數(shù)同時(shí)為0的a*和B*的值)只有唯一的一個(gè),而且通過增大*c*….一.U和P的值,可以使V無限增大,所以正規(guī)方程的解的確給出了V的最小值。于是,可知最小二乘估計(jì)量是:N'Xt-Xyt-y(31.17)?__u(31.17)-N,Xt-X211(31.18)dN.N—11\?(31.19)XXt,yyt(31.19)N11Nt凸3.最小二乘估計(jì)量的平均值和方差我們已經(jīng)相當(dāng)詳細(xì)地論述了關(guān)于“估計(jì)量的優(yōu)劣”問題的一般理論。從18世紀(jì)由高斯(Gauss)發(fā)明的所謂最小二乘法直到今天仍得到如此廣泛的實(shí)際運(yùn)用這一事實(shí)來看,最小二乘估計(jì)法理論應(yīng)具有某些特別的優(yōu)點(diǎn)。如前所述,最小二乘法并不是“確定使T個(gè)觀測(cè)點(diǎn)與回歸直線之間的距離就整體來說為最小的直線位置”的獨(dú)一無二的方法,它只不過是多種方法中的一個(gè)罷了。盡管如此,最小二乘法還能夠絕對(duì)地凌駕于其他任何方法之上,一直被應(yīng)用于現(xiàn)實(shí)數(shù)據(jù)的分析,這并不僅僅是由于計(jì)算簡單,而且還有其他合適的理由一一理論上的根據(jù)。事實(shí)上,在計(jì)算技術(shù)有了非常大的進(jìn)步的今天,計(jì)算簡便已經(jīng)不再具有那樣大的價(jià)值了。以下,我們首先來研究一下最小二乘估計(jì)量的性質(zhì)。將Yt=u+Pxt+,代入國估計(jì)量(31.17)和山估計(jì)量(31.18),并作以下變形:N「Xt-x;t?一vXt-X211Xxt-xN二iXt-Xt4是,0?和?的期望值分別為:從而很簡單地證明了山和?分別是a和B的無偏估計(jì)量。這樣,最小二乘估計(jì)量順利地通過了第一道關(guān)卡。既然已表明最小二乘估計(jì)量具有無偏性,那么下一個(gè)問題就是估計(jì)量的方差的大小。我們暫且先根據(jù)方差的公式進(jìn)行形式上的推導(dǎo)。2根據(jù)刖面的假te:Var(皆)=仃和Cov(7,€s)=0,由定義得o_2Var?=E?-:=-、xt-X2t白(31.24)按照同樣的方法也可以推導(dǎo)出:-1一一Oc1X2Var(<?)=E(<?-?j=仃一十而,NZ(xt-X2tv(31.25)這里順便再計(jì)算一下次和?的協(xié)方差:2Cov?,?=E?一=?--=-^—xxt-X211(31.26)從式(31.25)和式(31.26)可知,估計(jì)量的方差與樣本的大小大致成反比。同時(shí),解釋變量在較廣的范圍內(nèi)分布得越散,估計(jì)量的方差就越小。估計(jì)量的方差越小即意味著估計(jì)值的N精度越高。當(dāng)limZ(xt-X2=°°時(shí),0?和?都是一致估計(jì)量。N>:ztd七、檢驗(yàn)與預(yù)測(cè)從最小二乘估計(jì)表達(dá)式(31.17)和(31.18)知,只要給出了N組數(shù)據(jù)(為$)」=1,2,…,N,總可將它們代入這兩個(gè)表達(dá)式獲得儀和P的估計(jì),從而寫出回歸方程。但這個(gè)回歸方程是否有意義呢?需要有個(gè)檢驗(yàn)準(zhǔn)則。為作檢驗(yàn),首先要建立假設(shè)。我們求回歸方程的目的是要去反映y隨x變化的一種統(tǒng)計(jì)規(guī)律,那么如果P=0,從式(31.4)可知,不管x如何變化,Ey不會(huì)隨之而改變,在這種情況下求出的回歸方程是無意義的。所以,檢驗(yàn)回歸方程是否有意義的問題轉(zhuǎn)化為檢驗(yàn)下列假設(shè)是否為真:HO:二=0(31.27)常用的方法有F檢驗(yàn)和t檢驗(yàn)方法。1.F檢驗(yàn)這一方法類似于第三章所介紹的方差分析的想法,也是從觀察值的偏差平方和分解入手。我們觀察到的y1,y2,…,yN的差異可以用總偏差平方和表示:NTSS八(yi-y)2,dfT=N-1(31.28)i1造成這一差異的原因有如下兩個(gè)方面:一是由于假設(shè)B=0不真,從而對(duì)不同的x值,Ey隨x而變化。我們可以用下列偏差平方和來表示由此引起的差異:NRSS="(其-y)2,dfR=1(31.29)i1稱為回歸平方和。其中,濟(jì)=國+眼=?一股+取=y+敢X-x)。所以,公式(31.29)又可以寫成:NRSS="(?-y)2i1NN(31.30)一[?(x-x。]2=%(xi-x)2i1i1根據(jù)公式(31.24)可知,其期望值:

NE(RSS)=E?v(Xi-x)2i1N=[(E?)2Var(?)「(Xi—X)2(31.31)4N=-:2%(Xi—X)2:2i4這便表明,RSS中除了誤差波動(dòng)外,還反映了由于P#0所引起的數(shù)據(jù)間的差異。二是由其他一切隨機(jī)因素引起的差異,它可以用殘差平方和:N

2.ESS—(yi-?i),dfE=N-2(31.31)i4表示。由于可以證明:ESS/o2~2(N-2)(31.32)于是有:E(ESS)=(N-2)二2(31.33)所以,其自由度為N—2。利用公式£(y—%)=0,£(yi-y>i)Xi=0,從而有下列平方和分解式:2TSS="(yi-y)='、(yi-?i?i-y)=£(yi-?i)2+£(於-y)2(31.34)=ESSRSS由于在B=0為真時(shí),RSS與ESS/(N—2)都是◎2的無偏估計(jì),因而采用F統(tǒng)計(jì)量:2lRSS/1/1F2lRSS/1/1F-2ESS/-/(N-2)RSSESS/(N-2)~F(1,N-2)(31.35)來檢驗(yàn)原假設(shè)0=0是否為真。.t檢驗(yàn)由公式(31.24)和(31.25)知(31.36)2])(31.37)-212])(31.37)?~N([二[-N”(X-X)在原假設(shè)P=0在原假設(shè)P=0為真時(shí),二/「(Xi-X)2?N(0,1),但其中仃未知,常用92=ESS/(N-2)去代替,根據(jù)公式(31.32)和又與B獨(dú)立,從而在P=0時(shí)有:t;?/「(xit;?/「(xi-X)2實(shí)質(zhì)上,對(duì)于一元回歸方程二//Z(Xi-x)2:t(N-2),ES2S/(N-2)t檢驗(yàn)與F檢驗(yàn)是等價(jià)的,因?yàn)橹灰獙⒐?31.30)中的(31.38)RSS代入到公式(31.35)中去,就不難發(fā)現(xiàn)t2=F。我們同樣可以得到原假設(shè)a=0為真時(shí)的計(jì)量:t=?1/N-x2/xt=?1/N-x2/x(xi-x)2二1/Nx2/二:(xi-x)2ESS?t(N-2)(31.39)2CT/(N-2)(31.40)(31.41)Var(1)=1—十—x__-—(31.40)(31.41)Var(1)=1—十—x__-—尸2+-N工(Xt-X)2J-2X2_2X。;-22XX0;-'、'(xt-X)2(xt-x)21+(X0-X)2

T(31.42)N£(Xt—X)2_.利用回歸方程作預(yù)測(cè)當(dāng)求得回歸方程?=w+取后,并經(jīng)檢驗(yàn),方程是顯著的,則可將該回歸方程用于預(yù)測(cè)。所謂預(yù)測(cè)是指當(dāng)X取某一個(gè)具體值x0時(shí),對(duì)相應(yīng)的y取值y0所作的推斷。由模型知y0=a+Bx0+*是一個(gè)隨機(jī)變量,要預(yù)測(cè)隨機(jī)變量的取值是不可能的,只能預(yù)測(cè)其期望值E(y。)。根據(jù)前面公式(31.24)、(31.25)和(31.26)可知,在X=X0處的回歸值是?。=國+取0,且:%?N(E(?o),Var(?。))其中:E(?0)七°1(Xn-X)2其中,仃未知,用夕2=ESS/(N—2)去代替,設(shè)杠桿率h0=一十4———Nx(xt-x)2

預(yù)測(cè)均值?0的預(yù)測(cè)區(qū)間為:?0-1-/2■.h。;.?,y0t-.72..h。;-?(31.43)其中,tw2的自由度為N—2。注意在SAS系統(tǒng)model語句中的clm選項(xiàng)是按公式(31.43)來計(jì)算的。然而在x=x0時(shí),隨機(jī)變量y0的取值與預(yù)測(cè)均值y0總會(huì)有一定的偏離,我們根據(jù)公式(31.43)不難求出y0—?0的均值E(y0—?0)和方差Var(y0-%),且它符合正態(tài)分布,故有:y0-?y0-?0?1(x0-x)2N(0,1十一十」^0——NE(xt-x)2F2)(31.44)其中,仃未知,用夕2=ESS/(N—2)去代替,所以y0—?0的預(yù)測(cè)區(qū)間為:(y0-?0)-t:./2(1h°);?2,(y0-%)t:./2,(1h°)c?2(31.45)其中,J/2的自由度為N—2。注意在SAS系統(tǒng)model語句中的cli選項(xiàng)是按公式(31.44)來計(jì)算的。從方差Var(%-?0)表達(dá)式中我們可以看到,當(dāng)x0取值離均值x越近,預(yù)測(cè)精度就越好,當(dāng)凡取值離均值x越遠(yuǎn),預(yù)測(cè)精度就越差,其預(yù)測(cè)區(qū)間兩頭呈喇叭狀。因此,我們要特別注意入取值應(yīng)該在樣本數(shù)據(jù)最小的xi和最大的xi之間,否則預(yù)測(cè)很不可靠。八、回歸診斷回歸診斷主要用于檢驗(yàn)關(guān)于回歸假設(shè)是否成立,以及檢驗(yàn)?zāi)P托问绞欠皴e(cuò)誤,否則我們通過最小二乘法求得的回歸方程就缺乏理論依據(jù)。這些檢驗(yàn)主要探究的問題為:殘差是否為隨機(jī)性、是否為正態(tài)性、是否不為異方差。高度相關(guān)的自變量是否引起了共線性。模型的函數(shù)形式是否錯(cuò)誤或在模型中是否缺少重要的自變量。樣本數(shù)據(jù)中是否存在異常值。.殘差圖分析所謂殘差圖就是以殘差et=yt-y?t為縱坐標(biāo),某一個(gè)合適的自變量為橫坐標(biāo)的散點(diǎn)圖。殘差中包含了許多有關(guān)數(shù)據(jù)和模型的信息,它是研究回歸診斷最基本及最重要的統(tǒng)計(jì)量。殘差圖分析的基本思想是,在回歸模型的假設(shè)中,我們總是假定誤差項(xiàng)是獨(dú)立的正態(tài)分布隨機(jī)變量,且均值為零和方差相等為仃2。如果模型適合于觀察到的數(shù)據(jù),那么殘差et作為誤差S

的無偏估計(jì)?,應(yīng)基本反映誤差5的假設(shè)習(xí)性。即殘差圖應(yīng)該在零點(diǎn)附近對(duì)稱地密布,越遠(yuǎn)31.331.3Q)正常:正態(tài)分布(b)異常點(diǎn):可疑偏高很大點(diǎn)(G異方液:殘差隨工而嚕大(d)異方差,優(yōu)差髓.而增臧非葩機(jī)性*建差非線性趨勢(shì)仃)非髓機(jī)性,殘差線性趨勢(shì)Q)正常:正態(tài)分布(b)異常點(diǎn):可疑偏高很大點(diǎn)(G異方液:殘差隨工而嚕大(d)異方差,優(yōu)差髓.而增臧非葩機(jī)性*建差非線性趨勢(shì)仃)非髓機(jī)性,殘差線性趨勢(shì)圖31.3殘差的主要幾種類型若殘差圖呈現(xiàn)如圖31.3(a)所示的形式,殘差是隨機(jī)的且不表示出一定的趨勢(shì)與形式,我們認(rèn)為建立的回歸模型應(yīng)診斷為無甚大問題。更進(jìn)一步的診斷應(yīng)該采用學(xué)生化殘差鑒別是否正態(tài)性。一個(gè)簡單的思想就是,如果模型假設(shè)正確的話,殘差就應(yīng)該是誤差的良好估計(jì),那么殘差全體構(gòu)成的直方圖應(yīng)當(dāng)與正態(tài)曲線很相似。我們可以求出估計(jì)殘差的方差Var(就),且符合正態(tài)分布:一ESS(31.46)2?N(0,(1-ht)——-)(31.46)N-2那么學(xué)生化殘差:Yt-7tVar(?)..Yt-7tVar(?)..(1-ht)ESS/(N-2)?N(0,1)(31.47)則遵循標(biāo)準(zhǔn)正態(tài)分布。在實(shí)際中,學(xué)生化殘差常與yt配合作圖,會(huì)有更好的直觀判斷效果。若殘差圖呈現(xiàn)如圖31.3(b)所示的形式,有一個(gè)對(duì)既定模型偏離很大的觀察數(shù)據(jù)點(diǎn),稱為異常點(diǎn)。如果懷疑異常點(diǎn)是由于記錄數(shù)據(jù)中發(fā)生的錯(cuò)誤或者在測(cè)量過程中采用了拙劣的技巧,我們理應(yīng)從數(shù)據(jù)集中刪除,重新回歸模型。但對(duì)異常點(diǎn)的處理須持謹(jǐn)慎態(tài)度,因?yàn)楫惓|c(diǎn)的出現(xiàn)可能代表了相當(dāng)重要的某些數(shù)據(jù),它恰好成為我們探究某些事先不清楚或許是更為重要的因素的線索。在SAS系統(tǒng)的reg回歸過程中用來度量異常點(diǎn)影響大小的統(tǒng)計(jì)量是COOKD統(tǒng)計(jì)量,計(jì)算方法請(qǐng)參閱SAS/STAT軟件使用手冊(cè)。若殘差圖呈現(xiàn)如圖31.3(c)所示的形式,殘差隨x的增大而增大。如圖31.3(d)所示的形式,殘差隨x的增大而先增后減,則蘊(yùn)含著殘差乃至誤差對(duì)于不同的觀察值具有不同的方差變化,稱為異方差。在這種場(chǎng)合應(yīng)該考慮在回歸之前對(duì)數(shù)據(jù)y或x進(jìn)行變換,實(shí)現(xiàn)方差穩(wěn)定后再擬合回歸模型。原則上,當(dāng)誤差方差變化不太快時(shí)取變換,當(dāng)誤差方差變化較快時(shí)取變換logy或lny,當(dāng)誤差方差變化很快時(shí)取變換1/y。當(dāng)然,還存在著不少其他變y1換,如著名的Box-Cox哥變換y。九若殘差圖呈現(xiàn)如圖31.3(e)所示的形式,顯示了模型本身具有非線性趨勢(shì),或者提示人們?cè)谀P椭惺欠窈雎粤巳舾芍匾淖兞?。如圖31.3(f)所示的形式,顯示了模型本身具有線性趨勢(shì)。同樣表示了模型的錯(cuò)誤選定。.共線性回歸研究中很容易發(fā)生模型中兩個(gè)或兩個(gè)以上的自變量高度相關(guān),從而引起最小二乘估計(jì)可能很不精確。高度相關(guān)的自變量以及由它們所引起的估計(jì)問題合在一起稱之為共線性(collinearity)問題。為什么共線性會(huì)引起參數(shù)估計(jì)可能很不精確呢?主要原因是最小二乘法所利用的數(shù)據(jù)信息,如果存在共線性,就可能已經(jīng)被其他的自變量說明了大部分,因此用剩余的少量數(shù)據(jù)估計(jì)參數(shù),將產(chǎn)生估計(jì)參數(shù)的方差很大,置信區(qū)間也會(huì)很大,假設(shè)檢驗(yàn)也使人缺乏信任感。在實(shí)際中,最常見的問題是一些重要的自變量很可能由于在假設(shè)檢驗(yàn)中t值不顯著而被不恰當(dāng)?shù)靥蕹?。共線性診斷問題就是要找出哪些變量間存在共線性關(guān)系。SAS系統(tǒng)的reg過程中提供了特征值法、條件指數(shù)collin和方差膨脹因子vif,請(qǐng)參閱SAS/STAT軟件使用手冊(cè)。.誤差的獨(dú)立性在回歸診斷中,有一個(gè)非常重要的回歸模型假設(shè)需要診斷和檢驗(yàn),那就是回歸模型中的誤差項(xiàng)的獨(dú)立性。如果誤差項(xiàng)不獨(dú)立,那么我們對(duì)回歸模型的許多處理,包括誤差項(xiàng)估計(jì)、假設(shè)檢驗(yàn)等都將沒有推導(dǎo)依據(jù)。由于殘差是誤差的合理估計(jì),因此檢驗(yàn)統(tǒng)計(jì)量通常是建立在殘差的基礎(chǔ)上。檢驗(yàn)誤差獨(dú)立性的最常用方法,是對(duì)殘差的一階自相關(guān)性進(jìn)行Durbin-Watson檢驗(yàn)。原假設(shè)H0:誤差項(xiàng)是相互獨(dú)立的,備選假設(shè)Hi:誤差項(xiàng)是相關(guān)的。檢驗(yàn)統(tǒng)計(jì)量為:NDW八(et-et)/ESS(31.48)t=2我們可以通過簡單不等式證明:NNNN0M%(et-己二)2工2Qet2—二e^)<4"e;=4ESSt=2t-2t-214因此,DW統(tǒng)計(jì)量應(yīng)滿足:0MDW;4(31.49)如果DW接近于0,表示殘差中存在正自相關(guān);如果DW接近于4,表示殘差中存在負(fù)自相關(guān);如果DW接近于2,表示殘差獨(dú)立性。在給定顯著水平?下,我們可以查Durbin-Watson表得到不能拒絕獨(dú)立性原假設(shè)的區(qū)間DWl<DW<DWu。上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系IS/SHUFEPage19of24九、PROCREG過程它的一般格式為:PROCREG<>;MODELdependents=independents/<選項(xiàng)歹U表>其它選擇語句;RUN;PROCREG語句中的<選項(xiàng)列表>OUTEST=SAS數(shù)據(jù)集一一將有關(guān)模型的參數(shù)輸出到指定的SAS數(shù)據(jù)集中OUTSSCP=SAS數(shù)據(jù)集一一將相關(guān)矩陣輸出到指定的SAS數(shù)據(jù)集中ALL一一屏幕輸出所有內(nèi)容NOPRINT——不在屏幕輸出任何內(nèi)容MODEL語句中的選項(xiàng)該語句定義建模用的因變量、自變量、模型的選擇及結(jié)果輸出的選擇。與模型有關(guān)的選項(xiàng)有:.SELECTION一一選擇合適的建立模型方法SELECTION=FORWARDSLENTRY=顯著性水平前進(jìn)法(FORWARD):對(duì)每一個(gè)尚不在方程內(nèi)的自變量按一定的顯著性水平,根據(jù)其一旦進(jìn)入模型后對(duì)模型的貢獻(xiàn)大小逐步引入方程,直至再?zèng)]有對(duì)模型有顯著貢獻(xiàn)的自變量。缺省SLENTRY=0.5SELECTION=BACKWARDSLSTAY=顯著性水平后退法(BACKWARD):先建立包含全部變量的模型,然后按一定的顯著性水平從模型中逐步剔除變量。缺省SLSTAY=0.1SELECTION=STEPWISESLENTRY=入選水平SLSTAY=易U除水平逐步法(STEPWISE):按前進(jìn)法進(jìn)入變量,再對(duì)模型內(nèi)所有變量檢驗(yàn),看是否有新因變量引入而對(duì)模型的貢獻(xiàn)變得不顯著的變量,若有就剔除,若無則保留,直至方程內(nèi)所有的變量均顯著,顯然逐步法有兩個(gè)水平,即選入水平和剔除水平,而且剔除水平應(yīng)低于選入水平。。缺省SLENTRY=0.15SLSTAY=0.1在上述三種方法的使用中,若要求打印出每一次選入或剔除變量進(jìn)行模型擬合時(shí)的所有統(tǒng)計(jì)量,可以加選DETAILS。.NOINT一一表示擬合無常數(shù)項(xiàng)(截距)的回歸模型與屏幕輸出有關(guān)的選項(xiàng)有:CORRB一一輸出參數(shù)估計(jì)的相關(guān)陣STB一一輸出標(biāo)準(zhǔn)化偏回歸系數(shù)矩陣

P——輸出個(gè)體觀測(cè)值、預(yù)測(cè)值及殘差。若已選了CLI、CLM、R,則無需該選項(xiàng)R——輸出每個(gè)個(gè)體觀測(cè)值、殘差及標(biāo)準(zhǔn)誤差CLM——輸出每個(gè)觀測(cè)值因變量期望值的95%的上、下限CLI——輸出每個(gè)個(gè)體觀測(cè)值的95%的上、下限與殘差分析有關(guān)的選項(xiàng)有:VIF輸出變量間相關(guān)性的方差膨脹系數(shù)(VarianceInflationFactor),VIF越大,說明由于共線性存在,使方差變大。COLLIN——輸出條件數(shù)(Conditionindex),它表示最大的本征性與每個(gè)自變量本征值之比的平方根。一般情況下,條件數(shù)越大越可能存在共線性。TOL——表示共線性水平的容許值,TOL(ToleranceValue)越小說明其可用別的自變量解釋的部分多,自然可能與別的自變量存在共線性關(guān)系。DW——D^出Durbin-Watson統(tǒng)計(jì)量3.其他選擇語句注意,這部分的語句可以在REG過程被被激活后,以交互式方式運(yùn)行。OUTPUT語句一一建立SAS的輸出結(jié)果數(shù)據(jù)集語句格式為:OUTPUTOUT=SAS數(shù)據(jù)集名關(guān)鍵字名=輸出數(shù)據(jù)集中的變量名其中關(guān)鍵字名為需要的統(tǒng)計(jì)量名,它們有P(預(yù)測(cè)值)、R(殘差)、L95M(期望值的95%的下限)、U95M(期望值的95%的上限)、L95(個(gè)體預(yù)測(cè)值的95%的下限)、U95(個(gè)體預(yù)測(cè)值的95%的上限)、STDP(期望值的標(biāo)準(zhǔn)誤差)、STDR(殘差的標(biāo)準(zhǔn)誤差)、STDI(預(yù)測(cè)值的標(biāo)準(zhǔn)誤差)、STUDENT(學(xué)生化殘差)、COOKD(COOK氏D值)PLOT語句一一繪制兩變量的散點(diǎn)圖語句格式為:PLOTX*Y/選項(xiàng)ADD變量名列表——向模型中增加變量DELETE變量名列表一一刪除原擬合模型中的有關(guān)變量REFIT——重新擬合模型PRINT——輸出有關(guān)模型的相關(guān)信息七、應(yīng)用舉例例31.1廣告花費(fèi)X與銷售額Y的回歸模型。大多數(shù)公司最終會(huì)詢問關(guān)于花費(fèi)在廣告上的費(fèi)用對(duì)公司產(chǎn)品銷售額的影響程度。由于廣告需要一定的時(shí)間才能達(dá)到它的效應(yīng),同時(shí)它的效應(yīng)也不是永久持續(xù)的,它的影響也許僅僅延續(xù)開頭的一段時(shí)期。假設(shè)公司相信銷售額與當(dāng)月以及前兩個(gè)月內(nèi)所花的廣告費(fèi)有較密切的關(guān)系,即意味著:Yt與Xt,Xt-1,Xt-2有密切的關(guān)系。假設(shè)它們之間存在線性關(guān)系,建立模型為:Yt=3o+31Xt+32Xt-1+33Xt-2+et我們現(xiàn)在有某公司15個(gè)月內(nèi)有關(guān)廣告花費(fèi)X與銷售額丫的數(shù)據(jù),如表31.1所示。表31.1廣告額與銷售額月t月銷售額Yt月廣告花費(fèi)Xt129452802429540035645450

4699559058345650696

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論