版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、統(tǒng)計學從數(shù)據(jù)到結(jié)論第七章 相關和回歸分析7.1 問題的提出對于現(xiàn)實世界,不僅要知其然,而且要知其所以然。顧客對商品和服務的反映對于企業(yè)是至關重要的,但是僅僅有滿意顧客的比例是不夠的;商家希望了解什么是影響顧客觀點的因素,及這些因素如何起作用。類似地,醫(yī)療衛(wèi)生部門不能僅僅知道某流行病的發(fā)病率,而且想知道什么變量影響發(fā)病率,以及如何影響。7.1 問題的提出發(fā)現(xiàn)變量之間的統(tǒng)計關系,并且用此規(guī)律來幫助我們進行決策才是統(tǒng)計實踐的最終目的。一般來說,統(tǒng)計可以根據(jù)目前所擁有的信息(數(shù)據(jù))來建立人們所關心的變量和其他有關變量的關系。這種關系一般稱為模型(model)。7.1 問題的提出假如用Y表示感興趣的變量
2、,用X表示其他可能與Y有關的變量(X也可能是若干變量組成的向量)。則所需要的是建立一個函數(shù)關系Y=f(X)。這里Y稱為因變量或響應變量(dependent variable, response variable),而X稱為自變量,也稱為解釋變量或協(xié)變量(independent variable, explanatory variable, covariate)。建立這種關系的過程就叫做回歸(regression)。7.1 問題的提出一旦建立了回歸模型,除了對變量的關系有了進一步的定量理解之外,還可以利用該模型(函數(shù))通過自變量對因變量做預測(prediction)。這里所說的預測,是用已知的自
3、變量的值通過模型對未知的因變量值進行估計;它并不一定涉及時間先后。先看幾個后面還要討論的數(shù)值例子。7.1 問題的提出例7.1 有50個從初中升到高中的學生。為了比較初三的成績是否和高中的成績相關,得到了他們在初三和高一的各科平均成績(數(shù)據(jù)在highschool.txt)。這兩個成績的散點圖展示在圖7.1中。有個上升趨勢;即初三時成績相對較高的學生,在高一時的成績也較高。但對于具體個人來說,大約有一半的學生的高一平均成績比初三時下降,而另一半沒有變化或有進步7.1 問題的提出目前的問題是怎么判斷這兩個變量是否相關、如何相關及如何度量相關?能否以初三成績?yōu)樽宰兞浚咭怀煽優(yōu)橐蜃兞縼斫⒁粋€回歸模型
4、以描述這樣的關系,或用于預測。7.1 問題的提出該數(shù)據(jù)中,除了初三和高一的成績之外,還有一個定性變量(沒有出現(xiàn)在上面的散點圖中)。它是學生在高一時的家庭收入狀況;它有三個水平:低、中、高,分別在數(shù)據(jù)中用1、2、3表示。為研究家庭收入情況對學生成績變化的影響,下面點出兩個盒形圖,左邊一個是不同收入群體的高一成績的盒形圖,右邊一個是不同收入群體的高一和初三成績之差的盒形圖??梢钥闯鍪杖敫叩蛯Ω咭怀煽兩杂杏绊懀蝗缡杖雽Τ煽兊淖兓ǜ咭缓统跞煽冎睿┑挠绊懩敲疵黠@。7.1 問題的提出到底學生在高一的家庭收入對成績有影響嗎?是什么樣的影響?是否可以取初三成績(這是定量變量)或(和)家庭收入(定性變
5、量)為自變量,而取高一成績?yōu)橐蜃兞?,來建立一個描述這些變量之間關系的回歸模型呢?7.1 問題的提出例7.2 這是200個不同年齡和性別的人對某項服務產(chǎn)品的認可的數(shù)據(jù)(logi.txt)。這里年齡是連續(xù)變量,性別是有男和女(分別用1和0表示)兩個水平的定性變量,而變量觀點則為包含認可(用1表示)和不認可(用0表示)兩個水平的定性變量(見下頁數(shù)據(jù))。想要知道的是年齡和性別對觀點有沒有影響,有什么樣的影響,以及能否用統(tǒng)計模型表示出這個關系。年齡和觀點的散點圖(左)和性別與觀點的條形圖; 7.2 定量變量的相關如果兩個定量變量沒有關系,就談不上建立模型或進行回歸。但怎樣才能發(fā)現(xiàn)兩個變量有沒有關系呢?最
6、簡單的直觀辦法就是畫出它們的散點圖。下面是四組數(shù)據(jù)的散點圖;每一組數(shù)據(jù)表示了兩個變量x和y的樣本。不相關 正線性相關 負線性相關 相關但非線性相關 7.2 定量變量的相關但如何在數(shù)量上描述相關呢?下面引進幾種對相關程度的度量。Pearson相關系數(shù)(Pearsons correlation coefficient)又叫相關系數(shù)或線性相關系數(shù)。它一般用字母r表示。它是由兩個變量的樣本取值得到,這是一個描述線性相關強度的量,取值于-1和1之間。當兩個變量有很強的線性相關時,相關系數(shù)接近于1(正相關)或-1(負相關),而當兩個變量不那么線性相關時,相關系數(shù)就接近0。7.2 定量變量的相關Kendal
7、l t 相關系數(shù)(Kendalls t)這里的度量原理是把所有的樣本點配對(如果每一個點由x和y組成的坐標(x,y)代表,一對點就是諸如(x1,y1)和(x2,y2)的點對),然后看每一對中的x和y的觀測值是否同時增加(或減少)。比如由點對(x1,y1)和(x2,y2),可以算出乘積(x2-x1)(y2-y1)是否大于0;如果大于0,則說明x和y同時增長或同時下降,稱這兩點協(xié)同(concordant);否則就是不協(xié)同。如果樣本中協(xié)同的點數(shù)目多,兩個變量就更加相關一些;如果樣本中不協(xié)同(discordant)的點數(shù)目多,兩個變量就不很相關。7.2 定量變量的相關Spearman 秩相關系數(shù)(Sp
8、earman rank correlation coefficient 或Spearmans r)它和Pearson相關系數(shù)定義有些類似,只不過在定義中把點的坐標換成各自樣本的秩(即樣本點大小的“座次”)。Spearman相關系數(shù)也是取值在-1和1之間,也有類似的解釋。通過它也可以進行不依賴于總體分布的非參數(shù)檢驗。7.2 定量變量的相關人們可能會問,上面的三種對相關的度量都是在其值接近1或-1時相關,而接近于0時不相關。到底如何才能夠稱為“接近”呢?這很難一概而論。但在計算機輸出中都有和這些相關度量相應的檢驗和p-值;因此可以根據(jù)這些結(jié)果來判斷是否相關(見下面例7.1的繼續(xù))。7.2 定量變量
9、的相關例7.1(繼續(xù))得到初三和高一成績的Pearson相關系數(shù),Kendall t 相關系數(shù)和Spearman 秩相關系數(shù)分別為0.795, 0.595和0.758。這三個統(tǒng)計量相關的檢驗(零假設均為不相關)全部顯著,p-值都是0.000。注意這種0.000的表示并不表示這些p-值恰好等于零,只是小數(shù)點前三位是0而已。7.3 定量變量的線性回歸分析對例7.1中的兩個變量的數(shù)據(jù)進行線性回歸,就是要找到一條直線來適當?shù)卮韴D1中的那些點的趨勢。首先需要確定選擇這條直線的標準。這里介紹最小二乘回歸(least squares regression)。古漢語“二乘”是平方的意思。這就是尋找一條直線,
10、使得所有點到該直線的豎直距離的平方和最小。用數(shù)據(jù)尋找一條直線的過程也叫做擬合(fit)一條直線。7.3 定量變量的線性回歸分析例7.1(繼續(xù))根據(jù)計算,找到初三成績和高一成績的回歸直線。計算機輸出給出來截距(Constant)26.444和斜率(變量j3的系數(shù)) 0.651。截距=26.444; 斜率=0.6517.3 定量變量的線性回歸分析這個直線實際上是對所假設的下面線性回歸模型的估計(這里的e是隨機誤差):我們得到的截距和斜率(26.444和0.651)是對b0和b1的估計。7.3 定量變量的線性回歸分析由于不同的樣本產(chǎn)生不同的估計,所以估計量是個隨機變量,它們也有分布,也可以用由他們構
11、造檢驗統(tǒng)計量來檢驗b0和b1是不是顯著。拿回歸主要關心的來說,假設檢驗問題是計算機輸出也給出了這個檢驗:t檢驗統(tǒng)計量為9.089,而p-值為0.000。7.3 定量變量的線性回歸分析除了對的檢驗之外,還有一個說明自變量解釋因變量變化百分比的度量,叫做決定系數(shù)(coefficient of determination,也叫測定系數(shù)或可決系數(shù)),用R2表示。對于例1,R2=0.632;這說明這里的自變量可以大約解釋63的因變量的變化。R2越接近1,回歸就越成功。由于R2有當變量數(shù)目增加而增大的缺點,人們對其進行修改;有一修正的R2(adjusted R square)。7.3 定量變量的線性回歸分
12、析此外,計算機還計算了一個在零假設下有F分布的檢驗統(tǒng)計量,它是用來檢驗回歸擬合好壞的(零假設是因變量和自變量沒有關系)。7.3 定量變量的線性回歸分析和剛才簡單的回歸模型類似,一般的有k個(定量)自變量x1, x2, xk的對因變量y的線性回歸模型為(稱為多元回歸)這里b0, b1, bk稱為回歸系數(shù)。對計算機來說,計算多個自變量的回歸和計算一個自變量的情況類似,計算機也會自動輸出相應的檢驗結(jié)果。1、虛擬變量的作用:(1)可以描述和測量定性因素的影響(2)能夠正確反映經(jīng)濟變量之間的相互關系,提高模型的精度。(3)便于處理異常數(shù)據(jù);當樣本資料中存在異常數(shù)據(jù)時,一般有三種處理方式,一是在樣本容量較
13、大的情況下直接剔除異常數(shù)據(jù);二是用平均數(shù)等方式修勻異常數(shù)據(jù);三是設置虛擬變量(即將異常數(shù)據(jù)作為一個特殊的定性因素。虛擬變量模型2、截距變動模型(一)只包含一個虛擬變量的截距變動模型如果回歸模型中只包含一個質(zhì)的因素,且這個因素僅有兩種特征,則回歸模型中只需引入一個虛擬變量例:假定我們有一個包括城鄉(xiāng)居民家庭收支狀況的樣本,并打算用這些數(shù)據(jù)估計消費函數(shù)。由于城鄉(xiāng)居民家庭和農(nóng)村居民家庭在消費水平上存在明顯差異,所以“地區(qū)”這個質(zhì)的因素是一個重要解釋變量。用一個虛擬變量來表示,消費函數(shù)為:用D1表示城鎮(zhèn)居民家庭這一特征,D0表示農(nóng)村居民家庭這一特征,并假定隨機誤差項滿足經(jīng)典回歸假定。上式可寫成可以看出,
14、二者有相同的斜率,但截距不同。結(jié)合上例,我們給出虛擬變量模型的幾個特性:1、以“0”“1”取值的虛擬變量所反映的內(nèi)容可以隨意設定。在上例中,也可以指定D1時為農(nóng)村居民家庭,而D0就必然為城鎮(zhèn)居民家庭。2、虛擬變量D0代表的特征或狀態(tài),通常用于說明基礎類型?;A類型是對比的基礎。3、基礎類型的截距系數(shù)稱為公共截距系數(shù),系數(shù)可稱為差別截距系數(shù)。4、如果一個回歸模型有截距項,對于具有兩種特征的質(zhì)的因素,只需引入一個虛擬變量,如果引入兩個虛擬變量,就會造成共線性的影響。一般規(guī)則:如果一個質(zhì)變量有m 種特征或狀態(tài),只需引入m-1 個虛擬變量。但如果回歸模型不包含截距項,則m種特征要引入m個虛擬變量。(二
15、)包含多個虛擬變量的截距系數(shù)如果一年有4個季節(jié),就需要引入三個虛擬變量,即注意:這里不能只設一個虛擬變量,如果那樣的話,實際上隱含了一個假定:不同季度之間的差異程度是相同的,這顯然不能合理區(qū)分四個季度的消費函數(shù)。3截距和斜率同時變動模型在很多情形下,質(zhì)的因素不僅會改變模型的截距,還會同時影響模型的斜率。例如,城鎮(zhèn)居民家庭與農(nóng)村居民家庭的消費函數(shù)不僅在截距上有差異,邊際消費傾向可有也會有所不同。這時回歸模型可記為:上式可表示為:若統(tǒng)計檢驗表明:4、包含多個質(zhì)的因素的虛擬變量模型在很多情況下,往往有多個質(zhì)的因素影響回歸模型的截距或斜率。例如,在研究居民消費行為時,可以考慮的質(zhì)的因素有戶主的性別、戶
16、主的年齡、戶主的文程度、地理區(qū)域等等。再如,除收入水平外,啤酒需求量還會受到季節(jié)、地區(qū)等我個質(zhì)的因素影響。如果假定食品需求受以下因素影響:1、戶主的收入水平2、戶主的性別、3、戶主的年齡:25歲以下;2550歲;50歲以上三組4、戶主的文化程度:初中、高中、大學則食品消費函數(shù)需要引入5個虛擬變量相應的回歸模型為:上例假定質(zhì)的因素只影響回歸模型的截距,由此不難推廣到更一般的情形。7.3 定量變量的線性回歸分析并且用數(shù)據(jù)來擬合所選的一個模型時,并不一定所有的變量都顯著(并不一定所有的系數(shù)都有意義)。軟件有一種一邊回歸,一邊檢驗的所謂逐步回歸(stepwise regression)方法。該方法或者
17、從只有常數(shù)項開始,逐個地把顯著的變量加入;或者從包含所有變量的模型開始,逐步把不顯著的變量減去。注意不同方向逐步回歸的結(jié)果也不一定相同。7.4 自變量中有定性變量的回歸在例7.1的數(shù)據(jù)中,還有一個自變量是收入,但它是定性變量,以虛擬變量或啞元(dummy variable)的方式出現(xiàn)。(這里收入的“低”,“中”,“高”,用1,2,3來代表)。如果要用這種啞元進行7.2節(jié)的回歸就沒有道理了??梢杂孟旅婺P兔枋觯?.4 自變量中有定性變量的回歸注意,啞元的各個參數(shù)a1, a2, a3本身只有相對意義,無法三個都估計,只能夠在有約束條件下才能夠得到估計。約束條件可以有很多選擇,一種默認的條件是把一個
18、參數(shù)設為0,比如a3=0,這樣和它有相對意義的a1和a2就可以估計出來了。對于例7.1得到對于例7.1,對b0, b1, a1, a2, a3的估計分別為28.708, 0.688, -11.066, -4.679, 0。7.5 Logistic 回歸但是如果因變量為取兩個值的定性變量,前面介紹的回歸模型就無法解決了。我們通過例7.2來介紹另一種回歸,即Logistic回歸(logistic regression)。例7.2數(shù)據(jù)前面已經(jīng)見到,有自變量性別、年齡和因變量觀點7.5 Logistic 回歸對此,人們通常會考慮下面的模型(稱為logistic回歸模型)為了循序漸近,先擬合沒有性別作為
19、自變量(只有年齡x)的模型7.5 Logistic 回歸很容易得到b0和b1的估計分別為2.381和-0.069。擬合的模型為7.5 Logistic 回歸下面再加上性別變量進行擬合,得到對b0, b1和a0, a1的估計(同樣事先確定為a1=0)分別為1.722, -0.072, 1.778, 0。對于女性和男性,該擬合模型分別可以表示為SPSS實現(xiàn)(logi.sav)AnalizeRegressionBinary Logistic,再把因變量(opinion)選入Dependent Variable,把自變量(age和sex)選入Covariates,Categorical,再把定性變量s
20、ex選入Categorical Covariate,回到主對話框,點擊OK即可得到結(jié)果。注:SPSS的syntax:LOGISTIC REGRESSION VAR=opinion /METHOD=ENTER age sex /CONTRAST (sex)=Indicator /CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .SPSS的數(shù)據(jù)輸入數(shù)據(jù)的鍵入(T01.sav)數(shù)據(jù)從其他文本讀入:File-Open-Data-文件類型(Sav,Excel,SAS,dBase,TXT等等) (T02.txt);散點圖定性變量的加權(每一行的權數(shù)等于該行被觀測到的次數(shù))(T03.sav)和不加權(T04.sav);條形圖,餅圖數(shù)據(jù)的變換(T01.sav)(多重散點圖,圖的編輯)SPSS的相關分析相關分析(hischool.sav)利用SPSS選項:AnalizeCorrelateBivariate再把兩個有關的變量(這里為j3和s1)選入,選擇Pearson,Spearman和Kendall就可以得出這三個相關系數(shù)和有關的檢驗結(jié)果了(零假設均為不相關)。SPSS的回歸分析自變量和因變量都是定量變量時的線性回歸分析(hischool.sav) 利用SPSS選項:AnalizeRegressionLinear再把有關的自變量選
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年光纖熔接項目定制協(xié)議
- 2024年企業(yè)員工派遣服務協(xié)議
- 2024南京住宅二手交易協(xié)議范本
- 2024年第三方商鋪租賃協(xié)議
- 商鋪租賃協(xié)議書2024年
- 2024年協(xié)議管理流程及崗位職責
- 2024年擔保公司貸款協(xié)議格式
- 2024水利設施堤壩施工合作協(xié)議
- 2024年酒店管理承包協(xié)議格式
- 2024年二手物資買賣協(xié)議模板
- 廉潔風險點及控制措施
- 2024年廣西來賓產(chǎn)業(yè)投資集團有限公司招聘筆試參考題庫含答案解析
- 項目管理甘特圖課件
- 2024年甘肅省普通高中信息技術會考試題(含24套)
- 我國的武裝力量課件
- 液化石油氣瓶安全使用告知書范文
- 供應室護理責任組長競聘
- 高中數(shù)學教師的專業(yè)發(fā)展路徑
- LTC與鐵三角從線索到回款
- 《旅游市場營銷》課程教學設計
- 工程流體力學課后習題答案-(杜廣生)
評論
0/150
提交評論