統(tǒng)計(jì) 第十章 相關(guān)與回歸分析_第1頁
統(tǒng)計(jì) 第十章 相關(guān)與回歸分析_第2頁
統(tǒng)計(jì) 第十章 相關(guān)與回歸分析_第3頁
統(tǒng)計(jì) 第十章 相關(guān)與回歸分析_第4頁
統(tǒng)計(jì) 第十章 相關(guān)與回歸分析_第5頁
已閱讀5頁,還剩104頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第十章相關(guān)與回歸分析第一節(jié)相關(guān)關(guān)系及種類第二節(jié)定類變量的相關(guān)分析第三節(jié)定序變量的相關(guān)分析第四節(jié)定距變量的相關(guān)分析第五節(jié)回歸分析社會(huì)上,許多現(xiàn)象之間也都有相互聯(lián)系,例如:身高與體重、教育程度和收入、學(xué)業(yè)成就和家庭環(huán)境、智商與父母智力等。在這些有關(guān)系的現(xiàn)象中,它們之間聯(lián)系的程度和性質(zhì)也各不相同。這一章我們不僅要對相關(guān)關(guān)系的存在給出判斷,還要對相關(guān)關(guān)系的強(qiáng)度給出測量,同時(shí)要揭示兩變量間的因果聯(lián)系,其內(nèi)容分為相關(guān)分析和回歸分析這兩個(gè)大的方面。概念要點(diǎn):相關(guān):一個(gè)變量值與另一個(gè)變量值有連帶性。正相關(guān)與負(fù)相關(guān);對稱關(guān)系與不對稱關(guān)系;相關(guān)關(guān)系的“有、無”與“大、小”之間的區(qū)別;相關(guān)關(guān)系與函數(shù)關(guān)系的區(qū)別與聯(lián)系;相關(guān)關(guān)系與因果關(guān)系的區(qū)別與聯(lián)系;第一節(jié)變量之間的相互關(guān)系函數(shù)關(guān)系現(xiàn)象之間確實(shí)存在數(shù)量上的相互依存關(guān)系。表現(xiàn)在:一個(gè)現(xiàn)象發(fā)生數(shù)量上的變化,另一個(gè)與之相聯(lián)系的現(xiàn)象也會(huì)相應(yīng)地發(fā)生數(shù)量上的變化。相關(guān)關(guān)系現(xiàn)象之間數(shù)量上不確定、不嚴(yán)格的依存關(guān)系。相關(guān)關(guān)系的全稱為統(tǒng)計(jì)相關(guān)關(guān)系,它屬于變量之間的一種不完全確定的關(guān)系。

相關(guān)關(guān)系與函數(shù)關(guān)系⒈出租汽車費(fèi)用與行駛里程:總費(fèi)用=行駛里程每公里單價(jià)⒉家庭收入與恩格爾系數(shù):家庭收入高,則恩格爾系數(shù)低。函數(shù)關(guān)系(確定性關(guān)系)相關(guān)關(guān)系(非確定性關(guān)系)比較下面兩種現(xiàn)象間的依存關(guān)系相關(guān)關(guān)系與函數(shù)關(guān)系的區(qū)別函數(shù)關(guān)系是變量之間的一種嚴(yán)格、完全確定性的關(guān)系,即一個(gè)變量的數(shù)值完全有另一個(gè)(或一組)變量的數(shù)值所決定、控制。函數(shù)關(guān)系通常可以用數(shù)學(xué)公式確切地表示出來。相關(guān)關(guān)系難以像函數(shù)關(guān)系那樣,用數(shù)學(xué)公式去準(zhǔn)確表達(dá)。

相關(guān)關(guān)系與函數(shù)關(guān)系的聯(lián)系由于客觀上常會(huì)出現(xiàn)觀察或測量上的誤差等原因,函數(shù)關(guān)系在實(shí)際工作中往往通過相關(guān)關(guān)系表現(xiàn)出來。當(dāng)人們對某些現(xiàn)象內(nèi)部規(guī)律有較深刻認(rèn)識時(shí),相關(guān)關(guān)系可能變?yōu)楹瘮?shù)關(guān)系。為此,在研究相關(guān)關(guān)系時(shí),又常常使用函數(shù)關(guān)系作為工具,用一定的函數(shù)關(guān)系表現(xiàn)相關(guān)關(guān)系的數(shù)量聯(lián)系。相關(guān)關(guān)系的種類根據(jù)相關(guān)關(guān)系的程度劃分根據(jù)相關(guān)關(guān)系的方向劃分根據(jù)自變量的多少劃分根據(jù)變量間相互關(guān)系的表現(xiàn)形式劃分不完全相關(guān)完全相關(guān)不相關(guān)正相關(guān)負(fù)相關(guān)復(fù)相關(guān)單相關(guān)直線相關(guān)曲線相關(guān)1、不相關(guān)。

如果變量間彼此的數(shù)量變化互相獨(dú)立,則其關(guān)系為不相關(guān)。自變量x變動(dòng)時(shí),因變量y的數(shù)值不隨之相應(yīng)變動(dòng)。例如,產(chǎn)品稅額的多少與工人的出勤率、家庭收入多少與孩子的多少之間都不存在相關(guān)關(guān)系。2、完全相關(guān)。如果一個(gè)變量的變化是由其他變量的數(shù)量變化所唯一確定,此時(shí)變量間的關(guān)系稱為完全相關(guān)。即因變量y的數(shù)值完全隨自變量x的變動(dòng)而變動(dòng),它在相關(guān)圖上表現(xiàn)為所有的觀察點(diǎn)都落在同一條直線上,這種情況下,相關(guān)關(guān)系實(shí)際上是函數(shù)關(guān)系。所以,函數(shù)關(guān)系是相關(guān)關(guān)系的一種特殊情況。3、不完全相關(guān)。如果變量間的關(guān)系介于不相關(guān)和完全相關(guān)之間,則稱為不完全相關(guān)。如婦女的結(jié)婚年齡與受教育程度之間的一種關(guān)系。大多數(shù)相關(guān)關(guān)系屬于不完全相關(guān),是統(tǒng)計(jì)研究的主要對象根據(jù)相關(guān)關(guān)系的程度劃分由于數(shù)學(xué)手段上的局限性,統(tǒng)計(jì)學(xué)探討的最多的是定距—定距變量間能近似地表現(xiàn)為一條直線的線性相關(guān)。在統(tǒng)計(jì)中,對于線性相關(guān),采用相關(guān)系數(shù)(記作r)這一指標(biāo)來量度相關(guān)關(guān)系程度或強(qiáng)度。就線性相關(guān)來說,當(dāng)|r|=l時(shí),表示為完全相關(guān);當(dāng)|r|

=0時(shí),表現(xiàn)為無相關(guān)或零相關(guān);當(dāng)0<|r|<1時(shí),表現(xiàn)為不完全相關(guān)。1、正相關(guān)。指兩個(gè)因素(或變量)之間的變化方向一致,都是呈增長或下降的趨勢。即自變量x的值增加(或減少),因變量y的值也相應(yīng)地增加(或減少),這樣的關(guān)系就是正相關(guān)。例如,工業(yè)總產(chǎn)值增加,企業(yè)稅利總額也隨之增加;家庭消費(fèi)支出隨收入增加而增加等。2、負(fù)相關(guān)。指兩個(gè)因素或變量之間變化方向相反,即自變量的數(shù)值增大(或減?。蜃兞侩S之減?。ɑ蛟龃螅H鐒趧?dòng)生產(chǎn)率提高,產(chǎn)品成本降低;產(chǎn)品成本降低,企業(yè)利潤增加等。要強(qiáng)調(diào)的是,只有定序以上測量層次的變量才分析相關(guān)方向,根據(jù)相關(guān)關(guān)系的方向劃分1、單相關(guān)。兩個(gè)因素之間的相關(guān)關(guān)系叫單相關(guān),即研究時(shí)只涉及一個(gè)自變量和一個(gè)因變量。2、復(fù)相關(guān)。三個(gè)或三個(gè)以上因素的相關(guān)關(guān)系叫復(fù)相關(guān),即研究時(shí)涉及兩個(gè)或兩個(gè)以上的自變量和因變量。根據(jù)自變量的多少劃分1、直線相關(guān)(或線性相關(guān))。當(dāng)相關(guān)關(guān)系的自變量x發(fā)生變動(dòng),因變量y值隨之發(fā)生大致均等的變動(dòng),從圖像上近似地表現(xiàn)為直線形式,這種相關(guān)通稱為直線(或線性)相關(guān)。例如,銷售量與銷售額之間就呈直線相關(guān)關(guān)系。2、曲線(或非線性)相關(guān)。在兩個(gè)相關(guān)現(xiàn)象中,自變量x值發(fā)生變動(dòng),因變量y也隨之發(fā)生變動(dòng),這種變動(dòng)不是均等的,在圖像上的分布是各種不同的曲線形式,這種相關(guān)關(guān)系稱為曲線(或非線性)相關(guān)。曲線相關(guān)在相關(guān)圖上的分布,表現(xiàn)為拋物線、雙曲線、指數(shù)曲線等非直線形式。例如,從人的生命全過程看,年齡與醫(yī)療費(fèi)支出呈非線性相關(guān)。根據(jù)變量間相互關(guān)系的表現(xiàn)形式劃分

因果關(guān)系與對稱關(guān)系

因果關(guān)系中兩個(gè)變量有自變量(independentVariable)和因變量(dependentVariable)之分:(1)兩個(gè)變量有共變關(guān)系;(2)因變量的變化是由自變量的變化引起的;(3)兩個(gè)變量的產(chǎn)生和變化有明確的時(shí)間順序,前者稱為自變量,后者稱為因變量。例:社會(huì)整合程度影響越軌行為父輩職業(yè)與子輩職業(yè)

對稱關(guān)系表現(xiàn)為對稱關(guān)系的相關(guān)關(guān)系,互為根據(jù),不能區(qū)分自變量和因變量,或者說自變量和因變量可以根據(jù)研究目的任意選定.例如:身高和體重之間的關(guān)系交往程度與關(guān)系密切程度第二節(jié)定類變量的相關(guān)分析本節(jié)內(nèi)容:1、列聯(lián)表2、削減誤差比例3、λ系數(shù)4、τ系數(shù)1.列聯(lián)表列聯(lián)表,是按品質(zhì)標(biāo)志把兩個(gè)變量的頻數(shù)分布進(jìn)行交互分類,由于表內(nèi)的每一個(gè)頻數(shù)都需同時(shí)滿足兩個(gè)變量的要求,所以列聯(lián)表又稱條件頻數(shù)表。(1)邊際次數(shù)/分布:表示列聯(lián)表中相應(yīng)縱列和橫行的頻數(shù)和,分別稱為X、Y的邊際分布;

(2)條件次數(shù)分布:表格中的其他次數(shù);

例如,某區(qū)調(diào)查了357名選民,考察受教育程度與投票行為之間的關(guān)系,將所得資料作成下表,便是一種關(guān)于頻數(shù)的列聯(lián)表。2×2頻數(shù)分布列聯(lián)表的一般形式習(xí)慣上把因變量Y放在表側(cè),把自變量X放在表頭。2×2列聯(lián)表是最簡單的交互分類表。

r×c列聯(lián)表r(row)、c(column)

r×c頻數(shù)分布列聯(lián)表的一般形式自己志愿知心朋友志愿總數(shù)快樂家庭理想工作增廣見聞快樂家庭289340理想工作241750增廣見聞24410總數(shù)325414100

條件頻數(shù)表中各頻數(shù)因基數(shù)不同不便作直接比較,因此有必要將頻數(shù)化成相對頻數(shù),使基數(shù)標(biāo)準(zhǔn)化。這樣,我們就從頻數(shù)分布的列聯(lián)表得到了相對頻數(shù)分布的列聯(lián)表(或稱頻率分布的列聯(lián)表)。下表是r×c相對頻數(shù)分布列聯(lián)表的一般形式。

r×c相對頻數(shù)分布列聯(lián)表的一般形式

在相對頻數(shù)分布列聯(lián)表中,各數(shù)據(jù)為各分類出現(xiàn)的相對頻數(shù)(或者頻率)。將頻數(shù)化成相對頻數(shù)有兩種做法:

①相對頻數(shù)聯(lián)合分布(聯(lián)合頻率)

兩個(gè)邊際分布或②相對頻數(shù)條件分布(條件頻率)

r×c相對頻數(shù)聯(lián)合分布列聯(lián)表控制X,Y相對頻數(shù)條件分布列聯(lián)表(列分布)控制Y,X相對頻數(shù)條件分布列聯(lián)表(行分布)[例A1]試把下表所示的頻數(shù)分布列聯(lián)表,轉(zhuǎn)化為自變量受到控制的相對頻數(shù)條件分布列聯(lián)表,并加以相關(guān)分析。

投票行為Y受教育程度X

大學(xué)以上

大學(xué)以下投票棄權(quán)16071296128968合計(jì):167190357

從上表可知,受過大學(xué)以上教育的被調(diào)查者絕大多數(shù)(占95.8%)是投票的,受教育程度在大學(xué)以下的被調(diào)查者雖多數(shù)也參與投票(占67.9%),但后者參與投票的百分比遠(yuǎn)小于前者;前者只有4.2%棄權(quán),而后者則有32.1%棄權(quán)。兩相比較可知,受教育程度不同,參與投票的行為不同,因此兩個(gè)變量是相關(guān)的。投票行為Y受教育程度X

大學(xué)以上

大學(xué)以下投票棄權(quán)95.8%(160/167)4.2%(7/167)67.9%(129/190)32.1%(61/190)81.0%(289/357)19.0%(68/357)100.0%(167)100.0%(190)100.0%(357)[例A2]試把下表所示的頻數(shù)分布列聯(lián)表,轉(zhuǎn)化為相對頻數(shù)聯(lián)合分布列聯(lián)表和自變量受到控制的相對頻數(shù)條件分布列聯(lián)表,并加以相關(guān)分析。

投票行為Y受教育程度X

大學(xué)以上

大學(xué)以下投票棄權(quán)1006711476214143合計(jì):167190357

上表顯示,大學(xué)以上文化程度和大學(xué)以下文化程度同樣各有60%的人參與投票,40%的人棄權(quán),并沒有因?yàn)槭芙逃潭炔煌?,而使參與投票的行為有所不同。因此,此時(shí)的兩個(gè)變量是不相關(guān)的,或者說是獨(dú)立的。我們不難發(fā)現(xiàn),此時(shí)反映全體投票情況的相對頻數(shù)的邊際分布()也各有60%的人參與投票,40%的人棄權(quán)。投票行為Y受教育程度X

大學(xué)以上

大學(xué)以下投票棄權(quán)60.0%(100/167)40.0%(67/167)60.0%(114/190)40.0%(76/190)60.0%(214/357)40.0%(143/357)100.0%(167))100.0%(190)100.0%(357)上表顯示,當(dāng)兩個(gè)變量不相關(guān)時(shí)有。如0.532×0.40=0.213投票行為Y受教育程度X

大學(xué)以上

大學(xué)以下投票棄權(quán)28.0%(100/357)18.8%(67/357)31.9%(114/357)21.3%(76/357)60.0%(214/357)40.0%(143/357)46.8%(167/357)53.2%(190/357)100.0%(357)[練習(xí)]某社區(qū)調(diào)查了120名市民,考察性別與對吸煙態(tài)度之間的關(guān)系,試將所得資料作成相對頻數(shù)的聯(lián)合分布、邊際分布和條件分布列聯(lián)表,并進(jìn)行相關(guān)分析。性別與對吸煙的態(tài)度態(tài)度Y性別X合計(jì)男女容忍48856反對204464合計(jì)6852120相對頻數(shù)聯(lián)合分布列聯(lián)表態(tài)度Y性別X男(X1)女(X2)容忍Y140.0%6.7%46.7%反對Y216.7%36.6%53.3%56.7%43.3%100%(120)相對頻數(shù)條件分布列聯(lián)表(控制X,列分布)態(tài)度Y性別X男()女()容忍70.6%15.4%46.7%(56)反對29.4%84.6%53.3%(64)100%(68)100%(52)100%(120)2675名雙親和他們10071個(gè)子女

的智力的關(guān)系(%)(相對頻數(shù)條件分布列聯(lián)表)

父母智力組合

子女智力優(yōu)秀

子女智力一般

子女智力低下

優(yōu)+優(yōu)71.625.43.0

優(yōu)+劣33.642.723.7

一般+一般18.666.914.5

劣+劣5.434.460.2

相對頻數(shù)分布列連表的規(guī)模不適宜太大,這樣不利于數(shù)據(jù)的分析:(1)將類型進(jìn)行分類,整合:五分類變?yōu)槿?;?)計(jì)算兩個(gè)變量之間的相關(guān)系數(shù);2.削減誤差比例PRE(ProportionateReductioninError)

通過相對頻數(shù)條件分布列聯(lián)表的討論,可以就自變量X和因變量Y的關(guān)聯(lián)性給出一個(gè)初步的判斷。但是對關(guān)聯(lián)性給出判斷,肯定沒有用量化指標(biāo)表達(dá)來得好。所以,下面我們將關(guān)注于如何用統(tǒng)計(jì)方法,使相關(guān)關(guān)系的強(qiáng)弱可以通過某些簡單的系數(shù)明確地表達(dá)出來。在社會(huì)統(tǒng)計(jì)中,表達(dá)相關(guān)關(guān)系的強(qiáng)弱,削減誤差比例的概念是非常有價(jià)值的。削減誤差比例的原理是,如果兩變量間存在著一定的關(guān)聯(lián)性,那么知道這種關(guān)聯(lián)性,必然有助于我們通過一個(gè)變量去預(yù)測另一變量。其中關(guān)系密切者,在由一變量預(yù)測另一變量時(shí),盲目性必然較關(guān)系不密切者為小。

PRE:用不知道Y與X有關(guān)系時(shí)預(yù)測Y的全部誤差E0,減去知道Y與X有關(guān)系時(shí)預(yù)測Y的聯(lián)系誤差E1,再將其化為比例來度量

PRE的取值范圍是

0≤PRE≤lA、當(dāng)兩個(gè)變量完全沒有關(guān)系的時(shí)候:E0=E1,PRE=0;B、當(dāng)兩個(gè)變量完全相關(guān)的時(shí)候:E1=0,PRE=1

削減誤差比例PRE適用于各測量層次的變量,λ系數(shù)和τ系數(shù)便是在定類測量的層次上以削減誤差比例PRE為基礎(chǔ)所設(shè)計(jì)的兩種相關(guān)系數(shù)。

3.λ(Lambda)系數(shù)

在定類尺度上測量集中趨勢只能用什么指標(biāo)?在定類尺度上測量集中趨勢只能用眾數(shù)。

λ系數(shù)就是利用此性質(zhì)來構(gòu)造相關(guān)系數(shù)的?;具壿嫞阂砸粋€(gè)定類變量值來預(yù)測另一個(gè)變量值時(shí),若以眾數(shù)作為預(yù)測的準(zhǔn)則,則可減少的誤差是多少。(1)對稱的λ系數(shù)Y的每一分類中X分布的眾數(shù)的頻數(shù)(行)X的每一分類中Y分布的眾數(shù)的頻數(shù)(列)X的邊際分布中眾數(shù)的頻數(shù)(行)Y的邊際分布中眾數(shù)的頻數(shù)(列)[例]研究工作類別與工作價(jià)值的關(guān)系,工作類別可分為三類:工人、技術(shù)人員、管理/行政人員;工作價(jià)值也可分為三類:以收入/福利為最重要的職業(yè)選擇標(biāo)準(zhǔn)的稱為經(jīng)濟(jì)取向型,以工作的創(chuàng)造性、挑戰(zhàn)性為最重要的職業(yè)選擇標(biāo)準(zhǔn)的稱為成就取向型,以工作中的人際關(guān)系為最重要的職業(yè)選擇標(biāo)準(zhǔn)的稱為人際關(guān)系取向型。對下表所示資料,用λ系數(shù)反映工作類別與工作價(jià)值的相關(guān)關(guān)系。工作價(jià)值Y工作種類X合計(jì)

工人

技術(shù)人員

管理/行政人員經(jīng)濟(jì)取向型成就取向型人際關(guān)系取向型100302070601050204022011070合計(jì):FX150140110400(2)不對稱的λ系數(shù)

X的每一分類中Y分布的眾數(shù)的頻數(shù)(列)Y的邊際分布中眾數(shù)的頻數(shù)(列)[例]對下表所示資料,用λ系數(shù)反映性別與收入高低的相關(guān)關(guān)系。收入Y性別X合計(jì)男女低60150210高12070190合計(jì)180220400

性質(zhì):(1)0≤λ≤1

(2)具有PRE意義。(3)對稱與不對稱情況下,有不同的公式。(4)以眾數(shù)作為預(yù)測的準(zhǔn)則,對列聯(lián)表中眾數(shù)頻數(shù)以外的條件頻數(shù)不予理會(huì)。

(5)如果眾數(shù)頻數(shù)集中在條件頻數(shù)分布列聯(lián)表的同一行時(shí),λ=0,從而無法顯示兩變量之間的相關(guān)性。

4.τ系數(shù)

τ系數(shù)的統(tǒng)計(jì)值域是[0,1],其特點(diǎn)是在計(jì)算時(shí)考慮所有的邊際頻數(shù)和條件頻數(shù)

。

注意:當(dāng)眾數(shù)很突出且眾數(shù)分布不在同一行,同一列時(shí),用λ系數(shù)較好;但當(dāng)眾數(shù)不突出時(shí),用τ系數(shù)更好;若眾數(shù)集中在某一行或某一列,一定用τ系數(shù)。

[例]對下表所示資料,用τ系數(shù)反映性別與收入高低的相關(guān)關(guān)系。收入Y性別X合計(jì)男女低60150210高12070190合計(jì)180220400

考慮到全部的次數(shù),所以敏感度較高。同樣是以PRE為基礎(chǔ)的相關(guān)系數(shù),具有PRE性質(zhì)第三節(jié)定序變量的相關(guān)分析

定序變量只能排列高低次序,因而在分析時(shí)只能考慮兩變量變化的順序是否一致及其等級之間的差距。以此來計(jì)算兩變量的相關(guān)系數(shù)。

1、同序?qū)Α愋驅(qū)屯謱?/p>

2、Gamma等級相關(guān)系數(shù)

3、肯德爾等級相關(guān)系數(shù)

4、薩默斯系數(shù)(d系數(shù))

5、Spearman等級相關(guān)系數(shù)

6、肯德爾和諧系數(shù)1.同序?qū)Α愋驅(qū)?、同分?/p>

社會(huì)研究常用的兩定序變量的相關(guān)測量法,有一類是以同序?qū)?、異序?qū)?、同分對的概念為基礎(chǔ)的,如Gamma系數(shù)、肯德爾系數(shù)、d系數(shù)等。所以我們在討論這幾種相關(guān)系數(shù)之前,先來了解這三個(gè)概念。

在定序相關(guān)測量中,首先要搞清楚“次序?qū)Γ╬air)”的概念。例如,假設(shè)研究員工的工作滿足感與歸屬感的關(guān)系,將工作滿足感從低到高,分為低(1)、中(2)和高(3)三個(gè)級別,歸屬感也從低到高分為低(1)、中(2)和高(3)三個(gè)級別。下表列示的是5名被訪者A、B、C、D、E的情況。單元XYA12B12C13D23E31“對”的概念1、總對數(shù)T=N(N-1)/2,N為個(gè)案數(shù)目。當(dāng)只有兩個(gè)定序變量時(shí),可能出現(xiàn)的對的種類有以下五種(設(shè):個(gè)案A在X上的等級為Xa,在Y上的等級為Ya,個(gè)案B在X上的等級為Xb,在Y上的等級為Yb)同序?qū)?/p>

如果我們看到Xi<Xj

,在Y序列中看到的是Yi<Yj,則稱這一配對是同序?qū)ΑM驅(qū)χ灰骕變化方向和Y變化方向相同,并不要求X變化大小和Y變化大小相等。同序?qū)Φ目倲?shù)用符號ns表示。異序?qū)θ绻覀兛吹絏i<Xj

,在Y序列中看到的是Yi

>Yj,則稱這一配對是異序?qū)Α.愋驅(qū)χ灰骕變化方向和Y變化方向相反,并不要求X變化大小和Y變化大小相等。異序?qū)Φ目倲?shù)用符號nd表示。同分對

如果在X序列中,我們觀察到Xi=Xj(此時(shí)在Y序列中無Yi=Y(jié)j),則這個(gè)配對僅是X方向上而非Y方向上的同分對;X的這種同分對用符號nx表示。如果在Y

序列中,我們觀察到Y(jié)i=Y(jié)j(此時(shí)在X序列中無Xi=Xj),則這個(gè)配對僅是Y

方向上而非X方向上的同分對;Y

的這種同分對用符號ny表示。如果我們觀察到Xi=Xj時(shí),也觀察到Y(jié)i=Y(jié)j

,則稱這兩個(gè)配對為X與Y同分對,以符號nxy表示。X

同分對的總數(shù)用符號Tx表示,Tx

=nx+nxy

;Y同分對的總數(shù)用符號Ty表示,Ty

=ny+nxy

。n個(gè)單位兩兩配對,總對數(shù)=ns+nd+nx+

ny+nxy

計(jì)算Gamma系數(shù),肯得爾系數(shù)、d系數(shù)等,我們面對的經(jīng)常是兩定序變量已形成列聯(lián)表的資料,所以對我們來說很重要的是要學(xué)會(huì)定序變量列聯(lián)表中這五種“次序?qū)Α钡挠?jì)算和識別。同序?qū)Γ骸坝蚁掠嘧邮健狈ó愋驅(qū)Γ骸白笙掠嘧邮健狈ㄔ斠娊滩?.Gamma系數(shù)

如果在單元對中是以同序?qū)橹?,則表示變量x和變量y呈正相關(guān);反之,如果是以異序?qū)橹鳎瑒t變量x和變量y呈負(fù)相關(guān);Gamma系數(shù)原理:利用同序?qū)彤愋驅(qū)?shù)量之差,以此來反映等級相關(guān)的程度;公式(1)ns--同序?qū)Φ臄?shù)目;右下余子式(2)nd--異序?qū)Φ臄?shù)目;左下余子式性質(zhì):(1)取值范圍[-1,1](2)具有PRE意義(3)屬對稱相關(guān)測量。(4)不考慮同分對。右下余子式左下余子式

例:在某市200戶中調(diào)查,看住戶人口密度與婆媳沖突是否有關(guān),交互分類后分布如下,計(jì)算G相關(guān)系數(shù)并提出研究結(jié)論。婆媳沖突住戶密度總數(shù)高中低高2320449中11552894低8272459總數(shù)4210256200ns=23*(55+28+27+24)+20*(28+24)+11*(27+24)+55*24=6003nd=4*(11+55+8+27)+20*(11+8)+28*(8+27)+55*8=2204

=(6003-2204)/(6003+2204)=0.463.肯德爾等級相關(guān)系數(shù)(1)Tau-a系數(shù)

適用于不存在任何同分對的情況。

某市有12所大專院校,現(xiàn)組織一個(gè)評審委員會(huì)對各院校校園環(huán)境及學(xué)生體質(zhì)進(jìn)行評價(jià),評價(jià)結(jié)果如表(表中已先將學(xué)校按X作了次序排列)所示,試計(jì)算校園環(huán)境和學(xué)生體質(zhì)關(guān)系的肯德爾相關(guān)系數(shù)。

學(xué)校名ABCDEFGHIJ

環(huán)境名次(X)體質(zhì)名次(Y)1234567891021537468109計(jì)算異序?qū)Φ膫€(gè)數(shù):AB,CD,CF,EF,EG,IJnd=6代入公式計(jì)算:(2)Tau-b系數(shù)當(dāng)出現(xiàn)同分對時(shí),對分母進(jìn)行修正。與G系數(shù)一樣,Tau-b系數(shù)也具有消減誤差比例的意義。Tau-b系數(shù)的特殊性在于,只有在列聯(lián)表的行數(shù)與列數(shù)相同(r=c)的情況下,其系數(shù)值才可能是-1或+1,否則便不確定。

(3)Tau-c系數(shù)當(dāng)同分對很多時(shí),且r≠c

,可以用Tau-c系數(shù)來測量。

m取r×c列聯(lián)表中r和c值較小者。

Tau-c系數(shù)沒有消減誤差比例的意義。

4.薩默斯(d系數(shù))薩默斯提出的,對G系數(shù)進(jìn)行修正。(除考慮同序?qū)?異序?qū)ν?還考慮同分對的個(gè)數(shù))X為自變量Y為自變量

d系數(shù)具有PRE意義,取值[-1,1],為不對稱測量。

5.Spearman等級相關(guān)系數(shù)

d——每個(gè)樣本單位在兩個(gè)變量上的等級之差計(jì)算步驟:首先將定序變量X和Y的數(shù)值形成對應(yīng)的兩個(gè)序數(shù)數(shù)列(其中先將X由小到大排列)。如遇有相等的數(shù)值時(shí),則應(yīng)將原有的等級求其平均數(shù),讓它們以這平均等級并列。然后求出等級差,經(jīng)平方后求和,運(yùn)用上式即可求得斯皮爾曼等級相關(guān)系數(shù)。取值范圍:[-1,1]

例:為了解活動(dòng)能力與智商是否有關(guān),進(jìn)行了10名同學(xué)的抽樣調(diào)查,資料如表,問這10名同學(xué)的智商與活動(dòng)能力是否有關(guān)。學(xué)生活動(dòng)能力名次智商智商名次A11103B21103C31056D4959E51201F69410G71008H81056I91056J1011036、肯德爾和諧系數(shù)(1)應(yīng)用條件:對于多變量求等級相關(guān);Ri:第i個(gè)評價(jià)對象所獲評價(jià)值的等級和;K:評價(jià)者的個(gè)數(shù)n:評價(jià)對象的個(gè)數(shù)(2)計(jì)算過程:A、制表:將評價(jià)對象按列為第一位的評價(jià)者評價(jià)的等級,從小到大排列,然后排出其它評價(jià)者的評價(jià)序列;B、就每一個(gè)評價(jià)對象求出等級的和,記作R,然后求出R的平方;C、分別代入公式,求出肯德爾和諧系數(shù);例:假設(shè)四位專家對10所大專院校環(huán)境質(zhì)量進(jìn)行排序,有關(guān)評價(jià)結(jié)果列于下表,試通過計(jì)算肯德爾和諧系數(shù),檢驗(yàn)專家意見的一致性和相關(guān)程度。

計(jì)算結(jié)果表明四位專家對10所大專院校環(huán)境質(zhì)量排序的評價(jià)意見有顯著的相關(guān)性,即意見基本一致。第四節(jié)定距變量的相關(guān)分析對于定距變量,根據(jù)其變量值的數(shù)學(xué)特征,我們自然可以引進(jìn)更為精確的量化指標(biāo)來反映它們之間的相關(guān)程度。兩個(gè)定距變量之間的相關(guān)測量,最常用的就是所謂積差系數(shù).它是由英國統(tǒng)計(jì)學(xué)家皮爾遜(Pearson)用積差方法推導(dǎo)出來,所以也稱皮爾遜相關(guān)系數(shù),用符號r表示。

1.相關(guān)表和散點(diǎn)圖相關(guān)表:經(jīng)整理后反映兩變量之間對應(yīng)關(guān)系的數(shù)據(jù)表。散點(diǎn)圖:將相關(guān)表中各個(gè)有對應(yīng)關(guān)系的數(shù)據(jù)在直角坐標(biāo)系上標(biāo)出來,就得到散點(diǎn)圖。散點(diǎn)圖可以直觀地觀察兩變量之間對應(yīng)關(guān)系。工齡(年)X111333555777技術(shù)考核分Y1232343.54.55.5789散點(diǎn)圖表示的相關(guān)的類型★線性正相關(guān)★線性負(fù)相關(guān)★完全線性正相關(guān)★完全線性負(fù)相關(guān)★稱零相關(guān)

2.積差系數(shù)的計(jì)算

試就下表所示資料,計(jì)算關(guān)于員工的工齡和技術(shù)考核分的皮爾遜相關(guān)系數(shù)。

工齡(年)X111333555777技術(shù)考核分Y1232343.54.55.5789

N0工齡X技術(shù)考核分YX2Y2XY1234567891011121113335557771232343.54.55.5789111999252525494949149491612.2520.2530.25496481123691217.522.527.5495663

合計(jì)4852.5252299.75268.5解:計(jì)算過程見上表r=3.積差系數(shù)的性質(zhì)(1)r是線性相關(guān)系數(shù)。(2)適用于定距/定比變量。(3)取值[-1,1],絕對值越大,相關(guān)程度越高。r的絕對值在0.3以下表示不相關(guān);0.3~0.5表示低度相關(guān);0.5~0.8表示中等相關(guān);0.8以上表示高度相關(guān)。(4)X與Y是對稱關(guān)系。(5)相關(guān)系數(shù)的數(shù)值不受坐標(biāo)點(diǎn)變化的影響。(6)具有PRE性質(zhì);(實(shí)際上是r2——判定系數(shù)才是真實(shí)的測量了相關(guān),具有這一PRE的性質(zhì))(7)r公式中的兩個(gè)變量都是隨機(jī)的,因而改變兩者的位置并不影響r的數(shù)值。

相關(guān)系數(shù)取值及其意義

r

的取值范圍是[-1,1]|r|=1,表明x與y完全線性相關(guān)r=1,為完全正線性相關(guān)r=-1,為完全負(fù)線性相關(guān)

r=0,表明x與y不存在線性相關(guān)關(guān)系-1r<0,為負(fù)線性相關(guān)0<r1,為正線性相關(guān)|r|越趨于1表示x與y線性關(guān)系越密切;|r|越趨于0表示x與y線性關(guān)系越不密切注意事項(xiàng):(1)注意實(shí)際意義

進(jìn)行相關(guān)回歸分析要有實(shí)際意義,不可把毫無關(guān)系的兩個(gè)事物或現(xiàn)象用來作相關(guān)回歸分析。例如,有人說,孩子長,公園里的小樹也在長。求孩子和小樹之間的相關(guān)關(guān)系就毫無意義,用孩子的身高推測小樹的高度則更加荒謬。

(2)注意虛假相關(guān)

兩個(gè)事物間能計(jì)算出相關(guān)系數(shù),并不一定能證明事物間有內(nèi)在聯(lián)系,例如,有人發(fā)現(xiàn),對于在校兒童,鞋的大小與閱讀技能有很強(qiáng)的相關(guān)關(guān)系。然而,學(xué)會(huì)新詞并不能使腳變大,而是涉及到第三個(gè)因素??年齡。當(dāng)兒童長大一些,他們的閱讀能力會(huì)提高而且由于長大也穿不下原來的鞋。

(3)利用散點(diǎn)圖對于性質(zhì)不明確的兩組數(shù)據(jù),可先做散點(diǎn)圖,在圖上看它們有無關(guān)系、關(guān)系的密切程度、是正相關(guān)還是負(fù)相關(guān),是直線相關(guān)還是曲線相關(guān),然后再進(jìn)行相關(guān)分析。

第五節(jié)回歸分析在分析定距變量間的關(guān)聯(lián)性時(shí),最初關(guān)注的僅僅是變量相關(guān)的強(qiáng)度和方向,即進(jìn)行積差相關(guān)分析。然而積差系數(shù)并不能表明X和Y之間的因果關(guān)系,要明確一個(gè)變量的變化能否由另一個(gè)變量的變化來解釋,或要通過已知變量很好地預(yù)測未知變量,就要進(jìn)行回歸分析?;貧w分析與相關(guān)分析具有密切的聯(lián)系。一般說來,只有當(dāng)兩個(gè)變量之間存在著較高程度的相關(guān)關(guān)系時(shí),回歸分析才變得有意義和有價(jià)值。因此,往往先進(jìn)行相關(guān)分析,然后才選用有明顯相關(guān)關(guān)系的變量作回歸分析。

回歸模型的類型按涉及變量多少分為:一元回歸和多元回歸按變量相關(guān)的形式分:線性回歸和非線性回歸(我們僅討論一元線性回歸分析問題)一個(gè)自變量兩個(gè)及以上自變量回歸模型多元回歸一元回歸線性回歸非線性回歸線性回歸非線性回歸幾個(gè)相關(guān)概念:(1)回歸:泛指變量間的數(shù)量關(guān)系;(2)回歸方程:把代表現(xiàn)象之間一般數(shù)量關(guān)系地直線或者曲線方程叫做回歸方程;(3)回歸分析:研究回歸關(guān)系的理論和方法;(1)相關(guān)分析中,變量x

變量y處于平等的地位;回歸分析中,變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預(yù)測因變量的變化(2)相關(guān)分析主要是描述兩個(gè)變量之間線性關(guān)系的密切程度;回歸分析不僅可以揭示變量x對變量y的影響大小,還可以由回歸方程進(jìn)行預(yù)測和控制;回歸與相關(guān)的區(qū)別與聯(lián)系(3)相關(guān)程度越高,回歸預(yù)測越準(zhǔn)確。

相關(guān)系數(shù)r反映了預(yù)測效果的好壞(4)回歸具有預(yù)測,推理的性質(zhì),而相關(guān)分析從本質(zhì)上將只是對客觀事物的一種描述,回歸的層次比相關(guān)更深刻一些;一元線性回歸(1)當(dāng)只涉及一個(gè)自變量時(shí)稱為一元回歸,若因變量y與自變量x之間為線性關(guān)系時(shí)稱為一元線性回歸(2)通過對具有相互聯(lián)系的變量之間變動(dòng)關(guān)系的分析,建立一個(gè)合適的數(shù)學(xué)方程式,來近似反映這種關(guān)系,并作估計(jì)和預(yù)測,這個(gè)數(shù)學(xué)方程式為回歸方程,也稱為回歸模型;一元線性回歸分析,一般是先依據(jù)相關(guān)表做出散點(diǎn)圖,直觀地估計(jì)X和Y關(guān)聯(lián)性。如果兩變量的確呈現(xiàn)出一定的線性相關(guān)趨勢,便可以設(shè)所要求的回歸直線方程為

A、a表示直線的截距,即表示當(dāng)自變量X等于0時(shí),依變量Y所達(dá)到的數(shù)值;B、b是直線的斜率,亦稱為回歸系數(shù),表示自變量X每變動(dòng)一個(gè)單位時(shí),依變量Y變動(dòng)的大小和方向;當(dāng)b>0時(shí),y隨x的增加而增加,兩變量之間為正相關(guān);當(dāng)b<0時(shí),y隨x的增加而減少,兩變量之間為負(fù)相關(guān);當(dāng)b=0時(shí),y為一個(gè)常量,不隨x的變動(dòng)而變動(dòng)。C、Yc是因變量Y的預(yù)測值或稱估計(jì)值?;貧w方程的建立:①

先做散點(diǎn)圖;②利用最小平方法(各點(diǎn)到待估直線垂直距離之和為最?。?/p>

運(yùn)用最小平方法可以在所有可能的直線中找到使Q達(dá)到最小的回歸直線

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論