統(tǒng)計(jì)學(xué)-相關(guān)分析_第1頁(yè)
統(tǒng)計(jì)學(xué)-相關(guān)分析_第2頁(yè)
統(tǒng)計(jì)學(xué)-相關(guān)分析_第3頁(yè)
統(tǒng)計(jì)學(xué)-相關(guān)分析_第4頁(yè)
統(tǒng)計(jì)學(xué)-相關(guān)分析_第5頁(yè)
已閱讀5頁(yè),還剩87頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二章相關(guān)分析第一節(jié)相關(guān)關(guān)系及種類第二節(jié)定類變量的相關(guān)分析第三節(jié)定序變量的相關(guān)分析第四節(jié)定距變量的相關(guān)分析7/31/20231.

社會(huì)上,許多現(xiàn)象之間也都有相互聯(lián)系,例如:身高與體重、教育程度和收入、學(xué)業(yè)成就和家庭環(huán)境、智商與父母智力等。在這些有關(guān)系的現(xiàn)象中,它們之間聯(lián)系的程度和性質(zhì)也各不相同。本書第十章提出了兩總體的檢驗(yàn)及估計(jì)的問(wèn)題,這意味著我們開始與雙變量統(tǒng)計(jì)方法打交道了。雙變量統(tǒng)計(jì)與單變量統(tǒng)計(jì)最大的不同之處是,客觀事物間的關(guān)聯(lián)性開始披露出來(lái)。這一章我們將把相關(guān)關(guān)系的討論深入下去,不僅要對(duì)相關(guān)關(guān)系的存在給出判斷,更要對(duì)相關(guān)關(guān)系的強(qiáng)度給出測(cè)量,同時(shí)要披露兩變量間的因果聯(lián)系,其內(nèi)容分為相關(guān)分析和回歸分析這兩個(gè)大的方面。7/31/20232.第一節(jié)變量之間的相互關(guān)系1.相關(guān)程度完全相關(guān),指變量之間為函數(shù)關(guān)系;完全不相關(guān)指變量之間不存在任何依存關(guān)系,彼此獨(dú)立。不完全相關(guān)介于兩者之間。不完全相關(guān)是本章討論的重點(diǎn)。

由于數(shù)學(xué)手段上的局限性,統(tǒng)計(jì)學(xué)探討的最多的是定距—定距變量間能近似地表現(xiàn)為一條直線的線性相關(guān)。在統(tǒng)計(jì)中,對(duì)于線性相關(guān),采用相關(guān)系數(shù)(記作r)這一指標(biāo)來(lái)量度相關(guān)關(guān)系程度或強(qiáng)度。就線性相關(guān)來(lái)說(shuō),當(dāng)r=l時(shí),表示為完全相關(guān);當(dāng)r=0時(shí),表現(xiàn)為無(wú)相關(guān)或零相關(guān);當(dāng)0<r<1時(shí),表現(xiàn)為不完全相關(guān)。7/31/20233.

2.相關(guān)方向:正相關(guān)和負(fù)相關(guān)

所謂正相關(guān)關(guān)系是指一個(gè)變量的值增加時(shí),另一變量的值也增加。例如,受教育水平越高找到高薪水工作的機(jī)會(huì)也越大。而負(fù)相關(guān)關(guān)系是指一個(gè)變量的值增加時(shí),另一變量的值卻減少。例如,受教育水平越高,理想子女?dāng)?shù)目越少。要強(qiáng)調(diào)的是,只有定序以上測(cè)量層次的變量才分析相關(guān)方向,因?yàn)橹挥羞@些變量的值有高低或多少之分。至于定類變量,由于變量的值并無(wú)大小、高低之分,故定類變量與其他變量相關(guān)時(shí)就沒(méi)有正負(fù)方向了。7/31/20234.

3.因果關(guān)系與對(duì)稱關(guān)系

因果關(guān)系中兩個(gè)變量有自變量(independentVariable)和因變量(dependentVariable)之分:(1)兩個(gè)變量有共變關(guān)系;(2)因變量的變化是由自變量的變化引起的;(3)兩個(gè)變量的產(chǎn)生和變化有明確的時(shí)間順序,前者稱為自變量,后者稱為因變量。表現(xiàn)為對(duì)稱關(guān)系的相關(guān)關(guān)系,互為根據(jù),不能區(qū)分自變量和因變量,或者說(shuō)自變量和因變量可以根據(jù)研究目的任意選定,例如身高和體重之間的關(guān)系。7/31/20235.4.單相關(guān)和復(fù)相關(guān)從變量的多少上看,單相關(guān)只涉及兩個(gè)變量,亦稱二元相關(guān);三個(gè)或三個(gè)以上變量之間的關(guān)系稱為復(fù)相關(guān),亦稱多元相關(guān)。五、直線相關(guān)和曲線相關(guān)從變量變化的形式上看,如果關(guān)系近似地表現(xiàn)為一條直線,稱為直線相關(guān)或線性相關(guān);如果關(guān)系近似地表現(xiàn)為一條曲線,則稱為曲線相關(guān)或稱為非線性相關(guān)。由于數(shù)學(xué)手段的局限性,我們以學(xué)習(xí)線性相關(guān)為主。在統(tǒng)計(jì)學(xué)中,通過(guò)分段處理線性相關(guān)也可以用于處理曲線相關(guān)。7/31/20236.第二節(jié)定類變量的相關(guān)分析本節(jié)內(nèi)容:1、列聯(lián)表2、削減誤差比例3、λ系數(shù)4、τ系數(shù)7/31/20237.1.列聯(lián)表

列聯(lián)表,是按品質(zhì)標(biāo)志把兩個(gè)變量的頻數(shù)分布進(jìn)行交互分類,由于表內(nèi)的每一個(gè)頻數(shù)都需同時(shí)滿足兩個(gè)變量的要求,所以列聯(lián)表又稱條件頻數(shù)表。例如,某區(qū)調(diào)查了357名選民,考察受教育程度與投票行為之間的關(guān)系,將所得資料作成下表,便是一種關(guān)于頻數(shù)的列聯(lián)表。7/31/20238.2×2頻數(shù)分布列聯(lián)表的一般形式習(xí)慣上把因變量Y放在表側(cè),把自變量X放在表頭。2×2列聯(lián)表是最簡(jiǎn)單的交互分類表。r×c列聯(lián)表r(row)、c(column)7/31/20239.

r×c頻數(shù)分布列聯(lián)表的一般形式7/31/202310.自己志愿知心朋友志愿總數(shù)快樂(lè)家庭理想工作增廣見聞快樂(lè)家庭289340理想工作241750增廣見聞24410總數(shù)3254141007/31/202311.兩個(gè)邊際分布:7/31/202312.條件頻數(shù)表中各頻數(shù)因基數(shù)不同不便作直接比較,因此有必要將頻數(shù)化成相對(duì)頻數(shù),使基數(shù)標(biāo)準(zhǔn)化。這樣,我們就從頻數(shù)分布的列聯(lián)表得到了相對(duì)頻數(shù)分布的列聯(lián)表(或稱頻率分布的列聯(lián)表)。下表是r×c相對(duì)頻數(shù)分布列聯(lián)表的一般形式。7/31/202313.

r×c相對(duì)頻數(shù)分布列聯(lián)表的一般形式7/31/202314.

在相對(duì)頻數(shù)分布列聯(lián)表中,各數(shù)據(jù)為各分類出現(xiàn)的相對(duì)頻數(shù)(或者頻率)。將頻數(shù)化成相對(duì)頻數(shù)有兩種做法:

①相對(duì)頻數(shù)聯(lián)合分布兩個(gè)邊際分布或②相對(duì)頻數(shù)條件分布或7/31/202315.

r×c相對(duì)頻數(shù)聯(lián)合分布列聯(lián)表7/31/202316.控制X,Y相對(duì)頻數(shù)條件分布列聯(lián)表7/31/202317.控制Y,X相對(duì)頻數(shù)條件分布列聯(lián)表7/31/202318.[例A1]試把下表所示的頻數(shù)分布列聯(lián)表,轉(zhuǎn)化為自變量受到控制的相對(duì)頻數(shù)條件分布列聯(lián)表,并加以相關(guān)分析。

投票行為Y受教育程度X

大學(xué)以上大學(xué)以下投票棄權(quán)16071296128968合計(jì):1671903577/31/202319.從上表可知,受過(guò)大學(xué)以上教育的被調(diào)查者絕大多數(shù)(占95.8%)是投票的,受教育程度在大學(xué)以下的被調(diào)查者雖多數(shù)也參與投票(占67.9%),但后者參與投票的百分比遠(yuǎn)小于前者;前者只有4.2%棄權(quán),而后者則有32.1%棄權(quán)。兩相比較可知,受教育程度不同,參與投票的行為不同,因此兩個(gè)變量是相關(guān)的。投票行為Y受教育程度X大學(xué)以上大學(xué)以下投票棄權(quán)95.8%(160/167)4.2%(7/167)67.9%(129/190)32.1%(61/190)81.0%(289/357)19.0%(68/357)100.0%(167))100.0%(190)100.0%(357)7/31/202320.[例A2]試把下表所示的頻數(shù)分布列聯(lián)表,轉(zhuǎn)化為相對(duì)頻數(shù)條件分布列聯(lián)表和自變量受到控制的相對(duì)頻數(shù)條件分布列聯(lián)表,并加以相關(guān)分析。

投票行為Y受教育程度X

大學(xué)以上大學(xué)以下投票棄權(quán)1006711476214143合計(jì):1671903577/31/202321.上表顯示,大學(xué)以上文化程度和大學(xué)以下文化程度同樣各有60%的人參與投票,40%的人棄權(quán),并沒(méi)有因?yàn)槭芙逃潭炔煌?,而使參與投票的行為有所不同。因此,此時(shí)的兩個(gè)變量是不相關(guān)的,或者說(shuō)是獨(dú)立的。我們不難發(fā)現(xiàn),此時(shí)反映全體投票情況的相對(duì)頻數(shù)的邊際分布()也各有60%的人參與投票,40%的人棄權(quán)。投票行為Y受教育程度X大學(xué)以上大學(xué)以下投票棄權(quán)60.0%(100/167)40.0%(67/167)60.0%(114/190)40.0%(76/190)60.0%(214/357)40.0%(143/357)100.0%(167))100.0%(190)100.0%(357)7/31/202322.上表顯示,當(dāng)兩個(gè)變量不相關(guān)時(shí)有。如0.532×0.40=0.213。投票行為Y受教育程度X大學(xué)以上大學(xué)以下投票棄權(quán)28.0%(100/357)18.8%(67/357)31.9%(114/357)21.3%(76/357)60.0%(214/357)40.0%(143/357)46.8%(167/357)53.2%(190/357)100.0%(357)7/31/202323.[例B]某社區(qū)調(diào)查了120名市民,考察性別與對(duì)吸煙態(tài)度之間的關(guān)系,試將所得資料作成相對(duì)頻數(shù)的聯(lián)合分布、邊際分布和條件分布列聯(lián)表,并進(jìn)行相關(guān)分析。性別與對(duì)吸煙的態(tài)度態(tài)度Y性別X合計(jì)男女容忍48856反對(duì)204464合計(jì)68521207/31/202324.相對(duì)頻數(shù)聯(lián)合分布列聯(lián)表態(tài)度Y性別X男(X1)女(X2)容忍Y140.0%6.7%46.7%反對(duì)Y216.7%36.6%53.3%56.7%43.3%100%(120)7/31/202325.相對(duì)頻數(shù)條件分布列聯(lián)表態(tài)度Y性別X男()女()容忍70.6%15.4%46.7%(56)反對(duì)29.4%84.6%53.3%(64)100%(68)100%(52)100%(120)7/31/202326.2675名雙親和他們10071個(gè)子女

的智力的關(guān)系(%)(相對(duì)頻數(shù)條件分布列聯(lián)表)

父母智力組合

子女智力優(yōu)秀

子女智力一般

子女智力低下優(yōu)+優(yōu)71.625.43.0優(yōu)+劣33.642.723.7一般+一般18.666.914.5劣+劣5.434.460.27/31/202327.

通過(guò)列聯(lián)表研究定類變量之間的關(guān)聯(lián)性,這實(shí)際上是通過(guò)相對(duì)頻數(shù)條件分布的比較進(jìn)行的。如果對(duì)不同的X,Y的相對(duì)頻數(shù)條件分布不同,且和Y的相對(duì)頻數(shù)邊際分布不同,則兩變量之間是相關(guān)的。而如果變量間是相互獨(dú)立的話,必然存在著Y的相對(duì)頻數(shù)條件分布相同,且和它的相對(duì)頻數(shù)邊際分布相同。后者用數(shù)學(xué)式表示就是或者7/31/202328.2.削減誤差比例PRE(ProportionateReductioninError)通過(guò)相對(duì)頻數(shù)條件分布列聯(lián)表的討論,可以就自變量X和因變量Y的關(guān)聯(lián)性給出一個(gè)初步的判斷。但是對(duì)關(guān)聯(lián)性給出判斷,肯定沒(méi)有用量化指標(biāo)表達(dá)來(lái)得好。所以,下面我們將關(guān)注于如何用統(tǒng)計(jì)方法,使相關(guān)關(guān)系的強(qiáng)弱可以通過(guò)某些簡(jiǎn)單的系數(shù)明確地表達(dá)出來(lái)。在社會(huì)統(tǒng)計(jì)中,表達(dá)相關(guān)關(guān)系的強(qiáng)弱,削減誤差比例的概念是非常有價(jià)值的。削減誤差比例的原理是,如果兩變量間存在著一定的關(guān)聯(lián)性,那么知道這種關(guān)聯(lián)性,必然有助于我們通過(guò)一個(gè)變量去預(yù)測(cè)另一變量。其中關(guān)系密切者,在由一變量預(yù)測(cè)另一變量時(shí),盲目性必然較關(guān)系不密切者為小。7/31/202329.

PRE:用不知道Y與X有關(guān)系時(shí)預(yù)測(cè)Y的全部誤差E1,減去知道Y與X有關(guān)系時(shí)預(yù)測(cè)Y的聯(lián)系誤差E2,再將其化為比例來(lái)度量

PRE的取值范圍是0≤PRE≤l削減誤差比例PRE適用于各測(cè)量層次的變量,λ系數(shù)和τ系數(shù)便是在定類測(cè)量的層次上以削減誤差比例PRE為基礎(chǔ)所設(shè)計(jì)的兩種相關(guān)系數(shù)。

7/31/202330.PRE=(56-28)/56=0.5態(tài)度Y性別X合計(jì)男女容忍48856反對(duì)204464合計(jì)68521207/31/202331.3.λ系數(shù)

在定類尺度上測(cè)量集中趨勢(shì)只能用眾數(shù)。λ系數(shù)就是利用此性質(zhì)來(lái)構(gòu)造相關(guān)系數(shù)的。(1)不對(duì)稱的λ系數(shù)7/31/202332.[例]對(duì)下表所示資料,用λ系數(shù)反映性別與收入高低的相關(guān)關(guān)系。收入Y性別X合計(jì)男女低60150210高12070190合計(jì)1802204007/31/202333.7/31/202334.(2)對(duì)稱的λ系數(shù)7/31/202335.[例]研究工作類別與工作價(jià)值的關(guān)系,工作類別可分為三類:工人、技術(shù)人員、管理/行政人員;工作價(jià)值也可分為三類:以收入/福利為最重要的職業(yè)選擇標(biāo)準(zhǔn)的稱為經(jīng)濟(jì)取向型,以工作的創(chuàng)造性、挑戰(zhàn)性為最重要的職業(yè)選擇標(biāo)準(zhǔn)的稱為成就取向型,以工作中的人際關(guān)系為最重要的職業(yè)選擇標(biāo)準(zhǔn)的稱為人際關(guān)系取向型。對(duì)下表所示資料,用λ系數(shù)反映工作類別與工作價(jià)值的相關(guān)關(guān)系。7/31/202336.

職工的工作種類與工作價(jià)值

工作價(jià)值Y工作種類X合計(jì)工人技術(shù)人員管理/行政人員經(jīng)濟(jì)取向型成就取向型人際關(guān)系取向型100302070601050204022011070合計(jì):FX1501401104007/31/202337.7/31/202338.性質(zhì):(1)0≤λ≤1(2)具有PRE意義。(3)對(duì)稱與不對(duì)稱情況下,有不同的公式。(4)以眾數(shù)作為預(yù)測(cè)的準(zhǔn)則,對(duì)條件頻數(shù)分布列聯(lián)表中眾數(shù)頻數(shù)以外的條件頻數(shù)不予理會(huì)。

(5)如果眾數(shù)頻數(shù)集中在條件頻數(shù)分布列聯(lián)表的同一行時(shí),λ=0,從而無(wú)法顯示兩變量之間的相關(guān)性。

7/31/202339.4.τ系數(shù)

τ系數(shù)的統(tǒng)計(jì)值域是[0,1],其特點(diǎn)是在計(jì)算時(shí)考慮所有的邊際頻數(shù)和條件頻數(shù)

注意:當(dāng)眾數(shù)很突出且眾數(shù)分布不在同一行,同一列時(shí),用λ系數(shù)較好;但當(dāng)眾數(shù)不突出時(shí),用τ系數(shù)更好;若眾數(shù)集中在某一行或某一列,一定用τ系數(shù)。7/31/202340.

[例]對(duì)下表所示資料,用τ系數(shù)反映性別與收入高低的相關(guān)關(guān)系,并對(duì)系數(shù)的PRE意義加以解釋。收入Y性別X合計(jì)男女低60150210高12070190合計(jì)1802204007/31/202341.

7/31/202342.練習(xí):調(diào)查100名青年人與其知心朋友的志愿,條件次數(shù)分布如下:計(jì)算知心朋友的志愿與自己志愿之間的相關(guān)關(guān)系,并提出研究結(jié)論。自己志愿知心朋友志愿總數(shù)快樂(lè)家庭理想工作增廣見聞快樂(lè)家庭289340理想工作241750增廣見聞24410總數(shù)3254141007/31/202343.第三節(jié)定序變量的相關(guān)分析定序變量只能排列高低次序,因而在分析時(shí)只能考慮兩變量變化的順序是否一致及其等級(jí)之間的差距。以此來(lái)計(jì)算兩變量的相關(guān)系數(shù)。1、同序?qū)?、異序?qū)屯謱?duì)2、Gamma等級(jí)相關(guān)系數(shù)3、肯德爾等級(jí)相關(guān)系數(shù)4、薩默斯系數(shù)(d系數(shù))5、Spearman等級(jí)相關(guān)系數(shù)6、肯德爾和諧系數(shù)7/31/202344.1.同序?qū)?、異序?qū)Α⑼謱?duì)

社會(huì)學(xué)研究常用的兩定序變量的相關(guān)測(cè)量法,有一類是以同序?qū)?、異序?qū)?、同分?duì)的概念為基礎(chǔ)的,如Gamma系數(shù)、肯德爾系數(shù)、d系數(shù)等。所以我們?cè)谟懻撨@幾種相關(guān)系數(shù)之前,先來(lái)了解這三個(gè)概念。7/31/202345.

在定序相關(guān)測(cè)量中,首先要搞清楚“次序?qū)Γ╬air)”的概念。例如,假設(shè)研究員工的工作滿足感與歸屬感的關(guān)系,將工作滿足感從低到高,分為低(1)、中(2)和高(3)三個(gè)級(jí)別,歸屬感也從低到高分為低(1)、中(2)和高(3)三個(gè)級(jí)別。下表列示的是5名被訪者A、B、C、D、E的情況。單元XYA12B12C13D23E317/31/202346.同序?qū)⒁娚媳恚ㄗ⒁猓瑸榱巳菀鬃R(shí)別各種次序?qū)?,該表已先將被訪者按定序變量X由低到高作了排列),在觀察X序列時(shí)如果我們看到Xi<Xj,在Y序列中看到的是Yi<Yj,則稱這一配對(duì)是同序?qū)?。同序?qū)χ灰骕變化方向和Y變化方向相同,并不要求X變化大小和Y變化大小相等。同序?qū)Φ目倲?shù)用符號(hào)ns表示。異序?qū)σ娚媳?,在觀察X序列時(shí)如果我們看到Xi<Xj,在Y序列中看到的是Yi>Yj,則稱這一配對(duì)是異序?qū)?。同樣,異序?qū)χ灰骕變化方向和Y變化方向相同,并不要求X變化大小和Y變化大小相等。同序?qū)Φ目倲?shù)用符號(hào)nd表示。7/31/202347.同分對(duì)如果在X序列中,我們觀察到Xi=Xj(此時(shí)在Y序列中無(wú)Yi=Y(jié)j),則這個(gè)配對(duì)僅是X方向上而非Y方向上的同分對(duì);X的這種同分對(duì)用符號(hào)nx表示。如果在Y

序列中,我們觀察到Y(jié)i=Y(jié)j(此時(shí)在X序列中無(wú)Xi=Xj),則這個(gè)配對(duì)僅是Y

方向上而非X方向上的同分對(duì);Y

的這種同分對(duì)用符號(hào)ny表示。如果我們觀察到Xi=Xj時(shí),也觀察到Y(jié)i=Y(jié)j,則稱這兩個(gè)配對(duì)為X與Y同分對(duì),以符號(hào)nxy表示。X

同分對(duì)的總數(shù)用符號(hào)Tx表示,Tx=nx+nxy;Y同分對(duì)的總數(shù)用符號(hào)Ty表示,Ty=ny+nxy。

n個(gè)單位兩兩配對(duì),總對(duì)數(shù)=ns+nd+nx+

ny+nxy

7/31/202348.計(jì)算Gamma系數(shù),肯得爾系數(shù)、d系數(shù)等,我們面對(duì)的經(jīng)常是兩定序變量已形成列聯(lián)表的資料,所以對(duì)我們來(lái)說(shuō)很重要的是要學(xué)會(huì)定序變量列聯(lián)表中這五種“次序?qū)Α钡挠?jì)算和識(shí)別。同序?qū)Γ骸坝蚁掠嘧邮健狈ó愋驅(qū)Γ骸白笙掠嘧邮健狈?/31/202349.高中低高843中651低445

工作滿足感與歸屬感

7/31/202350.2.Gamma系數(shù)性質(zhì):(1)取值范圍[-1,1](2)具有PRE意義(3)屬對(duì)稱相關(guān)測(cè)量。(4)不考慮同分對(duì)。7/31/202351.例:在某市200戶中調(diào)查,看住戶人口密度與婆媳沖突是否有關(guān),交互分類后分布如下,計(jì)算G相關(guān)系數(shù)并提出研究結(jié)論。婆媳沖突住戶密度總數(shù)高中低高2320449中11552894低8272459總數(shù)42102562007/31/202352.3.肯德爾等級(jí)相關(guān)系數(shù)(1)Tau-a系數(shù)

適用于不存在任何同分對(duì)的情況。

7/31/202353.某市有12所大專院校,現(xiàn)組織一個(gè)評(píng)審委員會(huì)對(duì)各院校校園環(huán)境及學(xué)生體質(zhì)進(jìn)行評(píng)價(jià),評(píng)價(jià)結(jié)果如表(表中已先將學(xué)校按X作了次序排列)所示,試計(jì)算校園環(huán)境和學(xué)生體質(zhì)關(guān)系的肯德爾相關(guān)系數(shù)。學(xué)校名ABCDEFGHIJ環(huán)境名次(X)體質(zhì)名次(Y)12345678910215374681097/31/202354.(2)Tau-b系數(shù)當(dāng)出現(xiàn)同分對(duì)時(shí),對(duì)分母進(jìn)行修正。與G系數(shù)一樣,Tau-b系數(shù)也具有消減誤差比例的意義。Tau-b系數(shù)的特殊性在于,只有在列聯(lián)表的行數(shù)與列數(shù)相同(r=c)的情況下,其系數(shù)值才可能是-1或+1,否則便不確定。

7/31/202355.(3)Tau-c系數(shù)當(dāng)同分對(duì)很多時(shí),且r≠c,可以用Tau-c系數(shù)來(lái)測(cè)量。

m取r×c列聯(lián)表中r和c值較小者。Tau-c系數(shù)沒(méi)有消減誤差比例的意義。

7/31/202356.4.薩默斯(d系數(shù))薩默爾斯提出的,對(duì)G系數(shù)進(jìn)行修正。

d系數(shù)具有PRE意義,取值[-1,1],為不對(duì)稱測(cè)量。

7/31/202357.5.Spearman等級(jí)相關(guān)系數(shù)

運(yùn)用上式計(jì)算等級(jí)相關(guān)系數(shù)很簡(jiǎn)便:首先將定序變量X和Y的數(shù)值形成對(duì)應(yīng)的兩個(gè)序數(shù)數(shù)列(其中先將X由小到大排)。如遇有相等的數(shù)值時(shí),則應(yīng)將原有的等級(jí)求其平均數(shù),讓它們以這平均等級(jí)并列。然后求出等級(jí)差,經(jīng)平方后求和,運(yùn)用上式即可求得斯皮爾曼等級(jí)相關(guān)系數(shù)。例:為了解活動(dòng)能力與智商是否有關(guān),作了10名同學(xué)的抽樣調(diào)查,資料如表,問(wèn)這10名同學(xué)的智商與活動(dòng)能力是否有關(guān)。7/31/202358.學(xué)生活動(dòng)能力名次智商智商名次A11103B21103C31056D4959E51201F69410G71008H81056I91056J1011037/31/202359.6.肯德爾和諧系數(shù)前面我們談的都是對(duì)雙變量求等級(jí)相關(guān)系數(shù)。對(duì)于多變量求等級(jí)相關(guān)系數(shù),如多個(gè)專家對(duì)同一事物評(píng)價(jià)的一致性或相關(guān)程度的衡量,肯德爾運(yùn)用數(shù)理分析方法,提出了一個(gè)計(jì)算公式7/31/202360.假設(shè)四位專家對(duì)10所大專院校環(huán)境質(zhì)量進(jìn)行排序,有關(guān)評(píng)價(jià)結(jié)果列于下表中,試通過(guò)計(jì)算肯德爾和諧系數(shù),檢驗(yàn)專家意見的一致性和相關(guān)程度。

專家名大專院校名合計(jì)ABCDEFGHIJABCD12345678910321458671091324576891042153786109————————等級(jí)和R

R29971718282729383881814928932478472984114441444——60667/31/202361.例:通過(guò)對(duì)1500多名青年作社會(huì)調(diào)查,探討當(dāng)代青年擇業(yè)傾向與對(duì)社會(huì)經(jīng)濟(jì)生活的基本態(tài)度,得資料如表,求等級(jí)相關(guān)系數(shù)(當(dāng)代青年擇業(yè)傾向與他們對(duì)職業(yè)社會(huì)地位的等級(jí)認(rèn)定的關(guān)系;擇業(yè)傾向與他們對(duì)職業(yè)的富裕程度認(rèn)定的關(guān)系)。7/31/202362.職業(yè)等級(jí)認(rèn)為社會(huì)地位富裕程度擇業(yè)理想行政事業(yè)152各類專業(yè)241企業(yè)333教師464商業(yè)525工人687個(gè)體戶716農(nóng)民8787/31/202363.試就以下單元數(shù)據(jù),列舉其中的同序?qū)Α愋驅(qū)?、同分?duì)。單元XYA32B31C31D11E237/31/202364.

根據(jù)交互分類表計(jì)算:ns、nd、nx、ny、nxy、

Tx、

Ty、T(總對(duì)數(shù))高中低高f11f12f13中f21f22f23低f31f32f33高中低高10125中203010低51057/31/202365.

練習(xí):1.在某地抽選469名已婚男人,研究他們對(duì)父親的感情是否會(huì)影響他們對(duì)婚姻的適應(yīng)。試計(jì)算G系數(shù)并提出研究結(jié)論。

丈夫與父親的感情對(duì)其婚姻適度之影響婚姻適應(yīng)與父親感情總數(shù)平淡不錯(cuò)良好很好惡劣32412628127一般28474122138數(shù)751571281094697/31/202366.2.以下是兩位評(píng)判員對(duì)10名參賽人員的打分排序:試用一系數(shù)描述兩評(píng)判員打分相近程度。參賽人ABCDEFGHIJ評(píng)判112435876910評(píng)判2123456879107/31/202367.第四節(jié)定距變量的相關(guān)分析前兩節(jié),主要借助于列聯(lián)表,我們解決了一些定類、定序測(cè)量層次的相關(guān)測(cè)量問(wèn)題。對(duì)于定距變量,根據(jù)其變量值的數(shù)學(xué)特征,我們自然可以引進(jìn)更為精確的量化指標(biāo)來(lái)反映它們之間的相關(guān)程度。兩個(gè)定距變量之間的相關(guān)測(cè)量,最常用的就是所謂積差系數(shù).它是由英國(guó)統(tǒng)計(jì)學(xué)家皮爾遜(Pearson)用積差方法推導(dǎo)出來(lái),所以也稱皮爾遜相關(guān)系數(shù),用符號(hào)r表示。

7/31/202368.1.相關(guān)表和散點(diǎn)圖相關(guān)表:經(jīng)整理后反映兩變量之間對(duì)應(yīng)關(guān)系的數(shù)據(jù)表。散點(diǎn)圖:將相關(guān)表中各個(gè)有對(duì)應(yīng)關(guān)系的數(shù)據(jù)在直角坐標(biāo)系上標(biāo)出來(lái),就得到散點(diǎn)圖。散點(diǎn)圖可以直觀地觀察兩變量之間對(duì)應(yīng)關(guān)系。工齡(年)X111333555777技術(shù)考核分Y1232343.54.55.57897/31/202369.散點(diǎn)圖表示的相關(guān)的類型★正相關(guān)★負(fù)相關(guān)★完全正相關(guān)★完全負(fù)相關(guān)★稱零相關(guān)

7/31/202370.2.積差系數(shù)的導(dǎo)出和計(jì)算7/31/202371.r是協(xié)方差與X和Y的標(biāo)準(zhǔn)差的乘積之比7/31/202372.試就下表所示資料,計(jì)算關(guān)于員工的工齡和技術(shù)考核分的皮爾遜相關(guān)系數(shù)。

工齡(年)X111333555777技術(shù)考核分Y1232343.54.55.7897/31/202373.

N0工齡X技術(shù)考核分YX2Y2XY1234567891011121113335557771232343.54.55.5789111999252525494949149491612.2520.2530.25496481123691217.522.527.5495663合計(jì)4852.5252299.75268.57/31/202374.解:計(jì)算過(guò)程見上表r=7/31/202375.3.積差系數(shù)的性質(zhì)

(1)r是線性相關(guān)系數(shù)。(2)適用于定距/定比變量。(3)取值[-1,1],絕對(duì)值越大,相關(guān)程度越高。r的絕對(duì)值在0.3以下表示不相關(guān);0.3~0.5表示低度相關(guān);0.5~0.8表示中等相關(guān);0.8以上表示高度相關(guān)。(4)X與Y是對(duì)稱關(guān)系。(5)相關(guān)系數(shù)的數(shù)值不受坐標(biāo)點(diǎn)變化的影響。(6)r2具有PRE意義。(7)r公式中的兩個(gè)變量都是隨機(jī)的,因而改變兩者的位置并不影響r的數(shù)值。

7/31/202376.注意事項(xiàng):(1)注意實(shí)際意義

進(jìn)行相關(guān)回歸分析要有實(shí)際意義,不可把毫無(wú)關(guān)系的兩個(gè)事物或現(xiàn)象用來(lái)作相關(guān)回歸分析。例如,有人說(shuō),孩子長(zhǎng),公園里的小樹也在長(zhǎng)。求孩子和小樹之間的相關(guān)關(guān)系就毫無(wú)意義,用孩子的身高推測(cè)小樹的高度則更加荒謬。(2)注意虛假相關(guān)兩個(gè)事物間能計(jì)算出相關(guān)系數(shù),并不一定能證明事物間有內(nèi)在聯(lián)系,例如,有人發(fā)現(xiàn),對(duì)于在校兒童,鞋的大小與閱讀技能有很強(qiáng)的相關(guān)關(guān)系。然而,學(xué)會(huì)新詞并不能使腳變大,而是涉及到第三個(gè)因素??年齡。當(dāng)兒童長(zhǎng)大一些,他們的閱讀能力會(huì)提高而且由于長(zhǎng)大也穿不下原來(lái)的鞋。7/31/202377.(3)利用散點(diǎn)圖對(duì)于性質(zhì)不明確的兩組數(shù)據(jù),可先做散點(diǎn)圖,在圖上看它們有無(wú)關(guān)系、關(guān)系的密切程度、是正相關(guān)還是負(fù)相關(guān),是直線相關(guān)還是曲線相關(guān),然后再進(jìn)行相關(guān)分析。(4)注意變量范圍相關(guān)分析和回歸方程僅適用于產(chǎn)生樣本的原始數(shù)據(jù)范圍之內(nèi),出了這個(gè)范圍,兩變量的相關(guān)關(guān)系和回歸關(guān)系不能就此得到說(shuō)明。7/31/202378.第五節(jié)回歸分析

在分析定距變量間的關(guān)聯(lián)性時(shí),最初關(guān)注的僅僅是變量相關(guān)的強(qiáng)度和方向,即進(jìn)行積差相關(guān)分析。然而積差系數(shù)并不能表明X和Y之間的因果關(guān)系,要明確一個(gè)變量的變化能否由另一個(gè)變量的變化來(lái)解釋,或要通過(guò)已知變量很好地預(yù)測(cè)未知變量,就要進(jìn)行回歸分析。在回歸分析中,如果自變量只有一個(gè),則稱為一元回歸;如果自變量有兩個(gè)或兩個(gè)以上則稱為多元回歸。而根據(jù)回歸方程式的特征,又可以分為線性回歸和非線性回歸。一元線性回歸分析是所有回歸分析的基礎(chǔ),

另外,回歸分析與相關(guān)分析具有密切的聯(lián)系。一般說(shuō)來(lái),只有當(dāng)兩個(gè)變量之間存在著較高程度的相關(guān)關(guān)系時(shí),回歸分析才變得有意義和有價(jià)值。因此,往往先進(jìn)行相關(guān)分析,然后才選用有明顯相關(guān)關(guān)系的變量作回歸分析。7/31/202379.1.線性回歸線性回歸分析,一般是先依據(jù)相關(guān)表做出散點(diǎn)圖,直觀地估計(jì)X和Y關(guān)聯(lián)性。如果兩變量的確呈現(xiàn)出一定的線性相關(guān)趨勢(shì),便可以設(shè)所要求的回歸直線方程為

是因變量Y的預(yù)測(cè)值或稱估計(jì)值?;貧w方程的建立:①

先做散點(diǎn)圖;②利用最小二乘法。7/31/202380.

運(yùn)用最小平方法可以在所有可能的直線中找到使Q達(dá)到最小的回歸直線。分別對(duì)a、b求偏導(dǎo)并令其為零,求得兩個(gè)標(biāo)準(zhǔn)方程:

解聯(lián)立方程,得到a和b的計(jì)算公式:XY7/31/202381.

在回歸方程中,b有十分重要的意義,被稱為回歸系數(shù)。b值的大小,反映了X對(duì)Y有多大的影響,即b值就是當(dāng)X增加一個(gè)單位時(shí)Y值的增量。

7/31/202382.

例:為了研究受

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論