第五講 列聯(lián)表分析_第1頁
第五講 列聯(lián)表分析_第2頁
第五講 列聯(lián)表分析_第3頁
第五講 列聯(lián)表分析_第4頁
第五講 列聯(lián)表分析_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第五講列聯(lián)表分析導言

在數(shù)據(jù)分析中,我們不僅需要了解單一變量的數(shù)值分布特征,還需要了解一個變量與另一個變量之間的關(guān)系。

例如,我們不僅想了解一個班級中同學們的性別結(jié)構(gòu),同時還想知道不同性別的同學在某一問題上的態(tài)度是否不同。當不同性別的同學在該問題上的態(tài)度有明顯差異時,我們可以說,性別與態(tài)度這兩個變量之間存在相關(guān)關(guān)系。所謂相關(guān),是指一個變量的值與兩一個變量的值有連帶性,即一個變量的取值發(fā)生變化,另一個變量的取值也跟著發(fā)生變化。

相關(guān)關(guān)系不一定是因果關(guān)系,但是因果關(guān)系必定存在相關(guān)關(guān)系。啤酒與尿布

在一家超市中,人們發(fā)現(xiàn)了一個特別有趣的現(xiàn)象:尿布與啤酒這兩種風馬牛不相及的商品居然擺在一起。但這一奇怪的舉措居然使尿布和啤酒的稍量大幅增加了。這可不是一個笑話,而是一直被商家所津津樂道的發(fā)生在美國沃爾瑪連鎖超市的真實案例。原來,美國的婦女通常在家照顧孩子,所以她們經(jīng)常會囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。

啤酒銷量尿布銷量消費者的喜好導言

為了了解一個變量與另一個變量之間是否存在相關(guān)關(guān)系以及相關(guān)的強度大小,在統(tǒng)計上常用的方法是做列聯(lián)表或者是計算兩個變量之間的相關(guān)系數(shù)。讀者通過列聯(lián)表可以直觀地感受到兩個變量之間是否存在相關(guān)關(guān)系及其關(guān)系的強弱和方向,而相關(guān)系數(shù)則更精確地反映了兩個變量之間的相關(guān)關(guān)系強度的大小和方向。導言

贊成不贊成男020女300贊成不贊成男200女030全相關(guān)贊成不贊成男1010女1515贊成不贊成男218女255零相關(guān)強相關(guān)一、列聯(lián)表(contingencytable)

列聯(lián)表也稱交互分類表,就是同時根據(jù)兩個變量的值,將所研究的觀測個案進行分類。一、列聯(lián)表(contingencytable)1.由兩個以上的變量交叉分類的頻數(shù)分布表2.行變量的類別用r表示,ri

表示第i個類別3.列變量的類別用c表示,cj

表示第j個類別4.每種組合的觀察頻數(shù)用fij

表示5.表中列出了行變量和列變量的所有可能的組合6.一個r行c列的列聯(lián)表稱為r×c列聯(lián)表一、列聯(lián)表(contingencytable)最大志愿頻數(shù)快樂家庭40理想工作60增廣見聞10合計100條件頻數(shù)(conditionalfrequencies)最大志愿教育水平合計高中低快樂家庭530540理想工作0302050增廣見聞50510合計106030100邊緣頻數(shù)(marginalfrequencies)總數(shù)一、列聯(lián)表(contingencytable)最大志愿教育水平高(%)中(%)低(%)快樂家庭50.050.016.7理想工作0.050.066.7增廣見聞50.00.016.7總數(shù)(10)(60)(30)

低教育水平的青年多以“理想工作”為志愿,中、高教育水平的青年則多選擇“快樂家庭”,但前者同時較注重“理想工作”,后者較注重“增廣見聞”。表2.2青年人教育水平對其志愿的影響一、列聯(lián)表(contingencytable)編制條件百分比表時應該注意:1.頂端有表號和標題。2.舍去不必要線條,盡可能簡潔,上下粗線條,左右不封口。3.自變量取值下標明%,條件百分比不必再一一標%。4.表地段()的數(shù)值,表示在計算百分比時所依據(jù)的個案數(shù)目。5.表內(nèi)各百分比數(shù)值的小數(shù)位數(shù)應該保持一致。6.根據(jù)自變量的方向計算百分比,但當因變量在樣本中的分布不能代表其在總體中的分布時則要根據(jù)因變量的方向計算百分比。一、列聯(lián)表(contingencytable)

一般而言,將因變量放在表的左邊,自變量放在表的上邊,r×c表,r表示的因變量的取值個數(shù),c表示的是自變量的取值個數(shù)。按照根據(jù)自變量方向計算百分比,即根據(jù)列來計算百分比。一、列聯(lián)表(contingencytable)是否贊成期中考核班級1班(%)2班(%)3班(%)贊成64.153.839.5不贊成35.946.260.5總數(shù)(78)(80)(76)是否贊成期中考核班級總數(shù)1班(%)2班(%)3班(%)贊成40.7

35.0

24.3(123)不贊成25.233.341.4(111)怎么解釋?1班同學贊成期中考核的學生比重最大,3班最小。班級影響考試態(tài)度。一、列聯(lián)表(contingencytable)根據(jù)因變量方向計算百分比舉例研究某城市破裂家庭(自變量)對青少年犯罪行為(因變量)的影響。如何抽樣?假定該城市的全部青少年中,未犯罪的青少年有54400名,有越軌行為的青少年960名。現(xiàn)在我們決定從未犯罪青少年中抽取1%,即544名,但如果按照相同的比例從犯罪的青少年中抽取樣本的話,則只能抽取10個人,這樣的樣本太小,難以進行準確的比較。因此,按照50%的比例從犯罪青少年中抽取480名作為樣本。一、列聯(lián)表(contingencytable)犯罪青少年

未犯罪青少年合計破裂家庭14645191和好家庭334499833合計4805441024犯罪青少年

未犯罪青少年合計破裂家庭(%)76.423.6(191)和好家庭(%)

40.060.0(833)犯罪青少年(%)未犯罪青少年(%)破裂家庭

30.48.3和好家庭

69.691.7總數(shù)(480)(544)和好家庭的中有40%的青少年有犯罪行為?犯罪青少年中破裂家庭占了30.4%的比重,為未犯罪青少年中破裂家庭只占8.3%。一、列聯(lián)表(contingencytable)列聯(lián)表的SPSS實現(xiàn)。(略)條件百分比表的優(yōu)點:資料豐富,一個3×3列聯(lián)表就有9個百分比可供比較。條件百分比表的缺點:當r×c很大時,百分比會很多,不容易看出兩個變量之間的關(guān)系。比如一個5×6表就會30個百分比,就很難看出兩個變量之間是否存在相關(guān)關(guān)系。此時,我們就希望有一個數(shù)值來表示兩個變量之間的相關(guān)關(guān)系的強度和方向,以使資料更加簡化和明白易懂,這就是相關(guān)系數(shù)。二、相關(guān)系數(shù)(correlationcoefficient)相關(guān)系數(shù)即用來表示兩個變量間相關(guān)強度和方向的統(tǒng)計值。相關(guān)系數(shù)非常多,當我們選擇相關(guān)系數(shù)時,首先,根據(jù)變量的測量層次,不同層次的變量需要選擇不同的相關(guān)系數(shù)。其次,兩個變量之間關(guān)系是對稱的還是不對稱的,對稱關(guān)系即不區(qū)分自變量和因變量,而不對稱關(guān)系則要區(qū)分自變量和因變量。再次,盡量選擇具有消減誤差比例意義的相關(guān)系數(shù)。二、相關(guān)系數(shù)(correlationcoefficient)相關(guān)系數(shù)即用來表示兩個變量間相關(guān)強度和方向的統(tǒng)計值。相關(guān)系數(shù)非常多,當我們選擇相關(guān)系數(shù)時,首先,根據(jù)變量的測量層次,不同層次的變量需要選擇不同的相關(guān)系數(shù)。其次,兩個變量之間關(guān)系是對稱的還是不對稱的,對稱關(guān)系即不區(qū)分自變量和因變量,而不對稱關(guān)系則要區(qū)分自變量和因變量。再次,盡量選擇具有消減誤差比例意義的相關(guān)系數(shù)。二、相關(guān)系數(shù)(correlationcoefficient)

消減誤差比例(proportionatereductioninerror),簡稱為PRE測量法。相關(guān)分析的目的之一在于用一個變量去預測或解釋另一個變量。為什么我們班同學的身高會有那么大的差異?當我們對這一現(xiàn)象毫無所知的時候,隨便說出一個同學的名字,讓你猜他的身高,這個時候難免會有誤差。但是,當我們知道性別與身高有較強的相關(guān)關(guān)系之后,在說出這個同學名字的同時又告訴你了該同學的性別,那么,這個時候你再去猜他的身高,應該就可以減少若干誤差。而且,性別與身高的相關(guān)度越高,所能減少的誤差也越大。

二、相關(guān)系數(shù)(correlationcoefficient)

假設在不知道X(如性別)的條件下去預測Y(如身高)所產(chǎn)生的誤差是E1,在知道X的條件下去利用X的取值去預測Y所產(chǎn)生的誤差為E2,則消減誤差比例

PRE=(E1-E2)/E1

由以上公式可知,當通過X預測Y產(chǎn)生的誤差E2越小,PRE數(shù)值越大,標明X與Y的關(guān)系越。當E2=0時,X與Y的關(guān)系最強,PRE=1,當E2=E1時,關(guān)系最弱,PRE=0.當PRE=06時,就表明用X預測Y可以減少60%的誤差。二、相關(guān)系數(shù)(correlationcoefficient)

PRE數(shù)值的意義就在于它能夠直觀地表示用一個變量(X)去解釋或預測另一個變量(Y)時能夠減少百分之幾的誤差。二、相關(guān)系數(shù)(correlationcoefficient)

1.兩個定類變量之間的相關(guān)系數(shù):λ和tau-yLambda相關(guān)測量法的基本邏輯:以一個定類變量的值來預測另一個定類變量的值時,以眾數(shù)作為預測的準則,可以消減多少誤差,消減的誤差越多,變量之間的相關(guān)愈強,反之,越少則相關(guān)愈弱。

二、相關(guān)系數(shù)(correlationcoefficient)

1.兩個定類變量之間的相關(guān)系數(shù):λ和tau-yLambda相關(guān)測量法有2種形式:一是對稱形式,簡寫為λ系數(shù),即兩個變量之間是相關(guān)影響的,區(qū)分不出明顯的自變量和因變量。二是不對稱形式,簡寫為λy系數(shù),要求兩個定類變量中,一個是自變量,另一個是因變量,自變量影響因變量。

二、相關(guān)系數(shù)(correlationcoefficient)

1.兩個定類變量之間的相關(guān)系數(shù):λ和tau-y

Mx:X變量的眾數(shù)My:Y變量的眾數(shù)mx:X變量各類別下Y變量的眾數(shù)my:Y變量各類別下X變量的眾數(shù)N:全部個案數(shù)二、相關(guān)系數(shù)(correlationcoefficient)

1.兩個定類變量之間的相關(guān)系數(shù):λ和tau-y

最大志愿性別合計男女快樂家庭103040理想工作401050增廣見聞10010合計6040100二、相關(guān)系數(shù)(correlationcoefficient)

1.兩個定類變量之間的相關(guān)系數(shù):λ和tau-y

λy具有消減誤差比例的意義,性別與志愿之間的相關(guān)系數(shù)為0.4,表明用性別與預測志愿可以減少40%的誤差。

二、相關(guān)系數(shù)(correlationcoefficient)

1.兩個定類變量之間的相關(guān)系數(shù):λ和tau-y

最大志愿知心朋友的志愿合計快樂家庭理想工作增廣見聞快樂家庭289340理想工作241750增廣見聞24410合計325414100二、相關(guān)系數(shù)(correlationcoefficient)

1.兩個定類變量之間的相關(guān)系數(shù):

tau-y相關(guān)測量屬于不對稱測量,要求兩個定類變量中,一個是自變量(X),一個是因變量(Y),其值也是介于0-1之間,具有消減誤差比例的意義。計算公式如下:

n:個案數(shù)目f:條件次數(shù)Fy:Y變量的邊緣次數(shù)Fx:X變量的邊緣次數(shù)二、相關(guān)系數(shù)(correlationcoefficient)最大志愿性別合計男女快樂家庭103040理想工作401050增廣見聞10010合計6040100性別與志愿之間的相關(guān)系數(shù)為0.224,也可以說用性別來預測志愿可以減少22.4%的誤差。二、相關(guān)系數(shù)(correlationcoefficient)

Tau-y系數(shù)在計算相關(guān)程度時運用了所有的邊緣次數(shù)和條件次數(shù)。因此,其敏感度要高于Lambda系數(shù)。如果是不對稱關(guān)系的兩個定類變量,最好選擇tau-y系數(shù)。

二、相關(guān)系數(shù)(correlationcoefficient)

2.兩個定序變量之間的相關(guān):

Gamma系數(shù)適用于分析對稱關(guān)系dy適用于分析不對稱關(guān)系Tau系列系數(shù)斯皮爾曼相關(guān)系數(shù)

二、相關(guān)系數(shù)(correlationcoefficient)

2.兩個定序變量之間的相關(guān):Gamma系數(shù)dy

Ns:同序?qū)?shù)Nd:異序?qū)?shù)

二、相關(guān)系數(shù)(correlationcoefficient)工廠積極性等級產(chǎn)量等級A55B33C41D1.53E1.53表2.15所工廠工人生產(chǎn)積極性與產(chǎn)量

5所工廠一共可以兩兩相配為10對:AB,AC,AD,AE,BC,BD,BE,CD,CE,DE.其中,同序配對有:AB,AC,AD,AE,數(shù)目為4對,異序配對有:BC,CD,CE.數(shù)目為3對。所以

二、相關(guān)系數(shù)(correlationcoefficient)

可見,工人的生產(chǎn)積極性與產(chǎn)量之間呈正相關(guān)關(guān)系,但相關(guān)強程度比較弱,相關(guān)系數(shù)為0.14,即以其中的一個變量預測或解釋另一個變量時,能夠減少14%的誤差。

Gamma系數(shù)屬于不對稱相關(guān)測量法,如果我們要分析的兩個定序變量之間存在明顯不對稱關(guān)系,即一個為自變量,另一個為因變量,因變量受自變量影響,而自變量并不受因變量的影響,那么,最好使用dy系數(shù)。二、相關(guān)系數(shù)(correlationcoefficient)

2.兩個定序變量之間的相關(guān):

Ns:同序?qū)?shù)Nd:異序?qū)?shù)

Ty:只在因變量上同分的對數(shù)

二、相關(guān)系數(shù)(correlationcoefficient)工廠積極性等級產(chǎn)量等級A55B33C41D1.53E1.53表2.15所工廠工人生產(chǎn)積極性與產(chǎn)量

5所工廠一共可以兩兩相配為10對:AB,AC,AD,AE,BC,BD,BE,CD,CE,DE.其中,同序配對有:AB,AC,AD,AE,數(shù)目為4對,異序配對有:BC,CD,CE.數(shù)目為3對,在因變量上同分的配對:BD,BE,數(shù)目為2對,所以

二、相關(guān)系數(shù)(correlationcoefficient)

可見,dy系數(shù)總要小于Gamma系數(shù),因為dy系數(shù)的分母多了一個在因變量上同分的對數(shù)。上述計算方法只是對于小樣本原始資料進行的,如果是分類匯總資料,該如何求G和dy系數(shù)呢?二、相關(guān)系數(shù)(correlationcoefficient)YX121

f11f122f21f22二、相關(guān)系數(shù)(correlationcoefficient)婆媳沖突住戶密度總數(shù)高中低高2320447中11552894低8272459總數(shù)4210256200表2.2住戶人口密度與婆媳沖突二、相關(guān)系數(shù)(correlationcoefficient)m:min(r,c)tau-a:在兩個自變量上都沒有同分對,其取值才為【-1,+1】tau-b:用同分對,但在r=c時,其取值才為【-1,+1】tau-c:沒有要求,其值為【-1,+1】,所以tau-c較為常用,但其沒有消減誤差比例的意義,所以其應用不及G和dy廣泛。二、相關(guān)系數(shù)(correlationcoefficient)

斯皮爾曼相關(guān)系數(shù)rho:計算每個個案在兩個變量上的等級時,不僅區(qū)別二者的高低差異,而且還要計算兩者差異的確切數(shù)值。

D表示每個個案在兩列等級上的差異值。其基本邏輯是:在最大可能的等級差異值中,實際的等級差異所占的比例。

屬于對稱測量,要求同分的情況不能太多,取值范圍[-1,1],平方具有消減誤差比例的意義。二、相關(guān)系數(shù)(correlationcoefficient)鄉(xiāng)名經(jīng)濟衛(wèi)生A11B23C34D45E58F66.5G79.5H8.56.5I8.59.5J102表3.110個鄉(xiāng)的經(jīng)濟水平與衛(wèi)生水平二、相關(guān)系數(shù)(correlationcoefficient)

可見,經(jīng)濟水平與衛(wèi)生水平成正相關(guān)關(guān)系,而且關(guān)系強度呈中等,其平方為0.2209,表明以一個變量預測兩一個變量的等級時可以減少22.09%的誤差。二、相關(guān)系數(shù)(correlationcoefficient)3.兩個定距變量之間的相關(guān):

皮爾森相關(guān)系數(shù)主要用來測量兩個定距變量之間的相關(guān)程度。二、相關(guān)系數(shù)(correlationcoefficient)編號教育年限(X)勞動小時(Y)A25B24C34D33E41F41G40H60I80總數(shù)3618表2.39名婦女教育年限與家務勞動二、相關(guān)系數(shù)(correlationcoefficient)

皮爾森相關(guān)系數(shù):對稱測量,假定X與Y互相影響(很多時候,不對稱也使用此系數(shù))范圍:[-1,+1]平方具有消減誤差比例的意義假定X與Y之間是一種直線相關(guān)關(guān)系二、相關(guān)系數(shù)(correlationcoefficient)3.定類變量與定距變量:相關(guān)比率又稱eta平方系數(shù)(簡寫為E2),定類變量是自變量,定距變量是因變量,根據(jù)自變量的取值預測因變量的均值。范圍:【0,1】

具有消減誤差比例的意義

二、相關(guān)系數(shù)(correlationcoefficient)3.定類變量與定距變量:相關(guān)比率

Y:因變量的值Y撇:因變量的均值Y撇i:每個自變量取值上的因變量的均值二、相關(guān)系數(shù)(correlationcoefficient)

職業(yè)種類干部工人農(nóng)民英語成績7852838259759173829061788580808151836454總數(shù)785表2.420名學生家庭職業(yè)背景對英語成績的影響二、相關(guān)系數(shù)(correlationcoefficient)3.定類變量與定距變量:相關(guān)比率皮爾森相關(guān)系數(shù)假定兩個定距變量之間具有直線關(guān)系,如果兩個變量之間不成直線關(guān)系,而是曲線關(guān)系,則r系數(shù)會誤解事實。

因此,在計算r系數(shù)之前先做一個散點圖,看看是否成直線關(guān)系,如果不是直線關(guān)系,要么通過變量轉(zhuǎn)換使其成線性相關(guān),要么使用相關(guān)比率(E)來替代r。

二、相關(guān)系數(shù)(correlationcoefficient)4.定類變量與定序變量:Lambdatau-y

由于定序變量具有定類變量的數(shù)學特質(zhì),所以,對于一個定類變量和一個定序變量的相關(guān),大多采用Lambda和tau-y.

二、相關(guān)系數(shù)(correlationcoefficient)5.定序變量與定距離量:相關(guān)比率同理,由于定序變量具有定類變量的數(shù)學特質(zhì),所以,對于一個定序變量和一個定距變量的相關(guān),大多采用相關(guān)比率測量。

二、相關(guān)系數(shù)(correlationcoefficient)6.總結(jié)

測量方法變量層次要求取值范圍是否對稱測量

有無PRE意義Lambda定類-定類定類-定序[01]對稱和不對稱有Tau-y定類-定類定類-定序[01]不對稱有Gamma定序-定序[-11]對稱有Dy定序-定序[-11]不對稱有相關(guān)比率定類-定距定序-定距[01]不對稱E2有皮爾森系數(shù)定距-定距[-11]對稱

r2有二、相關(guān)系數(shù)(correlationcoefficient)7.應用舉例(略)

作業(yè)1.下列數(shù)值是12個企業(yè)女職工的比例,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論