屬性數(shù)據(jù)列聯(lián)表演示文稿_第1頁
屬性數(shù)據(jù)列聯(lián)表演示文稿_第2頁
屬性數(shù)據(jù)列聯(lián)表演示文稿_第3頁
屬性數(shù)據(jù)列聯(lián)表演示文稿_第4頁
屬性數(shù)據(jù)列聯(lián)表演示文稿_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

屬性數(shù)據(jù)列聯(lián)表演示文稿當(dāng)前第1頁\共有43頁\編于星期三\23點(優(yōu)選)第九講屬性數(shù)據(jù)列聯(lián)表當(dāng)前第2頁\共有43頁\編于星期三\23點在市場研究中,為了了解一種新產(chǎn)品的吸引力,根據(jù)顧客是否已看到這種新產(chǎn)品的廣告及是否已購買該廠新產(chǎn)品,將顧客分為不同組.這種類型的數(shù)據(jù)可以方便地匯總在一張表格中,用來表示每個組中的觀測個數(shù).屬性數(shù)據(jù)分析當(dāng)前第3頁\共有43頁\編于星期三\23點一、屬性數(shù)據(jù)1.變量的類型根據(jù)變量的取值情況可以分為以下幾種:當(dāng)前第4頁\共有43頁\編于星期三\23點(1)名義變量變量值是幾個沒有次序之分的不同狀態(tài),它給變量值賦予名稱.例如,性別就是一個名義變量,用“男”和“女”作為其取值.也可以用“1”和“2”代表取值,但這二個數(shù)字只是取值的名稱,它們在數(shù)值上沒有任何意義.人們駕駛的汽車類型也是名義變量的例子,可以把“Toyota”,“Chevrolet”,“Volkswagens”等作為變量值的代碼;也可以用“1”代表Toyota牌,“2”代表Chevrolets牌,“3”代表Volkswagens牌等等.但是這些數(shù)字除了把該變量的一個值與一個名稱聯(lián)系起來之外沒有任何其他的意義.還有職業(yè)、血型、是否患病、喜愛的顏色等等都是名義變量.當(dāng)前第5頁\共有43頁\編于星期三\23點(2)有序變量變量值是有嚴(yán)格次序的不同狀態(tài).例如民意測驗中常用到以下取值的有序尺度:堅決擁護(hù)、擁護(hù)、棄權(quán)、反對、堅決反對,比如:“我認(rèn)為新的稅法比老稅法有改進(jìn)”的一種陳述,要求在有序尺度中選擇代表自己意見的回答.又如按治療效果,把病人分為治愈(1)、顯效(2)、好轉(zhuǎn)(3)、無效(4)等四類.把產(chǎn)品按質(zhì)量分為:不好、一般、好、很好.文化程度分為高、中、低等.在以上幾個例子中,變量的取值有內(nèi)在的順序.同名義數(shù)據(jù)一樣,你可以給這些值賦予不同數(shù)字,而你賦給變量的具體數(shù)字并不重要,但規(guī)定的這些數(shù)字與取值順序必須相匹配.對于治療效果的例子,既可以規(guī)定變量值為1,2,3和4,也可以規(guī)定為1,10,20和100.如果選擇的分析方法適用于該變量,那么該方法只依賴變量值的順序而與變量的數(shù)值無關(guān).當(dāng)前第6頁\共有43頁\編于星期三\23點(3)區(qū)間變量(或間隔變量)區(qū)間變量是有順序大小的數(shù)值變量,且數(shù)值間的差值是有意義的.例如考慮溫度,40度比10度熱30度,而40度和10度是相對于人們?nèi)《ǖ?度而言的.這類變量對減法:兩值之差是有意義的;但對兩值的比率是沒有意義的。例如由40/10=4,而認(rèn)為40度比10度熱3倍的說法是不合適的.區(qū)間變量與有序變量相對比,有序變量值之差是沒有什么意義,如治療效果是有序變量,2和1之間的差與3和2之間的差不具有同樣的意義.當(dāng)前第7頁\共有43頁\編于星期三\23點(4)比率變量(或比例變量)比率變量也是數(shù)值變量,不僅數(shù)值之差有意義,而且要求有絕對的零點,兩數(shù)值的比率也是很重要.例如,金子的重量就是一個比率變量;還有食物中的卡路里數(shù)也是比率變量,含有2000卡路里的食物是含有1000卡路里的食物的兩倍;與溫度相比較,我們不能說40度是20度的兩倍,因為溫度的0度只是一個任選的參考點.以上這四類變量中,名義變量和有序變量也稱為屬性變量(或定性變量),有時也稱為離散變量;而區(qū)間變量和比率變量稱為定量變量,有時也稱為連續(xù)變量.當(dāng)前第8頁\共有43頁\編于星期三\23點2.屬性數(shù)據(jù)來自社會調(diào)查、醫(yī)學(xué)、心理學(xué)等領(lǐng)域中,由屬性變量得到的數(shù)據(jù)都是屬性數(shù)據(jù).例如問卷調(diào)查結(jié)果的分析,醫(yī)藥和流行病研究資料的分析等,都是對屬性數(shù)據(jù)進(jìn)行分析.屬性數(shù)據(jù)一般都是匯總為表格(即列聯(lián)表)后再進(jìn)一步地進(jìn)行分析.在方差分析和回歸分析中,研究因變量與一些自變量的相關(guān)關(guān)系.在方差分析中,自變量就是屬性變量,它們都只取幾個離散的值.在回歸分析中,自變量是連續(xù)變量.但方差分析和回歸分析中的因變量都必須是連續(xù)變量。當(dāng)前第9頁\共有43頁\編于星期三\23點當(dāng)我們研究的指標(biāo)是一個屬性變量,并希望用其他變量來說明或預(yù)測這個屬性變量的取值時,不管用以說明的變量是屬性的或連續(xù)的,使用的統(tǒng)計方法統(tǒng)稱為屬性數(shù)據(jù)分析,所以屬性數(shù)據(jù)分析是一種有著廣泛實際應(yīng)用的統(tǒng)計方法.對屬性數(shù)據(jù)進(jìn)行分析,將達(dá)到以下幾方面的目的:(1)產(chǎn)生匯總分類數(shù)據(jù)——列聯(lián)表;(2)檢驗屬性變量間的獨立性(無關(guān)聯(lián)性);

(3)計算屬性變量間的關(guān)聯(lián)性統(tǒng)計量;(4)對高維數(shù)據(jù)進(jìn)行分層分析和建模.當(dāng)前第10頁\共有43頁\編于星期三\23點第九講

列聯(lián)表、c2檢驗和對數(shù)線性模型

當(dāng)前第11頁\共有43頁\編于星期三\23點例1下面是對123人進(jìn)行關(guān)于某項政策調(diào)查所得結(jié)果的一個簡單的三維表,它顯示了人們的收入和性別對該項政策的觀點。下表表示不同收入和不同性別人群對某項政策的觀點。當(dāng)前第12頁\共有43頁\編于星期三\23點三維列聯(lián)表

(關(guān)于某項政策調(diào)查所得結(jié)果)

觀點:贊成觀點:不贊成

低收入中等收入高收入低收入中等收入高收入男201055810女25157279當(dāng)前第13頁\共有43頁\編于星期三\23點列聯(lián)表前面就是一個所謂的三維列聯(lián)表(contingencytable).這些變量中每個都有兩個或更多的可能取值。這些取值也稱為水平;比如收入有三個水平,觀點有兩個水平,性別有兩個水平等。該表為3×2×2列聯(lián)表在下面SPSS數(shù)據(jù)中,表就和上面的不同,收入的“低”、“中”、“高”用代碼1、2、3代表;性別的“女”、“男”用代碼0、1代表;觀點“贊成”和“不贊成”用1、0代表。有些計算機(jī)數(shù)據(jù)對于這些代碼的形式不限(可以是數(shù)字,也可以是字符串)。當(dāng)前第14頁\共有43頁\編于星期三\23點當(dāng)前第15頁\共有43頁\編于星期三\23點列聯(lián)表列聯(lián)表的中間各個變量不同水平的交匯處,就是這種水平組合出現(xiàn)的頻數(shù)或計數(shù)(count)。二維的列聯(lián)表又稱為交叉表(crosstable)。列聯(lián)表可以有很多維。維數(shù)多的叫做高維列聯(lián)表。注意前面這個列聯(lián)表的變量都是定性變量;但列聯(lián)表也會帶有定量變量作為協(xié)變量。當(dāng)前第16頁\共有43頁\編于星期三\23點二維列聯(lián)表的檢驗

研究列聯(lián)表的一個主要目的是看這些變量是否相關(guān)。比如前面例子中的收入和觀點是否相關(guān)。這需要形式上的檢驗當(dāng)前第17頁\共有43頁\編于星期三\23點二維列聯(lián)表的檢驗

下面表是把該例的三維表簡化成只有收入和觀點的二維表(這是SPSS自動轉(zhuǎn)化的:Analyze-DescriptiveStatistics-Crosstabs-…..).當(dāng)前第18頁\共有43頁\編于星期三\23點二維列聯(lián)表的檢驗對于上面那樣的二維表。我們檢驗的零假設(shè)和備選假設(shè)為H0:觀點和收入這兩個變量不相關(guān);H1:這兩個變量相關(guān)。這里的檢驗統(tǒng)計量在零假設(shè)下有(大樣本時)近似的c2分布。當(dāng)該統(tǒng)計量很大時或p-值很小時,就可以拒絕零假設(shè),認(rèn)為兩個變量相關(guān)。當(dāng)前第19頁\共有43頁\編于星期三\23點二維列聯(lián)表的檢驗實際上有不止一個c2檢驗統(tǒng)計量。包括Pearson

c2統(tǒng)計量和似然比(likelihoodratio)c2統(tǒng)計量;它們都有漸近的c2分布。對于我們的數(shù)據(jù),根據(jù)計算可以得到(對于這兩個統(tǒng)計量均有)p-值小于0.001。因此可以說,收入高低的確影響觀點。

當(dāng)前第20頁\共有43頁\編于星期三\23點Pearson

c2統(tǒng)計量似然比c2統(tǒng)計量當(dāng)前第21頁\共有43頁\編于星期三\23點二維列聯(lián)表的檢驗剛才說,這些c2統(tǒng)計量是近似的,那么有沒有精確的統(tǒng)計量呢?當(dāng)然有。這個檢驗稱為Fisher精確檢驗;它不是c2分布,而是超幾何分布。對本問題,計算Fisher統(tǒng)計量得到的p-值也小于0.001。Fisher精確檢驗的又一例子當(dāng)前第22頁\共有43頁\編于星期三\23點二維列聯(lián)表的檢驗聰明的同學(xué)必然會問,既然有精確檢驗為什么還要用近似的c2檢驗?zāi)??這是因為當(dāng)數(shù)目很大時,超幾何分布計算相當(dāng)緩慢(比近似計算會差很多倍的時間);而且在計算機(jī)速度不快時,根本無法計算。因此人們多用大樣本近似的c2統(tǒng)計量。而列聯(lián)表的有關(guān)檢驗也和c2檢驗聯(lián)系起來了。當(dāng)前第23頁\共有43頁\編于星期三\23點具體運算:先加權(quán),加權(quán)之后,按照次序選Analyze-DescriptiveStatistics-Crosstabs。在打開的對話框中,把opinion和income分別選入Row(行)和Column(列);至于哪個放入行或哪個放入列是沒有關(guān)系的。如果要Fisher精確檢驗則可以點Exact,另外在Statistics中選擇Chi-square,以得到c2檢驗結(jié)果。最后點擊OK之后,就得到有關(guān)Pearsonc2統(tǒng)計量、似然比c2統(tǒng)計量以及Fisher統(tǒng)計量的輸出了(這里的Sig就是p-值)。

當(dāng)前第24頁\共有43頁\編于星期三\23點下面就是SPSS計算機(jī)對于這個問題的輸出當(dāng)前第25頁\共有43頁\編于星期三\23點高維列聯(lián)表和(多項分布)對數(shù)線性模型

前面例子原始數(shù)據(jù)是個三維列聯(lián)表,其檢驗和對兩維類似。但高維列聯(lián)表在計算機(jī)軟件的選項上有所不同,而且可以構(gòu)造一個所謂(多項分布)對數(shù)線性模型(loglinearmodel)來進(jìn)行分析。利用對數(shù)線性模型的好處是不僅可以直接進(jìn)行預(yù)測,而且可以增加定量變量作為模型自變量的一部分。當(dāng)前第26頁\共有43頁\編于星期三\23點對數(shù)線性模型現(xiàn)在簡單直觀地通過二維表介紹一下對數(shù)線性模型,假定不同的行代表第一個變量的不同水平,而不同的列代表第二個變量的不同水平。用mij代表二維列聯(lián)表第i行,第j列的頻數(shù)。人們常假定這個頻數(shù)可以用下面的公式來確定:這就是所謂的對數(shù)線性模型。這里ai為行變量的第i個水平對ln(mij)的影響,而bj為列變量的第j個水平對ln(mij)的影響,這兩個影響稱為主效應(yīng)(maineffect);eij代表隨機(jī)誤差。

當(dāng)前第27頁\共有43頁\編于星期三\23點(多項分布)對數(shù)線性模型該模型看上去和回歸模型很象,但由于分布假設(shè)不同,不能簡單地用線性回歸的方法來套用(和Logistic回歸類似);計算過程也很不一樣(把這個留給計算機(jī)去操心)。只要利用數(shù)據(jù)來擬合這個模型就可以得到對于參數(shù)m的估計(沒有意義),以及ai和bj的“估計”。有了估計的參數(shù),就可以預(yù)測出任何i,j水平組合的頻數(shù)mij了(通過對數(shù))當(dāng)前第28頁\共有43頁\編于星期三\23點(多項分布)對數(shù)線性模型注意,這里的估計之所以打引號是因為一個變量的各個水平的影響是相對的,只有事先固定一個參數(shù)值(比如a1=0),或者設(shè)定類似于Sai=0這樣的約束,才可能估計出各個的值。沒有約束,這些參數(shù)是估計不出來的。當(dāng)前第29頁\共有43頁\編于星期三\23點(多項分布)對數(shù)線性模型二維列聯(lián)表的更完全的對數(shù)線性模型為這里的(ab)ij代表第一個變量的第i個水平和第二個變量的第j個水平對ln(mij)的共同影響,稱為交叉效應(yīng)。即當(dāng)單獨作用時,每變量的某水平對ln(mij)的影響只有ai(或bj)大,但如這兩個變量共同影響就不僅是ai+bj,而且還多出一項。這里的交叉項的諸參數(shù)的大小也是相對的,也需要約束條件來得到其“估計”。當(dāng)前第30頁\共有43頁\編于星期三\23點用table7.txt數(shù)據(jù)擬合對數(shù)線性模型假定(多項分布)對數(shù)線性模型為

這里ai為收入(i=1,2,3代表收入的低、中、高三個水平),bj為觀點(j=1,2代表不贊成和贊成兩個水平),gk為性別(k=1,2代表女性和男性兩個水平),

mijk代表三維列聯(lián)表對于三個變量的第ijk水平組合的出現(xiàn)次數(shù),eijk為殘差而從相應(yīng)的參數(shù)估計輸出結(jié)果,可以得到對ai的三個值的估計為0.5173,0.2549,0.0000,對bj的兩個值的估計為-0.6931,0.0000,對gk的兩個值的估計為0.1139,0.0000。(多項對數(shù)線性模型無常數(shù)項)當(dāng)前第31頁\共有43頁\編于星期三\23點對數(shù)線性模型高維表的檢驗統(tǒng)計量和二維表一樣也包含了Pearsonc2統(tǒng)計量和似然比c2統(tǒng)計量,檢驗對數(shù)線性模型擬合的好壞程度的。就我們這里的三維列聯(lián)表問題,如果只考慮各個變量單獨的影響,而不考慮變量組合的綜合影響,計算機(jī)輸出的Pearsonc2統(tǒng)計量和似然比c2統(tǒng)計量得到的p-值分別為0.0029和0.0011。當(dāng)前第32頁\共有43頁\編于星期三\23點多項分布對數(shù)線性模型的SPSS實現(xiàn)[數(shù)據(jù)table7.sav]假定已經(jīng)加權(quán)(加權(quán)一次并存盤了既可)這時的選項為Analyze-Loglinear-General,首先選擇格子中頻數(shù)的分布,這里是多項分布(其默認(rèn)值是Poisson對數(shù)線性模型).然后把三個變量(sex,opinion,income)選入Factors(因子);再選Model(模型),如果選Saturated(飽和模型),那就是所有交叉效應(yīng)都要放入模型;但如果不想這樣,可以選Custom(自定義),在BuildingTerms(構(gòu)造模型的項)選Maineffect(主效應(yīng)),再把三個變量一個一個地選進(jìn)來(如果兩個或三個一同選入,等于選入交叉效應(yīng)).如果想要知道模型參數(shù),在Options中選擇Estimates。最后Continue-OK即可得出結(jié)果.在計算機(jī)輸出的結(jié)果中可以找到我們感興趣的結(jié)果。如果SPSS的Viewer輸出不完全,可以選中不完全的輸出,利用Edit-CopyObjects來復(fù)制到例如記事本那樣的文件中,就可以看到完整輸出了當(dāng)前第33頁\共有43頁\編于星期三\23點注意,無論你對模型假定了多少種效應(yīng),并不見得都有意義;有些可能是多余的。本來沒有交叉影響,但如果寫入,也沒有關(guān)系,在分析過程中一般可以知道哪些影響是顯著的,而那些是不顯著的。然后可決定舍取變量。

當(dāng)前第34頁\共有43頁\編于星期三\23點另一種對數(shù)線性模型常用的對數(shù)線性模型主要是兩種,我們已經(jīng)介紹了多項分布對數(shù)線性模型(格子里面的頻數(shù)滿足多項分布)。另一類為Poisson對數(shù)線性模型.它假定每個格子里面的頻數(shù)滿足一個Poisson分布.在統(tǒng)計軟件的選項中會有關(guān)于分布的選項的。當(dāng)前第35頁\共有43頁\編于星期三\23點Poison對數(shù)線性模型

有的時候,類似的高維表并不一定滿足多項分布對數(shù)線性模型。下面例子是關(guān)于哮喘病人個數(shù)和空氣污染程度,年齡和性別的數(shù)據(jù)(asthma.txt)數(shù)據(jù)為某地在一段時間記錄下來的60組在不同空氣污染狀態(tài)的不同年齡及不同性別的人的發(fā)生哮喘的人數(shù)。當(dāng)前第36頁\共有43頁\編于星期三\23點Poison對數(shù)線性模型

其中性別為定性變量S(sex,1代表女性,2代表男性),空氣污染程度P也是定性變量(polut,1、2、3分別代表輕度、中度和嚴(yán)重污染),年齡A(age)為定量變量,為那一組人的平均年齡;數(shù)目C(count)為相應(yīng)組的哮喘人數(shù)。該表格和前面的列聯(lián)表的不同點在于每一格的計數(shù)并不簡單是前面三個變量的組合的數(shù)目(某個年齡段,某種性別及某種污染下的人數(shù)),而是代表了某個年齡段,某種性別及某種污染下發(fā)生哮喘的人數(shù)。

當(dāng)前第37頁\共有43頁\編于星期三\23點當(dāng)前第38頁\共有43頁\編于星期三\23點Poisson對數(shù)線性模型假定哮喘發(fā)生服從Poisson分布;但是由于條件不同,Poisson分布的參數(shù)l也應(yīng)該隨著條件的變化而改變。這里的條件就是給出的性別、空氣污染程度與年齡。當(dāng)然,如何影響以及這些條件影響是否顯著則是我們所關(guān)心的。這個模型可以寫成

這里m為常數(shù)項,ai為性別(i=1,2分別代表女性和男性兩個水平),bj為空氣污染程度(j=1,2,3代表低、中高三個污染水平),x為連續(xù)變量年齡,而g為年齡前面的系數(shù),eij為殘差項。

當(dāng)前第39頁\共有43頁\編于星期三\23點Poisson對數(shù)線性模型從對于數(shù)據(jù)(asthma.txt)的Poisson對數(shù)線性模型的相應(yīng)SPSS輸出,可以得到對m的估計為4.9820,對ai的兩個值的“估計”為-0.0608、

0.0000,對bj的三個值的“估計”為-0.1484,0.122

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論