版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第3章:類別數(shù)據(jù)的分析---卡方檢驗第3章:類別數(shù)據(jù)的分析---卡方檢驗3.1列聯(lián)表的基本概念3.2卡方檢驗的基本原理3.3卡方檢驗的SPSS實現(xiàn)3.4列聯(lián)強度3.5卡方檢驗的實例分析22013年8月15日@文彤老師3.1列聯(lián)表的基本概念列聯(lián)表:由兩個定性變量交叉分組得到的表。設(shè)分類變量x、y分別可以分作c類、r類。為了研究y分類是否與x分類相關(guān),將數(shù)據(jù)先按x分類,然后分別統(tǒng)計當(dāng)x=x1,x=x2,…,x=xc情況下的y分類,這樣就得到了數(shù)據(jù)按二個分類變量進(jìn)行交叉分類的頻次分配表,即二維的列聯(lián)表,簡稱列聯(lián)表。一分公司二分公司三分公司四分公司合計贊成該方案68755779279反對該方案32453331141合計100120901104202013年8月15日@文彤老師3列聯(lián)表的分布一分公司二分公司三分公司四分公司合計(行邊緣分布)贊成該方案(人)(條件頻數(shù))行百分?jǐn)?shù)(%)(行的條件分布)列百分?jǐn)?shù)(%)(列的條件分布)總百分?jǐn)?shù)(%)(聯(lián)合分布)6824.4%=68/27968%=68/10016.2%=68/4207526.9%62.5%17.8%5720.4%63.3%13.6%7928.3%71.8%18.8%27966.4%=279/420反對該方案(人)行百分?jǐn)?shù)(%)列百分?jǐn)?shù)(%)總百分?jǐn)?shù)(%)3222.7%=32/14132%=32/1007.6%=32/4204531.9%37.5%10.7%3323.4%36.7%7.9%3122.0%28.2%7.4%14133.6%=279/420合計(列邊緣分布)%10023.8%=100/42012028.6%9021.4%11026.2%420100%觀察值的分布:聯(lián)合分布邊緣分布條件分布2013年8月15日@文彤老師4列聯(lián)表的分布(續(xù))期望分布一分公司二分公司三分公司四分公司贊成該方案期望值0.664×100660.664×120800.664×90600.664×11073反對該方案期望值0.336×100340.336×12040
0.336×90300.336×11037觀察值和期望值頻數(shù)對比分布表一分公司二分公司三分公司四分公司贊成該方案觀察值期望值6866758057607973反對該方案觀察值期望值
32344540
33303137如果各分公司對改革方案的看法相同,就應(yīng)有(為第i公司贊成改革方案的百分比),觀察值和期望值就應(yīng)該非常接近,可以用進(jìn)行檢驗。2013年8月15日@文彤老師5第3章:類別數(shù)據(jù)的分析---卡方檢驗3.1列聯(lián)表的基本概念3.2卡方檢驗的基本原理3.3卡方檢驗的SPSS實現(xiàn)3.4列聯(lián)強度3.5卡方檢驗的實例分析62013年8月15日@文彤老師χ2檢驗是列聯(lián)表的檢驗統(tǒng)計量,可用于擬合優(yōu)度檢驗和獨立性檢驗,可以測定兩個分類變量之間的相關(guān)程度。它最基本的無效假設(shè)是:H0:觀察頻數(shù)與期望頻數(shù)沒有差別其原理為考察基于H0的理論頻數(shù)分布和實際頻數(shù)分布間的差異大小,據(jù)此求出相應(yīng)的P值。設(shè)f0為觀測值頻數(shù),fe為期望值頻數(shù),則統(tǒng)計量為:(1)(2)值的大小與觀察值與期望值的配對數(shù),即R×C的多少有關(guān)(3)統(tǒng)計量描述了觀察值與期望值的接近程度,兩者越接近,其值越小,反之越大。2013年8月15日@文彤老師7χ2檢驗:分析實例
在CCSS的分析報告中,所有受訪家庭會按照家庭年收入被分為低收入家庭和中高收入家庭兩類,現(xiàn)希望考察不同收入級別的家庭其轎車擁有率是否相同。82013年8月15日@文彤老師方法原理:觀察頻數(shù)收入與是否擁有家庭轎車的列聯(lián)表如表所示9O1.是否擁有家用轎車*家庭收入2級交叉表
家庭收入2級總計Below48,000Over48,000O1.是否擁有家用轎車有94857沒有10197198總計1101452552013年8月15日@文彤老師方法原理:理論頻數(shù)基于H0成立,兩樣本所在總體無差別的前提下計算出各單元格的理論頻數(shù)來。10O1.是否擁有家用轎車*家庭收入2級交叉表預(yù)期計數(shù)
家庭收入2級總計Below48,000Over48,000O1.是否擁有家用轎車有24.632.457.0沒有85.4112.6198.0總計110.0145.0255.02013年8月15日@文彤老師方法原理:殘差設(shè)為觀測值頻數(shù),為期望值頻數(shù),f0與fe之差被稱為殘差11O1.是否擁有家用轎車*家庭收入2級交叉表
家庭收入2級總計Below48,000Over48,000O1.是否擁有家用轎車有計數(shù)94857預(yù)期計數(shù)24.632.457.0殘差-15.615.6
沒有計數(shù)10197198預(yù)期計數(shù)85.4112.6198.0殘差15.6-15.6
總計計數(shù)110145255預(yù)期計數(shù)110.0145.0255.02013年8月15日@文彤老師方法原理:卡方統(tǒng)計量另一方面,殘差大小是一個相對的概念,相對于期望頻數(shù)為10時,20的殘差非常大;可相對于期望頻數(shù)為1000時20就很小了。因此又將殘差平方除以期望頻數(shù)再求和,以標(biāo)準(zhǔn)化觀察頻數(shù)與期望頻數(shù)的差別。這就是我們所說的卡方統(tǒng)計量,在1900年由英國統(tǒng)計學(xué)家Pearson首次提出,其公式為:122013年8月15日@文彤老師方法原理:檢驗結(jié)果從卡方的計算公式可見,當(dāng)觀察頻數(shù)與期望頻數(shù)完全一致時,卡方值為0;觀察頻數(shù)與期望頻數(shù)越接近,兩者之間的差異越小,卡方值越??;反之,觀察頻數(shù)與期望頻數(shù)差別越大,兩者之間的差異越大,卡方值越大。當(dāng)然,卡方值的大小也和自由度有關(guān)13卡方檢驗
值自由度漸近顯著性(雙向)精確顯著性(雙向)精確顯著性(單向)皮爾遜卡方22.3831.000
連續(xù)校正b20.9701.000
似然比(L)24.5581.000
Fisher精確檢驗
.000.000線性關(guān)聯(lián)22.2951.000
有效個案數(shù)255
2013年8月15日@文彤老師卡方檢驗的樣本量要求對于卡方檢驗中的每一個單元格,要求其最小期望頻數(shù)均大于1。至少有4/5的單元格期望頻數(shù)大于5。142013年8月15日@文彤老師卡方檢驗的用途檢驗?zāi)硞€連續(xù)變量的分布是否符合某種理論分布,如是否符合正態(tài)分布、均勻分布等。檢驗?zāi)硞€分類變量各類的出現(xiàn)概率是否等于指定概率。檢驗?zāi)硟蓚€分類變量是否相互獨立。在控制某種活某幾類因素的作用后,另兩個分類變量是否相互獨立。檢驗?zāi)硟煞N方法的結(jié)果是否一致。152013年8月15日@文彤老師第3章:類別數(shù)據(jù)的分析---卡方檢驗3.1列聯(lián)表的基本概念3.2卡方檢驗的基本原理3.3卡方檢驗的SPSS實現(xiàn)3.4列聯(lián)強度3.5卡方檢驗的實例分析162013年8月15日@文彤老師卡方檢驗的SPSS實現(xiàn)非參數(shù)分布檢驗中的卡方檢驗主要檢驗?zāi)硞€分類變量各類的出現(xiàn)概率是否等于指定概率的分布。實例:分別使用新舊對話框,用卡方檢驗考察2007年4月的性別抽樣分布是否平衡。交叉表過程主要用于兩個/多個分類變量的列聯(lián)表進(jìn)行其關(guān)聯(lián)程度的卡方檢驗,并可進(jìn)一步計算出關(guān)聯(lián)程度指標(biāo)等。一般所說的卡方檢驗就是指該過程中的相應(yīng)功能。實例:在CCSS的報告中,所有受訪家庭會按照年收入分為低收入家庭和中高收入家庭,現(xiàn)希望考察不同收入家庭其轎車擁有率是否相同。172013年8月15日@文彤老師檢驗統(tǒng)計量的討論假設(shè):H0行變量與列變量無關(guān),H1:行變量與列變量相關(guān)連續(xù)修正檢驗統(tǒng)計量,其計算公式為:在H0成立條件下,該統(tǒng)計量漸近服從分布。似然比檢驗統(tǒng)計量,計算公式為:,在H0成立條件下,該統(tǒng)計量漸近服從分布。Mantel-Haenszel檢驗統(tǒng)計量,計算公式:,其中,是行變量與列變量的Pearson的相關(guān)系數(shù)。Fisher精確檢驗。2013年8月15日@文彤老師182024/1/2519第3章:類別數(shù)據(jù)的分析---卡方檢驗3.1列聯(lián)表的基本概念3.2卡方檢驗的基本原理3.3卡方檢驗的SPSS實現(xiàn)3.4列聯(lián)強度3.5卡方檢驗的實例分析202013年8月15日@文彤老師消減誤差比例設(shè)有現(xiàn)象Y和X,E1表示未知X預(yù)測Y產(chǎn)生的誤差,E2表示已知X產(chǎn)生的誤差。消減誤差比(proportionalreductioninerror;PRE)定義為:
PRE=(E1-E2)/E1=1-E2/E1實例未知性別(X),預(yù)測志愿(Y)的錯誤次數(shù)為50已知性別(X),預(yù)測志愿的錯誤次數(shù)為30PRE=(50-30)/50=0.4,可以削減40%的誤差100名青年人的性別與志愿志愿性別總數(shù)男女快樂見聞103040理想工作401050增廣見聞10010總數(shù)60401002013年8月15日@文彤老師21名義變量的關(guān)聯(lián)指標(biāo)1.Φ相關(guān)系數(shù)系數(shù):主要用于描述2×2列聯(lián)表數(shù)據(jù)相關(guān)程度,公式為:
當(dāng)列聯(lián)表的行數(shù)或列數(shù)大于2時,Φ將隨之增大,且沒有上限,這時Φ對相關(guān)程度的測定不夠清晰,可以采用列聯(lián)相關(guān)系數(shù)。2.列聯(lián)相關(guān)系數(shù)(ContingencyCoefficient)主要用于大于2×2列聯(lián)表的情況,公式為:3.Cramer’sV系數(shù),定義為:4.λ系數(shù)(Lambda),其中fim為每一類x中y分布的眾數(shù)次數(shù),F(xiàn)ym為y次數(shù)分布的眾數(shù)次數(shù)5.不確定系數(shù):和Lambda相似,也用于反映當(dāng)知道自變量后,因變量的不確定性下降了多少,只是以熵為不確定性大小的度量指標(biāo)。
2013年8月15日@文彤老師22有序變量的相關(guān)指標(biāo)1.Gamma(γ)相關(guān)系數(shù),計算公式為:其中:P為所有觀測中一致對的個數(shù),Q為不一致的對數(shù)。2.Kendall’stall-b()相關(guān)系數(shù),計算公式為:3.Stuarttall-c()相關(guān)系數(shù),計算公式為:其中,m=min{R,C}4.Somer’sd(C|R):
其中,Py為y方向的同分對2013年8月15日@文彤老師23第3章:類別數(shù)據(jù)的分析---卡方檢驗3.1列聯(lián)表的基本概念3.2卡方檢驗的基本原理3.3卡方檢驗的SPSS實現(xiàn)3.4列聯(lián)強度3.5卡方檢驗的實例分析242013年8月15日@文彤老師咖啡屋需求調(diào)查案例研究目的2003年,受畢業(yè)校友的委托,北大的幾位在讀研究生在校內(nèi)進(jìn)行了一次關(guān)于北大師生對咖啡屋及類似休閑場所的需求調(diào)查,以便對這些校友的創(chuàng)業(yè)決策(在北大校內(nèi)開設(shè)一家咖啡屋)提供數(shù)據(jù)支持。具體而言,本研究的需求如下:了解北大校內(nèi)咖啡消費人群的基本背景狀況;了解該消費人群的咖啡消費習(xí)慣,包括頻次、額度、消費原因等;了解該消費人群可能存在,但目前尚未被滿足的潛在需求。262013年8月15日@文彤老師問卷結(jié)構(gòu)第一部分:甄別問卷第二部分:主體問卷最常去的最喜歡的,喜歡的原因消費的主要目的、項目、金額、時間信息來源預(yù)期位置第三部分:個人信息272013年8月15日@文彤老師北京大學(xué)師生對咖啡屋及類似休閑場所的需求調(diào)查第一部分:甄別問卷F您是否在過去的一年中去過咖啡店或類似的休閑場所1.是2.否(跳至Q9)282013年8月15日@文彤老師第二部分:主體問卷Q1以下休閑吧您光顧最頻繁的是:1.星巴克2.仙蹤林3.真鍋咖啡4.雕刻時光5.綠葉谷
6.師生緣7.勺園咖啡屋8.西門外酒吧9.閑情偶寄10.其他_________Q2以下休閑吧您最喜歡的是:
1.星巴克2.仙蹤林3.真鍋咖啡
4.雕刻時光5.綠葉谷6.師生緣7.勺園咖啡屋8.西門外酒吧9.閑情偶寄10.其他_________Q3您最喜歡的原因是:1.那里有我最喜歡的飲料;2.我喜歡那里的情調(diào)與環(huán)境3.那里的價格很公道;4.因為朋友喜歡,我就一起去了5.因為離的近,方便;6.其他_____________Q5您去咖啡屋或休閑吧的主要目的是(多選,三項以內(nèi)):1.喝喜歡的東西2.與朋友聊天3.自習(xí)或一個人看東西4.討論案例或公事5.約會6.其他___________Q6您去咖啡屋或休閑吧主要消費的是(多選):1.咖啡2.奶茶3.啤酒4.冰淇淋5.碳酸飲料6.果汁7.牛奶8.茶9.礦泉水10.爆米花11.秒包小點12.薯條13.沙拉14.套餐15.其他______Q7.您去咖啡屋或休閑吧平均每次的花費大約是(人均)1.20以下2.20~39元3.40~59元4.60元以上Q8.您去咖啡屋或休閑吧平均每次停留的時間是:1.1小時以下2.1~2小時3.2~3小時4.3小時以上Q12.一般說來,您得知學(xué)校附近開新店的消息通過的途徑是(多選):
1.路過看到2.朋友介紹3.校內(nèi)海報4.網(wǎng)上廣告5.校內(nèi)BBS6.其他Q13.您覺得在校內(nèi)開咖啡店的理想位置是:
1.三角地2.學(xué)生宿舍樓3.勺園周圍4.理教、光華一帶
5.一教及圖書館一帶6.三教、四教一帶7.其他______292013年8月15日@文彤老師第三部分:個人信息P1性別:1.男2.女P2年齡:_____________P3.您是:1.本科2.研究生3.MBA學(xué)生4.博士生5.進(jìn)修生
6.教師7.留學(xué)生P4.可支配的月收入(人民幣):1.500元以下2.500~999元3.1000~2999元4.3000~4999元5.5000元以上302013年8月15日@文彤老師受訪者人口背景分析是否去過咖啡店的人口相關(guān)因素分析是否去過咖啡店與性別的相關(guān)性分析是否去過咖啡店的年齡特征分析是否去過咖啡店與學(xué)歷身份的關(guān)系分析是否去過咖啡店與收入的關(guān)系分析分析結(jié)果發(fā)現(xiàn)男性偏多女性去過咖啡消費場所的比例要更高一些注意收入、學(xué)歷的分布最終可以得到如下線索:整個研究接觸到的核心人群應(yīng)當(dāng)就是本科/碩士在讀學(xué)生,在抽樣合理的情況下,這也應(yīng)當(dāng)是主要的咖啡消費人群。需要注意性別間可能存在的差異。312013年8月15日@文彤老師受訪者對現(xiàn)有酒吧的U&A對光顧頻次和咖啡店偏好情況的交叉分析。最頻繁和最喜歡的休閑吧交叉表分析為什么師生緣消費頻繁程度明顯高于其受歡迎程度的表現(xiàn)?雕刻時光的受歡迎程度為什么無法轉(zhuǎn)換為其實際消費行為?喜歡原因(Q3)分析光顧頻次和最喜歡的原因交叉表分析受訪者去咖啡吧最看重的就是情調(diào)和環(huán)境距離實際上也是重要因素光顧目的(Q4)分析光顧頻次和光顧目的交叉表分析進(jìn)一步確認(rèn)了距離足夠近是消費頻率的關(guān)鍵因素。322013年8月15日@文彤老師受訪者在酒吧消費的情況交叉表分析最頻繁光顧的咖啡吧與消費品的交叉表分析最頻繁光顧的咖啡吧與人均花費的交叉表分析主要分析結(jié)果咖啡的消費比例在星巴克非常高;類似于仙蹤林則是以奶茶、果汁、冰激凌的消費為主,看來這兩樣比較適合于和戀人同行時飲用;師生緣又一次走了中庸路線,沒有發(fā)現(xiàn)他的消費人群更偏向于消費哪種飲料/食品;西門外酒吧飲用啤酒和碳酸飲料的比例很高,這應(yīng)當(dāng)是一個很合理的結(jié)果。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 低溫冷藏貨物運輸協(xié)議模板
- 停車設(shè)施裝修協(xié)議天津
- 寵物店衛(wèi)生間改造合同樣本
- 學(xué)校創(chuàng)意工坊改造協(xié)議
- 冬、雨季施工方案
- 書店裝修項目合同
- 公路橋梁安全監(jiān)理方案
- 公園景觀廢土運輸協(xié)議
- 裝修服務(wù)協(xié)議醫(yī)療行業(yè)
- 保險公司裝修合同要點
- 陽光心理激昂青春
- 醫(yī)療器械質(zhì)量方針和目標(biāo)管理制度
- 2024年醫(yī)院醫(yī)療質(zhì)量管理與考核細(xì)則例文(三篇)
- 山東省第五屆財會知識大賽試題及答案
- 廣東省深圳市龍華區(qū)2024-2025學(xué)年二年級上學(xué)期學(xué)科素養(yǎng)課堂提升練習(xí)語文試卷
- 初中《學(xué)憲法講憲法》第八個國家憲法日主題教育課件
- 交通行業(yè)智能交通系統(tǒng)建設(shè)與運營維護(hù)方案
- 2024-2025學(xué)年北師大版七年級數(shù)學(xué)上冊期末測試壓軸題考點模擬訓(xùn)練(一)
- 2023-2024學(xué)年北京市通州區(qū)九年級(上)期中數(shù)學(xué)試卷【含解析】
- 2024醫(yī)療機構(gòu)重大事故隱患判定清單(試行)學(xué)習(xí)課件
- (正式版)JBT 7248-2024 閥門用低溫鋼鑄件技術(shù)規(guī)范
評論
0/150
提交評論