定性數(shù)據(jù)統(tǒng)計(jì)分析第1-2章_第1頁(yè)
定性數(shù)據(jù)統(tǒng)計(jì)分析第1-2章_第2頁(yè)
定性數(shù)據(jù)統(tǒng)計(jì)分析第1-2章_第3頁(yè)
定性數(shù)據(jù)統(tǒng)計(jì)分析第1-2章_第4頁(yè)
定性數(shù)據(jù)統(tǒng)計(jì)分析第1-2章_第5頁(yè)
已閱讀5頁(yè),還剩44頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

定性數(shù)據(jù)統(tǒng)計(jì)分析

CategoricalDataAnalysis授課班級(jí):1070612009年下學(xué)期教學(xué)內(nèi)容第一章定性數(shù)據(jù)第二章分類數(shù)據(jù)的檢驗(yàn)第三章四格表第四章二維列聯(lián)表第五章高維列聯(lián)表第六章邏輯斯蒂回歸模型第七章對(duì)數(shù)線性模型第八章列聯(lián)表的對(duì)應(yīng)分析第一章定性數(shù)據(jù)什么是定性數(shù)據(jù)?數(shù)據(jù)的類型——根據(jù)數(shù)據(jù)的取值來(lái)分:1.計(jì)量數(shù)據(jù)(ContinuousData):身高、體重等;取值為任意實(shí)數(shù)2.計(jì)數(shù)數(shù)據(jù)(Counts):職工人數(shù)、成交股票數(shù)等;取值為非負(fù)整數(shù)3.名義數(shù)據(jù)(NominalData):性別、婚姻狀況等;取值為屬性編碼4.有序數(shù)據(jù)(OrdinalData):文化程度、滿意度等;取值為可排序的屬性編碼第一章定性數(shù)據(jù)定性數(shù)據(jù)的描述性統(tǒng)計(jì)方法有表格法、圖示法、數(shù)值法1、表格法【例】向50個(gè)被訪者調(diào)查“你最喜歡喝的飲料”,得到表1.1。以上數(shù)據(jù)經(jīng)按類別整理后,可得到頻數(shù)分布表,見(jiàn)表1.2制作有序數(shù)據(jù)的頻數(shù)分布表時(shí),還可以統(tǒng)計(jì)累積頻數(shù)和累積頻率。第一章定性數(shù)據(jù)如果我們想考察這些飲料受歡迎程度與性別的關(guān)系,可以制作飲料與性別的交叉分組表,見(jiàn)表1.3顯然,這種表有利于我們進(jìn)一步發(fā)現(xiàn)受歡迎程度與性別之間的關(guān)系。類似地有三種、或更多種方式分組的交叉表,即列聯(lián)表(contingencytable)。第一章定性數(shù)據(jù)2、圖示法包括條形圖、圓形圖(表1.4)、排列圖等其中的排列圖,又叫帕累托圖,是按照發(fā)生頻率大小順序繪制的條形圖;表示有多少結(jié)果是由已確認(rèn)類型或范疇的原因所造成;將出現(xiàn)的質(zhì)量問(wèn)題和質(zhì)量改進(jìn)項(xiàng)目按照重要程度依次排列而采用的一種圖表;可以用來(lái)分析質(zhì)量問(wèn)題,確定產(chǎn)生質(zhì)量問(wèn)題的主要因素。通常用雙坐標(biāo)系表示,左邊縱坐標(biāo)表示頻數(shù),右邊縱坐標(biāo)表示頻率,分析線表示累積頻率;橫坐標(biāo)表示影響質(zhì)量的各項(xiàng)因素,按影響程度的大小(即出現(xiàn)頻數(shù)多少)從左到右排列;通常將累積頻率0~80%之間的因素認(rèn)為是影響質(zhì)量的主要因素。(見(jiàn)附錄1)帕累托圖(ParetoChart)第一章定性數(shù)據(jù)3、數(shù)值法即用代表性的數(shù)值描述定性數(shù)據(jù)的統(tǒng)計(jì)分布特征。代表性的數(shù)值有兩類:描述定性數(shù)據(jù)的中心位置描述定性數(shù)據(jù)的離散程度中心位置:眾數(shù)、中位數(shù)、百分位數(shù)離散程度:異眾比率、G-S指數(shù)、熵眾數(shù)數(shù)據(jù)中出現(xiàn)頻數(shù)最高的數(shù)據(jù)值,記為Mo如上例中,“可口可樂(lè)”是眾數(shù);適用于定性名義數(shù)據(jù)中心位置的量度;眾數(shù)的性質(zhì)略。中位數(shù)將數(shù)據(jù)按一定順序排列后位于中間的數(shù)值,記為Me;例:游客對(duì)服務(wù)態(tài)度的評(píng)價(jià)(%)適用于定性有序數(shù)據(jù)中心位置的量度。百分位數(shù)百分位數(shù)是對(duì)數(shù)據(jù)位置的量度,但不一定是中心位置;一般地,第p百分位數(shù)是指,至少有p%的數(shù)據(jù)項(xiàng)小于等于這個(gè)值,且至少有(100-p)%的數(shù)據(jù)項(xiàng)大于等于這個(gè)值;第25百分位數(shù)稱為下四分位數(shù),記為QL,第50百分位數(shù)就是中位數(shù),第75百分位數(shù)稱為上四分位數(shù),記為QU;異眾比率用于定性名義數(shù)據(jù)離散程度的度量,記為V:離異比率越小,說(shuō)明數(shù)據(jù)越集中;此外,還可以利用隨機(jī)變量來(lái)刻畫(huà)定性數(shù)據(jù)的離散程度;比如,隨機(jī)變量ξ,可以取等不同的值,相應(yīng)的概率為即:Gini-Simpson指數(shù)基尼-辛卜生指數(shù)簡(jiǎn)稱G-S指數(shù)隨機(jī)變量ξ的G-S指數(shù)記為G-S(ξ)G-S指數(shù)越小,說(shuō)明隨機(jī)變量ξ的分布越集中;G-S指數(shù)越大,則分布越分散。當(dāng)k=2,時(shí),G-S指數(shù)達(dá)到最大值,即均勻分布時(shí)指數(shù)達(dá)到最大(見(jiàn)附錄2)。熵隨機(jī)變量ξ的熵(entropy)記為H(ξ):在的條件下,衡量給定分布與均勻分布接近的程度。越接近于均勻分布,越處于平衡狀態(tài),即離散程度越大,熵的取值越大,最大值為;反之也反。(見(jiàn)附錄2)定性數(shù)據(jù)離散程度的測(cè)度【例】最喜歡的飲料的頻數(shù)分布表1、用離異比率測(cè)度:若將數(shù)據(jù)稍作調(diào)整為:則飲料頻數(shù)頻率可口可樂(lè)蘋(píng)果汁橘子汁百事可樂(lè)杏仁露2565595012101018合計(jì)50100定性數(shù)據(jù)離散程度的測(cè)度2、用G-S指數(shù)測(cè)度:調(diào)整前,調(diào)整后,3、用熵測(cè)度:調(diào)整前,調(diào)整后,定性數(shù)據(jù)離散程度的測(cè)度如果前例中每種飲料的頻數(shù)相同,那么各自的G-S指數(shù)和熵分別為多少呢?當(dāng)均勻分布時(shí),定性數(shù)據(jù)的離散程度達(dá)到最大G-S指數(shù)的最大值為:熵的最大值為:本章小結(jié)定性數(shù)據(jù)的類型運(yùn)用頻數(shù)分布表整理數(shù)據(jù),并計(jì)算頻率繪出條形圖、餅圖、帕累托圖描述定性數(shù)據(jù)的中心位置和離散程度第二章分類數(shù)據(jù)的檢驗(yàn)在描述分析基礎(chǔ)上,進(jìn)行推斷統(tǒng)計(jì)分析參數(shù)估計(jì)假設(shè)檢驗(yàn)統(tǒng)計(jì)推斷要求知道統(tǒng)計(jì)量的抽樣分布什么是統(tǒng)計(jì)量什么是抽樣分布屬性數(shù)據(jù)的兩種重要分布:二項(xiàng)分布多項(xiàng)分布二項(xiàng)分布屬性數(shù)據(jù)常常來(lái)源于每次試驗(yàn)僅有兩種試驗(yàn)結(jié)果的n次獨(dú)立重復(fù)試驗(yàn),如成功與失敗、合格與不合格、男與女、等等假設(shè)代表一次試驗(yàn)成功的概率,代表n次試驗(yàn)中成功的次數(shù),這時(shí)服從指標(biāo)n以及參數(shù)的二項(xiàng)分布,即二項(xiàng)分布二項(xiàng)分布的期望和方差分別為:當(dāng)n=1時(shí),二項(xiàng)分布簡(jiǎn)化為:即:0-1分布是二項(xiàng)分布的特殊情況二項(xiàng)分布【例】假設(shè)一次考試有10道選擇題,每題有五個(gè)選項(xiàng)。一位完全沒(méi)有準(zhǔn)備的學(xué)生隨機(jī)猜測(cè)每道題的答案。試問(wèn)可能回答正確的題數(shù)及其概率如何?!窘狻拷Y(jié)果見(jiàn)表2.1可以看出,僅當(dāng)π=0.5時(shí),二項(xiàng)分布才是對(duì)稱的。對(duì)于固定的n,隨著π趨近0或1,二項(xiàng)分布表現(xiàn)越加偏斜。對(duì)于固定的π,隨著n增加,二項(xiàng)分布更趨近鐘形。二項(xiàng)分布當(dāng)n很大時(shí),二項(xiàng)分布趨近于均值,的正態(tài)分布(近似分布)。原則上,要使二項(xiàng)分布趨近正態(tài)分布,要求期望和都不小于5。當(dāng)π較大時(shí)(如0.5),n相對(duì)較小(如≥10)就可以滿足要求;當(dāng)π較小時(shí)(如0.1或0.9),則要求n取較大的值(如≥50),即大樣本要求。多項(xiàng)分布多項(xiàng)分布是二項(xiàng)分布的推廣,其試驗(yàn)結(jié)果的類別多于兩種,記為。令c代表結(jié)果的類別數(shù),用表示每種結(jié)果出現(xiàn)的概率,且對(duì)于n次獨(dú)立試驗(yàn),具有次觀測(cè)落入第1類,次觀測(cè)落入第2類……的概率為:多項(xiàng)分布顯然,當(dāng)c=2時(shí)多項(xiàng)分布簡(jiǎn)化為二項(xiàng)分布。通常不需要使用以上多項(xiàng)分布概率公式,只需掌握基于多項(xiàng)分布律的統(tǒng)計(jì)量即可。大部分針對(duì)屬性數(shù)據(jù)的方法都假設(shè):?jiǎn)晤悇e的計(jì)數(shù)服從二項(xiàng)分布多類別的計(jì)數(shù)服從多項(xiàng)分布任何一個(gè)確定類別計(jì)數(shù)具有均值,標(biāo)準(zhǔn)差。其他分布超幾何分布設(shè)N件產(chǎn)品中有M件次品,從中無(wú)放回取n件時(shí)所含次品數(shù)X是一個(gè)隨機(jī)變量,其概率為:泊松分布描述指定時(shí)間內(nèi),或面積、體積內(nèi)某一事件出現(xiàn)的個(gè)數(shù)的分布,其概率為:二項(xiàng)分布的統(tǒng)計(jì)推斷實(shí)際中,二項(xiàng)分布和多項(xiàng)分布的參數(shù)值未知,需要通過(guò)樣本數(shù)據(jù)估計(jì)總體參數(shù)。在統(tǒng)計(jì)學(xué)原理中,可以根據(jù)樣本比例的抽樣分布,用樣本比例估計(jì)總體比例的區(qū)間,或用樣本比例的差估計(jì)總體比例差。二項(xiàng)分布的統(tǒng)計(jì)推斷需要強(qiáng)調(diào)的是,以上方法使用的前提是樣本量n要足夠大,或者二項(xiàng)比例接近0.5;否則區(qū)間估計(jì)的效果將非常差,特別是在二項(xiàng)比例趨近1或0時(shí);這時(shí),可以采用假設(shè)檢驗(yàn)(得分檢驗(yàn))的方法來(lái)進(jìn)行參數(shù)估計(jì),其效果要優(yōu)于一般直接采用區(qū)間估計(jì)的方法。原因在于:計(jì)算樣本比例的標(biāo)準(zhǔn)誤時(shí),不需要用樣本比例作為總體比例的點(diǎn)估計(jì)。二項(xiàng)分布的統(tǒng)計(jì)推斷【例】一項(xiàng)新治療手段在10次試驗(yàn)中有9次成功,試對(duì)總體比例進(jìn)行區(qū)間估計(jì)(α=0.05)?!窘?】基于直接區(qū)間估計(jì)方法的結(jié)果為:【解2】運(yùn)用檢驗(yàn)統(tǒng)計(jì)量構(gòu)造區(qū)間:對(duì)于給定的p和n,使檢驗(yàn)統(tǒng)計(jì)量值的是下面方程的解.二項(xiàng)分布的統(tǒng)計(jì)推斷對(duì)二項(xiàng)參數(shù)的假設(shè)檢驗(yàn):Wald檢驗(yàn)(最簡(jiǎn)單的方法)是利用 極大似然(ML)估計(jì)值代替真實(shí)標(biāo)準(zhǔn)誤表達(dá)式中的未知參數(shù)而構(gòu)造的統(tǒng)計(jì)量近似服從標(biāo)準(zhǔn)正態(tài)分布,近似服從df=1的卡方分布稱為Wald統(tǒng)計(jì)量二項(xiàng)分布的統(tǒng)計(jì)推斷似然比檢驗(yàn)利用似然函數(shù)構(gòu)造似然比統(tǒng)計(jì)量,其中分子是原假設(shè)成立時(shí)似然函數(shù)的極大值,分母是不限定參數(shù)時(shí)似然函數(shù)的極大值,形式為:在原假設(shè)成立條件下,該統(tǒng)計(jì)量服從df=1的大樣本卡方分布可以利用統(tǒng)計(jì)軟件計(jì)算似然函數(shù)的極大值幾種方法的比較【例】試對(duì)前例進(jìn)行假設(shè)檢驗(yàn),其原假設(shè)與備擇假設(shè)分別為Wald檢驗(yàn)的統(tǒng)計(jì)量:得分檢驗(yàn)的統(tǒng)計(jì)量:似然比檢驗(yàn)統(tǒng)計(jì)量:幾種方法的比較其中,當(dāng)以上統(tǒng)計(jì)推斷方法結(jié)果不一致時(shí),說(shuō)明ML估計(jì)量的分布遠(yuǎn)離了正態(tài)分布,在這種情況下,使用小樣本方法將更準(zhǔn)確。對(duì)小樣本時(shí),直接使用二項(xiàng)分布,而不是使用正態(tài)近似來(lái)計(jì)算P-值,將更加安全準(zhǔn)確。分類數(shù)據(jù)的檢驗(yàn)當(dāng)分類超過(guò)兩類時(shí),形成多項(xiàng)分布;多項(xiàng)分布屬性數(shù)據(jù)的假設(shè)檢驗(yàn)一般提法:按照某項(xiàng)指標(biāo)總體被分為r類,分別為:提出原假設(shè):假設(shè)對(duì)該總體進(jìn)行n次觀測(cè),其中Ai類的觀測(cè)次數(shù)為ni,以此為基礎(chǔ)對(duì)原假設(shè)進(jìn)行檢驗(yàn)。分類數(shù)據(jù)的χ2檢驗(yàn)在原假設(shè)成立時(shí),n次觀測(cè)中屬于Ai類的期望頻數(shù)為,則實(shí)際頻數(shù)與期望頻數(shù)應(yīng)接近,從而有Pearson卡方統(tǒng)計(jì)量:該統(tǒng)計(jì)量的值越小,說(shuō)明原假設(shè)成立;若該值較大,說(shuō)明實(shí)際頻數(shù)與期望頻數(shù)差異較大,故拒絕原假設(shè)。Mendel的豌豆實(shí)驗(yàn)分類數(shù)據(jù)的χ2檢驗(yàn)對(duì)得到的卡方統(tǒng)計(jì)量的值,可以直接與相應(yīng)的顯著性水平和自由度下的卡方值比較,若大于則拒絕原假設(shè),若小于則不拒絕原假設(shè);查表得:,故不拒絕原假設(shè)。也可以利用P-值進(jìn)行判斷:需要注意的是:卡方統(tǒng)計(jì)量的使用要求樣本量要大,且期望頻數(shù)不能太小,見(jiàn)附錄3。通常要求樣本量≥50,期望頻數(shù)≥5。分類數(shù)據(jù)的χ2檢驗(yàn)對(duì)于小期望頻數(shù)的問(wèn)題,有人采用合并類別的方法。但會(huì)導(dǎo)致:會(huì)丟失信息;隨機(jī)性受到影響;不同的類別合并方式會(huì)產(chǎn)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論