數(shù)據(jù)分析第二節(jié)推論統(tǒng)計(jì)_第1頁(yè)
數(shù)據(jù)分析第二節(jié)推論統(tǒng)計(jì)_第2頁(yè)
數(shù)據(jù)分析第二節(jié)推論統(tǒng)計(jì)_第3頁(yè)
數(shù)據(jù)分析第二節(jié)推論統(tǒng)計(jì)_第4頁(yè)
數(shù)據(jù)分析第二節(jié)推論統(tǒng)計(jì)_第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)分析第二節(jié)推論統(tǒng)計(jì)第1頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月

管理研究和社會(huì)研究絕大部分都采用樣本研究,從較大的研究對(duì)象總體中抽樣收集數(shù)據(jù)。最終目的是從樣本來(lái)判斷樣本所在的總體的特性。統(tǒng)計(jì)推斷是一套有清晰邏輯程序的統(tǒng)計(jì)計(jì)算,對(duì)于從樣本觀測(cè)值得出的發(fā)現(xiàn)(findings),作出是否適用于總體的判斷。發(fā)現(xiàn)亦即研究的結(jié)果,這些結(jié)果不外乎以下幾個(gè)方面的內(nèi)容:

第2頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月假設(shè)中的自變量和因變量之間有無(wú)關(guān)聯(lián)?這種關(guān)聯(lián)的趨向和形式如何?這種關(guān)聯(lián)的強(qiáng)度如何?這種關(guān)聯(lián)是否是因果★自變量的屬性值變化引起因變量的屬性值變化,說(shuō)明兩變量間存在關(guān)聯(lián)?!镪P(guān)聯(lián)強(qiáng)度的判斷則是指觀測(cè)值中有多大比例的因變量屬性值可以從自變量的屬性值來(lái)解釋。★統(tǒng)計(jì)技術(shù)用統(tǒng)計(jì)顯著性來(lái)檢驗(yàn)所觀測(cè)到的關(guān)聯(lián)是隨機(jī)性的還是系統(tǒng)性的原因。

第3頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月★自變量和因變量之間存在關(guān)聯(lián)并非表明自變量就是因,因變量就是果,因果辨析一般屬于實(shí)證研究之后機(jī)理分析的內(nèi)容。數(shù)據(jù)分析的主要內(nèi)容主要圍繞變量間關(guān)聯(lián)的存在性、趨向和形式、強(qiáng)度和統(tǒng)計(jì)顯著性四個(gè)方面。描述統(tǒng)計(jì)已涉及到存在性、趨向和形式的內(nèi)容,推論統(tǒng)計(jì)則主要回答統(tǒng)計(jì)顯著性問(wèn)題。

第4頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月§2推論統(tǒng)計(jì)(inferentialstatistics)O、預(yù)備知識(shí)正態(tài)分布與有關(guān)的分布◆定義1設(shè)連續(xù)型隨機(jī)變量X的密度函數(shù)為

稱X服從正態(tài)分布,記作X~N(μ,σ2).其中μ,σ均為常數(shù),-∞<μ

<+∞,σ

>0.第5頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月

◆當(dāng)μ=0,σ2=1時(shí),我們稱X服從標(biāo)準(zhǔn)正態(tài)分布,即X~N(0,1).

標(biāo)準(zhǔn)正態(tài)分布的密度和分布函數(shù)分別為:第6頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月◆定理1設(shè)X~N(μ,σ2),則(X-μ)/σ~N(0,1).◆定義設(shè)X1,X2,…,Xn為相互獨(dú)立的隨機(jī)變量,它們都服從標(biāo)準(zhǔn)正態(tài)N(0,1)分布,則稱隨機(jī)變量服從自由度為n的分布,記作Y~(n).第7頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月◆定理2設(shè)X1,X2,…,Xn獨(dú)立,同N(μ,σ2)分布,記則(1)

(3)與S2

相互獨(dú)立.第8頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月◆定義2設(shè)X~N(0,1),Y~(n),且X與Y相互獨(dú)立,記則T服從自由度為n的t分布,又稱為學(xué)生(student)分布,記作T~t(n)第9頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月◆定理3設(shè)X1,X2,…,Xn獨(dú)立,同N(μ,σ2)分布,記第10頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月◆定理4設(shè)X1,X2,…,Xn獨(dú)立,同N(μ1,σ2)分布,Y1,Y2,…Ym獨(dú)立,同N(μ2,σ2)分布,且它們相互獨(dú)立,記則當(dāng)μ1=μ2時(shí)T~t(n+m-2).第11頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月◆定義3設(shè)X~,Y~,X與Y獨(dú)立,則稱隨機(jī)變量服從自由度為(n1,n2)的F分布,記作F~F(n1,n2)第12頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月一、抽樣分析

●樣本統(tǒng)計(jì)值(samplestatistics):描述樣本分布情況的特性值。

●總體參數(shù)值(populationparameter):描述總體分布情況的特性值。

●樣本統(tǒng)計(jì)值是否能代表總體參數(shù)值,怎樣才能代表參數(shù)值,這正是推論統(tǒng)計(jì)解決問(wèn)題的出發(fā)點(diǎn)。

●統(tǒng)計(jì)值和參數(shù)值兩者的關(guān)系可以通過(guò)“抽樣分布”(samplingdistribution)這個(gè)概念連通起來(lái)。統(tǒng)計(jì)值的分布情況就是抽樣分布。

●統(tǒng)計(jì)推論可分為參數(shù)估計(jì)(parameterestimation)和假設(shè)檢驗(yàn)。第13頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月二、參數(shù)估計(jì)參數(shù)估計(jì)分為點(diǎn)估計(jì)(pointestimation)和區(qū)間估計(jì)(intervalestimation)1、點(diǎn)估計(jì)常用的點(diǎn)估計(jì)方法有矩法和極大似然估計(jì)(MaximumLikelihoodEstimation)。樣本均值樣本方差參數(shù)是概率分布的特征值,各種概率分布有不同的特征值,最常用到的參數(shù)有平均數(shù)μ和方差σ2。第14頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月2、區(qū)間估計(jì)

●估計(jì)偏差(bias)

●無(wú)偏估計(jì):設(shè)是未知參數(shù)的一個(gè)估計(jì)量,若有則稱是θ的無(wú)偏估計(jì)量。

●抽樣誤差:每次估計(jì)值和長(zhǎng)期估計(jì)的平均值(long-runaveragevalue)之間的隨機(jī)誤差稱作抽樣誤差。

●抽樣誤差的一個(gè)很有用的特點(diǎn)是它符合正態(tài)分布。第15頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月點(diǎn)估計(jì)值給出了參數(shù)的一個(gè)近似值且是隨機(jī)的,它跟隨著樣本的抽取而隨機(jī)變化,估計(jì)值本身既沒有反映這種近似的精確度,又沒有給出誤差范圍。為了彌補(bǔ)這些不足,人們希望估計(jì)出一個(gè)范圍,并知道這個(gè)范圍包含參數(shù)真值的可靠程度。這樣的范圍通常以區(qū)間的形式給出,同時(shí)還要給出該區(qū)間包含參數(shù)真值的可靠程度。這種形式的估計(jì)稱為區(qū)間估計(jì)。

第16頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月●定義對(duì)于參數(shù)θ,如果有兩個(gè)統(tǒng)計(jì)量和,對(duì)給定的α∈(0,1),有則稱是θ的一個(gè)區(qū)間估計(jì)或置信區(qū)間,1-α為置信水平(置信度)。

●一個(gè)正態(tài)總體的參數(shù)的區(qū)間估計(jì)已知方差σ2,對(duì)均值μ的區(qū)間估計(jì)未知方差σ2,對(duì)均值μ的區(qū)間估計(jì)對(duì)方差的區(qū)間估計(jì)第17頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月三、假設(shè)檢驗(yàn)的基本概念

1、對(duì)立假設(shè)

2、顯著性試驗(yàn)

3、甲種誤差和乙種誤差

4、單邊檢驗(yàn)和雙邊檢驗(yàn)

5、自由度

6、參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)第18頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月

根據(jù)樣本提供的信息判斷總體是否具有預(yù)先指定的特性。進(jìn)行假設(shè)檢驗(yàn)的基本思想:某種帶有概率性質(zhì)的反證法?;诘脑瓌t是:小概率事件在一次觀察中可以認(rèn)為基本上不會(huì)發(fā)生。小概率事件:通常把概率不超過(guò)0.05的事件當(dāng)作“小概率事件”,有時(shí)把概率不超過(guò)0.01的事件當(dāng)作“小概率事件”.

第19頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月假設(shè)檢驗(yàn)的步驟:①提出假設(shè)H0;備選假設(shè)H1②構(gòu)造統(tǒng)計(jì)量,并由樣本算出其具體值③求出在H0下,統(tǒng)計(jì)量的分布,構(gòu)造對(duì)H0不利的小概率事件④給定顯著性水平α,確定臨界值,從而得出H0的否定域。⑤得出結(jié)論。若統(tǒng)計(jì)量∈否定域,則拒絕H0,承認(rèn)備選假設(shè)H1;若統(tǒng)計(jì)量否定域,則接受H0.第20頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月

1、對(duì)立假設(shè)待研究的假設(shè)可分為兩類:研究假設(shè)—研究者希望驗(yàn)證的命題對(duì)立假設(shè)(nullhypothesis)—研究假設(shè)的邏輯對(duì)立面2、顯著性試驗(yàn)

否定域(criticalregion):一般說(shuō)來(lái),對(duì)于給定的顯著水平α,以及某一統(tǒng)計(jì)量η,若有

P{η∈區(qū)域G}=α則稱區(qū)域G為H0的否定域。

第21頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月

α—顯著性水平(檢驗(yàn)標(biāo)準(zhǔn))

1-α—置信水平直觀意義:把概率不超過(guò)α的事件當(dāng)作一次觀察不會(huì)發(fā)生的“小概率事件”。第22頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月3、甲種誤差和乙種誤差(檢驗(yàn)中的兩類錯(cuò)誤)

甲種誤差(type-Ⅰerror):把正確的對(duì)立假設(shè)推翻的可能性,其出現(xiàn)的可能性大小取決于顯著度α。實(shí)際情況是H0成立,而檢驗(yàn)的結(jié)果表明H0不成立,即拒絕H0,這時(shí)稱該檢驗(yàn)犯了第一類錯(cuò)誤或“棄真錯(cuò)誤”(以真為假)。顯著水平α是犯第一類錯(cuò)誤的概率。

乙種誤差(type-Ⅱerror):把錯(cuò)誤的對(duì)立假設(shè)視為真實(shí)的可能性?!凹{偽錯(cuò)誤”(以假為真)第23頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月4、單邊檢驗(yàn)和雙邊檢驗(yàn)

雙邊檢驗(yàn)(two-tailedtest):否定域預(yù)設(shè)在正態(tài)分布的兩端。

單邊檢驗(yàn)(one-tailedtest):否定域預(yù)設(shè)在正態(tài)分布的一端。5、自由度

自由度(degreeoffreedom):自由度是指可以自由變動(dòng)數(shù)值的樣本數(shù)目.第24頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月6、參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)假設(shè)檢驗(yàn)分為參數(shù)檢驗(yàn)(parametricstatisticaltest)非參數(shù)檢驗(yàn)(nonparametricstatisticaltest)。

★總體X的分布類型為已知,其中僅含有有限個(gè)未知參數(shù),我們要做的只是對(duì)這些參數(shù)進(jìn)行檢驗(yàn),稱為參數(shù)假設(shè)檢驗(yàn)。在許多實(shí)際問(wèn)題中,總體分布的類型往往不知道,或者知之甚少。因此需要引進(jìn)另一些統(tǒng)計(jì)方法,要求這些方法不依賴于總體分布的具體形式,這些方法稱為非參數(shù)方法。第25頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月★數(shù)據(jù)為定距和定比類型時(shí)對(duì)應(yīng)的檢驗(yàn)方法為參數(shù)檢驗(yàn)。數(shù)據(jù)為定類和定序類型以及總體偏態(tài)分布或分布情況不明的情況下,對(duì)應(yīng)的檢驗(yàn)方法為非參數(shù)檢驗(yàn)。四、t檢驗(yàn)

1、t分布定義

t分布常用于數(shù)理統(tǒng)計(jì)中正態(tài)總體均值的區(qū)間估計(jì)和檢驗(yàn)。

2、常用的兩個(gè)定理(預(yù)備知識(shí)中定理3和定理4)第26頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月3、t檢驗(yàn)⑴獨(dú)立樣本的t檢驗(yàn)獨(dú)立樣本的t檢驗(yàn)計(jì)算公式為:

式中分子,為兩平均值,n1,n2表示樣本組中樣本的個(gè)數(shù),SS1和SS2為兩組樣本各自離差平方和。第27頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月舉例P228

例5.2H0:μ1=μ2H1:μ1≠μ2第28頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月⑵非獨(dú)立樣本的t檢驗(yàn)如果樣本經(jīng)過(guò)某種形式的配對(duì)處理,則應(yīng)用非獨(dú)立樣本的t檢驗(yàn).非獨(dú)立樣本的t檢驗(yàn)算式為:當(dāng)μ1=μ2時(shí),t~t(N-1)例P230例5.3第29頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月五、F檢驗(yàn)

方差分析法(analysisofvariance)是用來(lái)處理兩組或兩組以上樣本的統(tǒng)計(jì)方法,目的在于判斷所發(fā)現(xiàn)的總誤差主要是樣本組內(nèi)的誤差還是各組之間的誤差。簡(jiǎn)單方差分析方差分析法方差因子分析協(xié)方差分析第30頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月單因素方差分析數(shù)學(xué)模型第31頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月1、F分布定義2、簡(jiǎn)單方差分析(單因素方差分析)

簡(jiǎn)單方差分析將總誤差劃分為兩種來(lái)源:一種是組間,由施加的試驗(yàn)處理形成;另一種是組內(nèi),由隨機(jī)誤差形成。單因素方差分析表變異源(方差來(lái)源)方差和(平方和)自由度平均數(shù)方差(MS)

F值

組間(B)

SSB

k-1組內(nèi)(W)

SSW

N-k總體(T)

SST

N-1第32頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月

計(jì)算SST,SSW,SSB時(shí),常按下列順序進(jìn)行第33頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月例P231

例5.4三個(gè)班組在半年內(nèi)的缺勤次數(shù)班組缺勤次數(shù)x1x2x31

222334564445724102022901225423455515第34頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月變異源方差和自由度均值F值組間(B)20.83-1=210.46.62組內(nèi)(W)18.815-3=121.57總體(T)39.615-1=14F檢驗(yàn)表第35頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月查表F0.05(2,12)=3.88,6.62>3.88拒絕H0,三個(gè)班的平均值有顯著差異。Scheffe檢驗(yàn)

Scheffe檢驗(yàn)是常用的多重比較法(multi-comparison),它用來(lái)細(xì)化F檢驗(yàn)的結(jié)果,在組間差異顯著情況下,辨別成對(duì)組件是顯著差異還是隨機(jī)差異。在總體無(wú)顯著差異情況下,也可能發(fā)現(xiàn)其中差異顯著的兩組。仍以三個(gè)班缺勤率為例說(shuō)明Scheffe檢驗(yàn)的應(yīng)用。比較x1與x2兩組,其F值算式為第36頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月簡(jiǎn)單方差分析得出的三者之間顯著差異之結(jié)論為:夜班比早班的缺勤率顯著高,而早班和中班及中班和夜班之間的缺勤率雖有差異但不顯著.第37頁(yè),課件共43頁(yè),創(chuàng)作于2023年2月六、檢驗(yàn)

(chi-squaretest)檢驗(yàn)是一種非參數(shù)檢驗(yàn),適用于定類變量,數(shù)據(jù)表達(dá)為頻次形式,按兩個(gè)或更多的相斥屬性歸類。檢驗(yàn)用于比較各類型事件的發(fā)生頻次是否差異顯著,現(xiàn)舉例說(shuō)明。例在超級(jí)市場(chǎng)隨機(jī)選擇90位顧客征求其對(duì)三種新品牌果醬的偏好,設(shè)由40位顧客選擇品牌x,30位選擇y,20位選擇z,如對(duì)立假設(shè)為真,則x=y=z,期望頻次應(yīng)為30,30,30,檢驗(yàn)就要判別觀察頻次(40,30,20)和期望頻次(30,30,3

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論