統(tǒng)計基礎1教材_第1頁
統(tǒng)計基礎1教材_第2頁
統(tǒng)計基礎1教材_第3頁
統(tǒng)計基礎1教材_第4頁
統(tǒng)計基礎1教材_第5頁
已閱讀5頁,還剩97頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

統(tǒng)計建模統(tǒng)計方法描述統(tǒng)計推斷統(tǒng)計參數(shù)估計假設檢驗#統(tǒng)計方法一般地說,統(tǒng)計學的研究對象是客觀事物的數(shù)量特征和數(shù)量關(guān)系,以便找到客觀事物中所蘊含的客觀規(guī)律性。數(shù)量特征:數(shù)量水平、數(shù)量規(guī)模數(shù)量關(guān)系:比例、平均數(shù)、速度等#描述統(tǒng)計統(tǒng)計學研究如何收集、整理、分析和解釋數(shù)據(jù),以便從中作出正確推斷的認識方法論科學.1.數(shù)據(jù)搜集:取得數(shù)據(jù)2數(shù)據(jù)整理:分類與匯總3.數(shù)據(jù)分析:分析數(shù)據(jù)4數(shù)據(jù)解釋:結(jié)果的說明內(nèi)容搜集數(shù)據(jù)整理數(shù)據(jù)展示數(shù)據(jù)描述性分析

目的描述數(shù)據(jù)特征找出數(shù)據(jù)的基本規(guī)律02550Q1Q2Q3Q4¥x=30s2=105量:是事物屬性的重要方面,事物的量和事物的質(zhì)密切聯(lián)系.是客觀存在的.我們要了解事物的質(zhì),就要了解事物的量的特征、量的界限、量的關(guān)系等。數(shù):量的特征、量的界限、量的關(guān)系等需要數(shù)來反映。如,自然數(shù)、相對數(shù)、平均數(shù)等

#量指標:是說明總體的綜合數(shù)量特征的概念和數(shù)值。一個完整的統(tǒng)計指標包括指標名稱和指標數(shù)值兩個部分。#指標例:

2002年中國國內(nèi)生產(chǎn)總值預計達到102000多億元。時間空間經(jīng)濟概念數(shù)量計量單位指標名稱指標的取值舉例說明統(tǒng)計指標的概念數(shù)量指標(總量指標)指標分類質(zhì)量指標相對指標平均指標統(tǒng)計指標的分類統(tǒng)計指標的分類(1)數(shù)量指標:反映現(xiàn)象總規(guī)模、總水平和工作總量的統(tǒng)計指標。如:人口總數(shù)、企業(yè)總數(shù)、工資總額等。一般用絕對數(shù)表示。統(tǒng)計指標按其所反映的總體內(nèi)容的不同,可分為數(shù)量指標與質(zhì)量指標質(zhì)量指標:反映現(xiàn)象相對水平和工作質(zhì)量好壞的統(tǒng)計指標。如:平均成績、勞動生產(chǎn)率、出生率等。一般用平均數(shù)或相對數(shù)表示。相對指標有:結(jié)構(gòu)相對指標、比例相對指標、比較相對指標、強度相對指標、計劃完成程度相對指標平均指標:算數(shù)平均數(shù)、調(diào)和平均數(shù)、幾何平均數(shù)另外還有反映數(shù)據(jù)特征的指標有離散指標分布的偏度和峰度指標#數(shù)據(jù)的顯示分類數(shù)據(jù)的顯示—頻數(shù)分布表

(例題分析)【例】一家市場調(diào)查公司為研究不同品牌飲料的市場占有率,對隨機抽取的一家超市進行了調(diào)查。調(diào)查員在某天對50名顧客購買飲料的品牌進行了記錄,如果一個顧客購買某一品牌的飲料,就將這一飲料的品牌名字記錄一次。右邊就是記錄的原始數(shù)據(jù)綠色健康飲品分類數(shù)據(jù)的圖示—條形圖用寬度相同的條形的高度或長短來表示各類別數(shù)據(jù)的圖形有單式條形圖、復式條形圖等形式主要用于反映分類數(shù)據(jù)的頻數(shù)分布繪制時,各類別可以放在縱軸,稱為條形圖,也可以放在橫軸,稱為柱形圖分類數(shù)據(jù)的圖示—條形圖分類數(shù)據(jù)的顯示—餅圖

也稱圓形圖,是用圓形及圓內(nèi)扇形的角度來表示數(shù)值大小的圖形主要用于表示總體或樣本中各組成部分所占的比例,對于研究結(jié)構(gòu)性問題十分有用繪制圓形圖時,總體中各部分所占的百分比用園內(nèi)的各個扇形角度表示,這些扇形的中心角度,是按各部分數(shù)據(jù)百分比占3600的相應比例確定的分類數(shù)據(jù)的圖示—餅圖順序數(shù)據(jù)的頻數(shù)分布表

【例】在一項城市住房問題的研究中,研究人員在甲乙兩個城市各抽樣調(diào)查300戶,其中的一個問題是:“您對您家庭目前的住房狀況是否滿意?

1.非常不滿意;2.不滿意;3.一般;4.滿意;5.非常滿意。

甲城市家庭對住房狀況評價的頻數(shù)分布回答類別甲城市戶數(shù)(戶)百分比(%)向上累積向下累積戶數(shù)(戶)百分比(%)戶數(shù)(戶)百分比(%)

非常不滿意

不滿意

一般

滿意

非常滿意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合計300100.0————順序數(shù)據(jù)的頻數(shù)分布表

(例題分析)乙城市家庭對住房狀況評價的頻數(shù)分布回答類別乙城市戶數(shù)(戶)百分比(%)向上累積向下累積戶數(shù)(戶)百分比(%)戶數(shù)(戶)百分比(%)

非常不滿意

不滿意

一般

滿意

非常滿意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.034.012.7合計300100.0————順序數(shù)據(jù)的圖示—累計頻數(shù)分布圖243001322252700100200300400

非常不滿意

不滿意

一般

滿意

非常滿意累積戶數(shù)(戶)(a)向上累積27616830300750100200300400

非常不滿意

不滿意

一般

滿意

非常滿意累積戶數(shù)(戶)(b)向上累積甲城市家庭對住房狀況評價的累積頻數(shù)分布環(huán)形圖

環(huán)形圖中間有一個“空洞”,總體中的每一部分數(shù)據(jù)用環(huán)中的一段表示環(huán)形圖與圓形圖類似,但又有區(qū)別圓形圖只能顯示一個總體各部分所占的比例環(huán)形圖則可以同時繪制多個總體的數(shù)據(jù)系列,每一個總體的數(shù)據(jù)系列為一個環(huán)環(huán)形圖可用于結(jié)構(gòu)比較研究

環(huán)形圖主要用于展示分類和順序數(shù)據(jù)環(huán)形圖

8%36%31%15%7%33%26%21%13%10%

非常不滿意

不滿意

一般

滿意

非常滿意

甲乙兩城市家庭對住房狀況的評價圖表的作用

1.真實、準確地展示和反映數(shù)據(jù)

2.直觀、高效地表達復雜的數(shù)據(jù)和觀點

3.啟發(fā)思考數(shù)據(jù)的本質(zhì)、分析數(shù)據(jù)揭示的規(guī)律,以較小的空間承載較多的信息

Apictureisworthathousandwords.

表格適于呈現(xiàn)較多的精確數(shù)值或無明顯規(guī)律的復雜分類數(shù)據(jù)和平行、對比、相關(guān)關(guān)系的描述。表格的基本結(jié)構(gòu)序號、標題項目欄表體腳注頂線、欄目線、底線(三線表)(一般沒有豎線)圖的種類線形圖:二個變量之間的定量關(guān)系(趨勢、連續(xù)變化)條形圖:自變量為分類數(shù)據(jù)直方圖:自變量為定序數(shù)據(jù)餅形圖:比例怎樣正確地使用圖表怎樣正確地使用圖表1.確定主題-你想表達什么觀點?2.圖表還是文字更有效?3.那種圖表最適合你的目的?4.是否真實、有效地展示了數(shù)據(jù)?5.是否啟發(fā)讀者思考數(shù)據(jù)的本質(zhì)和規(guī)律?6.是否表達了你的觀點?選用哪種圖表?表:側(cè)重數(shù)字、描述。適用于很多數(shù)據(jù),但缺乏趨勢圖:側(cè)重表現(xiàn)關(guān)聯(lián)、趨勢、因果關(guān)系等#推斷統(tǒng)計內(nèi)容參數(shù)估計假設檢驗目的對總體特征作出推斷樣本總體描述統(tǒng)計與推斷統(tǒng)計的關(guān)系反映客觀現(xiàn)象的數(shù)據(jù)總體內(nèi)在的數(shù)量規(guī)律性推斷統(tǒng)計(利用樣本信息和概率論對總體的數(shù)量特征進行估計和檢驗等)概率論(包括分布理論、大數(shù)定律和中心極限定理等)描述統(tǒng)計(統(tǒng)計數(shù)據(jù)的搜集、整理、顯示和分析等)總體數(shù)據(jù)樣本數(shù)據(jù)參數(shù)估計什么是參數(shù)估計?參數(shù)是刻畫總體某方面的概率特性的數(shù)量.當這個數(shù)量是未知的時候,從總體抽出一個樣本,用某種方法對這個未知參數(shù)進行估計就是參數(shù)估計.例如,X~N(,2).

點估計區(qū)間估計若,2未知,通過構(gòu)造樣本的函數(shù),給出它們的估計值或取值范圍就是參數(shù)估計的內(nèi)容.參數(shù)估計的類型點估計——估計未知參數(shù)的值;區(qū)間估計——估計未知參數(shù)的取值范圍,使得這個范圍包含未知參數(shù)真值的概率為給定的值.點估計——估計未知參數(shù)的值§6.1點估計點估計的思想方法設總體X的分布函數(shù)的形式已知,但它含有一個或多個未知參數(shù):

1,

2,,

k.設X1,X2,…,Xn為總體的一個樣本構(gòu)造k個統(tǒng)計量:隨機變量.當測得一組樣本值(x1,x2,…,xn)時,代入上述統(tǒng)計量,即可得到

k個數(shù):數(shù)值稱數(shù)為未知參數(shù)的估計值,問題如何構(gòu)造統(tǒng)計量?如何評價估計量的好壞?對應的統(tǒng)計量為未知參數(shù)的估計量.

矩法

用樣本的

k

階矩作為總體的

k

階矩的估計量,建立含有待估計參數(shù)的方程,從而可解出待估計參數(shù).一般地,不論總體服從什么分布,總體期望

與方差

2存在,則它們的矩估計量分別為:兩種常用的點估計方法(矩法和極大似然法)

事實上,按矩法原理,令設待估計的參數(shù)為設總體的r

階矩存在,記為設X1,X2,…,Xn為一樣本,樣本的

r階矩為令——含未知參數(shù)

1,

2,,

k的方程組.解方程組,得

k

個統(tǒng)計量:——未知參數(shù)

1,

2,,

k

的矩估計量.——未知參數(shù)

1,

2,,

k

的矩估計值.代入一組樣本值得k個數(shù):解例1解方程組得到a,b的矩估計量分別為區(qū)間估計——估計未知參數(shù)的取值范圍,使得這個范圍包含未知參數(shù)真值的概率為給定的值.引例已知X~N(

,1),不同樣本算得的

的估計值不同,因此除了給出

的點估計外,還希望根據(jù)所給的樣本確定一個隨機區(qū)間,使其包含參數(shù)真值的概率達到指定的要求.

的無偏、有效點估計為隨機變量常數(shù)如引例中,要找一個區(qū)間,使其包含

的真值的概率為0.95.(設n=5)取查表得這說明即稱隨機區(qū)間為未知參數(shù)

的置信度為0.95的置信區(qū)間.反復抽取容量為5的樣本,都可得一個區(qū)間,此區(qū)間不一定包含未知參數(shù)

的真值,而包含真值的區(qū)間占95%.置信區(qū)間的意義若測得一組樣本值,它可能包含也可能不包含

的真值,反復則得一區(qū)間(1.86–0.877,1.86+0.877)抽樣得到的區(qū)間中有95%包含

的真值.算得當置信區(qū)間為時區(qū)間的長度為——達到最短取

=0.05設

為待估參數(shù),

是一給定的數(shù),(0<<1).

若能找到統(tǒng)計量,使則稱為

的置信水平為1-

的置信區(qū)間或區(qū)間估計.置信下限置信上限

置信區(qū)間的定義

反映了估計的可靠度,

越小,越可靠.置信區(qū)間的長度反映了估計精度

越小,1-越大,估計的可靠度越高,但

確定后,置信區(qū)間的選取方法不唯一,

常選最小的一個.幾點說明越小,估計精度越高.這時,往往增大,因而估計精度降低.求參數(shù)置信區(qū)間保證可靠性先提高精度再處理“可靠性與精度關(guān)系”的原則尋找一個樣本的函數(shù)它含有待估參數(shù),不含其它未知參數(shù),它的分布已知,且分布不依賴于待估參數(shù)(常由

的點估計出發(fā)考慮

).例如求置信區(qū)間的步驟—稱為統(tǒng)計量取統(tǒng)計量給定置信度1

,定出常數(shù)a,b,使得(引例中由解出得置信區(qū)間

引例中

(一)一個正態(tài)總體X~N(

2)的情形置信區(qū)間常用公式(1)方差

2已知,

的置信區(qū)間推導由選取統(tǒng)計量由確定解得

的置信度為的置信區(qū)間為(2)方差

2未知,

的置信區(qū)間

由確定故

的置信區(qū)間為推導

選取統(tǒng)計量(3)

已知時,方差

2的置信區(qū)間取統(tǒng)計量,得

2

的置信度為置信區(qū)間為

由概率(4)

未知時,方差

2的置信區(qū)間選取得

2的置信區(qū)間為

??則由為取自總體

N(

1

12)的樣本,為取自總體N(

2

22)

的樣本,置信度為1

分別表示兩樣本的均值與方差(二)兩個正態(tài)總體的情形相互獨立,的置信區(qū)間為(1)已知,的置信區(qū)間(2)未知(但)的置信區(qū)間的置信區(qū)間為相互獨立,(3)未知,n,m>50,

的置信區(qū)間的置信區(qū)間為因此(3)未知,n,m>50,

的置信區(qū)間令

Zi

=Xi

-Yi,i=1,2,…,n,可以將它們看成來自正態(tài)總體Z~N(

1

2,

12+

22)的樣本仿單個正態(tài)總體公式(2)的置信區(qū)間為(4)未知,但n=m,的置信區(qū)間取統(tǒng)計量(5)方差比的置信區(qū)間(

1,

2未知)因此,方差比的置信區(qū)間為取統(tǒng)計量(6)方差比的置信區(qū)間(

1,

2已知)因此,方差比的置信區(qū)間為例2

某廠利用兩條自動化流水線罐裝番茄醬.現(xiàn)分別從兩條流水線上抽取了容量分別為13與17的兩個相互獨立的樣本與已知假設兩條流水線上罐裝的番茄醬的重量都服從正態(tài)分布,其均值分別為

1與

2(1)若它們的方差相同,求均值若不知它們的方差是否相同,求它們的方差比的置信度為0.95的置信區(qū)間的置信度為0.95的置信區(qū)間;差解查表得由公式(6)的置信區(qū)間為(1)取統(tǒng)計量量(2)統(tǒng)計量為查表得由公式(9)得方差比的置信區(qū)間為假設檢驗假設檢驗的基本思想一、假設檢驗問題的提出

二、假設檢驗的基本思想

三、假設檢驗中兩類錯誤

統(tǒng)計推斷的另一個重要問題是假設檢驗問題。在總體的分布函數(shù)未知或只知其形式,但不知其參數(shù)的情況下,為了推斷總體的某些性質(zhì),提出某些關(guān)于總體的假設。例如,提出總體服從泊松分布的假設,又如,對于正態(tài)總體提出數(shù)學期望μ0的假設等。這里,先結(jié)合例子來說明假設檢驗的基本思想和做法。假設檢驗就是根據(jù)樣本對所提出的假設作出判斷:是接受,還是拒絕。一、假設檢驗問題的提出

例3

已知某煉鐵廠的鐵水含碳量X在某種工藝條件下服從正態(tài)分布N(4.55,0.1082)。現(xiàn)改變了工藝條件,又測了五爐鐵水,其含碳量分別為:

4.28,4.40,4.42,4.35,4.37。根據(jù)以往的經(jīng)驗,總體的方差

2=0.1082一般不會改變。試問工藝改變后,鐵水含碳量的均值有無改變?

顯然,這里需要解決的問題是,如何根據(jù)樣本判斷現(xiàn)在冶煉的鐵水的含碳量是服從

≠4.55的正態(tài)分布呢?還是與過去一樣仍然服從=4.55的正態(tài)分布呢?若是前者,可以認為新工藝對鐵水的含碳量有顯著的影響;若是后者,則認為新工藝對鐵水的含碳量沒有顯著影響。通常,選擇其中之一作為假設后,再利用樣本檢驗假設的真?zhèn)巍?/p>

例4

某自動車床生產(chǎn)了一批鐵釘,現(xiàn)從該批鐵釘中隨機抽取了11根,測得長度(單位:mm)數(shù)據(jù)為:

10.41,10.32,10.62,40.18,10.77,10.64,

10.82,10.49,10.38,10.59,10.54。試問鐵釘?shù)拈L度X是否服從正態(tài)分布?而在本例中,我們關(guān)心的問題是總體X是否服從正態(tài)分布。如同例1那樣,選擇是或否作為假設,然后利用樣本對假設的真?zhèn)巫鞒雠袛唷?/p>

上例是科技領域中常見的假設檢驗問題。我們把問題中涉及到的假設稱為原假設或稱待檢假設,一般用H0表示。而把與原假設對立的斷言稱為備擇假設,記為H1。如例1,若原假設為H0:

=

0=4.55,則備擇假設為H1:

≠4.55。若例2的原假設為H0:X服從正態(tài)分布,則備擇假設為H1:X不服從正態(tài)分布。(一)兩類問題1、參數(shù)假設檢驗總體分布已知,參數(shù)未知,

未知,由觀測值x1,…,xn檢驗假設H0:

=0;H1:≠02、非參數(shù)假設檢驗總體分布未知,由觀測值x1,…,xn檢驗假設H0:F(x)=F0(x;);H1:F(x)≠F0(x;)

接下來我們要做的事是:給出一個合理的法則,根據(jù)這一法則,利用巳知樣本做出判斷是接受假設H0,還是拒絕假設H0。假設檢驗的一般提法是:在給定備擇假設H1下,利用樣本對原假設H0作出判斷,若拒絕原假設H0,那就意味著接受備擇假設H1,否則,就接受原假設H0。換句話說,假設檢驗就是要在原假設H0和備擇假設H1中作出拒絕哪一個和接受哪一個的判斷。究竟如何作出判斷呢?對一個統(tǒng)計假設進行檢驗的依據(jù)是所謂小概率原理,即概率很小的事件在一次試驗中是幾乎不可能發(fā)生

二、假設檢驗的基本思想

(一)參數(shù)假設檢驗例如,在100件產(chǎn)品中,有一件次品,隨機地從中取出一個產(chǎn)品是次品的事件就是小概率事件。因為此事件發(fā)生的概率

=0.01很小,因此,從中任意抽一件產(chǎn)品恰好是次品的事件可認為幾乎不可能發(fā)生的,如果確實出現(xiàn)了次品,我們就有理由懷疑這“100件產(chǎn)品中只有一件次品”的真實性。那么

取值多少才算是小概率呢?這就要視實際問題的需要而定,一般

取0.1,0.05,0.01等。

以例3為例:首先建立假設:H0:

=

0=4.55,H1:

≠4.55。

其次,從總體中作一隨機抽樣得到一樣本觀察值(x1,x2,…,xn)。

注意到是的無偏估計量。因此,若H0正確,則與

0的偏差一般不應太大,即不應太大,若過分大,我們有理由懷疑H0的正確性而拒絕H0。由于,因此,考察的大小等價于考察的大小,哪么如何判斷是否偏大呢?

具體設想是,對給定的小正數(shù)

,由于事件是概率為的小概率事件,即因此,當用樣本值代入統(tǒng)計量具體計算得到其觀察值時,若,即說明在一次抽樣中,小概率事件居然發(fā)生了。因此依據(jù)小概率原理,有理由拒絕H0,接受H1;若,則沒有理由拒絕H0,只能接受H0。

將上述檢驗思想歸納起來,可得參數(shù)的假設檢驗的一般步驟:

(1)根據(jù)所討論的實際問題建立原假設H0及備擇假設H1;

(2)選擇合適的檢驗統(tǒng)計量Z,并明確其分布;

(3)對預先給定的小概率

>0,由確定臨界值;

(4)由樣本值具體計算統(tǒng)計量Z的觀察值z,并作出判斷,若|z|≥z/2

,則拒絕H0,接受H1;若|z|<z/2

,則接受H0。

統(tǒng)計量稱為檢驗統(tǒng)計量。當檢驗統(tǒng)計量取某個區(qū)域C中的值時,就拒絕H0,則稱C為H0的拒絕域,拒絕域的邊界點稱為臨界值。如例1中拒絕域為,臨界值為和

現(xiàn)在,我們來解決例3提出的問題:

(1)假設H0:

=

0=4.55,H1:

≠4.55;

(2)選擇檢驗用統(tǒng)計量;

(3)對于給定小正數(shù),如

=0.05,查標準正態(tài)分表得到臨界值z

/2=z0.025=1.96;

因為|

z|=3.9>1.96,所以拒絕H0,接受H1,即認為新工藝改變了鐵水的平均含碳量。(4)具體計算:這里n=5,,,故Z的觀察值

二、假設檢驗的基本思想

(二)非參數(shù)假設檢驗總體分布未知,由觀測值x1,…,xn檢驗假設H0:F(x)=F0(x;);H1:F(x)≠F0(x;)

所用的方法適用于任何分布或者僅有微弱假定分布,實質(zhì)上是不依賴于分布的.在數(shù)理統(tǒng)計學中不依賴于分布的統(tǒng)計方法統(tǒng)稱為非參數(shù)統(tǒng)計方法.這里所討論的問題就是非參數(shù)假設檢驗問題.這里所研究的檢驗是如何用子樣去似全母體分布,所以又稱為分布擬合擾度檢驗,一般有兩種:一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論