數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法(曹春玲教授)課件_第1頁
數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法(曹春玲教授)課件_第2頁
數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法(曹春玲教授)課件_第3頁
數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法(曹春玲教授)課件_第4頁
數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法(曹春玲教授)課件_第5頁
已閱讀5頁,還剩100頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)統(tǒng)計(jì)學(xué)基本概念與方法統(tǒng)計(jì)學(xué)基本概念與方法QQ:864575536數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)2.參數(shù)參數(shù)估計(jì)估計(jì)1.預(yù)備知識預(yù)備知識3.假設(shè)假設(shè)檢驗(yàn)檢驗(yàn)4.方差方差分析分析5.回歸回歸分析分析數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授) 統(tǒng)計(jì)學(xué)統(tǒng)計(jì)學(xué) ( Statistics ) 是一門收集與分析數(shù)據(jù),是一門收集與分析數(shù)據(jù),并且根據(jù)數(shù)據(jù)進(jìn)行推斷的藝術(shù)與科學(xué)。并且根據(jù)數(shù)據(jù)進(jìn)行推斷的藝術(shù)與科學(xué)。

2、大英百科全書大英百科全書 (數(shù)理數(shù)理) 統(tǒng)計(jì)學(xué)中的數(shù)據(jù)都是隨機(jī)數(shù)據(jù)。統(tǒng)計(jì)學(xué)中的數(shù)據(jù)都是隨機(jī)數(shù)據(jù)。統(tǒng)計(jì)學(xué)的任務(wù)就是在隨機(jī)性中去尋找規(guī)律。統(tǒng)計(jì)學(xué)的任務(wù)就是在隨機(jī)性中去尋找規(guī)律。 統(tǒng)計(jì)學(xué)理論主要包含三個部分:統(tǒng)計(jì)學(xué)理論主要包含三個部分:1.數(shù)據(jù)收集,數(shù)據(jù)收集,2.數(shù)據(jù)分析,數(shù)據(jù)分析,3.由數(shù)據(jù)做出決策。由數(shù)據(jù)做出決策。數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)(一一). 統(tǒng)計(jì)學(xué)的基本概念統(tǒng)計(jì)學(xué)的基本概念 統(tǒng)計(jì)學(xué)中把所研究的對象全體稱為總體,統(tǒng)計(jì)學(xué)中把所研究的對象全體稱為總體,總體中的每一個元素稱為一個個體??傮w中的每一個元素稱為一個個體??傮w與個體都

3、用數(shù)量指標(biāo)來表示總體與個體都用數(shù)量指標(biāo)來表示1. 總體與個體總體與個體 (population) 即使面臨的是一個定性的實(shí)際問題,即使面臨的是一個定性的實(shí)際問題,也必須把有關(guān)的資料定量化。也必須把有關(guān)的資料定量化。 一一. 預(yù)備知識預(yù)備知識數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授) 但同時在直觀上又認(rèn)為、或者希望做到:但同時在直觀上又認(rèn)為、或者希望做到:抽取出的每個個體抽取出的每個個體 (樣本樣本) 都充分蘊(yùn)涵總體信息。都充分蘊(yùn)涵總體信息。 從總體中取出一個個體,稱為從從總體中取出一個個體,稱為從總體中得到一個樣本??傮w中得到一個樣本。2. 樣

4、本樣本 (sample)統(tǒng)計(jì)學(xué)的目的就是從樣本去得出總體的信息。統(tǒng)計(jì)學(xué)的目的就是從樣本去得出總體的信息。 由于各種原因與實(shí)際條件的限制,由于各種原因與實(shí)際條件的限制,不可能得到一個總體中所有個體的數(shù)據(jù)。不可能得到一個總體中所有個體的數(shù)據(jù)。即樣本總是總體的一小部分。即樣本總是總體的一小部分。數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)被研究的對象全體被研究的對象全體具有代表性的具有代表性的 部分個體部分個體總體總體樣本樣本.數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授) 獨(dú)立同分布的樣本稱為簡單隨機(jī)樣本

5、。獨(dú)立同分布的樣本稱為簡單隨機(jī)樣本。 總體被認(rèn)為是一個服從某種概率總體被認(rèn)為是一個服從某種概率分布分布 F 的隨機(jī)變量。的隨機(jī)變量。 樣本是和總體隨機(jī)變量有相同分布樣本是和總體隨機(jī)變量有相同分布 F 的的隨機(jī)變量,樣本的個數(shù)稱為樣本容量,隨機(jī)變量,樣本的個數(shù)稱為樣本容量, n 。總體分布總體分布 F 可以是未知的,可以是未知的, 非參數(shù)統(tǒng)計(jì)學(xué)非參數(shù)統(tǒng)計(jì)學(xué) 總體分布總體分布 F 的類型已知,但是含有的類型已知,但是含有一些未知的參數(shù)。一些未知的參數(shù)。 參數(shù)估計(jì)參數(shù)估計(jì) 數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)(二二). 數(shù)理統(tǒng)計(jì)學(xué)的主要內(nèi)容數(shù)理

6、統(tǒng)計(jì)學(xué)的主要內(nèi)容 1. 抽樣理論抽樣理論:介紹如何收集數(shù)據(jù)。主要介紹如何收集數(shù)據(jù)。主要 抽樣方法,樣本容量的確定,抽樣誤差,抽樣方法,樣本容量的確定,抽樣誤差, 敏感問題等敏感問題等2. 參數(shù)估計(jì)參數(shù)估計(jì):如何根據(jù)數(shù)據(jù)得到總體參數(shù)如何根據(jù)數(shù)據(jù)得到總體參數(shù) 信息。點(diǎn)估計(jì)、區(qū)間估計(jì),信息。點(diǎn)估計(jì)、區(qū)間估計(jì),Bayes 估計(jì)等估計(jì)等3. 假設(shè)檢驗(yàn)假設(shè)檢驗(yàn): 如何對關(guān)于總體的一些假設(shè)如何對關(guān)于總體的一些假設(shè) 做出決策。正態(tài)總體參數(shù)的檢驗(yàn),分布擬合做出決策。正態(tài)總體參數(shù)的檢驗(yàn),分布擬合 檢驗(yàn),秩檢驗(yàn),列聯(lián)表,統(tǒng)計(jì)決策等理論檢驗(yàn),秩檢驗(yàn),列聯(lián)表,統(tǒng)計(jì)決策等理論數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)

7、計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)4. 方差分析與回歸分析方差分析與回歸分析:變量之間的效應(yīng)變量之間的效應(yīng) 關(guān)系。關(guān)系。 方差分析方差分析 分類變量與數(shù)值變量的效應(yīng)關(guān)系分類變量與數(shù)值變量的效應(yīng)關(guān)系 回歸分析回歸分析 研究數(shù)值變量之間的效應(yīng)關(guān)系研究數(shù)值變量之間的效應(yīng)關(guān)系5. 多元分析多元分析: 研究若干個變量之間的關(guān)系研究若干個變量之間的關(guān)系 聚類分析、判別分析、主成分分析、聚類分析、判別分析、主成分分析、 因子分析、典型相關(guān)分析等等因子分析、典型相關(guān)分析等等數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)例例1.1 希望了解某所高校學(xué)生月

8、消費(fèi)情況。希望了解某所高校學(xué)生月消費(fèi)情況。解決方法:從這所大學(xué)里解決方法:從這所大學(xué)里隨機(jī)地隨機(jī)地調(diào)查調(diào)查有代表性的有代表性的一些學(xué)生,根據(jù)收集到的數(shù)據(jù)去得出這所大學(xué)學(xué)一些學(xué)生,根據(jù)收集到的數(shù)據(jù)去得出這所大學(xué)學(xué)生每個月支出費(fèi)用的有關(guān)信息。生每個月支出費(fèi)用的有關(guān)信息。1. 如何得到樣本如何得到樣本 ? 不同家庭背景學(xué)生的比例應(yīng)該各占多少?不同家庭背景學(xué)生的比例應(yīng)該各占多少?樣本容量應(yīng)該取多少才合適?被調(diào)查者拒絕調(diào)樣本容量應(yīng)該取多少才合適?被調(diào)查者拒絕調(diào)查怎么辦?查怎么辦?抽樣調(diào)查抽樣調(diào)查數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)2. 如何確定總體

9、的分布如何確定總體的分布 ? 這里的總體是這所大學(xué)的學(xué)生月支出費(fèi)用,這里的總體是這所大學(xué)的學(xué)生月支出費(fèi)用,我們不妨認(rèn)為我們不妨認(rèn)為學(xué)生月支出費(fèi)用學(xué)生月支出費(fèi)用是一個服從正態(tài)是一個服從正態(tài)分布的隨機(jī)變量。分布的隨機(jī)變量。 根據(jù)經(jīng)驗(yàn)或者是所討論的問題的實(shí)際背景,根據(jù)經(jīng)驗(yàn)或者是所討論的問題的實(shí)際背景,總體的分布類型一般可以事先確定下來??傮w的分布類型一般可以事先確定下來。( 不同學(xué)校對應(yīng)的這兩個參數(shù)也就不相同不同學(xué)校對應(yīng)的這兩個參數(shù)也就不相同 ) 即,總體隨機(jī)變量即,總體隨機(jī)變量 X N ( , , 2 ) ,而這,而這個個學(xué)校相應(yīng)的兩個參數(shù)學(xué)校相應(yīng)的兩個參數(shù) 與與 2 是未知的。是未知的。數(shù)學(xué)建模

10、講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)Remark 當(dāng)不知道或者難以確定總體的分布類型時,在當(dāng)不知道或者難以確定總體的分布類型時,在統(tǒng)計(jì)學(xué)中常常采用下面兩種辦法來近似得到總體統(tǒng)計(jì)學(xué)中常常采用下面兩種辦法來近似得到總體分布的有關(guān)信息。分布的有關(guān)信息。(1). 直方圖的方法直方圖的方法只適用連續(xù)總體,得到的是總體密度函數(shù)近似。只適用連續(xù)總體,得到的是總體密度函數(shù)近似。 把收集到的把收集到的 n 個數(shù)據(jù)個數(shù)據(jù) x1,x2 ,xn 從小從小到大排列:到大排列: x(1) x(2) x(n) ;其次取其次取區(qū)間區(qū)間 (a,b),包含全部數(shù)據(jù)包含全部數(shù)據(jù) a

11、x(1) ,x(n) b ;數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)把把 (a,b) 等分成等分成若干小區(qū)間,計(jì)算若干小區(qū)間,計(jì)算每個小區(qū)間中包含每個小區(qū)間中包含的數(shù)據(jù)的頻率。的數(shù)據(jù)的頻率。x(1) x(n) 根據(jù)這些頻率做出相應(yīng)的小區(qū)間上的矩形,根據(jù)這些頻率做出相應(yīng)的小區(qū)間上的矩形,則當(dāng)則當(dāng) n 充分大時,這些小區(qū)間上矩形的面積將近充分大時,這些小區(qū)間上矩形的面積將近似于總體的概率密度函數(shù)下曲邊梯形的面積。似于總體的概率密度函數(shù)下曲邊梯形的面積。數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)(2

12、). 經(jīng)驗(yàn)分布函數(shù)的方法經(jīng)驗(yàn)分布函數(shù)的方法 構(gòu)造一個分布函數(shù),得到的是總體構(gòu)造一個分布函數(shù),得到的是總體分布函數(shù)分布函數(shù) F (x) 的近似。的近似。 Fn (x) = 0, x x(1) , x(k) x x(k+1) 1, x x(n) 這個函數(shù)實(shí)際上是觀察值這個函數(shù)實(shí)際上是觀察值 x1,xn中中小于小于 x 的頻率,即的頻率,即 Fn (x) = x1,xn中小于中小于 x 的個數(shù)的個數(shù) / n k n數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)Oxyx(1)x(2)x(3)1/n2/n 可以證明,經(jīng)驗(yàn)分布函數(shù)可以證明,經(jīng)驗(yàn)分布函數(shù) Fn

13、(x) 將依概率、將依概率、甚至是幾乎處處收斂到甚至是幾乎處處收斂到 F (x) 。數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)3. 如何從樣本得出總體的信息如何從樣本得出總體的信息 ? 樣本是一組與總體獨(dú)立、同分布的隨機(jī)變量,樣本是一組與總體獨(dú)立、同分布的隨機(jī)變量,我們得到的數(shù)據(jù)是樣本觀察值,而不是樣本。我們得到的數(shù)據(jù)是樣本觀察值,而不是樣本。 調(diào)查一個學(xué)生得到了一個數(shù)據(jù),相當(dāng)于調(diào)查一個學(xué)生得到了一個數(shù)據(jù),相當(dāng)于對總體分布做了一次隨機(jī)試驗(yàn)而觀察到了這對總體分布做了一次隨機(jī)試驗(yàn)而觀察到了這個隨機(jī)變量的具體取值。個隨機(jī)變量的具體取值。 一共有一共有

14、 n 個數(shù)據(jù),相當(dāng)于對總體分布做個數(shù)據(jù),相當(dāng)于對總體分布做了了 n 次獨(dú)立重復(fù)試驗(yàn),而得到了這個總體隨次獨(dú)立重復(fù)試驗(yàn),而得到了這個總體隨機(jī)變量在這些試驗(yàn)中的具體取值。機(jī)變量在這些試驗(yàn)中的具體取值。數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)利用樣本觀察值去估計(jì)出總體的未知參數(shù)利用樣本觀察值去估計(jì)出總體的未知參數(shù)直觀上可以利用調(diào)查到的直觀上可以利用調(diào)查到的 n 個學(xué)生的月支出個學(xué)生的月支出 x1 , ,x2 , , ,xn 的算術(shù)平均的算術(shù)平均 : 去估計(jì)這所學(xué)校學(xué)生的平均月支出費(fèi)用去估計(jì)這所學(xué)校學(xué)生的平均月支出費(fèi)用 。它的合理性在哪?它的合理性在

15、哪? 還有沒有其它的辦法?還有沒有其它的辦法? 這些不同的方法各有什么樣的優(yōu)缺點(diǎn)?這些不同的方法各有什么樣的優(yōu)缺點(diǎn)?數(shù)理統(tǒng)計(jì)學(xué)最重要的內(nèi)容之一數(shù)理統(tǒng)計(jì)學(xué)最重要的內(nèi)容之一參數(shù)估計(jì)參數(shù)估計(jì)nkkxxn11 數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授) 事先提出一個假設(shè),利用樣本觀察值去事先提出一個假設(shè),利用樣本觀察值去檢驗(yàn)這個假設(shè)是否可以被接受檢驗(yàn)這個假設(shè)是否可以被接受假設(shè)檢驗(yàn)假設(shè)檢驗(yàn) 假定學(xué)校要制定相關(guān)一些政策,如獎學(xué)金、假定學(xué)校要制定相關(guān)一些政策,如獎學(xué)金、貸款、勤工儉學(xué)等;或者后勤服務(wù)、商業(yè)經(jīng)營貸款、勤工儉學(xué)等;或者后勤服務(wù)、商業(yè)經(jīng)營的價格等等

16、。的價格等等。共同關(guān)心的一些問題,比如說:共同關(guān)心的一些問題,比如說: 0 ? 這里這里 0 是一個已知的常數(shù)。是一個已知的常數(shù)。數(shù)理統(tǒng)計(jì)學(xué)最重要的內(nèi)容之一數(shù)理統(tǒng)計(jì)學(xué)最重要的內(nèi)容之一數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)應(yīng)該如何去做這個檢驗(yàn)?應(yīng)該如何去做這個檢驗(yàn)? 一種想法是:既然已經(jīng)通過一種想法是:既然已經(jīng)通過參數(shù)估計(jì)參數(shù)估計(jì)得到了這得到了這個學(xué)校學(xué)生月平均支出個學(xué)校學(xué)生月平均支出 ( 即總體的參數(shù)即總體的參數(shù) ) 的估計(jì)的估計(jì)值,自然就可以用它代替假設(shè)里的值,自然就可以用它代替假設(shè)里的 去做檢驗(yàn):去做檢驗(yàn): 當(dāng)估計(jì)值比當(dāng)估計(jì)值比 0 大

17、就接受這個假設(shè),否則就拒絕大就接受這個假設(shè),否則就拒絕 但是這樣的風(fēng)險很大:樣本總是隨機(jī)得到的,但是這樣的風(fēng)險很大:樣本總是隨機(jī)得到的,因此估計(jì)值與真實(shí)值之間不可避免地存在著隨因此估計(jì)值與真實(shí)值之間不可避免地存在著隨機(jī)誤差。機(jī)誤差。 傳統(tǒng)的方法是:給出一個區(qū)域傳統(tǒng)的方法是:給出一個區(qū)域 (拒絕域拒絕域),如,如果估計(jì)值落在這個區(qū)域內(nèi),就拒絕原來的假設(shè),果估計(jì)值落在這個區(qū)域內(nèi),就拒絕原來的假設(shè),否則就接受。否則就接受。數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授) 除了對總體參數(shù)的檢驗(yàn)外,還有一些除了對總體參數(shù)的檢驗(yàn)外,還有一些重要的假設(shè)檢驗(yàn)問題,例

18、如:重要的假設(shè)檢驗(yàn)問題,例如:關(guān)于總體分布的檢驗(yàn)關(guān)于總體分布的檢驗(yàn) 檢驗(yàn)得到的樣本數(shù)據(jù)是不是來自于檢驗(yàn)得到的樣本數(shù)據(jù)是不是來自于某個事先給出的總體某個事先給出的總體獨(dú)立性的檢驗(yàn)獨(dú)立性的檢驗(yàn) 檢驗(yàn)一些分類變量之間是否是獨(dú)立的,檢驗(yàn)一些分類變量之間是否是獨(dú)立的,例如:例如: 抽煙與肺癌,睡覺打鼾與心臟病抽煙與肺癌,睡覺打鼾與心臟病分布擬合檢驗(yàn)分布擬合檢驗(yàn)數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)關(guān)于數(shù)據(jù)差異的檢驗(yàn)關(guān)于數(shù)據(jù)差異的檢驗(yàn) 主要希望了解兩組或多組數(shù)據(jù)間的差異究竟主要希望了解兩組或多組數(shù)據(jù)間的差異究竟是來自于隨機(jī)性,還是總體間的確存在差異?是

19、來自于隨機(jī)性,還是總體間的確存在差異?例如:例如: 小兒麻痹癥、小兒麻痹癥、SARS疫苗的研制,疫苗的研制, 越戰(zhàn)期間美國的征兵計(jì)劃,越戰(zhàn)期間美國的征兵計(jì)劃, 以及我們在科學(xué)研究、工程實(shí)踐、以及我們在科學(xué)研究、工程實(shí)踐、社會調(diào)查等等得到的數(shù)據(jù)社會調(diào)查等等得到的數(shù)據(jù)數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)討論數(shù)值變量之間的效應(yīng)關(guān)系問題討論數(shù)值變量之間的效應(yīng)關(guān)系問題比如說,想了解兒子身高與父親身高之間的關(guān)系。比如說,想了解兒子身高與父親身高之間的關(guān)系。 在每個被調(diào)查的家庭中同時獲得這兩個變量的在每個被調(diào)查的家庭中同時獲得這兩個變量的觀察值,分析它

20、們是否有某種觀察值,分析它們是否有某種(函數(shù)函數(shù))關(guān)系,關(guān)系,一元線性回歸一元線性回歸多元線性回歸多元線性回歸 例如,鋼的去碳量與不同礦石、融化時間、例如,鋼的去碳量與不同礦石、融化時間、煉鋼爐體積煉鋼爐體積等等是否有關(guān)?關(guān)系如何?等等是否有關(guān)?關(guān)系如何?數(shù)理統(tǒng)計(jì)學(xué)重要應(yīng)用之一數(shù)理統(tǒng)計(jì)學(xué)重要應(yīng)用之一回歸與相關(guān)分析回歸與相關(guān)分析數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)討論分類變量與數(shù)值變量之間的關(guān)系討論分類變量與數(shù)值變量之間的關(guān)系 比如說產(chǎn)品質(zhì)量與不同操作人員之間的關(guān)系。比如說產(chǎn)品質(zhì)量與不同操作人員之間的關(guān)系。 是否某些人生產(chǎn)出的產(chǎn)品質(zhì)量偏高?

21、如果偏高,是否某些人生產(chǎn)出的產(chǎn)品質(zhì)量偏高?如果偏高,這種差異是否是純屬偶然原因,這種差異是否是純屬偶然原因,單因素方差分析單因素方差分析數(shù)理統(tǒng)計(jì)學(xué)重要應(yīng)用之一數(shù)理統(tǒng)計(jì)學(xué)重要應(yīng)用之一方差分析方差分析雙因素方差分析雙因素方差分析 希望了解操作人員和設(shè)備這兩個因素聯(lián)合對質(zhì)量希望了解操作人員和設(shè)備這兩個因素聯(lián)合對質(zhì)量的關(guān)系。各自單獨(dú)是否有影響?交互效應(yīng)如何?的關(guān)系。各自單獨(dú)是否有影響?交互效應(yīng)如何? 數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)簡單的說,從概率論的角度出發(fā),簡單的說,從概率論的角度出發(fā), 可以把上述數(shù)理統(tǒng)計(jì)學(xué)的過程理解成:可以把上述數(shù)理統(tǒng)

22、計(jì)學(xué)的過程理解成: 有一個含有未知信息的概率分布有一個含有未知信息的概率分布 F針對針對 F 做了做了 n 次獨(dú)立重復(fù)的試驗(yàn)與觀察,次獨(dú)立重復(fù)的試驗(yàn)與觀察,得到得到 n 個獨(dú)立同分布于個獨(dú)立同分布于 F 的隨機(jī)變量的取值的隨機(jī)變量的取值根據(jù)樣本的具體觀察值,去推斷出總體根據(jù)樣本的具體觀察值,去推斷出總體 F 所包含的未知信息,或作出進(jìn)一步的決策等所包含的未知信息,或作出進(jìn)一步的決策等數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)例例1.2. 如何分析與處理變量的關(guān)系?如何分析與處理變量的關(guān)系?分類變量:如性別、信仰、職業(yè)等等,分類變量:如性別、信仰

23、、職業(yè)等等,順序變量:如名次順序變量:如名次(第一、第二,第一、第二,),數(shù)值變量:如收入、比例、產(chǎn)量等等數(shù)值變量:如收入、比例、產(chǎn)量等等簡單簡單 復(fù)雜復(fù)雜Remark 可以把復(fù)雜的變量簡化為簡單變量,反之不行可以把復(fù)雜的變量簡化為簡單變量,反之不行 數(shù)值變量數(shù)值變量 順序變量順序變量 分類變量分類變量數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)變量組合與相應(yīng)的統(tǒng)計(jì)分析方法變量組合與相應(yīng)的統(tǒng)計(jì)分析方法因因變變量量 y 自變量自變量 x 分類變量分類變量 順序變量順序變量 數(shù)值變量數(shù)值變量分類變量分類變量 卡方分析卡方分析 回歸與相關(guān)回歸與相關(guān)順序

24、變量順序變量 秩方法秩方法 數(shù)值變量數(shù)值變量 方差分析方差分析 回歸與相關(guān)回歸與相關(guān)數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)把兩個變量分別作為橫軸和縱軸描出散點(diǎn)把兩個變量分別作為橫軸和縱軸描出散點(diǎn) 散點(diǎn)圖散點(diǎn)圖(Scatterplot) 散點(diǎn)圖在簡化數(shù)據(jù)的同時,能夠保留散點(diǎn)圖在簡化數(shù)據(jù)的同時,能夠保留原始數(shù)據(jù)的信息。原始數(shù)據(jù)的信息。(三三). 變量的統(tǒng)計(jì)圖表示變量的統(tǒng)計(jì)圖表示 數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)例例1.3. 下面是下面是 24 對夫妻的數(shù)據(jù),有兩個變量:對夫妻的數(shù)據(jù),有

25、兩個變量:結(jié)婚時間和一年內(nèi)的吵架次數(shù)。結(jié)婚時間和一年內(nèi)的吵架次數(shù)。結(jié)婚年數(shù)結(jié)婚年數(shù) 5 2 4 1 3 6 5 8 3 7 3 9爭吵次數(shù)爭吵次數(shù) 10 20 16 15 9 6 8 5 10 7 8 6 結(jié)婚年數(shù)結(jié)婚年數(shù) 10 15 13 20 16 25 22 14 15 19 17 20爭吵次數(shù)爭吵次數(shù) 5 3 4 2 4 1 3 3 4 3 3 2數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)結(jié)婚時間與吵架次數(shù)的散點(diǎn)圖結(jié)婚時間與吵架次數(shù)的散點(diǎn)圖數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)(2)

26、. 時間序列圖時間序列圖特殊散點(diǎn)圖,以時間作為橫軸的變量特殊散點(diǎn)圖,以時間作為橫軸的變量 時間序列圖能夠反映出一個變量隨著時間序列圖能夠反映出一個變量隨著時間而變化的趨勢。時間而變化的趨勢。數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授) 總體總體 X 的分布函數(shù)的分布函數(shù) F 含有未知的參數(shù)含有未知的參數(shù) , 所有可能的取值范圍稱為所有可能的取值范圍稱為“參數(shù)空間參數(shù)空間”,記為,記為 。 從這個總體中抽取了一組樣本從這個總體中抽取了一組樣本 X1,Xn ,相應(yīng)的樣本觀察值是相應(yīng)的樣本觀察值是 x1,xn 。 應(yīng)該如何估計(jì)出應(yīng)該如何估計(jì)出 的具體數(shù)

27、值?的具體數(shù)值? 點(diǎn)估計(jì)就是利用樣本構(gòu)造一個合理的統(tǒng)計(jì)量:點(diǎn)估計(jì)就是利用樣本構(gòu)造一個合理的統(tǒng)計(jì)量: g (X1,Xn ) ;用它的觀察值;用它的觀察值 g(x1,xn ) 去作為作為去作為作為 的估計(jì)值。的估計(jì)值。 二二. 參數(shù)估計(jì)參數(shù)估計(jì)數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授) 你可以用這組數(shù)據(jù)中的任何一個,或者樣本你可以用這組數(shù)據(jù)中的任何一個,或者樣本均值,或者是樣本中位數(shù)等,作為均值,或者是樣本中位數(shù)等,作為 的估計(jì)值。的估計(jì)值。 例例2.1 甲同學(xué)在一個體重儀上稱她的體重,假定甲同學(xué)在一個體重儀上稱她的體重,假定 這個體重儀沒有系統(tǒng)誤

28、差,每次稱量的結(jié)果這個體重儀沒有系統(tǒng)誤差,每次稱量的結(jié)果 是真實(shí)重量是真實(shí)重量 加上一個隨機(jī)誤差加上一個隨機(jī)誤差 k 。一般認(rèn)為。一般認(rèn)為 k N (0, , 2 ) ,因此,因此 n 次稱量的結(jié)果次稱量的結(jié)果 Xk = + k N ( , , 2 ) 數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)矩估計(jì)矩估計(jì): 用樣本的有關(guān)矩去作為總體有關(guān)矩的用樣本的有關(guān)矩去作為總體有關(guān)矩的 估計(jì)。即樣本均值作為總體期望的估計(jì);估計(jì)。即樣本均值作為總體期望的估計(jì); 樣本方差作為總體方差的估計(jì);樣本中位數(shù)樣本方差作為總體方差的估計(jì);樣本中位數(shù) (或眾數(shù)或眾數(shù)) 作

29、為總體中位數(shù)作為總體中位數(shù)( 或眾數(shù)或眾數(shù) ) 的估計(jì)等的估計(jì)等 。極大似然估計(jì)極大似然估計(jì): 所有情況中所有情況中 “看起來最象看起來最象” 的那個估計(jì)的那個估計(jì)常用的點(diǎn)估計(jì)方法常用的點(diǎn)估計(jì)方法數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)例例2.2. 假定盒子里黑、白球共假定盒子里黑、白球共 5 個,但是個,但是 不知道黑球具體數(shù)目。現(xiàn)在隨機(jī)有放回抽取不知道黑球具體數(shù)目?,F(xiàn)在隨機(jī)有放回抽取 3 個小球,發(fā)現(xiàn)是兩個黑球和一個白球。個小球,發(fā)現(xiàn)是兩個黑球和一個白球。 問盒子里最可能有幾個黑球?問盒子里最可能有幾個黑球?解:盒子里黑白球所有的可能有六

30、種:解:盒子里黑白球所有的可能有六種: 5白,白,4白白1黑、黑、3白白2黑,黑,2白白3黑,黑,1白白4黑,黑,5黑黑 以以 p 記盒子里黑球所占的比例,記盒子里黑球所占的比例,則則 p 全部可能的值是:全部可能的值是: 0, , ,1 1 2 3 4 5 5 5 5數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授) 定義三個統(tǒng)計(jì)量定義三個統(tǒng)計(jì)量 X1,X2,X3 表示抽樣結(jié)果:表示抽樣結(jié)果:取到黑球記為取到黑球記為 1 ,否則記為,否則記為 0 。因此。因此X1,X2,X3獨(dú)立同分布于參數(shù)獨(dú)立同分布于參數(shù) p 的兩點(diǎn)分布。的兩點(diǎn)分布。 例題中的三個

31、樣本觀察值例題中的三個樣本觀察值 x1,x2 ,x3 有兩個有兩個取值是取值是 1,一個取值為,一個取值為 0。而樣本的聯(lián)合分布律顯然是而樣本的聯(lián)合分布律顯然是L(x, , p) = px1+x2+x3 (1 - p )3 - x1 - x2 - x3= p2 (1 - p )數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授) 它的含義是:當(dāng)盒中黑球比例為它的含義是:當(dāng)盒中黑球比例為 p 時,時,隨機(jī)事件隨機(jī)事件“有放回取出的三個小球中有兩個有放回取出的三個小球中有兩個黑球、一個白球黑球、一個白球”的概率。的概率。 對應(yīng)于參數(shù)空間中不同的對應(yīng)于參數(shù)空間

32、中不同的 p ,樣本分布,樣本分布 L(x, , p) = p2 (1 - p ) 所對應(yīng)的這些概率是:所對應(yīng)的這些概率是:數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授) p 0, , , , ,1 L(x, p) 0, , , , ,0 1 2 3 4 5 5 5 5 4 12 18 16 125 125 125 125 既然既然“ 三個小球中包含兩個黑球三個小球中包含兩個黑球 ” 是已經(jīng)是已經(jīng)發(fā)生了的隨機(jī)事件,因此使得這個事件發(fā)生發(fā)生了的隨機(jī)事件,因此使得這個事件發(fā)生概率取最大的那個值就是未知參數(shù)概率取最大的那個值就是未知參數(shù) p 最有最有可能

33、的取值可能的取值 。 即即 p 的極大似然估計(jì)就是的極大似然估計(jì)就是 3/5 。數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)三三. 假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)(一一). 假設(shè)檢驗(yàn)的思想假設(shè)檢驗(yàn)的思想它是如下的一種統(tǒng)計(jì)推斷:它是如下的一種統(tǒng)計(jì)推斷: 對于一個統(tǒng)計(jì)模型,我們提出一個假設(shè),對于一個統(tǒng)計(jì)模型,我們提出一個假設(shè),根據(jù)抽取到的樣本,來作出是接受還是拒絕根據(jù)抽取到的樣本,來作出是接受還是拒絕這個假設(shè)。這個假設(shè)。小概率事件在一次試驗(yàn)中不應(yīng)該發(fā)生。小概率事件在一次試驗(yàn)中不應(yīng)該發(fā)生。數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教

34、授曹春玲教授) 有一種飲料由有一種飲料由 Tea 和和 Milk 混合而成,混合而成,按照順序的不同,分為按照順序的不同,分為 TM、 MT 兩種,兩種,有位女士聲稱她有能力品嘗出是有位女士聲稱她有能力品嘗出是 TM 還是還是MT 。 為了檢驗(yàn)她的說法是否可信,準(zhǔn)備為了檢驗(yàn)她的說法是否可信,準(zhǔn)備 8 杯飲料,杯飲料, TM 和和 MT 各一半,并且把這一點(diǎn)告訴她。各一半,并且把這一點(diǎn)告訴她。 現(xiàn)在隨機(jī)的讓這位女士品嘗,指出哪些是現(xiàn)在隨機(jī)的讓這位女士品嘗,指出哪些是 TM , 最終的結(jié)果是她全部說對了。最終的結(jié)果是她全部說對了。女士品茶女士品茶數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基

35、本概念與方法方法(曹春玲教授曹春玲教授)R.A.Fisher 的推理過程如下:的推理過程如下:引進(jìn)一個假設(shè),引進(jìn)一個假設(shè), H0 :這位女士沒有鑒別能力這位女士沒有鑒別能力 如果如果 H0 是正確的,她只能隨機(jī)從是正確的,她只能隨機(jī)從 8 杯飲料中杯飲料中猜測猜測 4 杯說是杯說是 TM 。全部猜對的概率為:全部猜對的概率為: = 0.014 現(xiàn)在她正確的說出了全部的現(xiàn)在她正確的說出了全部的 TM,要解釋要解釋這種現(xiàn)象,只能有下面兩種可能:這種現(xiàn)象,只能有下面兩種可能: 1 1 C84 70數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授) H0 不成

36、立,即:她的確有鑒別能力;不成立,即:她的確有鑒別能力;(2) H0 成立,意味著一件概率為成立,意味著一件概率為 0.014 的的 隨機(jī)事件在一次試驗(yàn)中發(fā)生了。隨機(jī)事件在一次試驗(yàn)中發(fā)生了。 Fisher 認(rèn)為,隨機(jī)試驗(yàn)的結(jié)果認(rèn)為,隨機(jī)試驗(yàn)的結(jié)果(或樣本或樣本) 構(gòu)成不構(gòu)成不利于假設(shè)利于假設(shè) H0 的的顯著性顯著性證據(jù),因此應(yīng)該否定證據(jù),因此應(yīng)該否定H0 。這種推理過程就稱為:這種推理過程就稱為:顯著性顯著性檢驗(yàn)檢驗(yàn) 顯著性是統(tǒng)計(jì)意義上的顯著,意思是顯著性是統(tǒng)計(jì)意義上的顯著,意思是一個小概率事件是否發(fā)生。一個小概率事件是否發(fā)生。 一個概率不到一個概率不到 2% 的隨機(jī)事件在一次試驗(yàn)中的隨機(jī)事件

37、在一次試驗(yàn)中發(fā)生了,這是比較稀奇或者說不太可能的。發(fā)生了,這是比較稀奇或者說不太可能的。數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)思考思考 假如這位女士只說對了假如這位女士只說對了 3 杯杯 ? 一個人純粹靠隨機(jī)的猜測,能夠說對至一個人純粹靠隨機(jī)的猜測,能夠說對至少少 3 杯的概率杯的概率 ( 即即 H0 成立的情況下,出現(xiàn)這成立的情況下,出現(xiàn)這種試驗(yàn)結(jié)果的可能性種試驗(yàn)結(jié)果的可能性 ) : = 0.243 顯然我們不會對一個概率接近顯然我們不會對一個概率接近 25% 的隨機(jī)的隨機(jī)事件在一次試驗(yàn)中發(fā)生而感到驚訝。事件在一次試驗(yàn)中發(fā)生而感到驚訝。

38、試驗(yàn)結(jié)果并沒有提供不利于試驗(yàn)結(jié)果并沒有提供不利于H0 的顯著性證據(jù),的顯著性證據(jù),因此不能否定零假設(shè)因此不能否定零假設(shè) ,而應(yīng)該接受而應(yīng)該接受H0 ,即應(yīng)該即應(yīng)該認(rèn)為這位女士沒有鑒別能力認(rèn)為這位女士沒有鑒別能力 。 1+ C43 C41 17 C84 70數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)(二二). 假設(shè)檢驗(yàn)的基本過程假設(shè)檢驗(yàn)的基本過程例例3.2. 當(dāng)包裝機(jī)器正常工作時,每袋葡萄糖當(dāng)包裝機(jī)器正常工作時,每袋葡萄糖 的重量應(yīng)該是一個服從均值的重量應(yīng)該是一個服從均值 0.5 kg,標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差 0.015 kg的隨機(jī)變量。有一天隨機(jī)地抽取了

39、的隨機(jī)變量。有一天隨機(jī)地抽取了 9 袋包裝好的產(chǎn)品,測量出它們的平均重量袋包裝好的產(chǎn)品,測量出它們的平均重量 是是 0.511 kg,問這臺包裝機(jī)器是否正常工作?問這臺包裝機(jī)器是否正常工作?(假定即使工作異常標(biāo)準(zhǔn)差也不會改變假定即使工作異常標(biāo)準(zhǔn)差也不會改變)數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)1. 提出一個統(tǒng)計(jì)假設(shè)提出一個統(tǒng)計(jì)假設(shè) 根據(jù)題意每袋產(chǎn)品重量根據(jù)題意每袋產(chǎn)品重量 X N ( , ,0.0152 ) , 如果機(jī)器正常工作,應(yīng)該是如果機(jī)器正常工作,應(yīng)該是 = 0.5 ,反之,反之應(yīng)該是應(yīng)該是 0.5 。因此首先提出統(tǒng)計(jì)假設(shè):因此首先

40、提出統(tǒng)計(jì)假設(shè): 假設(shè)檢驗(yàn)的任務(wù)就是要根據(jù)抽取出的樣本,假設(shè)檢驗(yàn)的任務(wù)就是要根據(jù)抽取出的樣本,來決定是接受零假設(shè),還是拒絕零假設(shè)來決定是接受零假設(shè),還是拒絕零假設(shè) ( 接受接受對立假設(shè)對立假設(shè) ) 。 H0: = 0 ( = 0.5 ) H1: 0 ( 0.5 ) 數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)2. 選取一個合適的檢驗(yàn)統(tǒng)計(jì)量選取一個合適的檢驗(yàn)統(tǒng)計(jì)量 它的分布當(dāng)零假設(shè)成立時應(yīng)該是已知的,它的分布當(dāng)零假設(shè)成立時應(yīng)該是已知的,而且一般是從而且一般是從待檢驗(yàn)的總體參數(shù)的良好的待檢驗(yàn)的總體參數(shù)的良好的點(diǎn)估計(jì)中點(diǎn)估計(jì)中去尋找。去尋找。 在例題中需

41、要檢驗(yàn)的是總體期望在例題中需要檢驗(yàn)的是總體期望 ,因此考慮樣本均值,因此考慮樣本均值,零假設(shè)成立時零假設(shè)成立時 ( = 0.5 ) 則有:則有:XN20.015( ,)9 XzN9(0.5)(0,1)0.015 數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)3. 利用零假設(shè)成立時檢驗(yàn)統(tǒng)計(jì)量的利用零假設(shè)成立時檢驗(yàn)統(tǒng)計(jì)量的 分布構(gòu)造出一個小概率事件分布構(gòu)造出一個小概率事件 這個小概率就是給定的這個小概率就是給定的顯著性水平顯著性水平(也稱也稱檢驗(yàn)水平檢驗(yàn)水平),而這個小概率事件就是零假設(shè)的,而這個小概率事件就是零假設(shè)的拒絕域拒絕域,并且拒絕域必須和對立

42、假設(shè)有關(guān):,并且拒絕域必須和對立假設(shè)有關(guān):零假設(shè)的拒絕域相當(dāng)于對立假設(shè)的接受域零假設(shè)的拒絕域相當(dāng)于對立假設(shè)的接受域 。 在例題中由于樣本均值是總體期望在例題中由于樣本均值是總體期望 的的一個一個良好的點(diǎn)估計(jì),因此零假設(shè)成立良好的點(diǎn)估計(jì),因此零假設(shè)成立( = 0.5 )時,時,偏差偏差 應(yīng)該比較小,不能夠太大。應(yīng)該比較小,不能夠太大。X|0.5| 數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授) 而如果而如果 比較大時,自然我們會比較大時,自然我們會認(rèn)為零假設(shè)不成立,所以應(yīng)該接受對立假設(shè)。認(rèn)為零假設(shè)不成立,所以應(yīng)該接受對立假設(shè)。所以零假設(shè)所以零假設(shè) (

43、 = 0.5 ) 的拒絕域的形式就是的拒絕域的形式就是 :根據(jù)檢驗(yàn)統(tǒng)計(jì)量的分布,根據(jù)檢驗(yàn)統(tǒng)計(jì)量的分布, 有:有:這個這個常數(shù)常數(shù) z0 就可以取為就可以取為 u /2X|0.5| 統(tǒng)計(jì)量統(tǒng)計(jì)量| z | = 某個常數(shù)某個常數(shù) z0X9 |0.5|0.015 Xu/ 29 |0.5|P0.015 數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)4. 代入樣本觀察值,如果使得這個小概率代入樣本觀察值,如果使得這個小概率 事件發(fā)生,就否定零假設(shè)而去接受對立事件發(fā)生,就否定零假設(shè)而去接受對立 假設(shè)。否則說明樣本沒有提供否定零假設(shè)假設(shè)。否則說明樣本沒有提供否定

44、零假設(shè) 的顯著性證據(jù),因此應(yīng)該接受零假設(shè)。的顯著性證據(jù),因此應(yīng)該接受零假設(shè)。 在這個例題里,檢驗(yàn)統(tǒng)計(jì)量在這個例題里,檢驗(yàn)統(tǒng)計(jì)量 | z | = = 2.2, H0: = 0 ( = 0.5 ) H1: 0 ( 0.5 ) 的顯著水平的顯著水平 的拒絕域就是的拒絕域就是 2.2 u /2 。 30.011 0.015假設(shè)檢驗(yàn)?zāi)J(rèn)的顯著水平是假設(shè)檢驗(yàn)?zāi)J(rèn)的顯著水平是 =0.05數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)(1) 如果取如果取 = 0.05,則則2.2常數(shù)常數(shù) z0 = 1.96 ,說明說明 一個概率為一個概率為0.05 的隨機(jī)事件發(fā)生

45、了,樣本提供的隨機(jī)事件發(fā)生了,樣本提供 了機(jī)器異常的顯著證據(jù),應(yīng)該否定零假設(shè);了機(jī)器異常的顯著證據(jù),應(yīng)該否定零假設(shè);(2) 如果取如果取 =0.01,則則2.2常數(shù)常數(shù) z0 = 2.575 ,說說 明明一個概率一個概率0.01的隨機(jī)事件沒有發(fā)生,樣本沒有的隨機(jī)事件沒有發(fā)生,樣本沒有 提供機(jī)器異常的顯著證據(jù),應(yīng)該接受零假設(shè)。提供機(jī)器異常的顯著證據(jù),應(yīng)該接受零假設(shè)。 在不同的顯著水平下,可以導(dǎo)致最終得出在不同的顯著水平下,可以導(dǎo)致最終得出的檢驗(yàn)結(jié)論完全不同。這個現(xiàn)象說明了顯著的檢驗(yàn)結(jié)論完全不同。這個現(xiàn)象說明了顯著水平水平 對于對于 H0的保護(hù):的保護(hù): 越小越不容易否定越小越不容易否定零假設(shè)。零

46、假設(shè)。數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)(三三). 卡方卡方 檢驗(yàn)檢驗(yàn) 如果如果一組樣本一組樣本 X1,Xn 來自分布來自分布 F,需要檢驗(yàn)是如下問題:需要檢驗(yàn)是如下問題: H0:F = F0 H1:F F0 從理論上來說無論從理論上來說無論 F 是離散還是連續(xù)分布,是離散還是連續(xù)分布,卡方卡方檢驗(yàn)都可以處理;不過它更適用于離散的檢驗(yàn)都可以處理;不過它更適用于離散的總體,對于連續(xù)的總體總體,對于連續(xù)的總體 F ,采用采用 Kolmogrov柯莫哥洛夫檢驗(yàn)更好。檢驗(yàn)更好。數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法

47、(曹春玲教授曹春玲教授)K.Pearson 的擬合優(yōu)度檢驗(yàn)思想的擬合優(yōu)度檢驗(yàn)思想 在實(shí)數(shù)軸上取在實(shí)數(shù)軸上取 m 個點(diǎn)把個點(diǎn)把 R1 分成分成 m + 1 個部分,個部分,以以 vi 表示落在第表示落在第i 個區(qū)間里的樣本個數(shù),個區(qū)間里的樣本個數(shù),pi 是總是總體隨機(jī)變量體隨機(jī)變量 X 在這個區(qū)間中的概率:在這個區(qū)間中的概率: x t1 t2 t3 tm x(1) x(n) 數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)當(dāng)零假設(shè)當(dāng)零假設(shè) H0:F = F0 成立時成立時pi 可以計(jì)算出:可以計(jì)算出: pi = F0(ti ) - F0(ti - 1

48、) ,1 i m + 1; 這里這里 F0 (t0 ) = 0,F(xiàn)0(tm +1 ) = 1 n 充分大時,頻率充分大時,頻率 vi/n 與概率與概率 pi 應(yīng)該相當(dāng)接近應(yīng)該相當(dāng)接近, 因此如果零假設(shè)成立則統(tǒng)計(jì)量:因此如果零假設(shè)成立則統(tǒng)計(jì)量:miiiivnKppn1221() 應(yīng)該偏小,反之則可以否定零假設(shè)應(yīng)該偏小,反之則可以否定零假設(shè) H0:F = F0 。 1900年年K.Pearson 證明了極限分布證明了極限分布 K2 2(m), 因此因此 H0 的一個水平的一個水平 拒絕域近似為拒絕域近似為 K2 2(m) 。數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春

49、玲教授曹春玲教授) 總體總體 X 只可能取有限個值只可能取有限個值ai ,1 i k 。相應(yīng)地,相應(yīng)地,樣本樣本 X1,Xn中取值為中取值為ai 的個數(shù)的個數(shù)為為vi ,1 i k 。需要檢驗(yàn):需要檢驗(yàn): H0:P X = ai = pi ,1 i k kiiiivnKppn221() 取檢驗(yàn)統(tǒng)計(jì)量:取檢驗(yàn)統(tǒng)計(jì)量:kkiiiiiiivnpvnnpnp2211()1 則則H0 的一個水平的一個水平 檢驗(yàn)的檢驗(yàn)的拒絕域?yàn)榫芙^域?yàn)?K2 2(k - 1)數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)例例3.3. Mendel (孟德爾孟德爾)的遺傳學(xué)的遺

50、傳學(xué)例子例子 Mendel 研究豌豆時發(fā)現(xiàn)豌豆有兩種特性:研究豌豆時發(fā)現(xiàn)豌豆有兩種特性:圓與皺、黃與綠,他觀察了圓與皺、黃與綠,他觀察了 556 顆豌豆:顆豌豆:圓黃圓黃 皺黃皺黃 圓綠圓綠 皺綠皺綠 (總數(shù)總數(shù))315 101 108 32 (556) 而根據(jù)他的遺傳學(xué)理論,而根據(jù)他的遺傳學(xué)理論,Mendel 認(rèn)為認(rèn)為這些組合關(guān)系應(yīng)該有理論上的概率:這些組合關(guān)系應(yīng)該有理論上的概率:圓黃圓黃 皺黃皺黃 圓綠圓綠 皺綠皺綠 (概率概率)9/16 3/16 3/16 1/16 (1)數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)解解. 總體分布的總體分

51、布的 k = 4,對應(yīng)對應(yīng) K2 統(tǒng)計(jì)量為:統(tǒng)計(jì)量為:kiiivKnnp221222211315101108325560.47556 9/163/163/161/16 0.052(3)=7.815, 0.902(3)=0.584, 0.952(3)=0.352 甚至在水平甚至在水平0.90下都可以接受零假設(shè),即下都可以接受零假設(shè),即認(rèn)為認(rèn)為Mendel 的遺傳學(xué)理論是正確的。的遺傳學(xué)理論是正確的。 從從p-值的角度擬合優(yōu)度值的角度擬合優(yōu)度 p = P 2(3) 0.47 這個這個值是值是0.9254 ,理論分布與實(shí)際數(shù)據(jù)相當(dāng)吻合。,理論分布與實(shí)際數(shù)據(jù)相當(dāng)吻合。數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)

52、建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)四四. 方差分析方差分析 方差分析針對方差分析針對方差相同的多個正態(tài)總體,方差相同的多個正態(tài)總體,檢驗(yàn)它們的均值是否相同。檢驗(yàn)它們的均值是否相同。 即,即, 同時判斷多組數(shù)據(jù)均值之間差異是否顯著同時判斷多組數(shù)據(jù)均值之間差異是否顯著 方差分析方差分析 ( Analysis of Variance,ANOVA ) : 研究一個研究一個(或多個或多個)分類自變量如何影響一個分類自變量如何影響一個數(shù)值因變量的統(tǒng)計(jì)分析方法。數(shù)值因變量的統(tǒng)計(jì)分析方法。數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)方差分

53、析的特點(diǎn)方差分析的特點(diǎn) 方差分析與一般的假設(shè)檢驗(yàn)不同方差分析與一般的假設(shè)檢驗(yàn)不同 要比較均值是否相同,可以使用第三章要比較均值是否相同,可以使用第三章假設(shè)檢驗(yàn)的方法,但是只能處理兩個均值。假設(shè)檢驗(yàn)的方法,但是只能處理兩個均值。 方差分析處理的是多個均值的情況。方差分析處理的是多個均值的情況。方差分析的目的方差分析的目的. 判斷某些因素對于我們感興趣的因變量是否判斷某些因素對于我們感興趣的因變量是否 具有具有“顯著顯著”的影響,的影響,. 如果因素間有交互效應(yīng),尋找最佳搭配方案。如果因素間有交互效應(yīng),尋找最佳搭配方案。數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教

54、授曹春玲教授)常見的方差分析主要有:常見的方差分析主要有: 單因素方差分析,雙因素方差分析,單因素方差分析,雙因素方差分析, 多因素方差分析。多因素方差分析。 方差分析與回歸、相關(guān)分析不同方差分析與回歸、相關(guān)分析不同 回歸與相關(guān)處理的是兩個數(shù)值變量的問題,回歸與相關(guān)處理的是兩個數(shù)值變量的問題,相應(yīng)的散點(diǎn)在相應(yīng)的散點(diǎn)在 x 軸上具有順序軸上具有順序(從小到大從小到大),而,而方差分析的數(shù)據(jù)在方差分析的數(shù)據(jù)在 x 軸上可以任意交換位置。軸上可以任意交換位置。數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)考察小麥產(chǎn)量考察小麥產(chǎn)量( y ) 對于品種和施肥

55、量的關(guān)系。對于品種和施肥量的關(guān)系。Fisher的農(nóng)業(yè)試驗(yàn)的農(nóng)業(yè)試驗(yàn) 選擇了:兩個不同的小麥品種,選擇了:兩個不同的小麥品種, 三個不同的施肥等級;三個不同的施肥等級;一共一共 23 = 6 種搭配做試驗(yàn),建立模型。種搭配做試驗(yàn),建立模型。數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授) y11 = 0 + 1 + 1 + 11 y12 = 0 + 1 + 2 + 12 y13 = 0 + 1 + 3 + 13 y21 = 0 + 2 + 1 + 21 y22 = 0 + 2 + 2 + 22 y23 = 0 + 2 + 3 + 23 yij 是小麥產(chǎn)

56、量,是小麥產(chǎn)量, 1、 2 是品種效應(yīng),是品種效應(yīng), 1、 2、 3 是施肥是施肥 等級的效應(yīng),等級的效應(yīng), 0 是其它因素的是其它因素的 平均效應(yīng)。平均效應(yīng)。 ij 是隨機(jī)誤差,是隨機(jī)誤差,i.i.d N (0, , 2 ) 品種是否對產(chǎn)量有影響品種是否對產(chǎn)量有影響 H01: 1 = 2 施肥量施肥量是否對產(chǎn)量有影響是否對產(chǎn)量有影響 H02: 1 = 2 = 3 數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)把這個模型寫成矩陣的形式:把這個模型寫成矩陣的形式:Y = X + yyyyyy110111211213213211212222223323

57、110100110010110001101100101010101001 在方差分析中,同一個因素的不同水平看成在方差分析中,同一個因素的不同水平看成是模型里的不同變量,而不能看成是同一個自是模型里的不同變量,而不能看成是同一個自變量在不同試驗(yàn)里的取值。變量在不同試驗(yàn)里的取值。(否則需要否則需要 y 對對 x 有有線性相依關(guān)系線性相依關(guān)系)數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授) i.i.d independent and identically distributed 獨(dú)立同分布 i.i.d.r.v independent identica

58、lly distributed random variables 獨(dú)立同分布隨機(jī)變量數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)五五. 回歸與相關(guān)分析回歸與相關(guān)分析 回歸與相關(guān)分析是用于討論數(shù)值變量回歸與相關(guān)分析是用于討論數(shù)值變量之間關(guān)系的統(tǒng)計(jì)分析方法之間關(guān)系的統(tǒng)計(jì)分析方法。 回歸分析研究一個回歸分析研究一個(或多個或多個)自變量的變化自變量的變化如何影響因變量,如何影響因變量, 相關(guān)分析研究這兩個數(shù)值變量的相關(guān)程度。相關(guān)分析研究這兩個數(shù)值變量的相關(guān)程度。數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授)

59、Regressiony = 33.73 + 0.516 x (單位:英寸單位:英寸)數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授) 直觀上在一個總體中直觀上在一個總體中有兩個特征有兩個特征( X, ,Y ),觀,觀察了察了n 次得到平面上的次得到平面上的 n 個點(diǎn)個點(diǎn) ( x1, ,y1 ),( xn, ,yn ) 。xyo 如果一條曲線如果一條曲線 y = f (x) 基本上通過這些點(diǎn),基本上通過這些點(diǎn),或者這些點(diǎn)的大多數(shù)與這條曲線偏離很小,或者這些點(diǎn)的大多數(shù)與這條曲線偏離很小,則稱曲線是對觀察值的擬合曲線,或者稱為則稱曲線是對觀察值的擬合曲線,

60、或者稱為是是 y 對于對于x 的回歸曲線。的回歸曲線?!盎貧w回歸”的含義的含義 數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與數(shù)學(xué)建模講座之統(tǒng)計(jì)學(xué)基本概念與方法方法(曹春玲教授曹春玲教授) 在理論上,假定在理論上,假定( X, ,Y )有聯(lián)合分布,二階矩有聯(lián)合分布,二階矩存在,則當(dāng)存在,則當(dāng)X 取某個值取某個值 x 時時Y 有一個確定的條件有一個確定的條件分布分布 F( | x),這個分布的數(shù)學(xué)期望即條件期望,這個分布的數(shù)學(xué)期望即條件期望 E(Y|x) 存在,存在,E(Y|x) 就稱為就稱為Y 對于對于x 的回歸的回歸(函數(shù)函數(shù)) 如果如果X 是一維隨機(jī)變量,則是一維隨機(jī)變量,則E (Y|x) 就稱為就稱為一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論