數理統(tǒng)計的基本概念()_第1頁
數理統(tǒng)計的基本概念()_第2頁
數理統(tǒng)計的基本概念()_第3頁
數理統(tǒng)計的基本概念()_第4頁
數理統(tǒng)計的基本概念()_第5頁
已閱讀5頁,還剩53頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數理統(tǒng)計的基本概念()第1頁,共58頁,2023年,2月20日,星期五

前幾章我們學習了概率論的基本知識,從本章開始將學習數理統(tǒng)計的基本知識、理論和方法.數理統(tǒng)計是以對隨機現象觀測所取得的資料(數據)為出發(fā)點,以概率論為基礎來研究隨機現象的一門學科.概率論中,往往是在已知隨機變量分布的條件下,去研究它的性質、特點和規(guī)律性,比如求隨機變量取某些特定值的概率、求隨機變量的數字特征、研究多個隨機變量之間的關系等.第2頁,共58頁,2023年,2月20日,星期五第6章數理統(tǒng)計的基本概念

在數理統(tǒng)計中,我們所研究的隨機變量的分布往往是未知的,通過對隨機變量進行多次獨立重復的試驗和觀測,獲取數據,利用實際觀測數據研究隨機變量的分布,對其分布函數、數字特征等進行估計和推斷.本章作為數理統(tǒng)計基礎,學習總體、樣本、統(tǒng)計量與抽樣分布等有關概念,以及有關正態(tài)總體的重要的抽樣分布定理.第3頁,共58頁,2023年,2月20日,星期五

數理統(tǒng)計學是一門應用性很強的學科。它研究怎樣以有效的方式收集、整理和分析帶有隨機性的數據,以便對所考察的問題作出正確的推斷和預測,為采取正確的決策和行動提供依據和建議。

數理統(tǒng)計不同于一般的資料統(tǒng)計,它更側重于應用隨機現象本身的規(guī)律性進行資料的收集、整理和分析。4第4頁,共58頁,2023年,2月20日,星期五第6章數理統(tǒng)計基礎【質量控制問題】

某食鹽廠用包裝機包裝的食鹽,每袋重量500g,通常在包裝機正常的情況下,袋裝食鹽的重量X服從正態(tài)分布,均值為500g,標準差為25g.為進行生產質量控制,他們每天從當天的產品中隨機抽出30袋進行嚴格稱重,以檢驗包裝機工作是否正常.某日,該廠隨機抽取30袋鹽的重量分別為:

從這些數據看,包裝機的工作正常嗎?475500485454504439492501463461464494512451434511513490521514449467499484508478479499529480第5頁,共58頁,2023年,2月20日,星期五6.1總體和樣本6.1.1總體與個體

總體或母體指我們研究對象的全體構成的集合,個體指總體中包含的每個成員.例如,在研究某高校學生生活消費狀況時,該校全體學生就是一個總體,其中每一個學生是一個個體;在人口普查中,總體是某地區(qū)的全體人口,個體就是該地區(qū)的每一個人.第6章數理統(tǒng)計基礎第6頁,共58頁,2023年,2月20日,星期五6.1.1總體與個體

我們研究總體時,所關心的往往是總體某方面的特性,這些特性又常??梢杂靡粋€或多個數量指標來反映.例如,在研究某高校學生生活消費狀況時,關心的可能是學生們每月的生活消費額,在研究某廠生產的燈泡的質量時,關心的可能是這些燈泡的壽命和光亮度等.這時總體指一個或多個數量指標,這些數量指標對我們來說是不了解或者說是未知的,我們可以用一個或多個隨機變量來表示它們.第7頁,共58頁,2023年,2月20日,星期五

因此,總體可以是一維隨機變量,也可以是多維隨機變量.例如,在研究某高校學生生活消費狀況時,可以用X表示月生活消費額,在研究某廠生產的燈泡的質量時,可以分別用X,Y表示燈泡的壽命和光亮度,那么,對上面兩個問題的研究就轉化為對總體X和總體(X,Y)的研究了.

6.1.1總體與個體第8頁,共58頁,2023年,2月20日,星期五6.1.2樣本與抽樣實際應用中,為了研究總體的特性,總是從總體中抽出部分個體進行觀察和試驗,根據觀察或試驗得到的數據推斷總體的性質.我們把從總體中抽出的部分個體稱為樣本,把樣本中包含個體的數量稱為樣本容量,把對樣本的觀察或試驗的過程稱為抽樣,把觀察或試驗得到的數據稱為樣本觀測值(觀測數據),簡稱樣本值.第9頁,共58頁,2023年,2月20日,星期五

例如,在質量檢驗中,隨機抽出n件產品,測得的數據x1,x2,...,xn,就稱它們是樣本觀測值.在抽樣前,不知道樣本觀測值究竟取何值,應該把它們看作為隨機變量,記作X1,X2,...,Xn,稱其為容量為n的樣本.

(在不會混淆的情況下,有時我們也將觀測數據x1,x2,...,xn稱為樣本,如“質量控制問題”中的30個數據,也可以說成是一個容量為30的樣本).6.1.2

樣本與抽樣第10頁,共58頁,2023年,2月20日,星期五

在應用中,我們從總體中抽出的個體必須具有代表性,樣本中個體之間要具有相互獨立性,為保證這兩點,一般采用簡單隨機抽樣.

定義6.1

一種抽樣方法若滿足下面兩點,稱其為簡單隨機抽樣:

(1)總體中每個個體被抽到的機會是均等的;

(2)樣本中的個體相互獨立.由簡單隨機抽樣得到的樣本稱為簡單隨機樣本.如果沒有特殊說明,以后所說樣本均指簡單隨機樣本.6.1.2

樣本與抽樣第11頁,共58頁,2023年,2月20日,星期五

設X1,X2,...,Xn是從總體X中抽出的簡單隨機樣本,由定義可知,X1,X2,...,Xn有下面兩個特性:

(1)代表性:X1,X2,...,Xn均與X同分布,即若X

F(x),則對每一個Xi都有Xi

F(xi),i=1,2,…,n(2)獨立性:X1,X2,...,Xn相互獨立.由這兩個特性可知,若X的分布函數為F(x),則X1,X2,...,Xn的聯合分布函數為

F(x1,x2,…,xn)=F(x1)F(x2)…F(xn)若X具有概率密度為f(x),則X1,X2,...,Xn的聯合概率密度為f(x1,x2,…,xn)=f(x1)f(x2)…f(xn)6.1.2

樣本與抽樣往往是未知或不完全知道的,是需要通過樣本來進行研究和推斷的.第12頁,共58頁,2023年,2月20日,星期五若X連續(xù)型隨機變量,其概率密度為f(x),則X1,X2,…,Xn的聯合概率密度為則X1,X2,…,Xn的聯合分布律為若X離散型隨機變量,其分布律為第13頁,共58頁,2023年,2月20日,星期五例6.2.4設總體X~B(1,p),X1,X2,…,Xn為取自總體X的樣本,求樣本X1,X2,…,Xn的聯合分布(稱為樣本分布)。解:X的分布律為所以樣本X1,X2,…,Xn的聯合分布律為第14頁,共58頁,2023年,2月20日,星期五例6.2.5設總體X~N(μ,б2),X1,X2,…,Xn為取自總體X的樣本,求樣本X1,X2,…,Xn的聯合概率密度。第15頁,共58頁,2023年,2月20日,星期五【習題1】設總體X服從均值為1/2的指數分布,X1,X2,X3,X4為來自X的樣本,求X1,X2,X3,X4的聯合概率密度和聯合分布函數.

解:X的概率密度為其分布函數為則X1,X2,X3,X4的聯合概率密度為:6.1.2

樣本與抽樣第16頁,共58頁,2023年,2月20日,星期五6.1.2

樣本與抽樣由于X的分布函數為X1,X2,X3,X4的聯合分布函數為

第17頁,共58頁,2023年,2月20日,星期五定義1設X1,X2,…,Xn為來自總體X的樣本,g(X1,X2,…,Xn)是X1,X2,…,Xn的函數,若g中不含任何未知參數,則稱g(X1,X2,…,Xn)為統(tǒng)計量.樣本平均值

設x1,x2,…,xn是相應于樣本X1,X2,…,Xn的樣本值,則稱g(x1,x2,…,xn)是g(X1,X2,…,Xn)的觀察值.樣本方差6.2統(tǒng)計量第18頁,共58頁,2023年,2月20日,星期五樣本標準差樣本k階(原點)矩樣本k階中心矩它反映了總體k階矩的信息它反映了總體k階中心矩的信息第19頁,共58頁,2023年,2月20日,星期五它們的觀察值分別為

第20頁,共58頁,2023年,2月20日,星期五注:樣本矩反應了總體相應矩的信息。樣本k階(原點)矩第21頁,共58頁,2023年,2月20日,星期五

設為來自總體X的樣本,為來自總體Y的樣本,稱說明:1.樣本原點矩反映樣本的平均特征,樣本中心矩反映樣本的離散特征,樣本協(xié)方差反映兩個樣本的相關程度。2.樣本數字特征是隨機變量,但對一組樣本觀察值,得到的樣本數字特征觀察值是一個具體的數,我們通常把這個數也稱為樣本均值、樣本方差、樣本相關系數等。第22頁,共58頁,2023年,2月20日,星期五順序統(tǒng)計量說明:1.對兩次抽樣,盡管觀察值由小到大的排列順序可能改變,但對順序統(tǒng)計量來說,改變的僅是其取值,其形式不變。2.順序統(tǒng)計量是樣本的函數,因而是隨機變量。定義6.6

設()是樣本()的一組觀察值,將按由小到大的順序排列成。設,記k=1,2,…,n.稱()為()的順序統(tǒng)計量。第23頁,共58頁,2023年,2月20日,星期五結論1.是統(tǒng)計量。第24頁,共58頁,2023年,2月20日,星期五例*設總體X的期望、方差分別為X1,X2,…,Xn為來自總體X的樣本,其樣本均值和樣本方差分別記為。求第25頁,共58頁,2023年,2月20日,星期五由于所以第26頁,共58頁,2023年,2月20日,星期五第二節(jié)抽樣分布

設X1,X2,…,Xn是來自總體N(0,1)的樣本,則稱統(tǒng)計量服從自由度為n的分布,記為分布的概率分布密度為1、

分布第27頁,共58頁,2023年,2月20日,星期五第28頁,共58頁,2023年,2月20日,星期五

分布具有以下性質:第29頁,共58頁,2023年,2月20日,星期五標準正態(tài)分布的分位點也類似定義,標準正態(tài)分布的上分位點記為,它滿足其中Z~N(0,1)。

對不同的分布的上分位點的值已制成表格,可以查用。第30頁,共58頁,2023年,2月20日,星期五2、t分布

設X~N(0,1),Y~,且X與Y相互獨立,則稱隨機變量服從自由度為n的t分布,記為t~t(n)。t(n)分布的概率密度函數為第31頁,共58頁,2023年,2月20日,星期五t(n)分布的概率密度函數關于t=0單峰對稱第32頁,共58頁,2023年,2月20日,星期五當n很大時t(n)分布接近于標準正態(tài)分布,利用Γ函數的性質可以證明當n較小時,t(n)分布與N(0,1)分布之間有較大差異。t(n)分布的上分位數記為,即滿足t分布的上分位數可由附表查得。當n>45時,有第33頁,共58頁,2023年,2月20日,星期五

設且U與V相互獨立,則稱隨機變量服從自由度為(n1,n2)的F分布,記為F~F(n1,n2)3、F分布

F(n1,n2)分布的概率密度函數為第34頁,共58頁,2023年,2月20日,星期五第35頁,共58頁,2023年,2月20日,星期五若F~F(n1,n2),則第36頁,共58頁,2023年,2月20日,星期五若F~F(n1,n2),則F分布的上分位點有如下的性質:第37頁,共58頁,2023年,2月20日,星期五4、正態(tài)總體的樣本均值與樣本方差的分布第38頁,共58頁,2023年,2月20日,星期五第39頁,共58頁,2023年,2月20日,星期五第40頁,共58頁,2023年,2月20日,星期五第41頁,共58頁,2023年,2月20日,星期五第42頁,共58頁,2023年,2月20日,星期五6.1

總體和樣本

6.1.3直方圖與經驗分布函數如前所述,數理統(tǒng)計所研究的實際問題(總體)的分布一般來說是未知的,需要通過樣本來推斷.但如果對總體一無所知,那么,做出推斷的可信度一般也極為有限.在很多情況下,我們往往可以通過具體的應用背景或以往的經驗,再通過觀察樣本觀測值的分布情況,對總體的分布形式有個大致了解.觀察樣本觀測值的分布規(guī)律,了解總體X的概率密度和分布函數,常用直方圖和經驗分布函數.第43頁,共58頁,2023年,2月20日,星期五1.直方圖直方圖是對一組數據x1,x2,...,xn的分布情況的圖形描述.將數據的取值范圍分成若干區(qū)間(一般是等間隔的),在等間隔的情況,每個區(qū)間的長度稱為組距.考察這些數據落入每一個小區(qū)間的頻數和頻率,在每一個區(qū)間上畫一個矩形,它的寬度是組距,高度可以是頻數、頻率或頻率/組距,所得直方圖分別稱為頻數直方圖、頻率直方圖和密度直方圖.6.1.3直方圖與經驗分布函數圖6-1密度直方圖第44頁,共58頁,2023年,2月20日,星期五如果數據x1,x2,...,xn是來自連續(xù)總體X的樣本觀測值,其密度直方圖中,每一個矩形的面積恰好是觀測數據落入對應區(qū)間的頻率,這種密度直方圖可以用來估計總體的概率密度(用密度直方圖的頂部折線估計X的概率密度曲線).組距對直方圖的形態(tài)有很大的影響,組距太小或太大,直方圖反映概率密度的形態(tài)就不夠準確.6.1.3

直方圖與經驗分布函數第45頁,共58頁,2023年,2月20日,星期五6.1.3

直方圖與經驗分布函數

一個合適的分組是希望密度直方圖的形態(tài)接近總體的概率密度函數的形態(tài).手工計算常取組數等于左右,一些統(tǒng)計軟件會根據樣本容量和樣本的取值范圍自動確定一個合適的分組方式,畫出各種漂亮的直方圖.第46頁,共58頁,2023年,2月20日,星期五【實驗6-1】從某高校一年學生的“高等數學”課程考試成績中,隨機抽取60名學生的成績如下:試利用Excel的“數據分析”功能作學生成績的密度直方圖,并通過直方圖了解學生成績的分布情況.7669717769718369858586777495668766516873776266739379638787548057727258767276697181756674606779638878857258906170776880796.1.3直方圖與經驗分布函數第47頁,共58頁,2023年,2月20日,星期五

實驗步驟:(1)確定分組個數:因為,取分組個數為8.數據的最小值為51,最大值為95,為分組方便起見,考慮范圍從50到100,分為8個組,組距取50/8=6.25,分點分別為:50,56.25,62.5,68.75,75,81.25,87.5,93.75,100。整理學生成績數據,在“組上限”欄中填入各組的上限值,如圖6-2左所示.第48頁,共58頁,2023年,2月20日,星期五

圖6-2數據整理與“直方圖”對話框第49頁,共58頁,2023年,2月20日,星期五

(2)在Excel主菜單中選擇“工具”“數據分析”,打開“數據分析”對話框,在“分析工具”列表中選擇“直方圖”選項,單擊“確定”按鈕.

(3)在打開的“直方圖”對話框中,依次輸入(或用鼠標拖動選擇)“輸入區(qū)域”、“接收區(qū)域”和“輸出區(qū)域”,如圖6-2右所示,單擊“確定”按鈕.得到頻率分布的結果如圖6-3左所示.第50頁,共58頁,2023年,2月20日,星期五

圖6-3計算各組頻率與密度第51頁,共58頁,2023年,2月20日,星期五

(4)計算密度:在單元格區(qū)域J2:J9中依次輸入組域名:50-56.25、56.25-62.5、62.5-68.75、68.75-75、75-81.25、81.25-87.5、87.5-93.75、93.75-100,然后在“密度”列的單元格K2中輸入公式:=I2/60/6.25,并將公式復制到K3~K9中,如圖6-3右所示.第52頁,共58頁,2023年,2月20日,星期五

(5)畫密度直方圖:選中單元格區(qū)域J1:K9,單擊“圖表向導”按鈕,打開“圖表向導”對話框.在“圖表類型”選擇中,取默認的“柱形圖”向導,直接單擊“完成”按鈕,即可得到密度柱形圖,如圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論