版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
實(shí)驗(yàn)九數(shù)據(jù)統(tǒng)計(jì)的有關(guān)計(jì)算數(shù)理統(tǒng)計(jì)研究的對(duì)象是受隨機(jī)因素影響的數(shù)據(jù),數(shù)理統(tǒng)計(jì)是以概率論為基礎(chǔ)的一門應(yīng)用學(xué)科。數(shù)據(jù)樣本少則幾個(gè),多則成千上萬,人們希望能用少數(shù)幾個(gè)包含其最多相關(guān)信息的數(shù)值來體現(xiàn)數(shù)據(jù)樣本總體的規(guī)律。描述性統(tǒng)計(jì)就是搜集、整理、加工和分析統(tǒng)計(jì)數(shù)據(jù),使之系統(tǒng)化、條理化,以顯示出數(shù)據(jù)資料的趨勢、特征和數(shù)量關(guān)系。它是統(tǒng)計(jì)推斷的基礎(chǔ),實(shí)用性較強(qiáng),在統(tǒng)計(jì)工作中經(jīng)常使用。面對(duì)一批數(shù)據(jù)如何進(jìn)行描述與分析,需要掌握參數(shù)估計(jì)和假設(shè)檢驗(yàn)這兩個(gè)數(shù)理統(tǒng)計(jì)的最基本方法。1統(tǒng)計(jì)的基本概念1.1總體和樣本總體是人們研究對(duì)象的全體,又稱母體,如工廠一天生產(chǎn)的全部產(chǎn)品(按合格品及廢品分類),學(xué)校全體學(xué)生的身高??傮w中的每一個(gè)基本單位稱為個(gè)體,個(gè)體的特征用一個(gè)變量(如^)來表示,如一件產(chǎn)品是合格品記X=0,是廢品記X=1;一個(gè)身高170(cm)的學(xué)生記x=170。從總體中隨機(jī)產(chǎn)生的若干個(gè)個(gè)體的集合稱為樣本,或子樣,如〃件產(chǎn)品,100名學(xué)生的身高,或者一根軸直徑的10次測量。實(shí)際上這就是從總體中隨機(jī)取得的一批數(shù)據(jù),不妨記作氣,七'七,n稱為樣本容量。簡單地說,統(tǒng)計(jì)的任務(wù)是由樣本推斷總體。1.2頻數(shù)表和直方圖一組數(shù)據(jù)(樣本)往往是雜亂無章的,作出它的頻數(shù)表和直方圖,可以看作是對(duì)這組數(shù)據(jù)的一個(gè)初步整理和直觀描述。將數(shù)據(jù)的取值范圍劃分為若干個(gè)區(qū)間,然后統(tǒng)計(jì)這組數(shù)據(jù)在每個(gè)區(qū)間中出現(xiàn)的次數(shù),稱為頻數(shù),由此得到一個(gè)頻數(shù)表。以數(shù)據(jù)的取值為橫坐標(biāo),頻數(shù)為縱坐標(biāo),畫出一個(gè)階梯形的圖,稱為直方圖或頻數(shù)分布圖。若樣本容量不大,能夠手工作出頻數(shù)表和直方圖,當(dāng)樣本容量較大時(shí)則可以借助Matlab這樣的軟件了。讓我們以下面的例子為例,介紹頻數(shù)表和直方圖的作法。例1學(xué)生的身高和體重學(xué)校隨機(jī)抽取100名學(xué)生,測量他們的身高和體重,所得數(shù)據(jù)如表身高體重身高體重身高體重身高體重身高體重17275169551696417165167471716216867165521696216865166621686516459170581656416055175671737417264168571555717664172691695817657173581685016952167721705716655161491735717576158511706316963173611645916562167531716116670166631725317360178641635716954169661786017766170561675416958173731705816065179621725016347173671655817663162521656617259177661826917575170601706216963186771746616350172591766016676167631725717758177671697216650182631766817256173591746417159175681655616965168621776418470166491717117059(=1\*romani)數(shù)據(jù)輸入數(shù)據(jù)輸入通常有兩種方法,一種是在交互環(huán)境中直接輸入,如果在統(tǒng)計(jì)中數(shù)據(jù)量比較大,這樣作不太方便;另一種辦法是先把數(shù)據(jù)寫入一個(gè)純文本數(shù)據(jù)文件data.txt中,格式如例1的表格,有20行、10列,數(shù)據(jù)列之間用空格鍵或Tab鍵分割,該數(shù)據(jù)文件data.txt存放在matlab\work子目錄下,在Matlab中用load命令讀入數(shù)據(jù),具體作法是:loaddata.txt這樣在內(nèi)存中建立了一個(gè)變量data,它是一個(gè)包含有2010個(gè)數(shù)據(jù)的矩陣。為了得到我們需要的100個(gè)身高和體重各為一列的矩陣,應(yīng)做如下的改變:high=data(:,1:2:9);high=high(:)weight=data(:,2:2:10);weight=weight(:)(=2\*romanii)作頻數(shù)表及直方圖用hist命令實(shí)現(xiàn),其用法是:[N,X]=hist(Y,M)數(shù)組(行、列均可)Y的頻數(shù)表。它將區(qū)間[min(Y),max(Y)]等分為M份(缺省時(shí)M設(shè)定為10),N返回M個(gè)小區(qū)間的頻數(shù),X返回M個(gè)小區(qū)間的中點(diǎn)。hist(Y,M)數(shù)組Y的直方圖。對(duì)于例1的數(shù)據(jù),編寫程序如下:loaddata.txt;high=data(:,1:2:9);high=high(:);weight=data(:,2:2:10);weight=weight(:);[n1,x1]=hist(high)[n2,x2]=hist(weight)subplot(1,2,1)hist(high)subplot(1,2,2)hist(weight)計(jì)算結(jié)果略,直方圖如下圖所示:
150 160 170 180 19040 50 60 70 80150 160 170 180 19040 50 60 70 80從直方圖上可以看出,身高的分布大致呈中間高、兩端低的鐘形;而體重則看不出什么規(guī)律。要想從數(shù)值上給出更確切的描述,需要進(jìn)一步研究反映數(shù)據(jù)特征的所謂“統(tǒng)計(jì)量”。直方圖所展示的身高的分布形狀可看作正態(tài)分布,當(dāng)然也可以用這組數(shù)據(jù)對(duì)分布作假設(shè)檢驗(yàn)。1.3統(tǒng)計(jì)量假設(shè)看一個(gè)容量為n的樣本(朗一組數(shù)據(jù))記作x=(x"氣,…,x)需要對(duì)它進(jìn)行一假設(shè)有1容量為的樣本(即組數(shù)據(jù)),記IF 12n,需要對(duì)匕進(jìn)行定的加工,才能提出有用的信息,用作對(duì)總體(分布)參數(shù)的估計(jì)和檢驗(yàn)。統(tǒng)計(jì)量就是加工出來的、反映樣本數(shù)量特征的函數(shù),它不含任何未知量。下面我們介紹幾種常用的統(tǒng)計(jì)量。(=1\*romani)表示位置的統(tǒng)計(jì)量一算術(shù)平均值和中位數(shù)算術(shù)平均值(簡稱均值)描述數(shù)據(jù)取值的平均位置,記作亍,_ 1寸x-Ex(2)((2)(1)i=1中位數(shù)是將數(shù)據(jù)由小到大排序后位于中間位置的那個(gè)數(shù)值。Matlab中mean(x)返回x的均值,median(x)返回中位數(shù)。(=2\*romanii)表示變異程度的統(tǒng)計(jì)量一標(biāo)準(zhǔn)差、方差和極差標(biāo)準(zhǔn)差S定義為E(X-x)2n-1ii=1它是各個(gè)數(shù)據(jù)與均值偏離程度的度量,這種偏離不妨稱為變異。方差是標(biāo)準(zhǔn)差的平方技?!鯺辛BX(X,X,..?,X)陋旦估旦,1、估丹半極差是12n的最大值與最小值之差。Matlab中std(x)返回x的標(biāo)準(zhǔn)差,var(x)返回方差,range(x)返回極差。你可能注意到標(biāo)準(zhǔn)差s的定義(2)中,對(duì)n個(gè)(Xi—x)的平方求和,卻被(n-1)除,這是出于無偏估計(jì)的要求。若需要改為被n除,Matlab可用std(x,1)和var(x,1)來實(shí)現(xiàn)。(=3\*romaniii)中心矩、表示分布形狀的統(tǒng)計(jì)量一偏度和峰度隨機(jī)變量X的〃階中心矩為E(X—EX)'。
隨機(jī)變量x的偏度和峰度指的是x的標(biāo)準(zhǔn)化變量(*—E"DD的三階中心矩和四階中心矩:—J「D-e(D)tL或-e(d)*IV廣EI^JD(x^Jl=(D(D)'、4)、4)4](D(D)》偏度反映分布的對(duì)稱性,Vi>0稱為右偏態(tài),此時(shí)數(shù)據(jù)位于均值右邊的比位于左邊的多;Vi<0稱為左偏態(tài),情況相反;而〃i接近0則可認(rèn)為分布是對(duì)稱的。峰度是分布形狀的另一種度量,正態(tài)分布的峰度為3,若〃2比3大得多,表示分布有沉重的尾巴,說明樣本中含有較多遠(yuǎn)離均值的數(shù)據(jù),因而峰度可以用作衡量偏離正態(tài)分布的尺度之一。Matlab中moment(x,order)返回x的order階中心矩,order為中心矩的階數(shù)。skewness(x)返回x的偏度,kurtosis(x)返回峰度。在以上用Matlab計(jì)算各個(gè)統(tǒng)計(jì)量的命令中,若x為矩陣,則作用于x的列,返回一個(gè)行向量。對(duì)例1給出的學(xué)生身高和體重,用Matlab計(jì)算這些統(tǒng)計(jì)量,程序如下:clcloaddata.txt;high=data(:,1:2:9);high=high(:);weight=data(:,2:2:10);weight=weight(:);shuju=[highweight];jun_zhi=mean([highweight])zhong_wei_shu=median(shuju)biao_zhun_cha=std(shuju)ji_cha=range(shuju)pian_du=skewness(shuju)feng_du=kurtosis(shuju)統(tǒng)計(jì)量中最重要、最常用的是均值和標(biāo)準(zhǔn)差,由于樣本是隨機(jī)變量,它們作為樣本的函數(shù)自然也是隨機(jī)變量,當(dāng)用它們?nèi)ネ茢嗫傮w時(shí),有多大的可靠性就與統(tǒng)計(jì)量的概率分布有關(guān),因此我們需要知道幾個(gè)重要分布的簡單性質(zhì)。1.4統(tǒng)計(jì)中幾個(gè)重要的概率分布1.4.1分布函數(shù)、密度函數(shù)和分位數(shù)隨機(jī)變量的特性完全由它的(概率)分布函數(shù)或(概率)密度函數(shù)來描述。設(shè)有隨機(jī)變量X,其分布函數(shù)定義為XJD的概率,即F(D)=P{X-D}。若X是連續(xù)型隨機(jī)變量,則其密度函數(shù)p(D)與F(D)的關(guān)系為F(x)=jxp(x)dx—8 .分位數(shù)是下面常用的一個(gè)概念,其定義為:對(duì)于0〈aV1,使某分布函數(shù)F(x)=□的X,成為這個(gè)分布的a分位數(shù),記作"a。我們前面畫過的直方圖是頻數(shù)分布圖,頻數(shù)除以樣本容量",稱為頻率,n充分大時(shí)頻率是概率的近似,因此直方圖可以看作密度函數(shù)圖形的(離散化)近似。1.4.2統(tǒng)計(jì)中幾個(gè)重要的概率分布(=1\*romani)正態(tài)分布正態(tài)分布隨機(jī)變量X的密度函數(shù)曲線呈中間高兩邊低、對(duì)稱的鐘形,期望(均值)EX=R,方差DX,記作X~N(口q2)/稱均方差或標(biāo)準(zhǔn)差,當(dāng)四=°,"=1時(shí)稱為標(biāo)準(zhǔn)正態(tài)分布,記作X~N(°,1)。正態(tài)分布完全由均值H和方差"2決定,它的偏度為0,峰度為3。正態(tài)分布可以說是最常見的(連續(xù)型)概率分布,成批生產(chǎn)時(shí)零件的尺寸,射擊中彈著點(diǎn)的位置,儀器反復(fù)量測的結(jié)果,自然界中一種生物的數(shù)量特征等,多數(shù)情況下都服從正態(tài)分布,這不僅是觀察和經(jīng)驗(yàn)的總結(jié),而且有著深刻的理論依據(jù),即在大量相互獨(dú)立的、作用差不多大的隨機(jī)因素影響下形成的隨機(jī)變量,其極限分布為正態(tài)分布。鑒于正態(tài)分布的隨機(jī)變量在實(shí)際生活中如此地常見,記住下面3個(gè)數(shù)字是有用的:68%的數(shù)值落在距均值左右1個(gè)標(biāo)準(zhǔn)差的范圍內(nèi),即P{^—"<X<日+b}=0.68;95%的數(shù)值落在距均值左右2個(gè)標(biāo)準(zhǔn)差的范圍內(nèi),即尸{日一2"<X<日+2"}=0.95;99.7%的數(shù)值落在距均值左右3個(gè)標(biāo)準(zhǔn)差的范圍內(nèi),即尸山一3"<X<日+3"}=0.997.(=2\*romanii)*2分布(Chisquare)若X1,X2,,X為相互獨(dú)立的、服從標(biāo)準(zhǔn)正態(tài)分布N(0,1)的隨機(jī)變量,則它們的平方Y(jié)=/X2和頃’服從*2分布,記作Y~*2(n),n稱自由度,它的期望EY=n,方差DY=2n。(=3\*romaniii)'分布若X~N(0,1),Y~*2(n),且相互獨(dú)立,則vY/n服從t分布,記作b~t(n),n稱自由度。t分布又稱學(xué)生氏(Student)分布。t分布的密度函數(shù)曲線和N(0,1)曲線形狀相似。理論上nT8時(shí),T~'(n)TN(0,1),實(shí)際上當(dāng)n>30時(shí)它與N(0,1)就相差無幾了。(=4\*romaniv)F分布F="若X?X2(ni),Y-X2(n2),且相互獨(dú)立,則 Y/n2服從F分布,記作F~F(n,n) (n,n'等、1 2, 1 2稱口田度。1.4.3Matlab統(tǒng)計(jì)工具箱(Toolbox'Stats)1中的概率分布Matlab統(tǒng)計(jì)工具箱中有20種概率分布,這里只對(duì)上面所述4種分布列出命令的字符:norm正態(tài)分布;chi2X之分布;t'分布 fF分布工具箱對(duì)每一種分布都提供5類函數(shù),其命令的字符是:pdf概率密度;cdf分布函數(shù);inv分布函數(shù)的反函數(shù);stat均值與方差;rnd隨機(jī)數(shù)生成當(dāng)需要一種分布的某一類函數(shù)時(shí),將以上所列的分布命令字符與函數(shù)命令字符接起來,并輸入自變量(可以是標(biāo)量、數(shù)組或矩陣)和參數(shù)就行了,如:p=normpdf(x,mu,sigma)均值mu、標(biāo)準(zhǔn)差sigma的正態(tài)分布在*的密度函數(shù)(mu=0,sigma=1時(shí)可缺省)。p=tcdf(x,n)'分布(自由度n)在x的分布函數(shù)。x=chi2inv(p,n)X2分布(自由度n)使分布函數(shù)F(x)=p的x(即p分位數(shù))。[m,v]=fstat(n1,n2)F分布(自由度n1,n2)的均值m和方差v。幾個(gè)分布的密度函數(shù)圖形就可以用這些命令作出,如:x=6:0.01:6y=normpdf(x)z=normpdf(x,0,2)plot(x,y,x,z),gtext('N(0,1)'),gtext('N(0,2八2)')分布函數(shù)的反函數(shù)的意義從下例看出:x=chi2inv(0.9,10)x=15.9872如果反過來計(jì)算,則P=chi2cdf(15.9872,10)P=0.90001.5正態(tài)總體統(tǒng)計(jì)量的分布用樣本來推斷總體,需要知道樣本統(tǒng)計(jì)量的分布,而樣本又是一組與總體同分布的隨機(jī)變量,所以樣本統(tǒng)計(jì)量的分布依賴于總體的分布。當(dāng)總體服從一般的分布時(shí),求某個(gè)樣本統(tǒng)計(jì)量的分布是很困難的,只有在總體服從正態(tài)分布時(shí),一些重要的樣本統(tǒng)計(jì)量(均值、標(biāo)準(zhǔn)差)的分布才有便于使用的結(jié)果。另一方面,現(xiàn)實(shí)生活中需要進(jìn)行統(tǒng)計(jì)推斷的總體,多數(shù)可以認(rèn)為服從(或近似服從)正態(tài)分布,所以統(tǒng)計(jì)中人們在正態(tài)總體的假定下研究統(tǒng)計(jì)量的分布,是必要的與合理的。
X~^N(ILA,b2)X,X,,x日n S設(shè)總體 '),12 n為一谷量n的樣本,其均值X和標(biāo)準(zhǔn)差S由式(1)、(2)確定,則用X和s構(gòu)造的下面幾個(gè)分布在統(tǒng)計(jì)中是非常有用的。x?N(A,胃) ?N(0,1)n或b/*n(n-1)s2?12(n-1).b2二?t(n-1)s/5(3)(4)(5)確定的均值X'、和標(biāo)準(zhǔn)差I(lǐng)'S2,則(七叩-(y-叩?n(0,1)Jb2/n+b2/n(x-叩-(y-七)?(3)(4)(5)確定的均值X'、和標(biāo)準(zhǔn)差I(lǐng)'S2,則(七叩-(y-叩?n(0,1)Jb2/n+b2/n(x-叩-(y-七)?t(n*n-2)^s2/n+s2/n1 2s2其中(n—1)s2+(n—1)s2
―1 1 2 3-n+n—2s2/b2s2/b2?F(n1-1,n2-1)(6)(7)(8)對(duì)于(7)式,假定b1=b2,但它們未知,于是用’代替。在下面的統(tǒng)計(jì)推斷中我們要反復(fù)用到這些分布。2參數(shù)估計(jì)利用樣本對(duì)總體進(jìn)行統(tǒng)計(jì)推斷的一類問題是參數(shù)估計(jì),即假定已知總體的分布,通常是X?N(A,b2),估計(jì)參數(shù)的分布,如A,b2。參數(shù)估計(jì)分點(diǎn)估計(jì)和區(qū)間估計(jì)兩種。2.1點(diǎn)估計(jì)點(diǎn)估計(jì)是用樣本統(tǒng)計(jì)量確定總體參數(shù)的一個(gè)數(shù)值。評(píng)價(jià)估計(jì)優(yōu)劣的標(biāo)準(zhǔn)有無偏性、最小方差性、有效性等,估計(jì)的方法有矩法、極大似然法等。最常用的是對(duì)總體均值A(chǔ)和b2方差(或標(biāo)準(zhǔn)差b)作點(diǎn)估計(jì)。讓我們暫時(shí)拋開評(píng)價(jià)標(biāo)準(zhǔn),當(dāng)從一個(gè)樣本按照式(1)、(2)算出樣本均值X和方差s2后,對(duì)A和b2(或b)個(gè)自然、合理的點(diǎn)估計(jì)顯然是(在字母上加”表示它的估計(jì)值)
R=R=Xb2=S2 b=S,,(9)2.2區(qū)間估計(jì)點(diǎn)估計(jì)雖然給出了待估參數(shù)的一個(gè)數(shù)值,卻沒有告訴我們這個(gè)估計(jì)值的精度和可信程度。一般地,總體的待估參數(shù)記作0(如p,b2),由樣本算出的0的估計(jì)量記作0,人們常希望給出一個(gè)區(qū)間[常希望給出一個(gè)區(qū)間[01,62],使0以一定的概率落在此區(qū)間內(nèi)。若有P{0P{0<0<0}=1—a120<a<1(10)E>t[^^.0] I—-*>、—f0.0八r.i-Cf,、t,,,,—I~*rm-Ti-i,,,,rn1—fV-f-r.、r,,,,inn*>-t、則L1,2」稱為的直信區(qū)間,1,2分別稱為直信下限和直信上限,1頃稱為直信概率或置信水平,a稱為顯著性水平。給出的置信水平為】—a的置信區(qū)間[01,02],稱為0的區(qū)間估計(jì)。置信區(qū)間越小,估計(jì)的精度越高;置信水平越大,估計(jì)的可信程度越高。但是這兩個(gè)指標(biāo)顯然是矛盾的,通常是在一定的置信水平下使置信區(qū)間盡量小。通俗地說,區(qū)間估計(jì)給出了點(diǎn)估計(jì)的誤差范圍。2.3參數(shù)估計(jì)的Matlab實(shí)現(xiàn)Matlab統(tǒng)計(jì)工具箱中,有專門計(jì)算總體均值、標(biāo)準(zhǔn)差的點(diǎn)估計(jì)和區(qū)間估計(jì)的函數(shù)。對(duì)于正態(tài)總體,命令是[mu,sigma,muci,sigmaci]=normfit(x,alpha)其中X為樣本(數(shù)組或矩陣),alpha為顯著性水平a(alpha缺省時(shí)設(shè)定為0.05),返回總體均值^和標(biāo)準(zhǔn)差b的點(diǎn)估計(jì)mu和sigma,及總體均值R和標(biāo)準(zhǔn)差Q的區(qū)間估計(jì)muci和sigmaci。當(dāng)x為矩陣時(shí)返回行向量。Matlab統(tǒng)計(jì)工具箱中還提供了一些具有特定分布總體的區(qū)間估計(jì)的命令,如expfit,poissfit,gamfit,你可以從這些字頭猜出它們用于哪個(gè)分布,具體用法參見幫助系統(tǒng)。3假設(shè)檢驗(yàn)統(tǒng)計(jì)推斷的另一類重要問題是假設(shè)檢驗(yàn)問題。在總體的分布函數(shù)完全未知或只知其形式但不知其參數(shù)的情況,為了推斷總體的某些性質(zhì),提出某些關(guān)于總體的假設(shè)。例如,提出總體服從泊松分布的假設(shè),又如對(duì)于正態(tài)總體提出數(shù)學(xué)期望等于"0的假設(shè)等。假設(shè)檢驗(yàn)就是根據(jù)樣本對(duì)所提出的假設(shè)做出判斷:是接受還是拒絕。這就是所謂的假設(shè)檢驗(yàn)問題。3.1單個(gè)總體N(呻2)均值R的檢驗(yàn)原假設(shè)(或零假設(shè))為:H0:p=p0。備選假設(shè)有三種可能:H:^袂H:p>pH:p<pb2已知,關(guān)于^的檢驗(yàn)(u檢驗(yàn))在Matlab中u檢驗(yàn)法由函數(shù)ztest來實(shí)現(xiàn),命令為[h,p,ci]=ztest(x,mu,sigma,alpha,tail)其中輸入?yún)?shù)X是樣本,mu是H0中的四0,sigma是總體標(biāo)準(zhǔn)差Q,alpha是顯著性水平a(alpha缺省時(shí)設(shè)定為0.05),tail是對(duì)備選假設(shè)H1的選擇:H1為*'*°時(shí)用tail=0(可缺?。籋1為*>*0時(shí)用tail=1;H1為*<*0時(shí)用tail=-1。輸出參數(shù)h=0表示接受Ho,h=1表示拒絕H0,p表示在假設(shè)H0下樣本均值出現(xiàn)的概率,p越小H0越值得懷疑,ci是*0的置信區(qū)間。例3某車間用一臺(tái)包裝機(jī)包裝糖果。包得的袋裝糖重是一個(gè)隨機(jī)變量,它服從正態(tài)分布。當(dāng)機(jī)器正常時(shí),其均值為0.5公斤,標(biāo)準(zhǔn)差為0.015公斤。某日開工后為檢驗(yàn)包裝機(jī)是否正常,隨機(jī)地抽取它所包裝的糖9袋,稱得凈重為(公斤):0.497 0.506 0.518 0.524 0.498 0.5110.5200.5150.512問機(jī)器是否正常?解總體^已知,*~N(*°0152),*未知。于是提出假設(shè)H0:*=*0=°?5和H:*。0.5Matlab實(shí)現(xiàn)如下:x=[0.497 0.506 0.518 0.524 0.49...0.511 0.520 0.515 0.512];[h,p,ci]=ztest(x,0.5,0.015)求得h=1,p=0.0248,說明在0.05的水平下,可拒絕原假設(shè),即認(rèn)為這天包裝機(jī)工作不正常。G2未知,關(guān)于*的檢驗(yàn)('檢驗(yàn))在Matlab中*檢驗(yàn)法由函數(shù)ttest來實(shí)現(xiàn),命令為[h,p,ci]=ttest(x,mu,alpha,tail)例4某種電子元件的壽命*(以小時(shí)計(jì))服從正態(tài)分布,*,C2均未知.現(xiàn)得16只元件的壽命如下:159 280 101 212 224 379 179 264222 362 168 250 149 260 485 170問是否有理由認(rèn)為元件的平均壽命大于225(小時(shí))?解按題意需檢驗(yàn)H:*<*=225,H:*>225取a=0.05。Matlab實(shí)現(xiàn)如下:x=[159 280 101 212 224 379 179 264...222 362 168 250 149 260 485 170];[h,p,ci]=ttest(x,225,0.05,1)求得h=0,p=0.2570,說明在顯著水平為0.05的情況下,不能拒絕原假設(shè),認(rèn)為元件
的平均壽命不大于225小時(shí)。3.2兩個(gè)正態(tài)總體均值差的檢驗(yàn)('檢驗(yàn))還可以用*檢驗(yàn)法檢驗(yàn)具有相同方差的2個(gè)正態(tài)總體均值差的假設(shè)。在Matlab中由函數(shù)ttest2實(shí)現(xiàn),命令為:[h,p,ci]=ttest2(x,y,alpha,tail)與上面的ttest相比,不同處只在于輸入的是兩個(gè)樣本x,y(長度不一定相同),而不是一個(gè)樣本和它的總體均值;tail的用法與ttest相似,可參看幫助系統(tǒng)。例5在平爐上進(jìn)行一項(xiàng)試驗(yàn)以確定改變操作方法的建議是否會(huì)增加鋼的得率,試驗(yàn)是在同一平爐上進(jìn)行的。每煉一爐鋼時(shí)除操作方法外,其它條件都可能做到相同。先用標(biāo)準(zhǔn)方法煉一爐,然后用建議的新方法煉一爐,以后交換進(jìn)行,各煉了10爐,其得率分別為1°標(biāo)準(zhǔn)方法 78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.6 76.7 77.32°新方法 79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1'FL、~V~rr*人I-It-t->—- v,_L,、, i—r 八rt,[ 人-w/J..N( LA ,b2)HrtN( LA ,b2) LA , LA ,b2it-.-I—dz設(shè)這兩個(gè)樣本相互獨(dú)立且分別來自正態(tài)總體V1,'和V2, ,「2,均未知,問建議的新方法能否提高得率?(取以=0.05。)解(=1\*romani)需要檢驗(yàn)假設(shè)H:A-A=0H:A-a<0TOC\o"1-5"\h\z0 1 2 , 1 1 2(=2\*romanii)Matlab實(shí)現(xiàn)77.3];82.1];77.3];82.1];y=[79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2[h,p,ci]=ttest2(x,y,0.05,-1)求得h=1,p=2.2126X10-4表明在以=0.05的顯著水平下,可以拒絕原假設(shè),即認(rèn)為建議的新操作方法較原方法優(yōu)。3.3分布擬合檢驗(yàn)在實(shí)際問題中,有時(shí)不能預(yù)知總體服從什么類型的分布,這時(shí)就需要根據(jù)樣本來檢驗(yàn)關(guān)于分布的假設(shè)。下面介紹Z2檢驗(yàn)法和專用于檢驗(yàn)分布是否為正態(tài)的“偏峰、峰度檢驗(yàn)法”。*2檢驗(yàn)法氣:總體%的分布函數(shù)為F(X),H1:總體x的分布函數(shù)不是F(x).在用下述*2檢驗(yàn)法檢驗(yàn)假設(shè)H0時(shí),若在假設(shè)H0下F(X)的形式已知,但其參數(shù)值未知,這時(shí)需要先用極大似然估計(jì)法估計(jì)參數(shù),然后作檢驗(yàn)。*2檢驗(yàn)法的基本思想如下:將隨機(jī)試驗(yàn)可能結(jié)果的全體Q分為k個(gè)互不相容的事件A,A,A,…,A(F=d1氣=①,,主j」,j= ,k h12 3k i=1 。于是在假設(shè)0卜,我們可
― A\ △A/A\ . . A r/-以計(jì)算p—P(A)(或p—P(A))i-1,2,k在n次試驗(yàn)中事件A出現(xiàn)的頻率fn以計(jì)算I I(或I I), 。在次試驗(yàn)中,事I十I出現(xiàn)的頻率I與Pi(Pi)往往有差異,但一般來說,若H0為真,且試驗(yàn)的次數(shù)又甚多時(shí),則這種差異不應(yīng)該很大。基于這種想法,皮爾遜使用Z2=Z( 竺)2i=1 nPir2k(fi~npi)2Z2=Z( 竺)2i=1 nPii=1 nPi(11)1J(11)H作為檢驗(yàn)假設(shè)"0的統(tǒng)計(jì)量。并證明了以下定理。定理若n充分大,則當(dāng)H0為真時(shí)(不論H0中的分布屬什么分布),統(tǒng)計(jì)量(11)總是近似地服從自由度為k-r-1的Z2分布,其中r是被估計(jì)的參數(shù)的個(gè)數(shù)。于是,若在假設(shè)H0下算得(11)有Z2>Z2(k-r-1),在顯著性水平口下拒絕H0,否則就接受。注意:在使用Z2檢驗(yàn)法時(shí),要求樣本容量n不小于50,以及每個(gè)nPi都不小于5,而且理i最好是在5以上。否則應(yīng)適當(dāng)?shù)睾喜i,以滿足這個(gè)要求。例6下面列出了84個(gè)伊特拉斯坎(Etruscan)人男子的頭顱的最大寬度(mm),試檢驗(yàn)這些數(shù)據(jù)是否來自正態(tài)總體(取以=0.1)。141148132138154142150146155158150140147148144150149145149158143141144144126140144142141140145135147146141136140146142137148154137139143140131143141149148135148152143144141143147146150132142142143153149146149138142149142137134144146147140142140137152145解編寫Matlab程序如下:clcx=[141148 132 138154142150 146 155 15.150140147148144150149145149 15...143141144144126140144142141 14...145135147146141136140146142 13...148154137139143140131143141 14...
14813514815214314414114314714...15013214214214315314914614913...14214914213713414414614714014...140137152145];%求數(shù)據(jù)中的最小數(shù)和最大數(shù)%畫直方圖min(x),max(x)hist(x,8)fi=[length(find(x<135)),...length(find(x>=135&x<138)),length(find(x>=138&x<142)),length(find(x>=142&x<146)),length(find(x>=146&x<150)),length(find(x>=150&x<154)),length(find(x>=154))]mu=mean(x),sigma=std(x)fendian=[135,138,142,146,150,154]p0=normcdf(fendian,mu,sigma)p1=diff(p0)p=[p0(1),p1,1-p0(6)]chi=(fi-84*p).八%求數(shù)據(jù)中的最小數(shù)和最大數(shù)%畫直方圖min(x),max(x)hist(x,8)fi=[length(find(x<135)),...length(find(x>=135&x<138)),length(find(x>=138&x<142)),length(find(x>=142&x<146)),length(find(x>=146&x<150)),length(find(x>=150&x<154)),length(find(x>=154))]mu=mean(x),sigma=std(x)fendian=[135,138,142,146,150,154]p0=normcdf(fendian,mu,sigma)p1=diff(p0)p=[p0(1),p1,1-p0(6)]chi=(fi-84*p).八2./(84*p)chisum=sum(chi)xa=chi2inv(0.9,4)珞區(qū)間上出現(xiàn)的頻數(shù)%均值和標(biāo)準(zhǔn)差%區(qū)間的分點(diǎn)汾點(diǎn)處分布函數(shù)的值%中間各區(qū)間的概率%所有區(qū)間的概率%皮爾遜統(tǒng)計(jì)量的值%chi2分布的0.9分位數(shù)求得皮爾遜統(tǒng)計(jì)量chisum=1.9723, 0.1 )^0.1 . ,故在水平0.1下接受H0,即認(rèn)為數(shù)據(jù)來自正態(tài)分布總體。3.3.2偏度、峰度檢驗(yàn)(留作習(xí)題1)3.4其它非參數(shù)檢驗(yàn)Matlab還提供了一些非參數(shù)方法。Wilcoxon秩和檢驗(yàn)在Matlab中,秩和檢驗(yàn)由函數(shù)ranksum實(shí)現(xiàn)。命令為:[p,h]=ranksum(x,y,alpha)其中x,y可為不等長向量,alpha為給定的顯著水平,它必須為0和1之間的數(shù)量。p返回產(chǎn)生兩獨(dú)立樣本的總體是否相同的顯著性概率,h返回假設(shè)檢驗(yàn)的結(jié)果。如果x和y的總體差別不顯著,則h為零;如果x和y的總體差別顯著,則h為1。如果p接近于零,則可對(duì)原假設(shè)質(zhì)疑。例7某商店為了確定向公司A或公司B購買某種產(chǎn)品,將4B公司以往各次進(jìn)貨的次品率進(jìn)行比較,數(shù)據(jù)如下所示,設(shè)兩樣本獨(dú)立。問兩公司的商品的質(zhì)量有無顯
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《裝修流程圖課件》課件
- 2024年度國際貿(mào)易貨物包裝與標(biāo)識(shí)合同范本6篇
- 《兒少與教育》課件
- 2024年旅游業(yè)務(wù)合作經(jīng)營合同
- 四川省達(dá)州市第一中學(xué)2023-2024學(xué)年八年級(jí)上學(xué)期第一次月考地理試題
- 高績效團(tuán)隊(duì)建設(shè)培訓(xùn)教學(xué)課件模板-基層主管管理技能課程
- 城南密封-課件o形橡膠密封圈概述
- 材料化學(xué)課件范文
- 2024年板材銷售租賃合同3篇
- 2024年度沙漠治理用沙子銷售與采購協(xié)議3篇
- 《負(fù)荊請(qǐng)罪》改成劇本
- 廣西民族大學(xué)?;招?biāo)
- 車輛駕駛員管理臺(tái)帳
- DBJ50T-123-2020 建筑護(hù)欄技術(shù)標(biāo)準(zhǔn)
- 2021知到答案【音樂的美及其鑒賞】智慧樹網(wǎng)課章節(jié)測試答案
- 小學(xué)足球課時(shí)教案:足球隊(duì)訓(xùn)練計(jì)劃
- 流感疫苗PPT課件
- 招投標(biāo)法律責(zé)任知識(shí)講解(PPT講稿)
- 硅酸鹽水泥熟料礦物組成及其配料計(jì)教案
- 契稅補(bǔ)貼申請(qǐng)表
- 螺旋千斤頂課程設(shè)計(jì)說明書
評(píng)論
0/150
提交評(píng)論