版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
./引言一般統(tǒng)計分析分為參數(shù)分析與非參數(shù)分析,參數(shù)分析是指,知道總體分布,但其中幾個參數(shù)的值未知,用統(tǒng)計量來估計參數(shù)值,但大部分情況,總體是未知的,這時候就不能用參數(shù)分析,如果強(qiáng)行用可能會出現(xiàn)錯誤的結(jié)果。例如:分析下面的供應(yīng)商的產(chǎn)品是否合格?合格產(chǎn)品的標(biāo)準(zhǔn)長度為〔8.50.1〕,隨即抽取n=100件零件,數(shù)據(jù)如下:表1.18.5038.5088.4988.3478.4948.5008.4988.5008.5028.5018.4918.5048.5028.5038.5018.5058.4928.4978.1508.4968.5018.4898.5068.4978.5058.5018.5008.4998.4908.4938.5018.4978.5018.4988.5038.5058.5108.4998.4898.4968.5008.5038.4978.5048.5038.5068.4978.5078.3468.3108.4898.4998.4928.4978.5068.5028.5058.4898.5038.4928.5018.4998.8048.5058.5048.4998.5068.4998.4938.4948.4908.5058.5118.5028.5058.5038.7828.5028.5098.4998.4988.4938.8978.5048.4938.4947.7808.5098.4998.5038.4948.5118.5018.4978.4938.5018.4958.4618.5048.691經(jīng)計算,平均長度為,非常接近中心位置8.5cm,樣本標(biāo)準(zhǔn)差為cm.一般產(chǎn)品的質(zhì)量服從正態(tài)分布,。這說明產(chǎn)品有接近三分之一不合格,三分之二合格,所以需要更換供應(yīng)廠商,而用非參數(shù)分析卻是另外一個結(jié)果。以下是100個零件長度的分布表:長度〔cm〕頻率〔%〕~8.4058.40~8.4608.46~8.4818.48~8.50458.50~8.52458.52~8.6008.60~4合計100這說明有90%的零件長度在cm之間,有9%的零件不合格,所以工廠不需要換供應(yīng)商。例2哪一個企業(yè)職工的工資高?表1.3兩個企業(yè)職工的工資企業(yè)1111213141516171819204060企業(yè)23456789103050顯然,企業(yè)1職工的工資高,倘若假設(shè)企業(yè)1與企業(yè)2的職工工資分別服從正態(tài)分布,則這兩個企業(yè)職工的工資比較問題就可以轉(zhuǎn)化為一個參數(shù)的假設(shè)檢驗問題,原假設(shè)為,備擇假設(shè)為則若為真,則其中拒絕域為:檢測值為:故不能拒絕原假設(shè),認(rèn)為兩企業(yè)的工資水平無差異。也可以用檢驗由于故不能拒絕原假設(shè),認(rèn)為兩企業(yè)的工資水平無差異。這里我們采用的顯著性水平為0.1.但這個統(tǒng)計結(jié)論與實際數(shù)據(jù)不相符合。主要是因為假設(shè)工資服從正態(tài)分布,這個假設(shè)是錯誤的,用錯誤的假設(shè)結(jié)合參數(shù)分析自然得出的結(jié)論不可靠。這時候有兩種方法處理,一種更換其他分布的假設(shè),二是用非參數(shù)數(shù)據(jù)的方法的分析。非參數(shù)統(tǒng)計如同光譜抗生素,應(yīng)用X圍十分廣泛。參數(shù)統(tǒng)計與非參數(shù)統(tǒng)計針對不同的情況提出的統(tǒng)計方法,它們各有優(yōu)缺點,互為補(bǔ)充。描述性統(tǒng)計§2.1表格法和圖形法表格法主要有列頻數(shù)分布表和頻率分布表例2.1某公司測試新燈絲的壽命,列表如下:10773689776799459985773815465718084799863656679866874618265986371621166479787977868976748573806878897258927888771038863688881647375906289717470856165617562947185848363926881找到最小值43,最大值116;將組數(shù)分為5~20組,,分16組,組距為5表2.2燈絲壽命的頻率分布表燈絲壽命〔小時〕個數(shù)頻率〔%〕40--4410.545--4910.550--5421.055--5984.060--642412.065--692814.070--743015.075--793417.080--842311.585--892211.090--94147.095--9984.0100--10431.5105--10910.5110--11400.0115--11910.5總和200100對應(yīng)的直方圖為:§2.2表格法和圖形法數(shù)值方法主要是用數(shù)值來表示數(shù)據(jù)的中心位置〔或者平均大小〕和離散程度等。135331323244列1平均2.833333標(biāo)準(zhǔn)誤差0.34451中位數(shù)3眾數(shù)3標(biāo)準(zhǔn)差1.193416方差1.424242峰度-0.20317偏度-0.00713區(qū)域4最小值1最大值5求和34觀測數(shù)12它的平均數(shù),中位數(shù),眾數(shù)差不多大。但大部分情況不是這樣的,例如:§表2.3某保險公司賠款樣本數(shù)據(jù)頻率分布表賠款數(shù)賠款次數(shù)0--4002400--80032800--1200241200--1600191600--2000102000--240062400--280032800--320023200--360013600--40001合計100平均數(shù),中位數(shù),眾數(shù)分別為:1224,1000,600,這三者相差較大。左峰的時候:眾數(shù)中位數(shù)平均數(shù),右峰的時候:平均數(shù)中位數(shù)眾數(shù)。平均數(shù)容易受到異常值的影響,故不能很好地代表中心位。例如某地農(nóng)戶收入增長了2.9%,但減收的農(nóng)戶卻是60%,為了更好地反映中心位,所以很多情況采用的切尾平均數(shù)。人們熟知的去掉最大值與最小值的平均數(shù)也是切尾平均數(shù)。§2.4經(jīng)濟(jì)專業(yè)畢業(yè)生的月收入數(shù)據(jù)畢業(yè)生月收入畢業(yè)生月收入118502195032050418805175061700718908213091940102340111920121880去掉最大值2340,最小值1700,的切尾平均數(shù)比總體平均數(shù)要小,它為1924,而總體平均數(shù)為1940.但中位數(shù)都一樣,均為1905,中位數(shù)表現(xiàn)了穩(wěn)定性。因此我們不僅用平均數(shù)表示中心位置,有時候也用中位數(shù)描述數(shù)據(jù)的中心位置。另外,眾數(shù)也能用來描述數(shù)據(jù)的中心位置,尤其是定性數(shù)據(jù)的中心位置,例如:§2.5有缺陷的小巧克力不合格品問題的頻數(shù)頻率分布表代碼問題頻數(shù)頻率〔%〕1外層不夠48652.832兩個粘在一起434.673被壓扁29532.074外層太多849.135破裂121.30這種情況下計算平均數(shù)和中位數(shù)沒有多大意義,相反眾數(shù)為1,眾數(shù)值得關(guān)注。一般情況,平均數(shù),中位數(shù),眾數(shù)應(yīng)該綜合考量,這三個數(shù)目,使得我們可以從不同角度表達(dá)數(shù)據(jù)的中心位置,給評估對象一個全面的評價,例如:某企業(yè)的職工收入的平均數(shù)為5700,元,中位數(shù)為3000元,眾數(shù)為2000元,這說明收入2000元的人最多,有一半職工低于3000元,有一半職工高于3000元,平均數(shù)5700大于中位數(shù),說明有些員工工資特別高。平均數(shù)與中位數(shù)為何可以表示數(shù)據(jù)的中心位置呢?主要是因為:〔2.1〕〔2.2〕這說明用不同的距離標(biāo)準(zhǔn)衡量,平均數(shù)與中位數(shù)到各點的距離最近。另外平均數(shù)的物理意義還有重心的意義,在重心位置,系統(tǒng)可以平衡,在圖2.8處,平均數(shù)為4,中位數(shù)為3,就意味著把樹木集中在3這點,所走的路最短。***********123456789中位數(shù)平均數(shù)§2.2.2表示離散程度的數(shù)值表示離散程度的數(shù)值一般有方差,四分位數(shù),而四分位數(shù)又分上四分位數(shù)與下四分位數(shù)。為表示數(shù)據(jù)的離散程度,我們一般用五個數(shù)概括,即最小值,下四分位數(shù),中位數(shù),上四分位數(shù),最大值,分別記為例如:將12名經(jīng)濟(jì)專業(yè)畢業(yè)生月收入數(shù)據(jù)處理結(jié)果如下:〔用Minitab〕數(shù)據(jù)容量N12平均數(shù)Mean1940中位數(shù)Median1905切尾平均數(shù)TrMean1924標(biāo)準(zhǔn)差StDev170.6標(biāo)準(zhǔn)誤SEMean49.3最小值Minimum1700最大值Maximum2340下四分位數(shù)1857.5上四分位數(shù)2025用統(tǒng)計軟件Minitab畫箱線圖〔見圖2.9〕圖2.9四分位數(shù)的計算分位數(shù)是將總體的全部數(shù)據(jù)按大小順序排列后,處于各等分位置的變量值.如果將全部數(shù)據(jù)分成相等的兩部分,它就是中位數(shù);如果分成四等分,就是四分位數(shù);八等分就是八分位數(shù)等.四分位數(shù)也稱為四分位點,它是將全部數(shù)據(jù)分成相等的四部分,其中每部分包括25%的數(shù)據(jù),處在各分位點的數(shù)值就是四分位數(shù).四分位數(shù)有三個,第一個四分位數(shù)就是通常所說的四分位數(shù),稱為下四分位數(shù),第二個四分位數(shù)就是中位數(shù),第三個四分位數(shù)稱為上四分位數(shù),分別用Q1、Q2、Q3表示.四分位數(shù)作為分位數(shù)的一種形式,在統(tǒng)計中有著十分重要的作用和意義,現(xiàn)就四分位數(shù)的計算做一詳細(xì)闡述.一、資料未分組四分位數(shù)計算第一步:確定四分位數(shù)的位置.Qi所在的位置=i〔n+1〕/4,其中i=1,2,3.n表示資料項數(shù).第二步:根據(jù)第一步四分位數(shù)的位置,計算相應(yīng)四分位數(shù).例1:某數(shù)學(xué)補(bǔ)習(xí)小組11人年齡〔歲〕為:17,19,22,24,25,28,34,35,36,37,38.則三個四分位數(shù)的位置分別為:Q1所在的位置=〔11+1〕/4=3,Q2所在的位置=2〔11+1〕/4=6,Q3所在的位置=3〔11+1〕/4=9.變量中的第三個、第六個和第九個人的歲數(shù)分別為下四分位數(shù)、中位數(shù)和上四分位數(shù),即:Q1=22〔歲〕、Q2=28〔歲〕、Q3=36〔歲〕我們不難發(fā)現(xiàn),在上例中〔n+1〕恰好是4的整數(shù)倍,但在很多實際工作中不一定都是整數(shù)倍.這樣四分位數(shù)的位置就帶有小數(shù),需要進(jìn)一步研究.帶有小數(shù)的位置與位置前后標(biāo)志值有一定的關(guān)系:四分位數(shù)是與該小數(shù)相鄰的兩個整數(shù)位置上的標(biāo)志值的平均數(shù),權(quán)數(shù)的大小取決于兩個整數(shù)位置的遠(yuǎn)近,距離越近,權(quán)數(shù)越大,距離越遠(yuǎn),權(quán)數(shù)越小,權(quán)數(shù)之和應(yīng)等于1.例2:設(shè)有一組經(jīng)過排序的數(shù)據(jù)為12,15,17,19,20,23,25,28,30,33,34,35,36,37,則三個四分位數(shù)的位置分別為:Q1所在的位置=〔14+1〕/4=3.75,Q2所在的位置=2〔14+1〕/4=7.5,Q3所在的位置=3〔14+1〕/4=11.25.變量中的第3.75項、第7.5項和第11.25項分別為下四分位數(shù)、中位數(shù)和上四分位數(shù),即:Q1=0.25×第三項+0.75×第四項=0.25×17+0.75×19=18.5;Q2=0.5×第七項+0.5×第八項=0.5×25+0.5×28=26.5;Q3=0.75×第十一項+0.25×第十二項=0.75×34+0.25×35=34.25.二、資料已整理分組的組距式數(shù)列四分位數(shù)計算第一步:向上或向下累計次數(shù)〔因篇幅限制,以下均采取向上累計次數(shù)方式計算〕;第二步:根據(jù)累計次數(shù)確定四分位數(shù)的位置:Q1的位置=〔∑f+1〕/4,Q2的位置=2〔∑f+1〕/4,Q3的位置=3〔∑f+1〕/4式中:∑f表示資料的總次數(shù);第三步:根據(jù)四分位數(shù)的位置計算各四分位數(shù)〔向上累計次數(shù),按照下限公式計算四分位數(shù)〕:Qi=Li+fi×di式中:Li——Qi所在組的下限,fi——Qi所在組的次數(shù),di——Qi所在組的組距;Qi-1——Qi所在組以前一組的累積次數(shù),∑f——總次數(shù).例3:某企業(yè)工人日產(chǎn)量的分組資料如下:根據(jù)上述資料確定四分位數(shù)步驟如下:〔1〕向上累計方式獲得四分位數(shù)位置:Q1的位置=〔∑f+1〕/4=〔164+1〕/4=41.25Q2的位置=2〔∑f+1〕/4=2〔164+1〕/4=82.5Q3的位置=3〔∑f+1〕/4=3〔164+1〕/4=123.75〔2〕可知Q1,Q2,Q3分別位于向上累計工人數(shù)的第三組、第四組和第五組,日產(chǎn)量四分位數(shù)具體為:Q1=L1+■×d1=70+■×10=72.49〔千克〕Q2=L2+■×d2=80+■×10=80.83〔千克〕Q3=L3+■×d3=90+■×10=90.96〔千克〕shitouwa43202014-10-23§2.2.3標(biāo)準(zhǔn)誤假設(shè)產(chǎn)生數(shù)據(jù)的總體的均值為,方差為。它們的估計分別為樣本平均值,樣本方差和樣本標(biāo)準(zhǔn)差,由于平均數(shù)的標(biāo)準(zhǔn)差為,所以它的估計取為,稱為標(biāo)準(zhǔn)誤。由得在顯著性水平0.95的條件下,得置信區(qū)間的端點即得.用Mintab計算得到:VariableNN*MeanSEMeanStDevMinimumQ1MedianQ3MaximumC11201940.049.3170.61700.01857.51905.02025.02340.0算得到所求置信區(qū)間為:用Excel計算得到:平均1940標(biāo)準(zhǔn)誤差49.25198中位數(shù)1905眾數(shù)1880標(biāo)準(zhǔn)差170.6139方差29109.09峰度1.874516偏度1.102987區(qū)域640最小值1700最大值2340求和23280觀測數(shù)12置信度<95.0%>108.4029所求置信區(qū)間為:兩款軟件計算結(jié)果相差不大。§2.2.4偏度偏度〔Skewness〕反應(yīng)單峰分布的對誠性,總體偏度用表示樣本偏見度用表示,國家標(biāo)準(zhǔn)的計算公式為:其中在Excel中的計算公式為:一般數(shù)據(jù)的分布是右偏的,數(shù)據(jù)的分布是左偏的,我們傾向于認(rèn)為總體的分布是對稱的?!?.2.4峰度峰度〔Kurtosis〕反映峰的尖峭程度,總體峰度用表示,總體的峰度的定義為〔國家標(biāo)準(zhǔn)〕樣本峰度用,國家標(biāo)準(zhǔn)的計算公式為由于正態(tài)分布的峰度系數(shù)為3,當(dāng)時為尖峰分布,當(dāng)時為扁平分布。第三章符號檢驗法符號檢驗是一種較為簡單的非參數(shù)檢驗,中位數(shù)檢驗是符號檢驗的一個重要應(yīng)用。例3.1某市勞動和社會保障部門的資料說明,1998年高級技師的年收入的中位數(shù)為21700元,該市某個行業(yè)有一個由50名高級技師組成的樣本,數(shù)據(jù)如下:230722437020327242962225619140256692240426744267442340620439248902481524556184722451422516251122348026552240741806422590原假設(shè)與備擇假設(shè)為:選擇統(tǒng)計量,即為大于中位數(shù)的的個數(shù),表示計數(shù),也可表示為:若為真,則而檢測值計算P值即檢測值落入拒絕域。故拒絕原假設(shè),接受備擇假設(shè)在excel中如何使用BINOMDIST函數(shù)返回一元二項式分布的概率值BINOMDIST函數(shù)用于返回一元二項式分布的概率值。函數(shù)語法語法形式BINOMDIST<number_s,trials,probability_s,cumulative>number_s:表示實驗成功的次救。trials:表示獨立實驗的次數(shù)。probability_s:表示一次實驗中成功的概率。cumulative:表示一邏輯值,決定函數(shù)的形式,如果cumulative為TRUE,函數(shù)BINOMDIST返回積累分布函數(shù),即至多number_s次成功的概率;如果為FALSE,返回概率密度函數(shù),即number_s次成功的概率。例如,拋硬幣正反面的概率是0.5若要計算出拋10次硬幣6次是正面的概率??梢允褂肂INOMDIST函數(shù)來實現(xiàn)。Step01選中C4單元格,在公式編輯欄中輸入公式:=BINOMDIST<A2,B2.C2,TRUE>按Enter鍵即可計算出積累分布函數(shù),即至多6次成功概率,如圖8-73所示。Step02選中C5單元格,在公式編輯欄中輸入公式:=BINOMDIST<A2,B2.C2.FALSE>按Enter鍵即可計算出概率密度函數(shù),即6次成功的概率,如圖8-74所示?!?.2符號檢驗在定性數(shù)據(jù)分析中的應(yīng)用有的時候,觀察值是一些定性數(shù)據(jù),如果定性數(shù)據(jù)僅取兩個值,就可以使用符號檢驗對它進(jìn)行統(tǒng)計分析。例3.2某項調(diào)查詢問了2000名年輕人。問題是:你認(rèn)為我們的生活環(huán)境是比過去更好,更差,還是沒有變化?有800人覺得"越來越好",有720人感覺一天不如一天,有400人表示沒有變化,還有80人說不知道,根據(jù)調(diào)查結(jié)果,你是否相信,在總體認(rèn)為我們的生活比過去更好的人,比認(rèn)為我們的生活比過去差的人多?解:原假設(shè)與備擇假設(shè)為選擇統(tǒng)計量,也可表示為:則由于n很大,所以可以近似認(rèn)為其中利用正態(tài)分布的計算結(jié)果修正后由于P值較小,所以我們認(rèn)為我們的生活環(huán)境變好了?!?.3成對數(shù)據(jù)的比較問題由于同一塊田的生長環(huán)境相同,不同的地生長環(huán)境各不相同,所以將這批數(shù)據(jù)寫成成對的形式。,為品種差,為隨機(jī)差。關(guān)于原點對稱的分布。由于都服從關(guān)于原點對稱的分布,〔同分布〕則所以關(guān)于原點對稱。其它分位點的檢驗以往的資料表明,某種圓鋼的90%的產(chǎn)品的硬度不小于103〔〕,為了檢驗這個結(jié)論是否屬實,現(xiàn)在隨機(jī)挑選20根圓鋼進(jìn)行硬度實驗,測得其硬度分別是:14213411998131102154122931378611916114415816581117128113問這批鋼材是否達(dá)標(biāo)?解:原假設(shè)與備擇假設(shè)為:選取統(tǒng)計量,若原假設(shè)成立,則檢測值,檢驗的P值為即檢測值落入拒絕域,故拒絕原假設(shè),接受備擇假設(shè)即產(chǎn)品不達(dá)標(biāo)。例7.6.4工廠有兩個化驗室,每天同時從工廠的冷卻水中取樣,測量水中的含氯量〔〕一次,記錄如下:i<實驗室A><實驗室B>差11.0310.0321.851.89-0.0430.740.9-0.1641.821.810.0151.141.2-0.0661.651.7-0.0571.921.94-0.0281.011.11-0.191.121.23-0.11100.90.97-0.07111.41.52-0.12問兩個化驗室測定的結(jié)果之間有無顯著性差異?解:設(shè)A,B實驗室的測量誤差分別為:并設(shè)的分布函數(shù)分別為。由于選取統(tǒng)計量原假設(shè)與備擇假設(shè)為:若為真,則在Z的分布關(guān)于原點對稱選取統(tǒng)計量即表示中正數(shù)的個數(shù)。檢驗值,檢驗的P值為:在顯著性水平為,檢測值未落入拒絕域,故接受原假設(shè),認(rèn)為兩個化驗室的檢測結(jié)果之間無顯著性差異。例7.6.5在某保險類中,一次20xx索賠數(shù)額的隨機(jī)抽樣為〔按照升序排列〕:4632472850525064548469727596948014760150121872021240228365278867200已知20xx索賠數(shù)額的中位數(shù)為5063元,問20xx索賠的中位數(shù)較上一年是否有所變化?解:這是一個雙側(cè)檢驗問題:原假設(shè)與備擇假設(shè)為:選取統(tǒng)計量顯著性水平。計算得:所以雙側(cè)拒絕域為:而檢測值,落入拒絕域.故拒絕原假設(shè),接受備擇假設(shè),即可以認(rèn)為20xx索賠的中位數(shù)較上一年有所變化。方法二:也可采用值檢驗檢驗的值為:故檢測值落入拒絕域,所以拒絕原假設(shè),接受備擇假設(shè),即可以認(rèn)為20xx索賠的中位數(shù)較上一年有所變化。例7.6.6.1984年一些國家每平方公里可開發(fā)的水資源數(shù)據(jù)如下表所示〔萬度/年〕國家每平方可開發(fā)水資源國家每平方可開發(fā)水資源蘇聯(lián)4.9印度8.5巴西4.1哥倫比亞26.3美國7.5日本34.9加拿大5.4阿根廷6.9扎伊爾28.1印度尼西亞7.9墨西哥4.9瑞士78.0瑞典22.3羅馬利亞10.1意大利16.8西德8.8奧地利58.6英國1.7南斯拉夫24.8法國11.5挪威37.4西班牙13.4而當(dāng)年中國的該項指標(biāo)為20萬度/年。請用符號檢驗方法檢驗:這22個國家每平方公里可開發(fā)的水資源的中位數(shù)不高于中國,求檢驗的P值,并寫出結(jié)論。解:原假設(shè)與備擇假設(shè)為:選取統(tǒng)計量,若原假設(shè)成立,則顯著性水平,查表得:右側(cè)拒絕域為:又檢測值或者檢測的P值為故接受,拒絕。即可認(rèn)為這22個國家可開發(fā)的水資源的中位數(shù)不高于中國。例7.6.7.下面是亞洲十個國家1996年的每1000個新生兒中的死亡數(shù)〔按從小到大的次序排列〕日本以色列韓國斯里蘭卡中國敘利亞伊朗印度孟加拉巴基斯坦46915233136657788以M表示1996年1000個新生兒中死亡數(shù)的中位數(shù),試檢驗:,求檢驗的P值,并寫完出結(jié)論。解:原假設(shè)與備擇假設(shè)為:選取統(tǒng)計量,若原假設(shè)成立,則顯著性水平,查表得:左側(cè)拒絕域為:又檢測值或者檢測的P值為故接受,拒絕。即可認(rèn)為1996年1000個新生兒中死亡數(shù)的中位數(shù)不低于34。例7.6.8.某煙廠稱其生產(chǎn)的每支香煙的尼古丁含量在12mg以下,實驗室測定的該煙廠的12支香煙的尼古丁含量〔單位:mg〕分別為:16.717.714.111.413.410.513.611.612.012.611.713.7問是否該廠所說的尼古丁含量比實際要少?求檢驗的P值,并寫出結(jié)論。由于對于非正態(tài)總體,小樣本場合不能用樣本均值檢驗,所以下面采用中位數(shù)檢驗。解:原假設(shè)與備擇假設(shè)為:選取統(tǒng)計量,若原假設(shè)成立,則顯著性水平,查表得:右側(cè)拒絕域為:又檢測值或者檢測的P值為故接受,拒絕。即可認(rèn)為該廠的尼古丁含量比實際含量要少。第四章符號秩和檢驗法§4.1對稱中心為原點的檢驗問題設(shè)對稱中心為,則原假設(shè)與備擇假設(shè)分別為:引入符號檢驗統(tǒng)計量為:將排序。設(shè)的秩為引入符號秩和檢驗統(tǒng)計量為:表4.110個觀察值和它們的符號,絕對值和絕對值的秩觀察值-7.6-5.54.32.7-4.82.1-1.2-6.6-3.3-8.5符號絕對值7.65.54.32.74.82.11.26.63.38.5絕對值的秩97536218410,下面討論符號秩和檢驗的檢驗方法,原假設(shè)與備擇假設(shè)為:如果,則對于任意的正數(shù)a,即此時較大,為檢驗的臨界值為原假設(shè)與備擇假設(shè)為:此時此時較小,為檢驗的臨界值為原假設(shè)與備擇假設(shè)為:我們在較大或者較小的時候拒絕原假設(shè),檢驗的臨界值,為§4.2符號秩和檢驗統(tǒng)計量的性質(zhì)性質(zhì)4.1令,則在總體的分布關(guān)于原點0對稱時,與同分布:表4.110個觀察值和它們的符號,絕對值和絕對值的秩觀察值-7.6-5.54.32.7-4.82.1-1.2-6.6-3.3-8.5符號絕對值7.65.54.32.74.82.11.26.63.38.5絕對值的秩97536218410表4.310個觀察值和它們的符號,絕對值和絕對值的秩觀察值-1.22.12.7-3.34.3-4.8-5.5-6.6-7.6-8.5符號絕對值1.22.12.73.34.34.85.56.67.68.5絕對值的秩97536218410,這樣就初步說明了性質(zhì)4.1的概率分布,在總體關(guān)于原點0分布時,相互獨立,同分布,且所以是離散的分布,它的取值X圍是,且〔4.1〕其中表示從中取若干個,其和恰好為d的取法數(shù),例如:。,,性質(zhì)4.2在總體的分布關(guān)于原點0對稱時,與同分布:所以的分布〔4.2〕于是這說明的密度是以中心對稱的。性質(zhì)4.3在總體的分布關(guān)于原點0對稱時,的分布的對稱中心為:例4.1有12個工人,每個工人用兩種生產(chǎn)方式完成一項生產(chǎn)任務(wù),所用時間對比如下表所示:表4.4用兩種方式完成一項生產(chǎn)任務(wù)的完工時間與其差值工人方式1方式2差值工人方式1方式2差值120.318.02.3716.117.2-1.1223.521.71.8818.514.93.6322.022.5-0.5921.920.01.9419.117.02.11024.221.13.1521.021.2-0.21123.422.70.7624.724.8-0.11225.023.71.3表4.5差值的符號,絕對值與絕對值的秩工人差值符號差的絕對值絕對值的秩工人差值符號差的絕對值絕對值的秩12.32.3107-1.11.1521.81.8783.63.6123-0.50.5391.91.9842.12.19103.13.1115-0.20.22110.70.746-0.10.11121.31.36符號秩和統(tǒng)計量原假設(shè)與備擇假設(shè)為我們在較大或者較小的時候拒絕原假設(shè)由于而檢測值既有故檢測值落入拒絕域所以拒絕原假設(shè),接受備擇假設(shè)即認(rèn)為兩種生產(chǎn)方法有差異,方法1不如方法2,方法1需要更多的時間。例:7.6.99名學(xué)生到英語培訓(xùn)學(xué)習(xí),培訓(xùn)前后各進(jìn)行了一次水平測驗,成績?nèi)缦拢簩W(xué)生編號i123456789入學(xué)前成績767170574969652659入學(xué)后成績818570525263833362-5-1405-36-18-7-3假設(shè)測驗成績服從正態(tài)分布,問學(xué)生的培訓(xùn)效果是否顯著?不假定總體分布,采用符號檢驗的方法檢驗學(xué)生的培訓(xùn)效果是否顯著?采用符號秩和檢驗方法檢驗學(xué)生的培訓(xùn)效果是否顯著,三種檢驗方法結(jié)論是否相同?解:〔1〕由于測驗成績符合正態(tài)分布,而未知,所以我們采用原假設(shè)與備擇假設(shè)為:由于未知,所以我們選取統(tǒng)計量顯著性水平左側(cè)拒絕域為.而檢測值另一方面也可以用P-值也可判斷檢測值不在拒絕域。檢驗的P值.故檢測值.故接受,拒絕,即認(rèn)為培訓(xùn)效果不明顯?!?〕原假設(shè)與備擇假設(shè)為:選取符號檢驗統(tǒng)計量:則這里顯著性水平查表得所以左側(cè)拒絕域為而檢測值.另一方面也可以用P-值也可判斷檢測值不在拒絕域。檢驗的P值.故檢測值.故接受,拒絕,即認(rèn)為培訓(xùn)效果不明顯?!?〕原假設(shè)與備擇假設(shè)為:選取統(tǒng)計量.這里顯著性水平查表計算得:滿足,右側(cè)臨界點為37,由于密度的對稱中心為,所以左側(cè)臨界點為左側(cè)拒絕域為.而檢測值故接受,拒絕,即認(rèn)為培訓(xùn)效果不明顯.7.6.10為了比較來做鞋子的兩種材料的質(zhì)量,選取15個男子,每人穿一雙新鞋,其中一只是以材料A做后跟,另外一只是以材料B做后跟,其厚度均為10mm,過一個月再測量厚度,數(shù)據(jù)如下:序號123456789101112131415材料A6.67.08.38.25.29.37.98.57.87.56.18.96.19.49.1材料B7.45.48.88.06.89.16.37.57.06.54.47.74.29.49.1問是否可以認(rèn)為材料A制成的鞋子比材料B耐穿?設(shè)來自正態(tài)總體,結(jié)論是什么?采用符號秩和檢驗,結(jié)論是什么?解:〔1〕由于符合正態(tài)分布,而未知,所以我們采用原假設(shè)與備擇假設(shè)為:由于未知,所以我們選取統(tǒng)計量顯著性水平右側(cè)拒絕域為.而檢測值另一方面也可以用P-值也可判斷檢測值在拒絕域。檢驗的P值.故檢測值.故拒絕,接受,即認(rèn)為材料A制成的鞋后跟比材料B耐穿?!?〕原假設(shè)與備擇假設(shè)為:選取統(tǒng)計量.這里顯著性水平查表計算得:滿足,右側(cè)臨界點為90。右側(cè)拒絕域為.而檢測值故拒絕,接受,即認(rèn)為材料A制成的鞋后跟比材料B耐穿。7.6.11某飲料商用兩種不同的配方推出兩種新的飲料,現(xiàn)在調(diào)查10位消費(fèi)者,他們對兩種飲料的評分如下:品嘗者12345678910A飲料10868751397B飲料6522464578問兩種飲料評分是否有顯著性差異?采用符號檢驗法作檢驗;采用符號秩和檢驗法作檢驗.解:<1>解:原假設(shè)與備擇假設(shè)為:選取統(tǒng)計量即為更喜歡A飲料的人數(shù),若原假設(shè)成立,則計算得:所以雙側(cè)拒絕域為:檢測值,檢驗的P值為即檢測值未落入拒絕域,故接受,拒絕。即認(rèn)為兩種飲料的評分沒有顯著性差異。〔2〕原假設(shè)與備擇假設(shè)為:選取統(tǒng)計量.這里顯著性水平查表計算得:滿足,右側(cè)臨界點為47,則左側(cè)臨界點為雙側(cè)拒絕域為.而檢測值故接受,拒絕,即認(rèn)為兩種飲料的評分沒有顯著性差異。7.6.12測試精神壓力和沒有精神壓力的血壓差別,10個志愿者進(jìn)行了相應(yīng)的實驗,數(shù)據(jù)如下〔單位:毫米汞柱收縮壓〕:無精神壓力時107108122119116118121111114108有精神壓力時127119123113125132121131116124該數(shù)據(jù)是否表明有精神壓力的情況下的血壓是否有所增加?解:采用符號秩和檢驗原假設(shè)與備擇假設(shè)為:其中為總體密度函數(shù)的對稱中心,選取統(tǒng)計量.這里顯著性水平查表計算得:滿足,右側(cè)臨界點為45,則左側(cè)臨界點為左側(cè)拒絕域為.而檢測值故拒絕,接受,即認(rèn)為有精神壓力導(dǎo)致血壓增加?!?.3符號秩和檢驗統(tǒng)計量的漸近正態(tài)性期望與方差在總體的分布關(guān)于原點o對稱時,相互獨立,每一個的分布都是。而,則它的期望與方差分別為:由于與有相同的分布,所以<2>漸近正態(tài)性性質(zhì)4.5如果總體關(guān)于原點對稱,則在樣本容量n趨于無窮大時,有漸近正態(tài)性:或者簡記為.§4.4平均秩法平均秩的基本定義:即對于相同的樣本取平均秩。每個元素賦予平均秩為:平均時的秩和與平方和為非平均的時候秩和與平方和為<4.8>與〔4.10〕結(jié)果一樣。由〔4.11〕減去〔4.9〕得到于是由〔4.11〕與〔4.12〕得:性質(zhì)4.6在總體的分布關(guān)于原點o對稱,有結(jié)秩取平均時,在有結(jié)的情況下,如果總體關(guān)于原點對稱,則在樣本容量n趨于無窮大時,有漸近正態(tài)性:嚴(yán)格上以上期望與方差是在有結(jié)的情況下的計算結(jié)果,所以嚴(yán)格書寫應(yīng)該按照以下方式:§4.5對稱中心的檢驗問題有以下幾種情形:原假設(shè)與備擇假設(shè)為例4.5:通常認(rèn)為人在放松條件下入睡的時間比緊X狀態(tài)下的入睡時間要少兩分鐘,現(xiàn)在有十名男性,他們在放松下與緊X狀態(tài)下的入睡時間分別為,,表4.10顯示10個差值8個小與-2,只有2個不小于-2,所以我們有理由猜測放松狀態(tài)下比非放松狀態(tài)下入睡時間要少2分鐘,這個猜測是否正確?表4.10成年人在放松的條件下和沒有放松的條件下入睡所需的時間研究對象i放松條件非放松條件差值差值+2絕對值秩11015-5-3372912-3-11331222-10-88104815-7-5595910-111367702267816-6-4488710-3-11391114-3-1131069-3-113符號秩和檢測值為原假設(shè)與備擇假設(shè)為左側(cè)拒絕域為.而檢測值故拒絕,接受,即認(rèn)為成年男性在放松條件下入睡的時間比緊X狀態(tài)下入睡時間要少于2分鐘。由于樣本容量n足夠大的時候,有漸近正態(tài)性,所以也可以用正態(tài)分布作檢測。原假設(shè)與備擇假設(shè)為在為真的時,即檢測值為:檢測p值為所以在顯著性水平為0.05下,檢測值落入拒絕域故拒絕,接受,即認(rèn)為成年男性在放松條件下入睡的時間比緊X狀態(tài)下入睡時間要少于2分鐘。第五章兩樣本問題§5.1Mood中位數(shù)檢驗法例2哪一個企業(yè)職工的工資高?表1.3兩個企業(yè)職工的工資企業(yè)1111213141516171819204060企業(yè)23456789103050他們的合樣本為其中帶表示企業(yè)2的職工的工資,其他的為企業(yè)1的工資,合樣本的中位數(shù)為13.5,將以上數(shù)據(jù)轉(zhuǎn)化為四表格表5.1四格表工資<13.5千元工資>13.5千元合計企業(yè)1企業(yè)2合計,這說明服從超幾何分布設(shè)總體的的中位數(shù)分別為原假設(shè)與備擇假設(shè)為在成立的情況下,服從超幾何分布這是一個單側(cè)檢驗問題,拒絕域在左邊.檢測值為,檢測P值為所以檢測值落入拒絕域,故拒絕,接受,即認(rèn)為企業(yè)1的職工比企業(yè)2的職工的工資要高?!?.2Wilcoxon秩和檢驗法設(shè)有獨立同分布的樣本,不妨設(shè)總體是連續(xù)的隨機(jī)變量,從而可以以概率為1保證樣本單元互不相等,則單個的秩服從均勻分布:由以上結(jié)論,我們可以得出定理5.1對任意的都有證明:對于任意的,都有定理5.2對于任意的,都有證明:對于任意的,都有于是所以5.22秩和檢驗的求解過程例1.2將兩個企業(yè)22名職工合在一起,從小到大排序得到下表:工資秩1234567891011工資秩1213141516171819202122帶表示企業(yè)2的工資,不帶表示企業(yè)1的工資.考慮到人數(shù)多的檢驗效果一樣,所以一般我們選擇人數(shù)少的企業(yè)的秩和作檢驗。設(shè)公司1與公司2的中位數(shù)分別為原假設(shè)與備擇假設(shè)為選取統(tǒng)計量,這里代表公司2的員工工資的秩和。這是一個單側(cè)檢驗問題,拒絕域在左邊.查表得:所以檢測p值故檢測值在拒絕域,所以拒絕原假設(shè),接受備擇假設(shè),即認(rèn)為企業(yè)2的工資比企業(yè)1要低.§5.3Wilcoxon秩和檢驗統(tǒng)計量的性質(zhì)假設(shè)樣本和分別來自相互獨立的連續(xù)隨機(jī)變量總體,不妨設(shè)合樣本各元素互不相同,樣本容量為,原假設(shè).記在合樣本中的秩為。在原假設(shè)為真的條件下,服從均勻分布:所以記的樣本的秩和為下面討論Wilcoxon秩和統(tǒng)計量的分布性質(zhì)它依次取由于服從均勻分布:所以具有以下性質(zhì)性質(zhì)5.1設(shè)原假設(shè)成立,的概率分布和累積概率分別為為從取n數(shù),其和恰好為d的取法數(shù)。從中任取10個數(shù),其和恰好為d的取法故故故故故對稱性假設(shè)從中取出n個數(shù),其和為d,則剩下的數(shù),其和為,故和為d的取法數(shù)與和為的取法數(shù)一樣多。從而故概率密度的對稱軸為.從而有性質(zhì)5.2在原假設(shè)為真的條件下,概率密度的對稱軸為.由定理5.1和5.2知由于在原假設(shè)為真的條件下,當(dāng)時,有漸進(jìn)正態(tài)性.由以上分析,有以下結(jié)論.性質(zhì)5.4在原假設(shè)為真的條件下,當(dāng)時,有§5.2.4Wilcoxon秩和檢驗的備擇假設(shè)原假設(shè)與備擇假設(shè)為在成立的條件下,的值較小.在成立的條件下,的值較大.在成立的條件下,的值可能較小也可能較大.§5.2.5Wilcoxon秩和檢驗的平均秩法對于任意的記分函數(shù),我們有定理5.6設(shè)有獨立的隨機(jī)變量,,則對于任意的,都有證明:又故定理5.7設(shè)樣本和分別來自相互獨立的連續(xù)型隨機(jī)變量總體和.令,記在合樣本中的秩為設(shè)有計分函數(shù),則在和同分布時,有利用證明。針對有結(jié)的情況下,在下,由〔4.13〕〔4.14〕于是〔5.4〕〔5.5〕〔5.6〕在有結(jié)的情況下,wilcoxon秩和檢驗統(tǒng)計量的期望與方差分別為由以上結(jié)論,有例5.2.5為了比較兩種型號的汽車每加侖汽油的行駛里程,合樣本中的秩見表如下:第一種型號汽油第二種型號汽油汽車行駛里程〔英里〕秩序汽車行駛里程〔英里〕秩序120.621121.324219.916217.64318.68317.43418.911418.57518.89.5519.713620.218621.123721.022717.32820.519.5818.89.5919.814.5917.851019.814.51016.911119.2121118.061220.519.51220.117解;原假設(shè)與備擇假設(shè)為選取統(tǒng)計量則檢測值這是一個雙側(cè)檢驗問題,拒絕域在兩側(cè)檢測P值故檢測值落入拒絕域,所以拒絕原假設(shè),接受備擇假設(shè),即對于每加侖汽油汽車行駛的里程數(shù)不相同,而且認(rèn)為對于每加侖汽油,第一種汽油行駛的里程數(shù)大。§5.2.5Wilcoxon秩和處理位置參數(shù)差的檢驗問題原假設(shè)與備擇假設(shè)為原假設(shè)與備擇假設(shè)為以上檢測均可用Wilcoxon秩和處理.注明:課本74-77的Mann-WhitneyU統(tǒng)計量檢驗法與Wilcoxon檢驗法類似,因為兩種檢測統(tǒng)計量只相差一個常數(shù),故檢測模式類似,這里就不做詳細(xì)介紹.§5.4兩樣本尺度參數(shù)的秩檢驗法設(shè)的分布函數(shù)分別為,則,成立的充分必要條件證明:充分性證明.由知,對于任意的都有必要性的證明.若對任意都有,則由于的分布函數(shù)所以.當(dāng)時即即由以上式子知:在左右兩邊的尾部概率比要大.即樣本傾向于排兩邊,樣本傾向于排中間。類似的當(dāng)時,既有由以上式子知:在左右兩邊的尾部概率比要小.即樣本傾向于排中間,樣本傾向于排兩邊。§5.4.2尺度參數(shù)檢驗問題Mood檢驗取計分函數(shù)為單谷函數(shù),〔2〕Ansari-Bradley檢驗取計分函數(shù)為單峰函數(shù),即在時,即在時,例如時123456781234432112345678912
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度智能農(nóng)業(yè)農(nóng)藥化肥供應(yīng)及服務(wù)合同3篇
- 2025年度年度城市經(jīng)濟(jì)適用房購置合同3篇
- 2025年度股東借款及股權(quán)激勵計劃合同3篇
- 2025年農(nóng)村個人承包土地經(jīng)營權(quán)與農(nóng)村信息化建設(shè)合同3篇
- 二零二五年度農(nóng)業(yè)機(jī)械租賃與農(nóng)業(yè)人才培養(yǎng)合作合同3篇
- 二零二五年度醫(yī)療耗材研發(fā)與創(chuàng)新合作合同3篇
- 二零二五年度合伙經(jīng)營中式快餐店合同書2篇
- 個人承包城市照明設(shè)施維護(hù)2025年度合同3篇
- 2025年度綠色生態(tài)豬肉直供基地合作協(xié)議合同3篇
- 公墓墓位買賣及墓園墓碑售后服務(wù)保障協(xié)議3篇
- 2025年中國社會科學(xué)院外國文學(xué)研究所專業(yè)技術(shù)人員招聘3人歷年高頻重點提升(共500題)附帶答案詳解
- 【9歷期末】安徽省淮北市2023-2024學(xué)年九年級上學(xué)期期末歷史試題
- 2024年度物流園區(qū)運(yùn)營承包合同范本3篇
- 第五單元第四節(jié) 全球發(fā)展與合作 教學(xué)實錄-2024-2025學(xué)年粵人版地理七年級上冊
- 貴州省部分學(xué)校2024-2025學(xué)年高三年級上冊10月聯(lián)考 化學(xué)試卷
- 期末綜合試卷(試題)2024-2025學(xué)年人教版數(shù)學(xué)五年級上冊(含答案)
- 2024-2025學(xué)年上學(xué)期武漢小學(xué)語文六年級期末模擬試卷
- 2023-2024學(xué)年貴州省貴陽外國語實驗中學(xué)八年級(上)期末數(shù)學(xué)試卷(含答案)
- 廣東省廣州市越秀區(qū)2022-2023學(xué)年八年級上學(xué)期期末歷史試題(含答案)
- 《爭做文明班級》課件
- 遼寧省大連市沙河口區(qū)2022-2023學(xué)年八年級上學(xué)期物理期末試卷(含答案)
評論
0/150
提交評論