




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
重抽樣的自舉方法
1明確表達公式“獨立法案”是一種對樣本數(shù)據(jù)進行重新抽樣,創(chuàng)造一系列“新”樣本的方法。這也是現(xiàn)代統(tǒng)計學(xué)研究中應(yīng)用廣泛的一種重抽樣技術(shù)。設(shè)某總體具有參數(shù)θ=(θi)(i=1,2,…,p);現(xiàn)從中抽得1個容量為n的隨機樣本,其觀察值為Yj(j=1,2,…,n);根據(jù)Yj,經(jīng)過一定途徑(此途徑可以有明確的表達公式,也可以沒有;可簡也可繁)可得到估計數(shù)?θ=(?θi).現(xiàn)在要問:①這種估計θi的途徑是否有效?或者說?θi是否是θi的無偏估計?②?θi的分布如何?或者說?θi的標(biāo)準(zhǔn)誤(即?θi分布的標(biāo)準(zhǔn)差)及其對于θi的100(1-α)%置信區(qū)間是什么?這些問題,當(dāng)估計數(shù)?θi及?θi的標(biāo)準(zhǔn)誤不能直接從理論導(dǎo)出(即不能給出其數(shù)學(xué)期望)、?θi的分布為未知時(例如許多非線性統(tǒng)計數(shù)或表型相關(guān)系數(shù)、遺傳相關(guān)系數(shù)等),或者要把某一樣本結(jié)果與一定理論假設(shè)下的總體結(jié)果比較時(例如多正態(tài)混合分布下完全模型和縮簡模型的似然比測驗),將顯得特別重要.自舉法是近年發(fā)展起來的解決上述問題的一種較為有效的方法.它是從1個樣本的資料產(chǎn)生“新”的能夠代表被研究總體的多個樣本,從而模擬出?θi的分布,并得到其平均數(shù)和標(biāo)準(zhǔn)差.依賴于電子計算機的大容量和高效率,自舉抽樣程序已非常容易實現(xiàn).本文提出的是自舉抽樣的3種具體方法.2單變量獨立列出2.1自舉抽樣自舉統(tǒng)計數(shù)設(shè)1個樣本具變量Y1,Y2,…,Yn,用某種方法得到其對總體參數(shù)θi的估計值?θi.則在抽樣時,每一輪都要從這n個變量中抽取1個容量也是n的隨機樣本,并保證每一變量在每輪每次抽樣中的被抽取概率都是1/n(相當(dāng)于經(jīng)典方法的復(fù)置抽樣).此過程一般可用隨機數(shù)表或由計算機輸出n個0~1之間的隨機數(shù)實現(xiàn).即:先將樣本變量編碼為1,2,…,n;然后取分組距離1/n將區(qū)間分成n個互斥的分隔:0~1n,1n~2n,2n~3n,?,n-1n~1;(1)出現(xiàn)的隨機數(shù),凡在0~1n(低限用≤號,高限用<號,即0≤R<1n;下同)之間的取編碼“1”變量,凡在1n~2n之間的取編碼“2”變量,…,凡在n-1n~1之間的取編碼“n”變量.這就稱為自舉抽樣,由這n個“新”變量組成的樣本則稱為自舉樣本(bootstrapsample).當(dāng)對原始樣本變量重復(fù)進行m輪自舉抽樣,就得到m個容量均為n的自舉樣本.再對每一樣本都按照在原始樣本中所用的計求?θi的方法,求其統(tǒng)計數(shù)?θ′i,得到1個次數(shù)為m的?θ′i分布.這稱為自舉統(tǒng)計數(shù)?θ′i分布.由此分布,我們就可以研究?θi的基本性質(zhì),其最主要特征數(shù)是自舉平均數(shù)ˉθ′i(boostrapaverage)和自舉標(biāo)準(zhǔn)誤s?θ′i(boostrapstandarderror),定義為:ˉθ′i=m∑k=1?θ′ik/m,(2)s?θ′i=[m∑k=1(?θ′ik-ˉθ′i)2/(m-1)]1/2.(3)以上(3)式即?θ′i分布的標(biāo)準(zhǔn)差.不論?θ′i是什么樣的統(tǒng)計數(shù),自舉抽樣都能穩(wěn)健地提供它的平均數(shù)和標(biāo)準(zhǔn)誤估計.這是自舉法的一個重要特征和非凡功能.如果?θi能夠描述有關(guān)隨機變量的取值中心(即通常所說的“無偏估計”),則?θi和ˉθ′i之間的差異應(yīng)在誤差(標(biāo)準(zhǔn)誤)所許可的范圍內(nèi);如果?θi的標(biāo)準(zhǔn)誤為未知,則s?θ′i將是其最佳替代.一般為估計ˉθ′i和s?θ′i?m=100即可(這是在ˉθ′i和s?θ′i能相對穩(wěn)定的意義上而言的),不必大于200.但是,如果要了解?θ′i的較精確分布和對于θi的100(1-α)%置信區(qū)間,一般應(yīng)選m=1000.這時,在?θ′ik值從小到大的順序排列中,k=6,26和51的?θ′ik值依次為對于θi的置信系數(shù)為99%,95%和90%的區(qū)間低限;而k=995,975和950的?θ′ik值則依次為相應(yīng)的區(qū)間高限.它們與?θ′i的分布形狀(如是否左右對稱)無關(guān).2.2yj的統(tǒng)計方法10位因食用沙門氏菌污染食物而“中毒”的患者的潛伏期(?θi/h)列于表1列2.計算的統(tǒng)計數(shù)有:潛伏期的算術(shù)平均數(shù)?θ1,標(biāo)準(zhǔn)差?θ2,?θ1的標(biāo)準(zhǔn)誤?θ3,?θ2的標(biāo)準(zhǔn)誤?θ4.由于已知潛伏期資料多屬左偏分布,故又計算中位數(shù)?θ5(在偏態(tài)下以中位數(shù)描述變量中心常較算術(shù)平均數(shù)更為恰當(dāng),因為一組變量與其中位數(shù)離差的絕對值之和不大于它們與任何其他統(tǒng)計數(shù)離差的絕對值之和).其定義和結(jié)果為:?θ1=ˉy=n∑1Yj/n=260/10=26h,?θ2=s=[n∑1(Yj-ˉy)2/(n-1)]1/2=18.5h,?θ3=sˉy=s/√n=18.5/√10=5.85h,?θ4=ss=s/√2n=18.5/√20=4.14h,?θ5=Μd=(Y5+Y6)/2=(20+22)/2=21h.}(4)以上?θ3和?θ4是假設(shè)Yj的分布為正態(tài)的結(jié)果;?θ5中的Y5和Y6是Yj從小到大順序排列時j=5和6的變量.此例n=10,故根據(jù)(1)式,自舉隨機號的分組數(shù)列為0~0.1~0.2~0.3~0.4~0.5~0.6~0.7~0.8~0.9~1.0.其第1~3自舉樣本及其根據(jù)于(4)式的計算結(jié)果均列于表1.經(jīng)100次自舉抽樣后,各自舉統(tǒng)計數(shù)的變幅及根據(jù)(2)或(3)式算得的平均數(shù)、標(biāo)準(zhǔn)誤則列于表2.表1和表2的結(jié)果主要說明:1)ˉθ′i(表2)和?θi(表1)都有一定差異,但其最大差異都在±0.5個標(biāo)準(zhǔn)誤范圍內(nèi).例如對于ˉy是(26.0-25.01)/4.77=0.208,對于s是(18.5-16.46)/4.83=0.422.這表明不能否認各個?θi都是無偏估計數(shù).2)3個樣本平均數(shù)的標(biāo)準(zhǔn)誤(s)來自各不相同的定義:5.85是基于觀察樣本隨機抽自正態(tài)總體的假設(shè);4.77是自舉樣本平均數(shù)分布的標(biāo)準(zhǔn)誤;5.20是自舉樣本平均數(shù)標(biāo)準(zhǔn)誤的平均數(shù).其最大差異達到(5.85-4.77)/1.53=0.706個標(biāo)準(zhǔn)誤.而具有相應(yīng)定義的3個樣本標(biāo)準(zhǔn)差的標(biāo)準(zhǔn)誤(ss)4.14,4.83和3.68,其最大差異達到(4.83-3.68)/1.08=1.065個標(biāo)準(zhǔn)誤.它們雖然都未達到顯著水平,但與ˉθ′i和?θi相比,差異有擴大趨勢.這表明標(biāo)準(zhǔn)差有較大的抽樣變異.3)不論觀察樣本或自舉樣本,平均數(shù)ˉy都大于中位數(shù)Md.這表明表1的潛伏期資料是左偏分布.所以用21.47±5.16描述潛伏期(即有50%的沙門氏菌食物中毒患者是在取食后21.47h內(nèi)發(fā)病的,具標(biāo)準(zhǔn)誤5.16h)可能比算術(shù)平均數(shù)更恰當(dāng).3變量多態(tài)公示3.1自舉抽樣時的變量多變量自舉又稱成組自舉,它僅是單變量自舉的簡單推廣.設(shè)觀察資料為l個變數(shù)和每變數(shù)n個變量,每一變量可記為Xij(i=1,2,…,l;j=1,2,…,n).則在自舉抽樣時,1個隨機數(shù)或變量號是代表j=c(c為1,2,…,n中的某一指定值)時的一個變量組Xic,含l個變量;而每一自舉樣本則是由n組各含l個變數(shù)的1個變量組成.其余方法和步驟都和單變量自舉相同.3.2自舉隨機號a型表3的列2和3是水稻“揚糯5號”12個植株的基部第1拔長節(jié)間粗度(X1,長徑×短徑,mm2)和其穗部總粒數(shù)(X2)的觀察結(jié)果.求得X1和X2的相關(guān)系數(shù)r和X2依X1的回歸系數(shù)b為:?θ1=r=∑x1x2/√∑x21?∑x22=0.8144,?θ2=b=∑x1x2/∑x21=5.1217粒?mm-2.}(5)(5)中的x1=(X1-ˉx1)?x2=(X2-ˉx2).由于此例n=12,故自舉隨機號的分組數(shù)列為:(0~0.08˙3~0.16˙6~0.250~0.33˙3~0.41˙6~0.500~0.58˙3~0.66˙6~0.750~0.83˙3~0.91˙6~1.000).其第1、第2自舉樣本和根據(jù)(5)式算得的θ^′i也一并列于表3.這里可注意:通常的相關(guān)系數(shù)標(biāo)準(zhǔn)誤是在總體相關(guān)系數(shù)ρ=0的假設(shè)下給出的.此處r=0.8144,為極顯著,所以常規(guī)方法不能得到其標(biāo)準(zhǔn)誤.當(dāng)完成m=100次自舉抽樣,我們就有了r的抽樣分布;因而其平均數(shù)將是ρ≠0的數(shù)值估計,其標(biāo)準(zhǔn)差即是該相關(guān)系數(shù)的標(biāo)準(zhǔn)誤估計.4離開公職4.1離回歸自舉的工作模型上節(jié)的多變數(shù)自舉方法也完全適用于回歸問題,只要將l個變數(shù)中的1個(或幾個)變數(shù)以Yj表示.這時每一隨機號代表一個變量組Xic(i=1,2,…,l-1)+Yc.但據(jù)研究,純粹的回歸問題,即觀察變量能夠明確區(qū)分為自變數(shù)和依變數(shù)的問題,應(yīng)用離回歸自舉研究其統(tǒng)計數(shù)性質(zhì),可能都會比一般化的多變量自舉更好一些.因為自變數(shù)是固定的,理論上不存在隨機誤差.設(shè)有依變數(shù)Y和l個自變數(shù)Xi(i=1,2,…,l),則回歸分析的工作模型為:Yj=a+∑i=1lbiXij+ej(j=1,2,?,n).(6)如果記Y^j=a+∑i=1lbiXij,則有:ej=Yj-Y^j.(7)離回歸自舉就是1個隨機數(shù)代表1個離回歸值ej.每輪自舉抽樣都得到n個“新”的ej值(記為e*j);然后構(gòu)成Y*j:Yj*=Y^j+ej*;(8)并以Y*j為依變數(shù),Xij為自變數(shù)進行自舉樣本的回歸分析.這是Xij不變而Yj改變?yōu)閅*j的自舉抽樣.其余同前.MINITAB是此種抽樣分析的一個專用軟件.4.2y4.5.4.4.4.4.4.4合理的y統(tǒng)一雙軌道集中連接,把保證2.4.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7表4的列2和列3是歐洲10國鋼鐵業(yè)1974年(X)和1992年(Y)的雇員數(shù)(千人).由之可得到θ^1=a=2.8026?θ^2=b=0.333679和線性回歸方程Y^=2.8026+0.333679X,表明1992年的雇員數(shù)平均只有1974年雇員數(shù)的33.37%.根據(jù)Y^=2.8026+0.333679X,可得到Y(jié)^j值于表4列4,如Y^1=2.8026+0.333679×232=80.216?Y^2=2.8026+0.333679×96=34.836,?等.再根據(jù)(7)式可得到ej于表4列5,如e1=104-80.216=23.784,e2=50-34.836=15.164,…等.在抽取第1個自舉樣本時,由10個隨機數(shù)得出“新”的ej值,記為e*j;再根據(jù)(8)式得到10個Y*j.自舉樣本的回歸分析即依據(jù)Xj和Y*j.其余自舉樣本都可類推.此例在進行m=100次離回歸自舉后,所得結(jié)果列于表5.這里θ^1和θ^′1,θ^2和θ^′2均相當(dāng)吻合.用常規(guī)方法可算得觀察樣本的回歸截矩a和回歸系數(shù)b的標(biāo)準(zhǔn)誤為:sa=sY/X(1n+xˉ2∑x2)1/2=6.992,sb=sY/X/(∑x2)1/2=0.0593,與表5的sa=6.032,sb=0.0530亦相當(dāng)接近.5自析估計數(shù)的估計除自舉法外,還有一種曾經(jīng)有過較廣泛應(yīng)用的樣本重抽樣技術(shù),稱為自析法(Jackknifing).其基本概念最早由Quenouille提出.它是對樣本觀察值Y1,Y2,…,Yn每次順序剔除1個構(gòu)成一個自析樣本,從而可得到每樣本都具有n-1個觀察值的n個自析樣本.然后,按照在原始樣本中計求統(tǒng)計數(shù)θ^的方法,計求每一自析樣本的θ^i(i=1,2,?,n),得到其平均數(shù):θˉJ=∑i=1nθ^i/n,(9)再進一步算得自析估計數(shù)θ^J和θ^J的方差var(θ^J):θ^J=nθ^-(n-1)θˉJvar(θ^J)=(n-1)∑
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 化纖坯布采購合同范本
- 農(nóng)信社借款合同范本
- 出售液壓設(shè)備合同范本
- 產(chǎn)品貨物裝運合同范本
- 出讓生鮮小店合同范本
- 勞務(wù)合同范本字體
- 出口服裝合同范本
- 中介房產(chǎn)股合同范本
- 公司設(shè)計合同范本
- 乙方基坑支護合同范本
- DB43T 578-2016 銻冶煉砷堿渣無害化處理技術(shù)規(guī)范
- 醫(yī)院工程改造工程施工組織設(shè)計方案
- 英語人稱代詞和物主代詞練習(xí)題(附答案)
- 建筑與市政工程地下水控制技術(shù)規(guī)范 JGJ111-2016 培訓(xùn)
- 2024年汽車裝調(diào)工技能競賽理論考試題庫(含答案)
- (新版)區(qū)塊鏈應(yīng)用操作員職業(yè)技能競賽理論考試題庫-上(單選題)
- 生豬屠宰獸醫(yī)衛(wèi)生檢驗人員理論考試題庫及答案
- 《Windows server操作系統(tǒng)》Windows Server 2019全套教學(xué)課件
- 高中英語課程設(shè)計目的
- 2024-2025學(xué)年北京一零一中學(xué)初三期初測試數(shù)學(xué)試題含解析
- 2024年12月大學(xué)英語四級CET-4真題試卷
評論
0/150
提交評論