《統(tǒng)計(jì)分析軟件:使用R與Python》 課件 第5章- R 語(yǔ)言隨機(jī)抽樣和隨機(jī)數(shù)_第1頁(yè)
《統(tǒng)計(jì)分析軟件:使用R與Python》 課件 第5章- R 語(yǔ)言隨機(jī)抽樣和隨機(jī)數(shù)_第2頁(yè)
《統(tǒng)計(jì)分析軟件:使用R與Python》 課件 第5章- R 語(yǔ)言隨機(jī)抽樣和隨機(jī)數(shù)_第3頁(yè)
《統(tǒng)計(jì)分析軟件:使用R與Python》 課件 第5章- R 語(yǔ)言隨機(jī)抽樣和隨機(jī)數(shù)_第4頁(yè)
《統(tǒng)計(jì)分析軟件:使用R與Python》 課件 第5章- R 語(yǔ)言隨機(jī)抽樣和隨機(jī)數(shù)_第5頁(yè)
已閱讀5頁(yè),還剩45頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

5.1隨機(jī)變量分布5.2隨機(jī)抽樣5.3生成已知分布的隨機(jī)數(shù)5.4隨機(jī)數(shù)的應(yīng)用第5章R語(yǔ)言隨機(jī)抽樣和隨機(jī)數(shù)R語(yǔ)言隨機(jī)抽樣和隨機(jī)數(shù)隨機(jī)變量分布

離散變量、連續(xù)變量及其分布生成已知分布的隨機(jī)數(shù)利用現(xiàn)有R函數(shù)、逆變換法、舍選法隨機(jī)數(shù)的應(yīng)用隨機(jī)抽樣簡(jiǎn)單隨機(jī)抽樣、分層抽樣、整群抽樣5.1隨機(jī)變量分布數(shù)據(jù)的數(shù)字特征刻劃了數(shù)據(jù)的主要特征,而要對(duì)數(shù)據(jù)的總體情況作全面的描述,就要研究數(shù)據(jù)的分布.常見(jiàn)的離散型分布有:兩點(diǎn)分布、二項(xiàng)分布和Poisson分布等.常見(jiàn)的連續(xù)型分布均勻分布、正態(tài)分布、指數(shù)分布、χ2分布、t分布和F分布等.在R軟件中,提供了計(jì)算典型分布的分布函數(shù)、分布律或概率密度函數(shù),以及分布函數(shù)的反函數(shù)的函數(shù).分布R名稱自變量binomialB(n,p)binom(size,prob)Poissonπ(λ)pois(lambda)GeometricGeo(p)geom(prob)hypergeometrichyper(N,m,n)

H(N,m,n)negativebinomialnbinom(size,prob)NB(r,p)multinomialmultinom(size,prob)離散型隨機(jī)變量及其分布uniformU(a,b)unif(min,max)Gaussian(normal)N(μ,

2)norm(mean,sd)ExponentialE(λ)

exp(rate)gammaГ(λ,β)gamma(shape,scale)BetaBe((a,b)beta(shape1,shape2,ncp)‘Student’

t(n)t(df,ncp)Fisher–SnedecorF(n1,n2)f(df1,df2,ncp)Pearsonχ2(n)chisq(df,ncp)Weibullrweibull(shape,scale)Cauchycauchy(location,scale)InversegammaInvgamma(shape,scale)Logisticlogis(location,scale)Log-normallnorm(meanlog,sdlog)分布R函數(shù)附加參數(shù)連續(xù)型隨機(jī)變量及其分布上述各類表示分布的函數(shù)前分別加d——概率函數(shù)(分布列或概率密度)(distribution)p——分布函數(shù)(probability)q——分位數(shù)(quantile)r——取隨機(jī)數(shù)(random)pfunc(x,...)qfunc(p,...)

0<p<1)rfunc(n,p1,p2,...)

dfunc(x,...)R中概率分布的四種狀態(tài)#X~B(20,0.2),P(X=5)

>dbinom(5,20,0.2)[1]0.1745595#X~π(5),P(X=10)>dpois(10,5)[1]0.01813279隨機(jī)變量取某個(gè)值的概率#X~B(100,0.2),P(46≤X≤54)sum(dbinom(46:54,100,0.2)pbinom(54,100,0.2)-pbinom(45,100,0.2)#X~B(20,0.2),P(X≤5)pbinom(5,20,0.2)#X~B(20,0.2),P(X>5)

1-pbinom(5,20,0.2)#X~π(5),P(0≤X≤16)

sum(dpois(0:16,5));ppois(16,5)#X~N(0,1),P(X≤2)

pnorm(2)#X~N(170,62),P(X≤184)pnorm(184,170,6)隨機(jī)變量在某區(qū)間內(nèi)取值概率#標(biāo)準(zhǔn)正態(tài)的下0.95分位數(shù).qnorm(0.95)#標(biāo)準(zhǔn)正態(tài)的下0.025分位數(shù).qnorm(0.025)#自由度為4的卡方分布下0.05分位數(shù).qchisq(0.05,4)#自由度為5的t分布下0.975分位數(shù).

qt(0.975,5)求分位數(shù)-R中給的是下分位數(shù)求分位數(shù)在收集數(shù)據(jù)過(guò)程中,絕大多數(shù)情況下,并不采取普查的方式獲取總體中所有樣本的數(shù)據(jù)信息,而是以各類抽樣方法抽取其中若干代表性樣本來(lái)進(jìn)行數(shù)據(jù)獲取和分析。在獲得待分析數(shù)據(jù)集后,需要再次通過(guò)抽樣技術(shù)選取出訓(xùn)練集和測(cè)試集,以便比較選擇出最優(yōu)的統(tǒng)計(jì)模型。這里主要介紹簡(jiǎn)單隨機(jī)抽樣、分層抽樣、整群抽樣三種基本抽樣方法。簡(jiǎn)單隨機(jī)抽樣,R包自帶;分層抽樣,整群抽樣,在sampling包中找到相應(yīng)方法實(shí)現(xiàn)。5.2隨機(jī)抽樣1.簡(jiǎn)單隨機(jī)抽樣R語(yǔ)言簡(jiǎn)單隨機(jī)抽樣的函數(shù)是sample,句法是:

sample(x,size,replace=FALSE,prob=NULL)

x:帶抽取對(duì)象size:想要抽取的樣本數(shù)量replace:是否為有放回,默認(rèn)為FALSE無(wú)放回prob:設(shè)置個(gè)抽取樣本的抽樣概率,默認(rèn)為無(wú)取值,即等概率抽樣以JS數(shù)據(jù)集為例#有放回抽取10個(gè)數(shù)據(jù)進(jìn)行分析set.seed(1235)sampleindex=sample(nrow(JS),10,replace=T)sampleindex[1]2712337143628133512>JS[sampleindex,]以JS數(shù)據(jù)集為例#無(wú)放回抽取10個(gè)數(shù)據(jù)進(jìn)行分析>sampleindex=sample(nrow(JS),10)>sampleindex##[1]271231428133853323>JS[sampleindex,]這里,sampleindex沒(méi)有重復(fù)值。無(wú)放回時(shí),size必須小于樣本數(shù)sampleindex=sample(nrow(JS),50)Errorin(x,size,replace,prob):cannottakeasamplelargerthanthepopulationwhen'replace=FALSE'2.分層抽樣分層抽樣,也叫類型抽樣。就是將總體單位按其屬性特征分成若干類型或?qū)?,然后在類型或?qū)又须S機(jī)抽取樣本單位。strata(data,stratanames=NULL,size,method=c(“srswor”,“srswr”,“poisson”,“systematic”),pik,description=FALSE)data:帶抽樣數(shù)據(jù)stratanames:進(jìn)行分層所依據(jù)的變量名稱size:各層中要抽出的觀測(cè)樣本數(shù)method:選擇4中抽樣方法,分別為無(wú)放回、有放回、泊松、系統(tǒng)抽樣,默認(rèn)為srsworpik:設(shè)置各層中樣本的抽樣概率description:選擇是否輸出含有各層基本信息的結(jié)果以JS數(shù)據(jù)集為例#載入分層抽樣的包samplinglibrary(sampling)#按地區(qū),每個(gè)職稱抽取3人>strata(JS,stratanames=(“title"),size=c(3,3,3,3),method="srswor")

3.整群抽樣整群抽樣又稱聚類抽樣。是將總體中各單位歸并成若干個(gè)互不交叉、互不重復(fù)的集合,稱之為群;然后以群為抽樣單位抽取樣本的一種抽樣方式。cluster(data,clustername,size,method=c("srswor","srswr","poisson","systematic"),pik,description=FALSE)data:帶抽樣數(shù)據(jù)clustername:用來(lái)劃分群的變量名稱size:需要抽取的群數(shù)method:選擇4中抽樣方法,分別為無(wú)放回、有放回、泊松、系統(tǒng)抽樣,默認(rèn)為srsworpik:設(shè)置各層中樣本的抽樣概率description:選擇是否輸出含有各群的基本信息的結(jié)果以JS數(shù)據(jù)集為例#載入分層抽樣的包samplinglibrary(sampling)#以title為分群變量,#不放回簡(jiǎn)單隨機(jī)抽樣#方法抽2個(gè)群>cluster(JS,clustername=(“title"),size=2,method="srswor",description=T)

1.服從均勻分布的隨機(jī)數(shù)R語(yǔ)言生成均勻分布隨機(jī)數(shù)的函數(shù)是runif()句法是:runif(n,min=0,max=1)

n表示生成的隨機(jī)數(shù)數(shù)量,min表示均勻分布的下限,max表示均勻分布的上限;若省略參數(shù)min、max,則默認(rèn)生成[0,1]上的均勻分布隨機(jī)數(shù)。>runif(5,0,1)

#生成5個(gè)[0,1]的均勻分布的隨機(jī)數(shù)[1]0.59930.73910.26170.50770.7199

>runif(5)

#默認(rèn)生成5個(gè)[0,1]上的均勻分布隨機(jī)數(shù)[1]0.27840.77550.41070.83920.7455

5.3生成已知分布的隨機(jī)數(shù)5.3.1

R語(yǔ)言函數(shù)生成隨機(jī)數(shù)2.服從正態(tài)分布的隨機(jī)數(shù)正態(tài)分布隨機(jī)數(shù)的生成函數(shù)是rnorm()句法是:rnorm(n,mean=0,sd=1)

其中n表示生成的隨機(jī)數(shù)數(shù)量,mean是正態(tài)分布的均值,默認(rèn)為0,sd是正態(tài)分布的標(biāo)準(zhǔn)差,默認(rèn)時(shí)為1;#生成一個(gè)長(zhǎng)度為100的向量,向量中的每個(gè)值服從標(biāo)準(zhǔn)正態(tài)分布rnorm(100)#產(chǎn)生100個(gè)N(150,62)的隨機(jī)數(shù)rnorm(100,150,6)3.服從二項(xiàng)分布的隨機(jī)數(shù)二項(xiàng)分布是指n次獨(dú)立重復(fù)貝努力試驗(yàn)成功的次數(shù)的分布,每次貝努力試驗(yàn)的結(jié)果只有兩個(gè),成功和失敗,記成功的概率為p生成二項(xiàng)分布隨機(jī)數(shù)的函數(shù)是:rbinom()句法是:rbinom(n,size,prob)

n表示生成的隨機(jī)數(shù)數(shù)量,size表示進(jìn)行貝努力試驗(yàn)的次數(shù),prob表示一次貝努力試驗(yàn)成功的概率#產(chǎn)生100個(gè)B(20,0.22)的隨機(jī)數(shù)rbinom(100,20,0.2)R其他分布的隨機(jī)數(shù)rexp指數(shù)分布rfF分布rgamma

Gamma分布rgeom幾何分布rhyper超幾何分布rlnorm對(duì)數(shù)正態(tài)分布rlogisLogistic分布rmultinom多項(xiàng)分布rnbinom負(fù)二項(xiàng)分布rpois泊松分布rtt分布rchisq卡方分布生成隨機(jī)變量的方法有許多種,但是幾乎所有產(chǎn)生隨機(jī)變量的技術(shù)都是從生成一個(gè)或多個(gè)[0,1]區(qū)間均勻分布的偽隨機(jī)數(shù)開(kāi)始的,隨后通過(guò)應(yīng)用某種轉(zhuǎn)換方法即可從[0,1]均勻分布隨機(jī)數(shù)中生成非均勻分布的隨機(jī)數(shù)。方法:逆變換法、卷積法、函數(shù)變換法、合成法、取舍法等5.3.2

逆變換法生成隨機(jī)數(shù)逆變換法逆變換法也稱反函數(shù)法,是最常用、最簡(jiǎn)單的一種隨機(jī)變量生成方法?;诟怕史e分變換定理

連續(xù)型隨機(jī)數(shù)逆變換法的生成步驟例如,給定某指數(shù)分布的概率密度函數(shù)為:

注意到u和1-u同為均勻分布,因此產(chǎn)生n個(gè)參數(shù)為lambda的指數(shù)分布的R命令可以寫(xiě)成-log(runif(n))/lambdaset.seed(123)n=10lambda=3-log(runif(n))/lambda##[1]0.415420940.079290010.298032180.041470120.02045947

##[6]1.029600660.212819740.037939830.198410430.26130509>n<-1000>u<-runif(n)>x<-u^(1/3)>hist(x,prob=TRUE,main=expression(f(x)==3*x^2))>y<-seq(0,1,0.01)>lines(y,3*y^2)逆變換法僅適用于生成分布函數(shù)具有反函數(shù)的隨機(jī)數(shù)(如均勻分布、指數(shù)分布等),而不適用于生成類似于正態(tài)分布這種分布函數(shù)不具有反函數(shù)的隨機(jī)數(shù),同樣也不適用于生成離散分布函數(shù)的隨機(jī)數(shù)。5.3.3舍選法由于大多數(shù)分布函數(shù)無(wú)法求反函數(shù),因此逆變換方法的適用范圍有限,為此,學(xué)者們提出了舍選法(接受-拒絕抽樣,Acceptance-Rejectionsampling)。假設(shè)需要對(duì)分布π(x)進(jìn)行采樣,但是卻很難直接進(jìn)行,故借助另外一個(gè)容易采樣的分布g(x),用某種機(jī)制去除掉一些g(x)生成的樣本,從而使得剩下的樣本就是來(lái)自于所求分布π(x)的樣本。舍選法的基本思想所需分布π(x)易抽樣分布g(x)

舍選法的原理證明

逆變換法和舍選法小結(jié)設(shè)置隨機(jī)種子,保證實(shí)驗(yàn)的可重復(fù)性

>x<-rnorm(10)#隨機(jī)生成10個(gè)隨機(jī)數(shù)>x[1]0.27387940-0.29359610-0.640519080.865472080.68148647-0.33057645[7]-1.08217114-1.658157360.78442397-0.01521926>x<-rnorm(10)#再次隨機(jī)生成10個(gè)隨機(jī)數(shù)>x[1]0.0634884060.302965807-1.851315056-0.048666815-0.261443363-1.413083258[7]-0.4164286291.0477428531.318716887-0.003966177>set.seed(10)#設(shè)定種子>x<-rnorm(10)#隨機(jī)生成10個(gè)隨機(jī)數(shù)>x[1]0.01874617-0.18425254-1.37133055-0.599167720.294545130.38979430[7]-1.20807618-0.36367602-1.62667268-0.25647839>set.seed(10)#設(shè)定種子>y<-rnorm(10)#再次隨機(jī)生成10個(gè)隨機(jī)數(shù)>y[1]0.01874617-0.18425254-1.37133055-0.599167720.294545130.38979430[7]-1.20807618-0.36367602-1.62667268-0.25647839

從上面的例子可以發(fā)現(xiàn),前兩次生成的10個(gè)隨機(jī)數(shù)都不一樣。后兩次在設(shè)定了相同的種子前提下,生成的隨機(jī)數(shù)是相同的。5.4隨機(jī)數(shù)的應(yīng)用隨機(jī)模擬的方法生成指定數(shù)據(jù),用來(lái)估計(jì)參數(shù)或驗(yàn)證統(tǒng)計(jì)學(xué)中的一些基本結(jié)論。估計(jì)模型參數(shù)驗(yàn)證大數(shù)定律驗(yàn)證中心極限定理估計(jì)參數(shù)

我們可以利用上述結(jié)論來(lái)估計(jì)圓周率。

N=2000set.seed(1234)x<-runif(N,-1,1)y<-runif(N,-1,1)p<-mean((x^2+y^2)<=1)pi_est<-4*ppi_est##[1]3.14為了驗(yàn)證大數(shù)定律,選擇t分布進(jìn)行驗(yàn)證#自由度為10的t分布n=20000a<-rt(n,10)llnum<-function(a){y<-rep(0,length(a))for(iin1:n){y[i]<-mean(sample(a,i,replace=TRUE))}data<-data.frame(size=1:n,value=y)data}lln_data<-llnum(a)colnames(lln_data)<-c("sample_size","sample_mean")library(ggplot2)ggplot(lln_data,aes(x=sample_size,y=sample_mean))+labs(title="樣本均值變化趨勢(shì)")+geom_line(color='darkblue')+geom_abline(intercept=5,slope=0,color='grey')

例:用R驗(yàn)證中心極限定理#First,wewillgenerate1000samplesandcomputethesamplemeanofeach.set.seed(1)sample_means

=

rep(NA,1000)

for(i

in

1:1000){

sample_means[i]

=

mean(rexp(40,0.2))

}

均值:這里用R語(yǔ)言對(duì)指數(shù)分布的均值進(jìn)行模擬仿真。并將結(jié)果和中心極限定理的結(jié)果進(jìn)行對(duì)比。#comparethesamplemeanfr

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論