《統(tǒng)計分析軟件:使用R與Python》 課件 第6章-R 語言基本統(tǒng)計推斷_第1頁
《統(tǒng)計分析軟件:使用R與Python》 課件 第6章-R 語言基本統(tǒng)計推斷_第2頁
《統(tǒng)計分析軟件:使用R與Python》 課件 第6章-R 語言基本統(tǒng)計推斷_第3頁
《統(tǒng)計分析軟件:使用R與Python》 課件 第6章-R 語言基本統(tǒng)計推斷_第4頁
《統(tǒng)計分析軟件:使用R與Python》 課件 第6章-R 語言基本統(tǒng)計推斷_第5頁
已閱讀5頁,還剩98頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

6.1R語言匯總統(tǒng)計量函數(shù)6.2R語言參數(shù)估計方法6.3參數(shù)假設檢驗6.4非參數(shù)假設檢驗第6章

R語言基本統(tǒng)計推斷R語言基本統(tǒng)計推斷R語言匯總統(tǒng)計量函數(shù)mean,median,sd,var,quantile,cor,cov非參數(shù)假設檢驗K-S檢驗Wilcoxon秩和檢驗

卡方檢驗Fisher檢驗R語言參數(shù)估計方法點估計(矩法、MLE)

區(qū)間估計參數(shù)假設檢驗假設檢驗的一般步驟、t-檢驗、二項分布、泊松分布、樣本比例檢驗、方差分析6.1R語言匯總統(tǒng)計量函數(shù)1.均值均值(mean)是數(shù)據(jù)的平均數(shù),描述數(shù)據(jù)取值的平均位置。R語言中用mean()函數(shù)計算樣本的均值,基本語法是:mean(x,trim=0,na.rm=FALSE)其中x是對象(如向量、矩陣、數(shù)組或數(shù)據(jù)框),trim參數(shù)是計算均值前去掉與均值差較大數(shù)據(jù)的比例,缺省值為0,即包括全部數(shù)據(jù)。當na.rm=TRUE時,將剔除缺失數(shù)據(jù)后再求均值。選用參數(shù)trim減少輸入誤差對計算的影響如果第一個學生的體重少輸入一個點,變?yōu)?50千克

R語言中用median()函數(shù)計算樣本的均值median(x,na.rm=FALSE)median(w)##[1]63.5針對包含異常值的數(shù)據(jù)w1(即第一人體重錯誤輸入為750千克),計算中位數(shù)得:學生體重數(shù)據(jù)中的中位數(shù)median(w1)##[1]63.5學生體重中位數(shù)仍為63.5千克,基本不受異常值的影響,具有一定穩(wěn)健性。3.百分位數(shù)

在R軟件中,quantile()函數(shù)計算觀測量的百分位數(shù)quantile(x,probs=seq(0,1,0.25),na.rm=FALSE,names=TRUE,type=7,...)quantile(w)##0%25%50%75%100%##47.4057.8563.5066.7575.00quantile(w,probs=seq(0,1,0.2))##0%20%40%60%80%100%##47.4056.9862.2064.0067.3275.00改變probs參數(shù)的默認值,可以給出不同位置的分位數(shù):4.方差、標準差方差函數(shù)var()和標準差函數(shù)sd()的基本語法為var(x,y=NULL,na.rm=FALSE,use)sd(x,na.rm=FALSE)var(w)sd(w)##[1]56.47##[1]7.5155.極差

在R軟件中,計算極差可借助range()函數(shù)range(...,na.rm=FALSE)ran=range(w)#計算極差ran[2]-ran[1]##[1]27.6對于上述體重數(shù)據(jù),極差計算如下:6.相關系數(shù)與協(xié)方差對于來自多元總體的數(shù)據(jù),除了分析各個分量的取值特點外,更重要的是分析各個分量之間的相關關系,如相關系數(shù)和協(xié)方差。R語言中,cor()和cov()函數(shù)可以計算相關系數(shù)和協(xié)方差,cor(x,y=NULL,use="everything",method=c("pearson","kendall","spearman"))cov(x,y=NULL,use="everything",method=c("pearson","kendall","spearman"))對于JS數(shù)據(jù)集,部分數(shù)值變量的協(xié)方差矩陣如下:JS=read.csv("JSdata.csv")cor(JS[,6:8])##heightweightsalary##height1.00000.89480-0.13647##weight0.89481.00000-0.09135##salary-0.1365-0.091351.00000cor()函數(shù)在默認情況下得到的結果是一個方陣(所有變量之間兩兩計算相關)。cor()函數(shù)也可以計算非方形的相關矩陣。#身高、體重兩列變量與工資變量之間的相關系數(shù)cor(JS[,6:7],JS[,8])##[,1]##height-0.13647##weight-0.09135注意:cor()只能計算出相關系數(shù),無法給出顯著性水平p值。如果想計算p值,建議使用psych包中的corr.test函數(shù)或Hmisc包里的rcorr()函數(shù)。對于JS數(shù)據(jù)集,部分列的協(xié)方差矩陣如下:JS=read.csv("JSdata.csv")cov(JS[,6:8])##heightweightsalary##height78.8875.37-39.84##weight75.3789.94-28.48##salary-39.84-28.481080.536.2R語言參數(shù)估計方法

估計廢品率估計新生兒的體重估計湖中魚數(shù)估計降雨量

在參數(shù)估計問題中,假定總體分布形式已知,未知的僅僅是一個或幾個參數(shù).參數(shù)估計的兩種方法點估計區(qū)間估計

battery<-c(20.2,22.8,19.5,17.8,20.8)#續(xù)航時間樣本數(shù)據(jù)

6.2.1

點估計

尋求估計量的方法1.矩估計法2.極大似然法3.最小二乘法4.貝葉斯方法……這里我們只介紹前面兩種方法.其基本思想是用樣本矩估計總體矩.理論依據(jù):它是基于一種簡單的“替換”思想建立起來的一種估計方法.是英國統(tǒng)計學家K.皮爾遜最早提出的.大數(shù)定律矩估計法記總體k階矩為樣本k階矩為用相應的樣本矩去估計總體矩的估計方法就稱為矩估計法.記總體k階中心矩為樣本k階中心矩為例:求伽馬分布的矩估計

set.seed(123)x.gam<-rgamma(200,rate=0.5,shape=3.5)##伽馬分布λ=0.5(scale參數(shù))α=3.5(shape參數(shù))#首先算出樣本矩med.gam<-mean(x.gam)##樣本均值var.gam<-var(x.gam)##樣本方差使用矩估計法,把總體矩用樣本矩表示出來lambda_hat<-med.gam/var.gam##lambda的矩估計量alpha_hat<-((med.gam)^2)/var.gam##alpha的矩估計量cat("lambda估計=",lambda_hat,"alpha估計=",alpha_hat,"\n")##lambda估計=0.544alpha估計=3.609優(yōu)點:是簡單易行,并不需要事先知道總體是什么分布缺點:當總體類型已知時,沒有充分利用分布提供的信息,且矩估計量不具有唯一性。極大似然法

求極大似然估計量的步驟對數(shù)似然方程例如,對于正態(tài)分布總體,似然函數(shù)如下:

由于似然函數(shù)是正數(shù)的乘積(其中許多可能非常?。虼耸褂脤?shù)似然函數(shù)更方便、更穩(wěn)定

下面,我們生成一組服從正態(tài)分布的數(shù)據(jù),假設我們并不知道參數(shù)的真實值,我們用MLE方法對其進行估計##[1]4.967可以針對μ的許多候選值繪制似然函數(shù),并查看曲線最高的位置。使得似然函數(shù)最大的mu值為4.97

引例1估計某明星年齡該明星的年齡35歲—點估計該明星的年齡,九成可能在30-50歲之間6.2.2

區(qū)間估計也就是說,我們希望確定一個區(qū)間,使我們能以比較高的可信度或可靠程度相信它包含真參數(shù)值.這里所說的“可靠程度”是用概率來度量的,稱為置信概率,置信度或置信水平.

求置信區(qū)間的一般步驟1.明確問題,是求什么參數(shù)的置信區(qū)間?置信水平

是多少?

P(a≤S(T,)≤b)=

則就是的100(

)%的置信區(qū)間.可見,確定區(qū)間估計很關鍵的是要尋找一個待估參數(shù)和估計量T的函數(shù)S(T,),且S(T,)的分布為已知,不依賴于任何未知參數(shù)(這樣我們才能確定一個大概率區(qū)間).而這與總體分布有關,所以,總體分布的形式是否已知,是怎樣的類型,至關重要.這里,我們主要討論總體分布為正態(tài)的情形.根據(jù)置信區(qū)間的求解過程自行編寫R函數(shù)利用R中相應假設檢驗函數(shù)給出置信區(qū)間R

base包中沒有直接的函數(shù)做

2已知時置信區(qū)間沒有只知道匯總數(shù)據(jù)的對應函數(shù)單正態(tài)總體方差的區(qū)間估計也需自己編寫函數(shù)…R中求置信區(qū)間單正態(tài)總體均值的置信區(qū)間可用t.test()函數(shù)雙正態(tài)總體方差比的置信區(qū)間可用var.test()函數(shù)…假設方差未知,要估計JS數(shù)據(jù)中身高均值的置信區(qū)間,置信水平為95%,可以使用t.test()函數(shù):JS=read.csv("JSdata.csv")t.test(JS$height)####OneSamplet-test####data:JS$height##t=117,df=38,p-value<2e-16##alternativehypothesis:truemeanisnotequalto0##95percentconfidenceinterval:##163.6169.3##sampleestimates:##meanofx##166.4身高的95%置信區(qū)間為(163.5568,169.3150)當然,也可以自己編寫R函數(shù)給出置信區(qū)間。下面我們以單正態(tài)總體均值的置信區(qū)間為例討論如何用R計算置信區(qū)間。

即找到一個隨機變量的臨界值,使得α/2的面積位于其右側。這個臨界值可用分位數(shù)函數(shù)qnorm()或qt()求出。

xbar=0.093;sigma=0.012;alpha=0.05;n=60z_half_alpha=qnorm(0.025,mean=0,sd=1,lower.tail=FALSE)cri_value=z_half_alpha*(sigma/sqrt(n))deg_upp=xbar+cri_valuedeg_low=xbar-cri_valuelibrary(scales)c(percent(deg_low,accuracy=0.001),percent(deg_upp,accuracy=0.001))置信區(qū)間為[8.996%,9.604%]例:R計算置信區(qū)間奶茶的容量按標準應在標稱容量480毫升和550毫升之間.

引例

500毫升奶茶實際370毫升?流水線上奶茶不斷地封裝,然后送到賣場

。

怎么知道這批奶茶的容量是否合格呢?把每一杯都打開倒入量杯,看看容量是否合于標準.這樣做顯然不行!6.3假設檢驗通常的辦法是進行抽樣檢查.如每隔1小時,抽查5杯,得5個容量的值X1,…,X5,根據(jù)這些值來判斷生產(chǎn)是否正常.如發(fā)現(xiàn)不正常,就應停產(chǎn),找出原因,排除故障,然后再生產(chǎn);如沒有問題,就繼續(xù)按規(guī)定時間再抽樣,以此監(jiān)督生產(chǎn),保證質(zhì)量.

很明顯,不能由5杯容量的數(shù)據(jù),在把握不大的情況下就判斷生產(chǎn)不正常,因為停產(chǎn)的損失是很大的.

當然也不能總認為正常,有了問題不能及時發(fā)現(xiàn),這也要造成損失.

如何處理這兩者的關系,假設檢驗面對的就是這種矛盾.

在正常生產(chǎn)條件下,由于種種隨機因素的影響,每罐奶茶的容量應在500毫升上下波動.這些因素中沒有哪一個占有特殊重要的地位.因此,根據(jù)中心極限定理,假定每杯容量服從正態(tài)分布是合理的.它的對立假設是:稱H0為原假設(或零假設,解消假設);稱H1為備選假設(或?qū)α⒓僭O).在實際工作中,往往把不輕易否定的命題作為原假設.H0:(=500)H1:

那么,如何判斷原假設H0

是否成立呢?問題歸結為根據(jù)小概率原理對差異作定量的分析,以確定其性質(zhì).

“系統(tǒng)誤差”或隨機誤差?假設檢驗的一般步驟

32

1檢驗方法Z檢驗t檢驗檢驗常見假設檢驗的拒絕域R語言中將假設檢驗存儲在稱為htest

的特殊對象類中。htest對象包含來自假設檢驗、檢驗統(tǒng)計量(例如,t檢驗的t統(tǒng)計量或相關性檢驗的相關系數(shù))、p值、置信區(qū)間的所有主要結果。可以使用$符號訪問htest對象的特定元素##[1]"statistic""parameter""p.value"##[4]"""estimate""null.value"##[7]"stderr""alternative""method"##[10]""6.3.1t-檢驗t.test(x,y=NULL,alternative=c("two.sided","less","greater"),mu=0,paired=FALSE,var.equal=FALSE,conf.level=0.95,...)若僅出現(xiàn)數(shù)據(jù)x,則進行單樣本t檢驗;若出現(xiàn)數(shù)據(jù)x和y,則進行雙樣本的t檢驗alternative=c("two.sided","less","greater")用于指定所求置信區(qū)間的類型;alternative="two.sided"是缺省值,表示求置信區(qū)間,alternative="less"表示求置信上限;alternative="greater"表示求置信下限.mu表示均值,它僅在假設檢驗中起作用,默認值為零.單正態(tài)總體參數(shù)t檢驗例:有原始數(shù)據(jù)的t檢驗汽車廠商聲稱其發(fā)動機排放標準的一個指標平均低于20個單位。在抽查了10臺發(fā)動機之后,得到下面的排放數(shù)據(jù):17.0、21.7、17.9、22.9、20.7、22.4、17.3、21.8、24.2、25.4。該樣本均值為21.13。究竟能否由此認為該指標均值超過20?這次我們的假設檢驗問題就是檢驗統(tǒng)計量為>x=c(17.0,21.7,17.9,22.9,20.7,22.4,17.3,21.8,24.2,25.4)>mu=20>t.test(x,mu=20,alternative="greater")OneSamplet-testdata:xt=1.2336,df=9,p-value=0.1243alternativehypothesis:truemeanisgreaterthan2095percentconfidenceinterval:19.4508Infsampleestimates:meanofx21.13因此,我們沒有證據(jù)否定零假設(如果顯著性水平小于它)。單正態(tài)總體參數(shù)t檢驗也可以自己寫代碼實現(xiàn)上述功能:>x=c(17.0,21.7,17.9,22.9,20.7,22.4,17.3,21.8,24.2,25.4)>xbar=mean(x);sigma=sd(x)

>mu=20

>n=length(x)

>t<-(xbar-mu)/(sigma/sqrt(n))

>t

[1]1.233576

>p1<-pt(t,df=n-1,lower.tail=FALSE)

>p1

[1]0.1243025健康成年男子脈搏均數(shù)為72次/分。某醫(yī)生在某山區(qū)隨機抽查健康成年男子25人,其脈搏均數(shù)為74.2次/分,標準差為6.5次/分。根據(jù)這個資料能否認為某山區(qū)健康成年男子脈搏數(shù)與一般健康成年男子的不同?檢驗統(tǒng)計量為例:無原始數(shù)據(jù)的t檢驗#根據(jù)公式算出t值x<-74.2;mu<-72;sigma<-6.5;n<-25t<-(x-mu)/(sigma/sqrt(n))#或者用n-1代替n#用pt()函數(shù),輸入t值和自由度df(n-1),得到p值#雙側p=2*pt(-abs(t),df=24)檢驗結果為t=1.692308,顯著性P值=0.1035319>0.05,接受原假設,說明該法測定的成年男子脈搏數(shù)與總體無顯著差異,認為某山區(qū)健康成年男子脈搏數(shù)與一般健康成年男子的相同。思考題

t.test(X,alternative=

“greater”,mu=

225)兩獨立樣本t檢驗兩獨立樣本t檢驗用于檢驗兩組相互獨立數(shù)據(jù)均值間有無顯著差別:先假定兩組相應的總體均值相等,看兩組均值實際相差與此假設是否靠近。

利用t檢驗法檢驗要求:具有相同方差的兩正態(tài)總體均值差的假設.對應正態(tài)性檢驗,可以使用shapiro.test()函數(shù);方差齊性檢驗,則可以使用var.test()函數(shù)或bartlett.test()函數(shù)。JSdata數(shù)據(jù)中性別不同的兩組教師體重均值是否相同?例:有原始數(shù)據(jù)的兩樣本t檢驗第一步:正態(tài)性檢驗兩組數(shù)據(jù)Shapiro-Wilk正態(tài)性檢驗的p值均遠大于0.05,說明可以認為兩組數(shù)據(jù)服從正態(tài)分布。第二步:方差齊性檢驗var.test方差齊性檢驗中的結果p值大于0.05,說明兩組數(shù)據(jù)基本滿足方差齊性要求。第三步:t檢驗t檢驗中p值大于0.05,不能拒絕原假設,即不能認為兩組教師中體重存在顯著差異。如果數(shù)據(jù)滿足正態(tài)性假設,但不滿足方差齊性要求,則進行修正的WelchT檢驗。var.equal=FALSE例如,測量某兩個地區(qū)水中碳酸鈣的含量,分別從兩個地區(qū)隨機抽取20份樣品進行碳酸鈣檢測,分別得到兩個地區(qū)碳酸鈣含量的均數(shù)(20.95,21.79)和標準差(5.89,3.43)。試判斷兩個地區(qū)水中碳酸鈣的含量是否有差異?例:無原始數(shù)據(jù)的兩樣本t檢驗#輸入對照組實驗組均值x1,x2;組數(shù)n1,n2;方差s1,s2x1<-20.95;x2<-21.79;n1<-20;n2<-20;s1<-5.89;s2<-3.43#計算兩獨立樣本共同的標準差sc<-sqrt((1/n1+1/n2)*((n1-1)*s1**2+(n2-1)*s2**2)/(n1+n2-2))#t值,自由度df,p值t<-(x2-x1)/scdf<-n1+n2-2p<-2*pt(-abs(t),df=df)t;pt=0.5511486,p值0.5847581>0.05,不拒絕原假設,不能認為兩個地區(qū)水中碳酸鈣的含量有差異思考題

t.test(X,Y,var.equal=TRUE,alternative=

“l(fā)ess“)配對t檢驗在醫(yī)學研究中,常用配對設計。配對設計主要有4種情況:同一受試對象處理前后的數(shù)據(jù),同一受試對象兩個部位的數(shù)據(jù),同一樣品用兩種方法檢驗的結果,配對的兩個受試對象分別接受兩種處理后的數(shù)據(jù)。例1.原始數(shù)據(jù)的配對t檢驗判斷簡便法和常規(guī)法測定尿鉛含量的差別有無統(tǒng)計意義,對12份人尿同時用兩種方法進行測定,所得結果如下表所示,請分析兩種測定方法的測量結果是否不同?配對t檢驗的結果為:t=0.16232,顯著性p值=0.874>0.05,不能拒絕原假設H0,說明不能認為兩種方法測定尿鉛含量的結果不相同。#輸入兩組值x<-c(2.41,2.90,2.75,2.23,3.67,4.49,5.16,5.45,2.06,1.64,1.06,0.77)y<-c(2.80,3.04,1.88,3.43,3.81,4.00,4.44,5.41,1.24,1.83,1.45,0.92)#配對樣本t檢驗t.test(x,y,paired=T)慢性支氣管炎病人血中膽堿酯酶活性常常偏高。某校藥理教研室將同性別同年齡的病人與健康人配成8對,測量該值加以比較,配對兩組人差值的均值為0.625,標準差為0.78.問可否通過這一資料得出較明確的結論?例:無原始數(shù)據(jù)的配對t檢驗配對t檢驗的結果為:t=2.266368,顯著性p值=0.05778616>0.05,不能拒絕原假設H0,說明不能認為慢性支氣管炎病人與健康人血中膽堿酯酶活性不同。#依次輸入配對樣本的差值d、標準差s、配對數(shù)nd<-0.625;s<-0.78;n<-8#算t值t<-d/(s/sqrt(n))#輸入自由度n-1,pt()函數(shù)得到p值df<-n-1p=2*pt(-abs(t),df=df)t;p

6.3.2二項分布的總體檢驗使用binom.test(x,n,p=0.5,alternative=c("two.sided","less","greater"),conf.level=0.95),x為指定成功的次數(shù),n為實驗的總次數(shù),p為每次實驗成功的概率。

例:二項分布的總體檢驗>binom.test(445,500,p=0.85)Exactbinomialtestdata:445and500numberofsuccesses=445,numberoftrials=500,p-value=0.01207alternativehypothesis:trueprobabilityofsuccessisnotequalto0.8595percentconfidenceinterval:0.85923420.9160509sampleestimates:probabilityofsuccess0.89p-value=0.01207<0.05,故拒絕原假設,即認為種衣劑對種子發(fā)芽率有顯著效果p-value=0.09048>0.05,故不能接受原假設,即不能認為該地區(qū)新生兒染色體低于一般水平例:按照以往經(jīng)驗,新生兒染色體異常率一般為1%,某醫(yī)院觀察了當?shù)?00名新生兒,有一例染色體異常,問該地區(qū)新生兒染色體是否低于一般水平?>binom.test(1,400,p=0.01,alternative="less")Exactbinomialtestdata:1and400numberofsuccesses=1,numberoftrials=400,p-value=0.09048alternativehypothesis:trueprobabilityofsuccessislessthan0.0195percentconfidenceinterval:0.00000000.0118043sampleestimates:probabilityofsuccess0.00256.3.3泊松分布的總體檢驗poisson.test(x,T=1,r=1,alternative=c("two.sided","less","greater"),conf.level=0.95)#x-事件數(shù)量,T-事件計數(shù)的時間基準,r-假設的比率對Poisson總體參數(shù)的檢驗,完全類似于二項分布總體參數(shù)的檢驗。對泊松分布中的速率參數(shù)或兩個速率參數(shù)之間的比率的精確檢驗。

例:泊松分布的總體檢驗

>poisson.test(x=60,T=50,r=1,alternative="greater",conf.level=0.95)ExactPoissontestdata:60timebase:50numberofevents=60,timebase=50,p-value=0.09227alternativehypothesis:trueeventrateisgreaterthan195percentconfidenceinterval:0.9570464Infsampleestimates:eventrate1.2p-value=0.09227>0.05,在0.95的置信區(qū)間下接受原假設H0,后一小時注冊人數(shù)與前一小時無差異。6.3.4樣本比例的檢驗

prop.test(x,n,p=NULL,alternative="two.sided",correct=TRUE)#x為樣本成功次數(shù),n是樣本量,p是成功的比例

檢驗統(tǒng)計量

例:樣本比率的檢驗

p-value=0.5477>0.05,無法拒絕原假設,故認為該大學的男、女學生家中擁有計算機的比率一致。>success<-c(23,25)>total<-c(102,135)>prop.test(success,total)2-sampletestforequalityofproportionswithcontinuitycorrectiondata:successoutoftotalX-squared=0.36148,df=1,p-value=0.5477alternativehypothesis:two.sided95percentconfidenceinterval:-0.072564760.15317478sampleestimates:prop1

prop20.2254902

0.18518526.3.5方差分析方差分析(AnalysisofVariance,簡寫為ANOVA)又稱變異數(shù)分析或F檢驗,用于兩個及兩個以上樣本均值差別的顯著性檢驗,目的是推斷兩組或多組數(shù)據(jù)的總體均值是否相同,檢驗兩個或多個樣本均值的差異是否有統(tǒng)計學意義。方差分析假設:各樣本須是相互獨立的隨機樣本各樣本來自正態(tài)分布總體各總體方差相等,即方差齊

aov()函數(shù)的語法為aov(formula,data=dataframe)formula可使用的特殊符號如下,其中y為因變量,A、B、C為自變量。符號用法:~分隔符,左邊為因變量,右邊為自變量。例y~A+B+C+分隔自變量:表示交互項,如y~A+B+A:B*表示所有可能的交互項,如y~A*B*C等價于y~A+B+C+A:B+A:C+B:C+A:B:C^表示交互項達到的某個次數(shù),如y~(A+B+C)^2等價于y~A+B+C+A:B+A:C+B:C.表示包含除因變量以外的所有變量。如y~.例:R語言方差分析某醫(yī)院欲研究A、B、C三種降血脂藥物對家兔血清腎素血管緊張素轉化酶(ACE)的影響,將家兔隨機分為三組,均喂以高脂飲食,分別給予不同的降血脂藥物。一定時間后測定家兔血清ACE濃度(u/ml),A組(4544434748444644404542404346474546454344),B組(45484743464748464349464347464746454644454644434245),C組(4748454646444548495049484744454645434445464342),問三組家兔血清ACE濃度是否相同?>a<-c(45,44,43,47,48,44,46,44,40,45,42,40,43,46,47,45,+46,45,43,44)>b<-c(45,48,47,43,46,47,48,46,43,49,46,43,47,46,47,46,+45,46,44,45,46,44,43,42,45)>c<-c(47,48,45,46,46,44,45,48,49,50,49,48,47,44,45,46,+45,43,44,45,46,43,42)>dfCRp<-data.frame(value=c(a,b,c),group=factor(c(rep(“1”,20),rep("2",25),rep("3",23))))方差分析需要一定的假設,即數(shù)據(jù)集應該符合正態(tài)和各組的方差相等,可以分別用shapiro.test和bartlett.test檢驗從P值觀察到這兩個假設是符合的。對于不符合假設的情況,我們就要用到非參數(shù)方法,例如Kruskal-Wallis秩和檢驗>shapiro.test(dfCRp$value)#檢查是否正態(tài)分布Shapiro-Wilknormalitytestdata:dfCRp$valueW=0.97397,p-value=0.1654>bartlett.test(value~group,data=dfCRp)Bartletttestofhomogeneityofvariancesdata:valuebygroupBartlett'sK-squared=0.76406,df=2,p-value=0.6825正態(tài)性檢驗和方差齊性檢驗P值均大于0.05,可以認為數(shù)據(jù)滿足正態(tài)性和方差齊性的要求。>aovCRp=aov(value~group,data=dfCRp)>summary(aovCRp)

Df

SumSqMeanSq

Fvalue

Pr(>F)

group

2

26.29

13.146

3.2440.0454*Residuals65263.40

4.052---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘

’1p-value=0.0454<0.05,拒絕原假設,故認為三組家兔血清ACE濃度不同。>oneway.test(value~group,data=dfCRp,var.equal=TRUE)#與aov()結果基本相同。One-wayanalysisofmeansdata:valueandgroupF=3.2442,numdf=2,denomdf=65,p-value=0.0454方差分析只告訴我們這三組之間是不同的,但沒有告訴哪兩組之間有明顯差別,此時需要使用TukeyHSD等函數(shù)進行均值的多重比較分析做出推斷。>TukeyHSD(aovCRp)Tukeymultiplecomparisonsofmeans95%family-wiseconfidencelevelFit:aov(formula=value~group,data=dfCRp)$group

diff

lwr

upr

p-adj2-11.1300000

-0.31850529

2.578505

0.15526733-11.5195652

0.04333482

2.995796

0.04224953-20.3895652

-1.00547115

1.784602

0.7817904a組和c組的差異有顯著意義。boxplot(value~group,data=dfCRp,xlab="group",ylab="value")6.4非參數(shù)假設檢驗參數(shù)檢驗方法推定或假定了總體分布的具體形式(如正態(tài)分布),只是其中含有若干未知參數(shù)。但在許多實際問題中,人們往往對總體的分布知之甚少,很難對總體的分布形式做出正確的假定,最多只能對總體的分布做出諸如連續(xù)型分布、關于某點對稱分布等一般性的假定。這種不假定總體分布的具體形式,盡量從數(shù)據(jù)本身來獲得所需要的信息的檢驗方法稱為非參數(shù)檢驗方法。非參數(shù)假設檢驗仍然要求各樣本須是相互獨立的隨機樣本。非參數(shù)檢驗中常用到的一個概念是秩(rank),秩指的是樣本數(shù)據(jù)按照升序排列之后,每個觀測值的位置。比如:159183178513719觀測值357891315171819秩12345678910如果有重復,就取平均,比如1,2,2,3。那么秩就為1,2.5,2.5,4。R語言非參數(shù)檢驗函數(shù)K-S檢驗Wilcoxon秩和檢驗卡方檢驗Fisher檢驗6.4.1K-S檢驗Kolmogorov-Smirnov分布一致性檢驗:檢驗的目的:對于單樣本,檢驗其是否符合某種分布。對于雙樣本,檢驗其是否屬于同一分布。ks檢驗,理論上可以檢驗任何分布.原假設:X具有分布F(單樣本)或X與Y同分布(雙樣本)ks.text(x,y,…,alternative=c(“two.sided”,“l(fā)ess”,“greater”),exact=NULL,tol=1e-8,

simulate.p.value=FALSE,B=2000)x:數(shù)據(jù)向量y:數(shù)據(jù)向量或用于命名分布函數(shù)的字符串?!河蓎值定義的參數(shù)例:K-S檢驗(單樣本和雙樣本)>x<-c(420,500,920,1380,1510,1650,1760,2100,2300,2350)>ks.test(x,"pexp",1/1500)One-sampleKolmogorov-Smirnovtestdata:xD=0.30148,p-value=0.2654alternativehypothesis:two-sided>set.seed(123)>x=runif(100)>y=runif(100)>ks.test(x,y)Two-sampleKolmogorov-Smirnovtestdata:xandyD=0.09,p-value=0.8127alternativehypothesis:two-sidedP值均大于0.05,可以認為數(shù)據(jù)和給定分布一致或兩組數(shù)據(jù)分布無明顯差異。6.4.2Wilcoxon符號秩檢驗、秩和檢驗

例:R語言Wilcoxon秩檢驗

對來自一個總體樣本的檢驗假定某電池廠宣稱該廠生產(chǎn)的某種型號電池壽命的中位數(shù)為140安培小時,為了檢驗該廠生產(chǎn)的電池是否符合其規(guī)定的標準,現(xiàn)從新近生產(chǎn)的一批電池中抽取20個隨機樣本,并對這個20個電池的壽命進行了測試,試用Wilcoxon符號秩檢驗分析該廠生產(chǎn)的電池是否符合其標準。假設如下:H0:電池中位數(shù)M>=140安培小時H1:電池中位數(shù)M<140安培小時X<-

c(137,140,138.3,139,144.3,139.1,141.7,137.3,133.5,138.2,141.1,139.2,136.5,136.5,135.6,138,140.9,140.6,136.3,134.1)

wilcox.test(X,mu=140,alternative="less",exact=FALSE,correct=FALSE,+=TRUE)Wilcoxonsignedranktestdata:XV=34,p-value=0.007034alternativehypothesis:truelocationislessthan14095percentconfidenceinterval:-Inf139.2sampleestimates:(pseudo)

median138.2p-value=0.007034<0.05,故拒絕原假設,認為中位數(shù)達不到140今測得10名非鉛作業(yè)工人和7名鉛作業(yè)工人的血鉛值,如下表所示。試用Wilcoxon秩和檢驗分析兩組工人血鉛值有無差異。>nonlead<-c(24,26,29,34,43,58,63,72,87,101)>lead<-c(82,87,97,121,164,208,213)>wilcox.test(nonlead,lead,alternative="less",exact=FALSE,correct=FALSE)Wilcoxonranksumtestdata:nonleadandleadW=4.5,p-value=0.001449alternativehypothesis:truelocationshiftislessthan0P值小于0.05,拒絕原假設,即鉛作業(yè)工人血鉛值高于非作業(yè)工人。

非成對樣本的秩次和檢驗6.4.4Pearson卡方檢驗“Pearson卡方檢驗”可用于兩種情境的變項比較:擬合優(yōu)度(GoodnessofFit

)檢驗,和獨立性檢驗。“擬合優(yōu)度”驗證一組觀察值的次數(shù)分配是否異于理論上的分配。“獨立性檢驗”驗證從兩個變量抽出的配對觀察值組是否互相獨立(例如:每次都從A國和B國各抽一個人,看他們的反應是否與國籍無關)。

擬合優(yōu)度(總體分布)的卡方檢驗chisq.test(x,y=NULL,correct=TRUE,p=rep(1/length(x),length(x)),rescale.p=FALSE,simulate.p.value=FALSE,B=2000)#p默認取均勻分布的概率

因為p=0.0123小于0.05,因此我們不能認為這批數(shù)據(jù)服從均勻分布。>y=c(12,5,19,7,7)>chisq.test(y)Chi-squaredtestforgivenprobabilitiesdata:yX-squared=12.8,df=4,p-value=0.0123例:總體分布的卡方檢驗(均勻分布)用Pearson擬合優(yōu)度卡方檢驗檢驗學生成績是否服從正態(tài)分布:X<-c(25,45,50,54,55,61,64,68,72,75,75,78,79,81,83,84,84,84,85,86,86,86,87,89,89,89,90,91,91,92,100)A<-

table(cut(X,br=c(0,69,79,89,100)))#分組計數(shù)例:總體分布的卡方檢驗(正態(tài)分布)>A

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論