R-多元統(tǒng)計分析上機講義_第1頁
R-多元統(tǒng)計分析上機講義_第2頁
R-多元統(tǒng)計分析上機講義_第3頁
R-多元統(tǒng)計分析上機講義_第4頁
R-多元統(tǒng)計分析上機講義_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

共享知識 分享快樂應用多元統(tǒng)計分析R實驗上機講義卑微如螻蟻、堅強似大象共享知識 分享快樂應用多元統(tǒng)計分析...........................................................................................................................4AppliedMultivariateStatisticalAnalysis...................................................................................4第一章緒論..............................................................................................................................4第二章矩陣..............................................................................................................................42.1矩陣的建立........................................................................................................................42.2矩陣的下標(index)與子集(元素)的提取...........................................................................62.3矩陣四則運算...................................................................................................................72.3.1矩陣的加減運算.....................................................................................................72.3.2矩陣的相乘............................................................................................................82.3.3矩陣的求逆............................................................................................................82.4矩陣的其他一些代數(shù)運算.................................................................................................82.4.1求轉置矩陣............................................................................................................82.4.2提取對角元素.........................................................................................................82.4.3矩陣的合并與拉直..................................................................................................82.4.4方陣的行列式..........................................................................................................92.4.5矩陣的特征根和特征向量.....................................................................................92.4.6其它函數(shù)................................................................................................................92.5矩陣的統(tǒng)計運算..............................................................................................................112.5.1求均值..................................................................................................................112.5.2標準化..................................................................................................................112.5.3減去中位數(shù)..........................................................................................................11第三章多元正態(tài)分布及參數(shù)的估計.....................................................................................123.1繪制二元正態(tài)密度函數(shù)及其相應等高線圖..................................................................123.2多元正態(tài)分布的參數(shù)估計..............................................................................................143.2.1多元正態(tài)總體的相關量.......................................................................................143.2.2極大似然估計.......................................................................................................14第四章多元正態(tài)總體參數(shù)的假設檢驗.................................................................................154.1幾個重要統(tǒng)計量的分布..................................................................................................154.2單總體均值向量的檢驗及置信域..................................................................................164.2.1均值向量的檢驗....................................................................................................164.2.2樣本協(xié)方差陣的特征值和特征向量....................................................................174.3多總體均值向量的檢驗...................................................................................................174.3.1兩正態(tài)總體均值向量的檢驗...............................................................................174.3.2多個正態(tài)總體均值向量的檢驗-多元方差分析..................................................194.4協(xié)方差陣的檢驗...............................................................................................................204.4.2多總體協(xié)方差陣的檢驗.......................................................................................204.5獨立性檢驗......................................................................................................................204.6正態(tài)性檢驗......................................................................................................................21第五章判別分析.....................................................................................................................225.1距離判別..........................................................................................................................225.1.1馬氏距離..............................................................................................................225.1.2兩總體的距離判別...............................................................................................225.1.3多個總體的距離判別...........................................................................................265.2貝葉斯判別法及廣義平方距離判別法...........................................................................26卑微如螻蟻、堅強似大象共享知識 分享快樂5.2.1先驗概率(先知知識)............................................................................................265.2.2廣義平方距離.......................................................................................................265.2.3后驗概率(條件概率).......................................................................................275.2.4貝葉斯判別準則...................................................................................................275.3費希爾(Fisher)判別.....................................................................................................29第六章聚類分析.....................................................................................................................306.2距離和相似系數(shù)...............................................................................................................306.2.1距離.......................................................................................................................316.2.2數(shù)據(jù)中心化與標準化變換....................................................................................316.2.3相似系數(shù)...............................................................................................................316.3系統(tǒng)聚類法.....................................................................................................................316.4類個數(shù)的確定..................................................................................................................346.5動態(tài)聚類法......................................................................................................................366.7變量聚類方法..................................................................................................................36第七章主成分分析.................................................................................................................377.2樣本的主成分.................................................................................................................387.3主成分分析的應用..........................................................................................................39第八章因子分析.....................................................................................................................428.3參數(shù)估計方法.................................................................................................................428.4方差最大的正交旋轉......................................................................................................458.5因子得分.........................................................................................................................45第九章對應分析方法.............................................................................................................46第十章典型相關分析.............................................................................................................48卑微如螻蟻、堅強似大象共享知識 分享快樂應用多元統(tǒng)計分析AppliedMultivariateStatisticalAnalysis第一章緒論在實際問題中,很多隨機現(xiàn)象涉及到的變量不是一個, 而是經常是多個變量, 并且這些變量間又存在一定的聯(lián)系。我們經常需要處理多個變量的觀測數(shù)據(jù),如果用一元統(tǒng)計方法,由于忽視了各個變量之間可能存在的相關性, 一般說來,丟失信息太多,分析的結果不能客觀全面反映數(shù)據(jù)所包含的內容,因此,我們就需要用到多元統(tǒng)計的方法。多元統(tǒng)計分析 (MultivariateStatisticalAnalysis) 也稱多變量統(tǒng)計分析、多因素統(tǒng)計分析或多元分析,是研究客觀事物中多變量 (多因素或多指標 )之間的相互關系和多樣品對象之間差異以及以多個變量為代表的多元隨機變量之間的依賴和差異的現(xiàn)代統(tǒng)計分析理論和方法。 多元統(tǒng)計分析是解決實際問題的有效的數(shù)據(jù)處理方法。 隨著電子計算機使用的日益普及, 多元統(tǒng)計統(tǒng)計方法已廣泛地應用于自然科學、社會科學的各個方面。第二章矩陣矩陣即是二維的數(shù)組,它非常的重要,以至于需要單獨討論。由于矩陣應用非常廣泛,因此對它定義了一些特殊的應用和操作,R包括許多只對矩陣操作的操作符和函數(shù)。2.1矩陣的建立在R中最為常用的是用命令 matrix() 建立矩陣,而對角矩陣常用函數(shù) diag() 建立。例如X<-matrix(1,nr=2,nc=2)X[,1][,2][1,]11[2,]11>X<-diag(3)#生成單位陣>X[,1][,2][,3][1,]100[2,]010[3,]001>diag(2.5,nr=3,nc=5)[,1][,2][,3][,4][,5][1,]2.50.00.000[2,]0.02.50.000[3,]0.00.02.500卑微如螻蟻、堅強似大象共享知識 分享快樂X<-matrix(1:4,2)#等價于X<-matrix(1:4,2,2)X[,1][,2][1,] 1 3[2,] 2 4rownames(X)<-c("a","b")colnames(X)<-c("c","d")Xda13b24dim(X)[1]22dimnames(X)[[1]][1]"a""b"[[2]][1]"c""d"注意:①循環(huán)準則仍然適用于matrix(),但要求數(shù)據(jù)項的個數(shù)等于矩陣的列數(shù)的倍數(shù),否則會出現(xiàn)警告。②矩陣的維數(shù)使用 c()會得到不同的結果 (除非是方陣),因此需要小心。③數(shù)據(jù)項填充矩陣的方向可通過參數(shù) byrow來指定, 其缺省是按列填充的byrow=FALSE),byrow=TRUE表示按行填充數(shù)據(jù)。再看幾個例子:>X<-matrix(1:4,2,4)#按列填充>X[,1][,2][,3][,4][1,]1313[2,]2424X<-matrix(1:4,2,3)Warningmessage:Inmatrix(1:4,2,3):數(shù)據(jù)長度[4]不是矩陣列數(shù)[3]的整倍數(shù)>X<-matrix(1:4,c(2,3))#不經常使用>X[,1][,2][1,]13[2,]24>X<-matrix(1:4,2,4,byrow=TRUE)#按行填充>X[,1][,2][,3][,4]卑微如螻蟻、堅強似大象共享知識分享快樂[1,]1234[2,]1234因為矩陣是數(shù)組的特例,R中數(shù)組由函數(shù)array()建立,因此矩陣也可以用函數(shù)array()來建立,其一般格式為:>array(data,dim,dimnames)其中data為一向量,其元素用于構建數(shù)組;dim為數(shù)組的維數(shù)向量(為數(shù)值型向量);dimnames為由各維的名稱構成的向量(為字符型向量),缺省為空??磶讉€例子:>A<-array(1:6,c(2,3))>A[,1][,2][,3][1,]135[2,]246A<-array(1:4,c(2,3))A[,1][,2][,3][1,] 1 3 1[2,] 2 4 2A<-array(1:8,c(2,3))A[,1][,2][,3][1,] 1 3 5[2,] 2 4 62.2矩陣的下標(index)與子集(元素)的提取矩陣的下標可以使用正整數(shù)、 負整數(shù)和邏輯表達式, 從而實現(xiàn)子集的提取或修改。 考查矩陣x<-matrix(1:6,2,3)x[,1][,2][,3][1,] 1 3 5[2,] 2 4 6提取一個元素x[2,2][1]4提取若一個或若干個行或列x[2,2]4>x[2,]246卑微如螻蟻、堅強似大象共享知識 分享快樂x[,2][1]34x[,2,drop=FALSE][,1][1,] 3[2,] 4x[,c(2,3),drop=FALSE][,1][,2][1,] 3 5[2,] 4 6去掉某一個或若干個行與列x[-1,]246>x[,-2][,1][,2][1,]15[2,] 2 6添加與替換元素x[,3]<-NAx[,1][,2][,3][1,]13NA[2,]24NA>x[is.na(x)]<-1#缺失值用1代替>x[,1][,2][,3][1,]131[2,]2412.3矩陣四則運算矩陣也可以進行四則運算(“+”、“-”、“*”、“/”,“^”),分別解釋為矩陣對應元素的四則運算。在實際應用中,比較有實際應用的是矩陣的相加,相減,相乘和矩陣的求逆。矩陣的加減運算一般要求矩陣形狀完全相同(dim屬性完全相同),矩陣的相乘一般要求一矩陣的列維數(shù)與另一矩陣的行維數(shù)相同,而矩陣要求逆的話,一般要求它為一方陣。 矩陣的加減運算若A,B為兩個形狀相同的矩陣,兩矩陣的和為 C,R中表達式為:C<-A+B兩矩陣的差為 D,R中表達式為:D<-A-B卑微如螻蟻、堅強似大象共享知識 分享快樂矩陣也可以與數(shù)進行加減, A+5表示A中的每個元素加上 5。 矩陣的相乘操作符%*% 用于矩陣相乘。若矩陣 A的列數(shù)等于矩陣 B的行數(shù),矩陣 A乘以矩陣表示為:A%*%B注:X*Y表示兩個矩陣的逐元相乘,而不是 X和Y的乘積。 矩陣的求逆若矩陣A為一方陣,矩陣的逆可以用下面的命令計算: solve(A)。操作符solve()可以用來求解線性方程組: Ax=b,解為solve(A,b)在數(shù)學上,用直接求逆的辦法解x<-solve(A)%*%b相比solve(A,b)不僅低效而且還有一種潛在的不穩(wěn)定性。2.4矩陣的其他一些代數(shù)運算 求轉置矩陣轉置函數(shù)為 t() ,矩陣X的轉置為 t(X)。 提取對角元素提取對角元的函數(shù)為 diag()。例如:X<-matrix(1:4,2,2)diag(X)[1]14事實上,diag()的作用依賴于自變量, diag(vector)返回以自變量(向量)為主對角元素的對角矩陣;diag(matrix)返回由矩陣的主對角元素所組成的向量;diag(k)(k為標量)返回k階單位陣。矩陣的合并與拉直函數(shù)cbind()把幾個矩陣橫向拼成一個大矩陣,這些矩陣行數(shù)應該相同;函數(shù) rbind()把幾個矩陣列向拼成一個大矩陣,這些矩陣列數(shù)應該相同。 (如果參與合并的矩陣比其它矩陣行數(shù)少或列數(shù)少,則循環(huán)不足后合并。)例如:>m1<-matrix(1,nr=2,nc=2)>m1[,1][,2][1,] 1 1[2,] 1 1m2<-matrix(2,nr=2,nc=2)m2卑微如螻蟻、堅強似大象共享知識 分享快樂[,1][,2][1,] 2 2[2,] 2 2rbind(m1,m2)[,1][,2][1,] 1 1[2,] 1 1[3,] 2 2[4,] 2 2cbind(m1,m2)[,1][,2][,3][,4][1,] 1 1 2 2[2,] 1 1 2 2方陣的行列式求方陣的行列式使用 det():X<-matrix(1:4,2)>X[,1][,2][1,] 1 3[2,] 2 4det(X)[1]-2 矩陣的特征根和特征向量函數(shù)eigen()用來計算矩陣的特征值和特征向量。這個函數(shù)的返回值是一個含有values和vectors兩個分量的列表。命令A<-eigen(X)>A$values[1]5.3722813-0.3722813$vectors[,1][,2][1,]-0.5657675-0.9093767[2,]-0.82456480.4159736Inthefollowingexamples,AandBarematricesandxandbareavectors.OperatororFunctionDescriptionA*B卑微如螻蟻、堅強似大象共享知識 分享快樂Element-wisemultiplicationA%*%BMatrixmultiplicationA%o%BOuterproduct.AB'crossprod(A,B)crossprod(A)A'BandA'Arespectively.t(A)Transposediag(x)Createsdiagonalmatrixwithelementsofxintheprincipaldiagonaldiag(A)Returnsavectorcontainingtheelementsoftheprincipaldiagonaldiag(k)Ifkisascalar,thiscreatesakxkidentitymatrix.Gofigure.solve(A,b)Returnsvectorxintheequationb=Ax(i.e.,A-1b)solve(A)InverseofAwhereAisasquarematrix.ginv(A)Moore-PenroseGeneralizedInverseofA.ginv(A)requiresloadingtheMASSpackage.y<-eigen(A)y$valaretheeigenvaluesofAy$vecaretheeigenvectorsofAy<-svd(A)SinglevaluedecompositionofA.y$d=vectorcontainingthesingularvaluesofAy$u=matrixwithcolumnscontaintheleftsingularvectorsofAy$v=matrixwithcolumnscontaintherightsingularvectorsofAR<-chol(A)CholeskifactorizationofA.Returnstheuppertriangularfactor,suchthatR'R=A.y<-qr(A)QRdecompositionofA.y$qrhasanuppertrianglethatcontainsthedecompositionandalowertrianglethatcontainsinformationontheQdecomposition.y$rankistherankofA.y$qrauxavectorwhichcontainsadditionalinformationonQ.y$pivotcontainsinformationonthepivotingstrategyused.cbind(A,B,...)Combinematrices(vectors)horizontally.Returnsamatrix.rbind(A,B,...)卑微如螻蟻、堅強似大象共享知識 分享快樂Combinematrices(vectors)vertically.Returnsamatrix.rowMeans(A)Returnsvectorofrowmeans.rowSums(A)Returnsvectorofrowsums.colMeans(A)Returnsvectorofcolumnmeans.colSums(A)Returnsvectorofcoumnsums.其它函數(shù)交叉乘積(crossproduct), 函數(shù)為 crossprod() ,crossprod(X,Y) 表示一般的內積X′Y,即X的每一列與Y的每一列的內積組成的矩陣;QR分解,函數(shù)為qr(),矩陣X的QR分解為X=QR,Q為正交陣,R為上三角陣;等等。2.5矩陣的統(tǒng)計運算函數(shù)cov()和cor()分別用于計算矩陣的協(xié)方差陣和相關系數(shù)陣。矩陣的排列是有方向性的,在R中規(guī)定矩陣是按列排的,若沒有特別說明,函數(shù)max(),min(),median(),var(),sd(),sum(),cumsum(),cumprod(),cummax(),cummin()的使用對于矩陣也是按列計算的,但也可以通過選項MARGIN來改變。下面我們要用到對一個對象施加某種運算的函數(shù)apply(),其格式為>apply(X,MARGIN,FUN)其中X為參與運算的矩陣 ,FUN為上面的一個函數(shù)或“ +”、“-”、“*”、“\”(必須放在引號中),MARGIN=1表示按列計算, MARGIN=2表示按行計算。我們還用到sweep()函數(shù),命令>sweep(X,MARGIN,STATS,FUN)表示從矩陣X中按MATGIN計算STATS,并從X中除去(sweepout)。 求均值>m<-matrix(rnorm(n=12),nrow=3)>apply(m,MARGIN=1,FUN=mean)# 求各行的均值[1]-0.3773865 0.3864138 0.2052353>apply(m,MARGIN=2,FUN=mean)# 求各列的均值0.33862020.7320669-0.4624578-0.3225460 標準化>scale(m,center=T,scale=T) 減去中位數(shù)>row.med<-apply(m,MARGIN=1,FUN=median)>sweep(m,MARGIN=1,STATS=row.med,FUN= -”)卑微如螻蟻、堅強似大象共享知識 分享快樂第三章多元正態(tài)分布及參數(shù)的估計3.1繪制二元正態(tài)密度函數(shù)及其相應等高線圖書上例, 時的二元正態(tài)密度函數(shù)及其等高線圖:x<-seq(-3,3,by=0.1)y<-xf<-function(x,y,a=1,b=1,r=0){a1=sqrt(a)b1=sqrt(b)d=1-r*rd1=sqrt(d)*a1*b1z=1/(2*pi*d1)*exp((-x*x/a-y*y/b+2*r*x*y/(a1*b1))/(2*d))}z<-outer(x,y,f) #外積函數(shù)persp(x,y,z,xlim=range(x),ylim=range(y),zlim=range(z,na.rm=TRUE),theta=30,nticks=5,ticktype="detailed",sub=" σ1=σ2=1,ρ=0時的二元正態(tài)密度函數(shù) ")密度函數(shù)圖contour(x,y,z) # 等高線圖image(x,y,z) # 等高線圖,實際數(shù)據(jù)大小用不同色彩表示所得圖形為:卑微如螻蟻、堅強似大象共享知識 分享快樂相應等高線圖Outer(x,y,f)是一個一般性的外積函數(shù),調用函數(shù)f,把x的任一個元素與y的任意一個元素搭配起來作為f的自變量計算得到新的元素值,當函數(shù)缺省時表示乘積情況。卑微如螻蟻、堅強似大象共享知識 分享快樂對參數(shù)進行修改,可以繪制任一二元正態(tài)密度函數(shù)及其相應的等高線圖。3.2多元正態(tài)分布的參數(shù)估計 多元正態(tài)總體的相關量設觀測數(shù)據(jù)陣為樣本均值向量設 ,=1,2, ,,則樣本均值向量 Xn: ,由可得:>Xn<-apply(x,MARGIN=2,mean)或者ln<-rep(1,n)Xn<-(ln%*%x)/nXn即為所求樣本均值向量。樣本離差陣(交叉乘積陣)樣本離差陣A: 。>A<-crossprod(x)-2*Xn%*%t(Xn)或者m<-diag(1,n)-matrix(1,n,n)/nA<-t(x)%*%m%*%xA即為所求樣本離差陣。樣本協(xié)方差陣R中求樣本協(xié)方差陣的函數(shù)為 cov()。樣本數(shù)據(jù)陣 X的協(xié)方差矩陣S即為:>S<-cov(X)樣本相關陣R中求樣本協(xié)方差陣的函數(shù)為 cor()。樣本數(shù)據(jù)陣 X的協(xié)方差矩陣R即為:>R<-cor(X) 極大似然估計極大似然估計法是建立在極大似然原理基礎上的一種統(tǒng)計方法。設總體 X,其概率密度函數(shù)(連續(xù)情況)或分布律(離散情況)為 ,其中 是未知參數(shù)(或未知參數(shù)向量 )。設X1,X2,?,Xn為取自總體X的樣本,則似然函數(shù) 為:卑微如螻蟻、堅強似大象共享知識 分享快樂?, )=求使似然函數(shù)達到最大的參數(shù) 的值,即極大似然估計值。在單參數(shù)場合,在R中可以使用函數(shù)optimize()求極大似然估計值。optimize()的調用格式如下:optimize(f=,interval=,lower=min(interval),upper=max(interval),maximum=TRUE,tol= .Machine$double.eps^0.25, ?)說明:f是似然函數(shù), interval是參數(shù) 的取值范圍, lower是 的下界,upper是 的上界,maximum=TRUE是求極大值,否則(maximum=FALSE)表示求函數(shù)的極小值,tol是表示求值的精確度,?是對f的附加說明。在多參數(shù)場合,在R中用函數(shù)optim()或者nlm()來求似然函數(shù)的極大值,并求相應的極大值點。optim()的調用格式如下:optim(par,fn,gr=NULL,method=c("Nelder-Mead","BFGS","CG","L-BFGS-B","SANN"),lower=-Inf,upper=Inf,control=list(),hessian=FALSE, ?)nlm()的定義如下:nlm(f,p,hessian=FALSE,typsize=rep(1,length(p)),fscale=1,print.level=0,ndigit=12,gradtol=1e-6,stepmax=max(1000*sqrt(sum((p/typsize)^2)),1000),steptol=1e-6,iterlim=100,check.analyticals=TRUE, ?)三者主要區(qū)別是:函數(shù) nlm()僅使用牛頓-拉夫遜算法求函數(shù)的最小值點;函數(shù) optim()提供method選項給出的5種方法中的一種進行優(yōu)化;上面二個可用于多維函數(shù)的極值問題 ,,而函數(shù)optimize()僅適用于一維函數(shù),但可以用于最大與最小值點。(具體選項見幫助。)第四章多元正態(tài)總體參數(shù)的假設檢驗在一元統(tǒng)計中,用于檢驗一元正態(tài)總體參數(shù) , 的抽樣分布有 分布, 分布、F分布風,它們都是來自總體 的隨機樣本導出的檢驗統(tǒng)計量。推廣到多元正態(tài)總體后,也有相應于以上三個常用分布的統(tǒng)計量:威沙特( Wishart)統(tǒng)計量,霍特林( Hotelling )統(tǒng)計量,威爾克斯( Wilks) 統(tǒng)計量,這些統(tǒng)計量是多元統(tǒng)計分析所涉及的假設檢驗問題的基礎。4.1幾個重要統(tǒng)計量的分布對于多元正態(tài)總體來說 ,存在幾個重要的統(tǒng)計量 : 威沙特(Wishart)統(tǒng)計量,霍特林卑微如螻蟻、堅強似大象共享知識 分享快樂(Hotelling ) 統(tǒng)計量,威爾克斯( Wilks) 統(tǒng)計量等,討論這些統(tǒng)計量的分布是多元統(tǒng)計分析所涉及的假設檢驗問題的基礎。4.2單總體均值向量的檢驗及置信域均值向量的檢驗書上例,R程序如下x<-matrix(c(3.7,48.5,9.3,5.7,65.1,8.0,3.8,47.2,10.9,3.2,53.2,12.0,3.1,55.5,9.7,4.6,36.1,7.9,2.4,24.8,14.0,7.2,33.1,7.6,6.7,47.4,8.5,5.4,54.1,11.3,3.9,36.9,12.7,4.5,58.8,12.3,3.5,27.8,9.8,4.5,40.2,8.4,1.5,13.5,10.1,8.5,56.4,7.1,4.5,71.6,8.2,6.5,52.8,10.9,4.1,44.1,11.2,5.5,40.9,9.4),20,3,byrow=TRUE)>n<-20>p<-3>u0<-c(4,50,10)# 所給總體均值>ln<-rep(1,20)>x0<-(ln%*%x)/n # 樣本均值xm<-x0-u0mm<-diag(1,20)-matrix(1,20,20)/na<-t(x)%*%mm%*%x#樣本離差陣ai=solve(a)dd=xm%*%ai%*%t(xm)d2=(n-1)*ddt2=n*d2;>f<-(n-p)*t2/((n-1)*p)# 檢驗統(tǒng)計量>f[,1][1,]2.904546>fa<-qf(0.95,p,n-p)# 自由度為(p,n-p) 的F分布的0.95分位數(shù)>fa[1]3.196777>b<-1-pf(f,p,n-p)# 尾概率值>b[,1][1,]0.06492834>beta<-pf(fa,p,n-p,t2)# 犯第二類錯誤的概率(假設總體均值 )>beta[1]0.3616381取檢驗水平為 0.05,由尾概率值 p=0.06492834 0.05= ,可得 相容;同樣由卑微如螻蟻、堅強似大象共享知識 分享快樂F=2.904546 3.196777=Fa,也可得 相容。在這種情況下,可能犯第二類錯誤,概率為=0.3616(假定總體均值 )。樣本協(xié)方差陣的特征值和特征向量書上例,R程序為:x<-matrix(c(3.7,48.5,9.3,5.7,65.1,8.0,3.8,47.2,10.9,3.2,53.2,12.0,3.1,55.5,9.7,4.6,36.1,7.9,2.4,24.8,14.0,7.2,33.1,7.6,6.7,47.4,8.5,5.4,54.1,11.3,3.9,36.9,12.7,4.5,58.8,12.3,3.5,27.8,9.8,4.5,40.2,8.4,1.5,13.5,10.1,8.5,56.4,7.1,4.5,71.6,8.2,6.5,52.8,10.9,4.1,44.1,11.2,5.5,40.9,9.4),20,3,byrow=TRUE)s<-cov(x)s[,1] [,2] [,3][1,]2.87936810.0100-1.809053[2,]10.010000199.7884-5.640000[3,]-1.809053-5.64003.627658a<-eigen(s)a$values[1]200.4624644.5315911.301392$vectors[,1][,2][,3][1,]-0.05084144-0.573703640.81748351[2,]-0.998283520.05302042-0.02487655[3,]0.029071560.817345080.575414524.3多總體均值向量的檢驗 兩正態(tài)總體均值向量的檢驗書上例,R程序為:n<-10m<-10p<-4x<-matrix(c(65,75,60,75,70,55,60,65,60,55,35,50,45,40,30,40,45,40,50,55,25,20,35,40,30,35,30,25,30,35,60,55,65,70,50,65,60,60,70,75),10)>ln<-rep(1,n)>x0<-(ln%*%x)/n>mx<-diag(1,n)-matrix(1,n,n)/n卑微如螻蟻、堅強似大象共享知識 分享快樂a1<-t(x)%*%mx%*%xy<-matrix(c(55,50,45,50,55,60,65,50,40,45,+55,60,45,50,50,40,55,60,45,50,40,45,35,50,30,45,45,35,30,45,65,70,75,70,75,60,75,80,65,70),10)>y0<-(ln%*%y)/n>my<-diag(1,n)-matrix(1,n,n)/n>a2<-t(y)%*%my%*%y>a<-a1+a2>xy<-x0-y0>ai<-solve(a)>dd<-xy%*%ai%*%t(xy)>d2<-(m+n-2)*dd>t2<-n*m*d2/(n+m)f<-(n+m-1-p)*t2/((n+m-2)*p)pp<-1-pf(f,p,m+n-p-1)x0[,1][,2][,3][,4][1,]644330.563>y0[,1][,2][,3][,4][1,]51.5514070.5>a1[,1][,2][,3][,4][1,]490-170-120.0-245[2,]-17051010.0310[3,]-12010322.5260[4,]-245310260.0510>a2[,1][,2][,3][,4][1,]502.560175-7.5[2,]60.039050195.0[3,]175.050450-100.0[4,]-7.5195-100322.5>d2[,1][1,]5.972499>t2[,1][1,]29.86250>f[,1][1,]6.221353>pp[,1]卑微如螻蟻、堅強似大象共享知識 分享快樂[1,]0.003705807取檢驗水平為 0.01,根據(jù)尾概率值 p=0.003705807 0.01= ,可得應否定 。 多個正態(tài)總體均值向量的檢驗 -多元方差分析書上例,可利用類似例 或例 的程序進行計算得出結論。下面我們用R自帶的manova()函數(shù)進行分析。程序如下:x<-read.table("D:/data/d332.txt",header=T)x<-as.matrix(x[,1:4])rate<-factor(gl(3,20),labels=c("group1","group2","group3"))fit<-manova(x~rate)summary.aov(fit)# 對每一個變量進行單因素方差分析summary(fit,test="Wilks")# 使用威爾克斯 統(tǒng)計量程序結果:summary.aov(fit)Responsex1:DfSumSqMeanSqFvalue Pr(>F)rate 239066 19533 8.8780.0004401***Residuals 57125409 2200---Signif.codes:0 ‘***’0.001 ‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1Responsex2:DfSumSqMeanSqFvaluePr(>F)rate 2 4017 20092.82930.06738.Residuals 5740467 710---Signif.codes:0 ‘***’0.001 ‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1Responsex3:DfSumSqMeanSqFvaluePr(>F)rate 2 13.43 6.720.18380.8326Residuals 572082.50 36.54Responsex4:DfSumSqMeanSqFvaluePr(>F)rate 2 17.20 8.600.47850.6222Residuals 571024.40 17.97卑微如螻蟻、堅強似大象共享知識 分享快樂>summary(fit,test="Wilks")Df WilksapproxFnumDfdenDf Pr(>F)rate 20.662123.09069 8 1080.003538**Residuals57---Signif.codes:0 ‘***’0.001 ‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1結果說明:(1) 取檢驗水平為 0.01,則對四個指標逐項用一元方差分析方法進行檢驗,由 p值可得三個組指標間只有第一個指標 有顯著差異( =0.0004401);(2) 取檢驗水平為 0.01,利用威爾克斯 統(tǒng)計量得到 p=0.003538 0.01,故拒絕原假設,即認為三個組的指標之間有顯著差異。4.4協(xié)方差陣的檢驗 多總體協(xié)方差陣的檢驗書上例3.4.1,R程序略(類似例3.2.1或例3.3.1)4.5獨立性檢驗書中例,R程序為:x<-matrix(c(3.7,48.5,9.3,5.7,65.1,8.0,3.8,47.2,10.9,3.2,53.2,12.0,+3.1,55.5,9.7,4.6,36.1,7.9,2.4,24.8,14.0,7.2,33.1,7.6,6.7,47.4,8.5,+5.4,54.1,11.3,3.9,36.9,12.7,4.5,58.8,12.3,3.5,27.8,9.8,4.5,40.2,8.4,+1.5,13.5,10.1,8.5,56.4,7.1,4.5,71.6,8.2,6.5,52.8,10.9,4.1,44.1,11.2,+5.5,40.9,9.4),20,3,byrow=TRUE)n<-20p<-3x0<-(ln%*%x)/nxm<-x0-u0mm<-diag(1,20)-matrix(1,20,20)/na<-t(x)%*%mm%*%xa0<-det(a)a1<-a[1,1]*a[2,2]*a[3,3]v<-a0/a1b<-n-1.5-(p*p*p-3)/(3*p*p-3*3)df<-0.5*(p*(p+1)-2*3)kc<--b*log(v)p0<-1-pchisq(kc,df)kc9.755514>p0卑微如螻蟻、堅強似大象共享知識 分享快樂[1]0.02076288取檢驗水平為 0.05,根據(jù)尾概率值 p=0.02076288 0.05= ,可得應否定 ,由R軟件所的結果與 SAS軟件所的結果一致。4.6正態(tài)性檢驗書中例,R程序為:x<-matrix(c(100,99,96,99,96,75,97,68,76,62,67,34,100,97,100,96,78,97,89,88,84,39,78,37),12)n<-12p<-2ln<-rep(1,n)x0<-(ln%*%x)/ns<-cov(x)si<-solve(s)m<-0for(iin1:n){xx0<-x[i,]-x0dd<-xx0%*%si%*%t(xx0)print(c(i,dd))if(dd<=1.386)m<-m+1}1.0000000.8831922.00000000.77873063.0000000.6965184.0000000.7891365.0000002.1881546.0000002.3848757.00000000.87679298.0000002.0336529.00000000.269104110.0000005.04653111.00000000.789168812.0000005.264147>m7>pp<-m/n>pp0.5833333卑微如螻蟻、堅強似大象共享知識 分享快樂第五章判別分析判別分析是用于判斷樣品所屬類型的一種統(tǒng)計分析方法。判別分析的目的是對已知歸類的數(shù)據(jù)建立由數(shù)值指標構成的歸類規(guī)則,然后把這樣的規(guī)則應用到未知歸類的樣品去歸類。在生產、科研和日常生活中經常會遇到如何根據(jù)觀測到的數(shù)據(jù)資料對所研究的對象進行判別歸類的問題。判別分析問題一般可以如下描述:設有k個維總體,其分布特征已知(如已知分布函數(shù)分別為,,或知道來自各個總體的訓練樣本)。對給定的一個新樣品X,判斷它來自哪個總體。通常我們先對預先得到的來自這k個總體的若干個樣品(稱為訓練樣品)進行檢驗和歸類,來決定相應的判別歸類問題是否有意義及誤判可能性大小。然后再對給定的一個或幾個新的樣品,進行判別歸類,即決定它(們)自哪個總體。解決這個問題可以有多種途徑,下面我們分別討論幾種常用的方法,如距離判別、貝葉斯判別、Fisher判別等。R通用程序:首先我們要用命令>library(MASS)MASS包里的lda()針對線性判別分析。加載MASS宏包,再用函數(shù)lda()就可完成判別分析,其基本調用格式如下:lda(formula,data,...,subset,na.action)說明:formula用法為groupsx1+x2+?,group表明總體來源,x1,x2,?表示分類~指標;subset指明訓練樣本。具體說明見R幫助。5.1距離判別 馬氏距離馬氏距離定義:樣本X和總體其中 為總體均值向量, 為總體協(xié)方差陣。 兩總體的距離判別判別準則:其中 = , 為X到總體的距離。關于兩總體距離判別的 R程序(參考薛毅教授的《統(tǒng)計建模與 R軟件》一書):卑微如螻蟻、堅強似大象共享知識 分享快樂discriminiant.distance<-function(TrnX1,TrnX2,TstX=NULL,var.equal=FALSE){if(is.null(TstX)==TRUE) TstX<-rbind(TrnX1,TrnX2)if(is.vector(TstX)==TRUE) TstX<-t(as.matrix(TstX))elseif(is.matrix(TstX)!=TRUE)TstX<-as.matrix(TstX)if(is.matrix(TrnX1)!=TRUE)TrnX1<-as.matrix(TrnX1)if(is.matrix(TrnX2)!=TRUE)TrnX2<-as.matrix(TrnX2)nx<-nrow(TstX)blong<-matrix(rep(0,nx),nrow=1,byrow=TRUE,dimnames=list("blong",1:nx))mu1<-colMeans(TrnX1);mu2<-colMeans(TrnX2)if(var.equal==TRUE||var.equal==T){S<-var(rbind(TrnX1,TrnX2))w<-mahalanobis(TstX,mu2,S)-mahalanobis(TstX,mu1,S)}else{S1<-var(TrnX1);S2<-var(TrnX2)w<-mahalanobis(TstX,mu2,S2)-mahalanobis(TstX,mu1,S1)}for(iin1:nx){if(w[i]>0)blong[i]<-1elseblong[i]<-2}blong}在程序中,輸入變量TrnX1、TrnX2表示訓練樣本X1,X2,其輸入格式是數(shù)據(jù)框,或矩陣(樣本按行輸入),輸入變量TstX是待測樣本,其輸入格式是數(shù)據(jù)框,或矩陣(樣本按行輸入),或向量(一個待測樣本)。如果不輸入 TstX(缺省值),則待測樣本為兩個訓練樣本之和,即訓練樣本的回代情況。輸入變量var.equal是邏輯變量,var.equal==TRUE表示兩個總體的協(xié)方差相同;否則(缺省值)為不同。在上述程序中,用到馬氏距離函數(shù)mahalanobis(),該函數(shù)的使用格式為mahalanobis(x,center,cov,inverted=FALSE,...)其中x是樣本數(shù)據(jù)構成的向量或矩陣( p維),center為樣本中心, cov為樣本的協(xié)方差陣。對于書中例,調用discriminiant.distance()進行判別(假設協(xié)方差陣相等):x<-data.frame(x1=c(13.85,22.31,28.82,15.29,28.79),x2=c(2.79,4.67,4.63,3.54,4.90),x3=c(7.8,12.31,16.18,7.50,16.12),卑微如螻蟻、堅強似大象共享知識 分享快樂x4=c(49.6,47.8,62.15,43.20,58.10))y<-data.frame(x1=c(2.18,3.85,11.40,3.66,12.10),x2=c(1.06,0.80,0.00,2.42,0.00),x3=c(1.22,4.06,3.50,2.14,5.68),x4=c(20.60,47.10,0.00,15.10,0.00))testx<-rbind(c(8.85,3.38,5.17,26.10),c(28.60,2.40,1.20,127.0),c(20.70,6.70,7.60,30.20),c(7.90,2.40,4.30,33.20),c(3.19,3.20,1.43,9.90),c(12.40,5.10,4.43,24.60),c(16.80,3.40,2.31,31.30),c(15.00,2.70,5.02,64.00))discriminiant.distance(x,y,var.equal=TRUE)blong1111122222discriminiant.distance(x,y,testx,var.equal=TRUE)12345678blong21122111由程序結果可得待判樣品 2,3,6,7,8屬于含鉀鹽泉(A盆地),其余三個屬于不含鉀鹽泉(B盆地)。利用R自帶函數(shù)lda(),該例的R程序如下:w<-read.table(file="D:/data/disc511.txt",header=T)attach(w)names(w)library(MASS)z<-lda(group~x1+x2+x3+x4)z>pred<-predict(z)$class#predict() 是R內置函數(shù),可以將 lda() 的輸出應用于訓練樣品數(shù)據(jù)進行預測,從而進行對比。table(pred,group)newdata<-rbind(c(8.85,3.38,5.17,26.10),c(28.60,2.40,1.20,127.0),c(20.70,6.70,7.60,30.20),c(7.90,2.40,4.30,33.20),c(3.19,3.20,1.43,9.90),c(12.40,5.10,4.43,24.60),c(16.80,3.40,2.31,31.30),c(15.00,2.70,5.02,64.00))>newdata<-data.frame(newdata)>predict(z,newdata=newdata)>detach(w)R程序結果:Call:卑微如螻蟻、堅強似大象共享知識 分享快樂lda(group~x1+x2+x3+x4)Priorprobabilitiesofgroups:B0.50.5Groupmeans:x1 x2 x3 x4A21.8124.10611.98252.17B6.6380.8563.32016.56Coefficientsoflineardiscriminants:LD1x1-0.7794490x2-0.6888651x31.4115135x4-0.1192217grouppredABA50B05$classBAABBAAALevels:AB$posteriorA B11.639701e-039.983603e-0121.000000e+001.932625e-8331.000000e+001.269619e-2048.302424e-029.169758e-0151.190922e-069.999988e-0161.000000e+001.129611e-1071.000000e+001.161894e-2681.000000e+007.135903e-22$xLD11.0536512-31.2985593-7.52868290.3947245卑微如螻蟻、堅強似大象共享知識 分享快樂2.2416596-3.7639282-9.8136273-8.0017623結果說明:Groupmeans:包含了每組的平均向量;Coefficientsoflineardiscriminants:線性判別系數(shù);列聯(lián)表表明將訓練樣品數(shù)據(jù)代入線性判別函數(shù)后的判別結果,兩組都沒有錯判;由$class可以看出8個待判樣品,待判樣品2,3,6,7,8屬于含鉀鹽泉(A盆地),其余三個屬于不含鉀鹽泉(B盆地)(與上一程序結果一致);$posterior給出了后驗概率值(具體概念見5.2節(jié));6)$x給出了線性判別函數(shù)的數(shù)值。 多個總體的距離判別類似與兩個總體的情況,多個總體的情況,按照距離最近的原則對 X進行判別歸類時,首先計算樣品到各類的馬氏 (Mahalanobis)距離,然后進行比較,把待判樣品判歸距離最小的那個總體。(自編關于多個總體距離判別的 R函數(shù)可參考《統(tǒng)計建模與 R軟件一書》)。5.2貝葉斯判別法及廣義平方距離判別法 先驗概率(先知知識)設有k個總體 ,假設事先對所研究的問題有一定的認識,這種認識常用先驗概率來描述, 即已知這 k個總體各自出現(xiàn)的概率 (驗前概率)為 (顯然 , =1),這組驗前概率 稱為先驗概率。 廣義平方距離樣品X到總體 (=1, ?,k)的廣義平方距離 為:,其中是樣品X到總體 的馬氏距離;其中 為第類的組內樣本協(xié)方差陣。卑微如螻蟻、堅強似大象共享知識 分享快樂 后驗概率(條件概率)當樣品X已知時,它屬于 的概率就稱為后驗概率,一般記為 (或 )。 貝葉斯判別準則幾個概念:1.錯判概率和錯判損失;2.關于先驗概率的平均損失。定義5.2.1:設有k個總體:,相應的先驗概率為(,=1)。如果有判別法 ,使得 帶來的平均損失 達最小,則稱判別法 符合貝葉斯判別準則,或稱 為貝葉斯判別的解。出于例題需要,學習多總體的 Bayes判別程序(兩總體情況參考《統(tǒng)計建模與 R軟件一書》):distinguish.bayes<-function(TrnX,TrnG,p=rep(1,length(levels(TrnG))),TstX=NULL,var.equal=FALSE){if(is.factor(TrnG)==FALSE){mx<-nrow(TrnX);mg<-nrow(TrnG)TrnX<-rbind(TrnX,TrnG)TrnG<-factor(rep(1:2,c(mx,mg)))}if(is.null(TstX)==TRUE)TstX<-TrnXif(is.vector(TstX)==TRUE)TstX<-t(as.matrix(TstX))elseif(is.matrix(TstX)!=TRUE) TstX<-as.matrix(TstX)if(is.matrix(TrnX)!=TRUE) TrnX<-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論