數據統(tǒng)計分析初級統(tǒng)計及回歸分析顧世梁1.ppt_第1頁
數據統(tǒng)計分析初級統(tǒng)計及回歸分析顧世梁1.ppt_第2頁
數據統(tǒng)計分析初級統(tǒng)計及回歸分析顧世梁1.ppt_第3頁
數據統(tǒng)計分析初級統(tǒng)計及回歸分析顧世梁1.ppt_第4頁
數據統(tǒng)計分析初級統(tǒng)計及回歸分析顧世梁1.ppt_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據統(tǒng)計分析 初級統(tǒng)計及回歸分析 顧世梁 2008.09,生物統(tǒng)計是關于試驗的設計、實施,數據的收集、整理、分析和結果推論的科學。 從事試驗研究,需要對處理(措施、技術)的效應給出一個明確的結論(顯著與否)。 推論是先對研究對象的總體提出一種假設(hypothesis),再對該假設進行測驗(test)以計算在假設總體中抽得實際樣本(統(tǒng)計數)的概率來判斷。,1.1 二項總體分布 (0,1 分布) 若一個總體由0,1兩種元素組成,這樣的總體稱0,1總體。若取1的概率為p,記為P(1)=p,則P(0)=1-p=q,p+q=1.,1 幾種常見的分布 概率計算比較復雜,生物統(tǒng)計中所用的概率計算主要利用變數分布進行。,1.2 二項分布(binomial distribution) 二項分布是指在=p的二項總體中,以樣本容量n進行抽樣,樣本總和數 k (0kn)的概率分布。,1.3 普松分布(poisson distribution) 若n很大,p很小,其np=m,二項概率分布趨于普松分布。,1.4 正態(tài)分布(normal distribution) 若p接近0.5,n很大,二項概率分布趨于正態(tài)分布。,正態(tài)分布是最重要的連續(xù)性變數的分布,原因有3: 1、試驗研究中很多變數(性狀)服從正態(tài)分布; 2、一些間斷性變數在一定條件下趨于正態(tài)分布; 3、一些變數本身不服從正態(tài),但其統(tǒng)計數(如平均數)在一定條件下(樣本容量增大時)趨于正態(tài)分布。 這第3點是一個很重要的性質,因為我們將來對處理效應的推斷,往往是以平均數(或其它統(tǒng)計數)進行的。在對樣本容量較大的統(tǒng)計數進行統(tǒng)計推斷時,可不必考慮原變數服從何種分布,統(tǒng)計假設測驗均可在正態(tài)分布的基礎上進行。,了解一個變數(或一個統(tǒng)計數)服從某種分布,其目標是為了計算該變數(統(tǒng)計數)落在某一區(qū)間的概率。P(axb)=?,1.5 學生氏 t 分布( t distribution),標準正態(tài)離差,服從正態(tài)分布。,上述u分布在實際應用中存在問題,最主要的是無法得到,人們自然想到用樣本標準差 s 代替 計算u值,進而計算概率(假設測驗)。但經抽樣試驗發(fā)現(xiàn),這種替代是有問題的,尤其是在小樣本情況下,s 的變異度較大(而是常量)。它直接的效果是由此算出的值比 u 的變異度大。后經WS Gosset (1908)導出了該統(tǒng)計數(t)的概率密度函數 f(t)。,1.6 卡方分布(2 distribution),1.7 F分布( F distribution, RA Fisher, 1923),2 統(tǒng)計假設測驗 2.1 概念和基本步驟 我們在試驗過程中獲得了一個或多個樣本(統(tǒng)計數),其目的在于推斷由此代表的總體(參數)。得出處理效應存在與否的定性結論?;具^程有4步: 1)對未知總體(參數)提出假設 H0:=0, HA: 0; H0: = 0, HA: 0 ; 2)設定一個否定H0假設的小概率標準(顯著水平) ( =0.05, =0.01 ); 3)計算在假設條件下比實得樣本(統(tǒng)計數)還偏的概率p。 4)根據p與值的大小,接受或否定H0假設。,2.2 幾種常用的假設測驗,指的是該統(tǒng)計數的標準誤,亦即該統(tǒng)計數分布的標準差。,ttest(x, m0) ttest2(x1, x1),2.3 假設測驗的本質 1)顯著性,的大小是決定統(tǒng)計數與假設參數間、統(tǒng)計數間差異顯著性的主要因素。試驗研究中應盡量減小統(tǒng)計數的標準誤。一是減小試驗誤差(s);二是增大樣本容量(n)。,2)假設測驗的錯誤 利用概率進行測驗,有些情況下會犯錯誤。當正確的假設被否定時,就犯了棄真錯誤(I型錯誤, 錯誤);當錯誤的假設被接受時,就犯了取偽錯誤(II型錯誤, 錯誤)。犯兩類錯誤的概率不同。,3 方差分析 方差分析是將多個樣本作為一個整體,將總變異分解成相應變異來源的平方和和自由度,得到各變異來源方差的數量估計,用F測驗鑒別樣本間的差異顯著性。分三個內容: 1)分解平方和自由度,計算各變異來源的方差;其中MSe(或se)比較重要,它是測驗組間效應存在與否的標準; 2)F測驗, F=MSt/MSe; 3)多重比較,當F測驗顯著,應對處理平均數的差異顯著性作進一步說明。,3.1 單向分組資料的方差分析,xij為第i個處理的第j個觀察值,i=1,2,k, j=1,2,n.,Data structure,方差分析結果盡量以方差分析表表示。anova1(x),3.2 兩向分組資料的方差分析,xij為A因素第i個水平和B因素第j個水平組合(處理)的反應量,i=1,2,k; j=1,2,n.,Data structure,Anova2(x),或anova2(x,n)。,3.3 系統(tǒng)分組資料的方差分析,xijk為第i組、第j亞組、第k個反應量,i=1, 2, , l; j=1,2,m;k=1, 2, , n.,Data structure,xijk,較復雜的系統(tǒng)分組資料還可能在亞組中繼續(xù)再分成小亞組(小小亞組);每一組具有不同的亞組數(mi不全相同),每一亞組具有不完全相同的觀察值數目(nij不全相同)。,xijk為第i 組,第j亞組,第k個(處理)的反應量,i=1, 2, , l; j=1,2,mi;k=1, 2, , nij.,3.4 單因素完全隨機試驗資料的分析 即單向分組資料的方差分析。 3.5 單因素隨機區(qū)組試驗資料的分析 即兩向分組資料的方差分析。 3.6 二因素隨機區(qū)組試驗資料的分析 A因素有a個水平,B因素有b個水平,均衡搭配時有ab個處理;r個重復(r個區(qū)組),abr個觀察值。方差分析分兩步:,1)構建處理區(qū)組兩向表,按處理區(qū)組兩向分組數據模型分解平方和、自由度:,2)構建AB兩向表,按AB因素兩向分解平方和、自由度。,二因素、多因素完全隨機試驗、隨機區(qū)組試驗資料的方差分析均可用anovan的命令實現(xiàn)。 格式:anovan(x, group, model),Anovan (多因素資料的方差分析) Anovan(x, group, model) 三因素 model=1 2 3 4 5 6 7 (三因素方差分析編碼表),四因素方差分析編碼表(model),3.7 一些處理效應再分解的方差分析 1)單一自由度比較; 2)其他分解的一些實例。 Lsh.m; cg.m.,如例8.1(水稻N肥試驗),5個處理(ABCDE)具有SSt=301.2,dft=4,可將其進一步分解:,ABCD vs E df1=1, SS1=198.45;AB vs CD df2=1, SS2=72.25 A vs B df3=1, SS3=12.5; C vs D df4=1, SS4=18.0,4 回歸和相關分析 4.1 一元線性回歸分析 對于雙變數資料的回歸分析,主要有三項任務: 1)建立 Y 依 X 的量化關系,即估計回歸統(tǒng)計數和回歸方程; 2)估計離回歸誤差,對回歸方程和回歸統(tǒng)計數進行統(tǒng)計假設測驗; 3)回歸方程的進一步利用。,模型:,據:,對Q分別對a、b求偏導并 使其為0,得正規(guī)方程組:,解得:,4.2 回歸分析的矩陣方法,回歸分析是用最小二乘法(least squares method)估計回歸統(tǒng)計數B=(a, b),使離回歸平方和(Q, RSS)最?。?實例和matlab命令集 clear; clc x=1.58, 9.98, 9.42, 1.25, .30, 2.41, 11.01, 1.85, 6.04, 5.92 y=180, 28, 25, 117, 165, 175, 40, 160, 120, 80 x=x(:); y=y(:); n=size(y,1); SSy=var(y)*(n-1); SSx=var(x)*(n-1); xbar=mean(x); ybar=mean(y); X=ones(n,1),x; A=X*X; K=X*y; SumX=A(1,2); SumY=K(1); SumX2=A(2,2); SumXY=K(2); SP=SumXY-SumX*SumY/n C=inv(A), B=AK, B=C*K, B=X*XX*y, b=Xy Q=y*y-B*K, U=SSy-Q, MSQ=Q/(n-2), syx=sqrt(MSQ) F=U/MSQ; p=1-fcdf(F,1,n-2); disp(F=,num2str(F), p=,num2str(p) sa=syx*sqrt(C(1,1), sb=syx*sqrt(C(2,2) ta=b(1)/sa; pa=2*tcdf(-abs(ta),n-2); disp(ta=,num2str(ta), p=,num2str(pa) tb=b(2)/sb; pb=2*tcdf(-abs(tb),n-2); disp(tb=,num2str(tb), p=,num2str(pb) r=corr(x,y), r2=SP2/SSx/SSy sr=sqrt(1-r2)/(n-2), tr=r/sr,4.3 多元線性回歸分析,當其中的自變數不顯著時,應將其剔除。剔除的過程應采用逐步回歸的方法,即每次剔除一個偏回歸平方和最小且不顯著的自變數,直至所有的自變數均顯著(下同)。,實例和matlab命令集 clear;clc,alpha=.05; x1=10, 9, 10, 13, 10, 10, 8, 10, 10, 10, 10, 8, 6, 8, 9; x2=23, 20, 22, 21, 22, 23, 23, 24, 20, 21, 23, 21, 23, 21, 22; x3=3.6,3.6,3.7,3.7,3.6,3.5,3.3,3.4,3.4,3.4,3.9,3.5,3.2,3.7,3.6; x4=113, 106,111,109,110,103,100,114,104,110,104,109,114,113,105; y=15.7,14.5,17.5,22.5,15.5,16.9,8.6,17,13.7,13.4,20.3,10.2,7.4,11.6,12.3; x=x1,x2,x3,x4; load regm %x=rand(100,40);y=rand(100,1); %data=xlsread(regm); y=data(:,end);data(:,end)=;x=data;data=; %data=load(regm.csv); y=data(:,end);data(:,end)=;x=data;data=; n,m=size(x);SSy=var(y)*(n-1); X=ones(n,1),x; A=X*X;K=X*y;C=inv(A) b=AK,%b=C*K,b=X*XX*y,b=Xy Q=y*y-b*K,U=SSy-Q,MSQ=Q/(n-m-1),syx=sqrt(MSQ) Fm=U/m/MSQ; p=1-fcdf(Fm,m,n-m-1);disp(Fm=,num2str(Fm), p=,num2str(p) Up=b.*b./diag(C);Up(1)=; F=Up/MSQ, pr=1-fcdf(F,1,n-m-1),for i=1:m if i=alpha qi=find(F=min(F); pr=1-fcdf(min(F),1,n-m-1); if pr=alpha disp(num2str(qi), ,num2str(min(F), del ,tr(qi,:) tr(qi,:)=; X(:,qi+1)=; m=m-1; end A=X*X; K=X*y; b=Xy; Q=y*y-b*K; MSQ=Q/(n-m-1); C=inv(A); Up=b.*b./diag(C);Up(1)=; F=Up/MSQ; pr=1-fcdf(F,1,n-m-1); end,disp(Last Results:) disp( Xi bi Upi Fi pFi) disp(X0 ,num2str(b(1) for i=1:m disp(tr(i,:), ,num2str(b(i+1), ,num2str(Up(i), , num2str(F(i), ,num2str(pr(i) end disp(Error ,num2str(n-m-1), ,num2str(Q), ,num2str(MSQ) disp(Total ,num2str(n-1), num2str(SSy) r2=(SSy-Q)/SSy,多元線性回歸分析的有關假定與注意事項: 假定1:誤差是正態(tài)分布的; 假定2:每一自變數對依變數的作用僅為線性。 假定2不滿足對回歸結果影響較大。 注意1:自變數個數(m)必須少于觀察值組數(n); 注意2:避免自變數共線性情形,共線性指變數間高度相關或一個變數是其他變數的線性組合。 若結構陣不滿秩,信息陣是奇異或病態(tài)的,逆陣不存在或有很大偏差,無法求解回歸系數或有很大誤差,難于對回歸模型及回歸統(tǒng)計數進行客觀真實的假設測驗?;貧w分析無法進行,或所得結果不可信。,4.4 一元線性相關分析 計算X、Y相關性質和程度的統(tǒng)計數相關系數r,4.5 多元線性相關分析 計算m個變數X(Y)的(簡單)相關系數rij:,4.6 多元偏相關分析 m個變數X(Y)在其它變數皆固定在某一水平時,余下兩個變數間的相關稱為偏相關。,4.7 通徑分析 計算m個自變數 Xj 與 Y 關系的相對重要性,可用直接通徑系數pj表示。,4.8 一元多項式回歸分析 計算1個自變數 X與 Y 的多項式回歸也很常見。,m為模型中Xj冪的項數。,Up1, Up2, Up3, Up4 分別為線性(linear), 二次(Quadratic), 三次(cubic), 四次(4th degree)響應(response).,一元多項式回歸分析的幾點注意: 1) 隨著k的增加,回歸平方和增加,離回歸平方和減小,k不應超過n-2。當k=n-1時,離回歸平方和等于0(即所有的點都在線上)。但這并非很好,若用此方程進行預測(中間插值或外推)可能會相差很遠。因此,合適的高次冪應由適當的判斷和測驗所決定。從數學關系可知,2次式沒有拐點;3次式有一個拐點;4次式有兩個拐點;及此類推。 2)多項式方程的假設測驗一般先對最高次冪進行,若不顯著時順次向下測驗;在最高次冪確定保留的前提下,再對其他項的保留(或刪除)進行鑒別。,上述一元線性、多元線性、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論