R語言基礎(chǔ)培訓(xùn)第二講常用統(tǒng)計(jì)分析ppt課件_第1頁
R語言基礎(chǔ)培訓(xùn)第二講常用統(tǒng)計(jì)分析ppt課件_第2頁
R語言基礎(chǔ)培訓(xùn)第二講常用統(tǒng)計(jì)分析ppt課件_第3頁
R語言基礎(chǔ)培訓(xùn)第二講常用統(tǒng)計(jì)分析ppt課件_第4頁
R語言基礎(chǔ)培訓(xùn)第二講常用統(tǒng)計(jì)分析ppt課件_第5頁
已閱讀5頁,還剩52頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于R的根本統(tǒng)計(jì)分析內(nèi)容提要描畫統(tǒng)計(jì)頻數(shù)表分析方差分析t檢驗(yàn)卡方檢驗(yàn)線性回歸相關(guān)分析描畫分析(Descriptive statistics)描畫統(tǒng)計(jì)就是把數(shù)據(jù)集所包含的信息加以簡(jiǎn)要地概略,如計(jì)算數(shù)據(jù)的數(shù)字特征、制造頻數(shù)表和頻數(shù)圖等等,用所獲得的統(tǒng)計(jì)量和圖表來描畫數(shù)據(jù)集所反映的特征和規(guī)律,使得研討的問題更加簡(jiǎn)單、直觀。 描畫性統(tǒng)計(jì)主要包括反映數(shù)據(jù)集中趨勢(shì)的特征值(比如平均數(shù)、中位數(shù)、眾數(shù)、分位數(shù))、數(shù)據(jù)離散程度的特征值(比如方差、規(guī)范差、值域、變異系數(shù))和數(shù)據(jù)分布形狀的特征值(比如偏度、峰度)。 規(guī)范差std.dev和規(guī)范誤SE.mean規(guī)范差std.dev真實(shí)均值SE樣本均值當(dāng)樣本含量 n 足

2、夠大時(shí),規(guī)范差趨向穩(wěn)定;而規(guī)范誤隨n的增大而減小,甚至趨于0 。 規(guī)范差std.dev和規(guī)范誤SE.mean 比如,某學(xué)校共有500名學(xué)生,如今要經(jīng)過抽取樣本量為30的一個(gè)樣本,來推斷學(xué)生的身高。這時(shí)可以根據(jù)抽取的樣本信息,計(jì)算出樣本的均值與規(guī)范差。假設(shè)我們抽取的不是一個(gè)樣本,而是10個(gè)樣本,每個(gè)樣本30人,那么每個(gè)樣本都可以計(jì)算出均值,這樣就會(huì)有10個(gè)均值。也就是構(gòu)成了一個(gè)10個(gè)數(shù)字的數(shù)列,然后計(jì)算這10個(gè)數(shù)字的規(guī)范差,此時(shí)的規(guī)范差就是規(guī)范誤。但是,在實(shí)踐抽樣中我們不能夠抽取10個(gè)樣本。所以,規(guī)范誤就由樣本規(guī)范差除以樣本量來表示。當(dāng)然,這樣的結(jié)論也不是隨心所欲,而是經(jīng)過了統(tǒng)計(jì)學(xué)家的嚴(yán)密證明的

3、。 SE.mean= std.dev / n1/2在實(shí)踐的運(yùn)用中,規(guī)范差主要有兩點(diǎn)作用,一是統(tǒng)計(jì)量樣本離散程度的表征;二是用來對(duì)樣本進(jìn)展規(guī)范化處置,即樣本察看值減去樣本均值,然后除以規(guī)范差,這樣就變成了規(guī)范正態(tài)分布。規(guī)范誤的作用主要是用來做區(qū)間估計(jì),常用的估計(jì)區(qū)間是均值加減n倍的規(guī)范誤例如95%的置信區(qū)間是:均值+1.96*SE規(guī)范差std.dev和規(guī)范誤SE.mean95% CI:假設(shè)上面這個(gè)隨機(jī)抽樣估計(jì)學(xué)生身高的例子,抽樣100次,每次抽10個(gè)學(xué)生丈量身高,均值估計(jì)值及規(guī)范誤為 152cm12cm。但有時(shí)需求表示為估計(jì)量的95%的置信區(qū)間152cm-1.96*12cm,152cm+1.96

4、*12cm??梢越忉尀?,假設(shè)從再?gòu)目傮w中抽樣100次每次抽樣10個(gè),產(chǎn)生100個(gè)平均值,這100個(gè)平均值將有95次落在152cm-1.96*12cm,152cm+1.96*12cm這個(gè)范圍內(nèi),5次落在這個(gè)范圍外,假設(shè)抽樣次數(shù)越多,這個(gè)推斷越準(zhǔn)確。這個(gè)來源于中心極限定理的運(yùn)用:任何分布(總體)抽樣n次,每次抽樣的和符合正態(tài)分布。通俗一點(diǎn)說, 不論是學(xué)校的學(xué)生身高是怎樣分布, 每次隨機(jī)抽取10個(gè)求和, 抽取n次,這n個(gè)身高總和是符合正態(tài)分布的。平均身高為身高總和除于10,所以平均身高也是正態(tài)分布的。正態(tài)分布雙尾95%的分界點(diǎn)所對(duì)應(yīng)的值剛好是1.96。峰度Kurtosis峰度Kurtosis是描畫某

5、變量一切取值分布形狀陡緩程度的統(tǒng)計(jì)量。 它是和正態(tài)分布相比較的。Kurtosis=0 與正態(tài)分布的陡緩程度一樣。Kurtosis0 比正態(tài)分布的頂峰更加峻峭尖頂Kurtosis0 正偏向數(shù)值較大,為正偏或右偏。長(zhǎng)尾巴拖在右邊Skewness0 負(fù)偏向數(shù)值較大,為負(fù)偏或左偏。長(zhǎng)尾巴拖在左邊計(jì)算公式:Skewness 越大,分布形狀偏移程度越大頻數(shù)表(Frequency table)分析 頻數(shù)表分析是對(duì)數(shù)據(jù)集按數(shù)據(jù)范圍分成假設(shè)干區(qū)間,即分成假設(shè)干組,求出每組組中值,各組數(shù)據(jù)用組中值替代,計(jì)算各組數(shù)據(jù)的頻數(shù),并作出頻數(shù)表。 頻數(shù)表分析例子summary(oats$yield)# 計(jì)算頻數(shù)A - ta

6、ble(cut(oats$yield, breaks = 40 + 20 * (0:7) round(prop.table(A) * 100,2) # 計(jì)算頻數(shù)比例# 畫頻數(shù)表hist(oats$yield, # breaks = 7, xlim = c(40,180), xlab = yield, main = Frequency chart of yield)方差分析ANOVA方差分析是一種在假設(shè)干組能相互比較的實(shí)驗(yàn)數(shù)據(jù)中,把產(chǎn)生變異的緣由加以區(qū)分的方法與技術(shù),其主要用途是研討外界要素或?qū)嶒?yàn)條件的改動(dòng)對(duì)實(shí)驗(yàn)結(jié)果影響能否顯著。類型:?jiǎn)我胤讲罘治?One-way ANOVA)、雙要素方差分析

7、(Two-way ANOVA) 。方差分析的根本模型是線性模型,并假設(shè)隨機(jī)變量是獨(dú)立、正態(tài)和等方差的。方差分析是根據(jù)平方和的加和原理,利用 F 檢驗(yàn),進(jìn)而判別實(shí)驗(yàn)要素對(duì)實(shí)驗(yàn)結(jié)果的影響能否顯著。單要素方差分析# Tukey HSD 方法 #install.packages(multcomp)library(multcomp)tuk - glht(fit, linfct = mcp(Treat = Tukey)summary(tuk) # standard displaytuk.cld - cld(tuk) # letter-based displayopar chisq.test(freq,p=

8、probs) Chi-squared test for given probabilitiesdata: freqX-squared = 6.7, df = 5, p-value = 0.2423卡方檢驗(yàn)28x = c(100,110,80,55,14)probs = c(29, 21, 17, 17, 16)/100 chisq.test(x,p=probs) chisq.test(x,p=probs) Chi-squared test for given probabilitiesdata: xX-squared = 55, df = 4, p-value = 2.685e-11卡方檢驗(yàn)列

9、聯(lián)表29yesbelt = c(12813,647,359,42)nobelt = c(65963,4000,2642,303)chisq.test(data.frame(yesbelt,nobelt) chisq.test(data.frame(yesbelt,nobelt) Pearsons Chi-squared testdata: data.frame(yesbelt, nobelt)X-squared = 59, df = 3, p-value = 8.61e-13練習(xí)四以數(shù)據(jù)stu.data.csv為例,試對(duì)體重做頻數(shù)分析。請(qǐng)分析身高能否符合正態(tài)分布?試分析性別對(duì)體重有無影響。問題

10、4:請(qǐng)檢驗(yàn)總體平均體重與60kg有無顯著差別?男生和女生的平均體重有無顯著差別?問題5:男女生比例能否符合 1.2 : 1.0?練習(xí)四 答案df-read.csv(file=stu.data.csv,header=T)#問題1A - table(cut(df$weight, breaks = 40 + 15 * (0:7) round(prop.table(A) * 100,2) # 計(jì)算頻數(shù)比例hist(df$weight, breaks = 7, xlim = c(40,140), xlab = weight, main = Frequency chart of weight)#問題2sh

11、apiro.test(df$height)#問題3fit-aov(weight Sex,data=df)summary(fit)library(agricolae)duncan.test(fit, Sex, alpha=0.05)$groups#問題4t.test(df$weight, mu = 60, alternative = two.sided)wt.m-subset(df$weight,df$Sex=男)wt.f-subset(df$weight,df$Sex=女)var.test(wt.m,wt.f) #等方差檢驗(yàn)t.test(wt.m,wt.f, paired=F) #問題5sum

12、mary(df$Sex)ct-c(87, 33)pt 0,公式是有效的。多項(xiàng)式回歸fit - lm( weight N + I(N2), data = df ) # 二次項(xiàng)回歸模型 summary( fit ) # 回歸分析結(jié)果 plot( df$N, df$weight ) # 繪制散點(diǎn)圖 lines( df$N, fitted(fit) ) # 添加回歸線 添加光滑曲線require(graphics)plot(cars, main = lowess(cars)lines(cars)lines(lowess(cars), col = 2)多元線性逐漸回歸最優(yōu)線性回歸方程為: y= -649

13、.779 + 14.592x1 + 6.841x2 + 9.329x3 回歸方程闡明:對(duì)于川農(nóng) 16 號(hào)小麥而言,當(dāng) x2 和 x3 固定時(shí),穗數(shù) x1 每添加 1萬/畝,產(chǎn)量 y 將平均添加 14.592Kg/畝;當(dāng) x1 和 x3 固定時(shí),每穗粒數(shù) x2 每添加 1粒,產(chǎn)量 y 將平均添加 6.841Kg/畝;當(dāng) x1 和 x2 固定時(shí),千粒重 x3 每添加 1g,產(chǎn)量y 將平均添加 9.329 Kg/畝。自變量的作用主次第一種方法:計(jì)算通徑系數(shù)(path coefficient, p)。df.2 - as.data.frame( scale(df) ) #對(duì)數(shù)據(jù)集做規(guī)范化處置 lmfit

14、 round(coef(lmfit),3) (Intercept) x1 x2 x3 0.000 0.777 0.410 0.609 第二種方法:根據(jù) x1、x2、x3 回歸系數(shù)的 t 值大小,也可判別自變量 x 的主次順序,凡是 t 值較大者就是較重要的因子。結(jié)論:自變量 x 的主次順序?yàn)椋核霐?shù) x1 千粒重 x3 每穗粒數(shù) x2。交互作用多元線性回歸練習(xí)四以數(shù)據(jù)stu.data.csv為例,試對(duì)體重做頻數(shù)分析。請(qǐng)分析身高能否符合正態(tài)分布?試分析性別對(duì)體重有無影響。問題4:請(qǐng)檢驗(yàn)總體平均體重與60kg有無顯著差別?男生和女生的平均體重有無顯著差別?問題5:男女生比例能否符合 1.2 : 1.

15、0?練習(xí)四 答案df-read.csv(file=stu.data.csv,header=T)#問題1A - table(cut(df$weight, breaks = 40 + 15 * (0:7) round(prop.table(A) * 100,2) # 計(jì)算頻數(shù)比例hist(df$weight, breaks = 7, xlim = c(40,140), xlab = weight, main = Frequency chart of weight)#問題2shapiro.test(df$height)#問題3fit-aov(weight Sex,data=df)summary(fi

16、t)library(agricolae)duncan.test(fit, Sex, alpha=0.05)$groups#問題4t.test(df$weight, mu = 60, alternative = two.sided)wt.m-subset(df$weight,df$Sex2=1)wt.f-subset(df$weight,df$Sex2=2)var.test(wt.m,wt.f) #等方差檢驗(yàn)t.test(wt.m,wt.f, paired=F) #問題5summary(df$Sex)ct-c(87, 33)pt corr.test(df, use = complete)Call

17、:corr.test(x = df, use = complete)Correlation matrix h dbh v cpro wd wpro tl tw lrth 1.00 0.86 0.90 -0.43 -0.29 0.32 -0.20 -0.04 -0.17dbh 0.86 1.00 0.98 -0.41 -0.35 0.39 -0.18 -0.15 -0.07v 0.90 0.98 1.00 -0.43 -0.38 0.43 -0.20 -0.11 -0.12cpro -0.43 -0.41 -0.43 1.00 0.22 -0.25 0.18 -0.08 0.20wd -0.29

18、 -0.35 -0.38 0.22 1.00 -0.98 -0.09 -0.08 0.00wpro 0.32 0.39 0.43 -0.25 -0.98 1.00 0.02 -0.02 0.01tl -0.20 -0.18 -0.20 0.18 -0.09 0.02 1.00 0.16 0.79tw -0.04 -0.15 -0.11 -0.08 -0.08 -0.02 0.16 1.00 -0.47lrt -0.17 -0.07 -0.12 0.20 0.00 0.01 0.79 -0.47 1.00Sample Size 1 30Probability values (Entries ab

19、ove the diagonal are adjusted for multiple tests.) h dbh v cpro wd wpro tl tw lrth 0.00 0.00 0.00 0.53 1.00 1.00 1.00 1.00 1.00dbh 0.00 0.00 0.00 0.63 1.00 0.85 1.00 1.00 1.00v 0.00 0.00 0.00 0.53 0.92 0.53 1.00 1.00 1.00cpro 0.02 0.02 0.02 0.00 1.00 1.00 1.00 1.00 1.00wd 0.12 0.06 0.04 0.24 0.00 0.00 1.00 1.00 1.00wpro 0.08 0.03 0.02 0.18 0.00 0.00 1.00

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論