《統(tǒng)計(jì)學(xué)-基于R》第3章-數(shù)據(jù)的描述統(tǒng)計(jì)量(R3)_第1頁(yè)
《統(tǒng)計(jì)學(xué)-基于R》第3章-數(shù)據(jù)的描述統(tǒng)計(jì)量(R3)_第2頁(yè)
《統(tǒng)計(jì)學(xué)-基于R》第3章-數(shù)據(jù)的描述統(tǒng)計(jì)量(R3)_第3頁(yè)
《統(tǒng)計(jì)學(xué)-基于R》第3章-數(shù)據(jù)的描述統(tǒng)計(jì)量(R3)_第4頁(yè)
《統(tǒng)計(jì)學(xué)-基于R》第3章-數(shù)據(jù)的描述統(tǒng)計(jì)量(R3)_第5頁(yè)
已閱讀5頁(yè),還剩41頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)分析

(方法與案例)

作者賈俊平版權(quán)所有違者必究StatisticswithR統(tǒng)計(jì)學(xué)R語(yǔ)言第3章數(shù)據(jù)的描述統(tǒng)計(jì)量3.1

描述水平的統(tǒng)計(jì)量

3.2描述差異的統(tǒng)計(jì)量3.3描述分布形狀的統(tǒng)計(jì)量3.4數(shù)據(jù)的綜合描述

ummaryS3.1描述水平的統(tǒng)計(jì)量

3.1.1平均數(shù)

3.1.2分位數(shù)

3.1.3眾數(shù)第3章數(shù)據(jù)的描述統(tǒng)計(jì)量

3.1.1平均數(shù)3.1描述水平的統(tǒng)計(jì)量2018-9-25平均數(shù)

(mean)也稱為均值,常用的統(tǒng)計(jì)量之一消除了觀測(cè)值的隨機(jī)波動(dòng)易受極端值的影響根據(jù)總體數(shù)據(jù)計(jì)算的,稱為總體平均數(shù),記為

;根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本平均數(shù),記為

x2018-9-25計(jì)算簡(jiǎn)單平均數(shù)#計(jì)算30名學(xué)生考試分?jǐn)?shù)的平均數(shù)

load("C:/example/ch3/example3_1.RData")mean(example3_1$分?jǐn)?shù))設(shè)一組數(shù)據(jù)為:x1,x2,…,xn(總體數(shù)據(jù)xN)樣本平均數(shù)總體平均數(shù)

2018-9-25計(jì)算加權(quán)平均數(shù)#計(jì)算30名學(xué)生考試分?jǐn)?shù)的加權(quán)平均數(shù)

load("C:/example/ch3/example3_2.RData")

weighted.mean(example3_2$組中值,example3_2$人數(shù))

樣本加權(quán)平均數(shù)總體加權(quán)平均數(shù)

3.1.2分位數(shù)3.1描述水平的統(tǒng)計(jì)量2018-9-25中位數(shù)

(median)排序后處于中間位置上的值。不受極端值影響Me50%50%位置確定數(shù)值確定

2018-9-25計(jì)算中位數(shù)#計(jì)算10名學(xué)生考試分?jǐn)?shù)的中位數(shù)【例3—2】30名學(xué)生的考試分?jǐn)?shù)的中位數(shù)load("C:/example/ch3/example3_1.RData")median(example3_1$分?jǐn)?shù))2018-9-25四分位數(shù)

(quartile)用3個(gè)點(diǎn)等分?jǐn)?shù)據(jù)。排序后處于25%和75%位置上的值Q25%Q50%Q75%25%25%25%25%SPSS算法R算法:type=6R算法——共9種。參見(jiàn)help

2018-9-25計(jì)算四分位數(shù)#計(jì)算30名學(xué)生考試分?jǐn)?shù)的四分位數(shù)(example3_1)#匯總輸出基本的描述統(tǒng)計(jì)量(example3_1)

用R計(jì)算匯總輸出基本的描述統(tǒng)計(jì)量load("C:/example/ch3/example3_1.RData")quantile(example3_1$分?jǐn)?shù),probs=c(0.25,0.75),type=6)load("C:/example/ch3/example3_1.RData")summary(example3_1$分?jǐn)?shù))#默認(rèn)使用type=72018-9-25百分位數(shù)

(percentile)

2018-9-25計(jì)算百分位數(shù)#計(jì)算30名學(xué)生考試分?jǐn)?shù)的百分位數(shù)(example3_1)load("C:/example/ch3/example3_1.RData")quantile(example3_1$分?jǐn)?shù),probs=c(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9),type=6)3.1.3眾數(shù)3.1描述水平的統(tǒng)計(jì)量2018-9-25眾數(shù)

(mode)一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值適合于數(shù)據(jù)量較多時(shí)使用不受極端值的影響一組數(shù)據(jù)可能沒(méi)有眾數(shù)或有幾個(gè)眾數(shù)2018-9-25計(jì)算眾數(shù)#編寫(xiě)函數(shù)計(jì)算眾數(shù)(example3_1)#which.max函數(shù)

—無(wú)眾數(shù)返回1,雙眾數(shù)只返回第一個(gè)

load("C:/example/ch3/example3_1.RData")mode<-function(x){ux<-sort(unique(x))#列出每一個(gè)的數(shù)值并排序tab<-tabulate(match(x,ux))#比較x與ux中相同的數(shù)值,列出它們?cè)趗x中位置,再計(jì)算每個(gè)位置的頻數(shù)ux[tab==max(tab)]#找出ux對(duì)象中頻數(shù)最多的元素}mode(example3_1$分?jǐn)?shù))#使用mode函數(shù)計(jì)算對(duì)象的眾數(shù)load("C:/example/ch3/example3_1.RData") which.max(table(example3_1$分?jǐn)?shù)))14#眾數(shù)在頻數(shù)分布表的第14位3.2描述差異的統(tǒng)計(jì)量

3.2.1極差和四分位差

3.2.2方差和標(biāo)準(zhǔn)差

3.2.3變異系數(shù)

3.2.4標(biāo)準(zhǔn)分?jǐn)?shù)第3章數(shù)據(jù)的描述統(tǒng)計(jì)量

3.2.1極差和四分位差3.2描述差異的統(tǒng)計(jì)量2018-9-25極差

(range)一組數(shù)據(jù)的最大值與最小值之差離散程度的最簡(jiǎn)單測(cè)度值易受極端值影響未考慮數(shù)據(jù)的分布計(jì)算公式為:load("C:/example/ch3/example3_1.RData")R<-max(example3_1$分?jǐn)?shù))-min(example3_1$分?jǐn)?shù));R#或?qū)憺椋篟<-diff(range(example3_1$分?jǐn)?shù)));R

2018-9-25四分位差

(interquartilerange)也稱四分位距。上四分位數(shù)與下四分位數(shù)之差反映了中間50%數(shù)據(jù)的離散程度不受極端值的影響用于衡量中位數(shù)的代表性R函數(shù):

IQR(example3_1$分?jǐn)?shù),type=6)2018-9-25四分位差

(interquartilerange)【例3—7】計(jì)算30名學(xué)生考試分?jǐn)?shù)極差和四分位差例#計(jì)算極差

#計(jì)算四分位差

load("C:/example/ch3/example3_1.RData")range<-max(example3_1$分?jǐn)?shù))-min(example3_1$分?jǐn)?shù));rangeIQR(example3_1$分?jǐn)?shù),type=6)3.2.2方差和標(biāo)準(zhǔn)差3.2描述差異的統(tǒng)計(jì)量2018-9-25方差和標(biāo)準(zhǔn)差

(varianceandstandarddeviation)數(shù)據(jù)離散程度的最常用測(cè)度值反映各變量值與均值的平均差異根據(jù)總體數(shù)據(jù)計(jì)算的,稱為總體方差(標(biāo)準(zhǔn)差),記為

2();根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本方差(標(biāo)準(zhǔn)差),記為s2(s)

樣本標(biāo)準(zhǔn)差s

2018-9-25計(jì)算方差和標(biāo)準(zhǔn)差【例3—8】計(jì)算30名學(xué)生考試分?jǐn)?shù)的方差和標(biāo)準(zhǔn)差。

#方差#標(biāo)準(zhǔn)差load("C:/example/ch3/example3_1.RData")var(example3_1$分?jǐn)?shù))sd(example3_1$分?jǐn)?shù))3.2.3變異系數(shù)3.2描述差異的統(tǒng)計(jì)量2018-9-25變異系數(shù)

(coefficientofvariation)標(biāo)準(zhǔn)差與其相應(yīng)的均值之比對(duì)數(shù)據(jù)相對(duì)離散程度的測(cè)度消除了數(shù)據(jù)水平高低和計(jì)量單位的影響用于對(duì)不同組別數(shù)據(jù)離散程度的比較計(jì)算公式為

2018-9-25變異系數(shù)

(例題分析)【例3—9】評(píng)價(jià)哪名運(yùn)動(dòng)員的發(fā)揮更穩(wěn)定納塔利婭·帕杰林娜郭文珺卓格巴德拉赫·蒙赫珠勒妮諾·薩盧克瓦澤維多利亞·柴卡萊萬(wàn)多夫斯卡·薩貢亞斯娜·舍卡里奇米拉·內(nèi)萬(wàn)蘇10.010.09.39.89.38.110.28.78.510.510.010.39.410.39.69.310.010.48.710.010.49.29.99.210.210.48.39.510.19.99.910.310.610.19.210.210.29.89.39.810.510.39.510.710.510.49.110.09.89.48.510.49.29.99.79.79.710.710.710.610.59.410.09.99.510.89.29.19.810.79.39.99.39.79.210.88.69.69.99.72018-9-25用R計(jì)算變異系數(shù)#計(jì)算變異系數(shù)#繪制凹槽箱線圖

【例3—9】評(píng)價(jià)哪名運(yùn)動(dòng)員的發(fā)揮更穩(wěn)定load("C:/example/ch3/example3_9.RData")mean<-apply(example3_9,2,mean)sd<-apply(example3_9,2,sd)cv<-sd/meanx<-data.frame("平均環(huán)數(shù)"=mean,"標(biāo)準(zhǔn)差"=sd,"變異系數(shù)"=cv)round(x,4)par(cex=.6,mai=c(.7,.7,.1,.1))boxplot(example3_9,notch=TRUE,col="lightblue",ylab="射擊環(huán)數(shù)",xlab="運(yùn)動(dòng)員")3.2.4標(biāo)準(zhǔn)分?jǐn)?shù)3.2描述差異的統(tǒng)計(jì)量2018-9-25標(biāo)準(zhǔn)分?jǐn)?shù)

(standardscore)對(duì)某一個(gè)值在一組數(shù)據(jù)中相對(duì)位置的度量。也稱標(biāo)準(zhǔn)化值可用于判斷一組數(shù)據(jù)是否有離群點(diǎn)(outlier)計(jì)算公式為【例3—10】(數(shù)據(jù):example3_1.RData)沿用例3—1。計(jì)算30名學(xué)生考試分?jǐn)?shù)的標(biāo)準(zhǔn)分?jǐn)?shù)

load("C:/example/ch3/example3_1.RData")as.vector(round(scale(example3_1$分?jǐn)?shù)),4))2018-9-25經(jīng)驗(yàn)法則

經(jīng)驗(yàn)法則表明:當(dāng)一組數(shù)據(jù)對(duì)稱分布時(shí)約有68%的數(shù)據(jù)在平均數(shù)加減1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有95%的數(shù)據(jù)在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有99%的數(shù)據(jù)在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)3.3描述分布形狀的統(tǒng)計(jì)量

3.3.1偏度系數(shù)

3.3.2峰度系數(shù)第3章數(shù)據(jù)的描述統(tǒng)計(jì)量

2018-9-25偏度與偏度系數(shù)

(skewness)

2018-9-25峰度與峰度系數(shù)

(kurtosis)

2018-9-25不同分布的偏度系數(shù)和峰度系數(shù)##來(lái)自不同分布的模擬數(shù)據(jù),樣本量=5000library(e1071)#加載“skewness”和“kurtosis”函數(shù)包par(mfrow=c(1,3),mai=c(0.7,0.5,0.2,0.1))mf<-function(x){hist(x,probability=T,col='lightblue',xlab="x",ylab="Density",sub=paste("skewness=",round(skewness(x),digits=4)),main=paste("kurtosis=",round(kurtosis(x),digits=4)))lines(density(x),col='red',lwd=2)}n<-5000mf(rchisq(n,10))mf(rnorm(n))mf(-rchisq(n,10)+36)2018-9-25計(jì)算偏度系數(shù)和峰度系數(shù)【例3—11】沿用例3—1。計(jì)算30名學(xué)生考試分?jǐn)?shù)的偏度系數(shù)和峰度系數(shù)#計(jì)算偏度系數(shù)#計(jì)算峰度系數(shù)

library(agricolae)skewness(example3_1$分?jǐn)?shù))kurtosis(example3_1$分?jǐn)?shù))3.4數(shù)據(jù)的綜合描述

3.4.1幾個(gè)常用的R函數(shù)3.4.2一個(gè)綜合描述的例子第3章數(shù)據(jù)的描述統(tǒng)計(jì)量

2018-9-25綜合描述的R函數(shù)

(例題3—9)#繪制使用pastecs包中的stat.desc()函數(shù)計(jì)算描述統(tǒng)計(jì)量

#使用psych包中的describe()函數(shù)計(jì)算描述統(tǒng)計(jì)量

load("C:/example/ch3/example3_9.RData")library(pastecs)round(stat.desc(example3_9),4)library(psych)describe(example3_9)2018-9-25綜合分析

(例題3—12)【例3—12】60個(gè)大學(xué)生的調(diào)查數(shù)據(jù)(部分)性別家庭所在地月生活費(fèi)支出性別家庭所在地月生活費(fèi)支出女中小城市1500女鄉(xiāng)鎮(zhèn)地區(qū)1850男大型城市2000女鄉(xiāng)鎮(zhèn)地區(qū)2000男大型城市1800女中小城市1700女中小城市1600女大型城市1800女中小城市2000男中小城市1860女大型城市2100男鄉(xiāng)鎮(zhèn)地區(qū)1950男大型城市1100女中小城市1900男大型城市1780男中小城市2000………………2018-9-25計(jì)算匯總統(tǒng)計(jì)量

(例題3—12)#使用summary函數(shù)對(duì)類別數(shù)據(jù)計(jì)數(shù)和對(duì)數(shù)值數(shù)據(jù)計(jì)算描述統(tǒng)計(jì)量(example3_12)

summary(example3_12)2018-9-25繪制圖形反映分布

(例題3—12)#繪制帶有箱線圖、軸須線和密度估計(jì)的直方圖#繪制莖葉圖library(aplpack)load("C:/example/ch3/example3_12.RData")attach(example3_12)par(fig=c(0,0.8,0,0.8),cex=0.8)hist(月生活費(fèi)支出,xlab="月生活費(fèi)支出",ylab="密度",freq=FALSE,col="lightblue",main="")rug(jitter(月生活費(fèi)支出))lines(density(月生活費(fèi)支出),col="red")par(fig=c(0,0.8,0.35,1),new=TRUE)boxplot(月生活費(fèi)支出,horizontal=TRUE,axes=FALSE)library(aplpack)stem.leaf(example3_12$月生活費(fèi)支出)2018-9-25用R計(jì)算匯總描述統(tǒng)計(jì)量

(例題3—12)#按性別和家庭所在地分類描述(編寫(xiě)函數(shù)如下)my_summary<-function(x){library(agricolae)with(x,data.frame(N=length(月生活費(fèi)支出),"平均數(shù)"=mean(月生活費(fèi)支出),"中位數(shù)"=median(月生活費(fèi)支出),"標(biāo)準(zhǔn)差"=sd(月生活費(fèi)支出),"全距"=max(月生活費(fèi)支出)-min(月生活費(fèi)支出),"變異系數(shù)"=sd(月生活費(fèi)支出)/mean(月生活費(fèi)支出),"偏度系數(shù)"=skewness(月生活費(fèi)支出)))}library(plyr)ddply(example3_12,.(性別),my_summary)ddply(example3_12,.(家庭所在地),my_summary)2018-9-25用R計(jì)算匯總描述統(tǒng)計(jì)量

(例題3—12)#同時(shí)按性別和家庭所在地分類描述library(reshape)library(agricolae)mys

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論