




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)分析
(方法與案例)
作者賈俊平版權(quán)所有違者必究StatisticswithR統(tǒng)計(jì)學(xué)R語(yǔ)言第3章數(shù)據(jù)的描述統(tǒng)計(jì)量3.1
描述水平的統(tǒng)計(jì)量
3.2描述差異的統(tǒng)計(jì)量3.3描述分布形狀的統(tǒng)計(jì)量3.4數(shù)據(jù)的綜合描述
ummaryS3.1描述水平的統(tǒng)計(jì)量
3.1.1平均數(shù)
3.1.2分位數(shù)
3.1.3眾數(shù)第3章數(shù)據(jù)的描述統(tǒng)計(jì)量
3.1.1平均數(shù)3.1描述水平的統(tǒng)計(jì)量2018-9-25平均數(shù)
(mean)也稱為均值,常用的統(tǒng)計(jì)量之一消除了觀測(cè)值的隨機(jī)波動(dòng)易受極端值的影響根據(jù)總體數(shù)據(jù)計(jì)算的,稱為總體平均數(shù),記為
;根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本平均數(shù),記為
x2018-9-25計(jì)算簡(jiǎn)單平均數(shù)#計(jì)算30名學(xué)生考試分?jǐn)?shù)的平均數(shù)
load("C:/example/ch3/example3_1.RData")mean(example3_1$分?jǐn)?shù))設(shè)一組數(shù)據(jù)為:x1,x2,…,xn(總體數(shù)據(jù)xN)樣本平均數(shù)總體平均數(shù)
2018-9-25計(jì)算加權(quán)平均數(shù)#計(jì)算30名學(xué)生考試分?jǐn)?shù)的加權(quán)平均數(shù)
load("C:/example/ch3/example3_2.RData")
weighted.mean(example3_2$組中值,example3_2$人數(shù))
樣本加權(quán)平均數(shù)總體加權(quán)平均數(shù)
3.1.2分位數(shù)3.1描述水平的統(tǒng)計(jì)量2018-9-25中位數(shù)
(median)排序后處于中間位置上的值。不受極端值影響Me50%50%位置確定數(shù)值確定
2018-9-25計(jì)算中位數(shù)#計(jì)算10名學(xué)生考試分?jǐn)?shù)的中位數(shù)【例3—2】30名學(xué)生的考試分?jǐn)?shù)的中位數(shù)load("C:/example/ch3/example3_1.RData")median(example3_1$分?jǐn)?shù))2018-9-25四分位數(shù)
(quartile)用3個(gè)點(diǎn)等分?jǐn)?shù)據(jù)。排序后處于25%和75%位置上的值Q25%Q50%Q75%25%25%25%25%SPSS算法R算法:type=6R算法——共9種。參見(jiàn)help
2018-9-25計(jì)算四分位數(shù)#計(jì)算30名學(xué)生考試分?jǐn)?shù)的四分位數(shù)(example3_1)#匯總輸出基本的描述統(tǒng)計(jì)量(example3_1)
用R計(jì)算匯總輸出基本的描述統(tǒng)計(jì)量load("C:/example/ch3/example3_1.RData")quantile(example3_1$分?jǐn)?shù),probs=c(0.25,0.75),type=6)load("C:/example/ch3/example3_1.RData")summary(example3_1$分?jǐn)?shù))#默認(rèn)使用type=72018-9-25百分位數(shù)
(percentile)
2018-9-25計(jì)算百分位數(shù)#計(jì)算30名學(xué)生考試分?jǐn)?shù)的百分位數(shù)(example3_1)load("C:/example/ch3/example3_1.RData")quantile(example3_1$分?jǐn)?shù),probs=c(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9),type=6)3.1.3眾數(shù)3.1描述水平的統(tǒng)計(jì)量2018-9-25眾數(shù)
(mode)一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值適合于數(shù)據(jù)量較多時(shí)使用不受極端值的影響一組數(shù)據(jù)可能沒(méi)有眾數(shù)或有幾個(gè)眾數(shù)2018-9-25計(jì)算眾數(shù)#編寫(xiě)函數(shù)計(jì)算眾數(shù)(example3_1)#which.max函數(shù)
—無(wú)眾數(shù)返回1,雙眾數(shù)只返回第一個(gè)
load("C:/example/ch3/example3_1.RData")mode<-function(x){ux<-sort(unique(x))#列出每一個(gè)的數(shù)值并排序tab<-tabulate(match(x,ux))#比較x與ux中相同的數(shù)值,列出它們?cè)趗x中位置,再計(jì)算每個(gè)位置的頻數(shù)ux[tab==max(tab)]#找出ux對(duì)象中頻數(shù)最多的元素}mode(example3_1$分?jǐn)?shù))#使用mode函數(shù)計(jì)算對(duì)象的眾數(shù)load("C:/example/ch3/example3_1.RData") which.max(table(example3_1$分?jǐn)?shù)))14#眾數(shù)在頻數(shù)分布表的第14位3.2描述差異的統(tǒng)計(jì)量
3.2.1極差和四分位差
3.2.2方差和標(biāo)準(zhǔn)差
3.2.3變異系數(shù)
3.2.4標(biāo)準(zhǔn)分?jǐn)?shù)第3章數(shù)據(jù)的描述統(tǒng)計(jì)量
3.2.1極差和四分位差3.2描述差異的統(tǒng)計(jì)量2018-9-25極差
(range)一組數(shù)據(jù)的最大值與最小值之差離散程度的最簡(jiǎn)單測(cè)度值易受極端值影響未考慮數(shù)據(jù)的分布計(jì)算公式為:load("C:/example/ch3/example3_1.RData")R<-max(example3_1$分?jǐn)?shù))-min(example3_1$分?jǐn)?shù));R#或?qū)憺椋篟<-diff(range(example3_1$分?jǐn)?shù)));R
2018-9-25四分位差
(interquartilerange)也稱四分位距。上四分位數(shù)與下四分位數(shù)之差反映了中間50%數(shù)據(jù)的離散程度不受極端值的影響用于衡量中位數(shù)的代表性R函數(shù):
IQR(example3_1$分?jǐn)?shù),type=6)2018-9-25四分位差
(interquartilerange)【例3—7】計(jì)算30名學(xué)生考試分?jǐn)?shù)極差和四分位差例#計(jì)算極差
#計(jì)算四分位差
load("C:/example/ch3/example3_1.RData")range<-max(example3_1$分?jǐn)?shù))-min(example3_1$分?jǐn)?shù));rangeIQR(example3_1$分?jǐn)?shù),type=6)3.2.2方差和標(biāo)準(zhǔn)差3.2描述差異的統(tǒng)計(jì)量2018-9-25方差和標(biāo)準(zhǔn)差
(varianceandstandarddeviation)數(shù)據(jù)離散程度的最常用測(cè)度值反映各變量值與均值的平均差異根據(jù)總體數(shù)據(jù)計(jì)算的,稱為總體方差(標(biāo)準(zhǔn)差),記為
2();根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本方差(標(biāo)準(zhǔn)差),記為s2(s)
樣本標(biāo)準(zhǔn)差s
2018-9-25計(jì)算方差和標(biāo)準(zhǔn)差【例3—8】計(jì)算30名學(xué)生考試分?jǐn)?shù)的方差和標(biāo)準(zhǔn)差。
#方差#標(biāo)準(zhǔn)差load("C:/example/ch3/example3_1.RData")var(example3_1$分?jǐn)?shù))sd(example3_1$分?jǐn)?shù))3.2.3變異系數(shù)3.2描述差異的統(tǒng)計(jì)量2018-9-25變異系數(shù)
(coefficientofvariation)標(biāo)準(zhǔn)差與其相應(yīng)的均值之比對(duì)數(shù)據(jù)相對(duì)離散程度的測(cè)度消除了數(shù)據(jù)水平高低和計(jì)量單位的影響用于對(duì)不同組別數(shù)據(jù)離散程度的比較計(jì)算公式為
2018-9-25變異系數(shù)
(例題分析)【例3—9】評(píng)價(jià)哪名運(yùn)動(dòng)員的發(fā)揮更穩(wěn)定納塔利婭·帕杰林娜郭文珺卓格巴德拉赫·蒙赫珠勒妮諾·薩盧克瓦澤維多利亞·柴卡萊萬(wàn)多夫斯卡·薩貢亞斯娜·舍卡里奇米拉·內(nèi)萬(wàn)蘇10.010.09.39.89.38.110.28.78.510.510.010.39.410.39.69.310.010.48.710.010.49.29.99.210.210.48.39.510.19.99.910.310.610.19.210.210.29.89.39.810.510.39.510.710.510.49.110.09.89.48.510.49.29.99.79.79.710.710.710.610.59.410.09.99.510.89.29.19.810.79.39.99.39.79.210.88.69.69.99.72018-9-25用R計(jì)算變異系數(shù)#計(jì)算變異系數(shù)#繪制凹槽箱線圖
【例3—9】評(píng)價(jià)哪名運(yùn)動(dòng)員的發(fā)揮更穩(wěn)定load("C:/example/ch3/example3_9.RData")mean<-apply(example3_9,2,mean)sd<-apply(example3_9,2,sd)cv<-sd/meanx<-data.frame("平均環(huán)數(shù)"=mean,"標(biāo)準(zhǔn)差"=sd,"變異系數(shù)"=cv)round(x,4)par(cex=.6,mai=c(.7,.7,.1,.1))boxplot(example3_9,notch=TRUE,col="lightblue",ylab="射擊環(huán)數(shù)",xlab="運(yùn)動(dòng)員")3.2.4標(biāo)準(zhǔn)分?jǐn)?shù)3.2描述差異的統(tǒng)計(jì)量2018-9-25標(biāo)準(zhǔn)分?jǐn)?shù)
(standardscore)對(duì)某一個(gè)值在一組數(shù)據(jù)中相對(duì)位置的度量。也稱標(biāo)準(zhǔn)化值可用于判斷一組數(shù)據(jù)是否有離群點(diǎn)(outlier)計(jì)算公式為【例3—10】(數(shù)據(jù):example3_1.RData)沿用例3—1。計(jì)算30名學(xué)生考試分?jǐn)?shù)的標(biāo)準(zhǔn)分?jǐn)?shù)
load("C:/example/ch3/example3_1.RData")as.vector(round(scale(example3_1$分?jǐn)?shù)),4))2018-9-25經(jīng)驗(yàn)法則
經(jīng)驗(yàn)法則表明:當(dāng)一組數(shù)據(jù)對(duì)稱分布時(shí)約有68%的數(shù)據(jù)在平均數(shù)加減1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有95%的數(shù)據(jù)在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有99%的數(shù)據(jù)在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)3.3描述分布形狀的統(tǒng)計(jì)量
3.3.1偏度系數(shù)
3.3.2峰度系數(shù)第3章數(shù)據(jù)的描述統(tǒng)計(jì)量
2018-9-25偏度與偏度系數(shù)
(skewness)
2018-9-25峰度與峰度系數(shù)
(kurtosis)
2018-9-25不同分布的偏度系數(shù)和峰度系數(shù)##來(lái)自不同分布的模擬數(shù)據(jù),樣本量=5000library(e1071)#加載“skewness”和“kurtosis”函數(shù)包par(mfrow=c(1,3),mai=c(0.7,0.5,0.2,0.1))mf<-function(x){hist(x,probability=T,col='lightblue',xlab="x",ylab="Density",sub=paste("skewness=",round(skewness(x),digits=4)),main=paste("kurtosis=",round(kurtosis(x),digits=4)))lines(density(x),col='red',lwd=2)}n<-5000mf(rchisq(n,10))mf(rnorm(n))mf(-rchisq(n,10)+36)2018-9-25計(jì)算偏度系數(shù)和峰度系數(shù)【例3—11】沿用例3—1。計(jì)算30名學(xué)生考試分?jǐn)?shù)的偏度系數(shù)和峰度系數(shù)#計(jì)算偏度系數(shù)#計(jì)算峰度系數(shù)
library(agricolae)skewness(example3_1$分?jǐn)?shù))kurtosis(example3_1$分?jǐn)?shù))3.4數(shù)據(jù)的綜合描述
3.4.1幾個(gè)常用的R函數(shù)3.4.2一個(gè)綜合描述的例子第3章數(shù)據(jù)的描述統(tǒng)計(jì)量
2018-9-25綜合描述的R函數(shù)
(例題3—9)#繪制使用pastecs包中的stat.desc()函數(shù)計(jì)算描述統(tǒng)計(jì)量
#使用psych包中的describe()函數(shù)計(jì)算描述統(tǒng)計(jì)量
load("C:/example/ch3/example3_9.RData")library(pastecs)round(stat.desc(example3_9),4)library(psych)describe(example3_9)2018-9-25綜合分析
(例題3—12)【例3—12】60個(gè)大學(xué)生的調(diào)查數(shù)據(jù)(部分)性別家庭所在地月生活費(fèi)支出性別家庭所在地月生活費(fèi)支出女中小城市1500女鄉(xiāng)鎮(zhèn)地區(qū)1850男大型城市2000女鄉(xiāng)鎮(zhèn)地區(qū)2000男大型城市1800女中小城市1700女中小城市1600女大型城市1800女中小城市2000男中小城市1860女大型城市2100男鄉(xiāng)鎮(zhèn)地區(qū)1950男大型城市1100女中小城市1900男大型城市1780男中小城市2000………………2018-9-25計(jì)算匯總統(tǒng)計(jì)量
(例題3—12)#使用summary函數(shù)對(duì)類別數(shù)據(jù)計(jì)數(shù)和對(duì)數(shù)值數(shù)據(jù)計(jì)算描述統(tǒng)計(jì)量(example3_12)
summary(example3_12)2018-9-25繪制圖形反映分布
(例題3—12)#繪制帶有箱線圖、軸須線和密度估計(jì)的直方圖#繪制莖葉圖library(aplpack)load("C:/example/ch3/example3_12.RData")attach(example3_12)par(fig=c(0,0.8,0,0.8),cex=0.8)hist(月生活費(fèi)支出,xlab="月生活費(fèi)支出",ylab="密度",freq=FALSE,col="lightblue",main="")rug(jitter(月生活費(fèi)支出))lines(density(月生活費(fèi)支出),col="red")par(fig=c(0,0.8,0.35,1),new=TRUE)boxplot(月生活費(fèi)支出,horizontal=TRUE,axes=FALSE)library(aplpack)stem.leaf(example3_12$月生活費(fèi)支出)2018-9-25用R計(jì)算匯總描述統(tǒng)計(jì)量
(例題3—12)#按性別和家庭所在地分類描述(編寫(xiě)函數(shù)如下)my_summary<-function(x){library(agricolae)with(x,data.frame(N=length(月生活費(fèi)支出),"平均數(shù)"=mean(月生活費(fèi)支出),"中位數(shù)"=median(月生活費(fèi)支出),"標(biāo)準(zhǔn)差"=sd(月生活費(fèi)支出),"全距"=max(月生活費(fèi)支出)-min(月生活費(fèi)支出),"變異系數(shù)"=sd(月生活費(fèi)支出)/mean(月生活費(fèi)支出),"偏度系數(shù)"=skewness(月生活費(fèi)支出)))}library(plyr)ddply(example3_12,.(性別),my_summary)ddply(example3_12,.(家庭所在地),my_summary)2018-9-25用R計(jì)算匯總描述統(tǒng)計(jì)量
(例題3—12)#同時(shí)按性別和家庭所在地分類描述library(reshape)library(agricolae)mys
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 心梗急救措施
- 2025西安石油大學(xué)輔導(dǎo)員考試試題及答案
- 2025福建幼兒師范高等??茖W(xué)校輔導(dǎo)員考試試題及答案
- 睡眠與疾病的關(guān)聯(lián)機(jī)制
- 幼兒園世界衛(wèi)生日主題教育活動(dòng)
- 語(yǔ)言活動(dòng):兔胖胖減肥記
- 內(nèi)蒙古星盛運(yùn)營(yíng)管理有限公司招聘筆試題庫(kù)2025
- 紹興濱耀糧油綜合市場(chǎng)有限公司招聘筆試題庫(kù)2025
- 旅游管理專業(yè)考試試卷及答案2025年
- 2025年藝術(shù)史基礎(chǔ)知識(shí)與鑒賞能力考試試題及答案
- 【9化 二?!亢颖毙吓_(tái)邯鄲2025年5月中考二模九年級(jí)化學(xué)試卷
- 江蘇省南京師范大附屬中學(xué)2025年八下數(shù)學(xué)期末監(jiān)測(cè)試題含解析
- 2025-2030年中國(guó)夜視攝像機(jī)行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025年中考英語(yǔ)高頻核心詞匯背記手冊(cè)
- 危大工程巡視檢查記錄表 (樣表)附危大工程安全監(jiān)管及檢查要點(diǎn)
- 四川省2025屆高三第二次聯(lián)合測(cè)評(píng)-生物試卷+答案
- 企業(yè)消防管理安全制度
- 2024年江蘇省淮安市中考英語(yǔ)真題(原卷版)
- 2025年中國(guó)樺木工藝膠合板市場(chǎng)調(diào)查研究報(bào)告
- 廣西南寧市新民中學(xué)2025屆七下生物期末監(jiān)測(cè)試題含解析
- 廣東省廣州市黃埔區(qū)2021-2022學(xué)年七年級(jí)下學(xué)期期末英語(yǔ)試題(含答案)
評(píng)論
0/150
提交評(píng)論