版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第三章數(shù)據(jù)的描述
R語言簡介
數(shù)字,字符與向量
向量的賦值X<-c(10.4,5.6,3.1,6.4,21.7)Assign(“x”,c(10.4,5.6,3.1,6.4,21.7))c(10.4,5.6,3.1,6.4,21.7)->xY<-c(x,0,x)
數(shù)字,字符與向量
向量的運算
X<-c(-1,0,2);y<-c(3,8,2)V<-2*x+y+1X*yx/yX^2Y^x數(shù)字,字符與向量求向量最小,最大和范圍min,max,rangeWhich.min,which.max求和,乘積等Sum,prod,length中位數(shù),均值,方差,標準差和順序統(tǒng)計量Median,mean,var,sort數(shù)字,字符和向量產(chǎn)生有規(guī)律的序列等差數(shù)列X<-1:6等間隔函數(shù)Seq(from=v1,to=v2,by=v3)重復序列X<-Rep(x,times=3)數(shù)字,字符和向量字符向量Labs<-Paste(“X”,1:6,sep=“”)復數(shù)向量X<-seq(-pi,pi,by=pi/10)y<-sin(x)Z<-complex(re=x,im=y)Plot(z)數(shù)字,字符和向量將向量定義成數(shù)組z<-1:12,Dim(z)<-c(3,4)用array構造數(shù)組X<-array(1:20,dim=c(4,5))用matrix構造矩陣A<-matrix(1:15,nrow=3,ncol=5,byrow=TRUE)
數(shù)字,字符和向量數(shù)組下標A<-1:24,dim(A)<c(2,3,4)A[1,2:3,2:3];A[1,,];取矩陣維數(shù)Dim(A),nrow(A),ncol(A)讀寫數(shù)據(jù)文件Read.table函數(shù)Rt<-read.table(“house.data”,head=T)Scan函數(shù)W<-scan(“wight.data”);Write函數(shù)Write.table,write.csv數(shù)據(jù)的圖形描述在對數(shù)據(jù)進行深入加工之前,總應該對數(shù)據(jù)有所印象??梢越柚趫D形和簡單的運算,來了解數(shù)據(jù)的一些特征。由于數(shù)據(jù)是從總體中產(chǎn)生的,其特征也反映了總體的特征。對數(shù)據(jù)的描述也是對其總體的一個近似的描述。圖的種類基本繪圖函數(shù)函數(shù)名功能Plot(x)以x的元素作為縱坐標,以序號為橫坐標作圖Plot(x,y)以x,y二元作圖Pie(x)餅圖Boxplot(x)盒形圖HistX的頻率直方圖Barplot(x)X值的條形圖Paris(x)如果x是矩陣或是數(shù)據(jù)框,作x的各列之間的二元圖coplot(x~y|z)關于z的每個數(shù)值(或數(shù)值區(qū)間)繪制x與y的二元圖matplot(x,y)二元圖,其中x的第一列對應y的第一列,依次類推qqnorm(x)正態(tài)分位數(shù)-分位數(shù)圖image(x,y,z)x,y,z三元圖heatmap(x)熱圖
二元函數(shù)圖形餅圖定性變量(或屬性變量,分類變量)不能點出直方圖、散點圖或莖葉圖,但可以描繪出它們各類的比例。易于顯示每一組的相對大小用于顯示每一組有多少個觀測數(shù)時不是很好最早的餅圖直方圖對于一個定量變量,比如某個地區(qū)測量了163個高三男生的身高。用圖形來表示這個數(shù)據(jù),使人們能夠看出這個數(shù)據(jù)的大體分布或“形狀”的一個辦法是畫直方圖(histogram)圖像直方圖圖像的直方圖圖像的直方圖直方圖分割經(jīng)驗分布經(jīng)驗分布函數(shù)核密度估計核密度函數(shù)用density()函數(shù)可以繪制與直方圖配套的核密度估計。density的一般用法為:
density(x,bw="nrd0",adjust=1,kernel=c("gaussian","…"),window=kernel,width…)bw是帶寬,默認值R畫出光滑圖形;kernel是核函數(shù);adjust表示實際帶寬是adjust*bw。其他參數(shù)詳見幫助文檔。>w<-c(75,64,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64,57,69,56.9,50,72)>hist(w,freq=F);>w.density<-density(w);w.densityCall:density.default(x=w)Data:w(15obs.);Bandwidth'bw'=3.478xyMin.:36.97Min.:9.044e-051stQu.:49.081stQu.:4.402e-03Median:61.20Median:1.603e-02Mean:61.20Mean:2.061e-023rdQu.:73.323rdQu.:3.409e-02Max.:85.43Max.:5.518e-02>lines(w.density,col="blue");>x<-44:76;>lines(x,dnorm(x,mean(w),sd(w)),col="red");盒型圖簡單一些的是盒形圖(boxplot,又稱箱圖、箱線圖、盒子圖)。圖左邊一個是根據(jù)地區(qū)1高三男生的身高數(shù)據(jù)所繪的盒形圖;其右邊的圖代表另一個地區(qū)(地區(qū)2)的高三學生的身高盒子的中間橫線是數(shù)據(jù)的中位數(shù)(median),封閉盒子的上下兩橫線(邊)為上下四分位數(shù)(點)
>A<-c(79.98,80.04,80.02,80.04,80.03,80.03,80.04,79.97,80.05,80.03,80.02,80.00,80.02);>B<-c(80.02,79.94,79.98,79.97,80.03,79.95,79.97)>boxplot(A,B,names=c("A","B"),col=c("red","blue"));>boxplot(A,B,notch=T,outline=T,names=c("A","B"),col=c(3,5));>InsectSprays;>boxplot(count~spray,data=InsectSprays,col="lightgray")>boxplot(count~spray,data=InsectSprays,notch=T,col=2:7,add=T)QQ圖(Quantile)假定總體服從正態(tài)分布,對于樣本其順序統(tǒng)計量為正態(tài)分布的QQ圖是由以下點構成的散點圖若樣本數(shù)據(jù)近似正態(tài)分布在QQ圖上這些點近似在直線附近。
莖葉圖
在直方圖和盒形圖中,很難恢復數(shù)據(jù)的原貌。而另一種圖:莖葉圖(stem-and-leafplots)可以恢復數(shù)據(jù)以地區(qū)1高三男生身高為例,莖葉圖既展示了分布形狀又有原始數(shù)據(jù)。它象一片帶有莖的葉子。莖為較大位數(shù)的數(shù)字,葉為較小位數(shù)的數(shù)字。莖葉圖其中莖葉圖中莖的單位為10cm,而葉子單位為1cm。比如,由于第一行莖為150cm,因此葉子中的九個數(shù)字001223344代表九個數(shù)目150、150、151、152、152、153、153、154、154cm等。每行左邊有一個頻數(shù)(比如第一行有9個數(shù)目,第二行有17個等等);可以看出最長的一行為從165cm到169cm的一段(有35個數(shù))。莖葉圖畫法莖葉圖stem()可以細致地看出數(shù)據(jù)分布的結構。stem()的一般用法為:
>stem(x,scale=1,width=80)scale控制了莖葉圖的長度,默認值是1,如果scale=2,則表示將0-9這10個個位數(shù)分成兩段,0~4為一段,5~9為一段;width是繪圖的寬度;>x<-c(25,45,50,54,55,61,64,68,72,75,75,78,79,81,83,84,84,84,85,86,86,87,89,89,89,90,91,91,92,100)>stem(x);Thedecimalpointis1digit(s)
totherightofthe|2|53|4|55|0456|1487|255898|1344456679999|011210|0>stem(x,scale=2)
Thedecimalpointis1digit(s)totherightofthe|2|53|3|4|4|55|045|56|146|87|27|55898|134448|56679999|01129|10|0>stem(x,scale=0.5);#scale也可以是小數(shù),等于0.5時,表示將0-9這10個個位數(shù)分成1/2段,即20個數(shù)為一段
Thedecimalpointis1digit(s)totherightofthe|2|54|50456|148255898|134445667999011210|0散點圖該數(shù)據(jù)描述了自1900年到1998年男女第一次婚姻延續(xù)的時間。散點的相對疏離程度主要反映在相關系數(shù)上,其趨勢狀況是由回歸系數(shù),或斜率來反映。散點分布信息如線性,非線性,提供了統(tǒng)計模型的多項式信息;而分布的長短對應數(shù)據(jù)或統(tǒng)計信息的大小。圖中顯示了線性、且第一組提供的信息更豐富一點(方差大)。條形圖從每一條可以看出各個區(qū)域,性別的死亡率,條形圖顯示比例不如餅圖直觀。熱圖(Heatmap)
多元數(shù)據(jù)的圖形表示方法等高線在某山區(qū)內,測得一些地點的高度,試作該山區(qū)的地貌圖和等值線圖
04008001200160020002400280024001180132014501420140013007009002001230139015001500140090011001060160012701500120011001350145012001150120013701500120011001550160015501380800146015001550160015501600160016004001450148015001550151014301300120001430145014701320128012001080940一個例子Iris數(shù)據(jù)集Iris也稱鳶尾花卉數(shù)據(jù)集,是一類多重變量分析的數(shù)據(jù)集。通過花萼長度,花萼寬度,花瓣長度,花瓣寬度4個屬性預測鳶尾花卉屬于(Setosa,Versicolour,Virginica)三個種類中的哪一類。輪廓圖library(lattice);data(iris);parallel(~iris[1:4],iris,groups=Species,horizontal.axis=FALSE,scales=list(x=list(rot=90)))同一品種的鳶尾花的輪廓圖粗略地聚集在一起調和曲線圖調和曲線圖的思想和傅立葉變換十分相似,是根據(jù)三角變換方法將p維空間的點映射到二維平面上的曲線上。假設Xr是p維數(shù)據(jù)的第r個觀測值,即,對應的調和曲線是同一品種鳶尾花數(shù)據(jù)的調和曲線圖基本上扭在一起星圖如何用少量數(shù)字來概括數(shù)據(jù)?如何用少量數(shù)字來概括數(shù)據(jù)?可用少量所謂匯總統(tǒng)計量或概括統(tǒng)計量(summarystatistic)來描述定量變量的數(shù)據(jù)。這些數(shù)字是從樣本數(shù)據(jù)得來的,因而也是樣本的函數(shù),任何樣本的函數(shù),只要不包含總體的未知參數(shù),都稱為統(tǒng)計量(statistic)。樣本的隨機性決定統(tǒng)計量的隨機性(統(tǒng)計量也是隨機變量)如何用少量數(shù)字來概括數(shù)據(jù)?概括統(tǒng)計量經(jīng)常對應于總體的無法觀測到的某些參數(shù)。這時,統(tǒng)計量可作為這些參數(shù)的估計。一些統(tǒng)計量還可以用來檢驗樣本和假設的總體是否一致。數(shù)據(jù)的“位置”數(shù)據(jù)有位置嗎?這里三個數(shù)據(jù)的位置一樣嗎?均值的特點集中趨勢的測度值之一最常用的測度值一組數(shù)據(jù)的均衡點所在易受極端值的影響
用于數(shù)值型數(shù)據(jù),不能用于分類數(shù)據(jù)和順序數(shù)據(jù)一、算術平均數(shù)計算公式:變量值之和/變量值個數(shù)計算方法
簡單算術平均數(shù):
加權算術平均數(shù):
如果
都相等,那么加權平均和簡單平均相同幾何平均數(shù)集中趨勢的測度值之一
N
個變量值乘積的N
次方根適用于特殊的數(shù)據(jù):變量值本身是比率的形式主要用于計算平均發(fā)展速度幾何平均數(shù)簡單幾何平均數(shù):加權幾何平均數(shù):兩邊取對數(shù):幾何平均收益率幾何平均收益率是將各個單個期間的收益率乘積,然后開n次方數(shù)據(jù)的位置:眾數(shù)一個變量的眾數(shù)就是指出現(xiàn)次數(shù)最多的那個值一個變量有兩個值經(jīng)常出現(xiàn),這就叫做二眾數(shù)分布優(yōu)點:很容易從圖表中獲得缺點:信息量過少眾數(shù)集中趨勢的測度值之一出現(xiàn)次數(shù)最多的變量值不受極端值的影響可能沒有眾數(shù)或有幾個眾數(shù)主要用于分類數(shù)據(jù),也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)眾數(shù)(眾數(shù)的不唯一性)無眾數(shù)
原始數(shù)據(jù):10591268一個眾數(shù)
原始數(shù)據(jù):65
985
5多于一個眾數(shù)
原始數(shù)據(jù):2528
28
364242(一)分類數(shù)據(jù)的眾數(shù)
(算例)某城市居民關注廣告類型的頻數(shù)分布
廣告類型人數(shù)(人)比例頻率(%)
商品廣告服務廣告金融廣告房地產(chǎn)廣告招生招聘廣告其他廣告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合計2001100【例】根據(jù)下表數(shù)據(jù),計算眾數(shù)解:這里的變量為“廣告類型”,這是個分類變量,不同類型的廣告就是變量值。我們看到,在所調查的200人當中,關注商品廣告的人數(shù)最多,為112人,占總被調查人數(shù)的56%,因此眾數(shù)為“商品廣告”這一類別,即
Mo=商品廣告(二)順序數(shù)據(jù)的眾數(shù)
(算例)根據(jù)下表的數(shù)據(jù),計算眾數(shù)解:這里的數(shù)據(jù)為定序數(shù)據(jù)。變量為“回答類別”。甲城市中對住房表示不滿意的戶數(shù)最多,為108戶,因此眾數(shù)為“不滿意”這一類別,即
Mo=不滿意甲城市家庭對住房狀況評價的頻數(shù)分布回答類別甲城市戶數(shù)(戶)百分比(%)
非常不滿意
不滿意
一般
滿意
非常滿意24108934530836311510合計300100.0(樣本)中位數(shù)(median)是數(shù)據(jù)按照大小排列之后位于中間的那個數(shù)(如果樣本量為奇數(shù)),或者中間兩個數(shù)目的平均(如果樣本量為偶數(shù))。優(yōu)點:由于中位數(shù)不易被極端值影響,所以中位數(shù)比均值穩(wěn)健(robust)。主要用于順序數(shù)據(jù),也可用數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù)未利用數(shù)據(jù)的所有信息數(shù)據(jù)的“位置”:中位數(shù)1.未分組數(shù)據(jù)的中位數(shù)
(計算公式)2.順序數(shù)據(jù)的中位數(shù)
(算例)根據(jù)下表中的數(shù)據(jù),計算甲城市家庭對住房滿意狀況評價的中位數(shù)解:中位數(shù)的位置為:
(300+1)/2=150.5從累計頻數(shù)看,中位數(shù)的在“一般”這一組別中。因此
Me=一般甲城市家庭對住房狀況評價的頻數(shù)分布回答類別甲城市戶數(shù)(戶)累計頻數(shù)
非常不滿意
不滿意
一般
滿意
非常滿意2410893453024132225270300合計300—3.數(shù)值型未分組數(shù)據(jù)的中位數(shù)
(5個數(shù)據(jù)的算例)原始數(shù)據(jù):
2422212620排序: 2021222426位置: 123
45中位數(shù)
22
a數(shù)值型未分組數(shù)據(jù)的中位數(shù)
(6個數(shù)據(jù)的算例)原始數(shù)據(jù):
105 91268排序: 56891012位置: 123 4
56位置
N+126+123.5中位數(shù)
8+928.5
1.根據(jù)位置公式確定中位數(shù)所在的組
2.采用下列近似公式計算:3.該公式假定中位數(shù)組的頻數(shù)在該組內均勻分布b數(shù)值型分組數(shù)據(jù)的中位數(shù)
(要點及計算公式)NifSLMmme*-+=-12數(shù)值型分組數(shù)據(jù)的中位數(shù)
(算例)表3-5某車間50名工人日加工零件數(shù)分組表按零件數(shù)分組頻數(shù)(人)累積頻數(shù)105~110110~115115~120120~125125~130130~135135~140358141064381630404650合計50—計算50名工人日加工零件數(shù)的中位數(shù)1450)(21.1235162120個=*-+=eM上下四分位數(shù)(或分別稱為第一四分位數(shù)和第三四分位數(shù),firstquantile,thirdquantile)則分別位于(按大小排列的)數(shù)據(jù)的上下四分之一的地方如果令a=k%,則k百分位數(shù)也稱為a分位數(shù)(a-quantile)。數(shù)據(jù)的“位置”:分位數(shù)(二)四分位數(shù)
(概念要點)1. 集中趨勢的測度值之一2. 排序后處于25%和75%位置上的值3.不受極端值的影響4.主要用于順序數(shù)據(jù),也可用于數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù)QLQMQU25%25%25%25%四分位數(shù)
(位置的確定)未分組數(shù)據(jù):組距分組數(shù)據(jù):下四分位數(shù)(QL)位置=N+14上四分位數(shù)(QU)位置=3(N+1)4下四分位數(shù)(QL)位置=N4上四分位數(shù)(Qu)位置=3N41.順序數(shù)據(jù)的四分位數(shù)
(算例)根據(jù)下表數(shù)據(jù),計算甲城市家庭對住房滿意狀況評價的四分位數(shù)解:下四分位數(shù)(QL)的位置為:
QL位置=(300+1)/4=75.25
上四分位數(shù)(QL)的位置為:
QU位置=(3×(300+1))/4=225.75從累計頻數(shù)看,QL在“不滿意”這一組別中;QU在“一般”這一組別中。因此
QL=不滿意
QU=滿意甲城市家庭對住房狀況評價的頻數(shù)分布回答類別甲城市戶數(shù)(戶)累計頻數(shù)
非常不滿意
不滿意
一般
滿意
非常滿意2410893453024132225270300合計300—2.數(shù)值型未分組數(shù)據(jù)的四分位數(shù)
(7個數(shù)據(jù)的算例)原始數(shù)據(jù):
2321 3032 282526排序:2123
2526283032位置:1 23 4567N+1QL=237+1QL位置=4=4=2QU位置=3(N+1)43(7+1)4==6QU=30
數(shù)值型未分組數(shù)據(jù)的四分位數(shù)
(6個數(shù)據(jù)的算例)原始數(shù)據(jù):
2321 30 282526排序:212325262830位置:1 2 3 4 56QL=21+0.75(23-21)=22.5QL位置=N+14=6+14=1.75QU位置=3(N+1)43(6+1)4==5.25QU=28+0.25(30-28)
=28.5
3.數(shù)值型分組數(shù)據(jù)的四分位數(shù)
(計算公式)上四分位數(shù):
UUU-1UUifS3NLQ*-+=4LLL-1LLifSNLQ*-+=4下四分位數(shù):
數(shù)值型分組數(shù)據(jù)的四分位數(shù)
(計算示例)QL位置=50/4=12.5某車間50名工人日加工零件數(shù)分組表按零件數(shù)分組頻數(shù)(人)累積頻數(shù)105~110110~115115~120120~125125~130130~135135~140358141064381630404650合計50—,計算50名工人日加工零件數(shù)的四分位數(shù)QU位置=3×50/4=37.5)(81.117588450115個=*-+=LQ)(75.128510304503125個=*-*+=UQ數(shù)據(jù)的特征和測度
數(shù)據(jù)的特征和測度分布的形狀離散程度集中趨勢眾數(shù)中位數(shù)均值離散系數(shù)方差和標準差峰度四分位差異眾比率偏態(tài)順序數(shù)據(jù):四分位差四分位差
1. 離散程度的測度值之一2. 也稱為內距或四分間距3. 上四分位數(shù)與下四分位數(shù)之差
QD
=QU-QL4. 反映了中間50%數(shù)據(jù)的離散程度5.不受極端值的影響6.用于衡量中位數(shù)的代表性四分位差
(定序數(shù)據(jù)的算例)【例】根據(jù)下表數(shù)據(jù),計算甲城市家庭對住房滿意狀況評價的四分位差解:設非常不滿意為1,不滿意為2,一般為3,滿意為4,非常滿意為5已知QL=不滿意=2,
QU=
滿意=
4四分位差:
QD=QU=
QL
=4–2
=2甲城市家庭對住房狀況評價的頻數(shù)分布回答類別甲城市戶數(shù)(戶)累計頻數(shù)
非常不滿意
不滿意
一般
滿意
非常滿意2410893453024132225270300合計300—一個例子最小值(minimum)=5下四分位數(shù)(Q1)=7中位數(shù)(Med)=8.5上四分位數(shù)(Q3)=9最大值(maximum)=10平均值=8四分位間距(interquartilerange)=Q3-Q1=2(即ΔQ)在區(qū)間Q3+2(或3?)ΔQ,Q1-2(或3?)ΔQ之外的值被視為應忽略(farout)。farout:在圖上不予顯示,僅標注一個符號?。最大值區(qū)間:Q3+1.5ΔQ最小值區(qū)間:Q1-1.5ΔQ最大值與最小值產(chǎn)生于這個區(qū)間。區(qū)間外的值被視為outlier顯示在圖上.數(shù)值型數(shù)據(jù):方差和標準差(一)極差
(概念要點及計算公式)1.一組數(shù)據(jù)的最大值與最小值之差2.離散程度的最簡單測度值3.易受極端值影響4.未考慮數(shù)據(jù)的分布7891078910未分組數(shù)據(jù)
R=max(Xi)-min(Xi).=組距分組數(shù)據(jù)
R
最高組上限-最低組下限5.計算公式為(二)平均差
(概念要點及計算公式)1.離散程度的測度值之一2.各變量值與其均值離差絕對值的平均數(shù)3.能全面反映一組數(shù)據(jù)的離散程度4.數(shù)學性質較差,實際中應用較少5.計算公式為未分組數(shù)據(jù)組距分組數(shù)據(jù)平均差(計算過程及結果)某車間50名工人日加工零件標準差計算表按零件數(shù)分組組中值(Xi)頻數(shù)(Fi)|Xi-X||Xi-X|Fi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.535814106415.710.75.70.74.39.314.347.153.545.69.843.055.857.2合計—50—312【例】根據(jù)下表數(shù)據(jù),計算工人日加工零件數(shù)的平均差(三)方差和標準差
(概念要點)1.離散程度的測度值之一2.最常用的測度值3.反映了各變量值與均值的平均差異4.根據(jù)總體數(shù)據(jù)計算的,稱為總體方差或標準差;根據(jù)樣本數(shù)據(jù)計算的,稱為樣本方差或標準差4681012X=8.31.總體方差和標準差
(計算公式)未分組數(shù)據(jù):組距分組數(shù)據(jù):未分組數(shù)據(jù):組距分組數(shù)據(jù):方差的計算公式標準差的計算公式總體標準差
(計算過程及結果)表
某車間50名工人日加工零件標準差計算表按零件數(shù)分組組中值(Xi)頻數(shù)(Fi)(Xi-X)2(Xi-X)2Fi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合計—50—3100.5根據(jù)下表數(shù)據(jù),計算工人日加工零件數(shù)的標準差2.樣本方差和標準差
(計算公式)未分組數(shù)據(jù):組距分組數(shù)據(jù):未分組數(shù)據(jù):組距分組數(shù)據(jù):方差的計算公式標準差的計算公式注意:樣本方差用自由度n-1去除!樣本方差
3.自由度(degreeoffreedom)1.
一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個數(shù)
2.當樣本數(shù)據(jù)的個數(shù)為
n
時,若樣本均值
x
確定后,只有n-1個數(shù)據(jù)可以自由取值,其中必有一個數(shù)據(jù)則不能自由取值
3.例如,樣本有3個數(shù)值,即x1=2,x2=4,x3=9,則
x=5。當
x
=5
確定后,x1,x2和x3有兩個數(shù)據(jù)可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值
4.樣本方差用自由度去除,其原因可從多方面來解釋,從實際應用角度看,在抽樣估計中,當用樣本方差去估計總體方差σ2時,它是σ2的無偏估計量樣本方差
(算例)原始數(shù)據(jù):10 591368樣本標準差
(算例)樣本標準差原始數(shù)據(jù): 10591368方差
(簡化計算公式)樣本方差總體方差四、眾數(shù)、中位數(shù)和均值的比較眾數(shù)、中位數(shù)和均值的關系對稱分布
均值=
中位數(shù)=
眾數(shù)左偏分布均值
中位數(shù)
眾數(shù)右偏分布眾數(shù)
中位數(shù)
均值數(shù)據(jù)類型與集中趨勢測度值數(shù)據(jù)類型和所適用的集中趨勢測度值數(shù)據(jù)類型分類數(shù)據(jù)順序數(shù)據(jù)數(shù)值型數(shù)據(jù)適用的測度值※眾數(shù)※中位數(shù)※簡單均值—四分位數(shù)眾數(shù)※
※加權均值—眾數(shù)中位數(shù)調和平均數(shù)——四分位數(shù)幾何平均數(shù)眾數(shù),中位數(shù),還是均值當分布有大量小的觀察值僅有少數(shù)大觀察值,均值比中位數(shù)大(家庭年收入)一個社區(qū)的平均家庭年收入可能是令人舒服的每年15萬元,如果這個均值是從20戶極窮和20戶極富的人家計算出來,就不能代表他們中的任何一個數(shù)據(jù)的“尺度”兩個均值一樣,但右邊的要“胖”些,方差為左邊的一倍方差和標準差
(概念要點)1.離散程度的測度值之一2.最常用的測度值3.反映了各變量值與均值的平均差異4.根據(jù)總體數(shù)據(jù)計算的,稱為總體方差或標準差;根據(jù)樣本數(shù)據(jù)計算的,稱為樣本方差或標準差4681012X=8.3樣本方差和標準差
(計算公式)未分組數(shù)據(jù):組距分組數(shù)據(jù):未分組數(shù)據(jù):組距分組數(shù)據(jù):方差的計算公式標準差的計算公式注意:樣本方差用自由度n-1去除!樣本方差
自由度(degreeoffreedom)1.
一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個數(shù)
2.當樣本數(shù)據(jù)的個數(shù)為
n
時,若樣本均值
x
確定后,只有n-1個數(shù)據(jù)可以自由取值,其中必有一個數(shù)據(jù)則不能自由取值
3.例如,樣本有3個數(shù)值,即x1=2,x2=4,x3=9,則
x=5。當
x
=5
確定后,x1,x2和x3有兩個數(shù)據(jù)可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值
4.樣本方差用自由度去除,其原因可從多方面來解釋,從實際應用角度看,在抽樣估計中,當用樣本方差去估計總體方差σ2時,它是σ2的無偏估計量四、相對離散程度:離散系數(shù)
離散系數(shù)
(coefficientofvariation)1.標準差與其相應的均值之比2.消除了數(shù)據(jù)水平高低和計量單位的影響3.測度了數(shù)據(jù)的相對離散程度4.用于對不同組別數(shù)據(jù)離散程度的比較5.計算公式為:離散系數(shù)
(實例和計算過程)表
某管理局所屬8家企業(yè)的產(chǎn)品銷售數(shù)據(jù)企業(yè)編號產(chǎn)品銷售額(萬元)X1銷售利潤(萬元)X21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所屬的8家企業(yè),其產(chǎn)品銷售數(shù)據(jù)如表。試比較產(chǎn)品銷售額與銷售利潤的離散程度X1=536.25(萬元)S1=309.19(萬元)V1=536.25309.19=0.577S2=23.09(萬元)V2=32.521523.09=0.710X2=32.5215(萬元)結論:計算結果表明,V1<V2,說明產(chǎn)品銷售額的離散程度小于銷售利潤的離散程度數(shù)據(jù)類型與離散程度測度值數(shù)據(jù)類型和所適用的離散程度測度值數(shù)據(jù)類型分類數(shù)據(jù)順序數(shù)據(jù)數(shù)值型數(shù)據(jù)適用的測度值※異眾比率※四分位差※方差或標準差—
異眾比率※離散系數(shù)(比較時用)——
平均差——
極差——
四分位差——
異眾比率第三節(jié)偏態(tài)與峰度的測度一.偏態(tài)及其測度二.峰度及其測度數(shù)據(jù)的特征和測度
(本節(jié)位置)數(shù)據(jù)的特征和測度分布的形狀離散程度眾數(shù)中位數(shù)均值離散系數(shù)方差和標準差峰度四分位差異眾比率偏態(tài)集中趨勢一、偏態(tài)偏態(tài)與峰度分布的形狀扁平分布尖峰分布偏態(tài)峰度左偏分布右偏分布與標準正態(tài)分布比較!偏態(tài)1.數(shù)據(jù)分布的不對稱性2.偏態(tài)系數(shù)=0為對稱分布3.偏態(tài)系數(shù)>0為右偏分布4.偏態(tài)系數(shù)<0為左偏分布5.計算公式為()313sSkNFXXKiii?=-=偏態(tài)【例】已知1997年我國農(nóng)村居民家庭按純收入分組的有關數(shù)據(jù)如表。試計算偏態(tài)系數(shù)2.2812.4520.3519.5214.9310.356.564.132.681.814.94500以下500~10001000~15001500~20002000~25002500~30003000~35003500~40004000~45004500~50005000以上戶數(shù)比重(%)按純收入分組(元)表1997年農(nóng)村居民家庭純收入數(shù)據(jù)戶數(shù)比重(%)252015105農(nóng)村居民家庭村收入數(shù)據(jù)的直方圖偏態(tài)與峰度
(從直方圖上觀察)按純收入分組(元)1000500←150020002500300035
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年圖書管理制度范文(二篇)
- 2024年實驗室管理員工作計劃(三篇)
- 2024年學校安全教育工作總結經(jīng)典版(七篇)
- 2024年小學生寒假學習計劃例文(二篇)
- 2024年員工招聘合同樣本(二篇)
- 2024年新型流動人衛(wèi)激光測距儀項目資金籌措計劃書代可行性研究報告
- 2024年縣文聯(lián)文藝家協(xié)會管理制度(四篇)
- 2024年婚內離婚協(xié)議樣本(二篇)
- 2024年協(xié)會財務管理制度例文(二篇)
- 2024年幼兒園下學期園務工作計劃范本(二篇)
- 小學數(shù)學課堂觀察報告
- 國有企業(yè)公務用車管理辦法(麻七自用修訂版)
- 攪拌站管理辦法及制度
- 變壓吸附制氧機吸附器結構研究進展
- 急性心功能衰竭搶救流程圖
- SOP京東商家入駐合同
- 對“一次函數(shù)與二元一次方程(組)”課的點評
- 鉛酸蓄電池檢測報告樣本(共6頁)
- 供應商合同履約評價表材料類
- 房屋建筑工程竣工驗收檔案館需要資料
- 人教版七年級英語上冊《Unit 1 單元綜合測試卷》測試題及參考答案
評論
0/150
提交評論