R語(yǔ)言入門數(shù)據(jù)特征的描述_第1頁(yè)
R語(yǔ)言入門數(shù)據(jù)特征的描述_第2頁(yè)
R語(yǔ)言入門數(shù)據(jù)特征的描述_第3頁(yè)
R語(yǔ)言入門數(shù)據(jù)特征的描述_第4頁(yè)
R語(yǔ)言入門數(shù)據(jù)特征的描述_第5頁(yè)
已閱讀5頁(yè),還剩85頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

實(shí)驗(yàn)?zāi)康膶?shí)驗(yàn)內(nèi)容學(xué)習(xí)如何應(yīng)用R軟件描述數(shù)據(jù)特征1、方法簡(jiǎn)介

2、應(yīng)用實(shí)例3、實(shí)驗(yàn)作業(yè)第八講數(shù)據(jù)特征的描述R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第1頁(yè)!§3數(shù)據(jù)分布特征的測(cè)度§3.1

集中趨勢(shì)的測(cè)度§3.2離散程度的測(cè)度§3.3偏態(tài)與峰態(tài)的測(cè)度R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第2頁(yè)!學(xué)習(xí)目標(biāo)1. 集中趨勢(shì)各測(cè)度值的計(jì)算方法2. 集中趨勢(shì)各測(cè)度值的特點(diǎn)及應(yīng)用場(chǎng)合3. 離散程度各測(cè)度值的計(jì)算方法4. 離散程度各測(cè)度值的特點(diǎn)及應(yīng)用場(chǎng)合偏態(tài)與峰態(tài)的測(cè)度方法用R計(jì)算描述統(tǒng)計(jì)量并進(jìn)行分析R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第3頁(yè)!數(shù)據(jù)分布特征的測(cè)度數(shù)據(jù)特征的測(cè)度分布的形狀集中趨勢(shì)離散程度眾數(shù)中位數(shù)均值離散系數(shù)方差和標(biāo)準(zhǔn)差峰態(tài)四分位差異眾比率偏態(tài)R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第4頁(yè)!集中趨勢(shì)

(Centraltendency)一組數(shù)據(jù)向其中心值靠攏的傾向和程度測(cè)度集中趨勢(shì)就是尋找數(shù)據(jù)水平的代表值或中心值不同類型的數(shù)據(jù)用不同的集中趨勢(shì)測(cè)度值低層次數(shù)據(jù)的測(cè)度值適用于高層次的測(cè)量數(shù)據(jù),但高層次數(shù)據(jù)的測(cè)度值并不適用于低層次的測(cè)量數(shù)據(jù)R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第5頁(yè)!眾數(shù)

(不唯一性)無(wú)眾數(shù)

原始數(shù)據(jù):10591268一個(gè)眾數(shù)

原始數(shù)據(jù):679877多于一個(gè)眾數(shù)

原始數(shù)據(jù):252828423636R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第6頁(yè)!順序數(shù)據(jù)的眾數(shù)

(例題分析)解:這里的數(shù)據(jù)為順序數(shù)據(jù)。變量為“回答類別”甲城市中對(duì)住房表示不滿意的戶數(shù)最多,為108戶,因此眾數(shù)為“不滿意”這一類別,即

Mo=不滿意甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別甲城市戶數(shù)(戶)百分比(%)

非常不滿意

不滿意

一般

滿意

非常滿意24108934530836311510合計(jì)300100.0R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第7頁(yè)!中位數(shù)

(位置的確定)原始數(shù)據(jù):順序數(shù)據(jù):R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第8頁(yè)!數(shù)值型數(shù)據(jù)的中位數(shù)

(9個(gè)數(shù)據(jù)的算例)【例】:9個(gè)家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù):15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789中位數(shù)1080R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第9頁(yè)!四分位數(shù)

(quartile)排序后處于25%和75%位置上的值不受極端值的影響主要用于順序數(shù)據(jù),也可用于數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù)QLQMQU25%25%25%25%R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第10頁(yè)!順序數(shù)據(jù)的四分位數(shù)

(例題分析)解:QL位置=(300)/4=75QU位置=(3×300)/4

=225

從累計(jì)頻數(shù)看,QL在“不滿意”這一組別中;QU在“一般”這一組別中。因此

QL

=不滿意

QU

=一般甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別甲城市戶數(shù)(戶)累計(jì)頻數(shù)

非常不滿意

不滿意

一般

滿意

非常滿意2410893453024132225270300合計(jì)300—R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第11頁(yè)!數(shù)值型數(shù)據(jù)的四分位數(shù)

(10個(gè)數(shù)據(jù)的算例)【例】:10個(gè)家庭的人均月收入數(shù)據(jù)排序:

660

75078085096010801250150016302000位置:1234

5678910R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第12頁(yè)!簡(jiǎn)單均值與加權(quán)均值

(simplemean/weightedmean)設(shè)一組數(shù)據(jù)為:x1,x2,…,xn或各組的組中值為:M1,M2,…,Mk

相應(yīng)的頻數(shù)為:f1,f2,…,fk簡(jiǎn)單均值加權(quán)均值R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第13頁(yè)!加權(quán)均值

(權(quán)數(shù)對(duì)均值的影響)

甲乙兩組各有10名學(xué)生,他們的考試成績(jī)及其分布數(shù)據(jù)如下

甲組:

考試成績(jī)(x): 020100

人數(shù)分布(f):118

乙組:考試成績(jī)(x): 020100

人數(shù)分布(f):811R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第14頁(yè)!調(diào)和平均數(shù)

(harmonicmean)均值的另一種表現(xiàn)形式易受極端值的影響計(jì)算公式為R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第15頁(yè)!幾何平均數(shù)

(geometricmean)

n個(gè)變量值乘積的

n次方根適用于對(duì)比率數(shù)據(jù)的平均主要用于計(jì)算平均增長(zhǎng)率計(jì)算公式為5.可看作是均值的一種變形R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第16頁(yè)!幾何平均數(shù)

(例題分析)【例】一位投資者購(gòu)持有一種股票,在2000、2001、2002和2003年收益率分別為4.5%、2.1%、25.5%、1.9%。計(jì)算該投資者在這四年內(nèi)的平均收益率算術(shù)平均:

幾何平均:R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第17頁(yè)!眾數(shù)、中位數(shù)和均值的特點(diǎn)和應(yīng)用眾數(shù)不受極端值影響具有不唯一性數(shù)據(jù)分布偏斜程度較大時(shí)應(yīng)用中位數(shù)不受極端值影響數(shù)據(jù)分布偏斜程度較大時(shí)應(yīng)用均值易受極端值影響數(shù)學(xué)性質(zhì)優(yōu)良數(shù)據(jù)對(duì)稱分布或接近對(duì)稱分布時(shí)應(yīng)用R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第18頁(yè)!§3.2離散程度的測(cè)度分類數(shù)據(jù):異眾比率順序數(shù)據(jù):四分位差數(shù)值型數(shù)據(jù):方差及標(biāo)準(zhǔn)差相對(duì)位置的測(cè)量:標(biāo)準(zhǔn)分?jǐn)?shù)相對(duì)離散程度:離散系數(shù)R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第19頁(yè)!異眾比率

(variationratio)1. 對(duì)分類數(shù)據(jù)離散程度的測(cè)度2. 非眾數(shù)組的頻數(shù)占總頻數(shù)的比率3. 計(jì)算公式為4.用于衡量眾數(shù)的代表性R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第20頁(yè)!四分位差

(quartiledeviation)對(duì)順序數(shù)據(jù)離散程度的測(cè)度也稱為四分間距(inter-quantilerange)上四分位數(shù)與下四分位數(shù)之差

QD

=QU–QL

反映了中間50%數(shù)據(jù)的離散程度不受極端值的影響用于衡量中位數(shù)的代表性R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第21頁(yè)!極差

(range)一組數(shù)據(jù)的最大值與最小值之差離散程度的最簡(jiǎn)單測(cè)度值易受極端值影響未考慮數(shù)據(jù)的分布7891078910R

=max(xi)-min(xi)計(jì)算公式為R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第22頁(yè)!平均差

(例題分析)某電腦公司銷售量數(shù)據(jù)平均差計(jì)算表按銷售量分組組中值(Mi)頻數(shù)(fi)140—150150—160160—170170—180180—190190—200200—210210—220220—230230—24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合計(jì)—120—2040R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第23頁(yè)!方差和標(biāo)準(zhǔn)差

(varianceandstandarddeviation)數(shù)據(jù)離散程度的最常用測(cè)度值反映了各變量值與均值的平均差異根據(jù)總體數(shù)據(jù)計(jì)算的,稱為總體方差或標(biāo)準(zhǔn)差;根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本方差或標(biāo)準(zhǔn)差4681012x=8.3R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第24頁(yè)!樣本方差

自由度(degreeoffreedom)一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個(gè)數(shù)當(dāng)樣本數(shù)據(jù)的個(gè)數(shù)為

n

時(shí),若樣本均值x確定后,只有n-1個(gè)數(shù)據(jù)可以自由取值,其中必有一個(gè)數(shù)據(jù)則不能自由取值例如,樣本有3個(gè)數(shù)值,即x1=2,x2=4,x3=9,則x=5。當(dāng)x

=5

確定后,x1,x2和x3有兩個(gè)數(shù)據(jù)可以自由取值,另一個(gè)則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值樣本方差用自由度去除,其原因可從多方面來(lái)解釋,從實(shí)際應(yīng)用角度看,在抽樣估計(jì)中,當(dāng)用樣本方差s2去估計(jì)總體方差σ2時(shí),s2是σ2的無(wú)偏估計(jì)量R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第25頁(yè)!樣本標(biāo)準(zhǔn)差

(例題分析)

含義:每一天的銷售量與平均數(shù)相比,平均相差21.58臺(tái)R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第26頁(yè)!標(biāo)準(zhǔn)分?jǐn)?shù)

(性質(zhì))均值等于02. 方差等于1R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第27頁(yè)!標(biāo)準(zhǔn)化值

(例題分析)9個(gè)家庭人均月收入標(biāo)準(zhǔn)化值計(jì)算表家庭編號(hào)人均月收入(元)標(biāo)準(zhǔn)化值z(mì)

123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第28頁(yè)!切比雪夫不等式

(Chebyshev’sinequality)如果一組數(shù)據(jù)不是對(duì)稱分布,經(jīng)驗(yàn)法則就不再使用,這時(shí)可使用切比雪夫不等式,它對(duì)任何分布形狀的數(shù)據(jù)都適用切比雪夫不等式提供的是“下界”,也就是“所占比例至少和多少”對(duì)于任意分布形態(tài)的數(shù)據(jù),根據(jù)切比雪夫不等式,至少有1-1/k2的數(shù)據(jù)落在k個(gè)標(biāo)準(zhǔn)差之內(nèi)。其中k是大于1的任意值,但不一定是整數(shù)R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第29頁(yè)!離散系數(shù)

(coefficientofvariation)1. 標(biāo)準(zhǔn)差與其相應(yīng)的均值之比對(duì)數(shù)據(jù)相對(duì)離散程度的測(cè)度消除了數(shù)據(jù)水平高低和計(jì)量單位的影響4. 用于對(duì)不同組別數(shù)據(jù)離散程度的比較5.計(jì)算公式為R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第30頁(yè)!離散系數(shù)

(例題分析)結(jié)論:計(jì)算結(jié)果表明,v1<v2,說明產(chǎn)品銷售額的離散程度小于銷售利潤(rùn)的離散程度v1=536.25309.19=0.577v2=32.521523.09=0.710R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第31頁(yè)!§3.3偏態(tài)與峰態(tài)的測(cè)度R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第32頁(yè)!偏態(tài)

(skewness)統(tǒng)計(jì)學(xué)家Pearson于1895年首次提出數(shù)據(jù)分布偏斜程度的測(cè)度 偏態(tài)系數(shù)=0為對(duì)稱分布 偏態(tài)系數(shù)>0為右偏分布 偏態(tài)系數(shù)<0為左偏分布R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第33頁(yè)!偏態(tài)系數(shù)

(例題分析)

某電腦公司銷售量偏態(tài)及峰度計(jì)算表按銷售量份組(臺(tái))組中值(Mi)頻數(shù)

fi140—150150—160160—170170—180180—190190—200200—210210—220220—230230—240145155165175185195205215225235491627201710845-256000-243000-128000-270000170008000021600025600062500010240000729000025600002700000170000160000064800001024000031250000合計(jì)—120540000

70100000

R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第34頁(yè)!偏態(tài)與峰態(tài)

(從直方圖上觀察)按銷售量分組(臺(tái))結(jié)論:1.為右偏分布

2.峰態(tài)適中140150210某電腦公司銷售量分布的直方圖190200180160170頻數(shù)(天)25201510530220230240R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第35頁(yè)!峰態(tài)系數(shù)

(kurtosiscoefficient)根據(jù)原始數(shù)據(jù)計(jì)算根據(jù)分組數(shù)據(jù)計(jì)算R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第36頁(yè)!R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第37頁(yè)!fivenumpackage:statsRDocumentationTukeyFive-NumberSummariesDescription:ReturnsTukey'sfivenumbersummary(minimum,lower-hinge,median,upper-hinge,maximum)fortheinputdata.Usage:fivenum(x,na.rm=TRUE)Arguments:x:numeric,maybeincluding'NA'sand+/-'Inf's.na.rm:logical;if'TRUE',all'NA'and'NaN'saredropped,beforethestatisticsareputed.Value:Anumericvectoroflength5containingthesummaryinformation.See'boxplot.stats'formoredetails.SeeAlso:'IQR','boxplot.stats','median','quantile','range'.Examples:fivenum(c(rnorm(100),-1:1/0))R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第38頁(yè)!na.rm:logical;iftrue,any'NA'and'NaN''sareremovedfrom'x's:logical;iftrue,theresulthasa'names'attribute.Setto'FALSE'forspeedupwithmany'probs'.type:anintegerbetween1and9selectingoneoftheninequantilealgorithmsdetailedbelowtobeused....:furtherargumentspassedtoorfromothermethods.Details:Avectoroflength'length(probs)'isreturned;if'names=TRUE',ithasa'names'attribute.'NA'and'NaN'valuesin'probs'arepropagatedtotheresult.R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第39頁(yè)!wherealphaandbetaareconstantsdeterminedbythetype.Further,m=alpha+p(1-alpha-beta),andgamma=g.*Discontinuoussamplequantiletypes1,2,and3*Type1Inverseofempiricaldistributionfunction.Type2Similartotype1butwithaveragingatdiscontinuities.Type3SASdefinition:nearestevenorderstatistic.*Continuoussamplequantiletypes4through9*Type4p(k)=k/n.Thatis,linearinterpolationoftheempiricalcdf.Type5p(k)=(k-0.5)/n.Thatisapiecewiselinearfunctionwheretheknotsarethevaluesmidwaythroughthestepsoftheempiricalcdf.Thisispopularamongsthydrologists.

R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第40頁(yè)!Author(s):oftheversionusedinR>=2.0.0,IvanFrohneandRobJHyndman.References:

Examples:quantile(x<-rnorm(1001))#Extremes&Quartilesbydefaultquantile(x,probs=c(.1,.5,1,2,5,10,50,NA)/100)###Comparedifferenttypesp<-c(0.1,0.5,1,2,5,10,50)/100res<-matrix(as.numeric(NA),9,7)for(typein1:9)res[type,]<-y<-quantile(x,p,type=type)dimnames(res)<-list(1:9,names(y))round(res,3)R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第41頁(yè)!例1讀取某公司雇員數(shù)據(jù)(R數(shù)據(jù)文件),分析收入的數(shù)據(jù)特征。>fivenum(Edata$SALARY)[1]15750240002887537050135000>IQR(Edata$SALARY)[1]12937.5summary(Edata$SALARY)

Min.1stQu.MedianMean3rdQu.Max.1575024000288803442036940135000R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第42頁(yè)!例2分析公司不同性別、是否少數(shù)民族、工作類型條件下收入的數(shù)據(jù)特征。

tapply(Edata$SALARY,Edata$JOBCAT,fivenum)

經(jīng)理

[1]34410.051787.560500.071687.5135000.0

保管員

[1]2430030150307503097535250

服務(wù)員[1]1575022800265503120080000tapply(Edata$SALARY,Edata$MINORITY,fivenum)$Yes[1]16350236252662530675100000$No[1]15750241502992540350135000R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第43頁(yè)!1、對(duì)公司雇員數(shù)據(jù),分析不同性別及民族之間的收入、收入增長(zhǎng)(目前工資與起始工資差)數(shù)據(jù)特征,求出主要統(tǒng)計(jì)量(mean,IQR,fivnum,range,var,std);寫出分析報(bào)告。作業(yè):要求:需給出程序、結(jié)果,存成word文檔

發(fā)送到52用戶名:r

密碼:123456R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第44頁(yè)!...:optionalargumentsto'FUN'.simplify:If'FALSE','tapply'alwaysreturnsanarrayofmode'"list"'.If'TRUE'(thedefault),thenif'FUN'alwaysreturnsascalar,'tapply'returnsanarraywiththemodeofthescalar.Value:When'FUN'ispresent,'tapply'calls'FUN'foreachcellthathasanydatainit.If'FUN'returnsasingleatomicvalueforeachcell(e.g.,functions'mean'or'var')andwhen'simplify'is'TRUE','tapply'returnsamulti-wayarraycontainingthevalues.Thearrayhasthesamenumberofdimensionsas'INDEX'hasponents;thenumberoflevelsinadimensionisthenumberoflevels('nlevels()')inthecorrespondingponentof'INDEX'.NotethatcontrarytoS,'simplify=TRUE'alwaysreturnsanarray,possibly1-dimensional.

R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第45頁(yè)!Examples:require(stats)groups<-as.factor(rbinom(32,n=5,p=.4))tapply(groups,groups,length)#-isalmostthesameastable(groups)##contingencytablefromdata.frame:arraywithnameddimnamestapply(warpbreaks$breaks,warpbreaks[,-1],sum)tapply(warpbreaks$breaks,warpbreaks[,3,drop=FALSE],sum)n<-17;fac<-factor(rep(1:3,len=n),levels=1:5)table(fac)

R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第46頁(yè)!數(shù)據(jù)分布的特征集中趨勢(shì)(位置)偏態(tài)和峰態(tài)(形狀)離中趨勢(shì)

(分散程度)R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第47頁(yè)!§3.1集中趨勢(shì)的測(cè)度一.分類數(shù)據(jù):眾數(shù)二.順序數(shù)據(jù):中位數(shù)和分位數(shù)三.數(shù)值型數(shù)據(jù):均值四.眾數(shù)、中位數(shù)和均值的比較R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第48頁(yè)!眾數(shù)

(mode)出現(xiàn)次數(shù)最多的變量值不受極端值的影響一組數(shù)據(jù)可能沒有眾數(shù)或有幾個(gè)眾數(shù)主要用于分類數(shù)據(jù),也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第49頁(yè)!分類數(shù)據(jù)的眾數(shù)

(例題分析)不同品牌飲料的頻數(shù)分布

飲料品牌頻數(shù)比例百分比(%)

可口可樂旭日升冰茶百事可樂匯源果汁露露15119690.3020.183022181218合計(jì)501100解:這里的變量為“飲料品牌”,這是個(gè)分類變量,不同類型的飲料就是變量值在所調(diào)查的50人中,購(gòu)買可口可樂的人數(shù)最多,為15人,占總被調(diào)查人數(shù)的30%,因此眾數(shù)為“可口可樂”這一品牌,即

Mo=可口可樂R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第50頁(yè)!中位數(shù)

(median)排序后處于中間位置上的值Me50%50%不受極端值的影響主要用于順序數(shù)據(jù),也可用數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù)各變量值與中位數(shù)的離差絕對(duì)值之和最小,即R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第51頁(yè)!順序數(shù)據(jù)的中位數(shù)

(例題分析)解:中位數(shù)的位置為300/2=150

從累計(jì)頻數(shù)看,中位數(shù)在“一般”這一組別中。因此

Me=一般甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別甲城市戶數(shù)(戶)累計(jì)頻數(shù)

非常不滿意

不滿意

一般

滿意

非常滿意2410893453024132225270300合計(jì)300—R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第52頁(yè)!數(shù)值型數(shù)據(jù)的中位數(shù)

(10個(gè)數(shù)據(jù)的算例)【例】:10個(gè)家庭的人均月收入數(shù)據(jù)排序:

660

75078085096010801250150016302000位置:1234

5678910R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第53頁(yè)!四分位數(shù)

(位置的確定)原始數(shù)據(jù):順序數(shù)據(jù):R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第54頁(yè)!數(shù)值型數(shù)據(jù)的四分位數(shù)

(9個(gè)數(shù)據(jù)的算例)【例】:9個(gè)家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù):

15007507801080850960200012501630排序:

75078085096010801250150016302000位置:123456789R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第55頁(yè)!均值

(mean)集中趨勢(shì)的最常用測(cè)度值一組數(shù)據(jù)的均衡點(diǎn)所在體現(xiàn)了數(shù)據(jù)的必然性特征易受極端值的影響用于數(shù)值型數(shù)據(jù),不能用于分類數(shù)據(jù)和順序數(shù)據(jù)R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第56頁(yè)!已改至此!!某電腦公司銷售量數(shù)據(jù)分組表按銷售量分組組中值(Mi)頻數(shù)(fi)Mifi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合計(jì)—12022200加權(quán)均值

(例題分析)R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第57頁(yè)!均值

(數(shù)學(xué)性質(zhì))1. 各變量值與均值的離差之和等于零

2.各變量值與均值的離差平方和最小R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第58頁(yè)!調(diào)和平均數(shù)

(例題分析)某日三種蔬菜的批發(fā)成交數(shù)據(jù)蔬菜名稱批發(fā)價(jià)格(元)

Mi成交額(元)Mifi成交量(公斤)fi甲乙丙1.200.500.801800012500640015000250008000合計(jì)—3690048000【例】某蔬菜批發(fā)市場(chǎng)三種蔬菜的日成交數(shù)據(jù)如表,計(jì)算三種蔬菜該日的平均批發(fā)價(jià)格R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第59頁(yè)!幾何平均數(shù)

(例題分析)【例】某水泥生產(chǎn)企業(yè)1999年的水泥產(chǎn)量為100萬(wàn)噸,2000年與1999年相比增長(zhǎng)率為9%,2001年與2000年相比增長(zhǎng)率為16%,2002年與2001年相比增長(zhǎng)率為20%。求各年的年平均增長(zhǎng)率。年平均增長(zhǎng)率=114.91%-1=14.91%R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第60頁(yè)!眾數(shù)、中位數(shù)和均值的關(guān)系左偏分布均值

中位數(shù)

眾數(shù)對(duì)稱分布

均值=中位數(shù)=

眾數(shù)右偏分布眾數(shù)

中位數(shù)均值R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第61頁(yè)!數(shù)據(jù)類型與集中趨勢(shì)測(cè)度值數(shù)據(jù)類型和所適用的集中趨勢(shì)測(cè)度值數(shù)據(jù)類型分類數(shù)據(jù)順序數(shù)據(jù)間隔數(shù)據(jù)比率數(shù)據(jù)適用的測(cè)度值※眾數(shù)※中位數(shù)※均值※均值—四分位數(shù)眾數(shù)調(diào)和平均數(shù)—眾數(shù)中位數(shù)幾何平均數(shù)——四分位數(shù)

中位數(shù)———四分位數(shù)———眾數(shù)R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第62頁(yè)!離中趨勢(shì)數(shù)據(jù)分布的另一個(gè)重要特征反映各變量值遠(yuǎn)離其中心值的程度(離散程度)從另一個(gè)側(cè)面說明了集中趨勢(shì)測(cè)度值的代表程度不同類型的數(shù)據(jù)有不同的離散程度測(cè)度值R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第63頁(yè)!異眾比率

(例題分析)解:

在所調(diào)查的50人當(dāng)中,購(gòu)買其他品牌飲料的人數(shù)占70%,異眾比率比較大。因此,用“可口可樂”代表消費(fèi)者購(gòu)買飲料品牌的狀況,其代表性不是很好不同品牌飲料的頻數(shù)分布

飲料品牌頻數(shù)比例百分比(%)

可口可樂旭日升冰茶百事可樂匯源果汁露露15119690.3020.183022181218合計(jì)501100R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第64頁(yè)!四分位差

(例題分析)解:設(shè)非常不滿意為1,不滿意為2,一般為3,滿意為4,非常滿意為5

已知

QL=不滿意=2

QU=

一般=

3四分位差:

QD

=QU-QL

=3–2

=1甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別甲城市戶數(shù)(戶)累計(jì)頻數(shù)

非常不滿意

不滿意

一般

滿意

非常滿意2410893453024132225270300合計(jì)300—R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第65頁(yè)!平均差

(meandeviation)各變量值與其均值離差絕對(duì)值的平均數(shù)能全面反映一組數(shù)據(jù)的離散程度數(shù)學(xué)性質(zhì)較差,實(shí)際中應(yīng)用較少計(jì)算公式為未分組數(shù)據(jù)組距分組數(shù)據(jù)R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第66頁(yè)!平均差

(例題分析)

含義:每一天的銷售量平均數(shù)相比,平均相差17臺(tái)R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第67頁(yè)!樣本方差和標(biāo)準(zhǔn)差

(simplevarianceandstandarddeviation)未分組數(shù)據(jù):組距分組數(shù)據(jù):未分組數(shù)據(jù):組距分組數(shù)據(jù):方差的計(jì)算公式標(biāo)準(zhǔn)差的計(jì)算公式R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第68頁(yè)!樣本標(biāo)準(zhǔn)差

(例題分析)某電腦公司銷售量數(shù)據(jù)平均差計(jì)算表按銷售量分組組中值(Mi)頻數(shù)(fi)140—150150—160160—170170—180180—190190—200200—210210—220220—230230—24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合計(jì)—120—55400R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第69頁(yè)!標(biāo)準(zhǔn)分?jǐn)?shù)

(standardscore)1.也稱標(biāo)準(zhǔn)化值2. 對(duì)某一個(gè)值在一組數(shù)據(jù)中相對(duì)位置的度量3. 可用于判斷一組數(shù)據(jù)是否有離群點(diǎn)4. 用于對(duì)變量的標(biāo)準(zhǔn)化處理5.計(jì)算公式為R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第70頁(yè)!標(biāo)準(zhǔn)分?jǐn)?shù)

(性質(zhì))z分?jǐn)?shù)只是將原始數(shù)據(jù)進(jìn)行了線性變換,它并沒有改變一個(gè)數(shù)據(jù)在該組數(shù)據(jù)中的位置,也沒有改變?cè)摻M數(shù)分布的形狀,而只是將該組數(shù)據(jù)變?yōu)榫禐?,標(biāo)準(zhǔn)差為1。

R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第71頁(yè)!經(jīng)驗(yàn)法則經(jīng)驗(yàn)法則表明:當(dāng)一組數(shù)據(jù)對(duì)稱分布時(shí)約有68%的數(shù)據(jù)在平均數(shù)加減1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有95%的數(shù)據(jù)在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有99%的數(shù)據(jù)在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第72頁(yè)!切比雪夫不等式

(Chebyshev’sinequality)對(duì)于k=2,3,4,該不等式的含義是至少有75%的數(shù)據(jù)落在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)至少有89%的數(shù)據(jù)落在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)至少有94%的數(shù)據(jù)落在平均數(shù)加減4個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第73頁(yè)!離散系數(shù)

(例題分析)某管理局所屬8家企業(yè)的產(chǎn)品銷售數(shù)據(jù)企業(yè)編號(hào)產(chǎn)品銷售額(萬(wàn)元)x1銷售利潤(rùn)(萬(wàn)元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所屬的8家企業(yè),其產(chǎn)品銷售數(shù)據(jù)如表。試比較產(chǎn)品銷售額與銷售利潤(rùn)的離散程度R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第74頁(yè)!數(shù)據(jù)類型與離散程度測(cè)度值數(shù)據(jù)類型和所適用的離散程度測(cè)度值數(shù)據(jù)類型分類數(shù)據(jù)順序數(shù)據(jù)數(shù)值型數(shù)據(jù)適用的測(cè)度值※異眾比率※四分位差※方差或標(biāo)準(zhǔn)差—

異眾比率※離散系數(shù)(比較時(shí)用)——

平均差——

極差——

四分位差——

異眾比率R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第75頁(yè)!偏態(tài)與峰態(tài)分布的形狀扁平分布尖峰分布偏態(tài)峰態(tài)左偏分布右偏分布與標(biāo)準(zhǔn)正態(tài)分布比較!R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第76頁(yè)!偏態(tài)系數(shù)

(skewnesscoefficient)根據(jù)原始數(shù)據(jù)計(jì)算根據(jù)分組數(shù)據(jù)計(jì)算R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第77頁(yè)!偏態(tài)系數(shù)

(例題分析)結(jié)論:偏態(tài)系數(shù)為正值,但與0的差異不大,說明電腦銷售量為輕微右偏分布,即銷售量較少的天數(shù)占據(jù)多數(shù),而銷售量較多的天數(shù)則占少數(shù)R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第78頁(yè)!峰態(tài)

(kurtosis)統(tǒng)計(jì)學(xué)家Pearson于1905年首次提出數(shù)據(jù)分布扁平程度的測(cè)度峰態(tài)系數(shù)=0扁平峰度適中峰態(tài)系數(shù)<0為扁平分布峰態(tài)系數(shù)>0為尖峰分布R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第79頁(yè)!峰態(tài)系數(shù)

(例題分析)結(jié)論:偏態(tài)系數(shù)為負(fù)值,但與0的差異不大,說明電腦銷售量為輕微扁平分布R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第80頁(yè)!簡(jiǎn)單統(tǒng)計(jì)量sum,mean,var,sd,min,max,range,median,IQR(四分位間距)等為統(tǒng)計(jì)量,sort,order,rank與排序有關(guān),其它ave,fivenum,mad,quantile,stem等。aggregate:計(jì)算各數(shù)據(jù)子集的概括統(tǒng)計(jì)量用R計(jì)算描述統(tǒng)計(jì)量R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第81頁(yè)!quantilepackage:statsRDocumentationSampleQuantilesDescription:Thegenericfunction'quantile'producessamplequantilescorrespondingtothegivenprobabilities.Thesmallestobservationcorrespondstoaprobabilityof0andthelargesttoaprobabilityof1.Usage:quantile(x,...)##DefaultS3method:quantile(x,probs=seq(0,1,0.25),na.rm=FALSE,names=TRUE,type=7,...)Arguments:x:numericvectorswhosesamplequantilesarewanted.Mbs:numericvectorofprobabilitieswithvaluesin[0,1].R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第82頁(yè)!Types:'quantile'returnsestimatesofunderlyingdistributionquantilesbasedononeortwoorderstatisticsfromthesuppliedelementsin'x'atprobabilitiesin'probs'.OneoftheninequantilealgorithmsdiscussedinHyndmanandFan(1996),selectedby'type',isemployed.SamplequantilesoftypeiaredefinedbyQ[i](p)=(1-gamma)x[j]+gammax[j+1],where1<=i<=9,(j-m)/n<=p<(j-m+1)/n,x[j]isthejthorderstatistic,nisthesamplesize,andmisaconstantdeterminedbythesamplequantiletype.Heregammadependsonthefractionalpartofg=np+m-j.Forthecontinuoussamplequantiletypes(4through9),thesamplequantilescanbeobtainedbylinearinterpolationbetweenthekthorderstatisticandp(k):p(k)=(k-alpha)/(n-alpha-beta+1),R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第83頁(yè)!Type6p(k)=k/(n+1).Thusp(k)=E[F(x[k])].ThisisusedbyMinitabandbySPSS.Type7p(k)=(k-1)/(n-1).Inthiscase,p(k)=mode[F(x[k])].ThisisusedbyS.Type8p(k)=(k-1/3)/(n+1/3).Thenp(k)=~median[F(x[k])].Theresultingquantileestimatesareapproximatelymedian-unbiasedregardlessofthedistributionof'x'.Type9p(k)=(k-3/8)/(n+1/4).Theresultingquantileestimatesareapproximatelyunbiasedif'x'isnormallydistributed.HyndmanandFan(1996)remendtype8.Thedefaultmethodistype7,asusedbySandbyR<2.0.0.R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第84頁(yè)!例1讀取某公司雇員數(shù)據(jù)(R數(shù)據(jù)文件),分析收入的數(shù)據(jù)特征。load("E:/R/Employeedata.Rdata")>quantile(Edata$SALARY,0.25)25%24000>quantile(Edata$SALARY,(1:20)/20)

5%10%15%20%25%30%35%40%19492.521045.022050.022950.024000.024885.026032.526700.045%50%55%60%65%70%75%80%27750.028875.030000.030750.032017.534500.036937.540920.085%90%95%100%50027.559392.570000.0135000.0R語(yǔ)言入門數(shù)據(jù)特征的描述共90頁(yè),您現(xiàn)在瀏覽的是第85頁(yè)!例2分析公司不同性別、是否少數(shù)民族、工作類型條件下收入的數(shù)據(jù)特征。tapply(Edata$SALARY,Edata$GENDER,mean)

fm26031.9241441.78tapply(Edata$SALARY,Edata$JOBCAT,mean)

經(jīng)理保管員服務(wù)員

63977.8030938.8927838.54tapply(Edata$SALARY,Edata$MINORITY,mean)YesNo28713

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論