統(tǒng)計(jì)學(xué)第3章-用統(tǒng)計(jì)量描述數(shù)據(jù)_第1頁(yè)
統(tǒng)計(jì)學(xué)第3章-用統(tǒng)計(jì)量描述數(shù)據(jù)_第2頁(yè)
統(tǒng)計(jì)學(xué)第3章-用統(tǒng)計(jì)量描述數(shù)據(jù)_第3頁(yè)
統(tǒng)計(jì)學(xué)第3章-用統(tǒng)計(jì)量描述數(shù)據(jù)_第4頁(yè)
統(tǒng)計(jì)學(xué)第3章-用統(tǒng)計(jì)量描述數(shù)據(jù)_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)分析

(方法與案例)

作者賈俊平統(tǒng)計(jì)學(xué)統(tǒng)

計(jì)

學(xué)

Statistics

一些人使用統(tǒng)計(jì)就像喝醉酒的人使用街燈柱—支撐的功能多于照明。

——AndrewLang

統(tǒng)計(jì)名言第3章用統(tǒng)計(jì)量描述數(shù)據(jù)3.1水平的度量3.2差異的度量3.3分布形狀的度量Statistic學(xué)習(xí)目標(biāo)度量水平的統(tǒng)計(jì)量度量差異的統(tǒng)計(jì)量度量分布形狀的統(tǒng)計(jì)量各統(tǒng)計(jì)量的的特點(diǎn)及應(yīng)用場(chǎng)合用Excel和SPSS計(jì)算描述統(tǒng)計(jì)量哪名運(yùn)動(dòng)員的發(fā)揮更穩(wěn)定?在奧運(yùn)會(huì)女子10米氣手槍比賽中,每個(gè)運(yùn)動(dòng)員首先進(jìn)行每組10搶共4組的預(yù)賽,然后根據(jù)預(yù)賽總成績(jī)確定進(jìn)入決賽的8名運(yùn)動(dòng)員。決賽時(shí)8名運(yùn)動(dòng)員再進(jìn)行10槍射擊,再將預(yù)賽成績(jī)加上決賽成績(jī)確定最后的名次在2008年8月10日舉行的第29屆北京奧運(yùn)會(huì)女子10米氣手槍決賽中,進(jìn)入決賽的8名運(yùn)動(dòng)員的預(yù)賽成績(jī)和最后10槍的決賽成績(jī)?nèi)缦卤砟拿\(yùn)動(dòng)員的發(fā)揮更穩(wěn)定?最會(huì)的比賽結(jié)果是,中國(guó)運(yùn)動(dòng)員郭文珺憑借決賽的穩(wěn)定發(fā)揮,以總成績(jī)492.3環(huán)奪得金牌,預(yù)賽排在第1名的俄羅斯運(yùn)動(dòng)員納塔利婭·帕杰林娜以總成績(jī)498.1環(huán)獲得銀牌,預(yù)賽排在第4名的格魯吉亞運(yùn)動(dòng)員妮諾·薩盧克瓦澤以總成績(jī)487.4環(huán)的成績(jī)獲得銅牌,而預(yù)賽排在第3名的蒙古運(yùn)動(dòng)員卓格巴德拉赫·蒙赫珠勒僅以479.6環(huán)的成績(jī)名列第8名由此可見(jiàn),在射擊比賽中,運(yùn)動(dòng)員能否取得好的成績(jī),發(fā)揮的穩(wěn)定性至關(guān)重要。那么,怎樣評(píng)價(jià)一名運(yùn)動(dòng)員的發(fā)揮是否穩(wěn)定呢?通過(guò)本章內(nèi)容的學(xué)習(xí)就能很容易回答這樣的問(wèn)題3.1水平的度量3.1.1平均數(shù)3.1.2中位數(shù)和分位數(shù)3.1.3用哪個(gè)值代表一組數(shù)據(jù)?第3章用統(tǒng)計(jì)量描述數(shù)據(jù)3.1.1平均數(shù)3.1水平的度量平均數(shù)

(mean)也稱為均值,常用的統(tǒng)計(jì)量之一消除了觀測(cè)值的隨機(jī)波動(dòng)易受極端值的影響根據(jù)總體數(shù)據(jù)計(jì)算的,稱為平均數(shù),記為;根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本平均數(shù),記為x簡(jiǎn)單算數(shù)平均

(Simplemean)設(shè)一組數(shù)據(jù)為:x1,x2,…,xn(總體數(shù)據(jù)xN)樣本平均數(shù)總體平均數(shù)統(tǒng)計(jì)函數(shù)—AVERAGEExcel加權(quán)平均數(shù)

(Weightedmean)設(shè)各組的組中值為:M1,M2,…,Mk

相應(yīng)的頻數(shù)為:

f1,f2,…,fk樣本加權(quán)平均:總體加權(quán)平均:加權(quán)平均數(shù)

(例題分析)某電腦公司銷售額數(shù)據(jù)分組表按銷售額分組組中值(Mi)頻數(shù)(fi)Mifi

140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合計(jì)—12022200加權(quán)平均數(shù)

(權(quán)數(shù)對(duì)均值的影響)【例】甲乙兩組各有10名學(xué)生,他們的考試成績(jī)及其分布數(shù)據(jù)如下甲組:考試成績(jī)(x): 020100

人數(shù)分布(f):118乙組:考試成績(jī)(x): 020100

人數(shù)分布(f):8113.1.2中位數(shù)和分位數(shù)3.1水平的度量中位數(shù)

(median)排序后處于中間位置上的值。不受極端值影響Me50%50%2.位置確定3.數(shù)值確定中位數(shù)的計(jì)算

(數(shù)據(jù)個(gè)數(shù)為奇數(shù))【例3-3】9個(gè)家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù):15007507801080850960200012501630排序:7507808509601080

1250

150016302000位置:123456789中位數(shù)

1080中位數(shù)的計(jì)算

(數(shù)據(jù)個(gè)數(shù)為偶數(shù))【例3-3】10個(gè)家庭的人均月收入數(shù)據(jù)排序:

750780850960

1080

12501500163020002800位置:1234

5678910統(tǒng)計(jì)函數(shù)—MEDIANExcel四分位數(shù)—用3個(gè)點(diǎn)等分?jǐn)?shù)據(jù)

(quartile)排序后處于25%和75%位置上的值不受極端值的影響QLQMQU25%25%25%25%四分位數(shù)的計(jì)算

(位置的確定)方法2:較準(zhǔn)確算法(SPSS的算法)方法1:定義算法四分位數(shù)的計(jì)算

(位置的確定)方法3:

其中[]表示中位數(shù)的位置取整。這樣計(jì)算出的四分位數(shù)的位置,要么是整數(shù),要么在兩個(gè)數(shù)之間0.5的位置上方法4:

Excel給出的四分位數(shù)位置的確定方法

如果位置不是整數(shù),則按比例分?jǐn)偽恢脙蓚?cè)數(shù)值的差值四分位數(shù)的計(jì)算

(數(shù)據(jù)個(gè)數(shù)為奇數(shù))【例3-4】9個(gè)家庭的人均月收入數(shù)據(jù)(4種方法計(jì)算)原始數(shù)據(jù):15007507801080850960200012501630排序:75078085096010801250150016302000位置:1234

5

6

7

89方法1—定義公式四分位數(shù)的計(jì)算

(數(shù)據(jù)個(gè)數(shù)為奇數(shù))【例3-4】9個(gè)家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù):15007507801080850960200012501630排序:75078085096010801250150016302000位置:1234

5

6789方法2—SPSS公式四分位數(shù)的計(jì)算

(數(shù)據(jù)個(gè)數(shù)為奇數(shù))【例3-4】9個(gè)家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù):15007507801080850960200012501630排序:75078085096010801250150016302000位置:

12

34

5

6

7

89方法3—4分?jǐn)?shù)公式四分位數(shù)的計(jì)算

(數(shù)據(jù)個(gè)數(shù)為奇數(shù))【例3-4】9個(gè)家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù):15007507801080850960200012501630排序:75078085096010801250150016302000位置:12

3

4

5

67

89方法4—Excel公式統(tǒng)計(jì)函數(shù)—QUARTILEExcel眾數(shù)

(mode)一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值適合于數(shù)據(jù)量較多時(shí)使用不受極端值的影響一組數(shù)據(jù)可能沒(méi)有眾數(shù)或有幾個(gè)眾數(shù)mo統(tǒng)計(jì)函數(shù)—MODEExcel3.1.3用哪個(gè)值代表一組數(shù)據(jù)?3.1水平的度量眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系眾數(shù)、中位數(shù)、平均數(shù)的特點(diǎn)和應(yīng)用平均數(shù)易受極端值影響數(shù)學(xué)性質(zhì)優(yōu)良,實(shí)際中最常用數(shù)據(jù)對(duì)稱分布或接近對(duì)稱分布時(shí)代表性較好中位數(shù)不受極端值影響數(shù)據(jù)分布偏斜程度較大時(shí)代表性接好眾數(shù)不受極端值影響具有不惟一性數(shù)據(jù)分布偏斜程度較大且有明顯峰值時(shí)代表性較好3.2差異的度量3.2.1極差和四分位差3.2.2方差和標(biāo)準(zhǔn)差3.2.3比較幾組數(shù)據(jù)的離散程度:離散系數(shù)第3章用統(tǒng)計(jì)量描述數(shù)據(jù)怎樣評(píng)價(jià)水平代表值?假定有兩個(gè)地區(qū)每人的平均收入數(shù)據(jù),其中甲地區(qū)的平均收入為5000元,乙地區(qū)的平均收入為3000元。你如何評(píng)價(jià)兩個(gè)地區(qū)的收入狀況?如果平均收入的多少代表了該地區(qū)的生活水平,你能否認(rèn)為甲地區(qū)的平均生活水平就高于乙地區(qū)呢?要回答這些問(wèn)題,首先需要搞清楚這里的平均收入是否能代表大多數(shù)人的收入水平。如果甲地區(qū)有少數(shù)幾個(gè)富翁,而大多數(shù)人的收入都很低,雖然平均收入很高,但多數(shù)人生活水平仍然很低。相反,乙地區(qū)多數(shù)人的收入水平都在3000元左右,雖然平均收入看上去不如甲地區(qū),但多數(shù)人的生活水平卻比甲地區(qū)高,原因是甲地區(qū)的收入差距大于乙地區(qū)怎樣評(píng)價(jià)水平代表值??jī)H僅知道數(shù)據(jù)的水平是遠(yuǎn)遠(yuǎn)不夠的,還必須考慮數(shù)據(jù)之間的差距有多大。數(shù)據(jù)之間的差距用統(tǒng)計(jì)語(yǔ)言來(lái)說(shuō)就是數(shù)據(jù)的離散程度。數(shù)據(jù)的離散程度越大,各描述統(tǒng)計(jì)量對(duì)該組數(shù)據(jù)的代表性就越差,離散程度越小,其代表性就越3.2.1極差和四分位差3.2差異的度量極差

(range)一組數(shù)據(jù)的最大值與最小值之差離散程度的最簡(jiǎn)單測(cè)度值易受極端值影響未考慮數(shù)據(jù)的分布計(jì)算公式為:R=max(xi)-min(xi)四分位差

(quartiledeviation)也稱為內(nèi)距或四分間距上四分位數(shù)與下四分位數(shù)之差:Qd=QU

–QL反映了中間50%數(shù)據(jù)的離散程度不受極端值的影響用于衡量中位數(shù)的代表性3.2.2方差和標(biāo)準(zhǔn)差3.2差異的度量方差和標(biāo)準(zhǔn)差

(varianceandstandarddeviation)數(shù)據(jù)離散程度的最常用測(cè)度值反映各變量值與均值的平均差異根據(jù)總體數(shù)據(jù)計(jì)算的,稱為總體方差(標(biāo)準(zhǔn)差),記為2();根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本方差(標(biāo)準(zhǔn)差),記為s2(s)樣本方差和標(biāo)準(zhǔn)差

(samplevarianceandstandarddeviation)未分組數(shù)據(jù)組距分組數(shù)據(jù)未分組數(shù)據(jù)組距分組數(shù)據(jù)方差的計(jì)算公式標(biāo)準(zhǔn)差的計(jì)算公式注意:樣本方差用自由度n-1去除!總體方差和標(biāo)準(zhǔn)差

(PopulationvarianceandStandarddeviation)未分組數(shù)據(jù)組距分組數(shù)據(jù)未分組數(shù)據(jù)組距分組數(shù)據(jù)方差的計(jì)算公式標(biāo)準(zhǔn)差的計(jì)算公式自由度

(degreeoffreedom)自由度的概念由統(tǒng)計(jì)學(xué)家R.AFisher提出是指數(shù)據(jù)個(gè)數(shù)與附加給獨(dú)立的觀測(cè)值的約束或限制的個(gè)數(shù)之差從字面涵義來(lái)看,自由度是指一組數(shù)據(jù)中可以自由取值的個(gè)數(shù)當(dāng)樣本數(shù)據(jù)的個(gè)數(shù)為n時(shí),若樣本平均數(shù)確定后,則附加給n個(gè)觀測(cè)值的約束個(gè)數(shù)就是1個(gè),因此只有n-1個(gè)數(shù)據(jù)可以自由取值,其中必有一個(gè)數(shù)據(jù)不能自由取值按著這一邏輯,如果對(duì)n個(gè)觀測(cè)值附加的約束個(gè)數(shù)為k個(gè),自由度則為n-k自由度

(degreeoffreedom)樣本有3個(gè)數(shù)值,即x1=2,x2=4,x3=9,則x=5。當(dāng)x

=5

確定后,x1,x2和x3有兩個(gè)數(shù)據(jù)可以自由取值,另一個(gè)則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值為什么樣本方差的自由度為什么是n-1呢?因?yàn)樵谟?jì)算離差平方和時(shí),必須先求出樣本均值x

,而x則是附件給離差平方和的一個(gè)約束,因此,計(jì)算離差平方和時(shí)只有n-1個(gè)獨(dú)立的觀測(cè)值,而不是n個(gè)樣本方差用自由度去除,其原因可從多方面解釋,從實(shí)際應(yīng)用角度看,在抽樣估計(jì)中,當(dāng)用樣本方差s2去估計(jì)總體方差σ2時(shí),它是σ2的無(wú)偏估計(jì)量樣本標(biāo)準(zhǔn)差

(例題分析)【例3-5】計(jì)算計(jì)算9名員工的月工資收入的方差和標(biāo)準(zhǔn)差15007507801080850960200012501630方差標(biāo)準(zhǔn)差統(tǒng)計(jì)函數(shù)—STDEVExcel標(biāo)準(zhǔn)分?jǐn)?shù)

(standardscore)1.也稱標(biāo)準(zhǔn)化值2. 對(duì)某一個(gè)值在一組數(shù)據(jù)中相對(duì)位置的度量3. 可用于判斷一組數(shù)據(jù)是否有離群點(diǎn)(outlier)用于對(duì)變量的標(biāo)準(zhǔn)化處理均值等于0,方差等于1計(jì)算公式為標(biāo)準(zhǔn)分?jǐn)?shù)

(用于數(shù)據(jù)變換)z分?jǐn)?shù)只是將原始數(shù)據(jù)進(jìn)行了線性變換,它并沒(méi)有改變一個(gè)數(shù)據(jù)在該組數(shù)據(jù)中的位置,也沒(méi)有改變?cè)摻M數(shù)分布的形狀,而只是使該組數(shù)據(jù)均值為0,標(biāo)準(zhǔn)差為1用SPSS對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化第1步:選擇【分析】下拉菜單,并選擇【描述統(tǒng)計(jì)—描述】第2步:在主對(duì)話框中將變量選入【變量】,然后選中【將標(biāo)準(zhǔn)化得分另存為變量】。點(diǎn)擊【OK】(SPSS會(huì)將標(biāo)準(zhǔn)化后的變量以“Z”開(kāi)頭存放在原始變量工作表中)

對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化SPSS標(biāo)準(zhǔn)分?jǐn)?shù)

(例題分析)【例3-6】9個(gè)家庭人均月收入標(biāo)準(zhǔn)化值計(jì)算表

家庭編號(hào)人均月收入(元)標(biāo)準(zhǔn)化值z(mì)

123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996經(jīng)驗(yàn)法則經(jīng)驗(yàn)法則表明:當(dāng)一組數(shù)據(jù)對(duì)稱分布時(shí)約有68%的數(shù)據(jù)在平均數(shù)加減1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有95%的數(shù)據(jù)在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有99%的數(shù)據(jù)在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)經(jīng)驗(yàn)法則

(例題分析)

9名員工月工資收入的經(jīng)驗(yàn)法則切比雪夫不等式

(Chebyshev’sinequality)如果一組數(shù)據(jù)不是對(duì)稱分布,經(jīng)驗(yàn)法則就不再適用,這時(shí)可使用切比雪夫不等式,它對(duì)任何分布形狀的數(shù)據(jù)都適用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”對(duì)于任意分布形態(tài)的數(shù)據(jù),根據(jù)切比雪夫不等式,至少有1-1/k2的數(shù)據(jù)落在平均數(shù)加減k個(gè)標(biāo)準(zhǔn)差之內(nèi)。其中k是大于1的任意值,但不一定是整數(shù)切比雪夫不等式

(Chebyshev’sinequality)對(duì)于k=2,3,4,該不等式的含義是至少有75%的數(shù)據(jù)落在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)至少有89%的數(shù)據(jù)落在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)至少有94%的數(shù)據(jù)落在平均數(shù)加減4個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)3.2.3比較幾組數(shù)據(jù)的離散程度

離散系數(shù)3.2差異的度量離散系數(shù)

(coefficientofvariation)1. 標(biāo)準(zhǔn)差與其相應(yīng)的均值之比對(duì)數(shù)據(jù)相對(duì)離散程度的測(cè)度消除了數(shù)據(jù)水平高低和計(jì)量單位的影響4. 用于對(duì)不同組別數(shù)據(jù)離散程度的比較5.計(jì)算公式為離散系數(shù)

(例題分析)【例3-7】評(píng)價(jià)哪名運(yùn)動(dòng)員的發(fā)揮更穩(wěn)定發(fā)揮比較穩(wěn)定的運(yùn)動(dòng)員是塞爾維亞的亞斯娜·舍卡里奇和中國(guó)的郭文珺,發(fā)揮不穩(wěn)定的運(yùn)動(dòng)員蒙古的卓格巴德拉赫·蒙赫珠勒和波蘭的萊萬(wàn)多夫斯卡·薩貢8名運(yùn)動(dòng)員射擊成績(jī)的誤差圖

(例題分析)【Graphs】—【ErrorBar】—【Simple】—【DatainChartAre】—【Summariesofseparatevariables】—變量選入【ErrorBars】—【BarsRepresent】—【Standarddeviations】—【Multiplier】框內(nèi)輸入所需的標(biāo)準(zhǔn)差倍數(shù)—【OK】【例子】3.3分布形狀的度量偏態(tài)與峰態(tài)第3章

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論