賈俊平版統(tǒng)計學(xué)課件第4章_第1頁
賈俊平版統(tǒng)計學(xué)課件第4章_第2頁
賈俊平版統(tǒng)計學(xué)課件第4章_第3頁
賈俊平版統(tǒng)計學(xué)課件第4章_第4頁
賈俊平版統(tǒng)計學(xué)課件第4章_第5頁
已閱讀5頁,還剩73頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第 4 章 數(shù)據(jù)的概括性度量 4.1 集中趨勢的度量 4.2 離散程度的度量 4.3 偏態(tài)與峰態(tài)的度量數(shù)據(jù)的概括性度量方差和標(biāo)準(zhǔn)差數(shù)據(jù)的概括性度量集中趨勢離散程度分布形狀眾數(shù)中位數(shù)均值異眾比率四分位差離散系數(shù)偏態(tài)峰度4.1 集中趨勢的度量集中趨勢(central tendency)是指一組數(shù)據(jù)向某一中心值靠攏的傾向和程度,集中趨勢可以反映一組數(shù)據(jù)的中心值或代表值,不同數(shù)據(jù)類型可選用不同的集中趨勢測度值.低層次數(shù)據(jù)的測度值適用于高層次的測量數(shù)據(jù),但高層次數(shù)據(jù)的測度值并不適用于低層次的測量數(shù)據(jù).4.1.1 分類數(shù)據(jù):眾數(shù) 一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值稱為眾數(shù)(mode) ,用M0 表示.不受極端

2、值的影響.眾數(shù)主要用于測度分類數(shù)據(jù)的集中趨勢.也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù). 一組數(shù)據(jù)可以沒有眾數(shù),也可以有幾個眾數(shù).眾數(shù)的特性(1) 一組數(shù)據(jù)可以沒有眾數(shù) 假定一組數(shù)據(jù)如下:1 2 3 4 5則這組數(shù)據(jù)沒有眾數(shù). (2) 一組數(shù)據(jù)可以有多個眾數(shù). 假定一組數(shù)據(jù)如下:1 2 2 3 4 4 5那么這組數(shù)據(jù)有兩個眾數(shù). 圖4 -1 眾數(shù)示意圖 無眾數(shù) 一個眾數(shù) 多于一個眾數(shù)例 4.1 根據(jù)第3章表 3-4 的數(shù)據(jù),計算“飲料品牌”的眾數(shù).表3-4 不同品牌飲料的頻數(shù)分布 解:這里的變量為“飲料品牌”,是分類變量,不同類型的飲料就是變量值.在所調(diào)查的50 人中, 購買可口可樂的人數(shù)最多,為15人,

3、占總被調(diào)查人數(shù)的 30% ,因此眾數(shù)為“可口可樂”這一品牌. 即 可口可樂0M例4.2表3-6 甲城市家庭對住房狀況的評價 根據(jù)第3章表3-6的數(shù)據(jù),計算甲城市對住房狀況滿意度評價的眾數(shù). 解:這里的變量是回答類別,是順序變量.甲城市所調(diào)查的300戶家庭中,對目前住房不滿意的戶數(shù)最多,有108戶.所以這組數(shù)據(jù)的眾數(shù)為“不滿意” 這一類別.即 不滿意0M例4.3 在某城市中隨機(jī)抽取9戶家庭, 調(diào)查得每戶家庭的人均月收入數(shù)據(jù)如下(單位:元).要求計算人均月收入的眾數(shù). 1080 750 1080 1080 850 960 2000 1250 1630 解: 人均月收入1080的家庭最多, 即 元1

4、0800M 一個由claremont學(xué)院本科學(xué)生組成的“莎士比亞診所”,用統(tǒng)計分析對58個與莎士比亞同時代的作家進(jìn)行分析,以確定誰的寫作風(fēng)格與莎士比亞的作品風(fēng)格最相近。他們從58個作家的作品中選取片段,并將其分成500字一段的小段,對區(qū)組中的一些變量進(jìn)行計數(shù)統(tǒng)計,例如,考察52個關(guān)鍵字的出現(xiàn)情況,并找出其眾數(shù),由此得出各個作家的主要特征。結(jié)果,58個備選者中沒有一個能通過眾數(shù)檢驗。因此證明,是莎士比亞寫下了他本人的詩篇。莎士比亞著作中的眾數(shù)4.1.2 順序數(shù)據(jù):中位數(shù)和分位數(shù)1.中位數(shù)(median)一組數(shù)據(jù)按從小到大排列時,處于中間位置上的變量值稱為中位數(shù),用 Me 表示. 中位數(shù)主要用于測

5、度順序數(shù)據(jù)的集中趨勢.中位數(shù)當(dāng)然也適用于數(shù)值型數(shù)據(jù),但不適用于分類數(shù)據(jù). 顯然,中位數(shù)作為位置代表值,其數(shù)值不受極大值和極小值的影響.中位數(shù)的位置對未分組數(shù)據(jù)中位數(shù)的位置即未分組數(shù)據(jù)的中位數(shù)是1, 2, , n 這 n 個位置的平均. 而對于分組數(shù)據(jù),則 中位數(shù)的位置(4.1)21n2n中位數(shù)的計算nxxx,21,)2()1(xx)12()2()21(21nnnexxxM當(dāng) n 為奇數(shù)當(dāng) n 為偶數(shù)(4.2) 設(shè)一組數(shù)據(jù)為 ,按從小到大排序后為 , 則中位數(shù)為)(,nx例 4.4根據(jù)第 3 章表 3-6 的數(shù)據(jù),計算甲城市家庭對住房狀況滿意程度評價的中位數(shù).表3-6 甲城市家庭對住房狀況的評價

6、 解:已知n = 300,從而中位數(shù)的位置為1502300從累積頻數(shù)可知,中位數(shù)在“一般”這一類中,因此eM一般例 4.5 在某城市中隨機(jī)抽取9個家庭,調(diào)查得各個家庭的人均月收入數(shù)據(jù)如下(單位:元),試計算人均月收入的中位數(shù). 1500 750 780 1080 850 960 2000 1250 1630 解:把數(shù)據(jù)排序得 750 780 850 960 1080 1250 1500 1630 2000而中位數(shù)的位置= (9+1)/2 = 5, 于是 1080eM例 4.5(續(xù)) 假定例4.5中隨機(jī)抽取10個家庭,各個家庭的人均月收入數(shù)據(jù)如下 660 750 780 850 960 1080

7、 1250 1500 1630 2000從而中位數(shù)的位置= (10+1)/2 = 5.5, 于是102021080960eM例 根據(jù)第3章表3-12的數(shù)據(jù),計算電腦銷售量的中位數(shù). 解:由于 n =120,則中位數(shù)的位置為182)182182(21)(21)61()60(xxMe 中位數(shù)為5 .6021n2 四分位數(shù)(quartile)與中位數(shù)類似的還有四分位數(shù)。一組數(shù)據(jù)按從小到大排列時,處于位置上的變量值稱為第一個四分位數(shù)(下四分位數(shù)),處于位置上的變量值稱為第三個四分位數(shù)(上四分位數(shù)),而中位數(shù)就是第二個四分位數(shù)。4143四分位數(shù)的位置 對未分組時 下四分位數(shù)( )的位置 上四分位數(shù)( )

8、的位置 而對于分組數(shù)據(jù),則 下四分位數(shù)( )的位置 上四分位數(shù)( )的位置41n4) 1(3n4n43n(4.3)LQUQLQUQ例 根據(jù)第3章表3-12的數(shù)據(jù),計算電腦銷售量的下四分位數(shù)和上四分位數(shù). 解:已知 n =120,得下四分位數(shù)和上四分位數(shù)的位置197)197197(75. 019725.170)170171(25. 0170ULQQ于是75.904) 1120(34) 1(3,25.304112041nn例 4.6 對例4.5的數(shù)據(jù),計算人均月收入的下四分位數(shù)和上四分位數(shù). 解:已知 n =9,得下四分位數(shù)和上四分位數(shù)的位置1565)16301500(21765)780750(2

9、1ULQQ于是5 . 74) 19(34) 1(3,5 . 241941nn例解:解:QL位置= (300)/4 =75 QU位置 =(3300)/4 =225 從累計頻數(shù)看, QL在“不滿意”這一組別中; QU在“一般”這一組別中。因此 QL = 不滿意不滿意 QU = 一般一般甲城市家庭對住房狀況評價的頻數(shù)分布甲城市家庭對住房狀況評價的頻數(shù)分布回答類別回答類別甲城市甲城市戶數(shù)戶數(shù) (戶戶)累計頻數(shù)累計頻數(shù) 非常不滿意非常不滿意 不滿意不滿意 一般一般 滿意滿意 非常滿意非常滿意2410893453024132225270300合計合計3004.1.3 數(shù)值型數(shù)據(jù):平均數(shù)平均數(shù)也稱均值(me

10、an), 是最常用的集中趨勢測度值,易受極端值的影響.主要適用于數(shù)值型數(shù)據(jù),但不適用于分類數(shù)據(jù)和順序數(shù)據(jù).1.簡單平均數(shù)與加權(quán)平均數(shù)(1) 根據(jù)未分組的數(shù)據(jù)計算簡單平均數(shù) 設(shè)一組數(shù)據(jù)為 則平均數(shù) 的計算公式為xniinxnnxxxx1211 例如,根據(jù)例4.5的數(shù)據(jù),計算9個家庭人均月收入的平均數(shù)為1200910800916307501500 x(元)(4.4 ),21nxxx(2)根據(jù)分組的數(shù)據(jù)計算加權(quán)平均數(shù)設(shè)一組數(shù)據(jù)分為k組,各組的組中值和組頻數(shù)分別為 . 則平均數(shù) 的計算公式為 ikiiikiikiifMnfMfx11111(4.5 )kifMii, 2, 1,x,21nxxx例4.7

11、根據(jù)第3章表 3-13中的數(shù)據(jù),計算電腦銷售量的平均數(shù).表4 -1某電腦公司銷售量數(shù)據(jù)平均數(shù)計算表解:根據(jù)(4.5)式,得185120222001201101iiifMx(臺)加權(quán)平均數(shù)(權(quán)數(shù)對平均數(shù)的影響) 甲乙兩組各有10名學(xué)生,他們的考試成績及其分布數(shù)據(jù)如下 甲組: 考試成績(x ): 0 20 100 人數(shù)分布(f ): 1 1 8 乙組: 考試成績(x): 0 20 100 人數(shù)分布(f ): 8 1 1)(82108100120101分甲nfxxniii)(12101100120801分乙nfxxniii2 調(diào)和平均數(shù)(Harmonic mean)均值的另一種表現(xiàn)形式,易受極端值的

12、影響.計算公式為調(diào)和平均數(shù)(例題分析)某日三種蔬菜的批發(fā)成交數(shù)據(jù)某日三種蔬菜的批發(fā)成交數(shù)據(jù)蔬菜蔬菜名稱名稱批發(fā)價格批發(fā)價格(元元) xi成交額成交額(元元) fi成交量成交量(公斤公斤)甲甲乙乙丙丙1.200.500.801800012500640015000250008000合計合計3690048000【例】某蔬菜批發(fā)市場三種蔬菜的日成交數(shù)據(jù)如表,計算三種蔬菜該日的平均批發(fā)價格。(元)批發(fā)價格成交額成交額769. 04800036900mH3 一種特殊的平均數(shù):幾何平均數(shù) 幾何平均數(shù)(geometric mean)是平均數(shù)的另一種類型,主要用于比率或速度的平均.(1)根據(jù)未分組的數(shù)據(jù)計算幾何

13、平均數(shù)設(shè)一組數(shù)據(jù)為 則幾何平均數(shù)為,21nxxxnniinnmxxxxG121(4.6 ) (2)根據(jù)分組的數(shù)據(jù)計算幾何平均數(shù)設(shè)一組數(shù)據(jù) 分為k組,各組的組中值和組頻數(shù)分別為 ,則幾何平均數(shù)的計算公式為kifMii, 2, 1,nkifinfkffmiKMMMMG12121,21nxxx平均增長率 對逐年增長率 平均增長率應(yīng) 滿足,21nGGGniinGG1)1 ()1 (4.8 )即GnniiGG1)1 ()1 (或1)1 (1nniiGG(4.9 )幾何平均數(shù) (例題分析) 【例例】某水泥生產(chǎn)企業(yè)1999年的水泥產(chǎn)量為100萬噸,2000年與1999年相比增長率為9%,2001年與2000

14、年相比增長率為16%,2002年與2001年相比增長率為20%。求各年的年平均增長率。年平均增長率114.91%-1=14.91%幾何平均數(shù) (例題分析)【例例】某企業(yè)生產(chǎn)某種產(chǎn)品要經(jīng)過三個連續(xù)作業(yè)車間才能完成。若某月份第一車間粗加工產(chǎn)品的合格率為 95%,第二車間精加工產(chǎn)品的合格率為 93%,第三車間最后裝配的合格率為 90%,則該產(chǎn)品的車間平均合格率為多少?即該產(chǎn)品的車間平均合格率為 92.64% 。%64.92%90%93%953MG例4.8一位投資者持有一種股票,2001-2004年的收益率分別為4.5%,2.1%,25.5%和1.9%. 計算該投資者在這四年內(nèi)的平均收益率. 解:根據(jù)

15、(4.6),得即該投資者的投資平均收益率為108.0787%-100%=8.0787% .%0787.108%9 .101%5 .125%1 .102%5 .1044mG4.1.4 眾數(shù)、中位數(shù)和平均數(shù)的比較1.眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系圖4-2 不同分布的眾數(shù)、中位數(shù)和平均數(shù)(a)對稱分布(b)左偏分布(c)右偏分布o(jì)eMMx xMMeo xMMeo 2.眾數(shù)、中位數(shù)和平均數(shù)的特點(1)眾數(shù)是一組數(shù)據(jù)出現(xiàn)次數(shù)最多的數(shù)值,不受極端值的影響,但可能沒有眾數(shù),也可能有兩個或兩個以上眾數(shù)。眾數(shù)主要適用于分類數(shù)據(jù)的集中趨勢測度. (2)中位數(shù)是一組數(shù)據(jù)處于中間位置上的數(shù)值,不受極端值的影響,主要適用于

16、順序數(shù)據(jù)的集中趨勢測度. (3)平均數(shù)具有優(yōu)良的統(tǒng)計性質(zhì),是實際應(yīng)用最廣泛的集中趨勢測度值.主要適用于數(shù)值型數(shù)據(jù)的集中趨勢測度3.眾數(shù)、中位數(shù)和平均數(shù)的應(yīng)用場合 例 從一家公司中選取一個20名工人的樣本,將他們每周除去所有費用后的凈收入近似為整數(shù)并按升序排列如下(元):240,240,240,240,240,240,240,240,255,255,265,265,280,280,290,300,305,325,330,340。計算 (1)、平均數(shù),中位數(shù),眾數(shù); ,中位數(shù)=260元,眾數(shù)=240元 (2)、從偏斜度的角度描述這組工資數(shù)據(jù); 由于平均數(shù)大于中位數(shù),所以這個分布是右偏分布。元5 .

17、270205410nxx3.眾數(shù)、中位數(shù)和平均數(shù)的應(yīng)用場合 (3)、假如你是這家公司負(fù)責(zé)勞資問題的副總經(jīng)理,你會采用哪個測度值代表公司中所有員工的收入水平? 因為樣本平均數(shù)是這三個平均數(shù)測度值中的最大值,所以你可能傾向于采用它作為平均數(shù)。事實上,使用它非常合適,因為這里牽涉到統(tǒng)計推斷,而樣本平均數(shù)是可用的最穩(wěn)定的統(tǒng)計量。 (4)、假設(shè)你是推選出的工會主席,你會采用哪個測度值代表公司中所有員工的收入水平? 從你在工資問題談判中所處的位置出發(fā),你可能傾向于選擇眾數(shù),或者至少是中位數(shù),而決不會選用平均數(shù)。為了說明你選擇的測度值是合理的,你應(yīng)該指出眾數(shù)代表了樣本中大部分人的凈收入,或者可以指出從樣本中

18、可以看出樣本平均數(shù)受到極少數(shù)高工資的影響。然而,無論是眾數(shù)還是中位數(shù)都會隨樣本不同而產(chǎn)生很大變化,所以比起平均數(shù)都是不穩(wěn)定的總體估計值。數(shù)據(jù)類型與集中趨勢測度值數(shù)據(jù)類型和所適用的集中趨勢測度值數(shù)據(jù)類型和所適用的集中趨勢測度值數(shù)據(jù)類型數(shù)據(jù)類型分類數(shù)據(jù)分類數(shù)據(jù) 順序數(shù)據(jù)順序數(shù)據(jù)間隔數(shù)據(jù)間隔數(shù)據(jù)比率數(shù)據(jù)比率數(shù)據(jù)適適用用的的測測度度值值眾數(shù)眾數(shù)中位數(shù)中位數(shù)平均數(shù)平均數(shù)平均數(shù)平均數(shù)四分位數(shù)四分位數(shù)眾數(shù)眾數(shù)調(diào)和平均數(shù)調(diào)和平均數(shù)眾數(shù)眾數(shù)中位數(shù)中位數(shù)幾何平均數(shù)幾何平均數(shù)四分位數(shù)四分位數(shù) 中位數(shù)中位數(shù)四分位數(shù)四分位數(shù)眾數(shù)眾數(shù)4.2 離散程度的度量離散程度或分散程度是數(shù)據(jù)分布的另一個重要特征,離散程度的測度值反映

19、數(shù)據(jù)的分散程度.數(shù)據(jù)的分散程度越大,則集中趨勢測度值的代表性就越差;分散程度越小,則集中趨勢測度值的代表性就越好. 不同數(shù)據(jù)類型有不同的離散程度測度值.4.2.1 分類數(shù)據(jù):異眾比率異眾比率(variation ratio)是非眾數(shù)組的頻數(shù)所占的比例,即nffffVmkiikimir111異眾比率用于衡量眾數(shù)的代表程度: (1)異眾比率大,說明眾數(shù)的代表性差 (2)異眾比率小,說明眾數(shù)的代表性好(4.10)例4.9 根據(jù)第3章表34的數(shù)據(jù),計算異眾比率.表 3-4不同品牌飲料的頻數(shù)分布 解:根據(jù)(4.10)式,得異眾比率在所調(diào)查的50人當(dāng)中,購買其他品牌飲料的人數(shù)占70%. 由于異眾比率比較大

20、,因此用“可口可樂”代表消費者購買飲料品牌的狀況,其代表性不是很好.4.2.2 順序數(shù)據(jù):四分位差四分位差(quartile deviation)是上四分位數(shù)與下四分位數(shù)之差,即(4.11)LUDQQQ四分位差反映了下四分位數(shù)至上四分位數(shù)之間 (即中間的50%數(shù)據(jù))的離散程度或變動范圍四分位差越大,說明中間這部分?jǐn)?shù)據(jù)越分散,而四分位差越小,則說明中間這部分?jǐn)?shù)據(jù)越集中.四分位差在一定程度上可用于衡量中位數(shù)的代表程度.四分位差 (例題分析)解:解:為了計算順序數(shù)據(jù)的四分位差,需要把各類別數(shù)量化。設(shè)非常不滿意為1,不滿意為2, 一般為3, 滿意為 4, 非常滿意為5,已知 QL = 不滿意 = 2

21、QU = 一般 = 3四分位差: QD = QU QL = 3 2 = 1甲城市家庭對住房狀況評價的頻數(shù)分布甲城市家庭對住房狀況評價的頻數(shù)分布回答類別回答類別甲城市甲城市戶數(shù)戶數(shù) (戶戶)累計頻數(shù)累計頻數(shù) 非常不滿意非常不滿意 不滿意不滿意 一般一般 滿意滿意 非常滿意非常滿意2410893453024132225270300合計合計300例4.10根據(jù)例4.6的數(shù)據(jù),已求得 ,從而四分位差為1565,765ULQQ8007651565DQ(臺)4.2.3 數(shù)值型數(shù)據(jù):方差和標(biāo)準(zhǔn)差測度數(shù)值型數(shù)據(jù)離散程度的主要方法有極差、 平均差、方差和標(biāo)準(zhǔn)差,但最常用的是方差和標(biāo)準(zhǔn)差.1.1.極差極差(ran

22、ge)是一組數(shù)據(jù)的最大值與最小值之差,即未分組數(shù)據(jù):R最大值最小值 分組數(shù)據(jù):R最后一組的上限第一組的下限 (4.12)極差計算簡單,是描述數(shù)據(jù)離散程度的最簡單的測度值但極差易受極端值的影響,并且不能反映中間數(shù)據(jù)的分散程度。例如,根據(jù)例4.5的數(shù)據(jù),得9個家庭人均月收入的極差為 R20007501250(元)2.平均差平均差(mean deviation)是各變量值與均值離差絕對值的平均.平均差雖然能全面反映一組數(shù)據(jù)的分散程度,但由于離差取了絕對值,這給計算和統(tǒng)計性質(zhì)的討論帶來不便,因而實際工作中應(yīng)用較少.計算公式為:未分組數(shù)據(jù)組距分組數(shù)據(jù)(4.13)(4.14)例 4.11某電腦公司銷售量數(shù)

23、據(jù)平均差計算表某電腦公司銷售量數(shù)據(jù)平均差計算表 按銷售量分按銷售量分組組組中值組中值(Mi)頻數(shù)頻數(shù)(fi)14015015016016017017018018019019020020021021022022023023024014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合計合計1202040 含義:含義:每一天的銷售量與平均數(shù)相比,平均相差17臺3.方差和標(biāo)準(zhǔn)差方差和標(biāo)準(zhǔn)差(variance and standard deviation)是最常用的離散程

24、度測度值. 根據(jù)總體數(shù)據(jù)計算的稱為總體方差或總體標(biāo)準(zhǔn)差,而根據(jù)樣本數(shù)據(jù)計算的則稱為樣本方差或樣本標(biāo)準(zhǔn)差.(1)總體方差和標(biāo)準(zhǔn)差方差的計算公式未分組數(shù)據(jù):組距分組數(shù)據(jù):標(biāo)準(zhǔn)差的計算公式未分組數(shù)據(jù):組距分組數(shù)據(jù):2121NiiXXNiKiiFXXN2121211NiiXXNiKiiFXXN211總體標(biāo)準(zhǔn)差(例題分析)分組(個)組中值( )頻數(shù)( )105110107.53 246.49739.47110115112.55 114.49572.45115120117.58 32.49259.92120125122.514 0.49 6.86125130127.510 18.49184.9013013

25、5132.56 86.49518.94135140137.54 204.49817.96合計50 3100.5iF某車間名工人日加工零件的標(biāo)準(zhǔn)差計算表2XXi解: 計算過程列于表,根據(jù)計算公式得(個)87. 7505 .3100121iKIiFXXNiiFXX2ix含義:每個工人的日加工零件數(shù)與平均數(shù)相比相差7.87個。(2)樣本方差和標(biāo)準(zhǔn)差未分組數(shù)據(jù):組距分組數(shù)據(jù):未分組數(shù)據(jù):組距分組數(shù)據(jù):方差的計算公式標(biāo)準(zhǔn)差的計算公式(4.15)(4.17)(4.18)(4.16)注意:樣本方差用自由度n-1去除!自由度的說明1、一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個數(shù)2、當(dāng)樣本數(shù)據(jù)的個數(shù)為 n 時,若樣本均值

26、x 確定后,只有n-1個數(shù)據(jù)可以自由取值,其中必有一個數(shù)據(jù)不能自由取值3、例如,樣本有3個數(shù)值,即x1=2,x2=4,x3=9,則 x = 5。當(dāng) x = 5 確定后,x1,x2和x3有兩個數(shù)據(jù)可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值4、樣本方差用自由度去除,其原因可從多方面來解釋,從實際應(yīng)用角度看,在抽樣估計中,當(dāng)用樣本方差去估計總體方差2時,它是2的無偏估計量例4.12 樣本標(biāo)準(zhǔn)差的計算某電腦公司銷售量數(shù)據(jù)標(biāo)準(zhǔn)差計算表某電腦公司銷售量數(shù)據(jù)標(biāo)準(zhǔn)差計算表 按銷售量分按銷售量分組組組中值組中值(Mi)頻數(shù)頻數(shù)(fi)1401501501601

27、60170170180180190190200200210210220220230230240145155165175185195205215225235491627201710845160090040010001004009001600250064008100640027000170040007200640012500合計合計12055400含義:每一天的銷售量與平均數(shù)相比,平均相差21.58臺.方差的展開公式在實際計算時,也可按展開公式計算方差123421221121221211NiiNiiNiiNiiXXNXNXXXNXXN21212211KiiiKiiiXFXNFXXN21212211

28、1111niiniinxnnxnxxnS212122111111kiiikiiinxnnfxnfxxnS4.相對位置的測量由均值和標(biāo)準(zhǔn)差,記sxxzii稱為 為 的標(biāo)準(zhǔn)分?jǐn)?shù). 可以表達(dá) 的相對位置,也可用于判斷一組數(shù)據(jù)是否有離群點.izix(4.19)izix(1)標(biāo)準(zhǔn)分?jǐn)?shù)標(biāo)準(zhǔn)分?jǐn)?shù)(性質(zhì))1)(1111)(11)2(0)(11) 1 (1221212211niiniiniiniiniisxxnznzznsxxnsznz標(biāo)準(zhǔn)分?jǐn)?shù)(性質(zhì)) 標(biāo)準(zhǔn)分?jǐn)?shù)只是將原始數(shù)據(jù)進(jìn)行了線性變換,它并沒有改變一個數(shù)據(jù)在該組數(shù)據(jù)中的位置,也沒有改變該組數(shù)分布的形狀,而只是將該組數(shù)據(jù)變?yōu)榫禐?,標(biāo)準(zhǔn)差為1。 例4.13

29、68.431,1200 sx 根據(jù)例4.5的數(shù)據(jù),計算每個家庭的人均月收入的標(biāo)準(zhǔn)分?jǐn)?shù). 解:根據(jù)例4.5的數(shù)據(jù)求可得 ,由(4.19)式得每個家庭的人均月收入的標(biāo)準(zhǔn)分?jǐn)?shù)如下(表4-4) 表4-4 9個家庭人均月收入標(biāo)準(zhǔn)分?jǐn)?shù)計算表 可以看出,收入最低的家庭其人均收入與平均數(shù)相比低1.042個標(biāo)準(zhǔn)差;而收入最高的家庭人均收入比平均數(shù)高1.853個標(biāo)準(zhǔn)差。標(biāo)準(zhǔn)分?jǐn)?shù) (例題分析) 前NBA巨星Michael Jordan身高78英寸,而WNBA運動員R. Lobo身高76英寸,很明顯Jordan高出2英寸,但誰相對來說高一些呢?(男性平均身高69英寸,標(biāo)準(zhǔn)差為2.8英寸;女性平均身高63.6英寸,標(biāo)準(zhǔn)

30、差為2.5英寸)7869:3.212.87663.6:4.962.5iiXXJordan zXXLobo z Jordan的身高高于平均數(shù)3.21個標(biāo)準(zhǔn)差,而Lobo的身高高于平均數(shù)4.96個標(biāo)準(zhǔn)差。(2)經(jīng)驗法則 經(jīng)驗法則表明:當(dāng)一組數(shù)據(jù)對稱分布時 約有68%的數(shù)據(jù)在均值加減1個標(biāo)準(zhǔn)差的范圍之內(nèi) 約有95%的數(shù)據(jù)在均值加減2個標(biāo)準(zhǔn)差的范圍之內(nèi) 約有99%的數(shù)據(jù)在均值加減3個標(biāo)準(zhǔn)差的范圍之內(nèi) (4.15)(3)切比雪夫不等式(Chebyshev inequality )對于k=2,3,4,該不等式的含義是 至少有75%的數(shù)據(jù)在平均數(shù)加減2個標(biāo)準(zhǔn)差的范圍之內(nèi) 至少有89%的數(shù)據(jù)在平均數(shù)加減3個標(biāo)

31、準(zhǔn)差的范圍之內(nèi) 至少有94%的數(shù)據(jù)在平均數(shù)加減4個標(biāo)準(zhǔn)差的范圍之內(nèi) 1)如果一組數(shù)據(jù)不是對稱分布,經(jīng)驗法則就不再使用,這時可使用切比雪夫不等式,它對任何分布形狀的數(shù)據(jù)都適用 2)切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少” 3)對于任意分布形態(tài)的數(shù)據(jù),根據(jù)切比雪夫不等式,至少有 (1-1/ ) 的數(shù)據(jù)落在k個標(biāo)準(zhǔn)差之內(nèi)。其中k是大于1的任意值,但不一定是整數(shù)2K4.2.4 相對離散程度:離散系數(shù) 方差或標(biāo)準(zhǔn)差都反映了數(shù)據(jù)分散程度的絕對值,而影響方差或標(biāo)準(zhǔn)差數(shù)值大小有2個方面的原因:(1)與這組數(shù)據(jù)的平均數(shù)大小有關(guān)(2)與這組數(shù)據(jù)的計量單位有關(guān)例:設(shè)一組數(shù)據(jù)為1,2,3(n =

32、3),則 .而另一組數(shù)據(jù)為100,200,300 ( n = 3 ) ,則 .從而對于不同平均水平或不同計量單位的兩組數(shù)據(jù),不能通過直接比較方差或標(biāo)準(zhǔn)差來表明數(shù)據(jù)離散程度的大小. 為消除平均水平與計量單位的影響,需要計算離散系數(shù)1,2sx100,200sxxsvs(4.20)例4.14表4-5某管理局所屬8家企業(yè)的產(chǎn)品銷售數(shù)據(jù) 某管理局抽查了8家企業(yè),其產(chǎn)品銷售數(shù)據(jù)見表4-5.試比較產(chǎn)品銷售額與銷售利潤的離散程度.1x2x例4.14的解 710. 05125.3209.23,09.23,5124.32577. 025.53619.309,19.309,25.536222111vsxvsx 解:

33、由于銷售額與利潤額的平均數(shù)大小不同,不能直接按標(biāo)準(zhǔn)差進(jìn)行比較,需計算離散系數(shù). 根據(jù)表4-5數(shù)據(jù),得由于 ,說明銷售額的離散程度小于銷售利潤的離散程度.12vv 數(shù)據(jù)類型與離散程度測度值數(shù)據(jù)類型和所適用的離散程度測度數(shù)據(jù)類型和所適用的離散程度測度值值數(shù)據(jù)類型數(shù)據(jù)類型分類數(shù)據(jù)分類數(shù)據(jù) 順序數(shù)據(jù)順序數(shù)據(jù)數(shù)值型數(shù)據(jù)數(shù)值型數(shù)據(jù)適適用用的的測測度度值值異眾比率異眾比率四分位差四分位差 方差或標(biāo)準(zhǔn)差方差或標(biāo)準(zhǔn)差 異眾比率異眾比率 離散系數(shù)(比較時用)離散系數(shù)(比較時用) 平均差平均差 極差極差 四分位差四分位差 異眾比率異眾比率4.3 偏態(tài)與峰態(tài)的測度偏態(tài)與峰度是對數(shù)據(jù)分布形狀的測度扁平分布尖峰分布偏態(tài)峰

34、態(tài)左偏分布右偏分布與標(biāo)準(zhǔn)正態(tài)分布比較!4.3.1 偏態(tài)及其測度(1)未分組樣本數(shù)據(jù)的偏態(tài)系數(shù)偏態(tài)(skewness)是對分布的偏斜方向和偏斜程度的測度. 設(shè)一組數(shù)據(jù) ,則偏態(tài)系數(shù)(skewness coefficient)的計算公式為 (4.21)nxxx,21niixxsnnnSK133)()2)(1(2)分組樣本數(shù)據(jù)的偏態(tài)系數(shù) 設(shè)一組數(shù)據(jù) 分為 k 組,各組的組中值和組頻數(shù)分別為 . 則偏態(tài)系數(shù)的計算公式為(4.22)kifMii, 2, 1, ),(kiiifxMnsSK133)(1(1) ,為對稱分布.0SK(2) ,為右偏分布.0SK(3) ,為左偏分布.0SK(4) 越大,則偏斜程度就越大.SKnxxx,21例4.15 某

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論