統(tǒng)計(jì)學(xué)概論第4章數(shù)據(jù)特征的概括性度量_第1頁
統(tǒng)計(jì)學(xué)概論第4章數(shù)據(jù)特征的概括性度量_第2頁
統(tǒng)計(jì)學(xué)概論第4章數(shù)據(jù)特征的概括性度量_第3頁
統(tǒng)計(jì)學(xué)概論第4章數(shù)據(jù)特征的概括性度量_第4頁
統(tǒng)計(jì)學(xué)概論第4章數(shù)據(jù)特征的概括性度量_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第 4 章 數(shù)據(jù)的概括性度量4.1 集中趨勢(shì)的度量 4.2 離散程度的度量 4.3 偏態(tài)與峰態(tài)的度量 郭國(guó)慶主編學(xué)習(xí)目標(biāo)1.集中趨勢(shì)各測(cè)度值的計(jì)算方法2.集中趨勢(shì)各測(cè)度值的特點(diǎn)及應(yīng)用場(chǎng)合3.離散程度各測(cè)度值的計(jì)算方法4.離散程度各測(cè)度值的特點(diǎn)及應(yīng)用場(chǎng)合偏態(tài)與峰態(tài)的測(cè)度方法用Excel計(jì)算描述統(tǒng)計(jì)量并進(jìn)行分析4.1 集中趨勢(shì)的度量(central tendency)一組數(shù)據(jù)向其中心值靠攏的傾向和程度測(cè)度集中趨勢(shì)就是尋找數(shù)據(jù)水平的代表值或中心值不同類型的數(shù)據(jù)用不同的集中趨勢(shì)測(cè)度值低層次數(shù)據(jù)的測(cè)度值適用于高層次的測(cè)量數(shù)據(jù),但高層次數(shù)據(jù)的測(cè)度值并不適用于低層次的測(cè)量數(shù)據(jù)測(cè)度值的選用取決于所掌握的數(shù)據(jù)的

2、類型郭國(guó)慶主編4.1.1 眾數(shù)(mode)集中趨勢(shì)的測(cè)度值之一一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值:M0不受極端值的影響可能沒有眾數(shù)或有幾個(gè)眾數(shù)主要用于分類數(shù)據(jù),也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)眾數(shù) (不唯一性)無眾數(shù)原始數(shù)據(jù): 10 5 9 12 6 8一個(gè)眾數(shù)原始數(shù)據(jù): 6 5 9 8 5 5多于一個(gè)眾數(shù)原始數(shù)據(jù): 25 28 28 36 42 42分類數(shù)據(jù)的眾數(shù)(例題分析)高校吸煙原因頻數(shù)分布 吸煙原因頻數(shù)受朋友同學(xué)影響模仿偶像好奇、感覺時(shí)尚受了挫折2571822合計(jì)72解:這里變量為“吸煙原因”是分類變量,取值可以為“受朋友同學(xué)影響”、“模仿偶像”、“好奇、感覺時(shí)尚”、“受了挫折”。在所調(diào)查的7

3、2人中“受朋友同學(xué)影響”的人數(shù)最多,為25人,因此眾數(shù)為“受朋友同學(xué)影響”,即 Mo受朋友同學(xué)影響。 順序數(shù)據(jù)的眾數(shù) (例題分析)解:這里變量為“考試成績(jī)”是順序變量,取值可以為“優(yōu)”、“良”、“中”、“及格”或“不及格”。在所調(diào)查的30人中考試成績(jī)得“良”的人數(shù)最多,為11人,因此眾數(shù)為“良”,即 Mo良考試成績(jī)分布 考試成績(jī)頻數(shù)優(yōu)良中及格不及格411861合計(jì)30分組數(shù)據(jù)眾數(shù)計(jì)算公式為:式中: L眾數(shù)所在組下限; U眾數(shù)所在組上限; 1眾數(shù)所在組頻數(shù)與其下限的鄰組頻數(shù)之差; 2眾數(shù)所在組頻數(shù)與其上限的鄰組頻數(shù)之差; d眾數(shù)所在組組距。工人日加工零件件數(shù) 按零件數(shù)分組 頻數(shù)105110110

4、115115120120125125130130135135140 358141064 合計(jì)50例4.4 根據(jù)表4.3的數(shù)據(jù),計(jì)算50名工人日加工零件數(shù)的眾數(shù)。解:從表4.3中的數(shù)據(jù)可以看出,最大的頻數(shù)值是14,即眾數(shù)組為120125這一組,根據(jù)公式(4.1)得50名工人日加工零件的眾數(shù)為:4.1.2 中位數(shù)和分位數(shù)(一)中位數(shù)(median)一組數(shù)據(jù)排序后處于中間位置上的變量值Me50%50%2. 不受極端值的影響3. 主要用于順序數(shù)據(jù),也可用數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù)各變量值與中位數(shù)的離差絕對(duì)值之和最小.中位數(shù) (位置的確定)未分組數(shù)值型數(shù)據(jù)先對(duì)數(shù)據(jù)排序后:未分組數(shù)據(jù)的中位數(shù)(計(jì)算公式

5、)考試成績(jī)的分布 考試成績(jī)頻數(shù)累積頻數(shù)優(yōu)良中及格不及格411861415232930合計(jì)30 例 根據(jù)表4.4的數(shù)據(jù)計(jì)算考試成績(jī)的中位數(shù)。解:這里是一組順序數(shù)據(jù),順序變量為“考試成績(jī)”,變量的取值為5個(gè)等級(jí)成績(jī),由于變量本身已經(jīng)排序,所以中位數(shù)位置為,從表4.3的累積頻數(shù)中可以看到,中位數(shù)在“中”這一類中,因此中位數(shù)等于“中”,即 =中。數(shù)值型未分組數(shù)據(jù)的中位數(shù) (奇數(shù)個(gè)數(shù)據(jù)的算例)例:9個(gè)家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù): 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位

6、置: 1 2 3 4 5 6 7 8 9中位數(shù) 1080數(shù)值型未分組數(shù)據(jù)的中位數(shù)(偶數(shù)個(gè)數(shù)據(jù)的算例)例 在某城市隨機(jī)抽取12人(數(shù)據(jù)的個(gè)數(shù)為偶數(shù)),調(diào)查得到每個(gè)人的人均月收入數(shù)據(jù)如下(單位:元)。計(jì)算人均月收入的中位數(shù)。解:首先將上面數(shù)據(jù)排序,結(jié)果如下:2000 2200 2500 2700 2600 1800 2600 2500 1800 3300 2800 34001800 1800 2000 2200 2500 2500 2600 2600 2700 2800 3300 3400所以中位數(shù)為:組距式分組中位數(shù)計(jì)算公式:例 根據(jù)表4.5的資料數(shù)據(jù),計(jì)算50名工人日加工零件數(shù)的中位數(shù)。解:

7、由表4.5可知,中位數(shù)的位置 = 50/2 = 25,即中位數(shù)在120125這一組,L= 120,Sm-1= 16,U=125,Sm+1=20, fm= 14,d= 5,根據(jù)中位數(shù)公式得: 或(二) 四分位數(shù) 1.排序后處于25%和75%位置上的值2. 不受極端值的影響3. 主要用于順序數(shù)據(jù),也可用于數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù)QLQMQU25%25%25%25%四分位數(shù)(位置的確定)未分組數(shù)據(jù):數(shù)值型未分組數(shù)據(jù)的四分位數(shù)例4.8 在某城市隨機(jī)抽取11人,調(diào)查得到每個(gè)人的人均月收入數(shù)據(jù)如下(單位:元)。計(jì)算人均月收入的四分位數(shù)。2000 2200 2500 2700 2600 1800 26

8、00 2500 1800 3300 2800解:先將上面數(shù)據(jù)排序,結(jié)果如下:1800 1800 2000 2200 2500 2500 2600 2600 2700 2800 3300數(shù)值型未分組數(shù)據(jù)的四分位數(shù) (10個(gè)數(shù)據(jù)的算例)例:10個(gè)家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù): 1500 750 780 660 1080 850 960 2000 1250 1630排 序: 660 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9 10 4.1.3平均數(shù) (mean)一組數(shù)據(jù)相加后除以數(shù)據(jù)個(gè)數(shù)而得到的結(jié)果一組數(shù)據(jù)的均衡點(diǎn)所在

9、體現(xiàn)了數(shù)據(jù)的必然性特征易受極端值的影響用于數(shù)值型數(shù)據(jù),不能用于分類數(shù)據(jù)和順序數(shù)據(jù)1、簡(jiǎn)單算數(shù)平均數(shù)設(shè)一組數(shù)據(jù)為:x1 ,x2 , ,xn(xN) 2、加權(quán)算術(shù)平均數(shù)設(shè)個(gè)變量值為: x1 , x2 , ,xk設(shè)各組的組中值為:M1 ,M2 , ,Mk 相應(yīng)的頻數(shù)為: f1 ,f2 , ,fk加權(quán)算術(shù)平均數(shù)加權(quán)平均數(shù) (例題分析)某機(jī)械廠工人日產(chǎn)零件資料 日產(chǎn)量xi 工人人數(shù)(fi)xi fi 20212223242510203060503020042066013801200750合計(jì)2004610已改至此!某企業(yè)50名工人加工零件分組數(shù)據(jù) 按零件數(shù)分組組中值(Mi)頻數(shù)(fi)Mi fi 105

10、110110115115120120125125130130135135140 107.5112.5117.5122.5127.5132.5137.5 358141064 322.5562.5940.01715.01275.0795.0550.0 合計(jì)506160.0加權(quán)平均數(shù)(例題分析)郭國(guó)慶主編3 調(diào)和平均數(shù)調(diào)和平均數(shù)是平均數(shù)的一種。從數(shù)學(xué)形式上看,調(diào)和平均數(shù)具有獨(dú)立的形式,它是變量值的倒數(shù)的算術(shù)平均數(shù)的倒數(shù),也稱為倒數(shù)平均數(shù)。 (1)簡(jiǎn)單調(diào)和平均數(shù) 計(jì)算公式為: 例4.13 市場(chǎng)上某種蔬菜的價(jià)格是早市每公斤1.25 元,午市每公斤1.20 元,晚市每公斤1.10 元。若早、中、晚各買10

11、元錢的蔬菜,問所購(gòu)買蔬菜的平均價(jià)格是多少?解: 購(gòu)買蔬菜的平均價(jià)格為: 或者(2)加權(quán)調(diào)和平均數(shù)計(jì)算公式為: 可簡(jiǎn)記為: 例4.14 市場(chǎng)上某種蔬菜的價(jià)格是早市每公斤1.25元,午市每公斤1.20元,晚市每公斤1.10元?,F(xiàn)若早、中、晚分別購(gòu)買15元、12元和10元錢的蔬菜,問所購(gòu)買蔬菜的平均價(jià)格是多少?解: 4. 幾何平均數(shù)(geometric mean)1. n 個(gè)變量值乘積的 n 次方根2. 適用于對(duì)比率數(shù)據(jù)的平均3. 主要用于計(jì)算平均增長(zhǎng)率4. 計(jì)算公式為5. 可看作是均值的一種變形幾何平均數(shù)(例題分析)例 某流水生產(chǎn)線有前后銜接的五道工序。某日各工序產(chǎn)品的合格率分別為95、92、90

12、、85、80,要求計(jì)算整個(gè)流水生產(chǎn)線產(chǎn)品的平均合格率。解:整個(gè)流水生產(chǎn)線產(chǎn)品的平均合格率為:幾何平均數(shù) (例題分析)例 一位投資者持有一種股票,20082011年的收益率分別為5%,6%,7%,9%。要求計(jì)算該投資者這4年的平均收益率。解: 幾何平均數(shù)解釋設(shè)開始的數(shù)值為y0,年增長(zhǎng)率分別為G1,G2,.Gn,第年的數(shù)值為:推出4.1.4 眾數(shù)、中位數(shù)和均值的比較郭國(guó)慶主編1、眾數(shù)、中位數(shù)和均值的關(guān)系均值 中位數(shù) 眾數(shù) 均值= 中位數(shù)= 眾數(shù)眾數(shù) 中位數(shù)均值左偏分布對(duì)稱分布右偏分布2、眾數(shù)、中位數(shù)和均值的特點(diǎn)和應(yīng)用眾數(shù)不受極端值影響具有不唯一性,作為分類數(shù)據(jù)集中趨勢(shì)的測(cè)度值數(shù)據(jù)分布偏斜程度較大時(shí)

13、應(yīng)用中位數(shù)不受極端值影響,作為順序數(shù)據(jù)集中趨勢(shì)的測(cè)度值數(shù)據(jù)分布偏斜程度較大時(shí)應(yīng)用平均數(shù)易受極端值影響數(shù)學(xué)性質(zhì)優(yōu)良,作為數(shù)值型數(shù)據(jù)集中趨勢(shì)的測(cè)度值數(shù)據(jù)對(duì)稱分布或接近對(duì)稱分布時(shí)應(yīng)用4.2 離散程度的度量數(shù)據(jù)分布的另一個(gè)重要特征反映各變量值遠(yuǎn)離其中心值的程度從另一個(gè)側(cè)面說明了集中趨勢(shì)測(cè)度值的代表程度不同類型的數(shù)據(jù)有不同的離散程度測(cè)度值郭國(guó)慶主編4.2.1 異眾比率 (variation ratio)1.非眾數(shù)組的頻數(shù)占總頻數(shù)的比率2.計(jì)算公式為 3. 用于衡量眾數(shù)的代表性異眾比率(例題分析)解:這說明在調(diào)查的72人當(dāng)中,高校男生吸煙的原因中除受朋友、同學(xué)影響以外的其他原因占65%,異眾比率還是比較大

14、。因此,用“受朋友同學(xué)影響”來代表高校男生吸煙的原因的狀況,其代表性不是很好。高校吸煙原因頻數(shù)分布 吸煙原因頻數(shù)受朋友同學(xué)影響模仿偶像好奇、感覺時(shí)尚受了挫折2571822合計(jì)724.2.2 四分位差 (quartile deviation)1.也稱為內(nèi)距或四分間距2.上四分位數(shù)與下四分位數(shù)之差 QD = QU - QL3.反映了中間50%數(shù)據(jù)的離散程度4. 不受極端值的影響用于衡量中位數(shù)的代表性四分位差(順序數(shù)據(jù)的算例)根據(jù)例4.8的計(jì)算結(jié)果,計(jì)算家庭人均月收入的四分位差。解: QL = 2000 QU = 2700 四分位差: QD = QU - QL = 2700 2000 = 700 4

15、.2.3 全距(range)1. 一組數(shù)據(jù)的最大值與最小值之差2. 離散程度的最簡(jiǎn)單測(cè)度值3. 易受極端值影響未考慮數(shù)據(jù)的分布計(jì)算公式為 R = max(xi) - min(xi)4.2.4 平均差(mean deviation)1. 各變量值與其均值離差絕對(duì)值的平均數(shù)2. 能全面反映一組數(shù)據(jù)的離散程度3. 數(shù)學(xué)性質(zhì)較差,實(shí)際中應(yīng)用較少4. 計(jì)算公式為未分組數(shù)據(jù)組距分組數(shù)據(jù)平均差 (例題分析)平均差計(jì)算表 職工工資組中值(Mi)頻數(shù)(fi)250-270270-290290-310310-330330-350 260280300320340 1525356540 -50-30-101030 7

16、507503506501200 合計(jì)1803700例 某廠按月收入水平分組的組距數(shù)列如表4.9中前兩列,計(jì)算平均差。解: 4.2.5 方差和標(biāo)準(zhǔn)差(variance and standard deviation)1. 方差指各變量值與其均值離差平方的平均數(shù);方差的平方根即為標(biāo)準(zhǔn)差2.反映了數(shù)據(jù)的分布3. 反映了各變量值與均值的平均差異根據(jù)總體數(shù)據(jù)計(jì)算的,稱為總體方差或標(biāo)準(zhǔn)差;根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本方差或標(biāo)準(zhǔn)差1 總體方差和標(biāo)準(zhǔn)差 (simple variance and standard deviation)未分組數(shù)據(jù):組距分組數(shù)據(jù):未分組數(shù)據(jù):組距分組數(shù)據(jù):方差的計(jì)算公式標(biāo)準(zhǔn)差的計(jì)算公

17、式2 樣本方差和標(biāo)準(zhǔn)差 (simple variance and standard deviation)未分組數(shù)據(jù):組距分組數(shù)據(jù):未分組數(shù)據(jù):組距分組數(shù)據(jù):方差的計(jì)算公式標(biāo)準(zhǔn)差的計(jì)算公式例4.22 考察一臺(tái)機(jī)器的生產(chǎn)能力,利用抽樣程序來檢驗(yàn)生產(chǎn)出來的產(chǎn)品質(zhì)量,假設(shè)搜集的數(shù)據(jù)如表4.10所示。根據(jù)該行業(yè)通用法則:如果一個(gè)樣本中的14個(gè)數(shù)據(jù)項(xiàng)的方差大于0.005,則該機(jī)器必須關(guān)閉待修。問此時(shí)的機(jī)器是否必須關(guān)閉?解:根據(jù)已知數(shù)據(jù),計(jì)算 因此,該機(jī)器工作正常。4.2.6. 相對(duì)位置的度量1、標(biāo)準(zhǔn)分?jǐn)?shù) (standard score) 也稱標(biāo)準(zhǔn)化值對(duì)某一個(gè)值在一組數(shù)據(jù)中相對(duì)位置的度量變量值與其平均數(shù)的離

18、差除以標(biāo)準(zhǔn)差后的值可用于判斷一組數(shù)據(jù)是否有離群點(diǎn)用于對(duì)變量的標(biāo)準(zhǔn)化處理計(jì)算公式為標(biāo)準(zhǔn)分?jǐn)?shù)(性質(zhì))均值等于02.方差等于1標(biāo)準(zhǔn)化值(例題分析) 個(gè)人花費(fèi)及其對(duì)應(yīng)的標(biāo)準(zhǔn)分?jǐn)?shù) 編號(hào)花費(fèi)(元) 標(biāo)準(zhǔn)化值 z 123456789100090085088012001500180020008001600-0.576-0.804-0.918-0.850-0.1210.5631.2461.702-1.0320.7902 經(jīng)驗(yàn)法則經(jīng)驗(yàn)法則表明:當(dāng)一組數(shù)據(jù)對(duì)稱分布時(shí)約有68%的數(shù)據(jù)在平均數(shù)加減1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有95%的數(shù)據(jù)在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有99%的數(shù)據(jù)在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi) *離群

19、點(diǎn):在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差之外的數(shù)。對(duì)稱數(shù)據(jù)分布X95% 的樣本 -2 x +2x99% 的樣本 - 3x + 3x68%的樣本 -x +x(三)切比雪夫不等式(Chebyshevs inequality )如果一組數(shù)據(jù)不是對(duì)稱分布,經(jīng)驗(yàn)法則就不再使用,這時(shí)可使用切比雪夫不等式,它對(duì)任何分布形狀的數(shù)據(jù)都適用對(duì)于任意分布形態(tài)的數(shù)據(jù),根據(jù)切比雪夫不等式,至少有(1-1/k2)的數(shù)據(jù)落在均值加減k個(gè)標(biāo)準(zhǔn)差之內(nèi)。其中k是大于1的任意值,但不一定是整數(shù)切比雪夫不等式(Chebyshevs inequality )對(duì)于k=2,3,4,該不等式的含義是至少有75%的數(shù)據(jù)落在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)至少

20、有89%的數(shù)據(jù)落在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)至少有94%的數(shù)據(jù)落在平均數(shù)加減4個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)非對(duì)稱數(shù)據(jù)(切比雪夫公式)X75% 的樣本數(shù)據(jù)89% 的樣本數(shù)據(jù)94%的樣本數(shù)據(jù) -4x -3x -2x +2x+4x +4x4.2.7 相對(duì)離散程度:離散系數(shù)1.標(biāo)準(zhǔn)差與其相應(yīng)的均值之比對(duì)數(shù)據(jù)相對(duì)離散程度的測(cè)度消除了數(shù)據(jù)水平高低和計(jì)量單位的影響4.用于對(duì)不同組別數(shù)據(jù)離散程度的比較5. 計(jì)算公式為離散系數(shù)(例題分析)某管理局所屬8家企業(yè)的產(chǎn)品銷售數(shù)據(jù)企業(yè)編號(hào)產(chǎn)品銷售額(萬元)x1銷售利潤(rùn)(萬元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0例 某管理局抽查了所屬的8家企業(yè),其產(chǎn)品銷售數(shù)據(jù)如表。試比較產(chǎn)品銷售額與銷售利潤(rùn)的離散程度結(jié)論: 計(jì)算結(jié)果表明,v1 0為右偏分布偏態(tài)系數(shù) 0為左偏分布若1偏態(tài)系數(shù)或偏態(tài)系數(shù) -1,則為高度偏態(tài)分布若0.5偏態(tài)系數(shù)1或-1偏態(tài)系數(shù) -0.5之間則為中等

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論