第三數據分布特征的描述演示文稿_第1頁
第三數據分布特征的描述演示文稿_第2頁
第三數據分布特征的描述演示文稿_第3頁
第三數據分布特征的描述演示文稿_第4頁
第三數據分布特征的描述演示文稿_第5頁
已閱讀5頁,還剩83頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第三數據分布特征的描述演示文稿現在是1頁\一共有88頁\編輯于星期五(優(yōu)選)第三數據分布特征的描述現在是2頁\一共有88頁\編輯于星期五數據分布的特征和測度峰度偏態(tài)數據的特征和測度分布的形狀集中趨勢離散程度眾數中位數離散系數方差和標準差四分位差異眾比率位置平均數數值平均數算術平均數調和平均數幾何平均數平均差極差四分位數現在是3頁\一共有88頁\編輯于星期五第一節(jié)數據分布集中趨勢的測定一.眾數二.中位數和分位數三.算術平均數四.調和平均數五.幾何平均數現在是4頁\一共有88頁\編輯于星期五集中趨勢

(Centraltendency)一組數據向其中心值靠攏的傾向和程度測度集中趨勢就是尋找數據一般水平的代表值或中心值不同類型的數據用不同的集中趨勢測度值低層次數據的集中趨勢測度值適用于高層次的測量數據,反過來,高層次數據的集中趨勢測度值并不適用于低層次的測量數據選用哪一個測度值來反映數據的集中趨勢,要根據所掌握的數據的類型來確定現在是5頁\一共有88頁\編輯于星期五眾數現在是6頁\一共有88頁\編輯于星期五眾數

(概念要點)集中趨勢的測度值之一;出現次數最多的變量值;不受極端值的影響;可能沒有眾數或有幾個眾數;適用于定類數據、定序數據、定距數據和定比數據?,F在是7頁\一共有88頁\編輯于星期五眾數

(眾數的不唯一性)無眾數

原始數據:10591268一個眾數

原始數據:65

9855多于一個眾數

原始數據:252828

364242現在是8頁\一共有88頁\編輯于星期五定類數據眾數的確定

(算例)表3-1某城市居民關注廣告類型的頻數分布

廣告類型人數(人)比例頻率(%)商品廣告服務廣告金融廣告房地產廣告招生招聘廣告其他廣告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合計2001100【例3.1】根據表3-1中的數據,計算眾數。解:這里的變量為“廣告類型”,這是個定類變量,不同類型的廣告就是變量值。我們看到,在所調查的200人當中,關注商品廣告的人數最多,為112人,占總被調查人數的56%,因此眾數為“商品廣告”這一類別,即

Mo=商品廣告現在是9頁\一共有88頁\編輯于星期五定序數據眾數的確定

(算例)【例3.2】根據表3-2中的數據,計算眾數。解:這里的數據為定序數據。變量為“回答類別”。甲城市中對住房表示不滿意的戶數最多,為108戶,因此眾數為“不滿意”這一類別,即

Mo=不滿意表3-2甲城市家庭對住房狀況評價的頻數分布回答類別甲城市戶數(戶)百分比(%)

非常不滿意

不滿意

一般

滿意

非常滿意24108934530836311510合計300100.0現在是10頁\一共有88頁\編輯于星期五數值型分組數據眾數的確定

(要點及計算公式)1.

眾數的值與相鄰兩組頻數的分布有關4.

該公式假定眾數組的頻數在眾數組內均勻分布2.相鄰兩組的頻數相等時,眾數組的組中值即為眾數Mo3.相鄰兩組的頻數不相等時,眾數采用下列近似公式計算MoMo現在是11頁\一共有88頁\編輯于星期五數值型分組數據眾數的確定

(算例)表3-3某車間50名工人日加工零件數分組表按零件數分組頻數(人)累積頻數105~110110~115115~120120~125125~130130~135135~140358141064381630404650合計50—【例3.3】根據表3-3中的數據,計算50名工人日加工零件數的眾數現在是12頁\一共有88頁\編輯于星期五中位數現在是13頁\一共有88頁\編輯于星期五中位數

(概念要點)1.集中趨勢的測度值之一2.排序后處于中間位置上的值Me50%50%不受極端值的影響適用于定序數據和數值型數據各變量值與中位數的離差絕對值之和最小,即現在是14頁\一共有88頁\編輯于星期五中位數

(位置的確定)未分組資料:組距分組資料:2∑f=中位數位置N為奇數N為偶數現在是15頁\一共有88頁\編輯于星期五定序數據中位數的確定

(算例)【例3.4】根據表3-4中的數據,計算甲城市家庭對住房滿意狀況評價的中位數解:中位數的位置為:300/2=150從累計頻數看,中位數的在“一般”這一組別中。因此

Me=一般表3-4甲城市家庭對住房狀況評價的頻數分布回答類別甲城市戶數(戶)累計頻數

非常不滿意

不滿意

一般

滿意

非常滿意2410893453024132225270300合計300—現在是16頁\一共有88頁\編輯于星期五數值型數據中位數的測定現在是17頁\一共有88頁\編輯于星期五未分組數據中位數的測定

(計算公式)現在是18頁\一共有88頁\編輯于星期五未分組數據中位數的測定

(5個數據的算例)原始數據:

2422212620排序: 2021222426位置: 123 45中位數22現在是19頁\一共有88頁\編輯于星期五未分組數據中位數的測定

(6個數據的算例)原始數據:105 91268排序:56891012位置: 123

4

56N+16+1位置223.5中位數8+928.5現在是20頁\一共有88頁\編輯于星期五根據位置公式確定中位數所在的組采用下列近似公式計算:該公式假定中位數組的頻數在該組內均勻分布組距分組數據中位數的確定

(要點及計算公式)現在是21頁\一共有88頁\編輯于星期五組距分組數據中位數的確定

(算例)表3-5某車間50名工人日加工零件數分組表按零件數分組頻數(人)累積頻數105~110110~115115~120120~125125~130130~135135~140358141064381630404650合計50—【例3.5】根據第三章表3-5中的數據,計算50名工人日加工零件數的中位數現在是22頁\一共有88頁\編輯于星期五四分位數

(概念要點)1.集中趨勢的測度值之一2.排序后處于25%和75%位置上的值,又稱為四分位點3.不受極端值的影響4.適用于定序數據、數值型數據QLQMQU25%25%25%25%現在是23頁\一共有88頁\編輯于星期五四分位數

(位置的確定)未分組數據:組距分組數據:下四分位數(QL)位置=N+14上四分位數(QU)位置=3(N+1)4下四分位數(QL)位置=∑f4上四分位數(QL)位置=3∑f4單變量值分組數據:現在是24頁\一共有88頁\編輯于星期五定序數據的四分位數

(算例)【例3.11】根據第三章表3-11中的數據,計算甲城市家庭對住房滿意狀況評價的四分位數解:下四分位數(QL)的位置為:

QL位置=(300)/4=75上四分位數(QL)的位置為:

QU位置=(3×300)/4=225從累計頻數看,QL在“不滿意”這一組別中;QU在“一般”這一組別中。因此

QL

=不滿意

QU

=一般表3-11甲城市家庭對住房狀況評價的頻數分布回答類別甲城市戶數(戶)累計頻數

非常不滿意

不滿意

一般

滿意

非常滿意2410893453024132225270300合計300—現在是25頁\一共有88頁\編輯于星期五數值型未分組數據的四分位數

(7個數據的算例)原始數據:

2321 3032 282526排序:21232526283032位置:1234567N+1QL=237+1QL位置=4=4=2QU位置=3(N+1)43(7+1)4==6QU=30現在是26頁\一共有88頁\編輯于星期五數值型未分組數據的四分位數

(6個數據的算例)原始數據:

232130 282526排序:212325262830位置:1234 56QL=21+0.75(23-21)=22.5QL位置=N+14=6+14=1.75QU位置=3(N+1)43(6+1)4==5.25QU=28+0.25(30-28)=28.5現在是27頁\一共有88頁\編輯于星期五數值型分組數據的四分位數

(計算公式)上四分位數:

下四分位數:

現在是28頁\一共有88頁\編輯于星期五數值型分組數據的四分位數

(計算示例)QL位置=50/4=12.5QU位置=3×50/4=37.5表3-12某車間50名工人日加工零件數分組表按零件數分組頻數(人)累積頻數105~110110~115115~120120~125125~130130~135135~140358141064381630404650合計50—【例3.12-1】根據表3-12中的數據,計算50名工人日加工零件數的四分位數?,F在是29頁\一共有88頁\編輯于星期五算術平均數現在是30頁\一共有88頁\編輯于星期五算術平均數

(概念要點)1.集中趨勢的測度值之一2.最常用的測度值3.一組數據的均衡點所在4.易受極端值的影響5.適用于數值型數據現在是31頁\一共有88頁\編輯于星期五算術平均數

(計算公式)設一組數據為:X1,X2,…,XN

簡單均值的計算公式為設分組后的數據為:X1,X2,…,XK

相應的頻數為:F1,F2,…,FK加權均值的計算公式為現在是32頁\一共有88頁\編輯于星期五簡單算術平均數

(算例)原始數據: 10 5 9 13 6 8現在是33頁\一共有88頁\編輯于星期五加權算術平均數

(算例)表3-6某車間50名工人日加工零件均值計算表按零件數分組組中值(Xi)頻數(Fi)XiFi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合計—506160.0【例3.6】根據表3-6中的數據,計算50名工人日加工零件數的均值現在是34頁\一共有88頁\編輯于星期五權數對算術平均數的影響加權算術平均數其數值的大小,不僅受各組變量值大小的影響,而且受各組變量值出現的頻數即權數大小的影響。如果某一組的權數大,說明該組的數據較多,那么該組數據的大小對算術平均數的影響就越大,反之,則越小。現在是35頁\一共有88頁\編輯于星期五權數對算術平均數的影響甲乙兩組各有10名學生,他們的考試成績及其分布數據如下:甲組:考試成績(X): 020100

人數分布(F):118乙組:考試成績(X): 020100

人數分布(F):811X甲0×1+20×1+100×8n10i=1Xi82(分)X乙0×8+20×1+100×1n10i=1Xi12(分)現在是36頁\一共有88頁\編輯于星期五算術平均數的數學性質1.各變量值與均值的離差之和等于零

2.各變量值與均值的離差平方和最小現在是37頁\一共有88頁\編輯于星期五調和平均數現在是38頁\一共有88頁\編輯于星期五調和平均數

(概念要點)1.集中趨勢的測度值之一2.均值的另一種表現形式3.易受極端值的影響4.用于定比數據5.計算公式為現在是39頁\一共有88頁\編輯于星期五調和平均數

(算例)表3-7某日三種蔬菜的批發(fā)成交數據蔬菜名稱批發(fā)價格(元)

Xi成交額(元)mi成交量(公斤)mi/

Xi甲乙丙1.200.500.801800012500640015000250008000合計—3690048000【例3.7】某蔬菜批發(fā)市場三種蔬菜的日成交數據如表3-7,計算三種蔬菜該日的平均批發(fā)價格(元/公斤)現在是40頁\一共有88頁\編輯于星期五幾何平均數現在是41頁\一共有88頁\編輯于星期五幾何平均數

(概念要點)1.集中趨勢的測度值之一2.N

個變量值乘積的N

次方根3.適用于特殊的數據4.主要用于計算平均發(fā)展速度5.計算公式為6.可看作是均值的一種變形現在是42頁\一共有88頁\編輯于星期五幾何平均數

(算例)【例3.8】一位投資者持有一種股票,1996年、1997年、1998年和1999年收益率分別為4.5%、2.0%、3.5%、5.4%。計算該投資者在這四年內的平均收益率。平均收益率=103.84%-1=3.84%現在是43頁\一共有88頁\編輯于星期五眾數、中位數和

算術平均數的比較現在是44頁\一共有88頁\編輯于星期五眾數、中位數和

算術平均數的關系左偏分布算術平均數

中位數

眾數右偏分布眾數

中位數

算術平均數對稱分布

算術平均數=中位數=眾數現在是45頁\一共有88頁\編輯于星期五數據類型與集中趨勢測度值表3-9數據類型和所適用的集中趨勢測度值數據類型定類數據定序數據定距數據定比數據適用的測度值眾數中位數算術平均數算術平均數—四分位數眾數調和平均數—眾數中位數幾何平均數——四分位數中位數———四分位數———眾數紅色為該數據類型最適合用的測度值現在是46頁\一共有88頁\編輯于星期五第二節(jié)數據分布離散程度的測定一.異眾比率二.極差三.四分位差四.平均差五.方差及標準差六.離散系數現在是47頁\一共有88頁\編輯于星期五離散程度數據分布的另一個重要特征;離散程度測度值是對數據分散程度所作的描述;反映各變量值遠離其中心值的程度,因此也稱為離中趨勢;從另一個側面說明了集中趨勢測度值的代表程度;不同類型的數據有不同的離散程度測度值?,F在是48頁\一共有88頁\編輯于星期五數據的特征和測度

(本節(jié)位置)峰度偏態(tài)數據的特征和測度分布的形狀集中趨勢離散程度眾數中位數離散系數方差和標準差四分位差異眾比率位置平均數數值平均數算術平均數調和平均數幾何平均數平均差極差現在是49頁\一共有88頁\編輯于星期五異眾比率現在是50頁\一共有88頁\編輯于星期五異眾比率

(概念要點)1. 離散程度的測度值之一2. 非眾數組的頻數占總頻數的比率3. 用于衡量眾數的代表性4.計算公式為現在是51頁\一共有88頁\編輯于星期五異眾比率的測算

(算例)表3-10某城市居民關注廣告類型的頻數分布

廣告類型人數(人)頻率(%)

商品廣告服務廣告金融廣告房地產廣告招生招聘廣告其他廣告1125191610256.025.54.58.05.01.0合計200100【例3.10】根據第三章表3-10中的數據,計算異眾比率解:

在所調查的200人當中,關注非商品廣告的人數占44%,異眾比率還是比較大。因此,用“商品廣告”來反映城市居民對廣告關注的一般趨勢,其代表性不是很好

Vr=200-112200

=1-112200

=0.44=44%現在是52頁\一共有88頁\編輯于星期五四分位差現在是53頁\一共有88頁\編輯于星期五四分位差

(概念要點)四分位數是離散程度的測度值之一,是上四分位數與下四分位數之差,又稱為四分位差,亦稱為內距或四分間距(inter-quartilerange),用表示。計算公式為:現在是54頁\一共有88頁\編輯于星期五四分位差

(定序數據的算例)【例3.13】根據第三章表3-13中的數據,計算甲城市家庭對住房滿意狀況評價的四分位差解:設非常不滿意為1,不滿意為2,一般為3,滿意為4,非常滿意為5已知QL=不滿意=2

QU=

一般=

3四分位差:

QD

=QU

=

QL

=3–2

=1表3-13甲城市家庭對住房狀況評價的頻數分布回答類別甲城市戶數(戶)累計頻數

非常不滿意

不滿意

一般

滿意

非常滿意2410893453024132225270300合計300—現在是55頁\一共有88頁\編輯于星期五數值型分組數據的四分位差

(計算示例)表3-12某車間50名工人日加工零件數分組表按零件數分組頻數(人)累積頻數105~110110~115115~120120~125125~130130~135135~140358141064381630404650合計50—【例3.12-2】根據表3-12中的數據,計算50名工人日加工零件數的四分位差?,F在是56頁\一共有88頁\編輯于星期五極差現在是57頁\一共有88頁\編輯于星期五極差

(概念要點及計算公式)1.一組數據的最大值與最小值之差2.離散程度的最簡單測度值3.易受極端值影響4.未考慮數據的分布7891078910未分組數據

R

=max(Xi)-min(Xi).=組距分組數據R

最高組上限-最低組下限

計算公式為現在是58頁\一共有88頁\編輯于星期五平均差現在是59頁\一共有88頁\編輯于星期五平均差

(概念要點及計算公式)1.離散程度的測度值之一2.各變量值與其均值離差絕對值的平均數3.能全面反映一組數據的離散程度4.數學性質較差,實際中應用較少

計算公式為未分組數據組距分組數據現在是60頁\一共有88頁\編輯于星期五平均差

(計算過程及結果)表3-14某車間50名工人日加工零件標準差計算表按零件數分組組中值(Xi)頻數(Fi)105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.535814106415.710.75.70.74.39.314.347.153.545.69.843.055.857.2合計—50—312【例3.14】根據第三章表3-14中的數據,計算工人日加工零件數的平均差現在是61頁\一共有88頁\編輯于星期五方差與標準差現在是62頁\一共有88頁\編輯于星期五方差和標準差

(概念要點)1.離散程度的測度值之一2.最常用的測度值3.反映了數據的分布4.反映了各變量值與均值的平均差異5.根據總體數據計算的,稱為總體方差或標準差;根據樣本數據計算的,稱為樣本方差或標準差4681012X=8.3現在是63頁\一共有88頁\編輯于星期五總體方差和標準差

(計算公式)未分組數據:組距分組數據:標準差的計算公式未分組數據:組距分組數據:方差的計算公式現在是64頁\一共有88頁\編輯于星期五總體標準差

(計算過程及結果)3100.5739.47572.45259.926.86184.90518.94817.96—246.49114.4932.490.4918.4986.49204.4950—合計358141064107.5112.5117.5122.5127.5132.5137.5105~110110~115115~120120~125125~130130~135135~140頻數(Fi)組中值(Xi)按零件數分組表3-15某車間50名工人日加工零件標準差計算表【例3.15】根據第三章表3-15中的數據,計算工人日加工零件數的標準差現在是65頁\一共有88頁\編輯于星期五樣本方差和標準差

(計算公式)未分組數據:組距分組數據:未分組數據:組距分組數據:方差的計算公式標準差的計算公式注意:樣本方差用自由度n-1去除!現在是66頁\一共有88頁\編輯于星期五樣本方差

自由度(degreeoffreedom)一組數據中可以自由取值的數據的個數。當樣本數據的個數為

n時,若樣本均值x

確定后,只有n-1個數據可以自由取值,其中必有一個數據則不能自由取值。例如,樣本有3個數值,即x1=2,x2=4,x3=9,則x

=5。當x

=5

確定后,x1,x2和x3有兩個數據可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值。樣本方差用自由度去除,其原因可從多方面來解釋,從實際應用角度看,在抽樣估計中,當用樣本方差去估計總體方差σ2時,它是σ2的無偏估計量?,F在是67頁\一共有88頁\編輯于星期五樣本方差

(算例)原始數據:10 591368樣本標準差現在是68頁\一共有88頁\編輯于星期五樣本標準差

(算例)樣本標準差原始數據:

10591368現在是69頁\一共有88頁\編輯于星期五方差的數學性質

現在是70頁\一共有88頁\編輯于星期五方差的數學性質1、變量的方差等于變量平方的平均數減去變量平均數的平方,即:現在是71頁\一共有88頁\編輯于星期五方差

(數學性質)各變量值對均值的方差小于對任意值的方差證明提示:設X0為不等于X的任意數,D2為對X0的方差,則:現在是72頁\一共有88頁\編輯于星期五相對離散程度:

離散系數現在是73頁\一共有88頁\編輯于星期五離散系數

(概念要點)1.各種變異指標與其相應的均值之比2.消除了數據水平高低和計量單位的影響3.測度了數據的相對離散程度4.用于對不同總體數據離散程度的比較5.常用的離散系數為標準差系數?,F在是74頁\一共有88頁\編輯于星期五標準差系數

(概念要點和計算公式)1.標準差與其相應的均值之比2.消除了數據水平高低和計量單位的影響3.測度了數據的相對離散程度4.用于對不同組別數據離散程度的比較計算公式為現在是75頁\一共有88頁\編輯于星期五標準差系數

(實例和計算過程)表3-16某管理局所屬8家企業(yè)的產品銷售數據企業(yè)編號產品銷售額(萬元)X1銷售利潤(萬元)X21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例3.16】某管理局抽查了所屬的8家企業(yè),其產品銷售數據如表3-16。試比較產品銷售額與銷售利潤的離散程度現在是76頁\一共有88頁\編輯于星期五標準差系數

(計算結果)X1=536.25(萬元)S1=309.19(萬元)V1=536.25309.19=0.577S2=23.09(萬元)V2=32.521523.09=0.710X2=32.5215(萬元)結論:計算結果表明,V1<V2,說明產品銷售額的離散程度小于銷售利潤的離散程度

現在是77頁\一共有88頁\編輯于星期五數據類型與離散程度測度值數據類型和所適用的離散程度測度值數據類型定類數據定序數據定距數據或定比數據適用的測度值※異眾比率※四分位差

※方差或標準差—

異眾比率

※離散系數(比較時用)——

平均差——

極差——

四分位差——

異眾比率※為該數據類型最適合用的測度值現在是78頁\一共有88頁\編輯于星期五第三節(jié)數據分布偏態(tài)與峰度的測度一.偏態(tài)及其測度二.峰度及其測度現在是79頁\一共有88頁\編輯于星期五數據的特征和測度

(本節(jié)位置)數據的特征和測度分布的形狀離散程度眾數中位數離散系數方差和標準差四分位差異眾比率位置平均數數值平均數算術平均數調和平均數幾何平均數集中趨勢偏態(tài)峰度現在是80頁\一共有88頁\編輯于星期五偏態(tài)及其測度現在是81頁\一共有88頁\編輯于星期五偏態(tài)與峰度分布的形狀扁平分布尖峰分布偏態(tài)峰度左偏分布右偏分布與標準正態(tài)分布比較!現在是82頁\一共有88頁\編輯于星期五偏態(tài)

(概念要點)1.數據分布偏斜程度的測度2.偏態(tài)系數=0為對稱分布3.偏態(tài)系數>0

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論