變異量數(shù)與分布形狀_第1頁
變異量數(shù)與分布形狀_第2頁
變異量數(shù)與分布形狀_第3頁
變異量數(shù)與分布形狀_第4頁
變異量數(shù)與分布形狀_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第3章 變異量數(shù)與分佈形狀變異量數(shù)與分佈形狀 前言 只用集中量數(shù)來描述資料是不夠的。忽略了資料點(diǎn)的分散情形,可能會做出錯誤的判斷。 以下介紹幾種反映資料分散情形的量數(shù),包括全距、四分位距、平均絕對離差、標(biāo)準(zhǔn)差等。除此之外,利用數(shù)字呈現(xiàn)資料的集中和分散情形,不如直接呈現(xiàn)資料的分佈圖。 第一節(jié) 變異量數(shù) (1) 全距全距/範(fàn)圍(範(fàn)圍(range) 全距就是最大值減最小值。全距越大表示分?jǐn)?shù)的離散程度越大。 Excel並沒提供函數(shù)直接計算全距。不過可利用MAX求得最大值,用MIN求得最小值,然後相減即得全距。除此之外,也可利用Excel提供的敘述統(tǒng)計內(nèi)設(shè)功能,求得最大值和最小值。 第一節(jié) 變異量數(shù) (

2、2) 四分位距(四分位距(interquartile range) 如果將數(shù)值由小至大排列,第N個分?jǐn)?shù)就是第一個四分位數(shù)(quartile),以Q1來表示;第N個分?jǐn)?shù)就是第二個四分位數(shù)(Q2),Q2也就是中位數(shù);第N個分?jǐn)?shù)就是第三個四分位數(shù)(Q3)。 所謂四分位距就是: Q = (Q3 - Q1) 第一節(jié) 變異量數(shù) (3) 平均絕對離差(平均絕對離差(mean absolute deviation) 每個分?jǐn)?shù)減去平均數(shù),叫做離均差(deviation from the mean)。離均差取絕對值後加總,再取其平均值就是平均絕對離差。即: NXMADNi1第一節(jié) 變異量數(shù) (4) 例如1, 2,

3、 3, 4, 5等數(shù)字的平均數(shù)為3,離均差分別為-2, -1, 0, 1, 2。絕對值離均差為2, 1, 0, 1, 2。 Excel的AVEDEV函數(shù)可用以計算平均絕對離差。如鍵入=AVEDEV(1,2,3,4,5) 就可以得到平均絕對離差為1.2。 2 . 1521012MAD第一節(jié) 變異量數(shù) (5) 變異數(shù)(變異數(shù)(variance) 如果資料是母體,變異數(shù)就是每個分?jǐn)?shù)減去母體平均數(shù)(即離均差),加以平方,然後加總,最後除以個數(shù),即為變異數(shù)(可想成:離均差平方的平均數(shù))。NXNii122第一節(jié) 變異量數(shù) (6) 例如有一公平骰子,令出現(xiàn)點(diǎn)數(shù)為X,數(shù)值分別為1, 2, 3, 4, 5, 6

4、。則X的平均數(shù)為3.5,變異數(shù)為2.92。 92. 26) 5 . 36 () 5 . 35 () 5 . 34 () 5 . 33 () 5 . 32 () 5 . 31 (2222222第一節(jié) 變異量數(shù) (7) 如果是從母體抽取少數(shù)樣本時,樣本變異數(shù)(sample variance)算法為1122NXXSNii第一節(jié) 變異量數(shù) (8) 例如有5個資料點(diǎn)為樣本,數(shù)值分別為1, 2, 3, 4, 5,則樣本平均數(shù)為3,樣本變異數(shù)為2.5。5 . 215) 35 () 34 () 33 () 32 () 31 (222222S第一節(jié) 變異量數(shù) (9) 標(biāo)準(zhǔn)差(標(biāo)準(zhǔn)差(standard devia

5、tion)標(biāo)準(zhǔn)差就是變異數(shù)開根號。 可分為母體標(biāo)準(zhǔn)差和樣本標(biāo)準(zhǔn)差。NXNii12112NXXSNii第一節(jié) 變異量數(shù) (10) Excel的VARP和VAR兩函數(shù)分別用以計算母體變異數(shù)和樣本變異數(shù)。STDEVP和STDEV則分別用以計算母體標(biāo)準(zhǔn)差和樣本標(biāo)準(zhǔn)差(其中P代表母體population)。=VARP(1,2,3,4,5)得母體變異數(shù)為2。=VAR(1,2,3,4,5)得樣本變異數(shù)2.5。=STDEVP(1,2,3,4,5)得母體標(biāo)準(zhǔn)差1.414。=STDEV(1,2,3,4,5)得樣本標(biāo)準(zhǔn)差1.581。 第一節(jié) 變異量數(shù) (11) 變異係數(shù)(變異係數(shù)(coefficient of va

6、riation)標(biāo)準(zhǔn)差除以平均數(shù)就是變異係數(shù)。由於計算變異數(shù)(或標(biāo)準(zhǔn)差)時,因?yàn)槊總€值都要減去平均數(shù),因此變異數(shù)必然受到平均數(shù)的影響。為了避免變異指標(biāo)受到平均數(shù)的影響,將標(biāo)準(zhǔn)差除以平均數(shù),形成變異係數(shù)。第一節(jié) 變異量數(shù) (12) 在一項(xiàng)實(shí)驗(yàn)裡,實(shí)驗(yàn)組接受了某種閱讀技巧訓(xùn)練,控制組則無,每組各10人。實(shí)驗(yàn)組的標(biāo)準(zhǔn)差3.52約為控制組7.01的一半,控制組的變異係數(shù)0.14不到實(shí)驗(yàn)組0.35的一半。 標(biāo)準(zhǔn)差 平均數(shù) 變異係數(shù) 實(shí)驗(yàn)組 6 6 7 8 9 10 11 12 13 18 3.52 10 0.35 控制組 38 43 45 46 50 50 52 56 57 63 7.01 50 0.1

7、4 第二節(jié) 各種變異量數(shù)的比較 (1) 全距的優(yōu)點(diǎn)在於計算容易,容易理解。缺點(diǎn)是只利用最大和最小值,完全漠視了其他值的存在,無法精確反應(yīng)所有資料的分散情形。 四分位距將極端的前1/4和後1/4去除,而利用第三個與第一個四分位數(shù)的差距來表示分散情形,因此避免了全距受到極端值影響的缺點(diǎn)。不過,四分位距的計算顯然不如全距來得方便,因?yàn)楸仨殞①Y料由小到大排序。和全距一樣,四分位距也沒使用到所有的資料點(diǎn)。 第二節(jié) 各種變異量數(shù)的比較 (2) 平均絕對離差則使用了全部的資料,這是比較恰當(dāng)?shù)淖鞣?。此外,平均絕對離差也蠻容易理解。不過,由於計算平均絕對離差必須先求絕對值,因此運(yùn)算並不方便。 標(biāo)準(zhǔn)差和平均絕對離

8、差的意義非常類似,因此不難理解。變異數(shù)及標(biāo)準(zhǔn)差還有方便四則運(yùn)算,以及可用以推估母體參數(shù)(母體變異數(shù)、母體標(biāo)準(zhǔn)差)的好處,因此是推論統(tǒng)計的基石。 第二節(jié) 各種變異量數(shù)的比較 (3) 變異數(shù)(標(biāo)準(zhǔn)差)比平均絕對離差容易受到極端值的影響,這是因?yàn)橛嬎阕儺悢?shù)時使用了平方的關(guān)係。 例如1, 2, 3, 4, 5的母體標(biāo)準(zhǔn)差為1.41,平均絕對離差為1.20,兩者頗為接近。如果資料是1, 2, 3, 4, 10,則兩者分別為3.16和2.40,可見標(biāo)準(zhǔn)差受到極端值的影響比平均絕對離差來得大。 變異係數(shù)可以消去平均數(shù)的影響,如果要比較兩種平均數(shù)差異很大的資料的分散情形,利用變異係數(shù)比用標(biāo)準(zhǔn)差來得恰當(dāng)了。 變

9、異量數(shù) 計算 理解 使用資料點(diǎn) 推論母體 全距 易 易 部份 無法 四分位距 易 易 部份 無法 平均絕對離差 難 難 全部 無法 標(biāo)準(zhǔn)差 難 難 全部 可以 第三節(jié) 柴氏不等式定理 (1) 柴氏不等式(Chebyshevs Inequality) 該定理表示:數(shù)值在平均數(shù)上下k個標(biāo)準(zhǔn)差之內(nèi)的機(jī)率不小於1-1/k2。即 P(|X |) k 1 1/ k2 柴氏不等式定理適用於任何的分佈,包括間斷機(jī)率分佈和連續(xù)機(jī)率分佈,樣本和母體的分佈。 第三節(jié) 柴氏不等式定理 (2) 例如智商的平均數(shù) = 100,標(biāo)準(zhǔn)差 = 15,則數(shù)值在平均數(shù)100 1之內(nèi)(即介於85到115之間)的機(jī)率不小於0(=1-1

10、/12)。 數(shù)值在平均數(shù)100 2之內(nèi)(即介於70到130之間)的機(jī)率不小於3/4(=1-1/22)。 數(shù)值在平均數(shù)100 3之內(nèi)(即介於55到145之間)的機(jī)率不小於8/9(=1-1/32)。 第四節(jié) 分佈形狀 (1) 最佳描述資料的方法就是呈現(xiàn)所有的資料點(diǎn),包括資料的分佈形狀,配合集中量數(shù)和變異量數(shù),將更能完整呈現(xiàn)資料的特性。 例如調(diào)查100位中學(xué)生每週流連網(wǎng)路咖啡店的時數(shù),結(jié)果發(fā)現(xiàn)平均數(shù)為5.68,標(biāo)準(zhǔn)差為5.77。看到這樣的數(shù)字,我們就會以為多數(shù)人每週花在網(wǎng)咖的時間為5到6小時。0510152025303540455002468101214時數(shù)頻率上圖稱為直方圖(histogram)。

11、直方圖類似長條圖,不過直方圖中的長條沒有空隙。這是因?yàn)橹狈綀D的X軸的變項(xiàng)是連續(xù)的量變項(xiàng)。 第四節(jié) 分佈形狀 (2) 隨著分佈形狀的改變,集中量數(shù),如平均數(shù)、中位數(shù)、眾數(shù)三者的關(guān)係會有所變化。 圖 (a)呈現(xiàn)的是所有的資料數(shù)值都是一樣的次數(shù),例如每週去網(wǎng)咖的時間為0、2、4、6、8、10、12、14小時的人數(shù)都是10人。此時平均數(shù)和中位數(shù)相同,但並無眾數(shù)。這稱為均勻分佈(uniform distribution)。 平均數(shù) 中位數(shù) 平均數(shù) 眾數(shù) 中位數(shù) 平均數(shù) 眾數(shù) 中位數(shù) 平均數(shù) 中位數(shù) 眾數(shù) 平均數(shù) 中位數(shù) 眾數(shù) 眾數(shù) (a) (b) (c) (d) (e) 第四節(jié) 分佈形狀 (3) 如果分佈像圖 (b)所示,呈現(xiàn)左右對稱的單峰分佈(unimodal distribution),平均數(shù)、中位數(shù)、眾數(shù)三者相同。成年男性或女性的身高應(yīng)該都是這種單峰且對稱的分佈。 如果分佈如圖(c),大部份的數(shù)值集中在右邊,成單峰分佈,則眾數(shù)大於中位數(shù),中位數(shù)大於平均數(shù)。這種分佈又稱為左偏態(tài)分佈或負(fù)偏態(tài)分佈(negatively skewed distribution),因?yàn)樽筮叺奈舶秃荛L。第四節(jié) 分佈形狀 (4) 如果分佈如圖(d),大部份的數(shù)值集中在左邊

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論