樣本標準差母體標準差標準差_第1頁
樣本標準差母體標準差標準差_第2頁
樣本標準差母體標準差標準差_第3頁
樣本標準差母體標準差標準差_第4頁
樣本標準差母體標準差標準差_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、 2006 by 滄海書局 資料與統(tǒng)計資料與統(tǒng)計II:數(shù)值方法:數(shù)值方法Part A (3.13.2) 2006 by 滄海書局 Small Fry Design創(chuàng)設於創(chuàng)設於1997年,它是一間設計與進口年,它是一間設計與進口嬰孩用品的公司。嬰孩用品的公司。 現(xiàn)金流量的管理是日常營運中現(xiàn)金流量的管理是日常營運中最重要的項目之一。最重要的項目之一。 在現(xiàn)金流量管理中,最重要的在現(xiàn)金流量管理中,最重要的就是分析與控制應收帳款帳戶,就是分析與控制應收帳款帳戶,若能衡量未兌現(xiàn)支票平均到期若能衡量未兌現(xiàn)支票平均到期日與金額,管理者就可以預測日與金額,管理者就可以預測何時收到現(xiàn)金,並且監(jiān)督應收何時收到現(xiàn)金

2、,並且監(jiān)督應收帳款帳戶的變化。帳款帳戶的變化。 Small Fry Design設定了以下目標:未兌現(xiàn)支票平均的設定了以下目標:未兌現(xiàn)支票平均的到期日不能超過到期日不能超過45天,到期日若有超過天,到期日若有超過60天的未兌現(xiàn)天的未兌現(xiàn)支票,總價值不能超過應收帳款總數(shù)的支票,總價值不能超過應收帳款總數(shù)的5%。 2006 by 滄海書局 3.1 位置量數(shù)位置量數(shù) 3.2 離散量數(shù)離散量數(shù) 3.3 相對位置的量數(shù)與離群值的偵測相對位置的量數(shù)與離群值的偵測 3.4 探究性資料分析探究性資料分析 3.5 兩變數(shù)的相關性量數(shù)兩變數(shù)的相關性量數(shù) 3.6 加權平均數(shù)與群組資料的處理加權平均數(shù)與群組資料的處理

3、 2006 by 滄海書局 測量值是由樣本資料計算測量值是由樣本資料計算而得,則稱之為樣本統(tǒng)計量而得,則稱之為樣本統(tǒng)計量(sample statistics)。若是由整個母體計算而得,若是由整個母體計算而得,則稱之為母體參數(shù)則稱之為母體參數(shù)(population parameters)。統(tǒng)計推論中,樣本統(tǒng)計量是指統(tǒng)計推論中,樣本統(tǒng)計量是指相對應的母體參數(shù)的相對應的母體參數(shù)的點估計量點估計量(point estimator)。 平均數(shù)平均數(shù) 中位數(shù)中位數(shù) 眾數(shù)眾數(shù) 百分位數(shù)百分位數(shù) 四分位數(shù)四分位數(shù) 2006 by 滄海書局 一個變數(shù)最重要的位置量數(shù)或許是一個變數(shù)最重要的位置量數(shù)或許是平均數(shù)平均

4、數(shù)(mean, average value)。 若資料來自某一母體以若資料來自某一母體以 m m 表示。表示。 若資料來自某一樣本以表示若資料來自某一樣本以表示。 平均數(shù)是一種中央位置量數(shù)平均數(shù)是一種中央位置量數(shù)。iiiw xxw 2006 by 滄海書局 觀察值的樣本數(shù)觀察值的樣本數(shù)資料集中資料集中 n 個觀察值個觀察值的總和的總和iiiw xxw 2006 by 滄海書局 觀察值的樣本數(shù)觀察值的樣本數(shù)資料集中資料集中 N 個觀察值個觀察值的總和的總和 2006 by 滄海書局 假設某大學的就業(yè)輔導室寄出一份問卷給被抽假設某大學的就業(yè)輔導室寄出一份問卷給被抽中的商學院畢業(yè)生以調(diào)查工作起薪。中

5、的商學院畢業(yè)生以調(diào)查工作起薪。 表表3.1為所蒐集的資料。為所蒐集的資料。 2006 by 滄海書局 樣本中樣本中12個商學院畢業(yè)生之平均月薪計算如下個商學院畢業(yè)生之平均月薪計算如下。2940123528012288029502850121221xxxnxxi 2006 by 滄海書局 將資料值由小排到大時,中位數(shù)為中間的那一個值。將資料值由小排到大時,中位數(shù)為中間的那一個值。 根據(jù)傳統(tǒng)的中位數(shù)定義,將中間兩個值之平均數(shù)當根據(jù)傳統(tǒng)的中位數(shù)定義,將中間兩個值之平均數(shù)當作中位數(shù)。作中位數(shù)。 若資料個數(shù)為奇數(shù)時,中位數(shù)即位於中間的數(shù)值;若資料個數(shù)為奇數(shù)時,中位數(shù)即位於中間的數(shù)值;若資料項目為偶數(shù)時,

6、就沒有單一的中間項。若資料項目為偶數(shù)時,就沒有單一的中間項。 中位數(shù)中位數(shù)(median)是另一種中央位置量數(shù)。是另一種中央位置量數(shù)。 2006 by 滄海書局 將資料遞增排列將資料遞增排列(即由小到大排列即由小到大排列)a) 資料值為奇數(shù)項時,中位數(shù)為此資料之中資料值為奇數(shù)項時,中位數(shù)為此資料之中間值。間值。b) 資料值為偶數(shù)項時,中位數(shù)為此資料之中資料值為偶數(shù)項時,中位數(shù)為此資料之中間兩個數(shù)值的平均數(shù)。間兩個數(shù)值的平均數(shù)。 2006 by 滄海書局 計算表計算表3.1商學院畢業(yè)生起薪的中位數(shù)商學院畢業(yè)生起薪的中位數(shù) 首先將資料遞增排列後如下首先將資料遞增排列後如下 因為因為n12是偶數(shù),故

7、有兩個中間值:是偶數(shù),故有兩個中間值:2,890和和2,920,中位數(shù)為此兩個值之平均。,中位數(shù)為此兩個值之平均。2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325中間兩個值2905229202890中位數(shù) 2006 by 滄海書局 眾數(shù)眾數(shù)(mode)是資料集中出現(xiàn)次數(shù)最多的資料值。是資料集中出現(xiàn)次數(shù)最多的資料值。 當資料集中出現(xiàn)次數(shù)最多的值有兩個或以上時,當資料集中出現(xiàn)次數(shù)最多的值有兩個或以上時,眾數(shù)就不只一個。眾數(shù)就不只一個。 若資料集恰有兩個眾數(shù),則稱此資料為若資料集恰有兩個眾數(shù),則稱此資料為雙峰雙峰(bimodal)

8、。 若出現(xiàn)兩個以上的眾數(shù)時,則稱為若出現(xiàn)兩個以上的眾數(shù)時,則稱為多峰多峰(multimodal)。 2006 by 滄海書局 表表2.2的軟性飲料購買狀況調(diào)查整理成如下的次的軟性飲料購買狀況調(diào)查整理成如下的次數(shù)分配。數(shù)分配。 眾數(shù),即最常購買的軟性飲料,是眾數(shù),即最常購買的軟性飲料,是Coke Classic 。 2006 by 滄海書局 百分位數(shù)百分位數(shù)(percentile)也是一種位置量數(shù),有助於也是一種位置量數(shù),有助於瞭解資料在最小值與最大值間的分布情況。瞭解資料在最小值與最大值間的分布情況。 針對那些沒有太多重複的資料集而言,針對那些沒有太多重複的資料集而言,p-百分位百分位數(shù)可將資

9、料分割成兩部分,大約數(shù)可將資料分割成兩部分,大約p-百分比的觀察百分比的觀察值會小於值會小於p-百分位數(shù);而大約有百分位數(shù);而大約有(100p)百分比百分比的觀察值會大於的觀察值會大於p-百分位數(shù)。百分位數(shù)。 2006 by 滄海書局 p-百分位數(shù)表示至少有百分位數(shù)表示至少有p-百分比百分比(百分之百分之 p)的的觀察值小於或等於它,而至少有觀察值小於或等於它,而至少有(100p)百分百分比的觀察值大於或等於它。比的觀察值大於或等於它。 2006 by 滄海書局 將資料遞增排列,即由小到大排序。將資料遞增排列,即由小到大排序。計算指標計算指標 i若若 i 不是整數(shù),無條件進位後的整數(shù)即不是整數(shù)

10、,無條件進位後的整數(shù)即 p-百分位數(shù)百分位數(shù)的位置。的位置。若若 i 是整數(shù),則是整數(shù),則p-百分位數(shù)為資料排序後的第百分位數(shù)為資料排序後的第 i 個與個與第第 i1 個觀察值之平均數(shù)。個觀察值之平均數(shù)。 2006 by 滄海書局 求表求表3.1起薪資料的起薪資料的85-百分位數(shù)。百分位數(shù)。 步驟步驟 1. 將資料集的所有資料由小到大排序將資料集的所有資料由小到大排序。2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 步驟步驟 2. 步驟步驟3. 因為因為 i 不為整數(shù),無條件進位為不為整數(shù),無條件進位為11,即,即85-百

11、分位數(shù)的位置指標。因此,百分位數(shù)的位置指標。因此,85百百分位數(shù)排在第分位數(shù)排在第11位。位。2 .101210085100nPi 2006 by 滄海書局 再看看再看看50-百分位數(shù)的計算過程,由步驟百分位數(shù)的計算過程,由步驟2得得知知因為因為 是整數(shù),步驟是整數(shù),步驟3(b)指出指出50-百分位數(shù)為百分位數(shù)為排序資料的第排序資料的第6個與第個與第7個數(shù)值的平均數(shù);因個數(shù)值的平均數(shù);因此,此,50-百分位數(shù)為百分位數(shù)為(28902920)/22905 。要注意的是此處的要注意的是此處的50-百分位數(shù)也是中位數(shù)百分位數(shù)也是中位數(shù)。61210050100nPi 2006 by 滄海書局 四分位數(shù)

12、四分位數(shù)(quartiles)是百分位數(shù)的特例。是百分位數(shù)的特例。 Q1 第一四分位數(shù)或第一四分位數(shù)或25-百分位數(shù)百分位數(shù) Q2 第二四分位數(shù)或第二四分位數(shù)或50-百分位數(shù)百分位數(shù)(即中位數(shù)即中位數(shù)) Q3 第三四分位數(shù)或第三四分位數(shù)或75-百分位數(shù)百分位數(shù) 2006 by 滄海書局 2006 by 滄海書局 將表將表3.1起薪資料再次重新由小到大排序後,第起薪資料再次重新由小到大排序後,第二四分位數(shù)二四分位數(shù)(即中位數(shù)即中位數(shù))為為2,905。2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 我們需利用找出我們需利用找出

13、25與與75-百分位數(shù)的規(guī)則來得到百分位數(shù)的規(guī)則來得到第一四分位數(shù)第一四分位數(shù)Q1與第三四分位數(shù)與第三四分位數(shù)Q3,計算如下,計算如下。 2006 by 滄海書局 對對Q1而言:而言:因為因為 i 是整數(shù),步驟是整數(shù),步驟3(b)指出第一四分位數(shù),指出第一四分位數(shù),或或25-百分位數(shù),為第百分位數(shù),為第3個與第個與第4個資料之平均數(shù)個資料之平均數(shù);因此,;因此,Q1 (28502880)/22865。31210025100nPi 2006 by 滄海書局 對對Q3而言:而言:因為因為 i 為整數(shù),步驟為整數(shù),步驟3(b)指出第三四分位數(shù),指出第三四分位數(shù),或或75-百分位數(shù),為第百分位數(shù),為第

14、9個與第個與第10個資料之平均個資料之平均數(shù),因此,數(shù),因此, Q3 (29503050)/23000。91210075100nPi 2006 by 滄海書局 四分位數(shù)將四分位數(shù)將12個資料分成四部分,而每一部分個資料分成四部分,而每一部分均包含均包含25%的觀察值。的觀察值。 我們定義了我們定義了25, 50, 75-百分位數(shù)等三個四分位數(shù)百分位數(shù)等三個四分位數(shù)後,便可利用計算百分位數(shù)的規(guī)則求出四分位後,便可利用計算百分位數(shù)的規(guī)則求出四分位數(shù)。數(shù)。 2006 by 滄海書局 當資料集出現(xiàn)極端值時,中位數(shù)會比平均值更當資料集出現(xiàn)極端值時,中位數(shù)會比平均值更合適作為中央位置量數(shù)。極端值存在時,有

15、時合適作為中央位置量數(shù)。極端值存在時,有時會用到另一種量數(shù),稱作修正平均數(shù)會用到另一種量數(shù),稱作修正平均數(shù)(trimmed mean),作法是刪除資料集的極小值與極大值,作法是刪除資料集的極小值與極大值後,剩下資料值的平均數(shù)即為修正平均數(shù)。例後,剩下資料值的平均數(shù)即為修正平均數(shù)。例如,如,5% 的修正平均數(shù)即是刪除最小的的修正平均數(shù)即是刪除最小的5%以以及最大的及最大的5%觀察值後得到的平均數(shù)。以表觀察值後得到的平均數(shù)。以表3.1的的12筆起薪為例,筆起薪為例,12筆資料的筆資料的5% 是是12 0.050.6,將,將0.6進位為進位為1,表示,表示5% 的修正平均數(shù)是的修正平均數(shù)是將最高的一

16、筆起薪與最低的一筆起薪刪除後,將最高的一筆起薪與最低的一筆起薪刪除後,再求平均值,因此,以再求平均值,因此,以10筆資料求得的筆資料求得的5% 的的修正平均數(shù)是修正平均數(shù)是2,924.5。 2006 by 滄海書局 除了位置量數(shù)外,我們還常希望能知道離散量數(shù)除了位置量數(shù)外,我們還常希望能知道離散量數(shù)或變異量數(shù)?;蜃儺惲繑?shù)。 例如,選擇兩家不同的供應商訂貨,不僅要考慮例如,選擇兩家不同的供應商訂貨,不僅要考慮其平均運送時間,還要考慮其運送時間的變異性。其平均運送時間,還要考慮其運送時間的變異性。 2006 by 滄海書局 全距全距 四分位數(shù)距四分位數(shù)距 變異數(shù)變異數(shù) 標準差標準差 變異係數(shù)變異係

17、數(shù) 2006 by 滄海書局 最簡單的離散量數(shù)就是最簡單的離散量數(shù)就是全距全距(range)。 全距全距 最大值最大值 最小值最小值 全距僅用到資料中的兩個值,因此深受極端值全距僅用到資料中的兩個值,因此深受極端值的影響。的影響。 2006 by 滄海書局 參考表參考表3.1商學院畢業(yè)生的起薪資料,最大值是商學院畢業(yè)生的起薪資料,最大值是3,325,最小值是,最小值是2,710,全距就是,全距就是33252710615。 假設有一位畢業(yè)生的起薪是假設有一位畢業(yè)生的起薪是$10,000,此例中的,此例中的全距變?yōu)槿嘧優(yōu)?000027107290而不是而不是615,這個,這個值並不是非常適合描述

18、資料集的變動性,因為值並不是非常適合描述資料集的變動性,因為12個資料中的個資料中的11個資料均是在個資料均是在2,710與與3,130之之間。間。 2006 by 滄海書局 四分位數(shù)距四分位數(shù)距(interquartile range, IQR)這個離散這個離散量數(shù)是第三四分位數(shù)與第一四分位數(shù)的差。量數(shù)是第三四分位數(shù)與第一四分位數(shù)的差。 IQR Q3 Q1 IQR為中間為中間50% 資料的全距。資料的全距。 能克服極端資料值的離散量數(shù)。能克服極端資料值的離散量數(shù)。 2006 by 滄海書局 參考表參考表3.1商學院畢業(yè)生的起薪資料,對每月起商學院畢業(yè)生的起薪資料,對每月起薪資料而言,第三與第

19、一四分位數(shù)分別為薪資料而言,第三與第一四分位數(shù)分別為 Q33,000與與 Q1 2,865,因此,因此,IQR為為30002865135。 2006 by 滄海書局 變異數(shù)變異數(shù)(variance)是利用到全部資料的離散量數(shù)。是利用到全部資料的離散量數(shù)。變異數(shù)是根據(jù)每一個觀察值與平均數(shù)之差而求變異數(shù)是根據(jù)每一個觀察值與平均數(shù)之差而求得。每一個觀察值與平均數(shù)得。每一個觀察值與平均數(shù)(為樣本平均數(shù)為樣本平均數(shù), 為母體平均數(shù)為母體平均數(shù))之差稱為之差稱為離差離差(deviation about the mean)。 2006 by 滄海書局 變異數(shù)之定義如下:變異數(shù)之定義如下:當樣本平均數(shù)的差距平

20、方和除以當樣本平均數(shù)的差距平方和除以n1,而非,而非n時,此樣本變異數(shù)為母體變異數(shù)的不偏估計量時,此樣本變異數(shù)為母體變異數(shù)的不偏估計量樣本變異數(shù)樣本變異數(shù)母體變異數(shù)母體變異數(shù) 2006 by 滄海書局 利用利用3.1節(jié)中節(jié)中5個大學班級人數(shù)的樣本為例。個大學班級人數(shù)的樣本為例。 資料的彙總在表資料的彙總在表3.3,包括離差及離差的平方。,包括離差及離差的平方。離差平方的總和為離差平方的總和為256。因此,。因此,在在n14時,樣本變異數(shù)為時,樣本變異數(shù)為 2006 by 滄海書局 2006 by 滄海書局 表表3.1的起薪資料為例說明樣本變異數(shù)的計算,的起薪資料為例說明樣本變異數(shù)的計算,在在3.1節(jié)中,我們算出樣本平均起薪值為節(jié)中,我們算出樣本平均起薪值為2,940。樣本變異數(shù)。樣本變異數(shù)(s227,440.91)的結果列於表的結果列於表3.4。 表表3.3與與3.4中值得注意的是我們算出離差與離中值得注意的是我們算出離差與離差平方的總和。對於任何資料集,離差的總和差平方的總和。對於任何資料集,離差的總和必為必為0。因此,如同表。因此,如同表3.3與表與表3.4顯示顯示 0,這是恆成立的,因為正的離差與負的離,這是恆成立的,因為正的離差與負的離差會相互抵消,而使得離差的總和為差會相互抵消,而使得離差的總和為0。 2006 by 滄海書

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論