六西格瑪系列之統(tǒng)計(jì)學(xué)-第2章描述性統(tǒng)計(jì)_第1頁(yè)
六西格瑪系列之統(tǒng)計(jì)學(xué)-第2章描述性統(tǒng)計(jì)_第2頁(yè)
六西格瑪系列之統(tǒng)計(jì)學(xué)-第2章描述性統(tǒng)計(jì)_第3頁(yè)
六西格瑪系列之統(tǒng)計(jì)學(xué)-第2章描述性統(tǒng)計(jì)_第4頁(yè)
六西格瑪系列之統(tǒng)計(jì)學(xué)-第2章描述性統(tǒng)計(jì)_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第二章 描述性統(tǒng)計(jì)描述定性數(shù)據(jù)的圖形法和數(shù)值法每個(gè)觀測(cè)值能落入一類(組)并且只能落入一類(組)對(duì)給定的類,類頻數(shù)是指落入這個(gè)類中的觀測(cè)值的個(gè)數(shù)對(duì)給定的類,類相對(duì)頻率是指落入這個(gè)類中的觀測(cè)值個(gè)數(shù)相對(duì)于觀測(cè)值總數(shù)的比例條形圖Minitabà圖形à條形圖用長(zhǎng)方形表示定性變量的類(組),其中每一個(gè)長(zhǎng)方形的高是類頻數(shù)/類相對(duì)頻率帕雷拖圖Minitabà統(tǒng)計(jì)à質(zhì)量工具à Pareto圖意大利經(jīng)濟(jì)學(xué)家Vilfredo Pareto,將定性變量的類(即長(zhǎng)方形)按照高度從左向右降序排列的條形圖餅圖Minitabà圖形à餅圖用一個(gè)餅(圓)的一份

2、表示定性變量的類,每份大小與類頻數(shù)或類相對(duì)頻率成比例描述定量數(shù)據(jù)的圖形法點(diǎn)圖Minitabà圖形à點(diǎn)圖數(shù)據(jù)集中每一個(gè)定量變量的數(shù)值表示為水平刻度尺上的一個(gè)點(diǎn),當(dāng)數(shù)值重復(fù)時(shí),點(diǎn)垂直畫在另一點(diǎn)之上莖葉圖Minitabà圖形à莖葉圖定量變量的數(shù)值分為莖和葉兩部分,可能的莖按順序排在一列中,數(shù)據(jù)集中每一個(gè)定量變量的數(shù)值的葉放在相應(yīng)莖的行上,有相同莖的數(shù)值的葉在水平方向按升序排列莖葉圖 MPG N=100葉單位= 0.10 1 (莖)30 (葉)0 2 (莖)31 (葉)8 6 (莖)32 (葉)5799 12 (莖)33 (葉)126899 表示大于等于33且小

3、于34的測(cè)量值有6個(gè) 18 (莖)34 (葉)024588 29 (莖)35 (葉)01235667899 49 (莖)36 (葉)01233445566777888999(21) (莖)37 (葉)000011122334456677899 最大組區(qū)間 30 (莖)38 (葉)0122345678 20 (莖)39 (葉)00345789 12 (莖)40 (葉)0123557 5 (莖)41 (葉)002 2 (莖)42 (葉)1 1 (莖)43 (葉) 1 (莖)44 (葉)9直方圖Minitabà圖形à直方圖定量變量的測(cè)量值分成若干組區(qū)間,每一個(gè)組區(qū)間有相同的寬度,

4、這些組區(qū)間構(gòu)成了水平軸刻度。確定落在每個(gè)組區(qū)間中的觀測(cè)值的頻數(shù)或相對(duì)頻率(3637,3738,測(cè)量值37放在3738組區(qū)間)。每個(gè)組區(qū)間上放一個(gè)垂直的長(zhǎng)方形,它的高度等于組區(qū)間頻數(shù)或相對(duì)頻率構(gòu)造直方圖的步驟1.計(jì)算定量變量數(shù)據(jù)集的極差2.根據(jù)數(shù)據(jù)集中測(cè)量值的個(gè)數(shù)確定組區(qū)間的個(gè)數(shù),根據(jù)極差和組區(qū)間個(gè)數(shù)確定組區(qū)間寬度。最小(即第一個(gè)組區(qū)間)組界應(yīng)當(dāng)比最小值小,選擇適當(dāng)?shù)慕M區(qū)間寬度,使得沒(méi)有測(cè)量值落在組界上數(shù)據(jù)集中測(cè)量值的個(gè)數(shù)組區(qū)間個(gè)數(shù)小于25562550714大于5015203.數(shù)出落入每個(gè)組區(qū)間的測(cè)量值個(gè)數(shù),這個(gè)數(shù)稱為組頻數(shù)4.計(jì)算每一組區(qū)間組相對(duì)頻率(組頻數(shù)/測(cè)量值的總個(gè)數(shù)) 5.直方圖本質(zhì)上

5、是條形圖,組區(qū)間就是類型,長(zhǎng)方形的高度由組頻數(shù)或組相對(duì)頻率確定直方圖適用于非常大的數(shù)據(jù)集,但是不能為我們指出單個(gè)測(cè)量值點(diǎn)圖和莖葉圖適用于較小的數(shù)據(jù)集,能提供數(shù)據(jù)集有用的細(xì)節(jié)(每一個(gè)測(cè)量值)描述定量數(shù)據(jù)的數(shù)值法統(tǒng)計(jì)量是由樣本數(shù)據(jù)計(jì)算得到的數(shù)值描述性度量參數(shù)是總體的數(shù)值描述性度量中心趨勢(shì)的度量1.算術(shù)平均(均值)/平衡點(diǎn)1.1實(shí)際問(wèn)題中使用最頻繁1.2體現(xiàn)了所有數(shù)值的影響1.3受極端值影響很大1.4樣本均值用表示,總體均值用表示2.中位數(shù)測(cè)量值按升序(或降序)排列后位于中間的測(cè)量值2.1不包括所有測(cè)量值2.2受極端值影響很小2.3樣本中位數(shù)用m表示,總體中位數(shù)用(Tau)表示2.4當(dāng)測(cè)量值個(gè)數(shù)n為

6、奇數(shù)時(shí)中位數(shù)=X(n+1)/2,為偶數(shù)時(shí)中位數(shù)=X(n/2)+X(n/2+1)/22.5有時(shí)稱中位數(shù)為中心趨勢(shì)的耐抵性度量2.6對(duì)于偏度較大的數(shù)據(jù)集,中位數(shù)能較好的地描述數(shù)據(jù)分布的中心3.眾數(shù)/峰點(diǎn)最大頻數(shù)對(duì)應(yīng)的測(cè)量值,很少作為中心趨勢(shì)的度量如果從一塊板上截下數(shù)據(jù)集直方圖的輪廓,它將在算術(shù)平均(均值)的那一點(diǎn)保持平衡;中位數(shù)左右兩邊的面積均為50%;眾數(shù)位于以最大頻數(shù)/相對(duì)頻率出現(xiàn)的點(diǎn),即分布的峰點(diǎn)數(shù)據(jù)集有一點(diǎn)偏度或沒(méi)有偏度的丘形分布,中位數(shù)和算術(shù)平均(均值)是基本相等的,而均值比中位數(shù)具有更好的數(shù)學(xué)性質(zhì),因此常用均值作為中心趨勢(shì)的度量變異性的度量1.極差1.1極差R=最大測(cè)量值-最小測(cè)量值=

7、Xmax-Xmin1.2極差是數(shù)據(jù)變異性相對(duì)不靈敏的度量,適用于小樣本2.方差2.1樣本方差S2,總體方差22.2有理論上的意義,因?yàn)樗膯挝皇亲兞康钠椒?,難于解釋2.3樣本方差計(jì)算公式2.4總體方差計(jì)算公式2.5為什么樣本方差除(n-1)而不是n在容量為N的總體中,假設(shè)我們已經(jīng)通過(guò)隨機(jī)抽樣的方式獲得了一份容量為n的樣本。有兩個(gè)任務(wù)需要完成,一是歸納樣本n個(gè)數(shù)據(jù)之間的分布狀況;二是借助樣本來(lái)推測(cè)總體的分布狀況,即嘗試以局部推測(cè)總體出于簡(jiǎn)便的考慮,我們經(jīng)常借助均值和方差這兩個(gè)指標(biāo)來(lái)簡(jiǎn)略地描述樣本或總體的分布狀況。對(duì)于第一項(xiàng)任務(wù)而言,為準(zhǔn)確描述樣本數(shù)據(jù)間的離散程度,樣本方差計(jì)算公式中的除數(shù)應(yīng)為n。

8、類似地,為準(zhǔn)確描述總體數(shù)據(jù)間的離散程度,總體方差計(jì)算公式中的除數(shù)應(yīng)為N然而,如果我們準(zhǔn)備借助樣本方差來(lái)推測(cè)總體的方差,以n為除數(shù)的樣本方差計(jì)算公式不是總體方差的無(wú)偏估計(jì)值計(jì)算式,以n-1為除數(shù)的樣本方差計(jì)算公式才是總體方差的無(wú)偏估計(jì)值計(jì)算式(即樣本方差的期望等于總體方差)。因此在推斷統(tǒng)計(jì)領(lǐng)域,樣本方差計(jì)算式的除數(shù)應(yīng)為n-1,而不應(yīng)為n當(dāng)然,在n足夠大的時(shí)候,樣本方差這兩種計(jì)算方法之間的差異可以忽略不計(jì)上述闡述歸納如下a若總體數(shù)據(jù)N已知,則該總體的數(shù)字特征不存在推測(cè)的問(wèn)題,只存在描述的問(wèn)題,總體方差計(jì)算公式中的除數(shù)應(yīng)為Nb以n-1為除數(shù)的樣本方差計(jì)算公式是總體方差的無(wú)偏估計(jì)值計(jì)算式c以n為除數(shù)的

9、樣本方差計(jì)算公式是總體方差的漸近無(wú)偏估計(jì)值計(jì)算式d如果只是要描述樣本數(shù)據(jù)間的離散程度,則樣本方差計(jì)算公式中的除數(shù)應(yīng)為ne當(dāng)n足夠大的時(shí)候,不必太在意樣本方差計(jì)算公式中除數(shù)的這兩種不同的選擇f在多數(shù)場(chǎng)合,習(xí)慣上總是以n-1為除數(shù)的樣本方差計(jì)算方式3.標(biāo)準(zhǔn)差3.1標(biāo)準(zhǔn)差的度量單位與變量的單位一致,結(jié)合數(shù)據(jù)集的均值,標(biāo)準(zhǔn)差容易解釋3.2樣本標(biāo)準(zhǔn)差3.3總體標(biāo)準(zhǔn)差4經(jīng)驗(yàn)法則(研究者通過(guò)觀察許多不同類型的真實(shí)數(shù)據(jù)集而得到的經(jīng)驗(yàn))若一個(gè)數(shù)據(jù)集有近似丘形的對(duì)稱分布(丘形分布),可用以下經(jīng)驗(yàn)法則描述數(shù)據(jù)集4.1大約68%的測(cè)量值位于均值的1個(gè)標(biāo)準(zhǔn)差范圍內(nèi)(樣本區(qū)間,總體區(qū)間)4.2大約95%的測(cè)量值位于均值的

10、2個(gè)標(biāo)準(zhǔn)差范圍內(nèi)(樣本區(qū)間,總體區(qū)間)4.3幾乎所有測(cè)量值位于均值的3個(gè)標(biāo)準(zhǔn)差范圍內(nèi)(樣本區(qū)間,總體區(qū)間)5切比雪夫法則(俄國(guó)數(shù)學(xué)家Chebyshev證明的)切比雪夫法則可用于任一數(shù)據(jù)集,無(wú)論數(shù)據(jù)的分布是什么形狀5.1很少的測(cè)量值落在均值的1個(gè)標(biāo)準(zhǔn)差范圍內(nèi)5.2至少有3/4的測(cè)量值落在均值的2個(gè)標(biāo)準(zhǔn)差范圍內(nèi)5.3至少有8/9的測(cè)量值落在均值的3個(gè)標(biāo)準(zhǔn)差范圍內(nèi)5.4通常對(duì)于任意大于1的數(shù)k,至少有()的測(cè)量值落在均值的k個(gè)標(biāo)準(zhǔn)差范圍內(nèi)相對(duì)位置的度量測(cè)驗(yàn)分?jǐn)?shù)與一些社會(huì)學(xué)和健康狀況數(shù)據(jù)通常是以一個(gè)測(cè)量值在分布中相對(duì)于其他測(cè)量值的位置的方式來(lái)描述的,測(cè)量值相對(duì)位置的兩個(gè)度量是百分位數(shù)和z得分1.百分位

11、數(shù)數(shù)據(jù)集的第100P百分位數(shù)是這樣一個(gè)測(cè)量值,在數(shù)據(jù)集的分布中100P%的面積位于它左邊,100(1-P)%的面積位于它右邊(0£P£1)1.1當(dāng)P=0.25,下四分位數(shù)QL(第25百分位數(shù))1.2當(dāng)P=0.50,中四分位數(shù)(第50百分位數(shù)),即中位數(shù)m(樣本)/ (總體)1.3當(dāng)P=0.75,上四分位數(shù)QU(第75百分位數(shù))對(duì)于一個(gè)大的數(shù)據(jù)集(如人口),通過(guò)確定數(shù)據(jù)集分布相應(yīng)的面積來(lái)尋找四分位數(shù)對(duì)于小的數(shù)據(jù)集,精確地找四分位數(shù)是不可能的,通常按照如下步驟確定四分位數(shù)A把數(shù)據(jù)集中的測(cè)量值按大小升序排列(X1,X2,X3Xn)B計(jì)算并舍入為最近的整數(shù),如n=18時(shí),計(jì)算值為4

12、.75,取整后L=5(若n=21,計(jì)算值為5.5,向上取整為5),順序L對(duì)應(yīng)的測(cè)量值XL為QLC計(jì)算并舍入為最近的整數(shù),如n=18時(shí),計(jì)算值為14.25,取整后U=14(若n=21,計(jì)算值為16.5,向下取整為17),順序U對(duì)應(yīng)的測(cè)量值XU為QUD為了求第100P百分位數(shù),計(jì)算i=P(n+1)并舍入最近的整數(shù),順序i對(duì)應(yīng)的測(cè)量值Xi為第100P百分位數(shù)2.z得分z得分描述了以標(biāo)準(zhǔn)差為單位,測(cè)量值X相對(duì)于均值的位置,負(fù)的z得分表明測(cè)量值在均值的左邊,正的z得分表明測(cè)量值在均值的右邊,由經(jīng)驗(yàn)法則可知,一個(gè)數(shù)據(jù)集95%的測(cè)量值在距離均值2個(gè)標(biāo)準(zhǔn)差內(nèi)(即z得分絕對(duì)值小于2),幾乎所有的測(cè)量值都在距離均

13、值3個(gè)標(biāo)準(zhǔn)差內(nèi)(即z得分絕對(duì)值小于3)樣本z得分,總體z得分3.檢測(cè)異常值的方法異常值是相對(duì)于數(shù)據(jù)集中其他測(cè)量值不尋常地大或小的測(cè)量值,一般將異常值歸咎于下列原因A測(cè)量、記錄或輸入計(jì)算機(jī)時(shí)不正確的測(cè)量值B測(cè)量值來(lái)自不同的總體C測(cè)量值是正確的,代表一個(gè)稀有(偶然)事件計(jì)算z得分是確定測(cè)量值是否異常的方法之一檢測(cè)異常值的另一個(gè)方法是構(gòu)造數(shù)據(jù)集的盒子圖(箱線圖) Minitabà圖形à箱線圖,這種方法建立類似于經(jīng)驗(yàn)法則和切比雪夫法則的和區(qū)間,這里的區(qū)間用四分位數(shù)間距代替標(biāo)準(zhǔn)差四分位數(shù)間距IQR=QU-QL,盒子圖檢查異常值的關(guān)鍵區(qū)間QL-1.5(IQR),QU+1.5(IQR)和

14、QL-3(IQR),QU+3(IQR)盒子圖的要素3.1以下四分位數(shù)(QL)和上四分位數(shù)(QU)的直線為邊界(關(guān)鍵點(diǎn))畫一個(gè)長(zhǎng)方形(盒子),在盒子中標(biāo)出數(shù)據(jù)集的中位數(shù)3.2將距每一關(guān)鍵點(diǎn)1.5(IQR)處標(biāo)記為內(nèi)籬笆,將每一關(guān)鍵點(diǎn)到內(nèi)籬笆之內(nèi)的末端測(cè)量值(QL-1.5(IQR),QL 區(qū)間內(nèi)的最小值及QU, QU+1.5(IQR)區(qū)間內(nèi)最大值)用線(須線)連接 下側(cè)內(nèi)籬笆= QL-1.5(IQR) 上側(cè)內(nèi)籬笆= QU+1.5(IQR)3.3將距每一關(guān)鍵點(diǎn)3(IQR)處標(biāo)記為外籬笆,用符號(hào)表示落在內(nèi)籬笆和外籬笆之間的測(cè)量值(疑似異常值),用另一符號(hào)表示超過(guò)外籬笆的測(cè)量值(高度疑似異常值) 下側(cè)內(nèi)

15、籬笆= QL-3(IQR) 上側(cè)內(nèi)籬笆= QU+3(IQR)盒子圖的解釋3.1盒子的長(zhǎng)度IQR是數(shù)據(jù)集變異性的度量,對(duì)于比較多個(gè)數(shù)據(jù)集特別有用3.2直觀的比較須線的長(zhǎng)度,如果一端明顯的較長(zhǎng),則數(shù)據(jù)的分布可能偏向須線長(zhǎng)的方向3.3分析超出籬笆的測(cè)量值,即使對(duì)于很偏的分布,應(yīng)當(dāng)少于5%的測(cè)量值落在內(nèi)籬笆之外。外籬笆之外的測(cè)量值為高度疑似異常值,有以下之一解釋a測(cè)量值是不正確的,可能是不正確的測(cè)量、記錄或輸入計(jì)算機(jī)b測(cè)量值和數(shù)據(jù)集中的其他測(cè)量值屬于不同的總體c測(cè)量值是正確的,并且是和其他測(cè)量值來(lái)自同一個(gè)總體,通常我們都是在仔細(xì)排除其他所有解釋后才接受這個(gè)解釋z得分和盒子圖法都給出了異常值的經(jīng)驗(yàn)法則界限,兩種方法通常能得到類似的結(jié)果。當(dāng)數(shù)據(jù)集中有一個(gè)或多個(gè)異常值存在時(shí)會(huì)使計(jì)算z得分的標(biāo)準(zhǔn)差增大,即一個(gè)異常測(cè)量值z(mì)得分絕對(duì)值大于3的可能性減少,而盒子圖的籬笆受異常值的影響很小檢測(cè)異常值的經(jīng)驗(yàn)法則方法疑似異常值高度疑似異常值盒子圖內(nèi)外籬笆之間的測(cè)量值外籬笆之外的測(cè)量值z(mì)得分2£z得

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論