什么是箱線(xiàn)圖_第1頁(yè)
什么是箱線(xiàn)圖_第2頁(yè)
什么是箱線(xiàn)圖_第3頁(yè)
什么是箱線(xiàn)圖_第4頁(yè)
什么是箱線(xiàn)圖_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

什么是箱線(xiàn)圖什么是箱線(xiàn)圖箱線(xiàn)圖在文獻(xiàn)中經(jīng)常見(jiàn)到,是對(duì)數(shù)據(jù)分布的一種常用表示方法。但是所見(jiàn)資料中往往說(shuō)的不是特別清楚,因此需要了解一下箱線(xiàn)圖的繪制過(guò)程,與部分的意義。計(jì)算過(guò)程:1計(jì)算上四分位數(shù),中位數(shù),下四分位數(shù)2計(jì)算上四分位數(shù)和下四分位數(shù)之間的差值,即四分位數(shù)差(IQR,interquartilerange)3繪制箱線(xiàn)圖的上下范圍,上限為上四分位數(shù),下限為下四分位數(shù)。在箱子內(nèi)部中位數(shù)的位置繪制橫線(xiàn)。4大于上四分位數(shù)1.5倍四分位數(shù)差的值,或者小于下四分位數(shù)1.5倍四分位數(shù)差的值,劃為異常值(outliers)。5異常值之外,最靠近上邊緣和下邊緣的兩個(gè)值處,畫(huà)橫線(xiàn),作為箱線(xiàn)圖的觸須。6極端異常值,即超出四分位數(shù)差3倍距離的異常值,用實(shí)心點(diǎn)表示;較為溫和的異常值,即處于1.5倍-3倍四分位數(shù)差之間的異常值,用空心點(diǎn)表示。7為箱線(xiàn)圖添加名稱(chēng),數(shù)軸等。在SPSS,SigmaPlot,R,SPlus,Origin等軟件中,繪制箱線(xiàn)圖非常方便。下面是R中的一個(gè)箱線(xiàn)圖舉例箱線(xiàn)圖舉例:在R軟件中輸入如下命令:x<-c(25,45,50,54,55,61,64,68,72,75,75,78,79,81,83,84,84,84,85,86,86,86,87,89,89,89,90,91,91,92,100)boxplot(x)對(duì)c向量繪制箱線(xiàn)圖。箱線(xiàn)圖(Boxplot)箱線(xiàn)圖概述箱線(xiàn)圖(Boxplot)也稱(chēng)箱須圖(Box-whiskerPlot),是利用數(shù)據(jù)中的五個(gè)\o"統(tǒng)計(jì)量"統(tǒng)計(jì)量:最小值、第一四分位數(shù)、\o"中位數(shù)"中位數(shù)、第三四分位數(shù)與最大值來(lái)描述數(shù)據(jù)的一種方法,它也可以粗略地看出數(shù)據(jù)是否具有有對(duì)稱(chēng)性,分布的分散程度等信息,特別可以用于對(duì)幾個(gè)樣本的比較。[\o"編輯段落:箱線(xiàn)圖的繪制步驟[1]"編輯]箱線(xiàn)圖的繪制步驟\o""[1](1)畫(huà)數(shù)軸(2)畫(huà)矩形盒兩端邊的位置分別對(duì)應(yīng)數(shù)據(jù)的上下四分位數(shù)矩形盒:端邊的位置分別對(duì)應(yīng)數(shù)據(jù)的上下四分位數(shù)(Q1和Q3)。在矩形盒內(nèi)部中位數(shù)位置畫(huà)一條線(xiàn)段為中位線(xiàn)。(3)在Q3+15IQR和Q1-15IQR處畫(huà)兩條與中位線(xiàn)一樣的(3)在Q3+1.5IQR和Q11.5IQR處畫(huà)兩條與中位線(xiàn)樣的線(xiàn)段,這兩條線(xiàn)段為異常值截?cái)帱c(diǎn),稱(chēng)其為內(nèi)限;在Q3+3IQR和Q1-3IQR處畫(huà)兩條線(xiàn)段,稱(chēng)其為外限。處于內(nèi)限以外位置的點(diǎn)表示的數(shù)據(jù)都是異常值,其中在內(nèi)限與外限之間的異常值為溫和的異常值(mildoutliers),在外限以外的為極端的異常值(li)的異常值extremeoutliers。(4)從矩形盒兩端邊向外各畫(huà)一條線(xiàn)段直到不是異常值的最遠(yuǎn)點(diǎn)表示該批數(shù)據(jù)正常值的分布區(qū)間點(diǎn),示該批數(shù)據(jù)正常值的分布區(qū)間。(5)用“〇”標(biāo)出溫和的異常值,用“*”標(biāo)出極端的異常值。(統(tǒng)計(jì)軟件繪制的箱線(xiàn)圖一般沒(méi)有標(biāo)出內(nèi)限和外限。)[\o"編輯段落:箱線(xiàn)圖的功能"編輯]箱線(xiàn)圖的功能箱線(xiàn)圖作為描述統(tǒng)計(jì)的工具之一,其功能有獨(dú)特之處,主要有以下幾點(diǎn):1.直觀明了地識(shí)別數(shù)據(jù)批中的異常值一批數(shù)據(jù)中的異常值值得關(guān)注,忽視異常值的存在是十分危險(xiǎn)的,不加剔除地把異常值包括進(jìn)數(shù)據(jù)的計(jì)算分析過(guò)程中,對(duì)結(jié)果會(huì)帶來(lái)不良影響;重視異常值的出現(xiàn),分析其產(chǎn)生的原因,常常成為發(fā)現(xiàn)問(wèn)題進(jìn)而改進(jìn)決策的契機(jī)。箱線(xiàn)圖為我們提供了識(shí)別異常值的一個(gè)標(biāo)準(zhǔn):異常值被定義為小于Q1-1.5IQR或大于Q3+1.5IQR的值。雖然這種標(biāo)準(zhǔn)有點(diǎn)任意性,但它來(lái)源于經(jīng)驗(yàn)判斷,經(jīng)驗(yàn)表明它在處理需要特別注意的數(shù)據(jù)方面表現(xiàn)不錯(cuò)。這與識(shí)別異常值的經(jīng)典方法有些不同。眾所周知,基于正態(tài)分布的3σ法則或z分?jǐn)?shù)方法是以假定數(shù)據(jù)服從正態(tài)分布為前提的,但實(shí)際數(shù)據(jù)往往并不嚴(yán)格服從正態(tài)分布。它們判斷異常值的標(biāo)準(zhǔn)是以計(jì)算數(shù)據(jù)批的均值和\o"標(biāo)準(zhǔn)差"標(biāo)準(zhǔn)差為基礎(chǔ)的,而均值和標(biāo)準(zhǔn)差的耐抗性極小,異常值本身會(huì)對(duì)它們產(chǎn)生較大影響,這樣產(chǎn)生的異常值個(gè)數(shù)不會(huì)多于總數(shù)0.7%。顯然,應(yīng)用這種方法于非正態(tài)分布數(shù)據(jù)中判斷異常值,其有效性是有限的。箱線(xiàn)圖的繪制依靠實(shí)際數(shù)據(jù),不需要事先假定數(shù)據(jù)服從特定的分布形式,沒(méi)有對(duì)數(shù)據(jù)作任何限制性要求,它只是真實(shí)直觀地表現(xiàn)數(shù)據(jù)形狀的本來(lái)面貌;另一方面,箱線(xiàn)圖判斷異常值的標(biāo)準(zhǔn)以\o"四分位數(shù)"四分位數(shù)和四分位距為基礎(chǔ),四分位數(shù)具有一定的耐抗性,多達(dá)25%的數(shù)據(jù)可以變得任意遠(yuǎn)而不會(huì)很大地?cái)_動(dòng)四分位數(shù),所以異常值不能對(duì)這個(gè)標(biāo)準(zhǔn)施加影響,箱線(xiàn)圖識(shí)別異常值的結(jié)果比較客觀。由此可見(jiàn),箱線(xiàn)圖在識(shí)別異常值方面有一定的優(yōu)越性。2.利用箱線(xiàn)圖判斷數(shù)據(jù)批的\o"偏態(tài)"偏態(tài)和尾重比較標(biāo)準(zhǔn)正態(tài)分布、不同自由度的t分布和非對(duì)稱(chēng)分布數(shù)據(jù)的箱線(xiàn)圖的特征,可以發(fā)現(xiàn):對(duì)于標(biāo)準(zhǔn)\o"正態(tài)分布"正態(tài)分布的大樣本,只有0.7%的值是異常值,中位數(shù)位于上下四分位數(shù)的中央,箱線(xiàn)圖的方盒關(guān)于中位線(xiàn)對(duì)稱(chēng)。選取不同自由度的t分布的大樣本,代表對(duì)稱(chēng)重尾分布,當(dāng)t分布的自由度越小,尾部越重,就有越大的概率觀察到異常值。以\o"卡方分布"卡方分布作為非對(duì)稱(chēng)分布的例子進(jìn)行分析,發(fā)現(xiàn)當(dāng)卡方分布的自由度越小,異常值出現(xiàn)于一側(cè)的概率越大,中位數(shù)也越偏離上下四分位數(shù)的中心位置,分布偏態(tài)性越強(qiáng)。異常值集中在較小值一側(cè),則分布呈現(xiàn)左偏態(tài);;異常值集中在較大值一側(cè),則分布呈現(xiàn)右偏態(tài)。下表列出了幾種分布的樣本數(shù)據(jù)箱線(xiàn)圖的特征(樣本數(shù)據(jù)由SAS的隨機(jī)數(shù)生成函數(shù)自動(dòng)生成),驗(yàn)證了上述規(guī)律。這個(gè)規(guī)律揭示了數(shù)據(jù)批分布\o"偏態(tài)"偏態(tài)和尾重的部分信息,盡管它們不能給出偏態(tài)和尾重程度的精確度量,但可作為我們粗略估計(jì)的依據(jù)。3.利用箱線(xiàn)圖比較幾批數(shù)據(jù)的形狀同一數(shù)軸上,幾批數(shù)據(jù)的箱線(xiàn)圖并行排列,幾批數(shù)據(jù)的中位數(shù)、尾長(zhǎng)、異常值、分布區(qū)間等形狀信息便昭然若揭。在一批數(shù)據(jù)中,哪幾個(gè)數(shù)據(jù)點(diǎn)出類(lèi)拔萃,哪些數(shù)據(jù)點(diǎn)表現(xiàn)不及一般,這些數(shù)據(jù)點(diǎn)放在同類(lèi)其它群體中處于什么位置,可以通過(guò)比較各箱線(xiàn)圖的異常值看出。各批數(shù)據(jù)的四分位距大小,正常值的分布是集中還是分散,觀察各方盒和線(xiàn)段的長(zhǎng)短便可明了。每批數(shù)據(jù)分布的偏態(tài)如何,分析中位線(xiàn)和異常值的位置也可估計(jì)出來(lái)。還有一些箱線(xiàn)圖的變種,使數(shù)據(jù)批間的比較更加直觀明白。例如有一種可變寬度的箱線(xiàn)圖,使箱的寬度正比于批量的平方根,從而使批量大的數(shù)據(jù)批有面積大的箱,面積大的箱有適當(dāng)?shù)囊曈X(jué)效果。如果對(duì)同類(lèi)群體的幾批數(shù)據(jù)的箱線(xiàn)圖進(jìn)行比較,分析評(píng)價(jià),便是常模參照解釋方法的可視圖示;如果把受測(cè)者數(shù)據(jù)批的箱線(xiàn)圖與外在效標(biāo)數(shù)據(jù)批的箱線(xiàn)圖\o"比較分析"比較分析,便是效標(biāo)參照解釋的可視圖示。箱線(xiàn)圖結(jié)合這些分析方法用于\o"質(zhì)量管理"質(zhì)量管理、\o"人事測(cè)評(píng)"人事測(cè)評(píng)、探索性\o"數(shù)據(jù)分析"數(shù)據(jù)分析等統(tǒng)計(jì)分析活動(dòng)中去,有助于分析過(guò)程的簡(jiǎn)便快捷,其作用顯而易見(jiàn)。[\o"編輯段落:箱線(xiàn)圖應(yīng)用舉例"編輯]箱線(xiàn)圖應(yīng)用舉例現(xiàn)有某直銷(xiāo)中心30名員工的\o"工資"工資測(cè)算數(shù)據(jù)兩批,第一批為工資調(diào)整前的數(shù)據(jù),第二批為工資調(diào)整后的數(shù)據(jù),繪出它們的箱線(xiàn)圖(如下圖),進(jìn)行比較,可以很容易地得出:工資調(diào)整前,總體水平在752元左右,四分位距為307.5,沒(méi)有異常值。經(jīng)過(guò)調(diào)整后,箱線(xiàn)圖顯示,第2、29、10、24、27號(hào)為溫和的異常值,第26、30、28號(hào)為極端的異常值。為什么會(huì)出現(xiàn)異常值呢?經(jīng)過(guò)進(jìn)一步分析知道,第2、29、10、24號(hào)員工由于技能強(qiáng)、工齡長(zhǎng)、積累貢獻(xiàn)大、表現(xiàn)較好,勞苦功高,理應(yīng)得到較高的報(bào)酬;第27、26、30、28號(hào)職工則因?yàn)榧寄芷?、工齡短、積累貢獻(xiàn)小且表現(xiàn)較差,得到的工資較低,甚至連一般水平也難以達(dá)到。這體現(xiàn)了工資調(diào)整的獎(jiǎng)優(yōu)罰劣原則。另外,調(diào)整后工資總體水平比調(diào)整前高出270元,四分位距為106,工資分布比調(diào)整前更加集中,在合適的范圍內(nèi)既拉開(kāi)了差距,又不至于差距太懸殊,還針對(duì)特殊情況進(jìn)行了特殊處理。這種工資分布具有\(zhòng)o"激勵(lì)"激勵(lì)作用,可以說(shuō)工資調(diào)整達(dá)到預(yù)期目的。箱線(xiàn)圖美中不足之處在于它不能提供關(guān)于數(shù)據(jù)分布偏態(tài)和尾重程度的精確度量;對(duì)于批量較大的數(shù)據(jù)批,箱線(xiàn)圖反映的形狀信息更加模糊;用中位數(shù)代表總體平均水平有一定的局限性等等。所以,應(yīng)用箱線(xiàn)圖最好結(jié)合其它描述統(tǒng)計(jì)工具如均值、\o"標(biāo)準(zhǔn)差"標(biāo)準(zhǔn)差、偏度、分布函數(shù)等來(lái)描述數(shù)據(jù)批的分布形狀。[\o"編輯段落:用Excel繪制箱線(xiàn)圖的方法"編輯]用Excel繪制箱線(xiàn)圖的方法例:某研究者分別采用安慰劑、新藥10mg、新藥20mg治療三個(gè)隨機(jī)分組的阻塞性肺病病人,每組100例,治療兩周后測(cè)量最大呼氣量(forcedexpiratoryvolume,FEV)。每組測(cè)量后計(jì)算獲得的P100、P75、P50、P25、P0(即最大值、75%百分位數(shù)、中位數(shù)、25%百分位數(shù)、最小值**)(見(jiàn)下圖),試?yán)L制箱線(xiàn)圖。三種方案治療阻塞性肺病后的最大呼氣量箱線(xiàn)圖繪制箱線(xiàn)圖需要借助于股價(jià)圖中的“開(kāi)盤(pán)-盤(pán)高-盤(pán)低-收盤(pán)圖”,該圖形需要將數(shù)據(jù)按一定的順序排列。因此繪制箱線(xiàn)圖時(shí)也需要將數(shù)據(jù)按P25、P100、P0、P50、P75的順序排列(P25與P75的順序可對(duì)調(diào))。具體繪制步驟如下:①選取單元格區(qū)域A1:D5,單擊“圖表向?qū)А眻D標(biāo)如果圖片縮小請(qǐng)點(diǎn)擊放大,在彈出的“圖表類(lèi)型”對(duì)話(huà)框中選中股價(jià)圖的“開(kāi)盤(pán)-盤(pán)高-盤(pán)低-收盤(pán)圖”(第2個(gè)子圖表類(lèi)型),按下一步鍵。②在圖表數(shù)據(jù)源對(duì)話(huà)框的數(shù)據(jù)區(qū)域中將“系列產(chǎn)生在”修改為“行”,按下一步鍵。③在“圖表選項(xiàng)”對(duì)話(huà)框的分類(lèi)(X)軸下方填入“治療組”,在數(shù)值(Y)軸下方填入“最大呼氣量(FEV)”,按完成鍵。④在繪圖區(qū)點(diǎn)擊右鍵,選取“數(shù)據(jù)源→系列→添加”,在“名稱(chēng)”右側(cè)用鼠標(biāo)選取單元格A6,在“值”右側(cè)用鼠標(biāo)選取單元格區(qū)域B6:D6按確定鍵。⑤在網(wǎng)格線(xiàn)上點(diǎn)擊右鍵,“清除”網(wǎng)格線(xiàn);在繪圖區(qū)單擊右鍵“清除”背景色。⑥在橫坐標(biāo)上單擊右鍵,選取“坐標(biāo)軸格式→圖案”,右上部主要刻度線(xiàn)類(lèi)型復(fù)選“無(wú)”,按確定鍵。⑦在縱坐標(biāo)上單擊右鍵,選取“坐標(biāo)軸格式→數(shù)字→數(shù)值”,小數(shù)位數(shù)改為“0”,按確定鍵。⑧在箱的中心位置P50系列標(biāo)志上單擊右鍵,選取“數(shù)據(jù)系列格式→圖案”,在界面右側(cè)數(shù)據(jù)標(biāo)記的樣式處選取“+”,前景顏色處選黑色,“大小”改為6磅,按確定鍵;在箱線(xiàn)圖的頂部P100系列標(biāo)志上單擊右鍵,選取“數(shù)據(jù)系列格式→圖案”,在界面右側(cè)數(shù)據(jù)標(biāo)記的樣式處選取長(zhǎng)橫線(xiàn)“-”,前景顏色處選黑色,“大小”改為6磅,按確定鍵;在箱線(xiàn)圖的底部P0系列標(biāo)志上單擊右鍵,選取“數(shù)據(jù)系列格式→圖案”,在界面右側(cè)數(shù)據(jù)標(biāo)記的樣式處選取長(zhǎng)橫線(xiàn)“-”,前景顏色處選黑色,“大小”改為6磅,按確定鍵。⑨適當(dāng)調(diào)整繪圖區(qū)的大小,調(diào)整整個(gè)圖表區(qū)域的字體大小,去除圖表區(qū)的邊框等,可獲得上圖右側(cè)的箱線(xiàn)圖。注:這五個(gè)值可以在Excel中用QUARTILE(array,quart)函數(shù)求得。由此處也可知,用Excel作箱線(xiàn)圖實(shí)際上也是一種間接的方式,并不是像SPSS等軟件那樣直接生成,從統(tǒng)計(jì)的角度來(lái)說(shuō),更重要的是這種方法不考慮Outliers,所以與其他軟件作出來(lái)的圖可能并不一樣。[編輯本段]箱線(xiàn)圖概述箱線(xiàn)圖(Boxplot)也稱(chēng)箱須圖(Box-whiskerPlot),是利用數(shù)據(jù)中的五個(gè)統(tǒng)計(jì)量:最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)與最大值來(lái)描述數(shù)據(jù)的一種方法,它也可以粗略地看出數(shù)據(jù)是否具有有對(duì)稱(chēng)性,分布的分散程度等信息,特別可以用于對(duì)幾個(gè)樣本的比較。[編輯本段]繪制步驟1、畫(huà)數(shù)軸,度量單位大小和數(shù)據(jù)批的單位一致,起點(diǎn)比最小值稍小,長(zhǎng)度比該數(shù)據(jù)批的全距稍長(zhǎng)。2、畫(huà)一個(gè)矩形盒,兩端邊的位置分別對(duì)應(yīng)數(shù)據(jù)批的上下四分位數(shù)(Q1和Q3)。在矩形盒內(nèi)部中位數(shù)(Xm)位置畫(huà)一條線(xiàn)段為中位線(xiàn)。3、在Q3+1.5IQR(四分位距)和Q1-1.5IQR處畫(huà)兩條與中位線(xiàn)一樣的線(xiàn)段,這兩條線(xiàn)段為異常值截?cái)帱c(diǎn),稱(chēng)其為內(nèi)限;在F+3IQR和F-3IQR處畫(huà)兩條線(xiàn)段,稱(chēng)其為外限。處于內(nèi)限以外位置的點(diǎn)表示的數(shù)據(jù)都是異常值,其中在內(nèi)限與外限之間的異常值為溫和的異常值(mildoutliers),在外限以外的為極端的異常值(extremeoutliers)。4、從矩形盒兩端邊向外各畫(huà)一條線(xiàn)段直到不是異常值的最遠(yuǎn)點(diǎn),表示該批數(shù)據(jù)正常值的分布區(qū)間。5、用“〇”標(biāo)出溫和的異常值,用“*”標(biāo)出極端的異常值。相同值的數(shù)據(jù)點(diǎn)并列標(biāo)出在同一數(shù)據(jù)線(xiàn)位置上,不同值的數(shù)據(jù)點(diǎn)標(biāo)在不同數(shù)據(jù)線(xiàn)位置上。至此一批數(shù)據(jù)的箱線(xiàn)圖便繪出了。統(tǒng)計(jì)軟件繪制的箱線(xiàn)圖一般沒(méi)有標(biāo)出內(nèi)限和外限。[編輯本段]功能箱線(xiàn)圖作為描述統(tǒng)計(jì)的工具之一,其功能有獨(dú)特之處,主要有以下幾點(diǎn):1.直觀明了地識(shí)別數(shù)據(jù)批中的異常值一批數(shù)據(jù)中的異常值值得關(guān)注,忽視異常值的存在是十分危險(xiǎn)的,不加剔除地把異常值包括進(jìn)數(shù)據(jù)的計(jì)算分析過(guò)程中,對(duì)結(jié)果會(huì)帶來(lái)不良影響;重視異常值的出現(xiàn),分析其產(chǎn)生的原因,常常成為發(fā)現(xiàn)問(wèn)題進(jìn)而改進(jìn)決策的契機(jī)。箱線(xiàn)圖為我們提供了識(shí)別異常值的一個(gè)標(biāo)準(zhǔn):異常值被定義為小于Q1-1.5IQR或大于Q3+1.5IQR的值。雖然這種標(biāo)準(zhǔn)有點(diǎn)任意性,但它來(lái)源于經(jīng)驗(yàn)判斷,經(jīng)驗(yàn)表明它在處理需要特別注意的數(shù)據(jù)方面表現(xiàn)不錯(cuò)。這與識(shí)別異常值的經(jīng)典方法有些不同。眾所周知,基于正態(tài)分布的3σ法則或z分?jǐn)?shù)方法是以假定數(shù)據(jù)服從正態(tài)分布為前提的,但實(shí)際數(shù)據(jù)往往并不嚴(yán)格服從正態(tài)分布。它們判斷異常值的標(biāo)準(zhǔn)是以計(jì)算數(shù)據(jù)批的均值和標(biāo)準(zhǔn)差為基礎(chǔ)的,而均值和標(biāo)準(zhǔn)差的耐抗性極小,異常值本身會(huì)對(duì)它們產(chǎn)生較大影響,這樣產(chǎn)生的異常值個(gè)數(shù)不會(huì)多于總數(shù)0.7%。顯然,應(yīng)用這種方法于非正態(tài)分布數(shù)據(jù)中判斷異常值,其有效性是有限的。箱線(xiàn)圖的繪制依靠實(shí)際數(shù)據(jù),不需要事先假定數(shù)據(jù)服從特定的分布形式,沒(méi)有對(duì)數(shù)據(jù)作任何限制性要求,它只是真實(shí)直觀地表現(xiàn)數(shù)據(jù)形狀的本來(lái)面貌;另一方面,箱線(xiàn)圖判斷異常值的標(biāo)準(zhǔn)以四分位數(shù)和四分位距為基礎(chǔ),四分位數(shù)具有一定的耐抗性,多達(dá)25%的數(shù)據(jù)可以變得任意遠(yuǎn)而不會(huì)很大地?cái)_動(dòng)四分位數(shù),所以異常值不能對(duì)這個(gè)標(biāo)準(zhǔn)施加影響,箱線(xiàn)圖識(shí)別異常值的結(jié)果比較客觀。由此可見(jiàn),箱線(xiàn)圖在識(shí)別異常值方面有一定的優(yōu)越性。2.利用箱線(xiàn)圖判斷數(shù)據(jù)批的偏態(tài)和尾重比較標(biāo)準(zhǔn)正態(tài)分布、不同自由度的t分布和非對(duì)稱(chēng)分布數(shù)據(jù)的箱線(xiàn)圖的特征,可以發(fā)現(xiàn):對(duì)于標(biāo)準(zhǔn)正態(tài)分布的大樣本,只有0.7%的值是異常值,中位數(shù)位于上下四分位數(shù)的中央,箱線(xiàn)圖的方盒關(guān)于中位線(xiàn)對(duì)稱(chēng)。選取不同自由度的t分布的大樣本,代表對(duì)稱(chēng)重尾分布,當(dāng)t分布的自由度越小,尾部越重,就有越大的概率觀察到異常值。以卡方分布作為非對(duì)稱(chēng)分布的例子進(jìn)行分析,發(fā)現(xiàn)當(dāng)卡方分布的自由度越小,異常值出現(xiàn)于一側(cè)的概率越大,中位數(shù)也越偏離上下四分位數(shù)的中心位置,分布偏態(tài)性越強(qiáng)。異常值集中在較小值一側(cè),則分布呈現(xiàn)左偏態(tài);;異常值集中在較大值一側(cè),則分布呈現(xiàn)右偏態(tài)。下表列出了幾種分布的樣本數(shù)據(jù)箱線(xiàn)圖的特征(樣本數(shù)據(jù)由SAS的隨機(jī)數(shù)生成函數(shù)自動(dòng)生成),驗(yàn)證了上述規(guī)律。這個(gè)規(guī)律揭示了數(shù)據(jù)批分布偏態(tài)和尾重的部分信息,盡管它們不能給出偏態(tài)和尾重程度的精確度量,但可作為我們粗略估計(jì)的依據(jù)。3.利用箱線(xiàn)圖比較幾批數(shù)據(jù)的形狀同一數(shù)軸上,幾批數(shù)據(jù)的箱線(xiàn)圖并行排列,幾批數(shù)據(jù)的中位數(shù)、尾長(zhǎng)、異常值、分布區(qū)間等形狀信息便昭然若揭。在一批數(shù)據(jù)中,哪幾個(gè)數(shù)據(jù)點(diǎn)出類(lèi)拔萃,哪些數(shù)據(jù)點(diǎn)表現(xiàn)不及一般,這些數(shù)據(jù)點(diǎn)放在同類(lèi)其它群體中處于什么位置,可以通過(guò)比較各箱線(xiàn)圖的異常值看出。各批數(shù)據(jù)的四分位距大小,正常值的分布是集中還是分散,觀察各方盒和線(xiàn)段的長(zhǎng)短便可明了。每批數(shù)據(jù)分布的偏態(tài)如何,分

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論