




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
什么是箱線圖什么是箱線圖箱線圖在文獻中經(jīng)常見到,是對數(shù)據(jù)分布的一種常用表示方法。但是所見資料中往往說的不是特別清楚,因此需要了解一下箱線圖的繪制過程,與部分的意義。計算過程:1計算上四分位數(shù),中位數(shù),下四分位數(shù)2計算上四分位數(shù)和下四分位數(shù)之間的差值,即四分位數(shù)差(IQR,interquartilerange)3繪制箱線圖的上下范圍,上限為上四分位數(shù),下限為下四分位數(shù)。在箱子內(nèi)部中位數(shù)的位置繪制橫線。4大于上四分位數(shù)1.5倍四分位數(shù)差的值,或者小于下四分位數(shù)1.5倍四分位數(shù)差的值,劃為異常值(outliers)。5異常值之外,最靠近上邊緣和下邊緣的兩個值處,畫橫線,作為箱線圖的觸須。6極端異常值,即超出四分位數(shù)差3倍距離的異常值,用實心點表示;較為溫和的異常值,即處于1.5倍-3倍四分位數(shù)差之間的異常值,用空心點表示。7為箱線圖添加名稱,數(shù)軸等。在SPSS,SigmaPlot,R,SPlus,Origin等軟件中,繪制箱線圖非常方便。下面是R中的一個箱線圖舉例箱線圖舉例:在R軟件中輸入如下命令:x<-c(25,45,50,54,55,61,64,68,72,75,75,78,79,81,83,84,84,84,85,86,86,86,87,89,89,89,90,91,91,92,100)boxplot(x)對c向量繪制箱線圖。箱線圖(Boxplot)箱線圖概述箱線圖(Boxplot)也稱箱須圖(Box-whiskerPlot),是利用數(shù)據(jù)中的五個\o"統(tǒng)計量"統(tǒng)計量:最小值、第一四分位數(shù)、\o"中位數(shù)"中位數(shù)、第三四分位數(shù)與最大值來描述數(shù)據(jù)的一種方法,它也可以粗略地看出數(shù)據(jù)是否具有有對稱性,分布的分散程度等信息,特別可以用于對幾個樣本的比較。[\o"編輯段落:箱線圖的繪制步驟[1]"編輯]箱線圖的繪制步驟\o""[1](1)畫數(shù)軸(2)畫矩形盒兩端邊的位置分別對應數(shù)據(jù)的上下四分位數(shù)矩形盒:端邊的位置分別對應數(shù)據(jù)的上下四分位數(shù)(Q1和Q3)。在矩形盒內(nèi)部中位數(shù)位置畫一條線段為中位線。(3)在Q3+15IQR和Q1-15IQR處畫兩條與中位線一樣的(3)在Q3+1.5IQR和Q11.5IQR處畫兩條與中位線樣的線段,這兩條線段為異常值截斷點,稱其為內(nèi)限;在Q3+3IQR和Q1-3IQR處畫兩條線段,稱其為外限。處于內(nèi)限以外位置的點表示的數(shù)據(jù)都是異常值,其中在內(nèi)限與外限之間的異常值為溫和的異常值(mildoutliers),在外限以外的為極端的異常值(li)的異常值extremeoutliers。(4)從矩形盒兩端邊向外各畫一條線段直到不是異常值的最遠點表示該批數(shù)據(jù)正常值的分布區(qū)間點,示該批數(shù)據(jù)正常值的分布區(qū)間。(5)用“〇”標出溫和的異常值,用“*”標出極端的異常值。(統(tǒng)計軟件繪制的箱線圖一般沒有標出內(nèi)限和外限。)[\o"編輯段落:箱線圖的功能"編輯]箱線圖的功能箱線圖作為描述統(tǒng)計的工具之一,其功能有獨特之處,主要有以下幾點:1.直觀明了地識別數(shù)據(jù)批中的異常值一批數(shù)據(jù)中的異常值值得關注,忽視異常值的存在是十分危險的,不加剔除地把異常值包括進數(shù)據(jù)的計算分析過程中,對結果會帶來不良影響;重視異常值的出現(xiàn),分析其產(chǎn)生的原因,常常成為發(fā)現(xiàn)問題進而改進決策的契機。箱線圖為我們提供了識別異常值的一個標準:異常值被定義為小于Q1-1.5IQR或大于Q3+1.5IQR的值。雖然這種標準有點任意性,但它來源于經(jīng)驗判斷,經(jīng)驗表明它在處理需要特別注意的數(shù)據(jù)方面表現(xiàn)不錯。這與識別異常值的經(jīng)典方法有些不同。眾所周知,基于正態(tài)分布的3σ法則或z分數(shù)方法是以假定數(shù)據(jù)服從正態(tài)分布為前提的,但實際數(shù)據(jù)往往并不嚴格服從正態(tài)分布。它們判斷異常值的標準是以計算數(shù)據(jù)批的均值和\o"標準差"標準差為基礎的,而均值和標準差的耐抗性極小,異常值本身會對它們產(chǎn)生較大影響,這樣產(chǎn)生的異常值個數(shù)不會多于總數(shù)0.7%。顯然,應用這種方法于非正態(tài)分布數(shù)據(jù)中判斷異常值,其有效性是有限的。箱線圖的繪制依靠實際數(shù)據(jù),不需要事先假定數(shù)據(jù)服從特定的分布形式,沒有對數(shù)據(jù)作任何限制性要求,它只是真實直觀地表現(xiàn)數(shù)據(jù)形狀的本來面貌;另一方面,箱線圖判斷異常值的標準以\o"四分位數(shù)"四分位數(shù)和四分位距為基礎,四分位數(shù)具有一定的耐抗性,多達25%的數(shù)據(jù)可以變得任意遠而不會很大地擾動四分位數(shù),所以異常值不能對這個標準施加影響,箱線圖識別異常值的結果比較客觀。由此可見,箱線圖在識別異常值方面有一定的優(yōu)越性。2.利用箱線圖判斷數(shù)據(jù)批的\o"偏態(tài)"偏態(tài)和尾重比較標準正態(tài)分布、不同自由度的t分布和非對稱分布數(shù)據(jù)的箱線圖的特征,可以發(fā)現(xiàn):對于標準\o"正態(tài)分布"正態(tài)分布的大樣本,只有0.7%的值是異常值,中位數(shù)位于上下四分位數(shù)的中央,箱線圖的方盒關于中位線對稱。選取不同自由度的t分布的大樣本,代表對稱重尾分布,當t分布的自由度越小,尾部越重,就有越大的概率觀察到異常值。以\o"卡方分布"卡方分布作為非對稱分布的例子進行分析,發(fā)現(xiàn)當卡方分布的自由度越小,異常值出現(xiàn)于一側(cè)的概率越大,中位數(shù)也越偏離上下四分位數(shù)的中心位置,分布偏態(tài)性越強。異常值集中在較小值一側(cè),則分布呈現(xiàn)左偏態(tài);;異常值集中在較大值一側(cè),則分布呈現(xiàn)右偏態(tài)。下表列出了幾種分布的樣本數(shù)據(jù)箱線圖的特征(樣本數(shù)據(jù)由SAS的隨機數(shù)生成函數(shù)自動生成),驗證了上述規(guī)律。這個規(guī)律揭示了數(shù)據(jù)批分布\o"偏態(tài)"偏態(tài)和尾重的部分信息,盡管它們不能給出偏態(tài)和尾重程度的精確度量,但可作為我們粗略估計的依據(jù)。3.利用箱線圖比較幾批數(shù)據(jù)的形狀同一數(shù)軸上,幾批數(shù)據(jù)的箱線圖并行排列,幾批數(shù)據(jù)的中位數(shù)、尾長、異常值、分布區(qū)間等形狀信息便昭然若揭。在一批數(shù)據(jù)中,哪幾個數(shù)據(jù)點出類拔萃,哪些數(shù)據(jù)點表現(xiàn)不及一般,這些數(shù)據(jù)點放在同類其它群體中處于什么位置,可以通過比較各箱線圖的異常值看出。各批數(shù)據(jù)的四分位距大小,正常值的分布是集中還是分散,觀察各方盒和線段的長短便可明了。每批數(shù)據(jù)分布的偏態(tài)如何,分析中位線和異常值的位置也可估計出來。還有一些箱線圖的變種,使數(shù)據(jù)批間的比較更加直觀明白。例如有一種可變寬度的箱線圖,使箱的寬度正比于批量的平方根,從而使批量大的數(shù)據(jù)批有面積大的箱,面積大的箱有適當?shù)囊曈X效果。如果對同類群體的幾批數(shù)據(jù)的箱線圖進行比較,分析評價,便是常模參照解釋方法的可視圖示;如果把受測者數(shù)據(jù)批的箱線圖與外在效標數(shù)據(jù)批的箱線圖\o"比較分析"比較分析,便是效標參照解釋的可視圖示。箱線圖結合這些分析方法用于\o"質(zhì)量管理"質(zhì)量管理、\o"人事測評"人事測評、探索性\o"數(shù)據(jù)分析"數(shù)據(jù)分析等統(tǒng)計分析活動中去,有助于分析過程的簡便快捷,其作用顯而易見。[\o"編輯段落:箱線圖應用舉例"編輯]箱線圖應用舉例現(xiàn)有某直銷中心30名員工的\o"工資"工資測算數(shù)據(jù)兩批,第一批為工資調(diào)整前的數(shù)據(jù),第二批為工資調(diào)整后的數(shù)據(jù),繪出它們的箱線圖(如下圖),進行比較,可以很容易地得出:工資調(diào)整前,總體水平在752元左右,四分位距為307.5,沒有異常值。經(jīng)過調(diào)整后,箱線圖顯示,第2、29、10、24、27號為溫和的異常值,第26、30、28號為極端的異常值。為什么會出現(xiàn)異常值呢?經(jīng)過進一步分析知道,第2、29、10、24號員工由于技能強、工齡長、積累貢獻大、表現(xiàn)較好,勞苦功高,理應得到較高的報酬;第27、26、30、28號職工則因為技能偏低、工齡短、積累貢獻小且表現(xiàn)較差,得到的工資較低,甚至連一般水平也難以達到。這體現(xiàn)了工資調(diào)整的獎優(yōu)罰劣原則。另外,調(diào)整后工資總體水平比調(diào)整前高出270元,四分位距為106,工資分布比調(diào)整前更加集中,在合適的范圍內(nèi)既拉開了差距,又不至于差距太懸殊,還針對特殊情況進行了特殊處理。這種工資分布具有\(zhòng)o"激勵"激勵作用,可以說工資調(diào)整達到預期目的。箱線圖美中不足之處在于它不能提供關于數(shù)據(jù)分布偏態(tài)和尾重程度的精確度量;對于批量較大的數(shù)據(jù)批,箱線圖反映的形狀信息更加模糊;用中位數(shù)代表總體平均水平有一定的局限性等等。所以,應用箱線圖最好結合其它描述統(tǒng)計工具如均值、\o"標準差"標準差、偏度、分布函數(shù)等來描述數(shù)據(jù)批的分布形狀。[\o"編輯段落:用Excel繪制箱線圖的方法"編輯]用Excel繪制箱線圖的方法例:某研究者分別采用安慰劑、新藥10mg、新藥20mg治療三個隨機分組的阻塞性肺病病人,每組100例,治療兩周后測量最大呼氣量(forcedexpiratoryvolume,FEV)。每組測量后計算獲得的P100、P75、P50、P25、P0(即最大值、75%百分位數(shù)、中位數(shù)、25%百分位數(shù)、最小值**)(見下圖),試繪制箱線圖。三種方案治療阻塞性肺病后的最大呼氣量箱線圖繪制箱線圖需要借助于股價圖中的“開盤-盤高-盤低-收盤圖”,該圖形需要將數(shù)據(jù)按一定的順序排列。因此繪制箱線圖時也需要將數(shù)據(jù)按P25、P100、P0、P50、P75的順序排列(P25與P75的順序可對調(diào))。具體繪制步驟如下:①選取單元格區(qū)域A1:D5,單擊“圖表向?qū)А眻D標如果圖片縮小請點擊放大,在彈出的“圖表類型”對話框中選中股價圖的“開盤-盤高-盤低-收盤圖”(第2個子圖表類型),按下一步鍵。②在圖表數(shù)據(jù)源對話框的數(shù)據(jù)區(qū)域中將“系列產(chǎn)生在”修改為“行”,按下一步鍵。③在“圖表選項”對話框的分類(X)軸下方填入“治療組”,在數(shù)值(Y)軸下方填入“最大呼氣量(FEV)”,按完成鍵。④在繪圖區(qū)點擊右鍵,選取“數(shù)據(jù)源→系列→添加”,在“名稱”右側(cè)用鼠標選取單元格A6,在“值”右側(cè)用鼠標選取單元格區(qū)域B6:D6按確定鍵。⑤在網(wǎng)格線上點擊右鍵,“清除”網(wǎng)格線;在繪圖區(qū)單擊右鍵“清除”背景色。⑥在橫坐標上單擊右鍵,選取“坐標軸格式→圖案”,右上部主要刻度線類型復選“無”,按確定鍵。⑦在縱坐標上單擊右鍵,選取“坐標軸格式→數(shù)字→數(shù)值”,小數(shù)位數(shù)改為“0”,按確定鍵。⑧在箱的中心位置P50系列標志上單擊右鍵,選取“數(shù)據(jù)系列格式→圖案”,在界面右側(cè)數(shù)據(jù)標記的樣式處選取“+”,前景顏色處選黑色,“大小”改為6磅,按確定鍵;在箱線圖的頂部P100系列標志上單擊右鍵,選取“數(shù)據(jù)系列格式→圖案”,在界面右側(cè)數(shù)據(jù)標記的樣式處選取長橫線“-”,前景顏色處選黑色,“大小”改為6磅,按確定鍵;在箱線圖的底部P0系列標志上單擊右鍵,選取“數(shù)據(jù)系列格式→圖案”,在界面右側(cè)數(shù)據(jù)標記的樣式處選取長橫線“-”,前景顏色處選黑色,“大小”改為6磅,按確定鍵。⑨適當調(diào)整繪圖區(qū)的大小,調(diào)整整個圖表區(qū)域的字體大小,去除圖表區(qū)的邊框等,可獲得上圖右側(cè)的箱線圖。注:這五個值可以在Excel中用QUARTILE(array,quart)函數(shù)求得。由此處也可知,用Excel作箱線圖實際上也是一種間接的方式,并不是像SPSS等軟件那樣直接生成,從統(tǒng)計的角度來說,更重要的是這種方法不考慮Outliers,所以與其他軟件作出來的圖可能并不一樣。[編輯本段]箱線圖概述箱線圖(Boxplot)也稱箱須圖(Box-whiskerPlot),是利用數(shù)據(jù)中的五個統(tǒng)計量:最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)與最大值來描述數(shù)據(jù)的一種方法,它也可以粗略地看出數(shù)據(jù)是否具有有對稱性,分布的分散程度等信息,特別可以用于對幾個樣本的比較。[編輯本段]繪制步驟1、畫數(shù)軸,度量單位大小和數(shù)據(jù)批的單位一致,起點比最小值稍小,長度比該數(shù)據(jù)批的全距稍長。2、畫一個矩形盒,兩端邊的位置分別對應數(shù)據(jù)批的上下四分位數(shù)(Q1和Q3)。在矩形盒內(nèi)部中位數(shù)(Xm)位置畫一條線段為中位線。3、在Q3+1.5IQR(四分位距)和Q1-1.5IQR處畫兩條與中位線一樣的線段,這兩條線段為異常值截斷點,稱其為內(nèi)限;在F+3IQR和F-3IQR處畫兩條線段,稱其為外限。處于內(nèi)限以外位置的點表示的數(shù)據(jù)都是異常值,其中在內(nèi)限與外限之間的異常值為溫和的異常值(mildoutliers),在外限以外的為極端的異常值(extremeoutliers)。4、從矩形盒兩端邊向外各畫一條線段直到不是異常值的最遠點,表示該批數(shù)據(jù)正常值的分布區(qū)間。5、用“〇”標出溫和的異常值,用“*”標出極端的異常值。相同值的數(shù)據(jù)點并列標出在同一數(shù)據(jù)線位置上,不同值的數(shù)據(jù)點標在不同數(shù)據(jù)線位置上。至此一批數(shù)據(jù)的箱線圖便繪出了。統(tǒng)計軟件繪制的箱線圖一般沒有標出內(nèi)限和外限。[編輯本段]功能箱線圖作為描述統(tǒng)計的工具之一,其功能有獨特之處,主要有以下幾點:1.直觀明了地識別數(shù)據(jù)批中的異常值一批數(shù)據(jù)中的異常值值得關注,忽視異常值的存在是十分危險的,不加剔除地把異常值包括進數(shù)據(jù)的計算分析過程中,對結果會帶來不良影響;重視異常值的出現(xiàn),分析其產(chǎn)生的原因,常常成為發(fā)現(xiàn)問題進而改進決策的契機。箱線圖為我們提供了識別異常值的一個標準:異常值被定義為小于Q1-1.5IQR或大于Q3+1.5IQR的值。雖然這種標準有點任意性,但它來源于經(jīng)驗判斷,經(jīng)驗表明它在處理需要特別注意的數(shù)據(jù)方面表現(xiàn)不錯。這與識別異常值的經(jīng)典方法有些不同。眾所周知,基于正態(tài)分布的3σ法則或z分數(shù)方法是以假定數(shù)據(jù)服從正態(tài)分布為前提的,但實際數(shù)據(jù)往往并不嚴格服從正態(tài)分布。它們判斷異常值的標準是以計算數(shù)據(jù)批的均值和標準差為基礎的,而均值和標準差的耐抗性極小,異常值本身會對它們產(chǎn)生較大影響,這樣產(chǎn)生的異常值個數(shù)不會多于總數(shù)0.7%。顯然,應用這種方法于非正態(tài)分布數(shù)據(jù)中判斷異常值,其有效性是有限的。箱線圖的繪制依靠實際數(shù)據(jù),不需要事先假定數(shù)據(jù)服從特定的分布形式,沒有對數(shù)據(jù)作任何限制性要求,它只是真實直觀地表現(xiàn)數(shù)據(jù)形狀的本來面貌;另一方面,箱線圖判斷異常值的標準以四分位數(shù)和四分位距為基礎,四分位數(shù)具有一定的耐抗性,多達25%的數(shù)據(jù)可以變得任意遠而不會很大地擾動四分位數(shù),所以異常值不能對這個標準施加影響,箱線圖識別異常值的結果比較客觀。由此可見,箱線圖在識別異常值方面有一定的優(yōu)越性。2.利用箱線圖判斷數(shù)據(jù)批的偏態(tài)和尾重比較標準正態(tài)分布、不同自由度的t分布和非對稱分布數(shù)據(jù)的箱線圖的特征,可以發(fā)現(xiàn):對于標準正態(tài)分布的大樣本,只有0.7%的值是異常值,中位數(shù)位于上下四分位數(shù)的中央,箱線圖的方盒關于中位線對稱。選取不同自由度的t分布的大樣本,代表對稱重尾分布,當t分布的自由度越小,尾部越重,就有越大的概率觀察到異常值。以卡方分布作為非對稱分布的例子進行分析,發(fā)現(xiàn)當卡方分布的自由度越小,異常值出現(xiàn)于一側(cè)的概率越大,中位數(shù)也越偏離上下四分位數(shù)的中心位置,分布偏態(tài)性越強。異常值集中在較小值一側(cè),則分布呈現(xiàn)左偏態(tài);;異常值集中在較大值一側(cè),則分布呈現(xiàn)右偏態(tài)。下表列出了幾種分布的樣本數(shù)據(jù)箱線圖的特征(樣本數(shù)據(jù)由SAS的隨機數(shù)生成函數(shù)自動生成),驗證了上述規(guī)律。這個規(guī)律揭示了數(shù)據(jù)批分布偏態(tài)和尾重的部分信息,盡管它們不能給出偏態(tài)和尾重程度的精確度量,但可作為我們粗略估計的依據(jù)。3.利用箱線圖比較幾批數(shù)據(jù)的形狀同一數(shù)軸上,幾批數(shù)據(jù)的箱線圖并行排列,幾批數(shù)據(jù)的中位數(shù)、尾長、異常值、分布區(qū)間等形狀信息便昭然若揭。在一批數(shù)據(jù)中,哪幾個數(shù)據(jù)點出類拔萃,哪些數(shù)據(jù)點表現(xiàn)不及一般,這些數(shù)據(jù)點放在同類其它群體中處于什么位置,可以通過比較各箱線圖的異常值看出。各批數(shù)據(jù)的四分位距大小,正常值的分布是集中還是分散,觀察各方盒和線段的長短便可明了。每批數(shù)據(jù)分布的偏態(tài)如何,分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 微生物分解作用在生態(tài)中的重要性試題及答案
- 2025年年銀項目投資風險評估報告
- 2025年電控多瓶采水器項目投資風險評估報告
- 企業(yè)雨季三防培訓課件
- 2024年物流技術應用案例試題及答案
- 多元文化2024年國際物流師試題與答案
- 語文表達能力提升試題及答案
- 豐富經(jīng)驗:2024年CPMM試題及答案
- 生態(tài)指示物種的應用試題及答案
- 動物行為的遺傳與環(huán)境影響研究試題及答案
- 智慧海防管控平臺建設方案
- 病人私自外出護理不良事件
- 克服考試緊張情緒的技巧
- 出警民警自身安全課件
- 企業(yè)員工信息安全意識培訓
- 臨床檢驗標本采集與運輸
- 2025-2030年中國氣敏傳感器行業(yè)發(fā)展趨勢展望與投資策略分析報告
- 2025屆高考化學 二輪復習 專題五 離子共存(含解析)
- 2023年首都體育學院總務處招聘考試真題
- GB/T 8232-2024粟
- 西安電子科技大學《科技英語》2021-2022學年第一學期期末試卷
評論
0/150
提交評論