第3章 數(shù)據(jù)整理_第1頁
第3章 數(shù)據(jù)整理_第2頁
第3章 數(shù)據(jù)整理_第3頁
第3章 數(shù)據(jù)整理_第4頁
第3章 數(shù)據(jù)整理_第5頁
已閱讀5頁,還剩100頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第三章統(tǒng)計數(shù)據(jù)的整理與顯示本章主要內(nèi)容數(shù)據(jù)的預(yù)處理分類和順序數(shù)據(jù)的整理與顯示數(shù)值型數(shù)據(jù)的整理與顯示統(tǒng)計表第一節(jié)數(shù)據(jù)的預(yù)處理一、數(shù)據(jù)審核二、數(shù)據(jù)篩選三、數(shù)據(jù)排序數(shù)據(jù)的審核、篩選與排序的意義數(shù)據(jù)的審核發(fā)現(xiàn)數(shù)據(jù)中的錯誤數(shù)據(jù)的篩選找出符合條件的數(shù)據(jù)數(shù)據(jù)排序發(fā)現(xiàn)數(shù)據(jù)的基本特征一、數(shù)據(jù)審核

㈠對于原始數(shù)據(jù)的審核

審核的內(nèi)容完整性審核檢查應(yīng)調(diào)查的單位或個體是否有遺漏所有的調(diào)查項目或指標(biāo)是否填寫齊全準(zhǔn)確性審核數(shù)據(jù)是否存在異常值,檢查數(shù)據(jù)是否真實反映客觀實際情況,內(nèi)容是否符合實際檢查數(shù)據(jù)是否有錯誤,計算是否正確等原始數(shù)據(jù)的審核

審核數(shù)據(jù)準(zhǔn)確性的方法邏輯檢查主要是從定性角度審核數(shù)據(jù)是否符合邏輯,內(nèi)容是否合理,各項目或數(shù)字之間有無相互矛盾的現(xiàn)象主要用于對分類和順序據(jù)的審核計算檢查檢查調(diào)查表中的各項數(shù)據(jù)在計算結(jié)果和計算方法上有無錯誤主要用于對數(shù)值型數(shù)據(jù)的審核㈡對于二手?jǐn)?shù)據(jù)的審核除了對其完整性和準(zhǔn)確性進(jìn)行審核外,還應(yīng)著重審核數(shù)據(jù)的適用性和時效性。適用性審核弄清楚數(shù)據(jù)的來源、數(shù)據(jù)的口徑以及有關(guān)的背景材料確定數(shù)據(jù)是否符合自己分析研究的需要時效性審核盡可能使用最新的數(shù)據(jù)確認(rèn)是否必要做進(jìn)一步的加工整理二、數(shù)據(jù)篩選對審核過程中發(fā)現(xiàn)的錯誤應(yīng)盡可能予以糾正。當(dāng)發(fā)現(xiàn)數(shù)據(jù)中的錯誤不能予以糾正,或者有些數(shù)據(jù)不符合調(diào)查的要求而又無法彌補(bǔ)時,需要對數(shù)據(jù)進(jìn)行篩選。數(shù)據(jù)篩選的內(nèi)容包括:將某些不符合要求的數(shù)據(jù)或有明顯錯誤的數(shù)據(jù)予以剔除將符合某種特定條件的數(shù)據(jù)篩選出來,而不符合特定條件的數(shù)據(jù)予以剔出。(用Excel進(jìn)行數(shù)據(jù)篩選參見教材P.43~46例)三、數(shù)據(jù)排序㈠數(shù)據(jù)排序的意義數(shù)據(jù)排序是按一定順序?qū)?shù)據(jù)排列,以便通過瀏覽發(fā)現(xiàn)數(shù)據(jù)的一些明顯特征或趨勢,找到解決問題的線索。排序還有助于對數(shù)據(jù)檢查糾錯,為重新歸類或分組等提供依據(jù)。在某些場合,排序本身就是分析的目的之一。㈡數(shù)據(jù)排序的方法分類數(shù)據(jù)的排序字母型數(shù)據(jù),排序有升序降序之分,但習(xí)慣上用升序漢字型數(shù)據(jù),可按漢字首位拼音字母排列,也可按筆畫排序,其中也有筆畫多少的升序降序之分?jǐn)?shù)值型數(shù)據(jù)的排序遞增排序:設(shè)一組數(shù)據(jù)為X1,X2,…,XN,遞增排序后可表示為:X(1)<X(2)<…<X(N)遞減排序可表示為:X(1)>X(2)>…>X(N)用Excel可進(jìn)行數(shù)據(jù)排序第二節(jié)分類和順序數(shù)據(jù)的

整理與顯示一、數(shù)據(jù)整理與顯示的基本問題二、分類數(shù)據(jù)的整理與圖示三、順序數(shù)據(jù)的整理與圖示一、數(shù)據(jù)整理與顯示的基本問題

㈠關(guān)于統(tǒng)計分組或分類數(shù)據(jù)經(jīng)過預(yù)處理后可進(jìn)一步作分類或分組整理。統(tǒng)計分組或分類是根據(jù)統(tǒng)計研究的需要,將統(tǒng)計總體(數(shù)據(jù))按照一定的標(biāo)志區(qū)分為若干個組成部分的一種統(tǒng)計方法;是在統(tǒng)計總體內(nèi)部進(jìn)行一種定性分類;是使認(rèn)識深化的必要前提。統(tǒng)計分組或分類的作用:⑴區(qū)分事物類型;⑵反映事物內(nèi)部結(jié)構(gòu);⑶分析事物間的依存關(guān)系。簡單分組和復(fù)合分組:簡單分組是按一個標(biāo)志對現(xiàn)象進(jìn)行分組。復(fù)合分組是按兩個或兩個人以上標(biāo)志層疊起來對現(xiàn)象進(jìn)行分組。如人口先按年齡分組,然后再在此基礎(chǔ)上按性別分組。分組分組前分組后25%33%42%1·區(qū)分事物類型作用:例:企業(yè)按照所有制形式劃分,可以分為:國有企業(yè);集體企業(yè);私營企業(yè)和其他類型企業(yè)。

2·反映總體內(nèi)部結(jié)構(gòu)及變化例:國內(nèi)生產(chǎn)總值比例表(%)年份1985年 1995年2005年 2006年 第一產(chǎn)業(yè) 28.0 19.9 12.5 11.7第二產(chǎn)業(yè) 42.9 47.2 47.5 48.9 第三產(chǎn)業(yè) 29.1 32.9 40.0 39.4 3·探討現(xiàn)象之間的依存關(guān)系例:中國農(nóng)民家庭按收入分組的恩格爾系數(shù)(1984年)按收入分組(元)<200<300<400<500<600<800<1000恩格爾系數(shù)(%)64.960.256.754.450.549.943.6

㈡數(shù)據(jù)整理與顯示應(yīng)注意的基本問題首先要弄清數(shù)據(jù)類型,因為對不同類型的數(shù)據(jù),所采取和適用的處理方法是不同的。對分類數(shù)據(jù)和順序數(shù)據(jù)主要是做分類整理,對數(shù)值型數(shù)據(jù)主要是做分組整理。適合于低層次數(shù)據(jù)的整理和顯示方法也適合于高層次的數(shù)據(jù);但適合于高層次數(shù)據(jù)的整理和顯示方法并不一定適合于低層次的數(shù)據(jù)。二、分類數(shù)據(jù)的整理與圖示分類數(shù)據(jù)整理的基本過程:列出各類別計算各類別的頻數(shù)、頻率或比例、比率等指標(biāo)制作頻數(shù)分布表選擇適當(dāng)?shù)膱D形顯示數(shù)據(jù)通過整理可以對數(shù)據(jù)及其特征有初步了解。㈠頻數(shù)與頻數(shù)分布1.頻數(shù)(Frequency)頻數(shù)也稱次數(shù),是分布在各類(組)別中的數(shù)據(jù)個數(shù)(總體單位數(shù))。將各個類別及其相應(yīng)的頻數(shù)全部列出形成總體所有單位在各類(組)間的分布就是頻數(shù)分布或稱次數(shù)分布(Frequencydistribution)。將頻數(shù)分布用表格形式表現(xiàn)出來就是頻數(shù)分布表。2.頻率頻率是各組次數(shù)與總體總次數(shù)之比,通常用百分?jǐn)?shù)或系數(shù)形式表示,也可稱為比重次數(shù)。在頻數(shù)分布表中也可把頻率列出,以各組次數(shù)占總體總次數(shù)的比例來反映總體各單位在各組間的分布情況。頻數(shù)與頻數(shù)分布例3.1:某廣告公司在某市隨機(jī)抽取200人就廣告問題做了問卷調(diào)查,其中一個問題是:“您比較關(guān)心下列哪一類廣告?”①商品廣告;②服務(wù)廣告;③金融廣告;④房地產(chǎn)廣告;⑤招生招聘廣告;⑥其它廣告。這里的變量是“廣告類別”,變量值是各不同類型廣告。調(diào)查數(shù)據(jù)經(jīng)分類整理后形成頻數(shù)分布表。見表3-1。表3-1某市居民關(guān)注廣告類型的頻數(shù)分布變量→廣告類型頻數(shù)→人數(shù)(人)頻率→人數(shù)比例(%)變量值商品廣告11256.0服務(wù)廣告5125.5金融廣告94.5房地產(chǎn)廣告168.0招生招聘廣告105.0其它廣告21.0合計200100.03.比率對分類數(shù)據(jù)整理時還可以計算各種比率。比如在上面的例子中,關(guān)注商品廣告的人數(shù)與關(guān)注服務(wù)廣告人數(shù)的比率是112:51。為便于理解,通常將分母化為1。比如,關(guān)注商品廣告和關(guān)注服務(wù)廣告人數(shù)的比率是2.2:1。其它比率指標(biāo)略?!纠?.2】一家市場調(diào)查公司為研究不同品牌飲料的市場占有率,對隨機(jī)抽取的一家超市進(jìn)行了調(diào)查。調(diào)查員在某天對50名顧客購買飲料的品牌進(jìn)行了記錄,如果一個顧客購買某一品牌的飲料,就將這一飲料的品牌名字記錄一次。右邊就是記錄的原始數(shù)據(jù)用Excel制作頻數(shù)分布表綠色健康飲品表3-2顧客購買飲料品牌的頻數(shù)分布變量→飲料品牌頻數(shù)→人數(shù)(人)頻率→人數(shù)比例(%)變量值可口可樂1530旭日升冰茶1122百事可樂918匯源果汁612露露918合計50100㈡分類數(shù)據(jù)的圖示1.條形圖(Barchart)條形圖是用寬度相同的條形的高度或長短來表示數(shù)據(jù)變動的圖形。繪制時,各類別可以放在縱軸,稱為條形圖,也可以放在橫軸,稱為柱形圖。在表示分類數(shù)據(jù)的分布時,是用條形或柱形的長度或高度來表示各類數(shù)據(jù)的頻數(shù)或頻率。有簡單條形圖、對比條形圖等形式。當(dāng)變量在不同空間或不同時間上有多個取值時,繪制對比條形圖可比較變量取值的差異。(見教材P.56)圖3-1例3.1某市居民關(guān)注廣告類型的頻數(shù)分布條形圖圖3-2教材例3.3的頻數(shù)分布條形圖2.帕累托圖(Paretochart)帕累托圖以意大利經(jīng)濟(jì)學(xué)家V.Pareto名字命名,是按各類別數(shù)據(jù)頻數(shù)多少排序繪制的條形圖。容易從中看出各類數(shù)據(jù)多少的類別排序。(見教材P.56圖3-15)3.餅圖(Piechart)餅圖也稱圓形圖,是用圓形及圓內(nèi)扇形的角度和面積來表示數(shù)值大小的圖形。圓形圖主要用于表示總體中各組成部分所占的比例,對于研究結(jié)構(gòu)性問題十分有用。在繪制圓形圖時,總體中各部分所占的百分比用圓內(nèi)的各個扇形面積表示,這些扇形的中心角度,是按各部分百分比占3600的相應(yīng)比例確定的。例3.1中關(guān)注服務(wù)廣告的人數(shù)占總?cè)藬?shù)的百分比為25.5%,那么其扇形的中心角度就應(yīng)為3600×25.5%=91.80,其余類推。圖3-3某城市居民關(guān)注不同類型廣告的人數(shù)構(gòu)成圖3-4例3.2的圓形圖4.環(huán)形圖環(huán)形圖中間有一個“空洞”,總體中的每一部分?jǐn)?shù)據(jù)用環(huán)中的一段表示。環(huán)形圖與圓形圖類似,但又有區(qū)別:圓形圖只能顯示一個總體各部分所占的比例環(huán)形圖則可以同時繪制多個總體的數(shù)據(jù)系列,每一個總體的數(shù)據(jù)系列為一個環(huán)環(huán)形圖可用于進(jìn)行比較研究。環(huán)形圖可用于展示分類和順序的數(shù)據(jù)。圖3-7甲、乙城市家庭對住房狀況的滿意程度構(gòu)成(內(nèi)環(huán)為甲城市,外環(huán)為乙城市)三、順序數(shù)據(jù)的整理與顯示對于順序數(shù)據(jù),除了可使用前述的整理與顯示技術(shù)外,還可以計算累積頻數(shù)和累積頻率(百分比)。㈠累積頻數(shù)和累積頻率1.累積頻數(shù)(Cumulativefrequencies)是各類別頻數(shù)的逐級累加。方法有:向上累積,是從類別順序的開始一方向最后一方累加頻數(shù)(數(shù)值型數(shù)據(jù)則是從變量值小的一方向變量值大的一方累加頻數(shù))。向下累積,是從類別順序的最后一方向開始一方累加頻數(shù)(數(shù)值型數(shù)據(jù)則是從變量值大的一方向變量值小的一方累加頻數(shù))。通過累積頻數(shù),可以看出某一類別(或數(shù)值)以下及某一類別(或數(shù)值)以上的頻數(shù)之和。2.累積頻率(Cumulativepercentages)是各類別頻率的逐級累加,也有向上累積和向下累積兩種方法。累積頻數(shù)和累積頻率舉例

教材P.59例3.5例3.5:在一項城市住房問題的研究中,研究人員在甲、乙兩個城市各抽300戶家庭進(jìn)行詢問,其中一個問題是:“您對您家庭目前的住房狀況是否滿意?”①非常不滿意;②不滿意;③一般;④滿意;⑤非常滿意。上述被選答案是按滿意程度由低到高排列。調(diào)查結(jié)果經(jīng)整理如表3-3和3-4所示。表3-3甲城市家庭對住房狀況的評價回答類別戶數(shù)(戶)比例(%)向上累積向下累積戶數(shù)(戶)比例(%)戶數(shù)(戶)比例(%)非產(chǎn)不滿意248248300100不滿意108361324427692一般93312257516856滿意4515270907525非常滿意30103001003010合計300100----表3-4乙城市家庭對住房狀況的評價回答類別戶數(shù)(戶)比例(%)向上累積向下累積戶數(shù)(戶)比例(%)戶數(shù)(戶)比例(%)非產(chǎn)不滿意217.0217.0300100.0不滿意9933.012040.027993.0一般7826.019866.018060.0滿意6421.326287.310234.0非常滿意3812.7300100.03812.7合計300100.0----㈡順序數(shù)據(jù)的圖示1.累積頻數(shù)分布圖根據(jù)累積頻數(shù)或累積頻率,可以繪制累積頻數(shù)或累積頻率分布圖。例如,根據(jù)表3-3和表3-4可繪制累積分布圖如圖3-5和圖3-6。圖3-5甲、乙城市家庭對住房狀況評價的累積分布圖(向上累積)圖3-6甲、乙城市家庭對住房狀況評價的累積分布圖(向下累積)第三節(jié)數(shù)值型數(shù)據(jù)的整理與顯示一、數(shù)值型數(shù)據(jù)的分組二、數(shù)值型數(shù)據(jù)的圖示三、頻數(shù)分布的類型一、數(shù)值型數(shù)據(jù)的分組數(shù)值型數(shù)據(jù)在整理時通常要進(jìn)行數(shù)據(jù)分組,分組的方法有:單變量值分組和組距分組分組方法等距分組異距分組單變量值分組組距分組㈠單變量值分組要點:將一個變量值作為一組2.適合于離散變量3.適合于變量值較少的情況數(shù)值型數(shù)據(jù)的分組例3.4:某生產(chǎn)車間50名工人日加工零件數(shù)如下(單位:個)。117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121數(shù)值型數(shù)據(jù)的分組為便于分組,可先對上面的數(shù)據(jù)進(jìn)行排序,結(jié)果如下:107108108110112112113114115117117117118118118119120120121122122122122123123123123124124124125125126126127127127128128129130131133133134134135137139139采用單變量值分組形成的頻數(shù)分布表表3-5某車間50名工人日加工零件數(shù)分組表(個,人)零件數(shù)人數(shù)零件數(shù)人數(shù)零件數(shù)人數(shù)107111911282108212021291110112111301112212241311113112341332114112431342115112521351117312621371118312731392數(shù)據(jù)較多時單變量值分組由于組數(shù)較多,不便于觀察數(shù)據(jù)分布的特征和規(guī)律,而且對于連續(xù)變量無法采用這種分組方法。【例】己知某車間有24名工人,他們的日產(chǎn)量(件)分別是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根據(jù)以上資料編制變量數(shù)列。日產(chǎn)量(件)X工人數(shù)(人)f202122232425263564321合計24編制結(jié)果如下:㈡組距分組要點將全部變量值依次劃分為若干個區(qū)間,并將變量的一個取值區(qū)間作為一組適合于連續(xù)變量適合于變量值較多的情況必須遵循“不重不漏”的原則?!安恢亍敝敢豁棓?shù)據(jù)只能分在某一組,不能在其他組中重復(fù)出現(xiàn);“不漏”指全部組別中包括所有各項數(shù)據(jù),不能遺漏。可采用等距分組,也可采用不等距分組~~~~~組距分組的幾個概念1.下限(Lowlimit):一個組的最小值2.上限(Upperlimit):一個組的最大值3.組距(Classwidth

):上限與下限之差4.組中值(Classmidpoint):下限與上限之間的中點值下限值+上限值2組中值=組距分組的步驟:第一步:確定組數(shù)組數(shù)的確定應(yīng)以能夠顯示數(shù)據(jù)的分布特征和規(guī)律為目的。若組數(shù)太少,則數(shù)據(jù)分布過于集中;而組數(shù)太多,則數(shù)據(jù)分布過于分散,這都不便于觀察數(shù)據(jù)分布的特征和規(guī)律。一般可根據(jù)數(shù)據(jù)多少和特點及分析要求確定組數(shù)。通常在5-15組之間。也可以按Sturges提出的經(jīng)驗公式確定組數(shù)K:

式中,n為數(shù)據(jù)的個數(shù),對結(jié)果用四舍五入取整數(shù)。例如,對例3.4的數(shù)據(jù)有:K=1+lg50/lg2≈7,即應(yīng)分為7個組。第二步:確定組距組距可根據(jù)全部數(shù)據(jù)的最大值、最小值、組數(shù)以及特定的研究需要來確定。若各組組距相同可用公式:

組距=(最大值一最小值)/組數(shù)

例如對于例3.4的數(shù)據(jù),最大值為139,最小值為107,則組距=(139-107)/7=4.6。為便于計算,組距宜取5或10的倍數(shù),而且最低一組的下限應(yīng)低于最小變量值,最高一組的上限應(yīng)高于最大變量值。上例組距可取5。第三步:數(shù)據(jù)分組并將結(jié)果整理成頻數(shù)分布表組距分組的步驟對例3.4數(shù)據(jù)分組,可得如下頻數(shù)分布表表3-6某車間50名工人日加工零件數(shù)(上下組限重疊)按零件數(shù)分組(個)人數(shù)(人)頻率(%)105-11036110-115510115-120816120-1251428125-1301020130-135612135-14048合計50100組距分組的形式(一)組限重疊分組——相鄰組限相同。

--適用于連續(xù)型變量,也可用于離散型變量。為避免重復(fù),習(xí)慣上規(guī)定“上組限不在內(nèi)”,即恰好等于某一組上限的數(shù)值不算在本組內(nèi),而算在更高一組內(nèi)。例如在表3-6的分組中,120這一數(shù)值不計入“115~120”這一組內(nèi),計入“120~125”組中。組限間斷分組——相鄰組限不同。

--適用于離散型變量,不用于連續(xù)型變量。表3-7某車間50名工人日加工零件數(shù)分組表(上下組限間斷)按零件數(shù)分組頻數(shù)(人)頻率(%)105~109110~114115~119120~124125~129130~134135~139358141064610162820128合計50100組距分組的形式(二)閉口組——上下組限齊全開口組——缺上組限或下組限適用于總體存在極端變量值的情況,最大值或最小值與其他數(shù)據(jù)相差懸殊,為避免出現(xiàn)沒有變量值的組或個別極端值被漏掉,最小組或最大組采取“××以下”或“××以上”表示。通常以鄰組組距作為開口組的假定組距有向下開口組(最小組)和向上開口組(最大組)表3-8某車間50名工人日加工零件數(shù)分組表(使用開口組)按零件數(shù)分組頻數(shù)(人)頻率(%)110以下110~114115~119120~124125~129130~134135以上358141064610162820128合計50100組距分組的形式(三)等距分組——組距相同各組頻數(shù)的分布不受組距大小的影響可直接根據(jù)絕對頻數(shù)來觀察頻數(shù)分布的特征和規(guī)律不等距分組——組距不同各組頻數(shù)的分布受組距大小不同的影響各組絕對頻數(shù)的多少不能反映頻數(shù)分布的實際狀況需要用頻數(shù)密度(頻數(shù)密度=頻數(shù)/組距)反映頻數(shù)分布的實際狀況采用等組距還是不等組距要根據(jù)數(shù)據(jù)特點和研究需要而定。一般應(yīng)盡量采用等距分組。因為可根據(jù)絕對頻數(shù)來觀察頻數(shù)分布的特征和規(guī)律,便于繪制頻數(shù)分布圖,也便于計算某些統(tǒng)計特征值。等距分組和異距分組月收入

數(shù)比

(百元)(個)(%)0—6612.56—121122.912—182143.818—24714.624—3036.3

計48100.0月收入

數(shù)頻數(shù)比

頻率(百元)(個)密度(%)密度0—8111.3822.92.868—15172.4335.4

5.0615—20142.829.25.83

20—2530.66.31.2525—3030.66.31.25

計481.6100.03.33等距分組異距分組頻數(shù)分布表的編制舉例

教材P.61例3.6【例3.6】某電腦公司2005年前四個月各天的銷售量數(shù)據(jù)(單位:臺)。試對數(shù)據(jù)進(jìn)行分組。

等距分組表

(上下組限重疊)等距分組表

(上下組限間斷)等距分組表

(使用開口組)組中值組距分組掩蓋了分布在各組內(nèi)的各實際變量值,為反映各組數(shù)據(jù)的一般水平,通常用組中值(Classmidpoint)作為某組數(shù)據(jù)的代表值。

組中值=(下限值十上限值)/2以組中值作為組代表值的假定條件是:各組數(shù)據(jù)在本組內(nèi)呈均勻分布或在組中值兩側(cè)呈對稱分布。如果實際數(shù)據(jù)分布不符合此假定,則用組中值作為一組數(shù)據(jù)的代表值會有一定誤差。二、數(shù)值型數(shù)據(jù)的圖示數(shù)值型數(shù)據(jù)的圖示方法除前述介紹的條形圖、餅圖、環(huán)形圖及累積分布圖外,還有以下一些圖示方法,這些方法并不適用于分類數(shù)據(jù)和順序數(shù)據(jù)。㈠分組數(shù)據(jù):直方圖和折線圖㈡未分組數(shù)據(jù):莖葉圖和箱線圖㈢時間序列數(shù)據(jù):線圖㈣多變量數(shù)據(jù)—雷達(dá)圖㈠分組數(shù)據(jù):直方圖和折線圖1.直方圖(Histogram)直方圖是用矩形的寬度和高度來表示頻數(shù)分布的圖形。在平面直角坐標(biāo)中,橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率,各組組距與相應(yīng)的頻數(shù)形成了多個矩形組成的直方圖。實際是用矩形的寬度和高度(即面積)表示各組的頻數(shù)分布。直方圖與條形圖不同分組數(shù)據(jù)-直方圖頻數(shù)(人)1512963105110115120125130135140日加工零件數(shù)(個)直方圖下的面積之和等于1圖3-8某車間工人日加工零件數(shù)的直方圖我一眼就看出來了,大多數(shù)人的日加工零件數(shù)在120~125之間!直方圖與條形圖的區(qū)別條形圖是用條形的長度(橫置時)表示各類別頻數(shù)的多少,其寬度(表示類別)則是固定的。直方圖是用直方的面積表示各組頻數(shù)的多少,矩形的高度表示每一組的頻數(shù)或頻率,寬度則表示各組的組距,其高度與寬度均有意義直方圖的各矩形通常是連續(xù)排列,條形圖則是分開排列條形圖主要用于展示分類數(shù)據(jù),直方圖則主要用于展示數(shù)值型數(shù)據(jù)2.折線圖折線圖也稱頻數(shù)多邊形圖(Frequencypolygon)是在直方圖的基礎(chǔ)上,把直方圖頂部的中點(組中值)用直線連接起來,再把原來的直方圖抹掉折線圖的兩個終點要與橫軸相交,具體的做法是第一個矩形的頂部中點通過豎邊中點(即該組頻數(shù)一半的位置)連接到橫軸,最后一個矩形頂部中點與其豎邊中點連接到橫軸折線圖下所圍成的面積與直方圖的面積相等,二者所表示的頻數(shù)分布是一致的1512963105110115120125130135140日加工零件數(shù)(個)頻數(shù)(人)折線圖下的面積與直方圖的面積相等!分組數(shù)據(jù)—折線圖圖3-9某車間工人日加工零件數(shù)的折線圖㈡未分組數(shù)據(jù):莖葉圖和箱線圖

1.莖葉圖(Stem-and-leafdisplay)⑴用于顯示未分組的原始數(shù)據(jù)的分布⑵由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的⑶以該組數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉⑷對于n(20≤n≤300)個數(shù)據(jù),莖葉圖最大行數(shù)不超過

L=[10×log10n

]

⑸莖葉圖類似于橫置的直方圖,但又有區(qū)別直方圖可大體上看出一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個原始數(shù)值,保留了原始數(shù)據(jù)的信息樹莖樹葉7880223477788890012222333344466777889013344579910111213數(shù)據(jù)個數(shù)3132410莖葉圖類似橫置的直方圖未分組數(shù)據(jù)—莖葉圖圖3-10某車間工人日加工零件數(shù)的莖葉圖

2144677莖葉圖的制作DatainRawform(ascollected):(未排序數(shù)據(jù))

24,26,24,21,27,27,30,41,32,38DateOrderedfromSmallesttoLargest:(從小到大排序)21,24,24,26,27,27,30,32,38,41

Stem

andLeaf

display(莖葉圖):302841未分組數(shù)據(jù)—莖葉圖(擴(kuò)展的莖葉圖)樹莖樹葉10s10.11*11t11f11s11.12*12t12f12s12.13*12t13f13s13.78802234577788890012222333344455667778890133445799樹莖樹葉10*10.11*11.12*12.13*13.78802234577788890012222333344455667778890133445799圖3-11圖3-10擴(kuò)展后的莖葉圖圖3-12某電腦公司日銷售量莖葉圖圖3-13圖3-12擴(kuò)展后的莖葉圖2.箱線圖(Boxplot)用于顯示未分組的原始數(shù)據(jù)的分布一組數(shù)據(jù)也稱為單批數(shù)據(jù),多組數(shù)據(jù)也稱為多批數(shù)據(jù)。對于單批數(shù)據(jù)可以繪制簡單箱線圖;對于多批數(shù)據(jù)可以繪制批比較箱線圖。箱線圖可以反映原始數(shù)據(jù)分布的特征,還可以進(jìn)行多組數(shù)據(jù)分布特征的比較。箱線圖由一組數(shù)據(jù)的5個特征值繪制而成,它由一個箱子和兩條線段組成其繪制方法是:首先找出一組數(shù)據(jù)的5個特征值,即最大值、最小值、中位數(shù)Me和兩個四分位數(shù)(下四分位數(shù)QL和上四分位數(shù)QU)連接兩個四分位數(shù)畫出箱子,再將兩個極值點與箱子相連接未分組數(shù)據(jù)—單批數(shù)據(jù)箱線圖

(箱線圖的構(gòu)成)中位數(shù)4681012QUQLX最大值X最小值圖3-14簡單箱線圖未分組數(shù)據(jù)—單批數(shù)據(jù)箱線圖舉例最小值107最大值139中位數(shù)123下四分位數(shù)117.75上四分位數(shù)128105110115120125130135140圖3-1550名工人日加工零件數(shù)的箱線圖未分組數(shù)據(jù)—單批數(shù)據(jù)箱線圖舉例最小值141最大值237中位數(shù)182下四分位數(shù)170.25上四分位數(shù)197140150160170180190200210220230240圖3-16某電腦公司銷售量數(shù)據(jù)的箱線圖分布的形狀與箱線圖

對稱分布QL中位數(shù)

QU左偏分布QL中位數(shù)

QU右偏分布QL

中位數(shù)

QU圖3-17不同分布的箱線圖未分組數(shù)據(jù)—多批數(shù)據(jù)箱線圖對于多批數(shù)據(jù),可以將各批數(shù)據(jù)的箱線圖并列起來進(jìn)行分布特征的比較。股票分析中常用的K線圖與箱線圖類似,只不過K線圖是用開盤價、收盤價、最低價、最高價這四個數(shù)據(jù)繪制而成的。箱線圖的繪制可以由計算機(jī)來完成,例如MINITAB、STATISTICA等軟件中就有繪制箱線圖的功能。未分組數(shù)據(jù)—多批數(shù)據(jù)箱線圖舉例

教材P.68例3.7【例3.6】

從某大學(xué)經(jīng)濟(jì)管理專業(yè)二年級學(xué)生中隨機(jī)抽取11人,對8門主要課程的考試成績進(jìn)行調(diào)查,所得結(jié)果如表3-9。試?yán)L制各科考試成績的批比較箱線圖,并分析各科考試成績的分布特征表3-911名學(xué)生各科的考試成績數(shù)據(jù)課程名稱學(xué)生編號1234567891011英語經(jīng)濟(jì)數(shù)學(xué)西方經(jīng)濟(jì)學(xué)市場營銷學(xué)財務(wù)管理基礎(chǔ)會計學(xué)統(tǒng)計學(xué)計算機(jī)應(yīng)用基礎(chǔ)76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177

首先列出11個學(xué)生各科考試成績的最大值、最小值、中位數(shù)和兩個四分位數(shù),如下表所示。表3-10各學(xué)科考試成績的特征值課程名稱最小值QLMeQU最大值英語經(jīng)濟(jì)數(shù)學(xué)西方經(jīng)濟(jì)學(xué)市場營銷學(xué)財務(wù)管理基礎(chǔ)會計學(xué)統(tǒng)計學(xué)計算機(jī)應(yīng)用基礎(chǔ)70516669666555677155767068666270766378746868687278657874707069778171797773707078837481807573718085758384757873818678868576798181908288878187848293919290849091849795939188929495由下圖可看出,在8門課程中,平均考試成績較高的是英語和西方經(jīng)濟(jì)學(xué),較低的是經(jīng)濟(jì)數(shù)學(xué)和統(tǒng)計學(xué);從考試成績的離散程度來看,英語和市場營銷學(xué)的考試成績比較集中,且大體上為對稱分布;而經(jīng)濟(jì)數(shù)學(xué)、基礎(chǔ)會計學(xué)和統(tǒng)計學(xué)課程的考試成績比較分散;從分布形狀看,英語、市場營銷成績分布大體上為對稱分布。圖3-188門課程考試成績的箱線圖圖3-1911名學(xué)生8門課程考試成績的箱線圖Min-Max25%-75%Medianvalue455565758595105學(xué)生1學(xué)生2學(xué)生3學(xué)生4學(xué)生5學(xué)生6學(xué)生7學(xué)生8學(xué)生9學(xué)生10學(xué)生11由下圖可看出,在11名學(xué)生中,第2號學(xué)生各科的平均考試成績最高,而且各科成績之間的離散程度也較小,分布也較對稱,說明該生沒有偏科;第1號學(xué)生的平均考試成績最低,而且各科考試成績的離散程度也較大;各科考試成績之間離散程度最大的是第3號學(xué)生。㈢時間序列數(shù)據(jù):線圖線圖是在平面坐標(biāo)上用折線表現(xiàn)數(shù)量變化特征和規(guī)律的統(tǒng)計圖。主要用于顯示時間序列數(shù)據(jù),以反映事物發(fā)展變化規(guī)律和趨勢。繪制線圖時應(yīng)注意以下幾點時間一般繪在橫軸,指標(biāo)數(shù)據(jù)繪在縱軸圖形的長寬比例要適當(dāng),其長寬比例大致為10:7一般情況下,縱軸數(shù)據(jù)下端應(yīng)從“0”開始,以便于比較。數(shù)據(jù)與“0”之間的間距過大時,可以采取折斷的符號將縱軸折斷時間序列數(shù)據(jù)—線圖(舉例)

教材P.71例3.8【例3.8】已知1991~2000年我國城鄉(xiāng)居民家庭的人均收入數(shù)據(jù)如表10。試?yán)L制線圖¥

表101991~2000年城鄉(xiāng)居民家庭人均收入年份城鎮(zhèn)居民農(nóng)村居民19911992199319941995199619971998199920001700.62026.62577.43496.24283.04838.95160.35425.15854.06280.0708.6784.0921.61221.01577.71926.12091.12162.02210.32254.4時間序列數(shù)據(jù)(由Excel繪制的線圖)時間序列數(shù)據(jù)—錐形圖(實例)時間序列數(shù)據(jù)圖示(實例)圖:2003-2007年國內(nèi)生產(chǎn)總值及其增長速度新華社發(fā)時間序列數(shù)據(jù)圖示(實例)圖:2003-2007年居民消費價格漲跌幅度新華社發(fā)時間序列數(shù)據(jù)圖示(實例)圖:2007年末國家外匯儲備15282億美元新華社發(fā)雷達(dá)圖(RadarChart)是顯示多個變量的常用圖示方法在顯示或?qū)Ρ雀髯兞康臄?shù)值總和時十分有用假定各變量的取值具有相同的正負(fù)號,總的絕對值與圖形所圍成的區(qū)域成正比可用于研究多個樣本之間的相似程度㈣多變量數(shù)據(jù)—雷達(dá)圖

設(shè)有n組樣本S1,S2,…Sn,每個樣本測得P個變量X1,X2,Xp,要繪制這P個變量的雷達(dá)圖,其具體做法是多變量數(shù)據(jù)—雷達(dá)圖(雷達(dá)圖的制作)先做一個圓,然后將圓P等分,得到P個點,令這P個點分別對應(yīng)P個變量,在將這P個點與圓心連線,得到P個幅射狀的半徑,這P個半徑分別作為P個變量的坐標(biāo)軸,每個變量值的大小由半徑上的點到圓心的距離表示再將同一樣本的值在P個坐標(biāo)上的點連線。這樣,n個樣本形成的n個多邊形就是一個雷達(dá)圖多變量數(shù)據(jù)—雷達(dá)圖(舉例)【例3.8】2000年我國城鄉(xiāng)居民家庭平均每人各項生活消費支出構(gòu)成數(shù)據(jù)如表。試?yán)L制雷達(dá)圖。今天的主食是面包2000年城鄉(xiāng)居民家庭平均每人生活消費支出構(gòu)成(%)項目城鎮(zhèn)居民農(nóng)村居民

食品衣著家庭設(shè)備用品及服務(wù)醫(yī)療

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論