統(tǒng)計學數(shù)據(jù)的搜集整理與顯示_第1頁
統(tǒng)計學數(shù)據(jù)的搜集整理與顯示_第2頁
統(tǒng)計學數(shù)據(jù)的搜集整理與顯示_第3頁
統(tǒng)計學數(shù)據(jù)的搜集整理與顯示_第4頁
統(tǒng)計學數(shù)據(jù)的搜集整理與顯示_第5頁
已閱讀5頁,還剩129頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

統(tǒng)計學數(shù)據(jù)的搜集整理與顯示第一頁,共一百三十四頁,編輯于2023年,星期三統(tǒng)計研究的過程收集數(shù)據(jù)(取得數(shù)據(jù))整理數(shù)據(jù)(處理數(shù)據(jù))解釋數(shù)據(jù)(結果說明)分析數(shù)據(jù)(研究數(shù)據(jù))實際問題第二頁,共一百三十四頁,編輯于2023年,星期三統(tǒng)計分析方法統(tǒng)計方法描述統(tǒng)計推斷統(tǒng)計參數(shù)估計假設檢驗第三頁,共一百三十四頁,編輯于2023年,星期三描述統(tǒng)計

(descriptivestatistics)內(nèi)容整理數(shù)據(jù)展示數(shù)據(jù)描述性分析

目的描述數(shù)據(jù)特征找出數(shù)據(jù)的基本規(guī)律02550Q1Q2Q3Q4¥x=30s2=105第四頁,共一百三十四頁,編輯于2023年,星期三推斷統(tǒng)計

(inferentialstatistics)內(nèi)容參數(shù)估計假設檢驗目的對總體特征作出推斷樣本總體第五頁,共一百三十四頁,編輯于2023年,星期三描述統(tǒng)計與推斷統(tǒng)計的關系反映客觀現(xiàn)象的數(shù)據(jù)總體內(nèi)在的數(shù)量規(guī)律性推斷統(tǒng)計(利用樣本信息和概率論對總體的數(shù)量特征進行估計和檢驗等)概率論(包括分布理論、大數(shù)定律和中心極限定理等)描述統(tǒng)計(統(tǒng)計數(shù)據(jù)的搜集、整理、顯示和分析等)總體數(shù)據(jù)樣本數(shù)據(jù)第六頁,共一百三十四頁,編輯于2023年,星期三統(tǒng)計的應用領域統(tǒng)計學經(jīng)濟學管理學醫(yī)學工程學社會學…第七頁,共一百三十四頁,編輯于2023年,星期三統(tǒng)計數(shù)據(jù)的分類統(tǒng)計數(shù)據(jù)的分類按計量層次分類的數(shù)據(jù)順序的數(shù)據(jù)數(shù)值型數(shù)據(jù)按時間狀況截面的數(shù)據(jù)時序的數(shù)據(jù)按收集方法觀察的數(shù)據(jù)試驗的數(shù)據(jù)第八頁,共一百三十四頁,編輯于2023年,星期三統(tǒng)計數(shù)據(jù)的分類

(按計量尺度分)分類數(shù)據(jù)(categoricaldata)

對事物進行分類的結果數(shù)據(jù)表現(xiàn)為類別,用文字來表述例如,人口按性別分為男、女兩類

順序數(shù)據(jù)(rankdata)

對事物類別順序的測度數(shù)據(jù)表現(xiàn)為類別,用文字來表述例如,產(chǎn)品分為一等品、二等品、三等品、次品等數(shù)值型數(shù)據(jù)(metricdata)

對事物的精確測度結果表現(xiàn)為具體的數(shù)值例如:身高為175cm、168cm、183cm第九頁,共一百三十四頁,編輯于2023年,星期三統(tǒng)計數(shù)據(jù)的分類

(按收集方法分)觀測的數(shù)據(jù)(observationaldata)

通過調(diào)查或觀測而收集到的數(shù)據(jù)在沒有對事物人為控制的條件下而得到的有關社會經(jīng)濟現(xiàn)象的統(tǒng)計數(shù)據(jù)幾乎都是觀測數(shù)據(jù)試驗的數(shù)據(jù)(experimentaldata)

在試驗中控制試驗對象而收集到的數(shù)據(jù)比如,對一種新藥療效的試驗,對一種新的農(nóng)作物品種的試驗等自然科學領域的數(shù)據(jù)大多數(shù)都為試驗數(shù)據(jù)第十頁,共一百三十四頁,編輯于2023年,星期三統(tǒng)計數(shù)據(jù)的分類

(按時間狀況分)截面數(shù)據(jù)(cross-sectionaldata)

在相同或近似相同的時間點上收集的數(shù)據(jù)描述現(xiàn)象在某一時刻的變化情況比如,2002年我國各地區(qū)的國內(nèi)生產(chǎn)總值數(shù)據(jù)時間序列數(shù)據(jù)(timeseriesdata)

在不同時間上收集到的數(shù)據(jù)描述現(xiàn)象隨時間變化的情況比如,1996年至2002年國內(nèi)生產(chǎn)總值數(shù)據(jù)第十一頁,共一百三十四頁,編輯于2023年,星期三總體和樣本總體(population)所研究的全部元素的集合,其中的每一個元素稱為個體分為有限總體和無限總體有限總體的范圍能夠明確確定,且元素的數(shù)目是有限的無限總體所包括的元素是無限的,不可數(shù)的樣本(sample)從總體中抽取的一部分元素的集合構成樣本的元素的數(shù)目稱為樣本容量第十二頁,共一百三十四頁,編輯于2023年,星期三參數(shù)和統(tǒng)計量參數(shù)(parameter)研究者想要了解的總體的某種特征值所關心的參數(shù)主要有總體均值()、標準差()、總體比例()等總體參數(shù)通常用希臘字母表示統(tǒng)計量(statistic)根據(jù)樣本數(shù)據(jù)計算出來的一個量所關心的樣本統(tǒng)計量有樣本均值(x)、樣本標準差(s)、樣本比例(p)等樣本統(tǒng)計量通常用小寫英文字母來表示第十三頁,共一百三十四頁,編輯于2023年,星期三變量

(Variable)

說明現(xiàn)象某種特征的概念如商品銷售額、受教育程度、產(chǎn)品的質(zhì)量等級等變量的具體表現(xiàn)稱為變量值,即數(shù)據(jù)變量可以分為分類變量(categoricalvariable)

:說明事物類別的一個名稱順序變量(rankvariable

)

:說明事物有序類別的一個名稱數(shù)值型變量(metricvariable

)

:說明事物數(shù)字特征的一個名稱離散變量:取有限個值連續(xù)變量:可以取無窮多個值第十四頁,共一百三十四頁,編輯于2023年,星期三統(tǒng)計中的幾個基本概念平均數(shù)標準差比例參數(shù)統(tǒng)計量xsp總體樣本第十五頁,共一百三十四頁,編輯于2023年,星期三幾種常用的統(tǒng)計軟件

(Software)典型的統(tǒng)計軟件SASSPSSMINITABSTATISTICAS-PLUSRExcel第十六頁,共一百三十四頁,編輯于2023年,星期三第十七頁,共一百三十四頁,編輯于2023年,星期三§1數(shù)據(jù)的搜集§1.1數(shù)據(jù)的來源§1.2調(diào)查數(shù)據(jù)§1.3實驗數(shù)據(jù)§1.4數(shù)據(jù)的誤差§1.5數(shù)據(jù)文件第十八頁,共一百三十四頁,編輯于2023年,星期三學習目標數(shù)據(jù)的來源搜集數(shù)據(jù)的調(diào)查方法問卷設計搜集數(shù)據(jù)的實驗方法數(shù)據(jù)的誤差數(shù)據(jù)的質(zhì)量要求第十九頁,共一百三十四頁,編輯于2023年,星期三系統(tǒng)外部的數(shù)據(jù)統(tǒng)計部門和政府部門公布的有關資料,如各類統(tǒng)計年鑒各類經(jīng)濟信息中心、信息咨詢機構、專業(yè)調(diào)查機構等提供的數(shù)據(jù)各類專業(yè)期刊、報紙、書籍所提供的資料各種會議,如博覽會、展銷會、交易會及專業(yè)性、學術性研討會上交流的有關資料從互聯(lián)網(wǎng)或圖書館查閱到的相關資料數(shù)據(jù)的間接來源§1.1數(shù)據(jù)的來源第二十頁,共一百三十四頁,編輯于2023年,星期三系統(tǒng)內(nèi)部的數(shù)據(jù)業(yè)務資料,如與業(yè)務經(jīng)營活動有關的各種單據(jù),記錄經(jīng)營活動過程中的各種統(tǒng)計報表各種財務,會計核算和分析資料等第二十一頁,共一百三十四頁,編輯于2023年,星期三二手數(shù)據(jù)的特點搜集容易,采集成本低作用廣泛分析所要研究的問題提供研究問題的背景幫助研究者更好地定義問題檢驗和回答某些疑問和假設尋找研究問題的思路和途徑搜集二手資料在研究中應優(yōu)先考慮第二十二頁,共一百三十四頁,編輯于2023年,星期三二手數(shù)據(jù)的評估數(shù)據(jù)是誰搜集的?可信度評估為什么目的而搜集的?數(shù)據(jù)是怎樣搜集的?什么時候搜集的?第二十三頁,共一百三十四頁,編輯于2023年,星期三數(shù)據(jù)的直接來源

(原始數(shù)據(jù))調(diào)查數(shù)據(jù)通過調(diào)查方法獲得的數(shù)據(jù)通常是對社會現(xiàn)象而言通常取自有限總體實驗數(shù)據(jù)通過實驗方法得到的數(shù)據(jù)通常是對自然現(xiàn)象而言也被廣泛運用到社會科學中如心理學、教育學、社會學、經(jīng)濟學、管理學等第二十四頁,共一百三十四頁,編輯于2023年,星期三抽樣方法抽樣方式概率抽樣非概率抽樣簡單隨機抽樣分層抽樣整群抽樣系統(tǒng)抽樣多階段抽樣方便抽樣判斷抽樣自愿樣本滾雪球抽樣配額抽樣§1.2調(diào)查數(shù)據(jù)第二十五頁,共一百三十四頁,編輯于2023年,星期三概率抽樣與非概率抽樣的比較概率抽樣依據(jù)隨機原則抽選樣本樣本統(tǒng)計量的理論分布存在可根據(jù)調(diào)查的結果推斷總體非概率抽樣不是依據(jù)隨機原則抽選樣本樣本統(tǒng)計量的分布是不確定的無法使用樣本的結果推斷總體第二十六頁,共一百三十四頁,編輯于2023年,星期三搜集數(shù)據(jù)的基本方法搜集數(shù)據(jù)的基本方法調(diào)查的數(shù)據(jù)實驗的數(shù)據(jù)自填式面訪式電話式第二十七頁,共一百三十四頁,編輯于2023年,星期三各調(diào)查方法的比較自填式面訪式電話式調(diào)查時間慢中等快捷調(diào)查費用低高低問卷難度要求容易可以復雜要求容易有形輔助物的使用中等利用充分利用無法利用調(diào)查過程控制簡單復雜容易調(diào)查員作用的發(fā)揮無法發(fā)揮充分發(fā)揮一般發(fā)揮回答率最低較高一般第二十八頁,共一百三十四頁,編輯于2023年,星期三實驗租和對照組將研究對象分為兩組:實驗組和對照組實驗組和隨機組的產(chǎn)生應遵循隨機原則,而且應該匹配匹配指對實驗單位的背景材料進行分析比較,將情況類似的每對單位分別隨機地分配到實驗組和對照組§1.3實驗數(shù)據(jù)第二十九頁,共一百三十四頁,編輯于2023年,星期三實驗中的若干問題人的意愿研究的對象是人的時候,在劃分實驗組和對照組時的隨機原則將面臨挑戰(zhàn)心理問題人們對被研究非常敏感,這使得他們更加注意自我,從而走到事物的另一個極端道德問題當某種實驗涉及道德問題時,人們會處于進退兩難的尷尬境地第三十頁,共一百三十四頁,編輯于2023年,星期三實驗中的統(tǒng)計實驗設計本身就是一個統(tǒng)計問題確定進行實驗所需要的單位的個數(shù),以保證實驗可以達到統(tǒng)計顯著的結果將統(tǒng)計的思想融入到實驗設計中,使實驗設計符合統(tǒng)計分析的標準對實驗數(shù)據(jù)進行分析時,統(tǒng)計可以提供最恰當?shù)姆治龇椒ǖ谌豁摚惨话偃捻?,編輯?023年,星期三§1.4數(shù)據(jù)的誤差第三十二頁,共一百三十四頁,編輯于2023年,星期三抽樣誤差

(samplingerror)由于抽樣的隨機性所帶來的誤差所有樣本可能的結果與總體真值之間的平均性差異影響抽樣誤差的大小的因素樣本量的大小總體的變異性第三十三頁,共一百三十四頁,編輯于2023年,星期三非抽樣誤差

(non-samplingerror)相對抽樣誤差而言除抽樣誤差之外的,由于其他原因造成的樣本觀察結果與總體真值之間的差異存在于所有的調(diào)查之中概率抽樣,非概率抽樣,全面性調(diào)查有抽樣框誤差、回答誤差、無回答誤差、調(diào)查員誤差、測量誤差第三十四頁,共一百三十四頁,編輯于2023年,星期三誤差的控制抽樣誤差可計算和控制非抽樣誤差的控制調(diào)查員的挑選調(diào)查員的培訓督導員的調(diào)查專業(yè)水平調(diào)查過程控制調(diào)查結果進行檢驗、評估現(xiàn)場調(diào)查人員進行獎懲的制度第三十五頁,共一百三十四頁,編輯于2023年,星期三統(tǒng)計數(shù)據(jù)的質(zhì)量要求1.精

度:最低的抽樣誤差或隨機誤差2.準確性:最小的非抽樣誤差或偏差3.關聯(lián)性:滿足用戶決策、管理和研究的需要4.及時性:在最短的時間里取得并公布數(shù)據(jù)5.一致性:保持時間序列的可比性6.最低成本:以最經(jīng)濟的方式取得數(shù)據(jù)第三十六頁,共一百三十四頁,編輯于2023年,星期三§2數(shù)據(jù)的整理與顯示§2.1

數(shù)據(jù)的預處理§2.2分類和順序數(shù)據(jù)的整理與顯示§2.3數(shù)值型數(shù)據(jù)的整理與顯示§2.4統(tǒng)計表第三十七頁,共一百三十四頁,編輯于2023年,星期三學習目標了解數(shù)據(jù)預處理的內(nèi)容和目的掌握分類和順序數(shù)據(jù)的整理與顯示方法掌握數(shù)值型數(shù)據(jù)的整理與顯示方法用R作頻數(shù)分布表和形圖合理使用統(tǒng)計表第三十八頁,共一百三十四頁,編輯于2023年,星期三數(shù)據(jù)的審核檢查數(shù)據(jù)中的錯誤數(shù)據(jù)的篩選找出符合條件的數(shù)據(jù)數(shù)據(jù)排序升序和降序尋找數(shù)據(jù)的基本特征§2.1數(shù)據(jù)的預處理

第三十九頁,共一百三十四頁,編輯于2023年,星期三數(shù)據(jù)審核—原始數(shù)據(jù)

(rawdata)審核的內(nèi)容完整性審核檢查應調(diào)查的單位或個體是否有遺漏所有的調(diào)查項目或指標是否填寫齊全準確性審核檢查數(shù)據(jù)是否真實反映客觀實際情況,內(nèi)容是否符合實際檢查數(shù)據(jù)是否有錯誤,計算是否正確等第四十頁,共一百三十四頁,編輯于2023年,星期三數(shù)據(jù)的審核—原始數(shù)據(jù)

(rawdata)審核數(shù)據(jù)準確性的方法邏輯檢查從定性角度,審核數(shù)據(jù)是否符合邏輯,內(nèi)容是否合理,各項目或數(shù)字之間有無相互矛盾的現(xiàn)象主要用于對分類和順序據(jù)的審核計算檢查檢查調(diào)查表中的各項數(shù)據(jù)在計算結果和計算方法上有無錯誤主要用于對數(shù)值型數(shù)據(jù)的審核第四十一頁,共一百三十四頁,編輯于2023年,星期三數(shù)據(jù)的審核—二手數(shù)據(jù)

(secondhanddata)適用性審核弄清楚數(shù)據(jù)的來源、數(shù)據(jù)的口徑以及有關的背景材料確定數(shù)據(jù)是否符合自己分析研究的需要時效性審核盡可能使用最新的數(shù)據(jù)確認是否必要做進一步的加工整理第四十二頁,共一百三十四頁,編輯于2023年,星期三數(shù)據(jù)篩選

(datafilter)當數(shù)據(jù)中的錯誤不能予以糾正,或者有些數(shù)據(jù)不符合調(diào)查的要求而又無法彌補時,需要對數(shù)據(jù)進行篩選數(shù)據(jù)篩選的內(nèi)容包括將某些不符合要求的數(shù)據(jù)或有明顯錯誤的數(shù)據(jù)予以剔除將符合某種特定條件的數(shù)據(jù)篩選出來,而不符合特定條件的數(shù)據(jù)予以剔除第四十三頁,共一百三十四頁,編輯于2023年,星期三要弄清所面對的數(shù)據(jù)類型,因為不同類型的數(shù)據(jù),所采取的處理方式和方法是不同的對分類數(shù)據(jù)和順序數(shù)據(jù)主要是做分類整理對數(shù)值型數(shù)據(jù)則主要是做分組整理適合于低層次數(shù)據(jù)的整理和顯示方法也適合于高層次的數(shù)據(jù);但適合于高層次數(shù)據(jù)的整理和顯示方法并不適合于低層次的數(shù)據(jù)§2.2分類和順序數(shù)據(jù)的整理與顯示第四十四頁,共一百三十四頁,編輯于2023年,星期三分類數(shù)據(jù)的整理

(基本過程)1. 列出各類別2.計算各類別的頻數(shù)3.制作頻數(shù)分布表4.用圖形顯示數(shù)據(jù)分類頻數(shù)比例百分比比率ABCDE第四十五頁,共一百三十四頁,編輯于2023年,星期三分類數(shù)據(jù)的整理

(可計算的統(tǒng)計量)頻數(shù)(frequency)

:落在各類別中的數(shù)據(jù)個數(shù)比例(proportion)

:某一類別數(shù)據(jù)占全部數(shù)據(jù)的比值百分比(percentage)

:將對比的基數(shù)作為100而計算的比值,即比例X100%比率(ratio)

:不同類別數(shù)值的比值第四十六頁,共一百三十四頁,編輯于2023年,星期三分類數(shù)據(jù)整理—頻數(shù)分布表

(例題分析)【例】一家市場調(diào)查公司為研究不同品牌飲料的市場占有率,對隨機抽取的一家超市進行了調(diào)查。調(diào)查員在某天對50名顧客購買飲料的品牌進行了記錄,如果一個顧客購買某一品牌的飲料,就將這一飲料的品牌名字記錄一次。右邊就是記錄的原始數(shù)據(jù)用R制作頻數(shù)分布表第四十七頁,共一百三十四頁,編輯于2023年,星期三例1讀取某公司雇員數(shù)據(jù)(SPSS數(shù)據(jù)文件),保存為R數(shù)據(jù)文件,指定因子各水平的標簽,分析性別、是否少數(shù)民族、工作類型、教育程度等頻數(shù)分布。y=read.spss('E:/RandStatistics/RTeaching/dataset/Employeedata.sav',use.value.labels=F,to.data.frame=T,max.value.labels=Inf,s=FALSE)Names(y);[1]"ID""GENDER""BDATE""EDUC""JOBCAT""SALARY"[7]"SALBEGIN""JOBTIME""PREVEXP""MINORITY"yy$MINORITY=factor(y$MINORITY,levels=sort(unique(y$MINORITY),decreasing=T),labels=c("Yes","No"),exclude=NA,order=F)第四十八頁,共一百三十四頁,編輯于2023年,星期三y$JOBCAT=factor(y$JOBCAT,levels=sort(unique(y$JOBCAT),decreasing=T),labels=c("經(jīng)理","保管員","服務員"),exclude=NA,order=F)Edata=y;save(Edata,file="E:/R/Employeedata.Rdata")load("E:/R/Edata.Rdata");attach(Edata);table(Edata$JOBCAT)經(jīng)理保管員服務員

8427363第四十九頁,共一百三十四頁,編輯于2023年,星期三>table(Edata$GENDER)fm216258>table(Edata$MINORITY)YesNo104370>table(Edata$EDUC)8121415161718192021531906116591192721第五十頁,共一百三十四頁,編輯于2023年,星期三分類數(shù)據(jù)的圖示—條形圖

(barChart)用寬度相同的條形的高度或長短來表示各類別數(shù)據(jù)的圖形有單式條形圖、復式條形圖等形式主要用于反映分類數(shù)據(jù)的頻數(shù)分布繪制時,各類別可以放在縱軸,稱為條形圖,也可以放在橫軸,稱為柱形圖第五十一頁,共一百三十四頁,編輯于2023年,星期三分類數(shù)據(jù)的圖示—條形圖

(例題分析)第五十二頁,共一百三十四頁,編輯于2023年,星期三例2對公司雇員數(shù)據(jù),做出性別、工作類型、教育程度等條形圖。plot(Edata$GENDER)plot(Edata$JOBCAT)hist(Edata$EDUC)第五十三頁,共一百三十四頁,編輯于2023年,星期三第五十四頁,共一百三十四頁,編輯于2023年,星期三第五十五頁,共一百三十四頁,編輯于2023年,星期三第五十六頁,共一百三十四頁,編輯于2023年,星期三分類數(shù)據(jù)的圖示—餅圖

(pieChart)也稱圓形圖,是用圓形及圓內(nèi)扇形的角度來表示數(shù)值大小的圖形主要用于表示總體或樣本中各組成部分所占的比例,對于研究結構性問題十分有用繪制圓形圖時,總體中各部分所占的百分比用園內(nèi)的各個扇形角度表示,這些扇形的中心角度,是按各部分數(shù)據(jù)百分比占3600的相應比例確定的第五十七頁,共一百三十四頁,編輯于2023年,星期三分類數(shù)據(jù)的圖示—餅圖

(例題分析)第五十八頁,共一百三十四頁,編輯于2023年,星期三例3對公司雇員數(shù)據(jù),做出性別、工作類型、教育程度等餅圖。pie(table(Edata$GENDER))pie(table(Edata$JOBCAT))pie(table(Edata$EDUC))第五十九頁,共一百三十四頁,編輯于2023年,星期三第六十頁,共一百三十四頁,編輯于2023年,星期三第六十一頁,共一百三十四頁,編輯于2023年,星期三第六十二頁,共一百三十四頁,編輯于2023年,星期三順序數(shù)據(jù)的整理

(可計算的指標)1.累積頻數(shù)(cumulativefrequencies):各類別頻數(shù)的逐級累加2.累積頻率(cumulativepercentages):各類別頻率(百分比)的逐級累加第六十三頁,共一百三十四頁,編輯于2023年,星期三順序數(shù)據(jù)的頻數(shù)分布表

(例題分析)【例】在一項城市住房問題的研究中,研究人員在甲乙兩個城市各抽樣調(diào)查300戶,其中的一個問題是:“您對您家庭目前的住房狀況是否滿意?

1.非常不滿意;2.不滿意;3.一般;4.滿意;5.非常滿意。甲城市家庭對住房狀況評價的頻數(shù)分布回答類別甲城市戶數(shù)(戶)百分比(%)向上累積向下累積戶數(shù)(戶)百分比(%)戶數(shù)(戶)百分比(%)非常不滿意不滿意一般滿意非常滿意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合計300100.0————第六十四頁,共一百三十四頁,編輯于2023年,星期三順序數(shù)據(jù)的頻數(shù)分布表

(例題分析)乙城市家庭對住房狀況評價的頻數(shù)分布回答類別乙城市戶數(shù)(戶)百分比(%)向上累積向下累積戶數(shù)(戶)百分比(%)戶數(shù)(戶)百分比(%)非常不滿意不滿意一般滿意非常滿意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.034.012.7合計300100.0————第六十五頁,共一百三十四頁,編輯于2023年,星期三順序數(shù)據(jù)的圖示—累計頻數(shù)分布圖

(例題分析)243001322252700100200300400

非常不滿意

不滿意

一般

滿意

非常滿意累積戶數(shù)(戶)(a)向上累積27616830300750100200300400

非常不滿意

不滿意

一般

滿意

非常滿意累積戶數(shù)(戶)(b)向下累積甲城市家庭對住房狀況評價的累積頻數(shù)分布第六十六頁,共一百三十四頁,編輯于2023年,星期三環(huán)形圖

(annularchart)環(huán)形圖中間有一個“空洞”,總體中的每一部分數(shù)據(jù)用環(huán)中的一段表示環(huán)形圖與圓形圖類似,但又有區(qū)別圓形圖只能顯示一個總體各部分所占的比例環(huán)形圖則可以同時繪制多個總體的數(shù)據(jù)系列,每一個總體的數(shù)據(jù)系列為一個環(huán)環(huán)形圖可用于結構比較研究環(huán)形圖主要用于展示分類和順序數(shù)據(jù)第六十七頁,共一百三十四頁,編輯于2023年,星期三環(huán)形圖

(例題分析)8%36%31%15%7%33%26%21%13%10%

非常不滿意

不滿意

一般

滿意

非常滿意

甲乙兩城市家庭對住房狀況的評價第六十八頁,共一百三十四頁,編輯于2023年,星期三分組方法等距分組異距分組單變量值分組組距分組§2.3數(shù)值型數(shù)據(jù)的整理與顯示第六十九頁,共一百三十四頁,編輯于2023年,星期三單變量值分組

(要點)1.將一個變量值作為一組2.適合于離散變量3.適合于變量值較少的情況第七十頁,共一百三十四頁,編輯于2023年,星期三組距分組

(要點)將變量值的一個區(qū)間作為一組適合于連續(xù)變量適合于變量值較多的情況需要遵循“不重不漏”的原則可采用等距分組,也可采用不等距分組第七十一頁,共一百三十四頁,編輯于2023年,星期三組距分組

(步驟)確定組數(shù):組數(shù)的確定應以能夠顯示數(shù)據(jù)的分布特征和規(guī)律為目的。在實際分組時,可以按Sturges提出的經(jīng)驗公式來確定組數(shù)K確定組距:組距(ClassWidth)是一個組的上限與下限之差,可根據(jù)全部數(shù)據(jù)的最大值和最小值及所分的組數(shù)來確定,即

組距=(最大值-最小值)÷組數(shù)

統(tǒng)計出各組的頻數(shù)并整理成頻數(shù)分布表第七十二頁,共一百三十四頁,編輯于2023年,星期三組距分組

(幾個概念)1.下限(lowlimit)

:一個組的最小值2.上限(upperlimit)

:一個組的最大值3.組距(classwidth)

:上限與下限之差4.組中值(classmidpoint)

:下限與上限之間的中點值下限值+上限值2組中值=第七十三頁,共一百三十四頁,編輯于2023年,星期三頻數(shù)分布表的編制

(例題分析)【例】某電腦公司2002年前四個月各天的銷售量數(shù)據(jù)(單位:臺)。試對數(shù)據(jù)進行分組。

第七十四頁,共一百三十四頁,編輯于2023年,星期三頻數(shù)分布表的編制

(步驟)確定組數(shù):根據(jù)Sturges

提出的經(jīng)驗公式得組數(shù)K為:確定各組的組距:

組距=(237-141)÷10=9.610用R制作頻數(shù)分布表

第七十五頁,共一百三十四頁,編輯于2023年,星期三等距分組表

(上下組限重疊)第七十六頁,共一百三十四頁,編輯于2023年,星期三等距分組表

(上下組限間斷)第七十七頁,共一百三十四頁,編輯于2023年,星期三等距分組表

(使用開口組)第七十八頁,共一百三十四頁,編輯于2023年,星期三組距分組與不等距分組

(在表現(xiàn)頻數(shù)分布上的差異)等距分組各組頻數(shù)的分布不受組距大小的影響可直接根據(jù)絕對頻數(shù)來觀察頻數(shù)分布的特征不等距分組各組頻數(shù)的分布受組距大小不同的影響各組絕對頻數(shù)的多少不能反映頻數(shù)分布的實際狀況需要用頻數(shù)密度(頻數(shù)密度=頻數(shù)/組距)反映頻數(shù)分布的實際狀況第七十九頁,共一百三十四頁,編輯于2023年,星期三分組數(shù)據(jù)—直方圖

(histogram)用矩形的寬度和高度來表示頻數(shù)分布的圖形,實際上是用矩形的面積來表示各組的頻數(shù)分布在直角坐標中,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率,各組與相應的頻數(shù)就形成了一個矩形,即直方圖直方圖下的總面積等于1數(shù)值型數(shù)據(jù)的圖示第八十頁,共一百三十四頁,編輯于2023年,星期三分組數(shù)據(jù)的圖示

(直方圖的繪制)140150210直方圖下的面積之和等于1?某電腦公司銷售量分布的直方圖190200180160170頻數(shù)(天)25201510530220230240第八十一頁,共一百三十四頁,編輯于2023年,星期三例4對公司雇員數(shù)據(jù),做出工資數(shù)據(jù)直方圖。hist(Edata$SALARY)hist(Edata$SALARY,labels=T)第八十二頁,共一百三十四頁,編輯于2023年,星期三第八十三頁,共一百三十四頁,編輯于2023年,星期三第八十四頁,共一百三十四頁,編輯于2023年,星期三分組數(shù)據(jù)—直方圖

(直方圖與條形圖的區(qū)別)條形圖是用條形的長度(橫置時)表示各類別頻數(shù)的多少,其寬度(表示類別)則是固定的直方圖是用面積表示各組頻數(shù)的多少,矩形的高度表示每一組的頻數(shù)或百分比,寬度則表示各組的組距,其高度與寬度均有意義直方圖的各矩形通常是連續(xù)排列,條形圖則是分開排列條形圖主要用于展示分類數(shù)據(jù),直方圖則主要用于展示數(shù)值型數(shù)據(jù)第八十五頁,共一百三十四頁,編輯于2023年,星期三分組數(shù)據(jù)—折線圖

(frequencypolygon)折線圖也稱頻數(shù)多邊形圖是在直方圖的基礎上,把直方圖頂部的中點(組中值)用直線連接起來,再把原來的直方圖抹掉折線圖的兩個終點要與橫軸相交,具體的做法是第一個矩形的頂部中點通過豎邊中點(即該組頻數(shù)一半的位置)連接到橫軸,最后一個矩形頂部中點與其豎邊中點連接到橫軸折線圖下所圍成的面積與直方圖的面積相等,二者所表示的頻數(shù)分布是一致的第八十六頁,共一百三十四頁,編輯于2023年,星期三分組數(shù)據(jù)的圖示

(折線圖的繪制)折線圖與直方圖下的面積相等!140150210某電腦公司銷售量分布的折線圖190200180160170220230240頻數(shù)(天)25201510530第八十七頁,共一百三十四頁,編輯于2023年,星期三未分組數(shù)據(jù)—莖葉圖

(stem-and-leafdisplay)用于顯示未分組的原始數(shù)據(jù)的分布由“莖”和“葉”兩部分構成,其圖形是由數(shù)字組成的以該組數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉樹葉上只保留一位數(shù)字對于n(20n300)個數(shù)據(jù),莖葉圖最大行數(shù)不超過

L=[10×lg(n)]

6.莖葉圖類似于橫置的直方圖,但又有區(qū)別直方圖可觀察一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個原始數(shù)值,保留了原始數(shù)據(jù)的信息第八十八頁,共一百三十四頁,編輯于2023年,星期三未分組數(shù)據(jù)—莖葉圖

(例題分析)第八十九頁,共一百三十四頁,編輯于2023年,星期三未分組數(shù)據(jù)—莖葉圖

(擴展的莖葉圖)第九十頁,共一百三十四頁,編輯于2023年,星期三未分組數(shù)據(jù)—箱線圖

(boxplot)用于顯示未分組的原始數(shù)據(jù)的分布箱線圖由一組數(shù)據(jù)的5個特征值繪制而成,它由一個箱子和兩條線段組成其繪制方法是:首先找出一組數(shù)據(jù)的5個特征值,即最大值、最小值、中位數(shù)Me和兩個四分位數(shù)(下四分位數(shù)QL和上四分位數(shù)QU)連接兩個四分(位)數(shù)畫出箱子,再將兩個極值點與箱子相連接第九十一頁,共一百三十四頁,編輯于2023年,星期三未分組數(shù)據(jù)—單批數(shù)據(jù)箱線圖

(箱線圖的構成)中位數(shù)4681012QUQLX最大值X最小值簡單箱線圖第九十二頁,共一百三十四頁,編輯于2023年,星期三未分組數(shù)據(jù)—單批數(shù)據(jù)箱線圖

(例題分析)最小值141最大值237中位數(shù)182下四分位數(shù)170.25上四分位數(shù)197140150160170180190200210220230240某電腦公司銷售量數(shù)據(jù)的箱線圖第九十三頁,共一百三十四頁,編輯于2023年,星期三分布的形狀與箱線圖

對稱分布QL中位數(shù)

QU左偏分布QL中位數(shù)

QU右偏分布QL

中位數(shù)

QU不同分布的箱線圖第九十四頁,共一百三十四頁,編輯于2023年,星期三例5對公司雇員數(shù)據(jù),做出工資數(shù)據(jù)箱線圖。boxplot(Edata$SALARY,data=Edata,col="lightgray");第九十五頁,共一百三十四頁,編輯于2023年,星期三未分組數(shù)據(jù)—多批數(shù)據(jù)箱線圖

(例題分析)【例】從某大學經(jīng)濟管理專業(yè)二年級學生中隨機抽取11人,對8門主要課程的考試成績進行調(diào)查,所得結果如表。試繪制各科考試成績的批比較箱線圖,并分析各科考試成績的分布特征11名學生各科的考試成績數(shù)據(jù)課程名稱學生編號1234567891011英語經(jīng)濟數(shù)學西方經(jīng)濟學市場營銷學財務管理基礎會計學統(tǒng)計學計算機應用基礎76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177第九十六頁,共一百三十四頁,編輯于2023年,星期三未分組數(shù)據(jù)—多批數(shù)據(jù)箱線圖

(例題分析)8門課程考試成績的箱線圖第九十七頁,共一百三十四頁,編輯于2023年,星期三11名學生8門課程考試成績的箱線圖Min-Max25%-75%Medianvalue455565758595105學生1學生2學生3學生4學生5學生6學生7學生8學生9學生10學生11未分組數(shù)據(jù)—多批數(shù)據(jù)箱線圖

(例題分析)第九十八頁,共一百三十四頁,編輯于2023年,星期三例6對某公司雇員數(shù)據(jù),分析性別與工作類型、性別與是否少數(shù)民族的特征,作出交叉頻數(shù)分布表。>ftable(Edata[c('GENDER','JOBCAT')])JOBCAT經(jīng)理保管員服務員

GENDERf100206m7427157ftable(Edata[c('GENDER','MINORITY')])MINORITYYesNoGENDERf40176m64194第九十九頁,共一百三十四頁,編輯于2023年,星期三例7對某公司雇員數(shù)據(jù),分析不同性別、工作類型、少數(shù)民族的收入差異,作出多批數(shù)據(jù)箱線圖。boxplot(Edata$SALARY~Edata$GENDER,data=Edata,col="lightgray");boxplot(Edata$SALARY~Edata$JOBCAT,data=Edata,col="lightgray");boxplot(Edata$SALARY~Edata$MINORITY,data=Edata,col="lightgray");

第一百頁,共一百三十四頁,編輯于2023年,星期三第一百零一頁,共一百三十四頁,編輯于2023年,星期三第一百零二頁,共一百三十四頁,編輯于2023年,星期三第一百零三頁,共一百三十四頁,編輯于2023年,星期三例8對某公司雇員數(shù)據(jù),分析不同性別、工作類型之間的收入差異,作出多批數(shù)據(jù)箱線圖。boxplot(split(Edata$SALARY,list(Edata$JOBCAT,Edata$GENDER)),col="lightgray");boxplot(split(Edata$SALARY,list(Edata$GENDER,Edata$JOBCAT)),col="lightgray");不同性別在不同工作類型上的當前工資比較。與工資增長率不同,性別差異在工資水平上的差異十分明顯,男性的工資水平無論在Clerical還是Manager上都比女性的平均工資水平高。第一百零四頁,共一百三十四頁,編輯于2023年,星期三splitpackage:baseRDocumentationDivideintoGroupsDescription:'split'dividesthedatainthevector'x'intothegroupsdefinedby'f'.Theassignmentformsreplacevaluescorrespondingtosuchadivision.Unsplitreversestheeffectof'split'.Usage:split(x,f,drop=FALSE,...)split(x,f,drop=FALSE,...)<-valueunsplit(value,f,drop=FALSE)Arguments:x:vectorordataframecontainingvaluestobedividedintogroups.

第一百零五頁,共一百三十四頁,編輯于2023年,星期三

f:a"factor"inthesensethat'as.factor(f)'definesthegrouping,oralistofsuchfactorsinwhichcasetheirinteractionisusedforthegrouping.drop:logicalindicatingiflevelsthatdonotoccurshouldbedropped(if'f'isa'factor'oralist).value:alistofvectorsordataframescompatiblewithasplittingof'x'.Recyclingappliesifthelengthsdonotmatch....:furtherpotentialargumentspassedtomethods.Details:'split'and'split<-'aregenericfunctionswithdefaultand'data.frame'methods.'f'isrecycledasnecessaryandifthelengthof'x'isnotamultipleofthelengthof'f'awarningisprinted.'unsplit'worksonlywithlistsofvectors.Thedataframemethodcanalsobeusedtosplitamatrixintoalistofmatrices,andtheassignmentformlikewise,providedtheyareinvokedexplicitly.第一百零六頁,共一百三十四頁,編輯于2023年,星期三

Anymissingvaluesin'f'aredroppedtogetherwiththecorrespondingvaluesof'x'.Value:Thevaluereturnedfrom'split'isalistofvectorscontainingthevaluesforthegroups.Thecomponentsofthelistarenamedbythe_used_factorlevelsgivenby'f'.(If'f'islongerthan'x'thensomeofthecomponentswillbeofzerolength.)Theassignmentformsreturntheirrighthandside.'unsplit'returnsavectorforwhich'split(x,f)'equals'value'References:Becker,R.A.,Chambers,J.M.andWilks,A.R.(1988)_TheNewSLanguage_.Wadsworth&Brooks/Cole.SeeAlso:'cut'第一百零七頁,共一百三十四頁,編輯于2023年,星期三Examples:require(stats)n<-10;nn<-100;g<-factor(round(n*runif(n*nn)))x<-rnorm(n*nn)+sqrt(as.numeric(g));xg<-split(x,g);boxplot(xg,col="lavender",notch=TRUE,varwidth=TRUE);sapply(xg,length);sapply(xg,mean)##Calculatez-scoresbygroupz<-unsplit(lapply(split(x,g),scale),g)tapply(z,g,mean)#orz<-x;split(z,g)<-lapply(split(x,g),scale);tapply(z,g,sd)##Splitamatrixintoalistbycolumnsma<-cbind(x=1:10,y=(-4:5)^2);split(ma,col(ma));split(1:10,1:2)第一百零八頁,共一百三十四頁,編輯于2023年,星期三第一百零九頁,共一百三十四頁,編輯于2023年,星期三第一百一十頁,共一百三十四頁,編輯于2023年,星期三boxplot(split(Edata$SALARY,list(Edata$GENDER,Edata$JOBCAT)),plot=F);ValueListwiththefollowingcomponents:stats:amatrix,eachcolumncontainstheextremeofthelowerwhisker,thelowerhinge,themedian,theupperhingeandtheextremeoftheupperwhiskerforonegroup/plot.n:avectorwiththenumberofobservationsineachgroup.conf:amatrixwhereeachcolumncontainsthelowerandupperextremesofthenotch.out:thevaluesofanydatapointswhichliebeyondtheextremesofthewhiskers.group:avectorofthesamelengthasoutwhoseelementsindicatewhichgrouptheoutlierbelongstonames:avectorofnamesforthegroups第一百一十一頁,共一百三十四頁,編輯于2023年,星期三$stats[,1][,2][,3][,4][,5][,6][1,]34410.038700NA295501575019650[2,]41550.054900NA301502145026700[3,]45187.563750NA307502400029850[4,]55750.073750NA309752775034950[5,]58125.0100000NA319503705046000$n

[1]1074027206157$conf

[,1][,2][,3][,4][,5][,6][1,]38092.6160287.8NA30499.1423306.4728809.69[2,]52282.3967212.2NA31000.8624693.5330890.31$out

[1]103750135000110625103500243003375034500352503525028500[11]38850540005100038550408003765052650800005055066875[21]49000$group

[1]222244444455555566666$names[1]"f.經(jīng)理""m.經(jīng)理""f.保管員""m.保管員""f.服務員""m.服務員"第一百一十二頁,共一百三十四頁,編輯于2023年,星期三例9對某公司雇員數(shù)據(jù),分析不同性別、民族之間的收入差異;作出多批數(shù)據(jù)箱線圖。boxplot(split(Edata$SALARY,list(Edata$MINORITY,Edata$GENDER)),col="lightgray");boxplot(split(Edata$SALARY,list(Edata$GENDER,Edata$MINORITY)),col="lightgray");第一百一十三頁,共一百三十四頁,編輯于2023年,星期三第一百一十四頁,共一百三十四頁,編輯于2023年,星期三第一百一十五頁,共一百三十四頁,編輯于2023年,星期三例10對某公司雇員數(shù)據(jù),分析不同民族、工作類型之間的收入差異;作出多批數(shù)據(jù)箱線圖。boxplot(split(Edata$SALARY,list(Edata$JOBCAT,Edata$MINORITY)),col="lightgray");boxplot(split(Edata$SALARY,list(Edata$MINORITY,Edata$JOBCAT)),col="lightgray");第一百一十六頁,共一百三十四頁,編輯于2023年,星期三第一百一十七頁,共一百三十四頁,編輯于2023年,星期三第一百一十八頁,共一百三十四頁,編輯于2023年,星期三時間序列數(shù)據(jù)—線圖

(lineplot)繪制線圖時應注意以下幾點時間一般繪在橫軸,指標數(shù)據(jù)繪在縱軸圖形的長寬比例要適當,其長寬比例大致為10:7一般情況下,縱軸數(shù)據(jù)下端應從“0”開始,以便于比較。數(shù)據(jù)與“0”之間的間距過大時,可以采取折斷的符號將縱軸折斷第一百一十九頁,共一百三十四頁,編輯于2023年,星期三時間序列數(shù)據(jù)—線圖

(例題分析)【例】已知1991~2000年我國城鄉(xiāng)居民家庭的人均收入數(shù)據(jù)如表。試繪制線圖¥

1991~2000年城鄉(xiāng)居民家庭人均收入年份城鎮(zhèn)居民農(nóng)村居民19911992199319941995199619971998199920001700.62026.62577.43496.24283.04838.95160.35425.15854.06280.0708.6784.0921.61221.01577.71926.1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論