統(tǒng)計學(xué)數(shù)據(jù)的搜集整理與顯示_第1頁
統(tǒng)計學(xué)數(shù)據(jù)的搜集整理與顯示_第2頁
統(tǒng)計學(xué)數(shù)據(jù)的搜集整理與顯示_第3頁
統(tǒng)計學(xué)數(shù)據(jù)的搜集整理與顯示_第4頁
統(tǒng)計學(xué)數(shù)據(jù)的搜集整理與顯示_第5頁
已閱讀5頁,還剩129頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

統(tǒng)計學(xué)數(shù)據(jù)的搜集整理與顯示第1頁,共134頁,2023年,2月20日,星期六統(tǒng)計研究的過程收集數(shù)據(jù)(取得數(shù)據(jù))整理數(shù)據(jù)(處理數(shù)據(jù))解釋數(shù)據(jù)(結(jié)果說明)分析數(shù)據(jù)(研究數(shù)據(jù))實際問題第2頁,共134頁,2023年,2月20日,星期六統(tǒng)計分析方法統(tǒng)計方法描述統(tǒng)計推斷統(tǒng)計參數(shù)估計假設(shè)檢驗第3頁,共134頁,2023年,2月20日,星期六描述統(tǒng)計

(descriptivestatistics)內(nèi)容整理數(shù)據(jù)展示數(shù)據(jù)描述性分析

目的描述數(shù)據(jù)特征找出數(shù)據(jù)的基本規(guī)律02550Q1Q2Q3Q4¥x=30s2=105第4頁,共134頁,2023年,2月20日,星期六推斷統(tǒng)計

(inferentialstatistics)內(nèi)容參數(shù)估計假設(shè)檢驗?zāi)康膶傮w特征作出推斷樣本總體第5頁,共134頁,2023年,2月20日,星期六描述統(tǒng)計與推斷統(tǒng)計的關(guān)系反映客觀現(xiàn)象的數(shù)據(jù)總體內(nèi)在的數(shù)量規(guī)律性推斷統(tǒng)計(利用樣本信息和概率論對總體的數(shù)量特征進行估計和檢驗等)概率論(包括分布理論、大數(shù)定律和中心極限定理等)描述統(tǒng)計(統(tǒng)計數(shù)據(jù)的搜集、整理、顯示和分析等)總體數(shù)據(jù)樣本數(shù)據(jù)第6頁,共134頁,2023年,2月20日,星期六統(tǒng)計的應(yīng)用領(lǐng)域統(tǒng)計學(xué)經(jīng)濟學(xué)管理學(xué)醫(yī)學(xué)工程學(xué)社會學(xué)…第7頁,共134頁,2023年,2月20日,星期六統(tǒng)計數(shù)據(jù)的分類統(tǒng)計數(shù)據(jù)的分類按計量層次分類的數(shù)據(jù)順序的數(shù)據(jù)數(shù)值型數(shù)據(jù)按時間狀況截面的數(shù)據(jù)時序的數(shù)據(jù)按收集方法觀察的數(shù)據(jù)試驗的數(shù)據(jù)第8頁,共134頁,2023年,2月20日,星期六統(tǒng)計數(shù)據(jù)的分類

(按計量尺度分)分類數(shù)據(jù)(categoricaldata)

對事物進行分類的結(jié)果數(shù)據(jù)表現(xiàn)為類別,用文字來表述例如,人口按性別分為男、女兩類

順序數(shù)據(jù)(rankdata)

對事物類別順序的測度數(shù)據(jù)表現(xiàn)為類別,用文字來表述例如,產(chǎn)品分為一等品、二等品、三等品、次品等數(shù)值型數(shù)據(jù)(metricdata)

對事物的精確測度結(jié)果表現(xiàn)為具體的數(shù)值例如:身高為175cm、168cm、183cm第9頁,共134頁,2023年,2月20日,星期六統(tǒng)計數(shù)據(jù)的分類

(按收集方法分)觀測的數(shù)據(jù)(observationaldata)

通過調(diào)查或觀測而收集到的數(shù)據(jù)在沒有對事物人為控制的條件下而得到的有關(guān)社會經(jīng)濟現(xiàn)象的統(tǒng)計數(shù)據(jù)幾乎都是觀測數(shù)據(jù)試驗的數(shù)據(jù)(experimentaldata)

在試驗中控制試驗對象而收集到的數(shù)據(jù)比如,對一種新藥療效的試驗,對一種新的農(nóng)作物品種的試驗等自然科學(xué)領(lǐng)域的數(shù)據(jù)大多數(shù)都為試驗數(shù)據(jù)第10頁,共134頁,2023年,2月20日,星期六統(tǒng)計數(shù)據(jù)的分類

(按時間狀況分)截面數(shù)據(jù)(cross-sectionaldata)

在相同或近似相同的時間點上收集的數(shù)據(jù)描述現(xiàn)象在某一時刻的變化情況比如,2002年我國各地區(qū)的國內(nèi)生產(chǎn)總值數(shù)據(jù)時間序列數(shù)據(jù)(timeseriesdata)

在不同時間上收集到的數(shù)據(jù)描述現(xiàn)象隨時間變化的情況比如,1996年至2002年國內(nèi)生產(chǎn)總值數(shù)據(jù)第11頁,共134頁,2023年,2月20日,星期六總體和樣本總體(population)所研究的全部元素的集合,其中的每一個元素稱為個體分為有限總體和無限總體有限總體的范圍能夠明確確定,且元素的數(shù)目是有限的無限總體所包括的元素是無限的,不可數(shù)的樣本(sample)從總體中抽取的一部分元素的集合構(gòu)成樣本的元素的數(shù)目稱為樣本容量第12頁,共134頁,2023年,2月20日,星期六參數(shù)和統(tǒng)計量參數(shù)(parameter)研究者想要了解的總體的某種特征值所關(guān)心的參數(shù)主要有總體均值()、標(biāo)準(zhǔn)差()、總體比例()等總體參數(shù)通常用希臘字母表示統(tǒng)計量(statistic)根據(jù)樣本數(shù)據(jù)計算出來的一個量所關(guān)心的樣本統(tǒng)計量有樣本均值(x)、樣本標(biāo)準(zhǔn)差(s)、樣本比例(p)等樣本統(tǒng)計量通常用小寫英文字母來表示第13頁,共134頁,2023年,2月20日,星期六變量

(Variable)

說明現(xiàn)象某種特征的概念如商品銷售額、受教育程度、產(chǎn)品的質(zhì)量等級等變量的具體表現(xiàn)稱為變量值,即數(shù)據(jù)變量可以分為分類變量(categoricalvariable)

:說明事物類別的一個名稱順序變量(rankvariable

)

:說明事物有序類別的一個名稱數(shù)值型變量(metricvariable

)

:說明事物數(shù)字特征的一個名稱離散變量:取有限個值連續(xù)變量:可以取無窮多個值第14頁,共134頁,2023年,2月20日,星期六統(tǒng)計中的幾個基本概念平均數(shù)標(biāo)準(zhǔn)差比例參數(shù)統(tǒng)計量xsp總體樣本第15頁,共134頁,2023年,2月20日,星期六幾種常用的統(tǒng)計軟件

(Software)典型的統(tǒng)計軟件SASSPSSMINITABSTATISTICAS-PLUSRExcel第16頁,共134頁,2023年,2月20日,星期六第17頁,共134頁,2023年,2月20日,星期六§1數(shù)據(jù)的搜集§1.1數(shù)據(jù)的來源§1.2調(diào)查數(shù)據(jù)§1.3實驗數(shù)據(jù)§1.4數(shù)據(jù)的誤差§1.5數(shù)據(jù)文件第18頁,共134頁,2023年,2月20日,星期六學(xué)習(xí)目標(biāo)數(shù)據(jù)的來源搜集數(shù)據(jù)的調(diào)查方法問卷設(shè)計搜集數(shù)據(jù)的實驗方法數(shù)據(jù)的誤差數(shù)據(jù)的質(zhì)量要求第19頁,共134頁,2023年,2月20日,星期六系統(tǒng)外部的數(shù)據(jù)統(tǒng)計部門和政府部門公布的有關(guān)資料,如各類統(tǒng)計年鑒各類經(jīng)濟信息中心、信息咨詢機構(gòu)、專業(yè)調(diào)查機構(gòu)等提供的數(shù)據(jù)各類專業(yè)期刊、報紙、書籍所提供的資料各種會議,如博覽會、展銷會、交易會及專業(yè)性、學(xué)術(shù)性研討會上交流的有關(guān)資料從互聯(lián)網(wǎng)或圖書館查閱到的相關(guān)資料數(shù)據(jù)的間接來源§1.1數(shù)據(jù)的來源第20頁,共134頁,2023年,2月20日,星期六系統(tǒng)內(nèi)部的數(shù)據(jù)業(yè)務(wù)資料,如與業(yè)務(wù)經(jīng)營活動有關(guān)的各種單據(jù),記錄經(jīng)營活動過程中的各種統(tǒng)計報表各種財務(wù),會計核算和分析資料等第21頁,共134頁,2023年,2月20日,星期六二手?jǐn)?shù)據(jù)的特點搜集容易,采集成本低作用廣泛分析所要研究的問題提供研究問題的背景幫助研究者更好地定義問題檢驗和回答某些疑問和假設(shè)尋找研究問題的思路和途徑搜集二手資料在研究中應(yīng)優(yōu)先考慮第22頁,共134頁,2023年,2月20日,星期六二手?jǐn)?shù)據(jù)的評估數(shù)據(jù)是誰搜集的?可信度評估為什么目的而搜集的?數(shù)據(jù)是怎樣搜集的?什么時候搜集的?第23頁,共134頁,2023年,2月20日,星期六數(shù)據(jù)的直接來源

(原始數(shù)據(jù))調(diào)查數(shù)據(jù)通過調(diào)查方法獲得的數(shù)據(jù)通常是對社會現(xiàn)象而言通常取自有限總體實驗數(shù)據(jù)通過實驗方法得到的數(shù)據(jù)通常是對自然現(xiàn)象而言也被廣泛運用到社會科學(xué)中如心理學(xué)、教育學(xué)、社會學(xué)、經(jīng)濟學(xué)、管理學(xué)等第24頁,共134頁,2023年,2月20日,星期六抽樣方法抽樣方式概率抽樣非概率抽樣簡單隨機抽樣分層抽樣整群抽樣系統(tǒng)抽樣多階段抽樣方便抽樣判斷抽樣自愿樣本滾雪球抽樣配額抽樣§1.2調(diào)查數(shù)據(jù)第25頁,共134頁,2023年,2月20日,星期六概率抽樣與非概率抽樣的比較概率抽樣依據(jù)隨機原則抽選樣本樣本統(tǒng)計量的理論分布存在可根據(jù)調(diào)查的結(jié)果推斷總體非概率抽樣不是依據(jù)隨機原則抽選樣本樣本統(tǒng)計量的分布是不確定的無法使用樣本的結(jié)果推斷總體第26頁,共134頁,2023年,2月20日,星期六搜集數(shù)據(jù)的基本方法搜集數(shù)據(jù)的基本方法調(diào)查的數(shù)據(jù)實驗的數(shù)據(jù)自填式面訪式電話式第27頁,共134頁,2023年,2月20日,星期六各調(diào)查方法的比較自填式面訪式電話式調(diào)查時間慢中等快捷調(diào)查費用低高低問卷難度要求容易可以復(fù)雜要求容易有形輔助物的使用中等利用充分利用無法利用調(diào)查過程控制簡單復(fù)雜容易調(diào)查員作用的發(fā)揮無法發(fā)揮充分發(fā)揮一般發(fā)揮回答率最低較高一般第28頁,共134頁,2023年,2月20日,星期六實驗租和對照組將研究對象分為兩組:實驗組和對照組實驗組和隨機組的產(chǎn)生應(yīng)遵循隨機原則,而且應(yīng)該匹配匹配指對實驗單位的背景材料進行分析比較,將情況類似的每對單位分別隨機地分配到實驗組和對照組§1.3實驗數(shù)據(jù)第29頁,共134頁,2023年,2月20日,星期六實驗中的若干問題人的意愿研究的對象是人的時候,在劃分實驗組和對照組時的隨機原則將面臨挑戰(zhàn)心理問題人們對被研究非常敏感,這使得他們更加注意自我,從而走到事物的另一個極端道德問題當(dāng)某種實驗涉及道德問題時,人們會處于進退兩難的尷尬境地第30頁,共134頁,2023年,2月20日,星期六實驗中的統(tǒng)計實驗設(shè)計本身就是一個統(tǒng)計問題確定進行實驗所需要的單位的個數(shù),以保證實驗可以達到統(tǒng)計顯著的結(jié)果將統(tǒng)計的思想融入到實驗設(shè)計中,使實驗設(shè)計符合統(tǒng)計分析的標(biāo)準(zhǔn)對實驗數(shù)據(jù)進行分析時,統(tǒng)計可以提供最恰當(dāng)?shù)姆治龇椒ǖ?1頁,共134頁,2023年,2月20日,星期六§1.4數(shù)據(jù)的誤差第32頁,共134頁,2023年,2月20日,星期六抽樣誤差

(samplingerror)由于抽樣的隨機性所帶來的誤差所有樣本可能的結(jié)果與總體真值之間的平均性差異影響抽樣誤差的大小的因素樣本量的大小總體的變異性第33頁,共134頁,2023年,2月20日,星期六非抽樣誤差

(non-samplingerror)相對抽樣誤差而言除抽樣誤差之外的,由于其他原因造成的樣本觀察結(jié)果與總體真值之間的差異存在于所有的調(diào)查之中概率抽樣,非概率抽樣,全面性調(diào)查有抽樣框誤差、回答誤差、無回答誤差、調(diào)查員誤差、測量誤差第34頁,共134頁,2023年,2月20日,星期六誤差的控制抽樣誤差可計算和控制非抽樣誤差的控制調(diào)查員的挑選調(diào)查員的培訓(xùn)督導(dǎo)員的調(diào)查專業(yè)水平調(diào)查過程控制調(diào)查結(jié)果進行檢驗、評估現(xiàn)場調(diào)查人員進行獎懲的制度第35頁,共134頁,2023年,2月20日,星期六統(tǒng)計數(shù)據(jù)的質(zhì)量要求1.精

度:最低的抽樣誤差或隨機誤差2.準(zhǔn)確性:最小的非抽樣誤差或偏差3.關(guān)聯(lián)性:滿足用戶決策、管理和研究的需要4.及時性:在最短的時間里取得并公布數(shù)據(jù)5.一致性:保持時間序列的可比性6.最低成本:以最經(jīng)濟的方式取得數(shù)據(jù)第36頁,共134頁,2023年,2月20日,星期六§2數(shù)據(jù)的整理與顯示§2.1

數(shù)據(jù)的預(yù)處理§2.2分類和順序數(shù)據(jù)的整理與顯示§2.3數(shù)值型數(shù)據(jù)的整理與顯示§2.4統(tǒng)計表第37頁,共134頁,2023年,2月20日,星期六學(xué)習(xí)目標(biāo)了解數(shù)據(jù)預(yù)處理的內(nèi)容和目的掌握分類和順序數(shù)據(jù)的整理與顯示方法掌握數(shù)值型數(shù)據(jù)的整理與顯示方法用R作頻數(shù)分布表和形圖合理使用統(tǒng)計表第38頁,共134頁,2023年,2月20日,星期六數(shù)據(jù)的審核檢查數(shù)據(jù)中的錯誤數(shù)據(jù)的篩選找出符合條件的數(shù)據(jù)數(shù)據(jù)排序升序和降序?qū)ふ覕?shù)據(jù)的基本特征§2.1數(shù)據(jù)的預(yù)處理

第39頁,共134頁,2023年,2月20日,星期六數(shù)據(jù)審核—原始數(shù)據(jù)

(rawdata)審核的內(nèi)容完整性審核檢查應(yīng)調(diào)查的單位或個體是否有遺漏所有的調(diào)查項目或指標(biāo)是否填寫齊全準(zhǔn)確性審核檢查數(shù)據(jù)是否真實反映客觀實際情況,內(nèi)容是否符合實際檢查數(shù)據(jù)是否有錯誤,計算是否正確等第40頁,共134頁,2023年,2月20日,星期六數(shù)據(jù)的審核—原始數(shù)據(jù)

(rawdata)審核數(shù)據(jù)準(zhǔn)確性的方法邏輯檢查從定性角度,審核數(shù)據(jù)是否符合邏輯,內(nèi)容是否合理,各項目或數(shù)字之間有無相互矛盾的現(xiàn)象主要用于對分類和順序據(jù)的審核計算檢查檢查調(diào)查表中的各項數(shù)據(jù)在計算結(jié)果和計算方法上有無錯誤主要用于對數(shù)值型數(shù)據(jù)的審核第41頁,共134頁,2023年,2月20日,星期六數(shù)據(jù)的審核—二手?jǐn)?shù)據(jù)

(secondhanddata)適用性審核弄清楚數(shù)據(jù)的來源、數(shù)據(jù)的口徑以及有關(guān)的背景材料確定數(shù)據(jù)是否符合自己分析研究的需要時效性審核盡可能使用最新的數(shù)據(jù)確認是否必要做進一步的加工整理第42頁,共134頁,2023年,2月20日,星期六數(shù)據(jù)篩選

(datafilter)當(dāng)數(shù)據(jù)中的錯誤不能予以糾正,或者有些數(shù)據(jù)不符合調(diào)查的要求而又無法彌補時,需要對數(shù)據(jù)進行篩選數(shù)據(jù)篩選的內(nèi)容包括將某些不符合要求的數(shù)據(jù)或有明顯錯誤的數(shù)據(jù)予以剔除將符合某種特定條件的數(shù)據(jù)篩選出來,而不符合特定條件的數(shù)據(jù)予以剔除第43頁,共134頁,2023年,2月20日,星期六要弄清所面對的數(shù)據(jù)類型,因為不同類型的數(shù)據(jù),所采取的處理方式和方法是不同的對分類數(shù)據(jù)和順序數(shù)據(jù)主要是做分類整理對數(shù)值型數(shù)據(jù)則主要是做分組整理適合于低層次數(shù)據(jù)的整理和顯示方法也適合于高層次的數(shù)據(jù);但適合于高層次數(shù)據(jù)的整理和顯示方法并不適合于低層次的數(shù)據(jù)§2.2分類和順序數(shù)據(jù)的整理與顯示第44頁,共134頁,2023年,2月20日,星期六分類數(shù)據(jù)的整理

(基本過程)1. 列出各類別2.計算各類別的頻數(shù)3.制作頻數(shù)分布表4.用圖形顯示數(shù)據(jù)分類頻數(shù)比例百分比比率ABCDE第45頁,共134頁,2023年,2月20日,星期六分類數(shù)據(jù)的整理

(可計算的統(tǒng)計量)頻數(shù)(frequency)

:落在各類別中的數(shù)據(jù)個數(shù)比例(proportion)

:某一類別數(shù)據(jù)占全部數(shù)據(jù)的比值百分比(percentage)

:將對比的基數(shù)作為100而計算的比值,即比例X100%比率(ratio)

:不同類別數(shù)值的比值第46頁,共134頁,2023年,2月20日,星期六分類數(shù)據(jù)整理—頻數(shù)分布表

(例題分析)【例】一家市場調(diào)查公司為研究不同品牌飲料的市場占有率,對隨機抽取的一家超市進行了調(diào)查。調(diào)查員在某天對50名顧客購買飲料的品牌進行了記錄,如果一個顧客購買某一品牌的飲料,就將這一飲料的品牌名字記錄一次。右邊就是記錄的原始數(shù)據(jù)用R制作頻數(shù)分布表第47頁,共134頁,2023年,2月20日,星期六例1讀取某公司雇員數(shù)據(jù)(SPSS數(shù)據(jù)文件),保存為R數(shù)據(jù)文件,指定因子各水平的標(biāo)簽,分析性別、是否少數(shù)民族、工作類型、教育程度等頻數(shù)分布。y=read.spss('E:/RandStatistics/RTeaching/dataset/Employeedata.sav',use.value.labels=F,to.data.frame=T,max.value.labels=Inf,s=FALSE)Names(y);[1]"ID""GENDER""BDATE""EDUC""JOBCAT""SALARY"[7]"SALBEGIN""JOBTIME""PREVEXP""MINORITY"yy$MINORITY=factor(y$MINORITY,levels=sort(unique(y$MINORITY),decreasing=T),labels=c("Yes","No"),exclude=NA,order=F)第48頁,共134頁,2023年,2月20日,星期六y$JOBCAT=factor(y$JOBCAT,levels=sort(unique(y$JOBCAT),decreasing=T),labels=c("經(jīng)理","保管員","服務(wù)員"),exclude=NA,order=F)Edata=y;save(Edata,file="E:/R/Employeedata.Rdata")load("E:/R/Edata.Rdata");attach(Edata);table(Edata$JOBCAT)經(jīng)理保管員服務(wù)員

8427363第49頁,共134頁,2023年,2月20日,星期六>table(Edata$GENDER)fm216258>table(Edata$MINORITY)YesNo104370>table(Edata$EDUC)8121415161718192021531906116591192721第50頁,共134頁,2023年,2月20日,星期六分類數(shù)據(jù)的圖示—條形圖

(barChart)用寬度相同的條形的高度或長短來表示各類別數(shù)據(jù)的圖形有單式條形圖、復(fù)式條形圖等形式主要用于反映分類數(shù)據(jù)的頻數(shù)分布繪制時,各類別可以放在縱軸,稱為條形圖,也可以放在橫軸,稱為柱形圖第51頁,共134頁,2023年,2月20日,星期六分類數(shù)據(jù)的圖示—條形圖

(例題分析)第52頁,共134頁,2023年,2月20日,星期六例2對公司雇員數(shù)據(jù),做出性別、工作類型、教育程度等條形圖。plot(Edata$GENDER)plot(Edata$JOBCAT)hist(Edata$EDUC)第53頁,共134頁,2023年,2月20日,星期六第54頁,共134頁,2023年,2月20日,星期六第55頁,共134頁,2023年,2月20日,星期六第56頁,共134頁,2023年,2月20日,星期六分類數(shù)據(jù)的圖示—餅圖

(pieChart)也稱圓形圖,是用圓形及圓內(nèi)扇形的角度來表示數(shù)值大小的圖形主要用于表示總體或樣本中各組成部分所占的比例,對于研究結(jié)構(gòu)性問題十分有用繪制圓形圖時,總體中各部分所占的百分比用園內(nèi)的各個扇形角度表示,這些扇形的中心角度,是按各部分?jǐn)?shù)據(jù)百分比占3600的相應(yīng)比例確定的第57頁,共134頁,2023年,2月20日,星期六分類數(shù)據(jù)的圖示—餅圖

(例題分析)第58頁,共134頁,2023年,2月20日,星期六例3對公司雇員數(shù)據(jù),做出性別、工作類型、教育程度等餅圖。pie(table(Edata$GENDER))pie(table(Edata$JOBCAT))pie(table(Edata$EDUC))第59頁,共134頁,2023年,2月20日,星期六第60頁,共134頁,2023年,2月20日,星期六第61頁,共134頁,2023年,2月20日,星期六第62頁,共134頁,2023年,2月20日,星期六順序數(shù)據(jù)的整理

(可計算的指標(biāo))1.累積頻數(shù)(cumulativefrequencies):各類別頻數(shù)的逐級累加2.累積頻率(cumulativepercentages):各類別頻率(百分比)的逐級累加第63頁,共134頁,2023年,2月20日,星期六順序數(shù)據(jù)的頻數(shù)分布表

(例題分析)【例】在一項城市住房問題的研究中,研究人員在甲乙兩個城市各抽樣調(diào)查300戶,其中的一個問題是:“您對您家庭目前的住房狀況是否滿意?

1.非常不滿意;2.不滿意;3.一般;4.滿意;5.非常滿意。甲城市家庭對住房狀況評價的頻數(shù)分布回答類別甲城市戶數(shù)(戶)百分比(%)向上累積向下累積戶數(shù)(戶)百分比(%)戶數(shù)(戶)百分比(%)非常不滿意不滿意一般滿意非常滿意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合計300100.0————第64頁,共134頁,2023年,2月20日,星期六順序數(shù)據(jù)的頻數(shù)分布表

(例題分析)乙城市家庭對住房狀況評價的頻數(shù)分布回答類別乙城市戶數(shù)(戶)百分比(%)向上累積向下累積戶數(shù)(戶)百分比(%)戶數(shù)(戶)百分比(%)非常不滿意不滿意一般滿意非常滿意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.034.012.7合計300100.0————第65頁,共134頁,2023年,2月20日,星期六順序數(shù)據(jù)的圖示—累計頻數(shù)分布圖

(例題分析)243001322252700100200300400

非常不滿意

不滿意

一般

滿意

非常滿意累積戶數(shù)(戶)(a)向上累積27616830300750100200300400

非常不滿意

不滿意

一般

滿意

非常滿意累積戶數(shù)(戶)(b)向下累積甲城市家庭對住房狀況評價的累積頻數(shù)分布第66頁,共134頁,2023年,2月20日,星期六環(huán)形圖

(annularchart)環(huán)形圖中間有一個“空洞”,總體中的每一部分?jǐn)?shù)據(jù)用環(huán)中的一段表示環(huán)形圖與圓形圖類似,但又有區(qū)別圓形圖只能顯示一個總體各部分所占的比例環(huán)形圖則可以同時繪制多個總體的數(shù)據(jù)系列,每一個總體的數(shù)據(jù)系列為一個環(huán)環(huán)形圖可用于結(jié)構(gòu)比較研究環(huán)形圖主要用于展示分類和順序數(shù)據(jù)第67頁,共134頁,2023年,2月20日,星期六環(huán)形圖

(例題分析)8%36%31%15%7%33%26%21%13%10%

非常不滿意

不滿意

一般

滿意

非常滿意

甲乙兩城市家庭對住房狀況的評價第68頁,共134頁,2023年,2月20日,星期六分組方法等距分組異距分組單變量值分組組距分組§2.3數(shù)值型數(shù)據(jù)的整理與顯示第69頁,共134頁,2023年,2月20日,星期六單變量值分組

(要點)1.將一個變量值作為一組2.適合于離散變量3.適合于變量值較少的情況第70頁,共134頁,2023年,2月20日,星期六組距分組

(要點)將變量值的一個區(qū)間作為一組適合于連續(xù)變量適合于變量值較多的情況需要遵循“不重不漏”的原則可采用等距分組,也可采用不等距分組第71頁,共134頁,2023年,2月20日,星期六組距分組

(步驟)確定組數(shù):組數(shù)的確定應(yīng)以能夠顯示數(shù)據(jù)的分布特征和規(guī)律為目的。在實際分組時,可以按Sturges提出的經(jīng)驗公式來確定組數(shù)K確定組距:組距(ClassWidth)是一個組的上限與下限之差,可根據(jù)全部數(shù)據(jù)的最大值和最小值及所分的組數(shù)來確定,即

組距=(最大值-最小值)÷組數(shù)

統(tǒng)計出各組的頻數(shù)并整理成頻數(shù)分布表第72頁,共134頁,2023年,2月20日,星期六組距分組

(幾個概念)1.下限(lowlimit)

:一個組的最小值2.上限(upperlimit)

:一個組的最大值3.組距(classwidth)

:上限與下限之差4.組中值(classmidpoint)

:下限與上限之間的中點值下限值+上限值2組中值=第73頁,共134頁,2023年,2月20日,星期六頻數(shù)分布表的編制

(例題分析)【例】某電腦公司2002年前四個月各天的銷售量數(shù)據(jù)(單位:臺)。試對數(shù)據(jù)進行分組。

第74頁,共134頁,2023年,2月20日,星期六頻數(shù)分布表的編制

(步驟)確定組數(shù):根據(jù)Sturges

提出的經(jīng)驗公式得組數(shù)K為:確定各組的組距:

組距=(237-141)÷10=9.610用R制作頻數(shù)分布表

第75頁,共134頁,2023年,2月20日,星期六等距分組表

(上下組限重疊)第76頁,共134頁,2023年,2月20日,星期六等距分組表

(上下組限間斷)第77頁,共134頁,2023年,2月20日,星期六等距分組表

(使用開口組)第78頁,共134頁,2023年,2月20日,星期六組距分組與不等距分組

(在表現(xiàn)頻數(shù)分布上的差異)等距分組各組頻數(shù)的分布不受組距大小的影響可直接根據(jù)絕對頻數(shù)來觀察頻數(shù)分布的特征不等距分組各組頻數(shù)的分布受組距大小不同的影響各組絕對頻數(shù)的多少不能反映頻數(shù)分布的實際狀況需要用頻數(shù)密度(頻數(shù)密度=頻數(shù)/組距)反映頻數(shù)分布的實際狀況第79頁,共134頁,2023年,2月20日,星期六分組數(shù)據(jù)—直方圖

(histogram)用矩形的寬度和高度來表示頻數(shù)分布的圖形,實際上是用矩形的面積來表示各組的頻數(shù)分布在直角坐標(biāo)中,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率,各組與相應(yīng)的頻數(shù)就形成了一個矩形,即直方圖直方圖下的總面積等于1數(shù)值型數(shù)據(jù)的圖示第80頁,共134頁,2023年,2月20日,星期六分組數(shù)據(jù)的圖示

(直方圖的繪制)140150210直方圖下的面積之和等于1?某電腦公司銷售量分布的直方圖190200180160170頻數(shù)(天)25201510530220230240第81頁,共134頁,2023年,2月20日,星期六例4對公司雇員數(shù)據(jù),做出工資數(shù)據(jù)直方圖。hist(Edata$SALARY)hist(Edata$SALARY,labels=T)第82頁,共134頁,2023年,2月20日,星期六第83頁,共134頁,2023年,2月20日,星期六第84頁,共134頁,2023年,2月20日,星期六分組數(shù)據(jù)—直方圖

(直方圖與條形圖的區(qū)別)條形圖是用條形的長度(橫置時)表示各類別頻數(shù)的多少,其寬度(表示類別)則是固定的直方圖是用面積表示各組頻數(shù)的多少,矩形的高度表示每一組的頻數(shù)或百分比,寬度則表示各組的組距,其高度與寬度均有意義直方圖的各矩形通常是連續(xù)排列,條形圖則是分開排列條形圖主要用于展示分類數(shù)據(jù),直方圖則主要用于展示數(shù)值型數(shù)據(jù)第85頁,共134頁,2023年,2月20日,星期六分組數(shù)據(jù)—折線圖

(frequencypolygon)折線圖也稱頻數(shù)多邊形圖是在直方圖的基礎(chǔ)上,把直方圖頂部的中點(組中值)用直線連接起來,再把原來的直方圖抹掉折線圖的兩個終點要與橫軸相交,具體的做法是第一個矩形的頂部中點通過豎邊中點(即該組頻數(shù)一半的位置)連接到橫軸,最后一個矩形頂部中點與其豎邊中點連接到橫軸折線圖下所圍成的面積與直方圖的面積相等,二者所表示的頻數(shù)分布是一致的第86頁,共134頁,2023年,2月20日,星期六分組數(shù)據(jù)的圖示

(折線圖的繪制)折線圖與直方圖下的面積相等!140150210某電腦公司銷售量分布的折線圖190200180160170220230240頻數(shù)(天)25201510530第87頁,共134頁,2023年,2月20日,星期六未分組數(shù)據(jù)—莖葉圖

(stem-and-leafdisplay)用于顯示未分組的原始數(shù)據(jù)的分布由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的以該組數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉樹葉上只保留一位數(shù)字對于n(20n300)個數(shù)據(jù),莖葉圖最大行數(shù)不超過

L=[10×lg(n)]

6.莖葉圖類似于橫置的直方圖,但又有區(qū)別直方圖可觀察一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個原始數(shù)值,保留了原始數(shù)據(jù)的信息第88頁,共134頁,2023年,2月20日,星期六未分組數(shù)據(jù)—莖葉圖

(例題分析)第89頁,共134頁,2023年,2月20日,星期六未分組數(shù)據(jù)—莖葉圖

(擴展的莖葉圖)第90頁,共134頁,2023年,2月20日,星期六未分組數(shù)據(jù)—箱線圖

(boxplot)用于顯示未分組的原始數(shù)據(jù)的分布箱線圖由一組數(shù)據(jù)的5個特征值繪制而成,它由一個箱子和兩條線段組成其繪制方法是:首先找出一組數(shù)據(jù)的5個特征值,即最大值、最小值、中位數(shù)Me和兩個四分位數(shù)(下四分位數(shù)QL和上四分位數(shù)QU)連接兩個四分(位)數(shù)畫出箱子,再將兩個極值點與箱子相連接第91頁,共134頁,2023年,2月20日,星期六未分組數(shù)據(jù)—單批數(shù)據(jù)箱線圖

(箱線圖的構(gòu)成)中位數(shù)4681012QUQLX最大值X最小值簡單箱線圖第92頁,共134頁,2023年,2月20日,星期六未分組數(shù)據(jù)—單批數(shù)據(jù)箱線圖

(例題分析)最小值141最大值237中位數(shù)182下四分位數(shù)170.25上四分位數(shù)197140150160170180190200210220230240某電腦公司銷售量數(shù)據(jù)的箱線圖第93頁,共134頁,2023年,2月20日,星期六分布的形狀與箱線圖

對稱分布QL中位數(shù)

QU左偏分布QL中位數(shù)

QU右偏分布QL

中位數(shù)

QU不同分布的箱線圖第94頁,共134頁,2023年,2月20日,星期六例5對公司雇員數(shù)據(jù),做出工資數(shù)據(jù)箱線圖。boxplot(Edata$SALARY,data=Edata,col="lightgray");第95頁,共134頁,2023年,2月20日,星期六未分組數(shù)據(jù)—多批數(shù)據(jù)箱線圖

(例題分析)【例】從某大學(xué)經(jīng)濟管理專業(yè)二年級學(xué)生中隨機抽取11人,對8門主要課程的考試成績進行調(diào)查,所得結(jié)果如表。試?yán)L制各科考試成績的批比較箱線圖,并分析各科考試成績的分布特征11名學(xué)生各科的考試成績數(shù)據(jù)課程名稱學(xué)生編號1234567891011英語經(jīng)濟數(shù)學(xué)西方經(jīng)濟學(xué)市場營銷學(xué)財務(wù)管理基礎(chǔ)會計學(xué)統(tǒng)計學(xué)計算機應(yīng)用基礎(chǔ)76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177第96頁,共134頁,2023年,2月20日,星期六未分組數(shù)據(jù)—多批數(shù)據(jù)箱線圖

(例題分析)8門課程考試成績的箱線圖第97頁,共134頁,2023年,2月20日,星期六11名學(xué)生8門課程考試成績的箱線圖Min-Max25%-75%Medianvalue455565758595105學(xué)生1學(xué)生2學(xué)生3學(xué)生4學(xué)生5學(xué)生6學(xué)生7學(xué)生8學(xué)生9學(xué)生10學(xué)生11未分組數(shù)據(jù)—多批數(shù)據(jù)箱線圖

(例題分析)第98頁,共134頁,2023年,2月20日,星期六例6對某公司雇員數(shù)據(jù),分析性別與工作類型、性別與是否少數(shù)民族的特征,作出交叉頻數(shù)分布表。>ftable(Edata[c('GENDER','JOBCAT')])JOBCAT經(jīng)理保管員服務(wù)員

GENDERf100206m7427157ftable(Edata[c('GENDER','MINORITY')])MINORITYYesNoGENDERf40176m64194第99頁,共134頁,2023年,2月20日,星期六例7對某公司雇員數(shù)據(jù),分析不同性別、工作類型、少數(shù)民族的收入差異,作出多批數(shù)據(jù)箱線圖。boxplot(Edata$SALARY~Edata$GENDER,data=Edata,col="lightgray");boxplot(Edata$SALARY~Edata$JOBCAT,data=Edata,col="lightgray");boxplot(Edata$SALARY~Edata$MINORITY,data=Edata,col="lightgray");

第100頁,共134頁,2023年,2月20日,星期六第101頁,共134頁,2023年,2月20日,星期六第102頁,共134頁,2023年,2月20日,星期六第103頁,共134頁,2023年,2月20日,星期六例8對某公司雇員數(shù)據(jù),分析不同性別、工作類型之間的收入差異,作出多批數(shù)據(jù)箱線圖。boxplot(split(Edata$SALARY,list(Edata$JOBCAT,Edata$GENDER)),col="lightgray");boxplot(split(Edata$SALARY,list(Edata$GENDER,Edata$JOBCAT)),col="lightgray");不同性別在不同工作類型上的當(dāng)前工資比較。與工資增長率不同,性別差異在工資水平上的差異十分明顯,男性的工資水平無論在Clerical還是Manager上都比女性的平均工資水平高。第104頁,共134頁,2023年,2月20日,星期六splitpackage:baseRDocumentationDivideintoGroupsDescription:'split'dividesthedatainthevector'x'intothegroupsdefinedby'f'.Theassignmentformsreplacevaluescorrespondingtosuchadivision.Unsplitreversestheeffectof'split'.Usage:split(x,f,drop=FALSE,...)split(x,f,drop=FALSE,...)<-valueunsplit(value,f,drop=FALSE)Arguments:x:vectorordataframecontainingvaluestobedividedintogroups.

第105頁,共134頁,2023年,2月20日,星期六

f:a"factor"inthesensethat'as.factor(f)'definesthegrouping,oralistofsuchfactorsinwhichcasetheirinteractionisusedforthegrouping.drop:logicalindicatingiflevelsthatdonotoccurshouldbedropped(if'f'isa'factor'oralist).value:alistofvectorsordataframescompatiblewithasplittingof'x'.Recyclingappliesifthelengthsdonotmatch....:furtherpotentialargumentspassedtomethods.Details:'split'and'split<-'aregenericfunctionswithdefaultand'data.frame'methods.'f'isrecycledasnecessaryandifthelengthof'x'isnotamultipleofthelengthof'f'awarningisprinted.'unsplit'worksonlywithlistsofvectors.Thedataframemethodcanalsobeusedtosplitamatrixintoalistofmatrices,andtheassignmentformlikewise,providedtheyareinvokedexplicitly.第106頁,共134頁,2023年,2月20日,星期六

Anymissingvaluesin'f'aredroppedtogetherwiththecorrespondingvaluesof'x'.Value:Thevaluereturnedfrom'split'isalistofvectorscontainingthevaluesforthegroups.Thecomponentsofthelistarenamedbythe_used_factorlevelsgivenby'f'.(If'f'islongerthan'x'thensomeofthecomponentswillbeofzerolength.)Theassignmentformsreturntheirrighthandside.'unsplit'returnsavectorforwhich'split(x,f)'equals'value'References:Becker,R.A.,Chambers,J.M.andWilks,A.R.(1988)_TheNewSLanguage_.Wadsworth&Brooks/Cole.SeeAlso:'cut'第107頁,共134頁,2023年,2月20日,星期六Examples:require(stats)n<-10;nn<-100;g<-factor(round(n*runif(n*nn)))x<-rnorm(n*nn)+sqrt(as.numeric(g));xg<-split(x,g);boxplot(xg,col="lavender",notch=TRUE,varwidth=TRUE);sapply(xg,length);sapply(xg,mean)##Calculatez-scoresbygroupz<-unsplit(lapply(split(x,g),scale),g)tapply(z,g,mean)#orz<-x;split(z,g)<-lapply(split(x,g),scale);tapply(z,g,sd)##Splitamatrixintoalistbycolumnsma<-cbind(x=1:10,y=(-4:5)^2);split(ma,col(ma));split(1:10,1:2)第108頁,共134頁,2023年,2月20日,星期六第109頁,共134頁,2023年,2月20日,星期六第110頁,共134頁,2023年,2月20日,星期六boxplot(split(Edata$SALARY,list(Edata$GENDER,Edata$JOBCAT)),plot=F);ValueListwiththefollowingcomponents:stats:amatrix,eachcolumncontainstheextremeofthelowerwhisker,thelowerhinge,themedian,theupperhingeandtheextremeoftheupperwhiskerforonegroup/plot.n:avectorwiththenumberofobservationsineachgroup.conf:amatrixwhereeachcolumncontainsthelowerandupperextremesofthenotch.out:thevaluesofanydatapointswhichliebeyondtheextremesofthewhiskers.group:avectorofthesamelengthasoutwhoseelementsindicatewhichgrouptheoutlierbelongstonames:avectorofnamesforthegroups第111頁,共134頁,2023年,2月20日,星期六$stats[,1][,2][,3][,4][,5][,6][1,]34410.038700NA295501575019650[2,]41550.054900NA301502145026700[3,]45187.563750NA307502400029850[4,]55750.073750NA309752775034950[5,]58125.0100000NA319503705046000$n

[1]1074027206157$conf

[,1][,2][,3][,4][,5][,6][1,]38092.6160287.8NA30499.1423306.4728809.69[2,]52282.3967212.2NA31000.8624693.5330890.31$out

[1]103750135000110625103500243003375034500352503525028500[11]38850540005100038550408003765052650800005055066875[21]49000$group

[1]222244444455555566666$names[1]"f.經(jīng)理""m.經(jīng)理""f.保管員""m.保管員""f.服務(wù)員""m.服務(wù)員"第112頁,共134頁,2023年,2月20日,星期六例9對某公司雇員數(shù)據(jù),分析不同性別、民族之間的收入差異;作出多批數(shù)據(jù)箱線圖。boxplot(split(Edata$SALARY,list(Edata$MINORITY,Edata$GENDER)),col="lightgray");boxplot(split(Edata$SALARY,list(Edata$GENDER,Edata$MINORITY)),col="lightgray");第113頁,共134頁,2023年,2月20日,星期六第114頁,共134頁,2023年,2月20日,星期六第115頁,共134頁,2023年,2月20日,星期六例10對某公司雇員數(shù)據(jù),分析不同民族、工作類型之間的收入差異;作出多批數(shù)據(jù)箱線圖。boxplot(split(Edata$SALARY,list(Edata$JOBCAT,Edata$MINORITY)),col="lightgray");boxplot(split(Edata$SALARY,list(Edata$MINORITY,Edata$JOBCAT)),col="lightgray");第116頁,共134頁,2023年,2月20日,星期六第117頁,共134頁,2023年,2月20日,星期六第118頁,共134頁,2023年,2月20日,星期六時間序列數(shù)據(jù)—線圖

(lineplot)繪制線圖時應(yīng)注意以下幾點時間一般繪在橫軸,指標(biāo)數(shù)據(jù)繪在縱軸圖形的長寬比例要適當(dāng),其長寬比例大致為10:7一般情況下,縱軸數(shù)據(jù)下端應(yīng)從“0”開始,以便于比較。數(shù)據(jù)與“0”之間的間距過大時,可以采取折斷的符號將縱軸折斷第119頁,共134頁,2023年,2月20日,星期六時間序列數(shù)據(jù)—線圖

(例題分析)【例】已知1991~2000年我國城鄉(xiāng)居民家庭的人均收入數(shù)據(jù)如表。試?yán)L制線圖¥

1991~2000年城鄉(xiāng)居民家庭人均收入年份城鎮(zhèn)居民農(nóng)村居民19911992199319941995199619971998199920001700.62026.62577.43496.24283.04838.95160.35425.15854.06280.0708.6784.0921.61221.01

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論