




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
統(tǒng)計學數據的搜集整理與顯示第一頁,共一百三十四頁,編輯于2023年,星期三統(tǒng)計研究的過程收集數據(取得數據)整理數據(處理數據)解釋數據(結果說明)分析數據(研究數據)實際問題第二頁,共一百三十四頁,編輯于2023年,星期三統(tǒng)計分析方法統(tǒng)計方法描述統(tǒng)計推斷統(tǒng)計參數估計假設檢驗第三頁,共一百三十四頁,編輯于2023年,星期三描述統(tǒng)計
(descriptivestatistics)內容整理數據展示數據描述性分析
目的描述數據特征找出數據的基本規(guī)律02550Q1Q2Q3Q4¥x=30s2=105第四頁,共一百三十四頁,編輯于2023年,星期三推斷統(tǒng)計
(inferentialstatistics)內容參數估計假設檢驗目的對總體特征作出推斷樣本總體第五頁,共一百三十四頁,編輯于2023年,星期三描述統(tǒng)計與推斷統(tǒng)計的關系反映客觀現象的數據總體內在的數量規(guī)律性推斷統(tǒng)計(利用樣本信息和概率論對總體的數量特征進行估計和檢驗等)概率論(包括分布理論、大數定律和中心極限定理等)描述統(tǒng)計(統(tǒng)計數據的搜集、整理、顯示和分析等)總體數據樣本數據第六頁,共一百三十四頁,編輯于2023年,星期三統(tǒng)計的應用領域統(tǒng)計學經濟學管理學醫(yī)學工程學社會學…第七頁,共一百三十四頁,編輯于2023年,星期三統(tǒng)計數據的分類統(tǒng)計數據的分類按計量層次分類的數據順序的數據數值型數據按時間狀況截面的數據時序的數據按收集方法觀察的數據試驗的數據第八頁,共一百三十四頁,編輯于2023年,星期三統(tǒng)計數據的分類
(按計量尺度分)分類數據(categoricaldata)
對事物進行分類的結果數據表現為類別,用文字來表述例如,人口按性別分為男、女兩類
順序數據(rankdata)
對事物類別順序的測度數據表現為類別,用文字來表述例如,產品分為一等品、二等品、三等品、次品等數值型數據(metricdata)
對事物的精確測度結果表現為具體的數值例如:身高為175cm、168cm、183cm第九頁,共一百三十四頁,編輯于2023年,星期三統(tǒng)計數據的分類
(按收集方法分)觀測的數據(observationaldata)
通過調查或觀測而收集到的數據在沒有對事物人為控制的條件下而得到的有關社會經濟現象的統(tǒng)計數據幾乎都是觀測數據試驗的數據(experimentaldata)
在試驗中控制試驗對象而收集到的數據比如,對一種新藥療效的試驗,對一種新的農作物品種的試驗等自然科學領域的數據大多數都為試驗數據第十頁,共一百三十四頁,編輯于2023年,星期三統(tǒng)計數據的分類
(按時間狀況分)截面數據(cross-sectionaldata)
在相同或近似相同的時間點上收集的數據描述現象在某一時刻的變化情況比如,2002年我國各地區(qū)的國內生產總值數據時間序列數據(timeseriesdata)
在不同時間上收集到的數據描述現象隨時間變化的情況比如,1996年至2002年國內生產總值數據第十一頁,共一百三十四頁,編輯于2023年,星期三總體和樣本總體(population)所研究的全部元素的集合,其中的每一個元素稱為個體分為有限總體和無限總體有限總體的范圍能夠明確確定,且元素的數目是有限的無限總體所包括的元素是無限的,不可數的樣本(sample)從總體中抽取的一部分元素的集合構成樣本的元素的數目稱為樣本容量第十二頁,共一百三十四頁,編輯于2023年,星期三參數和統(tǒng)計量參數(parameter)研究者想要了解的總體的某種特征值所關心的參數主要有總體均值()、標準差()、總體比例()等總體參數通常用希臘字母表示統(tǒng)計量(statistic)根據樣本數據計算出來的一個量所關心的樣本統(tǒng)計量有樣本均值(x)、樣本標準差(s)、樣本比例(p)等樣本統(tǒng)計量通常用小寫英文字母來表示第十三頁,共一百三十四頁,編輯于2023年,星期三變量
(Variable)
說明現象某種特征的概念如商品銷售額、受教育程度、產品的質量等級等變量的具體表現稱為變量值,即數據變量可以分為分類變量(categoricalvariable)
:說明事物類別的一個名稱順序變量(rankvariable
)
:說明事物有序類別的一個名稱數值型變量(metricvariable
)
:說明事物數字特征的一個名稱離散變量:取有限個值連續(xù)變量:可以取無窮多個值第十四頁,共一百三十四頁,編輯于2023年,星期三統(tǒng)計中的幾個基本概念平均數標準差比例參數統(tǒng)計量xsp總體樣本第十五頁,共一百三十四頁,編輯于2023年,星期三幾種常用的統(tǒng)計軟件
(Software)典型的統(tǒng)計軟件SASSPSSMINITABSTATISTICAS-PLUSRExcel第十六頁,共一百三十四頁,編輯于2023年,星期三第十七頁,共一百三十四頁,編輯于2023年,星期三§1數據的搜集§1.1數據的來源§1.2調查數據§1.3實驗數據§1.4數據的誤差§1.5數據文件第十八頁,共一百三十四頁,編輯于2023年,星期三學習目標數據的來源搜集數據的調查方法問卷設計搜集數據的實驗方法數據的誤差數據的質量要求第十九頁,共一百三十四頁,編輯于2023年,星期三系統(tǒng)外部的數據統(tǒng)計部門和政府部門公布的有關資料,如各類統(tǒng)計年鑒各類經濟信息中心、信息咨詢機構、專業(yè)調查機構等提供的數據各類專業(yè)期刊、報紙、書籍所提供的資料各種會議,如博覽會、展銷會、交易會及專業(yè)性、學術性研討會上交流的有關資料從互聯網或圖書館查閱到的相關資料數據的間接來源§1.1數據的來源第二十頁,共一百三十四頁,編輯于2023年,星期三系統(tǒng)內部的數據業(yè)務資料,如與業(yè)務經營活動有關的各種單據,記錄經營活動過程中的各種統(tǒng)計報表各種財務,會計核算和分析資料等第二十一頁,共一百三十四頁,編輯于2023年,星期三二手數據的特點搜集容易,采集成本低作用廣泛分析所要研究的問題提供研究問題的背景幫助研究者更好地定義問題檢驗和回答某些疑問和假設尋找研究問題的思路和途徑搜集二手資料在研究中應優(yōu)先考慮第二十二頁,共一百三十四頁,編輯于2023年,星期三二手數據的評估數據是誰搜集的?可信度評估為什么目的而搜集的?數據是怎樣搜集的?什么時候搜集的?第二十三頁,共一百三十四頁,編輯于2023年,星期三數據的直接來源
(原始數據)調查數據通過調查方法獲得的數據通常是對社會現象而言通常取自有限總體實驗數據通過實驗方法得到的數據通常是對自然現象而言也被廣泛運用到社會科學中如心理學、教育學、社會學、經濟學、管理學等第二十四頁,共一百三十四頁,編輯于2023年,星期三抽樣方法抽樣方式概率抽樣非概率抽樣簡單隨機抽樣分層抽樣整群抽樣系統(tǒng)抽樣多階段抽樣方便抽樣判斷抽樣自愿樣本滾雪球抽樣配額抽樣§1.2調查數據第二十五頁,共一百三十四頁,編輯于2023年,星期三概率抽樣與非概率抽樣的比較概率抽樣依據隨機原則抽選樣本樣本統(tǒng)計量的理論分布存在可根據調查的結果推斷總體非概率抽樣不是依據隨機原則抽選樣本樣本統(tǒng)計量的分布是不確定的無法使用樣本的結果推斷總體第二十六頁,共一百三十四頁,編輯于2023年,星期三搜集數據的基本方法搜集數據的基本方法調查的數據實驗的數據自填式面訪式電話式第二十七頁,共一百三十四頁,編輯于2023年,星期三各調查方法的比較自填式面訪式電話式調查時間慢中等快捷調查費用低高低問卷難度要求容易可以復雜要求容易有形輔助物的使用中等利用充分利用無法利用調查過程控制簡單復雜容易調查員作用的發(fā)揮無法發(fā)揮充分發(fā)揮一般發(fā)揮回答率最低較高一般第二十八頁,共一百三十四頁,編輯于2023年,星期三實驗租和對照組將研究對象分為兩組:實驗組和對照組實驗組和隨機組的產生應遵循隨機原則,而且應該匹配匹配指對實驗單位的背景材料進行分析比較,將情況類似的每對單位分別隨機地分配到實驗組和對照組§1.3實驗數據第二十九頁,共一百三十四頁,編輯于2023年,星期三實驗中的若干問題人的意愿研究的對象是人的時候,在劃分實驗組和對照組時的隨機原則將面臨挑戰(zhàn)心理問題人們對被研究非常敏感,這使得他們更加注意自我,從而走到事物的另一個極端道德問題當某種實驗涉及道德問題時,人們會處于進退兩難的尷尬境地第三十頁,共一百三十四頁,編輯于2023年,星期三實驗中的統(tǒng)計實驗設計本身就是一個統(tǒng)計問題確定進行實驗所需要的單位的個數,以保證實驗可以達到統(tǒng)計顯著的結果將統(tǒng)計的思想融入到實驗設計中,使實驗設計符合統(tǒng)計分析的標準對實驗數據進行分析時,統(tǒng)計可以提供最恰當的分析方法第三十一頁,共一百三十四頁,編輯于2023年,星期三§1.4數據的誤差第三十二頁,共一百三十四頁,編輯于2023年,星期三抽樣誤差
(samplingerror)由于抽樣的隨機性所帶來的誤差所有樣本可能的結果與總體真值之間的平均性差異影響抽樣誤差的大小的因素樣本量的大小總體的變異性第三十三頁,共一百三十四頁,編輯于2023年,星期三非抽樣誤差
(non-samplingerror)相對抽樣誤差而言除抽樣誤差之外的,由于其他原因造成的樣本觀察結果與總體真值之間的差異存在于所有的調查之中概率抽樣,非概率抽樣,全面性調查有抽樣框誤差、回答誤差、無回答誤差、調查員誤差、測量誤差第三十四頁,共一百三十四頁,編輯于2023年,星期三誤差的控制抽樣誤差可計算和控制非抽樣誤差的控制調查員的挑選調查員的培訓督導員的調查專業(yè)水平調查過程控制調查結果進行檢驗、評估現場調查人員進行獎懲的制度第三十五頁,共一百三十四頁,編輯于2023年,星期三統(tǒng)計數據的質量要求1.精
度:最低的抽樣誤差或隨機誤差2.準確性:最小的非抽樣誤差或偏差3.關聯性:滿足用戶決策、管理和研究的需要4.及時性:在最短的時間里取得并公布數據5.一致性:保持時間序列的可比性6.最低成本:以最經濟的方式取得數據第三十六頁,共一百三十四頁,編輯于2023年,星期三§2數據的整理與顯示§2.1
數據的預處理§2.2分類和順序數據的整理與顯示§2.3數值型數據的整理與顯示§2.4統(tǒng)計表第三十七頁,共一百三十四頁,編輯于2023年,星期三學習目標了解數據預處理的內容和目的掌握分類和順序數據的整理與顯示方法掌握數值型數據的整理與顯示方法用R作頻數分布表和形圖合理使用統(tǒng)計表第三十八頁,共一百三十四頁,編輯于2023年,星期三數據的審核檢查數據中的錯誤數據的篩選找出符合條件的數據數據排序升序和降序尋找數據的基本特征§2.1數據的預處理
第三十九頁,共一百三十四頁,編輯于2023年,星期三數據審核—原始數據
(rawdata)審核的內容完整性審核檢查應調查的單位或個體是否有遺漏所有的調查項目或指標是否填寫齊全準確性審核檢查數據是否真實反映客觀實際情況,內容是否符合實際檢查數據是否有錯誤,計算是否正確等第四十頁,共一百三十四頁,編輯于2023年,星期三數據的審核—原始數據
(rawdata)審核數據準確性的方法邏輯檢查從定性角度,審核數據是否符合邏輯,內容是否合理,各項目或數字之間有無相互矛盾的現象主要用于對分類和順序據的審核計算檢查檢查調查表中的各項數據在計算結果和計算方法上有無錯誤主要用于對數值型數據的審核第四十一頁,共一百三十四頁,編輯于2023年,星期三數據的審核—二手數據
(secondhanddata)適用性審核弄清楚數據的來源、數據的口徑以及有關的背景材料確定數據是否符合自己分析研究的需要時效性審核盡可能使用最新的數據確認是否必要做進一步的加工整理第四十二頁,共一百三十四頁,編輯于2023年,星期三數據篩選
(datafilter)當數據中的錯誤不能予以糾正,或者有些數據不符合調查的要求而又無法彌補時,需要對數據進行篩選數據篩選的內容包括將某些不符合要求的數據或有明顯錯誤的數據予以剔除將符合某種特定條件的數據篩選出來,而不符合特定條件的數據予以剔除第四十三頁,共一百三十四頁,編輯于2023年,星期三要弄清所面對的數據類型,因為不同類型的數據,所采取的處理方式和方法是不同的對分類數據和順序數據主要是做分類整理對數值型數據則主要是做分組整理適合于低層次數據的整理和顯示方法也適合于高層次的數據;但適合于高層次數據的整理和顯示方法并不適合于低層次的數據§2.2分類和順序數據的整理與顯示第四十四頁,共一百三十四頁,編輯于2023年,星期三分類數據的整理
(基本過程)1. 列出各類別2.計算各類別的頻數3.制作頻數分布表4.用圖形顯示數據分類頻數比例百分比比率ABCDE第四十五頁,共一百三十四頁,編輯于2023年,星期三分類數據的整理
(可計算的統(tǒng)計量)頻數(frequency)
:落在各類別中的數據個數比例(proportion)
:某一類別數據占全部數據的比值百分比(percentage)
:將對比的基數作為100而計算的比值,即比例X100%比率(ratio)
:不同類別數值的比值第四十六頁,共一百三十四頁,編輯于2023年,星期三分類數據整理—頻數分布表
(例題分析)【例】一家市場調查公司為研究不同品牌飲料的市場占有率,對隨機抽取的一家超市進行了調查。調查員在某天對50名顧客購買飲料的品牌進行了記錄,如果一個顧客購買某一品牌的飲料,就將這一飲料的品牌名字記錄一次。右邊就是記錄的原始數據用R制作頻數分布表第四十七頁,共一百三十四頁,編輯于2023年,星期三例1讀取某公司雇員數據(SPSS數據文件),保存為R數據文件,指定因子各水平的標簽,分析性別、是否少數民族、工作類型、教育程度等頻數分布。y=read.spss('E:/RandStatistics/RTeaching/dataset/Employeedata.sav',use.value.labels=F,to.data.frame=T,max.value.labels=Inf,s=FALSE)Names(y);[1]"ID""GENDER""BDATE""EDUC""JOBCAT""SALARY"[7]"SALBEGIN""JOBTIME""PREVEXP""MINORITY"yy$MINORITY=factor(y$MINORITY,levels=sort(unique(y$MINORITY),decreasing=T),labels=c("Yes","No"),exclude=NA,order=F)第四十八頁,共一百三十四頁,編輯于2023年,星期三y$JOBCAT=factor(y$JOBCAT,levels=sort(unique(y$JOBCAT),decreasing=T),labels=c("經理","保管員","服務員"),exclude=NA,order=F)Edata=y;save(Edata,file="E:/R/Employeedata.Rdata")load("E:/R/Edata.Rdata");attach(Edata);table(Edata$JOBCAT)經理保管員服務員
8427363第四十九頁,共一百三十四頁,編輯于2023年,星期三>table(Edata$GENDER)fm216258>table(Edata$MINORITY)YesNo104370>table(Edata$EDUC)8121415161718192021531906116591192721第五十頁,共一百三十四頁,編輯于2023年,星期三分類數據的圖示—條形圖
(barChart)用寬度相同的條形的高度或長短來表示各類別數據的圖形有單式條形圖、復式條形圖等形式主要用于反映分類數據的頻數分布繪制時,各類別可以放在縱軸,稱為條形圖,也可以放在橫軸,稱為柱形圖第五十一頁,共一百三十四頁,編輯于2023年,星期三分類數據的圖示—條形圖
(例題分析)第五十二頁,共一百三十四頁,編輯于2023年,星期三例2對公司雇員數據,做出性別、工作類型、教育程度等條形圖。plot(Edata$GENDER)plot(Edata$JOBCAT)hist(Edata$EDUC)第五十三頁,共一百三十四頁,編輯于2023年,星期三第五十四頁,共一百三十四頁,編輯于2023年,星期三第五十五頁,共一百三十四頁,編輯于2023年,星期三第五十六頁,共一百三十四頁,編輯于2023年,星期三分類數據的圖示—餅圖
(pieChart)也稱圓形圖,是用圓形及圓內扇形的角度來表示數值大小的圖形主要用于表示總體或樣本中各組成部分所占的比例,對于研究結構性問題十分有用繪制圓形圖時,總體中各部分所占的百分比用園內的各個扇形角度表示,這些扇形的中心角度,是按各部分數據百分比占3600的相應比例確定的第五十七頁,共一百三十四頁,編輯于2023年,星期三分類數據的圖示—餅圖
(例題分析)第五十八頁,共一百三十四頁,編輯于2023年,星期三例3對公司雇員數據,做出性別、工作類型、教育程度等餅圖。pie(table(Edata$GENDER))pie(table(Edata$JOBCAT))pie(table(Edata$EDUC))第五十九頁,共一百三十四頁,編輯于2023年,星期三第六十頁,共一百三十四頁,編輯于2023年,星期三第六十一頁,共一百三十四頁,編輯于2023年,星期三第六十二頁,共一百三十四頁,編輯于2023年,星期三順序數據的整理
(可計算的指標)1.累積頻數(cumulativefrequencies):各類別頻數的逐級累加2.累積頻率(cumulativepercentages):各類別頻率(百分比)的逐級累加第六十三頁,共一百三十四頁,編輯于2023年,星期三順序數據的頻數分布表
(例題分析)【例】在一項城市住房問題的研究中,研究人員在甲乙兩個城市各抽樣調查300戶,其中的一個問題是:“您對您家庭目前的住房狀況是否滿意?
1.非常不滿意;2.不滿意;3.一般;4.滿意;5.非常滿意。甲城市家庭對住房狀況評價的頻數分布回答類別甲城市戶數(戶)百分比(%)向上累積向下累積戶數(戶)百分比(%)戶數(戶)百分比(%)非常不滿意不滿意一般滿意非常滿意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合計300100.0————第六十四頁,共一百三十四頁,編輯于2023年,星期三順序數據的頻數分布表
(例題分析)乙城市家庭對住房狀況評價的頻數分布回答類別乙城市戶數(戶)百分比(%)向上累積向下累積戶數(戶)百分比(%)戶數(戶)百分比(%)非常不滿意不滿意一般滿意非常滿意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.034.012.7合計300100.0————第六十五頁,共一百三十四頁,編輯于2023年,星期三順序數據的圖示—累計頻數分布圖
(例題分析)243001322252700100200300400
非常不滿意
不滿意
一般
滿意
非常滿意累積戶數(戶)(a)向上累積27616830300750100200300400
非常不滿意
不滿意
一般
滿意
非常滿意累積戶數(戶)(b)向下累積甲城市家庭對住房狀況評價的累積頻數分布第六十六頁,共一百三十四頁,編輯于2023年,星期三環(huán)形圖
(annularchart)環(huán)形圖中間有一個“空洞”,總體中的每一部分數據用環(huán)中的一段表示環(huán)形圖與圓形圖類似,但又有區(qū)別圓形圖只能顯示一個總體各部分所占的比例環(huán)形圖則可以同時繪制多個總體的數據系列,每一個總體的數據系列為一個環(huán)環(huán)形圖可用于結構比較研究環(huán)形圖主要用于展示分類和順序數據第六十七頁,共一百三十四頁,編輯于2023年,星期三環(huán)形圖
(例題分析)8%36%31%15%7%33%26%21%13%10%
非常不滿意
不滿意
一般
滿意
非常滿意
甲乙兩城市家庭對住房狀況的評價第六十八頁,共一百三十四頁,編輯于2023年,星期三分組方法等距分組異距分組單變量值分組組距分組§2.3數值型數據的整理與顯示第六十九頁,共一百三十四頁,編輯于2023年,星期三單變量值分組
(要點)1.將一個變量值作為一組2.適合于離散變量3.適合于變量值較少的情況第七十頁,共一百三十四頁,編輯于2023年,星期三組距分組
(要點)將變量值的一個區(qū)間作為一組適合于連續(xù)變量適合于變量值較多的情況需要遵循“不重不漏”的原則可采用等距分組,也可采用不等距分組第七十一頁,共一百三十四頁,編輯于2023年,星期三組距分組
(步驟)確定組數:組數的確定應以能夠顯示數據的分布特征和規(guī)律為目的。在實際分組時,可以按Sturges提出的經驗公式來確定組數K確定組距:組距(ClassWidth)是一個組的上限與下限之差,可根據全部數據的最大值和最小值及所分的組數來確定,即
組距=(最大值-最小值)÷組數
統(tǒng)計出各組的頻數并整理成頻數分布表第七十二頁,共一百三十四頁,編輯于2023年,星期三組距分組
(幾個概念)1.下限(lowlimit)
:一個組的最小值2.上限(upperlimit)
:一個組的最大值3.組距(classwidth)
:上限與下限之差4.組中值(classmidpoint)
:下限與上限之間的中點值下限值+上限值2組中值=第七十三頁,共一百三十四頁,編輯于2023年,星期三頻數分布表的編制
(例題分析)【例】某電腦公司2002年前四個月各天的銷售量數據(單位:臺)。試對數據進行分組。
第七十四頁,共一百三十四頁,編輯于2023年,星期三頻數分布表的編制
(步驟)確定組數:根據Sturges
提出的經驗公式得組數K為:確定各組的組距:
組距=(237-141)÷10=9.610用R制作頻數分布表
第七十五頁,共一百三十四頁,編輯于2023年,星期三等距分組表
(上下組限重疊)第七十六頁,共一百三十四頁,編輯于2023年,星期三等距分組表
(上下組限間斷)第七十七頁,共一百三十四頁,編輯于2023年,星期三等距分組表
(使用開口組)第七十八頁,共一百三十四頁,編輯于2023年,星期三組距分組與不等距分組
(在表現頻數分布上的差異)等距分組各組頻數的分布不受組距大小的影響可直接根據絕對頻數來觀察頻數分布的特征不等距分組各組頻數的分布受組距大小不同的影響各組絕對頻數的多少不能反映頻數分布的實際狀況需要用頻數密度(頻數密度=頻數/組距)反映頻數分布的實際狀況第七十九頁,共一百三十四頁,編輯于2023年,星期三分組數據—直方圖
(histogram)用矩形的寬度和高度來表示頻數分布的圖形,實際上是用矩形的面積來表示各組的頻數分布在直角坐標中,用橫軸表示數據分組,縱軸表示頻數或頻率,各組與相應的頻數就形成了一個矩形,即直方圖直方圖下的總面積等于1數值型數據的圖示第八十頁,共一百三十四頁,編輯于2023年,星期三分組數據的圖示
(直方圖的繪制)140150210直方圖下的面積之和等于1?某電腦公司銷售量分布的直方圖190200180160170頻數(天)25201510530220230240第八十一頁,共一百三十四頁,編輯于2023年,星期三例4對公司雇員數據,做出工資數據直方圖。hist(Edata$SALARY)hist(Edata$SALARY,labels=T)第八十二頁,共一百三十四頁,編輯于2023年,星期三第八十三頁,共一百三十四頁,編輯于2023年,星期三第八十四頁,共一百三十四頁,編輯于2023年,星期三分組數據—直方圖
(直方圖與條形圖的區(qū)別)條形圖是用條形的長度(橫置時)表示各類別頻數的多少,其寬度(表示類別)則是固定的直方圖是用面積表示各組頻數的多少,矩形的高度表示每一組的頻數或百分比,寬度則表示各組的組距,其高度與寬度均有意義直方圖的各矩形通常是連續(xù)排列,條形圖則是分開排列條形圖主要用于展示分類數據,直方圖則主要用于展示數值型數據第八十五頁,共一百三十四頁,編輯于2023年,星期三分組數據—折線圖
(frequencypolygon)折線圖也稱頻數多邊形圖是在直方圖的基礎上,把直方圖頂部的中點(組中值)用直線連接起來,再把原來的直方圖抹掉折線圖的兩個終點要與橫軸相交,具體的做法是第一個矩形的頂部中點通過豎邊中點(即該組頻數一半的位置)連接到橫軸,最后一個矩形頂部中點與其豎邊中點連接到橫軸折線圖下所圍成的面積與直方圖的面積相等,二者所表示的頻數分布是一致的第八十六頁,共一百三十四頁,編輯于2023年,星期三分組數據的圖示
(折線圖的繪制)折線圖與直方圖下的面積相等!140150210某電腦公司銷售量分布的折線圖190200180160170220230240頻數(天)25201510530第八十七頁,共一百三十四頁,編輯于2023年,星期三未分組數據—莖葉圖
(stem-and-leafdisplay)用于顯示未分組的原始數據的分布由“莖”和“葉”兩部分構成,其圖形是由數字組成的以該組數據的高位數值作樹莖,低位數字作樹葉樹葉上只保留一位數字對于n(20n300)個數據,莖葉圖最大行數不超過
L=[10×lg(n)]
6.莖葉圖類似于橫置的直方圖,但又有區(qū)別直方圖可觀察一組數據的分布狀況,但沒有給出具體的數值莖葉圖既能給出數據的分布狀況,又能給出每一個原始數值,保留了原始數據的信息第八十八頁,共一百三十四頁,編輯于2023年,星期三未分組數據—莖葉圖
(例題分析)第八十九頁,共一百三十四頁,編輯于2023年,星期三未分組數據—莖葉圖
(擴展的莖葉圖)第九十頁,共一百三十四頁,編輯于2023年,星期三未分組數據—箱線圖
(boxplot)用于顯示未分組的原始數據的分布箱線圖由一組數據的5個特征值繪制而成,它由一個箱子和兩條線段組成其繪制方法是:首先找出一組數據的5個特征值,即最大值、最小值、中位數Me和兩個四分位數(下四分位數QL和上四分位數QU)連接兩個四分(位)數畫出箱子,再將兩個極值點與箱子相連接第九十一頁,共一百三十四頁,編輯于2023年,星期三未分組數據—單批數據箱線圖
(箱線圖的構成)中位數4681012QUQLX最大值X最小值簡單箱線圖第九十二頁,共一百三十四頁,編輯于2023年,星期三未分組數據—單批數據箱線圖
(例題分析)最小值141最大值237中位數182下四分位數170.25上四分位數197140150160170180190200210220230240某電腦公司銷售量數據的箱線圖第九十三頁,共一百三十四頁,編輯于2023年,星期三分布的形狀與箱線圖
對稱分布QL中位數
QU左偏分布QL中位數
QU右偏分布QL
中位數
QU不同分布的箱線圖第九十四頁,共一百三十四頁,編輯于2023年,星期三例5對公司雇員數據,做出工資數據箱線圖。boxplot(Edata$SALARY,data=Edata,col="lightgray");第九十五頁,共一百三十四頁,編輯于2023年,星期三未分組數據—多批數據箱線圖
(例題分析)【例】從某大學經濟管理專業(yè)二年級學生中隨機抽取11人,對8門主要課程的考試成績進行調查,所得結果如表。試繪制各科考試成績的批比較箱線圖,并分析各科考試成績的分布特征11名學生各科的考試成績數據課程名稱學生編號1234567891011英語經濟數學西方經濟學市場營銷學財務管理基礎會計學統(tǒng)計學計算機應用基礎76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177第九十六頁,共一百三十四頁,編輯于2023年,星期三未分組數據—多批數據箱線圖
(例題分析)8門課程考試成績的箱線圖第九十七頁,共一百三十四頁,編輯于2023年,星期三11名學生8門課程考試成績的箱線圖Min-Max25%-75%Medianvalue455565758595105學生1學生2學生3學生4學生5學生6學生7學生8學生9學生10學生11未分組數據—多批數據箱線圖
(例題分析)第九十八頁,共一百三十四頁,編輯于2023年,星期三例6對某公司雇員數據,分析性別與工作類型、性別與是否少數民族的特征,作出交叉頻數分布表。>ftable(Edata[c('GENDER','JOBCAT')])JOBCAT經理保管員服務員
GENDERf100206m7427157ftable(Edata[c('GENDER','MINORITY')])MINORITYYesNoGENDERf40176m64194第九十九頁,共一百三十四頁,編輯于2023年,星期三例7對某公司雇員數據,分析不同性別、工作類型、少數民族的收入差異,作出多批數據箱線圖。boxplot(Edata$SALARY~Edata$GENDER,data=Edata,col="lightgray");boxplot(Edata$SALARY~Edata$JOBCAT,data=Edata,col="lightgray");boxplot(Edata$SALARY~Edata$MINORITY,data=Edata,col="lightgray");
第一百頁,共一百三十四頁,編輯于2023年,星期三第一百零一頁,共一百三十四頁,編輯于2023年,星期三第一百零二頁,共一百三十四頁,編輯于2023年,星期三第一百零三頁,共一百三十四頁,編輯于2023年,星期三例8對某公司雇員數據,分析不同性別、工作類型之間的收入差異,作出多批數據箱線圖。boxplot(split(Edata$SALARY,list(Edata$JOBCAT,Edata$GENDER)),col="lightgray");boxplot(split(Edata$SALARY,list(Edata$GENDER,Edata$JOBCAT)),col="lightgray");不同性別在不同工作類型上的當前工資比較。與工資增長率不同,性別差異在工資水平上的差異十分明顯,男性的工資水平無論在Clerical還是Manager上都比女性的平均工資水平高。第一百零四頁,共一百三十四頁,編輯于2023年,星期三splitpackage:baseRDocumentationDivideintoGroupsDescription:'split'dividesthedatainthevector'x'intothegroupsdefinedby'f'.Theassignmentformsreplacevaluescorrespondingtosuchadivision.Unsplitreversestheeffectof'split'.Usage:split(x,f,drop=FALSE,...)split(x,f,drop=FALSE,...)<-valueunsplit(value,f,drop=FALSE)Arguments:x:vectorordataframecontainingvaluestobedividedintogroups.
第一百零五頁,共一百三十四頁,編輯于2023年,星期三
f:a"factor"inthesensethat'as.factor(f)'definesthegrouping,oralistofsuchfactorsinwhichcasetheirinteractionisusedforthegrouping.drop:logicalindicatingiflevelsthatdonotoccurshouldbedropped(if'f'isa'factor'oralist).value:alistofvectorsordataframescompatiblewithasplittingof'x'.Recyclingappliesifthelengthsdonotmatch....:furtherpotentialargumentspassedtomethods.Details:'split'and'split<-'aregenericfunctionswithdefaultand'data.frame'methods.'f'isrecycledasnecessaryandifthelengthof'x'isnotamultipleofthelengthof'f'awarningisprinted.'unsplit'worksonlywithlistsofvectors.Thedataframemethodcanalsobeusedtosplitamatrixintoalistofmatrices,andtheassignmentformlikewise,providedtheyareinvokedexplicitly.第一百零六頁,共一百三十四頁,編輯于2023年,星期三
Anymissingvaluesin'f'aredroppedtogetherwiththecorrespondingvaluesof'x'.Value:Thevaluereturnedfrom'split'isalistofvectorscontainingthevaluesforthegroups.Thecomponentsofthelistarenamedbythe_used_factorlevelsgivenby'f'.(If'f'islongerthan'x'thensomeofthecomponentswillbeofzerolength.)Theassignmentformsreturntheirrighthandside.'unsplit'returnsavectorforwhich'split(x,f)'equals'value'References:Becker,R.A.,Chambers,J.M.andWilks,A.R.(1988)_TheNewSLanguage_.Wadsworth&Brooks/Cole.SeeAlso:'cut'第一百零七頁,共一百三十四頁,編輯于2023年,星期三Examples:require(stats)n<-10;nn<-100;g<-factor(round(n*runif(n*nn)))x<-rnorm(n*nn)+sqrt(as.numeric(g));xg<-split(x,g);boxplot(xg,col="lavender",notch=TRUE,varwidth=TRUE);sapply(xg,length);sapply(xg,mean)##Calculatez-scoresbygroupz<-unsplit(lapply(split(x,g),scale),g)tapply(z,g,mean)#orz<-x;split(z,g)<-lapply(split(x,g),scale);tapply(z,g,sd)##Splitamatrixintoalistbycolumnsma<-cbind(x=1:10,y=(-4:5)^2);split(ma,col(ma));split(1:10,1:2)第一百零八頁,共一百三十四頁,編輯于2023年,星期三第一百零九頁,共一百三十四頁,編輯于2023年,星期三第一百一十頁,共一百三十四頁,編輯于2023年,星期三boxplot(split(Edata$SALARY,list(Edata$GENDER,Edata$JOBCAT)),plot=F);ValueListwiththefollowingcomponents:stats:amatrix,eachcolumncontainstheextremeofthelowerwhisker,thelowerhinge,themedian,theupperhingeandtheextremeoftheupperwhiskerforonegroup/plot.n:avectorwiththenumberofobservationsineachgroup.conf:amatrixwhereeachcolumncontainsthelowerandupperextremesofthenotch.out:thevaluesofanydatapointswhichliebeyondtheextremesofthewhiskers.group:avectorofthesamelengthasoutwhoseelementsindicatewhichgrouptheoutlierbelongstonames:avectorofnamesforthegroups第一百一十一頁,共一百三十四頁,編輯于2023年,星期三$stats[,1][,2][,3][,4][,5][,6][1,]34410.038700NA295501575019650[2,]41550.054900NA301502145026700[3,]45187.563750NA307502400029850[4,]55750.073750NA309752775034950[5,]58125.0100000NA319503705046000$n
[1]1074027206157$conf
[,1][,2][,3][,4][,5][,6][1,]38092.6160287.8NA30499.1423306.4728809.69[2,]52282.3967212.2NA31000.8624693.5330890.31$out
[1]103750135000110625103500243003375034500352503525028500[11]38850540005100038550408003765052650800005055066875[21]49000$group
[1]222244444455555566666$names[1]"f.經理""m.經理""f.保管員""m.保管員""f.服務員""m.服務員"第一百一十二頁,共一百三十四頁,編輯于2023年,星期三例9對某公司雇員數據,分析不同性別、民族之間的收入差異;作出多批數據箱線圖。boxplot(split(Edata$SALARY,list(Edata$MINORITY,Edata$GENDER)),col="lightgray");boxplot(split(Edata$SALARY,list(Edata$GENDER,Edata$MINORITY)),col="lightgray");第一百一十三頁,共一百三十四頁,編輯于2023年,星期三第一百一十四頁,共一百三十四頁,編輯于2023年,星期三第一百一十五頁,共一百三十四頁,編輯于2023年,星期三例10對某公司雇員數據,分析不同民族、工作類型之間的收入差異;作出多批數據箱線圖。boxplot(split(Edata$SALARY,list(Edata$JOBCAT,Edata$MINORITY)),col="lightgray");boxplot(split(Edata$SALARY,list(Edata$MINORITY,Edata$JOBCAT)),col="lightgray");第一百一十六頁,共一百三十四頁,編輯于2023年,星期三第一百一十七頁,共一百三十四頁,編輯于2023年,星期三第一百一十八頁,共一百三十四頁,編輯于2023年,星期三時間序列數據—線圖
(lineplot)繪制線圖時應注意以下幾點時間一般繪在橫軸,指標數據繪在縱軸圖形的長寬比例要適當,其長寬比例大致為10:7一般情況下,縱軸數據下端應從“0”開始,以便于比較。數據與“0”之間的間距過大時,可以采取折斷的符號將縱軸折斷第一百一十九頁,共一百三十四頁,編輯于2023年,星期三時間序列數據—線圖
(例題分析)【例】已知1991~2000年我國城鄉(xiāng)居民家庭的人均收入數據如表。試繪制線圖¥
$
1991~2000年城鄉(xiāng)居民家庭人均收入年份城鎮(zhèn)居民農村居民19911992199319941995199619971998199920001700.62026.62577.43496.24283.04838.95160.35425.15854.06280.0708.6784.0921.61221.01577.71926.1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025水泥供貨合同模板
- 2025鋁材采購合同書樣本
- 2025年光伏支架鋼結構加工合同
- 2025年招投標與合同管理:合同風險控制案例分析
- 2025學校翻新教學樓合同書
- 2025標準集體土地使用權轉讓合同
- 2025年度工程承包合同簽訂年度
- 《2025版權授權合同模板》
- 2025玉米買賣合同模板
- 《守護健康熱愛生命》課件
- 重性精神病個案管理
- 發(fā)成果轉化項目可行性研究報告(定稿)
- (新版教材)粵教粵科版六年級下冊科學全冊教案(教學設計)
- 公路瀝青路面設計規(guī)范算例(較早的算例 采用的參數跟規(guī)范條文可能有不一致 僅參考分析過程)
- 個人分期還款協議書模板(5篇)
- ZT-S1-NB藍牙智能云鎖家庭版介紹課件
- 儀表電氣專業(yè)安全檢查表
- 航空煤油MSDS安全技術說明書
- 信息系統(tǒng)項目管理教學大綱
- 基金從業(yè)資格考試培訓中歐基金版
- 急性闌尾炎護理查房ppt
評論
0/150
提交評論