統計學數據的搜集與整理新PPT課件_第1頁
統計學數據的搜集與整理新PPT課件_第2頁
統計學數據的搜集與整理新PPT課件_第3頁
統計學數據的搜集與整理新PPT課件_第4頁
統計學數據的搜集與整理新PPT課件_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第二章 數據的搜集與整理第一節(jié) 數據的搜集現實生活中有不少問題是不能像我們以往解數學題一樣套用公式、法則的方法解決,而需要在仔細觀察和積累數據的基礎上,經過整理和描述分析的數據,才能給出答案。也就是用數據來說話。當我們確定了研究問題,就需要搜集相關的數據,設計調查方案,有些研究的問題需要通過實驗來獲得數據,那么怎樣使用實驗方法獲得數據呢?第1頁/共43頁第二章 數據的搜集與整理第一節(jié) 數據的搜集 統計數據的搜集就是按照統計研究所預定的目的和任務,運用恰當的統計方法,有組織、有計劃地向調查對象搜集原始統計資料的工作過程。屬于統計工作過程的基礎階段。一、數據來源 從使用者的角度看,統計數據來源于兩

2、種渠道:一是直接來源,即統計數據直接源于自己的調查或實驗,稱之為一手數據或直接數據;二是間接來源,即統計數據來源于別人的調查或實驗,稱之為二手數據或間接數據。第2頁/共43頁1、數據的間接來源分為內部信息數據和外部信息數據。l內部信息數據是指從被調查單位內部直接獲取的,與調查單位有關的信息數據資料,例如,通過企業(yè)的統計報表、資產負債表等獲取的企業(yè)有關數據。l外部信息數據是指從各級政府、貿易組織、計算機網絡等渠道獲取的數據。例如,統計部門和各級政府定期發(fā)布的統計公報、定期出版的各類統計年鑒國內部分提供統計數據的網站及相關內容見表2-1。第3頁/共43頁2 2、數據的數據的直直接來源接來源統計調查

3、是獲取直接數據的主要方法,數據的直接統計調查是獲取直接數據的主要方法,數據的直接來源主要有兩個渠道:一是統計調查或觀察;二是科學來源主要有兩個渠道:一是統計調查或觀察;二是科學實驗。實驗。第4頁/共43頁二、統計調查方案設計二、統計調查方案設計調查背景調查背景調查目的調查目的調查調查內容內容調查方法調查方法和抽樣方法和抽樣方法調查對象調查對象和調查范圍和調查范圍調查時間調查時間進度表進度表調查費用預算調查費用預算附件附件第5頁/共43頁三、統計調查的形式按調查的組織形式,對統計調查方法進行分類:普查、按調查的組織形式,對統計調查方法進行分類:普查、重點調查、典型調查和抽樣調查等。重點調查、典型

4、調查和抽樣調查等。 (一)普查普查是一種專門組織的一次性的全面調查。普查是一種專門組織的一次性的全面調查。 普查是為了了解總體的全面情況。普查是為了了解總體的全面情況。(二)重點調查重點調查是對總體中的重點單位進行的專門調查。重點調查是對總體中的重點單位進行的專門調查。“重重點單位點單位”是指此類單位的變量值(調查所要了解的變量)是指此類單位的變量值(調查所要了解的變量)占總體中該變量值總和有較大比重。重點調查是為了了占總體中該變量值總和有較大比重。重點調查是為了了解總體的基本情況。解總體的基本情況。第6頁/共43頁(三)典型調查典型調查是對總體中的有代表性的單位進行的專門調查。如我國典型調查

5、是對總體中的有代表性的單位進行的專門調查。如我國的投入產出調查。的投入產出調查。 一般來說,典型調查是為了了解總體的特殊情況。一般來說,典型調查是為了了解總體的特殊情況。(四)抽樣調查抽樣調查又稱抽樣推斷,它是指按隨機原則對總體進行抽取樣抽樣調查又稱抽樣推斷,它是指按隨機原則對總體進行抽取樣本,以樣本資料來推斷總體的有關特征的一種專門調查。本,以樣本資料來推斷總體的有關特征的一種專門調查。抽樣調查方法運用廣泛。抽樣調查方法運用廣泛。第7頁/共43頁統計調查方法統計調查方法調查對象調查對象調查作用調查作用普查普查重點調查重點調查典型調查典型調查抽樣調查抽樣調查四種調查方法比較四種調查方法比較第8

6、頁/共43頁統計調查方法統計調查方法調查對象調查對象調查作用調查作用普查普查總體中的全部單位總體中的全部單位 了解總體的全面情況了解總體的全面情況重點調查重點調查總體中的重點單位總體中的重點單位 了解總體的基本情況了解總體的基本情況典型調查典型調查總體中的有代表性總體中的有代表性的單位的單位了解總體的特殊情況了解總體的特殊情況抽樣調查抽樣調查樣本中的全部單位樣本中的全部單位由局部推斷整體由局部推斷整體四種調查方法比較四種調查方法比較第9頁/共43頁(五)統計報表統計報表是指按照國家統一規(guī)定以統計表的形式定期逐級上報統計資料的制度化的調查方式。l優(yōu)點:在報表實施范圍內,各報告單位一定是以制度化形

7、式按期并以統一口徑報送統計表,從而確保調查資料全面性、連續(xù)性和統一性。l缺點:要花費較大的人力、物力和財力,而且資料的準確性受人為因素影響很大,所以應將統計報表與專門調查等方法結合起來運用。我國的統計調查方法體系我國的統計調查方法體系:以周期性的普查為:以周期性的普查為基礎,以抽樣調查為主體,輔助重點調查、典型基礎,以抽樣調查為主體,輔助重點調查、典型調查和進行科學推斷。調查和進行科學推斷。第10頁/共43頁四、原始數據的搜集方法l原始數據的搜集方法主要有三類:詢問法、觀察法和實驗法。1、詢問法將所要了解的事項以當面、書面或電話的方式,向被調查者提出詢問,以獲取所需資料的一種方法。l面談調查能

8、夠直接聽取對方意見,靈活性高,但成本也高,調查時拒訪率高,調查結果容易受調查人員技術水平的影響。l電話訪談是目前應用非常廣泛的一種調查方法,主要特點是速度快、成本低,但在電話普及率較低的地區(qū)不適用,電話調查的問題也不宜過多,否則會被拒訪。l問卷調查是由調查人員交給被訪問者的問卷,說明方法后由其自行填寫,再由調查人員收回。隨著互聯網的普及,問卷調查也可以在網上進行。第11頁/共43頁2、觀察法觀察法是不與調查對象直接交流,而以旁觀者的身份對具體事件、人物、行為模式等特征和演變過程進行記錄的數據搜集方法。觀察法分為直接觀察法和實際痕跡測量法兩種。常用的觀察法有如下三種:l神秘顧客,是由經過嚴格培訓

9、的調查員,在規(guī)定的時間里扮演成顧客,對事先設計的一系列問題逐一進行評估或評定的一種方式。神秘顧客以普通顧客身份進入客戶指定的門店,觀察店面,對店面環(huán)境、服務人員行為語言、服務規(guī)范性等方面進行暗訪;l購買者行為研究,常常被零售商用于分析顧客的購買傾向。例如,大型超市的入口處經常陳列著廠家來推銷的新產品或者商店要推銷的季節(jié)性商品。顧客走進商店時,多半會駐足觀看和選購這些商品。觀察人員可以利用這一機會,觀察和收集消費者對新產品和季節(jié)產品的關注度及購買情況的資料。l消費痕跡觀察法,也是間接觀察法的一種,通過觀察消費者留下的痕跡來推斷其消費行為。例如,國外有一家飲料公司曾根據垃圾站飲料瓶的回收情況,來分

10、析消費者口味的偏好。第12頁/共43頁3、實驗法l實驗也可以用于數據的搜集。實驗法是通過實驗來研究變量之間因果關系的一種方法。實驗法常用來調查某種因素對市場銷售量的影響,例如,某一商品在改變品種、品質、包裝、設計、價格等因素時,可以在一定條件下進行小規(guī)模實驗,通過觀察用戶的反應來做出是否推廣的決策。第13頁/共43頁五、統計誤差統計誤差是指在統計工作中由于種種原因產生的統計誤差是指在統計工作中由于種種原因產生的與研究對象本來狀態(tài)有差異的結果。與研究對象本來狀態(tài)有差異的結果。統計誤差分為:(1)抽樣誤差是指由抽樣的隨機性引起的樣本結果與總體真值之間的誤差。在抽樣的過程中,根據不同的樣本,可以得到

11、不同的觀測結果。(2)非抽樣誤差是指相對抽樣誤差而言的,是指除抽樣誤差之外的,由其他原因引起的樣本觀測結果與總體真值之間的差異。例如,調查者在接受調查時給出的回答與真實情況不符,導致的誤差。非抽樣誤差是可以避免的。練習:設計大學生就業(yè)意向調查方案。第14頁/共43頁第二節(jié)第二節(jié) 統計數據的整理統計數據的整理統計數據整理是對所搜集到的原始的、零散的資料統計數據整理是對所搜集到的原始的、零散的資料進行加工和綜合,使之系統化。將搜集的數據進行科進行加工和綜合,使之系統化。將搜集的數據進行科學的分類匯總、加工處理,才能揭示現象的規(guī)律性。學的分類匯總、加工處理,才能揭示現象的規(guī)律性。一、數據的預處理一、

12、數據的預處理 數據的預處理主要包括數據的審核、篩選、排序等。數據的預處理主要包括數據的審核、篩選、排序等。1 1、數據的審核、數據的審核數據審核就是檢查數據中是否有錯誤,對于調查取得數據審核就是檢查數據中是否有錯誤,對于調查取得的原始數據,主要從資料的準確性和完整性審核。的原始數據,主要從資料的準確性和完整性審核。第15頁/共43頁準確性審核檢查的方法有兩個:準確性審核檢查的方法有兩個:一是邏輯檢查,根據調查項目之間的內在聯系,檢查一是邏輯檢查,根據調查項目之間的內在聯系,檢查資料是否符合邏輯性,項目的答案是否存在異常值等。資料是否符合邏輯性,項目的答案是否存在異常值等。二是計算檢查,檢查調查

13、表中各項數字的計算方法、二是計算檢查,檢查調查表中各項數字的計算方法、計算口徑、計算結果有無差錯,數字之間該平衡的是計算口徑、計算結果有無差錯,數字之間該平衡的是否平衡。否平衡。完整性審核,主要是檢查應調查的單位或個體是否完整性審核,主要是檢查應調查的單位或個體是否有遺漏,所有的調查項目是否填寫齊全等。有遺漏,所有的調查項目是否填寫齊全等。第16頁/共43頁對于通過其他渠道取得的二手數據,要審核數據的適對于通過其他渠道取得的二手數據,要審核數據的適用性和時效性。用性和時效性。適用性審核,即要弄清楚數據的來源、數據的口徑適用性審核,即要弄清楚數據的來源、數據的口徑以及有關的背景資料,以便確定這些

14、數據是否符合分以及有關的背景資料,以便確定這些數據是否符合分析研究的需要。析研究的需要。時效性審核,即要盡可能使用最新的數據,對于時時效性審核,即要盡可能使用最新的數據,對于時效性較強的問題如數據過于滯后,就可能失去研究的效性較強的問題如數據過于滯后,就可能失去研究的意義。意義。第17頁/共43頁2、數據篩選l數據篩選主要包括兩方面:一是將某些不符合要求的數據或有明顯錯誤的數據剔除;二是將符合某種特定條件的數據篩選出來,將不符合特定條件的數據剔除。3、數據排序l數據排序是指按一定順序將數據排列,以便研究者通過數據發(fā)現一些明顯的特征或趨勢,找到解決問題的線索。第18頁/共43頁二、數據的整理與圖

15、示數據經過預處理后可根據需要進一步做分類或分組。針對于不同類型的數據,所采用的處理方式和所使用的處理方法是不同的。數值型數據則主要是做分組整理;1、品質數據的整理與圖示品質數據包括分類數據和順序數據,主要是做分類整理。分類數據的整理與圖示頻數(次數)是指落在某一個特定類別或組中的數據個數。把各個類別及落在其中的相應的頻數全部列出,用表格形式表現出來,稱為頻數分布(次數分布)。比例也稱構成比,他是一個樣本(或總體)中各個部分的數據與全部數據之比。第19頁/共43頁【例2-1】調查廣告市場的狀況,一家廣告公司在某城市隨機抽取200人就廣告問題作了問卷調查,其中的一個問題是:“您比較關心下列哪一類廣

16、告?”1.商品廣告;2.服務廣告;3.金融廣告;4.房地產廣告;5.招生招聘廣告;6.其他廣告經過分類整理后,可以看出關注商品廣告的人數最多,關注其他廣告的人數最少。表2-2某城市居民關注廣告類型的頻數分布廣告類型人數(人)比例頻率(%)商品廣告1120.56056.0服務廣告510.25525.5金融廣告90.0454.5房地產廣告160.0808.0招生招聘廣告100.0505.0其他廣告20.0101.0合計2001100第20頁/共43頁l分類數據的圖示條形圖是用寬度相同的條形的高度或長短來表示數據多少的圖形。條形圖可以橫置或縱置,縱置時也叫柱形圖。例如,根據上例中表2-2某城市中關注

17、廣告類型的人數可以繪制如果2-1所示的條形圖。圖2-1 某城市居民關注不同類型廣告人數分布第21頁/共43頁餅圖它是以圓的面積或圓內各扇形面積來表示數值大小或總體內部結構的一種圖形。它主要用于表示一個樣本(或總體)中各組成部分的數據占全部數據的比例,對于研究結構性問題十分有用。例如,根據上例中表2-2可以繪制如果2-2所示的餅圖。圖2-2 某城市居民關注不同類型廣告人數構成第22頁/共43頁順序數據的整理與圖示在品質數據的整理與圖示中介紹的方法,如頻數、比例、百分比、條形圖等,也都是用于順序數據的整理與圖示。對于順序數據,還可以計算累計頻數和累計頻率(百分比)。 累計頻數是將各有序類別或組的頻

18、數逐級累加起來得到的頻數。它表明總體在某一變量值的某一水平上下一共包含的總體頻數。頻數的累計方法有兩種:向上累計,從類別順序的開始一方向類別順序的最后一方累加頻數(數值型分組數據是從變量值小的一方向變量值大的一方累加頻數),組距數列中的向上累計,表明各組上限以下一共所包含的總體頻數有多少。向下累計,從類別順序的最后一方向類別順序的開始一方累加頻數(數值型分組數據則是從變量值大的一方向變量值小的一方累加頻數),組距數列中的向下累計,表明各組下線以上一共包含的總體頻數有多少。第23頁/共43頁例2.1 在一項有關某酒店顧客滿意度的調查中,研究人員在某酒店隨機抽取300名顧客進行調查,其中的一個問題

19、是:“您對酒店員工的服務態(tài)度是否滿意?”要求回答的類別依次如下:1.非常滿意; 2. 滿意; 3. 一般; 4. 不滿意; 5. 非常不滿意l調查結果的頻數分布表如表2-3所示。第24頁/共43頁順序數據的圖示根據上例中的累計頻數或累計頻率,可以繪制累計頻數分布或頻率分布圖。如圖2-3所示。 (a)向上累計 (b)向下累計圖2-3 某酒店顧客對員工服務滿意度的頻數分布圖第25頁/共43頁數值型數據的整理與圖示分類和順序數據的整理與圖示方法,也都是用于數值型數據。但一些適用于數值型數據的特定整理和圖示的方法,并不適用于分類數據和順序數據。l數據分組數值型數據的結果表現為數值,在進行整理時通常是進

20、行數據分組。根據統計研究的需要,將原始數據按照某種標準分成不同的組別,分組后再計算出各組中的數據出現的頻數,就形成了一張頻數分布表。數據分組的方法有單變量分組和組距分組兩種。第26頁/共43頁l單變量分組:單變量分組:把每一個變量值作為一組,通常只適用于離把每一個變量值作為一組,通常只適用于離散變量,且變量值較少的情況下使用;散變量,且變量值較少的情況下使用;l組距分組:組距分組:適用于連續(xù)變量或變量值較多的情況下,它是適用于連續(xù)變量或變量值較多的情況下,它是將全部變量值一次劃分為若干個區(qū)間,每一個區(qū)間的變量將全部變量值一次劃分為若干個區(qū)間,每一個區(qū)間的變量值作為一組。值作為一組。組距組距 、

21、上限、下限、等距數列、異距數列、上限、下限、等距數列、異距數列年齡 人數 頻率 17 18 19 20 21 6 14 18 9 3 0.120. 280. 360. 180.06合計 50 1.00年 齡 人 數10 以下1020203030 以上 7 11 24 8合 計 50第27頁/共43頁次數密度:本組的次數與本組的組距之比。次數密度:本組的次數與本組的組距之比。組中值組中值 (每組變量值變動范圍的中點值)(每組變量值變動范圍的中點值)l組中值組中值= =(上限下限)(上限下限)/2/2l缺下限開口組組中值缺下限開口組組中值= =上限上限鄰組組距鄰組組距/2/2l缺上限開口組組中值缺

22、上限開口組組中值= =下限鄰組組距下限鄰組組距/2/2l如如1212及以下及以下l12-14 12-14 求組中值?求組中值? 注意:在異距數注意:在異距數列中,反映總體列中,反映總體單位在各組分布單位在各組分布密集程度的指標密集程度的指標 第28頁/共43頁29 變量數列的編制例:30名同齡兒童身高(cm):106,99,85,121,84,94,106,105,110,119,101,95,91,87,105,106,109,118, 96 ,128,91,97,105,111,111,107,103,101,107,106。(1)將變量值按大小次序排列84,85,87,91,91,94,

23、95,96,97,99,101,101,103,105,105,105,106,106,106,106,107,107,109,110,111,111,118,119,121,128。(2)計算全距:R=12884=44(cm)(3)確定組數與組距 令i=10cm,則組數n=44/10=4.4,取5組第29頁/共43頁3084,85,87,91,91,94,95,96,97,99,101,101,103,105,105,105,106,106,106,106,107,107,109,110,111,111,118,119,121,128。(4)編制變量數列身高(cm)人數(人)90 以下901

24、00100110110120120 以上371352合計30身高(cm)人數(人)809090100100110110120120130371352合計30第30頁/共43頁統計分組的原則 1.窮盡原則(每一個單位在給定的組中找到自己的歸屬) 2.互斥性原則(不相容性原則)第31頁/共43頁l補充:品質型數據分組第32頁/共43頁數值型數據的圖示直方圖直方圖是用直方形的高度和寬是用直方形的高度和寬度來表示次數分布特征的圖形度來表示次數分布特征的圖形。l平面直角坐標系中的橫軸表示平面直角坐標系中的橫軸表示各組組限,縱軸表示次數。各組組限,縱軸表示次數。對對于異距數列則應以次數密度為于異距數列則應以次數密度為縱軸、各組組限為橫軸繪制直縱軸、各組組限為橫軸繪制直方圖。方圖。 l與直方圖相似作用的圖是折線與直方圖相似作用的圖是折線圖,它以各組標志值中點位置圖,它以各組標志值中點位置作為該組標志的代表值,然后作為該組標志的代表值,然后用折線將各組次數連接起來。用折線將各組次數連接起來。直方圖與折線圖的面積是相等直方圖與折線圖的面積是相等的。的。 第33頁/共43頁頻數分布的主要類型1.鐘形分布 特征:兩頭小,中間大。(1)對稱分布: 0第34頁/共43頁(2)偏態(tài)分布: 右偏(正偏)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論