第一章 數(shù)據(jù)收集(管理統(tǒng)計(jì)學(xué)-中國科大,萬紅燕)_第1頁
第一章 數(shù)據(jù)收集(管理統(tǒng)計(jì)學(xué)-中國科大,萬紅燕)_第2頁
第一章 數(shù)據(jù)收集(管理統(tǒng)計(jì)學(xué)-中國科大,萬紅燕)_第3頁
第一章 數(shù)據(jù)收集(管理統(tǒng)計(jì)學(xué)-中國科大,萬紅燕)_第4頁
第一章 數(shù)據(jù)收集(管理統(tǒng)計(jì)學(xué)-中國科大,萬紅燕)_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、2022-4-272022-4-27第一章第一章 數(shù)據(jù)收集數(shù)據(jù)收集 收集數(shù)據(jù)時(shí)需考慮的問題是: 相關(guān)總體 數(shù)據(jù)來源 提問 調(diào)查中的偏差 數(shù)據(jù)的類型2022-4-272022-4-27相關(guān)總體相關(guān)總體 總體是我們要調(diào)查或統(tǒng)計(jì)的某一現(xiàn)象的全部數(shù)據(jù)的集合。 要明確向什么總體收集數(shù)據(jù),因?yàn)閿?shù)據(jù)收集是花錢花時(shí)間有代價(jià)的。 數(shù)據(jù)的一種描述性的定義為:可以由它作出推斷的已知事情或事物。 數(shù)據(jù)有各種不同的表達(dá)形式 對(duì)決策者而言,數(shù)據(jù)的質(zhì)量是一個(gè)最大的問題。2022-4-272022-4-27數(shù)據(jù)來源 數(shù)據(jù)可分為兩大來源:原始數(shù)據(jù)和二手?jǐn)?shù)據(jù) 原始數(shù)據(jù)是直接向調(diào)查對(duì)象收集的數(shù)據(jù)。 其特點(diǎn)是為指定目的而收集。 二手

2、數(shù)據(jù)是收集已經(jīng)加工、整理過的數(shù)據(jù)。 二手?jǐn)?shù)據(jù)大部分來自官方統(tǒng)計(jì),如年鑒、 月度統(tǒng)計(jì)報(bào)表、財(cái)經(jīng)統(tǒng)計(jì)、經(jīng)濟(jì)趨勢(shì)等。2022-4-272022-4-27數(shù)據(jù)來源數(shù)據(jù)獲取的途徑:調(diào)查、試驗(yàn)和模擬調(diào)查:只觀察、記錄或度量,但不對(duì)現(xiàn)場(chǎng)行為加以干 預(yù),是被動(dòng)的數(shù)據(jù)搜集方式。試驗(yàn):能主動(dòng)產(chǎn)生數(shù)據(jù),是有計(jì)劃、有選擇地對(duì)受試 對(duì)象施加影響,來觀察受試對(duì)象的反應(yīng)。模擬:依據(jù)一定的基本數(shù)據(jù)使用計(jì)算機(jī)產(chǎn)生大量的隨 機(jī)數(shù)據(jù),來模仿隨機(jī)現(xiàn)象,幫助進(jìn)行決策。2022-4-272022-4-27數(shù)據(jù)來源原始數(shù)據(jù)得到的方法有:自填式、采訪法、直接觀察法和行政數(shù)據(jù)的調(diào)查等。數(shù)據(jù)收集的類型:普查和抽樣調(diào)查 普查是根據(jù)統(tǒng)計(jì)任務(wù)的特定目

3、的而專門組織的一次性全面調(diào)查,一般局限于較小的總體。 抽樣調(diào)查有隨機(jī)抽樣和非隨機(jī)抽樣 隨機(jī)抽樣:總體中每個(gè)單位都有相同的概率或機(jī)會(huì)被選中。幾種重要的隨機(jī)抽樣有:簡(jiǎn)單隨機(jī)抽樣、分層隨機(jī)抽樣、等距隨機(jī)抽樣和整群隨機(jī)抽樣等。 2022-4-272022-4-27數(shù)據(jù)來源非隨機(jī)抽樣:抽樣時(shí)不遵循隨機(jī)原則,而是按照研究人員主觀判斷或僅按方便原則抽選樣本。非隨機(jī)抽樣技術(shù)主要有:方便抽樣、判斷抽樣、配額抽樣和雪球抽樣等。 配額(比例)抽樣:是非隨機(jī)抽樣中最流行的一種,配額抽樣類似于隨機(jī)抽樣中的分層抽樣,首先將總體中的所有單位按一定的標(biāo)志分為若干類(組),然后在每個(gè)類(組)中用方便抽樣或判斷抽樣選取樣本單位。

4、 2022-4-272022-4-27數(shù)據(jù)來源例2(見P3)如某商場(chǎng)希望根據(jù)年齡和性別來調(diào)查對(duì)營(yíng)業(yè)時(shí)間的意見,計(jì)劃調(diào)查周邊地區(qū)的1000個(gè)人。已知年齡和性別分布如下:年齡(歲)比例(%)15-201620-302630-50305028性別比例(%)男51女492022-4-272022-4-27數(shù)據(jù)來源若準(zhǔn)備抽1000人,則配額抽樣方案為:年齡(歲)男性女性15-20827820-3013312730-50153147501431372022-4-272022-4-27提問 認(rèn)定調(diào)查總體及決定用問卷方式以得到所需信息后,下一步是確定問什么,如何問。 一.問卷設(shè)計(jì) 問卷調(diào)查一般是抽樣調(diào)查中常用

5、的首選方式 問卷設(shè)計(jì)是根據(jù)調(diào)查目的和要求,將所需要調(diào)查的問題具體化,使研究者能順利地獲取必要的信息資料,以便于統(tǒng)計(jì)分析的一種手段2022-4-272022-4-27提問 1.問卷的一般結(jié)構(gòu) 問卷的標(biāo)題 問卷說明 被訪者的基本情況 調(diào)查的主題內(nèi)容 編碼 作業(yè)證明的記載2022-4-272022-4-27提問 2.問卷結(jié)構(gòu)特點(diǎn) 問答由一個(gè)問題順勢(shì)轉(zhuǎn)入下一個(gè)問題;由一個(gè)主題轉(zhuǎn)到另一個(gè)主題。不要有跳躍而導(dǎo)致回答的無方向性。 建議:從一般問題到特殊問題。2022-4-272022-4-27提問“南方周末中國內(nèi)地人物創(chuàng)富榜”讀者調(diào)查問卷1.您對(duì)中國的民營(yíng)企業(yè)家的總體評(píng)價(jià)是 A.正面評(píng)價(jià) B.負(fù)面評(píng)價(jià) C.

6、感受不大2.如果您的評(píng)價(jià)是正面的,主要原因是 A.民營(yíng)企業(yè)為從業(yè)者提供了工作機(jī)會(huì)和報(bào)酬 B.民營(yíng)企業(yè)對(duì)國家經(jīng)濟(jì)發(fā)展的貢獻(xiàn)大 C.民營(yíng)企業(yè)對(duì)社會(huì)責(zé)任有所擔(dān)當(dāng),扮演了企業(yè)公民的角色 D.其他2022-4-272022-4-27提問3.如果您的評(píng)價(jià)是負(fù)面的,主要原因是 A.民營(yíng)企業(yè)獲取財(cái)富方法的正當(dāng)性存在疑問 B.民營(yíng)企業(yè)支配財(cái)富方面存在問題 C.民營(yíng)企業(yè)沒有積極承擔(dān)社會(huì)責(zé)任 D.其他4.您感受過民營(yíng)企業(yè)對(duì)社會(huì)(包括您本人)的貢獻(xiàn)嗎? A.是 B.否5.您是通過什么途徑感受到民營(yíng)企業(yè)對(duì)社會(huì)貢獻(xiàn)的? A.本人直接受益 B.大眾傳媒 C.周圍人口碑相傳 D.其他2022-4-272022-4-27提問

7、蓋洛普組織總結(jié)提問的目的有如下5種: (1)找出回答者是否覺察到這一結(jié)果; (2)獲得關(guān)于結(jié)果的一般感覺; (3)獲得該結(jié)果指定部分的答案; (4)獲得反映回答者觀點(diǎn)的理由; (5)找出持有這些觀點(diǎn)的強(qiáng)烈程度;2022-4-272022-4-27提問例:1.你是否知道合肥和徐州之間要修條高速公路的計(jì)劃? 知道/不知道2.你是否同意合肥和徐州之間修條高速公路? 強(qiáng)烈同意、同意、無所謂、不同意、強(qiáng)烈不同意3.你認(rèn)為高速公路會(huì)對(duì)當(dāng)?shù)丨h(huán)境產(chǎn)生影響嗎? 有/沒有 4.如果反對(duì),那你反對(duì)的理由是: (a)已經(jīng)有一條可用的主干道 (b)合肥和徐州之間運(yùn)量不足 (c)高速公路會(huì)損壞美麗的鄉(xiāng)村風(fēng)景 (d)道路會(huì)

8、破壞歷史文物 (e)其他,請(qǐng)指定 2022-4-272022-4-27提問提問 5.你準(zhǔn)備用下列哪一種行動(dòng)來支持你的觀點(diǎn)? (a)給地區(qū)人大代表寫信 (b)給新聞單位寫信 (c)在政府召開的公眾聽證會(huì)上發(fā)言 (d)在網(wǎng)上發(fā)表呼吁文章進(jìn)行調(diào)查 (e)其他,請(qǐng)指定2022-4-272022-4-27提問 二.提問的方式 有開放式和預(yù)設(shè)答案提問(封閉式提問) 開放式提問是指所提出的問答題并不列出所有可能的答案,而是由被訪者自由做答的問答題。 預(yù)設(shè)答案提問是指已經(jīng)事先設(shè)計(jì)了各種可能的答案的問答題,被訪者只要或只能從中選定一個(gè)或幾個(gè)現(xiàn)成答案的提問方式。2022-4-272022-4-27提問 三三. .

9、提問的措辭 提問的措辭在誘導(dǎo)出有代表性回答中是非常重要的。一個(gè)有偏差的或誘導(dǎo)性提問將偏離給定的回答。 在問卷設(shè)計(jì)中發(fā)現(xiàn)的偏差主要有: (1)把兩個(gè)或兩個(gè)以上問題表達(dá)為一個(gè); (2)問題中含有含糊或不熟悉的單詞; (3)用軟化難度或方向的詞開始的提問; (4)包含條件或假設(shè)條款; (5)包含對(duì)回答者一個(gè)或多個(gè)指令的提問;2022-4-272022-4-27調(diào)查中的偏差調(diào)查的偏差來自許多方面,分為兩類:抽樣誤差和非抽樣誤差非抽樣誤差的來源:涵蓋誤差、計(jì)量誤差、處理誤差和無反應(yīng)誤差1.涵蓋誤差:指由于在抽樣框或樣本中出現(xiàn)了涵蓋不全、過度涵蓋、重復(fù)以及錯(cuò)誤的分類而導(dǎo)致估計(jì)的偏倚。2.計(jì)量誤差:指對(duì)一個(gè)

10、問題所做的記錄與它的真值不同,可能是由于被調(diào)查者和調(diào)查者對(duì)問題的誤解、收集數(shù)據(jù)方式不同或測(cè)量工具而造成的。3.處理誤差:可能發(fā)生在數(shù)據(jù)編碼、數(shù)據(jù)錄入、審核及插補(bǔ)等步驟中。2022-4-272022-4-27調(diào)查中的偏差4.無反應(yīng)誤差在抽樣調(diào)查中,我們希望能取得所要求的全部樣本單位的數(shù)據(jù)或特征記錄,但在實(shí)踐中,常有部分單位的調(diào)查結(jié)果會(huì)因多種原因而出現(xiàn)空缺,即常稱的無反應(yīng)現(xiàn)象。調(diào)查中無反應(yīng)的原因 (1)調(diào)查對(duì)象聯(lián)絡(luò)不上,已經(jīng)搬走 (2)被調(diào)查者不能勝任或無能力 (3)調(diào)查期間人不在 (4)拒絕合作 (5)丟失調(diào)查表2022-4-272022-4-27調(diào)查中的偏差 案例 Literary Diges

11、t雜志自第一次世界大戰(zhàn)以來一直進(jìn)行總統(tǒng)預(yù)測(cè),而且每次都預(yù)測(cè)準(zhǔn)了。 1936年美國總統(tǒng)選舉前,Literary Digest雜志發(fā)出了1000萬張調(diào)查問卷?;厥盏?40萬張,預(yù)測(cè)共和黨候選人蘭登(London)和民主黨候選人羅斯福(Roosevelt)的得票比例是57:43,預(yù)測(cè)是根據(jù)240萬張的民意調(diào)查回單作出的。 但實(shí)際選舉結(jié)果是羅斯福贏得了這場(chǎng)選舉,他與蘭登得票比例是62 :38。2022-4-272022-4-27調(diào)查中的偏差 分析出現(xiàn)預(yù)測(cè)錯(cuò)誤的原因: 第一.選取樣本的方式不是隨機(jī)的,它主要是從電話號(hào)碼簿和各種俱樂部會(huì)員名冊(cè)上去選取的,這些人大多是有錢人,他們支持共和黨候選人蘭登; 第二

12、. 有760萬張問卷無反應(yīng),在沒有寄回的人中支持共和黨和支持民主黨人的比例一般與寄回來的240萬答卷中的支持比例不一樣,例如該雜志向芝加哥地區(qū)三分之一的登記選民發(fā)了調(diào)查問卷,有20%的被詢問者作了回答,其中一半以上支持蘭登,但實(shí)際選舉的結(jié)果是在芝加哥地區(qū)是2 : 1有利于羅斯福。2022-4-272022-4-27調(diào)查中的偏差 案例在1936年美國總統(tǒng)選舉的預(yù)測(cè)中,美國輿論統(tǒng)計(jì)學(xué)家蓋洛普獲得成功。他所領(lǐng)導(dǎo)的研究所等三家民意測(cè)驗(yàn)機(jī)構(gòu),只調(diào)查了比文學(xué)文摘少得多的選民,預(yù)測(cè)候選人羅斯福的投票率為54%。其抽樣方法是他在從事新聞工作中發(fā)展起來的,采用派調(diào)查員親自訪問調(diào)查,事先將各個(gè)地區(qū)不同類型與不同人

13、數(shù)的對(duì)象定額分配給每一個(gè)調(diào)查員,然后分頭在全國范圍內(nèi)進(jìn)行。他為了取得良好的測(cè)定效果,按照以接近數(shù)字的準(zhǔn)確程度算出來的比例,從特定的各種類別的人中,選出三千個(gè)樣本代表全國各個(gè)階層人口的特征。2022-4-272022-4-27調(diào)查中的偏差由于無反應(yīng)(等于改變了原先隨機(jī)抽取的樣本)而造成的偏差叫“無反應(yīng)偏差”。在調(diào)查中我們要盡量減少這種偏差。為解決無反應(yīng)問題,常用的處理方法有: 多次調(diào)查 對(duì)調(diào)查結(jié)果進(jìn)行估算 在無回答者中抽取隨機(jī)子樣本調(diào)查 波利茲方案:是一種對(duì)于獲得有回答的概率之間的差別,并相應(yīng)地 對(duì)其加權(quán)的方法。 對(duì)無回答者的替代2022-4-272022-4-27數(shù)據(jù)的類型例 有一批旅游者從北

14、京出發(fā),分別到普陀、喀什、三亞和漠河,給這四個(gè)城市編號(hào),分別為1、2、3、4。當(dāng)旅游結(jié)束時(shí),請(qǐng)每位旅游者回答下列問卷:1.您去了哪個(gè)城市? A.普陀 B.喀什 C.三亞 D.漠河2.與以往旅游活動(dòng)總的感覺相比,您認(rèn)為此次旅游 A.很滿意 B.較為滿意 C.一般 D.不滿意 E.很不滿意3.您在此地時(shí)的最高氣溫是 度。4.您此行的全部支出是 元。2022-4-272022-4-27數(shù)據(jù)的類型 根據(jù)數(shù)據(jù)的來源,可以把數(shù)據(jù)分成:定性數(shù)據(jù)、定序數(shù)據(jù)、定距數(shù)據(jù)和定比數(shù)據(jù) 1.定性數(shù)據(jù)(分類、定類或名義數(shù)據(jù)) 將數(shù)字作為現(xiàn)象總體中不同類別或不同組別的代碼。這是最低層次的尺度。 2.定序數(shù)據(jù)(有序數(shù)據(jù)) 按照特征等級(jí)進(jìn)行排序,數(shù)據(jù)之間有大小之分,但沒有大多少的概念。 2022-4-272022-4-27數(shù)據(jù)的類型3.定距數(shù)據(jù)(間隔數(shù)據(jù)) 不僅可以用數(shù)值表示現(xiàn)象類(組)別的不同和順序大小的差異,而且可以用確切的數(shù)值反映現(xiàn)象之間在量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論