描述統(tǒng)計:表格及圖形方法_第1頁
描述統(tǒng)計:表格及圖形方法_第2頁
描述統(tǒng)計:表格及圖形方法_第3頁
描述統(tǒng)計:表格及圖形方法_第4頁
描述統(tǒng)計:表格及圖形方法_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第二章 描述統(tǒng)計:表格與圖形方法第一節(jié) 數(shù)據(jù)的預(yù)處理一、數(shù)據(jù)審核1、準(zhǔn)確性審核:審核的對象就登記性誤差(非抽樣誤差)采取邏輯檢查和計算檢查方法 ·邏輯檢查:主要看調(diào)查數(shù)據(jù)的內(nèi)容是否合理,項目之間是否有矛盾的地方,以及與有關(guān)數(shù)據(jù)進行對照,或者檢查數(shù)據(jù)的平衡關(guān)系,以暴露邏輯上的矛盾·計算檢查:主要是從數(shù)字上檢查,如各分項之和是否等于總計,計量單位是否合適,計算方法上是否合理等等 2、全面性審核:核對應(yīng)調(diào)查的單位是否有遺漏,應(yīng)調(diào)查的內(nèi)容是否齊全3、及時性審核:即是否按規(guī)定的時間獲取數(shù)據(jù)資料 二、數(shù)據(jù)篩選1、當(dāng)數(shù)據(jù)中的錯誤不能予以糾正,或者有些數(shù)據(jù)不符合調(diào)查的要求而又無法彌補時,需

2、要對數(shù)據(jù)進行篩選2、數(shù)據(jù)篩選的內(nèi)容(1)將某些不符合要求的數(shù)據(jù)或有明顯錯誤的數(shù)據(jù)予以剔除(2)將符合某種特定條件的數(shù)據(jù)篩選出來,而不符合特定條件的數(shù)據(jù)予以剔除3、數(shù)據(jù)篩選可借助計算機完成三、數(shù)據(jù)排序1、按一定順序?qū)?shù)據(jù)排列,以發(fā)現(xiàn)一些明顯的特征或趨勢,找到解決問題的線索2、排序有助于對數(shù)據(jù)檢查糾錯,以及為重新歸類或分組等提供依據(jù)3、在某些場合,排序本身就是分析的目的之一4、排序可借助于計算機完成第二節(jié) 定性數(shù)據(jù)的圖表分析一、頻數(shù)分布:將統(tǒng)計數(shù)據(jù)分組后,各組數(shù)據(jù)出現(xiàn)的次數(shù)被稱為頻數(shù)(次數(shù))。把各個組以及相應(yīng)的頻數(shù)依一定的次序全部列出來,就形成了頻數(shù)分布(次數(shù)分布)1、頻率:各組單位數(shù)占總體單位總

3、數(shù)的比重××定性數(shù)據(jù)本身就是對事物的一種分類,在列出所分的類別的同時,再列出對應(yīng)的頻數(shù)或頻率,就形成了分類數(shù)據(jù)的頻數(shù)分布。2、順序數(shù)據(jù)的整理(可計算的統(tǒng)計量)(1)累積頻數(shù):各類別頻數(shù)的逐級累加。包括向上累積和向下累積兩類。(2)累積頻率:各類別頻率(百分比)的逐級累加。包括向上累積和向下累積兩類。&&補充:1>向上累計:從變量值低的組開始,將各組次數(shù)(頻率)逐次向變量值高的組累計,說明某一組上限以下各組的累計次數(shù)(頻率)。2>向下累計:從變量值高的組開始,將各組次數(shù)(頻率)逐次向變量值低的組累計,說明某一組下限以上各組的累計次數(shù)(頻率)。3、比

4、例:也稱構(gòu)成比,它是一個樣本(或總體)中各類別的頻數(shù)與全部頻數(shù)之比,通常用于反映樣本(或總體)的構(gòu)成或結(jié)構(gòu)。(1)將比例乘以100得到的數(shù)值稱為百分比,用%表示。(2)由比例和百分比我們可以編制相對頻數(shù)分布表和百分?jǐn)?shù)頻數(shù)分布表。 二、定性數(shù)據(jù)的圖形表示·比較適用于定性數(shù)據(jù)的圖形主要有:條形圖、餅圖、環(huán)形圖等。 1、統(tǒng)計圖條形圖:用寬度相同的條形的高度或長短來表示各類別數(shù)據(jù)的圖形(1)有單式條形圖、復(fù)式條形圖等形式(2)主要用于反映分類數(shù)據(jù)的頻數(shù)分布(3)繪制時,各類別可以放在縱軸,稱為條形圖,也可以放在橫軸,稱為柱形圖2、分類數(shù)據(jù)的圖示餅圖:也稱圓形圖,用圓形及圓內(nèi)扇形的面積來表示數(shù)

5、值大小的圖形(1)主要用于表示總體或樣本中各組成部分所占的比例,適用于研究結(jié)構(gòu)性問題 (2)繪圖時,總體中各部分所占的百分比用圓內(nèi)的各個扇形面積表示,這些扇形的中心角度,是按各部分?jǐn)?shù)據(jù)百分比占360°的相應(yīng)比例確定的3、環(huán)形圖:中間有一個“空洞”,總體中的每一部分?jǐn)?shù)據(jù)用環(huán)中的一段表示·環(huán)形圖與圓形圖類似,但又有區(qū)別(1)圓形圖只能顯示一個總體各部分所占的比例(2)環(huán)形圖則可以同時繪制多個總體的數(shù)據(jù)系列,每一個總體的數(shù)據(jù)系列為一個環(huán)(3)環(huán)形圖可用于結(jié)構(gòu)比較研究 (4)環(huán)形圖主要用于展示分類和順序數(shù)據(jù)第三節(jié) 定量數(shù)據(jù)的圖表分析一、 頻數(shù)分布1、單變量值分組:將每一個變量值作為

6、一組。適合于離散變量且變量值較少的情況2、組距分組:將全部變量值一次劃分為若干個數(shù)值區(qū)間,每一個區(qū)間作為一組。適合于連續(xù)變量或變量值較多的離散變量(1)組距分組的方法:將作為分組依據(jù)的數(shù)量標(biāo)志的整個取值范圍依次劃分為若干個滿足互斥性和包容性的區(qū)間,用這些數(shù)值區(qū)間作為組的名稱。 (2)組距分組 的一些概念1>組限:組距兩端的數(shù)值分為上限U和下限L。上限是區(qū)間數(shù)值的最大值,下限是區(qū)間數(shù)值的最小值2>組距:每一組的區(qū)間長度。組距d=上限U-下限L ,表示各組標(biāo)志值的變動范圍。3>組中值X:每一組中點位置的數(shù)值。組中值=(上限+下限)÷2 4>開口組:缺少上限數(shù)值或下

7、限數(shù)值的組。開口組以相鄰組的組距作為該組的組距,確定其下限或上限,再計算組中值。·缺下限的開口組組中值:上限1/2臨組組距·缺上限的開口組組中值:下限+1/2臨組組距5>等距分組:各組組距相等的分組6>異距分組:各組組距不全相等的分組(3)組距變量數(shù)列的編制1>確定組數(shù):組數(shù)的確定應(yīng)以能夠顯示數(shù)據(jù)的分布特征和規(guī)律為目的。在實際分組時, 可以按 Sturges 提出的經(jīng)驗公式來確定組數(shù)K2>確定組距:組距是一個組的上限與下限之差,可根據(jù)全部數(shù)據(jù)的最大值和最小值及所分的組數(shù)來確定,即組距d( 最大值 - 最小值)÷ 組數(shù) &&

8、此辦法適合等距分組,若遇變量值較分散的情況,不可用此方法。組距宜取整數(shù),且是5或10的倍數(shù)較好3> .確定各組組限。第一組的的下限應(yīng)小于或等于最小變量值;最后一組的上限應(yīng)大于最大變量值;各組組限要取整數(shù);第一組和最后組可取開口組;4. 統(tǒng)計各組的頻數(shù)并整理成頻數(shù)分布表 。統(tǒng)計各組頻數(shù)總原則:不重不漏;對于重疊設(shè)置的組限頻數(shù)統(tǒng)計遵循上組限不在內(nèi)原則·上限不在內(nèi)原則:當(dāng)相鄰兩組的上下限重疊時,恰好等于某一組上限的變量值不算在本組內(nèi),而計算在下一組內(nèi)(4)頻數(shù)分布表的編制1>確定組數(shù):根據(jù) Sturges 提出的經(jīng)驗公式得組數(shù)K為:2>確定各組的組距:組距( 139 -

9、107)÷ 74.6 Þ 53>用Excel制作頻數(shù)分布表 二、定量數(shù)據(jù)的圖形表示1、直方圖:用矩形的寬度和高度來表示頻數(shù)分布的圖形,實際上是用矩形的面積來表示各組的頻數(shù)分布(1)在直角坐標(biāo)中,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率,各組與相應(yīng)的頻數(shù)就形成了一個矩形,即直方圖(2)直方圖下的總面積等于1(3)直方圖與條形圖的區(qū)別·直方圖表示定量數(shù)據(jù)(定距、定比數(shù)據(jù)),條形圖表示定性數(shù)據(jù)(定類、定序數(shù)據(jù))·條形圖是用條形的長度表示各類別頻數(shù)的多少,其寬度是固定的;直方圖是用面積表示各組頻數(shù)的多少,矩形的高度表示每一組的頻數(shù)或百分比,寬度則表示各組的組

10、距,高度與寬度均有意義·直方圖的各矩形通常是連續(xù)排列,條形圖則是分開排列2、折線圖 :也稱頻數(shù)多邊形圖,在直方圖的基礎(chǔ)上,把直方圖中各矩形頂部的中點(即組中值)用直線連接起來,再把原來的直方圖抹掉就是折線圖。·折線圖的兩個終點要與橫軸相交,將第一個矩形的頂部中點通過豎邊中點(即該組頻數(shù)或頻率一半的位置)連接到橫軸,最后一個矩形頂部中點與其豎邊中點連接到橫軸。這樣能使折線圖下所圍成的面積與直方圖的面積相等,使二者表示的頻數(shù)分布一致。第四節(jié) 探索性數(shù)據(jù)分析:莖葉圖和箱線圖一、莖葉圖:又稱“枝葉圖”,能同時排列定量數(shù)據(jù)順序并提供分布形態(tài)的深入信息 (1)莖葉圖由兩部分組成:莖與葉

11、。莖:通常由每組數(shù)的高位數(shù)值形成,按組豎立在左邊;葉:通常由每組數(shù)的低位數(shù)值形成,按組橫排在“莖”的右邊。(2)莖葉圖制作1>將每個數(shù)據(jù)的十位數(shù)作為莖,列在一條豎線的左邊,在這條豎線的右邊記錄每個數(shù)據(jù)的最后一個數(shù)字作為葉。2>將所有數(shù)據(jù)分別列示在豎線兩側(cè) 3>對豎線右側(cè)每一行數(shù)據(jù)進行大小排序4>為更清楚地顯示數(shù)據(jù)的分布狀況,將每根莖右側(cè)的葉子用矩形框住(3) 莖葉圖的特點1>優(yōu)點:比較容易手工繪制;沒有原始數(shù)據(jù)信息的損失,所有數(shù)據(jù)信息都可以從圖中得到;數(shù)據(jù)可以隨時記錄,隨時添加,方便記錄與表示。2>.缺點:只便于表示兩位有效數(shù)字的數(shù)據(jù),且只方便記錄兩組數(shù)據(jù),

12、當(dāng)樣本數(shù)據(jù)較多時,每個數(shù)據(jù)都要占據(jù)空間,很不方便二、箱線圖:由一組數(shù)據(jù)的最大值、最小值、中位數(shù)、上下四分位數(shù)繪制而成的統(tǒng)計圖形,從未分組數(shù)據(jù)來顯示并分析數(shù)據(jù)的分布特征。通過箱線圖的形狀可以看出數(shù)據(jù)分布的特征:短的一段分布密集,長的一段分布稀疏第五節(jié) 兩個變量間關(guān)系的圖形顯示:散點圖散點圖:用二維坐標(biāo)描述兩個數(shù)值型變量之間關(guān)系的一種圖形。1、它用坐標(biāo)橫軸代表變量x,縱軸代表變量y,每對數(shù)據(jù)(x,y)在坐標(biāo)系中用一個點(數(shù)據(jù)點)表示,n對數(shù)據(jù)點在坐標(biāo)系中形成的圖就稱為散點圖。 2、兩變量散點圖、添加趨勢線的散點圖、重疊散點圖、矩陣散點圖(同時顯示比較多個變量兩兩之間的關(guān)系)第三章 描述統(tǒng)計:數(shù)值方

13、法第一節(jié) 集中趨勢的度量一、 均值1、均值:就是算術(shù)平均數(shù),是集中趨勢的最主要測度值。它是一組數(shù)據(jù)的均衡點所在,體現(xiàn)了數(shù)據(jù)的必然性特征,易受極端值的影響2、均值的算法(1)簡單均值:未經(jīng)分組整理的原始數(shù)據(jù),其均值的計算就是直接將一組數(shù)據(jù)的各數(shù)值相加除以數(shù)值個數(shù)。設(shè)一組數(shù)據(jù)為: X1 ,X2 , ,Xn(2)加權(quán)均值:根據(jù)分組整理的數(shù)據(jù)計算均值,要以各組變量值出現(xiàn)的次數(shù)或頻數(shù)為權(quán)數(shù)計算加權(quán)的均值。設(shè)原始數(shù)據(jù)被分為k組,各組變量為 X1 ,X2 , ,Xn;相應(yīng)的頻數(shù)為f1 , f2 , ,fk &&另:算術(shù)平均數(shù)的計算方法權(quán)數(shù):指變量數(shù)列中各組標(biāo)志值出現(xiàn)的次數(shù),是變量值的承擔(dān)者,

14、反映了各組的標(biāo)志值對平均數(shù)的影響程度·均值的數(shù)學(xué)性質(zhì)1> 數(shù)值觀測值與均值的離差之和為02> 數(shù)值觀測值與均值的離差平方和最小3> 均值易受極端值影響二、 眾數(shù)1、眾數(shù):一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值,用M0表示。適合于數(shù)據(jù)量較多時使用;不受極端值的影響;一組數(shù)據(jù)可能沒有眾數(shù)或有幾個眾數(shù)2、數(shù)值型分組數(shù)據(jù)的眾數(shù)(1) 眾數(shù)的值與相鄰兩組頻數(shù)的分布有關(guān)(2)相鄰兩組的頻數(shù)不相等時,眾數(shù)采用下列近似公式計算上限公式 下限公式 (3)該公式假定眾數(shù)組的頻數(shù)在該眾數(shù)組內(nèi)均勻分布三、中位數(shù)1、中位數(shù):一組數(shù)據(jù)按從小到大排序后,處于中間位置上的值,用Me表示。它不受極端值的影響

15、。各變量值與中位數(shù)的離差絕對值之和最小,即2、中位數(shù)的位置33、分組數(shù)據(jù)的中位數(shù):用于數(shù)值型分組數(shù)據(jù) ;根據(jù)位置公式確定中位數(shù)所在的組;下限與上限計算公式分別為: 且該公式假定中位數(shù)組的頻數(shù)在該組內(nèi)均勻分布四、分位數(shù)1、分位數(shù)的概念:將全部數(shù)據(jù)分為幾個等份的分分位點,各分位點上的數(shù)2、四分位數(shù):排序后處于25%和75%位置上的值,不受極端值的影響3、分位數(shù)的位置 五、眾數(shù)、中位數(shù)和均值的關(guān)系當(dāng)分布為適度偏態(tài)時,三者之間近似的數(shù)量關(guān)系是:眾數(shù)與算術(shù)平均數(shù)的距離是中位數(shù)與算術(shù)平均數(shù)距離的3倍,即:根據(jù)這一關(guān)系,可以得到以下三個關(guān)系式: 六、眾數(shù)、中位數(shù)、均值的特點和應(yīng)用1、眾數(shù):不受極端值影響、具

16、有不惟一性、數(shù)據(jù)分布偏斜程度較大時應(yīng)用2、中位數(shù):不受極端值影響、數(shù)據(jù)分布偏斜程度較大時應(yīng)用3、均值:易受極端值影響、數(shù)學(xué)性質(zhì)優(yōu)良、數(shù)據(jù)對稱分布或接近對稱分布時應(yīng)用第二節(jié) 離散程度的度量1、離散程度:測度各變量值遠離其中心值的程度,有以下的作用:(1)判斷平均數(shù)對一組數(shù)據(jù)代表性的高低(2)離散程度的測度值可以對社會經(jīng)濟活動過程的節(jié)奏性 和均衡性進行評價(3)離散程度的測度值是統(tǒng)計推斷理論中一個很重要的基礎(chǔ)指標(biāo)(4)離散程度的測度值是衡量風(fēng)險大小的重要指標(biāo)2、全距:又稱極差。一組數(shù)據(jù)的最大值與最小值之差,用R表示。它是離散程度的最簡單測度值;易受極端值影響;未考慮數(shù)據(jù)的分布 計算公式 3、內(nèi)距

17、:也稱四分位差,即上四分位數(shù)與下四分位數(shù)之差,反映了中間50%數(shù)據(jù)的離散程度;不受極端值的影響;可用于衡量中位數(shù)的代表性內(nèi) 距= QU QL4、方差與標(biāo)準(zhǔn)差(1)方差:各變量值與其均值離差平方的均值(2)標(biāo)準(zhǔn)差:方差的平方根&&離散程度的測度值之一;最常用的測度值;反映了數(shù)據(jù)的分布;反映了各變量值與均值的平均差異;根據(jù)總體數(shù)據(jù)計算的,稱為總體方差或標(biāo)準(zhǔn)差;根據(jù)樣本數(shù)據(jù)計算的,稱為樣本方差或標(biāo)準(zhǔn)差;可用于衡量均值的代表性大小(3)總體方差和標(biāo)準(zhǔn)差 樣本方差和標(biāo)準(zhǔn)差 (4)注解:樣本方差自由度·一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個數(shù)·當(dāng)樣本數(shù)據(jù)的個數(shù)為 n 時,若樣

18、本均值x 確定后,只有n-1個數(shù)據(jù)可以自由取值,其中必有一個數(shù)據(jù)則不能自由取值。例如,樣本有3個數(shù)值,即x1=2,x2=4,x3=9,則 x = 5。當(dāng) x = 5 確定后,x1,x2和x3有兩個數(shù)據(jù)可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值·樣本方差用自由度去除,其原因可從多方面解釋,從實際應(yīng)用角度看,在抽樣估計中,當(dāng)用樣本方差去估計總體方差2時,它是2的無偏估計量(5)方差的數(shù)學(xué)性質(zhì)1>變量的方差等于變量平方的平均數(shù)減去變量平均數(shù)的平方 2>各變量值對算術(shù)平均數(shù)的方差,小于等于對任意常數(shù)的方差 5、標(biāo)準(zhǔn)分?jǐn)?shù): 標(biāo)準(zhǔn)分

19、也稱標(biāo)準(zhǔn)化值或Z值,它對某一個值在一組數(shù)據(jù)中相對位置的度量,可用于判斷一組數(shù)據(jù)是否有離群點;用于對變量的標(biāo)準(zhǔn)化處理·計算公式 當(dāng)一組數(shù)據(jù)對稱分布時(1)約有68.27%的數(shù)據(jù)在平均數(shù)加減1個標(biāo)準(zhǔn)差的范圍之內(nèi)(2)約有95.00%的數(shù)據(jù)在平均數(shù)加減1.96個標(biāo)準(zhǔn)差的范圍之內(nèi)(3)約有95.45%的數(shù)據(jù)在平均數(shù)加減2個標(biāo)準(zhǔn)差的范圍之內(nèi)(4)約有99.73%的數(shù)據(jù)在平均數(shù)加減3個標(biāo)準(zhǔn)差的范圍之內(nèi) 6、離散系數(shù)(變異系數(shù)):標(biāo)準(zhǔn)差與其相應(yīng)的均值之比,是對數(shù)據(jù)相對離散程度的測度,消除了數(shù)據(jù)水平高低和計量單位的影響,用于對不同組別數(shù)據(jù)離散程度的比較,用V表示。 第三節(jié) 分布形態(tài)的度量1、 偏態(tài):

20、指數(shù)據(jù)分布的不對稱性,是對數(shù)據(jù)分布偏斜程度的測度。2、 對數(shù)據(jù)分布不對稱性的度量值稱為偏態(tài)系數(shù)偏態(tài)系數(shù)SK=0為對稱分布 偏態(tài)系數(shù)SK>0為右偏分布或正偏分布,正偏離差值較大 偏態(tài)系數(shù)SK<0為左偏分布或負偏分布,負離差數(shù)值較大|SK|數(shù)值越大,表示偏斜程度越大(1)根據(jù)原始數(shù)據(jù)計算 (2)根據(jù)分組數(shù)據(jù)計算 3、 峰度:指數(shù)據(jù)分布的平峰或尖峰程度。4、 對數(shù)據(jù)分布峰度的度量值稱為峰度系數(shù),記為K。峰度通常與標(biāo)注正態(tài)分布相比較而言,若一組數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布,K=0;如果K不為零,表明分布比標(biāo)準(zhǔn)正態(tài)分布更平或更尖,成平峰分布或尖峰分布。峰態(tài)系數(shù)K=0為峰度適中 峰態(tài)系數(shù)K<0為

21、扁平分布峰態(tài)系數(shù)K>0為尖峰分布·根據(jù)原始數(shù)據(jù)計算第四章 抽樣與抽樣分布第一節(jié) 抽樣技術(shù)一、抽樣技術(shù)中的基本概念(一)總體和樣本1、總體:所研究的全部元素的集合 ,其中的每一個元素稱為個體。分為有限總體和無限總體(1)有限總體的范圍能夠明確確定,且元素的數(shù)目是有限的(2)無限總體所包括的元素是無限的,不可數(shù)的2、樣本:從總體中抽取的一部分元素的集合。構(gòu)成樣本的元素的數(shù)目稱為樣本容量 (1)樣本容量:一個樣本所包含的總體基本單元數(shù)· n<30 的樣本叫小樣本· 的樣本叫大樣本(2) 數(shù)理統(tǒng)計中,在用樣本數(shù)量特征推斷總體數(shù)量特征時,大小樣本使用的推斷方法有

22、所不同.社會經(jīng)濟現(xiàn)象的抽樣推斷中,絕大多數(shù)采用的是大樣本(二)參數(shù)和統(tǒng)計量1、參數(shù):研究者想要了解的總體的某種特征值??傮w參數(shù)通常用希臘字母表示,所關(guān)心的參數(shù)主要有總體均值(m)、標(biāo)準(zhǔn)差(s)、總體比例()等。2、統(tǒng)計量:根據(jù)樣本數(shù)據(jù)計算出來的一個量。樣本統(tǒng)計量通常用小寫英文字母來表示,所關(guān)心的樣本統(tǒng)計量有樣本均值(x)、樣本標(biāo)準(zhǔn)差(s)、樣本比例(p)等(三)抽樣框與抽樣單元1、抽樣框:是包括全部總體單位的一個框架,用來代表總體,從中抽取樣本單元。(1)抽樣框的主要形式:名單抽樣框;區(qū)域抽樣框,比如地圖;時間表抽樣框(2)抽樣框的意義:實施抽樣的基礎(chǔ),抽樣框的編制影響抽樣的隨機性和抽樣效果的

23、實現(xiàn) (3)對抽樣框的基本要求:一個理想的抽樣框應(yīng)該與目標(biāo)總體一致,不重不漏;應(yīng)盡可能地提供抽樣單元的名稱和地理位置、聯(lián)系方式等信息;還應(yīng)盡可能多地提供與研究的目標(biāo)量有關(guān)的輔助信息,以便調(diào)查人員利用這些輔助信息搞好抽樣設(shè)計,提高抽樣估計的效率,比如:對企業(yè)做調(diào)查,除了有企業(yè)名單目錄外,還應(yīng)該有企業(yè)的聯(lián)系方式、法人代表、注冊信息,甚至近期主要經(jīng)濟或財務(wù)指標(biāo)的數(shù)據(jù)等2、抽樣單元:構(gòu)成抽樣框的基本要素,它可以是自然形成的,也可以是人為劃分的。·抽樣單元與總體基本單元(Base unit)的關(guān)系有兩種:(1)抽樣單元=總體基本單元。比如,簡單隨機抽樣,分層抽樣,系統(tǒng)抽樣等(2)抽樣單元=總體

24、基本單元的集合。比如,整群抽樣,多階段抽樣(四)抽樣方法和樣本可能數(shù)目1、重置和不重置抽樣(1)重置抽樣:也叫重復(fù)抽樣/回置抽樣,是指從總體的個單位中抽取一個容量為n的樣本,逐個抽取。每次抽出一個單位記錄后,再將其放回總體中參加下一次抽取,這樣連續(xù)抽n次即得到一個樣本。同一總體單位有可能被重復(fù)抽中;每次都是從個總體單位中抽取;次抽取就是次相互獨立的隨機試驗 (2) 不重置抽樣:也叫不重復(fù)抽樣/不回置抽樣,指抽中單位不放回總體中,下一個樣本單位只能從余下的總體單位中抽取。 也可以一次抽n個。每次抽取是在不同數(shù)目的總體單位中進行的;同一總體單位不可能被重復(fù)抽中;次抽取可看作是次

25、互不獨立的隨機試驗。2、樣本可能數(shù)目M:按某抽樣方案從總體中抽樣,可能抽出的所有的樣本的個數(shù)(1)考慮順序的重復(fù)抽樣的樣本可能數(shù)目(2)考慮順序的不重復(fù)抽樣的可能樣本數(shù)目(獨立事件乘法原理)(3)不考慮順序的重復(fù)抽樣的可能樣本數(shù)目(組合) (4)不考慮順序的不重復(fù)抽樣的可能樣本數(shù)目二、抽樣技術(shù)(一)概率抽樣:根據(jù)一個已知的概率來抽取樣本單位,也稱隨機抽樣·特點:按一定的概率以隨機原則抽取樣本;抽取樣本時使每個單位都有一定的機會被抽中;每個單位被抽中的概率是已知的,或是可以計算出來的;當(dāng)用樣本對總體目標(biāo)量進行估計時,要考慮到每個樣本單位被抽中的概率1、簡單隨機抽樣/純隨機抽樣:從總體N

26、個單元中隨機地抽取n個單元作為樣本,每個單元進入樣本的概率是相等的。比如利用隨機數(shù)表、抽簽、搖獎機等進行的抽樣都是srs是最基本的抽樣方法,是其它抽樣方法的基礎(chǔ)(1)、特點:適用于均勻總體;直接從抽樣框中取樣,簡單、直觀;用樣本統(tǒng)計量對目標(biāo)量進行估計比較方便(2)、局限性:當(dāng)N很大時,不易構(gòu)造抽樣框;抽出的單位很分散,給實施調(diào)查增加了困難;沒有利用其它輔助信息以提高估計的效率2、分層抽樣(類型抽樣) :抽樣分兩步完成,即先分層后各層內(nèi)獨立抽樣。(1)、將抽樣單元按某種特征或某種規(guī)則劃分為不同的層,然后從不同的層中獨立、隨機地抽取樣本單元構(gòu)成樣本(2)、優(yōu)點:更能保證樣本的結(jié)構(gòu)與總體的結(jié)構(gòu)相近,

27、從而提高估計的精度;抽樣方法靈活,組織實施調(diào)查方便;既可以對總體參數(shù)進行估計,也可以對各層的目標(biāo)量進行估計3、系統(tǒng)抽樣:抽樣分三步完成,先排序確定起始單元確定其他樣本單元。將總體中的所有單元(抽樣單元)按一定順序排列,在規(guī)定的范圍內(nèi)隨機地抽取一個單元作為初始單元,然后按事先規(guī)定好的規(guī)則確定其它樣本單元。比如,等距抽樣,先從數(shù)字1到k之間隨機抽取一個數(shù)字r作為初始單元,以后依次取r+k,r+2k等單元(1)、優(yōu)點:操作簡便,可提高估計的精度(2)、 缺點:對估計量方差的估計比較困難4、整群抽樣:抽樣分兩步完成,分群抽群。將總體中若干個單位合并為組(群),抽樣時直接抽取群,然后對中選群中的所有單位

28、全部實施調(diào)查(1)、特點:抽樣時只需群的抽樣框,可簡化工作量;調(diào)查的地點相對集中,節(jié)省調(diào)查費用,方便調(diào)查的實施(2)、缺點:估計的精度較差(樣本單位過于集中,抽樣誤差大)。5、多階段抽樣/多級抽樣:指分兩個或兩個以上的階段來完成抽取樣本單元的過程。如,我國的城市居民住戶調(diào)查采用三或四階段抽樣 第一階段:抽選調(diào)查城市 第二階段:從抽中城市中抽選居委會(或抽街道辦事處再抽居委會) 第三階段:從抽中的居委會中抽取調(diào)查戶·多階段抽樣可根據(jù)需要和可能,將幾種抽樣方式結(jié)合運用,比如第一階段用PPS抽樣,第二階段用分層抽樣,第三階段用簡單隨機抽樣等6、不等概抽樣:總體中各單元被抽中的概率不相等。這

29、個概率通常與各單元的某個輔助變量大小成正比例(1)各單元被抽中的概率稱為“入樣概率”。設(shè)總體含有N個單元,那么各單元入樣概率用Zi(i=1,2,N)表示。在不等概抽樣下,Zi是不完全相同的“Zi與某一輔助變量Xi大小成正比例”。如果某一單元的輔助變量越大,則該單元被抽中的概率越大。所以,輔助變量也稱為入樣指標(biāo)ZiXi/Xi,(i=1,2,N) Zi=1&&&是否需要入樣指標(biāo)來確定入樣概率,成為不等概率抽樣和等概率抽樣的本質(zhì)區(qū)別(2)不等概抽樣作用或適用性各抽樣單元在總體中所占的地位不一致居民住戶調(diào)查中,調(diào)查家庭的日常消費支出或娛樂/保健品等奢侈消費支出,會采用不同的抽樣

30、設(shè)計為估計一城市的商業(yè)銷售總額,對各商業(yè)網(wǎng)點進行調(diào)查以船舶為抽樣單元,對船舶運輸量進行調(diào)查以個人儲戶為抽樣單元,調(diào)查儲戶對銀行服務(wù)的滿意度以個人用戶為抽樣單元,調(diào)查移動業(yè)務(wù)用戶的滿意度調(diào)查的總體單元與抽樣總體的單元不一致的情況,比如:大型企業(yè)對職工家庭情況進行調(diào)查某小學(xué)對在校生家庭情況進行調(diào)查改善估計量. 不等概抽樣還廣泛應(yīng)用于由于種種原因不能或不需要對基本單元直接抽樣的情形,比如整群抽樣(CL: cluster sampling) 中,若群大小(用群內(nèi)包含的BU數(shù)Mi表示) 相差較大,常采用對群的不等概抽樣;多階段抽樣(MS: Multi-Stage sampling)中,若初級單元大小(用

31、所包含的次級單元數(shù)目表示)相差較大,則常采用對初級單元的不等概抽樣比率估計中消除小樣本比率估計量偏倚的方法水野法第二節(jié) 正態(tài)分布及幾個重要的統(tǒng)計分布一、連續(xù)型隨機變量的概率分布(1)連續(xù)型隨機變量可以取某一區(qū)間或整個實數(shù)軸上的任意一個值(2)它取任何一個特定的值的概率都等于0(3)不能列出每一個值及其相應(yīng)的概率(4)通常研究它取某一區(qū)間值的概率(5)用概率密度函數(shù)的形式和分布函數(shù)的形式來描述1、正態(tài)分布:描述連續(xù)型隨機變量的最重要的分布。許多現(xiàn)象都可以由正態(tài)分布來描述??捎糜诮齐x散型隨機變量的分布,例如: 二項分布。經(jīng)典統(tǒng)計推斷的基礎(chǔ)(1)概率密度函數(shù)f(x) = 隨機變量 X 的頻數(shù) m

32、= 正態(tài)隨機變量X的均值s 2= 正態(tài)隨機變量X的方差 p = 3.1415926; e = 2.71828x = 隨機變量的取值 (-¥ < x < +¥)(2)正態(tài)分布函數(shù)的性質(zhì)1>圖形是關(guān)于x=m對稱的鐘形曲線,且峰值在x=m 處2>均值m和標(biāo)準(zhǔn)差s一旦確定,分布的具體形式也惟一確定,不同參數(shù)正態(tài)分布構(gòu)成一個完整的“正態(tài)分布族” 3>均值m可取實數(shù)軸上的任意數(shù)值,決定正態(tài)曲線的具體位置;標(biāo)準(zhǔn)差決定曲線的“陡峭”或“扁平”程度。s越大,正態(tài)曲線扁平;s越小,正態(tài)曲線越高陡峭4>當(dāng)X的取值向橫軸左右兩個方向無限延伸時,曲線的兩個尾端也無

33、限漸近橫軸,理論上永遠不會與之相交5>正態(tài)隨機變量在特定區(qū)間上的取值概率由正態(tài)曲線下的面積給出,而且其曲線下的總面積等于1 2、標(biāo)準(zhǔn)正態(tài)分布:隨機變量具有均值為0,標(biāo)準(zhǔn)差為1的正態(tài)分布。任何一個一般的正態(tài)分布,可通過下面的線性變換轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布(1)標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)(2)標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)(3)常用區(qū)間的正態(tài)概率值(4)數(shù)據(jù)正態(tài)性的評估1>對數(shù)據(jù)畫出頻數(shù)分布的直方圖或莖葉圖2>若數(shù)據(jù)近似服從正態(tài)分布,則圖形的形狀與上面給出的正態(tài)曲線應(yīng)該相似,繪制正態(tài)概率圖。有時也稱為分位數(shù)分位數(shù)圖或稱Q-Q圖或稱為P-P圖·用于考察觀測數(shù)據(jù)是否符合某一理論分布,如

34、正態(tài)分布、指數(shù)分布、t分布等等·P-P圖是根據(jù)觀測數(shù)據(jù)的累積概率與理論分布(如正態(tài)分布)的累積概率的符合程度繪制的·Q-Q圖則是根據(jù)觀測值的實際分位數(shù)與理論分布(如正態(tài)分布)的分位數(shù)繪制的 3>使用非參數(shù)檢驗中的Kolmogorov-Smirnov檢驗(K-S檢驗) (5)正態(tài)概率圖的分析1>實際應(yīng)用中,只有樣本數(shù)據(jù)較多時正態(tài)概率圖的效果才比較好。當(dāng)然也可以用于小樣本,但此時可能會出現(xiàn)與正態(tài)性有較大偏差的情況2>在分析正態(tài)概率圖時,最好不要用嚴(yán)格的標(biāo)準(zhǔn)去衡量數(shù)據(jù)點是否在一條直線上,只要近似在一條直線上即可3>對于樣本點中數(shù)值最大或最小的點也可以不用太

35、關(guān)注,除非這些點偏離直線特別遠,因為這些點通常會與直線有偏離。如果某個點偏離直線特別遠,而其他點又基本上在直線上時,這個點可能是離群點,可不必考慮3、t分布(1)定義:設(shè)隨機變量XN(0,1),Yc2(n) ,且X與Y獨立,則稱是自由度為n的t分布,記為tt(n)。(2)與t分布相關(guān)的抽樣分布:設(shè)總體,從中抽取容量為n的樣本,則(3)t分布(圖示):Æ t 分布是類似正態(tài)分布的一種對稱分布,它通常要比正態(tài)分布平坦和分散。一個特定的分布依賴于稱之為自由度的參數(shù)。隨著自由度的增大,分布也逐漸趨于正態(tài)分布 4、c2分布設(shè),則;令則 y 服從自由度為1的c2分布,即對于n個正態(tài)隨機變量y1

36、,y2 ,yn,則隨機變量稱為具有n個自由度的c2分布,記為(1)定義:設(shè)隨機變量X1,X2,Xn 相互獨立,且服從標(biāo)準(zhǔn)正態(tài)分布N(0,1),則Y=X12+X22+Xn2服從自由度為n的c2分布,記為Y c 2(n) 。 (2)與c 2分布相關(guān)的抽樣分布:設(shè)總體服從參數(shù)為、2的正態(tài)分布,從中抽取容量為n的樣本,則(3)性質(zhì)和特點:1>分布的變量值始終為正 2>分布的形狀取決于其自由度n的大小,通常為不對稱的正偏分布,但隨著自由度的增大逐漸趨于對稱 3>期望為:E(c2)=n,方差為:D(c2)=2n(n為自由度) 4>可加性:若U和V為兩個獨立的c2分布隨機變量,Uc2

37、(n1),Vc2(n2),則U+V這一隨機變量服從自由度為n1+n2的c2分布 (4)圖示5、F分布(1) 設(shè)隨機變量U與V相互獨立,且U和V分別服從自由度為n1和n2的c2(n)分布,則稱 服從第一自由度為n1,第二自由度為n2的F分布,記為FF(n1,n2)。(2)與F分布相關(guān)的抽樣分布 設(shè)兩個總體都為正態(tài)分布,兩總體的方差分別為12,22,從兩個總體中分別抽取容量為n1和n2的獨立樣本,樣本方差分別為S12,S22則有(3)圖示(不同自由度的F分布)第三節(jié) 樣本統(tǒng)計量的抽樣分布一、 抽樣分布1、 定義:樣本統(tǒng)計量的概率分布,是一種理論分布。在重復(fù)選取容量為n的樣本時,由該統(tǒng)計量的所有可能取值形成的相對頻數(shù)分布 (1)隨機變量是 樣本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論