第九章 社會研究的定量分析(共17頁)_第1頁
第九章 社會研究的定量分析(共17頁)_第2頁
第九章 社會研究的定量分析(共17頁)_第3頁
第九章 社會研究的定量分析(共17頁)_第4頁
第九章 社會研究的定量分析(共17頁)_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、PAGE PAGE 19第九章 社會(shhu)研究的定量分析作為社會調(diào)查研究對象的社會現(xiàn)象有其質(zhì)和量兩方面,我們對整理好的資料也必須展開定性和定量兩方面的分析,缺一不可。但是,定性分析是以研究者的理論功底為基礎,主要靠個人的悟性。定量分析就不同(b tn)了,它是我們每個人通過學習都可以統(tǒng)一掌握的技術。所以學習社會調(diào)查研究方法,課堂教學在資料分析方面重點講得是統(tǒng)計分析,定性分析所需要的悟性則留給學習者平時逐步積累。91 統(tǒng)計調(diào)查資料(zlio)及其整理經(jīng)過調(diào)查收集上來的資料雖然是大量的,卻很可能是雜亂無章的,用它來直接做分析往往有困難。統(tǒng)計整理是對調(diào)查數(shù)據(jù)資料的條理化、系統(tǒng)化和有序化,通過它

2、,社會調(diào)查研究才能進入統(tǒng)計分析階段。因此,資料整理是溝通社會調(diào)查和資料分析的橋梁。不過,資料整理在很多情況下是一個自然過程,并非一定先要專門學習不可。但調(diào)查來的數(shù)據(jù)資料有所不同,它的整理有一套規(guī)范的做法,這是需要專門學習的。所以與統(tǒng)計分析相匹配,課堂教學在資料整理方面重點講得是調(diào)查數(shù)據(jù)資料的整理,主要是指統(tǒng)計調(diào)查資料的整理,簡稱統(tǒng)計整理。當然其他調(diào)查資料的整理也能觸類旁通,由此受到啟發(fā)。一、統(tǒng)計分組和頻數(shù)分布統(tǒng)計整理是與統(tǒng)計分組相聯(lián)系的。所謂統(tǒng)計分組,就是將情況相同或相近的數(shù)據(jù)資料加以分門別類的歸并,使之簡單明晰,以便為統(tǒng)計分析中提取各種有用信息打下基礎。頻數(shù)分布是統(tǒng)計分組的結果,它是指眾多的

3、調(diào)查數(shù)據(jù)在各個組(各類別、各等級或各區(qū)間)出現(xiàn)或發(fā)生的次數(shù)。頻數(shù)分布是對客觀事物自然形成的分布狀態(tài)的集中反映和描述。如一個學校的學生的性別有男也有女,而且男同學和女同學的人數(shù)不盡相同,我們將這種情況如實地描述出來,便得到該校學生性別的頻數(shù)分布。將原始資料編排成序列資料,再把序列資料編制成為頻數(shù)分布表(頻數(shù)用f表示)。這樣一來,學生總體中的性別分布狀況就清晰地呈現(xiàn)出來了。原始資料 次序資料 分組資料,這反映了對資料進行整理和簡化的順序。這三種形式是依次逐步簡化和條理化的,使人們看起來越來越容易、越來越清楚。二、頻率(pnl)分布與總體內(nèi)部結構分組資料雖然簡單明了,但不能直接顯示出總體內(nèi)部結構。為

4、了(wi le)實現(xiàn)這個要求,就要在分組資料的基礎上派生出頻率分布表(頻率用P表示(biosh))。頻率就是各組人數(shù)占總體人數(shù)的比重,即PfN。比重都小于1,經(jīng)常用百分數(shù)來表達,它反映了對象總體的內(nèi)部結構。而累計頻數(shù)或頻率,我們便得到向上累計(F)或向下累計(F)頻數(shù)表或頻率表。這也是我們常常應用在資料整理之中以便描述的方法之一。 三、圖示法把無序的原始資料整理成頻數(shù)分布表,是表示統(tǒng)計資料的一種有效方式,我們可以稱為列表法。其實,用圖示法來表示統(tǒng)計資料比列表法更能一目了然。我們可以根據(jù)整理好的頻數(shù)分布(或頻率分布和累積百分數(shù)分布)繪制出相應的統(tǒng)計圖。最常用的有直方圖、條形圖、折線圖、曲線圖等。

5、92 統(tǒng)計分析一:描述統(tǒng)計調(diào)查數(shù)據(jù)資料經(jīng)分類整理后,已經(jīng)使雜亂無章的原始數(shù)據(jù)資料成為有系統(tǒng)、有條理的數(shù)據(jù)資料,這就為統(tǒng)計分析中提取各種有用信息打下了基礎。而在社會調(diào)查的定量研究中,描述統(tǒng)計是基礎。所謂描述統(tǒng)計就是討論范圍僅以搜集資料本身為限,而不予以擴大。包括推論統(tǒng)計在內(nèi),沒有描述統(tǒng)計作為基礎,想要運用好也是不可能的。描述統(tǒng)計所用數(shù)學較少,實用性又很強,因此在社會調(diào)查研究中使用的機會很多。一、集中趨勢統(tǒng)計量1算術平均數(shù)()簡單算術平均數(shù)統(tǒng)計原始資料,計算簡單算術平均,其公式為 (9.1)加權算術平均數(shù)統(tǒng)計分組資料,計算(j sun)加權算術平均,其公式為 (9.2)式中f代表頻數(shù)(pn sh)

6、,由于各變量值Xi對于總體的影響(yngxing)要由各組頻數(shù)fi所決定,所以fi也稱為權數(shù)。這樣一來,在統(tǒng)計分析中,凡對應于分組資料的計算式,都被稱為加權式。而對應于未分組資料的計算式,則被稱為原始式。值得注意的是,在統(tǒng)計計算中,權數(shù)不僅用來衡量總體中各變量值在總體中作用,同時也反映了對象總體的內(nèi)部結構,所以它有兩種表現(xiàn)形式:絕對數(shù)(頻數(shù))和相對數(shù)(頻率)。這樣一來,加權算術平均數(shù)也可以依據(jù)頻率分布來計算,(9.2)式也可以寫成 (9.3)(注:分組資料有單項式和組距式兩種。對組距式分組資料要做近似處理,即用每組的組中值mi來權充該組劃一的變量值Xi。)2中位數(shù)(Md)用中位數(shù)作為集中趨勢統(tǒng)

7、計量,在許多場合能發(fā)揮很好的作用。所謂中位數(shù),是把一組數(shù)據(jù)分成相等的兩部分,一半數(shù)值比它小,一半數(shù)值比它小,它居中。所以中位數(shù)也是一種反映現(xiàn)象一般水平和集中趨勢的有代表性的數(shù)值。原始資料的中位數(shù)對于原始資料求中位數(shù),只要先將各個數(shù)值按大小排序,再將居中的那個數(shù)值拿出來就行了。分組資料的中位數(shù)對于組距式分組資料求中位數(shù),首先按排序的方法找出中位數(shù)組,再按下面的公式近似求得中位數(shù) (9.4)式中的L代表中位數(shù)組下限,N代表總體單位數(shù),F(xiàn)m-1代表低于中位數(shù)組下限的累積頻數(shù),fm代表中位數(shù)組的頻數(shù),h代表中位數(shù)組的組距。(注:對于單項式分組資料,不用近似計算,可很簡單得到中位數(shù)。)3眾數(shù)(M0)“眾

8、”即多的含義。眾數(shù)是在一組數(shù)據(jù)中,出現(xiàn)(chxin)次數(shù)“最多”的那一個(或幾個)數(shù)值。眾數(shù)只與數(shù)值出現(xiàn)的次數(shù)(csh)有關,因而它可以用于定距資料,也可以用于定類、定序資料。應該指出,眾數(shù)有時不存在,有時有兩個以上。原始資料(zlio)的眾數(shù)對于原始資料的眾數(shù),一般情況下只要按眾數(shù)的定義直接識別就可以了。分組資料的眾數(shù)對于組距式分組資料求眾數(shù)的方法,是先按最高頻數(shù)找出眾數(shù)組,再按下面的公式近似求得眾數(shù)。 (9.5)式中1為眾數(shù)組頻數(shù)與前一組頻數(shù)之差,2為眾數(shù)組頻數(shù)與后一組頻數(shù)之差,h0為眾數(shù)組的組距。(注:對于單項式分組資料,不用近似計算,可很簡單得到眾數(shù)。)二、離中趨勢統(tǒng)計量所謂離中趨勢,

9、是指各數(shù)據(jù)之間的差距和離散程度。離中趨勢統(tǒng)計量有全距、異眾比、標準差等,它們不僅可以綜合地顯示數(shù)據(jù)的離散程度,還可以用來判別平均數(shù)的代表性。離勢小,平均數(shù)的代表性高;離勢大,平均數(shù)代表性低。1全距(R) 全距,也稱極差,它是一組數(shù)據(jù)中最大值(XN)與最小值(X1)之差,說明變量值的最大變動范圍,其分式為 (9.6)2異眾比率(VR)所謂異眾比率,是指非眾數(shù)的頻數(shù)與總體單位數(shù)的比值。很顯然,它可以用于定距資料,也可以用于定類、定序資料。異眾比率的公式如下 (9.7) 式中為眾數(shù)的頻數(shù),N為總體單位數(shù)。3標準差(S)在統(tǒng)計分析中,對于定距變量,用標準差來作為離中趨勢統(tǒng)計量是最基本的做法。這是指在一

10、組數(shù)據(jù)中,各數(shù)值之間的差距(chj)是不相等的,有的差距大,有的差距小,以它們之間平均相差多少作為標準來衡量一組數(shù)據(jù)的離散程度,即標準差。更準確地講,標準差用于衡量各數(shù)值相對于算術平均數(shù)的平均偏離程度。原始(yunsh)資料的標準差一個(y )數(shù)據(jù)與該組數(shù)據(jù)的算術平均數(shù)的差叫離差。當一個數(shù)據(jù)大于時,離差是正值,反之則為負值。為了消除離差正負號的影響,可求所有離差平方的算術平均,這是所謂的均方差,簡稱方差(S2)。將方差開平方后所得的值就是標準差。方 差: (9.8)標準差: (9.9)(注:標準差的公式展開后可以寫成,用此式算起來較快。)分組資料標準差與加權算術平均的道理相同,當我們要處理分組

11、資料時,計算標準差需用加權式 (9.10)值得注意的是,計算分組資料的標準差,也可以依據(jù)頻率分布來進行,(9.10)式由此可以寫成 (9.11) 或者 (9.12)93 統(tǒng)計分析二:推論統(tǒng)計在社會調(diào)查研究中,抽樣調(diào)查被公認為是一種最完善、最有科學根據(jù)的調(diào)查方法。由于大數(shù)規(guī)律起作用,只要樣本是隨機產(chǎn)生的,且容量足夠大,計算出來的樣本統(tǒng)計量就和總體參數(shù)非常接近。這樣一來,在調(diào)查對象很多、范圍很大而不可能對每個單位都進行調(diào)查的情況下,往往采用抽樣調(diào)查的方法來認識問題和研究問題。抽樣調(diào)查不僅有其他非全面調(diào)查省時間與經(jīng)費的優(yōu)點,同時又有普查能夠了解總體的優(yōu)點。然而抽樣調(diào)查也有一個缺點,就是它在數(shù)學上要求

12、比較高。也就是說,用樣本統(tǒng)計量來推論總體參數(shù),我們(w men)不僅要學習描述統(tǒng)計,還要學習推論統(tǒng)計。推論統(tǒng)計(tngj)是對抽樣調(diào)查來講的。描述統(tǒng)計固然對處理樣本資料也有效,但樣本能否代表總體,能在多大的程度上代表總體,只有推論通過統(tǒng)計才能得出結論。所以抽樣調(diào)查一定要有推論統(tǒng)計。推論統(tǒng)計涉及到概率論、抽樣分布、假設檢驗、參數(shù)估計等一些(yxi)比較深奧的知識。一、概率與概率分布在描述統(tǒng)計中,頻率的概念是非常重要的,因為頻率分布包含著關于統(tǒng)計對象的幾乎所有重要信息。與此相對應,在推論統(tǒng)計中概率的概念是非常重要的,因為概率分布包含著關于統(tǒng)計對象的幾乎所有重要信息。在推論統(tǒng)計中,概率又是與隨機現(xiàn)象

13、相聯(lián)系的一個概念。所謂隨機現(xiàn)象,是指事先不能精確預言其結果的現(xiàn)象,所有這些現(xiàn)象都有一個共同的特點,那就是在給定的條件下,觀察所得的結果不止一個。而相應地,變量X在推論統(tǒng)計中也被頻繁地稱為隨機變量。隨機變量可能實現(xiàn)的結果不止一個,但內(nèi)中也有一定的規(guī)律性。如大量觀察,我們會發(fā)現(xiàn)婦女生男生女的可能性幾乎一樣大,都是05,這就是概率。對隨機變量而言,可能的某一結果發(fā)生的頻率隨試驗次數(shù)增大而逐步穩(wěn)定到某一數(shù)值這個經(jīng)驗事實,在概率論中便是大數(shù)定律。在推論統(tǒng)計中,概率和概率分布有著如同在描述統(tǒng)計中頻率和頻率分布那樣的聯(lián)系?,F(xiàn)在我們了解了概率,但作為隨機現(xiàn)象的全面研究這還很不夠。概率僅僅告知了隨機現(xiàn)象某一局部

14、結果發(fā)生的可能性有多大,概率分布則要在滿足完備性(窮舉)和互不相容性(互斥)的前提下,回答隨機現(xiàn)象一共會出現(xiàn)多少種結果,以及每種結果所伴隨的概率是多少,如著名的二項分布。把概率分布與前面所講的頻數(shù)分布、頻率分布作一比較,就會發(fā)現(xiàn)它們(特別是頻率分布與概率分布)非常相像。當然概率分布與頻率分布也有重要區(qū)別:頻率分布是經(jīng)資料整理而來的,概率分布卻是先驗的;頻率分布隨樣本不同而有所不同,概率分布卻是唯一的;頻率分布有對應的頻數(shù)分布,概率分布則沒有。因此頻率分布被稱為隨機變量的統(tǒng)計分布或經(jīng)驗分布,而概率分布則被稱為隨機變量的理論分布。二、分布函數(shù)對于離散型隨機變量,X的取值是可數(shù)的,可以對X的每個可能

15、取值xi計算其實現(xiàn)的概率Pi ,我們便得到了離散型隨機變量的概率分布,即 P(X=xi)Pi (913)二項分布是最著名(zhmng)的離散型隨機變量的概率分布,它的數(shù)學(shxu)表達式是P(X=x)pxqn-x (914)連續(xù)型隨機變量(su j bin lin)X的取值充滿某一區(qū)間,甚至可以是一切實數(shù)。所以討論X取一指定值xi的概率是沒有意義的,其概率分布也無法用表的形式表示出來。為此,我們引進概率密度(x)的概念來表達連續(xù)型隨機變量的概率分布。 (x) (915)這樣一來,連續(xù)型隨機變量X在區(qū)間x1 ,x2上的概率等于概率密度曲線(x)下面x1與x2兩點之間面積,即 P(x1 Xx2

16、) (916)由于上述問題的存在,在推論統(tǒng)計中,為了能把對隨機變量的概率的研究在數(shù)學上統(tǒng)一起來,人們引入了分布函數(shù)F(x)的概念,并把它定義為 F(x)P(Xx) (917) 它表示隨機變量X小于某一取值x的概率,即隨機變量從最遠的起點()到我們所取的x點的所有概率的總和。有了分布函數(shù),就可以很容易得到隨機變量X取值在任意區(qū)間x1 ,x2上的概率,即P(x1 Xx2 )F (x2 )- F (x1 ) (918) 對于離散型隨機變量,如果它的概率分布是已知的,那么很容易求出它的分布函數(shù) F(x)P(Xx) (919) 對于離散型隨機變量,分布函數(shù)也可以寫成 F(x)P(Xx) 上式是對大于等于

17、x的一切P(X)求和,表示隨機變量X的取值大于等于x的概率是多少。上式是對小于等于x的一切P(X)求和,表示隨機變量X的取值小于等于x的概率是多少。 對于連續(xù)型隨機變量,如果它的概率密度函數(shù)是已知的,那么根據(jù)簡單的微積分知識就可以得到F(x)P(Xx) (920) 對于連續(xù)型隨機變量,分布函數(shù)也可以寫成F(x)P(Xx) 上式表示隨機變量X的取值大于等于x的概率是多少。上式表示隨機變量X的取值小于等于x的概率是多少。 綜上所述,分布函數(shù)(hnsh)和概率分布或概率密度有一一對應的關系。概率分布(離散變量)或概率密度(連續(xù)變量)換算成分布函數(shù)是很容易。反過來,知道了分布函數(shù),可以很容易得到隨機變

18、量X的取值在任意(rny)區(qū)間x1 ,x2上的概率(gil)。F(x)和P(X= xi) (離散變量)或(x) (連續(xù)變量)的關系,就像向上累計頻率和頻率的關系一樣。不同之處在于,F(xiàn)(x)累計的是概率。但使用分布函數(shù)的好處是很明顯的,它不僅在數(shù)學上統(tǒng)一了對離散型隨機變量和連續(xù)型隨機變量概率的研究,而且由于它計算概率的起點都固定為,因而可以把概率值換算成表,以易于求得任何區(qū)間的概率,從而達到計算快捷和應用廣泛之目的。三、數(shù)學期望與變異數(shù) 在前面統(tǒng)計分組的討論中,我們在得到頻數(shù)(或頻率)分布后,為了對變量有系統(tǒng)概括的認識,分別研究了它的集中趨勢和離中趨勢。而為了量度集中趨勢和離中趨勢,我們分別討論

19、了算術平均數(shù)和標準差。很顯然,現(xiàn)在當我們面對隨機變量的概率分布時,也要對隨機變量的集中趨勢和離中趨勢作概括性的描述,這就引出數(shù)學期望和變異數(shù)這兩個概念。 所謂數(shù)學期望,是反映隨機變量X取值的集中趨勢的理論均值(算術平均),記作E(X)。 對于離散型隨機變量,只要用概率代替頻率,數(shù)學期望的計算方法與分組資料算術平均數(shù)的計算方法完全相似,即 E(X)x1PIx2 P2 xnPn (921)對于連續(xù)型隨機變量,數(shù)學期望涉及無窮限積分,其計算公式為 E(X) (922) 數(shù)學期望也常常記為,在推論統(tǒng)計中同總體均值的記號,而則在推論統(tǒng)計中被作為樣本均值的記號。數(shù)學期望和總體均值一樣,都是唯一的,不過它是

20、一個先驗的理論值。由于它是用隨機變量各取值分別乘以取值的概率來計算的,因此數(shù)學期望又可稱為隨機變量的加權算術平均數(shù)。樣本均值依據(jù)統(tǒng)計數(shù)據(jù)計算而來,但它具有隨機性。在統(tǒng)計推論中,E(X)和都是為服務的:E(X)是“期望”,是“估計”。數(shù)學期望反映了隨機變量的集中趨勢,但僅知道集中趨勢還不夠,還應該知道隨機變量在均值周圍的離散程度,即離中趨勢。變異數(shù)是綜合反映隨機變量取值分散程度的指標,其功能相當于描述統(tǒng)計中已討論過的方差及標準差,記用D(X)。對于離散型隨機變量,只要用概率代替頻率,變異數(shù)的計算方法與分組資料方差的計算方法完全相似,即 D(X) (923)對于連續(xù)型隨機變量,則變異(biny)數(shù)

21、涉及無窮限積分,其計算公式為 D(X) ( 924) 由于變異數(shù)的單位是隨機變量單位的平方。為了使隨機變量變異指標的單位與其本身(bnshn)的單位相同,將D(X)開方(取正值(zhn zh)稱作隨機變量X的標準差;同時為了更明確的表示D(X)與標準差之間只是開方關系,索性把D(X)寫成,并直接稱D(X)為隨機變量X的方差。于是有 D(X) (925) (926)很顯然隨機變量X的變異數(shù)也可以寫成 D(X)E(X)2 (927)使用(827)式計算方差比較復雜,所以在處理實際問題時更多的是采用方差計算的簡化公式 E (X2)E (X) 2 (928)當然不難理解,在推論統(tǒng)計中隨機變量變異數(shù)的記

22、號常常同總體方差的記號,即用表示之。而S2則被作為樣本方差的記號。變異數(shù)和總體方差一樣,都是唯一的,不過它是一個先驗的理論值。樣本方差S2依據(jù)統(tǒng)計數(shù)據(jù)計算而來,但它具有隨機性。四、假設檢驗與二項分布的應用對于一枚硬幣被重復拋擲的二項試驗,研究者實際上從來不用經(jīng)驗的方法求得概率分布,因為通常我們只對一項試驗進行一次或幾次,抽取樣本也是一個或至多不過幾個。二項分布是用數(shù)學或演繹推理的方法求得的一種理論分布。既然如此,如果實際抽樣得到的結果偏巧就是概率分布預示的最不可能出現(xiàn)的結果,那么我們是認定純屬巧合,還是開始對用數(shù)學或演繹推理方法求得的概率以及理想試驗的種種前提假設產(chǎn)生懷疑?這就是假設檢驗的核心

23、問題。 概率分布不是一種研究者從資料中看到的分布,我們討論它,不是出于對數(shù)學的愛好,而是因為統(tǒng)計推論的有關工作需要它。所有的統(tǒng)計檢驗都包含某些特定的步驟,列示如下:(1)建立假設;(2)求抽樣分布;(3)選擇顯著性水平(shupng)和否定域(4)計算(j sun)檢驗統(tǒng)計量; (5)判定(pndng)。五、正態(tài)分布與標準正態(tài)分布 如果說二項分布是離散型隨機變量最具典型意義的概率分布,那么連續(xù)型隨機變量最具典型意義的概率分布就是正態(tài)分布了。實踐中常見的一類連續(xù)型隨機變量,多數(shù)服從或近似服從正態(tài)分布。 (Xx) (9.29) 式中和e都是常數(shù),分別近以等于314和272;和2分別是總體均值和方差

24、。 我們在統(tǒng)計分析時,經(jīng)常性的重要工作是要確定給定區(qū)間所含總體單位數(shù)的比重,也就是變量X的取值在這個給定區(qū)間內(nèi)出現(xiàn)的頻率。因此在對有限總體的數(shù)據(jù)進行分組時,得到相對頻數(shù)分布是很重要的。對于連續(xù)變量,過去由于分組有限,只能加以近似地討論。現(xiàn)在,由于正態(tài)曲線的一些異乎尋常的數(shù)學性質(zhì),使得這項工作非但不困難,反而變得簡單易行。一般作法是引入新的隨機變量Z Z (9.30)上式表明,Z代表以標準差為單位表示的變量值離開均值的偏差,即代表經(jīng)標準化之后的X對的離差。故Z經(jīng)常被稱為變量X的標準分,或稱Z分數(shù);Z亦被稱為標準正態(tài)變量。 如果把Z代入(9.29)式,我們便得到了以Z分數(shù)所表達的標準正態(tài)分布,其概

25、率密度為(Z) (9.31) 比較(9.29)和(9.31)式,很容易得知標準正態(tài)變量的數(shù)學期望E(Z)0,變異數(shù)(即方差)D(Z)1。實際上,標準正態(tài)分布(Z)只是一般正態(tài)分布的一個特例,即0,21的正態(tài)分布,簡記作N(0,1)。對于一般正態(tài)分布則簡記為N(,2)。正態(tài)分布是最具典型意義的連續(xù)型隨機變量的概率分布:經(jīng)過X的標準分Z,可以將任何正態(tài)分布N(,2)轉(zhuǎn)換成標難正態(tài)分布N(0,1);運用分布函數(shù)的定義,并利用正態(tài)曲線的對稱性,通過下式(分布函數(shù))計算編制出正態(tài)分布表。以后只要知道分布是正態(tài)的,有關計算只要查表就成了。 F(Z)P(0ZZ) (9.32) 六、中心極限定理(dngl)與

26、正態(tài)檢驗 我們知道,概率論中用來闡明大量隨機現(xiàn)象平均結果的穩(wěn)定性的定理,是著名的大數(shù)定理。其具體內(nèi)容是:頻率穩(wěn)定于概率,平均值穩(wěn)定于期望值。但是,大量隨機現(xiàn)象的穩(wěn)定性不僅表現(xiàn)在平均結果上,同時也表現(xiàn)在分布上,這就是中心極限(jxin)定理所要闡明的內(nèi)容。仔細考慮統(tǒng)計量和與之相對應的未知參數(shù)的接近程度,引出了研究和應用抽樣分布的課題。顯然,推論統(tǒng)計需要有一座能夠架通抽樣調(diào)查和抽樣分布的橋梁。中心極限定理告訴我們:如果從任何一個具有均值和方差(fn ch)2的總體(可以具有任何形式)中重復抽取容量為n的隨機樣本,那么當n變得很大時,樣本均值的抽樣分布接近正態(tài),并具有均值和方差。假設檢驗應用正態(tài)分布

27、和二項分布有兩點區(qū)別:抽樣分布在這里是連續(xù)的而非離散的,否定域的大小可以和顯著性水平的要求精確地一致起來。計算檢驗統(tǒng)計量不再像在應用二項分布時那樣,可以不勞而獲了。很顯然,為了能使用現(xiàn)成的正態(tài)分布表,關鍵是要從樣本資料中計算出在N(0,1)形式下的統(tǒng)計量Z,再根據(jù)Z是否落在否定城內(nèi)而對被檢驗假設的取舍做出決定。七、點估計與區(qū)間估計在推論統(tǒng)計中,相對于假設檢驗,參數(shù)估計要容易理解得多。所謂參數(shù)估計,即由樣本的指標數(shù)值推斷總體的相應的指標數(shù)值,它包括點估計和區(qū)間估計。所謂點估計,就是根據(jù)樣本數(shù)據(jù)算出一個單一的估計值,用來估計總體的參數(shù)值。所謂區(qū)間估計,就是計算抽樣平均誤差,指出估計的可信程度,進而

28、在點估計的基礎上,確定總體參數(shù)的所在范圍或區(qū)間。區(qū)間估計是求所謂置信區(qū)間的方法。置信區(qū)間就是我們?yōu)榱嗽黾訁?shù)被估計到的信心而在點估計兩邊設置的估計區(qū)間,它的寬度是2。但是,設置一個區(qū)間是容易的,當我們對參數(shù)被估計到的信心不足時,我們總可以放寬區(qū)間。如果這個區(qū)間的大小不受限制,我們就可以把參數(shù)被估計到的信心提高到任何水平。但是區(qū)間加大,估計的效度隨之降低。當我們的信心提高到絕對時,估計的價值也隨之喪失貽盡。所以,在滿足一定可靠性要求的前提下一定不能大。根據(jù)中心(zhngxn)極限定理,由于抽樣平均數(shù)的正態(tài)分布和第一類錯誤的概率可以計算的緣故,求置信區(qū)間的方法其實很簡單。除了變換一點思路來重溫過去

29、的知識,這里不涉及任何新的基本概念。具體做法是:從點估計值(如樣本均值)起向兩側(cè)(lin c)展開一定倍數(shù)()的抽樣(chu yn)平均誤差(),并估計總體參數(shù)很可能就包含在這個區(qū)間之內(nèi) - (9.33) 9.4 相關與回歸分析在資料的定量分析方面,前面我們已經(jīng)討論了頻數(shù)分布表(參見表9.1)及其處理。但是同樣由調(diào)查數(shù)據(jù)整理而來,相關表也是我們經(jīng)常需要面對的一種統(tǒng)計表。處理相關表,意味著我們開始與雙變量統(tǒng)計方法打交道了。雙變量統(tǒng)計與單變量統(tǒng)計最大的不同之處是,客觀事物間的關聯(lián)性開始披露出來。下面我們以定距定距變量的線性相關為例來探究其兩大內(nèi)容:相關分析和回歸分析。一、變量之間的相互關系提到變量

30、之間的關系,人們很容易想到變量間的確定性關系。確定性關系的特點是:當一個變量值確定后,另一個變量值也就完全確定了。確定性關系往往可以表示成函數(shù)形式,與此不同,在變量間的非確定性關系中,給定了一個變量值,另一個變量值還可以在一定的范圍內(nèi)變化。通常這類非確定性關系被稱為相關關系,它必須借助于統(tǒng)計手段才能加以研究,故又稱為統(tǒng)計相關。1、相關程度與方向由于數(shù)學手段上的局限性,相關分析最先披露的卻是定距定距變量間能近似地表現(xiàn)為一條直線的線性相關。而對于線性相關,一般采用皮爾遜相關系數(shù)(記作r)這一指標來量度相關關系程度或強度:當l時,表示為完全相關;當r=0時,表現(xiàn)為無相關或零相關;當01時,表現(xiàn)為不完

31、全相關。但在采用相關系數(shù)r這一指標時必須注意到,存在著完善曲線而r0的情況。當變量間相關時,還可以探討其相關方向,可以分正和負兩個方向。所謂正相關關系是指一個變量的值增加時,另一變量的值也增加。而負相關關系是指一個變量的值增加時,另一變量的值卻減少。2、因果關系除了相關程度與方向這兩種性質(zhì)外,還應注意兩個變量的相關關系是否具有因果性。因果關系是一種非對稱關系,這時只是自變量影響因變量,因變量不會反過來影響自變量。如果不能確定或無法區(qū)分變量的作用方向,這種情況就稱為對稱關系。二、皮爾遜相關系數(shù)1、相關表和相關圖 相關表是在定距測量的層次上,反映兩變量之間對應關系的數(shù)據(jù)表,它是積差系數(shù)計算的依據(jù)。

32、就像頻數(shù)分布圖和頻數(shù)分布表的對應關系一樣,將相關表所示的各個有對應關系的數(shù)據(jù)在直角坐標系上畫出來(ch li),以直觀地觀察X和Y之間的相互(xingh)關系,即得相關圖。相關圖又稱散點圖。2、積差系數(shù)(xsh)的導出和計算 r (935)這就是用來測量兩個定距變量相關強度和方向的積差系數(shù),即皮爾遜相關系數(shù)。積差系數(shù)是協(xié)方差與兩個隨機變量X、Y的標準差乘積的比率。直接采用(935)式來計算積差系數(shù)比較麻煩,實際計算時,一般采用它的展開式 r (936)三、線性回歸分析在分析定距變量間的關聯(lián)性時,最初關注的僅僅是變量相關的強度和方向,比如用積差系數(shù)對線性相關關系的強度進行測量。然而積差系數(shù)并不能

33、表明X和Y之間的因果關系,要明確一個變量的變化能否由另一個變量的變化來解釋,或通過已知變量精確地預測未知變量,就要進行回歸分析。在回歸分析中,如果自變量只有一個,則稱為一元回歸;如果自變量有兩個或兩個以上則稱為多元回歸。而根據(jù)回歸方程式的特征,又可以分為線性回歸和非線性回歸。線性回歸分析,一般是先依據(jù)相關表做出散點圖,直觀地估計X和Y關聯(lián)性。如果兩變量的確呈現(xiàn)出一定的線性相關趨勢,便可以設所要求的回歸直線方程為 (937)式中有兩個參數(shù)和b,和b一確定,回歸直線方程也就唯一地確定下來了。而這是通過運用最小平方法來加以解決的: (939a) (939b)在回歸方程中,b有十分重要的意義,被稱為回

34、歸系數(shù)。9.5 動態(tài)(dngti)分析(fnx)與指數(shù)(zhsh)分析對于資料的定量分析,時間數(shù)列是我們經(jīng)常需要面對的第三種統(tǒng)計表。由于普通人都熟悉的緣故,在社會研究中,時間數(shù)列的編制是無須專門討論的。但它的重要性,與頻數(shù)分布表、相關表相比,毫不遜色。時間數(shù)列是某一指標的數(shù)值按時間先后順序排列而成的一個序列,也稱動態(tài)數(shù)列。時間數(shù)列反映事物發(fā)展變化的過程、方向和結果,由此構成了社會研究對社會動態(tài)加以定量描述或推斷的基本依據(jù)。一、時間數(shù)列的構成及指標分析時間數(shù)列按其排列的指標不同可分為:總量指標時間數(shù)列、相對指標時間數(shù)列和平均指標時間數(shù)列。在這三種時間數(shù)列中,總量指標時間數(shù)列是基本數(shù)列,其余兩種是

35、派生數(shù)列。總量指標時間數(shù)列按其所反映的資料的性質(zhì)不同,又可以區(qū)分為時期數(shù)列和時點數(shù)列??偭恐笜藭r間數(shù)列一般由兩個基本要素構成,即被研究現(xiàn)象所屬的時間(t)和反映該現(xiàn)象在各個時間上的統(tǒng)計指標數(shù)值(或者Y)。 在統(tǒng)計學中,對時間數(shù)列中順序排列的統(tǒng)計指標的各數(shù)值,引出了“發(fā)展水平”這個概念,一般用符號“”表示,并就此展開一系列對時間數(shù)列的指標分析。 以總量指標時間數(shù)列為基礎構造的動態(tài)分析指標被分成兩大類:一是動態(tài)比較指標;二是動態(tài)平均指標。構造時間數(shù)列比較指標有兩種方法:減法和除法。用減法得到的動態(tài)比較指標,具有同原資料相同的計量單位,表達絕對量的變化;用除法得到的動態(tài)比較指標,表達相對量的變化,且

36、都是無名數(shù)。正因為如此,按慣例,時間數(shù)列的動態(tài)比較指標有三種,即增長量、發(fā)展速度和增長速度。時間數(shù)列的動態(tài)平均指標則是對發(fā)展水平以及上面三種動態(tài)比較指標求平均而得到的,因而共有四種,即平均發(fā)展水平以及平均增長量、平均發(fā)展速度、平均增長速度。二、時間數(shù)列的趨勢分析時間數(shù)列也可以在直角坐標系上給出其相應的圖形,稱為歷時曲線。趨勢分析就是通過修勻、擬合歷時曲線的方法,消除原時間數(shù)列中因某些偶然因素引起的不規(guī)則變動,從而比較明顯地反映出現(xiàn)象發(fā)展的基本趨勢。注意:在對時間數(shù)列作趨勢分析時,各時間上的統(tǒng)計指標數(shù)值一般習慣用表示。通常,趨勢分析是對項數(shù)很多的時間數(shù)列進行的一種分析。由于項數(shù)較多,所以現(xiàn)象長期

37、變動有可能顯示出某種規(guī)律性。在統(tǒng)計學中,趨勢分析也是以直線型趨勢為基礎,然后再拓展到曲線型趨勢。 當原時間數(shù)列呈直線變動時,我們可以用一條直線來擬合它,設直線擬合方程為 (956)顯然,只要方程中參數(shù)和可以確定,那么通過該方程我們就可以得到任何時間上指標數(shù)值()所對應的擬合值()。而用最小平方法確定最佳擬合直線,我們在前面回歸直線方程的求解中已經(jīng)詳細討論過。所以,現(xiàn)在只要將散點圖和歷時曲線加以類比,同時將X用t來置換就行了。于是我們得 (957a) (957b) 三、指數(shù)(zhsh)分析 指數(shù)這一概念,起始于反映物價變動,最早由英國的優(yōu)漢于1650年首創(chuàng)。后來,隨著資本主義商品經(jīng)濟的發(fā)展,指數(shù)

38、被拓展為用來(yn li)反映各種動態(tài)相對數(shù)?,F(xiàn)在指數(shù)的概念又得到進一步拓展,英國百科全書給出了這樣的定義:“指數(shù)(zhsh)是用來測定一個變量值對一個特定的變量值大小的相對數(shù)?!彼栽谏鐣芯康亩糠治鲋?指數(shù)既包括動態(tài)指數(shù),又包括靜態(tài)指數(shù)。動態(tài)指數(shù)泛指兩個不同時間上的指標對比而計算的相對數(shù),靜態(tài)指數(shù)則是指那些與時間先后無關的統(tǒng)計指數(shù),如環(huán)境質(zhì)量指數(shù)、歐?,斨笖?shù)等等。1、動態(tài)指數(shù)及其分類對社會動態(tài)作比較分析有兩種基本方法:用報告期指標數(shù)值除以基期指標數(shù)值;用報告期指標數(shù)值減去基期指標數(shù)值。動態(tài)指數(shù)是原始涵義上的統(tǒng)計指數(shù),它是動態(tài)統(tǒng)計分析的進一步發(fā)展,動態(tài)指數(shù)不僅可以說明事物單項變動的程度,而

39、且可以綜合地反映社會動態(tài)的總變動,進而可以分析和測定總變動中各因素變動的影響程度。為了說明這一點,我們先要對動態(tài)指數(shù)作個體指數(shù)和綜合指數(shù)的分類。 個體指數(shù)是說明單項事物變動的比較指標,用符號表示。實質(zhì)上,個體指數(shù)就是同一現(xiàn)象的報告期指標數(shù)值與基期指標數(shù)值對比而得到的發(fā)展速度指標,即。綜合指數(shù)是說明由多個項目組成的復雜現(xiàn)象總體綜合變動的比較指標,一般用符號表示。有了個體指數(shù)和綜合指數(shù)的區(qū)分后,對數(shù)量指標指數(shù)和質(zhì)量指標指數(shù)加以區(qū)分也是非常重要的。數(shù)量指標指數(shù)是說明總體在規(guī)模、水平上數(shù)量變動的指數(shù),指數(shù)化因素是物量、人數(shù)這些數(shù)量指標。質(zhì)量指標指數(shù)是說明總體在內(nèi)涵上數(shù)量變動的指數(shù),指數(shù)化因素是物價、成

40、本、生活費用、勞動生產(chǎn)率這些質(zhì)量指標。由于綜合指數(shù)和個體指數(shù)有著計算上的聯(lián)系,故可把個體數(shù)量指數(shù)和個體質(zhì)量指數(shù)分別表示為 (959 (9602、質(zhì)量指標綜合(zngh)指數(shù)質(zhì)量指標綜合(zngh)指數(shù)()的數(shù)學(shxu)表達式 (961對商品價格指數(shù),在(961式中,商品銷售量(Q)則被稱為同度量因素,它具有兩個作用:可作為一種中介,使原來不能直接加總的各商品的價格,過渡到能夠加總的商品的價值總量。起到加權作用,如商品價格可通過銷售量反映出它對總變動影響的大與小,故統(tǒng)計中又把同度量因素稱為權數(shù)。但是,為了反映商品價格的變動程度,必須把同度量因素(如商品銷售量Q)固定起來,假定其不變。這就產(chǎn)生了一個將同度量因素固定在基期還是報告期的問題。從我國指數(shù)編制的實踐來看,長期以來習慣采用報告期的數(shù)量指標

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論