定量資料的分析_第1頁
定量資料的分析_第2頁
定量資料的分析_第3頁
定量資料的分析_第4頁
定量資料的分析_第5頁
已閱讀5頁,還剩89頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

定量資料的分析延時符定量資料的研究分析借助的是各種統(tǒng)計分析方法。按統(tǒng)計分析的性質的不同,定量資料的分析可分為描述統(tǒng)計和推斷統(tǒng)計;按統(tǒng)計分析涉及變量的多少,定量資料的分析可分為單變量統(tǒng)計分析、雙變量統(tǒng)計分析和多變量統(tǒng)計分析。延時符描述統(tǒng)計與推斷統(tǒng)計一、描述統(tǒng)計(descriptivestatistics)是用圖形、表格和概括性的數字對數據進行描述的統(tǒng)計方法,即用直觀的圖形、匯總的表格和概括性的數字(如平均數)表示數據的分布、形狀等特征。推斷統(tǒng)計(inferentialstatistics)是指研究如何根據樣本數據去推斷總體數量特征的方法,它是在對樣本數據進行描述的基礎上,對統(tǒng)計總體的未知數量特征做出以概率形式表述的推斷。延時符描述統(tǒng)計與推斷統(tǒng)計的劃分還反映了統(tǒng)計方法發(fā)展的前后兩個階段和使用統(tǒng)計方法探索客觀事物數量規(guī)律性的不同過程。統(tǒng)計研究過程的起點是統(tǒng)計數據,終點是探索出客觀現象內在的數量規(guī)律性。在這一過程中,如果搜集到的是總體數據(如普查數據),那么運用描述統(tǒng)計就可以達到認識總體數量規(guī)律性的目的;如果獲得的只是研究總體的一部分數據(樣本數據),那么要想找到總體的數量規(guī)律性,就要運用概率論的理論并根據樣本信息對總體進行科學的推斷。顯然,描述統(tǒng)計和推斷統(tǒng)計是統(tǒng)計方法的兩個組成部分。延時符描述統(tǒng)計是所有統(tǒng)計分析的基礎,推斷統(tǒng)計則是實際工作中定量資料分析的主要內容。而且,推斷統(tǒng)計的地位和作用也越來越重要,已成為統(tǒng)計分析的核心內容,這是因為在對現實問題的研究中所獲得的數據主要是樣本數據。但這并不等于說描述統(tǒng)計不重要,如果沒有描述統(tǒng)計搜集可靠的統(tǒng)計數據并提供有效的樣本信息,再科學的統(tǒng)計推斷方法也難以得出切合實際的結論。從描述統(tǒng)計學到推斷統(tǒng)計學反映了統(tǒng)計學發(fā)展的巨大成就,是統(tǒng)計學發(fā)展成熟的重要標志。延時符單變量、雙變量和多變量統(tǒng)計二、在社會調查研究中,通常都會涉及多個變量。但是在統(tǒng)計分析中,究竟是進行單變量統(tǒng)計分析,還是進行雙變量統(tǒng)計分析或多變量統(tǒng)計分析,取決于調查研究者的意圖和目的。延時符單變量統(tǒng)計分析只能進行描述性研究。因為單變量統(tǒng)計分析只涉及一個變量,所以它只能用統(tǒng)計數值(如平均數、百分比、標準差等)來描述單個變量的特征,不能對變量之間的關系做出解釋,而只有雙變量統(tǒng)計分析或多變量統(tǒng)計分析才能進行解釋性研究。因為只有涉及兩個或兩個以上的變量時,才有可能分析它們之間的關系(包括相關關系和因果關系),才有可能用自變量來解釋因變量。也就是說,如果要進行解釋性研究,就必須進行雙變量統(tǒng)計分析或多變量統(tǒng)計分析。常用的雙變量統(tǒng)計分析方法包括列聯(lián)表分析與χ2檢驗、各種雙變量相關分析、一元回歸分析等等。延時符當一項統(tǒng)計分析涉及三個或三個以上變量(其中至少有一個因變量)時,則稱為多變量或多元統(tǒng)計分析。多變量統(tǒng)計分析是一種更為復雜的統(tǒng)計分析方法,因而通常稱為高級統(tǒng)計方法。在計算機統(tǒng)計軟件產生之前,多變量統(tǒng)計方法由于技術太復雜、計算太困難,應用范圍受到很大的限制。在計算機統(tǒng)計軟件產生并推廣應用之后,這種情況已完全改變,各種設計精巧的統(tǒng)計軟件可以讓社會調查研究者根據需要進行各種復雜的多變量統(tǒng)計分析。當然,要正確使用統(tǒng)計軟件、正確解釋和使用統(tǒng)計分析結果,就必須掌握多變量統(tǒng)計分析的基本原理和方法,否則再好的統(tǒng)計軟件也不可能做出正確的統(tǒng)計分析。在社會調查研究中,多變量統(tǒng)計分析方法有很多,如多元相關分析、多元回歸分析、因子分析等。延時符

(一)單變量統(tǒng)計分析單變量統(tǒng)計描述分析單變量統(tǒng)計推斷分析單變量統(tǒng)計分析又分為延時符

1.單變量統(tǒng)計描述分析單變量統(tǒng)計描述分析是對單一變量利用描述統(tǒng)計的主要方法進行研究。單變量的統(tǒng)計描述分析在社會調查研究中很常見,如某城市的家庭結構如何?有多少直系家庭?有多少聯(lián)合家庭?又有多少核心家庭?某城市居民中有多少種民族?其各占比例多少?某企業(yè)有多少女性員工?其年齡結構如何?某學校教師的文化結構如何?等等。延時符單變量統(tǒng)計描述的分析方法分為集中趨勢分析和離中趨勢分析。(1)集中趨勢分析。集中趨勢是指一組數據向其中心值靠攏的傾向和程度。分析集中趨勢就是尋找該組數據的代表值或中心值。延時符①眾數。眾數是指總體中出現次數最多的那個標志值,用Mo表示。眾數表示被研究社會經濟現象中最普遍最常見的標志值,以反映該現象的一般水平。眾數用得最多的情形是具有明顯偏態(tài)集中趨勢的次數分布,如對一個地區(qū)的家庭收入分配數列、工人月工資分配數列、某種債券息票率分組的行情次數分布等進行分析。根據未分組數據或分組數據計算眾數時,只需要找出出現次數最多的變量值即可。延時符某次考試中考生的年齡分別為34,25,41,37,37,29,35,37,30,34,40,求眾數。解:考生年齡的眾數即為頻數最高的年齡37?!纠?1-1】延時符根據某單位員工職業(yè)資格等級分組資料(見表11-2)求眾數。表11-2某單位員工職業(yè)資格等級分組表解:經觀察發(fā)現,職業(yè)資格等級為二級的員工人數最多,因此眾數為二級。【例11-2】延時符應該注意的是,一組數據也許有兩個甚至多個眾數存在。數據中出現兩個次數最多的變量值時,可稱為復眾數。在實際工作中,還可以利用直方圖來確定眾數的近似值,但要求繪制的直方圖足夠精確,其具體方法不再贅述。眾數屬于位置平均數,不受極端值的影響。當變量數列為均勻分布、U型分布、J型分布時,不存在眾數。眾數缺乏敏感性,這是因為眾數的計算只利用了部分數據的信息,不像均值那樣利用了全部數據信息。延時符②中位數。中位數是標志值按大小順序排列成數列后,處在該數列中點位置的標志值,以Me表示。確定中位數時,需要先找出分布數列的中間位置點。要確定未分組資料的中位數,就要先將總體中各標志值按數值大小排列,如有n個數值,則確定中位數的位置點公式為Om=(n+1)/2。如果n是奇數,則居于中間位置的那個標志值就是中位數;如果n是偶數,中位數則是中間兩個位置的標志值的算術平均數。延時符現從2016年獲得管理學學士學位的畢業(yè)生中隨機抽取了10個人組成一個樣本,他們的月收入如表11-3所示。請確定樣本收入的中位數。表11-3畢業(yè)生樣本收入數據單位:元解:中位數的位置點Om=(10+1)/2=5.5,也就是說,中位數在排序后第5、第6個數據之間。中位數Me=(2850+2900)/2=2875元?!纠?1-3】延時符計算表11-4中加工零件數的中位數。表11-4工人加工零件數分組資料【例11-4】延時符中位數因為不受極端值影響,所以其代表性比均值穩(wěn)定。但中位數沒有考慮總體的全部變量值,不宜用來推算總體。此外,中位數還具有一個優(yōu)良的數學性質,就是各變量值與中位數的離差絕對值之和最小,即該性質表明,中位數與各數據的絕對距離之和最短,這在工程設計、城市規(guī)劃、網點布局等方面有一定的應用價值。延時符③分位數。分位數是將按標志值大小順序排列的各總體單位劃分為數目相等的若干部分的數值。中位數是將統(tǒng)計分布從中間分成面積(即數據個數)相等的兩部分,與中位數性質相似的還有四分位數(quartile)、十分位數(decile)和百分位數(percentile)。不難理解,四分位數就是將數據分布四等分的三個數值,其中中間的四分位數就是中位數(Q2),在25%位置上的分位數稱為下四分位數(Q1),在75%位置上的分位數稱為上四分位數(Q3)。十分位數和百分位數分別是將數據分布10等分和100等分的數值。使用Excel軟件可以方便地得出數據的四分位數。延時符根據例11-3給出的數據,求畢業(yè)生樣本收入數據的上四分位數和下四分位數。解:分四步進行解答。新建一Excel工作表,輸入收入數據,如圖11-2所示?!纠?1-5】圖11-2數據輸入延時符在“公式”項下點擊“插入函數”,并在復選窗口選擇“統(tǒng)計”,再點選“QUARTILE.EXC”,最后點擊“確定”,如圖11-3所示。圖11-3函數“QUARTILE.EXC”的調取延時符在彈出的對話框中,“Array”后選擇要處理的數據區(qū)域,“Quart”后填寫1,點擊“確定”,得到這組數據的下四分位數為2675元,如圖11-4所示。圖11-4函數參數的輸入及下四分位數結果的得出延時符重復上一步的操作,“Array”后選擇要處理的數據區(qū)域,“Quart”后填寫3,點擊“確定”,得到這組數據的上四分位數為3125元,如圖11-5所示。圖11-5函數參數的輸入及上四分位數結果的得出延時符④算術平均數。算術平均數亦稱均值,是總體各單位某一數量標志的平均數,它的基本形式是總體各單位某一標志值的總和(標志總量)除以總體單位總量。其計算公式為利用此公式時應注意分子和分母必須屬于同一總體,分子的標志總量應是分母所有總體單位標志值之和,分子與分母的范圍是一致的。總體標志總量是數量標志值的和,由于品質標志不能相加,因而不能計算算術平均數。算術平均數是一個有名數,計量單位應和標志值的計量單位一致。(11-2)延時符根據所得數據的形式不同,算術平均數的計算分為簡單算術平均數和加權算術平均數兩種形式。簡單算術平均數是將總體各單位的標志值簡單相加求得標志總量,然后除以總體單位總量得到的,其計算公式為式中,x為算術平均數,xi為各單位標志值,n為總體單位數,∑為求和的符號。(11-3)延時符已知某工廠工人的工資情況如表11-5所示,求該工廠工人的月平均工資?!纠?1-7】表11-5某工廠工人工資水平分布情況延時符⑤幾何平均數。幾何平均數是各個標志值連乘積的項數方根所得的平均水平。幾何平均數在計算社會經濟問題的平均發(fā)展速度等方面發(fā)揮著重要作用。根據所得資料的形式不同,幾何平均數可分為簡單幾何平均數和加權幾何平均數兩種形式。延時符2011—2014年各年我國的國內生產總值的發(fā)展速度如表11-6所示。試求這幾年間國內生產總值的平均發(fā)展速度。【例11-8】表11-62011—2014年我國的國內生產總值的發(fā)展速度延時符在資料分組的情況下每個變量值次數不相同時,計算幾何平均數應采用加權幾何平均數,公式如下其中f表示各標志值出現的次數,∑f表示次數之和。(11-6)延時符假如某銀行存款按復利計算,定期存款25年的年利率見表11-7,計算平均年利率?!纠?1-9】表11-7定期存款的年利率資料延時符(2)離中趨勢分析。平均數是概括數據的一種有效方法,但有時用平均數卻會使人們產生錯誤的認識。例如,一個社區(qū)的平均家庭戶收入可能是每年30萬,但如果這個均值是根據200戶非常貧困的家庭和20戶極其富有的家庭收入計算得來的,那么這一平均年收入就幾乎沒有代表性。離中趨勢是數據分布的另一個重要特征,它反映了各變量值遠離其中心值的程度,也從另一個側面說明了集中趨勢指標的代表程度。延時符①極差。極差又稱全距,是一組數據中最大值與最小值之差。其計算公式為極差=最大的標志值-最小的標志值(11-7)一般說來,如果總體的標準差較大,從中取出的樣本的極差會大一些;如果總體的標準差較小,從中取出的樣本的極差也會小一些。反過來說,若樣本極差較大,表明總體取值較分散;若樣本極差較小,則總體取值相對集中。延時符根據例11-3中的數據,計算畢業(yè)生樣本收入的極差。解:極差=最大的標志值-最小的標志值=3300-2600=700(元)?!纠?1-10】延時符極差是描述離中趨勢的最簡單指標,計算簡單直觀,也易于理解,但其數值大小易受極端值的影響,且不反映中間變量值的差異,因而不能準確描述出數據的離中程度。②內距。內距是兩個四分位數之差,即內距=上四分位數-下四分位數=Q3-Q1

(11-8)延時符根據例11-3中的數據,計算畢業(yè)生樣本收入的內距。解:由例11-5可知,畢業(yè)生樣本收入的上四分位數Q3=3125元,下四分位數Q1=2675元,內距=上四分位數-下四分位數=Q3-Q1=3125-2675=450元?!纠?1-11】延時符比較極差和內距,易發(fā)現極差會受到極端值的影響,而內距基本不受極端值的影響。而且內距反映的是中間50%數值大小的差異,顯示出了比極差更多的數據差異信息。

③方差與標準差??傮w的方差是總體各單位標志值與算術平均數離差的平方的算術平均數,用σ2表示,方差的平方根就是標準差,用σ表示。樣本的方差記做s2,樣本的標準差記做s。標準差是測度離中趨勢、離散程度最常用的指標。延時符(11-9)(11-10)a.對于未分組資料,采用簡單平均式??傮w標準差式中,x為總體各個標志值,μ為總體的均值,N為總體單位總數。樣本標準差式中,x為樣本各個標志值,x為樣本的均值,n為總體單位總數。延時符b.對于分組資料,采用加權平均式??傮w標準差樣本標準差在單項式變量數列中,x代表各組標志值;在組距式數列中,x代表各組組中值,f為各組對應的次數。(11-11)(11-12)延時符從A社區(qū)中隨機抽取31個家庭組成樣本開展消防安全知識測驗,成績如表11-8所示,求測驗分數的標準差?!纠?1-12】表11-831個家庭的知識測驗分數延時符延時符④離散系數。極差、標準差都是使用絕對數來說明標志值的差異程度或離中趨勢的,它們的大小不僅受離散程度的影響,而且受標志值數列水平的影響,也就是說,同樣大小的變異度對于不同水平的標志值數列來說,其表明的意義是不一樣的。例如,2000元的損失對于月薪4000元和月薪15000元的人來說,影響就大不相同。延時符所以說,對于兩個不同水平的數列,如果它們的絕對水平相差很大(平均數不同),就不能根據計算所得的變異指標直接進行比較。另外,對于計量單位不同的數列,更不能用絕對數形式的標志變異指標做比較,因而需要計算其離散程度的相對指標——離散系數。將變異指標與代表數列水平的平均指標聯(lián)系起來觀察,才能真正反映不同水平的變量數列的離散程度。離散系數的計算公式為

(11-13)延時符假設對從B社區(qū)抽選的樣本開展的消防安全知識測驗的平均分為70分,標準差為10分,那么根據例11.12中A社區(qū)的數據,哪個社區(qū)測驗平均分的代表性更高?【例11-13】延時符

2.單變量統(tǒng)計推斷分析單變量統(tǒng)計推斷分析有兩個方面的工作:一是參數估計,即由對部分進行觀測取得的數據對研究對象整體的數量特征取值給出估計;二是假設檢驗,即由對部分進行觀測取得的數據對研究對象的數量規(guī)律性是否具有某種指定特征進行檢驗。(1)參數估計。所謂參數估計就是用樣本統(tǒng)計量去估計總體的參數。例如,用樣本均值x估計總體均值μ,用樣本方差s2估計總體方差σ2,用樣本比例p估計總體比例π等。參數估計的方法有點估計和區(qū)間估計兩種。延時符①點估計。點估計又稱定值估計,它是直接以樣本指標數值(統(tǒng)計量)推斷總體指標數值(參數)的方法。點估計給出的只是總體縮小的一個估計數值,即沒有給出估計的精確或準確程度,也沒有給出估計的可靠程度。因此,在實際推斷中,一般不單獨使用點估計的方法,而多采用區(qū)間估計的方法。但點估計是區(qū)間估計的基礎,區(qū)間估計的置信區(qū)間是以點估計的值為中心的。因此在抽樣調查的估計理論中,點估計的方法與原理也很重要。延時符②區(qū)間估計。區(qū)間估計是指在一定的概率保證下,根據樣本指標和抽樣極限誤差去推斷總體相應指標所在的可能范圍(置信區(qū)間)的方法。這個可能范圍通常用一個最低限和一個最高限構成的區(qū)間來表示,并以一定的概率保證總體指標的估計值在這兩個數值構成的區(qū)間之內。因此,它是利用樣本指標去推斷總體指標的主要方法。延時符要想深刻理解區(qū)間估計,就需要從以下3個方面來把握:a.區(qū)間估計是根據樣本指標和抽樣極限誤差去估計總體指標所在的范圍的。在區(qū)間估計中,由樣本統(tǒng)計量所構造的總體參數的估計區(qū)間稱為置信區(qū)間。區(qū)間的最小值稱為置信下限,區(qū)間的最大值稱為置信上限。用公式表示為其中Δ為抽樣極限誤差(允許誤差)。(11-14)(11-15)b.區(qū)間估計所表示的是一個可能的范圍,而不是一個絕對可靠的范圍??傮w指標在這個范圍的判斷是不肯定的,其在一定范圍內的判斷會有一定可靠程度,即置信水平、置信度,或者稱有一定概率保證。例如,總體均值落在以樣本均值為中心構造的±1.96個抽樣平均誤差范圍之內的概率為95%,落在兩個抽樣平均誤差范圍之內的概率為95.45%。c.擴大抽樣極限誤差的范圍可以提高推斷的可靠程度,縮小抽樣極限誤差的范圍會降低推斷的可靠程度。即精確程度與推斷的可靠程度此消彼長。延時符如果總體方差未知,那么在大樣本條件下就可以用樣本方差s2代替總體方差σ2,這時總體均值μ在1-α置信水平下的置信區(qū)間可以寫為(11-17)如果是采取不重復抽樣,而且抽樣比很大時(一般大于5%),則抽樣分布的方差應乘以修正系數

,這時總體均值μ在1-α置信水平下的置信區(qū)間可以寫為某研究機構想估計在軟件公司工作的員工每周加班的平均時間,隨機抽取了一個36人的樣本,計算得到樣本的均值為14小時,樣本的標準差為18小時。試以95%的置信水平估計軟件公司員工每周加班時間的置信區(qū)間?!纠?1-14】(2)假設檢驗。假設檢驗是除參數估計之外的另一類重要的統(tǒng)計推斷問題。它是指對未知總體的某種特征提出某種假設,再根據樣本資料來驗證該假設是否成立的推斷統(tǒng)計方法。假設檢驗的基本思想可以用小概率原理來解釋。所謂小概率原理,就是認為小概率事件在一次試驗中是幾乎不可能發(fā)生的。也就是說,如果對于總體的某個假設是真實的,那么不利于或不可能支持這一假設的小概率事件A在一次試驗中幾乎是不可能發(fā)生的,要是一次試驗中事件A竟然發(fā)生了,我們就有理由懷疑這一假設的真實性,從而拒絕這一假設。假設檢驗可分為以下4個基本步驟:①提出原假設和備擇假設。根據已知的信息,在經過周密考慮之后提出原假設H0和備擇假設H1,假設的設定依據是原假設和備擇假設的定義。②選擇適當的檢驗統(tǒng)計量,并根據樣本信息計算檢驗統(tǒng)計量的值。不同的假設檢驗問題需要選擇不同的統(tǒng)計量作為檢驗統(tǒng)計量。所謂檢驗統(tǒng)計量是根據樣本觀測結果計算得到的,并據以對原假設和備擇假設做出決策的某個樣本的統(tǒng)計量。檢驗前必須先確定用于檢驗的統(tǒng)計量,了解其分布特點。③選擇顯著性水平,確定臨界值。假設檢驗的基本原理就是根據檢驗統(tǒng)計量建立一個準則,依據這個準則和計算得到的檢驗統(tǒng)計量值,研究者就可以決定是否拒絕原假設。但統(tǒng)計量的哪些值將導致拒絕原假設而傾向于接受備擇假設?這就需要找出能夠拒絕原假設的統(tǒng)計量的所有可能取值,這些取值的集合稱為拒絕域(否定域)。拒絕域的大小與研究者事先選定的顯著性水平有一定的關系。在確定了顯著性水平α之后,就可以根據α值的大小確定出拒絕域的具體邊界值——臨界值。拒絕域的位置取決于檢驗是單側檢驗還是雙側檢驗。雙側檢驗的拒絕域在抽樣分布的兩側。而在單側檢驗中,如果備擇假設具有符號“<”,那么拒絕域就位于抽樣分布的左側,故稱為左側檢驗;如果備擇假設具有符號“>”,那么拒絕域就位于抽樣分布的右側,故稱為右側檢驗。在給定顯著性水平α條件下,拒絕域和臨界值可用圖11-6來表示。圖11-6顯著性水平、拒絕域和臨界值④將檢驗統(tǒng)計量值與臨界值進行比較并做出判斷。拒絕域是由顯著性水平α所圍成的區(qū)域。如果利用樣本觀測結果計算出來的檢驗統(tǒng)計量的具體數值落在了拒絕域內,就拒絕原假設,否則就不能拒絕原假設。

(二)雙變量統(tǒng)計分析前面所講授的統(tǒng)計方法都屬于單變量的統(tǒng)計方法,即把總體看作一維的隨機變量。但是,構成社會現象的研究更多的是指命題,即研究兩個或兩個以上概念間的關系,用統(tǒng)計語言表達就是研究變量x和變量y之間的關系。例如,溝通能力與收入的關系;文化程度與生育意愿的關系;年齡與人們愛好的關系;人格與個人事業(yè)成就的關系;等等,這些都屬于雙變量統(tǒng)計分析的內容。由于變量存在不同的測定層次,雙變量統(tǒng)計分析有著不同的研究方法。需要說明的是,由于社會調查研究中很少能找到只滿足定距要求而不滿足定比要求的變量(除了智商IQ),因此常把定距和定比兩類合并為一類。按照以下三種方式劃分的雙變量的統(tǒng)計分析方法可制成如表11-9所示的二維矩陣。表11-9雙變量統(tǒng)計分析方法矩陣其中每一種(xi,yj)(i=1,2,3;j=1,2,3)的組合,都構成了雙變量的一種特定的統(tǒng)計分析方法的討論。下面雙變量統(tǒng)計分析方法的介紹就是根據以上組合展開的。

1.兩個定類變量的相關測量如果兩個變量都是定類變量,那么在計算相關系數的時候,就可用λ系數和τ系數表示。這兩種系數都具有消減誤差比例的意義。(1)λ系數。λ系數的計算需要用到PRE(ProportionalReductioninError)這種方法。所謂PRE,就是減少誤差比例法,即變量間的相關程度可以用兩個誤差的相對差值的大小進行度量,其中一個誤差為當不知道y與x有關系時,靠y本身的分布預測y的全部誤差,另一個誤差為當知道y與x有關系時,用x去預測y的誤差。PRE的值越大,表示y和x的關系越密切,或者說相關程度越高。λ的值域在0和1之間。λ系數的計算分兩種形式:一種是非對稱形式,另一種是對稱形式。假設有r×c列聯(lián)表(見表11-10),則有表11-10r×c列聯(lián)表①非對稱形式。非對稱形式假設兩個變量的關系是非對稱的,即一個是自變量x,一個是因變量y,用自變量x來預測因變量y時,可以消減的誤差比例是多大,通常以符號λy表示,其計算公式為(11-20)同理,如果y為自變量,x為因變量,用自變量y來預測因變量x時,可以消減的誤差比例通常以符號λx表示,計算公式為(11-21)②對稱形式。對稱形式即假設兩個變量的關系是對稱的,在區(qū)分不出自變量和因變量時,可同時計算λy和λx,并取其平均λ值作為x和y間的相關程度,其公式是λ值只使用了眾數的頻次,資料信息使用不充分,如果全部眾數的頻次集中在交互分類表中的同一列或同一行中,那么λ系數便會等于0。因此,有些研究者用τ系數對定類變量的相關關系進行測量。(11-22)(2)τ系數。τ系數在運用PRE準則時與λ系數不同,并有所修正。具體來說,當不知x與y有關系預測y時,τ系數要充分考慮到y(tǒng)值邊緣分布所提供的信息,因此不再用眾數來對y進行預測,而是用邊緣分布所提供的比例來進行預測。τ系數值域在0和1之間。當以x為自變量時,用對y的預測來定義PRE,得的τ值稱作τy,其公式為(11-23)同樣,如果y為自變量,用對x的預測來定義PRE,所得的τ值稱作τx,其公式為由于τ系數考慮了全部的次數,所以比λ系數更可靠。因此,如果是非對稱關系,最好選用τ系數簡化兩個定類變量之間的關系。(11-24)

2.兩個定序變量的相關測量最常用的簡化兩個定序變量的相關測量有Gamma系數(通常用G表示)和d系數。Gamma系數適用于對稱關系,d系數適用于非對稱關系。兩者的取值都在-1和1之間,既表示相關的程度,也表示相關的方向,并且都具有消減誤差比例的意義。(1)Gamma系數。計算Gamma系數(G)的公式如下其中ns表示同序對的數目,nd表示異序對的數目。(11-25)同序對是指形成一對的兩個個案在不同變量上的等級次序是相同的,也就是說其在變量x上的等級高低順序與在變量y上的等級高低相同。如果個案A在x變量上的等級為xa,在y變量上的等級為ya,個案B在x變量上的等級為xb,在y變量上的等級為yb。如果xa>xb,ya>yb,那么就稱個案A和B是同序對。而異序對則是指某對個案中在不同變量上的等級次序不同,其中一個變量的等級高于對方,另一個變量的等級低于對方。如果個案A在x變量上的等級為xa,在y變量上的等級為ya,個案B在x變量上的等級為xb,在y變量上的等級為yb。如果xa>xb,ya<yb,那么就稱個案A和B是異序對。(2)d系數。d系數的計算公式如下其中ns表示同序對數;nd表示異序對數;ny表示y變量的同分對。這里所說的y變量的同分對指的是在兩個個案中,變量y具有相同的等級。(11-26)由于dy系數考慮了因變量y的同分對,所以其數值小于Gamma系數值。值得說明的是,原則上需要用dy系數分析非對稱的關系,用Gamma系數分析對稱關系,但在一些研究中,即使區(qū)分了自變量和因變量,也選用Gamma系數,這種做法是可以接受的。除了Gamma系數和d系數外,還有一些測量定序變量關系的方法,如肯德爾(Kendall)的τ系數和斯皮爾曼(Spearman)的等級相關系數rs等,具體可參考相關文獻。

3.兩個定距或定比變量的相關測量兩個定距或定比變量之間的相關關系可以用系數r、R2來表達。(1)樣本相關系數。相關系數是對變量之間密切程度的度量。對兩個定距或定比變量之間線性相關程度的度量稱為簡單相關系數。根據樣本數據計算的相關系數叫作樣本相關系數,記為r。英國統(tǒng)計學家卡爾?皮爾森(KarlPearson)在1890年提出了一個測定兩變量線性相關的計算公式,其為相關系數r具有下面幾個性質:①相關系數的取值范圍在-1和+1之間,即-1≤r≤1。②若r為正,則表明兩變量為正相關;若r為負,則表明兩變量為負相關。③│r│的數值越接近于1,表示相關系數越強;越接近于0,表示相關系數越弱。當r=1或-1時,表示兩個現象完全線性相關。當r=0時,則表示兩個現象完全不相關(不是直線相關)。④判斷兩變量線性相關密切程度的具體標準為:若0≤│r│<0.3,則稱為微弱相關;若0.3≤│r│<0.5,則稱為低度相關;若0.5≤│r│<0.8,則稱為顯著相關;若0.8≤│r│<1,則稱為高度相關。需要說明的是,皮爾森相關系數r只能測定兩個定距或定比變量之間存在的線性相關關系。也就是說,如果兩個變量之間│r│數值較大,也只能夠說明兩者之間存在較強的線性關系。如果兩者之間r為0,并不能說明兩個變量之間不存在除線性形式以外的其他形式的相關關系。所以,在計算兩個變量的相關系數時,應該先使用散點圖觀察兩變量之間的函數形式,然后再使用相關系數來測量相關關系的方向和程度的大小。(2)可決系數(判定系數)??蓻Q系數R2是對擬合優(yōu)度進行度量的一種方法。所謂擬合優(yōu)度,指的是對所估計出的樣本回歸線考察其對樣本觀測數據擬合的優(yōu)劣程度。如果樣本回歸線對樣本觀測值擬合程度越好,各樣本觀測點與回歸線靠得越近,由樣本回歸做出解釋的離差平方和在總離差平方和中占的比重也將越大;反之,擬合程度越差,這部分所占比重就越小??蓻Q系數R2的公式為(11-29)可決系數R2有如下特點:①可決系數R2是非負的統(tǒng)計量。②可決系數R2取值范圍為0≤R2≤1。③可決系數R2是樣本觀測值的函數,是隨抽樣而變動的隨機變量。④在一元線性回歸中,可決系數R2在數值上是簡單線性相關系數的平方:

4.定類變量與定序變量的相關測量由于定序變量具有定類變量層次的數學特征,因此,大部分社會調查研究者在分析定類變量和定序變量時,都采用λ系數和τ系數,也就是將定序變量作為定類變量來看待,雖然這種做法會損失定序變量的一些數學特質,但統(tǒng)計起來較為方便。

5.定類變量與定距變量的相關測量定類變量和定距變量的測量一般采用相關比率E2表示,它是根據自變量的每一個值來預測或估計因變量的均值,具有消減誤差比例的意義,其取值范圍為0~1。相關比率E2開方后可得到相關系數E,因為有一個變量是定類變量,所以E系數沒有負值。其計算公式如下(11-30)

6.定序變量與定距變量的相關測量在定序變量和定距變量的測量中,通常也是采用相關比率E2來進行測量的,也就是把定序變量作定類變量處理。在分析定序變量和定距變量的關系時,除了采用相關比率系數外,社會調查研究中也會采用積矩相關系數甚至線性回歸,其基本的邏輯是定序變量通過賦值作為定距變量進行統(tǒng)計。

(三)多變量統(tǒng)計分析多變量統(tǒng)計分析又稱多元統(tǒng)計分析,是指涉及三個及三個以上變量(其中至少一個因變量)的統(tǒng)計分析方法。社會現象之間的復雜性使人們認識到正確使用多變量分析,通常會比只進行單變量和雙變量分析更具有解釋力。20世紀80年代以來,隨著計算機的普及和統(tǒng)計軟件的廣泛應用,多變量統(tǒng)計分析方法迅速發(fā)展,現已發(fā)展成為一個各種方法互相交叉、內容豐富、層次復雜的龐大體系。囿于篇幅,下面簡略地介紹幾種比較常用的多變量統(tǒng)計分析方法。

1.多元相關分析在雙變量分析中,是用一個統(tǒng)計量(如相關系數λ、G、r等)反映兩個變量間的相關關系的。當變量達到三個或三個以上時,相關關系的分析就屬于多元相關分析或多變量相關分析的范疇了。多元相關分析也是用一個統(tǒng)計量(如偏相關系數、復相關系數等)來簡化和反映多個變量之間的相互依存關系的,只不過這種關系更加復雜。與多元相關分析直接有關的方法有偏相關分析、復相關分析和典型相關分析等。(1)偏相關分析。偏相關分析指的是在控制了其他變量影響的情況下,用一個統(tǒng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論