




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第十四章統(tǒng)計分析描述統(tǒng)計和推斷統(tǒng)計雙變量統(tǒng)計分析統(tǒng)計分析概述單變量統(tǒng)計分析多變量統(tǒng)計分析第一節(jié)統(tǒng)計分析概述一、統(tǒng)計分析及其目的統(tǒng)計分析,就是運用統(tǒng)計學原理和方法處理調(diào)查所獲得的數(shù)據(jù)資料,簡化和描述數(shù)據(jù)資料、揭示變量之間的統(tǒng)計關(guān)系,并進而推斷總體的一整套程序和方法。二、統(tǒng)計分析的過程數(shù)據(jù)錄入和數(shù)據(jù)清理數(shù)據(jù)預處理數(shù)據(jù)統(tǒng)計分析數(shù)據(jù)預處理,就是對清理后數(shù)據(jù)做預備性處理,一般包括缺損值處理、加權(quán)處理、變量重新編碼、數(shù)據(jù)重新排序,以及創(chuàng)造新變量等等。數(shù)據(jù)統(tǒng)計分析,就是調(diào)用統(tǒng)計軟件中的各種統(tǒng)計程序?qū)?shù)據(jù)進行分析,包括單變量、雙變量、多變量統(tǒng)計分析,以及制作統(tǒng)計圖、統(tǒng)計表等一系列工作。三、統(tǒng)計分析的層次第二節(jié)描述統(tǒng)計與推斷統(tǒng)計描述統(tǒng)計與樣本、總體有關(guān),與變量多少無關(guān)主要是計算樣本的統(tǒng)計量,不對總體做推斷描述性研究只涉及變量多少,而不涉及樣本或總體問題
只關(guān)于“是什么”,只做描述不做解釋,通常只涉及單個變量一、描述統(tǒng)計及其內(nèi)容二、推斷統(tǒng)計與抽樣分布抽樣原理二、推斷統(tǒng)計與抽樣分布如果我們從任何一個平均數(shù)為μ,標準差為σ的調(diào)查總體中,用隨機方法反復地抽取多個大小相同的樣本;那么,當樣本中的個案數(shù)n增加時,樣本的抽樣分布就會接近正態(tài)分布。X2中心極限定理
在樣本容量足夠大的情況下,樣本的抽樣分布接近正態(tài)分布。在樣本的抽樣分布中,平均數(shù)μ=μ,標準差σX=,通常稱之為標準誤。μ-σμ+σμ正態(tài)抽樣分布,在統(tǒng)計分析中是一種理想的分布三、推斷統(tǒng)計的兩種基本形式統(tǒng)計量:由樣本計算出來的統(tǒng)計值參數(shù):總體統(tǒng)計值參數(shù)估計,就是運用樣本統(tǒng)計量對總體參數(shù)進行推斷或估計的統(tǒng)計過程與統(tǒng)計方法(一)參數(shù)估計三、推斷統(tǒng)計的兩種基本形式(一)參數(shù)估計1.點值估計點值估計的最大缺陷就是無法知道估計的誤差到底有多大。因此,在實際研究工作中通常選擇另一種參數(shù)估計方法,即區(qū)間估計法。三、推斷統(tǒng)計的兩種基本形式(一)參數(shù)估計2.區(qū)間估計就是用一個數(shù)值區(qū)間表示未知總體參數(shù)落入該區(qū)間的概率或可能性有多大的一種統(tǒng)計方法。置信區(qū)間置信水平置信區(qū)間是指進行區(qū)間估計時,在某一概率水平下總體參數(shù)所處的數(shù)值區(qū)間。區(qū)間的上、下限(端點)稱為臨界值,所確定的概率水平稱為置信水平或置信度,以概率1-α表示,α稱為顯著性水平,表示該區(qū)間估計的不可靠性程度,即估計參數(shù)位于該區(qū)間時可能犯錯誤的概率。1-α則表示估計參數(shù)落入置信區(qū)間的可靠性程度或把握度。三、推斷統(tǒng)計的兩種基本形式(一)參數(shù)估計2.區(qū)間估計樣本均值的抽樣分布具有的特性是:總體平均數(shù)或抽樣分布平均數(shù)處于樣本平均數(shù)±1.96個抽樣分布標準差范圍內(nèi)的概率為95%;處于樣本平均數(shù)±2.58個抽樣分布標準差范圍內(nèi)的概率為99%δ在95%的置信水平條件下,總體平均數(shù)的置信區(qū)間=在99%的置信水平條件下,總體平均數(shù)的置信區(qū)間=三、推斷統(tǒng)計的兩種基本形式(二)假設(shè)檢驗假設(shè)檢驗是以抽樣分布原理為基礎(chǔ),檢驗調(diào)查樣本中的統(tǒng)計特性是否在總體中同樣存在的一種統(tǒng)計方法參數(shù)估計假設(shè)檢驗相同點從樣本出發(fā)去推斷總體必須是通過隨機抽樣調(diào)查得來的數(shù)據(jù)從樣本出發(fā)去推斷總體必須是通過隨機抽樣調(diào)查得來的數(shù)據(jù)不同點用具體的樣本統(tǒng)計量來推斷總體參數(shù)檢驗樣本中的事實、關(guān)系在總體中是否也存在三、推斷統(tǒng)計的兩種基本形式(二)假設(shè)檢驗進行假設(shè)檢驗,必須首先建立兩個假設(shè),即虛無假設(shè)和備擇假設(shè)(替換假設(shè)或研究假設(shè))虛無假設(shè)備擇假設(shè)含義假設(shè)在樣本中觀察到的事實或變量之間的關(guān)系在總體中并不存在,樣本中出現(xiàn)的這種情形是由于抽樣誤差造成的假設(shè)在樣本中出現(xiàn)的情況并不是抽樣誤差,在總體中也同樣存在性質(zhì)是一個關(guān)于“不存在”的假設(shè),用H0表示是關(guān)于“存在”的假設(shè),用H1表示假設(shè)檢驗的數(shù)理基礎(chǔ)“小概率事件在一次抽樣中不可能出現(xiàn)原理”即小概率事件在通常情況下是不可能出現(xiàn)的,如果居然在一次抽樣中出現(xiàn)了,則有理由認為存在其他原因而拒絕H0。三、推斷統(tǒng)計的兩種基本形式(二)假設(shè)檢驗第三節(jié)單變量統(tǒng)計分析一、集中量數(shù)分析集中量數(shù)分析,是指用一個具體的統(tǒng)計量反映一組數(shù)據(jù)向該統(tǒng)計量集中趨勢的統(tǒng)計方法,它所表示的是一組數(shù)據(jù)集中的程度或水平。平均數(shù)是最常用的集中量度,但它往往受極端數(shù)據(jù)的影響,使平均數(shù)反映數(shù)據(jù)整體集中趨勢的準確性變得面目全非;當一組數(shù)據(jù)中存在極端數(shù)據(jù)、或數(shù)據(jù)中有個別數(shù)據(jù)不準確、不清楚的情況下,中位數(shù)能比平均數(shù)更準確、更穩(wěn)定地反映數(shù)據(jù)整體的集中趨勢;眾數(shù)的優(yōu)點是適用于所有類型的數(shù)據(jù),另外在需要快速而又粗略地找出一組數(shù)據(jù)的代表值時,眾數(shù)比平均數(shù)、中位數(shù)都更能表現(xiàn)出其優(yōu)越性二、離散量數(shù)分析集中量數(shù)反映的是數(shù)據(jù)整體的平均水平和典型情況離散量數(shù)反映數(shù)據(jù)整體的分散性、變異性等情況所謂離散量數(shù),就是表示一組數(shù)據(jù)變異程度或分散程度的量數(shù)常用的離散量數(shù)是方差與標準差、全距、異眾比率和偏度系數(shù)(1)用定義公式求方差和標準差標準差公式為:方差公式為:用定義公式求方差和標準差,首先要求離差(X-X),將離差平方再相加,然后除以N1.方差與標準差方差是一種重要的離散量數(shù),它的計算方法是,把一組數(shù)據(jù)中每個數(shù)據(jù)與該組算術(shù)平均數(shù)相減,將其差進行平方然后相加,再除以數(shù)據(jù)的個數(shù)。標準差是最重要、應用最廣泛的離散量數(shù)。1.方差與標準差(2)用原始數(shù)據(jù)計算方差和標準差用定義公式求方差和標準差,先要計算平均X和離差(X-X)。如將定義公式稍加變換,則可直接用原始數(shù)據(jù)計算S2和S(3)分組數(shù)據(jù)計算方差與標準差當處理的數(shù)據(jù)為分組資料時,計算方差和標準差的公式為:x表示單值分組數(shù)據(jù)中的實際數(shù)值,或組距分組資料中的組中值f表示各組的頻數(shù)2.全距(極差)是一組數(shù)據(jù)中最大值與最小值之差,通常用R表示優(yōu)點是最簡單的離散量數(shù),概念清楚,含義明確,計算簡便缺點沒有考慮中間數(shù)據(jù),數(shù)據(jù)反映程度太粗略、不靈敏3.異眾比率是非眾數(shù)的頻數(shù)與全部個案數(shù)的比值,用VR表示指眾數(shù)所不能代表的其他數(shù)據(jù)(即非眾數(shù)數(shù)據(jù))在總數(shù)據(jù)中的比重方差、標準差、全距等,都屬于絕對離散量數(shù),即它們都是帶有與原觀察值(數(shù)據(jù))相同量綱(單位)的量數(shù)絕對離散量數(shù)的局限:只有當兩種離散量數(shù)的單位相同時,才能比較其大小4.離散系數(shù)即標準差與算術(shù)平均數(shù)的百分比值,是一種無量綱的相對數(shù),用CV表示cv表示離散系數(shù)s表示標準差x表示算術(shù)平均數(shù)可以比較不同單位數(shù)據(jù)分布的差異程度計算公式為:5.偏度系數(shù)用來描述數(shù)據(jù)分布特征的統(tǒng)計量數(shù)偏度,指的是數(shù)據(jù)分布的偏傾方向和程度⑴用平均數(shù)與眾數(shù)的離差求偏度系數(shù)(又稱皮爾遜偏度系數(shù),記作SKp)skp表示偏度系數(shù)x
表示樣本數(shù)據(jù)的平均數(shù)m0
表示眾數(shù)值s表示標準差Skp=0時,數(shù)據(jù)呈嚴格的正態(tài)分布Skp>0時,分布呈正偏Skp<0時,分布為負偏態(tài)|Skp|越大,其偏向程度越大⑵用平均數(shù)與中位數(shù)的離差求偏度系數(shù)三、單變量統(tǒng)計推斷單樣本總體假設(shè)檢驗,就是對單個樣本的統(tǒng)計量(如平均數(shù)、比率、方差)是否可推斷總體的檢驗;
雙樣本差異的總體假設(shè)檢驗,就是要通過兩樣本統(tǒng)計量的差異(如平均數(shù)之差、比率之差、方差之差)是否在總體中也存在的檢驗,亦即要證明兩樣本的差異是否是由于來自兩個不同的總體造成的參數(shù)估計是用樣本統(tǒng)計量來估計總體參數(shù),它通常只涉及一個變量,也有涉及兩個變量的。1.參數(shù)估計2.假設(shè)檢驗第四節(jié)雙變量統(tǒng)計分析一、雙變量分析的內(nèi)容1.兩變量間的相關(guān)關(guān)系YX指當一個變量X發(fā)生變化時,另一個變量Y也隨之發(fā)生變化;反之,當Y發(fā)生變化時,X也發(fā)生變化當一個變量的變化與另一個變量向相同方向變化時,這兩個變量之間就存在著正相關(guān)關(guān)系,相關(guān)系數(shù)取正值當一個變量的數(shù)量完全由另一個變量的數(shù)量變化所確定時,它們之間即為完全相關(guān)當變量之間彼此互不影響,其數(shù)量變化各自獨立時,則變量之間為不相關(guān),又稱零相關(guān)按相關(guān)的方向,分為正相關(guān)和負相關(guān)按相關(guān)的強度,分為完全相關(guān)、不相關(guān)和不完全相關(guān)線性相關(guān)是當一個變量變動時,另一變量隨之發(fā)生大致的均等變動非線性相關(guān)是指一個變量變動時,另一變量也隨之變動,但這種變動是不均等的按相關(guān)的形式分為線性相關(guān)和非線性相關(guān)一、雙變量分析的內(nèi)容2.兩變量間的因果關(guān)系指一個變量的變化可以確定為另一變量變化的原因的關(guān)系。要確定兩個變量之間的因果關(guān)系,必須同時滿足三個條件:兩變量間必須存在著不對稱的相關(guān)關(guān)系兩變量在發(fā)生順序上必須有先后,即先有原因(自變量)的變化,再有原因(因變量)的變化必須確定兩變量的關(guān)系不是由第三個變量的存在而呈現(xiàn)出的一種虛假關(guān)系—必要不充分條件二、雙變量分析的方法雙變量測量層次相關(guān)測量方法假設(shè)檢驗方法定類——定類定類——定序λ,tau-yX2檢驗定序——定序G,dyZ檢驗或t檢驗定類——定距定序——定距EtaF檢驗或t檢驗定距——定距r,b參見李沛良著:《社會研究的統(tǒng)計應用》,第206頁,北京,社會科學文獻出版社,2001雙變量分析方法一覽表不同測量層次變量的兩兩組合二、雙變量分析的方法1.定類-定類、定類-定序變量分析當兩個變量均為定類變量,或一變量為定類、另一個變量為定序變量時,抽樣分布屬于X2分布,因而進行X2檢驗,用λ或tau-y計算兩個變量之間的相關(guān)強度與方向二、雙變量分析的方法1.定類-定類、定類-定序變量分析消減誤差比例(PRE)表示的就是當我們用一個變量X來解釋另一個變量Y時,能夠減少多少比率的誤差。能夠消解誤差的比率越大,表明兩個變量的關(guān)系越密切,亦即相互影響的作用力越大。取值區(qū)間為[0,1]計算公式為:二、雙變量分析的方法2.定序-定序變量的統(tǒng)計分析——Gamma級序相關(guān)分析方法計算公式:G表示Gamma系數(shù)NS表示同序?qū)?shù)(兩個數(shù)據(jù)或個案在兩個變量上的相對等級相同的對數(shù))Nd表示異序?qū)?shù)(兩個數(shù)據(jù)或個案在兩個變量上的相對等級不相同的對數(shù))級序相關(guān)計算法,就是在計算公式中使用各原始數(shù)據(jù)的等級次序而不是數(shù)據(jù)本身。G又屬于對稱相關(guān)測量法(不區(qū)分自變量和因變量),具有PRE特性二、雙變量分析的方法3.定類(或定序)-定距變量分析當一個變量為定類變量或定序變量(定序變量作為定類變量處理),另一個變量為定距(定比)變量時,需進行方差分析和F檢驗(或t檢驗),并用eta平方系數(shù)來測量兩變量的相關(guān)強度,簡寫成E2;具有消減誤差比例特征E2
表示eta平方系數(shù)Y表示因變量的數(shù)值
表示因變量的平均數(shù)
表示在每個自變量取值(Xi)上各因變量取值的平均數(shù)ni表示每個自變量(Xi)的個案數(shù)n表示總個案數(shù)計算公式:4.定距-定距變量統(tǒng)計分析兩個定距變量的統(tǒng)計分析,包括相關(guān)分析方法和回歸分析方法二、雙變量分析的方法都以兩個定距變量的線性關(guān)系為基礎(chǔ)相關(guān)分析是對兩個變量雙向依存關(guān)系的分析;回歸分析是對兩個變量單向關(guān)系的分析相關(guān)分析是回歸分析的前提和基礎(chǔ)相關(guān)分析是一種描述和解釋既存事實的方法;回歸分析則是一種通過對已有事實的分析來推斷和預測未來的方法聯(lián)系區(qū)別4.定距-定距變量統(tǒng)計分析相關(guān)分析方法和回歸分析方法(1)兩個定距變量的相關(guān)分析兩個定距變量的相關(guān)系數(shù),通常使用皮爾遜積矩相關(guān)(或積差相關(guān))公式計算(原始數(shù)據(jù))(分組數(shù)據(jù))二、雙變量分析的方法(2)一元線性回歸分析4.定距-定距變量統(tǒng)計分析對兩個定距變量進行回歸分析,稱為一元線性回歸分析,即只有一個自變量X,且兩變量間存在線性相關(guān)關(guān)系一元線性回歸方程的標準形式為:
y=bx+a回歸系數(shù)Xyay=bx+a(xi,yi)定義公式:直接用原始數(shù)據(jù)計算:第五節(jié)多變量統(tǒng)計分析簡介一、多變量相關(guān)分析本質(zhì)上,多變量相關(guān)分析是用一個統(tǒng)計量(如偏相關(guān)系數(shù)、復相關(guān)系數(shù)等)來簡化和反映多個變量之間的相互依存關(guān)系偏相關(guān)分析復相關(guān)分析典型相關(guān)分析指在控制其他變量影響的情況下,用一個統(tǒng)計值來測量某一變
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 反滲透裝置企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報告
- 2025年春季八年級下冊道德與法治教學計劃
- 農(nóng)業(yè)生產(chǎn)工期承諾及應對措施
- 科技類課程輔導提升計劃
- 制造業(yè)安全生產(chǎn)標準化心得體會
- 中華民族共同體意識與心理健康教育心得體會
- 建筑裝飾材料質(zhì)量檢測實習報告范文
- 暑期藝術(shù)教育教師培訓心得體會
- 石油化工安全生產(chǎn)管理職責及風險控制
- 幼兒園中班第二學期環(huán)境保護計劃
- 長螺旋鉆樁施工記錄
- 中醫(yī)內(nèi)科臨床診療指南-肺動脈高壓
- 三氯化硼-安全技術(shù)說明書MSDS
- 常用的飼料加工設(shè)備圖形符號
- GB∕T 28575-2020 YE3系列(IP55)三相異步電動機技術(shù)條件(機座號63~355)
- 《通過感官來發(fā)現(xiàn)》PPT
- 施工臨時便橋、便道安全要求內(nèi)容
- 40篇短文搞定高考英語3500詞(共42頁)
- 輪式挖掘機的驅(qū)動橋殼工藝設(shè)計1
- 事業(yè)單位工作人員獎勵審批表--實用
- 主體結(jié)構(gòu)施工方案(清江路站最新修改6-16)
評論
0/150
提交評論