實驗四描述性統(tǒng)計分析_第1頁
實驗四描述性統(tǒng)計分析_第2頁
實驗四描述性統(tǒng)計分析_第3頁
實驗四描述性統(tǒng)計分析_第4頁
實驗四描述性統(tǒng)計分析_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、實驗四描述性統(tǒng)計分析 一、集中趨勢的測度定類數(shù)據(jù):眾數(shù)定序數(shù)據(jù):中位數(shù)和分位數(shù)定距和定比數(shù)據(jù):均值眾數(shù)、中位數(shù)和均值的比較1.一組數(shù)據(jù)向其中心值靠攏的傾向和程度2.測度集中趨勢就是尋找數(shù)據(jù)一般水平的代表值或中心值3.不同類型的數(shù)據(jù)用不同的集中趨勢測度值4.低層次數(shù)據(jù)的集中趨勢測度值適用于高層次的測量數(shù)據(jù),反過來,高層次數(shù)據(jù)的集中趨勢測度值并不適用于低層次的測量數(shù)據(jù)5.選用哪一個測度值來反映數(shù)據(jù)的集中趨勢,要根據(jù)所掌握的數(shù)據(jù)的類型來確定I.眾數(shù)(Mode1、集中趨勢的測度值之一2、出現(xiàn)次數(shù)最多的變量值3、不受極端值的影響4、可能沒有眾數(shù)或有幾個眾數(shù)5、主要用于定類數(shù)據(jù),也可用于定序數(shù)據(jù)和數(shù)值型數(shù)

2、據(jù)II.中位數(shù)(Median6、集中趨勢的測度值之一7、排序后處于中間位置上的值8、不受極端值的影響9、主要用于定序數(shù)據(jù),也可用數(shù)值型數(shù)據(jù),但不能用于定類數(shù)據(jù) 10、 各變量值與中位數(shù)的離差絕對值之和最小,即III. 四分位數(shù)(Quartiles1. 集中趨勢的測度值之一2. 排序后處于25%和75%位置上的值3. 不受極端值的影響4. 主要用于定序數(shù)據(jù),也可用于數(shù)值型數(shù)據(jù),但不能用于定類數(shù)據(jù)IV. 均值(Mean 1. 集中趨勢的測度值之一2. 最常用的測度值3. 一組數(shù)據(jù)的均衡點所在4. 易受極端值的影響5. 用于數(shù)值型數(shù)據(jù),不能用于定類數(shù)據(jù)和定序數(shù)據(jù)眾數(shù)、中位數(shù)和均值的關(guān)系二、離散程度的

3、測度定類數(shù)據(jù):異眾比率M e50%50%Q L Q M Q U25%25%25%25%對稱分布 均值 = 中位數(shù) = 眾數(shù)右偏分布眾數(shù) 中位數(shù) 均值左偏分布定序數(shù)據(jù):四分位差定距和定比數(shù)據(jù):方差及標準差I(lǐng).異眾比率1. 離散程度的測度值之一2. 非眾數(shù)組的頻數(shù)占總頻數(shù)的比率3. 僅用于定類數(shù)據(jù)4. 用于衡量眾數(shù)的代表性II.四分位差1. 離散程度的測度值之一2. 也稱為內(nèi)距或四分間距3. 上四分位數(shù)與下四分位數(shù)之差QD = QU - QL4.反映了中間50%數(shù)據(jù)的離散程度5.不受極端值的影響6.用于衡量中位數(shù)的代表性III.方差和標準差(Variance and Std。deviation1.

4、 離散程度的測度值之一2. 最常用的測度值3. 反映了數(shù)據(jù)的分布4.反映了各變量值與均值的平均差異5.根據(jù)總體數(shù)據(jù)計算的,稱為總體方差或標準差;根據(jù)樣本數(shù)據(jù)計算的,稱為樣本方差或標準差I(lǐng)V.偏態(tài)(kurtosis1. 數(shù)據(jù)分布偏斜程度的測度2. 偏態(tài)系數(shù)=0為對稱分布3. 偏態(tài)系數(shù) 0為右偏分布4. 偏態(tài)系數(shù) 0為左偏分布V.峰度(skewness1. 數(shù)據(jù)分布扁平程度的測度2. 峰度系數(shù)=3扁平程度適中3. 偏態(tài)系數(shù)3為尖峰分布三、描述統(tǒng)計量的軟件實現(xiàn)1、Excel選擇工具=數(shù)據(jù)分析=描述統(tǒng)計即可輸出大部分描述統(tǒng)計量。 但EXCEL只能按行或列進行分組統(tǒng)計,因此在編輯數(shù)據(jù)時要注意。 2、SP

5、SSSPSS的許多模塊均可完成描述性分析,但專門為該目的而設計的幾個模塊則集中在AnalyzeDescriptive Statistics菜單中,最常用的是列在最前面的四個過程:Frequencies過程的特色是產(chǎn)生頻數(shù)表;Descriptives過程則進行一般性的統(tǒng)計描述;Explore過程用于對數(shù)據(jù)概況不清時的探索性分析;Crosstabs過程則完成計數(shù)資料和等級資料的統(tǒng)計描述和一般的統(tǒng)計檢驗;我們常用的X2 檢驗也在其中完成。2.1 Frequencies過程此過程可以方便地對數(shù)據(jù)按組進行歸類整理,形成各變量的不同水平的頻數(shù)分布表和圖形,以便對各變量的數(shù)據(jù)特征和觀測量分布狀況有一個概括的

6、認識。頻數(shù)分布表是描述性統(tǒng)計中最常用的方法之一。它還可對數(shù)據(jù)的分布趨勢進行初步分析?!維tatistics 按鈕】 Percentile Values復選框組定義需要輸出的百分位數(shù),可計算四分位數(shù)(Quartiles、每隔指定百分位輸出當前百分位數(shù)(Cut pointsfor equal groups、或直接指定某個百分位數(shù)(Percentiles,如直接指定輸出P2.5和P97.5; Central tendency 復選框組用于定義描述集中趨勢的一組指標:均數(shù)(Mean、中位數(shù)(Median、眾數(shù)(Mode、總和(Sum ; Dispersion復選框組用于定義描述離散趨勢的一組指標:標準

7、差(Std.deviation、方差(Variance、全距 (Range、最小值(Minimum、最大值(Maximum、均值標準誤差(S.E.mean ; Distribution復選框組用于定義描述分布特征的兩個指標:偏度系數(shù)(Skewness和峰度系數(shù)(Kurtosis ; Values are group midpoints復選框當你輸出的數(shù)據(jù)是分組頻數(shù)數(shù)據(jù),并且具體數(shù)值是組中值時,選中該復選框以通知SPSS,免得它犯錯誤?!綜hart 按鈕】 Chart type 單選鈕組 定義統(tǒng)計圖類型,有四種選擇:無、條圖(Bar chart 、餅圖(Pie chart、直方圖Histogra

8、m ,其中直方圖還可以選擇是否加上正態(tài)曲線(With normal curve ; Chart Values 單選鈕組 定義是按照頻數(shù)還是按百分比做圖(即影響縱坐標刻度。 例4.1 利用房價原始數(shù)據(jù)圖.Sav 繪制頻數(shù)表、直方圖,計算均數(shù)、標準差、中位數(shù)M 、p2.5和p97.5。1. Analyze=Descriptive Statistics=Frequencies2. Variables 框:選入Price3. 單擊Statistics 鈕:4. 選中Mean 、Std.deviation 、Median 復選框5. 單擊Percentiles :輸入2.5:單擊Add :輸入97.5:

9、單擊Add :6. 單擊Continue 鈕7. 單擊Charts 鈕:8. 選中Bar charts 9. 單擊Continue 鈕 10. 單擊OK 。 最上方為表格名稱,左上方為分析變量名,可見樣本量N 為105例,缺失 值0例,均數(shù)Mean=220.72,中位數(shù)Median=213.00,標準差STD=47.108,P2.5=134.10,P97.5=326.35。案例1:利用居民儲蓄調(diào)查表數(shù)據(jù)進行頻數(shù)分析,實現(xiàn): 目標一:分析儲戶的戶口和職業(yè)的基本情況;提示:為使頻數(shù)分布表一目了然,可調(diào)整頻數(shù)分布表中數(shù)據(jù)的輸出順序,如按頻數(shù)的降序輸出,戶口按餅圖輸出,職業(yè)按條形圖輸出;目標二:分析儲

10、戶一次存(取款金額的分布,并對城鎮(zhèn)儲戶和農(nóng)村儲戶進行比較。提示:由于存(取款金額數(shù)據(jù)為定距型變量,直接采用頻數(shù)分析不利于對其分布形態(tài)的把握,因此考慮先用數(shù)據(jù)分組功能(TransformRecord對數(shù)據(jù)分組后再編制頻數(shù)分布表;進行數(shù)據(jù)拆分,并分別計算城鎮(zhèn)儲戶和農(nóng)村儲戶的一次存(取款金額的四分位數(shù),并通過四分位數(shù)比較兩者分布上的差異。2.2 Descriptives過程可對變量進行描述統(tǒng)計量分析,計算并列出一系列相應的統(tǒng)計指標,包括平均值、算術(shù)和、標準差、最大值、最小值等,且可將原始數(shù)據(jù)轉(zhuǎn)換成標準Z分值(標準正態(tài)評分值并存入數(shù)據(jù)庫。選擇菜單Analyze=descriptive= Descrip

11、tives 對話框的界面如下所示: 【Save standardized values as variables復選框】確定是否將原始數(shù)據(jù)的標準正態(tài)評分存為新變量。案例2:利用居民儲蓄調(diào)查表數(shù)據(jù)計算基本描述統(tǒng)計量,實現(xiàn):目標一:計算存(取款金額的基本描述統(tǒng)計量,并分別對城鎮(zhèn)儲戶和農(nóng)村儲戶進行比較;提示:首先按照戶口對數(shù)據(jù)進行拆分;目標二:分析儲戶一次存(取款的數(shù)量是否存在不均衡現(xiàn)象。提示:可以從分析金額是否有大量異常值入手;計算存(取款金額的標準化值,并選中Save Standardized As Variables選項,將自動計算存(取款金額的標準化值,并存為Za5;對Za5進行排序,并分為

12、三組(Za5=-3低金額組,-3 Za5=3高金額組后進行頻數(shù)分析;觀察低金額組(即低異常值組和高金額組(即高異常值組的比例,如異常組的總比例大于理論值0.3%,即認為存(取款金額存在一定的不均衡現(xiàn)象。2.3 Explore過程功能: 1.檢查數(shù)據(jù)是否有錯誤2.數(shù)值的分布特征3.對數(shù)據(jù)的規(guī)律的初步觀察選擇菜單Analyze=descriptive= Explore 對話框的界面如下所示: 【Display單選鈕組】用于選擇輸出結(jié)果中是否包含統(tǒng)計描述、統(tǒng)計圖或兩者均包括。【Dependent List框】用于選入需要分析的變量。【Factor List框】如果想讓所分析的變量按某種因素取值分組分

13、析,則在這里選入分組變量?!綥abel cases by框】選擇一個變量,他的取值將作為每條記錄的標簽。最典型的情況是使用記錄ID 號的變量?!維tatistics鈕】彈出Statistics對話框,用于選擇所需要的描述統(tǒng)計量。有如下選項: Descriptives復選框:輸出均數(shù)、中位數(shù)、眾數(shù)、5%修正均數(shù)、標準誤、方差、標準差、最小值、最大值、全距、四分位全距、峰度系數(shù)、峰度系數(shù)的標準誤、偏度系數(shù)、偏度系數(shù)的標準誤及指定的均數(shù)可信區(qū)間。 M-estimators復選框:作中心趨勢的粗略最大似然確定,輸出四個不同權(quán)重的最大似然確定數(shù)。 Outliers復選框:輸出五個最大值與五個最小值。 P

14、ercentiles復選框:輸出第5%、10%、25%、50%、75%、90%、95%位數(shù)?!綪lot鈕】彈出Plot對話框,用于選擇所需要的統(tǒng)計圖。有如下選項: Boxplots單選框組:確定箱式圖的繪制方式,可以是按組別分組繪制(Factor levels together,也可以不分組一起繪制(Depentendstogether,或者不繪制(None。 Descriptive復選框組:可以選擇繪制莖葉圖(Stem-and-leaf和直方圖(Histogram。 Normality plots with test復選框:繪制正態(tài)分布圖并進行變量是否符合正態(tài)分布的檢驗。 Spread vs

15、. Level with Levene Test單選框組:當選擇了分組變量時,繪制spread-versus-level圖,設置繪圖時變量的轉(zhuǎn)換方式,并進行組間方差齊性檢驗?!綩ptions鈕】用于選擇對缺失值的處理方式,可以是不分析有任一缺失值的記錄、不分析計算某統(tǒng)計量時有缺失值的記錄,或報告缺失值。 以下是房價莖葉圖:priceprice Stem-and-Leaf PlotFrequency Stem & Leaf3.00 1 . 2233.00 1 . 45516.00 1 . 666777777777777720.00 1 . 8888888888899999999914.00 2

16、. 0000000000111114.00 2 . 2222222223333313.00 2 . 44444444555558.00 2 . 666667777.00 2 . 88999994.00 3 . 01112.00 3 . 221.00 3 . 4Stem width: 100Each leaf: 1 case(s 以上是莖葉圖,整數(shù)位為莖,小數(shù)位為葉。這樣可以非常直觀的看出數(shù)據(jù)的分布范圍及形態(tài),在國外非常流行。 以上是箱線圖,中間的黑粗線為均數(shù),紅框為四分位間距的范圍,上下兩個細線為最大、最小值。 案例3:利用居民儲蓄調(diào)查表數(shù)據(jù)分析儲戶存(取款金額的分布情況。2.4 Crosst

17、abs 過程(列聯(lián)表分析Crosstabs 過程用于分析多個變量不同取值下的分布,掌握多變量的聯(lián)合分布特征,進而分析變量之間的相互影響和關(guān)系。稱列聯(lián)表分析或交叉分組下的頻數(shù)分析。兩大基本任務:1根據(jù)收集到的樣本數(shù)據(jù)編制二維或多維交叉列聯(lián)表;2在交叉列聯(lián)表的基礎上,對兩兩變量間是否存在一定的相關(guān)性進行分析。Crosstabs 過程不能產(chǎn)生一維頻數(shù)表(單變量頻數(shù)表,該功能由Frequencies 過程實現(xiàn)。交叉列聯(lián)表的卡方檢驗: 檢驗行變量和列變量是否獨立? 建立零假設(H0;列聯(lián)表分析中卡方檢驗的零假設為行變量與列變量獨立; 選擇和建立檢驗統(tǒng)計量;列聯(lián)表分析中卡方檢驗的檢驗統(tǒng)計量是Pearson

18、 卡方統(tǒng)計量。確定顯著性水平和臨界值;結(jié)論和決策。方法一:如果卡方的觀測值大于卡方臨界值,可拒絕零假設;方法二:如果卡方觀測值的概率p值小于等于,拒絕零假設。在SPSS中,上述列聯(lián)表卡方檢驗的過程,除用戶要自行確定顯著性水平和進行決策外,其余各步都是SPSS自動完成的;SPSS將自動計算卡方統(tǒng)計量的觀測值以及大于等于該值的概率P值;因此,在應用中,用戶只要明確零假設,便可方便地按照第二種決策方式進行決策。事實上,所有的假設檢驗均是這樣進行的。例4.2利用下表格數(shù)據(jù),進行列聯(lián)表分析。 解:由于此處給出的直接是頻數(shù)表,因此在建立數(shù)據(jù)集時可以直接輸入三個變量行變量、列變量和指示每個格子中頻數(shù)的變量,

19、然后用Weight Cases對話框指定頻數(shù)變量,最后調(diào)用Crosstabs過程進行X2檢驗。假設三個變量分別名為R、C和W,則數(shù)據(jù)集結(jié)構(gòu)和命令如下: 1. Data=Weight Cases2. Weight Cases by單選框:選中3. Freqency Variable:選入W4.單擊OK鈕5. Analyze=Descriptive Statistics=Crosstabs6. Rows框:選入R7. Columns框:C8. Statistics鈕:Chi-square復選框:選中:單擊Continue鈕9.單擊OK鈕 從左到右為:檢驗統(tǒng)計量值(Value、自由度(df、雙側(cè)近似

20、概率(Asymp.Sig.2-sided、雙側(cè)精確概率(Exact Sig.2-sided、單側(cè)精確概率(Exact Sig.1-sided;從上到下為:Pearson卡方(Pearson Chi-Square即常用的卡方檢驗、連續(xù)性校正的卡方值(Continuity Correction、對數(shù)似然比方法計算的卡方(Likelihood Ratio、Fishers確切概率法(Fishers Exact Test、線性相關(guān)的卡方值(Linear by Linear Association、有效記錄數(shù)(N of Valid Cases。另外,Continuity Correction和Pearso

21、n卡方值處分別標注有a和b,表格下方為相應的注解:a.只為2*2表計算。b.0%個格子的期望頻數(shù)小于5,最小的期望頻數(shù)為13.78。因此,這里無須校正,直接采用第一行的檢驗結(jié)果,即X2=6.133,P=0.013,如給定顯著性為0.05,由于卡方的頻率p值小于,因此拒絕零假設,即認為兩組方法治療效果有差異。 如果交叉列聯(lián)表中有20%以上單元格中的期望頻數(shù)小于5,則一般不宜使用卡方檢驗。在這種情況下,可以采用似然率卡方檢驗等方法進行修正。例4.3 以數(shù)據(jù)加工(職工數(shù)據(jù).sav為例,檢驗職稱和文化程度是否有關(guān)聯(lián)?1. Analyze=Descriptive Statistics=Crosstabs

22、;2.如果進行二維列聯(lián)表分析,將行變量職稱(zc選擇到Row(s框,將列變量文化程度(xl選擇到Column框中;3.選擇Display clustered bar charts選項,指定繪制各變量交叉分組下頻數(shù)分布柱形圖,suppress tables表示不輸出列聯(lián)表,僅分析行列變量間關(guān)系;4.單擊Cell按鈕指定列聯(lián)表單元格中的輸出內(nèi)容;5.單擊Format按鈕指定列聯(lián)表各單元的輸出排列順序,SPSS默認以行變量取值的升序排列;6.單擊Statistics按鈕指定用哪種方法分析行變量和列變量間的關(guān)系,一般選擇Chi-Square卡方檢驗。案例4:利用居民儲蓄調(diào)查表數(shù)據(jù)進行計算,實現(xiàn)以下兩個

23、目標:目標一:分析城鎮(zhèn)儲戶和農(nóng)村儲戶對“未來兩年內(nèi)收入狀況的變化趨勢”是否持相同的態(tài)度;提示:列聯(lián)表的行變量為戶口(a13,列變量為未來收入情況(a3,在列聯(lián)表中輸出各種百分比,期望頻數(shù)、剩余、標準化剩余,同時顯示各交叉分組下頻數(shù)分布柱形圖,并利用卡方檢驗方法,對城鎮(zhèn)和農(nóng)村儲戶對該問題的態(tài)度是否一致進行分析;目標二:分析城鎮(zhèn)和農(nóng)村儲戶對儲蓄是否合算的認同是否一致。提示:該分析中列聯(lián)表的行變量為戶口(a13,列變量為什么合算(a1,在列聯(lián)表的基礎上進行卡方檢驗。補充:多選項分析多選項分析是針對問卷調(diào)查中的多選項問題的。對于多選項問題由于答案個數(shù)不止一個,如果仍按單選問題的方式設置SPSS變量,那么該變量雖然能夠存儲多個答案,但卻無法直接支持對問題的分析。即對一個多選項問題僅設置一個SPSS變量在數(shù)據(jù)處理和分析中是行不通的。將多選項問題分解;(前面已講過利用前面講到的頻數(shù)分析或交叉分組下的頻數(shù)分析等方法進行分析。多選項頻數(shù)分析或多選項交叉

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論