版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、練習(xí)P105 習(xí)題2 5 11練習(xí)P124 習(xí)題3 4練習(xí)P139 習(xí)題4 1 2第5章 基本統(tǒng)計分析5.1 頻數(shù)分布分析功能:可以方便地對數(shù)據(jù)按組進行歸類整理,形成指定變量的分組的頻數(shù)分布表和圖形,以便對指定變量的數(shù)據(jù)特征和觀測量分布狀況有一個概括的認識。(1) 統(tǒng)計出各個變量值的頻率、頻數(shù)。(2) 可以檢測所錄數(shù)據(jù)的真?zhèn)?,即?shù)據(jù)有無“水分”。比如,性別只取兩個值,若頻率表中出現(xiàn)其它數(shù)值,則說明數(shù)據(jù)中有錯誤。5.1.1 一維頻數(shù)分布分析適用范圍:可用于數(shù)值型變量或字符型變量.方法:AnalyzeDescriptive StatisticsFrequencies描述性統(tǒng)計:如何將調(diào)查樣本中包含
2、的大量數(shù)據(jù)資料進行整理、概括和計算,是統(tǒng)計推斷的基礎(chǔ)。頻數(shù)分布表是描述性統(tǒng)計中最常用的方法之一,F(xiàn)requencies過程就是專門為產(chǎn)生頻數(shù)表而設(shè)計的。它不僅可以產(chǎn)生詳細的頻數(shù)表,還可以按要求給出某百分位點的數(shù)值,以及常用的條圖,圓圖等統(tǒng)計圖。和國內(nèi)常用的頻數(shù)表不同,幾乎所有統(tǒng)計軟件給出的均是詳細頻數(shù)表,即并不按某種要求確定組段數(shù)和組距,而是按照數(shù)值精確列表。如果想用Frequencies過程得到我們所熟悉的頻數(shù)表,請先用第二章學(xué)過的Recode過程產(chǎn)生一個新變量來代表所需的各組段。例:1. 對數(shù)據(jù)文件data05-01中的age進行頻數(shù)分析,求出均值、標(biāo)準(zhǔn)差、四分位數(shù)、峰度、偏度,并結(jié)合圖形
3、進行正態(tài)性的判斷。(選項Values are group midpoints說明,只取前21筆數(shù)據(jù)說明)2. 以race變量拆分?jǐn)?shù)據(jù)文件,然后對educ進行統(tǒng)計描述,比如計算均值等?!綝isplay frequency tables復(fù)選框】確定是否在結(jié)果中輸出頻數(shù)表?!維tatistics鈕】單擊后彈出Statistics對話框如下,用于定義需要計算的其他描述統(tǒng)計量?,F(xiàn)將各部分解釋如下:o Percentile Values復(fù)選框組 定義需要輸出的百分位數(shù),可計算四分位數(shù)(Quartiles)、每隔指定百分位輸出當(dāng)前百分位數(shù)(Cut points for equal groups)、或直接指定
4、某個百分位數(shù)(Percentiles),如直接指定輸出P2.5和P97.5。 o Central tendency復(fù)選框組 用于定義描述集中趨勢的一組指標(biāo):均數(shù)(Mean)、中位數(shù)(Median)、眾數(shù)(Mode)、總和(Sum)。 o Dispersion復(fù)選框組 用于定義描述離散趨勢的一組指標(biāo):標(biāo)準(zhǔn)差(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、標(biāo)準(zhǔn)誤(S.E.mean)。 o Distribution復(fù)選框組 用于定義描述分布特征的兩個指標(biāo):偏度系數(shù)(Skewness)和峰度系數(shù)(Kurtosis)。
5、o Values are group midpoints復(fù)選框 當(dāng)你輸出的數(shù)據(jù)是分組頻數(shù)數(shù)據(jù),并且具體數(shù)值是組中值時,選中該復(fù)選框以通知SPSS,免得它犯錯誤。眾數(shù)(Mode)指所有數(shù)值中出現(xiàn)頻率最高的一個值,在國內(nèi)用的非常少?!綜harts鈕】彈出Charts對話框,用于設(shè)定所做的統(tǒng)計圖。o Chart type單選鈕組 定義統(tǒng)計圖類型,有四種選擇:無、條圖(Bar chart)、圓圖(Pie chart)、直方圖Histogram),其中直方圖還可以選擇是否加上正態(tài)曲線(With normal curve)。 o Chart Values單選鈕組 定義是按照頻數(shù)還是按百分比做圖(即影響縱坐
6、標(biāo)刻度)?!綟ormat鈕】彈出Format對話框,用于定義輸出頻數(shù)表的格式,不過用處不大,一般不管。o Order by單選鈕組 定義頻數(shù)表的排列次序,有四個選項:Ascending values為根據(jù)數(shù)值大小按升序從小到大作頻數(shù)分布;Descending values為根據(jù)數(shù)值大小按降序從大到小作頻數(shù)分布;Ascending counts為根據(jù)頻數(shù)多少按升序從少到多作頻數(shù)分布;Descending counts為根據(jù)頻數(shù)多少按降序從多到少作頻數(shù)分布。 o Multiple Variables單選鈕組 如果選擇了兩個以上變量做頻數(shù)表,則Compare variables可以將他們的結(jié)果在同一
7、個頻數(shù)表過程輸出結(jié)果中顯示,便于互相比較,Organize output by variables則將結(jié)果在不同的頻數(shù)表過程輸出結(jié)果中顯示。 o Suppress Tables more than.復(fù)選框 當(dāng)頻數(shù)表的分組數(shù)大于下面設(shè)定數(shù)值時禁止它在結(jié)果中輸出,這樣可以避免產(chǎn)生巨型表格。6.1.2 分析實例例6.1 某地101例健康男子血清總膽固醇值測定結(jié)果如下,請繪制頻數(shù)表、直方圖,計算均數(shù)、標(biāo)準(zhǔn)差、變異系數(shù)CV、中位數(shù)M、p2.5和p97.5(衛(wèi)統(tǒng)第三版p233 1.1題)。4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.71 5.69 4.12 4.56 4.37
8、 5.39 6.30 5.21 7.22 5.54 3.93 5.21 4.12 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.89 6.25 5.32 4.50 4.63 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.16 5.10 5.86 4.79 5.34 4.24 4.32 4.77 6.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38
9、 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.60 4.09 5.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.18 6.14 3.24 4.90 3.05解:為節(jié)省篇幅,這里只給出精確頻數(shù)表的做法,假設(shè)數(shù)據(jù)已經(jīng)輸好,變量名為X,具體解法如下:1. Analyze=Descriptive Statistics=Frequencies 2. Variables框:選入X 3. 單擊Statistics鈕: 4. 選中Mean、Std.deviation、Media
10、n復(fù)選框 5. 單擊Percentiles:輸入2.5:單擊Add:輸入97.5:單擊Add: 6. 單擊Continue鈕 7. 單擊Charts鈕: 8. 選中Bar charts 9. 單擊Continue鈕 10. 單擊OK得出結(jié)果后手工計算出CV。上面做出的直方圖分組太多,需要進一步編輯。6.1.3結(jié)果解釋上題除直方圖外的的輸出結(jié)果如下:Frequencies最上方為表格名稱,左上方為分析變量名,可見樣本量N為101例,缺失值0例,均數(shù)Mean=4.69,中位數(shù)Median=4.61,標(biāo)準(zhǔn)差STD=0.8616,P2.5=3.04,P97.5=6.45。系統(tǒng)對變量x作頻數(shù)分布表(此處
11、只列出了開頭部分),Vaild右側(cè)為原始值,F(xiàn)requency為頻數(shù),Percent為各組頻數(shù)占總例數(shù)的百分比(包括缺失記錄在內(nèi)),Valid percent為各組頻數(shù)占總例數(shù)的有效百分比,Cum Percent為各組頻數(shù)占總例數(shù)的累積百分比。5.1.2 交叉表(列聯(lián)表,或多維頻數(shù)表)Crosstabs過程用于對計數(shù)資料和有序分類資料進行統(tǒng)計描述和簡單的統(tǒng)計推斷。在分析時可以產(chǎn)生二維至n維列聯(lián)表,并計算相應(yīng)的百分?jǐn)?shù)指標(biāo)。統(tǒng)計推斷則包括了我們常用的X2檢驗、Kappa值,分層X2(X2M-H)。如果安裝了相應(yīng)模塊,還可計算n維列聯(lián)表的確切概率(Fishers Exact Test)值。Cross
12、tabs過程不能產(chǎn)生一維頻數(shù)表(單變量頻數(shù)表),該功能由Frequencies過程實現(xiàn)。功能: (1)生成交叉表; (2)檢驗變量的線性相關(guān)性,獨立性、關(guān)聯(lián)性等。檢驗的假設(shè):相關(guān)系數(shù)為0,關(guān)聯(lián)度為0,兩個變量之間相互獨立等. 方法:AnalyzeDescriptive StatisticsCrosstabs注: 要進一步計算兩個變量的關(guān)聯(lián)性或相關(guān)性有多大,就必須注意以下幾點:(1):感興趣的原假設(shè);(2)確定數(shù)據(jù)是屬于哪個層次的測量水平;(3) 根據(jù)所確定的測量水平,選擇恰當(dāng)?shù)慕y(tǒng)計量.例: 對數(shù)據(jù)文件data05-01中的age,educ,region(作為分層變量)進行頻數(shù)分析Noninte
13、ger weightscross_round.sava1 a2 weight 1 1 .10 1 2 .20 1 1 .20 2 2 .30 2 1 .302 2 .40Round cell counts(先加權(quán)計算后對單元格四舍五入)rouR RRound case weights(先對加權(quán)變量四舍五入后再加權(quán)計算單元格頻數(shù))【Rows框】用于選擇行*列表中的行變量。【Columns框】用于選擇行*列表中的列變量?!綥ayer框】Layer指的是層,對話框中的許多設(shè)置都可以分層設(shè)定,在同一層中的變量使用相同的設(shè)置,而不同層中的變量分別使用各自層的設(shè)置。如果要讓不同的變量做不同的分析,則將其選
14、入Layer框,并用Previous和Next鈕設(shè)為不同層。Layer在這里用的比較少,在多元回歸中我們將進行詳細的解釋?!綝isplay clustered bar charts復(fù)選框】顯示各組中各變量的分類條形條圖?!維uppress table復(fù)選框】禁止在結(jié)果中輸出行*列表?!綞xact鈕】針對2*2以上的行*列表設(shè)定計算確切概率的方法,可以是不計算(Asymptotic only)、蒙特卡羅模擬(Monte Carlo)或確切計算(Exact)。蒙特卡羅模擬默認進行10000次模擬,給出99%可信區(qū)間;確切計算默認計算時間限制在5分鐘內(nèi)。這些默認值均可更改。如果你在安裝SPSS時沒有
15、安裝EXACT模塊,則此處對話框中不會出現(xiàn)Exact鈕。在3*3及以上的行*列表中,確切概率的精確計算是極為漫長的過程。我曾經(jīng)用SAS 6.12在P133機上計算過一個12格表的確切概率,整整跑了兩個小時后,SAS告訴我說機器內(nèi)存不足:(。SPSS的計算速度比SAS要慢許多倍,因此一般只需要選用蒙特卡羅模擬算出概率值的99%可信區(qū)間就行了,精度完全可以滿足需要,而速度極快(10000次模擬一般耗時在10秒左右)?!維tatistics鈕】彈出Statistics對話框,用于定義所需計算的統(tǒng)計量。o Chi-square復(fù)選框:計算X2值。 o Correlations復(fù)選框:計算行、列兩變量的
16、Pearson相關(guān)系數(shù)和Spearman等級相關(guān)系數(shù)。 o Norminal復(fù)選框組:選擇是否輸出反映分類資料相關(guān)性的指標(biāo),很少使用。a. Contingency coefficient復(fù)選框:即列聯(lián)系數(shù),其值界于01之間;b. Phi and Cramers V復(fù)選框:這兩者也是基于X2值的,Phi在四格表X2檢驗中界于-11之間,在R*C表X2檢驗中界于01之間;Cramers V 則界于01之間;c. Lambda復(fù)選框:在自變量預(yù)測中用于反映比例縮減誤差,其值為1時表明自變量預(yù)測應(yīng)變量好,為0時表明自變量預(yù)測應(yīng)變量差;d. Uncertainty coefficient復(fù)選框:不確定系
17、數(shù),以熵為標(biāo)準(zhǔn)的比例縮減誤差,其值接近1時表明后一變量的信息很大程度來自前一變量,其值接近0時表明后一變量的信息與前一變量無關(guān)。o Ordinal復(fù)選框組:選擇是否輸出反映有序分類資料相關(guān)性的指標(biāo),很少使用。a. Gamma復(fù)選框:界于01之間,所有觀察實際數(shù)集中于左上角和右下角時,其值為1;b. Somersd復(fù)選框:為獨立變量上不存在同分的偶對中,同序?qū)ψ訑?shù)超過異序?qū)ψ訑?shù)的比例;c. Kendalls tau-b復(fù)選框:界于-11之間;d. Kendalls tau-c復(fù)選框:界于-11之間;o Eta復(fù)選框:計算Eta值,其平方值可認為是應(yīng)變量受不同因素影響所致方差的比例; o Kapp
18、a復(fù)選框:計算Kappa值,即內(nèi)部一致性系數(shù); o Risk復(fù)選框:計算比數(shù)比OR值; o McNemanr復(fù)選框:進行McNemanr檢驗(一種非參檢驗); o Cochrans and Mantel-Haenszel statistics復(fù)選框:計算X2M-H統(tǒng)計量(分層X2,也有寫為X2CMH的),可在下方輸出H0假設(shè)的OR值,默認為1?!綜ells鈕】彈出Cells對話框,用于定義列聯(lián)表單元格中需要計算的指標(biāo):o Counts復(fù)選框組:是否輸出實際觀察數(shù)(Observed)和理論數(shù)(Expected); o Percentages復(fù)選框組:是否輸出行百分?jǐn)?shù)(Row)、列百分?jǐn)?shù)(Colu
19、mn)以及合計百分?jǐn)?shù)(Total); o Residuals復(fù)選框組:選擇殘差的顯示方式,可以是實際數(shù)與理論數(shù)的差值(Unstandardized)、標(biāo)化后的差值(Standardized,實際數(shù)與理論數(shù)的差值除理論數(shù)),或者由標(biāo)準(zhǔn)誤確立的單元格殘差(Adj. Standardized);【Format鈕】用于選擇行變量是升序還是降序排列。6.4.2分析實例例6.2 某醫(yī)生用國產(chǎn)呋喃硝胺治療十二指腸潰瘍,以甲氰咪胍作對照組,問兩種方法治療效果有無差別(醫(yī)統(tǒng)第二版P37 例3.10)?處 理愈 合未愈合合計呋喃硝胺54862甲氰咪胍442064合 計9828126解:由于此處給出的直接是頻數(shù)表,
20、因此在建立數(shù)據(jù)集時可以直接輸入三個變量行變量、列變量和指示每個格子中頻數(shù)的變量,然后用Weight Cases對話框指定頻數(shù)變量,最后調(diào)用Crosstabs過程進行X2檢驗。假設(shè)三個變量分別名為R、C和W,則數(shù)據(jù)集結(jié)構(gòu)和命令如下:RCW1.001.0054.001.002.0044.002.001.008.002.002.0020.001. Data=Weight Cases 2. Weight Cases by單選框:選中 3. Freqency Variable:選入W 4. 單擊OK鈕 5. Analyze=Descriptive Statistics=Crosstabs 6. Rows
21、框:選入R 7. Columns框:C 8. Statistics鈕:Chi-square復(fù)選框:選中:單擊Continue鈕 9. 單擊OK鈕6.4.3結(jié)果解釋上題的結(jié)果如下:Crosstabs首先是處理記錄缺失值情況報告,可見126例均為有效值。上面為列出的四格表,實際使用時可以在其中加入變量值標(biāo)簽,使看起來更清楚。上表給出了一堆檢驗結(jié)果,從左到右為:檢驗統(tǒng)計量值(Value)、自由度(df)、雙側(cè)近似概率(Asymp.Sig.2-sided)、雙側(cè)精確概率(Exact Sig.2-sided)、單側(cè)精確概率(Exact Sig.1-sided);從上到下為:Pearson卡方(Pears
22、on Chi-Square即常用的卡方檢驗)、連續(xù)性校正的卡方值(Continuity Correction)、對數(shù)似然比方法計算的卡方(Likelihood Ratio)、Fishers確切概率法(Fishers Exact Test)、線性相關(guān)的卡方值(Linear by Linear Association)、有效記錄數(shù)(N of Valid Cases)。另外,Continuity Correction和Pearson卡方值處分別標(biāo)注有a和b,表格下方為相應(yīng)的注解:a.只為2*2表計算。b.0%個格子的期望頻數(shù)小于5,最小的期望頻數(shù)為13.78。因此,這里無須校正,直接采用第一行的檢驗
23、結(jié)果,即X2=6.133,P=0.013。如何選用上面眾多的統(tǒng)計結(jié)果令許多初學(xué)者頭痛,實際上我們只需要在未校正卡方、校正卡方和確切概率法三種方法之間選擇即可,其余的對我們而言用處不大,可以視而不見。練習(xí) 5.1.3 5.2 描述統(tǒng)計5.2.1 描述統(tǒng)計分析過程功能:計算數(shù)值變量的統(tǒng)計量:均值、和、標(biāo)準(zhǔn)差、方差、極差等,并可得到變量的標(biāo)準(zhǔn)化變量.適用范圍:可用于數(shù)值型變量.但因為不必繪制圖形,頻率表,所以反而顯得簡潔明了.方法:AnalyzeDescriptive Statistics Descriptives例: 對數(shù)據(jù)文件data05-01中的educ進行統(tǒng)計描述。5.2.2 探索性分析功能
24、: (1)檢查數(shù)據(jù)是否有錯誤(奇異值、影響點、錯誤數(shù)據(jù)等),從而對數(shù)據(jù)進行初步處理; (2)考察數(shù)據(jù)的分布特征(比如正態(tài)性的檢驗, 幾組數(shù)據(jù)方差齊性的檢驗等)對數(shù)據(jù)的要求:分析變量是尺度變量.其他兩種變量任意.Explore過程可對變量進行更為深入詳盡的描述性統(tǒng)計分析,主要用于對資料的性質(zhì)、分布特點等完全不清楚時,故又稱之為探索性分析。它在一般描述性統(tǒng)計指標(biāo)的基礎(chǔ)上,增加有關(guān)數(shù)據(jù)其他特征的文字與圖形描述,如枝葉圖、箱圖等,顯得更加詳細、全面,有助于用戶制定繼續(xù)分析的方案。方法:AnalyzeDescriptive StatisticsExplore例: 對數(shù)據(jù)文件data05-04中的salary,educ(分類變量),gender作為標(biāo)識進行探索性分析?!綝isplay單選鈕組】用于選擇輸出結(jié)果中是否包含統(tǒng)計描述、統(tǒng)計圖或兩者均包括?!綝ependent List框】用于選入需要分析的變量?!綟actor List框】如果想讓所分析的變量按某種因素取值分組分析,則在這里選
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《知識產(chǎn)權(quán)培訓(xùn)》課件
- 《種釀酒白葡萄》課件
- 《診斷原則》課件
- 單位管理制度集合大全【人員管理】
- 單位管理制度合并選集員工管理篇
- 單位管理制度分享合集【員工管理篇】十篇
- 單位管理制度分享大合集【員工管理篇】
- 單位管理制度范例匯編【員工管理】十篇
- 七年級英語SpringFestival課件
- 單位管理制度呈現(xiàn)大全【員工管理篇】
- 2024年江西省公務(wù)員考試《行測》真題及答案解析
- 家用除濕機產(chǎn)業(yè)規(guī)劃專項研究報告
- 雇人放牛合同模板
- 節(jié)能降耗知識培訓(xùn)
- 人教版(2024秋)數(shù)學(xué)一年級上冊 期末綜合測試卷課件
- 牛頓迭代的并行化算法
- 2024秋期國家開放大學(xué)本科《國際私法》一平臺在線形考(形考任務(wù)1至5)試題及答案
- 2023-2024學(xué)年安徽省淮北市烈山區(qū)八年級(上)期末物理試卷
- 建筑垃圾清理運輸服務(wù)方案
- 2022-2023年北京版數(shù)學(xué)三年級上冊期末考試測試卷及答案(3套)
- 《籃球高運球和低運球》教案(共三篇)
評論
0/150
提交評論