版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、應(yīng)用統(tǒng)計(jì)軟件第5章 基本統(tǒng)計(jì)分析,第5章 SPSS基本統(tǒng)計(jì)分析,引入 頻數(shù)分析 描述分析 探索性分析 交叉分組下的頻數(shù)分析 比率分析,引入,意義:基礎(chǔ),能使分析者掌握數(shù)據(jù)的基本統(tǒng)計(jì)特征,把握數(shù)據(jù)的總體分布形態(tài)。 內(nèi)容: 編制單變量的頻數(shù)分布表 計(jì)算單個(gè)變量的描述統(tǒng)計(jì)量以及不同分組下的描述統(tǒng)計(jì)量 其他探索性分析 數(shù)據(jù)的多選項(xiàng)分析 實(shí)現(xiàn)方式: 1 數(shù)值計(jì)算;2 圖形繪制。,5.1 頻數(shù)分析,目的 基本任務(wù) 基本操作 擴(kuò)展功能 應(yīng)用舉例,目的 了解變量取值的狀況,對(duì)把握數(shù)據(jù)的分布特征非常有用 例如:問卷調(diào)查對(duì)被訪問者的總?cè)藬?shù)、年齡特點(diǎn)、職業(yè)特點(diǎn)等進(jìn)行分析和總結(jié) 通過分析,能夠在一定程度上反映樣本是否
2、具有總體代表性,抽樣是否存在系統(tǒng)偏差等,并以此證明以后相關(guān)問題分析的代表性和可信性。,基本任務(wù),第一、編制頻數(shù)分布表 頻數(shù) Frequency、 百分比 percent、 有效百分比 valid percent、 累計(jì)百分比 cumulative percent 第二、繪制常用統(tǒng)計(jì)圖 條形圖 bar chart、 餅圖 pie chart、 直方圖 histograms,基本操作,analyzedescriptive statisticsfrequencies 分析描述統(tǒng)計(jì)頻率,擴(kuò)展功能,第一、計(jì)算分位數(shù)(percentile values) 將所有數(shù)據(jù)按升序排序后平均等分為n份,分位點(diǎn)依次是
3、1/n,2/n,n-1/n; 分位數(shù)刻劃了變量的取值分布狀態(tài) 分位數(shù)差是一種描述數(shù)據(jù)離散程度的方式。 第二、計(jì)算其他基本描述統(tǒng)計(jì)量 集中趨勢(shì)、離散程度、分布形態(tài)等基本統(tǒng)計(jì)量,應(yīng)用舉例,利用居民儲(chǔ)蓄調(diào)查數(shù)據(jù)進(jìn)行頻數(shù)分析,有以下兩個(gè)分析目標(biāo)。 目標(biāo)一:分析儲(chǔ)戶的戶口和職業(yè)的基本情況; 目標(biāo)二:分析儲(chǔ)戶一次存取金額的分布,并對(duì)城鎮(zhèn)儲(chǔ)戶和農(nóng)村儲(chǔ)戶進(jìn)行比較。,分析,目標(biāo)一:戶口和職業(yè)的分析,目標(biāo)一:兩個(gè)變量是名義變量,可通過基本頻數(shù)分析實(shí)現(xiàn); 主意:職業(yè)變量分類較多,為使顯示一目了然,最好排序下。format,目標(biāo)二:,目標(biāo)二:涉及的變量是定距型變量,需要分別對(duì)不同戶口的儲(chǔ)戶進(jìn)行分析。 存取金額數(shù)據(jù)直接
4、采用頻數(shù)分析不利于把握,考慮用數(shù)據(jù)分組的功能對(duì)數(shù)據(jù) 分組然后再編制頻數(shù)分析表 ; 進(jìn)行數(shù)據(jù)拆分,并分別對(duì)不同戶口的存取金額計(jì)算四分位數(shù),通過比較四分位數(shù)來比較兩者分布上的差異。,注意事項(xiàng),注意事項(xiàng),數(shù)據(jù)分組,先排序,然后得出最大值100001,最小值1,樣本容量為282,這里為了簡化,可以分為5組; 分組為:500以下、5002000、20003500 35005000、5000以上; 頻數(shù)分析計(jì)算所有樣本的存取金額的四分位數(shù),然后按戶口進(jìn)行拆分,重新計(jì)算四分位數(shù),并比較結(jié)果。,課本上案例 P72,5.2 描述統(tǒng)計(jì)分析,基本描述統(tǒng)計(jì)量 基本操作 應(yīng)用舉例,基本描述統(tǒng)計(jì)量,三類 1、刻畫集中趨勢(shì)
5、 central tendency 2、刻畫離散程度 dispersion 3、刻畫分布形態(tài) distribution,1 刻畫集中趨勢(shì)的描述統(tǒng)計(jì)量,1 均值(mean) 2 中位數(shù)(median) 3 眾數(shù)(mode):一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)據(jù)值 4 均值標(biāo)準(zhǔn)誤(standard error for mean) 描述樣本均值與總體均值之間平均差異程度的統(tǒng)計(jì)量。,2、刻畫離散程度的描述統(tǒng)計(jì)量,樣本標(biāo)準(zhǔn)差 (S D, standard deviation) 樣本方差 variance 全距(range): 也稱為極差,是數(shù)據(jù)最大值與最小值之間的絕對(duì)差。,3、刻畫分布形態(tài)的描述統(tǒng)計(jì)量,主要指數(shù)
6、據(jù)分布是否對(duì)稱,偏斜程度如何,分布陡緩程度等。 偏度(Skewness): 描述變量取值分布形態(tài)對(duì)稱性的統(tǒng)計(jì)量。 峰度(Kurtosis): 描述變量取值分布形態(tài)陡緩程度的統(tǒng)計(jì)量。,偏度(skewness),對(duì)稱分布偏度為0,偏度大于0,有一條長尾拖在右邊,表示右偏或者正偏,否則為左偏或者負(fù)偏。,峰度(kurtosis),標(biāo)準(zhǔn)正態(tài)分布峰度為0,峰度大于0,表示尖峰,否則為平峰。,基本操作,Analyze-descriptive statistics-descriptive 分析描述統(tǒng)計(jì)描述,應(yīng)用舉例,居民儲(chǔ)蓄調(diào)查數(shù)據(jù),對(duì)一次存取款金額變量計(jì)算基本描述統(tǒng)計(jì)量。 目標(biāo)一:計(jì)算存取款金額的基本描述統(tǒng)
7、計(jì)量,并分別對(duì)城鎮(zhèn)儲(chǔ)戶和農(nóng)村儲(chǔ)戶進(jìn)行比較; 目標(biāo)二:分析儲(chǔ)戶一次存取款的數(shù)量是否存在不均衡現(xiàn)象。,分析,目標(biāo)一中,首先按照戶口對(duì)數(shù)據(jù)進(jìn)行拆分,然后計(jì)算變量的基本描述統(tǒng)計(jì)量。,分析,看到農(nóng)村儲(chǔ)戶和城鎮(zhèn)儲(chǔ)戶的偏度都大于0,且農(nóng)村的傾斜程度更大,因?yàn)?.9484.293,右偏 由此可見,城鎮(zhèn)儲(chǔ)戶和農(nóng)村儲(chǔ)戶中的大部分人一次存取款金額都低于平均水平,且農(nóng)村儲(chǔ)戶表現(xiàn)的更加明顯。,分析二,目標(biāo)二中,分析是否存在不均衡現(xiàn)象,可以從分析金額是否有大量異常值入手, 根據(jù)3西格瑪原則,3個(gè)標(biāo)準(zhǔn)差之外的變量值為異常值,可通過數(shù)據(jù)的標(biāo)準(zhǔn)化處理來判斷。 在窗口中選save s values as variables,自動(dòng)
8、計(jì)算保存標(biāo)準(zhǔn)化值,結(jié)果保存在一個(gè)新變量中,分析二,然后可對(duì)新變量排序?yàn)g覽取值情況,若發(fā)現(xiàn)異常值存在,則分三組進(jìn)行頻數(shù)分析,異常值組大于理論值0.3%就認(rèn)為存在一定的不均衡現(xiàn)象。 本組為2.1,認(rèn)為存在一定的不均衡現(xiàn)象,5.3 探索分析,目的: 除了計(jì)算基本的統(tǒng)計(jì)量外 還給出一些簡單的檢驗(yàn)結(jié)果和圖形 箱圖 、莖葉圖 有助于用戶進(jìn)一步分析數(shù)據(jù) 檢查數(shù)據(jù)是否有誤 檢查數(shù)據(jù)的分布特征,返回,箱圖,返回,莖葉圖,返回,箱圖與Spread vs level圖(a),返回,案例,給定1969-1971美國一家銀行的474名雇員情況的數(shù)據(jù) 變量:當(dāng)前工資、受教育水平、工作經(jīng)歷、種族、職務(wù)等級(jí)等。 按性別對(duì)當(dāng)前
9、工資進(jìn)行探索分析?,數(shù)據(jù)探索主對(duì)話框,返回,選擇描述統(tǒng)計(jì)量對(duì)話框,返回,統(tǒng)計(jì)圖對(duì)話框,返回,實(shí)例輸出之一:觀測(cè)量摘要表,返回,salary變量的描述統(tǒng)計(jì)量,返回,變量的極端值,返回,數(shù)據(jù)正態(tài)分布檢驗(yàn)結(jié)果,返回,方差齊性檢驗(yàn)結(jié)果,返回,按照性別分組后的Current Salary的莖葉圖,返回,男、女組薪水?dāng)?shù)據(jù)的箱圖,返回,5.4 交叉分組下的頻數(shù)分析,目的 基本任務(wù) 操作 應(yīng)用舉例 列聯(lián)表分析的其他方法,目的,頻數(shù)分析能掌握單個(gè)變量的數(shù)據(jù)分布,實(shí)際不僅要了解單變量的分布特征,還要分析多個(gè)變量不同取值下的分布 掌握多變量的聯(lián)合分布特征,進(jìn)而分析變量之間的相互影響和關(guān)系 例子 居民儲(chǔ)蓄問題,需要掌
10、握不同特征的儲(chǔ)戶群(戶口、職業(yè))對(duì)調(diào)查問題的態(tài)度,分析儲(chǔ)戶特征和調(diào)查問題之間是否存在一定的關(guān)聯(lián)性。 交叉分組下的頻數(shù)分析又稱列聯(lián)表分析,兩大基本任務(wù),根據(jù)收集到的樣本數(shù)據(jù),產(chǎn)生二維或多維 交叉列聯(lián)表; 在交叉列聯(lián)表基礎(chǔ)之上,對(duì)兩兩變量間是否存在一定的相關(guān)性進(jìn)行分析。,交叉列聯(lián)表,定義 兩個(gè)或兩個(gè)以上的變量交叉分組后形成的頻數(shù)分布表 行變量(row)、列變量(column)、層變量(layer) 包括觀測(cè)頻數(shù)、行百分比、列百分比、總百分比,交叉列聯(lián)表行列變量間關(guān)系的分析,目的 分析行變量和列變量之間是否有聯(lián)系和聯(lián)系的緊密程度如何 舉例 分析年齡或職稱與工資的關(guān)系(極端),分析,一般情況下,觀測(cè)頻
11、數(shù)分散在列聯(lián)表的各個(gè)單元格中,不容易發(fā)現(xiàn)行列變量間關(guān)系 借助非參數(shù)檢驗(yàn)方法和度量變量間相關(guān)程度的統(tǒng)計(jì)量等手段進(jìn)行分析 通常方法:卡方檢驗(yàn)和相關(guān)性檢驗(yàn),卡方檢驗(yàn),建立零假設(shè) 列聯(lián)表分析中行列變量相互獨(dú)立 構(gòu)造統(tǒng)計(jì)量 與臨界值進(jìn)行比較 注意事項(xiàng),統(tǒng)計(jì)量,期望頻數(shù)(expected count) 期望頻數(shù)與總體的分布一致,即,他的分布反映的是行列變量互不相關(guān)下的分布,反映了行列變量間的相互獨(dú)立關(guān)系 各單元格期望頻數(shù)公式,Pearson 卡方統(tǒng)計(jì)量 公式,臨界值比較,給定顯著性水平 查表 若 則存在相關(guān)關(guān)系 若 則相互不相關(guān),注意,卡方統(tǒng)計(jì)量觀測(cè)值大小取決于觀測(cè)頻數(shù)與期望頻數(shù)的總離差,離差越大,實(shí)際分
12、布與期望分布的差距越大,表明行列變量間越相關(guān),近似服從卡方分布 列聯(lián)表中不應(yīng)有期望頻數(shù)小于1的單元格,或不應(yīng)有大量的期望頻數(shù)小于5的單元格, 因?yàn)槠谕l數(shù)偏小大量存在,卡方統(tǒng)計(jì)量無疑會(huì)存在偏大趨勢(shì),易拒絕零假設(shè),此時(shí)可以采用似然率卡方檢驗(yàn)等方法修正 由定義知道,卡方值會(huì)隨著樣本容量的增加而增大,有必要對(duì)原卡方值進(jìn)行修正,以剔除樣本量的影響,基本操作,Analyze-descriptive statistics-crosstabs 分析描述統(tǒng)計(jì)列聯(lián)表,應(yīng)用舉例,利用居民儲(chǔ)蓄調(diào)查數(shù)據(jù)進(jìn)行分析 目標(biāo)一:分析城鎮(zhèn)和農(nóng)村儲(chǔ)戶對(duì)“未來兩年內(nèi)收入狀況的變化趨勢(shì)”是否持相同的態(tài)度 目標(biāo)二:分析城鎮(zhèn)和農(nóng)村儲(chǔ)戶對(duì)
13、儲(chǔ)蓄是否合算的認(rèn)同是否一致,分析,目標(biāo)一:列聯(lián)表行變量為戶口,列變量為未來收入,輸出各種百分比,期望頻數(shù),剩余,顯示分布柱形圖,卡方檢驗(yàn)一致性分析。 目標(biāo)二:行變量為戶口,列變量為 什么合算,小于0.05 顯著,當(dāng)期望頻數(shù)小時(shí),用,明顯城鎮(zhèn)未來認(rèn)為收入減少的比增加的多,而農(nóng)村的認(rèn)為未來收入增加的比減少的多,不一致。,不能夠拒絕看法一致的結(jié)論。,列聯(lián)表分析的其他方法,針對(duì)其他測(cè)度變量間相關(guān)關(guān)系的檢驗(yàn)方法 適合兩定類變量的方法(nominal) 適合兩定序變量(ordinal) 適用一定類變量與一定距變量的方法 其他方法,適合兩定類變量的方法(nominal),列聯(lián)系數(shù) Phi系數(shù) Gramers
14、 v系數(shù) 這些方法都是從pearson卡方派生出來的,將樣本量的影響減至最小,適合兩定序變量(ordinal),這些方法都是圍繞“同序?qū)?shù)”和“異序?qū)?shù)”展開 若同序?qū)?shù)占多數(shù),則認(rèn)為兩變量正相關(guān) P為同序?qū)?shù),Q為異序?qū)?shù) gamma系數(shù) 常用于2*2列聯(lián)表 Kendalls tau-b系數(shù) 常用于方形列聯(lián)表 Kendalls tau-c系數(shù) 常用于任意格數(shù)列聯(lián)表 范圍都是-1,+1,同序?qū)?shù)和異序?qū)?shù),例如 學(xué)歷和收入均為定序變量,取值越大學(xué)歷和收入越高,如果學(xué)歷和收入具有正相關(guān)關(guān)系,則學(xué)歷數(shù)據(jù)按照升序排序后,對(duì)應(yīng)的收入取值也完全按照升序排列,但一般不可能完全如此。 引入同序?qū)?shù)P,和異序
15、對(duì)數(shù)Q,兩變量按照X自然升序排列后,Y序列中后面有一個(gè)變量值大于前面的一個(gè)變量值,則記為一個(gè)同序?qū)Γ粗疄楫愋驅(qū)Α?同序?qū)?shù)和異序?qū)?shù),上表中同序?qū)τ校?3)(24)(25)(34)(35)(12)(14)(15)(24)(25)(45),P=11, 異序?qū)Γ?1)(31)(32),Q=3, 其余在收入上取值相同的稱為同分對(duì)。若同序?qū)φ级鄶?shù),則認(rèn)為變量為正相關(guān),否則為負(fù)相關(guān),若彼此相差不大,則認(rèn)為變量無線性關(guān)系。,定類、定序及其他,一定類、一定距變量 核心思想基于單因素方差分析 ETA系數(shù) 取值范圍0,1 其他方法 若行列變量均是定距,可以通過相關(guān)系數(shù)測(cè)度,輸出pearson和spearman
16、相關(guān)系數(shù) 取值范圍-1,+1 Kappa,risk,rr都是醫(yī)學(xué)分析中的指標(biāo),多選項(xiàng)分析,目的 操作 應(yīng)用舉例,目的,針對(duì)問卷調(diào)查中的多選項(xiàng)問題的 例子 某地區(qū)高三學(xué)生的高考志愿 居民儲(chǔ)蓄調(diào)查問卷調(diào)查 分析的一般步驟 多選項(xiàng)問題的分解 利用頻數(shù)分析或交叉分組進(jìn)行分析,多選項(xiàng)二分法舉例,多選項(xiàng)分類法舉例,多選項(xiàng)問題分解,問題:對(duì)一個(gè)多選項(xiàng)問題僅設(shè)置一個(gè)變量在數(shù)據(jù)處理和分析中行不通 兩種方法 第一 多選項(xiàng)二分法 將多選項(xiàng)問題中每個(gè)答案設(shè)為一個(gè)變量,每個(gè)變量值只取0 1,表示選擇該答案與否 第二 多選項(xiàng)分類法 首先估計(jì)最多可能出現(xiàn)的答案個(gè)數(shù),然后把每個(gè)答案設(shè)置為一個(gè)變量 選擇關(guān)鍵: 應(yīng)考慮具體問題和
17、目標(biāo),避免信息丟失的前提下,減少稀疏數(shù)據(jù)。,頻數(shù)分析,問題 這些分析方法在處理多選項(xiàng)問題存在不足 例如 高考志愿,采用多選項(xiàng)分類法合理,但是只能夠得到志愿一、二、三的學(xué)校報(bào)考情況,卻不能夠得到各學(xué)校的報(bào)考情況,操作,首先將多選項(xiàng)問題分解成若干問題,設(shè)置若干變量 定義多項(xiàng)選擇變量集 Analyze-multiple response-define sets 頻數(shù)分析 Analyze-multiple response-frequencies 交叉分組分析 Analyze-multiple response-crosstabs,應(yīng)用舉例,利用居民儲(chǔ)蓄調(diào)查數(shù)據(jù) 目標(biāo)一:分析儲(chǔ)戶的儲(chǔ)蓄目的 目標(biāo)二:分析不同年齡段儲(chǔ)戶的儲(chǔ)蓄目的 分析 依據(jù)多選項(xiàng)分類法分解成三個(gè)問題 定義多選項(xiàng)變量集x,作頻數(shù)分析 對(duì)不同年齡段進(jìn)行交叉分組頻數(shù)分析,5.5 比率分析,目的 主要指標(biāo) 操作 應(yīng)用案例,目的,用于對(duì)兩變量間變量值比率變化的描述分析,適用于定距型變量 例子 分析各地區(qū)保險(xiǎn)業(yè)務(wù)的保費(fèi)收入占全部業(yè)務(wù)保費(fèi)收入的比例情況 分析男女出生比例,主要指標(biāo),集中趨勢(shì) wm(weighted mean) 離散程度 aad(average absolute deviat
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 技術(shù)開發(fā)合同(2篇)
- 2025年度數(shù)據(jù)中心通風(fēng)排煙系統(tǒng)建設(shè)與維護(hù)服務(wù)合同2篇
- 個(gè)人向公司借款合同(2024年)
- 2025版民房建筑工程勞務(wù)分包合同4篇
- 2025年建筑保溫材料專用黏結(jié)劑銷售合同3篇
- 2025年度農(nóng)用車出口貿(mào)易代理合同范本3篇
- 2025年度能源行業(yè)個(gè)人勞務(wù)派遣及安全生產(chǎn)合同3篇
- 2025年度個(gè)人企業(yè)全額承包經(jīng)營服務(wù)合同規(guī)范3篇
- 2025年度智能培訓(xùn)班租賃合同范本3篇
- 二零二五模具加工企業(yè)臨時(shí)工用工合同范本4篇
- 副總經(jīng)理招聘面試題與參考回答(某大型國企)2024年
- PDCA循環(huán)提高護(hù)士培訓(xùn)率
- 2024-2030年中國智慧水務(wù)行業(yè)應(yīng)用需求分析發(fā)展規(guī)劃研究報(bào)告
- 《獅子王》電影賞析
- 河北省保定市定州市2025屆高二數(shù)學(xué)第一學(xué)期期末監(jiān)測(cè)試題含解析
- 中醫(yī)護(hù)理人文
- 2024-2030年中國路亞用品市場(chǎng)銷售模式與競爭前景分析報(bào)告
- 貨物運(yùn)輸安全培訓(xùn)課件
- 前端年終述職報(bào)告
- 2024小說推文行業(yè)白皮書
- 市人民醫(yī)院關(guān)于開展“改善就醫(yī)感受提升患者體驗(yàn)主題活動(dòng)”2023-2025年實(shí)施方案及資料匯編
評(píng)論
0/150
提交評(píng)論