




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、應(yīng)用統(tǒng)計軟件第5章 基本統(tǒng)計分析,第5章 SPSS基本統(tǒng)計分析,引入 頻數(shù)分析 描述分析 探索性分析 交叉分組下的頻數(shù)分析 比率分析,引入,意義:基礎(chǔ),能使分析者掌握數(shù)據(jù)的基本統(tǒng)計特征,把握數(shù)據(jù)的總體分布形態(tài)。 內(nèi)容: 編制單變量的頻數(shù)分布表 計算單個變量的描述統(tǒng)計量以及不同分組下的描述統(tǒng)計量 其他探索性分析 數(shù)據(jù)的多選項分析 實現(xiàn)方式: 1 數(shù)值計算;2 圖形繪制。,5.1 頻數(shù)分析,目的 基本任務(wù) 基本操作 擴展功能 應(yīng)用舉例,目的 了解變量取值的狀況,對把握數(shù)據(jù)的分布特征非常有用 例如:問卷調(diào)查對被訪問者的總?cè)藬?shù)、年齡特點、職業(yè)特點等進行分析和總結(jié) 通過分析,能夠在一定程度上反映樣本是否
2、具有總體代表性,抽樣是否存在系統(tǒng)偏差等,并以此證明以后相關(guān)問題分析的代表性和可信性。,基本任務(wù),第一、編制頻數(shù)分布表 頻數(shù) Frequency、 百分比 percent、 有效百分比 valid percent、 累計百分比 cumulative percent 第二、繪制常用統(tǒng)計圖 條形圖 bar chart、 餅圖 pie chart、 直方圖 histograms,基本操作,analyzedescriptive statisticsfrequencies 分析描述統(tǒng)計頻率,擴展功能,第一、計算分位數(shù)(percentile values) 將所有數(shù)據(jù)按升序排序后平均等分為n份,分位點依次是
3、1/n,2/n,n-1/n; 分位數(shù)刻劃了變量的取值分布狀態(tài) 分位數(shù)差是一種描述數(shù)據(jù)離散程度的方式。 第二、計算其他基本描述統(tǒng)計量 集中趨勢、離散程度、分布形態(tài)等基本統(tǒng)計量,應(yīng)用舉例,利用居民儲蓄調(diào)查數(shù)據(jù)進行頻數(shù)分析,有以下兩個分析目標(biāo)。 目標(biāo)一:分析儲戶的戶口和職業(yè)的基本情況; 目標(biāo)二:分析儲戶一次存取金額的分布,并對城鎮(zhèn)儲戶和農(nóng)村儲戶進行比較。,分析,目標(biāo)一:戶口和職業(yè)的分析,目標(biāo)一:兩個變量是名義變量,可通過基本頻數(shù)分析實現(xiàn); 主意:職業(yè)變量分類較多,為使顯示一目了然,最好排序下。format,目標(biāo)二:,目標(biāo)二:涉及的變量是定距型變量,需要分別對不同戶口的儲戶進行分析。 存取金額數(shù)據(jù)直接
4、采用頻數(shù)分析不利于把握,考慮用數(shù)據(jù)分組的功能對數(shù)據(jù) 分組然后再編制頻數(shù)分析表 ; 進行數(shù)據(jù)拆分,并分別對不同戶口的存取金額計算四分位數(shù),通過比較四分位數(shù)來比較兩者分布上的差異。,注意事項,注意事項,數(shù)據(jù)分組,先排序,然后得出最大值100001,最小值1,樣本容量為282,這里為了簡化,可以分為5組; 分組為:500以下、5002000、20003500 35005000、5000以上; 頻數(shù)分析計算所有樣本的存取金額的四分位數(shù),然后按戶口進行拆分,重新計算四分位數(shù),并比較結(jié)果。,課本上案例 P72,5.2 描述統(tǒng)計分析,基本描述統(tǒng)計量 基本操作 應(yīng)用舉例,基本描述統(tǒng)計量,三類 1、刻畫集中趨勢
5、 central tendency 2、刻畫離散程度 dispersion 3、刻畫分布形態(tài) distribution,1 刻畫集中趨勢的描述統(tǒng)計量,1 均值(mean) 2 中位數(shù)(median) 3 眾數(shù)(mode):一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)據(jù)值 4 均值標(biāo)準(zhǔn)誤(standard error for mean) 描述樣本均值與總體均值之間平均差異程度的統(tǒng)計量。,2、刻畫離散程度的描述統(tǒng)計量,樣本標(biāo)準(zhǔn)差 (S D, standard deviation) 樣本方差 variance 全距(range): 也稱為極差,是數(shù)據(jù)最大值與最小值之間的絕對差。,3、刻畫分布形態(tài)的描述統(tǒng)計量,主要指數(shù)
6、據(jù)分布是否對稱,偏斜程度如何,分布陡緩程度等。 偏度(Skewness): 描述變量取值分布形態(tài)對稱性的統(tǒng)計量。 峰度(Kurtosis): 描述變量取值分布形態(tài)陡緩程度的統(tǒng)計量。,偏度(skewness),對稱分布偏度為0,偏度大于0,有一條長尾拖在右邊,表示右偏或者正偏,否則為左偏或者負(fù)偏。,峰度(kurtosis),標(biāo)準(zhǔn)正態(tài)分布峰度為0,峰度大于0,表示尖峰,否則為平峰。,基本操作,Analyze-descriptive statistics-descriptive 分析描述統(tǒng)計描述,應(yīng)用舉例,居民儲蓄調(diào)查數(shù)據(jù),對一次存取款金額變量計算基本描述統(tǒng)計量。 目標(biāo)一:計算存取款金額的基本描述統(tǒng)
7、計量,并分別對城鎮(zhèn)儲戶和農(nóng)村儲戶進行比較; 目標(biāo)二:分析儲戶一次存取款的數(shù)量是否存在不均衡現(xiàn)象。,分析,目標(biāo)一中,首先按照戶口對數(shù)據(jù)進行拆分,然后計算變量的基本描述統(tǒng)計量。,分析,看到農(nóng)村儲戶和城鎮(zhèn)儲戶的偏度都大于0,且農(nóng)村的傾斜程度更大,因為5.9484.293,右偏 由此可見,城鎮(zhèn)儲戶和農(nóng)村儲戶中的大部分人一次存取款金額都低于平均水平,且農(nóng)村儲戶表現(xiàn)的更加明顯。,分析二,目標(biāo)二中,分析是否存在不均衡現(xiàn)象,可以從分析金額是否有大量異常值入手, 根據(jù)3西格瑪原則,3個標(biāo)準(zhǔn)差之外的變量值為異常值,可通過數(shù)據(jù)的標(biāo)準(zhǔn)化處理來判斷。 在窗口中選save s values as variables,自動
8、計算保存標(biāo)準(zhǔn)化值,結(jié)果保存在一個新變量中,分析二,然后可對新變量排序瀏覽取值情況,若發(fā)現(xiàn)異常值存在,則分三組進行頻數(shù)分析,異常值組大于理論值0.3%就認(rèn)為存在一定的不均衡現(xiàn)象。 本組為2.1,認(rèn)為存在一定的不均衡現(xiàn)象,5.3 探索分析,目的: 除了計算基本的統(tǒng)計量外 還給出一些簡單的檢驗結(jié)果和圖形 箱圖 、莖葉圖 有助于用戶進一步分析數(shù)據(jù) 檢查數(shù)據(jù)是否有誤 檢查數(shù)據(jù)的分布特征,返回,箱圖,返回,莖葉圖,返回,箱圖與Spread vs level圖(a),返回,案例,給定1969-1971美國一家銀行的474名雇員情況的數(shù)據(jù) 變量:當(dāng)前工資、受教育水平、工作經(jīng)歷、種族、職務(wù)等級等。 按性別對當(dāng)前
9、工資進行探索分析?,數(shù)據(jù)探索主對話框,返回,選擇描述統(tǒng)計量對話框,返回,統(tǒng)計圖對話框,返回,實例輸出之一:觀測量摘要表,返回,salary變量的描述統(tǒng)計量,返回,變量的極端值,返回,數(shù)據(jù)正態(tài)分布檢驗結(jié)果,返回,方差齊性檢驗結(jié)果,返回,按照性別分組后的Current Salary的莖葉圖,返回,男、女組薪水?dāng)?shù)據(jù)的箱圖,返回,5.4 交叉分組下的頻數(shù)分析,目的 基本任務(wù) 操作 應(yīng)用舉例 列聯(lián)表分析的其他方法,目的,頻數(shù)分析能掌握單個變量的數(shù)據(jù)分布,實際不僅要了解單變量的分布特征,還要分析多個變量不同取值下的分布 掌握多變量的聯(lián)合分布特征,進而分析變量之間的相互影響和關(guān)系 例子 居民儲蓄問題,需要掌
10、握不同特征的儲戶群(戶口、職業(yè))對調(diào)查問題的態(tài)度,分析儲戶特征和調(diào)查問題之間是否存在一定的關(guān)聯(lián)性。 交叉分組下的頻數(shù)分析又稱列聯(lián)表分析,兩大基本任務(wù),根據(jù)收集到的樣本數(shù)據(jù),產(chǎn)生二維或多維 交叉列聯(lián)表; 在交叉列聯(lián)表基礎(chǔ)之上,對兩兩變量間是否存在一定的相關(guān)性進行分析。,交叉列聯(lián)表,定義 兩個或兩個以上的變量交叉分組后形成的頻數(shù)分布表 行變量(row)、列變量(column)、層變量(layer) 包括觀測頻數(shù)、行百分比、列百分比、總百分比,交叉列聯(lián)表行列變量間關(guān)系的分析,目的 分析行變量和列變量之間是否有聯(lián)系和聯(lián)系的緊密程度如何 舉例 分析年齡或職稱與工資的關(guān)系(極端),分析,一般情況下,觀測頻
11、數(shù)分散在列聯(lián)表的各個單元格中,不容易發(fā)現(xiàn)行列變量間關(guān)系 借助非參數(shù)檢驗方法和度量變量間相關(guān)程度的統(tǒng)計量等手段進行分析 通常方法:卡方檢驗和相關(guān)性檢驗,卡方檢驗,建立零假設(shè) 列聯(lián)表分析中行列變量相互獨立 構(gòu)造統(tǒng)計量 與臨界值進行比較 注意事項,統(tǒng)計量,期望頻數(shù)(expected count) 期望頻數(shù)與總體的分布一致,即,他的分布反映的是行列變量互不相關(guān)下的分布,反映了行列變量間的相互獨立關(guān)系 各單元格期望頻數(shù)公式,Pearson 卡方統(tǒng)計量 公式,臨界值比較,給定顯著性水平 查表 若 則存在相關(guān)關(guān)系 若 則相互不相關(guān),注意,卡方統(tǒng)計量觀測值大小取決于觀測頻數(shù)與期望頻數(shù)的總離差,離差越大,實際分
12、布與期望分布的差距越大,表明行列變量間越相關(guān),近似服從卡方分布 列聯(lián)表中不應(yīng)有期望頻數(shù)小于1的單元格,或不應(yīng)有大量的期望頻數(shù)小于5的單元格, 因為期望頻數(shù)偏小大量存在,卡方統(tǒng)計量無疑會存在偏大趨勢,易拒絕零假設(shè),此時可以采用似然率卡方檢驗等方法修正 由定義知道,卡方值會隨著樣本容量的增加而增大,有必要對原卡方值進行修正,以剔除樣本量的影響,基本操作,Analyze-descriptive statistics-crosstabs 分析描述統(tǒng)計列聯(lián)表,應(yīng)用舉例,利用居民儲蓄調(diào)查數(shù)據(jù)進行分析 目標(biāo)一:分析城鎮(zhèn)和農(nóng)村儲戶對“未來兩年內(nèi)收入狀況的變化趨勢”是否持相同的態(tài)度 目標(biāo)二:分析城鎮(zhèn)和農(nóng)村儲戶對
13、儲蓄是否合算的認(rèn)同是否一致,分析,目標(biāo)一:列聯(lián)表行變量為戶口,列變量為未來收入,輸出各種百分比,期望頻數(shù),剩余,顯示分布柱形圖,卡方檢驗一致性分析。 目標(biāo)二:行變量為戶口,列變量為 什么合算,小于0.05 顯著,當(dāng)期望頻數(shù)小時,用,明顯城鎮(zhèn)未來認(rèn)為收入減少的比增加的多,而農(nóng)村的認(rèn)為未來收入增加的比減少的多,不一致。,不能夠拒絕看法一致的結(jié)論。,列聯(lián)表分析的其他方法,針對其他測度變量間相關(guān)關(guān)系的檢驗方法 適合兩定類變量的方法(nominal) 適合兩定序變量(ordinal) 適用一定類變量與一定距變量的方法 其他方法,適合兩定類變量的方法(nominal),列聯(lián)系數(shù) Phi系數(shù) Gramers
14、 v系數(shù) 這些方法都是從pearson卡方派生出來的,將樣本量的影響減至最小,適合兩定序變量(ordinal),這些方法都是圍繞“同序?qū)?shù)”和“異序?qū)?shù)”展開 若同序?qū)?shù)占多數(shù),則認(rèn)為兩變量正相關(guān) P為同序?qū)?shù),Q為異序?qū)?shù) gamma系數(shù) 常用于2*2列聯(lián)表 Kendalls tau-b系數(shù) 常用于方形列聯(lián)表 Kendalls tau-c系數(shù) 常用于任意格數(shù)列聯(lián)表 范圍都是-1,+1,同序?qū)?shù)和異序?qū)?shù),例如 學(xué)歷和收入均為定序變量,取值越大學(xué)歷和收入越高,如果學(xué)歷和收入具有正相關(guān)關(guān)系,則學(xué)歷數(shù)據(jù)按照升序排序后,對應(yīng)的收入取值也完全按照升序排列,但一般不可能完全如此。 引入同序?qū)?shù)P,和異序
15、對數(shù)Q,兩變量按照X自然升序排列后,Y序列中后面有一個變量值大于前面的一個變量值,則記為一個同序?qū)Γ粗疄楫愋驅(qū)Α?同序?qū)?shù)和異序?qū)?shù),上表中同序?qū)τ校?3)(24)(25)(34)(35)(12)(14)(15)(24)(25)(45),P=11, 異序?qū)Γ?1)(31)(32),Q=3, 其余在收入上取值相同的稱為同分對。若同序?qū)φ级鄶?shù),則認(rèn)為變量為正相關(guān),否則為負(fù)相關(guān),若彼此相差不大,則認(rèn)為變量無線性關(guān)系。,定類、定序及其他,一定類、一定距變量 核心思想基于單因素方差分析 ETA系數(shù) 取值范圍0,1 其他方法 若行列變量均是定距,可以通過相關(guān)系數(shù)測度,輸出pearson和spearman
16、相關(guān)系數(shù) 取值范圍-1,+1 Kappa,risk,rr都是醫(yī)學(xué)分析中的指標(biāo),多選項分析,目的 操作 應(yīng)用舉例,目的,針對問卷調(diào)查中的多選項問題的 例子 某地區(qū)高三學(xué)生的高考志愿 居民儲蓄調(diào)查問卷調(diào)查 分析的一般步驟 多選項問題的分解 利用頻數(shù)分析或交叉分組進行分析,多選項二分法舉例,多選項分類法舉例,多選項問題分解,問題:對一個多選項問題僅設(shè)置一個變量在數(shù)據(jù)處理和分析中行不通 兩種方法 第一 多選項二分法 將多選項問題中每個答案設(shè)為一個變量,每個變量值只取0 1,表示選擇該答案與否 第二 多選項分類法 首先估計最多可能出現(xiàn)的答案個數(shù),然后把每個答案設(shè)置為一個變量 選擇關(guān)鍵: 應(yīng)考慮具體問題和
17、目標(biāo),避免信息丟失的前提下,減少稀疏數(shù)據(jù)。,頻數(shù)分析,問題 這些分析方法在處理多選項問題存在不足 例如 高考志愿,采用多選項分類法合理,但是只能夠得到志愿一、二、三的學(xué)校報考情況,卻不能夠得到各學(xué)校的報考情況,操作,首先將多選項問題分解成若干問題,設(shè)置若干變量 定義多項選擇變量集 Analyze-multiple response-define sets 頻數(shù)分析 Analyze-multiple response-frequencies 交叉分組分析 Analyze-multiple response-crosstabs,應(yīng)用舉例,利用居民儲蓄調(diào)查數(shù)據(jù) 目標(biāo)一:分析儲戶的儲蓄目的 目標(biāo)二:分析不同年齡段儲戶的儲蓄目的 分析 依據(jù)多選項分類法分解成三個問題 定義多選項變量集x,作頻數(shù)分析 對不同年齡段進行交叉分組頻數(shù)分析,5.5 比率分析,目的 主要指標(biāo) 操作 應(yīng)用案例,目的,用于對兩變量間變量值比率變化的描述分析,適用于定距型變量 例子 分析各地區(qū)保險業(yè)務(wù)的保費收入占全部業(yè)務(wù)保費收入的比例情況 分析男女出生比例,主要指標(biāo),集中趨勢 wm(weighted mean) 離散程度 aad(average absolute deviat
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 微生物檢驗技術(shù)人才的培養(yǎng)體系試題及答案
- 2025年注冊會計師虛擬考試試題及答案
- 2025年證券從業(yè)資格的綜合評測試題及答案
- 2025年證券從業(yè)資格證考試分項復(fù)習(xí)試題及答案
- 理論與實踐2025年銀行從業(yè)資格證試題與答案
- 2025年銀行從業(yè)資格證考試價值分析及試題答案
- 云南省玉溪市通海一中2025年高三第一次調(diào)研測試語文試卷含解析
- 理解項目可行性測評的考核要點試題及答案
- 項目管理采購管理試題及答案
- 各科目2025年注冊會計師考試試題及答案解析
- 氬弧焊培訓(xùn)課件-氬弧焊焊接技術(shù)培訓(xùn)
- 中建總工程師的職業(yè)基本素養(yǎng)
- 【房地產(chǎn)項目成本控制問題研究文獻(xiàn)綜述2300字】
- 《一般將來時》教學(xué)設(shè)計
- 小學(xué)數(shù)學(xué)-青島版五四制五年級數(shù)學(xué)上冊第七單元《比的意義》教學(xué)設(shè)計學(xué)情分析教材分析課后反思
- 幼兒園故事課件:《胸有成竹》
- GB/T 43200-2023機器人一體化關(guān)節(jié)性能及試驗方法
- 單面彩鋼酚醛復(fù)合風(fēng)管施工工法
- 浙江省溫州環(huán)大羅山聯(lián)盟2022-2023學(xué)年高一下學(xué)期4月期中聯(lián)考物理試題
- 功率因素校正(PFC)電路-PFC的工作原理課件
- GB/T 10000-2023中國成年人人體尺寸
評論
0/150
提交評論