SPSS缺失值分析課件_第1頁
SPSS缺失值分析課件_第2頁
SPSS缺失值分析課件_第3頁
SPSS缺失值分析課件_第4頁
SPSS缺失值分析課件_第5頁
已閱讀5頁,還剩43頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

IBM-SPSS

第11章

缺失值分析IBM-SPSS

第11章缺失值分析背景在資料收集過程中,由于各種原因可能導(dǎo)致數(shù)據(jù)收集不全,就會產(chǎn)生缺失值,且這種情況往往無法避免。因此,缺失值分析是數(shù)據(jù)處理工作中常見的問題之一,如果處理不當(dāng),會導(dǎo)致部分分析過程簡單地從分析中丟棄這些有缺失的個(gè)案;也可能會使分析結(jié)果精度降低,出現(xiàn)偏倚甚至是錯(cuò)誤的結(jié)論;另外,很多統(tǒng)計(jì)過程背后的假設(shè)都基于完整的個(gè)案,而缺失值可能使所需的理論復(fù)雜化,部分分析過程無法完成。缺失值分析有助于解決由不完整的數(shù)據(jù)造成的若干問題,盡可能全面、有效地利用整個(gè)數(shù)據(jù)庫。背景在資料收集過程中,由于各種原因可能導(dǎo)致數(shù)據(jù)收集不全

分類

按照數(shù)據(jù)缺失形式分①單元缺失:指針對需調(diào)查的個(gè)案進(jìn)行調(diào)查而沒有得到個(gè)案信息。這種缺失在數(shù)據(jù)分析階段常常無能為力。②項(xiàng)目缺失:指在調(diào)查內(nèi)容中某些變量的觀測結(jié)果有缺失。分類

按照數(shù)據(jù)缺失形式分分類按照缺失機(jī)制與方式分①完全隨機(jī)缺失(MissingCompletelyatRandom,MCAR)指已評價(jià)的結(jié)果或即將要進(jìn)行的評價(jià)結(jié)果中,研究對象的缺失率是獨(dú)立的。即缺失現(xiàn)象完全隨機(jī)發(fā)生,與自身或其他變量的取值無關(guān)。②隨機(jī)缺失(MissingatRandom,MAR)指缺失數(shù)據(jù)的發(fā)生與數(shù)據(jù)庫中其他無缺失變量的取值有關(guān)。某一觀察值缺失的概率僅依賴已有的觀察結(jié)果,不依賴未觀察到的結(jié)果。MAR是最常見的缺失機(jī)制。③非隨機(jī)缺失(MissingNotatRadom,MNAR)指數(shù)據(jù)的缺失不僅與其他變量的取值有關(guān),缺失率與缺失數(shù)據(jù)有關(guān),也和自身有關(guān)。這種缺失大都不是由偶然因素所造成的,常常是不可忽略的。分類按照缺失機(jī)制與方式分

SPSS中的缺失值處理方法1.刪除缺失值

最常見、最簡單的處理缺失數(shù)據(jù)的方法,使用這種方法時(shí),如果任何個(gè)案在某一變量含有缺失數(shù)據(jù)的話,就把相對應(yīng)的個(gè)案從分析中剔除。如果缺失值所占比例比較小的話,這一方法十分有效。然而,這種方法卻有很大的局限性,它是以減少樣本量來換取信息的完備,會造成資源的大量浪費(fèi),丟棄了大量隱藏在這些對象中的信息。SPSS中的缺失值處理方法1.刪除缺失值

SPSS中的缺失值處理方法2.缺失值替代

即“轉(zhuǎn)換”選項(xiàng)卡中的“替換缺失值”菜單過程。此過程將所有的記錄看成一個(gè)序列,然后采用某種指標(biāo)對缺失值進(jìn)行填充,它實(shí)際上專門用于解決時(shí)間序列模型中的缺失值問題。雖然其中的一些填充方法也可以用于普通數(shù)據(jù),但相比之下,如果在非序列數(shù)據(jù)中使用該過程可能得不償失,應(yīng)當(dāng)謹(jǐn)慎使用。常用的填充方式有算術(shù)均數(shù),缺失值鄰近點(diǎn)的算術(shù)均數(shù),中位數(shù),線性插入等。SPSS中的缺失值處理方法2.缺失值替代

SPSS中的缺失值處理方法3.缺失值分析①缺失值的描述和快速診斷:用靈活的診斷報(bào)告來評估缺失值問題的嚴(yán)重性,用戶可以觀察到它們在哪些變量中出現(xiàn),比例為多少,是否與其他變量取值有關(guān),從而得知這些缺失值出現(xiàn)是否會影響分析結(jié)論。②得到更精確的統(tǒng)計(jì)量:提供了多種方法用于估計(jì)含缺失值數(shù)據(jù)的均值、相關(guān)矩陣或協(xié)方差矩陣,通過這些方法計(jì)算出的統(tǒng)計(jì)量將更加可靠。③用估計(jì)值替換缺失值:使用EM或回歸法,用戶可以從未缺失數(shù)據(jù)的分布情況中推算出缺失數(shù)據(jù)的估計(jì)值,從而能有效地使用所有數(shù)據(jù)進(jìn)行分析,來提高統(tǒng)計(jì)結(jié)果的可信度。SPSS中的缺失值處理方法3.缺失值分析

模塊解讀1.進(jìn)入缺失值分析單擊“分析”|“缺失值分析”命令,彈出缺失值分析對話框,如圖11-1所示。定量變量:選入待分析的定量變量。將“年齡”,“住院天數(shù)”,“受傷至入院的間隔時(shí)間”三個(gè)變量納入定量變量框中。模塊解讀1.進(jìn)入缺失值分析分類變量:選入待分析的分類變量,選入分類變量后,還可以在下方的最大類別處設(shè)置允許的最大分類數(shù),超過此臨界值的分類變量將不再進(jìn)入分析,軟件默認(rèn)25。將“性別”納入分類變量框。個(gè)案標(biāo)簽:用以選入標(biāo)簽變量用于對結(jié)果進(jìn)行標(biāo)識。使用所有變量:單擊此按鈕,左側(cè)源變量列表的所有變量將進(jìn)行特定的分析列表框,數(shù)值型變量將全部進(jìn)入定量變量框,字符型等變量全部進(jìn)入分類變量列表框。分類變量:選入待分析的分類變量,選入分類變量后,還可以在下方模塊解讀2.“模式”按鈕單擊“模式”按鈕,彈出圖11-2所示的“缺失值分析:模式”對話框,此對話框是用于設(shè)置顯示輸出表格中的缺失數(shù)據(jù)模式和范圍。模塊解讀2.“模式”按鈕模塊解讀3.“描述”按鈕單擊“描述”按鈕,彈出圖11-3所示的“缺失值分析:描述統(tǒng)計(jì)”對話框,設(shè)置要顯示的缺失值描述統(tǒng)計(jì)變量。模塊解讀3.“描述”按鈕模塊解讀4.“估計(jì)”選項(xiàng)框:“EM”按鈕單擊“EM”按鈕,彈出“缺失值分析:EM”對話框,如圖11-4所示。此對話框用于設(shè)置EM算法的相關(guān)參數(shù)。模塊解讀4.“估計(jì)”選項(xiàng)框:“EM”按鈕(3)“回歸”按鈕單擊“回歸”按鈕,彈出“缺失值分析:回歸”對話框,如圖11-5所示。此對話框用于設(shè)置回歸法的相關(guān)參數(shù)。可以選擇殘差、普通變量、Student’t變量或無調(diào)節(jié)。(3)“回歸”按鈕(4)“變量”按鈕單擊“變量”按鈕,彈出“缺失值分析:EM的變量和回歸”對話框。如圖11-6所示,用于選擇指定變量的方式,默認(rèn)使用所有定量變量。(4)“變量”按鈕實(shí)例詳解

例11.1:對某種疾病住院患者的部分調(diào)查數(shù)據(jù),見例11-1.sav。1.操作步驟(1)選擇“分析”|“缺失值分析”命令,如圖11-7所示,彈出圖11-1所示的對話框;(2)將“年齡,住院天數(shù),受傷至入院的間隔時(shí)間”選入定量變量框,“性別”選入分類變量框;(3)單擊“模式”按鈕,彈出如圖11-2所示,選中輸出選項(xiàng)組中的“按照缺失值模式分組的表格個(gè)案”復(fù)選框,從缺失值模式列表框中選中住院天數(shù)和性別兩個(gè)變量進(jìn)入附加信息框,其他采取默認(rèn)設(shè)置。單擊“繼續(xù)”,返回主對話框。實(shí)例詳解

例11.1:對某種疾病住院患者的部分調(diào)查數(shù)據(jù),見例(4)單擊“描述”按鈕,彈出如圖11-3所示,選擇單變量統(tǒng)計(jì)量復(fù)選框及指示變量統(tǒng)計(jì)量選項(xiàng)組中的“使用有指示變量形成的分組進(jìn)行的t檢驗(yàn)”,為分類變量和指示變量生成交叉表。(5)選中“估計(jì)”選項(xiàng)框中的“EM和回歸”,其余采用默認(rèn)設(shè)置。(6)單擊“確定”按鈕運(yùn)行,輸出結(jié)果。(4)單擊“描述”按鈕,彈出如圖11-3所示,選擇單變量統(tǒng)計(jì)SPSS缺失值分析課件表11-1所示的“單變量統(tǒng)計(jì)”表給出了所有分析變量未缺失數(shù)據(jù)的頻數(shù),定量變量的均值、標(biāo)準(zhǔn)差,同時(shí)給出了各變量的缺失數(shù)量和缺失百分比。提供了數(shù)據(jù)的一般特征,以住院天數(shù)為例,均值為18.88天,標(biāo)準(zhǔn)差為11.258,7.4%的個(gè)案缺失住院天數(shù)信息,且擁有26個(gè)極大值。表11-1所示的“單變量統(tǒng)計(jì)”表給出了所有分析變量未缺失數(shù)據(jù)SPSS缺失值分析課件圖11-9、圖11-10所示是使用EM法和回歸法進(jìn)行缺失值的估計(jì)和替換后,總體數(shù)據(jù)的均值和標(biāo)準(zhǔn)差的變化情況,其中“所有值”為原始數(shù)據(jù)特征,另兩行分別是采用EM法、回歸法得到的統(tǒng)計(jì)參數(shù)。圖11-9、圖11-10所示是使用EM法和回歸法進(jìn)行缺失值的SPSS缺失值分析課件圖11-11所示通過單個(gè)方差t檢驗(yàn)有助于標(biāo)識缺失值模式可能影響定量變量的變量。按照相應(yīng)變量是否缺失將全部記錄分為兩組,再對所有連續(xù)性變量在這兩組間進(jìn)行t檢驗(yàn)??梢钥闯?,年齡信息缺失者受傷至入院的間隔時(shí)間短,指示數(shù)據(jù)可能并未完全隨機(jī)缺失。圖11-11所示通過單個(gè)方差t檢驗(yàn)有助于標(biāo)識缺失值模式可能提問與解答環(huán)節(jié)QuestionsAndAnswers提問與解答環(huán)節(jié)23謝謝聆聽·學(xué)習(xí)就是為了達(dá)到一定目的而努力去干,是為一個(gè)目標(biāo)去戰(zhàn)勝各種困難的過程,這個(gè)過程會充滿壓力、痛苦和挫折LearningIsToAchieveACertainGoalAndWorkHard,IsAProcessToOvercomeVariousDifficultiesForAGoal謝謝聆聽LearningIsToAchieveAC24IBM-SPSS

第11章

缺失值分析IBM-SPSS

第11章缺失值分析背景在資料收集過程中,由于各種原因可能導(dǎo)致數(shù)據(jù)收集不全,就會產(chǎn)生缺失值,且這種情況往往無法避免。因此,缺失值分析是數(shù)據(jù)處理工作中常見的問題之一,如果處理不當(dāng),會導(dǎo)致部分分析過程簡單地從分析中丟棄這些有缺失的個(gè)案;也可能會使分析結(jié)果精度降低,出現(xiàn)偏倚甚至是錯(cuò)誤的結(jié)論;另外,很多統(tǒng)計(jì)過程背后的假設(shè)都基于完整的個(gè)案,而缺失值可能使所需的理論復(fù)雜化,部分分析過程無法完成。缺失值分析有助于解決由不完整的數(shù)據(jù)造成的若干問題,盡可能全面、有效地利用整個(gè)數(shù)據(jù)庫。背景在資料收集過程中,由于各種原因可能導(dǎo)致數(shù)據(jù)收集不全

分類

按照數(shù)據(jù)缺失形式分①單元缺失:指針對需調(diào)查的個(gè)案進(jìn)行調(diào)查而沒有得到個(gè)案信息。這種缺失在數(shù)據(jù)分析階段常常無能為力。②項(xiàng)目缺失:指在調(diào)查內(nèi)容中某些變量的觀測結(jié)果有缺失。分類

按照數(shù)據(jù)缺失形式分分類按照缺失機(jī)制與方式分①完全隨機(jī)缺失(MissingCompletelyatRandom,MCAR)指已評價(jià)的結(jié)果或即將要進(jìn)行的評價(jià)結(jié)果中,研究對象的缺失率是獨(dú)立的。即缺失現(xiàn)象完全隨機(jī)發(fā)生,與自身或其他變量的取值無關(guān)。②隨機(jī)缺失(MissingatRandom,MAR)指缺失數(shù)據(jù)的發(fā)生與數(shù)據(jù)庫中其他無缺失變量的取值有關(guān)。某一觀察值缺失的概率僅依賴已有的觀察結(jié)果,不依賴未觀察到的結(jié)果。MAR是最常見的缺失機(jī)制。③非隨機(jī)缺失(MissingNotatRadom,MNAR)指數(shù)據(jù)的缺失不僅與其他變量的取值有關(guān),缺失率與缺失數(shù)據(jù)有關(guān),也和自身有關(guān)。這種缺失大都不是由偶然因素所造成的,常常是不可忽略的。分類按照缺失機(jī)制與方式分

SPSS中的缺失值處理方法1.刪除缺失值

最常見、最簡單的處理缺失數(shù)據(jù)的方法,使用這種方法時(shí),如果任何個(gè)案在某一變量含有缺失數(shù)據(jù)的話,就把相對應(yīng)的個(gè)案從分析中剔除。如果缺失值所占比例比較小的話,這一方法十分有效。然而,這種方法卻有很大的局限性,它是以減少樣本量來換取信息的完備,會造成資源的大量浪費(fèi),丟棄了大量隱藏在這些對象中的信息。SPSS中的缺失值處理方法1.刪除缺失值

SPSS中的缺失值處理方法2.缺失值替代

即“轉(zhuǎn)換”選項(xiàng)卡中的“替換缺失值”菜單過程。此過程將所有的記錄看成一個(gè)序列,然后采用某種指標(biāo)對缺失值進(jìn)行填充,它實(shí)際上專門用于解決時(shí)間序列模型中的缺失值問題。雖然其中的一些填充方法也可以用于普通數(shù)據(jù),但相比之下,如果在非序列數(shù)據(jù)中使用該過程可能得不償失,應(yīng)當(dāng)謹(jǐn)慎使用。常用的填充方式有算術(shù)均數(shù),缺失值鄰近點(diǎn)的算術(shù)均數(shù),中位數(shù),線性插入等。SPSS中的缺失值處理方法2.缺失值替代

SPSS中的缺失值處理方法3.缺失值分析①缺失值的描述和快速診斷:用靈活的診斷報(bào)告來評估缺失值問題的嚴(yán)重性,用戶可以觀察到它們在哪些變量中出現(xiàn),比例為多少,是否與其他變量取值有關(guān),從而得知這些缺失值出現(xiàn)是否會影響分析結(jié)論。②得到更精確的統(tǒng)計(jì)量:提供了多種方法用于估計(jì)含缺失值數(shù)據(jù)的均值、相關(guān)矩陣或協(xié)方差矩陣,通過這些方法計(jì)算出的統(tǒng)計(jì)量將更加可靠。③用估計(jì)值替換缺失值:使用EM或回歸法,用戶可以從未缺失數(shù)據(jù)的分布情況中推算出缺失數(shù)據(jù)的估計(jì)值,從而能有效地使用所有數(shù)據(jù)進(jìn)行分析,來提高統(tǒng)計(jì)結(jié)果的可信度。SPSS中的缺失值處理方法3.缺失值分析

模塊解讀1.進(jìn)入缺失值分析單擊“分析”|“缺失值分析”命令,彈出缺失值分析對話框,如圖11-1所示。定量變量:選入待分析的定量變量。將“年齡”,“住院天數(shù)”,“受傷至入院的間隔時(shí)間”三個(gè)變量納入定量變量框中。模塊解讀1.進(jìn)入缺失值分析分類變量:選入待分析的分類變量,選入分類變量后,還可以在下方的最大類別處設(shè)置允許的最大分類數(shù),超過此臨界值的分類變量將不再進(jìn)入分析,軟件默認(rèn)25。將“性別”納入分類變量框。個(gè)案標(biāo)簽:用以選入標(biāo)簽變量用于對結(jié)果進(jìn)行標(biāo)識。使用所有變量:單擊此按鈕,左側(cè)源變量列表的所有變量將進(jìn)行特定的分析列表框,數(shù)值型變量將全部進(jìn)入定量變量框,字符型等變量全部進(jìn)入分類變量列表框。分類變量:選入待分析的分類變量,選入分類變量后,還可以在下方模塊解讀2.“模式”按鈕單擊“模式”按鈕,彈出圖11-2所示的“缺失值分析:模式”對話框,此對話框是用于設(shè)置顯示輸出表格中的缺失數(shù)據(jù)模式和范圍。模塊解讀2.“模式”按鈕模塊解讀3.“描述”按鈕單擊“描述”按鈕,彈出圖11-3所示的“缺失值分析:描述統(tǒng)計(jì)”對話框,設(shè)置要顯示的缺失值描述統(tǒng)計(jì)變量。模塊解讀3.“描述”按鈕模塊解讀4.“估計(jì)”選項(xiàng)框:“EM”按鈕單擊“EM”按鈕,彈出“缺失值分析:EM”對話框,如圖11-4所示。此對話框用于設(shè)置EM算法的相關(guān)參數(shù)。模塊解讀4.“估計(jì)”選項(xiàng)框:“EM”按鈕(3)“回歸”按鈕單擊“回歸”按鈕,彈出“缺失值分析:回歸”對話框,如圖11-5所示。此對話框用于設(shè)置回歸法的相關(guān)參數(shù)??梢赃x擇殘差、普通變量、Student’t變量或無調(diào)節(jié)。(3)“回歸”按鈕(4)“變量”按鈕單擊“變量”按鈕,彈出“缺失值分析:EM的變量和回歸”對話框。如圖11-6所示,用于選擇指定變量的方式,默認(rèn)使用所有定量變量。(4)“變量”按鈕實(shí)例詳解

例11.1:對某種疾病住院患者的部分調(diào)查數(shù)據(jù),見例11-1.sav。1.操作步驟(1)選擇“分析”|“缺失值分析”命令,如圖11-7所示,彈出圖11-1所示的對話框;(2)將“年齡,住院天數(shù),受傷至入院的間隔時(shí)間”選入定量變量框,“性別”選入分類變量框;(3)單擊“模式”按鈕,彈出如圖11-2所示,選中輸出選項(xiàng)組中的“按照缺失值模式分組的表格個(gè)案”復(fù)選框,從缺失值模式列表框中選中住院天數(shù)和性別兩個(gè)變量進(jìn)入附加信息框,其他采取默認(rèn)設(shè)置。單擊“繼續(xù)”,返回主對話框。實(shí)例詳解

例11.1:對某種疾病住院患者的部分調(diào)查數(shù)據(jù),見例(4)單擊“描述”按鈕,彈出如圖11-3所示,選擇單變量統(tǒng)計(jì)量復(fù)選框及指示變量統(tǒng)計(jì)量選項(xiàng)組中的“使用有指示變量形成的分組進(jìn)行的t檢驗(yàn)”,為分類變量和指示變量生成交叉表。(5)選中“估計(jì)”選項(xiàng)框中的“EM和回歸”,其余采用默認(rèn)設(shè)置。(6)單擊“確定”按鈕運(yùn)行,輸出結(jié)果。(4)單擊“描述”按鈕,彈出如圖11-3所示,選擇單變量統(tǒng)計(jì)SPSS缺失值分析課件表11-1所示的“單變量統(tǒng)計(jì)”表給出了所有分析變量未

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論