第3章SPSS200數(shù)據(jù)的預處理

上傳人：q*** IP屬地：湖北上傳時間：2022-07-06 格式：PPT 頁數(shù)：65 大?。?03.50KB 積分：28 舉報 版權申訴

已閱讀5頁，還剩60頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、第三章第三章 SPSS數(shù)據(jù)數(shù)據(jù)的預處理的預處理為什么要進行數(shù)據(jù)的預處理為什么要進行數(shù)據(jù)的預處理n在數(shù)據(jù)文件建立之后，通常還需要對分析的數(shù)據(jù)進行必要的預加工處理，這是數(shù)據(jù)分析過程中必不可少的一個關鍵步驟。n數(shù)據(jù)的預加工處理服務于數(shù)據(jù)分析和建模，主要包括以下幾個問題：數(shù)據(jù)的排序數(shù)據(jù)的排序變量計算變量計算數(shù)據(jù)選取數(shù)據(jù)選取計數(shù)計數(shù) 分類匯總分類匯總數(shù)據(jù)分組數(shù)據(jù)分組數(shù)據(jù)預處理的其他功能：轉(zhuǎn)置、加權、數(shù)據(jù)數(shù)據(jù)預處理的其他功能：轉(zhuǎn)置、加權、數(shù)據(jù)拆分、缺失值處理、數(shù)據(jù)排秩、定義變量集。拆分、缺失值處理、數(shù)據(jù)排秩、定義變量集。預處理的內(nèi)容預處理的內(nèi)容3.1 數(shù)據(jù)的排序數(shù)據(jù)的排序nSPSS的數(shù)據(jù)排序是

2、將數(shù)據(jù)編輯窗口中的數(shù)據(jù)按照某個或多個指定變量的變量值升序或降序重新排列。這里的變量也稱為排序排序變量變量。排序變量只有一個時，排序稱為單單值排序值排序。排序變量有多個時，排序稱為多多重排序重排序。多重排序中，第一個指定的排序變量稱為主排序變量主排序變量，其他依次指定的變量分別稱為第二排序變量第二排序變量、第三排序變量第三排序變量等。數(shù)據(jù)排序便于數(shù)據(jù)的瀏覽，有助于了解數(shù)據(jù)的取值狀況、缺失值數(shù)量的多少等；通過數(shù)據(jù)排序能夠快捷的找到數(shù)據(jù)的最大值和最小值，進而可以計算出數(shù)據(jù)的全距，初步把握和比較數(shù)據(jù)的離散程度；通過數(shù)據(jù)排序能夠快捷地發(fā)現(xiàn)數(shù)據(jù)的異常值，為進一步明確它們是否會對分析產(chǎn)生重要影響提供幫助。3

3、.1.1數(shù)據(jù)排序的作用 SPSS數(shù)據(jù)排序的基本操作步驟（1）選擇菜單數(shù)據(jù)排序個案數(shù)據(jù)排序個案（2）將主排序變量從左邊的列表中選到“排排序依據(jù)序依據(jù)”框中，并在“排列順序排列順序”框中選擇按該變量的升序還是降序排序。（3）如果是多重排序，還要一次指定第二、第三排序變量及相應的排序規(guī)則。3.1.2 數(shù)據(jù)排序的基本操作 1、數(shù)據(jù)排序是整行數(shù)據(jù)排序，而不是只對某列變量排序； 2、多重排序中指定排序變量的次序很關鍵。先指定的變量優(yōu)先于后指定的變量。多重排序可以在按某個變量值升序（或降序）排序的同時再按其他變量值降序（或升序）排序； 3、數(shù)據(jù)排序后，原有數(shù)據(jù)的排序次序必然被打亂。說明3.2 變量計算

4、n數(shù)據(jù)的轉(zhuǎn)換處理是在原有數(shù)據(jù)的基礎上，計算產(chǎn)生一些含有更豐富信息的新數(shù)據(jù)。例如根據(jù)職工的基本工資、失業(yè)保險、獎金等數(shù)據(jù)，計算實際月收入，這些新變量具有更直觀更有效的特點。3.2.1 變量計算的目的nSPSS變量計算是在原有數(shù)據(jù)的基礎上，根據(jù)用戶給出的SPSS算術表達式以及函數(shù)，對所有個案或滿足條件的部分個案，計算產(chǎn)生一系列新變量。（1）變量計算是針對所有個案（或指定的部分個案）的，每個個案都有自己的計算結果。（2）變量計算的結果應保存到一個指定變量中，該變量的數(shù)據(jù)類型應與計算結果的數(shù)據(jù)類型相一致。在變量計算過程中涉及到幾個概念：SPSS算數(shù)表達式、SPSS條件表達式和SPSS函數(shù)。n指出

5、按照什么方法計算變量；nSPSS算術表達式是由常量、變量、算術運算符、圓括號、函數(shù)等組成的式子。字符型常量應當用引號括起來變量是指那些已存在于數(shù)據(jù)編輯窗口中的原有變量算術運算符主要包括、*、/、*（乘方）在同一算術表達式中的常量及變量，數(shù)據(jù)類型應該一致，否則無法計算 3.2.2 SPSS算術表達式n在變量計算中通常要求對不同的個案分別按照不同的方法進行計算，于是就需要通過一定的方式來指定個案；nSPSS條件表達式是一個對條件進行判斷的式子。其結果有兩種取值：如果判斷條件成立，則結果為真；如果判斷條件不成立，則結果為假。條件表達式包括簡單條件表簡單條件表達式達式和復合條件表達式復合條件表達式。3

6、.2.3 SPSS條件表達式（1）簡單條件表達式由關系運算符、常量、變量以及算術表達式等組成的式子。其中關系運算符包括、。（nl35）（2）復合條件表達式又稱邏輯表達式，是由邏輯運算符號、圓括號和簡單條件表達式等組成的式子。其中，邏輯運算符號包括&或或AND（并且）、（并且）、|或或OR（或者）、或（或者）、或NOT（非）（非）。NOT的運算優(yōu)先級最高，其次是AND，最低是OR?？梢酝ㄟ^圓括號改變運算的優(yōu)先級。（nl=35）and not （zc3）nSPSS函數(shù)是事先編好并存儲在SPSS軟件中，能夠?qū)崿F(xiàn)某些特定計算任務的一段計算機程序。這些程序都有各自的名字稱為函數(shù)名函數(shù)名。執(zhí)行這些程序

7、段得到的計算結果稱為函數(shù)值函數(shù)值。函數(shù)書寫的具體形式為：函數(shù)名（參數(shù)）函數(shù)名（參數(shù)）3.2.4 SPSS函數(shù) 其中，函數(shù)名是SPSS已經(jīng)規(guī)定好的，參數(shù)可以是常量（字符型常量應用引號括起來），也可以是變量或算術表達式。參數(shù)可能是一個，也可能是多個，各參數(shù)之間用逗號逗號分隔。 SPSS函數(shù)大致可以分成八大類：算術算術函數(shù)、統(tǒng)計函數(shù)、分布函數(shù)、邏輯函數(shù)、函數(shù)、統(tǒng)計函數(shù)、分布函數(shù)、邏輯函數(shù)、字符串函數(shù)、缺失值函數(shù)、日期函數(shù)和其字符串函數(shù)、缺失值函數(shù)、日期函數(shù)和其他函數(shù)他函數(shù)。n（1）選擇菜單轉(zhuǎn)換計算變量轉(zhuǎn)換計算變量，彈出“計算變計算變量量”對話框如下：3.2.5 變量計算的基本操作（2）在“目標變量

8、”框中輸入存放計算結果的變量名。該變量可以是一個新變量，也可以是已經(jīng)存在的變量。如果指定存放計算結果的變量為新變量，SPSS會自動創(chuàng)建它；如果指定產(chǎn)生的變量已經(jīng)存在，SPSS會提問是否以計算結果覆蓋原有值。新的變量默認為數(shù)值型，用戶可以根據(jù)需要單擊【類型與標簽】按鈕修改，還可以對新變量加變量名標簽。（3）在“數(shù)字表達式”框給出SPSS算術表達式?？梢允止ぽ斎?，也可以按窗口的按鈕以及函數(shù)下拉菜單輸入。（4）如果希望對符合一定條件的個案進行變量計算，則單擊【如果】【如果】按鈕，出現(xiàn)下面的窗口，選擇【如果個案滿足條件【如果個案滿足條件則包括】則包括】選項，然后輸入條件表達式。對不滿足條件的個案，將不

9、進行變量值計算，對新變量取值為系統(tǒng)缺失值。3.3 數(shù)據(jù)選取n數(shù)據(jù)選取就是根據(jù)分析的需要，從已收集到的大批量數(shù)據(jù)（總體）中按照一定的規(guī)則抽取部分數(shù)據(jù)（樣本）參與分析的過程，通常也稱為抽樣抽樣。 SPSS可根據(jù)指定的抽樣方法從數(shù)據(jù)編輯窗口中選出部分樣本以實現(xiàn)數(shù)據(jù)選取，這樣后面的分析操作就只針對選出的數(shù)據(jù)，直到用戶取消這種選取為止。（1）選取全部數(shù)據(jù)（2）按指定條件選取 SPSS要求用戶以條件表達式給出數(shù)據(jù)選取的條件，SPSS將自動對數(shù)據(jù)編輯窗口中的所有個案進行條件判斷。那些滿足條件的個案，即條件判斷為真的個案將被自動選取出來，而那些條件判斷為假的個案則不被選中。3.3.1 數(shù)據(jù)選取的基本方式（3）

10、隨機抽樣，即對數(shù)據(jù)編輯窗口中的所有個案進行隨機篩選，包括如下兩種方式：第一，近似抽樣近似抽樣要求用戶給出一個百分比數(shù)值，SPSS將按照這個比例自動從數(shù)據(jù)編輯窗口中隨機抽取相應百分比數(shù)目的個案。注：由于SPSS在樣本抽樣方面的技術特點，抽取出的個案總數(shù)不一定恰好精確地等于用戶指定的百分比數(shù)目，會有小的偏差，因而稱為近似抽樣。第二，精確抽樣精確抽樣要求用戶給出兩個參數(shù)。第一個參數(shù)是希望選取的個案數(shù)，第二個參數(shù)是指定在前幾個個案中選取。SPSS自動在數(shù)據(jù)編輯窗口的前若干個個案中隨機精確地抽出相應個數(shù)的個案來。（4）選取某一區(qū)域內(nèi)的樣本，即選取數(shù)據(jù)編輯窗口中樣本號在指定范圍內(nèi)的所有個案，要求

11、給出這個范圍的上、下界個案號碼。這這種抽樣方法適用于時間序列數(shù)據(jù)。種抽樣方法適用于時間序列數(shù)據(jù)。（5）通過過濾變量選取樣本，即依據(jù)過濾變量的取值進行樣本選取。要求指定一個變量作為過濾變量，變量值為非0或非系統(tǒng)缺失值的個案將被選中。這種方法通常用于排除這種方法通常用于排除包含系統(tǒng)缺失值的個案。包含系統(tǒng)缺失值的個案。說明：說明：（1）完成數(shù)據(jù)選取后，以后的SPSS分析操作僅針對那些被選中的個案直到用戶再次改變數(shù)據(jù)的選取為止。（2）采用指定條件選取和隨機抽樣方法進行數(shù)據(jù)選取后，SPSS將在數(shù)據(jù)編輯窗口中自動生成一個名為filter_$的新變量，取值為1或0。1表示本個案被選中，0表示未被選中。該

12、變量是SPSS產(chǎn)生的中間變量，如果刪除它則自動取消樣本抽樣。（1）選擇菜單數(shù)據(jù)數(shù)據(jù)選擇個案選擇個案（2）根據(jù)分析需要選擇數(shù)據(jù)選取方法（3）“不篩選個案”指定對未選中個案的處理方式“過濾掉未選定的個案過濾掉未選定的個案”表示在未被選中的個案號碼上打一個“/”標記；“刪除未選定個案”表示將未被選中的個案從數(shù)據(jù)編輯窗口中刪除。 3.3.2 數(shù)據(jù)選取的基本操作“選擇個案”對話框3.4 計數(shù)n3.4.1 計數(shù)目的 SPSS實現(xiàn)的計數(shù)是對所有個案或滿足某條件的部分個案，計算若干變量中有幾個變量的值落在指定的區(qū)間內(nèi)，并將計數(shù)結果存入一個新變量中的過程。例如對大學畢業(yè)班學生的成績進行綜合測評時，可以依次計算每

13、個學生的若干門課程中有幾門課程得了優(yōu)，有幾門課程得了良，有幾門課程不及格。 SPSS實現(xiàn)計數(shù)的關鍵步驟是：指定哪些變量參與計數(shù)，計數(shù)的結果存入哪個新變量中指定計數(shù)區(qū)間（尤為關鍵） SPSS中的計數(shù)區(qū)間可以有以下幾種描述形式：v單個變量值單個變量值v系統(tǒng)缺失值系統(tǒng)缺失值v系統(tǒng)缺失值或用戶缺失值系統(tǒng)缺失值或用戶缺失值v給定最大值和最小值的區(qū)間給定最大值和最小值的區(qū)間v小于等于某指定值的區(qū)間小于等于某指定值的區(qū)間v大于等于某指定值的區(qū)間大于等于某指定值的區(qū)間3.4.2 計數(shù)區(qū)間上述后三個計數(shù)區(qū)間很容易理解。例如例如評價學生成績，成績?yōu)閮?yōu)的計數(shù)區(qū)間可以指定為“從90 最低到值”，成績?yōu)榱嫉挠嫈?shù)區(qū)間指

14、定為80 到 89，不及格的計數(shù)區(qū)間指定為從“ 59最高到值”。前三個計數(shù)區(qū)間實際上是一些離散的數(shù)據(jù)點，嚴格講并不是區(qū)間，但SPSS仍將其歸在廣義區(qū)間的范疇內(nèi)，目的是方便一些其他的應用。（1）選擇菜單轉(zhuǎn)換對個案內(nèi)的值計數(shù)轉(zhuǎn)換對個案內(nèi)的值計數(shù)，出現(xiàn)如下窗口：3.4.3 計數(shù)的基本操作（2）將參與計數(shù)的變量選到 “變量變量”框中（3）在“目標變量”框中輸入存放計數(shù)結果的變量名，并在“目標標簽目標標簽”框中輸入相應的變量名標簽。（4）單擊【定義值】【定義值】按鈕定義計數(shù)區(qū)間，出現(xiàn)如下圖窗口：通過單擊【添加】、【更正】、【刪除】、【更正】、【刪除】按鈕完成計數(shù)區(qū)間的增加、修改和刪除。（5）如果僅希

15、望對滿足某條件的個案進行計數(shù)，則單擊【如果】【如果】按鈕并輸入相應的SPSS條件表達式。否則，本步可略去。3.5 分類匯總n3.5.1 分類匯總的目的分類匯總是按照某分類變量進行分類匯總計算。例如：某企業(yè)希望了解本企業(yè)不同學歷職工的基本工資上是否存在較大差距。最簡單的做法就是分類匯總，即將職工按學歷進行分類，分別計算不同學歷職工的平均工資，然后可對平均工資進行比較。再例如，某商廈希望分析假日周內(nèi)不同職業(yè)和不同年齡段的顧客對某商品的“打折促銷”反應是否存在較大差異，用以分析不同消費群體的消費心理。最初步的分析可以是分別計算不同職業(yè)中不同年齡段顧客的平均消費金額和平均消費金額差異程度（標準差

16、），并對它們進行比較。這個過程也可以通過分類匯總過程完成。 SPSS實現(xiàn)分類匯總涉及兩個主要方面：v按照哪個變量（如上例中的學歷、職業(yè)和年齡段）進行分類v對哪個變量（如上例中的基本工資、消費金額）進行匯總，并指定對匯總變量計算哪些統(tǒng)計量（如上例中的平均工資、平均消費金額和標準差）（1）選擇菜單數(shù)據(jù)分類匯總數(shù)據(jù)分類匯總，出現(xiàn)如下所示的窗口：3.5.2 分類匯總的基本操作（2）將分類變量選到“分組變量分組變量”框中（3）將匯總變量選到“變量摘要變量摘要”框中（4）單擊【函數(shù)】【函數(shù)】按鈕，指定對匯總變量計算哪些統(tǒng)計量。SPSS默認計算均值。（5）指定將分類匯總結果保存到何處。有三種選擇：第一，“

17、將匯總變量添加到活動數(shù)據(jù)集”，表示將結果存放到當前數(shù)據(jù)編輯窗口中。第二，“創(chuàng)建只包含匯總變量的新數(shù)據(jù)集”，表示將結果存放到系統(tǒng)默認的名為aggr.sav的SPSS數(shù)據(jù)文件中，可以單擊【文件】按鈕，重新指定文件名；第三，“寫入只包含匯總變量的新數(shù)據(jù)文件”，表示用分類匯總結果覆蓋數(shù)據(jù)編輯窗口中的數(shù)據(jù)。一般選擇第二種方式，結果比較清晰。（6）單擊【變量名與標簽】按鈕，重新指定結果文件中的變量名或添加變量名標簽。SPSS默認的變量名為原變量名后加_統(tǒng)計量統(tǒng)計量名稱名稱。（7）如果希望在結果文件中保存各分類組的個案數(shù)，則選擇個案數(shù)個案數(shù)選項。于是，SPSS會在結果文件中自動生成一個默認名為N_Br

18、eak的變量，可以修改該變量名。說明：說明：分類匯總中的分類變量可以是多個，此時的分類匯總稱為多重分類匯總多重分類匯總。如上述不同職業(yè)和不同年齡段顧客消費的例子即是多重分類匯總的應用。類似于數(shù)據(jù)的排序，在多重分類匯總中，指定多個分類變量的前后次序是很關鍵的。第一個指定的分類變量為主分類變量（如職業(yè)），其他的依次為第二（如年齡段）、第三分類變量等，它們決定了分類匯總的先后次序。3.6 數(shù)據(jù)分組n3.6.1 數(shù)據(jù)分組的方法數(shù)據(jù)分組就是根據(jù)統(tǒng)計研究的需要，將數(shù)據(jù)按照某種標準重新劃分為不同的組別。在數(shù)據(jù)分組的基礎上進行的頻數(shù)分析更能夠概括和體現(xiàn)數(shù)據(jù)的分布特征。為適用于不同的統(tǒng)計分析需要，SPSS提

19、供了以下幾種數(shù)據(jù)分組方法：單變量值分組單變量值分組組距分組組距分組居民家庭按人口數(shù)單項式分組居民家庭按人口數(shù)單項式分組按家庭人口數(shù)分組按家庭人口數(shù)分組（人）（人）居民戶數(shù)居民戶數(shù)（戶）（戶）12345人及以上人及以上合計合計離散型變量如果變量值離散型變量如果變量值的變動范圍不大，可以將一的變動范圍不大，可以將一個變量值作為一組，稱單項個變量值作為一組，稱單項式分組。如右表：式分組。如右表：單項式分組在連續(xù)型變量或離散在連續(xù)型變量或離散型變量值較多的情況型變量值較多的情況下，可采用組距式分下，可采用組距式分組形式。組形式。n 組距式分組就是把全組距式分組就是把全部變量值劃分為幾個部變

20、量值劃分為幾個區(qū)間，每一區(qū)間的變區(qū)間，每一區(qū)間的變量值作為一組。如右量值作為一組。如右表：表：按日產(chǎn)零件數(shù)分組按日產(chǎn)零件數(shù)分組（個）（個）工人數(shù)工人數(shù)（人）（人）506060707080809090以上以上合計合計組距式分組n在組距式分組中涉及到了幾個在組距式分組中涉及到了幾個關鍵點關鍵點：na.組距組距：區(qū)間的距離即為組距。：區(qū)間的距離即為組距。nb.組數(shù)組數(shù)：組數(shù)的多少以分組后能恰當反映總體內(nèi)部：組數(shù)的多少以分組后能恰當反映總體內(nèi)部的分布特征和規(guī)律為好。的分布特征和規(guī)律為好。nc.組距組距（最大值（最大值-最小值）最小值）組數(shù)。組數(shù)。 nd.根據(jù)組距各組的組距是否相等，又可以分為等距根據(jù)組

21、距各組的組距是否相等，又可以分為等距分組和不等距分組兩種方式。分組和不等距分組兩種方式。 ne.組限組限：組距兩端的數(shù)值稱為組限，每組的最大值：組距兩端的數(shù)值稱為組限，每組的最大值稱為上限，用稱為上限，用“最高值最高值”表示，每組的最小值稱為表示，每組的最小值稱為下限，用下限，用“最低值最低值”表示。表示。統(tǒng)計數(shù)據(jù)時，注意統(tǒng)計數(shù)據(jù)時，注意“上上組限不在內(nèi)組限不在內(nèi)”法則。另外，極端組可采用開放式組法則。另外，極端組可采用開放式組距。距。nf.組中值組中值：每組上、下限之間的中點數(shù)值。即：組：每組上、下限之間的中點數(shù)值。即：組中值中值=（上限十下限）（上限十下限）2。例如：職工基本情況數(shù)據(jù)，

22、可按基本工資對職工進行分組，見下表：按工資分組（元）頻數(shù)（人）頻率（）850以下531.3850900531.390095016.39501000212.51000以上318.6SPSS單變量值分組的基本操作步驟：（1）選擇菜單轉(zhuǎn)換自動重新編碼自動重新編碼（2）將分組變量選擇到變量新名稱新名稱框中（3）在“新名稱”框后輸入存放分組結果的變量名，并單擊【添加新名稱】按鈕（4）在“在重新編碼的起點”框中選擇單變量值分組按升序還是按降序進行?！白畹椭怠北硎旧颍弧白罡咧怠北硎窘敌?。3.6.2 SPSS的單項式分組組數(shù)和組距確定后，便可實施分組操作了，在分組操作時應：v指定分組變量v定義分組區(qū)間

23、（注意遵循“不重不漏不重不漏”原則）v指定存放結果的變量 SPSS對分組結果有兩種存放策略，一種是用分組變量值覆蓋原變量（重新編碼到相同變量），另一種是將分組結果存到一個新變量中（重新編碼到不同變量）。相應的操作也略有差異，通常采用第二種策略。3.6.3 SPSS的組距式分組1、 “重新編碼到相同變量”分組操作（1）選擇菜單轉(zhuǎn)換轉(zhuǎn)換重新編碼到相同變量重新編碼到相同變量。（2）在出現(xiàn)的窗口中將分組變量選擇到“變量變量”框中。（3）單擊【新值和舊值】【新值和舊值】按鈕進行分組區(qū)間定義。（4）在分組區(qū)間定義窗口中指定分組區(qū)間的下限和上限，并在“新值新值”框中給出該區(qū)間對應的分組值。單擊【添加】【添

24、加】按鈕確認分組區(qū)間并加到舊舊新新框中。單擊【更改】【更改】和【刪除】【刪除】按鈕來修改和刪除分組區(qū)間。（5）如果僅對符合一定條件的個案分組，則單擊【如果】【如果】按鈕并輸入SPSS條件表達式。否則，本步可略去。2、“重新編碼到不同變量”分組操作（1）選擇菜單轉(zhuǎn)換重新編碼到不同變量重新編碼到不同變量。（2）在出現(xiàn)的窗口中將分組變量選擇到輸入變量輸出變量輸出變量框中。（3）在“輸出變量”后輸入存放分組結果的變量名，并單擊【更正】按鈕確認?？梢栽凇皹撕灐焙筝斎胂鄳淖兞棵麡撕?。（4）單擊【舊值和新值】按鈕進行分組區(qū)間定義（方法與前面相似）。（5）如果僅對符合一定條件的個案分組，則單擊【如果

25、】按鈕并輸入SPSS條件表達式。否則，本步可略去。3.7 數(shù)據(jù)預處理的其他功能n3.7.1 數(shù)據(jù)轉(zhuǎn)置 SPSS的數(shù)據(jù)轉(zhuǎn)置就是將數(shù)據(jù)編輯窗口中數(shù)據(jù)的行列互換?；静僮鞑襟E如下：（1）選擇菜單數(shù)據(jù)轉(zhuǎn)置轉(zhuǎn)置。（2）指定數(shù)據(jù)轉(zhuǎn)置后應保留哪些變量，將它們選入“變量”框中，未被選中的變量將在新文件中缺失。（3）指定轉(zhuǎn)置后數(shù)據(jù)文件中各變量如何取名。應選擇一個取值唯一的變量（如職工號）作為標記變量并放到“名稱變量”框中。轉(zhuǎn)置后數(shù)據(jù)各變量取名為K_標記變量值標記變量值（如K_001、K_002、K_003等）。如果略去本步，則轉(zhuǎn)置后數(shù)據(jù)各變量名默認為VAR00001，VAR00002，VAR00003等

26、。同時，SPSS還會自動產(chǎn)生一個名為Case_lbl的新變量，用來存放原數(shù)據(jù)文件中的各變量名。3.7.2 加權處理n統(tǒng)計分析中的加權處理是極為常見的，如計算加權平均數(shù)等。例如，希望掌握菜市場某天蔬菜銷售的平均價格。如果僅用各種蔬菜銷售單價的平均數(shù)作為平均價格就很不合理，還應考慮到銷售量對平均價格的影響。因此，以蔬菜的銷售量為權數(shù)計算各種蔬菜銷售單價的加權平均數(shù)，就能夠較準確地反應平均價格水平。fxfx SPSS中指定加權變量的操作步驟是：（1）選擇菜單數(shù)據(jù)加權個案加權個案。（2）選擇“加權個案”選項，并將某變量作為加權變量選到“加權個案”框中。注意的是一旦指定了加權變量，那么以后的分

27、析處理中加權是一直有效的，直到取消加權為止。取消加權應選擇“請勿對個案加權”選項。 SPSS的數(shù)據(jù)拆分與數(shù)據(jù)排序很相似，但有一個重要的不同點，即數(shù)據(jù)拆分不僅是按指定變量進行簡單排序，更重要的是根據(jù)變量對數(shù)據(jù)進行分組，為以后的分組統(tǒng)計分析提供便利。3.7.3 數(shù)據(jù)拆分1、SPSS數(shù)據(jù)拆分的基本操作步驟：（1）選擇菜單數(shù)據(jù)拆分文件數(shù)據(jù)拆分文件，出現(xiàn)窗口（2）將拆分變量選到“分組方式”框中（3）拆分會使后面的分組統(tǒng)計產(chǎn)生兩種不同格式的結果。其中，“比較組”表示將分組統(tǒng)計結果輸出在同一表格中，以便于不同組之間的比較；“按組組織輸出”表示將分組統(tǒng)計結果分別輸出在不同的表格中。通常選擇第一種輸出方式。（4

28、）如果數(shù)據(jù)編輯窗口中的數(shù)據(jù)已經(jīng)事先按所指定的拆分變量進行了排序，則可以選擇“文件已排序”項，可以提高拆分執(zhí)行的速度；否則，選擇“按分組變量排序文件”項。 2、說明：（1）數(shù)據(jù)拆分將對后面的分析一直起作用，即無論進行哪種統(tǒng)計分析，都將按拆分變量的不同組別分別分析計算。如果希望對所有數(shù)據(jù)進行整體分析，則需要重新執(zhí)行數(shù)據(jù)拆分，在數(shù)據(jù)拆分窗口中選擇“分析所有個案”選項。（2）對數(shù)據(jù)可以進行多重拆分，類似于數(shù)據(jù)的多重排序。多重拆分的次序決定于選擇拆分變量的前后次序。大量的缺失值會給數(shù)據(jù)分析帶來極大的影響，這就需要采用科學的方法對缺失值進行插補。操作步驟如下：（1）選擇菜單轉(zhuǎn)換替換缺失值替換缺失值（

29、2）將需要插補的變量單擊按鈕送到“新變量”框中，該變量自動會生成一個新的變量，變量名為原變量名_1 （3）在“方式”中選擇插補方法。 3.7.4 SPSS缺失值處理序列 :該變量所有非缺失值的均值臨近點均值：該變量相鄰非缺失值的均值臨近點的中位數(shù)：該變量相鄰非缺失值的中位數(shù) 線性插值法：線性內(nèi)插法（用缺失值前后兩點的中點值做替代，如果前后值有一個是缺失值，則得不到替換值）點處的線性趨勢：用線性擬合方式確定替代值，自變量為1-n的數(shù)值。數(shù)據(jù)排秩是根據(jù)某變量觀測值的大小，按一定的順序排秩，生成一個代表其秩次的新變量，但原始觀測值本身順序不發(fā)生改變。操作步驟如下：（1）選擇菜單轉(zhuǎn)換個案排秩個案排秩（2）將需要排秩的變量單擊按鈕送到 “變量”框中，該變量自動會生成一個新的變量，變量名為R+原變量名；可選擇分類變量到“排序標準”框中，如果選擇，系統(tǒng)將按照此變量的

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第3章SPSS200數(shù)據(jù)的預處理

文檔簡介

溫馨提示

最新文檔

評論

第3章SPSS200數(shù)據(jù)的預處理

文檔簡介

溫馨提示

最新文檔

評論

相關文檔