第四章數(shù)據(jù)特征的描述統(tǒng)計_第1頁
第四章數(shù)據(jù)特征的描述統(tǒng)計_第2頁
第四章數(shù)據(jù)特征的描述統(tǒng)計_第3頁
第四章數(shù)據(jù)特征的描述統(tǒng)計_第4頁
第四章數(shù)據(jù)特征的描述統(tǒng)計_第5頁
已閱讀5頁,還剩110頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第四章數(shù)據(jù)特征的描述統(tǒng)計分析2/6/20231SPSS的主要分析工具——Analyze菜單報告--Reports描述性統(tǒng)計分析--DescriptiveStatistics菜單表格--Tables均值間的比較--CompareMeans菜單一般線性模型――GeneralLinearModel菜單相關(guān)分析――Correlate菜單多元線性回歸與曲線擬合――Regression菜單對數(shù)線性模型——Loglinear菜單聚類分析與判別分析——Classify菜單因子分析與對應(yīng)分析——DataReduction菜單信度分析與多維尺度分析——Scale菜單非參數(shù)檢驗――NonparametricTests菜單時間序列分析--Timeseries

2/6/20232

描述性統(tǒng)計分析是統(tǒng)計分析的第一步,做好這第一步是下面進行正確統(tǒng)計推斷的先決條件。SPSS的許多模塊均可完成描述性分析,但專門為該目的而設(shè)計的幾個模塊則集中在DescriptiveStatistics菜單中,包括:Frequencies:頻數(shù)分析過程,特色是產(chǎn)生頻數(shù)表(主要針對分類變量)Descriptives:數(shù)據(jù)描述過程,進行一般性的統(tǒng)計描述(主要針對數(shù)值型變量)Explore:數(shù)據(jù)探察過程,用于對數(shù)據(jù)概況不清時的探索性分析Crosstabs:多維頻數(shù)分布交叉表分析(列聯(lián)表分析)Ratiostatistics:比率分析2/6/20233第一節(jié)報告分析(Report)第二節(jié)描述性統(tǒng)計分析第三節(jié)比率分析第四節(jié)Means過程第五節(jié)多選項分析主要內(nèi)容2/6/20234第一節(jié)報告分析(Report)1、OLAP在線分析處理過程2、CaseSummaries個案匯總分析過程3、報告摘要分析過程ReportSummariesinRows行形式摘要報告ReportSummariesinColumns

列形式摘要報告2/6/20235按Analyze—Reports—OLAPCubes順序單擊打開如下對話框:摘要變量框:進入此框變量為數(shù)值型變量分層變量框:進入此框變量為數(shù)值型或字符型變量1、OLAP(在線分析處理過程)2/6/20236可選擇的統(tǒng)計量:Sum總和NumberofCases個案數(shù)目Mean均值StandardDeviation標(biāo)準(zhǔn)差PercentofTotalSum占總和的百分比PercentofTotalN占觀察量總數(shù)的百分比Median中位數(shù)GroupingMedian分組中位數(shù)Std.ErrorofMean均值標(biāo)準(zhǔn)誤Minimum最小值Maximum最大值Range極差First首值Last尾值Variance方差Skewness偏度Std.ErrorofSkewness偏度的標(biāo)準(zhǔn)誤Kurtosis峰度Std.ErrorofKurtosis峰度的標(biāo)準(zhǔn)誤HarmonicMean調(diào)和平均數(shù)GeometricMean幾何平均數(shù)2/6/20237標(biāo)題對話框輸入統(tǒng)計量的標(biāo)題

輸入注解,這些注解將顯示在統(tǒng)計量輸出欄的下面04-1下面舉例說明2/6/2023830名少兒身高數(shù)據(jù)表4-12/6/20239(1)操作步驟:1)按Analyze—Reports—OLAPCubes順序單擊打開OLAPCubes對話框2)打開數(shù)據(jù)文件“少兒身高.sav”,將height變量選入SummaryVariable框中,將sex變量作為分組變量選入GroupingVariable框中;3)單擊Statistics按鈕,在Statistics框中選擇Sum、Mean、Median項作為要輸出的統(tǒng)計量;4)單擊Title按鈕,在Title框中輸入“少兒身高分層報告”,單擊Continue返回;單擊OK2/6/2023102/6/202311表4-3個案處理摘要

表4-2說明個案的一些基本情況,包括總個數(shù)、有效值個數(shù)和缺省值個數(shù)。表4-3是分層報告,輸出了總和、均值和中位數(shù)。表4-2(2)輸出結(jié)果及分析2/6/2023122、個案匯總分析過程Ⅰ、主要功能

計算指定變量的分組統(tǒng)計量,分組變量可能是一個,也可以有多個。如是多個,則將所有水平進行交叉分組。每個組中,變量值可以顯示或不顯示。Ⅱ、個案匯總分析按Analyze—Reports—CaseSummaries順序單擊打開CaseSummaries對話框。2/6/202313可在參數(shù)框中輸入數(shù)值,該數(shù)值表示分析過程只對前幾個個案進行帶有缺省值的個案不被顯示在列出個案的同時,顯示個案的序號分組變量:可選擇一個或多個待分析變量:數(shù)值型或字符型變量。SummarizeCases對話框見下圖2/6/202314輸入腳注在輸出結(jié)果中顯示各分組統(tǒng)計量的標(biāo)題在分析過程中剔除帶有缺失值的個案鍵入一個字符以便在輸出結(jié)果中標(biāo)記缺失值輸入標(biāo)題Ⅲ、例題分析:

對表4-1資料(數(shù)據(jù)文件為“04-1少兒身高.sav”)進行個案匯總分析。Options對話框2/6/202315

1)打開數(shù)據(jù)文件“04-1少兒身高.sav”2)打開CaseSummaries對話框,將height選入Variables框中,作為匯總分析的變量,將sex和grade選入GroupingVariables框中作為分組變量。3)清除Displaycases復(fù)選框。4)單擊Statistics按鈕,在Statistics框中選擇Numberofcases、Mean、Median項作為要輸出的統(tǒng)計量;單擊Continue返回。5)單擊OK(1)操作步驟2/6/2023162/6/202317表4-4個案處理摘要

表4-4說明個案的總個數(shù)、有效值個數(shù)和缺省值個數(shù)以及各占的百分比。(2)輸出結(jié)果及分析2/6/202318分組統(tǒng)計量

表4-5分三部分,1、男生身高的基本統(tǒng)計量,2、女生身高的基本統(tǒng)計量,3、全部身高的基本統(tǒng)計量。在每部分中又包括分年級進行的統(tǒng)計和總的統(tǒng)計,這就是交叉分組。表4-52/6/202319Ⅰ、主要功能把個案的統(tǒng)計結(jié)果用一種簡單扼要的表格輸出,有助于更好地把握數(shù)據(jù)的分布特征。Ⅱ、行形式報告摘要按Analyze—Reports—ReportSummariesinRows順序,打開SummariesinRows對話框。3、報告摘要分析過程2/6/2023202/6/202321輸入變量的列標(biāo)題,不輸入則將輸出變量的標(biāo)簽或名稱選擇列標(biāo)題對齊的方式選擇變量值所處的位置以縮進的形式輸出,可輸入縮進數(shù)值;變量值位于列中央鍵入列寬數(shù)值,如不設(shè)列寬,則:如輸出數(shù)值標(biāo)簽,則列寬為數(shù)值標(biāo)簽中的最長者;如輸出變量值,則列寬為變量所定義的寬度;如設(shè)置了列標(biāo)題,則列寬為標(biāo)題的最長者;如未設(shè)置列標(biāo)題,則列寬為輸出的變量標(biāo)簽的最長者。選擇輸出的內(nèi)容:將輸出變量值將輸出變量標(biāo)簽Format對話框2/6/202322輸出列變量之和。輸出列變量的均值。輸出列變量中的最小值。輸出列變量中的最大值。輸出列變量中個案的數(shù)目。輸出列變量中高于Value框中設(shè)定值的個案占總數(shù)的百分比輸出列變量中低于Value框中設(shè)定值的個案占總數(shù)的百分比輸出列變量中位于Low和Hight框中設(shè)定值之間的個案占總數(shù)的百分比輸出標(biāo)準(zhǔn)差。輸出輸出峰度。輸出方差。輸出偏度。Summary對話框2/6/202323Report欄的Option對話框進行缺失值和輸出頁碼的設(shè)置:剔除帶有缺失值的觀測量輸入一個代表系統(tǒng)的和用戶的缺失值字符設(shè)置報告的起始頁碼可進行頁面設(shè)置:可輸入分組變量間的間距行數(shù)(不超過20)每個分組變量都在新的一頁輸出在新的一頁輸出下一個分組變量,并接著上一頁的頁碼輸出下一頁的頁碼輸入設(shè)置分組標(biāo)題和報告內(nèi)容之間的間距,最多可插入20行空白BreakColumn中的Options對話框2/6/202324所輸數(shù)值表示報告的每一頁輸出從第幾行開始所輸數(shù)值表示報告的每一頁輸出在第幾行結(jié)束規(guī)定每一頁輸出的左邊間距規(guī)定每一頁輸出的右邊間距選擇報告輸出內(nèi)容的對齊方式設(shè)置頁面的標(biāo)題、腳注和頁面的距離:設(shè)置標(biāo)題與報告的距離設(shè)置注腳與報告的距離決定分組變量顯示的位置:所有的分組變量值均位于第一列,激活I(lǐng)ndentaneachbreak參數(shù)框在此框中設(shè)置分類變量值縮進的位置。默認為2空格設(shè)置列標(biāo)題的輸出格式:在標(biāo)題下添加下劃線設(shè)置列標(biāo)題下的空白行(默認為2)選擇列標(biāo)題的對齊方式設(shè)置分組變量的顯示位置:顯示在統(tǒng)計量的上一行顯示于統(tǒng)計量的同一行,并覆蓋統(tǒng)計量標(biāo)題設(shè)置分組變量與統(tǒng)計量之間的空白行數(shù)Report欄的Layout對話框2/6/202325按Next進入下一行的設(shè)置,按Previous返回上一行對齊方式選擇特殊變量的值作為標(biāo)題與注腳在此對話框可規(guī)定標(biāo)題與注腳的輸出內(nèi)容和格式,最多可設(shè)置10行Report欄的Titles對話框2/6/202326Ⅲ、列形式報告摘要列形式報告摘要與行形式報告摘要不同之處在于:行形式報告摘要中匯總統(tǒng)計量位于行上,而列形式報告摘要中匯總統(tǒng)計量位于列上。按Analyze—Reports—ReportSummariesinColumns

順序,打開SummariesinColumns對話框。2/6/202327SummariesinColumns對話框

將要分析的變量選入此框,每選一個變量進入框內(nèi),可以單擊Format按鈕,打開Format對話框(與前同),設(shè)置該變量輸出格式(其他方面設(shè)置見下圖)。2/6/2023281、DataColumns欄1)Summary對話框與行形式基本同,不同是只能選擇一個統(tǒng)計量2)Format對話框與行形式同

3)

InsertTotal按鈕按Summary按鈕,出現(xiàn)Summary對話框(如右)InsertTotal按鈕的Summary對話框至少挑選2個參與計算合計的變量,并將其移入右邊變量框。在SummariesinColumns對話框中單擊InsertTotal按鈕,新增Total變量2/6/202329

1)Options對話框(見下圖)2)Format對話框與“行形式”同3)SortSequence欄:確定分組變量升降排序規(guī)則4)Dataarealreadysorted復(fù)選框,已將分組變量排序2、BreakColumns欄顯示每一類分組變量小計結(jié)果,在Label框中鍵入分組變量的標(biāo)簽在此欄中設(shè)置頁面:分組變量間的間距行數(shù),輸入值不超過20每個分組變量都在新的一頁輸出在新的一頁輸出下一個分組變量,并接著上一頁順序編寫頁碼在此欄中設(shè)置小計前的空白行數(shù)2/6/2023303、Preview復(fù)選框:只輸出報告的第一頁,便于用戶預(yù)覽4、Report欄

Options如下圖

Layout對話框與“行形式”同

Titles對話框與“行形式”同Options對話框在每一頁的底部顯示該列的總和,在Label框中鍵入標(biāo)簽剔除帶有缺失值的個案輸入一個代表系統(tǒng)和用戶的缺失值的字符設(shè)置報告的起始頁2/6/202331將表4-1資料(數(shù)據(jù)文件“04-1少兒身高.sav”)進行分析:先做行形式報告輸出,再做列形式報告輸出。(1)單個分組變量的行形式報告按Analyze—Reports—ReportSummariesinRows順序,打開SummariesinRows對話框。挑height變量進入Data框,grade變量進入Break框。單擊BreakColumns欄的Summary按鈕,打開SummaryLinesforgrade對話框,選中MeanofValues、NumberofCases復(fù)選框,再按Continue返回SummariesinRows對話框。選中Displaycases復(fù)選框。單擊Titles按鈕,打開Titles對話框,在標(biāo)題欄的Center框中輸入標(biāo)題“少兒身高分組統(tǒng)計”,再按返回。單擊“OK”完成,輸出結(jié)果見表4—6。Ⅳ、例題分析2/6/2023322/6/202333個案分組報告少兒身高分組統(tǒng)計年級身高----------------------四年級121.40134.10135.80135.50133.40140.30120.90141.40Mean132.85N8五年級131.50132.60140.40137.40128.20129.00129.30132.70130.10139.70133.00124.00138.80138.60MEAN133.24N14六年級129.20136.00132.20140.90136.70137.50125.40137.50Mean134.42N8列出了個案按年級分組后的匯總表表4-62/6/202334打開SummariesinRows對話框,挑選height變量進入Data框,sex、grade變量進入Break框。單擊Summary按鈕,選中Standarddeviation、Kurtosis、Skewness等。選中Break欄中的sex變量,單擊

Summary按鈕,選中MeanofValues、NumberofCases、MinimumValue和MaximumValue,再按Continue返回。選中Break欄中的grade變量,單擊Summary按鈕,選中MeanofValues、NumberofCases復(fù)選框,再按Continue返回。單擊“OK”完成,輸出結(jié)果見表4-7。(2)兩個分組變量的行形式報告2/6/2023352/6/202336

少兒身高分組統(tǒng)計性別年級身高-------------------------男四年級Mean131.70N4五年級Mean132.63N7六年級Mean134.57N4Mean132.90Minimum121.40Maximum140.90N15女四年級Mean134.00N4五年級Mean133.84N7六年級Mean134.27N4Mean134.00Minimum129.90Maximum141.40N15GrandTotalStd.Dev5.70Kurtosis-.29Skewness-.63表分為3部分:1.男生統(tǒng)計量表:各年級的均值和個數(shù),全體男生的均值、個數(shù)、最大值和最小值;2.女生統(tǒng)計量表:各年級的均值和個數(shù),全體女生的均值、個數(shù)、最大值和最小值;3.全體的統(tǒng)計量:標(biāo)準(zhǔn)差、偏度和峰度。

兩個分組變量的行形式報告表4-72/6/202337(3)兩個分組變量的列形式報告打開SummariesinColumns對話框,挑height變量進入Data框;單擊Report欄中的Options對話框,選中Displaygrandtotal復(fù)選框,再按Continue返回;單擊

Summary按鈕,選中MeanofValues,再按Continue返回。先后挑選sex、grade變量進入Break框。單擊Titles按鈕,打開Titles對話框,在標(biāo)題欄的Center框中輸入標(biāo)題“少兒身高分組統(tǒng)計”,再按Continue返回。單擊“OK”完成,輸出結(jié)果見表4-8。2/6/2023382/6/202339

少兒身高分組統(tǒng)計身高性別年級Mean________________________男4133.45131.36134.6女5134.0GrandTotal133.5表分為3部分:1.男生的均值表,按各年級算出均值;2.女生的均值表,按各年級算出均值;3.全體的均值。兩個分組變量的列形式報告表4-82/6/202340第二節(jié)描述性統(tǒng)計分析(DescriptiveStatistics)1、Frequencies頻數(shù)分析表2、Descriptive描述性統(tǒng)計分析過程3、Explore探索分析過程4、Crosstabs列聯(lián)表分析過程2/6/2023411、頻數(shù)分析表Ⅰ、主要功能可對數(shù)據(jù)按組進行歸類整理,形成變量不同水平的頻數(shù)分布表和圖形,對數(shù)據(jù)的分布趨勢進行初步分析。Ⅱ、頻數(shù)分析按Analyze-DescriptiveStatistics-Frequencies順序,打開Frequencies對話框。2/6/202342將一個或多個變量向右移入Variable(s)框。按Statistics按鈕,打開Statistics對話框顯示頻數(shù)分布表按Chart按鈕,打開Chart對話框按Format按鈕,打開Format對話框Frequences主對話框2/6/202343

輸出百分位數(shù):輸出四分位數(shù),顯示25%、50%、75%的百分位數(shù);將數(shù)據(jù)平均分為所設(shè)定的相等等份,可輸入2—100的整數(shù),如鍵入4則輸出第25、50、75百分位數(shù)自定義百分位數(shù),可輸入0—100的整數(shù)。輸入值后:按Add:輸入值后按此鍵,可反復(fù)操作鍵入多個百分位數(shù);按Remove:刪除已鍵入的數(shù)值按Change:重新輸入新數(shù)離散趨勢欄分布形狀欄在計算百分位數(shù)值和中位數(shù)時,假設(shè)數(shù)據(jù)已分組,且用各組的組中值代替各組數(shù)據(jù)集中趨勢欄輸出統(tǒng)計量對話框2/6/202344Chart對話框不輸出任何圖形,為默認輸出條形圖,各條高度代表變量各分類的頻數(shù)輸出圓圖,圓圖中各塊的數(shù)值表示各分類變量的頻數(shù)輸出直方圖,此圖僅適用于區(qū)間型數(shù)值變量。選擇此項后,還可選擇Withnormalcurve,畫出的直方圖帶有正態(tài)曲線只有選擇了條形圖和圓圖項才有效,決定縱軸表示的統(tǒng)計量縱軸表示頻數(shù)縱軸表示百分比2/6/202345Format對話框控制頻數(shù)表輸出的分類數(shù)量,默認為10。多變量框中可設(shè)定多變量表格輸出的格式設(shè)置頻數(shù)表輸出的格式選擇頻數(shù)表中排列順序按變量升序排列,此為默認按變量降序排列按變量各種取值發(fā)生的頻數(shù)的升序排列按變量各種取值發(fā)生的頻數(shù)的降序排列2/6/202346表4—9100名大學(xué)生血清蛋白含量(%)Ⅲ、例題分析04-2對某高校100名大學(xué)生血清蛋白含量(g%)做頻數(shù)分析,數(shù)據(jù)如表4—92/6/202347(1)具體步驟打開數(shù)據(jù)文件“大學(xué)生血清.sav”,按Analyze—DescriptiveStatistic—Frequencies順序,打開Frequencies對話框。將變量xdh移入Variable(s)框,選中Displayfrequencytables復(fù)選框,要求輸出頻數(shù)分布表。單擊Statistics按鈕,選擇要輸出的統(tǒng)計量。單擊Chart按鈕,選擇Histogram項,輸出直方圖,并選擇Withnormalcurve復(fù)選框,輸出正態(tài)曲線。單擊Format按鈕,選Ascending項。單擊“OK”完成。2/6/202348血清蛋白含量的直方圖

血清蛋白含量的統(tǒng)計表(2)輸出結(jié)果及分析2/6/202349血清蛋白含量的頻數(shù)分布表2/6/202350Ⅰ、主要功能調(diào)用此過程對變量進行描述性統(tǒng)計分析,計算均值、標(biāo)準(zhǔn)差、全距和標(biāo)準(zhǔn)誤差等,并可將原始數(shù)據(jù)轉(zhuǎn)換成Z分數(shù)。Ⅱ、描述統(tǒng)計量分析按Analyze/DescriptiveStatistics/Descriptives順序單擊,打開Descriptives主對話框。如圖在左邊框中選一個或多個變量移入如選中此框,將對Variables框中選擇的變量進行標(biāo)準(zhǔn)化,產(chǎn)生相應(yīng)的Z分數(shù),并作為新變量保存到數(shù)據(jù)窗口,其變量名在原變量名前加z。Descriptives對話框

2、描述性統(tǒng)計分析過程2/6/202351Options對話框

基本統(tǒng)計量當(dāng)Variables框中有多個變量時,此框確定其輸出順序:按Variables框中的排列順序輸出按各變量的字母順序輸出按均值的升序排列按均值的降序排列分布Ⅲ、例題分析

04-3已知20個初生嬰兒的體重數(shù)據(jù)如下表,對其進行描述統(tǒng)計分析。2/6/2023522770291527952995286029703087312631254654227235034218341839212669370723102573388120個初生嬰兒的體重(g)(1)操作步驟:打開數(shù)據(jù)文件“嬰兒體重.sav”。打開Descriptives主對話框,選定變量t進入Variable(s)欄中。選中Savestandardizedvaluesasvariables復(fù)選框,要求計算變量的z值,并保存結(jié)果到當(dāng)前數(shù)據(jù)集中。單擊Options按鈕,選中Mean、Std.Deviation、Minimum、Maximum、Variance項。(2)輸出結(jié)果及分析2/6/202353嬰兒體重的描述統(tǒng)計量這時打開原數(shù)據(jù)集,可看到多了一列zt,這是t的z分數(shù),如下圖所示:保存了z分數(shù)的數(shù)據(jù)集2/6/202354Ⅰ、主要功能調(diào)用此過程可檢查數(shù)據(jù)是否有錯誤、考察樣本分布特征及對樣本分布規(guī)律作初步考察,剔除奇異值和錯誤數(shù)據(jù)。探索分析過程將提供在分組或不分組的情況下常用的統(tǒng)計量與圖形。Ⅱ、探索分析按Analyze--DescriptiveStatistics--Explore順序單擊,打開Explore主對話框,如下圖:3、探索分析過程2/6/202355選擇一個或多個變量進入Dependent框作為因變量,單擊OK可獲得因變量的一系列基本統(tǒng)計量和圖形。此作為分組變量,可以是字符變量,對因變量的分析將按該變量的觀測值進行分組分析。可有多個分組變量,這時會按多個變量的交叉組合進行分組。該框中的變量作為標(biāo)識符,在輸出諸如異常值時,用該變量進行標(biāo)識,只允許有一個標(biāo)識符??赏瑫r輸出基本統(tǒng)計量和圖形只輸出基本統(tǒng)計量只輸出圖形Explore主對話框2/6/202356輸出基本統(tǒng)計量均值的置信區(qū)間,可鍵入1—99%的任意值,根據(jù)該值算出置信區(qū)間的上下限。給出中心趨勢的最大似然比的穩(wěn)健估計量,當(dāng)數(shù)據(jù)分布均勻,且兩尾較長,或當(dāng)數(shù)據(jù)中存在極端值時,可給出比均值或中位數(shù)更合理的估計。輸出最大和最小的5個數(shù),且在輸出窗口中加以標(biāo)明。輸出5%、10%、25%、50%、75%、90%和95%的百分位數(shù)。Statistics對話框2/6/202357只有指定分組變量才有效,可輸出分布—水平圖,同時輸出回歸直線斜率以及對方差的Levene’s檢驗不輸出分布—水平圖對每組數(shù)據(jù)產(chǎn)生一個中位數(shù)與四分位數(shù)范圍的自然對數(shù)散點圖,同時在滿足每組數(shù)據(jù)方差相等的條件下對數(shù)據(jù)進行冪變換的估計。根據(jù)在Power參數(shù)框中指定的變換對原始數(shù)據(jù)進行變換。不對數(shù)據(jù)進行轉(zhuǎn)換Explore欄中Plots對話框在此對話框中可選擇要輸出的統(tǒng)計圖形及其參數(shù)。Boxplots欄只有在主對話框中指定了一個以上變量時,才有效。在該欄選擇箱線圖的輸出方式:每一個因變量生成一個箱線圖所有因變量生成一個箱線圖不顯示任何箱線圖生成莖葉圖(默認)生成直方圖輸出正態(tài)概率和離散正態(tài)概率圖,同時輸出K-S統(tǒng)計量中的Lilliefors顯著水平檢驗,如果觀測數(shù)不超過20,將用W-S統(tǒng)計量代替K-S統(tǒng)計量。2/6/202358確定缺失值的處置:因變量或分組變量中帶有缺失值的觀測量都將在分析過程中被剔除。在分析過程中根據(jù)分組變量產(chǎn)生的組中帶缺失值的觀測量都將被剔除。分組變量的缺失值被單獨分為一組,輸出頻數(shù)時將標(biāo)出缺失組。Explore欄中Options對話框Ⅲ、例:04-4下表為30名10歲少兒的身高(cm)數(shù)據(jù),對其進行探索分析編號身高編號身高編號身高男女男女男女1131.5132.76135.5137.511132.2124.02137.4133.07121.4141.412129.0140.33128.2139.78129.2138.813132.6130.14136.0125.49135.4120.914140.9133.45140.4138.610135.8137.515129.3136.72/6/202359(1)操作步驟打開數(shù)據(jù)文件“04-4Explore分析.sav”,打開Explore主對話框,選變量height進入DependentList欄中,選sex變量進入FactorList欄中;在Display欄中選擇Both項;打開Statistics對話框,選中Descriptives、M-estimation、Outliers復(fù)選項,單擊Continue返回;打開Plots對話框,選擇Boxplots欄中的Factorlevelstogether項,選擇Descriptives欄內(nèi)的Stem-and-leaf復(fù)選項,選擇SpreadvslevelwithleveneTest欄中的Powerestimation項,單擊Continue返回。單擊OK。(2)輸出結(jié)果及分析

2/6/202360個案摘要表M估計量表表4-13表4-142/6/202361少兒身高的分組描述統(tǒng)計量表4-152/6/202362少兒身高的極端值方差一致性檢驗表4-16表4-172/6/202363HIGHTStem-and-LeafPlotforSEX=1FrequencyStem&Leaf1.0012.14.0012.89993.0013.1225.0013.555672.0014.00Stemwidth:10.00Eachleaf:1case(s)少兒身高的莖葉圖少兒身高的箱線圖2/6/202364

結(jié)果分析表4-13摘要性地說明了數(shù)據(jù)的基本情況,包括總數(shù)、有效值數(shù)目和缺失值數(shù)。表4-14是按性別分組后的統(tǒng)計量表,上半部分是男生,下半部分是女生的。表4-15下面的a、b、c、d分別表示四種加權(quán)常數(shù),此表的結(jié)果是使用四種不同的方法計算出的M估計量的結(jié)果。表4-16顯示分組后少兒身高的極端值分布,最大值和最小值各取5個。表4-17是方差的一致性檢驗,零假設(shè)是分組后的方差為相等的。表中四行是依據(jù)不同的統(tǒng)計量得到的檢驗,分別是基于均值、基于中位數(shù)、基于中位數(shù)與調(diào)整后的自由度和基于調(diào)整后的均值。由于其P值均大于0.05,不能否定零假設(shè),即可以認為男生和女生的身高的方差是無差異的。2/6/202365莖葉圖從左到右分為三部分:頻數(shù)、莖和葉、莖是整數(shù)部分,葉是小數(shù)部分,Stemwidth表示莖寬。每行的莖和葉組成的數(shù)字再乘以莖寬,即得到實際數(shù)據(jù)的近似值,實際數(shù)據(jù)中與該近似值靠近的值的個數(shù)即為頻數(shù)表示的個數(shù)。箱線圖各部分的含義:方箱是箱線圖的主體,上下邊為四分位數(shù),中間粗線為中位數(shù),變量的50%的觀測值落在這一區(qū)域中。方箱上下兩條縱向直線是觸須線,觸須線外的兩端線為本體的最大值和最小值。本體指除奇異值外的變量值。奇異值用“o”表出,本例中無奇異值。2/6/202366

4、列聯(lián)表分析過程Ⅰ、主要功能

調(diào)用列聯(lián)表分析過程可進行計數(shù)資料和某些等級資料的列聯(lián)表分析,一個行變量和一個列變量可組成一個二維列聯(lián)表,如再加一個控制變量則可組成一個三維列聯(lián)表。而多個行、列、控制變量就可組成一個復(fù)雜的多維列聯(lián)表。在分析中可對二維和多維列聯(lián)表資料進行統(tǒng)計描述和χ2檢驗,并計算相應(yīng)的百分數(shù)指標(biāo)。此外,還可計算四格表確切概率(Fisher’sExactTest),且有單雙側(cè)(One-Tail、Two-Tail)、對數(shù)似然比檢驗(LikelihoodRatio)以及線性關(guān)系的Mantel-Haenszelχ2檢驗。2/6/202367交叉列聯(lián)表分析統(tǒng)計學(xué)上的定義和計算公式定義:前面的分析都是對單個變量的數(shù)據(jù)分布情況進行分析。但在實際分析中,還需要掌握多個變量在不同取值情況下的數(shù)據(jù)分布情況,從而進一步深入分析變量之間的相互影響和關(guān)系,這種分析就稱為交叉列聯(lián)表分析。2/6/202368

交叉列聯(lián)表分析除了列出交叉分組下的頻數(shù)分布外,還需要分析兩個變量之間是否具有獨立性或一定的相關(guān)性。要獲得變量之間的相關(guān)性,僅僅靠頻數(shù)分布的數(shù)據(jù)是不夠的,還需要借助一些變量間相關(guān)程度的統(tǒng)計量和一些非參數(shù)檢驗的方法。2/6/202369常用的衡量變量間相關(guān)程度的統(tǒng)計量是簡單相關(guān)系數(shù),但在交叉列聯(lián)表分析中,由于行列變量往往不是連續(xù)變量,不符合計算簡單相關(guān)系數(shù)的前提條件。因此需要根據(jù)變量的性質(zhì),選擇其他的相關(guān)系數(shù),如Kendall等級相關(guān)系數(shù)、Eta值等。2/6/202370SPSS提供了多種適用于品質(zhì)變量數(shù)據(jù)的相關(guān)系數(shù),這些檢驗的零假設(shè)是:行和列變量之間彼此獨立,不存在顯著的相關(guān)關(guān)系。SPSS將自動給出檢驗的相伴概率,如果相伴概率小于顯著性水平0.05,那么應(yīng)拒絕零假設(shè),認為行列變量之間彼此相關(guān)。2/6/202371計算公式如下(1)卡方統(tǒng)計量檢驗是常用的檢驗行列變量之間是否相關(guān)的方法。交叉列聯(lián)表的卡方檢驗零假設(shè)是:行列變量之間獨立,計算公式為注:其自由度為(行數(shù)?1)×(列數(shù)?1)。2/6/202372(2)Contingencycoefficient:列聯(lián)系數(shù)。用于名義變量之間的相關(guān)系數(shù)計算。計算公式由卡方統(tǒng)計量修改而得,公式為其中,N為有效個案數(shù)。(3)Phi相關(guān)系數(shù):2/6/202373

(4)Gramer’sV:V系數(shù)。用于名義變量之間的相關(guān)系數(shù)計算。計算公式由卡方統(tǒng)計量修改而得,公式為數(shù)值界于0~1之間,其中K為行數(shù)和列數(shù)較小的實際數(shù)。2/6/202374列聯(lián)表分析過程Ⅱ、列聯(lián)表分析程序

按Analyze--DescriptiveStatistics--Crosstabs順序打開Crosstabs主對話框,見下頁:2/6/202375該框中的變量作為分布表中的行(列)變量,必須是數(shù)值型或字符型分類變量。該框中的變量作為控制變量,決定頻數(shù)分布表中的層,可有多個控制變量,如要增加新的控制變量,按Next鍵,要修改以前的變量按Previous鍵顯示每一組中各變量的分類條形圖只輸出統(tǒng)計量,不輸出多維列聯(lián)表。Crosstabs對話框2/6/202376行和列變量相互獨立的假設(shè)檢驗,有多種檢驗法。進行相關(guān)系數(shù)的檢驗,有兩項結(jié)果顯示:Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù)適用于定類變量的統(tǒng)計量:基于卡方檢驗基礎(chǔ)上對相關(guān)性的檢驗用來描述相關(guān)性當(dāng)用自變量預(yù)測因變量時,此系數(shù)反映這種預(yù)測降低錯誤的比率。顯示不確定系數(shù),表示用一個變量來預(yù)測其他變量時降低錯誤的比率適用于定序變量:Gamma系數(shù)反映兩個有序變量間的對稱相關(guān)性。是Gamma檢驗的非對稱推廣。對有序變量和秩變量相關(guān)性的非參數(shù)檢驗。與Kendall’stau-c相似適用于定序變量:用于檢驗相關(guān)性用于檢驗兩個評估人對同一對象的評估是否具有一致系。檢驗?zāi)呈录l(fā)生和某因子之間的關(guān)系進行兩個相關(guān)的二值變量的非參數(shù)檢驗進行一個二值因素變量和一個二值響應(yīng)變量的獨立性檢驗。Crosstabs的Statistics對話框2/6/202377Crosstabs的CellDisplay對話框選擇在列聯(lián)表中輸出的統(tǒng)計量,包括觀測量數(shù)、百分比、殘差輸出觀測值的實際數(shù)量如果行和列變量在統(tǒng)計上是獨立的或不相關(guān)的,那么會在單元格中輸出期望的觀測值的數(shù)量。輸出單元格中觀測量的數(shù)目占整行全部觀測量數(shù)目的百分比輸出單元格中觀測值的數(shù)目占整列全部觀測量數(shù)目的百分比輸出單元格中觀測量的數(shù)目占全部觀測量數(shù)目的百分比計算非標(biāo)準(zhǔn)化殘差計算標(biāo)準(zhǔn)化殘差計算調(diào)整后殘差2/6/202378TableFormat對話框決定各行的排列順序:各行的排列按升序各行的排列按降序Ⅲ、例題

04-5為了探討吸煙與慢性支氣管炎有無關(guān)系,調(diào)查了339人,情況如下:吸煙和慢性支氣管炎調(diào)查表患慢性支氣管炎未患慢性支氣管炎吸煙43162不吸煙131212/6/202379輸入數(shù)據(jù):變量n為采得的數(shù)據(jù);變量x為是否吸煙:1為吸煙,2為不吸煙;變量h為是否患?。?為患病,2為不患病。數(shù)據(jù)文件名為“Crosstab.sav”。在Data菜單中選WeightCases…項,打開WeightCases對話框。

WeightCasesby,再將變量n選入FrequenceVariable框,單擊OK完成加權(quán)。按Analyze--DescriptiveStatistics--Crosstabs

順序打開Crosstabs主對話框。將x變量選入Row框作為行變量,將h變量選入Column框作為列變量。打開Statistics對話框,選中Chi-square\Contingencycoefficient和PhiandCramer’sV復(fù)選框,單擊Continue返回。單擊Cell按鈕,打開Celldisplay對話框,選中observed和Expected復(fù)選框,單擊Continue返回;單擊OK。(1)操作步驟2/6/202380統(tǒng)計摘要表,列出觀測量有效值個數(shù)、缺失值個數(shù)和總的個數(shù)。從下頁的列聯(lián)表中可看出,吸煙人中患病者有43人,比期望值33.9大,不吸煙人中患病者只有13人,比期望值22.1小。(2)輸出結(jié)果及分析

輸出結(jié)果如表:吸煙與患病統(tǒng)計摘要表2/6/202381吸煙與患病列聯(lián)表卡方檢驗2/6/202382卡方檢驗表,從表中可看出,Chi-Square值為7.469,P值為0.006<0.05,應(yīng)否定零假設(shè),即認為吸煙與患慢性支氣管炎是不獨立的。由于使用卡方檢驗要求每個單元格頻數(shù)不少于5,當(dāng)條件不滿足時,還可用Fisher精確檢驗,其雙側(cè)檢驗P值為0.007。列聯(lián)表中變量之間相關(guān)程度測量,主要通過計算品質(zhì)相關(guān)系數(shù)進行檢驗。品質(zhì)相關(guān)系數(shù)檢驗表2/6/202383第三節(jié)比率分析1.比率分析的目的和主要指標(biāo)比率分析用于對兩變量間變量值比率變化的描述分析,適用于數(shù)值型變量。例如根據(jù)[04-6]各地區(qū)保險業(yè)務(wù)保費收入的數(shù)據(jù),分析各地區(qū)財產(chǎn)保險業(yè)務(wù)的保費收入占全部業(yè)務(wù)保費收入的比例情況。2/6/202384

通常的分析可以生成各個地區(qū)財產(chǎn)保險業(yè)務(wù)的保費收入占全部業(yè)務(wù)保費收入的比率變量,然后對該比率變量計算基本描述統(tǒng)計量(如均值、中位數(shù)、標(biāo)準(zhǔn)差、全距等),進而刻畫比率變量的集中趨勢和離散程度。SPSS的比率分析除能夠完成上述分析外,還提供了其他相對比描述指標(biāo),大致也屬于集中趨勢描述指標(biāo)和離散程度描述指標(biāo)的范疇,具體包括:2/6/202385(1)加權(quán)比率均值(Weightedmean):兩變量均值的比,屬集中趨勢描述指標(biāo)。(2)AAD(AverageAbsoluteDeviation)平均絕對離差:是對比率變量離散程度的描述,計算公式為:其中,是比率數(shù),M是比率變量的中位數(shù),N為樣本數(shù)2/6/202386(3)COD(CoefficientofDispersion)離散系數(shù):也是對比率變量離散程度的描述,計算公式為:(4)PRD(Price-relatedDifferential)相關(guān)價格微分:是比率均值與加權(quán)比率均值的比,也是比率變量離散程度的描述。2/6/202387(5)COV變異系數(shù):用于對比率變量離散程度的描述,分為基于均值的變異系數(shù)(MeancenteredCOV)和中位數(shù)的變異系數(shù)(MediancenteredCOV)。前者是通常意義下的變異系數(shù),是標(biāo)準(zhǔn)差除以均值;后者定義為:2/6/2023882.比率分析的基本步驟(1)選擇菜單Analyze-DescriptiveStatistics-Ratio,出現(xiàn)如下窗口2/6/202389(2)將比率變量的分子選擇到Numerator框中,將比率變量的分母選到Denominator框中。(3)如果做不同組間的比率比較,則將分組變量選擇到GroupVariable框中。(4)單擊Statistics按鈕指定輸出哪些關(guān)于比率的描述統(tǒng)計量,出現(xiàn)如下窗口:至此,SPSS將自動計算比率變量,并將相關(guān)指標(biāo)輸出到輸出窗口中。2/6/202390第四節(jié)Means過程一、Means過程

該過程實際上更傾向于對樣本進行描述,可以對需要比較的各組數(shù)據(jù)計算描述指標(biāo),包括均值、標(biāo)準(zhǔn)差、總和、觀測量數(shù)、方差等一系列單變量統(tǒng)計量。二、完全窗口分析

按Analyze—CompareMeans—Means順序,打開Means主對話框(如圖4-1)。2/6/202391圖4—1Means主對話框該框的變量為因變量,即用于分析的變量。該框的變量為自變量,必須至少有一個變量單擊此按鈕,進入下一層,返回則按Previous按鈕。見圖4—22/6/202392Statistics框:供選擇的統(tǒng)計量StatisticsforFirstLayer復(fù)選框:Anovatableandeta:進行分組變量的單因素方差分析并計算eta統(tǒng)計量。Testforlinearity:產(chǎn)生因變量與第一層自變量的R和R2。

圖4—2Options對話框CellStatistics框:

選入的描述統(tǒng)計量,默認為均值、樣本數(shù)、標(biāo)準(zhǔn)差。2/6/202393三、[04-7]例題分析

某醫(yī)生測得如下血紅蛋白值(g%),用Means過程對其做基本的描述統(tǒng)計分析。表5-1血紅蛋白值(g%)編號性別年齡血紅蛋白值hb編號性別年齡血紅蛋白值hb編號性別年齡血紅蛋白值hb111813.661511610.88291167.88211810.57161189.653011812.35311612.56172168.363111613.6542179.871811811.66322169.8752178.99192188.543321810.09621711.35202177.783421812.55711714.562121611.363511816.04811612.402211612.783611813.7892168.052311815.093711711.671011814.03242188.673811710.981121812.83252178.56392168.781211615.502621812.564011611.351321812.252721711.561421710.062811614.672/6/2023941、操作步驟

1)打開數(shù)據(jù)文件“血紅蛋白.sav”。2)按順序AnalyzeCompareMeansMeans打開主對話框(設(shè)置見圖4-3)。3)單擊Option,打開Options對話框,選擇統(tǒng)計量(設(shè)置見圖4-5)。4)單擊OK完成。2/6/202395選hb選sex按Next,進入layer2of2,選age圖4—3在主對話框選送變量圖4—4第二層變量框2/6/202396選擇統(tǒng)計量按此按鈕復(fù)選此2項,對第一層次分組數(shù)據(jù)進行方差分析和線性檢驗圖4—5Options對話框2/6/202397表4—18個案概要表

表4—18是個案概要表,個案總個數(shù)為40,其中有效值為40個、無效值為0。2.結(jié)果及分析2/6/202398表4—19分組描述統(tǒng)計量

表4—19分三部分:第一、二部分先按性別分組,再按年齡分組計算觀測值合計、均數(shù)、標(biāo)準(zhǔn)差、方差和個數(shù);第三部分只按年齡分組,最后一行為合計。2/6/202399表4—21按年齡分組的描述統(tǒng)計量表4—20按性別分組的描述性統(tǒng)計量

血紅蛋白*性別

血紅蛋白*年齡

表4—20、21是將sex和age一起放在layer1of1中,分別計算男、女(不作年齡分組)。年齡分三組(不作性別分組)的觀測值合計、均數(shù)、標(biāo)準(zhǔn)差、方差和個數(shù)。2/6/2023100表4—22方差分析表

表4—22是方差分析表,共6列:第一列方差來源:組間的、組內(nèi)的、總的方差;第二列為平方和;第三列為自由度;第四列為均方;第五列為F值;第六列為F統(tǒng)計量的P值,P值小于0.05,所以性別對血紅蛋白值有顯著影響。2/6/2023101表4—23eta統(tǒng)計量

表4—23是eta統(tǒng)計量表,η統(tǒng)計量表明因變量和自變量之間聯(lián)系的強度,0.567的值處于中等水平,η2是因變量中不同組間差異所解釋的方差比,是組間平方和與總平方和之比,即由64.5256除以200.787得到。2/6/2023102表4—24按年齡分組的方差分析表

表4—24是將年齡作為第一層自變量得到的方差分析表,Linearity是假設(shè)因變量均值是第一層自變量值的線性函數(shù),DeviationfromLinearity是不能由線性模型解釋的部分。2/6/2023103表4—25按年齡分組的eta統(tǒng)計量表4—25是將年齡作為第一層自變量得到的eta統(tǒng)計量表,R和R2測度線性擬合優(yōu)度,R是觀測值與預(yù)測值之間的相關(guān)系數(shù)。2/6/2023104第五節(jié)多選項分析(頻數(shù)分析和交叉分析)多選項問題的概念:多選項問題是根據(jù)實際調(diào)查的需要,要求被調(diào)查者從問卷給出的若干個可選答案中選擇一個以上的答案。目前,市場研究或許多領(lǐng)域?qū)δ呈挛镌u價的研究中常常遇到這樣的問題。可以選多個,分為限選和不限選:限選:如在11種工作種類中,選你喜歡的,最多可選4種(Var1-Var4);求所有人喜歡各種工作的頻數(shù)或頻率。不限選:如在所列的20種電器中,你家所擁有的電器,不限選(Var1-Var20),求所有被調(diào)查家庭擁有各種電器的頻數(shù)或頻率。2/6/20231051.多選項問題的分解多選項問題的分解通常有兩種方法:多選項二分法;多選項分類法。多選項二分法及其編碼(multipledichotomiesmethod):多選項二分法是將多選項問題中的每一個答案設(shè)為一個SPSS變量,每個變量值有0或1兩個取值,分別表示選擇該答案和不選擇該答案。如對下面問題有9個可能的答案,每個可選擇的答案由一個變量表示,每個變量的值只有表明“是”和“否”的兩個代碼0或1。編號調(diào)查內(nèi)容選

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論