醫(yī)學統(tǒng)計學SPSS課件_第1頁
醫(yī)學統(tǒng)計學SPSS課件_第2頁
醫(yī)學統(tǒng)計學SPSS課件_第3頁
醫(yī)學統(tǒng)計學SPSS課件_第4頁
醫(yī)學統(tǒng)計學SPSS課件_第5頁
已閱讀5頁,還剩122頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第一章SPSS概述第一節(jié)SPSS的特點

1.除數(shù)據(jù)需鍵盤操作外,大多數(shù)操作通過“菜單”、“對話框”、“圖標按鈕”完成,易學易用。2.無需花大量時間記憶大量命令、過程、選擇項等。3.三種運行方式,靈活方便。4.可根據(jù)設備情況選擇安裝模塊。5.與其他軟件有數(shù)據(jù)轉(zhuǎn)化接口。6.統(tǒng)計分析方法豐富。7.具有較強的圖表生成、編輯功能。8.豐富的聯(lián)機幫助功能是初學者學習SPSS的幫手。

第二節(jié)SPSS的安裝、啟動和退出一、SPSS的安裝1.啟動Windows。2.把SPSS安裝光盤放入光驅(qū)。3.找到光盤中的setup文件并雙擊,即啟動SPSS的安裝程序。4.用戶最先閱讀版權(quán)聲明,讀完后單擊“next”按鈕,進入下一個畫面。5.指定把SPSS安裝在哪個目錄下。6.選擇安裝的類型,Typical(典型安裝)將安裝對大多數(shù)用戶來說最常用的模塊。7.選擇安裝的組件。單擊“Next”按鈕繼續(xù)安裝。二、SPSS的啟動1.利用“開始”菜單啟動。2.利用快捷圖標啟動。三、SPSS的退出有多種退出方法,可根據(jù)自己的喜好選擇任何一種。第三節(jié)SPSS的系統(tǒng)環(huán)境一、基本概念1.窗口及其類型2.窗口的基本結(jié)構(gòu)(1)標題欄(2)菜單欄(3)工具欄(4)滾動條(5)工作區(qū)

C、執(zhí)行功能按鈕D、擇其一按鈕E、選擇框F、下拉清單二、數(shù)據(jù)編輯窗(DataEditor)1、數(shù)據(jù)編輯窗的打開與關(guān)閉2、數(shù)據(jù)編輯窗的兩個界面(1)DataView界面(2)VariableView界面

3、DataEditor的功能三、結(jié)果輸出窗(SPSSViewer)1、SPSSViewer打開與關(guān)閉(1)自動打開當用戶運行一個SPSS的分析過程后,系統(tǒng)自動打開一個結(jié)果輸出窗。(2)命令打開用戶選擇命令File->New->Output打開結(jié)果輸出窗。(3)關(guān)閉

第四節(jié)SPSS的基本運行方式一、用SPSS作統(tǒng)計分析的一般步驟1。數(shù)據(jù)文件的建立和編輯2。選擇統(tǒng)計分析方法3。選擇分析的變量、設置參數(shù)4。查看、解釋分析結(jié)果二、SPSS系統(tǒng)的三種運行方式1。全屏窗口菜單運行方式2。程序運行方式3。混合運行方式第二章數(shù)據(jù)文件的建立和編輯第一節(jié)概述一、SPSS數(shù)據(jù)文件的結(jié)構(gòu)個案、變量、單元格、當前單元格SPSS數(shù)據(jù)文件以二維表的形式組織數(shù)據(jù)。一行為一個樣品(CASE)或個案,一列為一個變量(VARIABLE),行與列交叉之處為一個單元格,可在其中輸入變量值。二、變量的定義通過數(shù)據(jù)編輯器的VariableView界面來定義。1。變量名(Name)2。變量類型(Type)3。變量長度(Width)4。小數(shù)位數(shù)(Decimals)5。變量名標簽(Label)6。變量值標簽(Values)7。缺失值定義(Missing)三、數(shù)據(jù)的輸入1。數(shù)值型數(shù)據(jù)的輸入2。字符型數(shù)據(jù)的輸入3。日期型數(shù)據(jù)的輸入4。數(shù)據(jù)的輸入方法(按行或按列輸入)第二節(jié)SPSS數(shù)據(jù)文件的建立和編輯一、數(shù)據(jù)文件的建立基本步驟:1。打開新的數(shù)據(jù)編輯窗口2。在VariableView界面下定義變量3。在DataView界面下輸入數(shù)據(jù)4。保存數(shù)據(jù)文件

1女252000.00良11男323000.00良2男373000.00中12男292600.00中3女423200.00良13男423400.00良4男262000.00中14女272400.00及格5男282200.00良15男533600.00中6男302800.00中16女342600.00良7男383200.00良17男353000.00良8女554000.00中18男343600.00優(yōu)9男463400.00優(yōu)19男373000.00良10女272200.00良20男403200.00良二、數(shù)據(jù)文件的編輯(一)插入操作1、插入變量2、插入個案(二)刪除操作1、刪單元2、刪個案3、刪變量4、刪連續(xù)區(qū)域第三節(jié)數(shù)據(jù)文件的整理一、排序1。打開數(shù)據(jù)文件2。選擇Data->SortCase3。選擇排序變量4。選擇排序方式5。擊OK在建立了數(shù)據(jù)文件后,為了某種需要可按關(guān)鍵變量對當前數(shù)據(jù)文件進行排序,重新調(diào)整個案在數(shù)據(jù)文件中的先后順序。例如對“公司年終考核表”數(shù)據(jù)文件,按工資從高到底排序。1.打開數(shù)據(jù)文件,選菜單File->Open->data,在對話框中指定文件名“公司年終考核表”;2.選擇Data->SortCase,打開對話框,3.選擇排序變量,將變量salary置于Sortby框中;4.選擇排序方式Descending;5.擊OK。二、文件轉(zhuǎn)置1。打開數(shù)據(jù)文件2。選擇Data->Transpose3。選擇要轉(zhuǎn)置的變量4。根據(jù)需要選擇‘名稱變量’5。單擊OK

在進行數(shù)據(jù)處理時,有時要對數(shù)據(jù)文件進行分組分析,例如對某公司的男、女員工的工資或年齡進行分組分析,SplitFiles能滿足這種要求。文件拆分并不是將一個文件拆分成多個文件,只是創(chuàng)造分組分析的前提條件。拆分以后的數(shù)據(jù)文件從外觀上看,好像是按“gender”變量升序排序的結(jié)果,但若執(zhí)行某個統(tǒng)計分析過程后,進行的是按男員工和女員工分組分析。四、文件的合并外部數(shù)據(jù)文件、當前數(shù)據(jù)文件(一)縱向合并(AddCase)合并的前提是兩個數(shù)據(jù)文件存在相同變量。1。首先打開一個數(shù)據(jù)文件data05-032。選Data->MergeFile->AddCases3。確定外部數(shù)據(jù)文件data05-044。根據(jù)情況處理數(shù)據(jù)(如配對)5。按OK鍵(二)橫向合并(AddVariables)合并的前提是兩個數(shù)據(jù)文件至少存在一個共同的關(guān)鍵變量,并有一些個案在關(guān)鍵變量上的值相等。1。打開數(shù)據(jù)文件data05-03(當前數(shù)據(jù)文件)2。選Data->MergeFile->AddVariables3。制定外部數(shù)據(jù)文件data05-044。根據(jù)情況處理數(shù)據(jù)5。按OK鍵若兩個文件的樣品數(shù)不等或樣品不是一一對應的關(guān)系,則首先對兩個文件按關(guān)鍵變量升序排列,然后把關(guān)鍵變量送入Key-Variables框中,并激活Matchcaseonkeyvariablesinsortedfiles,從三種方式中選擇一種合并方式。五、分類匯總按指定的分類變量對所有的個案進行分組,對每組中的個案求描述統(tǒng)計量,并生成新的數(shù)據(jù)文件。在新文件中對應分類變量的每個取值產(chǎn)生一個個案。1。打開數(shù)據(jù)文件2。選Data->Aggregate3。選分類變量4。選匯總變量5。按OK鍵6。打開Are.sav查看(例見DATA02-01)例如以公司年終考核表數(shù)據(jù)為例,要求得到不同考核等級員工的平均工資的分組匯總表。1、打開數(shù)據(jù)文件;2、選Data->Aggregate;3、選evalue為分類變量;4、選salary為匯總變量;系統(tǒng)隱含的匯總函數(shù)是計算均值,可根據(jù)具體需要作相應選擇;5、按OK鍵;6、打開Aggr.sav查看。六、加權(quán)(Weight)該命令可對當前數(shù)據(jù)文件中的個案賦予不同的權(quán)數(shù)。但一個數(shù)據(jù)文件只能設立一個加權(quán)變量,且該變量是取值為正數(shù)的數(shù)值型變量。1。讀數(shù)據(jù)文件2。選Data->WeightCases3。確定加權(quán)變量4。按OK七、選擇個案(SelectCase)如果用戶只想對數(shù)據(jù)文件中的部分個案進行統(tǒng)計分析,可通過SelectCase命令選擇分析對象??梢愿鶕?jù)不同的方法選取部分個案作為后面分析的對象。1。打開數(shù)據(jù)文件2。選Data->SelectCase3。確定選擇個案的方法4。選擇落選個案的處理方法5。按OK鍵(舉例DATA02-01)利用數(shù)據(jù)文件data02-01,選擇12歲身高超過140cm的同學,可以選擇條件抽樣方式,通過設立一個復合條件來抽取樣品。1.打開數(shù)據(jù)文件;2.選Data->SelectCase;3.確定選擇個案的方法,系統(tǒng)提供了條件抽樣、隨機抽樣、范圍抽樣和使用過慮變量的方法來抽取樣品,這里選擇條件抽樣方式,點擊If按鈕展開下一級對話框,設立復合條件age=12&h>140;4.選擇落選個案的處理方法,采用系統(tǒng)隱含方式即過慮法,在未入選樣品編號前加一條刪除線;5.按OK鍵。第四節(jié)數(shù)據(jù)的變換一、計算(根據(jù)已有變量來建立新變量)Compute命令可以利用當前數(shù)據(jù)窗中已經(jīng)存在的變量,根據(jù)變量之間的相互關(guān)系產(chǎn)生新變量,新變量名由用戶定義,新變量值系統(tǒng)自動填充。1。讀數(shù)據(jù)文件2。選Transform->compute3。確定目標變量4。確定目標變量的數(shù)值表達式5。按OK例如數(shù)據(jù)文件“消費.sav”是某年16個地區(qū)農(nóng)民消費支出數(shù)據(jù),利用compute命令計算得到各地區(qū)的恩格爾系數(shù)。1.讀數(shù)據(jù)文件;2.選Transform->compute;3.在展開compute對話框中確定目標變量即新變量,故在TargetVariable處輸入“系數(shù)”;4.確定目標變量的數(shù)值表達式,在NumericExpression框中輸入表達式:系數(shù)=食品/(食品+衣著+燃料+住房+其它+文化);5.按OK。二、記數(shù)(Count)該命令的功能是建立新的數(shù)值變量,其取值是對指定變量等于指定值進行記數(shù),經(jīng)常用于問卷調(diào)查的數(shù)據(jù)處理。1。讀數(shù)據(jù)文件2。選Transform->Count3。輸入目標變量,用于放記數(shù)結(jié)果。4。確定參與記數(shù)的變量(即指定變量)5。指定值的定義6。按OK(參見data05-07)該命令的功能是建立新的數(shù)值變量,其取值是對指定變量等于指定值進行記數(shù),經(jīng)常用于問卷調(diào)查的數(shù)據(jù)處理。例如對數(shù)據(jù)文件“成績”中的學生,分別統(tǒng)計每名學生的成績有幾門優(yōu)秀。三、重編碼(Record)Record命令可以對當前數(shù)據(jù)文件中的變量進行重新編碼,包括將原變量值變換為新的取值和將連續(xù)取值的變量整型化等等。1。建立新變量(1)讀數(shù)據(jù)文件(2)選Transform->Record->IntoDifferenceVariable(3)對重編碼變量另外再取一個名字(4)定義新舊變換值(5)按OK2。不建立新變量(1)讀數(shù)據(jù)文件(2)選Transform->Record->IntoSomeVariable(3)確定要重編碼的變量(4)確定新舊變換值(即編碼方法)(5)按OK一家電腦銷售公司三個月的日銷售量數(shù)據(jù),如果要研究日銷售量的分布規(guī)律,可以進行分組分析,則將日銷售量在140-149編碼為1,150-159編碼為2,以此類推。然后再對重編碼以后的數(shù)據(jù)進行描述統(tǒng)計分析,得到組距分組的結(jié)果。141159166172177182188196203214143160167173177183189196203215144160168173178184189196205218149161168174178185189196206223150161168174178186190196207225152162170174179186190197208226153163171175179187191197209228153163171175179187192198210233154164172175180187194198210233155165172175180187194200211234156165172176181188195201211234158165172176182188195202213237(1)建立數(shù)據(jù)文件;(2)選Transform->Record->IntoDifferenceVariable展開對話框;(3)對重編碼變量另外再取一個名字;在變量列表欄點擊變量“銷售量”,再單擊向右箭頭按鈕,則出現(xiàn)“銷售量->?”,在Name框中輸入新的變量名fenzu,單擊Change按鈕,(4)定義新舊變換值,單擊Old&NewValues按鈕,展開下一級對話框;(5)在OldValues下方欄中選擇Range輸入140though149,在NewValue下方的Value欄中輸入1;(6)單擊Add按鈕,則在Old->New欄中顯示“140though149->1”;(7)重復(5)-(6)步,輸入所有的變換值;(8)按OK。重新編碼的結(jié)果是在數(shù)據(jù)文件中新產(chǎn)生新的變量Fenzu,變量值由系統(tǒng)根據(jù)編碼規(guī)則自動填充,四、自動代碼重置(AutomaticRecord)該命令可用來快速地對任何類型的原始變量的值進行變換,產(chǎn)生1、2、3等順序取值的數(shù)值型變量,變量名用戶自定義。1。讀數(shù)據(jù)文件2。選Transform->AutomaticRecord3。確定要重置代碼的變量4。輸入新變量名字5。按OK(例見“公司年終考核”)第三章單變量描述統(tǒng)計分析第一節(jié)概述描述統(tǒng)計學、推斷統(tǒng)計學集中趨勢(算術(shù)平均數(shù)、眾數(shù)、中位數(shù))離中趨勢(全距、平均差、方差、離散系數(shù)等)偏態(tài)系數(shù)、峰度系數(shù)用以判斷數(shù)據(jù)分布是否對稱和集中趨勢的程度如何。變量描述統(tǒng)計分析包括四個過程。第二節(jié)頻數(shù)分析(Frequencies)(一)原始數(shù)據(jù)資料分析例1:隨機抽取50位大學新生,調(diào)查他們的年齡數(shù)據(jù)如下(略),做描述統(tǒng)計分析。1。建立數(shù)據(jù)文件2。選Analyze->DescriptiveStatistics->Frequencies打開對話框3。確定要分析的變量4。擊Statistics按鈕,選擇統(tǒng)計量5。擊Chart按鈕,選擇統(tǒng)計圖6。擊Format按鈕,選擇頻數(shù)表輸出格式7。擊OK(二)次級數(shù)據(jù)資料分析1。對資料進行分組,分組完成后再用Frequencies過程。(1)打開數(shù)據(jù)文件(2)選Transform->Record->IntoSomeVariable對年齡進行編碼(3)再用Frequencies過程進行頻數(shù)分析。2。對已分組的資料進行頻數(shù)分析(1)輸入組中值和次數(shù)(2)制定次數(shù)為加權(quán)變量(3)調(diào)用頻數(shù)分析過程,其中要選擇對應項Valuesaregroupmidpoints第三節(jié)描述統(tǒng)計(Descriptives)描述統(tǒng)計分析的結(jié)果指標與頻數(shù)分析結(jié)果基本相同,區(qū)別在于描述統(tǒng)計操作更簡單,輸出的描述統(tǒng)計指標少些,不輸出頻數(shù)分布表。1。打開數(shù)據(jù)文件2。選擇Analyze->DescriptiveStatistics->Descriptive3。確定分析變量4。根據(jù)需要選擇OPTION按鈕5。單擊OK例如;已知生產(chǎn)同類產(chǎn)品的五家企業(yè)計劃完成情況及一級品率資料如下(略)試求(1)平均計劃完成情況。操作步驟:1。建立數(shù)據(jù)文件(Data05-10)2。對f1進行加權(quán)3。選Analyze->DescriptiveStatistics->Descriptive4。把x1放置Variable框中5。擊OPTION按鈕,選擇輸出的統(tǒng)計量6。擊OK按鈕(2)平均一級品率操作步驟:1。打開數(shù)據(jù)文件Data05-102。選擇Transform->compute3。確定目標變量F24。確定目標變量的數(shù)值表達式X1*F15。按OK6。對F2進行加權(quán)7。選Analyze->DescriptiveStatistics->Descriptive8。把x2放置Variable框中9。擊OPTION按鈕,選擇輸出的統(tǒng)計量10。擊OK按鈕第四節(jié)探索性數(shù)據(jù)分析探索性數(shù)據(jù)分析是對數(shù)據(jù)進行初步考察,由描述統(tǒng)計指標和直觀的圖形組成。包括檢查數(shù)據(jù)的錯誤、描述數(shù)據(jù)的數(shù)量特征和分布特征、奇異值的辨認等。1。打開數(shù)據(jù)文件2。選Analyze->DescriptiveStatistics->Explore3。確定分析變量4。確定分組變量5。根據(jù)需要擊“Statistics”按鈕6。根據(jù)需要擊“Plots”按鈕7。擊OK(例見DATA05-11)第五節(jié)平均數(shù)分析(Mean)Mean過程可用于分組計算各描述統(tǒng)計量。1。打開數(shù)據(jù)文件2。選擇Analyze->CompareMeans->Means3。確定因變量4。確定自變量即分組變量5。確定分組變量的控制層次6。擊OK按鈕(data02-01)第六節(jié)多選項分析

第四章相關(guān)與回歸分析

第一節(jié)概述一、相關(guān)分析二、回歸分析三、相關(guān)與回歸的區(qū)別

第二節(jié)相關(guān)分析過程一、兩個變量的相關(guān)分析執(zhí)行步驟:1。建立數(shù)據(jù)文件;2。選擇Analyze->correlate->Bivariate,展開下一級對話框;3。選擇分析變量置于Variable框中;4。選擇相關(guān)分析方法:(1)Pearson,隱含定義,連續(xù)變量選該方法;(2)Kendall’s,有序變量選該方法;(3)spearman5。確定顯著性水平是單尾或雙尾;6。擊OK。年份總收入X(億元)零售總額Y(億元)913920924522935226946334957036968038978540例1:某地國民總收入和社會商品零售總額例2:10名學生兩門課程的名次排列(data10-03)Rank1:第一科名次Rank2:第二科名次編號HWV1135.132.01.752146.533.52.53167.841.52.754148.537.22.255153.341.02.756153.032.01.757155.144.72.758149.933.92.259158.237.52.00二、偏相關(guān)分析:偏相關(guān)分析是研究兩個變量之間關(guān)系時控制可能對其產(chǎn)生影響的變量。執(zhí)行步驟:1。建立數(shù)據(jù)文件(data10-04);2。選擇Analyze->correlate->Partial,展開下一級對話框;3。選擇分析變量置于Variable框中;4。確定控制變量置于Controlling框中;5。擊OK

第三節(jié)回歸分析過程(Regression)一、線性回歸過程(Linear)(一)執(zhí)行步驟:1。建立數(shù)據(jù)文件;2。選擇Analyze->Regression->Linear,展開下一級對話框;3。定義因變量置于Dependent框中;4。定義自變量置于Independent框中;5。選擇變量分析方法Method;

6。根據(jù)需要擊Statistics…按鈕;7。根據(jù)需要擊Plots…按鈕;7。根據(jù)需要擊Save…按鈕;8。根據(jù)需要擊Option…按鈕;9。擊OK。(二)舉例例1:試研究人均國民收入(X)對人均消費額(y)產(chǎn)生的影響。1、建立數(shù)據(jù)文件(數(shù)據(jù)參見例4)2、繪制散點圖,選擇Graph->Scatter,選Simple;擊Define按鈕,定義Y與X,從圖中可看出X與Y之間呈現(xiàn)線性關(guān)系;3、選擇Analyze->Correlate->Bivariate,進行相關(guān)分析;4、選擇Analyze->Regression->Linear,進行回歸分析;二、曲線配合過程(CurveEstimation)有時若不能馬上根據(jù)觀測數(shù)據(jù)確定一種最佳模型,可以利用曲線配合過程在眾多的回歸模型中來建立一個簡單而又比較合適的模型。利用曲線配合過程可以方便地進行線性擬合、二次擬合和三次擬合,并從各自的以及生成的圖形進行比較,從而確定較佳的模型。

(一)曲線配合過程的一般步驟1。建立數(shù)據(jù)文件;2。選擇Analyze->Regression->CurveEstimation,展開下一級對話框;3。定義因變量置于Dependent框中;4。定義自變量置于Independent的Variable框中;如果自變量為時間,則相應選“Time”;5。選擇一個或多個擬合模型Model;6。某些選擇項的確定;7。擊OK;8。對結(jié)果進行分析。(二)舉例例1:某產(chǎn)品產(chǎn)量1989-1999年資料如下:年份8990919293949596979899產(chǎn)量345380405440480520565610660710760通過比較,可判斷二次曲線較優(yōu)。例2:儲蓄與居民收入模型的曲線分析三、二項邏輯回歸(BinaryLogistic)當因變量只是具有兩種屬性的變量時(如變量取值為0或1),可采用二項邏輯回歸。Logistic模型方程如下:Ln(P/(1-P))=B0+BiXi其中:P表示出現(xiàn)1的概率,1-P表示出現(xiàn)0的概率。TGAPTUCHPSILGTGAPTUCHPSILG12.662000172.75250022.892200182.83190033.282400193.122310…………………………162.741900322.391911例1:某課程用PSI新教學方法的效果評價研究現(xiàn)要分析GAP、PSI、TUCH對LG的影響。步驟:1。建立數(shù)據(jù)文件;2。選擇Analyze->Regression->BinaryLogistic,展開下一級對話框;3。定義因變量LG置于Dependent框中;4。定義共變變量即自變量GAP、PSI、TUCH置于Covariates框;5。定義共變變量進出模型的篩選方法為Enter;6。根據(jù)需要擊Option…按鈕;在Display框中選Atlaststep項,要求只顯示最終計算結(jié)果;7。擊OK。例2:某醫(yī)師研究男性胃癌患者發(fā)生術(shù)后院內(nèi)感染的影響因素,試通過Logistic回歸對主要影響因素進行分析。數(shù)據(jù)結(jié)構(gòu)為:Y—術(shù)后有無感染(有為Y,無為N)X1—年齡X2—手術(shù)創(chuàng)傷程度

X3—營養(yǎng)狀態(tài)X4—術(shù)前預防性抗菌(有為Y,無為N)X5—白細胞數(shù)X6—癌腫病理分度步驟:1。建立數(shù)據(jù)文件;2。選擇Analyze->Regression->BinaryLogistic,展開下一級對話框;3。定義因變量Y置于Dependent框中;4。定義共變變量即自變量X1、X2、X3、X4、X5、X6置于Covariates框;5。定義共變變量進出模型的篩選方法為Forward:Conditional;6。擊Option…按鈕,在Display框中選Atlaststep項,要求只顯示最終計算結(jié)果;7。擊OK。五、非線性回歸(Nonlinear)以某商品銷售額與廣告費支出的關(guān)系分析為例對不同城市的15家商場有關(guān)化妝品銷售額Y與廣告費支出X的調(diào)查資料如下:Y202524303240285040704839426556X0.20.30.20.40.350.480.3.580.430.60.550.420.40.580.511。建立數(shù)據(jù)文件(例5)2。作散點圖:擊Graph->Scatter->Simple->Define選Y進入YAxis,X進入Axis,單擊OK,從圖中可見呈現(xiàn)指數(shù)曲線關(guān)系。3。非線性回歸分析(1)選Analyze->Regression->Nonlinear(2)選Y進入Dependent框中(3)擊Parameters按鈕輸入初始值a=1b=1擊Continue按鈕;(4)在ModelExpression中輸入指數(shù)曲線模型a*b**x;(5)擊OK又例如:有10個售貨員訓練的天數(shù)和工作業(yè)績(分數(shù))的資料,試進行回歸分析。

NO訓練天數(shù)X工作業(yè)績Y114521403260426253756381741158515095145105148

第五章聚類分析

第一節(jié)概述一、聚類分析的基本概念1。距離和相似系數(shù)研究樣品間的關(guān)系常用兩種方法:一種是距離法。它將每一樣品看成為m維空間的一個點(m是樣品的指標個數(shù)),這樣就將研究樣品間的關(guān)系變?yōu)檠芯縨維空間中點與點之間的關(guān)系。而點與點之間的關(guān)系常用距離來表示,并根據(jù)點與點間的距離進行分類,即將距離較近的點歸為一類,而將距離較遠的點歸為不同的類。另一種是相似系數(shù)法。相近樣品的相似系數(shù)接近1(或-1),而彼此無關(guān)的樣品的相似系數(shù)接近于0,這樣就可以根據(jù)樣品的相似系數(shù)的值分為不同的類。聚類分析實質(zhì)上是尋找一種能客觀反映元素之間親疏關(guān)系的統(tǒng)計量,然后根據(jù)這種統(tǒng)計量把元素分成若干類。常用的聚類統(tǒng)計量有距離系數(shù)和相似系數(shù)2類。距離系數(shù)一般用于對樣品分類,而相似系數(shù)一般用于對變量聚類。距離的定義很多,如極端距離、明考斯基距離、歐氏距離、切比雪夫距離等。相似系數(shù)有相關(guān)系數(shù)、夾角余弦、列聯(lián)系數(shù)等。2。Q型聚類(即樣品聚類)和R型聚類(即變量聚類)3。分層聚類分析和快速樣本聚類分析分層聚類法:先將n個元素(樣品或變量)看成n類,然后將性質(zhì)最接近(或相似程度最大)的2類合并為一個新類,得到n-1類。再從中找出最接近的2類加以合并變成了n-2類。如此下去,最后所有的元素全聚在一類之中。快速樣本聚類分析:這種方法是先將樣品做一個初始的分類,然后按照某種最優(yōu)的原則逐步調(diào)整,一直到調(diào)整的分類比較合理為止。第二節(jié)聚類分析過程一、分層聚類過程(一)步驟:1。建立數(shù)據(jù)文件2。選擇Analyze->Classify->HierarchicalCluster3。指定分析變量4。指定標識變量5。選擇聚類的類型6。若參與分析變量的量綱一致,可按系統(tǒng)默認值提交系統(tǒng)運行,擊OK??筛鶕?jù)需要選擇下列步驟:1、確定聚類方法,擊Method按鈕(1)聚類方法的選擇(2)關(guān)于Measure的指定(3)選擇數(shù)值標準化轉(zhuǎn)換方法(4)選擇測度的轉(zhuǎn)換方法2、選擇要輸出的統(tǒng)計量,擊Statistics按鈕3、選擇統(tǒng)計圖輸出,擊Plot按鈕(二)一維聚類分析有某家族14位成員的年齡:1,3,5,8,9,11,12,13,37,43,45,49,51,65。是否可以把他們的年齡區(qū)分為有意義的群體?1。建立數(shù)據(jù)文件data05-162。選擇Analyze->Classify->HierarchicalCluster3。指定分析變量age4。指定標識變量no5。選擇聚類的類型case6。擊OK。(三)多維變量的聚類分析例1:家庭消費支出的聚類分析例2:一組有關(guān)瓶裝啤酒的數(shù)據(jù),共有20種啤酒,每一種啤酒有4個指標,要求根據(jù)啤酒的成分含量及價格對其進行分類。數(shù)據(jù)見data14-02。二、快速樣本聚類過程(K-meanCluster)若在分類數(shù)已知、初始聚心已知的情況下,采用快速樣本聚類過程。例1:(以研究生錄取分析數(shù)據(jù)為例)(一)對前70個樣本采用分層聚類過程處理,在得到分類的基礎上計算聚心。1。建立數(shù)據(jù)文件;2。對數(shù)據(jù)進行標準化處理;3。選擇個案;4。選擇Analyze->Classify->HierarchicalCluster;5。指定分析變量ZGPA、ZGMAT;6。指定標識變量NO;7。選擇聚類的類型(CASE);8。確定聚類方法(默認值);9。選擇要輸出的統(tǒng)計量,擊Statistics按鈕10。選擇統(tǒng)計圖輸出,擊Plot按鈕11。擊Save按鈕,保存建立的新變量;12。擊OK13。用分類匯總計算類聚心;(二)對后16個樣本采用快速樣本聚類過程處理:1。打開數(shù)據(jù)文件(標準化后);2。選擇后16個樣本;3。選擇Analyze->Classify->K-meanCluster;4。指定分析變量ZGPA、ZGMAT,確定分類數(shù)為3,使用默認的聚類方法;5。擊Centers按鈕,選擇Readinitialfrom項,擊File按鈕,從指定的數(shù)據(jù)文件中讀入初始聚心;6。擊Save按鈕,選擇所有選項;7。擊Options按鈕,選擇所有統(tǒng)計量選項;8。擊OK。例2:數(shù)據(jù)來自data14-01,已知NO=9、8、4、6的四名運動員分別是蝶、仰、蛙、自由泳四種姿勢成績突出者,以這四個觀測量作為初始聚心進行聚類。

第六章判別分析第一節(jié)概述一、判別分析的基本概念二、建立判別函數(shù)的方法三、判別分析的基本步驟對于分為K組的研究對象,可建立K-1個典則判別函數(shù)和K個Fisher線性判別函數(shù),然后將各樣品的自變量值回代到判別函數(shù)中,計算其判別分數(shù)或?qū)儆诟鹘M的概率,根據(jù)數(shù)值大小判別樣品所屬組別,對比樣品的原始組別給出錯分率。第二節(jié)判別分析過程(Discriminant)操作步驟:1。建立數(shù)據(jù)文件;2。選擇Analyze->Classify->Discriminant;3。定義組變量;4。定義自變量;5。選擇分析方法(隱含定義為用所選擇的全部自變量建立判別模型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論