版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
統(tǒng)計(jì)分析軟件SPSS應(yīng)用方法2.spss軟件使用方法SPSS一、SPSS概述二、SPSS數(shù)據(jù)創(chuàng)建三、SPSS統(tǒng)計(jì)分析1、基本統(tǒng)計(jì)分析2、方差分析3、相關(guān)分析4、聚類分析2.spss軟件使用方法1SPSS簡介SPSSStatisticalPackagefortheSocialSciences社會科學(xué)統(tǒng)計(jì)軟件包StatisticalProductandServiceSolutions統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案68年開發(fā),75年成立SPSS公司,2009年IBM收購,目前到IBMSPSS20.0版本次講解應(yīng)用IBMSPSSforWindows19.02.spss軟件使用方法一、SPSS概述1、SPSS簡介2、SPSS窗口2.spss軟件使用方法1SPSS簡介SAS和SPSSSAS:為專業(yè)統(tǒng)計(jì)分析人員設(shè)計(jì),功能強(qiáng)大,靈活多樣。SPSS:非專業(yè)人士,操作簡便,好學(xué)易懂,簡單實(shí)用?!耙讓W(xué)易用易普及”大多數(shù)操作可通過鼠標(biāo)拖曳、點(diǎn)擊“菜單”、“按鈕”和“對話框”來完成。無需掌握統(tǒng)計(jì)分析的各種復(fù)雜的數(shù)學(xué)運(yùn)算過程,只需掌握各種方法的應(yīng)用,分析結(jié)果的解釋。功能強(qiáng)大完整的數(shù)據(jù)輸入、編輯、統(tǒng)計(jì)分析、報(bào)表、圖形制作等功能。自帶11種類型136個函數(shù)。提供從簡單的統(tǒng)計(jì)描述到復(fù)雜的多因素統(tǒng)計(jì)分析方法。能非常方便地與其他軟件的數(shù)據(jù)進(jìn)行轉(zhuǎn)換圖表功能強(qiáng)大,輸出結(jié)果美觀漂亮2.spss軟件使用方法
2SPSS窗口標(biāo)題欄菜單欄工具欄
編輯欄 變量名欄觀測序號 窗 口 切 換 標(biāo) 簽2.spss軟件使用方法2SPSS窗口變量序號名稱可變觀測序號變量序號變量屬性名稱2.spss軟件使用方法結(jié)果輸出窗口
2SPSS窗口導(dǎo)航窗口2.spss軟件使用方法二、統(tǒng)計(jì)數(shù)據(jù)創(chuàng)建數(shù)據(jù)屬性及定義、編輯SPSS數(shù)據(jù)創(chuàng)建案例:SPSS數(shù)據(jù)創(chuàng)建2.spss軟件使用方法1數(shù)據(jù)屬性及定義編輯SPSS數(shù)據(jù)特點(diǎn):結(jié)構(gòu)化(數(shù)據(jù)內(nèi)容、數(shù)據(jù)結(jié)構(gòu))變量名、變量類型、變量名標(biāo)簽、變量值標(biāo)簽、缺失值的定義、度量的尺度、及數(shù)據(jù)的顯示屬性(顯示寬度、列寬度、對齊方式)2.spss軟件使用方法不超過8個字符、4個漢字變量名必須唯一,并且不區(qū)分大小寫如不指定變量名,則系統(tǒng)默認(rèn)變量名以VAR開頭后面跟5個數(shù)字。如VAR00001、VAR0002等
1.1變量名(名稱)數(shù)據(jù)視圖變量視圖2.spss軟件使用方法1.2變量類型變量取值的類型數(shù)值型、字符型(不能進(jìn)行算術(shù)運(yùn)算)、日期型2.spss軟件使用方法1.3標(biāo)簽標(biāo)簽是對變量名的進(jìn)一步解釋名稱限制字符不超過8個,標(biāo)簽可達(dá)120個字符2.spss軟件使用方法1.4值值是對變量取值含義的進(jìn)一步解釋2.spss軟件使用方法1.5缺失值缺失值兩種情況:數(shù)據(jù)中存在漏填數(shù)據(jù)數(shù)據(jù)中存在明顯錯誤或明顯不合理的數(shù)據(jù)(如年齡130)如果直接進(jìn)行數(shù)據(jù)分析,SPSS將把缺失數(shù)據(jù)作為正常數(shù)據(jù),造成非常大的誤差缺失數(shù)據(jù)處理步驟:1、指定缺失數(shù)據(jù),指明哪些數(shù)據(jù)屬于缺失數(shù)據(jù)空缺數(shù)據(jù),首先填一個特定標(biāo)記數(shù)據(jù)(如99999,區(qū)別于該變量其他非缺失數(shù)據(jù))2、統(tǒng)計(jì)分析時對缺失數(shù)據(jù)進(jìn)行一定處理選擇缺失數(shù)據(jù)處理方法2.spss軟件使用方法2.SPSS數(shù)據(jù)創(chuàng)建直接錄入1、定義數(shù)據(jù)屬性;2、輸入數(shù)據(jù)打開現(xiàn)有數(shù)據(jù)(sav、excel、SAS、txt)2.spss軟件使用方法2.SPSS數(shù)據(jù)創(chuàng)建直接錄入1、定義數(shù)據(jù)屬性;2、輸入數(shù)據(jù)打開現(xiàn)有數(shù)據(jù)(sav、excel、SAS、txt)2.spss軟件使用方法2.SPSS數(shù)據(jù)創(chuàng)建2.spss軟件使用方法3.案例:SPSS數(shù)據(jù)創(chuàng)建1、定義變量屬性2、讀取excel數(shù)據(jù)文件2.spss軟件使用方法三、SPSS統(tǒng)計(jì)分析SPSS基本統(tǒng)計(jì)分析方差分析相關(guān)分析線性回歸分析聚類分析2.spss軟件使用方法1、基本統(tǒng)計(jì)分析基本統(tǒng)計(jì)分析,描述性統(tǒng)計(jì)分析是統(tǒng)計(jì)分析的第一步,做好這第一步是下面進(jìn)行正確統(tǒng)計(jì)推斷的先決條件。SPSS的許多模塊均可完成描述性分析,但專門為該目的而設(shè)計(jì)的幾個模塊則集中在描述菜單中,包括:2.spss軟件使用方法1.1頻數(shù)分析頻數(shù)分析目的:基本統(tǒng)計(jì)分析往往從頻數(shù)分析開始。通過頻數(shù)分析能夠了解變量取值的狀況,對把握數(shù)據(jù)的分布特征是非常有用的?;救蝿?wù)(1)編制頻數(shù)分布表頻數(shù):即變量值落在某個區(qū)間(或某個類別)中的次數(shù)百分比:即各頻數(shù)占總樣本數(shù)的百分比有效百分比:即各頻數(shù)占有效樣本數(shù)的百分比,有效樣本數(shù)=總樣本-缺失樣本數(shù)累計(jì)百分比:即各百分比逐級累加起來的結(jié)果。最終取值為100。(2)繪制統(tǒng)計(jì)圖2.spss軟件使用方法1.1頻數(shù)分析頻數(shù)分析的基本操作(1)分析—描述統(tǒng)計(jì)—頻率(2)將頻數(shù)分析變量選擇到變量框中(3)單擊表格按鈕選擇繪制統(tǒng)計(jì)圖形,選擇餅圖2.spss軟件使用方法1.1頻數(shù)分析2.spss軟件使用方法1.1頻數(shù)分析輸出結(jié)果2.spss軟件使用方法1.2描述分析描述分析目的:獲取數(shù)據(jù)的均值、標(biāo)準(zhǔn)差、峰度等數(shù)據(jù),進(jìn)一步把握數(shù)據(jù)的集中趨勢、離散程度和分布形狀。基本描述統(tǒng)計(jì)量刻畫集中趨勢的統(tǒng)計(jì)量刻畫離散程度的統(tǒng)計(jì)量刻畫分布形態(tài)的統(tǒng)計(jì)量2.spss軟件使用方法1.2描述分析刻畫集中趨勢的統(tǒng)計(jì)量集中趨勢指一組數(shù)據(jù)向某一中心值靠攏的傾向。計(jì)算刻畫集中趨勢的統(tǒng)計(jì)量正是要尋找能夠反應(yīng)數(shù)據(jù)一般水平的“代表值”或“中心值”。常用統(tǒng)計(jì)量:均值、中位數(shù)、眾數(shù)均值:即算術(shù)平均數(shù),是反映某變量所有取值的集中趨勢或平均水平的指標(biāo)。如某企業(yè)職工的平均月收入。中位數(shù):即一組數(shù)據(jù)按升序排序后,處于中間位置上的數(shù)據(jù)值。眾數(shù):即一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)據(jù)值。2.spss軟件使用方法1.2描述分析刻畫離散程度的統(tǒng)計(jì)量離散程度是指一組數(shù)據(jù)遠(yuǎn)離其“中心值”的程度。
如果數(shù)據(jù)都緊密地集中在“中心值”的周圍,數(shù)據(jù)的離散程度較小,說明這個“中心值”對數(shù)據(jù)的代表性好;相反,如果數(shù)據(jù)僅是比較松散地分布在“中心值”的周圍,數(shù)據(jù)的離散程度較大,則此“中心值”說明數(shù)據(jù)特征是不具有代表性的。常用統(tǒng)計(jì)量:全距、方差、標(biāo)準(zhǔn)差全距:也稱極差,是數(shù)據(jù)的最大值與最小值之間的絕對離差。2.spss軟件使用方法1.2描述分析刻畫分布形態(tài)的描述統(tǒng)計(jì)量數(shù)據(jù)分布形態(tài)主要指數(shù)據(jù)分布是否對稱,偏斜程度如何,分布陡峭程度等。常用統(tǒng)計(jì)量:偏度、峰度偏度:描述變量取值分布形態(tài)對稱性的統(tǒng)計(jì)量。當(dāng)分布為對稱分布時,正負(fù)總偏差相等,偏度值等于0;當(dāng)分布為不對稱分布時,正負(fù)總偏差不相等,偏度值大于0或小于0。偏度值大于0表示正偏差值大,稱為正偏或右偏;偏度值小于0表示負(fù)偏差值大,稱為負(fù)偏或左偏。偏度絕對值越大,表示數(shù)據(jù)分布形態(tài)的偏斜程度越大。峰度:描述變量取值分布形態(tài)陡峭程度的統(tǒng)計(jì)量。當(dāng)數(shù)據(jù)分布與標(biāo)準(zhǔn)正態(tài)分布的陡峭程度相同時,峰度值等于0;峰度大于0表示數(shù)據(jù)的分布比標(biāo)準(zhǔn)正態(tài)分布更陡峭,為尖峰分布;峰度小于0表示數(shù)據(jù)的分布比標(biāo)準(zhǔn)正態(tài)分布平緩,為平峰分布。2.spss軟件使用方法1.2描述分析計(jì)算基本描述統(tǒng)計(jì)量的操作(1)分析—描述統(tǒng)計(jì)—描述(2)將分析變量選擇到變量框中(3)單擊選項(xiàng)按鈕指定基本統(tǒng)計(jì)量2.spss軟件使用方法1.2描述分析2.spss軟件使用方法2、方差分析方差分析概述背景案例統(tǒng)計(jì)學(xué)原理相關(guān)統(tǒng)計(jì)量SPSS操作SPSS結(jié)果解讀方差分析案例2.spss軟件使用方法2.1方差分析概述2.1.1背景案例影響農(nóng)作物產(chǎn)量的因素可能有多個,如品種、施肥量、地域特征等。在眾多的因素中,有些因素會對產(chǎn)量有明顯的影響,有些因素的影響不大。因此,找到中影響因素中起重要的和關(guān)鍵作用的因素是非常重要的。進(jìn)一步,在掌握了關(guān)鍵因素后,如品種、施肥量等,還需要對不同品種、不同施肥量的產(chǎn)量進(jìn)行比較,研究究竟哪個品種的產(chǎn)量高,施肥量究竟多少最為合適。在制定廣告宣傳策略時,不同方案所獲得的廣告效果可能是不一樣的。廣告效果可能會受到廣告形式、地區(qū)規(guī)模、播放時間段、播放頻率等因素的影響。需要研究在影響廣告效果的眾多因素中,哪些因素是主要的,哪些是次要的,哪些因素水平是最合理的。對這種類似問題的研究可以通過方差分析來實(shí)現(xiàn)。2.spss軟件使用方法2.1方差分析概述2.1.2方差分析相關(guān)概念觀測變量:農(nóng)作物產(chǎn)量、廣告效果因素(控制變量):品種、施肥量、播放時間段等因素水平:因素的不同類別,如甲品種、乙品種就是品種這一變量的兩個水平。單因素方差分析、多因素方差分析2.spss軟件使用方法2.1方差分析概述2.1.3方差分析統(tǒng)計(jì)學(xué)原理觀測變量取值變化原因:1、控制變量;2、隨機(jī)變量如果相對于隨機(jī)變量引起的觀測值差異,控制變量引起的觀測值差異較大,則說明控制變量對觀測變量有顯著影響。在統(tǒng)計(jì)學(xué)中,控制變量和隨機(jī)變量引起的差異可以分別用一個統(tǒng)計(jì)量來表示。單因素方差分析中,分別用SSA、SSE來表示。SSA:組間差異(組間離差平方和),主要是由控制變量的不同水平造成的差異;SSE:組內(nèi)差異(組內(nèi)離差平方和),主要是由隨機(jī)變量引起的差異。SSA+SSE=SSTSST:總差異(總離差平方和)方差分析任務(wù):判定SSA相對于SST(或SSE)的大小。SSA相對較大,則表明控制變量起到了顯著影響,若相對較小,則表明控制變量沒有顯著影響。2.spss軟件使用方法2.1方差分析概述2.1.3單因素方差分析統(tǒng)計(jì)學(xué)原理假設(shè)控制變量會對觀測值不會產(chǎn)生顯著影響,將總離差(SST)分解為組間離差平方和(SSA)和組內(nèi)離差平方和(SSE)。比較SSA與SST的相對大小。SSA與SST的相對大小要受到樣本規(guī)模、控制變量水平數(shù)的影響,為消除這些因素的影響對SSA、SST要進(jìn)行一定的處理(分別除以自由度),用統(tǒng)計(jì)量F來表示SSA的相對大小F==SSA/自由度組件均方差SSE/自由度總均方差方差分析-從觀測變量的部分取值推測觀測變量總體取值與隨機(jī)變量的關(guān)系。部分是否能夠代表總體情況?由于存在隨機(jī)抽樣和樣本數(shù)量較少等原因,通過分析樣本的出的結(jié)論不能直接用于總體。要進(jìn)行假設(shè)檢驗(yàn)。
F是隨機(jī)變量,服從一定的分布,其取值會因?yàn)榫唧w的樣本的不同而不同。計(jì)算研究樣本的F值,即F的觀測值,并計(jì)算該F觀測值對應(yīng)概率p值,如果p值很小(一般是小于0.05),說明F取到該觀測值的概率很小,是不可能發(fā)生的。則認(rèn)為假設(shè)“控制變量對觀測值沒有顯著影響”是不對的,也就是,控制變量會對觀測變量產(chǎn)生顯著影響。2.spss軟件使用方法2.1方差分析概述2.1.4單因素方差分析基本假設(shè):對總體分布的假設(shè):總體服從正態(tài)分布各處理組總體方差相等(方差齊性或方差同質(zhì)性)正態(tài)分布檢驗(yàn):根據(jù)大數(shù)定律和中心極限定理原理,假設(shè)滿足。方差齊性檢驗(yàn):對控制變量不同水平下觀測變量總體的方差是否相等進(jìn)行假設(shè)檢驗(yàn),在SPSS中可以通過方差同質(zhì)性檢驗(yàn)進(jìn)行。2.spss軟件使用方法2.2SPSS方差分析操作2.2.1方差分析數(shù)據(jù)形式離差分解時僅僅是對觀測水平這一列的數(shù)值進(jìn)行分析,但是也要有存放控制變量的列。正確的數(shù)據(jù)格式是統(tǒng)計(jì)分析的前提。
觀測變量控制變量2.spss軟件使用方法2.2SPSS方差分析操作2.2.2SPSS操作步驟打開的數(shù)據(jù)格式分析——比較均值——單因素方差分析選擇觀測變量(因子)、控制變量(因變量)(只能選擇一個因子)選項(xiàng),選擇“方差同質(zhì)性檢驗(yàn)”缺失值處理2.spss軟件使用方法2.3SPSS方差分析結(jié)果解讀
P值(顯著性)=0.515,遠(yuǎn)大 于基準(zhǔn)值0.05,說明假設(shè)“方 差齊性”正確,即控制變量不 同水平下各組的方差相同。
滿足方差分析的前提。
P值(顯著性)=0.000,遠(yuǎn)小于基 準(zhǔn)值0.05,說明假設(shè)“控制變量對觀 測變量沒有顯著影響,即廣告形式 對銷售額沒有顯著影響”正確,即控制變量不同水平下各組的方差相 同。結(jié)論:廣告形式對銷售額有顯著影響。2.spss軟件使用方法2.3SPSS方差分析結(jié)果解讀結(jié)論:廣告形式用報(bào)紙獲得的銷售額最高,宣傳品的效果最不好2.spss軟件使用方法3相關(guān)分析相關(guān)分析概述SPSS相關(guān)分析操作SPSS相關(guān)分析結(jié)果解讀SPSS相關(guān)分析案例2.spss軟件使用方法3.1相關(guān)分析概述家庭收入和支出、子女身高和父母身高的關(guān)系、一個人的身高和體重的關(guān)系?客觀事物之間關(guān)系:函數(shù)關(guān)系、統(tǒng)計(jì)關(guān)系函數(shù)關(guān)系:當(dāng)一個或幾個變量取一定的值時,另一個變量有確定值與之相對應(yīng)統(tǒng)計(jì)關(guān)系:非一一對應(yīng),當(dāng)一個變量x取一定值時,另一變量y無法依確定的函數(shù)取唯一確定的值。相關(guān)分析:研究兩個變量相互關(guān)系的密切程度和變化趨勢,并用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)描述。2.spss軟件使用方法3.1相關(guān)分析概述相關(guān)分析與方差分析的比較相同點(diǎn):分析兩個變量之間是否有關(guān)系不同點(diǎn):1、相關(guān)分析的兩個變量都是隨機(jī)變量(不能人為精確控制取值大?。换貧w分析的控制變量是非隨機(jī)變量(其取值可以固定),觀測變量是隨機(jī)變量。2、相關(guān)分析的兩個變量都可以量化,可以用數(shù)值比較同一變量的不同取值的大小;回歸分析的觀測變量可以比較觀測值的大小,但是某些控制變量不能比較數(shù)值大小,如農(nóng)作物品種。3、相關(guān)分析可以比較兩個變量的變化趨勢的異同,方差分析不能。4、相關(guān)分析的兩個變量一般都有眾多的不同取值,回歸分析的控制變量只有幾種可能的取值,可以根據(jù)控制變量的不同水平將觀測對象進(jìn)行分組。2.spss軟件使用方法3.1相關(guān)分析概述相關(guān)分析工具:散點(diǎn)圖、數(shù)值散點(diǎn)圖:將數(shù)據(jù)以點(diǎn)的形式畫在直角坐標(biāo)系上,通過觀察散點(diǎn)圖能夠直觀的發(fā)現(xiàn)變量間的相關(guān)關(guān)系及它們的強(qiáng)弱程度和方向。在實(shí)際分析中,散點(diǎn)圖經(jīng)常表現(xiàn)出某些特定的形式。如絕大多數(shù)的數(shù)據(jù)類似于“橄欖球”的形狀,或集中形成一根“棒狀”,而剩余的少數(shù)數(shù)據(jù)點(diǎn)則零散地分布在四周。通?!伴蠙烨颉焙汀鞍魻睢贝砹藬?shù)據(jù)對的主要結(jié)構(gòu)和特征,可以利用曲線將這種主要結(jié)構(gòu)的輪廓描繪出來,使數(shù)據(jù)的主要特征更突出。2.spss軟件使用方法3.1相關(guān)分析概述散點(diǎn)圖簡單散點(diǎn)圖:表示一對變量間統(tǒng)計(jì)關(guān)系的散點(diǎn)圖。矩陣散點(diǎn)圖:以矩陣形式在多個坐標(biāo)軸上分別顯示多對變量間的統(tǒng)計(jì)關(guān)系。2.spss軟件使用方法
3.1相關(guān)分析概述矩陣散點(diǎn)圖:弄清各坐標(biāo)軸所代表的變量。課題總數(shù)論文數(shù)專著數(shù)橫軸:從最底層一條向上依次為論文數(shù)、專注數(shù)、課題總數(shù)??v軸:從最左側(cè)一條向右依次為課題總數(shù)、專注數(shù)、論文數(shù)。
課題總數(shù) 專著數(shù) 論文數(shù)2.spss軟件使用方法3.1相關(guān)分析概述相關(guān)系數(shù)以數(shù)值的方式精確的反映了兩個變量間線性相關(guān)的強(qiáng)弱程度。①相關(guān)系數(shù)r的取值在-1~+1之間;②r>0表示兩變量存在正的線性相關(guān)關(guān)系;r<0表示兩變量存在負(fù)的線性相關(guān)關(guān)系;③r=1表示兩變量存在完全正相關(guān);r=-1表示兩變量存在完全負(fù)相關(guān);r=0表示兩變量不存在相關(guān),不代表兩變量之間不相關(guān);④|r|>0.8表示兩變量有較強(qiáng)的線性關(guān)系;|r|<0.3表示兩變量之間的線性關(guān)系較弱。2.spss軟件使用方法3.1相關(guān)分析概述相關(guān)系數(shù)種類1.Pearson簡單相關(guān)系數(shù)(度量兩定距型變量的線性相關(guān)性)2.Spearman等級相關(guān)系數(shù)(度量定序變量間的線性相關(guān)關(guān)系)定序變量:區(qū)別等級次序的變量。定序變量能決定次序,例如文化程度可以分為大學(xué)、高中、初中、小學(xué)、文盲;年齡可以分為老、中、青。但是,定序變量在只具有大于或小于的性質(zhì),只能排列出它們的順序,而不能反映出大于或小于的數(shù)量或距離。比如大學(xué)究竟比高中高出多少,大學(xué)與高中之間的距離和初中與小學(xué)之間的距離是否相等,通常是沒有確切的尺度來測量的。定距變量:區(qū)別等級次序及其距離的變量。它除了包括定序變量的特性外,還能確切測量同一類別各個案高低、大小次序之間的距離,因而具有加與減的數(shù)學(xué)特質(zhì)。2.spss軟件使用方法3.2SPSS相關(guān)分析操作3.2.1散點(diǎn)圖1、圖形-舊對話框-散點(diǎn)/點(diǎn)狀2、選擇散點(diǎn)圖類型3、制定X、Y軸變量或矩陣變量2.spss軟件使用方法3.2SPSS相關(guān)分析操作相關(guān)系數(shù)1、分析-相關(guān)-雙變量2、選擇變量(可選擇多個)3、選擇相關(guān)系數(shù)(可復(fù)選)2.spss軟件使用方法3.3SPSS結(jié)果解讀樣本相關(guān)系數(shù)假設(shè)“總體無線性相關(guān)”概率接近0,小于0.01,假設(shè)不對,即總體存在顯著線性相關(guān)2.spss軟件使用方法5、聚類分析聚類分析概述SPSS聚類分析操作SPSS聚類分析結(jié)果解讀SPSS聚類分析案例2.spss軟件使用方法5.1聚類分析概述5.1.1背景案例市場營銷中的市場細(xì)分和客戶細(xì)分問題。對客戶分類,可直接根據(jù)年齡、職業(yè)、收入、消費(fèi)金額、喜好等方面進(jìn)行分類,但存在主觀色彩,需要有豐富的行業(yè)經(jīng)驗(yàn)才能得到比較合理的客戶細(xì)分,否則得到的分組可能無法充分反映和展現(xiàn)客戶的特點(diǎn),同一客戶小組中的客戶在某些方面的特征并不相似,而不同小組的客戶在某些方面卻又非常相似。這種客戶細(xì)分并沒有真正起到劃分客戶群的作用。為解決問題,客觀進(jìn)行分類,應(yīng)該從數(shù)據(jù)自身出發(fā),充分利用數(shù)據(jù)進(jìn)行客戶的客觀分組。使諸多特征相似的客戶分在同一組內(nèi),不相似的客戶分在不同的組。這時便可以采用聚類分析的方法。聚類分析是直接比較各事物之間的性質(zhì),將性質(zhì)相近的歸為一類,將性質(zhì)差別較大的歸入不同的類。聚類分析的原則是同一類中的個體有較大的相似性,不同類中的個體差異很大。通過分類,有利于我們抓住重點(diǎn),從總體上去把握事物,找出解決問題的方法。2.spss軟件使用方法5.1聚類分析概述5.1.2聚類分析原理要做聚類分析,首先得按照聚類的目的,從對象中提取出能表現(xiàn)這個目的的特征指標(biāo);然后根據(jù)親疏程度進(jìn)行分類。聚類分析是一種數(shù)值分類方法(即完全是根據(jù)數(shù)據(jù)關(guān)系)。要進(jìn)行聚類分析就要首先建立一個由某些事物屬性構(gòu)成的指標(biāo)體系,或者說是一個變量組合。入選的每個指標(biāo)必須能刻畫事物屬性的某個側(cè)面,所有指標(biāo)組合起來形成一個完備的指標(biāo)體系,它們互相配合可以共同刻畫事物的特征。簡單地說,聚類分析的結(jié)果取決于變量的選擇和變量值獲取的兩個方面。變量選擇越準(zhǔn)確、測量越可靠,得到的分類結(jié)果越是能描述事物各類間的本質(zhì)區(qū)別。2.spss軟件使用方法5.1聚類分析概述聚類分析是根據(jù)個體間的“親疏程度”對個體(樣本或變量)進(jìn)行分類?!坝H疏程度”
度量方法——兩個角度:1、個體間的相似程度,通常用相關(guān)系數(shù)衡量;2、個體間的差異程度,通常通過某種距離衡量。不同的數(shù)據(jù)類型,所用距離類型不同。2.spss軟件使用方法5.1聚類分析概述5.1.3個體間距離度量方法(度量標(biāo)準(zhǔn))變量類型不同,距離度量方法不同定距變量(區(qū)間變量)、計(jì)數(shù)變量、二分類變量2.spss軟件使用方法
5.1聚類分析概述5.1.3個體間距離度量標(biāo)準(zhǔn)
定距變量(區(qū)間變量)身高、體重連續(xù)變量可比較大小,可進(jìn)行算術(shù)運(yùn)算,衡量差值大小度量方法:歐氏距離、平方歐氏距離、夾角余弦等;默認(rèn)2.spss軟件使用方法5.1.3個體間距離度量標(biāo)準(zhǔn)
計(jì)數(shù)(頻數(shù))變量 非連續(xù)
如選修課程數(shù),只能取整數(shù)度量標(biāo)準(zhǔn):卡方測量;
Phi方度量默認(rèn)2.spss軟件使用方法
5.1聚類分析概述5.1.3個體間距離度量標(biāo)準(zhǔn)二值變量(二分類)
變量取值有兩種可能, 分別表示兩種情況
如性別(1,2),婚姻狀況(1,2)度量標(biāo)準(zhǔn):二元?dú)W氏距離平方默認(rèn)2.spss軟件使用方法5.1聚類分析概述5.1.4聚類分析方法:系統(tǒng)聚類(層次聚類)、K-均值聚類。 層次聚類:聚類過程按照一定層次進(jìn)行。根據(jù)聚類對象的不同分為樣品聚類(Q聚類)和變量聚類(R聚類)。Q聚類:根據(jù)一系列觀測變量的測量值對個案進(jìn)行分類,分類的依據(jù)是個案之間的“距離”。R聚類:對研究對象的觀察變量進(jìn)行分類,它使得具有共同特征的變量聚集在一起,以便選擇其中具有代表性的變量,實(shí)現(xiàn)用較少變量刻畫研究對象的目的。2.spss軟件使用方法5.1聚類分析概述層次聚類聚類過程首先,每個個體自成一類;然后按照某種方法度量所有個體間的親疏程度,將其中最“親密”的個體聚成一小類,形成n-1各類;接下來再次度量剩余個體和小類之間的距離,將最“親密”的個體或小類聚成一類。重復(fù)上述過程,不斷將個體和小類聚集成越來越大的類,直到所有個體聚到一起,形成一個大類。隨著聚類的進(jìn)行,類內(nèi)的“親密”程度在逐漸降低
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中考?xì)v史基礎(chǔ)知識第7講中華民族的抗日戰(zhàn)爭
- 湖南省永州市道縣2024-2025學(xué)年八年級上學(xué)期期中生物學(xué)試題(原卷版)-A4
- 熱工基礎(chǔ)模擬習(xí)題
- 養(yǎng)老院老人生活照料制度
- 養(yǎng)老院老人健康飲食營養(yǎng)師職業(yè)發(fā)展規(guī)劃制度
- 房頂防水安全合同協(xié)議書(2篇)
- 2024年版權(quán)轉(zhuǎn)讓合同標(biāo)的及服務(wù)內(nèi)容擴(kuò)展
- 《軟件工程經(jīng)濟(jì)學(xué)》課件-第1章
- 2024年水利工程勞務(wù)分包合同示范范本(智慧水利)2篇
- 2024年生態(tài)環(huán)境保護(hù)修復(fù)工程合同
- 上海華東師大二附中2025屆高一數(shù)學(xué)第一學(xué)期期末檢測試題含解析
- 新教科版六年級上冊科學(xué)全冊知識點(diǎn)(期末總復(fù)習(xí)資料)
- 《靜女》《涉江采芙蓉》對比閱讀教學(xué)設(shè)計(jì) 2023-2024學(xué)年統(tǒng)編版高中語文必修上冊
- 高速鐵路概論 課件 第3章 高速鐵路車站
- 2024-2030年水培蔬菜行業(yè)市場發(fā)展分析及發(fā)展趨勢與投資戰(zhàn)略研究報(bào)告
- 2024年部編版語文五年級上冊全冊單元檢測題及答案(共8套)
- 集成電路制造工藝 課件 6光刻工藝2
- 建筑邊坡工程施工質(zhì)量驗(yàn)收標(biāo)準(zhǔn)
- 2020海灣JTW-LD-GST85B纜式線型感溫火災(zāi)探測器
- 微測網(wǎng)題庫完整版行測
- 2024中華人民共和國農(nóng)村集體經(jīng)濟(jì)組織法詳細(xì)解讀課件
評論
0/150
提交評論