




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
統(tǒng)計(jì)分析聚類(lèi)分析第1頁(yè),共43頁(yè),2023年,2月20日,星期六6.2SPSS的聚類(lèi)分析第2頁(yè),共43頁(yè),2023年,2月20日,星期六聚類(lèi)分析概述概念:聚類(lèi)分析是統(tǒng)計(jì)學(xué)中研究“物以類(lèi)聚”的一種方法,屬多元統(tǒng)計(jì)分析方法.例如:細(xì)分市場(chǎng)、消費(fèi)行為劃分聚類(lèi)分析是建立一種分類(lèi),是將一批樣本(或變量)按照在性質(zhì)上的“親疏”程度,在沒(méi)有先驗(yàn)知識(shí)的情況下自動(dòng)進(jìn)行分類(lèi)的方法.其中:類(lèi)內(nèi)個(gè)體具有較高的相似性,類(lèi)間的差異性較大.第3頁(yè),共43頁(yè),2023年,2月20日,星期六聚類(lèi)分析概述兩類(lèi):(AB)(CDE)三類(lèi):(AB)(C)(DE)依據(jù)平均得分的差距,差距較小的為一類(lèi).分類(lèi)過(guò)程中,沒(méi)有事先指定分類(lèi)的標(biāo)準(zhǔn).完全根據(jù)樣本數(shù)據(jù)客觀產(chǎn)生分類(lèi)結(jié)果.第4頁(yè),共43頁(yè),2023年,2月20日,星期六親疏遠(yuǎn)程度的衡量指標(biāo)相似性:數(shù)據(jù)間相似程度的度量距離:數(shù)據(jù)間差異程度的度量.距離越近,越“親密”,聚成一類(lèi);距離越遠(yuǎn),越“疏遠(yuǎn)”,分別屬于不同的類(lèi)定距型個(gè)體間的距離:把每個(gè)個(gè)案數(shù)據(jù)看成是n維空間上的點(diǎn),在點(diǎn)和點(diǎn)之間定義某種距離.一般適用于定距數(shù)據(jù)聚類(lèi)分析概述第5頁(yè),共43頁(yè),2023年,2月20日,星期六(1)歐氏距離(EuclideanDistance)兩個(gè)樣本之間的歐氏距離是樣本各個(gè)變量值之差的平方和的平方根,計(jì)算公式為第6頁(yè),共43頁(yè),2023年,2月20日,星期六(2)歐氏距離平方(SquaredEuclideanDistance)兩個(gè)樣本之間的歐氏距離平方是各樣本每個(gè)變量值之差的平方和,計(jì)算公式為第7頁(yè),共43頁(yè),2023年,2月20日,星期六(3)Chebychev距離兩個(gè)樣本之間的Chebychev距離是各樣本所有變量值之差絕對(duì)值中的最大值,計(jì)算公式為第8頁(yè),共43頁(yè),2023年,2月20日,星期六(4)Block距離兩個(gè)樣本之間的Block距離是各樣本所有變量值之差絕對(duì)值的總和,計(jì)算公式為第9頁(yè),共43頁(yè),2023年,2月20日,星期六(5)Minkowski距離兩個(gè)樣本之間的Minkowski距離是各樣本所有變量值之差絕對(duì)值的p次方的總和,再求p次方根。計(jì)算公式為第10頁(yè),共43頁(yè),2023年,2月20日,星期六(6)Customized距離(用戶自定義距離)兩個(gè)樣本之間的Customized距離是各樣本所有變量值之差絕對(duì)值的p次方的總和,再求q次方根。計(jì)算公式為第11頁(yè),共43頁(yè),2023年,2月20日,星期六(7)夾角余弦CosineCOSINE(x,y)(8)卡方距離第12頁(yè),共43頁(yè),2023年,2月20日,星期六二值變量型個(gè)體間的距離姓名授課方式上機(jī)時(shí)間選某門(mén)課程張三111李四110王五001聚類(lèi)分析概述第13頁(yè),共43頁(yè),2023年,2月20日,星期六二值變量型個(gè)體間的距離簡(jiǎn)單匹配(simplematching)系數(shù):適用二值變量。個(gè)體j個(gè)體i101ab0cd
a為個(gè)體i與個(gè)體j在所有變量上同時(shí)取1的個(gè)數(shù);d為同時(shí)取0的個(gè)數(shù)特點(diǎn):排除同時(shí)擁有或同時(shí)不擁有某特征的情況;取0和1地位等價(jià),編碼方案的變化不會(huì)引起系數(shù)的變化。聚類(lèi)分析概述第14頁(yè),共43頁(yè),2023年,2月20日,星期六二值變量型型個(gè)體間的距離簡(jiǎn)單匹配(simplematching)系數(shù):適用二值變量。姓名授課方式上機(jī)時(shí)間選某門(mén)課程張三111李四110王五001(張三,李四):a=2b=1c=0d=0d(1,2)=1/(1+2)=1/3(張三,王五):a=1b=2c=0d=0d(1,3)=2/(1+2)=2/3張三距李四近聚類(lèi)分析概述第15頁(yè),共43頁(yè),2023年,2月20日,星期六二值變量型個(gè)體間的距離根據(jù)臨床表現(xiàn)研究病人是否有類(lèi)似的病姓名性別發(fā)燒咳嗽檢查1檢查2檢查3檢查4張三男101000李四女101010王五男110000……..聚類(lèi)分析概述第16頁(yè),共43頁(yè),2023年,2月20日,星期六二值變量型個(gè)體間的距離雅科比(Jaccard)系數(shù):適用二值變量個(gè)體j個(gè)體i101ab0cd
a為個(gè)體i與個(gè)體j在所有變量上同時(shí)取1的個(gè)數(shù);d為同時(shí)取0的個(gè)數(shù)特點(diǎn):排除同時(shí)不擁有某特征的情況;取1的狀態(tài)比取0更有意義(如:臨床檢驗(yàn)中的陽(yáng)性特征);編碼方案會(huì)引起系數(shù)的變化聚類(lèi)分析概述第17頁(yè),共43頁(yè),2023年,2月20日,星期六雅科比(Jaccard)系數(shù):適用二值變量
(兩種編碼比較)姓名授課方式上機(jī)時(shí)間選某門(mén)課程張三1(0)1(0)1(0)李四1(0)1(0)0(1)王五0(1)0(1)1(0)(張三,李四)1:a=2b=1c=0d=0d(x,y)=1/(1+2)=1/3(張三,李四)2:a=0b=0c=1d=2d(x,y)=1/(1+2)=1/3(相同)(張三,李四)1:a=2b=1c=0d=0J(x,y)=1/(1+2)=1/3(張三,李四)2:a=0b=0c=1d=2J(x,y)=1/1=1(不相同)聚類(lèi)分析概述第18頁(yè),共43頁(yè),2023年,2月20日,星期六品質(zhì)型個(gè)體間的距離Jaccard系數(shù)舉例:根據(jù)臨床表現(xiàn)研究病人是否有類(lèi)似的病姓名性別發(fā)燒咳嗽檢查1檢查2檢查3檢查4張三男101000李四女101010王五男110000……..結(jié)論:張三和李四最有可能得類(lèi)似的病;李四和王五最不太有可能得聚類(lèi)分析概述第19頁(yè),共43頁(yè),2023年,2月20日,星期六二值變量型個(gè)體間的距離卡方距離:計(jì)數(shù)變量聚類(lèi)分析概述姓名選修課門(mén)數(shù)(期望頻數(shù))專(zhuān)業(yè)課門(mén)數(shù)(期望頻數(shù))得優(yōu)門(mén)數(shù)(期望頻數(shù))合計(jì)張三9(8.5)6(6)4(4.5)19李四8(8.5)6(6)5(4.5)19合計(jì)1712938第20頁(yè),共43頁(yè),2023年,2月20日,星期六聚類(lèi)過(guò)程中如果數(shù)據(jù)在數(shù)量級(jí)上存在差異時(shí),應(yīng)進(jìn)行標(biāo)準(zhǔn)化處理。例如:
樣本的歐氏距離 元 萬(wàn)元 (1,2)265000 81.623 (1,3)218000 193.700 (2,3)47000 254.897 聚類(lèi)分析概述第21頁(yè),共43頁(yè),2023年,2月20日,星期六聚類(lèi)分析概述聚類(lèi)分析中的變量選擇問(wèn)題變量應(yīng)和聚類(lèi)分析的目標(biāo)密切相關(guān)聚類(lèi)結(jié)果僅是所選定變量所具數(shù)據(jù)特點(diǎn)的反應(yīng).變量之間不應(yīng)具有高度相關(guān)性,否則相當(dāng)于給這些變量進(jìn)行了加權(quán)聚類(lèi)分析對(duì)象:個(gè)案聚類(lèi)和變量聚類(lèi)兩種。聚類(lèi)分析方法:系統(tǒng)聚類(lèi)和快速聚類(lèi)第22頁(yè),共43頁(yè),2023年,2月20日,星期六系統(tǒng)聚類(lèi)思路:聚類(lèi)過(guò)程具有一定的層次性以合并(凝聚)的方式聚類(lèi)(SPSS采用)首先,每個(gè)個(gè)體自成一類(lèi)其次,將最“親密”的個(gè)體聚成一小類(lèi)然后,將最“親密”的小類(lèi)或個(gè)體再聚成一類(lèi)重復(fù)上述過(guò)程,即:把所有的個(gè)體和小類(lèi)聚集成越來(lái)越大的類(lèi),直到所有的個(gè)體都到一起(一大類(lèi))為止可見(jiàn),隨著聚類(lèi)的進(jìn)行,類(lèi)內(nèi)的“親密”性在逐漸減低第23頁(yè),共43頁(yè),2023年,2月20日,星期六“親疏”程度的衡量對(duì)象個(gè)體間距離個(gè)體和小類(lèi)間、小類(lèi)和小類(lèi)間的距離系統(tǒng)聚類(lèi)第24頁(yè),共43頁(yè),2023年,2月20日,星期六個(gè)體和小類(lèi)、類(lèi)和類(lèi)間的距離最短距離法(nearestneighbor):兩類(lèi)間的距離定義為兩類(lèi)中距離最近的兩個(gè)個(gè)案之間的距離最長(zhǎng)距離法(furthestneighbor):兩類(lèi)間的距離定義為兩類(lèi)中距離最遠(yuǎn)的兩個(gè)個(gè)案之間的距離平均鏈鎖法(within-groupslinkage)兩類(lèi)之間的距離定義為兩類(lèi)個(gè)案之間距離的平均值。包括:組間平均鏈鎖法(between-groupslinkage):只考慮兩類(lèi)間個(gè)案的距離組內(nèi)平均鏈鎖法(With-groupslinage):考慮所有個(gè)案間的距離系統(tǒng)聚類(lèi)第25頁(yè),共43頁(yè),2023年,2月20日,星期六基本操作步驟1.基本操作A.菜單選項(xiàng):分析->分類(lèi)->系統(tǒng)聚類(lèi)B.選擇參與聚類(lèi)分析的變量入變量框C.選擇一字符型變量作為個(gè)案的標(biāo)記變量D.選擇個(gè)案聚類(lèi)還是變量聚類(lèi)E.選擇輸出系統(tǒng)聚類(lèi)第26頁(yè),共43頁(yè),2023年,2月20日,星期六第27頁(yè),共43頁(yè),2023年,2月20日,星期六基本操作步驟2.選擇距離計(jì)算方法第28頁(yè),共43頁(yè),2023年,2月20日,星期六聚類(lèi)數(shù)目的確定聚類(lèi)數(shù)目確定尚無(wú)統(tǒng)一標(biāo)準(zhǔn),一般原則:各類(lèi)所包含的元素都不應(yīng)過(guò)多分類(lèi)數(shù)目應(yīng)符合分析的目的分層聚類(lèi)中可以將類(lèi)間距離作為確定類(lèi)數(shù)目的輔助工具SPSS中,聚類(lèi)過(guò)程中,類(lèi)間距離呈增加趨勢(shì)類(lèi)間距離小,類(lèi)的相似性大;距離大,相似性小繪制碎石圖(X軸為類(lèi)距離,Y軸為類(lèi)數(shù))實(shí)例:裁判打分.sav層次聚類(lèi)第29頁(yè),共43頁(yè),2023年,2月20日,星期六輸出第30頁(yè),共43頁(yè),2023年,2月20日,星期六第31頁(yè),共43頁(yè),2023年,2月20日,星期六樹(shù)形圖第32頁(yè),共43頁(yè),2023年,2月20日,星期六(K-均值)快速聚類(lèi)(一)出發(fā)點(diǎn)希望:克服分層聚類(lèi)在大樣本時(shí)產(chǎn)生的困難,提高聚類(lèi)效率做法:通過(guò)用戶事先指定聚類(lèi)數(shù)目的方式提高效率因此,分層聚類(lèi)可以對(duì)不同的聚類(lèi)數(shù)而產(chǎn)生一系列的聚類(lèi)解,而快速聚類(lèi)只能產(chǎn)生單一的聚類(lèi)解第33頁(yè),共43頁(yè),2023年,2月20日,星期六K-means快速聚類(lèi)(二)思路1.指定最后要聚成K類(lèi)2.用戶指定k個(gè)樣本作為初始類(lèi)中心或系統(tǒng)自動(dòng)確定k個(gè)樣本作為初始類(lèi)中心3.系統(tǒng)按照距k個(gè)中心距離最近的原則把每個(gè)樣本分派到各中心所在的類(lèi)中去,形成一個(gè)新的k類(lèi),完成一次迭代4.重新計(jì)算k個(gè)類(lèi)的類(lèi)中心(計(jì)算每類(lèi)各變量的均值,以均值點(diǎn)作為類(lèi)中心)5.重復(fù)3步和4步,直到達(dá)到指定的迭代次數(shù)或達(dá)到終止迭代的條件第34頁(yè),共43頁(yè),2023年,2月20日,星期六K-means快速聚類(lèi)(二)思路
SPSS中兩個(gè)判斷聚類(lèi)是否結(jié)束的條件,滿足其中一個(gè)即可結(jié)束聚類(lèi)過(guò)程.達(dá)到指定迭代次數(shù)(maximumiteration),默認(rèn)10次。收斂標(biāo)準(zhǔn)(convergence),默認(rèn)0.02,即:本次迭代產(chǎn)生的任意新類(lèi),各中心位置變化較小.其中最大的變化率小于2%.第35頁(yè),共43頁(yè),2023年,2月20日,星期六K-means快速聚類(lèi)(三)基本操作步驟A.菜單選項(xiàng):analyze->classify->kmeansclusterB.選定參加快速聚類(lèi)分析的變量到variables框C.確定快速聚類(lèi)的類(lèi)數(shù)(numberofclusters).類(lèi)數(shù)應(yīng)小于個(gè)案總數(shù)D.選擇聚類(lèi)方法(method):默認(rèn)iterateandclassify,即:在聚類(lèi)的每一步都重新計(jì)算新的類(lèi)中心E.確定聚類(lèi)終止條件(iterate)第36頁(yè),共43頁(yè),2023年,2月20日,星期六K-means快速聚類(lèi)(四)其他1.保存快速聚類(lèi)的結(jié)果(save)clustermembership:將各個(gè)案所屬類(lèi)的類(lèi)號(hào)保存到qcl_1變量中distancefromclustercen
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 物流倉(cāng)儲(chǔ)有限空間作業(yè)安全管理措施
- 廢物處理有限空間作業(yè)人員職責(zé)
- 初中歷史新課標(biāo)教學(xué)反思心得體會(huì)
- 校園活動(dòng)保安員工作職責(zé)
- 投票權(quán)代理合同范本大全
- 房產(chǎn)中介定金合同模板大全
- 租賃合同中的押金標(biāo)準(zhǔn)與支付方式
- 簡(jiǎn)易版民間貸款合同樣本
- 新合同準(zhǔn)則對(duì)財(cái)務(wù)報(bào)表的影響與應(yīng)對(duì)策略
- 股權(quán)轉(zhuǎn)讓合同經(jīng)典范本
- 2023年中國(guó)市場(chǎng)體驗(yàn)經(jīng)濟(jì)趨勢(shì)分析報(bào)告
- 二級(jí)建造師之二建水利水電實(shí)務(wù)押題練習(xí)試題A卷含答案
- 大宗商品價(jià)格波動(dòng)預(yù)測(cè)
- 國(guó)開(kāi)管理英語(yǔ)1學(xué)習(xí)行為表現(xiàn)的心得
- 愚公移山英文 -中國(guó)故事英文版課件
- 認(rèn)知起道搗固作業(yè)的定義主要內(nèi)容使用范圍以及技術(shù)標(biāo)準(zhǔn)
- 《你一定愛(ài)讀的極簡(jiǎn)歐洲史》讀書(shū)筆記思維導(dǎo)圖PPT模板下載
- (30)-6急腹癥的診斷-輔助檢查
- 消費(fèi)者行為學(xué)智慧樹(shù)知到答案章節(jié)測(cè)試2023年浙江大學(xué)
- 機(jī)械設(shè)計(jì)課程設(shè)計(jì)-二級(jí)斜齒齒輪減速器
-
評(píng)論
0/150
提交評(píng)論