版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
聚類分析
ClusterAnalysis6/23/20231本文檔共79頁(yè);當(dāng)前第1頁(yè);編輯于星期六\15點(diǎn)6分什么是聚類分析?聚類分析是根據(jù)“物以類聚”的道理,對(duì)樣本或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法,它們討論的對(duì)象是大量的樣本,要求能合理地按各自的特性進(jìn)行合理的分類,沒(méi)有任何模式可供參考或依循,即在沒(méi)有先驗(yàn)知識(shí)的情況下進(jìn)行的。2本文檔共79頁(yè);當(dāng)前第2頁(yè);編輯于星期六\15點(diǎn)6分聚類分析的基本思想基本思想是認(rèn)為研究的樣本或變量之間存在著程度不同的相似性(親疏關(guān)系)。根據(jù)一批樣本的多個(gè)觀測(cè)指標(biāo),找出一些能夠度量樣本或變量之間相似程度的統(tǒng)計(jì)量,以這些統(tǒng)計(jì)量作為分類的依據(jù),把一些相似程度較大的樣本(或指標(biāo))聚合為一類,把另外一些相似程度較大的樣本(或指標(biāo))聚合為一類,直到把所有的樣本(或指標(biāo))都聚合完畢,形成一個(gè)由小到大的分類系統(tǒng)。3本文檔共79頁(yè);當(dāng)前第3頁(yè);編輯于星期六\15點(diǎn)6分聚類分析無(wú)處不在誰(shuí)經(jīng)常光顧商店,誰(shuí)買什么東西,買多少?按會(huì)員卡記錄的光臨次數(shù)、光臨時(shí)間、性別、年齡、職業(yè)、購(gòu)物種類、金額等變量分類這樣商店可以……識(shí)別顧客購(gòu)買模式(如喜歡一大早來(lái)買酸奶和鮮肉,習(xí)慣周末時(shí)一次性大采購(gòu))刻畫不同的客戶群的特征4本文檔共79頁(yè);當(dāng)前第4頁(yè);編輯于星期六\15點(diǎn)6分聚類分析無(wú)處不在挖掘有價(jià)值的客戶,并制定相應(yīng)的促銷策略:如,對(duì)經(jīng)常購(gòu)買酸奶的客戶對(duì)累計(jì)消費(fèi)達(dá)到12個(gè)月的老客戶針對(duì)潛在客戶派發(fā)廣告,比在大街上亂發(fā)傳單命中率更高,成本更低!5本文檔共79頁(yè);當(dāng)前第5頁(yè);編輯于星期六\15點(diǎn)6分聚類分析無(wú)處不在誰(shuí)是銀行信用卡的黃金客戶?利用儲(chǔ)蓄額、刷卡消費(fèi)金額、誠(chéng)信度等變量對(duì)客戶分類,找出“黃金客戶”!這樣銀行可以……制定更具吸引力的服務(wù),留住客戶!比如:一定額度和期限的免息透支服務(wù)!贈(zèng)送百盛的貴賓打折卡!在他或她生日的時(shí)候送上一個(gè)小蛋糕!6本文檔共79頁(yè);當(dāng)前第6頁(yè);編輯于星期六\15點(diǎn)6分聚類的應(yīng)用領(lǐng)域經(jīng)濟(jì)領(lǐng)域:幫助市場(chǎng)分析人員從客戶數(shù)據(jù)庫(kù)中發(fā)現(xiàn)不同的客戶群,并且用購(gòu)買模式來(lái)刻畫不同的客戶群的特征。誰(shuí)喜歡打國(guó)際長(zhǎng)途,在什么時(shí)間,打到那里?對(duì)住宅區(qū)進(jìn)行聚類,確定自動(dòng)提款機(jī)ATM的安放位置股票市場(chǎng)板塊分析,找出最具活力的板塊龍頭股企業(yè)信用等級(jí)分類……生物學(xué)領(lǐng)域推導(dǎo)植物和動(dòng)物的分類;對(duì)基因分類,獲得對(duì)種群的認(rèn)識(shí)數(shù)據(jù)挖掘領(lǐng)域作為其他數(shù)學(xué)算法的預(yù)處理步驟,獲得數(shù)據(jù)分布狀況,集中對(duì)特定的類做進(jìn)一步的研究7本文檔共79頁(yè);當(dāng)前第7頁(yè);編輯于星期六\15點(diǎn)6分
例對(duì)10位應(yīng)聘者做智能檢驗(yàn)。3項(xiàng)指標(biāo)X,Y和Z分別表示數(shù)學(xué)推理能力、空間想象能力和語(yǔ)言理解能力。得分如下,選擇合適的統(tǒng)計(jì)方法對(duì)應(yīng)聘者進(jìn)行分類。應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z281816222622222424248本文檔共79頁(yè);當(dāng)前第8頁(yè);編輯于星期六\15點(diǎn)6分9本文檔共79頁(yè);當(dāng)前第9頁(yè);編輯于星期六\15點(diǎn)6分10本文檔共79頁(yè);當(dāng)前第10頁(yè);編輯于星期六\15點(diǎn)6分
聚類分析根據(jù)一批樣本的許多觀測(cè)指標(biāo),按照一定的數(shù)學(xué)公式具體地計(jì)算一些樣本或一些指標(biāo)的相似程度,把相似的樣本或指標(biāo)歸為一類,把不相似的歸為一類。11本文檔共79頁(yè);當(dāng)前第11頁(yè);編輯于星期六\15點(diǎn)6分樣本或變量間親疏程度的測(cè)度
研究樣本或變量的親疏程度的數(shù)量指標(biāo)有兩種:一種叫相似系數(shù),性質(zhì)越接近的變量或樣本,它們的相似系數(shù)越接近于1或一l,而彼此無(wú)關(guān)的變量或樣本它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類。另一種叫距離,它是將每一個(gè)樣本看作p維空間的一個(gè)點(diǎn),并用某種度量測(cè)量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)屬于不同的類。12本文檔共79頁(yè);當(dāng)前第12頁(yè);編輯于星期六\15點(diǎn)6分設(shè)有n個(gè)樣本單位,每個(gè)樣本測(cè)得p項(xiàng)指標(biāo)(變量),原始資料矩陣為:13本文檔共79頁(yè);當(dāng)前第13頁(yè);編輯于星期六\15點(diǎn)6分定比變量的聚類統(tǒng)計(jì)量:距離統(tǒng)計(jì)量絕對(duì)距離歐式距離明考斯基距離蘭氏距離馬氏距離切氏距離14本文檔共79頁(yè);當(dāng)前第14頁(yè);編輯于星期六\15點(diǎn)6分1.絕對(duì)距離(Block距離)2.歐氏距離(Euclideandistance)15本文檔共79頁(yè);當(dāng)前第15頁(yè);編輯于星期六\15點(diǎn)6分3.明考斯基距離(Minkowski)4.蘭氏距離5.馬氏距離6.切比雪夫距離(Chebychev)16本文檔共79頁(yè);當(dāng)前第16頁(yè);編輯于星期六\15點(diǎn)6分17本文檔共79頁(yè);當(dāng)前第17頁(yè);編輯于星期六\15點(diǎn)6分1.相關(guān)系數(shù)2.夾角余弦定比變量的聚類統(tǒng)計(jì)量:相似系數(shù)統(tǒng)計(jì)量18本文檔共79頁(yè);當(dāng)前第18頁(yè);編輯于星期六\15點(diǎn)6分計(jì)數(shù)變量(Count)(離散變量)的聚類統(tǒng)計(jì)量對(duì)于計(jì)數(shù)變量或離散變量,可用于度量樣本(或變量)之間的相似性或不相似性程度的統(tǒng)計(jì)量主要有卡方測(cè)度(Chi-squaremeasure)和Phi方測(cè)度(Phi-squaremeasure)。19本文檔共79頁(yè);當(dāng)前第19頁(yè);編輯于星期六\15點(diǎn)6分二值(Binary)變量的聚類統(tǒng)計(jì)量20本文檔共79頁(yè);當(dāng)前第20頁(yè);編輯于星期六\15點(diǎn)6分聚類的類型根據(jù)聚類對(duì)象的不同,分為Q型聚類和R型聚類。Q型聚類:樣本之間的聚類即Q型聚類分析,則常用距離來(lái)測(cè)度樣本之間的親疏程度。R型聚類:變量之間的聚類即R型聚類分析,常用相似系數(shù)來(lái)測(cè)度變量之間的親疏程度。21本文檔共79頁(yè);當(dāng)前第21頁(yè);編輯于星期六\15點(diǎn)6分聚類的類型根據(jù)聚類方法的不同分為系統(tǒng)聚類和K均值聚類。系統(tǒng)聚類:又稱為層次聚類(hierarchicalcluster),是指聚類過(guò)程是按照一定層次進(jìn)行的。K均值聚類(K-meansCluster)22本文檔共79頁(yè);當(dāng)前第22頁(yè);編輯于星期六\15點(diǎn)6分層次聚類基本思想:
在聚類分析的開始,每個(gè)樣本(或變量)自成一類;然后,按照某種方法度量所有樣本(或變量)之間的親疏程度,并把最相似的樣本(或變量)首先聚成一小類;接下來(lái),度量剩余的樣本(或變量)和小類間的親疏程度,并將當(dāng)前最接近的樣本(或變量)與小類聚成一類;再接下來(lái),再度量剩余的樣本(或變量)和小類間的親疏程度,并將當(dāng)前最接近的樣本(或變量)與小類聚成一類;如此反復(fù),直到所有樣本(或變量)聚成一類為止。23本文檔共79頁(yè);當(dāng)前第23頁(yè);編輯于星期六\15點(diǎn)6分系統(tǒng)聚類法不僅需要度量個(gè)體與個(gè)體之間的距離,還要度量類與類之間的距離。類間距離被度量出來(lái)之后,距離最小的兩個(gè)小類將首先被合并成為一類。由類間距離定義的不同產(chǎn)生了不同的系統(tǒng)聚類法。24本文檔共79頁(yè);當(dāng)前第24頁(yè);編輯于星期六\15點(diǎn)6分類間距離的度量方法最短距離法(NearestNeighbor)最長(zhǎng)距離法(FurtherNeighbor)組間平均連接法(Between-grouplinkage)組內(nèi)平均連接法(Within-grouplinkage)重心法(Centroidclustering)中位數(shù)法(Medianclustering)離差平方和法(Ward’smethod)25本文檔共79頁(yè);當(dāng)前第25頁(yè);編輯于星期六\15點(diǎn)6分最短距離法(NearestNeighbor)以兩類中距離最近的兩個(gè)個(gè)體之間的距離作為類間距離。26本文檔共79頁(yè);當(dāng)前第26頁(yè);編輯于星期六\15點(diǎn)6分x21?x12?x22?x11?27本文檔共79頁(yè);當(dāng)前第27頁(yè);編輯于星期六\15點(diǎn)6分最長(zhǎng)距離法(FurtherNeighbor)以兩類中距離最遠(yuǎn)的兩個(gè)個(gè)體之間的距離作為類間距離。28本文檔共79頁(yè);當(dāng)前第28頁(yè);編輯于星期六\15點(diǎn)6分???x11?x21????29本文檔共79頁(yè);當(dāng)前第29頁(yè);編輯于星期六\15點(diǎn)6分組間平均連接法
(Between-grouplinkage)以兩類個(gè)體兩兩之間距離的平均數(shù)作為類間距離。30本文檔共79頁(yè);當(dāng)前第30頁(yè);編輯于星期六\15點(diǎn)6分??????組間平均連接法(Between-groupLinkage)31本文檔共79頁(yè);當(dāng)前第31頁(yè);編輯于星期六\15點(diǎn)6分組內(nèi)平均連接法
(Within-grouplinkage)將兩類個(gè)體合并為一類后,以合并后類中所有個(gè)體之間的平均距離作為類間距離。32本文檔共79頁(yè);當(dāng)前第32頁(yè);編輯于星期六\15點(diǎn)6分
組內(nèi)平均連接法(Within-groupLinkage)x21?x12?x22?x11?33本文檔共79頁(yè);當(dāng)前第33頁(yè);編輯于星期六\15點(diǎn)6分重心法(Centroidclustering)以兩類變量均值(重心)之間的距離作為類間距離。34本文檔共79頁(yè);當(dāng)前第34頁(yè);編輯于星期六\15點(diǎn)6分重心距離:均值點(diǎn)的距離??35本文檔共79頁(yè);當(dāng)前第35頁(yè);編輯于星期六\15點(diǎn)6分中位數(shù)法(Medianclustering)以兩類變量中位數(shù)之間的距離作為類間距離。36本文檔共79頁(yè);當(dāng)前第36頁(yè);編輯于星期六\15點(diǎn)6分離差平方和法(Ward’smethod)離差平方和法是由Ward提出的,因此也稱為Ward方法。具體做法是,先將n個(gè)個(gè)體各自成一類,然后每次減少一類,隨著類與類的不斷聚合,類內(nèi)的離差平方和必然不斷增大,選擇使離差平方和增加最小的兩類合并,直到所有的個(gè)體歸為一類為止。37本文檔共79頁(yè);當(dāng)前第37頁(yè);編輯于星期六\15點(diǎn)6分
主要步驟1.選擇變量
(1)和聚類分析的目的密切相關(guān)(2)反映要分類變量的特征(3)在不同研究對(duì)象上的值有明顯的差異(4)變量之間不能高度相關(guān)2.數(shù)據(jù)變換處理
為了消除各指標(biāo)量綱的影響,需要對(duì)原始數(shù)據(jù)進(jìn)行必要的變換處理。
38本文檔共79頁(yè);當(dāng)前第38頁(yè);編輯于星期六\15點(diǎn)6分3.計(jì)算聚類統(tǒng)計(jì)量
聚類統(tǒng)計(jì)量是根據(jù)變換以后的數(shù)據(jù)計(jì)算得到的一個(gè)新數(shù)據(jù),它用于表明各樣本或變量間的關(guān)系密切程度。常用的統(tǒng)計(jì)量有距離和相似系數(shù)兩大類。39本文檔共79頁(yè);當(dāng)前第39頁(yè);編輯于星期六\15點(diǎn)6分
4.聚類
主要涉及兩個(gè)問(wèn)題:(1)選擇聚類的方法(2)確定形成的類數(shù)40本文檔共79頁(yè);當(dāng)前第40頁(yè);編輯于星期六\15點(diǎn)6分5.聚類結(jié)果的解釋和證實(shí)
對(duì)聚類結(jié)果進(jìn)行解釋是希望對(duì)各個(gè)類的特征進(jìn)行準(zhǔn)確的描述,給每類起一個(gè)合適的名稱。這一步可以借助各種描述性統(tǒng)計(jì)量進(jìn)行分析,通常的做法是計(jì)算各類在各聚類變量上的均值,對(duì)均值進(jìn)行比較,還可以解釋各類產(chǎn)生的原因。
41本文檔共79頁(yè);當(dāng)前第41頁(yè);編輯于星期六\15點(diǎn)6分k-均值聚類
K-meansClusterK-均值聚類也叫快速聚類要求事先確定分類數(shù)運(yùn)算速度快(特別是對(duì)于大樣本)42本文檔共79頁(yè);當(dāng)前第42頁(yè);編輯于星期六\15點(diǎn)6分k-均值聚類
K-meansCluster系統(tǒng)首先選擇k個(gè)聚類中心,根據(jù)其他觀測(cè)值與聚類中心的距離遠(yuǎn)近,將所有的觀測(cè)值分成k類;再將k個(gè)類的中心(均值)作為新的聚類中心,重新按照距離進(jìn)行分類;……,這樣一直迭代下去,直到達(dá)到指定的迭代次數(shù)或達(dá)到中止迭代的判據(jù)要求時(shí),聚類過(guò)程結(jié)束。43本文檔共79頁(yè);當(dāng)前第43頁(yè);編輯于星期六\15點(diǎn)6分聚類分析終止的條件迭代次數(shù):當(dāng)目前的迭代次數(shù)等于指定的迭代次數(shù)(SPSS默認(rèn)為10)時(shí)終止迭代。類中心點(diǎn)偏移程度:新確定的類中心點(diǎn)距上個(gè)類中心點(diǎn)的最大偏移量小于等于指定的量(SPSS默認(rèn)為0)時(shí)終止聚類。44本文檔共79頁(yè);當(dāng)前第44頁(yè);編輯于星期六\15點(diǎn)6分例子1:31個(gè)省區(qū)小康和現(xiàn)代化指數(shù)的聚類分析利用2001年全國(guó)31個(gè)省市自治區(qū)各類小康和現(xiàn)代化指數(shù)的數(shù)據(jù),對(duì)地區(qū)進(jìn)行聚類分析。數(shù)據(jù)中包括6類指數(shù):綜合指數(shù)、社會(huì)結(jié)構(gòu)指數(shù)、經(jīng)濟(jì)與技術(shù)發(fā)展指數(shù)、人口素質(zhì)指數(shù)、生活質(zhì)量指數(shù)、法制與治安指數(shù)。45本文檔共79頁(yè);當(dāng)前第45頁(yè);編輯于星期六\15點(diǎn)6分系統(tǒng)聚類46本文檔共79頁(yè);當(dāng)前第46頁(yè);編輯于星期六\15點(diǎn)6分Agglomerationschedule:輸出聚類過(guò)程表Proximitymatrix:輸出各個(gè)體之間的距離矩陣ClusterMembership:每個(gè)個(gè)體類別歸屬表47本文檔共79頁(yè);當(dāng)前第47頁(yè);編輯于星期六\15點(diǎn)6分Dendrogram:聚類樹形圖Icicle:冰柱圖48本文檔共79頁(yè);當(dāng)前第48頁(yè);編輯于星期六\15點(diǎn)6分49本文檔共79頁(yè);當(dāng)前第49頁(yè);編輯于星期六\15點(diǎn)6分50本文檔共79頁(yè);當(dāng)前第50頁(yè);編輯于星期六\15點(diǎn)6分51本文檔共79頁(yè);當(dāng)前第51頁(yè);編輯于星期六\15點(diǎn)6分52本文檔共79頁(yè);當(dāng)前第52頁(yè);編輯于星期六\15點(diǎn)6分53本文檔共79頁(yè);當(dāng)前第53頁(yè);編輯于星期六\15點(diǎn)6分如果分為3類第1類:北京、上海、天津第2類:江蘇、山東、遼寧、浙江、廣東、福建、黑龍江、吉林第3類:其余省區(qū)54本文檔共79頁(yè);當(dāng)前第54頁(yè);編輯于星期六\15點(diǎn)6分輸出各組的統(tǒng)計(jì)信息在數(shù)據(jù)文件中保存分類信息Data—Splitfile55本文檔共79頁(yè);當(dāng)前第55頁(yè);編輯于星期六\15點(diǎn)6分56本文檔共79頁(yè);當(dāng)前第56頁(yè);編輯于星期六\15點(diǎn)6分57本文檔共79頁(yè);當(dāng)前第57頁(yè);編輯于星期六\15點(diǎn)6分K均值聚類Iterateandclassify:不斷計(jì)算新的類中心,替換舊的類中心。Classifyonly:根據(jù)初始類中心進(jìn)行聚類,不改變類中心。58本文檔共79頁(yè);當(dāng)前第58頁(yè);編輯于星期六\15點(diǎn)6分59本文檔共79頁(yè);當(dāng)前第59頁(yè);編輯于星期六\15點(diǎn)6分60本文檔共79頁(yè);當(dāng)前第60頁(yè);編輯于星期六\15點(diǎn)6分61
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年牛津譯林版七年級(jí)生物下冊(cè)月考試卷含答案
- 2025年蘇人新版必修3語(yǔ)文上冊(cè)階段測(cè)試試卷含答案
- 2025年新科版必修三歷史下冊(cè)月考試卷
- 2025年粵教新版九年級(jí)地理上冊(cè)月考試卷
- 2025年北師大新版九年級(jí)生物下冊(cè)月考試卷含答案
- 二零二五版體育產(chǎn)業(yè)派遣員工賽事運(yùn)營(yíng)合同4篇
- 二零二五年度綠色環(huán)保材料研發(fā)與應(yīng)用合作協(xié)議3篇
- 二零二五年度養(yǎng)老院內(nèi)墻涂料粉刷及舒適度合同4篇
- 二零二五年度大宗商品倉(cāng)單質(zhì)押融資合同范本3篇
- 2025年特色主題餐館租賃合同范本2篇
- 【正版授權(quán)】 ISO 12803:1997 EN Representative sampling of plutonium nitrate solutions for determination of plutonium concentration
- 道德經(jīng)全文及注釋
- 2024中考考前地理沖刺卷及答案(含答題卡)
- 多子女贍養(yǎng)老人協(xié)議書范文
- 安踏運(yùn)動(dòng)品牌營(yíng)銷策略研究
- 彩票市場(chǎng)銷售計(jì)劃書
- 骨科抗菌藥物應(yīng)用分析報(bào)告
- 支付行業(yè)反洗錢與反恐怖融資
- 基礎(chǔ)設(shè)施綠色施工技術(shù)研究
- 寶鋼BQB 481-2023全工藝?yán)滠堉蓄l無(wú)取向電工鋼帶文件
- 車輛定損情況確認(rèn)書范本
評(píng)論
0/150
提交評(píng)論