




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第一節(jié)
聚類分析核心思想
第二節(jié)
相似性的量度第三節(jié)
系統(tǒng)聚類分析法第四節(jié)
K均值聚類分析
第五節(jié)實(shí)例分析與計(jì)算機(jī)實(shí)現(xiàn)其次章聚類分析第一節(jié)核心思想“物以類聚,人以群分”?!敖煺叱?近墨者黑”在生物學(xué)中,為了探討生物的演化,生物學(xué)家須要依據(jù)各種生物不同的特征對生物進(jìn)行分類。在經(jīng)濟(jì)學(xué)中,依據(jù)經(jīng)濟(jì)發(fā)展的不同階段對世界各個(gè)國家進(jìn)行分類.醫(yī)學(xué)探討中,闌尾炎類型的劃分:性單純性闌尾炎,急性化膿性闌尾炎,壞疽性及穿孔性闌尾炎。在社會(huì)學(xué)探討中,須要構(gòu)造人口生育分類模式、人口死亡分類狀況,以此來探討人口的生育和死亡規(guī)律。聚類分析的核心思想就是依據(jù)具體的指標(biāo)(變量)對你所探討的樣品進(jìn)行分類.指標(biāo)是什么?書上的例子.將居民戶按戶主收入狀況進(jìn)行分類,那么衡量收入狀況的指標(biāo)有:標(biāo)準(zhǔn)工資收入\職工獎(jiǎng)金…..樣品是什么?你所探討的11戶居民.進(jìn)一步解讀指標(biāo):間隔尺度有序尺度名義尺度思索:能不能對指標(biāo)進(jìn)行聚類?所以,聚類分析包括兩種類型:Q型聚類:依據(jù)指標(biāo)(變量)對樣品進(jìn)行分類R型聚類:對指標(biāo)(變量)進(jìn)行分類問題:大家認(rèn)為聚類的結(jié)果是什么呢?其次節(jié)相像性的量度一樣品相似性的度量
二變量相似性的度量
一、樣品相像性的度量Q型聚類分析,常用距離來測度樣品之間的相像程度。選擇p個(gè)變量對n個(gè)樣品聚類:可以把n個(gè)樣品看成p維空間中的n個(gè)點(diǎn),則兩個(gè)樣品間相像程度就可用p維空間中的兩點(diǎn)距離來度量。:不同的距離公式:1.明考夫斯基距離令dij
表示樣品Xi與Xj的距離明考夫斯基距離的缺陷:簡潔受變量的量綱影響.沒有考慮變量間的相關(guān)性兩種改進(jìn)措施:“馬氏距離”法和變量標(biāo)準(zhǔn)化處理法(見書)高??蒲械臉颖緦W(xué)校參加科研人數(shù)(人)投入經(jīng)費(fèi)(元)立項(xiàng)課題數(shù)()1410438000019233617300002134902200008歐氏距離元萬元(1,2)26500081.6(1,3)218000193.7(2,3)47000254.8從距離的定義來看,全部變量都會(huì)在距離中做出貢獻(xiàn),若變量間存在較高的線形相關(guān)性,能夠相互替代,那么計(jì)算距離就會(huì)重復(fù)替代,將在距離計(jì)算中有較高的權(quán)重,從而使最終的聚類結(jié)果更傾向此變量 2.馬氏距離兩個(gè)樣品間的馬氏距離為
馬氏距離又稱為廣義歐氏距離。優(yōu)點(diǎn):(1)考慮了觀測變量之間的相關(guān)性。假如各變量之間相互獨(dú)立,即觀測變量的協(xié)方差矩陣是對角矩陣。(2)不再受各指標(biāo)量綱的影響。 4.距離選擇的原則(1)要考慮所選擇的距離公式在實(shí)際應(yīng)用中有明確的意義。如歐氏距離就有特別明確的空間距離概念。馬氏距離有消退量綱影響的作用。(2)要綜合考慮對樣本觀測數(shù)據(jù)的預(yù)處理和將要接受的聚類分析方法。如在進(jìn)行聚類分析之前已經(jīng)對變量作了標(biāo)準(zhǔn)化處理,則通常就可接受歐氏距離。(3)要考慮探討對象的特點(diǎn)和計(jì)算量的大小。樣品間距離公式的選擇是一個(gè)比較困難且?guī)в写_定主觀性的問題,我們應(yīng)依據(jù)探討對象的特點(diǎn)不同做出具體分折。實(shí)際中,聚類分析前不妨摸爽性地多選擇幾個(gè)距離公式分別進(jìn)行聚類,然后對聚類分析的結(jié)果進(jìn)行對比分析,以確定最合適的距離測度方法。二、變量相像性的度量R型聚類分析中,常用相像系數(shù)表示變量間的相像性。 1、夾角余弦
變量i的第k個(gè)取值變量j的第k個(gè)取值明顯,∣cosij∣1。二氧化碳影響因素聚類 2.相關(guān)系數(shù) 相關(guān)系數(shù)常常用來度量變量間的相像性。變量Xi與Xj的相關(guān)系數(shù)定義為
分別為變量i和j的均值明顯也有,∣rij∣1。有了對單個(gè)樣品和單個(gè)指標(biāo)相像形的度量方法后,如何依據(jù)類間距離大小和相關(guān)系數(shù)大小來進(jìn)行分類呢?會(huì)用到以下聚類方法:系統(tǒng)聚類模糊聚類K均值聚類有序樣品聚類第三節(jié)系統(tǒng)聚類一系統(tǒng)聚類的基本思想
二類間距離與系統(tǒng)聚類法
三類間距離的統(tǒng)一性
一、系統(tǒng)聚類的基本思想系統(tǒng)聚類的基本思想是:距離相近的樣品(或變量)先聚成類,距離相遠(yuǎn)的后聚成類,過程始終進(jìn)行下去,每個(gè)樣品(或變量)總能聚到合適的類中。系統(tǒng)聚類過程是:假設(shè)總共有n個(gè)樣品(或變量)第一步:將每個(gè)樣品(或變量)獨(dú)自聚成一類,共有n類;其次步:依據(jù)所確定的樣品(或變量)“距離”公式,把距離較近的兩個(gè)樣品(或變量)聚合為一類,其它的樣品(或變量)仍各自聚為一類,共聚成n1類;第三步:將“距離”最近的兩個(gè)類進(jìn)一步聚成一類,共聚成n2類;……,以上步驟始終進(jìn)行下去,最終將全部的樣品(或變量)全聚成一類。有兩個(gè)關(guān)鍵問題:類與類間的距離如何衡量?如何選擇分幾類呢?二、類間距離最短距離法、最長距離法、類平均法、重心法和離差平方和法等。它們的歸類步驟基本上是一樣的,主要差異是類間距離的計(jì)算方法不同。以下用dij表示樣品(指標(biāo))Xi與Xj之間距離,用D表示類Gi與Gj之間的距離。 1.最短距離法 定義類與之間的距離為兩類最近樣品(指標(biāo))的距離,即為
............1234 5.離差平方和法 又稱為Ward法。假如分類正確,同類樣品的離差平方和應(yīng)當(dāng)較小,類與類的離差平方和較大。具體做法是先將n個(gè)樣品各自成一類,然后每次縮小一類,每縮小一類,離差平方和就要增大,選擇使方差增加最小的兩類合并,直到全部的樣品歸為一類為止。
Dp為p類的離差平方和Dq為q類的離差平方和Dpq為p和q組成總類的離差平方和5.組間平均鏈接該個(gè)體與小類中每個(gè)個(gè)體距離的平均6.組內(nèi)平均鏈接該個(gè)體與小類中每個(gè)給體距離,以及小類內(nèi)部每個(gè)個(gè)體距離的平均case歐氏距離12345108.06217.80426.90730.41428.062025.45634.65538.21317.80425.45609.2212.806426.90734.6559.2203.606530.41438.2112.8063.6060三、分類數(shù)的確定可以依據(jù)碎石圖確定:X軸表示分幾類Y軸表示聚合系數(shù)四、聚類分析步驟以最短距離法步驟為例:(1)選擇樣品(指標(biāo))距離公式,計(jì)算樣品的兩兩距離,得距離陣記為D(0),起先每個(gè)樣品自成一類,這時(shí)Dij=dij。(2)找出距離最小元素,設(shè)為Dpq,則將Gp和Gq合并成一個(gè) 新類,記為Gr,即Gr={Gp,Gq}。(3)依據(jù)最短距離法計(jì)算新類與其它類的距離。(4)重復(fù)(2)、(3)兩步.假如某一步距離最小的元素不止一個(gè),則對應(yīng)這些最小元素的類同時(shí)合并?!纠?.1】設(shè)有六個(gè)樣品,每個(gè)只測量一個(gè)指標(biāo),分別是1,2,5,7,9,10,試用最短距離法將它們分類。 (1)選擇樣品距離公式,確定距離最簡潔,形成D(0)
(2)D(0)中最小的元素是D12=D56=1,于是將G1和G2合 并成G7,G5和G6合并成G8,并利用(5.12)式計(jì)算新類與其它類的距離D(1)
(3)在D(1)中最小值是D34=D48=2,由于G4與G3合并, 又與G8合并,因此G3、G4、G8合并成一個(gè)新類G9,其與其 它類的距離D(2) (4)最終將G7和G9合并成G10,這時(shí)全部的六個(gè)樣品聚為一類,其過程終止。 上述聚類的可視化過程如下:【例5.2】針對例5.1的數(shù)據(jù),試用重心法將它們聚類。(1)假設(shè)樣品接受歐氏距離,樣品間的平方距離陣D2(0)
(2)D2(0)中最小的元素是D212=D256=1,于是將G1和G2合并成G7,G5和G6合并成G8,新類與其它類的距離得到距離陣D2(1)
(3)在D2(1)中最小值是D234=4,那么G3與G4合并一個(gè)新類G9,其與與其它類的距離D2(2)
(4)在中最小值是=12.5,那么與合并一個(gè)新類,其與與 其它類的距離(5)最終將G7和G10合并成G11,這時(shí)全部的六個(gè)樣品聚為一類,其過程終止。 上述重心法聚類的可視化過程見圖5.3所示,橫坐標(biāo)的刻度表示并類的距離。系統(tǒng)聚類總結(jié):要選擇初始樣品(指標(biāo))的相像形測度公式聚成新類后要選擇類與類間的距離公式在選擇哪些樣品(指標(biāo))或是哪些類聚合為一類時(shí)統(tǒng)一的標(biāo)準(zhǔn)都是距離最近.引申出一個(gè)問題,究竟選擇哪一種類間距離公式更好呢?最短距離法是用得比較多的第四節(jié)K均值聚類一、核心思想這種算法的基本思想是將每一個(gè)樣品安排給最近中心(均值)的類中,具體的算法至少包括以下三個(gè)步驟:1.指定聚類數(shù);2.確定初始類的中心.用戶指定或系統(tǒng)指定.3.依據(jù)距離最近原則進(jìn)行分類.計(jì)算每個(gè)樣本到各類中心點(diǎn)的距離,并按距離最近原則對全部樣品進(jìn)行分類.4.重新確定各類中心。利用安排過來的樣本重新計(jì)算類均值.5.推斷是否滿足終止聚類的條件.跌代次數(shù):SPSS默認(rèn)為10類中心點(diǎn)偏移程度:新確定的類中心點(diǎn)距離上個(gè)類中心點(diǎn)的最大偏移量小于指定量.系統(tǒng)聚類與K均值聚類的區(qū)分與聯(lián)系K均值法和系統(tǒng)聚類法一樣,都是以距離的遠(yuǎn)近親疏為標(biāo)準(zhǔn)進(jìn)行聚類的.系統(tǒng)聚類可以選擇分類數(shù),而K—均值法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。所以有時(shí)也借助系統(tǒng)聚類法以一部分樣品為對象進(jìn)行聚類,其結(jié)果作為K—均值法確定類數(shù)的參考?!纠?.3】假定我們對A、B、C、D四個(gè)樣品分別測量兩個(gè)變量,得到結(jié)果。 試將以上的樣品聚成兩類。
第一步:按要求取K=2,為了實(shí)施均值法聚類,我們將這些樣品隨意分成兩類,比如(A、B)和(C、D),然后計(jì)算這兩個(gè)聚類的中心坐標(biāo),見表5.10所示。 中心坐標(biāo)是通過原始數(shù)據(jù)計(jì)算得來的,比如(A、B)類的 其次步:計(jì)算某個(gè)樣品到各類中心的歐氏平方距離,然后將該樣品安排給最近的一類。對于樣品有變動(dòng)的類,重新計(jì)算它們的中心坐標(biāo),為下一步聚類做準(zhǔn)備。先計(jì)算A到兩個(gè)類的平方距離:由于A到(A、B)的距離小于到(C、D)的距離,因此A不用重新安排。計(jì)算B到兩類的平方距離:由于B到(A、B)的距離大于到(C、D)的距離,因此B要安排給(C、D)類得到新的聚類是(A)和(B、C、D)。更新中心坐標(biāo)第三步:再次檢查每個(gè)樣品,以確定是否須要重新分類。計(jì)算各樣品到各中心的距離平方。到現(xiàn)在為止,每個(gè)樣品都已經(jīng)安排給距離中心最近的類,因此聚類過程到此結(jié)束。最終得到K=2的聚類結(jié)果是A獨(dú)自成一類,B、C、D聚成一類。第五節(jié)實(shí)例分析與計(jì)算機(jī)實(shí)現(xiàn)一在SPSS中利用系統(tǒng)聚類法進(jìn)行聚類分析
二在SPSS中利用K均值法進(jìn)行聚類分析
第一,進(jìn)行層次聚類分析,得到“凝合狀態(tài)表”其次步,利用表中第1列和第4列數(shù)據(jù),繪制“碎石圖”。首先將第4列數(shù)據(jù)拷入EXCEL數(shù)據(jù)表中;然后再由EXCEL自動(dòng)生成以下一列數(shù)據(jù):30、29、28、27……4、3、2、1,相當(dāng)于將第1列數(shù)據(jù)逆序排列。第三步,以第4列數(shù)據(jù)為橫坐標(biāo)(X軸),以逆序的第1列數(shù)據(jù)為縱坐標(biāo)(Y軸)繪制散點(diǎn)圖,這樣就生成我們所須要的“碎石圖”。一、在SPSS中利用系統(tǒng)聚類法進(jìn)行聚類分析設(shè)有20個(gè)土壤樣品分別對5個(gè)變量的觀測數(shù)據(jù)如表5.16所示,試?yán)孟到y(tǒng)聚類法對其進(jìn)行樣品聚類分析。表5.16土壤樣本的觀測數(shù)據(jù)
(一)操作步驟
1.在SPSS窗口中選擇Analyze→Classify→HierachicalCluster,調(diào)出系統(tǒng)聚類分析主界面,并將變量X1~X5移入Variables框中。在Cluster欄中選擇Cases單選按鈕,即對樣品進(jìn)行聚類(若選擇Variables,則對變量進(jìn)行聚類)。在Display欄中選擇Statistics和Plots復(fù)選框,這樣在結(jié)果輸出窗口中可以同時(shí)得到聚類結(jié)果統(tǒng)計(jì)量和統(tǒng)計(jì)圖。圖5.15K均值聚類分析主界面 2.點(diǎn)擊Iterate按鈕,對迭代參數(shù)進(jìn)行設(shè)置。MaximumIterations參數(shù)框用于設(shè)定K-means算法迭代的最大次數(shù),ConvergenceCriterion參數(shù)框用于設(shè)定算法的收斂判據(jù),其值應(yīng)當(dāng)介于0和1之間。例如判據(jù)設(shè)置為0.02,則當(dāng)一次完整的迭代不能使任何一個(gè)類中心距離的變動(dòng)與原始類中心距離的比小于2時(shí),迭代停止。設(shè)置完這兩個(gè)參數(shù)之后,只要在迭代的過程中先滿足了其中的參數(shù),則迭代過程就停止。這里我們選擇系統(tǒng)默認(rèn)的標(biāo)準(zhǔn)。單擊Continue,返回主界面。圖5.16Iterate子對話框 3.點(diǎn)擊Save按鈕,設(shè)置保存在數(shù)據(jù)文件中的表明聚類結(jié)果的新變量。其中Clustermembership選項(xiàng)用于建立一個(gè)代表聚類結(jié)果的變量,默認(rèn)變量名為qcl_1;Distancefromclustercenter選項(xiàng)建立一個(gè)新變量,代表各觀測量與其所屬類中心的歐氏距離。我們將兩個(gè)復(fù)選框都選中,單擊Continue按鈕返回。圖5.17Save子對話框 4.點(diǎn)擊Options按鈕,指定要計(jì)算的統(tǒng)計(jì)量。選中Initialclustercenters和Clusterinformationforeachcase復(fù)選框。這樣,在輸出窗口中將給出聚類的初始類中心和每個(gè)觀測量的分類信息,包括安排到哪一類和該觀測量距所屬類中心的距離。單擊Continue返回。 5.點(diǎn)擊OK按鈕,運(yùn)行K均值聚類分析程序。圖5.18Options子對話框 (二)主要運(yùn)行結(jié)果說明 1.InitialClusterCenters(給出初始類中心) 2.IterationHistory(給出每次迭代結(jié)束后類中心的變動(dòng)) 從表5.18中可以看到本次聚類過程共經(jīng)驗(yàn)了三次迭代。由于我們在Iterate子對話框中運(yùn)用系統(tǒng)默認(rèn)的選項(xiàng)(最大迭代次數(shù)為10和收斂判據(jù)為0),所以在第三次迭代后,類中心的變更為0,從而迭代停止。 3.ClusterMembership(給出各觀測量所屬的類及與所屬類中心的距離) 表5.19中Cluster列給出了觀測量所屬的類別,Distance列給出了觀測量與所屬類中心的距離。(出于排版要求,此表經(jīng)過加工,因此與原始輸出表形態(tài)有確定差異)。表5.18迭代過程中類中心的變更量表5.19各觀測量所屬類成員表 4.FinalClusterCenters(給出聚類結(jié)果形成的類中心的各變量值)表5.20最終的類中心表結(jié)合表5.19和表5.20,我們可以看出31個(gè)地區(qū)被分成3類。第一類包括:江蘇、浙江、山東和廣東
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 43710-2025科學(xué)數(shù)據(jù)安全審計(jì)要求
- 養(yǎng)殖庫房出售合同范本
- 單位鍋爐人員合同范本
- 個(gè)體工商合同范本
- 專業(yè)白蟻防治服務(wù)合同范本
- 養(yǎng)老機(jī)構(gòu)銷售合同范本
- 醫(yī)療設(shè)備議標(biāo)合同范本
- 化工鋼材采購合同范例
- 介紹費(fèi)協(xié)議合同范本
- 勞務(wù)派遣合同勞動(dòng)合同范本
- 農(nóng)田雜草的調(diào)查
- 【知識(shí)點(diǎn)提綱】新教材-人教版高中化學(xué)必修第一冊全冊各章節(jié)知識(shí)點(diǎn)考點(diǎn)重點(diǎn)難點(diǎn)提煉匯總
- 上海小弄堂-電子小報(bào)
- 軌道交通安全專題培訓(xùn)
- 物理化學(xué)完整版答案
- 二年級第二學(xué)期體育知識(shí)結(jié)構(gòu)圖
- 中國商品條碼系統(tǒng)注冊登記表規(guī)范填寫
- 湘科教版小學(xué)信息技術(shù)四年級下冊全冊教案.doc
- 節(jié)流孔板孔徑計(jì)算
- 學(xué)生流失率考核辦法(試行)
- JJG 840-1993 函數(shù)信號發(fā)生器檢定規(guī)程
評論
0/150
提交評論