第十聚類分析_第1頁
第十聚類分析_第2頁
第十聚類分析_第3頁
第十聚類分析_第4頁
第十聚類分析_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第十聚類分析第1頁,共10頁,2023年,2月20日,星期二2023/4/16210.1聚類分析概述10.1.1聚類分析的內(nèi)涵聚類分析是研究分類問題的一種多元統(tǒng)計分析方法,在經(jīng)濟(jì)社會研究中有著廣泛的應(yīng)用。以往的分類方法多半依靠經(jīng)驗和專業(yè)知識作定性分類,導(dǎo)致許多分類帶有主觀性和隨意性,不能很好地揭示客觀事物內(nèi)在的本質(zhì)差別和聯(lián)系,特別是對于多因素、多指標(biāo)的分類問題,僅憑經(jīng)驗和專業(yè)知識往往難以實現(xiàn)準(zhǔn)確分類。為克服定性分類不足,人們把數(shù)學(xué)方法引入分類學(xué)中,形成了數(shù)值分類學(xué)。后來隨著多元統(tǒng)計分析的發(fā)展,聚類分析逐漸從數(shù)值分類學(xué)中分離出來,形成了一個新的分支。第2頁,共10頁,2023年,2月20日,星期二2023/4/16310.1聚類分析概述10.1.2聚類分析原理我們認(rèn)為,所研究的樣品或指標(biāo)(變量)之間存在著程度不同的相似性(親屬關(guān)系)。于是根據(jù)一批樣品的多個觀測指標(biāo),具體找出一些能夠度量樣品或指標(biāo)之間的相似程度的統(tǒng)計量,以其作為劃分類型的依據(jù),把一些相似程度較大的樣品(或指標(biāo))聚合為一類,把另外一些彼此之間相似程度較大的樣品(或指標(biāo))聚合為另一類……關(guān)系密切的聚合到一個小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個大的分類單位,直到把所有的樣品(或指標(biāo))聚合完畢,把不同的類型一一劃分出來,形成一個由小到大的分類系統(tǒng)。最后再把整個分類系統(tǒng)畫成一張譜系圖,用它把所有樣品(或變量)間的親疏關(guān)系表示出來。第3頁,共10頁,2023年,2月20日,星期二2023/4/16410.1聚類分析概述10.1.3聚類分析的分類根據(jù)聚類對象的不同,分為:Q型聚類——對樣品進(jìn)行分類處理;K型聚類——對變量進(jìn)行分類處理。Q型聚類分析的優(yōu)點可綜合利用多個變量的信息對樣本進(jìn)行分類;分類結(jié)果直觀,聚類譜系圖能清晰表現(xiàn)數(shù)據(jù)分類結(jié)果;數(shù)據(jù)分類結(jié)果比傳統(tǒng)分類方法更細(xì)致、全面、合理。第4頁,共10頁,2023年,2月20日,星期二2023/4/16510.1聚類分析概述根據(jù)聚類方法的不同,聚類分析分為:系統(tǒng)聚類法模糊聚類法K-均值法有序聚類法分解法……我們重點介紹系統(tǒng)聚類的理論與方法。第5頁,共10頁,2023年,2月20日,星期二2023/4/16610.2系統(tǒng)聚類的理論與方法10.2.1系統(tǒng)聚類的基本思想系統(tǒng)聚類方法是一種最常用和最基本的聚類方法。其基本思想是認(rèn)為我們所研究的樣品或指標(biāo)(變量)之間存在著程度不同的相似性(親疏關(guān)系)。關(guān)系密切的先聚成類,關(guān)系疏遠(yuǎn)的后聚成類,如此一直進(jìn)行下去,直到把所有樣品(或變量)聚合完畢。第6頁,共10頁,2023年,2月20日,星期二2023/4/16710.2.2系統(tǒng)聚類的過程首先,將n個樣品(變量)看成n類,即一類只包含一個樣品(變量);其次根據(jù)所確定的“距離”公式,將“距離”最近的兩類合并為一個新類,這樣得到n-1類;再次從n-1類中找出“距離”最近的兩類加以合并,變?yōu)閚-2類;以此類推……直到所有樣品(變量)歸為一類為止。把上述分類過程畫成一張譜系圖,通過它可以把所有樣品(變量)間的親疏關(guān)系表示出來。第7頁,共10頁,2023年,2月20日,星期二2023/4/16810.2.3個體之間“距離”的度量方法聚類分析中,個體之間的“親疏程度”極為重要,它直接影響最終的聚類結(jié)果,這種“親疏程度”可以用某種“距離”來衡量。根據(jù)變量類型的不同,“距離”的度量方法也各不相同:連續(xù)變量(歐氏距離、歐氏距離平方、切比雪夫距離、皮爾遜相關(guān)系數(shù)、夾角余弦……)計數(shù)(離散)變量(卡方距離、Phi距離)二值變量(二值歐氏距離、二值歐氏距離平方、方差…)第8頁,共10頁,2023年,2月20日,星期二2023/4/16910.2.4類之間距離的度量方法系統(tǒng)聚類不僅需要度量個體間的距離,還要度量類與類之間的距離,距離最小的類首先被聚合為一類。類間距離的測度有以下方法:組間平均連接距離(Between-grouplinkage)組內(nèi)平均連接距離(Within-grouplinkage)最近鄰距離(Nearestneighbor)最遠(yuǎn)鄰距離(Furthestneighbor)重心距離(Centroidcluster)中位數(shù)距離(Mediancluster)離差平方和法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論