第九章 地理系統(tǒng)聚類分析模型_第1頁
第九章 地理系統(tǒng)聚類分析模型_第2頁
第九章 地理系統(tǒng)聚類分析模型_第3頁
第九章 地理系統(tǒng)聚類分析模型_第4頁
第九章 地理系統(tǒng)聚類分析模型_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第九章 地理系統(tǒng)聚類分析模型第一節(jié) 聚類分析的方法及變量模型 聚類分析(Cluster Analysis)是數(shù)理統(tǒng)計(jì)中研究“物以類聚”的一種方法。一、地理系統(tǒng)分類的意義 對(duì)地理系統(tǒng)的研究很重要的一個(gè)問題就是進(jìn)行地理分區(qū)與分類。 聚類分析法可避免傳統(tǒng)分類法的主觀性和任意性的特點(diǎn)。 但應(yīng)特別引起注意的是,對(duì)地理數(shù)據(jù)處理不當(dāng),或只要求方法的新穎,有時(shí)分類的結(jié)果可能與地理實(shí)際不符合。 一種科學(xué)的分類法,應(yīng)能正確地反映客觀地理事物的內(nèi)在聯(lián)系,并能表達(dá)出它們之間的相似性和差異性。聚類分析法的基本特點(diǎn)二、聚類分析的方法 聚類分析的職能是建立一種分類方法,它是將地理樣品或變量,按它們?cè)谛再|(zhì)上的親疏程度進(jìn)行分類

2、。描述親疏程度的兩個(gè)途徑 當(dāng)確定了樣品或變量的距離或相似系數(shù)后,就要對(duì)樣品或變量進(jìn)行分類,分類的方法很多,主要的兩種是:分類方法分 類 方 法(續(xù)) 在進(jìn)行聚類分析處理時(shí),樣品間的相似系數(shù)和距離有各種不同的定義,而這些定義與變量的類型關(guān)系極大,通常按照它們的特性分類,變量的特性有三種類型:變量特性的三種類型、名義特性(無序多態(tài))、順序特性(有序多態(tài)) 它是由一個(gè)有序狀態(tài)序列所確定,指標(biāo)量度時(shí)沒有明確的數(shù)量關(guān)系,只有次序關(guān)系,如對(duì)某種地理要素的定性評(píng)價(jià)為“好的、比較好的、一般的、差的”,又如對(duì)某一事件的量度估價(jià)為“罕見的、偶然的、一般的、大量的”等。、數(shù)值特性(定 量) 它是由測(cè)量或計(jì)數(shù)、統(tǒng)計(jì)所

3、得的量,如長度、重量、壓力、經(jīng)濟(jì)統(tǒng)計(jì)數(shù)字、人口普查數(shù)字、抽樣調(diào)查數(shù)據(jù)等。 不同類型的變量在定義距離相似性測(cè)度時(shí)有很大的差異,這里主要研究具有數(shù)值特性的變量的聚類分析問題。聚類分析的分類 R型聚類分析的作用 選擇變量的方法: 在聚合的每類變量中,各選出一個(gè)有代表性的變量作為典型變量,為此計(jì)算每一個(gè)變量與其同類的其它變量的決定系數(shù)r2(即相關(guān)系數(shù)的平方)的均值: r2 = ri2/(K-1) 式中,K為該類的變量個(gè)數(shù)。挑選r2值最大的變量xi作為該類的典型變量。 Q型聚類分析優(yōu)點(diǎn)第二節(jié) 系統(tǒng)聚類分析 系統(tǒng)聚類分析(Hierachical Cluster Analysis)是聚類分析中應(yīng)用最廣泛的一

4、種方法,凡是具有數(shù)值特征的變量和樣品都可以采用系統(tǒng)聚類法。 選擇不同的距離和聚類方法可獲得滿意的數(shù)值分類效果。 系統(tǒng)聚類法是把個(gè)體逐個(gè)地合并成一些子集,直至整個(gè)總體都在一個(gè)集合之內(nèi)為止。 系統(tǒng)聚類法的分類步驟如下:(1)聚類前先對(duì)數(shù)據(jù)進(jìn)行變換處理(假定在聚類處理之前,已經(jīng)對(duì)變量進(jìn)行了篩選,選擇了那些相關(guān)性不很顯著的而且貢獻(xiàn)大的指標(biāo),而剔除了相關(guān)性很強(qiáng)的變量)。(2)聚類分析處理的開始是各樣品自成一類(n個(gè)樣品一共有n類),計(jì)算各樣品之間的距離,并將距離最近的兩個(gè)樣品并成一類。(3)選擇并計(jì)算類與類之間的距離,并將距離最近的兩類合并,如果類的個(gè)數(shù)大于,則繼續(xù)并類,直至所有樣品歸為一類為止。(4)

5、最后繪制系統(tǒng)聚類譜系圖,按不同的分類標(biāo)準(zhǔn)或不同的分類原則,得出不同的分類結(jié)果。一、數(shù)據(jù)變換處理 在聚類分析處理過程中,首先應(yīng)對(duì)原始數(shù)據(jù)矩陣進(jìn)行變換處理。 由于在抽取樣本對(duì)數(shù)據(jù)進(jìn)行量度處理時(shí),不同指標(biāo)(變量)一般都有不同的量綱,并且有不同的數(shù)量級(jí)單位,為了使不同量綱、不同數(shù)量級(jí)的數(shù)據(jù)能放在一起比較,通常需要對(duì)數(shù)據(jù)進(jìn)行變換處理。例、研究世界各國森林、草原資源的分布規(guī)律,并抽取22個(gè)國家(即22個(gè)樣品)數(shù)據(jù),每個(gè)國家有項(xiàng)指標(biāo),以此作聚類分析處理,原始數(shù)據(jù)見表 表中所列的幾個(gè)變量:森林面積、森林覆蓋率、林木蓄積量、草原面積都分別有不同的量綱,而且數(shù)值的數(shù)量級(jí)也相差很大,為了在一起進(jìn)行比較,需進(jìn)行變換處

6、理。 所謂數(shù)據(jù)變換,就是將原始數(shù)據(jù)矩陣中的每個(gè)元素,按照某種特定的運(yùn)算把它變?yōu)橐粋€(gè)新值,而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。常用的變換方法1、中心化變換 中心化是一種標(biāo)準(zhǔn)化處理方法,它是先求出每個(gè)變量的樣本平均值,再從原始數(shù)據(jù)中減去該變量的均值,就得到中心化后的數(shù)據(jù)。設(shè)原始數(shù)據(jù)矩陣為: X= 式中:m為樣本數(shù),n為變量數(shù)。設(shè)中心化后的數(shù)據(jù)為xij 則有: xij = xij - xj I=1,2,m j=1,2,n 變換的結(jié)果使每列數(shù)據(jù)之和均為,而且每列數(shù)據(jù)的平方和是該列數(shù)據(jù)方差的(n-1)倍,任何不同兩列數(shù)據(jù)之交叉積是這兩列的協(xié)方差的(n-1)倍,所以這是一種很方便地計(jì)算方差

7、協(xié)方差的變換。中心化變換數(shù)據(jù)表、規(guī)格化變換 規(guī)格化變換是從數(shù)據(jù)矩陣的每一個(gè)變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每一個(gè)原始數(shù)據(jù)中減去該變量的最小值,再除以極差,就得到規(guī)格化數(shù)據(jù)。原始數(shù)據(jù)仍見上表,規(guī)格化后的數(shù)據(jù)為xij 則有: xij =(xij minxij)/(maxxij-minxij) I=1,2,m j=1,2,n 經(jīng)過變換后,將每列的最大數(shù)據(jù)變?yōu)?,最小?shù)據(jù)變?yōu)?,其余?shù)據(jù)取值在之間。 變換后的數(shù)據(jù)表、標(biāo)準(zhǔn)化變換 標(biāo)準(zhǔn)化變換方法主要是對(duì)變量的屬性進(jìn)行變換處理,首先對(duì)列進(jìn)行中心化,然后用標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化。 xij =( xij xj)/ Sj I=1,2,m j=1,2,

8、n其中: xj =(1/n)xij Sj=(1/(n-1)(xij xj)21/2 經(jīng)過變換后,每列數(shù)據(jù)的平均值為,方差為,使用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理后,在抽樣樣本改變時(shí),它仍然保持相對(duì)穩(wěn)定性。 變換后的數(shù)據(jù)表、對(duì) 數(shù) 變 換 對(duì)數(shù)變換可將具有指數(shù)特征的數(shù)據(jù)結(jié)構(gòu)化為線性數(shù)據(jù)結(jié)構(gòu)。 對(duì)數(shù)變換數(shù)據(jù)表 此外,還有極差標(biāo)準(zhǔn)化、平方根變換、立方根變換等。 極差標(biāo)準(zhǔn)化變換和規(guī)格化類似,它是把每個(gè)變量的樣本極差皆化為,排除量綱的干擾。 立方根變換和平方根變換的主要作用是把非線性的數(shù)據(jù)結(jié)構(gòu)變?yōu)榫€性數(shù)據(jù)結(jié)構(gòu),以適應(yīng)某些統(tǒng)計(jì)方法的需要。二、相似系數(shù)和距離 目前已經(jīng)設(shè)計(jì)了大量的相似系數(shù)和距離,據(jù)統(tǒng)計(jì)約有40多種。 但在數(shù)

9、值分類中比較常用的卻是少數(shù),這里只介紹在聚類分析中常用 的相似系數(shù)和距離。1、距離 設(shè)有數(shù)據(jù) 矩陣為: xij表示i個(gè)樣品的第j個(gè)指標(biāo);第j個(gè)指標(biāo)的均值和標(biāo)準(zhǔn)差為xj和sj;用dij表示i個(gè)樣品和j個(gè)樣品之間的距離。距離dij應(yīng)滿足如下幾個(gè)條件:(1) dij 0(一切i,j)常用的距離 上述的各種距離是假定變量之間相互獨(dú)立,即在正交空間中討論的距離,但在實(shí)際問題中,變量之間往往存在著一定的相關(guān)性,為克服變量之間的相關(guān)性影響,可以采用馬氏距離。(6)馬氏距離(P.C.Mahalanobis) 馬氏距離雖然可以排除變量之間相關(guān)性的干擾,并且不受量綱的影響,但是在聚類分析處理之前,如果用全部數(shù)據(jù)計(jì)

10、算的均值和協(xié)方差陣來計(jì)算馬氏距離,效果不是很好的。 比較合理的辦法是用各個(gè)類的樣本來計(jì)算各自的協(xié)方差矩陣,同一類樣本的馬氏距離應(yīng)當(dāng)用這一類的協(xié)方差矩陣來計(jì)算。 而類的形成都要依賴于樣品之間的距離,而樣品的合理的馬氏距離又依賴于類,這樣就形成了一個(gè)惡性循環(huán)。 因此在實(shí)際聚類分析處理中,馬氏距離也不是理想的距離。 為了克服變量間相關(guān)性的影響,我們引入了斜交空間距離。(7)斜交空間距離 在m維空間中,為使具有相關(guān)性的變量的譜系結(jié)構(gòu)不發(fā)生變形,采用斜交空間距離,公式為: 除了上述介紹的距離外,樣本之間還可以用圖論的方法來定義“鏈距離”,即有n 個(gè)樣本,其中任兩個(gè)樣本xi與 xj之間用鏈聯(lián)接,在所有鏈中

11、,最大邊長中的最小者稱為xi與 xj之間的“鏈距離”。、相似系數(shù) 聚類分析方法不僅用來對(duì)樣本進(jìn)行分類,而且需要對(duì)變量進(jìn)行分類,在對(duì)變量進(jìn)行分類時(shí),通常采用相似系數(shù)來表示變量之間的親疏程度。相似系數(shù)定義如下:設(shè)Cij表示變量yi與 yj之間的相似系數(shù),則Cij應(yīng)滿足如下關(guān)系:Cij應(yīng)滿足的關(guān)系常用的相似系數(shù)3、距離與相似系數(shù)選擇原則 一般說來,同一批數(shù)據(jù)采用不同的相似性尺度,會(huì)得到不同的分類結(jié)果。產(chǎn)生不同結(jié)果的原因,主要是由于不同的指標(biāo)所衡量的相似程度的物理意義不同,也就是說不同指標(biāo)代表了不同意義上的相似性。 因此我們?cè)谶M(jìn)行數(shù)值分類時(shí),應(yīng)注意相似性尺度的選擇,注意遵循下列基本選擇原則:(1)所選

12、擇的相似性尺度在實(shí)際應(yīng)用中應(yīng)有明確的意義,如在地理變量分析中,常用相關(guān)系數(shù)表示地理意義之間的親疏程度。(2)根據(jù)原始數(shù)據(jù)的性質(zhì),選擇適當(dāng)?shù)淖儞Q方法,不同的變換方法涉及到選用不同的相似系數(shù),如標(biāo)準(zhǔn)化變換處理下,相關(guān)相似系數(shù)和夾角余弦一致; 又如原始數(shù)據(jù)在進(jìn)行聚類分析處理之前已經(jīng)對(duì)變量的相關(guān)性作了處理,則通常可采用歐氏距離,而不必選用斜交空間距離。所選擇的距離,還須和選用的聚類方法一致,如聚類方法選用離差平方和法時(shí),距離只能選用歐氏距離。()適當(dāng)?shù)乜紤]計(jì)算工作量的大小,如對(duì)大樣本的聚類問題,不適宜選擇斜交空間距離,因采用該距離處理時(shí),計(jì)算工作量太大。一般情況下,相關(guān)系數(shù)比相似系數(shù)具有更強(qiáng)的不變性,

13、但相關(guān)系數(shù)比相似系數(shù)有絞強(qiáng)的分辨力。 距離系數(shù)與相似系數(shù)所得到的結(jié)果對(duì)比,相似系數(shù)的計(jì)算數(shù)值由大到小單調(diào)地減少,故聚類譜系圖反映分群明顯; 而距離系數(shù)的數(shù)據(jù)呈現(xiàn)非單調(diào)增加,譜系圖顯得不如相似系數(shù)那樣明顯分組。 距離的選擇是一個(gè)比較復(fù)雜、帶主觀性的問題,我們應(yīng)根據(jù)研究對(duì)象,作具體分析,在多次進(jìn)行聚類分析過程中,逐步總結(jié)經(jīng)驗(yàn),以選擇合適的距離。在初次進(jìn)行聚類分析處理時(shí),不妨多試探選擇幾個(gè)距離,進(jìn)行聚類,作對(duì)比、分析,以確定合適的距離系數(shù)。三、聚類方法 系統(tǒng)聚類方法的基本算法是將n個(gè)樣品自成一類,先計(jì)算(1/2)n(n-1)個(gè)相似性測(cè)度,并且把具有最小測(cè)度的兩個(gè)樣品合并成兩個(gè)元素的類; 然后按照某種

14、聚類方法計(jì)算這個(gè)類和其余n-2個(gè)樣品之間的蹴,這樣一直持續(xù)下去,并類過程中,每一步所做的并類 (樣品與樣品、樣品與類、類與類)都要使測(cè)度在系統(tǒng)中保持最小,這樣每次減少一類,直至所有樣品都?xì)w為一類為止。 聚類的基本思想是把樣本看成m維(m個(gè)指標(biāo))空間的點(diǎn),而把每個(gè)變量看成m維空間的坐標(biāo)軸。如果我們選擇的聚類方法是通過各個(gè)類之間所起的界面起作用,但不改變?cè)瓉砜臻g中的點(diǎn)的位置,這種聚類方法稱為空間守恒; 如果我們所選擇的聚類方法,使得由于一個(gè)類的擴(kuò)張,空間似乎圍繞著這個(gè)類擴(kuò)張,因此當(dāng)這個(gè)類擴(kuò)張時(shí),相應(yīng)的距離也擴(kuò)張,就好象它吸收了其它的點(diǎn),這一類并類方法稱為空間擴(kuò)張,這種方法凝聚速度快; 還有另一些聚

15、類方法,它由于一個(gè)類增長時(shí),相應(yīng)的距離比空間守恒距離縮短,空間似乎圍繞著它收縮,這叫空間收縮。 在系統(tǒng)聚類法中,設(shè)第一次并類的兩類的距離為D1,第二次合并的距離為D2,如果滿足D D2 ,則稱并類距離具有單調(diào)性。 并類距離有單調(diào)性符合系統(tǒng)聚類法的基本思想,但由于選擇的聚類方法不同,因而不一定所有的方法都滿足單調(diào)性的要求。常用的系統(tǒng)聚類方法(八種)1、最短距離法最短距離法的計(jì)算步驟 最短距離法是一個(gè)單調(diào)的,使空間很快收縮的對(duì)策,當(dāng)兩類樣品合并后,它與其它類的距離是所有距離的最小者,從而縮小了新合并的類與其它樣品的距離。 由于最短距離法的空間收縮性很強(qiáng),使得樣品有鏈接聚合的趨勢(shì),這是它的一個(gè)缺點(diǎn),

16、這種方法不適合一般數(shù)據(jù)的分類處理,除去特殊數(shù)據(jù)外,不提倡使用這種方法。 最短距離法在數(shù)學(xué)理論上有許多優(yōu)點(diǎn),圖論聚類分析中的最小支撐樹法與最短距離法思想一致。、最長距離法 最長距離法是一個(gè)單調(diào)的,使空間擴(kuò)張的對(duì)策,該法使兩類樣品合并,合并后的類與其它類的距離是原來兩個(gè)類的距離最大者,這樣加大了合并后的類與其它類的距離,因此屬于空間擴(kuò)張性質(zhì)。、中間距離法 中間距離法屬于空間守恒性質(zhì)。但中間距離法并非單調(diào)性,表現(xiàn)在聚類譜系中,上一級(jí)的聚合指標(biāo)反而小于下一級(jí)聚合的指標(biāo),圖形將出現(xiàn)逆轉(zhuǎn),因而譜系樹狀圖很難跟蹤,正因?yàn)槿绱?,使得這個(gè)方法幾乎不被人們采用。、重 心 法 對(duì)樣本分類而言,每一類重心就是屬于該類

17、樣品的均值。 顯然,單個(gè)樣品的重心就是它本身,兩個(gè)樣品的類的重心就是兩點(diǎn)聯(lián)線的中點(diǎn)。 重心法的并類步驟和以上三種方法完全相同,所不同的是每合并一次類,要重新計(jì)算該類的重心,以及各類與新類之間的距離。 重心法是嚴(yán)格遵循空間守恒的。重心法與中間距離法一樣都是非單調(diào)性的,該法的譜系樹狀圖很難跟蹤,而且該法符號(hào)改變頻繁,并且計(jì)算也較麻煩。、類平均法 類平均法是空間守恒,又是單調(diào)性質(zhì),因而是一種使用廣泛、聚類效果較好的方法。、可變類平均法 類平均法的距離遞推公式中,類與類之間的距離沒有反映進(jìn)去,為此將類平均法與中間距離法進(jìn)行組合,得到一個(gè)組合模型,其遞推公式:可變類平均法具有單調(diào)性質(zhì)。、可 變 法 可變

18、法是在研究統(tǒng)一的組合模型時(shí),從代數(shù)角度規(guī)定的一種方法。 基于空間擴(kuò)張性同于可變類平均法,具有單調(diào)性。、離差平方和法 離差平方和法是單調(diào)的、空間擴(kuò)張的性質(zhì),該方法能得到局部最優(yōu)解。 在實(shí)際應(yīng)用中,離差平方和法的應(yīng)用比較廣泛,分類效果較好,離差平方和法要求樣品之間的距離必須為歐氏距離。四、系統(tǒng)聚類法的統(tǒng)一公式 前述的八種聚類方法,并類原則與步驟都完全一樣,所不同的是類與類之間的距離有不同的定義,從而得到不同的遞推公式。 Wishart首先提出了統(tǒng)一公式,這樣就為編制統(tǒng)一的計(jì)算程序提供了很大的方便。系統(tǒng)聚類法統(tǒng)一公式參數(shù)表五、剩余信息的剔除 在進(jìn)行Q模式聚類處理時(shí),變量的選擇對(duì)于聚類分析的最后結(jié)果影

19、響較大,一般說來,變量的選擇應(yīng)遵循兩個(gè)原則:變量選擇的兩個(gè)原則 如果所選的變量中,包含一些對(duì)聚類沒有什么意義,甚至于使聚類結(jié)果被歪曲的變量,就應(yīng)該將其剔除。這稱為“剩余信息剔除”,其方法很多,如有:、根據(jù)所研究問題的特征和實(shí)際工作經(jīng)驗(yàn),人為地挑選一些對(duì)聚類效果影響顯著的主要變量。、在進(jìn)行Q模式聚類之前,先作R模式聚類分析,在相關(guān)系數(shù)矩陣基礎(chǔ)上,進(jìn)行聚類處理,在聚得的各類變量中,各挑出一個(gè)有代表性的變量作為典型變量,這樣將這些典型變量作為分類的主要變量。、在作Q模式聚類分析之前,先作主成分分析,按照一定的比例關(guān)系(如按85%的信息量)選取主成分,在各個(gè)主成分中起主要作用的那個(gè)變量,分別取為進(jìn)行聚類分析的主要變量。、對(duì)于所選擇的變量的分辨能力,可以通過判別分析加以檢驗(yàn)。 實(shí)踐證明,選擇好最佳變量子集合,剔除其影響分類效果較小的變量,削減其部分彼此相關(guān)性較強(qiáng)的變量,將得到比較好的聚類結(jié)果。六、譜系分類的確定 經(jīng)過系統(tǒng)聚類法后,得到聚類樹狀譜系圖,聚類樹最外邊一層叫樹根,其它類都是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論