聚類(lèi)分析原理及步驟_第1頁(yè)
聚類(lèi)分析原理及步驟_第2頁(yè)
聚類(lèi)分析原理及步驟_第3頁(yè)
聚類(lèi)分析原理及步驟_第4頁(yè)
聚類(lèi)分析原理及步驟_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、什么是聚類(lèi)分析聚類(lèi)分析也稱群分析或點(diǎn)群分析,它是研究多要素事物分類(lèi)問(wèn)題的數(shù)量方法,是一種新興的多元統(tǒng)計(jì)方法,是當(dāng)代分類(lèi)學(xué)與多元分析的結(jié)合。其基本原理是,根據(jù)樣本自身的屬性,用數(shù)學(xué)方法按照某種相似性或差異性指標(biāo),定量地確定樣本之間的親疏關(guān)系,并按這種親疏關(guān)系程度對(duì)樣本進(jìn)行聚類(lèi)。聚類(lèi)分析是將分類(lèi)對(duì)象置于一個(gè)多維空問(wèn)中,按照它們空問(wèn)關(guān)系的親疏程度進(jìn)行分類(lèi)。通俗的講,聚類(lèi)分析就是根據(jù)事物彼此不同的屬性進(jìn)行辨認(rèn),將具有相似屬性的事物聚為一類(lèi),使得同一類(lèi)的事物具有高度的相似性。聚類(lèi)分析方法,是定量地研究地理事物分類(lèi)問(wèn)題和地理分區(qū)問(wèn)題的重要方法,常見(jiàn)的聚類(lèi)分析方法有系統(tǒng)聚類(lèi)法、動(dòng)態(tài)聚類(lèi)法和模糊聚類(lèi)法等。2、聚類(lèi)分析方法的特征(1)、聚類(lèi)分析簡(jiǎn)單、直觀。(2)、聚類(lèi)分析主要應(yīng)用于探索性的研究,其分析的結(jié)果可以提供多個(gè)可能的解,選擇最終的解需要研究者的主觀判斷和后續(xù)的分析。(3)、不管實(shí)際數(shù)據(jù)中是否真正存在不同的類(lèi)別,利用聚類(lèi)分析都能得到分成若干類(lèi)別的解。(4)、聚類(lèi)分析的解完全依賴于研究者所選擇的聚類(lèi)變量,增加或刪除一些變量對(duì)最終的解都可能產(chǎn)生實(shí)質(zhì)性的影響。(5)、研究者在使用聚類(lèi)分析時(shí)應(yīng)特別注意可能影響結(jié)果的各個(gè)因素。(6)、異常值和特殊的變量對(duì)聚類(lèi)有較大影響,當(dāng)分類(lèi)變量的測(cè)量尺度不一致時(shí),需要事先做標(biāo)準(zhǔn)化處理。3、聚類(lèi)分析的發(fā)展歷程在過(guò)去的幾年中聚類(lèi)分析發(fā)展方向有兩個(gè):加強(qiáng)現(xiàn)有的聚類(lèi)算法和發(fā)明新的聚類(lèi)算法?,F(xiàn)在已經(jīng)有一些加強(qiáng)的算法用來(lái)處理大型數(shù)據(jù)庫(kù)和高維度數(shù)據(jù),例如小波變換使用多分辨率算法,網(wǎng)格從粗糙到密集從而提高聚類(lèi)簇的質(zhì)量。然而,對(duì)于數(shù)據(jù)量大、維度高并且包含許多噪聲的集合,要找到一個(gè)“全能”的聚類(lèi)算法是非常困難的。某些算法只能解決其中的兩個(gè)問(wèn)題,同時(shí)能很好解決三個(gè)問(wèn)題的算法還沒(méi)有,現(xiàn)在最大的困難是高維度(同時(shí)包含大量噪聲)數(shù)據(jù)的處理。算法的可伸縮性是一個(gè)重要的指標(biāo),通過(guò)采用各種技術(shù),一些算法具有很好的伸縮性。這些技術(shù)包括:數(shù)據(jù)采樣、信息濃縮、網(wǎng)格和索引。CLARANS是最早使用數(shù)據(jù)采樣的算法,CURE使用優(yōu)選的采樣點(diǎn),信息濃縮技術(shù)在BIRCH方法和DECLIJE方法中得到應(yīng)用。許多算法都使用了索引技術(shù),典型的有:BIRCH方法、DBSCAN方法、小波變換方法、DENCLUE方法、DENCLUE方法、小波變換方法、STING方法和CLIQUE方法使用了網(wǎng)格技術(shù)。但是以上方法仍然不能很好地處理高維度并且大數(shù)據(jù)量的集合。最近還發(fā)現(xiàn)了一些新的技術(shù)如:STING+方法引入動(dòng)態(tài)數(shù)據(jù)挖掘觸發(fā)器:mAFIA方法引入間距尺寸自適應(yīng)網(wǎng)格分割算法;OptiGrid算法使用迭代和網(wǎng)格等技術(shù)處理高維度數(shù)據(jù)。新技術(shù)的引進(jìn)大大加強(qiáng)了聚類(lèi)算法的效能,尤其提升了處理高維度數(shù)據(jù)的能力,但是由于這些算法剛剛形成,所以在某些地方還有待完善,對(duì)于剛接觸數(shù)據(jù)分析的博友,可以先看下博客的《解讀常用的10種可用性研究數(shù)據(jù)類(lèi)型方法》相關(guān)介紹。4、系統(tǒng)聚類(lèi)分析法系統(tǒng)聚類(lèi)法(HierarchicalClusteringMethod)是目前國(guó)內(nèi)外使用晟多的一種方法,有關(guān)它的研究極為豐富。其基本思想是:先將11個(gè)樣本各自看成一類(lèi),然后規(guī)定樣本之間的距離和類(lèi)與類(lèi)之間的距離;然后選擇距離最小的一對(duì)并成一個(gè)新類(lèi),計(jì)算新類(lèi)和其他類(lèi)的距離;再將距離最小的兩類(lèi)合并,這樣每次減少一類(lèi),直至所有的樣本都成為一類(lèi)為止。在看來(lái)系統(tǒng)聚類(lèi)法的優(yōu)點(diǎn)在于:利用樣本之問(wèn)的距離最近原則進(jìn)行聚類(lèi)。這種系統(tǒng)歸類(lèi)過(guò)程與所規(guī)定的歸類(lèi)指數(shù)有關(guān),同時(shí)也與具體的歸類(lèi)方法有關(guān)系,整個(gè)聚類(lèi)過(guò)程可用一張聚類(lèi)圖(樹(shù))形象表示。在聚類(lèi)分析中,聚類(lèi)要素的選擇是十分重要的,它直接影響分類(lèi)結(jié)果的準(zhǔn)確性和可靠性,在地理分類(lèi)和研究分區(qū)中,被聚類(lèi)的對(duì)象常常是多個(gè)要素構(gòu)成的。不同要素的數(shù)據(jù)往往具有不同的單位和量綱,其數(shù)值的變異可能是很大的,這就會(huì)對(duì)分類(lèi)結(jié)果產(chǎn)生影響,因此當(dāng)分類(lèi)要素的對(duì)象確定之后,在進(jìn)行聚類(lèi)分析之前,首先要對(duì)數(shù)據(jù)要素進(jìn)行處理。在聚類(lèi)分析中,常用的聚類(lèi)要素的數(shù)據(jù)處理方法有如下幾種:、總和標(biāo)準(zhǔn)化、標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化、極大值標(biāo)準(zhǔn)化、極差的標(biāo)準(zhǔn)化經(jīng)過(guò)這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0,其余的數(shù)值均在0與1之間。距離是事物之間差異性的測(cè)度,差異性越大,則相似性越小,所以距離是系統(tǒng)聚類(lèi)分析的依據(jù)和基礎(chǔ)。5、聚類(lèi)分析的3種方法聚類(lèi)分析是數(shù)據(jù)挖掘中的一個(gè)很活躍的研究領(lǐng)域,并提出了許多聚類(lèi)算法。、直接聚類(lèi)法直接聚類(lèi)法是根據(jù)距離矩陣的結(jié)構(gòu)一次并類(lèi)得到結(jié)果,其基本步驟如下:、把各個(gè)分類(lèi)對(duì)象單獨(dú)視為一類(lèi);、根據(jù)距離最小的原則,依次選出一對(duì)分類(lèi)對(duì)象,并成新類(lèi);、如果其中一個(gè)分類(lèi)對(duì)象已歸于一類(lèi),則把另一個(gè)也歸入該類(lèi);如果一對(duì)分類(lèi)對(duì)象正好屬于已歸的兩類(lèi),則把這兩類(lèi)并為一類(lèi);每一次歸并,都劃去該對(duì)象所在的列與列序相同的行;、那么,經(jīng)過(guò)m-1次就可以把全部分類(lèi)對(duì)象歸為一類(lèi),這樣就可以根據(jù)歸并的先后順序作出聚類(lèi)譜系圖,直接聚類(lèi)法雖然簡(jiǎn)便,但在歸并過(guò)程中是劃去行和列的,因而難免有信息損失,因此,直接聚類(lèi)法并不是最好的系統(tǒng)聚類(lèi)方法。、最短距離聚類(lèi)法最短距離聚類(lèi)法是在原來(lái)的mxm距離矩陣的非對(duì)角元素中找出,把分類(lèi)對(duì)象Gp和Gq歸并為一新類(lèi)Gr,然后按計(jì)算公式計(jì)算原來(lái)各類(lèi)與新類(lèi)之間的距離,這樣就得到一個(gè)新的(m-1)階的距離矩陣。再?gòu)男碌木嚯x矩陣中選出最小者,把Gi和Gj歸并成新類(lèi);再計(jì)算各類(lèi)與新類(lèi)的距離,這樣一直下去,直至各分類(lèi)對(duì)象被歸為一類(lèi)為止。、最遠(yuǎn)距離聚類(lèi)法最遠(yuǎn)距離聚類(lèi)法與最短距離聚類(lèi)法的區(qū)別在于計(jì)算原來(lái)的類(lèi)與新類(lèi)距離采用的公式不同。6、系統(tǒng)聚類(lèi)方法的步驟、對(duì)數(shù)據(jù)進(jìn)行變換處理;(不是必須的,當(dāng)數(shù)量級(jí)相差很大或指標(biāo)變量具有不同單位時(shí)是必要的)、構(gòu)造n個(gè)類(lèi),每個(gè)類(lèi)只包含一個(gè)樣本;、計(jì)算n個(gè)樣本兩兩間的距離;(4)、合并距離最近的兩類(lèi)為一新類(lèi);(5)、計(jì)算新類(lèi)與當(dāng)前各類(lèi)的距離,若類(lèi)的個(gè)數(shù)等于1,轉(zhuǎn)到6;否則回4;(6)、畫(huà)聚類(lèi)圖;(7)、決定類(lèi)的個(gè)數(shù),從而得出分類(lèi)結(jié)果。7、聚類(lèi)分析的主要應(yīng)用對(duì)于聚類(lèi)分析的應(yīng)用,簡(jiǎn)單的從以下6個(gè)領(lǐng)域?yàn)榇蠹铱偨Y(jié)了一下:(1)、商業(yè)聚類(lèi)分析被用來(lái)發(fā)現(xiàn)不同的客戶群,并且通過(guò)購(gòu)買(mǎi)模式刻畫(huà)不同的客戶群的特征。聚類(lèi)分析是細(xì)分市場(chǎng)的有效工具,同時(shí)也可用于研究消費(fèi)者行為,尋找新的潛在市場(chǎng)、選擇實(shí)驗(yàn)的市場(chǎng),并作為多元分析的預(yù)處理。(2)、生物聚類(lèi)分析被用來(lái)動(dòng)植物分類(lèi)和對(duì)基因進(jìn)行分類(lèi),獲取對(duì)種群固有結(jié)構(gòu)的認(rèn)識(shí)。(3)、地理聚類(lèi)能夠幫助在地球中被觀察的數(shù)據(jù)庫(kù)商趨于的相似性。(4)、保險(xiǎn)行業(yè)聚類(lèi)分析通過(guò)一個(gè)高的平均消費(fèi)來(lái)鑒定汽車(chē)保險(xiǎn)單持有者的分組,同時(shí)根據(jù)住宅類(lèi)型,價(jià)值,地理位置來(lái)鑒定一個(gè)城市的房產(chǎn)分組。(5)、因特網(wǎng)聚類(lèi)分析被用來(lái)在網(wǎng)上進(jìn)行文檔歸類(lèi)來(lái)修復(fù)信

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論