版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、什么是聚類分析聚類分析也稱群分析或點群分析,它是研究多要素事物分類問題的數(shù)量方法,是一種新興的多元統(tǒng)計方法,是當代分類學與多元分析的結合。其基本原理是,根據(jù)樣本自身的屬性,用數(shù)學方法按照某種相似性或差異性指標,定量地確定樣本之間的親疏關系,并按這種親疏關系程度對樣本進行聚類。聚類分析是將分類對象置于一個多維空問中,按照它們空問關系的親疏程度進行分類。通俗的講,聚類分析就是根據(jù)事物彼此不同的屬性進行辨認,將具有相似屬性的事物聚為一類,使得同一類的事物具有高度的相似性。聚類分析方法,是定量地研究地理事物分類問題和地理分區(qū)問題的重要方法,常見的聚類分析方法有系統(tǒng)聚類法、動態(tài)聚類法和模糊聚類法等。2、聚類分析方法的特征(1)、聚類分析簡單、直觀。(2)、聚類分析主要應用于探索性的研究,其分析的結果可以提供多個可能的解,選擇最終的解需要研究者的主觀判斷和后續(xù)的分析。(3)、不管實際數(shù)據(jù)中是否真正存在不同的類別,利用聚類分析都能得到分成若干類別的解。(4)、聚類分析的解完全依賴于研究者所選擇的聚類變量,增加或刪除一些變量對最終的解都可能產(chǎn)生實質(zhì)性的影響。(5)、研究者在使用聚類分析時應特別注意可能影響結果的各個因素。(6)、異常值和特殊的變量對聚類有較大影響,當分類變量的測量尺度不一致時,需要事先做標準化處理。3、聚類分析的發(fā)展歷程在過去的幾年中聚類分析發(fā)展方向有兩個:加強現(xiàn)有的聚類算法和發(fā)明新的聚類算法。現(xiàn)在已經(jīng)有一些加強的算法用來處理大型數(shù)據(jù)庫和高維度數(shù)據(jù),例如小波變換使用多分辨率算法,網(wǎng)格從粗糙到密集從而提高聚類簇的質(zhì)量。然而,對于數(shù)據(jù)量大、維度高并且包含許多噪聲的集合,要找到一個“全能”的聚類算法是非常困難的。某些算法只能解決其中的兩個問題,同時能很好解決三個問題的算法還沒有,現(xiàn)在最大的困難是高維度(同時包含大量噪聲)數(shù)據(jù)的處理。算法的可伸縮性是一個重要的指標,通過采用各種技術,一些算法具有很好的伸縮性。這些技術包括:數(shù)據(jù)采樣、信息濃縮、網(wǎng)格和索引。CLARANS是最早使用數(shù)據(jù)采樣的算法,CURE使用優(yōu)選的采樣點,信息濃縮技術在BIRCH方法和DECLIJE方法中得到應用。許多算法都使用了索引技術,典型的有:BIRCH方法、DBSCAN方法、小波變換方法、DENCLUE方法、DENCLUE方法、小波變換方法、STING方法和CLIQUE方法使用了網(wǎng)格技術。但是以上方法仍然不能很好地處理高維度并且大數(shù)據(jù)量的集合。最近還發(fā)現(xiàn)了一些新的技術如:STING+方法引入動態(tài)數(shù)據(jù)挖掘觸發(fā)器:mAFIA方法引入間距尺寸自適應網(wǎng)格分割算法;OptiGrid算法使用迭代和網(wǎng)格等技術處理高維度數(shù)據(jù)。新技術的引進大大加強了聚類算法的效能,尤其提升了處理高維度數(shù)據(jù)的能力,但是由于這些算法剛剛形成,所以在某些地方還有待完善,對于剛接觸數(shù)據(jù)分析的博友,可以先看下博客的《解讀常用的10種可用性研究數(shù)據(jù)類型方法》相關介紹。4、系統(tǒng)聚類分析法系統(tǒng)聚類法(HierarchicalClusteringMethod)是目前國內(nèi)外使用晟多的一種方法,有關它的研究極為豐富。其基本思想是:先將11個樣本各自看成一類,然后規(guī)定樣本之間的距離和類與類之間的距離;然后選擇距離最小的一對并成一個新類,計算新類和其他類的距離;再將距離最小的兩類合并,這樣每次減少一類,直至所有的樣本都成為一類為止。在看來系統(tǒng)聚類法的優(yōu)點在于:利用樣本之問的距離最近原則進行聚類。這種系統(tǒng)歸類過程與所規(guī)定的歸類指數(shù)有關,同時也與具體的歸類方法有關系,整個聚類過程可用一張聚類圖(樹)形象表示。在聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結果的準確性和可靠性,在地理分類和研究分區(qū)中,被聚類的對象常常是多個要素構成的。不同要素的數(shù)據(jù)往往具有不同的單位和量綱,其數(shù)值的變異可能是很大的,這就會對分類結果產(chǎn)生影響,因此當分類要素的對象確定之后,在進行聚類分析之前,首先要對數(shù)據(jù)要素進行處理。在聚類分析中,常用的聚類要素的數(shù)據(jù)處理方法有如下幾種:、總和標準化、標準差標準化、極大值標準化、極差的標準化經(jīng)過這種標準化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0,其余的數(shù)值均在0與1之間。距離是事物之間差異性的測度,差異性越大,則相似性越小,所以距離是系統(tǒng)聚類分析的依據(jù)和基礎。5、聚類分析的3種方法聚類分析是數(shù)據(jù)挖掘中的一個很活躍的研究領域,并提出了許多聚類算法。、直接聚類法直接聚類法是根據(jù)距離矩陣的結構一次并類得到結果,其基本步驟如下:、把各個分類對象單獨視為一類;、根據(jù)距離最小的原則,依次選出一對分類對象,并成新類;、如果其中一個分類對象已歸于一類,則把另一個也歸入該類;如果一對分類對象正好屬于已歸的兩類,則把這兩類并為一類;每一次歸并,都劃去該對象所在的列與列序相同的行;、那么,經(jīng)過m-1次就可以把全部分類對象歸為一類,這樣就可以根據(jù)歸并的先后順序作出聚類譜系圖,直接聚類法雖然簡便,但在歸并過程中是劃去行和列的,因而難免有信息損失,因此,直接聚類法并不是最好的系統(tǒng)聚類方法。、最短距離聚類法最短距離聚類法是在原來的mxm距離矩陣的非對角元素中找出,把分類對象Gp和Gq歸并為一新類Gr,然后按計算公式計算原來各類與新類之間的距離,這樣就得到一個新的(m-1)階的距離矩陣。再從新的距離矩陣中選出最小者,把Gi和Gj歸并成新類;再計算各類與新類的距離,這樣一直下去,直至各分類對象被歸為一類為止。、最遠距離聚類法最遠距離聚類法與最短距離聚類法的區(qū)別在于計算原來的類與新類距離采用的公式不同。6、系統(tǒng)聚類方法的步驟、對數(shù)據(jù)進行變換處理;(不是必須的,當數(shù)量級相差很大或指標變量具有不同單位時是必要的)、構造n個類,每個類只包含一個樣本;、計算n個樣本兩兩間的距離;(4)、合并距離最近的兩類為一新類;(5)、計算新類與當前各類的距離,若類的個數(shù)等于1,轉到6;否則回4;(6)、畫聚類圖;(7)、決定類的個數(shù),從而得出分類結果。7、聚類分析的主要應用對于聚類分析的應用,簡單的從以下6個領域為大家總結了一下:(1)、商業(yè)聚類分析被用來發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。聚類分析是細分市場的有效工具,同時也可用于研究消費者行為,尋找新的潛在市場、選擇實驗的市場,并作為多元分析的預處理。(2)、生物聚類分析被用來動植物分類和對基因進行分類,獲取對種群固有結構的認識。(3)、地理聚類能夠幫助在地球中被觀察的數(shù)據(jù)庫商趨于的相似性。(4)、保險行業(yè)聚類分析通過一個高的平均消費來鑒定汽車保險單持有者的分組,同時根據(jù)住宅類型,價值,地理位置來鑒定一個城市的房產(chǎn)分組。(5)、因特網(wǎng)聚類分析被用來在網(wǎng)上進行文檔歸類來修復信
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024個人的簡單借款合同
- 國際貿(mào)易協(xié)議樣本
- 廠房租賃合同范例
- 特色農(nóng)產(chǎn)品胡柚購銷合同法律問題探討
- 共同投資開設武術館協(xié)議
- 標準入職協(xié)議書范例
- 旅行社與導游勞動合同范本
- 2023年高考地理第一次模擬考試卷-(湖南A卷)(全解全析)
- 房地產(chǎn)代理合同模板
- 2024年建筑渣土運輸合同范文
- 山西省太原市2024-2025學年高三上學期期中物理試卷(含答案)
- 酒店崗位招聘面試題與參考回答2025年
- (統(tǒng)編2024版)道德與法治七上10.1愛護身體 課件
- GB/T 30391-2024花椒
- 供電線路維護合同
- 胸部術后護理科普
- 鞋子工廠供貨合同模板
- 2024碼頭租賃合同范本
- 木材采運智能決策支持系統(tǒng)
- 【產(chǎn)業(yè)圖譜】2024年青島市重點產(chǎn)業(yè)規(guī)劃布局全景圖譜(附各地區(qū)重點產(chǎn)業(yè)、產(chǎn)業(yè)體系布局、未來產(chǎn)業(yè)發(fā)展規(guī)劃等)
- 上海市市轄區(qū)(2024年-2025年小學四年級語文)部編版期末考試(下學期)試卷及答案
評論
0/150
提交評論