版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
標(biāo)準(zhǔn)文檔聚類分析學(xué)習(xí)體會(huì)聚類分析是多元統(tǒng)計(jì)分析中研究“物以類聚”的一種方法,用于對(duì)事物的類別尚不清楚,甚至在事前連總共有幾類都不能確定的情況下進(jìn)行分類的場合。聚類分析主要目的是研究事物的分類,而不同于判別分析。在判別分析中必須事先知道各種判別的類型和數(shù)目,并且要有一批來自各判別類型的樣本,才能建立判別函數(shù)來對(duì)未知屬性的樣本進(jìn)行判別和歸類。若對(duì)一批樣品劃分的類型和分類的數(shù)目事先并不知道,這時(shí)對(duì)數(shù)據(jù)的分類就需借助聚類分析方法來解決。聚類分析把分類對(duì)象按一定規(guī)則分成組或類,這些組或類不是事先給定的而是根據(jù)數(shù)據(jù)特征而定的。在一個(gè)給定的類里的這些對(duì)象在某種意義上傾向于彼此相似,而在不同類里的這些對(duì)象傾向于不相似。1.聚類統(tǒng)計(jì)量在對(duì)樣品(變量)進(jìn)行分類時(shí),樣品(變量)之間的相似性是怎么度量?通常有三種相似性度量——距離、 匹配系數(shù)和相似系數(shù)。距離和匹配系數(shù)常用來度量樣品之間的相似性,相似系數(shù)常用來變量之間的相似性。 樣品之間的距離和相似系數(shù)有著各種不同的定義,而這些定義與變量的類型有著非常密切的關(guān)系。 通常變量按取值的不同可以分為:定量變量:變量用連續(xù)的量來表示,例如長度、重量、速度、人口等,又稱為間隔尺度變量。定性變量:并不是數(shù)量上有變化,而只是性質(zhì)上有差異。定性變量還可以再分為:⑴有序尺度變量:變量不是用明確的數(shù)量表示,而是用等級(jí)表示,例如文化程度分為文盲、小學(xué)、中學(xué)、大學(xué)等。⑵名義尺度變量:變量用一些類表示,這些類之間既無等級(jí)關(guān)系,也無數(shù)量關(guān)系,例如職業(yè)分為工人、教師、干部、農(nóng)民等。下面主要討論具有定量變量的樣品聚類分析,描述樣品間的親疏程度最常用的是距離。1.1.距離數(shù)據(jù)矩陣文案大全標(biāo)準(zhǔn)文檔設(shè)xij為第i個(gè)樣品的第 j個(gè)指標(biāo),數(shù)據(jù)矩陣如下表表1數(shù)據(jù)矩陣變量樣品x1x2?xp1x11x12?x1p2x21x22?x2pnxn1xn2?xnp在上表中,每個(gè)樣品有p個(gè)變量,故每個(gè)樣品都可以看成是Rp中的一個(gè)點(diǎn),n個(gè)樣品就是Rp中的n個(gè)點(diǎn)。在Rp中需定義某種距離,第i個(gè)樣品與第 j個(gè)樣品之間的距離記為 dij,在聚類過程中,相距較近的點(diǎn)傾向于歸為一類,相距較遠(yuǎn)的點(diǎn)應(yīng)歸屬不同的類。所定義的距離 dij一般應(yīng)滿足如下四個(gè)條件:⑴dij0,對(duì)一切i,j;且d(xi,xj)0當(dāng)且僅當(dāng)xixj⑵dijdji,對(duì)一切i,j;⑶dijdikdkj,對(duì)一切i,j,k2.定量變量的常用的距離對(duì)于定量變量,常用的距離有以下幾種:⑴閔科夫斯基(Minkowski)距離pq1]qdij(q)[xikxjkk1這里q為某一自然數(shù)。閔科夫斯基距離有以下三種特殊形式:p1)當(dāng)q 1時(shí),dij(1) xik xjk稱為絕對(duì)值距離,常被形象地稱為“城市k1街區(qū)”距離;文案大全標(biāo)準(zhǔn)文檔p12)當(dāng)q2時(shí),dij(2)[2xikxjk]2,稱為歐氏距離,這是聚類分析中最k1常用的距離;3)當(dāng)q 時(shí),dij( ) maxxik xjk,稱為切比雪夫距離。1k pdij(q)在實(shí)際中用得很多,但是有一些缺點(diǎn),一方面距離的大小與各指標(biāo)的觀測單位有關(guān),另一方面它沒有考慮指標(biāo)間的相關(guān)性。當(dāng)各指標(biāo)的測量值相差懸殊時(shí), 應(yīng)先對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離;最常用的標(biāo)準(zhǔn)化處理是:令xijxijxjsj其中xj1nxij為第j個(gè)變量的樣本均值,sj1n(xijxj)2為第j個(gè)ni1n1i1變量的樣本方差。⑵蘭氏(Lance和Williams)距離當(dāng)xij0(i1,2,,n;j1,2,,p)時(shí),第i個(gè)樣品與第j個(gè)樣品間的蘭氏距離為pxikxjkdij(L)xikxjkk1這個(gè)距離與各變量的單位無關(guān),但沒有考慮指標(biāo)間的相關(guān)性。⑶馬氏距離(Mahalanobis)距離第i個(gè)樣品與第j個(gè)樣品間的馬氏距離為dij(M) (xi xj)'S1(xi xj)其中xi (xi1,xi2, ,xip)',xj (xj1,xj2, xjp),S為樣品協(xié)方差矩陣。使用馬氏距離的好處是考慮到了各變量之間的相關(guān)性, 并且與各變量的單位無關(guān);但馬氏距離有一個(gè)很大的缺陷,就是S難確定。由于聚類是一個(gè)動(dòng)態(tài)過程,故S隨聚類過程而變化,那么同樣的兩個(gè)樣品之間的距離可能也會(huì)隨之而變化,這不符和聚類的基本要求。因此,在實(shí)際聚類分析中,馬氏距離不是理想的距離。文案大全標(biāo)準(zhǔn)文檔⑷斜交空間距離第i個(gè)樣品與第j個(gè)樣品間的斜交空間距離定義為dij[1pp1(xikxjk)(xilxjl)rkl]2p2k1l1其中rkl是變量xk與變量xl間的相關(guān)系數(shù)。當(dāng)p個(gè)變量互不相關(guān)時(shí),dijdij(2),p即斜交空間距離退化為歐氏距離(除相差一個(gè)常數(shù)倍外) 。以上幾種距離的定義均要求樣品的變量是定量變量,如果使用的是定性變量,則有相應(yīng)的定義距離的方法。3.定性變量的距離下例只是對(duì)名義尺度變量的一種距離定義。例1某高校舉辦一個(gè)培訓(xùn)班,從學(xué)員的資料中得到這樣6個(gè)變量:性別(x1)取值為男和女;外語語種(x2)取值為英、日和俄;專業(yè)(x3)取值為統(tǒng)計(jì)、會(huì)計(jì)和金融;職業(yè)(x4)取值為教師和非教師;居住處(x5)取值為校內(nèi)和校外;學(xué)歷(x6)取值為本科和本科以下?,F(xiàn)有兩名學(xué)員:x1 (男,英,統(tǒng)計(jì),非教師,校外,本科)ˊx2 (女,英,金融,教師,校外,本科以下 )ˊ這兩名學(xué)員的第二個(gè)變量都取值“英” ,稱為配合的,第一個(gè)變量一個(gè)取值為“男”,另一個(gè)取值為“女”,稱為不配合的。一般地,若記配合的變量數(shù)為 m1,不配合的變量數(shù)為 m2,則它們之間的距離可定義為d12
m2m1 m22按此定義本例中 x1與x2之間的距離為 。1.2.匹配系數(shù)當(dāng)樣品的變量為定性變量時(shí),通常采用匹配系數(shù)作為聚類統(tǒng)計(jì)量。文案大全標(biāo)準(zhǔn)文檔第i個(gè)樣品與第j個(gè)樣品的匹配系數(shù)定義為pSijZk,其中k11,當(dāng)xikxjkZk當(dāng)xikxjk0,顯然匹配系數(shù)越大,說明兩樣品越相似。1.3.相似系數(shù)聚類分析方法不僅用來對(duì)樣品進(jìn)行分類,而且可用來對(duì)變量進(jìn)行分類。在對(duì)變量進(jìn)行分類時(shí),常常采用相似系數(shù)來度量變量之間的相似性。設(shè)cij表示xi與xj的相似系數(shù),它一般應(yīng)滿足如下三個(gè)條件:⑴cij1,對(duì)一切i,j;⑵cij1,當(dāng)且僅當(dāng)存在常數(shù)a和b,使得xiaxjb;⑶cijcji,對(duì)一切i,j.最常用的相似系數(shù)有以下兩種:1.夾角余弦變量xi與xj的夾角余弦定義為nxkixkjcij(1)k1n1n[xki2xkj2]2k1k1它是Rn中變量xi的觀測向量1i2i,ni)'與變量xj的觀測向量(x,x,x(x1j,x2j,,xnj)'之間夾角ij的余弦函數(shù),即cij(1)cosij.相關(guān)系數(shù)變量xi與xj的相關(guān)系數(shù)為n(xkixi)(xkjxj)cij(2)k1nn12(xki)2][(xkjxj)2{[xi]}k1k1文案大全標(biāo)準(zhǔn)文檔n n其中xi xki,xj xkjk1 k12.聚類分析從統(tǒng)計(jì)學(xué)的觀點(diǎn)看,聚類分析是通過數(shù)據(jù)建模簡化數(shù)據(jù)的一種方法。傳統(tǒng)的統(tǒng)計(jì)聚類分析方法包括系統(tǒng)聚類法、分解法、加入法、動(dòng)態(tài)聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用 k-均值、k-中心點(diǎn)等算法的聚類分析工具已被加入到許多著名的統(tǒng)計(jì)分析軟件包中,如 SPSS、SAS等。從機(jī)器學(xué)習(xí)的角度看,需要由聚類學(xué)習(xí)算法自動(dòng)確定標(biāo)記,而分類學(xué)習(xí)的實(shí)例或數(shù)據(jù)對(duì)象有類別標(biāo)記。聚類是觀察式學(xué)習(xí),而不是示例式的學(xué)習(xí)。從實(shí)際應(yīng)用的角度看,聚類分析是數(shù)據(jù)挖掘的主要任務(wù),是模式識(shí)別的重要前提。而且聚類能夠作為一個(gè)獨(dú)立的工具獲得數(shù)據(jù)的分布狀況,觀察每一簇?cái)?shù)據(jù)的特征,集中對(duì)特定的聚簇集合作進(jìn)一步地分析。聚類分析還可以作為其他算法(如分類和定性歸納算法)的預(yù)處理步驟。2.1.聚類分析的流程及數(shù)據(jù)來源聚類分析法的主要流程包括 : 數(shù)據(jù)預(yù)處理、為衡量數(shù)據(jù)點(diǎn)間的相似度定義一個(gè)距離函數(shù)、聚類或分組和評(píng)估輸出 , 用流程圖描述如圖 1所示。文案大全標(biāo)準(zhǔn)文檔圖1聚類分析流程圖聚類分析的源數(shù)據(jù)通常是待聚類或分組的數(shù)據(jù)。對(duì)機(jī)械故障模式識(shí)別而言, 首先要獲取關(guān)于本機(jī)組的大量運(yùn)行參數(shù) , 既要有機(jī)器平穩(wěn)運(yùn)行、正常工作時(shí)的數(shù)據(jù) , 更要有機(jī)器出現(xiàn)故障時(shí)的數(shù)據(jù) , 并且獲知故障的類別。這樣, 由已知故障類別、故障發(fā)生時(shí)的各運(yùn)行參數(shù)、歷史記錄組成的數(shù)據(jù)庫便構(gòu)成了數(shù)據(jù)挖掘的訓(xùn)練學(xué)習(xí)樣本庫。這里用到的數(shù)據(jù)就是設(shè)備的點(diǎn)檢數(shù)據(jù)。2.2.常用的聚類分析方法(1)系統(tǒng)聚類法系統(tǒng)聚類法(Hierarchicalclusteringmethod)是目前使用最多的一種方法。其基本思想是首先將n個(gè)樣品看成n類(即一類包括一個(gè)樣品),然后規(guī)定樣品之間的距離和類與類之間的距離。將距離最近的兩類合并為一個(gè)新類,在計(jì)算新類和其他類之間的距離,再從中找出最近的兩類合并,繼續(xù)下去,最后所有的樣品全在一類。將上述并類過程畫成聚類圖,便可以決定分多少類,每類各有什么樣品。系統(tǒng)聚類法的步驟為:①首先各樣品自成一類,這樣對(duì)n組樣品就相當(dāng)于有n類;②計(jì)算各類間的距離,將其中最近的兩類進(jìn)行合并;③計(jì)算新類與其余各類的距離,再將距離最近的兩類合并;④重復(fù)上述的步驟,直到所有的樣品都聚為一類時(shí)為止。下面以最短距離法為例來說明系統(tǒng)聚類法的過程。最短距離法的聚類步驟如下:①規(guī)定樣品之間的距離,計(jì)算樣品的兩兩距離,距離矩陣記為S0,開始視每個(gè)樣品分別為一類,這時(shí)顯然應(yīng)有D(p,q)dpq;②選擇距離矩陣S0中的最小元素,不失一般性,記其為D(p,q),則將Gp與Gq合并為一新類,記為Gm,有GmGpGq;③計(jì)算新類Gm與其他各類的距離,得到新的距離矩陣記為S1;④對(duì)S1重復(fù)開始進(jìn)行第②步,?,直到所有樣本成為一類為止。值得注意的是在整個(gè)聚類的過程中,如果在某一步的距離矩陣中最小元素不止一個(gè)時(shí),則可以將其同時(shí)合并。文案大全標(biāo)準(zhǔn)文檔(2)動(dòng)態(tài)聚類法開始將n個(gè)樣品粗略地分成若干類,然后用某種最優(yōu)準(zhǔn)則進(jìn)行調(diào)整,一次又一次地調(diào)整,直至不能調(diào)整了為止。此法非常類似于計(jì)算方法的迭代法。3)分解法它的程序正好和系統(tǒng)聚類相反,開始時(shí)所有的樣本都在一類,然后用某種最優(yōu)準(zhǔn)則將它分成兩類。再用同樣準(zhǔn)則將這兩類各自試圖分裂為兩類,從中選出一個(gè)使目標(biāo)函數(shù)較好者,這樣由兩類變成了三類。如此下去,一直分裂到每類只有一個(gè)樣品為止(或用其他停止規(guī)則)。(4)加入法將樣品依次輸入,每次輸入后將它放到當(dāng)前聚類圖的應(yīng)有位置上,全部輸入后,即得聚類圖。3.總結(jié)體會(huì)聚類分析指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的分析過程。它是一種重要的人類行為。聚類分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類。聚類源于很多領(lǐng)域,包括數(shù)學(xué),計(jì)算機(jī)科學(xué),統(tǒng)計(jì)學(xué),生物學(xué)和經(jīng)濟(jì)學(xué)。在不同的應(yīng)用領(lǐng)域,很多聚類技術(shù)都得到了發(fā)展, 這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性, 以及把數(shù)據(jù)源分類到不同的簇中。 比如說現(xiàn)在要把n個(gè)產(chǎn)品按產(chǎn)品的m個(gè)指標(biāo)繼續(xù)聚類,因?yàn)楫a(chǎn)品可能之前的特色是不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025私人購房合同
- 2024年房產(chǎn)銷售價(jià)格協(xié)議標(biāo)準(zhǔn)格式版B版
- 2024年班輪運(yùn)輸服務(wù)協(xié)議條款樣本版B版
- 數(shù)據(jù)處理分包合同
- 2024年度企業(yè)人才儲(chǔ)備與梯隊(duì)建設(shè)協(xié)議范本3篇
- 2024年物業(yè)管理及維護(hù)服務(wù)委托合同書版B版
- 2024年某稀有金屬買賣居間合同
- 2024版醫(yī)療設(shè)備技術(shù)轉(zhuǎn)讓合同3篇
- 2024年度實(shí)驗(yàn)室室內(nèi)環(huán)境污染控制合同2篇
- 2024年度農(nóng)業(yè)用地經(jīng)營權(quán)流轉(zhuǎn)交易服務(wù)規(guī)范3篇
- pc(裝配式)結(jié)構(gòu)施工監(jiān)理實(shí)施細(xì)則
- 醫(yī)院內(nèi)審制度
- 押運(yùn)人員安全培訓(xùn)課件
- 給小學(xué)生科普人工智能
- 2024年南京信息職業(yè)技術(shù)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
- 2024年汽配行業(yè)分析報(bào)告
- 【世界睡眠日】3.21主題班會(huì)(3月21日)良好睡眠健康作息-課件
- 2024年房地產(chǎn)經(jīng)紀(jì)協(xié)理考試題庫附參考答案(綜合題)
- c型鋼加工工藝
- 中藥在護(hù)理中的應(yīng)用
- 業(yè)余無線電愛好者培訓(xùn)-基礎(chǔ)篇
評(píng)論
0/150
提交評(píng)論