數(shù)學建模聚類_第1頁
數(shù)學建模聚類_第2頁
數(shù)學建模聚類_第3頁
數(shù)學建模聚類_第4頁
數(shù)學建模聚類_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

聚類分析一、聚類分析(ClusterAnalysis)簡介聚類分析是直接比較各事物之間的性質(zhì),將性質(zhì)相近的歸為一類,將性質(zhì)差別較大的歸入不同的類的分析技術。數(shù)理統(tǒng)計中的數(shù)值分類有兩種問題:

判別分析:已知分類情況,將未知個體歸入正確類別

聚類分析:分類情況未知,對數(shù)據(jù)結(jié)構(gòu)進行分類基本思想

聚類分析的基本思想:對所研究的樣品或指標(變量)之間存在著程度不同的相似性(或親疏關系)。(1)根據(jù)一批樣品的多個指標,具體找出一些能夠度量樣品或指標之間的相似程度的統(tǒng)計量。(2)以這些統(tǒng)計量為分類的依據(jù),把一些相似程度較大的樣品(或指標)聚合為一類。把另一些彼此之間相似程度較大的樣品(或指標)聚合為另一類。

基本思想

按相似程度的大小把關系密切的樣品聚合到一個小的分類單位,關系疏遠的樣品聚合到一個大的分類單位,直到把所有的樣品(或指標)都聚合完畢。把不同的類型一一劃分出來,形成一個由小到大的分類系統(tǒng)。再把整個分類系統(tǒng)畫成一張分群圖(又稱譜系圖),用它把所有樣品(或指標)間的親疏關系表示出來。要做聚類分析,首先得按照我們聚類的目的,從對象中提取出能表現(xiàn)這個目的的特征指標;然后根據(jù)親疏程度進行分類。聚類分析根據(jù)分類對象的不同可分為Q型和R型兩大類Q型是對樣本進行分類處理,其作用在于:具有共同特點的樣本聚在一起所得結(jié)果比傳統(tǒng)的定性分類方法更細致、全面、合理二、聚類對象R型是對變量進行分類處理,其作用在于:可以了解變量間及變量組合間的親疏關系可以根據(jù)變量的聚類結(jié)果及它們之間的關系,選擇主要變量進行回歸分析或Q型聚類分析2相似性度量進行“相關性”或“相似性”度量。在相似性度量中常常包含有許多主觀上的考慮,但是最重要的是考慮指標性質(zhì)或觀測的尺度。

當樣品進行聚類時,“靠近”往往是距離。同時對指標進行聚類時,根據(jù)相關系數(shù)或某種關聯(lián)性度量來聚類。Q型樣品間的“相似性”度量—距離

設每個樣品有p個指標,觀察值記為(1)每個樣品可看成是p維空間的一個點。于是,可用各點之間的距離來衡量各樣品點之間的接近程度。

樣品和之間的距離,一般應滿足如下條件:(ⅰ),且時當且僅當;(ⅱ);(ⅲ);

有時所用的距離不滿足(ⅲ),但在廣義的角度上仍稱為距離。常用的距離有如下幾種:

3、明考斯基距離(Minkowski)1、絕對距離(Block距離)2、歐氏距離(Euclideandistance)4、切比雪夫距離(Chebychev)6.馬氏距離5.數(shù)據(jù)的標準化以上距離與各變量的量綱有關,為了消除量綱的影響,可對數(shù)據(jù)標準化。

例1歐洲各國的語言有許多相似之處,有的十分相似。為了研究這些語言的歷史關系,也許通過比較他們數(shù)字的表達式比較恰當。表列舉出英語,挪威語,丹麥語,荷蘭語,德語,法語,西班牙語,意大利語,波蘭語,匈牙利語和芬蘭語的1,2,…,10的拼法,希望計算這11種語言之間的語言的距離.11種歐洲語言的數(shù)詞選擇適用的距離在聚類分析中通常要結(jié)合實際問題來選擇適用的距離,有時應根據(jù)實際問題定義新的距離,顯然,本例無法直接用上述公式來計算距離。但可以發(fā)現(xiàn)前三種文字(英、挪、丹)很相似,特別是每個單詞的第一個字母??梢杂?0個數(shù)詞中第一個字母不同的個數(shù)來定義兩種語言之間的距離。例如:英語和挪威語中只有1和8的第一個字母不同,則它們之間的距離為2。1、夾角余弦2、相關系數(shù)R型聚類統(tǒng)計量

對兩個指標之間的相似程度用相似系數(shù)來刻劃,相似系數(shù)絕對對值越接近于1,表示指標間的關系越密切,絕對值越接近于0,表示指標間的關系越疏遠.三系統(tǒng)漠聚類畢分析1.系統(tǒng)梯聚類態(tài)分析目的基胞本思訓想是銀:距離磁相近驅(qū)的樣另品(款或變?nèi)浚┕蜗染弁深愃?,距躲離相遠包的后聚成汗類,潑過程鋪一直摔下去體,每糊個樣通品(仰或變量阿)總術能聚銹到合晶適的屬類中悠。系統(tǒng)期聚類奔分析部過程葵是:假設篩總共占有n個樣貨品(攀或變?nèi)剂浚┢妫谘嬉徊借b將每個樣妥品(觸或變苦量)鋪獨自鋼聚成望一類艱,共賢有n類;第二而步根論據(jù)所櫻確定銷的樣劇品(房誠或變旱量)虹“距贊離”泄公式見,將距賣離較壘近的否兩個窮樣品桃(或赤變量雕)聚揪合為姨一類互,其他樣凳品(搏或變嗽量)擠仍各鋤自聚玻為一腿類,霞共有n-1類;第三販步將恭“距光離”威最近找的兩唐個類流進一嚼步聚盛成一繁類,滴共聚成n-2類;……以上源步驟偏一直濁進行輝下去蹲,最后將所閥有的杰樣品驢或變此量)醋聚成趁一類撇。將整償個分炸類系源統(tǒng)地頭畫成拉一張借譜系龜圖,免所以燙有時系統(tǒng)器聚類字分析也叫譜系康聚類浴分析。2.類間幼距離首先倚定義押類與紡類之檢間地伙距離屆,又偶類間醋的距紋離定趁義不同己產(chǎn)生面不同繞的系扮統(tǒng)聚糟類分援析。椅常見廢的類此間的攪距離有法。質(zhì)它們安的歸抓類步陡驟基衣本是順一致浸的。8種之柔多,今與之嗎相應籃的系憲統(tǒng)聚森類分栽析也伯有8種之雖多、分別宿為最艦短距淚離法互、最擋長距耍離法捎、中寒間距讀離法透、重生心法、尾類平喉均法藍、可躬變類勵平均萄法、鞠可變機法和紙離差株平方租和用i罷,荒j表示臂樣品丑。用保表示辱與嘩之失間的掩距離,用農(nóng)與滿表示配兩個咽類,所包柳含的煎樣品體數(shù)分妨別為與惡之促間的觀距離刷用犧表偶示。仙下面林給出捎四種割最?;庞玫木哳惻c澇類之貨間距燙離的養(yǎng)定義饅。1、最慕短距桑離(Ne席ar編es暈t貓Ne舟ig身hb破or霜)x21?x12?x22?x11?即定乞義變與搏之間磨的距錘離為扎與泊中怕最近超的兩櫻個樣之品的足距離按。類與事類之垃間的雹最短悄距離繳有如方下的豆遞推衡公式輕。設弄由畜與合并匆而成,則飾與其架它類渾的最減短距味離為1、根據(jù)貸樣品衫的特燙征,冊規(guī)定石樣品患之間脅的距煌離形,倦共有遷個社。將論所有朱列表森,記刪為D(0)表,燭該表趙是一噴張對鞠稱表找。所虜有的作樣本靈點各下自為詞一類劫。2、選擇D(0)表中伙最小按的非奔零數(shù)臟,不憤妨假湖設把,于敬是將薯和鐵合踩并為弓一類分,記行為奮。開始況各樣稍本自套成一筑類最短微距離嚼法進杜行聚鑼類分難析的樹步驟贏如下晴:3、利梯用遞妄推公口式計侄算新晃類與腎其它恩類之馬間的嬌距離昂。分肢別刪除D(0)表的露第p,q行和猴第p,q列,害并新披增一征行和師一列忽添上媽的結(jié)順果,辰產(chǎn)生D(1)表。4、在D(1)表艇再選載擇最小的非咸零數(shù)唯,其寬對應啟的兩減類有記構(gòu)成鐵新類忘,再稼利用伍遞推雅公式扯計算作新類飲與其狐它類捉之間世的距浴離。貫分別鴨刪除D(1)表廣的相冶應的創(chuàng)行和傍列,急并新鼓增一斧行和疑一列北添上赴的新忽類和慈舊類絲式之間后的距以離。蛛結(jié)果避,產(chǎn)堵生D(2)表遼。類吵推直自至所碑有的遮樣本誦點歸伏為一混類為角止。最短開距離墊法進節(jié)行聚服類分神析的東步驟掉如下因:(1)定義局樣品紅之間由的距冰離(2)找出距離最小元素,設為,則將

合并成一新類記為

,記為

(3)按上式計糧算新扎類與鹿其他解類之持間的神距離完。(4)欄重復勒(2),蝦(3)的痕步驟注,直繳到將抹所有座元素并成勾一類膠為止喬。(如果均某一略步距勿離最華小的托元素也不止使一個害,則裁將對應這蟻些最霉小元撇素的腹類可溫以同剩時合翅并)例2設有6個樣觀品,慰每個件只測菠一個釘指標顯,分普別是1,2,5,7,9,10,試克采用絕對情值距離清用最短疾距離法將瞎它們甲進行竭分類已。解徐(1)樣參品首紫先采介用絕跳對值復距離黨,計炮算樣孕品之間的累距離學陣為D(0變).G1G2G3G4G5G6G10G210G3430G46520G587420G6985210D(0潑)G2={2}G1={1}G3={5}G4={7}G5={9}G6={10}G7G8G9G10123D2.最長缸距離袖(Fu攻rt小he過stNe況ig頃hb鐮or)???x11?x21????即定墊義漠與夏之間針的距樸離為接與吩中辜最遠冬的兩號個樣駝品的劣距離陵。類與縫類之炸間的抬最長暈距離砍有如仗下的劑遞推超公式咽。設止由摟與合并養(yǎng)而成,則鋼到永的雕最長用距離柜為2.最長盤距離枝(Fu援rt助he雁st所N首ei離gh極bo餓r)??????組間喪平均烏連接劑(Be帆tw毫ee對n-恒gr論ou姨p忠Li清nk難ag舊e)3.類平簽均距揀離組內(nèi)倒平均據(jù)連接疤法(Wi確th漿in丹-g離ro度up笛L帥in稿ka因ge叛)x21?x12?x22?x11?3.類平做均距催離4.重心稱法(Ce稍nt唐ro起idcl犧us黑te水ri傅ng皇):均值風點的挖距離??將p和q合并穿為k,則k類的袖樣品燭個數(shù)床為它的畝重心適是某一類r的重心是,它找與新悉類k的距攏離是經(jīng)推番導可奏以得擺到如暮下遞冰推公依式:設聚類到某一步,類p與q分別有樣品、個,例2設有6個樣啞品,絲式每個選只測溜一個傅指標混,分候別是1,2,5,7,9,10,試羊采用福歐氏產(chǎn)距離嘗的平蝕方,試用賠重心專法將折它們護進行統(tǒng)分類滋。G1G2G3G4G5G6G10G210G31690G4362540G564491640G6816425910D2(0墊)G7G3G4G8G70G312.250G430.2540G86420.256.250D2(1縫)其中D2(2國)G7G9G8G70G920.250G86412.250D2(3碌)G7G10G70G1039.06250G1={1}G2={2}G3={5}G4={7}G5={9}G6={10}2412.5D1G9G7G8G10G115.動態(tài)亂聚類加法(擦快速普聚類澤法)系統(tǒng)時聚類坐法是一騰種比血較成始功的辣聚類貌方法樂。然窗而當譯樣本如點數(shù)級量十素分龐大時,觀則是骨一件章非常側(cè)繁重楊的工馳作,斃且聚年類的疲計算安速度賴也比附較慢渠。比如手在市毀場抽邁樣調(diào)拘查中景,有4萬人暈就其圓對衣已著的裂偏好惜作了竿回答瀉,希倍望能會迅速甲將他選們分勻為幾逢類。這時織,采齡用系到統(tǒng)聚捐類法阻就很閱困難酸,而抽動態(tài)碗聚類筑法就芹會顯頑得方波便,奇適用舟。動態(tài)懲聚類票使用最于大擊型數(shù)暈據(jù)。基本議思想咸:選郊取若嫁干個森樣品惱作為由凝聚蠢點,寄計算堵每個甩樣品閑和凝沸聚點愿的距樂離,嚇進行贊初始蘿分類鈴,然魔后根炕據(jù)初深始分喚類計線算其栽重心昌,再駐進行壯第二季次分諒類,尿一直矩到所秤有樣冰品不脾再調(diào)兼整為承止。選擇潤凝聚俊點分茫類修改去分類分類晉是否御合理分類濱結(jié)束Ye襖sNo用一播個簡陷單的飛例子暫來說石明動牲態(tài)聚紋類法隊的工拘作過翻程。棉例如凳我們漁要把球圖中節(jié)的點坑分成虎兩類韻??焖俸稻垲悓牟脚铙E:1、隨會機選唐取兩活個點燒和墾作為停凝聚刻點。2、對圍于任鹿何點遠,駛分別摩計算3、若貼,約則將圍劃為廊第一幫類,灘否則勞劃給死第二旨類。4、分別計算兩個類的重心,則得和,以其為新的凝聚點,對空間中的點進行重新分類,得到新分類。(b)任取兩個凝聚點(c)第一次分類(d)求各類中心(a)空間的群點(e百)第二自次分糠類動態(tài)荷聚類旁法優(yōu)點噴:計覽算量曾小,置方法趨簡便偷,可撞以根屠據(jù)經(jīng)偽驗,蜻先作垮主觀炭分類偷。缺點田:結(jié)喊果受小選擇稍凝聚嗽點好忙壞的堅影響紗,分焦類結(jié)酷果不犁穩(wěn)定穿。第一脫,選稅擇凝爛聚點客;第二閥,初私始分嫩類;對于圈取定鞋的凝售聚點幻玉,視隨每個城凝聚渠點為胸一類戶,將械每個設樣品角根據(jù)類定義況的距勉離向樓最近湊的凝桶聚點酬歸類世。第三臂,修文改分欄類得到簡初始羨分類紛,計綠算各兇類的閃重心乳,以揚這些節(jié)重心帆作為宋新的穴凝聚雜點,肯重新忘進行裕分類煎,重別復步掏驟2,3,直纖到分點類的疫結(jié)果址與上脹一步員的分加類結(jié)成果相郊同,資表明厚分類鞠已經(jīng)賠合理鈴為止殖。動態(tài)塵聚類伐法的館基本戚步驟富:例3:某閥商店5位售缸貨員氧的銷膛售量爹和教建育程猾度如揭下表諷:售貨員12345銷售量(千件)116

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論