版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘聚類問題(Plants Data Set)實(shí)驗(yàn)報(bào)告1. 數(shù)據(jù)源描述1.1數(shù)據(jù)特征本實(shí)驗(yàn)用到的是關(guān)于植物信息的數(shù)據(jù)集,其中包含了毎一種植物(種類和科屬)以及 它們生長的地區(qū)。數(shù)據(jù)集中總共有68個地區(qū),主要分布在美國和加拿大。一條數(shù)據(jù)(對 應(yīng)于文件中的一行)包含一種植物(或者某一科屬)及其在上述68個地區(qū)中的分布情況。 可以這樣理解,該數(shù)據(jù)集中每一條數(shù)據(jù)包含兩部分容,如下圖所示。植物名稱(科屬+名稱)分布區(qū)域圖1數(shù)據(jù)格式例如一條數(shù)據(jù):abronia fragrans, az, co, ks, mt, ne, nm, nd, ok, sd, tx, ut, iva, wy。其 中abroni
2、a fragrans是植物名稱(abronia是科屬,fragrans是名稱),從az 一直到wy 是該植物的分布區(qū)域,采用縮寫形式表示,如az代表的是美國Arizona州。植物名稱 和分布地區(qū)用逗號隔開,各地區(qū)之間也用逗號隔開。1.2任務(wù)要求聚類。采用聚類算法根據(jù)某種特征對所給數(shù)據(jù)集進(jìn)行聚類分析,對于聚類形 成的簇要使得簇?cái)?shù)據(jù)對象之間的差異盡可能小,簇之間的差距盡可能大。2. 數(shù)據(jù)預(yù)處理2.1數(shù)據(jù)清理所給數(shù)據(jù)集中包含一些對聚類過程無用的冗余數(shù)據(jù)。數(shù)據(jù)集中全部數(shù)據(jù)的組 織結(jié)構(gòu)是:先給出某一科屬的植物及其所有分布地區(qū),然后給出該科屬下的具體 植物及其分布地區(qū)。例如:abelmoschus,ct,
3、de,fl,hi,il,ky,la,md,mi,ms,nc,sc,va,pr,vi abelmoschus esculentus,ctTde,f1,i1,ky11a,md,mi,msTnc,sc,vaTprTvi abelmoschus moschatus,hi,pr上述數(shù)據(jù)中第 行給出了所有屬于abelmoschus這一科屬的植物的分布地 區(qū),接下來的 兩行分別列出了屬于abelmoschus科屬的兩種具體植物及其分 布地區(qū)。從中可以看出后兩行給出的所有地區(qū)的并集正是第一行給出的地區(qū)集 合。在聚類過程中第 行數(shù)據(jù)是無用的,因此要對其進(jìn)行清理。2. 2數(shù)據(jù)變換本實(shí)驗(yàn)是依據(jù)植物的分布區(qū)域進(jìn)行聚類
4、,所給數(shù)據(jù)集中的分布區(qū)域是字符串 形式,不適合進(jìn)行聚類,因此將其變換成適合聚類的數(shù)值形式。具體思想如下:數(shù)據(jù)集中總共包含68個區(qū)域,每一種植物的分布區(qū)域是這68個區(qū)域中的一 部分。本實(shí)驗(yàn)中將68個區(qū)域看成是數(shù)據(jù)對象的68個屬性,這68個屬性是二元 類型的變量,其值只能去0或者1。步驟如下:1. 把68個區(qū)域按一定順序存放在字符串?dāng)?shù)組(記為str)中(順序可以自己 定,確定后不能改變)。2. 為數(shù)據(jù)集中的每個數(shù)據(jù)對象設(shè)置一個長度為68字符串?dāng)?shù)組,初始元素值 全為0。將數(shù)據(jù)對象的分布區(qū)域逐仝與str中的所有元素比較。如果存在于str 中下標(biāo)i的位置,就將該數(shù)據(jù)對象的字符串?dāng)?shù)組的第i位置為lo例如,
5、一個數(shù)據(jù)對象為:abies f raser i, ga, nc, tn, va o其分布區(qū)域包含 和va四個地區(qū),將這四個地區(qū)逐個與str中全部68個元素比較。假 設(shè)這四個地區(qū)分別存在于str中的第0,1,2,3位置,則將為該數(shù)據(jù)對象設(shè)置的字 符串?dāng)?shù)組中第0,1,2,3位置全部置為lo數(shù)據(jù)預(yù)處理代碼(包括數(shù)據(jù)清理和數(shù)據(jù)變換):public ArrayList<String> getRaw DataSet() Ari'ayList<String> raw_dataSet = new ArrayList<String>():;:F -地獲取的數(shù)據(jù)Buff
6、eredReader bufferedReader = null;FileReader fileReader = null;File dataFile = new File(this. fileName);if (dataFile. exists() /如果數(shù)據(jù)文件存在try fileReader = new FileReader(this fileName);bufferedReader = new BufferedReader(fileReader);Sti'ing data = null;wh訂e (data = bufferedReader. readLineO) != nul
7、l) if (isRightData(data)raw_dataSet add(data); catch (Exception e) e. printStackTraceO ; elsethisisFileExit = false;return raw_dataSet;)/ getRaw, DataSet,從本地ixi文件獲取數(shù)據(jù)集public Ari'ayList<Dataltem> getFinished_DataSet () ,類的數(shù)據(jù)Ari'ayList<Datal tem> finished,DataSet = new ArrayList<
8、;Dataltem> ():Ar i'ay L i s t <S t r i ng> temp_DataSet = this get Raw DataSet ();for (int i = 0; i < temp_DataSet. size() ; i+) ArrayList<String> eachRomltem = null;eachRomltem = this, spi It (temp_DataSet get (i), ' ') ; I 九' ” :i':打 數(shù)據(jù)Dataltem data_Item = new
9、 Dataitem(eachRomltem, true); finished_DataSet add(data_Item);/ forreturn fi ni shed DataSet;public boolean isRightData(String data) / 諦選出 A 適的數(shù)扌呂ArrayList<String> tempArrayList = new /rrayList<String>(); tempArrayList = spilt(data, * '): if (tempArrayList. size() <= 1)return fals
10、e;return true;/ isRightData.篩選出合適的數(shù)據(jù)public ArrayList<String> spilt(String str, char ch) ArrayList<String> words = new ArrayList<String> ():: 1 今1反".曲丁訶int beginlndex = 0;for (int i = 0; i < str. length(): i+) if (str. charAt(i) != ch) if (i != str. length() - 1)continue;els
11、e words add (str. subsuming (beginlndex); elseString temp = strsubstring(beginlndex. i);words add(temp);beginlndex = i + 1;/ forreturn words;3. 聚類分析3.1算法描述本實(shí)驗(yàn)采用了聚類分析中常用的K均值(K-Means)算法。該算法思想如下: 算法:K均值。用于劃分的K均值算法,每個簇的中心用簇中對象的均值表示。 輸入: k:簇的屬目 D:包含n個對象的數(shù)據(jù)集。輸出:k個簇的集合。方法:(1) 從D中任意選擇k個對象作為初始簇中心;(2) repeat(
12、3) 根據(jù)簇中對象的均值,將每個對象(再)指派到最相似的簇;(4) 更新簇均值,既計(jì)算每個簇中對象的均值;(5) until不再發(fā)生變化根據(jù)上述算法,結(jié)合本實(shí)驗(yàn)實(shí)際情況和數(shù)據(jù)集特征給出程序的執(zhí)行流程圖:圖2程序執(zhí)行流程針對上面的流程圖,有幾點(diǎn)說明:1.數(shù)據(jù)預(yù)處理主要包括前述數(shù)據(jù)清理和數(shù)據(jù)變換,最終生成用于聚類分析的數(shù) 據(jù)集。2簇的個數(shù)k由用戶指定,k越大聚類過程耗時越久。3. 圖中“最相似”意思就是距離中心點(diǎn)距離最近,本實(shí)驗(yàn)中采用歐幾里得距離, 其定義如下:I222=+(竝 2 一可 2)+ +(兀加一兀加)其中'=(血忌,風(fēng))和丿=(兀川兀2,兀丿是兩個n維數(shù)據(jù)對象。在本實(shí)驗(yàn)中, 兀
13、I和無川分別代表為i,j兩個數(shù)據(jù)對象設(shè)置的字符串?dāng)?shù)組(參看2. 2)中下標(biāo)為1 的元素值,此處n為68。4. 流程圖中的終止條件指的是:前后兩次中心點(diǎn)之間的距離(仍然用歐幾里得 距離)是否小于設(shè)定的值。例如,第n次迭代完成后重新生成了 k個新的中心點(diǎn), 計(jì)算k個新中心點(diǎn)與k個舊的中心點(diǎn)距離之和并將結(jié)果與設(shè)定的值比較,若小于 設(shè)定值則終止迭代,聚類完成,否則繼續(xù)迭代。3.2算法實(shí)現(xiàn)圖3代碼文件的組織結(jié)構(gòu)上圖是本實(shí)驗(yàn)源碼的組織結(jié)構(gòu),該項(xiàng)目包含五個Java類。每個類的功能描述如下:Cluster, java類該類定義了簇的結(jié)構(gòu),包含簇標(biāo)志,簇成員和簇中心點(diǎn)三個字段。 該類的每一個實(shí)例對應(yīng)于聚類過程中
14、的一個簇。Dataltem. java類該類定義了數(shù)據(jù)對象的結(jié)構(gòu),主要包含數(shù)據(jù)對象名稱(即植物名 稱)和數(shù)據(jù)對象字符串?dāng)?shù)組(即植物的分布區(qū)域)。該類的每一個實(shí)例對應(yīng)于數(shù)據(jù)集中 的一個數(shù)據(jù)對象。Main, java類該類是程序的核心類,主要功能是執(zhí)行聚類過程,包括中心點(diǎn)的選取 與更新,計(jì)算各個數(shù)據(jù)對象與中心點(diǎn)之間的距離并把其派分到最相似的簇等。 ReadData. java類該類主要功能是生成聚類過程適用的數(shù)據(jù)集,包括讀取文件, 數(shù)據(jù)預(yù)處理等。Tools, java類該類是一個工具類,其中定義了多個程序中使用到的靜態(tài)方法。Mian, java類中的核心代碼:(1) 隨機(jī)選取中心點(diǎn)public v
15、oid setCenter_ran() 數(shù)據(jù)集中髄:、beg in Time = System, curren t TimeMi 7 7 /s ();System, out. println(n聚類過程開始,開始于:"+ Tools. currentTimeO);Random ran = new Random();int order = 0; 逋機(jī)沽嘆中心點(diǎn)while (this.center.size() < numOfCluster) oi'der = ran.nextlnt (toBeProcessed. size();if (Tools. isProCener(
16、toBeProcessed get(order). this center) this center add(toBeProcessed get(order);/ while(2) 初始化簇集合(3) 執(zhí)行聚類過程(計(jì)算距離,把數(shù)據(jù)對象派分到最相似簇中)public void runCluster(Ari'ayList<DataItem> center) int beyondlndex = 0;/判斷數(shù)據(jù)項(xiàng)屬于哪一個簇,初始默認(rèn)為是0簇Random rd = new Random(); 陸機(jī)丙歟 printBeginlnfoO ;for (int i = 0; i <
17、 toBeProcessed.size (); i+) beyondlndex = 0;boolean isAlreadyExitlnCluster = true; '、尺記 /i 前處予的我空 U t 是否】.廠 存在于某個簇中double minDistance = Tools e_/c0,stz?/?ce(toBeProcessedget(i).center, get (0) 0);int ran Index = rd. next I nt (center. sizeO); 隣機(jī)產(chǎn)* 人屮心 后、狂 令才;專 引for (int j = 0; j < center. siz
18、eO ; j+) /分別與每一個中心點(diǎn)進(jìn)行比校 if (center, contains(toBeProcessed. get(i) 如; 處理i 孜岳對 象存在于中心點(diǎn)集合中,則跳出循環(huán)break;isAlreadyExitlnCluster = false;if (ranIndex >= center.sizeO)ranlndex = lanIndex % center.size();double correntDistanee = Tools calcDistance( toBeProcessed get(i), center get(ranlndex), 0);if (corre
19、ntDistance < minDistance) minDistance = correntDistance;beyondIndex = ranlndex;/第二個ifranlndex+;/ 第二個 forif (! isA 1 l'eadyExi 11 nC 1 uster) this arrayCluster get(beyondIndex) addMembers( toBeProcessed. get(i) ;/把數(shù)據(jù)對象加入到對應(yīng)的簇中 / 第一個 forSystem, out. println(M第"+ this- count + "次迭代完成。*
20、): printClusteringlnfoO ;(4) 迭代過程(產(chǎn)生新的中心點(diǎn),繼續(xù)執(zhí)行聚類過程直至滿足終止條件)public void finishcluster() Decimal Format df = new DecimalFormat (H4#. 000"); 格式化毀推, 小紋 for (int i = 0; i < AW; i卄)double moveDistance = 0.0; 存放各八M新舊中A點(diǎn)歐幾里得巧離之和/重新計(jì)算續(xù)中心占/ f丁 I I xi /TV I J 八八for (int j = 0; j < numOfCluster; j+十)
21、boolean isEmptyCluster = true;Dataltem newCenterltem; A : 丁 劉中心點(diǎn) U 家 int size = this.arrayClusterget(j)getMembers()size(); doublet newCen ter Area = new double AZ:%血M刃;/計(jì)算簇中數(shù)據(jù)的均值for (int index = 0; index < NUMOFAREA; index+) double temp Value = 0. 0;4for (int k = 0; k < size; k卄)isEmptyCluster
22、 = false;tempValue +二 thisaTrayClusterget(j)getMembers() get (k) getAreas()index;if (!isEmptyCluster) newCenter/reaindex = Double valueOfi.format(tempValue / size): elsebreak:/第三個forif (!isEmptyCluster) / 如果簇不為空String name = nclusterM + j;neenterltem = new Datal tem(name, newCenteMrea. false);的簇中心點(diǎn)對
23、象Datal tem oldCenter = this .center get(j); 一匕.moveDistance +二 ToolscalcDistance(o1dCenteinewCenterltem, 0):/計(jì)算新日中心點(diǎn)移動的距離this center. remove(j); 仝 :廣 一 土this center add(j. newCenterltem):/第二個for,重新計(jì)算簇中心/ System, out. print In (this, center. toStringO):/ 打印新的中心點(diǎn)信if (moveDistance < EXIT numOfC 1 us
24、tei') break;count+;ini t?rrayCluster(this center);runCluster(this center);/ 第一個 for3.3問題與改進(jìn)聚類分析要求不同簇之間的距離盡可能大,初始隨機(jī)選取的中心點(diǎn)并不能保 證不同中心點(diǎn)之間的距離盡可能遠(yuǎn),本程序?qū)λ惴ㄟM(jìn)行改進(jìn),在隨機(jī)選取中心點(diǎn) 時要求與已經(jīng)選取的中心點(diǎn)之間的距離大于設(shè)定值。這樣做保證了隨機(jī)選取的中 心點(diǎn)相對比較分散,提高了聚類效果。主要代碼如下:public static boolean isProCenei'(DataItem centei'Item,ArrayList<
25、;DataItem> center) if (center. size() > 0) /如果當(dāng)前的中心點(diǎn)集合不為空for (int i = 0; i < center.size(); i+十)if (Tools. calcDistance(cexterlle. center, get (i). 0) < DIFF return false;if (center contains(centei'Item)return false;return true;4. 開發(fā)與運(yùn)行環(huán)境配置操作系統(tǒng): Windows 7開發(fā)工具:Eclipse開發(fā)語言: Java CPU 頻率
26、:2. 2GHz存:3. 5GB兩種運(yùn)行方式:解壓源程序,將PlantsClustering X程導(dǎo)入Eclipse即可運(yùn)行;直接運(yùn)行打包生成的exe文件。兩種方式均要求電腦上安裝有JDK1. 5 或更高版本。5. 程序運(yùn)行情況分析5.1運(yùn)行截圖請輸入數(shù)據(jù)文件踣徑(默認(rèn)為D: /plantsdata.txt):將使用以下數(shù)據(jù)進(jìn)行聚類:Cl«ob1®aa?請輸入聚類的謹(jǐn)數(shù):圖4指定數(shù)據(jù)文件并輸入聚類簇?cái)?shù)程序運(yùn)行開始時需要用戶指定數(shù)據(jù)文件的路徑,不指定的話默認(rèn)是D盤根目 錄下的plants, data, txt文件。之后需要用戶輸入聚類產(chǎn)生的簇?cái)?shù),簇?cái)?shù)介于1 到100之間Q幵!
27、tt,幵鴛干:2«15®2B 13:50:19冠1; 乂迭比只購 本次花代的6心$勺:中心曲*t中心<S.l:gili4 "8CWCT心2,0.0,0.%0.0,18門0,000#0“0,儀0,$.色0.00,0%09"0/0,00,0.0.0#0町0.0#0#.000,0.9,1.0/8,00&.% 中g(shù):alenl0 Mwcen九0釘00*0,。&0,00冷0,軌芻0.亦0釘00*鴿00,0釘00£0,000“0,氛0,0銳0毎0鯨00"0,00,00/0#0,。0,00#0#. 中心3:%we«o
28、nU0 ovslifolia ssp. 8co3$6000#0/0,00O.0.0E,0,%0*/.0#,00,00/0,B0"0,6.0,(i000,009,00O,0&08 中心"onMOMce septentrion011s ssp. puteruRnts/0,"y 6】.600八06。叭0。,00,0叭10#0,臥。上60叭0。閃0»06060600»0叭0叭】 V血5 peMh&s petiolde,0.o,«.9,0.9,9.©,9.0,0.0,0.9,0.«,9.OzVj56"
29、;蘆“u cdpitMua w. a"Ee8“e.0,e.e,i-e“®.6Q.®“e.®.】.Q,0 e.e.6.0“e ®,0.0,®©0.B“】.®, 屮 中心j58.B"*du中心點(diǎn)9:Mcottm EiiMca).e,0.3/.8,】.8,】.e.e".E,e.8,8.Q,i.e,i.B,】.8,e.8.0,】.E,e.Q.e,8.B,e.B,e.0.e,8.e,i.8,e.0,i.e,i.6,8.f 申心AM:.6#.e“.g,e.8,8.Q,o.e,8.B,e.8,6.8.60.8
30、/.%e.8,B.e,8. 中>Ai3:E心中心A13:«horti>滬1»”0】1>,0.0上亀5釘札.0,00上.0,0.0,。.2.毎,.。冷.釘0.#.0上釘.0上.心。.0”.0上.亀0.町0.”.0上釘6釘0.0,。.上.0上.0,.亀0.0八.6 中心A14:0(中*M15;nwu denwa v«*. p>-vifkru»,Q.0/中心點(diǎn)”:"F “,"。,匕肌0.9/.0,04“0,0.8.0,06馭0,0 %10/.0上,乞0,0.90#0“0,0.00,000,00,0。#紡0上,乞0,儀
31、仇8.0#0/0,0.0.0,1 中心dwmiw八0,1叫0.0,80”0,0 %0.0.0,10,匕叫0.叫00#0,匕色0.肌(1.0”0”0八.0.00”(1八肌0.叫1.0卩匕0,18i'AMjdodecatheon lpin-n,6,0.o,i.e,i.o,9.e,e.e.«,e.0z1 C'jR.19iphe*ertAthus s:LsHcu»1 叭O.叭0O叭6叭96。60上叫00/00/叫0叭020八叫00,069509,9.9.9.%9.9,9.9,9.9.9,9 £20!prur«i£ doMitua 2.
32、代叫e.0/.,取6iB,e.o.叫叫叫i.o/.e.se".叫中心克2】:Mt*£ f皿圖5迭代過程,輸出中心點(diǎn)信息每次迭代會輸出本次迭代的中心點(diǎn)信息。上圖是第一次迭代的部分中心點(diǎn)信 息(總共有50個中心點(diǎn))。第1次迭代完成。cluster25 :包臺417個數(shù)班。c 1 uste r26:包含88個物據(jù)。cluster27:包含389個數(shù)據(jù)°cluster28:包含1陽2個數(shù)據(jù)o cluster29:包含750個數(shù)裾。clusten30: 含 38 個數(shù)據(jù) ° cluster31:色含68個樹據(jù)。cluster32:包含30孑個數(shù)泥。cluster3
33、3:色含415個數(shù)摒。cluster34:包含897個數(shù)克°cluster35 :162個數(shù)拜。cluster36:包含410個數(shù)擄。clusten37:包含389個數(shù)強(qiáng)。 cluster38: 含 658 個數(shù)抵。 cluster39: 含 92 個數(shù)抿。clusten40:2330 個數(shù)抿 °clusterdl:包含323個數(shù)據(jù)°cluster42 :包含347個數(shù)抿°cluster43:包含282個數(shù)據(jù)。clusten44:包含579個數(shù)券。cluster45 :包含657個數(shù)殞°cluster46:包含539個數(shù)拜。clusten47:
34、g含1毎曠卜數(shù)據(jù)。cluster48 :包含1285個數(shù)據(jù)。cluster49:包含109個數(shù)抿。新舊中心點(diǎn)的移動距離為:62031大干設(shè)定俏:25叭迭代繼續(xù)圖6第一次迭代后簇的信息圖7簇的信息和終止條件的判定本次迭代完成后,各簇基本信息如下: clusierO:包合452個數(shù)據(jù)。 clusrerl:包合698個數(shù)據(jù)。 clusTer2:包合4872個數(shù)抿。 C1US住包合2215個數(shù)抿。 clusrer4:包合164個數(shù)據(jù)。 clusters:&3183 個數(shù)據(jù)。 cluster6:包含565個數(shù)據(jù)。 cluster7:旦含刃1個數(shù)推。 clusters:旦含216個魏旅。 clus
35、ter9: 含?6 個數(shù)拐。 clusterl0:930個數(shù)抿。 clusterll:包含3Q8個數(shù)抿c chj航"12:辺含355個數(shù)將° Cu航包含230個數(shù)J居, clusterld:包含1084個數(shù)據(jù). clusterl5:Q 含 878 個數(shù)據(jù), clusterl6: 含98 個數(shù)據(jù)。 clusterl7:辺含312個數(shù)據(jù)° clusterl8: 含 208 個數(shù)據(jù) ° clusterl9: 含 118 個數(shù)據(jù) ° cluster20:旦含308個數(shù)據(jù)° cluster21: 60 個數(shù)據(jù)。 cluster22: 含 318
36、 個數(shù)據(jù)。 cluster23:色含743個數(shù)據(jù)° cluster24:包含1305個蛟據(jù)。 /-"L.u+qrOG 占1 令/I *1 "7水罷IlJK _一次迭代完成后會輸出本次迭代后各簇的信息并計(jì)算新舊中心點(diǎn)的移動距 離,與設(shè)定的值比較,判定是否繼續(xù)迭代。名稱 Cluster。(包含317佯矚對急)txt Cluster!(包含599個數(shù)據(jù)對金)bdG Clust"2(包含3434個如龍象)txt (:1"論3(包含2228個舞對急)5G Clxter4(包含247傳據(jù)對金)txt Cluster (包含1294徑矚疋象),txt 0 C
37、l"ter6(包含612心礙對矗)txt Cl”ter7(包含274蝕陰對動txt u Cluster8(包含 1179個舞g)txtG Cluster(包含 128對創(chuàng)bdO ClusterlO(包含575i龍象),txt Cl"論rll(包含439偉鞫金)txtU Cl”terl2(包含33CXN媚沱剝txt Q Cluster!3(包含332個備對急)txt ClUsterl4«9577ra).txtD Clust"15(包含634個如龍象)txt Clusterl6(包含167個加葩象)txt一 Cluterl7(包含251個進(jìn)応剝txt LJ
38、Clusterl8(包含250數(shù)據(jù)疋剝,txtU Clusterl9(15455?a).txtD Cl”tH20(包含象)txt D (:1"論&(包含84個加對象)肚 o Cl"gr22(包含3835燈剝txtClust"23(包含779<疋剝,txt Cluster24(包含622徨媚對彖)txt Cluster2 5佝含374個如對斜txti i Clustgr24(包含622理鳩無剝,txt 。"知25包含374理爛匹剝3 。”226包含1_53個蠱零無剝5 一 Cluster27(包含 183個城 Cluster28(包含U59個
39、數(shù)搖雙蠱i.brt D Clu ster29(787-f<).brt D Cluster30包含125個好龍剝txt 一 Cluster31(13S<).brt (i Cluster32(包含413個|墟匹剝txt Cluster 33(443).txt Clus知34(包含684個數(shù)揚(yáng)無剝E i I Cluster35包含214個S媚匹剝.txt Cl"知36包含555理媚苯剝txt D Clus畑37(包含358僚揚(yáng)匹剝E i i Cluster3出包含640?或剝brt Cl”知站包含238個谿強(qiáng)對剝txt d ClusHr40包含 1279個數(shù)瘍e劎,txt i
40、i Clu ster41(324>?).brti i Clu ster42(/fe463/r7.txt ClusHr43包含242僚揃漫IE _ Cluster44(包含671偉卿T金)brt 011如45包含771偉惑象3 D Clus2r46包含1737個數(shù)據(jù)対錢l.txt 一 Cluster47(785>i).brt,i ClustgM班包含1A05個I媚沱剝.tort D Clu血r49包含L66個畫強(qiáng)尢剝txt圖8把簇的信息保存到本地滿足終止條件,迭代結(jié)束,此時會在D:DataMining目錄下生成保存各個 簇信息的文件,里面是該簇中包含的數(shù)據(jù)對象。5.2聚類效果分析聚類
41、分析要求得到的簇之間相異度盡可能大,簇的數(shù)據(jù)對象相異度盡可能 小。本程序會在聚類分析完成后會輸出各簇的平均距離和簇間平均距離,作為對 聚類效果評判的參考。如下截圖:宋姿效黑如下:簸0內(nèi)數(shù)誡對象距離中心點(diǎn)平均距離:1.1924916281221463 議1內(nèi)遜據(jù)汨象距離中心點(diǎn)平均距離:0.527664853977846 議2內(nèi)數(shù)1居對象距離中心點(diǎn)平均臣離:13U2397333333383 錢3內(nèi)遜1居對壽距離中心點(diǎn)平均2.244863033175356 錢4內(nèi)數(shù)據(jù)對彖距離中心點(diǎn)平均臣茬:0.0851452637243344 錢5內(nèi)數(shù)1居對茨距離中心點(diǎn)平均宦芮:02897207865163523
42、族6內(nèi)遜據(jù)對錄距離中心點(diǎn)平均: 1.0458869615832351 族7內(nèi)遜居對泉距宮中心點(diǎn)平均: 1.6827351681957152 荒8內(nèi)遜1居沂杲距離中心點(diǎn)平均崔蔑:2.743229328165375 軽9內(nèi)數(shù)10煖距高中心點(diǎn)平均2. S93 3651162790& 軽10內(nèi)逍據(jù)對象距冉中心點(diǎn)平均距藹:1.1把8425818882502 軽口內(nèi)逍據(jù)對象距冉中心點(diǎn)平均FEft: 0.07235636523266559 穽12內(nèi)逍據(jù)對象距冉中心點(diǎn)平均: 1.4&41144469525946 軽13內(nèi)追據(jù)對象距離中心點(diǎn)平均距藹:2.3507995798319326 軽M內(nèi)逍據(jù)對象距冉中心點(diǎn)平均?§ft :0-6280556509298931 軽15內(nèi)逍據(jù)對象距冉中心點(diǎn)平均fgft :0.622694.7
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度安全生產(chǎn)咨詢服務(wù)協(xié)議
- 2024年廢棄物處理與環(huán)保服務(wù)合同
- 2024年房產(chǎn)中介保密協(xié)議示例
- 2024年影視拍攝高空作業(yè)安全協(xié)議
- 2024年度版權(quán)共享協(xié)議(共享范圍和權(quán)益分配)
- DB41T 1669-2018 金礦綠色礦山建設(shè)規(guī)范
- 2024年建筑裝飾材料供應(yīng)合同
- 2024年建筑設(shè)計(jì)與施工協(xié)作協(xié)議
- 2024年北京醫(yī)療設(shè)備采購與安裝合同
- 2024年建筑工程施工質(zhì)量保證協(xié)議
- 天然氣管網(wǎng)安裝工程施工過程崗位操作指南
- 船用甲板刷商業(yè)機(jī)會挖掘與戰(zhàn)略布局策略研究報(bào)告
- 公司網(wǎng)絡(luò)安全制度
- 跨學(xué)科主題學(xué)習(xí)- 探索外來食料作物傳播史(課件)七年級地理上冊同步高效備課課件(人教版2024)
- 學(xué)校編制外臨時代課教師聘用管理辦法
- 南京市江寧區(qū)2023-2024三年級數(shù)學(xué)上冊期中試卷及答案
- GB/T 22838.7-2024卷煙和濾棒物理性能的測定第7部分:卷煙含末率
- 第五單元測試卷(單元測試)-2024-2025學(xué)年統(tǒng)編版六年級上冊語文
- 蚌埠醫(yī)學(xué)院兒科學(xué)教案
- 第四單元認(rèn)位置(單元測試)2024-2025學(xué)年一年級數(shù)學(xué)上冊蘇教版
- 2024-2030年中國凍干燕窩行業(yè)市場現(xiàn)狀分析及競爭格局與投資發(fā)展研究報(bào)告
評論
0/150
提交評論