版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、對數(shù)據(jù)進行聚類分析實驗報告一、基本要求用FAMALE.TXT、MALE.TXT和/或test2.txt的數(shù)據(jù)作為本次實驗使用的樣本集,利用C均值和分級聚類方法對樣本集進行聚類分析,對結(jié)果進行分析, 從而加深對所學(xué)內(nèi)容的理解和感性認識。二、實驗要求1、把FAMALE.TXT和MALE.TXT兩個文件合并成一個,同時采用身高 和體重數(shù)據(jù)作為特征,設(shè)類別數(shù)為 2,利用C均值聚類方法對數(shù)據(jù)進 行聚類,并將聚類結(jié)果表示在二維平面上。嘗試不同初始值對此數(shù)據(jù) 集是否會造成不同的結(jié)果。2、對1中的數(shù)據(jù)利用C均值聚類方法分別進行兩類、 三類、四類、五類 聚類,畫出聚類指標(biāo)與類別數(shù)之間的關(guān)系曲線,探討是否可以確定
2、出 合理的類別數(shù)目。3、對1中的數(shù)據(jù)利用分級聚類方法進行聚類,分析聚類結(jié)果,體會分級聚類方法。4、利用test2.txt數(shù)據(jù)或者把test2.txt的數(shù)據(jù)與上述1中的數(shù)據(jù)合并在一 起,重復(fù)上述實驗,考察結(jié)果是否有變化,對觀察到的現(xiàn)象進行分析, 寫出體會三、實驗步驟及流程圖根據(jù)以上實驗要求,本次試驗我們將分為兩組:一、首先對FEMALE MALE中數(shù)據(jù)組成的樣本按照上面要求用 C均值法進行聚類分析,然后對FEMALE MALE test2中數(shù)據(jù)組成的樣本集用C均值法進行聚類分析,比較二者結(jié)果。二、將上 述兩個樣本用分即聚類方法進行聚類, 觀察聚類結(jié)果。并將兩種聚類結(jié)果進行比 較。一、(1)、C均
3、值算法思想C均值算法首先取定C個類別和選取C個初始聚類中心,按最小距離原則將各模式 分配到C類中的某一類,之后不斷地計算類心和調(diào)整各模式的類別,最終使各模 式到其判屆類別中心的距離平方之和最小(2)、實驗步驟第一步:確定類別數(shù)C,并選擇C個初始聚類中心。本次試驗,我們分別將 C的 值取為2和3。用的是憑經(jīng)驗選擇代表點的方法。比如:在樣本數(shù)為 N時,分為兩類時,取第1個點和第INT (N/2)+1個點作為代表點;分為三類時,取第 1、INT (N /3 )+1、INT (2N /3 )+1 個點作為代表點;第二步:將待聚類的樣本集中的樣本逐個按最小距離規(guī)則分劃給C個類中的某一類。第三步:計算重新
4、聚類后的個各類心,即各類的均值向量。第四步:如果重新得到的類別的類心與上一次迭代的類心相等,則結(jié)束迭代,否則轉(zhuǎn)至第二步。第五步:迭代結(jié)束時,換不同的初始值進行試驗,將實驗結(jié)果進行比較(3)、實驗流程圖(4)、本次試驗我們用的聚類指標(biāo)是誤差平方和聚類準(zhǔn)則 Je設(shè)Ni是第i聚類Ci的樣本數(shù)目,Zi是這些樣本的均值,則把Ci中得各樣本y與均值Zi問的誤差平方和對所有類相加后為:cJ e一 | y - mi 2當(dāng)C取不同的值時各自算出它們的J e ,進行比較。二、利用分級聚類方法進行聚類1、分級聚類法思想:首先 把全部樣本作為一類看做一類,然后根據(jù)一定的目標(biāo) 函數(shù)進行分解。2、步驟第一步:開始時,將全
5、部樣本當(dāng)做一類,第二類即為空集。第二步:將第一類中的所有樣本依次放入第二類,計算兩類樣本均值X1, X2,樣本數(shù)目N1 ,疆以及目標(biāo)函數(shù)E =生!。1 _X2)'(Xi X2),比較E值大小,選 N擇E值最大所對應(yīng)的樣本,將其歸入第二類。并記錄此時的E為E (1)第三步:將第一類中剩下樣本依次放入第二類中, 按照上面運算得出E值,并比 較E值大小,選擇E值最大所對應(yīng)的樣本,將其歸入第二類。并記錄此時的 E 為 E (2)第三步:將新的兩類按照上面的方法繼續(xù)劃分, 直到第i次迭代的E(i) <E(i-1 ) 或者到達規(guī)定的迭代次數(shù)。3、實驗流程圖四、實驗結(jié)果I、1、用FAMALE.
6、TXT和MALE.TXT中的數(shù)據(jù)組合起來作為樣本集:C=2時(1)、取第一個和第五十一個樣本作為初始聚類中心,得出的實驗結(jié)果圖如下:140145150155160165170175180135190得到結(jié)果是:點號表示的類別中樣本總數(shù)為61,星表示的類別中樣本總數(shù)為39兩個聚類中心分另U為:A (163.5738 , 53.1541 ), B (175.8974 , 68.2692 )2)、取第二十五個和七十五個樣本作為初始聚類中心時得到的實驗結(jié)果如下:9065807570656。5550454014014515015516。165170175180185190得到結(jié)果是:點號表示的類別中樣本
7、總數(shù)為 61,星表示的類別中樣本總數(shù)為39兩個聚類中心分另U為:A (163.5738 , 53.1541 ), B (175.8974 , 68.2692 )進行多次試驗發(fā)現(xiàn)取不同的初始聚類中心時實驗結(jié)果相同它們的 J e=5.9707e+003但是,經(jīng)過后面的實驗我們發(fā)現(xiàn),初始聚類中心選擇影響最后的聚類中心,其能保證優(yōu)化,而不能保證全局優(yōu)化,ISODATA在這一點比C-均化更好。卜面是將男女樣本所代表的點分別畫到圖上可得下圖:9085S07570656065504540140145150155160165170175130135190其中點表示的是女生樣本,圓圈表示的是男生樣本。其中,男生
8、的樣本均值為 (173.9200 , 65.5020 )女生的樣本均值為(162.8400 , 52.5960 )通過比較兩幅圖,可以發(fā)現(xiàn),當(dāng)去 C=2時,對數(shù)據(jù)進行聚類分析得到的聚類結(jié) 果基本類似丁男女生分類,他們的樣本均值相差不大,不過還是有一定差別。差 別出現(xiàn)在一些身高低丁 1.70米的男生處。C=3時得到的聚類結(jié)果圖如下:9085807570656055504540 1401451501561601651701761801185190最終的三個聚類中心:A (159.2333 , 49.9333 ) B (168.8158 , 57.0105 ) C (176.4375 , 70.01
9、56 )J e =3.9251e+003從圖中可以看出,當(dāng)劃分為三類時,其結(jié)果可以看做按照身高與體重的比將樣本 進行聚類,身高體重比大,較大,小的分別為一類。C=4時:得到的分來結(jié)果如下:90858075706560555045401401451501551&O165170175180135190得到的四個聚類中心為:A (157.4286 , 49.2381 ), B (164.7727 , 53.3545 )C (170.4400 , 58.2640 ), D (176.4375 , 70.0156 )J e =3.4318e+003C=5時得到的聚類結(jié)果如下:9085807570
10、656055504540140145150156160165170175180135190最終的五個聚類中心分別為:A (158.1579 , 47.3684 ), B (163.3913 , 54.4652 )C (170.3462 , 58.1423 ), D (176.0741 , 67.7593 )E (178.4000 , 82.2000 )J e=2.6352e+003C=7時得到的聚類結(jié)果圖如下:90111111185807570656055504540¥140145150155160+ 165170175160185190最終的6個聚類中心分別為:A (158.346
11、2,49.8462 )B(166.9259 ,54.5889 )C (171.4737,60.8158 )D(175.6842 ,68.1842 )E (178.0000,80.6667 )F(183.3333 ,66.6667 )J e= 2.5607e+0031、畫出C值與J e之間的關(guān)系曲線如下:由圖可以看出,拐點離2較近,所以講此樣本集聚為二類最佳2、把test2.txt的數(shù)據(jù)與上述1中的數(shù)據(jù)合并在一起,重復(fù)上述實驗,實驗結(jié)果如下:(1)、取第二十五個和第二白零一個個樣本作為初始聚類中心,得出的實驗 結(jié)果圖其中,A (165.0479 , 53.6491 ), B (176.4506
12、, 69.9378 )J e =3.2952e+004取第一白個和第三白個樣本作為初始聚類中心時得出結(jié)果與前面相同(3)、C=4 時:oo401oJI7 JIA (163.3438 , 51.8742 ) , B (174.5561 , 64.5024 )C (178.8657 , 80.4776 )Je =2.0594e+004Je=1.6346e+004A (159.8548 , 48.3145 ), B (167.5567 , 56.6485)C (175.4783 , 65.7908 ), D (179.3684 , 81.7368 )(4) C=5 時:130 rtr1O120 -1
13、10 -100 -a o c140150160170180190200Je=1.3575e+004A (160.5732 , 50.0512 ), B (170.0510 , 57.5020 )C (175.3836 ,65.9452 ), D (178.6429,75.7589)E (179.6667 , 91.3889 )(5)、C=6 時40401o06o7o8o620JIo o601.1JI其中,Je = 1.3018e+004A (160.8427 , 50.6596 ) C (172.6381 , 62.9143 ) E (177.2955 , 68.0057 ) B (170.6
14、296 , 55.1241 ) D (176.8488 , 76.8837 ) F (181.5952 , 89.1905 )畫出C值與J e之間的關(guān)系曲線如下與圖可知,拐點離2較近,所以認為此時仍是將樣本集分為二類最佳(4)、將兩種樣本即進行聚類后的樣本中心進行比較,如下表:以FEMALE和MALE中得數(shù)據(jù)作為樣本以FEMALE和MALE以及test2中的數(shù)據(jù)作為樣木2A (163.5738 , 53.1541 )B (175.8974 , 68.2692 )A (165.0479 , 53.6491 )B (176.4506 , 69.9378 )3A (159.2333 , 49.933
15、3 ) B (168.8158 , 57.0105 ) C (176.4375 , 70.0156)A (163.3438 , 51.8742 ) B (174.5561 , 64.5024 ) C (178.8657, 80.4776 )4A (157.4286 , 49.2381 ) B (164.7727 , 53.3545 ) C (170.4400 , 58.2640) D (176.4375 , 70.0156)A (159.8548 , 48.3145 ) B (167.5567, 56.6485 ) C (175.4783 , 65.7908 ) D (179.3684 , 8
16、1.7368 )5A (158.1579 , 47.3684 ) B (163.3913 , 54.4652 ) C (170.3462 , 58.1423) D (176.0741 , 67.7593) E (178.4000 , 82.2000 )A (160.5732 , 50.0512 ) B (170.0510 , 57.5020 ) C (175.3836 , 65.9452 )D (178.6429,75.7589) E (179.6667, 91.3889 )6A (158.3462 , 49.8462 ) B (166.9259 , 54.5889 ) C (171.4737
17、 , 60.8158) D (175.6842 , 68.1842) E (178.0000 , 80.6667 ) F (183.3333 , 66.6667 )A (160.8427 , 50.6596 ) B (170.6296 , 55.1241 ) C (172.6381 , 62.9143 ) D (176.8488 , 76.8837 ) E (177.2955 , 68.0057 ) F (181.5952 , 89.1905 )從上表可以縱向比較可以看出,C越大,即聚類數(shù)目越多,聚類之間差別越小, 他們的聚類中心也越接近。橫向比較用FEMALE,MALE中數(shù)據(jù)作為樣本和用FE
18、MALE,MALE , test2中數(shù)據(jù)作為樣本時,由丁引入了新的樣本,可以發(fā)現(xiàn)后 者的聚類中心比前者都稍大。但是它們的分布類似,變化不大。II、將兩個樣本分別用分級聚類方法進行聚類,得出結(jié)果,并與C均值聚類法進行比較:1、 對FEMALE與MALE中數(shù)據(jù)組成的樣本集進行分級聚類:9085807570656055504540 14014515015516016517017E180185190由圖可見,分級聚類法將樣本分為兩類,它們的聚類中心分別為A (163.4667 , 53.0400 ) B (175.7500 , 68.0625 )將它與C=2時的C均值聚類結(jié)果進行比較,分別比較它們的結(jié)
19、果圖以及聚類中 心,下面是它們的聚類中心比較:聚類方法C均值聚類分級聚類聚類中心A (163.5738 , 53.1541 )B (175.8974 , 68.2692 )A (163.4667 , 53.0400 )B (175.7500 , 68.0625 )比較發(fā)現(xiàn)它們的聚類結(jié)果很相似2、對由MALE MALE test2中數(shù)據(jù)組成的樣本集進行分級聚類:* *.140O6501o o3 2o o o1 o 9ODO 8 7 6o O16 4>+*"+ST*4+f *+*1 * $ 4 t itO 8 Ji由圖可見,分級聚類法將樣本分為兩類,它們的聚類中心分別為A (164
20、.9819 , 53.6229 ), B (176.4487 , 69.8868 )將它與C=2時的C均值聚類結(jié)果進行比較,分別比較它們的結(jié)果圖以及聚類中 心,下面是它們的聚類中心比較:聚類方法C均值聚類分級聚類聚類中心A (165.0479 , 53.6491 )B (176.4506 , 69.9378 )A (164.9819 , 53.6229 )B (176.4487 , 69.8868 )比較發(fā)現(xiàn)它們的聚類結(jié)果也很類似分析:比較發(fā)現(xiàn)利用分級聚類方法與利用 C均值聚類法時 C取2時的聚類結(jié)果極其相似.五、心得體會通過本次試驗,我們隊 C均值聚類法以及分級聚類法都有了較好的理解,并且
21、在用MATLAB編程方面都有了很大進步。部分代碼:C勻值%C=2clc;clear all;FH FW=textread('C:UsersxuydDesktophomeworkFEMALE.txt','%f %f');MH MW=textread('C:UsersxuydDesktophomeworkMALE.txt','%f %f);FA=FH FW;FA=FA'MA=MH MW;MA=MA'for k=1:50NT(:,k)=FA(:,k);endfor k=51:100NT(:,k)=MA(:,k-50);endz1
22、=NT(:,1);z2=NT(:,51);for k=1:100a=z1,b=z2G1=zeros(2,100);G2=zeros(2,100);for i=1:100d1=sqrt(NT(1,i)-z1(1,1)A2+(NT(2,i)-z1(2,1)A2);d2=sqrt(NT(1,i)-z2(1,1)A2+(NT(2,i)-z2(2,1)A2);if d1<d2G1(:,i)=NT(:,i);elseG2(:,i)=NT(:,i);endendG1(:,find(sum(abs(G1),1)=0)=;G2(:,find(sum(abs(G2),1)=0)=;z1=mean(G1,2)
23、;z2=mean(G2,2);if isequal(a,z1)=1&&isequal(z2,b)=1breakendendz1,z2,G1,G2,size(G1,2),size(G2,2)for i=1:size(G1,2)x=G1(1,i);y=G1(2,i);plot(x,y,'G.');hold onendfoz.£sN'e(G2-2)xnG2?mynG2(2uP_of(xy-R*who-d onendpofN(二)N(2iB+-)ho-d onp_ofN2(二)N2(2iB+-)ho-d oncpcCDar a=【FH Fwln(Dxfread(-ocsersxuyd-Deskfop-homework-FEMALE.><f-%f %f-)_【MH Mwln(Dxfread(-9cser
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度游樂園場地租賃及游樂設(shè)備租賃合同3篇
- 2024藝術(shù)品慈善捐贈合同版B版
- 個人汽車租賃協(xié)議樣本詳解版
- 二零二五年度智能穿戴設(shè)備技術(shù)服務(wù)電子合同3篇
- 2025年精裝房裝修改造與家具定制合同3篇
- 探索醫(yī)療領(lǐng)域中的分布式能源系統(tǒng)解決方案
- 2025年度個人房屋抵押貸款擔(dān)保與戶外活動組織合同4篇
- 智能消防系統(tǒng)在小區(qū)的應(yīng)用案例
- 現(xiàn)代學(xué)校游泳館的運營與管理策略
- 展會參展視覺設(shè)計與用戶體驗的融合
- 2024年可行性研究報告投資估算及財務(wù)分析全套計算表格(含附表-帶只更改標(biāo)紅部分-操作簡單)
- 湖北省石首楚源“源網(wǎng)荷儲”一體化項目可研報告
- 醫(yī)療健康大數(shù)據(jù)平臺使用手冊
- 碳排放管理員 (碳排放核查員) 理論知識考核要素細目表四級
- 撂荒地整改協(xié)議書范本
- 診所負責(zé)人免責(zé)合同范本
- 2024患者十大安全目標(biāo)
- 會陰切開傷口裂開的護理查房
- 實驗報告·測定雞蛋殼中碳酸鈣的質(zhì)量分數(shù)
- 部編版小學(xué)語文五年級下冊集體備課教材分析主講
- 電氣設(shè)備建筑安裝施工圖集
評論
0/150
提交評論