




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告 PAGE PAGE 13基于weka的數(shù)據(jù)(shj)分類分析實(shí)驗(yàn)報(bào)告(bogo)1實(shí)驗(yàn)(shyn)基本內(nèi)容本實(shí)驗(yàn)的基本內(nèi)容是通過使用weka中的三種常見分類和聚類方法(決策樹J48、KNN和k-means)分別在訓(xùn)練數(shù)據(jù)上訓(xùn)練出分類模型,并使用校驗(yàn)數(shù)據(jù)對(duì)各個(gè)模型進(jìn)行測試和評(píng)價(jià),找出各個(gè)模型最優(yōu)的參數(shù)值,并對(duì)三個(gè)模型進(jìn)行全面評(píng)價(jià)比較,得到一個(gè)最好的分類模型以及該模型所有設(shè)置的最優(yōu)參數(shù)。最后使用這些參數(shù)以及訓(xùn)練集和校驗(yàn)集數(shù)據(jù)一起構(gòu)造出一個(gè)最優(yōu)分類器,并利用該分類器對(duì)測試數(shù)據(jù)進(jìn)行預(yù)測。2數(shù)據(jù)的準(zhǔn)備及預(yù)處理2.1格式轉(zhuǎn)換方法(1)打開“data02.xls” 另存為CSV類型,得到“
2、data02.csv”。 (2)在WEKA中提供了一個(gè)“Arff Viewer”模塊,打開一個(gè)“data02.csv”進(jìn)行瀏覽,然后另存為ARFF文件,得到“data02.arff”。 。3. 實(shí)驗(yàn)過程及結(jié)果截圖3.1決策樹分類(1)決策樹分類用“Explorer”打開數(shù)據(jù)“data02.arff”,然后切換到“Classify”。點(diǎn)擊“Choose”,選擇算法“trees-J48”,再在“Test options”選擇“Cross-validation(Flods=10)”,點(diǎn)擊“Start”,開始運(yùn)行。系統(tǒng)默認(rèn)trees-J48決策樹算法中minNumObj=2,得到(d do)如下結(jié)果=
3、 Summary =Correctly Classified Instances 23 88.4615 %Incorrectly Classified Instances 3 11.5385 %Kappa statistic 0.7636Mean absolute error 0.141 Root mean squared error 0.3255Relative absolute error 30.7368 %Root relative squared error 68.0307 %Total Number of Instances 26 = Detailed Accuracy By Cla
4、ss = TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.824 0 1 0.824 0.903 0.892 N 1 0.176 0.75 1 0.857 0.892 YWeighted Avg. 0.885 0.061 0.913 0.885 0.887 0.892= Confusion Matrix = a b - classified as 14 3 | a = N 0 9 | b = Y使用(shyng)不同的參數(shù)準(zhǔn)確率比較:minNumObj2345Correctly Classified Instances23
5、(88.4615 %)22(84.6154 %)23(88.4615 %)23(88.4615 %)由上表(shn bio),可知minNumObj為2時(shí),準(zhǔn)確率最高。根據(jù)(gnj)測試數(shù)集,利用準(zhǔn)確率最高的模型得到的結(jié)果: 分析(fnx)說明:在用J48對(duì)數(shù)據(jù)集進(jìn)行分類時(shí)采用了10折交叉(jioch)驗(yàn)證(Folds=10)來選擇和評(píng)估模型,其中屬性值有兩個(gè)Y,N。一部分結(jié)果如下:Correctly Classified Instances 23 88.4615 %Incorrectly Classified Instances 3 11.5385 %= Confusion Matrix =
6、 a b - classified as 14 3 | a = N 0 9 | b = Y這個(gè)(zh ge)矩陣是說,原來是“Y”的實(shí)例,有14個(gè)被正確的預(yù)測為“Y”,有3個(gè)錯(cuò)誤的預(yù)測成了“N”。原本是“NO”的實(shí)例有0個(gè)被正確的預(yù)測成為“Y”,有9個(gè)正確的預(yù)測成了“N”。“14+3+0+9=26”是實(shí)例的總數(shù),而(14+9)/ 26=0.884615正好是正確分類的實(shí)例所占比例。這個(gè)矩陣對(duì)角線上的數(shù)字越大,說明預(yù)測得越好。(2)K最近鄰分類算法用“Explorer”打開數(shù)據(jù)“data02.arff”,然后切換到“Classify”。點(diǎn)擊“Choose”,選擇算法“l(fā)azy-IBk”,再在“T
7、est options”選擇“Cross-validation(Flods=10)”,點(diǎn)擊“Start”,開始運(yùn)行。訓(xùn)練結(jié)果:系統(tǒng)默認(rèn)(mrn)lazy-IBk K最近鄰分類算法中KNN=1,得到如下結(jié)果= Summary =Correctly Classified Instances 20 76.9231 %Incorrectly Classified Instances 6 23.0769 %Kappa statistic 0.4902Mean absolute error 0.252 Root mean squared error 0.4626Relative absolute erro
8、r 54.9136 %Root relative squared error 96.694 %Total Number of Instances 26 = Detailed Accuracy By Class = TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.824 0.333 0.824 0.824 0.824 0.768 N 0.667 0.176 0.667 0.667 0.667 0.768 YWeighted Avg. 0.769 0.279 0.769 0.769 0.769 0.768= Confusion
9、 Matrix = a b - classified as 14 3 | a = N 3 6 | b = Y使用不同(b tn)的參數(shù)準(zhǔn)確率比較:KNN1234Correctly Classified Instances20(76.9231 %)19(73.0769%)23(88.4615 %)20(76.9231 %)由上表(shn bio),可知KNN為3時(shí),準(zhǔn)確率最高。根據(jù)測試(csh)數(shù)集,利用準(zhǔn)確率最高的模型得到的結(jié)果:分析(fnx)說明:在用lazy-Ibk(KNN=3)對(duì)數(shù)據(jù)集進(jìn)行分類時(shí)采用了10折交叉驗(yàn)證(ynzhng)(Folds=10)來選擇和評(píng)估模型,其中屬性值有兩個(gè)Y,
10、N。一部分結(jié)果如下:= Summary =Correctly Classified Instances 23 88.4615 %Incorrectly Classified Instances 3 11.5385 %= Confusion Matrix = a b - classified as 16 1 | a = N 2 7 | b = Y這個(gè)矩陣是說,原來(yunli)是“Y”的實(shí)例,有16個(gè)被正確(zhngqu)的預(yù)測為“Y”,有1個(gè)錯(cuò)誤的預(yù)測成了“N”。原本是“NO”的實(shí)例有2個(gè)被正確的預(yù)測成為“Y”,有9個(gè)正確的預(yù)測成了“7”?!?6+1+2+7=26”是實(shí)例的總數(shù),而(16+7)
11、/ 26=0.884615正好是正確分類的實(shí)例所占比例。二、對(duì)“data01” 進(jìn)行聚類分析1.數(shù)據(jù)格式的轉(zhuǎn)換(1)打開“data01.xls” 另存為CSV類型,得到“data01.csv”。 (2)在WEKA中提供了一個(gè)“Arff Viewer”模塊,打開一個(gè)“data01.csv”進(jìn)行瀏覽,然后另存為ARFF文件,得到“data01.arff”。 2.聚類過程用“Explorer”打開數(shù)據(jù)“data01.arff”,然后切換到“Cluster”。點(diǎn)擊“Choose”,選擇算法“SimpleKMeans(numClusters=6,seed=200),再在“Test options”選擇“
12、Use training set”,點(diǎn)擊“Start”,開始運(yùn)行。訓(xùn)練結(jié)果:采用(ciyng)simpleKMeans算法,其中numClusters=6,seed=100,得到(d do)如下結(jié)果:Number of iterations: 3Within cluster sum of squared errors: 6.065322314450069(平方(pngfng)誤差之和)Clustered InstancesClustered Instances0 4 ( 15%)1 3 ( 12%)2 4 ( 15%)3 3 ( 12%)4 2 ( 8%)5 10 ( 38%)(各類的包含的實(shí)
13、例個(gè)數(shù)以及占總實(shí)例的百分比)說明(shumng):其中(qzhng)當(dāng)seed的取值越大,平方(pngfng)誤差之和越小。在這次實(shí)驗(yàn)(shyn)seed=100,得到:Within cluster sum of squared errors: 6.065322314450069.這是評(píng)價(jià)聚類好壞的標(biāo)準(zhǔn),數(shù)值越小說明同一簇實(shí)例之間的距離就越小。接下來“Cluster centroids”:列出了各個(gè)簇中心的位置:Attribute Full Data 0 1 2 3 4 5 (26) (4) (3) (4) (3) (2) (10)=sample 13.5 22.5 4.6667 20.5 1
14、4.6667 4.5 11.2old-year 48.0769 65.75 59.3333 50.5 25 56.5 41.9VEGF 1.9231 2.75 2.3333 2 2.6667 3 1MVC 102.1538 126.45 100.6667 127.4 88.2667 104 86.58cancer-grade 2.5769 3.75 2 3 3.3333 3.5 1.7cancer-stage 2.1538 3.25 1.3333 3 2.3333 3.5 1.3cancer metastasis N Y N N Y Y N最后“Clustered Instances”列出了各個(gè)簇中實(shí)例的數(shù)目及百分比:Clustered Instances0 4 ( 15%)1 3 ( 12%)2 4 ( 15%)3 3 ( 12%)4 2 ( 8%)5 10 ( 38%)(各類的包含的實(shí)例個(gè)數(shù)以及占總實(shí)例的百分比)三、根據(jù)提供的“data02”進(jìn)行關(guān)聯(lián)分析由于程序和系統(tǒng)故障,所以不能正確的進(jìn)行關(guān)聯(lián)分析 5.實(shí)驗(yàn)(shyn)總結(jié)本次實(shí)驗(yàn)進(jìn)行比較順利,使我對(duì)如何在Weka中進(jìn)行分類分析有了更深刻的了解,對(duì)Weka中進(jìn)行分類分析
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年體育經(jīng)紀(jì)人考試復(fù)習(xí)法
- 裂解爐生產(chǎn)線項(xiàng)目可行性研究報(bào)告(范文)
- 建筑廢棄物分類消納項(xiàng)目可行性研究報(bào)告(參考模板)
- 2024年模具設(shè)計(jì)師資格考試項(xiàng)目分析試題及答案
- 2024年足球裁判員核心價(jià)值題及答案
- 模具設(shè)計(jì)師的實(shí)戰(zhàn)心得試題及答案
- 城區(qū)供水全覆蓋工程項(xiàng)目可行性研究報(bào)告(模板)
- 農(nóng)業(yè)植保員考試模擬考卷獲取與解析試題及答案
- 模具設(shè)計(jì)帶來的商業(yè)價(jià)值試題及答案
- 2024年足球裁判員等級(jí)考試選題及分析試題及答案
- 中建項(xiàng)目目標(biāo)成本測算操作指南
- 新課標(biāo)背景下:如何進(jìn)行大單元整體教學(xué)設(shè)計(jì)
- 現(xiàn)金盤點(diǎn)表完整版
- GB/T 25146-2010工業(yè)設(shè)備化學(xué)清洗質(zhì)量驗(yàn)收規(guī)范
- GB/T 212-2008煤的工業(yè)分析方法
- GB/T 17390-2010潛油電泵拆卸報(bào)告的編寫
- 班主任工作坊活動(dòng)方案
- 中醫(yī)科物理治療登記表
- 國開電大 管理概論 形考任務(wù)一(畫組織結(jié)構(gòu)圖)
- 三自由度并聯(lián)機(jī)器人結(jié)構(gòu)設(shè)計(jì)
- 墨爾本介紹課件
評(píng)論
0/150
提交評(píng)論