S16050488張安元數(shù)據(jù)挖掘工具使用說(shuō)明書(shū)_第1頁(yè)
S16050488張安元數(shù)據(jù)挖掘工具使用說(shuō)明書(shū)_第2頁(yè)
S16050488張安元數(shù)據(jù)挖掘工具使用說(shuō)明書(shū)_第3頁(yè)
S16050488張安元數(shù)據(jù)挖掘工具使用說(shuō)明書(shū)_第4頁(yè)
S16050488張安元數(shù)據(jù)挖掘工具使用說(shuō)明書(shū)_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

姓名張安元姓名張安元學(xué)號(hào):S1600488ChangchunUniversityofScienceandTechnology碩士學(xué)位論文數(shù)據(jù)挖掘工具使用說(shuō)明書(shū)研究生姓名:張安元學(xué)科、專業(yè):計(jì)算機(jī)科學(xué)與技術(shù)二o—七年五月分類號(hào): 密級(jí): UDC: 編號(hào): 數(shù)據(jù)挖掘工具使用說(shuō)明書(shū)學(xué)位授予單位及代碼:長(zhǎng)春理工大學(xué) (10186)學(xué)科專業(yè)名稱及代碼:計(jì)算機(jī)科學(xué)與技術(shù)研究方向:基于表面肌電信號(hào)的上臂康復(fù)系統(tǒng) 申請(qǐng)學(xué)位級(jí)別:指導(dǎo)教師:李奇教授 研究生:張安元論文起止時(shí)間:該軟件是WEKA的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),它的源代碼可通過(guò)http://www.cs.waikato.ac.nz/ml/weka得到。Weka作為一個(gè)公開(kāi)的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。如果想自己實(shí)現(xiàn)數(shù)據(jù)挖掘算法的話,可以看一看Weka的接口文檔。在Weka中集成自己的算法甚至借鑒它的方法自己實(shí)現(xiàn)可視化工具并不是件很困難的事情。關(guān)鍵詞:WEKA數(shù)據(jù)挖掘分類回歸聚類L J9^snI0£'ZT9 (聯(lián)妊菜&)^JisseiozTT£ (儲(chǔ)解逾沃)owwossvJ7?££ 驅(qū)直酹鼾瞬嫌李看血溝乙?£Z £?「£z 3?「£Z 親翩IITI 團(tuán)昨「£I 師刪麻?£I 修目呻M7i ¥製昭叫1W目lovaisav盜M1.Weka簡(jiǎn)介該軟件是WEKA的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),它的源代碼可通過(guò)http://www.cs.waikato.ac.nz/ml/weka得到。Weka作為一個(gè)公開(kāi)的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。如果想自己實(shí)現(xiàn)數(shù)據(jù)挖掘算法的話,可以看一看Weka的接口文檔。在Weka中集成自己的算法甚至借鑒它的方法自己實(shí)現(xiàn)可視化工具并不是件很困難的事情。2.Weka啟動(dòng)打開(kāi)Weka主界面后會(huì)出現(xiàn)一個(gè)對(duì)話框,如圖:圖2.1Weka啟動(dòng)對(duì)話框主要使用右方的四個(gè)模塊,說(shuō)明如下:Explorer:使用Weka探索數(shù)據(jù)的環(huán)境,包括獲取關(guān)聯(lián)項(xiàng),分類預(yù)測(cè),聚簇等;Experimenter:運(yùn)行算法試驗(yàn)、管理算法方案之間的統(tǒng)計(jì)檢驗(yàn)的環(huán)境;KnowledgeFlow:這個(gè)環(huán)境本質(zhì)上和Explorer所支持的功能是一樣的,但是它有一個(gè)可以拖放的界面。它有一個(gè)優(yōu)勢(shì),就是支持增量學(xué)習(xí);SimpleCLI:提供了一個(gè)簡(jiǎn)單的命令行界面,從而可以在沒(méi)有自帶命令行的操作系統(tǒng)中直接執(zhí)行Weka命令(某些情況下使用命令行功能更好一些)。3.主要操作說(shuō)明點(diǎn)擊進(jìn)入Explorer模塊開(kāi)始數(shù)據(jù)探索環(huán)境。3.1主界面進(jìn)入Explorer模式后的主界面如下:圖2.2Weka主界面3.1.1標(biāo)簽欄主界面最左上角(標(biāo)題欄下方)的是標(biāo)簽欄,分為五個(gè)部分,功能依次是:Preprocess(數(shù)據(jù)預(yù)處理):選擇和修改要處理的數(shù)據(jù);Classfy(分類):訓(xùn)練和測(cè)試關(guān)于分類或回歸的學(xué)習(xí)方案;Cluster(聚類):從數(shù)據(jù)中學(xué)習(xí)聚類;Associate(關(guān)聯(lián)):從數(shù)據(jù)中學(xué)習(xí)關(guān)聯(lián)規(guī)則;Selectattributes(屬性選擇):選擇數(shù)據(jù)中最相關(guān)的屬性;Visualize(可視化):查看數(shù)據(jù)的交互式二維圖像。3.1.2載入、編輯數(shù)據(jù)標(biāo)簽欄下方是載入數(shù)據(jù)欄,功能如下:Openfile:打開(kāi)一個(gè)對(duì)話框,允許你瀏覽本地文件系統(tǒng)上的數(shù)據(jù)文件(.dat);OpenURL:請(qǐng)求一個(gè)存有數(shù)據(jù)的URL地址;OpenDB:從數(shù)據(jù)庫(kù)中讀取數(shù)據(jù);Generate:從一些數(shù)據(jù)生成器中生成人造數(shù)據(jù)。3.1.3其他界面說(shuō)明接下來(lái)的主界面中依次是Filter(篩選器),Currtentrelation(當(dāng)前關(guān)系)、Attributes(屬性信息)、Selectedattribute(選中的屬性信息)以及Class(類信息),分別介紹如下:Filter在預(yù)處理階段,可以定義篩選器來(lái)以各種方式對(duì)數(shù)據(jù)進(jìn)行變換。Filter一欄用于對(duì)各種篩選器進(jìn)行必要設(shè)置。Filter一欄的左邊是一個(gè)Choose按鈕。點(diǎn)擊這個(gè)按鈕就可選擇Weka中的某個(gè)篩選器。用鼠標(biāo)左鍵點(diǎn)擊這個(gè)choose左邊的顯示框,將出現(xiàn)GenericObjectEditor對(duì)話框。用鼠標(biāo)右鍵點(diǎn)擊將出現(xiàn)一個(gè)菜單,你可從中選擇,要么在GenericObjectEditor對(duì)話框中顯示相關(guān)屬性,要么將當(dāng)前的設(shè)置字符復(fù)制到剪貼板。Currtentrelation顯示當(dāng)前打開(kāi)的數(shù)據(jù)文件的基本信息:Relation(關(guān)系名)‘Instances(實(shí)例數(shù))以及Attributes(屬性個(gè)數(shù))。Attributes顯示數(shù)據(jù)文件中的屬性信息,并且包含四個(gè)操作按鍵:All Hone Invert Pattern圖3.1操作按鍵All:所有選擇框都被勾選;None:所有選擇框被取消;Invert:已勾選的選擇框都被取消,反之亦然;Pattern:讓用戶基于Perl5正則表達(dá)式來(lái)選擇屬性。例如,用*_id選擇所有名稱以_id結(jié)束的屬性。底下顯示的就是數(shù)據(jù)文件包含的屬性,可以進(jìn)行勾選等操作。特別地,當(dāng)數(shù)據(jù)預(yù)處理是不要某個(gè)屬性時(shí),將其各選,點(diǎn)擊列表正下方的Remove按鍵即可刪除這一屬性:圖3.2Remove按鍵Selectedattribute顯示勾選的屬性的基本信息。Class顯示屬性中數(shù)據(jù)元組的直方圖。點(diǎn)擊Visualizeall按鍵可以查看所有屬性中元組的直方圖。3.2實(shí)現(xiàn)基本數(shù)據(jù)挖掘功能:3.2.1Associate(關(guān)聯(lián)規(guī)則)注意:目前,Weka的關(guān)聯(lián)規(guī)則分析功能僅能用來(lái)作示范,不適合用來(lái)挖掘大型數(shù)據(jù)集。各部分功能說(shuō)明如下:Associator切換到Associate選項(xiàng)卡。單擊choose按鍵,可以選擇關(guān)聯(lián)規(guī)則算法,系統(tǒng)默認(rèn)關(guān)聯(lián)規(guī)則分析算法是Apriori算法。

圖3.3關(guān)聯(lián)界面選擇關(guān)聯(lián)規(guī)則算法后,點(diǎn)Choose右邊的文本框修改默認(rèn)的參數(shù),彈出的窗口中點(diǎn)More可以看到各參數(shù)的說(shuō)明。一下簡(jiǎn)列幾項(xiàng):upperBoundMinSupport:最小支持度上限r(nóng)emoveAllMissingCols:移除具有遺失值的列l(wèi)owerBoundMinSupport:最小支持度下限outputItemSets:如果有可能也輸出項(xiàng)集significanceLevel:顯著性水平classindex:確定分類屬性,如果設(shè)為-1,則最后一個(gè)屬性為分類屬性treatZeroAsMissing:將遺失值全部置為0numRules:在某種關(guān)聯(lián)規(guī)則下取出的滿足條件的規(guī)則數(shù);metricType:關(guān)聯(lián)、程度指標(biāo);

圖3.4參數(shù)設(shè)置注意:各種關(guān)聯(lián)規(guī)則算法都是尤其使用范圍的,并不是所有的屬性的數(shù)據(jù)類型都能被某一算法處理,典型的例如Apriori算法。因此可以在choose下拉菜單中選擇Filter選項(xiàng),在其中勾選待處理數(shù)據(jù)的屬性的類型以濾除無(wú)法使用的算法。要想知道每種算法都是用哪些數(shù)據(jù)類型,可以左擊choose旁邊的文本框,在彈出的菜單欄中單擊capabilities選項(xiàng)可以看到這種算法能夠處理的數(shù)據(jù)類型。Resultlist點(diǎn)擊Associator下方的start按鍵可以開(kāi)始進(jìn)行關(guān)聯(lián)項(xiàng)分析,結(jié)果列表即出現(xiàn)在Resultlist中,右擊出現(xiàn)更多選項(xiàng)可供選擇。Associatoroutput這里顯示關(guān)聯(lián)分析結(jié)果,如圖為一個(gè)例子:

圖3.5關(guān)聯(lián)分析樣例一次顯示了10個(gè)符合條件的關(guān)聯(lián)規(guī)則,并且在其后顯示了關(guān)聯(lián)規(guī)則的四項(xiàng)指標(biāo)以供參考。3.2.2Classify(分類預(yù)測(cè))該部分實(shí)現(xiàn)數(shù)據(jù)挖掘中的分類與預(yù)測(cè)功能,提供了各種主要的分類預(yù)測(cè)算法供使用者選擇。下面是界面各部分的介紹:Classifier在choose一欄中選擇需要的分類算法,同樣地方法,每當(dāng)選擇一個(gè)算法,這個(gè)算法便在choose左邊的文本框中進(jìn)行顯示,單擊他會(huì)出現(xiàn)一個(gè)菜單,其中包含了一些參數(shù)的設(shè)定和more以及capabilities選項(xiàng),欠著用來(lái)獲取那些需要設(shè)定參數(shù)的具體信息,后者用來(lái)獲取算法適合的屬性數(shù)據(jù)類型,這一點(diǎn)是相似的,因此在對(duì)數(shù)據(jù)進(jìn)行處理是也應(yīng)該注意數(shù)據(jù)的屬性類型,單擊choose在下拉菜單中選擇Filter按鍵可以進(jìn)行數(shù)據(jù)類型的選擇從而過(guò)濾掉不能使用的算法。。Testoption提供四種測(cè)試模式:Usingtrainingset?根據(jù)分類器在用來(lái)訓(xùn)練的實(shí)例上的預(yù)測(cè)效果來(lái)評(píng)價(jià)它。Suppliedtestset.從文件載入的一組實(shí)例,根據(jù)分類器在這組實(shí)例上的預(yù)測(cè)效果來(lái)評(píng)價(jià)它。點(diǎn)擊Set…按鈕將打開(kāi)一個(gè)對(duì)話框來(lái)選擇用來(lái)測(cè)試的文件。Cross-validation.使用交叉驗(yàn)證來(lái)評(píng)價(jià)分類器,所用的折數(shù)填在Folds文本框中。Percentagesplit?從數(shù)據(jù)集中按一定百分比取出部分?jǐn)?shù)據(jù)放在一邊作測(cè)試用,根據(jù)分類器這些實(shí)例上預(yù)測(cè)效果來(lái)評(píng)價(jià)它。取出的數(shù)據(jù)量由%一欄中的值決定。當(dāng)一切準(zhǔn)備就緒時(shí),點(diǎn)擊start按鍵開(kāi)始分類過(guò)程,完成后Resultlist中會(huì)顯示結(jié)果列表,并且Classifieroutput中會(huì)顯示出結(jié)果。右擊Resultlist中的結(jié)果,可以看見(jiàn)多個(gè)選項(xiàng),選擇Visualizetree,新窗口里可以看到圖形模式的決策樹(shù)。建議把這個(gè)新窗口最大化,然后點(diǎn)右鍵,選“Fittoscreen”,可以把這個(gè)樹(shù)看清楚些。先運(yùn)行一個(gè)結(jié)果解釋其中一些內(nèi)容,如圖所示:CorrectlyClassifiedInstances20668.€667;IncorrectlyClassifiedInstances9431.3333Kappastatistic0.3576Meanabsoluteerror0.379RootmeansquaredError0.4S1CRelativeabsoluteerror75.2791%RootrelativesquarederrDr9^.€145%IotalNumber□三Instances300===DetailedAccuracyByC;lass===IFRate FFRatePrecisionReciallF-Mteia3ureROCArea€153330.536 0.1550.7120.5360.6120.663YES0.S15 0.4€4O.fi730.8150?7370.683NOWeightedAvg. 0.€87 0.3360.591O.€870.680.663ConfusionMiatrixab<--classifiedas74 64Ia=YES30132Ib=NO第一行的CorrectlyClassifiedInstances表示當(dāng)前參與分類的實(shí)例中被正確分類的實(shí)例數(shù)目,第二行IncorrectlyClassifiedInstances表示未被正確分類的實(shí)例數(shù)目。===ConzuaionMatrix===ab <--clasaifiedas74 €4|a=YES30132Ib=NG關(guān)于ConfusionMatrix,解釋如下:原本“pep”是“YES”的實(shí)例,有74個(gè)被正確的預(yù)測(cè)為“YES”,有64個(gè)錯(cuò)誤的預(yù)測(cè)成了“NO”;原本“pep”是“NO”的實(shí)例,有30個(gè)被錯(cuò)誤的預(yù)測(cè)為“YES”,有132個(gè)正確的預(yù)測(cè)成了“NO”。74+64+30+132=300是實(shí)例總數(shù),而(74+132)/300=0.68667正好是正確分類的實(shí)例所占比例。這個(gè)矩陣對(duì)角線上的數(shù)字越大,說(shuō)明預(yù)測(cè)得越好。更多選項(xiàng)及解釋內(nèi)容參見(jiàn):3?2?3Cluster(聚簇分析)聚簇分析的原理就是將為標(biāo)定類的數(shù)據(jù)根據(jù)其相似性分為幾個(gè)類,在同一類中的數(shù)據(jù)元組具有較強(qiáng)的相似性,而

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論