基于C5.0決策樹進行分類預(yù)測_第1頁
基于C5.0決策樹進行分類預(yù)測_第2頁
基于C5.0決策樹進行分類預(yù)測_第3頁
基于C5.0決策樹進行分類預(yù)測_第4頁
基于C5.0決策樹進行分類預(yù)測_第5頁
免費預(yù)覽已結(jié)束,剩余3頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘課程論文基于C5.0決策樹進行分類預(yù)測任課教師姓名所在學(xué)院專業(yè)名稱論文提交日期所在高等院校1、引言隨著高校招生規(guī)模的擴人和信息化程度的提高,社會調(diào)查機構(gòu)以及高校管理機關(guān)搜集了大量數(shù)據(jù),這些數(shù)據(jù)中蘊涵有人量有價值的規(guī)律,挖掘這些規(guī)律并應(yīng)于招生,教育資源的合理利用方面,可促進教育事業(yè)的良好發(fā)展,使其科學(xué)化、合理化、系統(tǒng)化,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于高校等級劃分排名上,可以客觀的評價一所學(xué)校的競爭力,為高校自身提供了改進的參考,為國家對高等教育事業(yè)進行政策制定提供了可靠依據(jù),同時為廣大高考畢業(yè)生填報志愿提供了參考。對高校自身的改革和發(fā)展的培養(yǎng)等方面具有重要的作用和意義。國內(nèi)已有部分研究者以C5.0

2、決策樹為數(shù)據(jù)處理模型面向高校綜合等級排名信息開展了數(shù)據(jù)挖掘工作,應(yīng)用于高等院校評價、高校管理決策、教學(xué)資源決策、畢業(yè)生就業(yè)指導(dǎo)、個性化人才培養(yǎng)等領(lǐng)域,向決策者、高校和同學(xué)提供信息支持,有利于推動學(xué)校資源的優(yōu)化和建設(shè)的全面發(fā)展。本文嘗試將C5.0挖掘技術(shù)應(yīng)用于高校評級,發(fā)現(xiàn)高校各種資源之間的相關(guān)性規(guī)律。以發(fā)現(xiàn)的規(guī)律為依據(jù),分析學(xué)校各種資源配置,提出有針對性的高校評級信息,以提高高校建設(shè)的預(yù)知性,為同學(xué)合理地選擇報考學(xué)校、高校自身性建設(shè)提供了參考依據(jù)。因評級預(yù)測信息具有很強的針對性,簡單地應(yīng)用C5.0挖掘技術(shù)難以解決問題。為此,本文開展了以下工作:提出了一種基于C5.0決策樹的預(yù)測評級模型,以系統(tǒng)

3、地進行評級預(yù)警分析,以現(xiàn)實數(shù)據(jù)為數(shù)據(jù)源,開展實驗研究。驗證所提出的模型和方法的有效性。2.C5.0決策樹算法(1)決策樹是一種類似于流程圖的樹結(jié)構(gòu),其結(jié)構(gòu)是一棵倒置的樹,它主要圍繞生長和剪枝兩大核心問題展開.決策樹獲取的知識用樹的形式表示出來,其中包括分類樹和回歸樹,分類或預(yù)測的結(jié)果均體現(xiàn)在決策樹的葉節(jié)點上.分類樹葉節(jié)點所含樣本中,其輸出變量的眾數(shù)類別就是分類結(jié)果;回歸樹葉節(jié)點所含樣本中,其輸出變量的平均值就是預(yù)測結(jié)果.決策樹直觀易懂且其歸納學(xué)習(xí)和分類步驟簡單快速,并且具有很好的準(zhǔn)確率.(2)C5.0算法最為典型的決策樹學(xué)習(xí)算法是ID3,它采用自頂向下不回溯策略,能保證找到一個簡單的樹.C4.

4、5是改進后的原始決策樹分析ID3算法,而C5.0與C4.5不同之處在于C5.0可以處理多種數(shù)據(jù)類型,包括了日期(date)、時間(times)、時間戳(timestamps)、序列(discreteattributes)等等.除了處理數(shù)據(jù)部分丟失的問題,C5.0還可以將部分屬性標(biāo)記為不適合,以使得分析時仍能保持資料的完整性.C5.0可用來處理數(shù)值型或分類型的資料,它的分類預(yù)測是基于邏輯的,即通過對輸入變量取值的布爾比較實現(xiàn)對輸出變量的分類預(yù)測,在眾多的輸出變量中選擇一個當(dāng)前最佳的分組變量,并從分組變量的眾多取值中找到一個最佳的分割點.且為了清楚的表示分析結(jié)果,可用決策樹(decisiontre

5、es)或是if-then的關(guān)系顯示.C5.0基本算法可以描述如下,設(shè)R是非標(biāo)稱屬性集;C是標(biāo)稱屬性;S是訓(xùn)練集;trees()是決策樹生成的函數(shù):trees(R,C,S)函數(shù)返回值類型為決策樹/*相關(guān)定義*乜|j=1,2,m為屬性D的值;*包|j=1,2,m)為S的子集,分別包含屬性D的不同值d;*/if(S為空)then返回單一失敗節(jié)點;if(R包含的記錄的標(biāo)稱屬性值均相同)then返回具有該標(biāo)稱屬性值的單一節(jié)點;if(R為空)then返回用S的最常見值賦值的單一節(jié)點;/*此時為出錯,記錄沒有被適當(dāng)分類*/在R中找尋具有最大信息增益的屬性D;生成一棵以D為根的樹,分支為d1,d2,,dm;遞

6、歸調(diào)用函數(shù)trees(R-D,C,S);trees(RD,CS);,trees(R-D,C,Sm);)3 .基于C5.0算法的決策樹構(gòu)造3.1 數(shù)據(jù)預(yù)處理本文原始數(shù)據(jù)為2011年全國師范類大學(xué)的綜合各項的測評分?jǐn)?shù),對其綜合資源、成果、學(xué)生情況、教師資源、物資資源進行統(tǒng)計分析,觀察是否有缺失值,觀察后發(fā)現(xiàn)在數(shù)據(jù)中,發(fā)現(xiàn)資源和成果兩項缺失值過多,所以不對著兩項進行處理.將處理后的數(shù)據(jù)記錄到一個EXCE儀件中,作為分析數(shù)據(jù)源.3.2 建立決策樹并分析本文利用這些數(shù)據(jù),來建立綜合、學(xué)生情況、聲譽、教師資源、物資資源和學(xué)校等級的關(guān)系決策樹模型,從而對決策樹模型的建立與挖掘工程進行詳細(xì)的分析.挖掘過程采用

7、SPSSClementine作為工具,在Clementine中建立的挖掘模型,如圖1所示.圖一數(shù)據(jù)挖掘模型由于經(jīng)過決策樹分析的數(shù)據(jù)是歷史數(shù)據(jù),因此,需要檢驗這些決策是否能套用在參加考研的分析中,所以所建立的模型分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),訓(xùn)練數(shù)據(jù)是在產(chǎn)生決策規(guī)則的過程中,用于進行訓(xùn)練決策規(guī)則的數(shù)據(jù),訓(xùn)練錯誤率指的是在決策規(guī)則產(chǎn)生后,將這些訓(xùn)練數(shù)據(jù)放到?jīng)Q策規(guī)則中發(fā)生錯誤的比率(及實際資料的分類與按決策規(guī)則進行分類的結(jié)果不同);測試數(shù)據(jù)是已經(jīng)產(chǎn)生決策規(guī)則后,用來進行測試新決策規(guī)則屬于原本的訓(xùn)練數(shù)據(jù)集,測試錯誤率則是指使用測試數(shù)據(jù)后產(chǎn)生的錯誤比率.這兩種錯誤率將會在決策規(guī)則驗證時作為各種不同分析的比較指

8、標(biāo).在該模型中將訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)分別占50%,則訓(xùn)練樣本個數(shù)大約為40個,測試樣本個數(shù)大約為40個,數(shù)據(jù)分區(qū)如圖2所示:等級的分析目叵區(qū)I3文件二翁輯回Hl3!隊全部折費(C)能全部展開(E)I-輸出手段等儂的結(jié)果各比較$C-等皴與等級;芬區(qū)T_正錯總確諜計3485%3587.6%615%512.5%4040分析注解圖三C5.0挖掘分析結(jié)果4 .基于C5.0算法分析結(jié)果C5.0算法的分析結(jié)果如圖二所示,從圖中可以明顯得出C5.0算法的訓(xùn)練分析錯誤率為15%和測試分析錯誤率為12.5%,算法錯誤率不算高,綜合排名決定了其等級的排名情況。5 .結(jié)束語本文首先分析了數(shù)據(jù)挖掘技術(shù)應(yīng)用于日常生活和教學(xué)質(zhì)量監(jiān)督的必要性,進一步對數(shù)據(jù)挖掘中的決策樹算法C5.0決策樹算法進

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論