




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基于決策樹的高職院校報到率預(yù)測分析
近年來,各類高職院校的辦學(xué)規(guī)模逐年擴大,但高職生的招生率逐年下降。尤其是第二年的專業(yè)高等職業(yè)指導(dǎo)小組。一些大學(xué)的報告率約為50%。報到率下降成為招生主管部門和高職院校面臨的一個新課題。為了科學(xué)、客觀地分析影響高職生報到率因素和預(yù)測報到人數(shù),更好地指導(dǎo)招生工作,本文通過使用近年來新興的數(shù)據(jù)挖掘技術(shù),采用分類分析中的決策樹方法,對某高職院校招生數(shù)據(jù)庫中的數(shù)據(jù)實施了數(shù)據(jù)挖掘。從中發(fā)現(xiàn)了潛在的模式,總結(jié)知識,并結(jié)合該學(xué)院的實際,為學(xué)院的招生和發(fā)展提出了建設(shè)性意見,為管理者決策提供了理論依據(jù)。一、決策樹分類與算法分析(一)分類器數(shù)據(jù)庫分類是一個從現(xiàn)有的帶有類別的數(shù)據(jù)集中尋找同一類別數(shù)據(jù)的共同特性,并以此將它們進行區(qū)分的過程。分類的目的是提出一個分類函數(shù)或分類模型(也稱作分類器),該模型能把數(shù)據(jù)庫中數(shù)據(jù)項映射到給定類別中的某一個。分類也可用于預(yù)測,預(yù)測的目的是從歷史數(shù)據(jù)記錄中自動推導(dǎo)出給定數(shù)據(jù)的推廣描述,從而能對未來數(shù)據(jù)進行預(yù)測。分類器的典型構(gòu)造方法有決策樹、貝葉斯分類,神經(jīng)網(wǎng)絡(luò)、近鄰學(xué)習(xí)或基于事例的學(xué)習(xí)等。決策樹具有直觀、清晰、易被用戶理解的特點,同時,決策樹具有容易生成規(guī)則、算法可伸縮性強等優(yōu)點。決策樹既具有分類功能,又具有預(yù)測的功能,它的可解釋性很強,很適合特征描述。所以本文采用了決策樹方法進行分類和預(yù)測。(二)決策樹的一般算法1.最高信息增益的計算ID3算法是在決策樹的每個節(jié)點上使用信息增益度量選擇測試屬性。這種度量稱作屬性選擇度量或分裂的優(yōu)良性度量。選擇具有最高信息增益(最大熵壓縮)的屬性作為當(dāng)前節(jié)點的測試屬性。該屬性使得對結(jié)果劃分中的樣本分類所需的信息量最小,并反映劃分的最小隨機性或“不純性”。這種信息理論方法使得對一個對象分類所需的期望測試數(shù)目達到最小,并確保找到一棵簡單的樹。設(shè)S是s個數(shù)據(jù)樣本的集合。假定類標號屬性具有m個不同值,定義m個不同類Ci(i=1,…,m)。設(shè)si是類Ci中的樣本數(shù)。對一個給定的樣本分類所需的期望信息由下式給出:Ι(s1,s2,?,sm)=-m∑i=1pilog2(pi)I(s1,s2,?,sm)=?∑i=1mpilog2(pi)(式1)其中pi是任意樣本屬于Ci的概率,并用si/s估計。注意,對數(shù)函數(shù)以2為底,因為信息用二進位編碼。設(shè)屬性A具有v個不同值{a1,a2,…,av}??梢杂脤傩訟將S劃分為v個子集{S1,S2,…,Sv};其中,Sj包含S中這樣一些樣本,它們在A具有值aj。如果A選作測試屬性(即最好的分裂屬性),則這些子集對應(yīng)于由包含集合S的節(jié)點生長出來的分枝。設(shè)sij是子集Sj中類Ci的樣本數(shù)。根據(jù)由A劃分成子集的熵(entropy)或期望信息由下式給出:E(A)=v∑i=1S1j+?+SmjsΙ(s1j,?,SmjE(A)=∑i=1vS1j+?+SmjsI(s1j,?,Smj(式2)項S1j+?+SmjsS1j+?+Smjs充當(dāng)?shù)趈個子集的權(quán),并且等于子集(即A值為aj)中的樣本個數(shù)除以S中的樣本總數(shù)。熵值越小,子集劃分的純度越高。注意,對于給定的子集Sj,Ι(s1,s2,?,smj)=-m∑i=1pijlog2(pi)I(s1,s2,?,smj)=?∑i=1mpijlog2(pi)(式3)其中,Ρij=Sij|Sj|Pij=Sij|Sj|是Sj中的樣本屬于類Ci的概率。在A上分枝將獲得的編碼信息是Cain(A)=I(S1,S2,…,Sm)-E(A)(式4)換言之,Gain(A)是由于知道屬性A的值而導(dǎo)致的熵的期望壓縮。算法計算每個屬性的信息增益。具有最高信息增益的屬性選作給定集合S的測試屬性。創(chuàng)建一個節(jié)點,并以該屬性標記,對屬性的每個值創(chuàng)建分枝,并據(jù)此劃分樣本。2.基于litia的b.0C4.5算法是從ID3算法演變而來,除了擁有ID3算法的功能外,C4.5算法引入了信息增益比例的概念,使用信息增益比例作為屬性分裂度量。一個屬性的增益比例用下面的公式給出:GainRatio(A)=Gain(A)SplitΙ(A)(式5)其中SplitΙ(A)=-v∑j=1Ρjlog2(Ρj)(式6)這里設(shè)屬性A具有v個不同值{a1,a2,…,av}??梢杂脤傩訟將S劃分為v個子集{S1,S2,…,Sv},其中Sj包含S中這樣一些樣本:它們A上具有值aj。假如我們以屬性A的值為基準對樣本進行分割,SplitI(A)就是前面提到的熵的概念。C5.0是C4.5的一個商業(yè)版本,它現(xiàn)在已被廣泛應(yīng)用于許多數(shù)據(jù)挖掘軟件包中,例如Clementine和RuleQuest。C5.0主要針對大數(shù)據(jù)集的分類。C5.0中的決策樹歸納與C4.5中的很相似,但規(guī)則生成不同。與C4.5不同,C5.0使用的精確算法并沒有被公開。C5.0包括了生成規(guī)則方面的改進。測試結(jié)果表明,C5.0在內(nèi)存占用方面的性能提高了大約90%,在運行方面要比C4.5快5.7~240倍,并且生成的規(guī)則更加準確。二、決策樹對高級職業(yè)學(xué)生報告率的分析與規(guī)劃(一)建立分類模型及過程模型一般來說,影響高職學(xué)生報到率的因素應(yīng)該是多方面的。研究哪些學(xué)生即將報到時,將其定位為一個分類問題,即將學(xué)生分為報到和不報到兩類。選擇適量的歷史上報到學(xué)生和未報到學(xué)生的屬性數(shù)據(jù)組成訓(xùn)練數(shù)據(jù)集,利用決策樹分類建立學(xué)生報到的分類模型。數(shù)據(jù)挖掘同時會給出分類結(jié)果的概率值,這個值可以看作是學(xué)生的報到概率。用建立的分類模型可以對將來新生進行報到率預(yù)測,并給出報到概率。以上的問題可以設(shè)計合適的數(shù)據(jù)挖掘流程加以解決。結(jié)合數(shù)據(jù)挖掘中UsamaM.Fayyad提出的多階段處理通用模型和CRISP-DM標準的過程模型。報到率問題的數(shù)據(jù)挖掘過程擬將兩種數(shù)據(jù)挖掘模型結(jié)合起來,設(shè)計數(shù)據(jù)挖掘過程為:確定業(yè)務(wù)對象、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、模式評價和知識應(yīng)用。(二)報告績效體系的實現(xiàn)過程1.建立模型及預(yù)測人數(shù)本文采用決策樹方法,針對高職學(xué)生的報到情況(報到或不報到)進行分類分析,建立基于報到率的決策樹分類模型,根據(jù)決策樹模型生成規(guī)則集,并使用決策樹模型預(yù)測新生報到率,從而預(yù)測報到人數(shù)。2.學(xué)生導(dǎo)向的數(shù)據(jù)庫形式本文論及的數(shù)據(jù)挖掘,其數(shù)據(jù)來源于某高職第二批錄取學(xué)院的招生數(shù)據(jù),原始數(shù)據(jù)以MicrosoftVisualFoxPro6.0(以下簡稱為VFP6.0)支持的數(shù)據(jù)庫形式存在。該高職學(xué)院的學(xué)生錄取檔案數(shù)據(jù)庫中,共有八十多個屬性。特意聘請領(lǐng)域?qū)<?學(xué)院招生辦公室主任)參與屬性選擇,選取與數(shù)據(jù)挖掘任務(wù)具有一定相關(guān)性的屬性,見表1:原始數(shù)據(jù)需要經(jīng)過轉(zhuǎn)換和離散化處理才能生成適合數(shù)據(jù)挖掘的數(shù)據(jù)挖掘庫。3.基于流圖的分析預(yù)測模型該步驟使用數(shù)據(jù)挖掘領(lǐng)域知名公司SPSS開發(fā)的商業(yè)版數(shù)據(jù)挖掘系統(tǒng)Clementine8.1中的C5.0算法,生成分析預(yù)測模型。該數(shù)據(jù)流圖是由不同的節(jié)點組成的,其中2004tdb節(jié)點用于設(shè)置VFP6.0數(shù)據(jù)源,選取2004tdb表作為數(shù)據(jù)挖據(jù)庫,Filter節(jié)點用于過濾與數(shù)據(jù)挖掘任務(wù)無關(guān)屬性,Type節(jié)點用于設(shè)置數(shù)據(jù)挖掘中的輸入變量和輸出變量,報到率節(jié)點是數(shù)據(jù)挖據(jù)結(jié)果節(jié)點。關(guān)鍵節(jié)點是C5.0模型節(jié)點,C5.0節(jié)點生成的模型見圖1。4.投檔成績高于高職高專若干學(xué)科考生的報到率對高職生報到率分析與預(yù)測使用的分類模型,結(jié)果被解釋為分類模式,該模式可使用以下規(guī)則加以描述:(1)報考該學(xué)院的考生總體報到率為63.93%。(2)如果投檔成績低于高職高專一批錄取分數(shù)線的考生報考了該學(xué)院,那么報到率為66.19%。(3)如果投檔成績高于高職高專一批錄取分數(shù)線的考生報考了該學(xué)院,那么報到率為40.00%。(4)如果投檔成績低于高職高專一批錄取分數(shù)線的文科考生報考了該學(xué)院,那么報到率為70.49%。(5)如果投檔成績低于高職高專一批錄取分數(shù)線的理科考生報考了該學(xué)院,那么報到率為54.39%。(6)如果對口考生報考了該學(xué)院,那么學(xué)生報到率為84.50%。(7)如果投檔成績低于高職高專一批錄取分數(shù)線的理科考生第一志愿報考了該學(xué)院,那么報到率為59.92%。(8)如果投檔成績低于高職高專一批錄取分數(shù)線的理科考生第二志愿報考了該學(xué)院,那么報到率為54.41%。(9)如果投檔成績低于高職高專一批錄取分數(shù)線的理科考生第三志愿報考了該學(xué)院,那么報到率為36.25%。5.考生對學(xué)院的影響領(lǐng)域?qū)<腋鶕?jù)數(shù)據(jù)挖掘發(fā)現(xiàn)的模式,結(jié)合本學(xué)院的實際情況,同時聽取了部分未報到學(xué)生的意見反饋,對該招生工作中的報到率進行了深層分析:(1)該學(xué)院的整體報到率在同類學(xué)院中一直偏低,原因包括學(xué)院在內(nèi)部管理(學(xué)生管理和教學(xué)管理)方面和學(xué)習(xí)風(fēng)氣方面還存在不少問題,部分學(xué)生對此不滿;學(xué)院專業(yè)設(shè)置一般,無特色專業(yè);學(xué)院的招生宣傳力度不夠,特別是在媒體宣傳方面。(2)對口升學(xué)的報到率較高,其原因是對口生選擇面窄,且不能復(fù)讀。(3)投檔成績高于高職高專一批錄取分數(shù)線的考生報到率低,其原因是這部分考生多選擇復(fù)讀,準備來年直接
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 財務(wù)科的工作計劃(10篇)
- 水廠反沖洗排泥水處理方案探索與優(yōu)化分析
- 老年人閱讀服務(wù)優(yōu)化方案
- 高等職業(yè)教育辦學(xué)能力提升路徑與實施方案
- 2025至2030年中國耐油橡膠墊行業(yè)投資前景及策略咨詢報告
- 2025至2030年中國網(wǎng)上訂房系統(tǒng)行業(yè)投資前景及策略咨詢報告
- 2025至2030年中國絕緣穿刺線夾市場現(xiàn)狀分析及前景預(yù)測報告
- 廣東榕泰關(guān)聯(lián)方交易審計風(fēng)險研究
- 面向大型供應(yīng)鏈企業(yè)數(shù)據(jù)治理的可視分析技術(shù)研究及應(yīng)用
- 2025至2030年中國硅質(zhì)隔熱磚數(shù)據(jù)監(jiān)測研究報告
- 中職數(shù)學(xué)基礎(chǔ)模塊下冊8-1隨機事件教案
- 汽車行業(yè)系列深度五:復(fù)刻手機高端之路 華為賦能智電未來
- 物理因子治療技術(shù)-光療法
- 垃圾填埋場運營合同范本
- CJT 289-2008 城鎮(zhèn)污水處理廠污泥處置 制磚用泥質(zhì)
- 2024年四川省眉山市中考地理+生物試卷(含答案)
- 當(dāng)代世界經(jīng)濟與政治 李景治 第八版 課件 第1、2章 當(dāng)代世界政治、當(dāng)代世界經(jīng)濟
- 籃球智慧樹知到期末考試答案章節(jié)答案2024年浙江大學(xué)
- 《歸去來兮辭(并序)》課件
- 臨床生物化學(xué)檢驗練習(xí)題庫(含答案)
- 袁家村鄉(xiāng)村旅游運營模式簡析講解講解
評論
0/150
提交評論