數(shù)據(jù)挖掘技術(shù)在電大教務(wù)管理中的應(yīng)用_第1頁
數(shù)據(jù)挖掘技術(shù)在電大教務(wù)管理中的應(yīng)用_第2頁
數(shù)據(jù)挖掘技術(shù)在電大教務(wù)管理中的應(yīng)用_第3頁
數(shù)據(jù)挖掘技術(shù)在電大教務(wù)管理中的應(yīng)用_第4頁
數(shù)據(jù)挖掘技術(shù)在電大教務(wù)管理中的應(yīng)用_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 數(shù)據(jù)挖掘技術(shù)在電大教務(wù)管理中的應(yīng)用【摘要】本文在研究數(shù)據(jù)挖掘基本理論與技術(shù)的基礎(chǔ)上,探討數(shù)據(jù)挖掘技術(shù)在電大教務(wù)管理中的應(yīng)用。從教務(wù)管理數(shù)據(jù)倉庫中挖掘出隱藏在海量數(shù)據(jù)中潛在的關(guān)聯(lián)規(guī)則,可以獲取影響學(xué)生能在最短年限內(nèi)畢業(yè)的潛在因素與信息,將研究結(jié)果用于指導(dǎo)教學(xué)、開展有針對性的教學(xué)安排與教學(xué)組織,對學(xué)校的教學(xué)管理工作提出建議?!娟P(guān)鍵詞】數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;apriori算法;教務(wù)管理引言隨著“中央電大人才培養(yǎng)模式改革和開放教育試點”已經(jīng)通過教育部的總結(jié)性評估,現(xiàn)代遠程開放教育成為電大辦學(xué)的常規(guī)形式,這表明電大教育進入新的發(fā)展階段。開放教育事業(yè)的飛速發(fā)展,學(xué)生注冊人數(shù)不斷增加,畢業(yè)生的數(shù)據(jù)也在持續(xù)遞

2、漲1。由于電大主要面向成人教育,具有遠程教育特征、采用多種媒體教學(xué)、共享優(yōu)秀教育資源、開放的學(xué)習(xí)模式、學(xué)籍年限長等特點。一方面學(xué)生們學(xué)習(xí)目的明確,學(xué)習(xí)主動性很高,他們都希望學(xué)到知識的同時能在教育部規(guī)定的最短年限內(nèi)獲取畢業(yè)證書;另一方面作為學(xué)校,也希望在保證教學(xué)質(zhì)量的同時,提高學(xué)生首次畢業(yè)通過率。但如何才能在最短年限內(nèi)取得證書?這已成為制約學(xué)校招生、教學(xué)管理發(fā)展的棘手問題。本文希望通過數(shù)據(jù)挖掘技術(shù)能在大量的教務(wù)管理系統(tǒng)數(shù)據(jù)中,發(fā)現(xiàn)潛在規(guī)律,找出隱含的模式,找出制約的原因,為學(xué)校的管理決策提供有力的數(shù)據(jù)支持和依據(jù),提高管理水平和辦學(xué)質(zhì)量。 數(shù)據(jù)挖掘的基本理論.1數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘就是技術(shù)地

3、從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取人們感興趣的信息和知識,這些知識或信息在被提取之前是是隱含的,事先未知而潛在有用的,被提取的知識表示為概念、規(guī)則、規(guī)律、模式等形式。.2數(shù)據(jù)挖掘的對象原則上講,數(shù)據(jù)挖掘可以在任何類型的信息存儲上進行,包括關(guān)系數(shù)據(jù)庫、事務(wù)數(shù)據(jù)庫、數(shù)據(jù)倉庫、高級數(shù)據(jù)庫系統(tǒng)和面向特殊應(yīng)用的數(shù)據(jù)庫系統(tǒng)(面向?qū)ο髷?shù)據(jù)庫、對象-關(guān)系數(shù)據(jù)庫、空間數(shù)據(jù)庫、時間數(shù)據(jù)庫、時間序列數(shù)據(jù)庫、文本數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、www等)234。.3數(shù)據(jù)挖掘的過程數(shù)據(jù)庫中的知識挖掘是一個多步驟的處理過程, 數(shù)據(jù)挖掘的基本過程和主要步驟如圖所示。圖1數(shù)據(jù)挖掘的基本過程和主要步驟.4數(shù)據(jù)挖掘的方法和算法常用的數(shù)據(jù)挖掘方法

4、有關(guān)聯(lián)分析、序列模式分析、分類分析、聚類分析、預(yù)測分析、回歸分析;而常用的數(shù)據(jù)挖掘算法有人工神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、最臨近技術(shù)、規(guī)則歸納、可視化技術(shù)等。數(shù)據(jù)挖掘不是一個單向的過程,對同一個問題,可有多種不同的算法。不同的數(shù)據(jù)挖掘方法作用于同一數(shù)據(jù)庫,對數(shù)據(jù)的理解可有不同的角度,每種方法的合理與否都有可能。這就需要將發(fā)現(xiàn)結(jié)果在實際運用中反復(fù)求證,以檢驗其合理性。2關(guān)聯(lián)規(guī)則中的apriori 算法及分析1993年ibmaldrhct的rkhagawl等人首先提出關(guān)聯(lián)規(guī)則挖掘,關(guān)聯(lián)規(guī)則挖掘目的是發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系,可以幫助許多商務(wù)決策的制訂,如市場規(guī)劃、廣告策劃、分類設(shè)計

5、等。apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。該算法的基本思想是:首先找出所有的頻集,這些項集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項的所有規(guī)則,其中每一條規(guī)則的右部只有一項,這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推的方法。數(shù)據(jù)挖掘在電大教務(wù)管理中的應(yīng)用以廣東電大為例,抽取2

6、004年級的12001名本科學(xué)生為主要分析對象,根據(jù)這些學(xué)生的學(xué)籍及第一年考試成績作為分析的原始數(shù)據(jù),參考其他高校分析的一些指標定義,構(gòu)造挖掘模型。從教務(wù)管理廣東理工職業(yè)學(xué)院數(shù)據(jù)倉庫中導(dǎo)出相關(guān)的基本表進行集成、清理、轉(zhuǎn)換等數(shù)據(jù)預(yù)處理;使用關(guān)聯(lián)分析中的apriori算法對數(shù)據(jù)進行挖掘分析,從數(shù)據(jù)中發(fā)現(xiàn)某些規(guī)律和參考信息,找出學(xué)生能在最短年限內(nèi)畢業(yè)的因素,對教學(xué)等管理提出建議。.1設(shè)立模型對電大學(xué)生數(shù)據(jù)建立分析模型,以選擇合適的方法和算法對數(shù)據(jù)進行分析,得到一個數(shù)據(jù)挖掘模型的過程。一個好的模型沒必要與已有數(shù)據(jù)完全相符,但模型對未來的數(shù)據(jù)應(yīng)有較好的預(yù)測。建立分析模型如圖。圖2電大學(xué)生數(shù)據(jù)分析模型3.

7、2數(shù)據(jù)預(yù)處理數(shù)據(jù)的預(yù)處理是數(shù)據(jù)挖掘過程中一個非常重要的環(huán)節(jié),一般需要用掉挖掘過程中70%的工作量。本文以2004年級的本科學(xué)生為主要分析對象,因此從教務(wù)管理系統(tǒng)倉庫中導(dǎo)出相關(guān)的三個表:學(xué)生基本檔案表、成績總表、畢業(yè)生名單,并對這三個表進行預(yù)處理。經(jīng)過數(shù)據(jù)采集、數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)消減這五個步驟后,最終建立了可用于下一步數(shù)據(jù)挖掘的目標數(shù)據(jù)表。如圖所示。其中: xh(學(xué)號)字段值為20041440000001-20041440011999;kscs(考試次數(shù))字段值定義為:1-16;hgcs(合格次數(shù))字段值定義為:1-16;hgl(合格率=)字段值如此定義:0-1;rxjd(入學(xué)季

8、度)字段值如此定義:1表示春季入學(xué),2表示秋季入學(xué);zhpjcj(綜合平均分=)字段值如此定義: a表示90-100、b表示80-89、c表示70-79、d表示60-69、f表示低于60分;hydm(婚姻代碼) 字段值如此定義:根據(jù)全局統(tǒng)計只有兩種狀況:1表示未婚,2表示已婚;nl(年齡)字段值如此定義:年齡采用等高方式劃分bucket,分成5個年齡段:20、25、30、35、40;dwdm(單位代碼)字段值如此定義:將廣東電大系統(tǒng)地區(qū)劃分為四個區(qū)域,a代表粵北,b代表粵東,c代表粵西,d代表珠三角。圖目標數(shù)據(jù)表片段3.3數(shù)據(jù)挖掘從目標數(shù)據(jù)表中統(tǒng)計,約25.5%的學(xué)生就讀五個學(xué)期后畢業(yè),約45

9、.1%的學(xué)生就讀六個學(xué)期后畢業(yè),其余剩29.4%的學(xué)生不能在最短的第五或者第六個學(xué)期畢業(yè),下面通過apriori算法對該表進行挖掘應(yīng)用,找出答案。事務(wù)數(shù)據(jù)庫d由已經(jīng)經(jīng)過預(yù)處理的目標數(shù)據(jù)倉庫中(見圖3)給出,設(shè)最小支持度minimum support0.05(612 instances);minimum metric = 0.2,利用apriori算法找出d的頻繁項集。1)掃描整個表,計算出d中所包含的每個項目出現(xiàn)的次數(shù),得出c1。將c1各項計數(shù),由最小事務(wù)支持計數(shù)為0.1,從c1中可以確定出頻繁1-項集,得出l1:2)執(zhí)行l(wèi)1 l1產(chǎn)生侯選2-項集的集合c2,c2由個2-項集組成,掃描d,計算

10、c2中每個侯選項集的支持計數(shù)(2-項集的子集均屬于l1,這樣對c2不用剪枝),根據(jù)最小事務(wù)支持計數(shù)2,從c2中確定l2,即把c2中滿足最小事務(wù)支持計數(shù)2要求的候選項目集放入l2中:3)執(zhí)行l(wèi)2 l2產(chǎn)生c3,根據(jù)apriori-gen中剪枝步驟對c3進行剪枝,然后掃描事務(wù)數(shù)據(jù)庫對c3中的項目集進行計數(shù),得出l3,同理得出l4、l5:4)在執(zhí)行l(wèi)5 l5后,通過剪枝與計數(shù),得出c6,在掃描以及對比數(shù)據(jù)庫與最小支持計數(shù)后,得知c6= ,算法終止。經(jīng)過以上4個步驟的頻繁集生成規(guī)則共有228條。.4結(jié)果分析1)以全省總體來說:第五個學(xué)期畢業(yè)的置信度比第六個學(xué)期畢業(yè)要低,即使全部考試都合格的情況下,結(jié)果

11、也一樣;但分布來說:粵東地區(qū)第五個學(xué)期畢業(yè)的置信度比第六個學(xué)期畢業(yè)要高;粵西地區(qū)就剛好相反;珠三角地區(qū)則有一半的學(xué)生在第六個學(xué)期畢業(yè);2)以全省25歲的學(xué)生為參照物,第一年參加考試次數(shù)7次比參加考試6次在第六個學(xué)期畢業(yè)的置信度要高;3)如果考試次數(shù)為8次在不考慮合格率的情況下,其置信度比只考7次的要低;4)婚姻狀態(tài)與能否在最短年限內(nèi)畢業(yè)結(jié)果無關(guān);5)年齡與學(xué)生畢業(yè)時間沒有太大關(guān)系;6)入學(xué)季度與學(xué)生畢業(yè)時間沒有太大關(guān)系,但粵西地區(qū)春季入學(xué)的學(xué)生比秋季入學(xué)的學(xué)生,在第六個學(xué)期畢業(yè)的置信度高得多;7)綜合平均分為d以上的學(xué)生在六個學(xué)期前畢業(yè)的置信度比較高,但綜合平均分為f的,有八成多都不可能在六個

12、學(xué)期前畢業(yè)。根據(jù)以上分析,對學(xué)校招生管理部門建議:學(xué)生報讀時提醒學(xué)生學(xué)習(xí)態(tài)度是決定其能否最短時間拿到畢業(yè)證書的關(guān)鍵。想按時畢業(yè)有幾個關(guān)鍵因素:第一年參加考試總次數(shù)要在6次或者以上并且至少有6次及格;第一年綜合平均分要為d以上。對學(xué)校教學(xué)管理部門建議:鼓勵學(xué)生以積極的態(tài)度去學(xué)習(xí),第一年盡可能多的參加期末考試;進一步指導(dǎo)學(xué)生進行有效的學(xué)習(xí)、復(fù)習(xí),提高考試通過率的同時盡量拿取高分數(shù)。結(jié)論本文通過介紹數(shù)據(jù)挖掘的基本概念、對象、過程、方法和算法,分析了隨著電大辦學(xué)規(guī)模的不斷擴大,信息量大幅度增加,使用apriori關(guān)聯(lián)規(guī)則挖掘算法對數(shù)據(jù)倉庫中的部分數(shù)據(jù)進行挖掘,找出潛在的關(guān)聯(lián)規(guī)則,獲取影響學(xué)生能在最短年

13、限內(nèi)畢業(yè)的潛在因素與信息,用于指導(dǎo)教學(xué),開展有針對性的教學(xué)安排與教學(xué)組織,借以提高教學(xué)質(zhì)量,對學(xué)校教學(xué)管理提出建議。將數(shù)據(jù)挖掘技術(shù)引入教育領(lǐng)域是可行的,可以對教務(wù)管理龐大的數(shù)據(jù)進行多方面、多角度的數(shù)據(jù)分析和挖掘,應(yīng)該會得到大量的有指導(dǎo)意義的結(jié)果,以提高學(xué)校管理的決策,提高管理水平和辦學(xué)質(zhì)量?!緟⒖嘉墨I】1田紅梅,彭愈強論現(xiàn)代遠程開放教育學(xué)籍管理的特點及戰(zhàn)略意義j廈門廣播電視大學(xué)學(xué)報,2008(1):10-12邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法m中國水利水電出版社,2003,8jiawei han,micheline kamber.數(shù)據(jù)挖掘概念與技術(shù)m范明,孟小峰,譯機械工業(yè)出版社,2001談恒貴, 王

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論