Apriori算法在教育領(lǐng)域的應(yīng)用_第1頁
Apriori算法在教育領(lǐng)域的應(yīng)用_第2頁
Apriori算法在教育領(lǐng)域的應(yīng)用_第3頁
Apriori算法在教育領(lǐng)域的應(yīng)用_第4頁
Apriori算法在教育領(lǐng)域的應(yīng)用_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、成 績評卷人姓 名學(xué) 號 華 中 師 范 大 學(xué)研 究 生 課 程 論 文完成時間 2014.7.15 課程名稱 數(shù)據(jù)挖掘 專 業(yè) 通信與信息系統(tǒng) 年 級 Aprior-TIDS算法在教育領(lǐng)域的應(yīng)用摘 要:數(shù)據(jù)挖掘技術(shù)是應(yīng)用一系列技術(shù)從大型數(shù)據(jù)庫中提取出出隱含的、以前未知的、具有潛在應(yīng)用價值的信息,它是知識發(fā)現(xiàn)(KDD)過程中最核心的部分。而關(guān)聯(lián)規(guī)則的挖掘是數(shù)據(jù)挖掘的一項重要的任務(wù),用以發(fā)現(xiàn)大量數(shù)據(jù)項集之間的相關(guān)聯(lián)系。Apriori 算法在關(guān)聯(lián)規(guī)則挖掘中最具代表與影響的一種算法。針對它需要重復(fù)的掃描數(shù)據(jù)庫以確定各個候選項集的支持度計數(shù)和產(chǎn)生大量候選項集的缺陷,設(shè)計出了新的算法Aprior-TI

2、D(Sransaction Identifier)算法。本文還將探討這個算法落實到教育相關(guān)領(lǐng)域上的兩個具體應(yīng)用-教育管理決策系統(tǒng)和招生管理系統(tǒng)。關(guān)鍵字:Aprior-TIDS;數(shù)據(jù)挖掘;教育決策;招生管理;關(guān)聯(lián)規(guī)則;1.知識發(fā)現(xiàn)與數(shù)據(jù)挖掘1.1知識發(fā)現(xiàn)相關(guān)概念自從 1989 年 8 月在第 11 屆國際聯(lián)合人工會議上首次提出知識發(fā)現(xiàn)這一概念以來,研究者們給 KDD 下了很多定義。隨著 KDD 研究的不斷深入,對 KDD 的定義也在不斷地改進,以下是目前對 KDD 比較公認(rèn)定義: KDD 是從大量繁多的數(shù)據(jù)中提取出可信的、新穎的、有效的并能被人理解的模式的處理過程,這種處理過程是非平凡的過程1。

3、KDD 是一個多步驟的過程,并且根據(jù)實際需要這些步驟可能要多次反復(fù),其主要步驟如圖 1-1 所示: 1.準(zhǔn)備:了解 KDD 相關(guān)領(lǐng)域的有關(guān)情況,熟悉有關(guān)的背景知識并了解用戶需求。 2.篩選:從用戶需求出發(fā)由數(shù)據(jù)庫中提取出于本次 KDD 過程相關(guān)的數(shù)據(jù),此過程主要是對數(shù)據(jù)庫中的原始資源進行提取。 3.預(yù)處理:初步處理上一步所選擇出的數(shù)據(jù),包括對數(shù)據(jù)的完整性與一致性進行檢查,對數(shù)據(jù)中出現(xiàn)的噪聲進行判斷并加以去除,對錯誤和丟失的數(shù)據(jù)進行修補。 4.縮減:對經(jīng)過預(yù)處理數(shù)據(jù)的數(shù)據(jù)項,主要通過投影的方式或一些相關(guān)的數(shù)據(jù)庫操作減少數(shù)據(jù)量。 5.任務(wù)定性:根據(jù)用戶需求確定 KDD 的結(jié)果屬于哪類知識,這是作為

4、選擇知識發(fā)現(xiàn)算法的依據(jù)。 6.確定算法:根據(jù)上一步所得結(jié)果選擇適合的算法、模型和參數(shù)。 7.數(shù)據(jù)挖掘:利用所選算法,從經(jīng)過初步處理的數(shù)據(jù)中提取出用戶所需的知識。要求其結(jié)果要簡單易懂,一般都是一些常用的表達式或產(chǎn)生式。 8.模式解釋:對發(fā)現(xiàn)的模式進行解釋。 9.評價:將發(fā)現(xiàn)的數(shù)據(jù)以用戶易于理解的方式呈現(xiàn),也包含對知識一致性的檢查。圖1-1KDD過程從上述對 KDD 過程的描述可以得出結(jié)論:數(shù)據(jù)挖掘只是知識發(fā)現(xiàn)過程中的一個步驟,但它是知識發(fā)現(xiàn)過程中最重要的一個步驟。它主要是利用知識發(fā)現(xiàn)算法,從數(shù)據(jù)中發(fā)現(xiàn)出有關(guān)的知識或模式。1.2數(shù)據(jù)挖掘的相關(guān)概念。數(shù)據(jù)挖掘(Data mining,簡稱 DM),就

5、是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘過程一般由確定挖掘?qū)ο?、?shù)據(jù)準(zhǔn)備、模型建立、數(shù)據(jù)挖掘、結(jié)果分析表述和挖掘應(yīng)用這幾個主要階段組成。數(shù)據(jù)挖掘可以描述為這幾個階段的反復(fù)過程2。首先確定目標(biāo)、明確數(shù)據(jù)挖掘任務(wù)。(1)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備階段又可進一步分成四個子步驟數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理和數(shù)據(jù)轉(zhuǎn)換。A、數(shù)據(jù)集成。數(shù)據(jù)集成是將多文件或多數(shù)據(jù)庫運行環(huán)境中的數(shù)據(jù)進行合并處理,解決語義模糊性,處理數(shù)據(jù)中的遺漏和清洗數(shù)據(jù)等。B、數(shù)據(jù)選擇。數(shù)據(jù)選擇指為數(shù)據(jù)挖掘目標(biāo)搜集和選擇有關(guān)的數(shù)據(jù),這包括不同格式數(shù)據(jù)的

6、轉(zhuǎn)換以及不同部門數(shù)據(jù)的統(tǒng)一和匯總。數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集和,縮小處理范圍,提高數(shù)據(jù)挖掘的質(zhì)量。C、數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理是對數(shù)據(jù)進行清理和充實等工作。數(shù)據(jù)庫中重要的數(shù)據(jù)是準(zhǔn)確的,不重要的數(shù)據(jù)可能存在污染。預(yù)處理就是為了克服目前數(shù)據(jù)挖掘工具的局限性。D、數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換的一個重要工作就是對數(shù)據(jù)進行編碼。數(shù)據(jù)庫中字段屬性的不同取值轉(zhuǎn)換成數(shù)碼形式經(jīng)有利于搜索。(2)數(shù)據(jù)挖掘這個階段將進行實際的挖掘操作,即利用機器學(xué)習(xí)、統(tǒng)計分析等方法,從數(shù)據(jù)庫中發(fā)現(xiàn)有用的模式或知識這里模式是濃縮數(shù)據(jù)的信息形式,如精煉數(shù)據(jù)庫、表格、產(chǎn)生式規(guī)則、決策樹、神經(jīng)網(wǎng)絡(luò)的權(quán)值等。A、選擇數(shù)據(jù)挖掘方法。如統(tǒng)計分析

7、、機器學(xué)習(xí)、模式識別方法和人工神經(jīng)元方法等。B、選擇數(shù)據(jù)挖掘算法。選擇用來查找模式或符合數(shù)據(jù)的模型的算法,確定合適的模型和參數(shù)。另外,數(shù)據(jù)挖掘方法必須和目標(biāo)相匹配。C、數(shù)據(jù)挖掘。查找感興趣的模式。模式一般表示為一種特殊的形式或一套表達方式,如關(guān)聯(lián)規(guī)則,分類規(guī)則或分類樹,回歸結(jié)構(gòu)和聚類集等。除了選擇合適的挖掘算法外,其余的一切工作都可自動完成。(3)數(shù)據(jù)挖掘結(jié)果分析表述和挖掘應(yīng)用A、結(jié)果表達。盡量直觀的表示挖掘結(jié)果,便于用戶理解和使用,可利用可視化方法表示為圖表等形式。B、結(jié)果評價。篩選和評價挖掘結(jié)果中的有用部分,查找可接受的結(jié)果??啥x興趣指標(biāo),考慮結(jié)果的正確度、新穎度、有用性和簡單性。把信息

8、從輸出中過濾出來。利用可視化方法幫助用戶決定所提取知識的有效性或?qū)镜臄?shù)據(jù)或現(xiàn)象做出結(jié)論。C、知識鞏固。把挖掘出的信息結(jié)合到執(zhí)行系統(tǒng)中,了解這些信息的作用或證明這些信息。用預(yù)先知道且可信的信息來檢查和驗證所挖掘的信息,解決可能存在的矛盾。2.關(guān)聯(lián)規(guī)則挖掘算法Apriori-TIDS2.1關(guān)聯(lián)規(guī)則挖掘2.1.1定義關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中一個最重要的過程,用以發(fā)現(xiàn)大量數(shù)據(jù)的項集間的一些內(nèi)在的關(guān)聯(lián)或相關(guān)聯(lián)系。盎格魯?shù)热擞?1993 年首先提出關(guān)聯(lián)規(guī)則的概念,隨后大量的研究人員對關(guān)聯(lián)規(guī)則的的挖掘問題進行了詳細的研究。現(xiàn)在關(guān)于關(guān)聯(lián)挖掘定義的版本比較多,由 Jiawei Han、Micheline k

9、amber3等人給出的定義形式如下: 設(shè) I=i1, i2, im是項集,D 是事務(wù)的集合,其中每個事務(wù) T 是項的集合,T I。設(shè) X 為一個項集, X I,而事務(wù) T 包含 X 當(dāng)且僅當(dāng) X T。則關(guān)聯(lián)規(guī)則是一個形如X=>Y 的蘊含式,其中 X I,Y I,且 X Y =。那么關(guān)聯(lián)規(guī)則的興趣度可用支持度和置信度來衡量。支持度:P( ),即 X 項集和 Y 項集在事務(wù)集 D 中同時出現(xiàn)的概率。置信度:P(Y|X),即在出現(xiàn)項集 X 的事務(wù)集合 D 中,項集 Y 也同時出現(xiàn)的概率。2.1.2分類管理規(guī)則根據(jù)涉及內(nèi)容不同可有不同分類: 1.數(shù)值型與布爾型關(guān)聯(lián)規(guī)則: 以關(guān)聯(lián)規(guī)則中處理變化量的

10、類別不同進行分類。數(shù)值型的關(guān)聯(lián)規(guī)則可以直接對原始的數(shù)據(jù)進行處理,或者和多維的關(guān)聯(lián)規(guī)則或多層的關(guān)聯(lián)規(guī)則相結(jié)合起來,對數(shù)值型的數(shù)據(jù)字段進行處理,將其進行動態(tài)的分割。布爾型關(guān)聯(lián)規(guī)則處理的數(shù)據(jù)都是離散型的種類化的,方便顯示變量間的關(guān)系。例如:電阻=(200250)=>額定工作電流=(15A25A)是一個量化的關(guān)聯(lián)規(guī)則;而年級=“2005 屆”=>專業(yè)=“軟件工程”即為布爾型。 2.單維和多維關(guān)聯(lián)規(guī)則: 以關(guān)聯(lián)規(guī)則中數(shù)據(jù)涉及的維數(shù)不同進行分類。單維關(guān)聯(lián)規(guī)則只涉及到數(shù)據(jù)的單維度。例如顧客購買的商品,牛奶=>紙巾,只涉及到用戶購買的商品;而多維關(guān)聯(lián)規(guī)則涉及到兩個或兩個以上的謂詞,如:電阻(

11、200250)工作電流(<=25A)=>完全等級(A)中,包含了三個不同的謂詞(“電阻”、“電流”和“安全等級”),這種規(guī)則即稱之為維間關(guān)聯(lián)規(guī)則。在某一規(guī)則中包含的某些謂詞重復(fù)出現(xiàn),我們稱其為混合維間關(guān)聯(lián)規(guī)則。如:燈泡=>電阻(200250)工作電流(<=25A)=>完全等級(A) 3.單層和多層關(guān)聯(lián)規(guī)則: 以關(guān)聯(lián)規(guī)則中數(shù)據(jù)抽象的層次不同進行分類。單層關(guān)聯(lián)規(guī)則中所有的變量都不考慮它在現(xiàn)實生活中數(shù)據(jù)的不同層次,而多層關(guān)聯(lián)規(guī)則要對數(shù)據(jù)的變量多層次充分考慮。對于許多應(yīng)用,在較低的數(shù)據(jù)層次很難找到強相關(guān)規(guī)則,而在較高的層次所發(fā)現(xiàn)的強相關(guān)規(guī)則可能具有比較普遍的意義。2.2

12、Apriori算法Apriori 算法作為在關(guān)聯(lián)規(guī)則挖掘中最具代表與影響的一種算法。Apriori 算法核心思想是基于數(shù)據(jù)概率的挖掘數(shù)據(jù)布爾型關(guān)聯(lián)規(guī)則項集,對據(jù)庫中項目或事物之間的關(guān)系通過循序漸進的方式挖掘數(shù)據(jù),對用戶提出有價值的規(guī)則或指導(dǎo)意見。該算法的過程主要由兩步構(gòu)成,連接(類矩陣運算)和剪枝(去掉無意義或沒有必要的中間結(jié)果)。在此算法中頻繁的應(yīng)用到項集這個概念。4 其具體的執(zhí)行步驟如下: 1.根據(jù)用戶的要求制定出最小支持度和最小置信度。 2.找出所有的頻繁項集。首先由原始的數(shù)據(jù)庫資料產(chǎn)生出物象集合,該集合稱為候選集。如果某一個候選集的支持度大于最小支持度,則認(rèn)為它屬于頻繁項集合中的項,從

13、而通過多次掃描產(chǎn)生出頻繁項集。3.在該算法的執(zhí)行的過程中,先由數(shù)據(jù)庫讀入所有的數(shù)據(jù)項,得出一個候選 1-項集合 C1(Candidate 1-itemset)的支持度,然后找出頻繁項集 1-項的集合 L1(Large 1-itemset),并利用這些頻繁 1-項集的結(jié)合與 2-項集合。 4.繼續(xù)對數(shù)據(jù)庫掃描,得出候選 2-項集 C2的支持度,找出 2-項集合 L2,利用這些頻繁 2-項集合 L2的結(jié)合,產(chǎn)生候選 3-項集合 C3。 5.繼續(xù)執(zhí)行上述的步驟,重復(fù)對數(shù)據(jù)庫的掃描、并和最小支持度進行比較,產(chǎn)生更高層次的頻繁項集合,進行數(shù)據(jù)的優(yōu)化。重復(fù)進行此操作步驟,直到不再結(jié)合產(chǎn)生新的候選頻繁項集為

14、止。連接:為了找到頻繁項集合 Lk,需要連接 Lk-1與自己產(chǎn)生連接候選項集 k-項集的集合。該候選頻繁項項集合記做 Ck。設(shè) l1和 l2是 Lk-1中的項集。記 lij表示 li的第 j 項。執(zhí)行連接過程 Lk-1Lk-1,其中要求 Lk-1的元素 l1和 l2可以連接的,如果:(111= 121)(112= 122) (11k-2= 12k-2) (11k-1< 12k-1),連接 11和12產(chǎn)生的結(jié)果項集是 111 12211k-1 12k-1。記號 lij表示 1i的第 j項。剪枝:掃描數(shù)據(jù)庫,確定 Ck中每個候選項集的支持度計數(shù)。但是,候選集 Ck可能很大,為壓縮 Ck,可以

15、利用以上法性質(zhì):任何非頻繁項集合的(k-1)項集都不可能是頻繁項集合 k項集的子集。所以,如果一個候選 k項集的(k-1) 項子集不在 Lk-1中,則該候選也不可能是頻繁的,因此,從 Ck中刪去。Apriori 算法為了生成所有的頻繁集必須重復(fù)的掃描數(shù)據(jù)庫并不斷地進行連接和剪枝操作,為此在實現(xiàn)時主要是利用了遞推的結(jié)構(gòu)實現(xiàn)該算法:(1) L1= lareg 1-itemsets; (2) for (k=2; Lk-1&sut1; k+) do begin (3) Ck=apriori-gen(Lk-1); /新的候選集 (4) for all tranfsactions t&Ic

16、irc;D do begin (5) Ct=subset(Ck,t); /事務(wù) t 中包含的候選集 (6) for all candidates c&Icirc; Ct=do (7) c.count+; (8) end (9) Lk=c&Icirc; Ck |c.count&sup;minsup (10) end (11) Answer=kLk; 第一步先產(chǎn)生頻繁 1-項集 L1,然后是頻繁 2-項集 L2,直到有某個 i 值使得 Li為空,這時算法停止。這里在第 k 次循環(huán)中,過程先產(chǎn)生候選 k-項集的集合 Ck,Ck中的每一個項集是對兩個只有一個項不同的屬于 Lk-

17、1的頻集做一個(k-2)-連接來產(chǎn)生的。Ck中的項集是用來產(chǎn)生頻集的候選集,最后的頻集 Lk必須是 Ck的一個子集。Ck中的每個元素需在交易數(shù)據(jù)庫中進行驗證來決定其是否加入 Lk,這里的驗證過程是算法性能的一個瓶頸。這個方法要求多次掃描可能很大的數(shù)據(jù)庫,即如果頻集最多包含 100 個項,那么就需要掃描交易數(shù)據(jù)庫 100 遍,這需要很大的 I/O 負(fù)載。通過上述的描述可以看出,Apriori 算法存在著兩個主要的缺陷: 1需要重復(fù)的掃描數(shù)據(jù)庫以確定各個候選項集的支持度計數(shù)。 2需要產(chǎn)生大量候選項集。 這兩個主要的缺陷(特別是第一個)成為了該算法的瓶頸,目前大多數(shù)對于該算法的改進基本都是針對于改進

18、這兩個缺陷來進行的。2.3 Apriori算法的改進Apriori-TIDS算法隨著待處理數(shù)據(jù)量的日益增多,Apriori 算法的缺陷漸漸突出,越來越難以適應(yīng)用戶的需求,為此許多研究學(xué)者以該算法為原型,就如何能減少掃描的次數(shù)和在系統(tǒng)內(nèi)存一定的條件下減少讀取原始數(shù)據(jù)庫的次數(shù)上進行了大量的研究和實踐。通過對 Apriori 算法及其改進算法的分析比較,針對原始算法需要多次重復(fù)掃描數(shù)據(jù)庫以確定各個候選項集的支持度計數(shù)的缺陷進行改進,提出了一種新的算法Apriori-TID(Transaction Identifier)算法。5該算法的執(zhí)行步驟如下: 1.掃描數(shù)據(jù)庫,對包含每一個項集的事務(wù)進行支持度計

19、數(shù),從而產(chǎn)生 l-項候選集C1。其中 C1的結(jié)構(gòu)為:項集的名稱 Item_set,事務(wù)標(biāo)識符列表 Tid_list,支持度計數(shù)Support。從項集 C1中刪除支持度計數(shù)小于最小支持度閾值的項,從而得到頻繁 1-項集 L1。2.Lk-1自身進行連接操作,生成 k-項集 Ck。Ck的事務(wù)標(biāo)識符列表為兩個生成它的 Lk-1的事務(wù)標(biāo)識符的交集。計算 Ck中項集的標(biāo)識符列表中 TID 的數(shù)量,得到 Ck中每一個項集的計數(shù)。下面我們通過一個定理來證明該算法的正確性。定 理:對于一個 K-項集 L,設(shè)包含有 L1,L2,Lk-2,Lk-1的事務(wù)集合為 A,包含 L1L2Lk-1Lk的事務(wù)集合為 B,則有包

20、含 L 的事務(wù)集合是集合 A 和 B 的交集,即 AB。下面通過該定理證明 Apriori_TID 算法。 證明: (1)設(shè) t 是 AB 中的任意一個事務(wù)。ABA tAA是包含有 L1L2Lk-2Lk-1的事務(wù)集 t 包含有 L1L2Lk-2Lk-1 AB B tBB 是包含有 L1L2Lk-1Lk的事務(wù)集 t 包含有 L1L2Lk-1Lk綜上可得: t 包含了項集 L。 由此得證,AB 中的任意事務(wù)均包含項集 L。 (2)假設(shè)事務(wù) t!AB,但 t 包含項集 L L1L2Lk-2Lk-1是項集 L 的子集 t 包含項集 L1L2Lk-2Lk-1而由題設(shè)可知,包含 L1L2Lk-2Lk-1的

21、事務(wù)都包含在集合 T1中 tT1同理 tT2由此可得 tAB 與假設(shè)矛盾 綜上題設(shè)得證。 若 l1,l2是 Lk-1中兩個可連接的項集。L1= L1L2Lk-2Lk-1,l2= L1L2Lk-1Lk,l=l1l2= L1L2Lk-1LkLk。 綜上可知,包含 l 的事務(wù)集必然包含事務(wù)集 l1與 l2的交集。由此可得l.Tid_list=l1.Tid_lil2.Tid_list。由該式我們可以知道若要求的某一個事務(wù)集 l的 TID 列表,只需要求生成它的兩個事務(wù)集 l1和 l2的 TID 屬性列進行求交集的運算即可。 (3)此時,剩余的 Lk 中的項集均是滿足最小支持度閾值的項集,所以Lk=Lk

22、.ItemSet。改進算法可描述如下:輸入項:待挖掘的事務(wù)數(shù)據(jù)庫 D;根據(jù)用戶需求所訂立的最小支持度閾值 min_sup 結(jié)果:D 中滿足最小支持度閾值的所有頻繁項集合 L。3.Apriori-TIDS算法在教育領(lǐng)域的應(yīng)用3.1教育管理決策系統(tǒng)隨著高校招生規(guī)模的不斷擴大和信息技術(shù)的不斷發(fā)展,各個高校都建立了自己的教務(wù)管理信息系統(tǒng),這些系統(tǒng)大大提高了教學(xué)和管理的水平,同時也積累了大量的教學(xué)和管理數(shù)據(jù)。與其他資源相比,教育信息資源是無形的潛在的,但它對教育發(fā)展具有直接的、其他資源難以替代的作用。6教育信息挖掘?qū)逃芾頉Q策的輔助作用主要體現(xiàn)在以下幾個方面: 合理設(shè)置課程 高校的好多課程之間都具有一

23、定的銜接性,先行課程學(xué)的好壞會直接影響后續(xù)課程的學(xué)習(xí)。利用數(shù)據(jù)挖掘技術(shù),對學(xué)生的以往成績進行挖掘,就能發(fā)現(xiàn)課程之間的關(guān)聯(lián),并以此為依據(jù),對課程設(shè)置做出合理的調(diào)整。 改善教學(xué)模式 由于授課教師的授課方式和教學(xué)水平的差異,學(xué)生的成績也會有所差別。通過數(shù)據(jù)挖掘,可以發(fā)現(xiàn)教師學(xué)歷、職稱、授課方式等同教學(xué)效果之間的聯(lián)系,從而有針對性的改善教學(xué)模式,提高教學(xué)質(zhì)量。 此外,數(shù)據(jù)挖掘技術(shù)在高校教學(xué)管理決策中的應(yīng)用還有畢業(yè)生就業(yè)分析、課程成績預(yù)測、試卷分析以及高校教學(xué)評估等,這些應(yīng)用都會對高校的教學(xué)管理發(fā)揮積極地作用。3.1.1 系統(tǒng)總體構(gòu)架ARMEMD 系統(tǒng)即教育管理決策中的關(guān)聯(lián)規(guī)則挖掘系統(tǒng):圖3.1系統(tǒng)架構(gòu)

24、1 將原始的數(shù)據(jù)經(jīng)過初步的處理后,將其加載至基本數(shù)據(jù)庫中。一般原始的數(shù)據(jù)文件都以多種形式存在于多種媒體介質(zhì)中,為了能夠統(tǒng)一的處理這些數(shù)據(jù),我們就需要將這些數(shù)據(jù)進行集成,并用統(tǒng)一的格式進行數(shù)據(jù)的格式化,然后在加載至 ORACLE 數(shù)據(jù)庫中。并對原始數(shù)據(jù)進行初步的清理,把數(shù)據(jù)庫中一些錯誤或無用的噪聲去掉。 2轉(zhuǎn)換原始的數(shù)據(jù)庫資料成為適應(yīng)關(guān)聯(lián)規(guī)則挖掘。 在進行基本數(shù)據(jù)庫設(shè)計時,要考慮如下問題:(1)數(shù)據(jù)的原始形式(2)本數(shù)據(jù)挖掘系統(tǒng)的挖掘過程是否在該數(shù)據(jù)庫中的結(jié)構(gòu)適用(3)本系統(tǒng)以及其他系統(tǒng)的接口問題。因此,原始數(shù)據(jù)在初步加載完以后,需要對其進行結(jié)構(gòu)上的轉(zhuǎn)換,以便于利用挖掘系統(tǒng)對其進行數(shù)據(jù)的處理。

25、3利用改進的關(guān)聯(lián)規(guī)則挖掘算法進行挖掘,得出用戶感興趣的規(guī)則信息。 將新的改進算法用 ORACLE 語言編寫成數(shù)據(jù)庫挖掘過程,對數(shù)據(jù)庫中的信息進行關(guān)聯(lián)規(guī)則的挖掘,并將其結(jié)果存放于一個規(guī)則庫中的各個屬性表中用以查詢。制作一個可視化的人機交互界面來對挖掘參數(shù)來進行設(shè)定和調(diào)節(jié)(主要包括最小支持度閾值和最小置信度值)。 4最后為了能讓用戶獲得跟直觀的結(jié)果信息,將產(chǎn)生的關(guān)聯(lián)規(guī)則通過一種可視化界面顯示出來。3.1.2挖掘主題設(shè)計在教育決策系統(tǒng)設(shè)計中主要設(shè)計了五個主題:(1)課程關(guān)聯(lián)(2)課程類別關(guān)聯(lián)(3)學(xué)生基本信息關(guān)聯(lián)(4)課程(5)基本信息關(guān)聯(lián)和教學(xué)模式關(guān)聯(lián)。3.1.3挖掘效果將新算法應(yīng)用于教學(xué)管理系統(tǒng)

26、中,開發(fā)出具有專家功能的教育管理決策的關(guān)聯(lián)規(guī)則挖掘系統(tǒng)。通過幾個相關(guān)主題的設(shè)定,對現(xiàn)行的大學(xué)管理提出許多有價值的決策信息。該規(guī)則結(jié)果的展示方面,采用了一種文本和圖形相結(jié)合的可視化方式,從而可以讓用戶更直觀的看到挖掘的結(jié)果,同時通過該界面讓用戶對自己所感興趣的規(guī)則進行篩選,提高了系統(tǒng)的智能性,使得挖掘結(jié)果更加符合用戶的感興趣程度。3.2招生管理系統(tǒng)近幾年在參加高考生源人數(shù)急劇下降和本科院校的擴招雙重影響下,高職院校招生工作日益艱難。傳統(tǒng)的招生方式很多憑著優(yōu)先的經(jīng)驗進行,沒有針對性,不能有效節(jié)約招生宣傳成本。因此,擺在高職院校面前的重要課題是如何利用本學(xué)校已有的招生資源信息來促使高職院校在每年的招

27、生宣傳、提高考生報到率等方面做出正確的決策本文采用改進的關(guān)聯(lián)規(guī)則算法Apriori算法對某高職院校招生系統(tǒng)的歷史數(shù)據(jù)進行了挖掘,找出影響高職院校招生的潛在因素和規(guī)則,用來指導(dǎo)高職院校招生工作。73.2.1招生管理模型通過對數(shù)據(jù)挖掘的過程分析建立了招生管理模型。招生管理模型首先對往屆錄取新生信息和新生錄取信息提取相關(guān)數(shù)據(jù)進行預(yù)處理,然后經(jīng)過關(guān)聯(lián)規(guī)則挖掘找出影響往屆學(xué)生報到和新生報到的影響因素,最后為招生錄取提供錄取管理方案和輔助決策。招生管理模型的輸入數(shù)據(jù)是考生的錄取信息表和考生的報到信息表,輸出數(shù)據(jù)是影響新生報到的關(guān)聯(lián)因素,核心的功能是對招生數(shù)據(jù)關(guān)聯(lián)規(guī)則的挖掘。招生管理模型如圖3-2所示。圖3

28、-2招生管理模型3.2.2招生管理模型實現(xiàn)高職院校新生錄取信息數(shù)據(jù)挖掘模塊采用delphi6為開發(fā)工具,后臺數(shù)據(jù)庫采用SQL Server2005,設(shè)計功能界面如圖 5-2 所示。該模塊可以從 SQL Server2005 數(shù)據(jù)庫中按年份提取新生報到的信息,經(jīng)過屬性選擇和概化出來,然后設(shè)置支持度和置信度相關(guān)參數(shù),通過系統(tǒng)內(nèi)部實現(xiàn)改進的 Apriori算法,分析出影響新生報到的主要因素和一般規(guī)律。該模塊選擇從招生的信息中選擇影響入學(xué)的考生類別、性別等屬性,并對所選屬性進行概化處理,作為關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)源。同時,設(shè)置設(shè)置支持度和置信度有關(guān)參數(shù)挖掘出影響考生入學(xué)的關(guān)聯(lián)規(guī)則。3.2.3關(guān)聯(lián)規(guī)則挖掘過

29、程1數(shù)據(jù)來源 本系統(tǒng)采集數(shù)據(jù)來源于 JD 學(xué)院 2013 年考生信息。JD 學(xué)院的考生數(shù)據(jù)庫采用 SQL Server 2005,招生管理系數(shù)據(jù)庫中設(shè)計考生信息的有以下幾張表: (1)考生基本信息表 ksinfo,該表保存考生的考號、姓名、性別等基本信息。 (2)考生成績表 kscj,該表存儲考生高考的各科成績。 (3)考生生源表 kssy,存儲考生生源地,包括考生的戶籍信息。 (4)考生報到表 ksbd,主要記錄考生報到的信息。 (5)考生科類代碼表 kskldm,主要記錄學(xué)生文史類還是理工類。 (6)考生專業(yè)表 kszyb,說明考生錄取專業(yè)類別。 各個表與考生基本信息表 ksinfo 主鍵

30、 ksbh進行連接,通過在 SQL Sever2005 中建立視圖 v_ksxx 得到數(shù)據(jù)挖掘的原始表,作為數(shù)據(jù)挖掘的數(shù)據(jù)源,部分?jǐn)?shù)據(jù)顯示如圖 5-3所示。2屬性選擇 由于該系統(tǒng)數(shù)據(jù)挖掘目標(biāo)是為學(xué)校的招生策略提高依據(jù),挖掘出學(xué)生報考本校的相關(guān)規(guī)則。因此在考生的數(shù)據(jù)中和學(xué)生緊密相關(guān)的一些屬性比如姓名、學(xué)生考號、身份證號、聯(lián)系電話中信息與數(shù)據(jù)挖掘的目的無關(guān)。本文選擇“考生類別”、 “科類”、“報考專業(yè)”、“成績”、“科類”、“報到”六個屬性進行規(guī)則挖掘。 3數(shù)據(jù)轉(zhuǎn)換 如果關(guān)聯(lián)規(guī)則算法處理的項目值太多,甚至某些數(shù)據(jù)是連續(xù)數(shù)據(jù)的話,關(guān)聯(lián)規(guī)則算法將挖掘出大量的規(guī)則,如此多的規(guī)則顯然對用戶來說是沒有實際價

31、值的。因此在數(shù)據(jù)挖掘之前,需要對值過多的項目進行泛化,對連續(xù)數(shù)據(jù)進行離散化處理。 由于報考職業(yè)院校的成績普遍較低,根據(jù)學(xué)院教務(wù)處的成績約定,將考生高考總成績考試的總成績劃分成三段:大于 350 分的定為優(yōu)秀;小于 250 的為差,250 到 350 之間的為一般。由于 JD 學(xué)院針對河北地區(qū)招生,省外的報考學(xué)生人數(shù)較少,所占比例小于 0.5%,因此刪除這些省外學(xué)生的記錄。根據(jù)以往的生源的情況、地理位置、地區(qū)人數(shù)、經(jīng)濟水平、招生宣傳地區(qū)劃分,將河北省的 11 個地區(qū)劃分成 3 個區(qū)域:A、冀南地區(qū),B、冀北地區(qū),C、省會地區(qū)。JD學(xué)院目前共有 17 個專業(yè),根據(jù)各專業(yè)所屬領(lǐng)域,將這些專業(yè)劃分成 4 類:人文類、機械類、電氣信息類。通過上述數(shù)據(jù)轉(zhuǎn)換處理后,分析的數(shù)據(jù)變成了事務(wù)數(shù)據(jù)。4.關(guān)聯(lián)規(guī)則挖掘結(jié)果 系統(tǒng)提供屬性選擇和屬性概化處理,在經(jīng)過數(shù)據(jù)的預(yù)處理后,需要設(shè)置 Apriori算法的支持度和置信度兩個參數(shù)支持度和置信度的設(shè)置需要一個比較科學(xué)合理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論