聚類技術(shù)在學生成績分析中的應用_第1頁
聚類技術(shù)在學生成績分析中的應用_第2頁
聚類技術(shù)在學生成績分析中的應用_第3頁
聚類技術(shù)在學生成績分析中的應用_第4頁
聚類技術(shù)在學生成績分析中的應用_第5頁
已閱讀5頁,還剩70頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、聚類技術(shù)在學生成績分析中的應用 【摘要】數(shù)據(jù)挖掘技術(shù)是信息技術(shù)研究的熱點問題之一。目前數(shù) 據(jù)挖掘技術(shù)在商業(yè)、金融業(yè)等方面都得到了廣泛的應用,而在教育領 域的應用較少,隨著高校招生規(guī)模的擴大,在校學生成績分布越來越 復雜,除了傳統(tǒng)成績分析得到的一些結(jié)論外,還有一些不易發(fā)現(xiàn)的信 息隱含其中,因而把數(shù)據(jù)挖掘技術(shù)引入到學生成績分析中,有利于針 對性地提高教學質(zhì)量。聚類分析是數(shù)據(jù)挖掘中的一個重要研究領域。 它將數(shù)據(jù)對象分成為若干個簇,使得在同一個簇中的對象比較相似, 而不同簇中的對象差別很大。本論文就是運用數(shù)據(jù)挖掘中的聚類分析 學生成績的,利用學生在分專業(yè)前的各主要學科的成績構(gòu)成,對數(shù)據(jù) 進行選擇,預處

2、理,挖掘分析等。運用聚類算法分析學生對哪個專業(yè) 的強弱選擇,從而為具有不同成績特征的同學在專業(yè)選擇及分專業(yè)后 如何開展學習提供一定的參考意見。 【關鍵詞】 數(shù)據(jù)挖掘;聚類技術(shù);學生成績;K-means .The Application of Cluster Technology in Analysis for Students Achievement Abstract: The technology of data mining is one of the hot issues in the information technology field. Nowadays data mining

3、technology is widely used in business and finance. But it is less used in education field. With the increase of enrollment in universities, there are more and more students in campus, and that makes it more and more complex in the distribution of students records. Besides some conclusions from tradi

4、tional record analysis, a lot of potential information cannot be founded. Importing the data mining technology to students record analyzing makes it more convenient and improve the teaching quality. Clustering analysis is an important research field in data mining. It classify data object to many gr

5、oups so that the object is similar in the same clusters, different in the different clusters. In this paper, clustering technique in data mining is used to students performance analysis, the use of data structure of main subject before the students specialized in choice of mode, pretreatment and dat

6、a mining. Using clustering technology to analyse which professional students are good at, so as to choose how to learn professional and give some reference opinions after students of different grades choose their majors. Key words: Data Mining; ClusterinTechnology; Students Achievement; k-means 目 錄

7、引言 .1 1 概述 .2 1.1 課題背景 .2 1.2 發(fā)展現(xiàn)狀 .2 1.3 課題意義 .3 1.4 本文研究內(nèi)容 .3 2 數(shù)據(jù)挖掘理論概述 .4 2.1 數(shù)據(jù)挖掘概述 .4 2.1.1 數(shù)據(jù)挖掘的定義 .4 2.1.2 數(shù)據(jù)挖掘的過程 .4 2.2 聚類分析 .5 2.2.1 聚類分析概述 .5 2.2.2 聚類分析原理方法 .5 2.2.3 聚類分析工具 .6 3 算法介紹 .7 3.1 K-means 算法 .7 3.1.1K-means 算法描述.7 3.1.2 k-means 算法的特點.8 4 聚類分析的應用 .9 4.1 算法實現(xiàn) .9 4.1.1 數(shù)據(jù)準備 .9 4.1

8、.2 數(shù)據(jù)預處理 .10 4.1.3 算法應用 .11 4.2 結(jié)果分析 .13 4.2.1 聚類結(jié)果 .13 4.2.2 結(jié)果分析 .19 4.3 結(jié)論 .19 總 結(jié) .20 致 謝 .21 參考文獻 .22 科技外文文獻 .23 中文譯文 .26 引言 在高校學生成績管理中,影響學生學習成績的因素很多,因此要 進行綜合分析。傳統(tǒng)分析無非是得到均值、方差等一些簡單的分析結(jié) 果,往往還是基于教學本身。其實,還有一些教學中不易察覺的因素 和教學以外的因素影響學生學習成績,這些都需要進一步分析,從而 得出結(jié)論,為教學管理人員及學生做出相應的決策。而這些信息是無 法從傳統(tǒng)的學生成績分析方法中獲得,

9、但可以通過從 20 世紀 90 年代 中期興起的數(shù)據(jù)挖掘技術(shù)中獲得,從而找到影響學生學習成績的真實 原因,制定相應措施,提高教學效果。 數(shù)據(jù)挖掘是一種決策支持過程,是深層次的數(shù)據(jù)信息分析方法, 將數(shù)據(jù)挖掘技術(shù)應用于教學非常有益,它可以全面地分析學生成績與 各種因素之間隱藏的內(nèi)在聯(lián)系。比如,經(jīng)過對學生成績相關數(shù)據(jù)庫系 統(tǒng)的分析,數(shù)據(jù)挖掘工具可以問答諸如“哪些因素對學生的學習成績 可能有影響”等類似的問題,這是傳統(tǒng)方法無法達到的。通過數(shù)據(jù)挖 掘分析,其結(jié)果可能給教學帶來一定的收獲。 總之,隨著數(shù)據(jù)量的急劇增長和對數(shù)據(jù)提取的更高要求,現(xiàn)在我 們很難再依照傳統(tǒng)方法在海量數(shù)據(jù)中尋找決策的依據(jù),這就必須借

10、助 數(shù)據(jù)挖掘法發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律或模式,為決策提供更有效的支持。 雖然數(shù)據(jù)挖掘作為一種工具,它永遠也不能替代教師的地位,但是它 可以為教師的決策提供科學的依據(jù)。數(shù)據(jù)挖掘技術(shù)本身就是人們大量 實踐的結(jié)晶,它為建立傳統(tǒng)教學中很難獲取或不可能獲取的模型提供 了捷徑。從高校當前實際出發(fā),將數(shù)據(jù)挖掘技術(shù)引入到學生考試成績 分析中,建立一個通用的考試成績科學化管理的總體框架是非常有益 的。實踐表明,數(shù)據(jù)挖掘能夠為教學改革提供有效的理論與實踐決策 依據(jù),在分析影響高校學生學習成績因素中具有較好的作用。把這個 思想推廣開來,將數(shù)據(jù)挖掘技術(shù)應用在高校教學的各個方面,會得到 大量的有現(xiàn)實意義的結(jié)果,從而制定相應

11、的措施,來達到最終目的以 提高教育教學質(zhì)量。 1 概述 1.1 課題背景 隨著我國經(jīng)濟的發(fā)展,網(wǎng)絡已被應用到各個行業(yè),人們對網(wǎng)絡帶 來的高效率越來越重視,然而大量數(shù)據(jù)信息給人們帶來方便的同時, 也隨之帶來了許多新問題,大量數(shù)據(jù)資源的背后隱藏著許多重要的信 息,人們希望能對其進行更深入的分析,以便更好地利用這些數(shù)據(jù), 從中找出潛在的規(guī)律。那么,如何從大量的數(shù)據(jù)中提取并發(fā)現(xiàn)有用信 息以提供決策的依據(jù),已成為一個新的研究課題。 高校是教學和科研的重要基地,也是培養(yǎng)人才的重要場所,教學 管理工作當中的學生成績分析是高校管理工作的一個重要組成部分, 也是衡量高校管理水平的依據(jù)。從目前來看。各高校隨著招生

12、規(guī)模的 擴大,信息量大幅度增加,學校運行著各類管理系統(tǒng),存在著各類數(shù) 據(jù)庫,如有成績管理,學籍管理等。這些系統(tǒng)積累了大量的數(shù)據(jù),在 很大程度上提高了工作的效率,但在這樣的教學管理系統(tǒng)中,學校的 管理人員、教師和學生都只能通過查看,或者簡單的排序以及統(tǒng)計功 能來獲得數(shù)據(jù)表面的信息,由于缺乏信息意識和相應的技術(shù),隱藏在 這些大量數(shù)據(jù)中的信息一直沒有得到充分應用。如何對這些數(shù)據(jù)進行 重新分析利用,在原基礎上擴充高校教學管理系統(tǒng)的功能,從大量數(shù) 據(jù)中發(fā)現(xiàn)潛在規(guī)律,提高學校管理的決策性,是很多高校正在考慮的 問題。因此,對學生成績數(shù)據(jù)進行深入挖掘分析,找出影響學生學習 的各種潛在的因素,將會促進學校開展

13、更加具有針對性的個性化教育, 同時營造一種新的教學管理模式,進一步促進教學管理水平的提高。 1.2 發(fā)展現(xiàn)狀 目前將數(shù)據(jù)挖掘技術(shù)與學校學生成績分析管理系統(tǒng)相結(jié)合,通過 分析和處理系統(tǒng)中大量的學生成績數(shù)據(jù),從中挖掘潛在的規(guī)律及模式, 促使學校更好地開展教學工作,提高教學質(zhì)量,幫助教學管理者制定 教學計劃,使學生成績管理系統(tǒng)的功能能夠更加完善。 數(shù)據(jù)挖掘技術(shù)的研究在國外已經(jīng)有很多年的歷史,并且已經(jīng)取得 了豐碩的成果。世界上研究數(shù)據(jù)挖掘的組織、機構(gòu)和大學也有很多, 在國外高校的教學管理中,數(shù)據(jù)挖掘己成為提高教學管理質(zhì)量和教學 水平的有力工具,尤其是聚類分析技術(shù)的應用。而國內(nèi)對數(shù)據(jù)挖掘與 知識發(fā)現(xiàn)的研

14、究與國外相比較晚,也沒有形成相對整體的力量,對數(shù) 據(jù)挖掘的研究討論太多集中在對數(shù)據(jù)挖掘相關算法的介紹和改進上, 數(shù)據(jù)挖掘在各領域的運用與實踐并不普遍。到近幾年,數(shù)據(jù)挖掘作為 新型的數(shù)據(jù)庫技術(shù),已經(jīng)被成功地應用在許多企業(yè)公司中,在提高企 業(yè)管理效率和經(jīng)濟效益等多個方面都有明顯的效果。但相對而言,數(shù) 據(jù)挖掘技術(shù)在教育領域的應用仍比較少,將數(shù)據(jù)挖掘技術(shù)引入高校教 學管理中,對現(xiàn)存的數(shù)據(jù)進行多角度的分析,為學生、教師和管理者 提供更多的服務,并找出對教學管理,學生學習有價值用的信息,這 些信息對輔助管理者決策,提高學生競爭力,無疑將具有較強的實用 價值。 目前,在高校學生成績管理中,影響學生學習成績的

15、因素很多, 因此要進行綜合分析。傳統(tǒng)分析無非是得到均值、方差等一些簡單的 分析結(jié)果,往往還是基于教學本身。其實,還有一些教學中不易察覺 的因素和教學以外的因素影響學生學習成績,這些都需要進一步分析, 從而得出結(jié)論,為教學管理人員及學生做出相應的決策。 1.3 課題意義 近幾年,隨著高校學生人數(shù)大幅度增加,以及教學管理模式的轉(zhuǎn) 變(如學分制)等都給學校的教務管理工作帶來了諸多向題,使得教務 管理越來越復雜。同時也對學校教學管理工作的科學性、規(guī)范性、服 務性提出了更高的要求。學生成績作為考核學習結(jié)果的一項重要指標, 不僅是對學生學習效果和教師教學效果的檢測和評價,而且更是一種 具有反饋于教學活動、

16、服務于教學策略、為教育科研提供數(shù)據(jù)資料等 作用的信息。然而,目前普遍使用的成績分析方法一般只能得到均值、 方差等一類信息,且僅僅是從一門課程獨立數(shù)據(jù)進行的分析,但在實 際教學中,比如學生在學習某一門課程時,是哪一門或者幾門課程對 其影響很大,包括教學以外的哪些因素對學生成績造成了較大的影響 等各種有價值的信息往往無法獲知。 目前在學校的本科教學數(shù)據(jù)庫中存放著歷屆學生的各科考試成績, 海量的數(shù)據(jù)只是單純的記載了數(shù)據(jù)信息,卻很難直觀的從這些數(shù)據(jù)中 發(fā)現(xiàn)其背后所隱藏的信息。然而事實上,無論是課程與課程之間,還 是每門課程中的知識點之間,以及學生的成績與課程的設置之間都存 在著千絲萬縷的聯(lián)系?,F(xiàn)階段已

17、有的數(shù)據(jù)并沒有發(fā)揮其真正的價值, 為了解決這一問題,可以利用數(shù)據(jù)挖掘技術(shù)對這些數(shù)據(jù)進行合理的利 用和深層的分析,從而更好的指導教師在教學中的工作。 1.4 本文研究內(nèi)容 本文利用所學的數(shù)據(jù)挖掘技術(shù),針對學生在分專業(yè)前的各主要學 科的成績構(gòu)成(參考我校計本 06 級的成績構(gòu)成) ,對數(shù)據(jù)進行選擇, 預處理,數(shù)據(jù)挖掘以及對模式進行評估。運用聚類技術(shù)分析學生對哪 個專業(yè)的強弱選擇,從而為具有不同成績特征的同學在專業(yè)選擇及分 專業(yè)后如何開展學習提供一定的參考意見,同時對我校教學及管理工 作也將具有重大的指導作用和現(xiàn)實意義。把這個理論研究思想推廣開 來,將數(shù)據(jù)挖掘技術(shù)應用在高校教學的各個方面,應該會得到

18、大量的 有現(xiàn)實意義的結(jié)果,從而制定相應的措施,提高教育教學質(zhì)量。 2 數(shù)據(jù)挖掘理論概述 2.1 數(shù)據(jù)挖掘概述 數(shù)據(jù)挖掘是集統(tǒng)計學、人工智能、模式識別、并行計算、機器學 習、數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫、數(shù)據(jù)可視化和信息檢索等技術(shù)的一個交 叉性學科。數(shù)據(jù)挖掘是數(shù)據(jù)倉庫之上的一種應用。但是數(shù)據(jù)挖掘不限 于分析數(shù)據(jù)倉庫中的數(shù)據(jù),它執(zhí)行關聯(lián)、分類、預測、聚類、時間序 列分析等任務,而且數(shù)據(jù)挖掘應用范圍也相對較廣。 2.1.1 數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘,它是從大量數(shù)據(jù)中提取可信的、新穎的、有效的并能 被人們理解的模式的處理過程。它是一門新興的交叉學科,匯集了來 自機器學習、模式識別、數(shù)據(jù)庫、統(tǒng)計學、人工智能等各

19、領域的研究 成果。這個定義可從以下四個層次來理解: (1)數(shù)據(jù)源是大量的、可信的、有效的; (2)發(fā)現(xiàn)的是用戶感興趣的知識; (3)發(fā)現(xiàn)的知識是可理解、可運用的,通常是能用自然語言描述 的結(jié)果; (4)數(shù)據(jù)挖掘所發(fā)現(xiàn)的結(jié)果通常是相對的,是在某個特定前提和 約束條件下,面對某個特定領域有價值的知識。 也有人把數(shù)據(jù)挖掘視為從數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟, 知識發(fā)現(xiàn)過程以下步驟組成:(1)數(shù)據(jù)清理,(2)數(shù)據(jù)集成,(3)數(shù)據(jù) 選擇,(4)數(shù)據(jù)變換,(5)數(shù)據(jù)挖掘,(6)模式評估,(7)知識表示。數(shù) 據(jù)挖掘可以與用戶或知識庫交互。 2.1.2 數(shù)據(jù)挖掘的過程 數(shù)據(jù)挖掘是一個復雜的多階段過程,如圖

20、 2.1 所示,主要可以分 為如下幾個主要階段: (1)確定挖掘?qū)ο螅豪斫鈹?shù)據(jù),提出問題,對挖掘目標有明確的 定義。認清數(shù)據(jù)挖掘技術(shù)在學生成績分析中的應用研究數(shù)據(jù)挖掘的目 的是數(shù)據(jù)挖掘的重要一步,挖掘的最后結(jié)果往往是不可預測的,但對 要探索的問該是要有預見的,即明確挖掘的最終目標。 (2)數(shù)據(jù)準備:數(shù)據(jù)準備為挖掘提供高質(zhì)量的輸入數(shù)據(jù),是保證 挖掘得以成功的前提條件,在整個數(shù)據(jù)挖掘過程中所占比重也最大。 數(shù)據(jù)準備可分為 3 個子步驟:數(shù)據(jù)選擇(Data Selection)、數(shù)據(jù)預處 理(Data Processing)和數(shù)據(jù)轉(zhuǎn)換(Data Transformation)。 數(shù)據(jù)選擇。收集所有與

21、挖掘相關的內(nèi)部和外部的數(shù)據(jù)信息, 獲取原始的數(shù)據(jù),從中選擇出適用于數(shù)據(jù)挖掘應用的數(shù)據(jù),建立數(shù)據(jù) 挖掘庫或數(shù)據(jù)倉庫。 數(shù)據(jù)預處理。對數(shù)據(jù)進行初步的整理,包括去除噪聲和與挖 掘目標明顯無關的數(shù)據(jù)等,使之符合數(shù)據(jù)挖掘的要求。消除空白數(shù)據(jù) 域和重復的記錄,清洗不完全的數(shù)據(jù)等,為下一步分析作好準備。 數(shù)據(jù)的轉(zhuǎn)換。根據(jù)將要使用的挖掘方法,將數(shù)據(jù)轉(zhuǎn)換成易于 進行挖掘的數(shù)據(jù)存儲形式。 (3)數(shù)據(jù)挖掘:數(shù)據(jù)挖掘的核心是模式發(fā)現(xiàn),利用數(shù)據(jù)挖掘工具 和方法對所有得到已經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進行分析,搜索或產(chǎn)生一個特定 的感興趣的模式或一個特定的數(shù)據(jù)集。 (4)結(jié)果分析:對挖掘結(jié)果進行分析驗證,保證發(fā)現(xiàn)模式的正確 性,從中找

22、到有價值的信息。 (5)知識表示:將挖掘出的模式與規(guī)則以直觀、容易理解的方式 呈現(xiàn)給用戶,例如把分類決策樹 挖掘的結(jié)果表示為“ifthen”的形式。 圖 2.1 數(shù)據(jù)挖掘的過程圖 2.2 聚類分析 在數(shù)據(jù)庫中的知識發(fā)現(xiàn)和數(shù)據(jù)挖掘(KDDM)受到目前人工智能與 數(shù)據(jù)庫界的廣泛重視。KDDM 的目的是從海量的數(shù)據(jù)中提取人們感興趣 的、有價值的知識和重要的信息,聚類則是 KDDM 領域中的一個重要 分支。所謂聚類是將物理或抽象的集合分組成為類似的對象組成的多 個類的過程。 2.2.1 聚類分析概述 聚類分析就是將一組數(shù)據(jù)分組,使其具有最大的組內(nèi)相似性和最 小的組間相似性。簡單的說就是達到不同聚類中的

23、數(shù)據(jù)盡可能不同, 而同一聚類中的數(shù)據(jù)盡可能相似,它與分類不同,分類是對于目標數(shù) 據(jù)庫中存在哪些類這一信息是知道的,所要做的就是將每一條記錄分 別屬于哪一類標記出來;而聚類是在預先不知道目標數(shù)據(jù)庫到底有多 少類的情況下,希望將所有的記錄組成不同的簇或者說“聚類” ,并 且使得在這種分類情況下,以某種度量為標準的相似性,在同一聚類 之間最小化,而在不同聚類之間最大化。事實上,聚類算法中很多算 法的相似性都基于距離而且由于現(xiàn)實數(shù)據(jù)庫中數(shù)據(jù)類型的多樣性,關 于如何度量兩個含有非數(shù)值型字段的記錄之間的距離的討論有很多, 并提出了相應的算法。聚類分析的算法可以分為以下幾類:劃分方法、 層次方法、基于密度方

24、法等。 2.2.2 聚類分析原理方法 在數(shù)據(jù)挖掘技術(shù)中,聚類分析主要有以下幾種方法。 (1)劃分法(Partitioning Methods) 劃分法給定一個有 N 個元組或者記錄的數(shù)據(jù)集,構(gòu)造 K 個分組, 每一個分組就代表一個聚簇,K另存為,在 彈出的對話框中,文件名輸入“Mark” ,保存類型選擇“CSV( 逗號分 隔)” ,保存,便可得到“Mark.csv”文件。其結(jié)果如圖 4.1 所示: 圖 4.1 數(shù)據(jù)文件窗口圖 打開 WEKA 軟件的 Exporler,點擊 Open file 按鈕,打開剛得到的 “Mark.csv”文件,點擊“Save”按鈕,在彈出的對話框中,文件名 輸入“M

25、ark” ,文件類型選擇“Arff date files (*.arff)”,這樣就 得到的數(shù)據(jù)文件為“Mark.arff” 。 4.1.2 數(shù)據(jù)預處理 (1)聚類數(shù)據(jù)的預處理 現(xiàn)實世界中的數(shù)據(jù)庫存在大量的噪聲數(shù)據(jù)、空缺數(shù)據(jù)和不一致數(shù) 據(jù)?;虮磉_數(shù)據(jù)也存在這種情況。有很多數(shù)據(jù)預處理技術(shù)可以去掉 數(shù)據(jù)中的噪聲,糾正不一致。為了提高涉及距離度量的聚類算法的精 度和有效性,可以采用數(shù)據(jù)規(guī)范化的一些方法。 (2)數(shù)據(jù)清理 在實際數(shù)據(jù)庫中往往存在著一些空缺值和噪音數(shù)據(jù)。對于空缺值, 可以采用以下方法填寫空缺值。 1)人工填寫空缺值。這種方法對操作人員要求較高。并且,該 方法很費時,當數(shù)據(jù)集很大時,該方

26、法可能行不通。 2)使用該空缺值所在屬性的平均值來填充。比如當進行樣本聚 類時,如果某個樣本在某個指標值上的值空缺,可使用其它樣本在該 指標上的平均值來填充該空缺值。對于噪聲數(shù)據(jù),我們可以采用一些 數(shù)據(jù)平滑技術(shù)來平滑數(shù)據(jù)。 3)數(shù)據(jù)規(guī)范化。如果數(shù)據(jù)庫中的各屬性的量綱和單位不同,在 計算機對象間的距離之前,必須把不同的度量單位統(tǒng)一成相同的度量 單位。由于屬于不同概念范疇的屬性具有不同的含義,把所有的屬性 轉(zhuǎn)化成某個特定的度量單位是不可能的。常用的方法是把屬性的值域 映射為一個相同的區(qū)間(通常是0,1區(qū)間) ,這個過程成為屬性的 標準化或規(guī)范化。 K-means 算法只能處理數(shù)值型的屬性,遇到分類

27、型的屬性時要把 它變?yōu)槿舾蓚€取值 0 和 1 的屬性。WEKA 將自動實施這個分類型到數(shù)值 型的變換,而且 WEKA 會自動對數(shù)值型的數(shù)據(jù)作標準化。因此,對于 ARFF 格式的原始數(shù)據(jù)“Mark.arff” ,我們所做的預處理只是刪除去屬 性“ID” 。修改過程可以在 Ultredit 中更改,由于本文分析的數(shù)據(jù)是 高校學生成績,其屬性都是數(shù)值型,所以只刪除“ID”即可,其它不 需要修改。其結(jié)果如圖 4.2 所示: 圖 4.2 數(shù)據(jù)處理窗口圖 這樣最終得到的數(shù)據(jù)文件為“Mark.arff” ,含有 500 條實例。 4.1.3 算法應用 打開 WEKA 軟件中的 Exporler,點擊剛才得到

28、的“Mark.arff”, 出現(xiàn)下面的窗口,如圖 4.3 所示: 圖 4.3 數(shù)據(jù)分析主窗口圖 點擊右下角的“Visualize All”可以看到所有學生實例各科成 績的直方分布圖,如下圖 4.4 所示: 圖 4.4 數(shù)據(jù)直方分布圖 切換到“Cluster”,點“Choose”按鈕選擇“SimpleKMeans”, 這是 WEKA 中實現(xiàn) K 均值的算法。點擊旁邊的文本框,修改 “numClusters”為 3,說明希望把這 500 條實例分成三個方向,即 K=3。下面的“seed”參數(shù)是要設置一個隨機種子,依此產(chǎn)生一個隨 機數(shù),用來得到 K 均值算法中第一次給出的 K 個簇中心的位置。默認

29、值為 10。如下圖 4.5 所示: 圖 4.5 K-means 參數(shù)設置窗口 選中“Cluster Mode”的“Use Training set” ,點擊“Start” 按鈕,觀察右邊“Cluster Output”給出的聚類結(jié)果如下: = Run information = Scheme: weka.clusterers.SimpleKMeans -N 3 -S 10 Relation: MARK- weka.filters.unsupervised.attribute.Remove-R1 Instances: 500 Attributes: 8 CompilingPrinciple Co

30、mputerNetwork SoftwareEngineer DateBase OperationSystem Java ArtificialIntelligence Sex Test mode: evaluate on training data = Model and evaluation on training set = kMeans = Number of iterations: 10 Within cluster sum of squared errors: 169.165 Cluster centroids: Cluster 0 Mean/Mode: 70.2938 69.381

31、3 69.2438 69.9313 68.5313 72.3625 74.075 MALE Std Devs: 7.1635 7.8699 6.8283 7.2295 6.4884 7.5715 7.1722 N/A Cluster 1 Mean/Mode: 77.8683 75.278 79.4098 77.3463 77.7463 78.3317 76.0146 MALE Std Devs: 8.0231 8.0212 7.9501 8.083 7.9492 8.2775 7.7444 N/A Cluster 2 Mean/Mode: 75.1926 72.5037 74.6519 73.

32、8593 75.1926 74.4444 74.3259 FEMALE Std Devs: 9.6278 9.0289 9.0672 8.1819 9.0211 8.3966 8.4516 N/A Clustered Instances 0 160 ( 32%) 1 205 ( 41%) 2 135 ( 27%) 也可以在左下角“Result list”中這次產(chǎn)生的結(jié)果上點右鍵, “View in separate window”在新窗口中瀏覽結(jié)果。 4.2 結(jié)果分析 4.2.1 聚類結(jié)果 下面對聚類結(jié)果進行解釋。觀察上述聚類結(jié)果,注意到結(jié)果中有 這么一行: Within cluster su

33、m of squared errors: 169.165 這是評價聚類好壞的標準,數(shù)值越小說明同一簇實例之間的距離 越小。然而在每次的實驗分析中,也許你得到的數(shù)值會不一樣;實際 上如果把“seed”參數(shù)改一下,得到的這個數(shù)值就可能會不一樣。在 進行數(shù)據(jù)分析時,應當多嘗試幾個 seed,并采納這個數(shù)值最小的結(jié)果。 在“Cluster centroids:”之后列出了各個簇中心的位置。對 于數(shù)值型的屬性,簇中心就是它的均值(Mean) ;分類型的屬性,其 簇中心就是它的眾數(shù)(Mode) ,也就是說這個屬性上的取值為眾數(shù)值 的實例最多。對于數(shù)值型屬性,顯示的結(jié)果中還給出了它在各個簇里 的標準差(St

34、d Devs) ,標準差能反映一個數(shù)據(jù)集的離散程度。平均 數(shù)相同的,標準差未必相同。標準差越高,表示實驗數(shù)據(jù)越離散 , 也就是說越不精確 ;反之,標準差越低,代表實驗的數(shù)據(jù)越精確 。 最后得到的“Clustered Instances”是各個簇中實例的數(shù)目及 所占總實例的百分比。 為了得到可視化的聚類結(jié)果,我們在左下方 “Result list” 列出的結(jié)果上右擊, 點“Visualize cluster assignments”。彈出 的窗口給出了各實例的散點圖 。結(jié)果如下圖 4.6 所示: 圖 4.6 實例散點圖窗口 其中,最上方的兩個框是選擇橫坐標和縱坐標,第二行的 “color”是散點

35、圖著色的依據(jù),默認是根據(jù)不同的簇“Cluster”給 實例標上不同的顏色。在本文對學生成績分析的應用當中,橫坐標和 縱坐標都選擇簇數(shù)目,下面第二行的“color”選擇實例數(shù)目,即反 映相應的簇中聚集的實例的多少。 另外,在散點圖上單擊某個簇,則會彈出如下的窗口,如圖 4.7 所示: 圖 4.7 某簇中的實例信息圖 這個窗口里面的內(nèi)容反映的是某個具體的實例在那個簇中,并且 顯示出該實例的具體信息。如上圖結(jié)果:“Instance:202”表示這 是第 202 個實例,下面顯示該學生實例的屬性(各科成績及性別) , 還有該實例所屬的簇是具體的那個簇(這個實例是該簇當中隨機的一 個實例) 。 我們隨機

36、選取 3 個簇里所包含的五個實例,其結(jié)果如下所示: Plot : 21:20:47 - SimpleKMeans (MARK- weka.filters.unsupervised.attribute.Remove-R1) Instance: 28 Instance_number : 28.0 CompilingPrinciple : 60.0 ComputerNetwork : 60.0 SoftwareEngineer : 71.0 DateBase : 68.0 OperationSystem : 75.0 Java : 78.0 ArtificialIntelligence : 83.0

37、 Sex : MALE Cluster : cluster0 Plot : 21:20:47 - SimpleKMeans (MARK- weka.filters.unsupervised.attribute.Remove-R1) Instance: 108 Instance_number : 108.0 CompilingPrinciple : 76.0 ComputerNetwork : 62.0 SoftwareEngineer : 63.0 DateBase : 60.0 OperationSystem : 65.0 Java : 65.0 ArtificialIntelligence

38、 : 70.0 Sex : MALE Cluster : cluster0 Plot : 21:20:47 - SimpleKMeans (MARK- weka.filters.unsupervised.attribute.Remove-R1) Instance: 206 Instance_number : 206.0 CompilingPrinciple : 68.0 ComputerNetwork : 81.0 SoftwareEngineer : 64.0 DateBase : 63.0 OperationSystem : 83.0 Java : 76.0 ArtificialIntel

39、ligence : 64.0 Sex : MALE Cluster : cluster0 Plot : 21:20:47 - SimpleKMeans (MARK- weka.filters.unsupervised.attribute.Remove-R1) Instance: 230 Instance_number : 230.0 CompilingPrinciple : 71.0 ComputerNetwork : 69.0 SoftwareEngineer : 67.0 DateBase : 82.0 OperationSystem : 70.0 Java : 64.0 Artifici

40、alIntelligence : 69.0 Sex : MALE Cluster : cluster0 Plot : 21:20:47 - SimpleKMeans (MARK- weka.filters.unsupervised.attribute.Remove-R1) Instance: 266 Instance_number : 266.0 CompilingPrinciple : 80.0 ComputerNetwork : 70.0 SoftwareEngineer : 75.0 DateBase : 68.0 OperationSystem : 68.0 Java : 62.0 A

41、rtificialIntelligence : 84.0 Sex : MALE Cluster : cluster0 Plot : 21:20:47 - SimpleKMeans (MARK- weka.filters.unsupervised.attribute.Remove-R1) Instance: 17 Instance_number : 17.0 CompilingPrinciple : 88.0 ComputerNetwork : 62.0 SoftwareEngineer : 69.0 DateBase : 82.0 OperationSystem : 76.0 Java : 7

42、8.0 ArtificialIntelligence : 82.0 Sex : MALE Cluster : cluster1 Plot : 21:20:47 - SimpleKMeans (MARK- weka.filters.unsupervised.attribute.Remove-R1) Instance: 104 Instance_number : 104.0 CompilingPrinciple : 90.0 ComputerNetwork : 63.0 SoftwareEngineer : 78.0 DateBase : 85.0 OperationSystem : 86.0 J

43、ava : 79.0 ArtificialIntelligence : 78.0 Sex : MALE Cluster : cluster1 Plot : 21:20:47 - SimpleKMeans (MARK- weka.filters.unsupervised.attribute.Remove-R1) Instance: 233 Instance_number : 233.0 CompilingPrinciple : 85.0 ComputerNetwork : 67.0 SoftwareEngineer : 73.0 DateBase : 68.0 OperationSystem :

44、 80.0 Java : 83.0 ArtificialIntelligence : 88.0 Sex : MALE Cluster : cluster1 Plot : 21:20:47 - SimpleKMeans (MARK- weka.filters.unsupervised.attribute.Remove-R1) Instance: 259 Instance_number : 259.0 CompilingPrinciple : 85.0 ComputerNetwork : 83.0 SoftwareEngineer : 70.0 DateBase : 69.0 OperationS

45、ystem : 80.0 Java : 74.0 ArtificialIntelligence : 74.0 Sex : MALE Cluster : cluster1 Plot : 21:20:47 - SimpleKMeans (MARK- weka.filters.unsupervised.attribute.Remove-R1) Instance: 321 Instance_number : 321.0 CompilingPrinciple : 74.0 ComputerNetwork : 76.0 SoftwareEngineer : 68.0 DateBase : 75.0 Ope

46、rationSystem : 84.0 Java : 86.0 ArtificialIntelligence : 83.0 Sex : MALE Cluster : cluster1 Plot : 21:20:47 - SimpleKMeans (MARK- weka.filters.unsupervised.attribute.Remove-R1) Instance: 93 Instance_number : 93.0 CompilingPrinciple : 97.0 ComputerNetwork : 60.0 SoftwareEngineer : 88.0 DateBase : 82.

47、0 OperationSystem : 93.0 Java : 67.0 ArtificialIntelligence : 92.0 Sex : FEMALE Cluster : cluster2 Plot : 21:20:47 - SimpleKMeans (MARK- weka.filters.unsupervised.attribute.Remove-R1) Instance: 140 Instance_number : 140.0 CompilingPrinciple : 67.0 ComputerNetwork : 69.0 SoftwareEngineer : 67.0 DateB

48、ase : 68.0 OperationSystem : 76.0 Java : 89.0 ArtificialIntelligence : 60.0 Sex : FEMALE Cluster : cluster2 Plot : 21:20:47 - SimpleKMeans (MARK- weka.filters.unsupervised.attribute.Remove-R1) Instance: 395 Instance_number : 395.0 CompilingPrinciple : 89.0 ComputerNetwork : 81.0 SoftwareEngineer : 8

49、4.0 DateBase : 85.0 OperationSystem : 66.0 Java : 78.0 ArtificialIntelligence : 88.0 Sex : FEMALE Cluster : cluster2 Plot : 21:20:47 - SimpleKMeans (MARK- weka.filters.unsupervised.attribute.Remove-R1) Instance: 433 Instance_number : 433.0 CompilingPrinciple : 71.0 ComputerNetwork : 69.0 SoftwareEng

50、ineer : 63.0 DateBase : 65.0 OperationSystem : 90.0 Java : 63.0 ArtificialIntelligence : 76.0 Sex : FEMALE Cluster : cluster2 Plot : 21:20:47 - SimpleKMeans (MARK- weka.filters.unsupervised.attribute.Remove-R1) Instance: 488 Instance_number : 488.0 CompilingPrinciple : 69.0 ComputerNetwork : 75.0 So

51、ftwareEngineer : 65.0 DateBase : 65.0 OperationSystem : 82.0 Java : 68.0 ArtificialIntelligence : 83.0 Sex : FEMALE Cluster : cluster2 Plot : 21:20:47 - SimpleKMeans (MARK- weka.filters.unsupervised.attribute.Remove-R1) Instance: 489 Instance_number : 489.0 CompilingPrinciple : 70.0 ComputerNetwork

52、: 74.0 SoftwareEngineer : 80.0 DateBase : 69.0 OperationSystem : 66.0 Java : 83.0 ArtificialIntelligence : 85.0 Sex : FEMALE Cluster : cluster2 4.2.2 結(jié)果分析 根據(jù)上述散點圖所得每個簇里的相應實例結(jié)果,分析發(fā)現(xiàn): 在 Cluster0 簇里有 160 個實例,占總實例的 32%,其中男生相對 較多;根據(jù)這個簇里面各實例的成績可以看出,CompilingPrinciple 和 ArtificialIntelligence 兩門課程成績相對比較高,

53、CompilingPrinciple 正是硬件方向的主修課程,而從 ArtificialIntelligence 課程中可以學到有關硬件方面的編程思想等; 同時應有較強的動手能力,對計算機的硬件構(gòu)成有一定基礎,要有創(chuàng) 新的意識。在我們分析的數(shù)據(jù)實例中,這類學生在分專業(yè)時選擇了硬 件方向。故在以后計算機專業(yè)的學生在分方向時,對 CompilingPrinciple 和 ArtificialIntelligence 這兩門課程感興趣, 對計算機硬件結(jié)構(gòu)及系統(tǒng)有一定了解,具有較強動手能力和創(chuàng)新意識 的同學可以選擇硬件方向。 在 Cluster1 簇里有 205 個實例,占總實例的 41%,其中男生相

54、對 較多;根據(jù)該簇里面各實例的成績可以看出,ComputerNetwork 和 OperationSystem 兩門課程成績相對較好,而且 ComputerNetwork 是 網(wǎng)絡方向的基礎課程,并且網(wǎng)絡方向要求有較高的命令識別能力,這 個方向還要有軟件方面的基礎知識給予支持,而 OperationSystem 正 是一門有效的計算機軟件方面的基礎知識課程。在我們所分析的數(shù)據(jù) 實例中,這類的學生在分專業(yè)時選擇了網(wǎng)絡方向。因此,在以后計算 機專業(yè)的學生在分方向時,對 ComputerNetwork 感興趣,同時有一定 的 OperationSystem 方面的知識,對計算機常用的命令有很強的識別

55、 能力的同學可以選擇網(wǎng)絡方向。 在 Cluster2 簇里有 135 個實例,占總實例的 27%,其中女生相對 較多;根據(jù)這個簇里面各實例的成績可以看出,SoftwareEngineer 和 ArtificialIntelligence 兩門課程成績相對比較高,而且這些課 程正是軟件方向的核心課程,其要求思維周密,要有耐心,并且有創(chuàng) 新的意識。根據(jù)本文所分析的數(shù)據(jù)來看,這類的學生在分專業(yè)時選擇 了軟件方向。所以在以后計算機專業(yè)的學生在分方向時,對 SoftwareEngineer 和 ArtificialIntelligence 這兩門課程感興趣, 成績好,并且思維周密,有耐心、創(chuàng)新意識的同學

56、可以選擇軟件方向。 4.3 結(jié)論 本論文通過對數(shù)據(jù)挖掘中聚類算法的分析與應用,實現(xiàn)了高校學 生成績的有效分析處理。聚類分析就是將一組數(shù)據(jù)分組,使其具有最 大的組內(nèi)相似性和最小的組間相似性。簡單的說就是達到不同聚類中 的數(shù)據(jù)盡可能不同,而同一聚類中的數(shù)據(jù)盡可能相似。利用聚類分析 的這個原理,對我校計算機專業(yè)學生在分專業(yè)方向前的各主要學科的 成績構(gòu)成,對數(shù)據(jù)進行選擇,預處理,數(shù)據(jù)挖掘以及對模式進行評估。 最后將 500 個實例聚成 3 個簇(即分三個方向) ,同時,分析出學生 根據(jù)自身的學習狀況及喜好來選擇自己適合的專業(yè)方向。從而為具有 不同成績特征的同學在專業(yè)選擇及分專業(yè)后如何開展學習提供一定的

57、 參考意見。此外,對我校教學及管理工作也將具有重大的指導作用和 現(xiàn)實意義。 總結(jié) 經(jīng)過了兩個多月的學習和工作,完成了聚類技術(shù)在學生成績分 析中的應用的論文。從開始接到論文題目到畢業(yè)設計論文的完成, 每走一步對我來說都是新的嘗試與挑戰(zhàn),這也是我在大學期間獨立完 成的一個大的項目。在這段時間里,我學到了很多知識也有很多感受, 對數(shù)據(jù)挖掘這門課程從陌生到熟悉,對 WEKA 等相關數(shù)據(jù)分析軟件也 有了相對程度的操作,使我開始了獨立的學習和試驗;查看相關的資 料和書籍,讓自己頭腦中模糊的概念逐漸清晰,使自己的作品一步步 完善起來,每一次改進都是我學習的收獲。從中我也充分認識到了畢 業(yè)設計給我們生活帶來的

58、樂趣。 在聚類技術(shù)在學生成績分析中的應用論文中,主要完成對在校學 生分專業(yè)前的成績進行分析處理,利用 WEKA 軟件有效地對成績進行 深層次挖掘,得出比較合理的結(jié)果,讓學生在以后分專業(yè)時能夠得以 參考。由于時間比較緊,論文當中還有些因素沒有分析到,在以后的 工作學習中我會去進一步的完善。不斷的努力、不斷的去探索更多的 知識。 但在這次畢業(yè)設計的過程中,我深深的體會到理論和實際操作銜 接的重要性。以前自己只注重課本知識,沒能積極的訓練自己的實際 操作能力,又加上以前所掌握的知識欠缺,必然在這次畢設的過程中 帶來很大的困難。但是我沒有氣餒,虛心向別人學習,到圖書館查閱 資料等,逐漸熟悉理解了。 其

59、實,通過這次畢業(yè)設計不僅學會了使用幾門軟件,我覺得這樣 的過程還是相當重要的,使我對這四年所學知識能夠融會貫通,又不 斷豐富了新知識同時也培養(yǎng)了解決困難的信心和能力,對我以后參加 工作奠定了堅實的基礎。 致謝 在本次畢業(yè)設計中,我從指導老師李明姣老師身上學到了很多東 西。李老師認真負責的工作態(tài)度,嚴謹求實的治學精神和深厚扎實的 理論水平使得我受益匪淺。她不斷的通過電話、郵件、面談的各種途 徑為我們的畢業(yè)論文設計給出有效的指導與意見,為我們出謀劃策, 每一次交換意見后都對存在的問題有了更深的理解,同時也有了解決 問題的思路框架。此外,李老師也積極的組織會議給我們講解了畢業(yè) 論文的寫作規(guī)范及布置、

60、以及答辯的相關事宜和其他事項。無論在理 論上還是在實踐中,李老師都給予我很大的幫助,使我得到長足的進 步,順利地完成了畢業(yè)設計。 不積跬步何以至千里。這次做畢業(yè)論文的經(jīng)歷也會使我終身受益, 我感受到做論文是要真真正正用心去做的一件事情,是真正的自己學 習的過程和研究的過程,沒有學習就不可能有研究的能力,沒有自己 的研究,就不會有所突破,本論文能夠順利的完成,也歸功于各位任 課老師的認真負責,和同學的熱心幫助,使我能夠很好的掌握和運用 專業(yè)知識,并在論文中得以體現(xiàn)。正是有了他們的悉心幫助和支持, 才使我的畢業(yè)論文工作順利完成。 在此向陜西理工學院計算機系的全體老師表示衷心的感謝,感謝 他們四年來

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論