數(shù)據(jù)挖掘課程設(shè)計_第1頁
數(shù)據(jù)挖掘課程設(shè)計_第2頁
數(shù)據(jù)挖掘課程設(shè)計_第3頁
數(shù)據(jù)挖掘課程設(shè)計_第4頁
數(shù)據(jù)挖掘課程設(shè)計_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖掘報告目錄一.項目名稱 5二.項目介紹 5三.項目工具 51.MicrosoftOfficeWord 62.MicrosoftOfficeExcel 63.Anaconda: 6四.?dāng)?shù)據(jù)文件預(yù)處理 71.數(shù)據(jù)預(yù)處理方法: 7(1)數(shù)據(jù)清理 7(2)數(shù)據(jù)集成 7(3)數(shù)據(jù)變換 8(4)數(shù)據(jù)歸約 82.異常值的分析 10(1)簡單的統(tǒng)計量分析: 10(2)箱型圖分析 10五.?dāng)?shù)據(jù)分析 121.繪制餅狀圖 12六.挖掘建模 141.算法實現(xiàn)過程: 142.具體實現(xiàn)代碼及過程 15七.?dāng)?shù)據(jù)挖掘過程 16摘要學(xué)生成績是反應(yīng)學(xué)校教學(xué)水平第一手資料,這些數(shù)據(jù)能夠為學(xué)校改進教育教學(xué)提供主要依據(jù)。然而,現(xiàn)階段學(xué)生成績分析,多數(shù)還停留在較為原始數(shù)據(jù)庫管理和查詢階段,沒有對學(xué)生成績進行橫向和縱向?qū)Ρ妊芯?也缺乏對各學(xué)科成績之間內(nèi)在聯(lián)絡(luò)挖掘。為此,學(xué)校將數(shù)據(jù)挖掘技術(shù)與學(xué)校學(xué)生成績分析管理系統(tǒng)相結(jié)合,經(jīng)過分析和處理系統(tǒng)中大量學(xué)生成績數(shù)據(jù),尋找潛在規(guī)律及模式,促使學(xué)校愈加好地開展教學(xué)工作,提升教學(xué)質(zhì)量。AbstractStudentachievementisthefirst-handinformationreflectingtheteachinglevelofaschool.Thesedatacanprovideanimportantbasisforschoolstoimproveeducationandteaching.However,atthisstage,mostofthestudents'performanceanalysisstillstaysintherelativelyprimitivestageofdatabasemanagementandquery.Thereisnohorizontalandverticalcomparativestudyofstudents'performance,noristhereanyexcavationoftheinternallinksbetweentheperformanceofvariousdisciplines.Therefore,theschoolcombinesthedataminingtechnologywiththeschoolstudentachievementanalysismanagementsystem.Byanalyzingandprocessingalargenumberofstudentachievementdata,theschoolseeksforpotentialrulesandpatterns,andpromotestheschooltobettercarryoutteachingworkandimprovethequalityofteaching.項目名稱大學(xué)物理,模擬電子技術(shù)和計算機組成原理成績關(guān)系分析項目介紹大學(xué)物理,是大學(xué)理工科類一門基礎(chǔ)課程,經(jīng)過課程學(xué)習(xí),使學(xué)生熟悉自然界物質(zhì)結(jié)構(gòu),性質(zhì),相互作用及其運動基本規(guī)律,為后繼專業(yè)基礎(chǔ)與專業(yè)課程學(xué)習(xí)及深入獲取關(guān)于知識奠定必要物理基礎(chǔ)。但工科專業(yè)以力學(xué)基礎(chǔ)和電磁學(xué)為主要講課。經(jīng)過課程學(xué)習(xí),使學(xué)生逐步掌握物理學(xué)研究問題思緒和方法,在獲取知識同時,使學(xué)生擁有建立物理模型能力,定性分析、估算與定量計算能力,獨立獲取知識能力,理論聯(lián)絡(luò)實際能力都取得同時提升與發(fā)展。開闊思緒,激發(fā)探索和創(chuàng)新精神,增強適應(yīng)能力,提升其科學(xué)技術(shù)整體素養(yǎng)。經(jīng)過課程學(xué)習(xí),使學(xué)生掌握科學(xué)學(xué)習(xí)方法和形成良好學(xué)習(xí)習(xí)慣,形成辯證唯物主義世界觀和方法論。《計算機組成原理》是計算機科學(xué)與技術(shù)專業(yè)一門關(guān)鍵專業(yè)基礎(chǔ)課。經(jīng)過本課程學(xué)習(xí),使學(xué)生掌握計算機系統(tǒng)基本組成、計算機中數(shù)據(jù)表示方法、計算機各硬件部件功效和工作原理等,為學(xué)生學(xué)習(xí)計算機專業(yè)課打下堅實基礎(chǔ)。項目工具系統(tǒng):win10軟件:office,anaconda1.MicrosoftOfficeWordMicrosoftOfficeWord是微軟企業(yè)一個文字處理器應(yīng)用程序。Word給用戶提供了用于創(chuàng)建專業(yè)而優(yōu)雅文檔工具,幫助用戶節(jié)約時間,并得到優(yōu)雅美觀結(jié)果。一直以來,MicrosoftOfficeWord

都是最流行文字處理程序。作為Office套件關(guān)鍵程序,Word提供了許多易于使用文檔創(chuàng)建工具,同時也提供了豐富功效集供創(chuàng)建復(fù)雜文檔使用。哪怕只使用Word應(yīng)用一點文本格式化操作或圖片處理,也能夠使簡單文檔變得比只使用純文本更具吸引力。2.MicrosoftOfficeExcelMicrosoftExcel是Microsoft為使用Windows和AppleMacintosh操作系統(tǒng)電腦編寫一款電子表格軟件。直觀界面、出眾計算功效和圖表工具,再加上成功市場營銷,使Excel成為最流行個人計算機數(shù)據(jù)處理軟件。在1993年,作為MicrosoftOffice組件公布了5.0版之后,Excel就開始成為所適用操作平臺上電子制表軟件霸主。3.Anaconda:Anaconda指是一個開源Python發(fā)行版本,其包含了conda、Python等180多個科學(xué)包及其依賴項。

能夠用于在同一個機器上安裝不一樣版本軟件包及其依賴,并能夠在不一樣環(huán)境之間切換。Anaconda包含Conda、Python以及一大堆安裝好工具包,比如:numpy、pandas等。數(shù)據(jù)文件預(yù)處理在數(shù)據(jù)挖掘中,海量原始數(shù)據(jù)中存在著大量不完整、不一致、有異常數(shù)據(jù),嚴重影響到數(shù)據(jù)挖掘建模執(zhí)行效率,甚至可能造成挖掘結(jié)果偏差,所以進行數(shù)據(jù)清洗就顯得尤為主要,數(shù)據(jù)清洗完成后接著進行或者同時進行數(shù)據(jù)集成、變換、規(guī)約等一系列處理,該過程就是數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理首先是要提升數(shù)據(jù)質(zhì)量,另首先是要讓數(shù)據(jù)愈加好地適應(yīng)特定挖掘技術(shù)或工具。1.數(shù)據(jù)預(yù)處理方法:(1)數(shù)據(jù)清理數(shù)據(jù)清理例程經(jīng)過填寫缺失值、光滑噪聲數(shù)據(jù)、識別或刪除離群點并處理不一致性來“清理”數(shù)據(jù)。主要是達成以下目標(biāo):格式標(biāo)準化,異常數(shù)據(jù)去除,錯誤糾正,重復(fù)數(shù)據(jù)去除。(2)數(shù)據(jù)集成數(shù)據(jù)集成例程將多個數(shù)據(jù)源中數(shù)據(jù)結(jié)合起來并統(tǒng)一存放,建立數(shù)據(jù)倉庫過程實際上就是數(shù)據(jù)集成。(3)數(shù)據(jù)變換經(jīng)過平滑聚集,數(shù)據(jù)概化,規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適適用于數(shù)據(jù)挖掘形式。(4)數(shù)據(jù)歸約數(shù)據(jù)挖掘時往往數(shù)據(jù)量非常大,在少許數(shù)據(jù)上進行挖掘分析需要很長時間,數(shù)據(jù)歸約技術(shù)能夠用來得到數(shù)據(jù)集歸約表示,它小得多,但依然靠近于保持原數(shù)據(jù)完整性,并結(jié)果與歸約前結(jié)果相同或幾乎相同。因為數(shù)據(jù)文件信息較多且有很多數(shù)據(jù)和本課題無關(guān),為了降低資源和時間浪費,所以在進行分析前先將excel表格進行刪減和求和,優(yōu)化數(shù)據(jù),使數(shù)據(jù)愈加直觀便于分析。處理前數(shù)據(jù)如圖4-1所表示.處理后數(shù)據(jù)如圖4-2所表示。圖4-1表格數(shù)據(jù)處理前4-2處理后數(shù)據(jù)importpandasaspdcatering_sale='G:/scour.xlsx'data=pd.read_excel(catering_sale,index_col=u'學(xué)生')print(data.describe())print(len(data))圖4-3數(shù)據(jù)初篩結(jié)果上圖中Count代表數(shù)量,Mean代表均值,Std代表標(biāo)準差,Min代表最小值,50%代表中位數(shù),Max代表最大值。2.異常值分析異常值是指樣本中個別值,也稱為離群點,其數(shù)值顯著偏離其余觀察值。異常值分析是檢驗數(shù)據(jù)是否有錄入錯誤以及含有不合常理數(shù)據(jù)。無視異常值存在是十分危險,不加剔除地把異常值包含進數(shù)據(jù)計算分析過程中,對結(jié)果會產(chǎn)生不良影響;重視異常值出現(xiàn),分析其產(chǎn)生原因,經(jīng)常成為發(fā)覺問題進而改進決議契機。異常值是指樣本中個別值,其數(shù)值顯著偏離其余觀察值。異常值也稱為離群點,異常值分析也稱為離群點分析。(1)簡單統(tǒng)計量分析:我們能夠先對采集到數(shù)據(jù)做一個描述性估量,最慣用方法就是最大值與最小值.用來判斷這個變量是否超出常規(guī)人們了解等。(2)箱型圖分析箱型圖是判斷是判斷數(shù)據(jù)異常值最為直觀一個方法,他異常值被定義為可能出現(xiàn)在上四分位數(shù)以上部分與下四分位數(shù)以下部分.當(dāng)然,并不是說在這么范圍內(nèi)數(shù)都是異常值,不過能夠必定是,異常值是一定在這里產(chǎn)生。為了首先感知我們數(shù)據(jù)基本情況,在PythonPandas庫中,只需要讀入要處理數(shù)據(jù),然后使用describe()函數(shù),就能夠查看數(shù)據(jù)基本情況.這里面包括到數(shù)據(jù)很多屬性,比如說能夠查看缺失值,最小值,最大值等。這里我們使用了箱型圖分析,異常值檢測代碼以下:importpandasaspdcatering_sale='G:/scour.xlsx'data=pd.read_excel(catering_sale,index_col=u'學(xué)生')importmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=Falseplt.figure()p=data.boxplot(return_type='dict')x=p['fliers'][0].get_xdata()y=p['fliers'][0].get_xdata()y.sort()foriinrange(len(x)):ifi>0:plt.annotate(y[i],xy=(x[i],y[i]),xytext=(x[i]+0.05-0.8/(y[i]-y[i-1]),y[i]))else:plt.annotate(y[i],xy=(x[i],y[i]),xytext=(x[i]+0.08,y[i]))plt.show()得到檢驗結(jié)果以下列圖 2-6所表示: 4-6異常值檢測箱型圖數(shù)據(jù)分析數(shù)據(jù)分析是指用適當(dāng)統(tǒng)計方法對搜集來大量第一手資料和第二手資料進行分析,以求最大化地開發(fā)數(shù)據(jù)資料功效,發(fā)揮數(shù)據(jù)作用。是為了提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細研究和概括總結(jié)過程。數(shù)據(jù)也稱觀察值,是試驗、測量、觀察、調(diào)查等結(jié)果,常以數(shù)量形式給出。數(shù)據(jù)分析目標(biāo)與意義數(shù)據(jù)分析目標(biāo)是把隱沒在一大批看來雜亂無章數(shù)據(jù)中信息集中、萃取和提煉出來,以找出所研究對象內(nèi)在規(guī)律。1.繪制餅狀圖餅狀圖顯示一個數(shù)據(jù)系列(數(shù)據(jù)系列:在圖表中繪制相關(guān)數(shù)據(jù)點,這些數(shù)據(jù)源自數(shù)據(jù)表行或列。圖表中每個數(shù)據(jù)系列具備唯一顏色或圖案而且在圖表圖例中表示。能夠在圖表中繪制一個或多個數(shù)據(jù)系列。餅狀圖只有一個數(shù)據(jù)系列。)中各項大小與各項總和百分比。餅狀圖中數(shù)據(jù)點(數(shù)據(jù)點:在圖表中繪制單個值,這些值由條形、柱形、折線、餅狀圖或圓環(huán)圖扇面、圓點和其余被稱為數(shù)據(jù)標(biāo)識圖形表示。相同顏色數(shù)據(jù)標(biāo)識組成一個數(shù)據(jù)系列。)顯示為整個餅狀圖百分比。餅狀圖是以圓形代表研究對象整體,用以圓心為共同頂點各個不一樣扇形顯示各組成部分在整體中所占百分比,要注明各扇形所代表項目標(biāo)名稱(可用圖例表示)及其所占百分比。餅狀圖能夠比較清楚地反應(yīng)出部分與部分、部分與整體之間數(shù)量關(guān)系.易于顯示每組數(shù)據(jù)相對于總數(shù)大小.而且顯現(xiàn)方式直觀。為了使圖中數(shù)據(jù)愈加直觀,這里使用餅狀圖,代碼以下:importnumpyasupimportmatplotlib.mlabasmlabimportmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=Falselabels=['不及格','60-70','70-80','80-90','90-100']X=[9,17,7,2,0]fig=plt.figure()plt.pie(X,labels=labels,autopct='%1.2f%%')plt.title('大學(xué)物理1成績分布圖')所得到餅狀圖為大學(xué)物理1,以下列圖5-1所表示:圖5-1物理成績分布圖按照以上方法,分別得到物理,組成原理,以下列圖5-2,圖5-3,所表示:圖5-4組成原理成績分布圖挖掘建模本課題研究是對大學(xué)物理各個分數(shù)段人及格幾率預(yù)測,并經(jīng)過數(shù)據(jù)檢測,檢測是否在計算機組成原理學(xué)習(xí)中存在困難,并及時給與提醒,依照數(shù)據(jù)挖掘分析。1.算法實現(xiàn)過程:=1\*GB3①用代碼5-1求總信息熵。=2\*GB3②手工測算高數(shù)1,高數(shù)2對于數(shù)據(jù)結(jié)構(gòu)及格情況條件熵。=3\*GB3③信息增益=總信息熵-條件熵。=4\*GB3④參考信息增益,用信息增益多作根節(jié)點,畫出最淺決議樹。2.詳細實當(dāng)代碼及過程(1)利用以下代碼將ecxel表格導(dǎo)入listimportxlrddefcreatData():file='G:\離散化.xlsx'wb=xlrd.open_workbook(filename=file)ws=wb.sheet_by_name('離散化')data=[]forrinrange(ws.nrows):col=[]forcinrange(ws.ncols):col.append(ws.cell(r,c).value)data.append(col)labels=['物理','計算機組成原理']returndata,labels(2)利用以下代碼計算信息熵frommathimportlogdefshannon_entropy(data):enteries=len(data)label_count={}forvindata:current_label=v[-3]ifcurrent_labelnotinlabel_count.keys():label_count[current_label]=0label_count[current_label]+=1entropy=0.0forkeyinlabel_count:prob=float(label_count[key])/enteriesentropy-=prob*log(prob,2)returnentropyif__name__=='__main__':data,features=creatData()print(data)print(shannon_entropy(data))及格不及格及格及格不及格不及格二類一類二類一類二類一類組成原理學(xué)習(xí)情況組成原理學(xué)習(xí)情況組成原理學(xué)習(xí)情況大學(xué)物理學(xué)習(xí)情況不及格良好及格及格不及格及格及格不及格不及格二類一類二類一類二類一類組成原理學(xué)習(xí)情況組成原理學(xué)習(xí)情況組成原理學(xué)習(xí)情況大學(xué)物理學(xué)習(xí)情況不及格良

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論