數據挖掘期末復習_第1頁
數據挖掘期末復習_第2頁
數據挖掘期末復習_第3頁
數據挖掘期末復習_第4頁
數據挖掘期末復習_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、課程復習閉卷考試 題型 單項選擇(21%) 多項選擇(16%) 簡答題(含計算題)(30%) 綜合應用題(33%) 內容 數據挖掘、機器學習的基本概念(Lecture1-4) 關聯(lián)規(guī)則挖掘(Lecture5-7) 分類模型及其評估(Lecture8-11) 聚類分析(Lecture12-14) 屬性選擇/回歸分析(Lecture14-15) Weka軟件(實驗部分)主要概念 數據挖掘、機器學習的概念 數據 關系表(Weka的ARFF格式) 屬性(特征) 數據類型:連續(xù)(數值)、命名(名詞)、序數(有序)、布爾(二分) 類 樣本、實例、對象、向量、空間點 相似度 歐氏距離;離散型屬性的相似度度量

2、DM、ML 數據挖掘模型 預測型 描述型 數據挖掘的一般過程 機器學習方法 有指導的學習 無指導的學習 經典算法名稱,比如Apriori, kNN, k-means, ID3, C4.5, NaiveBayes, DBSCAN, PCA關聯(lián)規(guī)則挖掘 關聯(lián)規(guī)則 規(guī)則、強關聯(lián)規(guī)則 支持度(“可用性”)、置信度(“確定性”) 項、k-項集、頻繁項集 Apriori性質 一個頻繁項集的任意非空子集必定是頻繁的; 一個不頻繁項集的任何超集必定是不頻繁的; 算法:給定一個事務數據庫 - 如何從k-頻繁項集得到候選的(k+1)-頻繁項集? 如何得到所有的強關聯(lián)規(guī)則?分類及其評估分類 有指導的學習 一般步驟k

3、-NN 使用什么方法衡量樣本間的相似度度量?決策樹 內節(jié)點、葉子 構造決策樹:分割屬性的選擇(ID3,C4.5算法) 決策樹的應用評估 測試集、驗證集、訓練集 混淆矩陣 經驗風險、誤差率、召回率、精確率、F1、Macro-F1、TPR、NPR的計算聚類、屬性選擇、回歸分析 聚類 無指導的學習,相似度 簇的概念、簇的空間表示形式、簇的形狀 硬聚類/模糊聚類(模糊隸屬度的概念) 典型算法(k-means等)及其時間復雜度 屬性選擇 tf-idf, PCA的特點 回歸分析 數值預測實驗一實驗一 描述Iris數據的特性。 使用一種數據挖掘模型對其進行處理,描述數據挖掘過程。 一些術語(樣本、類、屬性、

4、屬性類型); 預處理-建模(挖掘)-評估- 描述Weather數據集的特性。與Iris數據相比有何特點? 如何判斷一個屬性是什么類型? 連續(xù)型/離散型; 命名型/序數型;實驗二實驗二有兩種機器學習算法: EM, NaiveBayes,它們是有指導的(supervised)還是無指導(unsupervised)的算法?結合Weka軟件分析它們的差別。已知EM算法只能處理數值型數據,NaiveBayes只能處理離散型數據??紤]Weather數據集,你如何對該數據集做預處理以分別應用上述兩種算法?同樣的預處理方法有supervised/unsupervised和attributes /instanc

5、es之分,結合你的處理過程及算法效果,分析它們的差異。(選做)應如何對RetuersCorn數據集做預處理,以使用NaiveBayes算法進行分類?Classification/clustering等等這些數據挖掘模型可以分為有/無指導,其它方法也可以區(qū)分;如,normalize, standardize區(qū)分的依據:是否使用了類別標號如何判斷一種算法能處理什么類型的數據?k-means/kNN/C4.5/NavieBayes實驗三實驗三-六六 使用IBk(kNN)算法你是如何“確定”最佳的k取值的? 可以采用“訓練集-驗證集-測試集”的方法,令k從1開始到某個合適的數目(比如sqrt(n)位置

6、,在驗證集上測試不同k值獲得的分類性能,取“最佳”分類性能對應的k值;(這是一種實驗方法); 一般來說,k=1也就是1NN會有比較好的效果,可以從分類模型的“預測風險”與“模型復雜度”之間的關系來分析;但,1NN容易受噪聲的影響。一種可能的改進是kNNModel(G.Guo et al.)。 你認為NavieBayes是“l(fā)azy”還是“eager”分類器?Why?你會選擇J4.8還是NavieBayes對這樣的數據進行分類? NavieBayes從訓練數據集顯式地構造了一個概率模型用于分類; 通常,可以從分類效率、分類精度、誤差成本(ROC曲線)等角度來考查特定算法是否適用于某種數據。實驗七實驗七 對Email1431-f500-c2.arff進行聚類。對這樣高維、稀疏的文本數據,有許多手段可以提高k-means的聚類質量 預處理手段:Normalization將數據轉換成

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論