數據挖掘期末復習

上傳人：7*** IP屬地：湖北上傳時間：2022-04-26 格式：PPT 頁數：11 大?。?7.50KB 積分：20 舉報 版權申訴

已閱讀5頁，還剩6頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、課程復習閉卷考試題型單項選擇(21%) 多項選擇(16%) 簡答題(含計算題)(30%) 綜合應用題(33%) 內容數據挖掘、機器學習的基本概念(Lecture1-4) 關聯(lián)規(guī)則挖掘(Lecture5-7) 分類模型及其評估(Lecture8-11) 聚類分析(Lecture12-14) 屬性選擇/回歸分析(Lecture14-15) Weka軟件(實驗部分)主要概念數據挖掘、機器學習的概念數據關系表(Weka的ARFF格式) 屬性(特征) 數據類型：連續(xù)(數值)、命名(名詞)、序數(有序)、布爾(二分) 類樣本、實例、對象、向量、空間點相似度歐氏距離；離散型屬性的相似度度量

2、DM、ML 數據挖掘模型預測型描述型數據挖掘的一般過程機器學習方法有指導的學習無指導的學習經典算法名稱，比如Apriori, kNN, k-means, ID3, C4.5, NaiveBayes, DBSCAN, PCA關聯(lián)規(guī)則挖掘關聯(lián)規(guī)則規(guī)則、強關聯(lián)規(guī)則支持度（“可用性”）、置信度（“確定性”）項、k-項集、頻繁項集 Apriori性質一個頻繁項集的任意非空子集必定是頻繁的；一個不頻繁項集的任何超集必定是不頻繁的；算法：給定一個事務數據庫 - 如何從k-頻繁項集得到候選的(k+1)-頻繁項集？如何得到所有的強關聯(lián)規(guī)則？分類及其評估分類有指導的學習一般步驟k

3、-NN 使用什么方法衡量樣本間的相似度度量？決策樹內節(jié)點、葉子構造決策樹：分割屬性的選擇(ID3,C4.5算法) 決策樹的應用評估測試集、驗證集、訓練集混淆矩陣經驗風險、誤差率、召回率、精確率、F1、Macro-F1、TPR、NPR的計算聚類、屬性選擇、回歸分析聚類無指導的學習，相似度簇的概念、簇的空間表示形式、簇的形狀硬聚類/模糊聚類(模糊隸屬度的概念) 典型算法(k-means等)及其時間復雜度屬性選擇 tf-idf, PCA的特點回歸分析數值預測實驗一實驗一描述Iris數據的特性。使用一種數據挖掘模型對其進行處理，描述數據挖掘過程。一些術語（樣本、類、屬性、

4、屬性類型）; 預處理-建模(挖掘)-評估- 描述Weather數據集的特性。與Iris數據相比有何特點？如何判斷一個屬性是什么類型？連續(xù)型/離散型; 命名型/序數型;實驗二實驗二有兩種機器學習算法: EM, NaiveBayes，它們是有指導的(supervised)還是無指導(unsupervised)的算法？結合Weka軟件分析它們的差別。已知EM算法只能處理數值型數據，NaiveBayes只能處理離散型數據?？紤]Weather數據集，你如何對該數據集做預處理以分別應用上述兩種算法？同樣的預處理方法有supervised/unsupervised和attributes /instanc

5、es之分，結合你的處理過程及算法效果，分析它們的差異。（選做）應如何對RetuersCorn數據集做預處理，以使用NaiveBayes算法進行分類？Classification/clustering等等這些數據挖掘模型可以分為有/無指導，其它方法也可以區(qū)分；如，normalize, standardize區(qū)分的依據：是否使用了類別標號如何判斷一種算法能處理什么類型的數據？k-means/kNN/C4.5/NavieBayes實驗三實驗三-六六使用IBk(kNN)算法你是如何“確定”最佳的k取值的？可以采用“訓練集-驗證集-測試集”的方法，令k從1開始到某個合適的數目(比如sqrt(n)位置

6、，在驗證集上測試不同k值獲得的分類性能，取“最佳”分類性能對應的k值；（這是一種實驗方法）; 一般來說，k=1也就是1NN會有比較好的效果，可以從分類模型的“預測風險”與“模型復雜度”之間的關系來分析；但,1NN容易受噪聲的影響。一種可能的改進是kNNModel（G.Guo et al.）。你認為NavieBayes是“l(fā)azy”還是“eager”分類器?Why?你會選擇J4.8還是NavieBayes對這樣的數據進行分類？ NavieBayes從訓練數據集顯式地構造了一個概率模型用于分類；通常，可以從分類效率、分類精度、誤差成本(ROC曲線)等角度來考查特定算法是否適用于某種數據。實驗七實驗七對Email1431-f500-c2.arff進行聚類。對這樣高維、稀疏的文本數據，有許多手段可以提高k-means的聚類質量預處理手段：Normalization將數據轉換成

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數據挖掘期末復習

文檔簡介

溫馨提示

最新文檔

評論

數據挖掘期末復習

文檔簡介

溫馨提示

最新文檔

評論

相關文檔