




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、課程復習閉卷考試 題型 單項選擇(21%) 多項選擇(16%) 簡答題(含計算題)(30%) 綜合應用題(33%) 內容 數據挖掘、機器學習的基本概念(Lecture1-4) 關聯(lián)規(guī)則挖掘(Lecture5-7) 分類模型及其評估(Lecture8-11) 聚類分析(Lecture12-14) 屬性選擇/回歸分析(Lecture14-15) Weka軟件(實驗部分)主要概念 數據挖掘、機器學習的概念 數據 關系表(Weka的ARFF格式) 屬性(特征) 數據類型:連續(xù)(數值)、命名(名詞)、序數(有序)、布爾(二分) 類 樣本、實例、對象、向量、空間點 相似度 歐氏距離;離散型屬性的相似度度量
2、DM、ML 數據挖掘模型 預測型 描述型 數據挖掘的一般過程 機器學習方法 有指導的學習 無指導的學習 經典算法名稱,比如Apriori, kNN, k-means, ID3, C4.5, NaiveBayes, DBSCAN, PCA關聯(lián)規(guī)則挖掘 關聯(lián)規(guī)則 規(guī)則、強關聯(lián)規(guī)則 支持度(“可用性”)、置信度(“確定性”) 項、k-項集、頻繁項集 Apriori性質 一個頻繁項集的任意非空子集必定是頻繁的; 一個不頻繁項集的任何超集必定是不頻繁的; 算法:給定一個事務數據庫 - 如何從k-頻繁項集得到候選的(k+1)-頻繁項集? 如何得到所有的強關聯(lián)規(guī)則?分類及其評估分類 有指導的學習 一般步驟k
3、-NN 使用什么方法衡量樣本間的相似度度量?決策樹 內節(jié)點、葉子 構造決策樹:分割屬性的選擇(ID3,C4.5算法) 決策樹的應用評估 測試集、驗證集、訓練集 混淆矩陣 經驗風險、誤差率、召回率、精確率、F1、Macro-F1、TPR、NPR的計算聚類、屬性選擇、回歸分析 聚類 無指導的學習,相似度 簇的概念、簇的空間表示形式、簇的形狀 硬聚類/模糊聚類(模糊隸屬度的概念) 典型算法(k-means等)及其時間復雜度 屬性選擇 tf-idf, PCA的特點 回歸分析 數值預測實驗一實驗一 描述Iris數據的特性。 使用一種數據挖掘模型對其進行處理,描述數據挖掘過程。 一些術語(樣本、類、屬性、
4、屬性類型); 預處理-建模(挖掘)-評估- 描述Weather數據集的特性。與Iris數據相比有何特點? 如何判斷一個屬性是什么類型? 連續(xù)型/離散型; 命名型/序數型;實驗二實驗二有兩種機器學習算法: EM, NaiveBayes,它們是有指導的(supervised)還是無指導(unsupervised)的算法?結合Weka軟件分析它們的差別。已知EM算法只能處理數值型數據,NaiveBayes只能處理離散型數據??紤]Weather數據集,你如何對該數據集做預處理以分別應用上述兩種算法?同樣的預處理方法有supervised/unsupervised和attributes /instanc
5、es之分,結合你的處理過程及算法效果,分析它們的差異。(選做)應如何對RetuersCorn數據集做預處理,以使用NaiveBayes算法進行分類?Classification/clustering等等這些數據挖掘模型可以分為有/無指導,其它方法也可以區(qū)分;如,normalize, standardize區(qū)分的依據:是否使用了類別標號如何判斷一種算法能處理什么類型的數據?k-means/kNN/C4.5/NavieBayes實驗三實驗三-六六 使用IBk(kNN)算法你是如何“確定”最佳的k取值的? 可以采用“訓練集-驗證集-測試集”的方法,令k從1開始到某個合適的數目(比如sqrt(n)位置
6、,在驗證集上測試不同k值獲得的分類性能,取“最佳”分類性能對應的k值;(這是一種實驗方法); 一般來說,k=1也就是1NN會有比較好的效果,可以從分類模型的“預測風險”與“模型復雜度”之間的關系來分析;但,1NN容易受噪聲的影響。一種可能的改進是kNNModel(G.Guo et al.)。 你認為NavieBayes是“l(fā)azy”還是“eager”分類器?Why?你會選擇J4.8還是NavieBayes對這樣的數據進行分類? NavieBayes從訓練數據集顯式地構造了一個概率模型用于分類; 通常,可以從分類效率、分類精度、誤差成本(ROC曲線)等角度來考查特定算法是否適用于某種數據。實驗七實驗七 對Email1431-f500-c2.arff進行聚類。對這樣高維、稀疏的文本數據,有許多手段可以提高k-means的聚類質量 預處理手段:Normalization將數據轉換成
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年陽泉師范高等??茖W校輔導員考試真題
- 2024年內江市資中縣人民醫(yī)院招聘員額人員真題
- 2024年安徽省港航集團所屬企業(yè)招聘真題
- 2025年二手電商平臺信用體系建設與行業(yè)自律規(guī)范
- 越劇表演培訓行業(yè)跨境出海項目商業(yè)計劃書
- 大學定積分題目及答案
- 2025年低碳城市建設實踐:城市綠色轉型案例研究
- 勞動教育期末考試試題及答案小學
- 【樂山】2025年上半年四川峨眉山市赴高??己苏衅甘聵I(yè)單位工作人員32人筆試歷年典型考題及考點剖析附帶答案詳解
- 2025年濱州國有資本投資運營集團有限公司公開招聘(28人)筆試參考題庫附帶答案詳解
- 2025年安全生產考試題庫:安全生產隱患排查治理安全教育培訓試題
- 馬列原著選讀試題及答案
- 2025年大學生創(chuàng)業(yè)培訓考試試卷及答案
- 2025江蘇鹽城燕舞集團有限公司招聘58人筆試參考題庫附帶答案詳解析
- 上海韻達java面試題及答案
- T/CIQA 32-2022出入境生物安全消毒服務機構質量管理要求
- 2025國開電大《個人與團隊管理》形考任務1-10答案
- 湖南2024生地會考試卷及答案
- 2024小學語文教學及說課課件:六年級上冊《只有一個地球》
- 2023年濟南市初中學生學業(yè)水平考試地理試題
- 幾何公差與幾何誤差檢測
評論
0/150
提交評論