機器學(xué)習(xí)-各分類模型優(yōu)缺點_第1頁
機器學(xué)習(xí)-各分類模型優(yōu)缺點_第2頁
機器學(xué)習(xí)-各分類模型優(yōu)缺點_第3頁
機器學(xué)習(xí)-各分類模型優(yōu)缺點_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

機器學(xué)習(xí)-各分類模型優(yōu)缺點1、決策樹優(yōu)點?、?、三、四、五、六、七、?、缺點?、?、三、四、決策樹易于理解和解釋.?們在通過解釋后都有能?去理解決策樹所表達的意義。對于決策樹,數(shù)據(jù)的準備往往是簡單或者是不必要的.其他的技術(shù)往往要求先把數(shù)據(jù)?般化,?如去掉多余的或者空?的屬性。能夠同時處理數(shù)據(jù)型和常規(guī)型屬性。其他的技術(shù)往往要求數(shù)據(jù)屬性的單?。決策樹是?個?盒模型。如果給定?個觀察的模型,那么根據(jù)所產(chǎn)?的決策樹很容易推出相應(yīng)的邏輯表達式。易于通過靜態(tài)測試來對模型進?評測。表?有可能測量該模型的可信度。在相對短的時間內(nèi)能夠?qū)?型數(shù)據(jù)源做出可?且效果良好的結(jié)果??梢詫τ性S多屬性的數(shù)據(jù)集構(gòu)造決策樹。決策樹可很好地擴展到?型數(shù)據(jù)庫中,同時它的??獨?于數(shù)據(jù)庫的??。對于那些各類別樣本數(shù)量不?致的數(shù)據(jù),在決策樹當中,信息增益的結(jié)果偏向于那些具有更多數(shù)值的特征。決策樹處理缺失數(shù)據(jù)時的困難。過度擬合問題的出現(xiàn)。忽略數(shù)據(jù)集中屬性之間的相關(guān)性。2、??神經(jīng)?絡(luò)優(yōu)點分類的準確度?,并?分布處理能?強,分布存儲及學(xué)習(xí)能?強,對噪聲神經(jīng)有較強的魯棒性和容錯能?,能充分逼近復(fù)雜的?線性關(guān)系,具備聯(lián)想記憶的功能等。缺點神經(jīng)?絡(luò)需要?量的參數(shù),如?絡(luò)拓撲結(jié)構(gòu)、權(quán)值和閾值的初始值;不能觀察之間的學(xué)習(xí)過程,輸出結(jié)果難以解釋,會影響到結(jié)果的可信度和可接受程度;學(xué)習(xí)時間過長,甚?可能達不到學(xué)習(xí)的?的。3、KNN算法優(yōu)點?、?、三、四、簡單、有效。重新訓(xùn)練的代價較低(類別體系的變化和訓(xùn)練集的變化,在Web環(huán)境和電?商務(wù)應(yīng)?中是很常見的)。計算時間和空間線性于訓(xùn)練集的規(guī)模(在?些場合不算太?)。由于KNN?法主要靠周圍有限的鄰近的樣本,?不是靠判別類域的?法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,KNN?法較其他?法更為適合。五、缺點?、?、三、四、該算法?較適?于樣本容量?較?的類域的?動分類,?那些樣本容量較?的類域采?這種算法?較容易產(chǎn)?誤分。KNN算法是懶散學(xué)習(xí)?法(lazylearning,基本上不學(xué)習(xí)),?些積極學(xué)習(xí)的算法要快很多。類別評分不是規(guī)格化的(不像概率評分)。輸出的可解釋性不強,例如決策樹的可解釋性較強。該算法在分類時有個主要的不?是,當樣本不平衡時,如?個類的樣本容量很?,?其他類樣本容量很?時,有可能導(dǎo)致當輸??個新樣本時,該樣本的K個鄰居中?容量類的樣本占多數(shù)。該算法只計算“最近的”鄰居樣本,某?類的樣本數(shù)量很?,那么或者這類樣本并不接近?標樣本,或者這類樣本很靠近?標樣本。?論怎樣,數(shù)量并不能影響運?結(jié)果。可以采?權(quán)值的?法(和該樣本距離?的鄰居權(quán)值?)來改進。五、計算量較?。?前常?的解決?法是事先對已知樣本點進?剪輯,事先去除對分類作?不?的樣本。4、?持向量機(SVM)優(yōu)點?、?、三、四、五、缺點?、?、可以解決?樣本情況下的機器學(xué)習(xí)問題??梢蕴?泛化性能??梢越鉀Q?維問題??梢越鉀Q?線性問題。可以避免神經(jīng)?絡(luò)結(jié)構(gòu)選擇和局部極?點問題。對缺失數(shù)據(jù)敏感。對?線性問題沒有通?解決?案,必須謹慎選擇Kernelfunction來處理。5、樸素貝葉斯優(yōu)點?、?、缺點?、樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有著堅實的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也?較簡單。理論上,NBC模型與其他分類?法相?具有最?的誤差率。但是實際上并?總是如此,這是因為NBC模型假設(shè)屬性之間相互獨?,這個假設(shè)在實際應(yīng)?中往往是不成?的(可以考慮?聚類算法先將相關(guān)性較?的屬性聚類),這給NBC模型的正確分類帶來了?定影響。在屬性個數(shù)?較多或者屬性之間相關(guān)性較?時,NBC模型的分類效率?不上決策樹模型。?在屬性相關(guān)性較?時,NBC模型的性能最為良好。?、三、需要知道先驗概率。分類決策存在錯誤率6、Adaboost算法優(yōu)點?、?、三、四、五、缺點adaboost是?種有很?精度的分類器??梢允?各種?法構(gòu)建?分類器,Adaboost算法提供的是框架。當使?簡單分類器時,計算出的結(jié)果是可以理解的。?且弱分類器構(gòu)造極其簡單。簡單,不?做特征篩選。不?擔?overfitting。?、AdaBoost迭代次數(shù)也就是弱分類器數(shù)?不太好設(shè)定,可以使?交叉驗證來進?確定。?、數(shù)據(jù)不平衡導(dǎo)致分類精度下降。三、訓(xùn)練?較耗時,每次重新選擇當前分類器最好切分點。7、邏輯回歸優(yōu)點?、預(yù)測結(jié)果是界于0和1之間的概率;?、可以適?于連續(xù)性和類別性?變量;三、容易使?和解釋;缺點?、對模型中?變量多重共線性較為敏感,例如兩個?度相關(guān)?變量同時放?模型,可能導(dǎo)致較弱的?個?變量回歸符號不符合預(yù)期,符號被扭轉(zhuǎn)。需要利?因?分析或者變量聚類分析等?段來選擇代表性的?變量,以減少候選變量之間的相關(guān)性;?、預(yù)測結(jié)果呈“S”型,因此從log(odds)向概率轉(zhuǎn)化的過程是?線性的,在兩端隨著log(odds)值的變化,概率變化很?,邊際值太?,slope太?,?中間概率的變化很?,很敏感。導(dǎo)致很多區(qū)間的變量變化對?標概率的影響沒有區(qū)分度,?法確定閥值。8、隨機森林優(yōu)點?、在當前的很多數(shù)據(jù)集上,相對其他算法有著很?的優(yōu)勢,表現(xiàn)良好?、它能夠處理很?維度(feature很多)的數(shù)據(jù),并且不?做特征選擇三、在訓(xùn)練完后,它能夠給出哪些feature?較重要四、在創(chuàng)建隨機森林的時候,對generlizationerror使?的是?偏估計,模型泛化能?強五、訓(xùn)練速度快,容易做成并?化?法六、在訓(xùn)練過程中,能夠檢測到feature間的互相影響七、實現(xiàn)?較簡單?、對于不平衡的數(shù)據(jù)集來說,它可以平衡誤差。九、如果有很??部分的特征遺失,仍可以維持準確度。缺點?、隨機森林已經(jīng)被證明在某些噪?較?的分類或回歸問題上會過擬?、對于有不同取值的屬性的數(shù)據(jù),取值劃分較多的屬性會對隨機森林產(chǎn)?更?的影響,所以隨機森林在這種數(shù)據(jù)上產(chǎn)出的屬性權(quán)值是不可信的。9、GBDT優(yōu)點?、可以靈活處理各種類型的數(shù)據(jù),包括連續(xù)值和離散值。?、在相對少的調(diào)參時間情況下,預(yù)測的準備率也可以?較?。這個是相對SVM來說的。三、使??些健壯的損失函數(shù),對異常值的魯棒性?常強。?如Huber損失函數(shù)和Quantile損失函數(shù)。缺點?、由于弱學(xué)習(xí)器之間存在依賴關(guān)系,難以并?訓(xùn)練數(shù)據(jù)。不過可以通過采樣的SGBT來達到部分并?。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論