




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
機器學習集成算法原理與實踐AdaBoost思想理論01準備工作01準備工作:1:組合算法2:隨機森林3:AdaBoost算法圖片來源于網絡組合算法02組合算法的思想:
將多個弱學習通過互補的形式轉換為強學習的過程常見的組合算法有:
裝袋算法(bagging)提升算法(boosting)
Adaboost隨機森林圖片來源于網絡隨機森林03隨機森林:隨機森林可以用于幾乎任何一種預測問題特點:數據集隨機1:隨機產生T個訓練集2:利用每個訓練集,生產對應的分類器3:對于測試樣本X,利用每一個分類器進行測試得到對應的類別4:采用投票的方法,將T個分類器中輸出最多的類別作為測試集樣本X所屬的類別Adaboost算法04決策樹算法:是一種強分類器算法,容易出去過擬合。集成學習02Adaboost算法01AdaBoost算法的核心思想是:AdaBoost算法中不同的訓練集是通過調整每個樣本對應的權值實現的。1:最開始的時候,每個樣本對應的權值是相同的,在此樣本分布下訓練出一個基本分類器G1(x)。對于G1(x)錯分的樣本,則增加其對應樣本的權值;而對于正確分類的樣本,則降低其權值,得到一個新的樣本分布2:在新的樣本分布下,再次對基本分類器進行訓練,得到基本分類器G2(x)及其分類器的話語權。依次類推,經過T次這樣的循環(huán),就得到了T個基本分類器,以及T個對應的話語權。最后把這T個基本分類器按一定話語權累加起來,就得到了最終所期望的強分類器。算法流程02算法流程:循環(huán)迭代,直到累積錯誤率為0{ 1:更新樣本分布D 2:獲取當前分布下最好的弱分類器 3:計算最好弱分類器的誤差率e 4:計算最好弱分類器的話語權α}算法流程03
集成算法03集成學習我們已經開發(fā)了很多機器學習算法/代碼。1.對給定的任務,如何評價模型的性能?如何得到最佳的模型?超參數調優(yōu)2.單個模型的性能已經調到最優(yōu),很難再有改進。集成學習:用很少量的工作,組合多個基模型,使得系統性能提高01集成學習02三個臭皮匠,頂個諸葛亮集成學習03個體學習器1個體學習器2………………個體學習器t模型融合輸出學習器加權樣本加權SVM神經網絡線性回歸決策樹……弱學習器強學習器SVM神經網絡線性回歸決策樹……將多個弱學習器進行融合,通過對樣本加權、學習器加權,獲得比單一學習器顯著優(yōu)越的泛化性能的強學習器集成算法集成算法也叫集成學習模型,它是使用一系列弱學習器(也稱為基礎模型或基模型)進行學習并將各個弱學習器的結果進行整合,從而獲得比單個學習器更好的學習效果集成學習模型的常見算法有Bagging算法和Boosting算法兩種Bagging算法的典型機器學習模型為隨機森林模型Boosting算法的典型機器學習模型為:AdaBoost、GBDT、XGBoost和LightGBM模型。04基本原理Bagging算法訓練集數據是隨機有放回抽樣每次使用一個訓練集訓練一個弱學習器根據訓練出來的n個弱學習器的預測結果按照“少數服從多數”的原則,獲得一個更加準確、合理的最終預測結果對待所有的弱學習器一視同仁05Bagging算法04Sklearn庫實現Baggingsklearn.ensemble.BaggingClassifier(base_estimator=None,n_estimators=10,*,max_samples=1.0,max_features=1.0,bootstrap=True,bootstrap_features=False,oob_score=False,warm_start=False,n_jobs=None,random_state=None,verbose=0)sklearn.ensemble.BaggingRegressor(base_estimator=None,n_estimators=10,*,max_samples=1.0,max_features=1.0,bootstrap=True,bootstrap_features=False,oob_score=False,warm_start=False,n_jobs=None,random_state=None,verbose=0)01參數參數說明base_estimator基本估計器n_estimators基本估計器的數量max_samples從X抽取的樣本數以訓練每個基本估計器max_features從X中提取的特征數以訓練每個基本估計器bootstrap是否有回樣抽取,默認值=Truebootstrap_features是否使用替換特征oob_score是否使用袋外樣本來估計泛化誤差,僅當bootstrap=True時可用warm_start是否添加更多估計器n_jobsCpu使用數量random_state隨機重采樣種子verbose控制擬合和預測時的詳細程度02屬性屬性說明base_estimator_生成集成的基礎估計量n_features_fit執(zhí)行時的特征數estimators_擬合子估計量的集合estimators_samples_每個基本估計量的抽取樣本的子集estimato
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025新疆交投集團所屬子公司招56人筆試參考題庫附帶答案詳解
- 溝通技巧在商業(yè)談判中的重要性
- 2025至2030年中國熒光四通光石英比色皿數據監(jiān)測研究報告
- 現代人如何借助中醫(yī)實現健康管理
- 2025至2030年中國花園青石材數據監(jiān)測研究報告
- 2025至2030年中國船用配件數據監(jiān)測研究報告
- 科技紙雕藝術立體紙藝制作教程
- 2025年度股東清算與公司債務清償一體化協議
- 紅木家具連鎖加盟與區(qū)域銷售代理合同2025
- 2025年度旅游項目導游臨時勞務用工協議
- 巴馬格紡絲控制系統軟件說明書(共46頁)
- 肺結核患者管理ppt課件
- 煤矸石綜合利用項目可行性研究報告寫作范文
- 清華大學MBA課程——運籌學
- 《計量經濟學》超全題庫及答案(完整版)
- 濕法冶金浸出凈化和沉積PPT課件
- 生產現場作業(yè)十不干PPT課件
- 雨污水管網勞務施工分包合同
- 通信桿路工程施工
- 初中物理光學經典題(共23頁)
- 封條VVTT檢查流程程序參考模板
評論
0/150
提交評論