機器學習課次29~30-boosting算法_第1頁
機器學習課次29~30-boosting算法_第2頁
機器學習課次29~30-boosting算法_第3頁
機器學習課次29~30-boosting算法_第4頁
機器學習課次29~30-boosting算法_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

彭輝94031097(QQ)機器學習MachineLearningboosting算法任務(wù)目標能力目標理解裝袋法、隨機森林集成學習原理理解集成學習基本原理理解Boosting集成學習原理使用Sklearn進行集成學習算法應(yīng)用開發(fā)任務(wù)目標素質(zhì)目標團隊協(xié)作學會學習實踐創(chuàng)新Boosting1990年,R.Schapire給出了肯定的答案,通過組合三個弱學習器實現(xiàn)了一個強學習器,促進了提升(Boosting)算法的極大發(fā)展。Boosting簡介BoostingBoosting算法分為如下兩個階段。訓練階段。給定一個大訓練集X,隨機地將其劃分為3個子集X={X1,X2,X3}。首先,使用X1訓練d1;接著,提取X2并將它作為d1的輸入,將d1錯誤分類的所有實例以及X2中被d1正確分類的一些實例一起作為d2的訓練集;然后,提取X3并將它輸入給d1和d2,其中用d1和d2輸出不一致的實例作為d3的訓練集。檢驗階段。給定一個實例,首先將其提供給d1和d2,如果二者輸出一致,這就是輸出結(jié)果,否則d3的輸出作為輸出結(jié)果。Boosting的優(yōu)化boosting的缺點:

盡管Boosting非常成功,但是需要一個非常大的訓練樣本集,將樣本集一分為三。(很多場合不太現(xiàn)實)1996年,YoavFreund和RobertSchapire提出了提升的一個變種,即自適應(yīng)提升(AdaptiveBoosting,AdaBoost),它重復使用相同的訓練集,而不再要求很大的數(shù)據(jù)集。AdaBoostAdaBoostAdaBoost算法的工作機制首先,訓練集用初始權(quán)重訓練出一個弱學習器1,根據(jù)弱學習的學習誤差率表現(xiàn)來更新訓練樣本的權(quán)重,使得之前弱學習器1學習誤差率高的訓練樣本點的權(quán)重變高,使得這些誤差率高的點在后面的弱學習器2中得到更多的重視。然后,基于權(quán)重調(diào)整后的訓練集來訓練弱學習器2,如此重復進行,直到訓練到指定的弱學習器數(shù)量。最后,將這些弱學習器通過集合策略進行整合,得到最終的強學習器。AdaBoostAdaBoost算法的工作機制AdaBoostAdaBoost算法描述

使得被基分類器hm錯誤分類樣本的權(quán)值增大,而正確分類的樣本權(quán)重值變小。Zm規(guī)范化因子

AdaBoostAdaBoost

在AdaBoost中,盡管不同的基學習器使用稍有差異的訓練集,但是這種差異不像Bagging那樣完全依靠偶然性,而是它前一個基學習器誤差的函數(shù)。提升對一個特定問題的實際性能顯然依賴于訓練數(shù)據(jù)集和基學習器。為此,需要有足夠的訓練數(shù)據(jù),并且學習器應(yīng)當是弱的但又不是太弱,而且提升對噪聲和離群點尤其敏感。AdaBoost特點分析AdaBoost

Sklearn提供的AdaBoost分類器實現(xiàn)了SAMME和SAMME.R算法,原型如下:classsklearn.ensemble.AdaBoostClassifier(base_estimator=None,n_estimators=50,learning_rate=1.0,algorithm=’SAMME.R’,random_state=None)

SAMME和SAMME.R算法的主要參數(shù)base_estimator:對象,默認值為決策樹。該基礎(chǔ)分類器必須支持帶樣本權(quán)重的學習。n_estimators:整型,默認值為50。設(shè)定基分類器數(shù)量的上限值,如果訓練集已經(jīng)完全訓練好了,算法會提前終止。learning_rate:浮點型,默認值為1。用于減少每一步的步長,防止步長太大而跨過極值點。通常在learning_rate和n_estimators之間會有一個折中。algorithm:{‘SAMME.R’,’SAMME’},默認值為‘SAMME.R’。GradientBoosting梯度提升(GradientBoosting)是一種用于回歸和分類問題的機器學習方法,生成一個由弱預測模型(通常是決策樹)組成的集成預測模型(強學習器)。通過迭代選擇一個指向負梯度方向上的函數(shù)(弱假設(shè)),優(yōu)化函數(shù)空間上的成本函數(shù),擬合一棵決策樹。在回歸問題中,這稱為梯度提升回歸樹GBRT;在分類問題中,這又被稱為提升決策樹GBDT。

GradientBoosting

GradientBoosting

GradientBoostingGradientBoosting

GBDT可用于回歸問題,相對LogisticRegression僅能用于線性回歸,GBDT能用于線性回歸和非線性回歸,GBDT的適用面更廣。GBDT也可用于二分類問題(設(shè)定閾值,大于閾值為正例,反之為負例)。

Sklearn提供的GBDT的實現(xiàn)類原型如下:

classsklearn.ensemble.GradientBoostingClassifier(loss=‘deviance’,learning_rate=0.1,n_estimators=100,subsample=1.0,criterion=‘friedman_mse’,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_depth=3,min_impurity_decrease=0.0,min_impurity_split=None,init=None,random_state=None,max_features=None,verbose=0,max_leaf_nodes=None,warm_sta

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論