機器學(xué)習(xí)原理與應(yīng)用電子教案 5.11.1集成學(xué)習(xí)進(jìn)階

上傳人：釋*** IP屬地：山東上傳時間：2025-02-24 格式：DOCX 頁數(shù)：5 大小：31.04KB 積分：1.2 舉報 版權(quán)申訴

機器學(xué)習(xí)原理與應(yīng)用電子教案 5.11.1集成學(xué)習(xí)進(jìn)階_第2頁

機器學(xué)習(xí)原理與應(yīng)用電子教案 5.11.1集成學(xué)習(xí)進(jìn)階_第3頁

機器學(xué)習(xí)原理與應(yīng)用電子教案 5.11.1集成學(xué)習(xí)進(jìn)階_第4頁

機器學(xué)習(xí)原理與應(yīng)用電子教案 5.11.1集成學(xué)習(xí)進(jìn)階_第5頁

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

備課日期：年月日授課時間課時（理論+實驗）周次星期:節(jié)次:授課課題集成學(xué)習(xí)[進(jìn)階]教學(xué)目標(biāo)1.理解集成學(xué)習(xí)的高級集成框架（Boosting、Bagging與Stacking）基本原理。2.掌握Scikit-learn集成學(xué)習(xí)高級集成框架的實現(xiàn)方法。教學(xué)重點1.Boosting集成學(xué)習(xí)框架。2.Bagging集成學(xué)習(xí)框架。3.Stacking集成學(xué)習(xí)框架。教學(xué)準(zhǔn)備PPT、點名冊等。教學(xué)方法指導(dǎo)閱讀、實例演示。教學(xué)過程設(shè)計備注課題引入【思考】集成學(xué)習(xí)基礎(chǔ)集成策略的局限性。【關(guān)鍵】集成學(xué)習(xí)旨在訓(xùn)練多個“個體學(xué)習(xí)器”或者基學(xué)習(xí)器，然后以特定策略將其進(jìn)行組合以產(chǎn)生比單一學(xué)習(xí)器性能優(yōu)越的強學(xué)習(xí)器。從理論上而言，只要基分類器不比弱分類器差（瞎猜好一點的分類器），隨著個體分類器數(shù)目的增大，集成后的強分類器的錯誤率會趨向于0，或者說集成后的強分類器可以任意好！【時間】分鐘。教學(xué)步驟及主要內(nèi)容【主板】§15.集成學(xué)習(xí)框架[進(jìn)階]一、Boosting框架【主板】BoostingBoosting算法是一種可將弱學(xué)習(xí)器提升為強學(xué)習(xí)器的算法。1.基本原理【強化與拓展】先根據(jù)初始訓(xùn)練樣本訓(xùn)練初始基學(xué)習(xí)器，再根據(jù)初始基學(xué)習(xí)器的表現(xiàn)對訓(xùn)練樣本分布進(jìn)行調(diào)整，使得初始基學(xué)習(xí)器分類錯誤的訓(xùn)練樣本在后續(xù)受到更多關(guān)注；然后基于調(diào)整后的訓(xùn)練樣本訓(xùn)練下一個基學(xué)習(xí)器（此基學(xué)習(xí)器將嘗試糾正先前基學(xué)習(xí)器的錯誤），如此重復(fù)進(jìn)行直至基學(xué)習(xí)器數(shù)目達(dá)到事先指定值，最終將多個基學(xué)習(xí)器進(jìn)行加權(quán)組合以構(gòu)成性能更強的學(xué)習(xí)器。2.經(jīng)典算法：AdaBoost。AdaBoost首先選取一個基分類器在給定數(shù)據(jù)集上做出預(yù)測并記錄錯誤分類的樣本，然后增加錯誤分類樣本的權(quán)重以訓(xùn)練更新權(quán)重的訓(xùn)練集生成第二個基分類器，如此反復(fù)直至產(chǎn)生指定數(shù)量的基分類器（或擬合所有/大部分訓(xùn)練實例），進(jìn)而對基分類器進(jìn)行加權(quán)組合生成強分類器?！緩娀c拓展】（1）使用加權(quán)后的訓(xùn)練數(shù)據(jù)代替隨機選取的訓(xùn)練樣本，可將模型訓(xùn)練的焦點集中在較難分的訓(xùn)練樣本上。（2）將弱分類器聯(lián)合起來，使用加權(quán)的投票機制代替平均投票機制，進(jìn)而可使分類效果好的弱分類器具有較大的權(quán)重，而分類效果差的分類器具有較小的權(quán)重。（3）樣本權(quán)值更新。增大分類錯誤樣本的權(quán)重，降低分類正確樣本的權(quán)重，以此突顯分錯的樣本以構(gòu)成新的樣本分布。（4）弱分類器權(quán)值更新。增大準(zhǔn)確率較高的弱分類器的權(quán)重，降低準(zhǔn)確率較低的弱分類器?！糚PT〗基本原理。3.算法實現(xiàn)（1）庫導(dǎo)入fromsklearn.ensembleimportAdaBoostClassifierfromsklearn.ensembleimportAdaBoostRegressor（2）主函數(shù)sklearn.ensemble.AdaBoostClassifier(base_estimator=None,n_estimators=50)sklearn.ensemble.AdaBoostRegressor(base_estimator=None,n_estimators=50)【強化與拓展】（1）base_estimator：弱分類或回歸學(xué)習(xí)器，一般是CART決策樹或者神經(jīng)網(wǎng)絡(luò)MLP（默認(rèn)為決策樹）。（2）n_estimators：弱學(xué)習(xí)器的最大個數(shù)（默認(rèn)為50）；值太小容易欠擬合，太大容易過擬合?！糚PT〗編程實現(xiàn)過程。4.優(yōu)缺點（1）優(yōu)點【強化與拓展】（1）Adaboost算法不需要預(yù)先知道弱分類器的錯誤率上限，且最后得到的強分類器的分類精度依賴于所有弱分類器的分類精度；而且可以根據(jù)弱分類器的反饋，自適應(yīng)地調(diào)整假定的錯誤率。（2）Adaboost可以通過不改變訓(xùn)練數(shù)據(jù)而只改變數(shù)據(jù)權(quán)值分布的方式使數(shù)據(jù)在不同學(xué)習(xí)器中產(chǎn)生不同作用。（3）Adaboost可以使用各種回歸分類模型來構(gòu)建弱學(xué)習(xí)器，非常靈活。弱分類器可并行實現(xiàn)。（2）缺點【強化與拓展】（1）在Adaboost訓(xùn)練過程中，Adaboost會使得難于分類樣本的權(quán)值呈指數(shù)增長，訓(xùn)練將過于偏向此類樣本，導(dǎo)致其易受噪聲干擾。（2）Adaboost依賴于弱分類器，而弱分類器的訓(xùn)練時間往往很長。（3）由于異常樣本在迭代中可能會獲得較高的權(quán)重，Adaboost因而對異常樣本敏感。二、Bagging框架【主板書】Bagging1.基本原理【強化與拓展】給定大小為n的樣本集，隨機從中取出1個樣本放入采樣集，然后再將其放回原樣本集以使下次采樣時該樣本仍有可能被選中；如此經(jīng)過n次隨機采樣操作則可得到包含大小為n的采樣集（初始樣本集中部分樣本可能在采樣集中多次出現(xiàn)或從未出現(xiàn)）。類似地可采樣獲得T個大小為n的采樣集，然后對每個采樣集進(jìn)行訓(xùn)練以獲得基學(xué)習(xí)器，進(jìn)而將基學(xué)習(xí)進(jìn)行集成（如投票法）而生成強學(xué)習(xí)器。通過“少數(shù)服從多數(shù)”的原則來確定最終的結(jié)果。2.與Boosting的主要區(qū)別【強化與拓展】（1）樣本選擇：Boosting每一輪的訓(xùn)練集不變，只是訓(xùn)練集中每個樣例在分類器中的權(quán)重發(fā)生變化,而權(quán)值是根據(jù)上一輪的分類結(jié)果進(jìn)行調(diào)整。Bagging訓(xùn)練集是在原始集中有放回選取的，從原始集中選出的各輪訓(xùn)練集之間是獨立的。（2）樣例權(quán)值：Boosting根據(jù)錯誤率不斷調(diào)整樣例的權(quán)值，錯誤率越大則權(quán)重越大。Bagging使用均勻取樣，每個樣例的權(quán)重相等。（3）預(yù)測函數(shù):Boosting每個弱分類器都有相應(yīng)的權(quán)重，對于分類誤差小的分類器會有更大的權(quán)重。Bagging所有預(yù)測模型的權(quán)重相等。（4）計算方式：Boosting各個預(yù)測模型只能順序生成，因為后一個模型參數(shù)需要前一輪模型的結(jié)果。Bagging各個預(yù)測模型可以并行生成。3.經(jīng)典算法：隨機森林隨機森林的基本步驟如下：第一步：從原始數(shù)據(jù)集（Bootstrapping）創(chuàng)建隨機子集。第二步：在決策樹中的每個節(jié)點處，僅考慮一組隨機特征來決定最佳分割。第三步：在每個子集上擬合決策樹模型。第四步：通過對所有決策樹的預(yù)測求平均來計算最終預(yù)測。【強化與拓展】在隨機森林中，對基決策樹的每個結(jié)點，先從該結(jié)點的屬性集合中隨機選擇一個包含k個屬性的子集，然后再從這個子集中選擇一個最優(yōu)屬性用于劃分。用參數(shù)k控制隨機性引入程度，若令k=d，則基決策樹的構(gòu)建與傳統(tǒng)決策樹相同；若令k=1，則只隨機選擇一個屬性用于劃分；一般情況下，推薦k=log_2?d。通過這種方式引入屬性的隨機性?！糚PT〗Bagging基本原理。4.算法實現(xiàn)（1）庫導(dǎo)入fromsklearn.ensembleimportRandomForestClassifierfromsklearn.ensembleimportRandomForestRegressor（2）主函數(shù)RandomForestClassifier(n_estimators=10,criterion=‘gini’,max_depth=None)【強化與拓展】（1）n_estimators：隨機森林中要創(chuàng)建的決策樹數(shù)量（默認(rèn)值為10）。（2）criterion：采用信息熵或者基尼指數(shù)度量分裂質(zhì)量（默認(rèn)為基尼指數(shù)）。（3）max_depth：樹的最大深度。〖PPT〗編程實現(xiàn)過程。三、Stacking框架【主板書】Stacking1.基本原理根據(jù)訓(xùn)練集訓(xùn)練出N個初級學(xué)習(xí)器（可為同構(gòu)基學(xué)習(xí)器或互不相同的異構(gòu)基學(xué)習(xí)器，如決策樹、神經(jīng)網(wǎng)絡(luò)等），然后以初級學(xué)習(xí)器的輸出作為特征輸入訓(xùn)練次級學(xué)習(xí)器（初始樣本的標(biāo)記仍被當(dāng)做是樣例標(biāo)記），進(jìn)而獲得最終的強學(xué)習(xí)器?！緩娀c拓展】（1）通過使用上一層的預(yù)測結(jié)果作為下一層預(yù)測的特征，比起相互獨立的預(yù)測模型能夠有更強的非線性表述能力，降低泛化誤差。（2）Stacking是很強大的集成方式，在某種意義上和深度學(xué)習(xí)類似，縱向增加了學(xué)習(xí)深度，但也增加了模型復(fù)雜性和不可解釋性。2.算法實現(xiàn)（1）庫導(dǎo)入frommlxtend.classifierimportStackingClassifierfrommlxtend.regressorimportStackingRegressor【強化與拓展】Mlxtend是一個基于Python的開源項目，主要為日常處理數(shù)據(jù)科學(xué)相關(guān)的任務(wù)提供了一些工具和擴展。Mlxtend是一個用于日常數(shù)據(jù)科學(xué)任務(wù)的Python庫。（2）主函數(shù)StackingClassifier(classifiers,meta_classifier)StackingRegressor(regressors,meta_regressor)【強化與拓展】（1）classifiers/regressors：形式為數(shù)組形式的基分類器或回歸器。（2）meta_classifier/meta_regressor：元分類器或回歸器，即基分類器或回歸器集成后的分類器或回歸器?！糚PT〗編程實現(xiàn)過程。課堂練習(xí)其他無小結(jié)與作業(yè)課堂小結(jié)集成學(xué)習(xí)本身不是一個單獨的機器學(xué)習(xí)算法，而是通過構(gòu)建并結(jié)合多個個體學(xué)習(xí)器完成學(xué)習(xí)任務(wù)的策略（即常說的“博采眾長”）。集成學(xué)習(xí)可以用于分類問題集成、回歸問題集成、特征選取集成、異常點檢測集成等等，應(yīng)用非常廣泛。目前主流方法Boosting（代表：Adaboosting）、Bagging（代表：隨機森林）與Stacking等三種。對于模型組合方式，Bagging與Boosting采用多數(shù)投票或算術(shù)平均的線性組合策略，Stacking采用的是基本模型非線性組合的方式。此外，Bagging和Stacking中的基本模型須為強模型（低偏差高方差），Boosting中的基本模型為弱模型（低方差高偏差）。本課作業(yè)本課教學(xué)反思（課堂設(shè)計理念，實際教學(xué)效果及改進(jìn)設(shè)想）利用以下方法生成數(shù)據(jù)集，然后完成相關(guān)題目：fromsklearn.datasetsimportmake_classificationfromsklearn.model_selectionimporttrain_test_splitX,y=make_classification(n_samples=1000,n_features=4)x_train,x_test,y_train,y_test=train_test_split(x,y,test_

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

機器學(xué)習(xí)原理與應(yīng)用電子教案 5.11.1集成學(xué)習(xí)進(jìn)階

文檔簡介

溫馨提示

最新文檔

評論

機器學(xué)習(xí)原理與應(yīng)用電子教案 5.11.1集成學(xué)習(xí)進(jìn)階

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔