版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
集成學(xué)習(xí)學(xué)習(xí)集成學(xué)習(xí)原理學(xué)習(xí)Bagging原理及實(shí)現(xiàn)學(xué)習(xí)Boosting原理及實(shí)現(xiàn)學(xué)習(xí)隨機(jī)森林算法原理及實(shí)現(xiàn)學(xué)習(xí)其他常見集成學(xué)習(xí)算法的python實(shí)現(xiàn)集成學(xué)習(xí)原理1Bagging與隨機(jī)森林2Boosting與AdaBoost3GBDT、XGBoost與lightGBM4集成學(xué)習(xí)原理我有T個(gè)朋友,當(dāng)我購買股票的時(shí)候他們都會(huì)給我建議。
…
StockA01…0問題:我該如何采納他們的意見?集成學(xué)習(xí)原理我有T個(gè)朋友,當(dāng)我購買股票的時(shí)候他們都會(huì)給我建議。問題:我該如何采納他們的意見?Select:根據(jù)朋友們的“平時(shí)表現(xiàn)”,選擇一個(gè)最信任的朋友,在ML中,這相當(dāng)于驗(yàn)證集上的準(zhǔn)確率Mix:大家民主一點(diǎn),投票吧,少數(shù)服從多數(shù),voteuniformlyMix:根據(jù)朋友們預(yù)測(cè)能力不同,給予他們不同的投票權(quán)重,votenon-uniformlyCombine:根據(jù)朋友們擅長(zhǎng)的領(lǐng)域不同,在不同的情況下選擇不同的朋友,conditionally集成學(xué)習(xí)(aggregationmodels):mixorcombinehypotheses(forbetterperformance)以上僅為常見的集成方式,顯然集成的方式多種多樣,并不局限于以上四種。集成學(xué)習(xí)原理
集成學(xué)習(xí)原理【問題】三個(gè)臭皮匠,為什么勝過諸葛亮?古代某國有一名獨(dú)裁者,他很聰明,閱歷也足夠豐富,因此在每次做出決斷的時(shí)候,正確率都能達(dá)到90%。另一個(gè)國家則實(shí)行長(zhǎng)老會(huì)制度,長(zhǎng)老會(huì)由25名長(zhǎng)老組成,每名長(zhǎng)老相互獨(dú)立,但每名長(zhǎng)老判斷問題的準(zhǔn)確率只有65%,每次決策時(shí),都由長(zhǎng)老會(huì)舉手表決,半數(shù)以上同意才能通過。【問題】不考慮其他因素的情況下,獨(dú)裁者還是長(zhǎng)老會(huì)的準(zhǔn)確率更高?獨(dú)裁者還是長(zhǎng)老會(huì)?集成學(xué)習(xí)原理
獨(dú)裁者還是長(zhǎng)老會(huì)?集成學(xué)習(xí)原理集成學(xué)習(xí)(ensemblelearning)通過構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)。由此可見,集成學(xué)習(xí)的核心包括兩點(diǎn):個(gè)體學(xué)習(xí)器結(jié)合策略長(zhǎng)老會(huì)案例中,將長(zhǎng)老會(huì)視為一個(gè)集成學(xué)習(xí)估計(jì)器,每一個(gè)長(zhǎng)老就是一個(gè)基學(xué)習(xí)器,將25個(gè)長(zhǎng)老的決定進(jìn)行簡(jiǎn)單投票,多數(shù)為勝,就是該集成學(xué)習(xí)的結(jié)合策略。如果長(zhǎng)老之間沒有什么不同,則該集成學(xué)習(xí)是“同質(zhì)”的。如果長(zhǎng)老來自不同的地區(qū),稱為“異質(zhì)”的。集成學(xué)習(xí)原理
…結(jié)合模塊輸出決策樹支持向量機(jī)集成學(xué)習(xí)原理【思考】什么情況下,臭皮匠才能勝過諸葛亮?簡(jiǎn)單投票法中:臭皮匠準(zhǔn)確率要大于0.5,即好于隨機(jī)猜測(cè)臭皮匠的數(shù)量要足夠多,規(guī)模足夠大集成學(xué)習(xí)通過將多個(gè)學(xué)習(xí)器進(jìn)行結(jié)合,來獲得比單一學(xué)習(xí)器顯著優(yōu)越的泛化性能,這對(duì)“弱學(xué)習(xí)器”性能提升尤為明顯。臭皮匠就是一個(gè)“弱學(xué)習(xí)器”,弱學(xué)習(xí)器常指泛化性能略優(yōu)于隨機(jī)猜測(cè)的學(xué)習(xí)器?!舅伎肌咳齻€(gè)臭皮匠簡(jiǎn)單投票,隱含了什么假設(shè)?個(gè)體學(xué)習(xí)器的數(shù)量與質(zhì)量***基學(xué)習(xí)器相互獨(dú)立***集成學(xué)習(xí)原理
集成學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)Diversehypotheses:即便最簡(jiǎn)單的uniformblending,也要比任何一個(gè)單一的學(xué)習(xí)器效果好。集成學(xué)習(xí)原理
集成學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)
集成學(xué)習(xí)原理
g的多樣性(diversity)
集成學(xué)習(xí)原理“臭皮匠”的決策并不是隨意做出的,在決策之前,需要被訓(xùn)練,考慮以下兩種訓(xùn)練方法:訓(xùn)練集隨機(jī)抽樣,分別訓(xùn)練三個(gè)“臭皮匠”訓(xùn)練集訓(xùn)練“臭皮匠一”,對(duì)分錯(cuò)的數(shù)據(jù)加權(quán),遞歸傳遞給“臭皮匠二”和“臭皮匠三”方法一,表示個(gè)體學(xué)習(xí)器間不存在強(qiáng)依賴關(guān)系,可并行生成的訓(xùn)練方法,代表算法是Bagging和隨機(jī)森林。方法二,表示個(gè)體學(xué)習(xí)器間存在強(qiáng)依賴關(guān)系,必須串行生成的序列化方法,代表算法是Boosting。集成學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)投票策略輸出投票策略輸出集成學(xué)習(xí)原理1Bagging與隨機(jī)森林2Boosting與AdaBoost3GBDT、XGBoost與lightGBM4Bagging與隨機(jī)森林
自助采樣法與Bagging簡(jiǎn)單法輸出
評(píng)估性能決策樹剪枝神經(jīng)網(wǎng)絡(luò)早?!瑽agging與隨機(jī)森林#基學(xué)習(xí)器(決策樹為例)sklearn.tree.DecisionTreeClassifier#Baggingsklearn.ensemble.BaggingClassifier#超參數(shù)n_estimators:基學(xué)習(xí)器數(shù)量max_samples:基學(xué)習(xí)器訓(xùn)練集的采樣數(shù)量/比例max_features:基學(xué)習(xí)器訓(xùn)練集的特征數(shù)量/比例bootstrap:是否放回采樣Bagging的python實(shí)現(xiàn)Bagging與隨機(jī)森林
隨機(jī)森林原理與python實(shí)現(xiàn)集成學(xué)習(xí)原理1Bagging與隨機(jī)森林2Boosting與AdaBoost3GBDT、XGBoost與lightGBM4Boosting與AdaBoost
Boosting原理
a
Boosting與AdaBoost
AdaBoost原理
Boosting與AdaBoost
集成學(xué)習(xí)原理1Bagging與隨機(jī)森林2Boosting與AdaBoost3GBDT、XGBoost與lightGBM4GBDT、XGBoost與lightGBM梯度提升樹(GradientBoostingDecisonTree,GBDT),屬于Boosting族算法。由此總結(jié)GBDT的特點(diǎn):GBDT通過迭代提升弱學(xué)習(xí)器為強(qiáng)學(xué)習(xí)器提升方法為梯度提升(類似梯度下降)基學(xué)習(xí)器只能為決策樹(CART)#python實(shí)現(xiàn)sklearn.ensemble.GradientBoostingClassifierGBDT在小數(shù)據(jù)上**極易**過擬合GBDT簡(jiǎn)介與python實(shí)現(xiàn)GBDT、XGBoost與lightGBMXGBoost是ExtremeGradientBoosting的簡(jiǎn)稱,是對(duì)GBDT的改進(jìn),嚴(yán)格來說,XGBoost本質(zhì)是實(shí)現(xiàn)GBDT算法的框架。基學(xué)習(xí)器選擇上,除CART外還支持線性分類器,對(duì)代價(jià)函數(shù)進(jìn)一步優(yōu)化,同時(shí)加入正則項(xiàng)防止過擬合,同時(shí)支持特征抽樣,因此XGBoost比GBDT更快,更魯棒。XGBoost簡(jiǎn)介與python實(shí)現(xiàn)xgboost.XGBClassifierGBDT、XGBoost與lightGBM提升樹(BoostingDecisionTree)基于boosting算法,需要迭代多棵決策樹來共同決策。當(dāng)采用平方誤差損失函數(shù)時(shí),每一棵回歸樹學(xué)習(xí)的是之前所有樹的結(jié)論和殘差,擬合得到一個(gè)當(dāng)前的殘差回歸樹。下表為例則提升樹算法過程如圖所示。最終的預(yù)測(cè)結(jié)果是多棵樹預(yù)測(cè)結(jié)果的和。這樣的模型叫做加法模型。提升樹14、16、24、2614、1624、26201525-1、+1-1、+1-1、+1、-1、+1-1、-1+1、+1-1+1姓名是否畢業(yè)性別年齡A否女14B否男16C是女24D是男26以樣本A為例,A的預(yù)測(cè)結(jié)果為兩棵樹預(yù)測(cè)結(jié)果的和15+(-1)=1殘差第一輪迭代第二輪迭代畢業(yè)性別GBDT、XGBoost與lightGBM
加法模型與XGBoost原理
GBDT、XGBoost與lightGBM
XGBoost推導(dǎo)
GBDT、XGBoost與lightGBM
GBDT、XGBoost與lightGBM
XGBoost原理(續(xù))
【思考】上述流程的問題在哪里?GBDT、XGBoost與lightGBM【思考】上述流程的問題在哪里?枚舉所有可能的樹結(jié)構(gòu)??有問題,因?yàn)闃浣Y(jié)構(gòu)可能的數(shù)量呈階乘增長(zhǎng),葉子結(jié)點(diǎn)數(shù)量呈指數(shù)增長(zhǎng),這是一個(gè)NP難問題,所以實(shí)際上很難枚舉所有可能的樹結(jié)構(gòu)?!締栴}】怎么解決樹結(jié)構(gòu)數(shù)量問題?這實(shí)際上是決策樹中的NP難問題,常見的解決方法是使用貪心算法,在可接受的時(shí)間內(nèi)計(jì)算局部最優(yōu)解。XGBoost原理(續(xù))
GBDT、XGBoost與lightGBMlightGBM是微軟團(tuán)隊(duì)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版智慧城市建設(shè)項(xiàng)目委托投標(biāo)協(xié)議書范本3篇
- 2025版新企業(yè)股東協(xié)議書范本:企業(yè)創(chuàng)新發(fā)展計(jì)劃3篇
- 2025版新車銷售與二手車置換優(yōu)惠套餐合同范本2篇
- 2025版學(xué)校食堂勞務(wù)承包與營(yíng)養(yǎng)膳食研究開發(fā)協(xié)議3篇
- 2025年度個(gè)人房產(chǎn)買賣合同違約責(zé)任約定書
- 2025個(gè)人合伙企業(yè)股份清算轉(zhuǎn)讓協(xié)議3篇
- 2025版?zhèn)€人借款擔(dān)保合同標(biāo)準(zhǔn)化模板4篇
- 2025年全球及中國水平運(yùn)動(dòng)輸送機(jī)行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球高牌號(hào)取向硅鋼行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025-2030全球牽引型AGV行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 阿米巴落地實(shí)操方案
- 火龍罐綜合灸療法
- 藥物制劑工(三級(jí))理論試題題庫及答案
- 高強(qiáng)度間歇訓(xùn)練(HIIT)對(duì)代謝健康的長(zhǎng)期影響
- ICU患者導(dǎo)管留置登記表
- 紅色中國風(fēng)西安旅游PPT模板
- 中建商務(wù)工作指南手冊(cè)
- 耳鼻咽喉:頭頸外科疾病診斷流程與冶療策略
- 貴州省2023年中考英語真題
- 個(gè)人借條電子版模板
- 中國思想史 馬工程329P
評(píng)論
0/150
提交評(píng)論