數(shù)據(jù)挖據(jù)技術(shù)集成學(xué)習(xí)方法ppt課件_第1頁
數(shù)據(jù)挖據(jù)技術(shù)集成學(xué)習(xí)方法ppt課件_第2頁
數(shù)據(jù)挖據(jù)技術(shù)集成學(xué)習(xí)方法ppt課件_第3頁
數(shù)據(jù)挖據(jù)技術(shù)集成學(xué)習(xí)方法ppt課件_第4頁
數(shù)據(jù)挖據(jù)技術(shù)集成學(xué)習(xí)方法ppt課件_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、 數(shù)據(jù)挖據(jù)技術(shù)數(shù)據(jù)挖據(jù)技術(shù)集成學(xué)習(xí)方法集成學(xué)習(xí)方法(ensemble learnig)王磊王磊 副教授副教授經(jīng)濟信息工程學(xué)院經(jīng)濟信息工程學(xué)院2第六章:第六章: 集成學(xué)習(xí)方法集成學(xué)習(xí)方法n根本概念根本概念nbaggingnboostingn隨機森林隨機森林n選擇性集成方法選擇性集成方法n在機器學(xué)習(xí)中,直接建立一個高性能的分類器是很困難的。n但是,假設(shè)能找到一系列性能較差的分類器弱分類器,并把它們集成起來的話,也許就能得到更好的分類器。n日常生活中,“三個臭皮匠,勝過諸葛亮,便是表達了這種思想。集成學(xué)習(xí)的根本概念Classifier ensembleihi(x)hn(x)h2(x)h1(x)Inp

2、ut vectorClassifier 1Classifier 2Classifier NCombine ClassifiersOutputx集成學(xué)習(xí):圖示n我們普通選定加權(quán)平均的方法來構(gòu)造集成學(xué)習(xí)的最終學(xué)習(xí)器。n但是里面的每一個 弱分類器i怎樣構(gòu)造呢?n有一些研討,是針對每個學(xué)習(xí)器都不同構(gòu)的情況,比如識別一個人,一個學(xué)習(xí)器思索臉,另一個思索步態(tài),另一個思索指紋。這種研討通常稱為Information Fusion,不在我們今天討論的范疇。n狹義的集成學(xué)習(xí)ensemble learning,是用同樣類型的學(xué)習(xí)算法來構(gòu)造不同的弱學(xué)習(xí)器的方法。集成學(xué)習(xí):如何構(gòu)造?n方法就是改動訓(xùn)練集。方法就是改動

3、訓(xùn)練集。n通常的學(xué)習(xí)算法,根據(jù)訓(xùn)練集的不同,會給出不通常的學(xué)習(xí)算法,根據(jù)訓(xùn)練集的不同,會給出不同的學(xué)習(xí)器。這時就可以經(jīng)過改動訓(xùn)練集來構(gòu)造同的學(xué)習(xí)器。這時就可以經(jīng)過改動訓(xùn)練集來構(gòu)造不同的學(xué)習(xí)器。然后再把它們集成起來。不同的學(xué)習(xí)器。然后再把它們集成起來。集成學(xué)習(xí):如何構(gòu)造?n在原來的訓(xùn)練集上隨機采樣,可以得到新的訓(xùn)練集。【隨機采樣】 集成學(xué)習(xí)Ensemble Learning是一種機器學(xué)習(xí)方法,它運用多個通常是同質(zhì)的學(xué)習(xí)器來處理同一個問題 問題 . . 問題 集成學(xué)習(xí)中運用的多個學(xué)習(xí)器稱為個體學(xué)習(xí)器當(dāng)個體學(xué)習(xí)器均為決策樹時,稱為“決策樹集成當(dāng)個體學(xué)習(xí)器均為神經(jīng)網(wǎng)絡(luò)時,稱為“神經(jīng)網(wǎng)絡(luò)集成 集成學(xué)習(xí)的

4、定義由于集成學(xué)習(xí)技術(shù)可以有效地提高學(xué)習(xí)系統(tǒng)的泛化才干,因此它成為國際機器學(xué)習(xí)界的研討熱點,并被國際權(quán)威 T.G. Dietterich 稱為當(dāng)前機器學(xué)習(xí)四大研討方向之首T.G. Dietterich, AIMag97問題:對20維超立方體空間中的區(qū)域分類左圖中縱軸為錯誤率從上到下的四條線分別表示:平均神經(jīng)網(wǎng)絡(luò)錯誤率最好神經(jīng)網(wǎng)絡(luò)錯誤率兩種神經(jīng)網(wǎng)絡(luò)集成的錯誤率令人驚奇的是,集成的錯誤率比最好的個體還低 L.K. Hansen & P. Salamon, TPAMI90【集成學(xué)習(xí)的重要性】集成學(xué)習(xí)技術(shù)曾經(jīng)在行星探測、地震波分析、Web信息過濾、生物特征識別、計算機輔助醫(yī)療診斷等眾多領(lǐng)域得到了

5、廣泛的運用只需能用到機器學(xué)習(xí)的地方,就能用到集成學(xué)習(xí)【集成學(xué)習(xí)的運用】期望結(jié)果個體1 (精度33.3%)個體2 (精度33.3%)個體3 (精度33.3%)集成(精度33.3%)投票個體必需有差別期望結(jié)果個體1 (精度33.3%)個體2 (精度33.3%)個體3 (精度33.3%)集成 (精度0%)投票個體精度不能太低EEA個體學(xué)習(xí)器越準(zhǔn)確、差別越大,集成越好A. Krogh & J. Vedelsby, NIPS94既然多個個體的集成比單個個體更好,那么是不是個體越多越好?更多的個體意味著: 在預(yù)測時需求更大的計算開銷,由于要計算更多的個體預(yù)測 更大的存儲開銷,由于有更多的個體需求保

6、管個體的添加將使得個體間的差別越來越難以獲得集成戰(zhàn)略集成戰(zhàn)略n有多種戰(zhàn)略可以將q個弱分類器組合成集成分類器。 集成戰(zhàn)略集成戰(zhàn)略n從大小為n的原始數(shù)據(jù)集D中獨立隨機地抽取n個數(shù)據(jù)(n=n),構(gòu)成一個自助數(shù)據(jù)集;n反復(fù)上述過程,產(chǎn)生出多個獨立的自助數(shù)據(jù)集;n利用每個自助數(shù)據(jù)集訓(xùn)練出一個“分量分類器;n最終的分類結(jié)果由這些“分量分類器各自的判別結(jié)果投票決議。根本思想:對訓(xùn)練集有放回地抽取訓(xùn)練樣例,從而為每一個根本分類器都構(gòu)造出一個跟訓(xùn)練集相當(dāng)大小但各不一樣的訓(xùn)練集,從而訓(xùn)練出不同的根本分類器;該算法是基于對訓(xùn)練集進展處置的集成方法中最簡單、最直觀的一種。 Boosting流程描畫流程描畫nStep1

7、: 原始訓(xùn)練集輸入nStep2: 計算訓(xùn)練集中各樣本的權(quán)重nStep3: 采用知算法訓(xùn)練弱學(xué)習(xí)機,并對每個樣本進展判別nStep4: 計算對此次的弱學(xué)習(xí)機的權(quán)重nStep5: 轉(zhuǎn)到Step2, 直到循環(huán)到達一定次數(shù)或者某度量規(guī)范符合要求nStep6: 將弱學(xué)習(xí)機按其相應(yīng)的權(quán)重加權(quán)組合構(gòu)成強學(xué)習(xí)機中心思想中心思想n樣本的權(quán)重n沒有先驗知識的情況下,初始的分布應(yīng)為等概分布,也就是訓(xùn)練集假設(shè)有N個樣本,每個樣本的分布概率為1/Nn每次循環(huán)一后提高錯誤樣本的分布概率,分錯樣本在訓(xùn)練集中所占權(quán)重增大, 使得下一次循環(huán)的弱學(xué)習(xí)機可以集中力量對這些錯誤樣本進展判別。n弱學(xué)習(xí)機的權(quán)重n準(zhǔn)確率越高的弱學(xué)習(xí)機權(quán)重

8、越高n循環(huán)控制:損失函數(shù)到達最小n在強學(xué)習(xí)機的組合中添加一個加權(quán)的弱學(xué)習(xí)機,使準(zhǔn)確率提高,損失函數(shù)值減小。簡單問題演示簡單問題演示Boosting訓(xùn)練過程訓(xùn)練過程算法算法boosting數(shù)學(xué)描畫數(shù)學(xué)描畫n訓(xùn)練集 (x1,y1), (x2,y2), (xN,yN) nxi Rm, yi -1,+1nDt 為第t次循環(huán)時的訓(xùn)練樣本分布每個樣本在訓(xùn)練集中所占的概率, Dt總和應(yīng)該為1nht:X-1,+1 為第t次循環(huán)時的Weak learner,對每個樣本給出相應(yīng)的假設(shè),應(yīng)該滿足強于隨機猜測:nwt為ht的權(quán)重n 為t次循環(huán)得到的Strong learner21),()(xhyPtDyxttiiti

9、ithwsignH1)()(樣本權(quán)重樣本權(quán)重n思想:提高分錯樣本的權(quán)重n 反映了strong learner對樣本的假設(shè)能否正確n采用什么樣的函數(shù)方式?n)(itiHywrongrightHyiti00)()(expitiHy弱學(xué)習(xí)機權(quán)重弱學(xué)習(xí)機權(quán)重n思想:錯誤率越低,該學(xué)習(xí)機的權(quán)重應(yīng)該越大n 為學(xué)習(xí)機的錯誤概率n采用什么樣的函數(shù)方式?n n 和指數(shù)函數(shù)遙相呼應(yīng):)(),(xhyPtDyxtt tttw1ln21AdaBoost算法算法Adaboost 訓(xùn)練過程訓(xùn)練過程Adaboost 訓(xùn)練過程訓(xùn)練過程Adaboost 訓(xùn)練過程訓(xùn)練過程Adaboost的缺陷的缺陷隨機森林算法隨機森林算法n隨機

10、森林算法是Leo Breiman于2001年提出的一種新型分類和預(yù)測模型,它具有需求調(diào)整的參數(shù)少,不容易過度擬合,分類速度快,能高效處置大樣本數(shù)據(jù)等特點。nBagging和AdaBoost等方法只是經(jīng)過改動樣本的權(quán)重來獲得不同的弱分類器。隨機森林RF那么經(jīng)過同時改動樣本和特征子集來獲得不同的弱分類器。隨機森林算法隨機森林算法n隨機森林是采用隨機的方式建立一個森林,森林有很多決策樹組成,每棵決策樹之間沒有關(guān)聯(lián)。對于新的測試樣本,讓森林中的每一棵決策樹分布分別進展一下判別,根據(jù)多數(shù)者投票方法決議樣本的類別。完全分裂的方式完全分裂的方式隨機特征選取隨機特征選取n當(dāng)特征個數(shù)M較多時,隨機選擇m個用于訓(xùn)

11、練決策樹。m越小,樹的相關(guān)性越小,且訓(xùn)練速度越快。n當(dāng)特征個數(shù)M較少時,可以由M個特征進展隨機線性組合來產(chǎn)生M 個擴展特征,然后,在M+M上隨機選擇m個特征,構(gòu)建決策樹。n其中,每一個擴展特征的構(gòu)造如下: 從現(xiàn)有M特征中隨機抽取L個,它們的權(quán)重系數(shù)是-1,+1區(qū)間的均勻隨機數(shù)。然后,由L個已有特征線性組合出擴展特征。隨機特征數(shù)確實定隨機特征數(shù)確實定選擇性集成算法選擇性集成算法n一方面,運用更多的學(xué)習(xí)器將導(dǎo)致更大的計算和存儲開銷一方面,運用更多的學(xué)習(xí)器將導(dǎo)致更大的計算和存儲開銷,另一方面,當(dāng)個體學(xué)習(xí)器數(shù)目添加之后,學(xué)習(xí)器之間的,另一方面,當(dāng)個體學(xué)習(xí)器數(shù)目添加之后,學(xué)習(xí)器之間的差別將越來越難以獲得。差別將越來越難以獲得。n因此,提出問題:為了到達更好的性能,能否必需運用更因此,提出問題:為了到達更好的性能,能否必需運用更多的個體學(xué)習(xí)器?多的個體學(xué)習(xí)器?選擇性集成的實際分析選擇性集成的實際分析選擇性集成的實際分析選擇性集成的實際分析選擇性集成的實際分析選擇性集成的實際分析選擇性集成的實際分析選擇性集成的實際分析問題求解問題求解問題求解問題求解GASEN算法算法論文講解論文講解n基于約束投影的支持向量機選擇性集成基于約束投影的支持向量機

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論