選擇性集成ppt課件_第1頁
選擇性集成ppt課件_第2頁
選擇性集成ppt課件_第3頁
選擇性集成ppt課件_第4頁
選擇性集成ppt課件_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、http:/ 泛化:generalization泛化能力越強(qiáng),處理新數(shù)據(jù)的能力越好泛化能力是機(jī)器學(xué)習(xí)關(guān)注的基本問題之一提高泛化能力是永遠(yuǎn)的追求集成學(xué)習(xí)(Ensemble Learning)是一種機(jī)器學(xué)習(xí)范式,它使用多個(通常是同質(zhì)的)學(xué)習(xí)器來解決同一個問題 問題 . . 問題集成學(xué)習(xí)中使用的多個學(xué)習(xí)器稱為個體學(xué)習(xí)器當(dāng)個體學(xué)習(xí)器均為決策樹時,稱為“決策樹集成”當(dāng)個體學(xué)習(xí)器均為神經(jīng)網(wǎng)絡(luò)時,稱為“神經(jīng)網(wǎng)絡(luò)集成” 由于集成學(xué)習(xí)技術(shù)可以有效地提高學(xué)習(xí)系統(tǒng)的泛化能力,因此它成為國際機(jī)器學(xué)習(xí)界的研究熱點,并被國際權(quán)威 T.G. Dietterich 稱為當(dāng)前機(jī)器學(xué)習(xí)四大研究方向之首T.G. Dietteri

2、ch, AIMag97問題:對20維超立方體空間中的區(qū)域分類左圖中縱軸為錯誤率從上到下的四條線分別表示:平均神經(jīng)網(wǎng)絡(luò)錯誤率最好神經(jīng)網(wǎng)絡(luò)錯誤率兩種神經(jīng)網(wǎng)絡(luò)集成的錯誤率令人驚奇的是,集成的錯誤率比最好的個體還低 L.K. Hansen & P. Salamon, TPAMI90集成學(xué)習(xí)技術(shù)已經(jīng)在行星探測、地震波分析、Web信息過濾、生物特征識別、計算機(jī)輔助醫(yī)療診斷等眾多領(lǐng)域得到了廣泛的應(yīng)用只要能用到機(jī)器學(xué)習(xí)的地方,就能用到集成學(xué)習(xí)期望結(jié)果個體1 (精度33.3%)個體2 (精度33.3%)個體3 (精度33.3%)集成(精度33.3%)投票個體必須有差異期望結(jié)果個體1 (精度33.3%)個

3、體2 (精度33.3%)個體3 (精度33.3%)集成 (精度0%)投票個體精度不能太低EEA個體學(xué)習(xí)器越精確、差異越大,集成越好A. Krogh & J. Vedelsby, NIPS94既然多個個體的集成比單個個體更好,那么是不是個體越多越好?更多的個體意味著: 在預(yù)測時需要更大的計算開銷,因為要計算更多的個體預(yù)測 更大的存儲開銷,因為有更多的個體需要保存?zhèn)€體的增加將使得個體間的差異越來越難以獲得22111212NNNijikkijii kNCNCN EMany Could be Better Than All:在有一組個體學(xué)習(xí)器可用時,從中選擇一部分進(jìn)行集成,可能比用所有個體學(xué)習(xí)

4、器進(jìn)行集成更好Z.-H. Zhou et al., AIJ02從一組個體學(xué)習(xí)器中排除出去的個體(k)應(yīng)滿足:分類110jmjkjjjjj SumSgnSumfd回歸遺憾的是,上述公式在解決實際問題時難以直接使用 .w1w2 . wn利用遺傳算法進(jìn)化 .遺傳算法選擇隨機(jī)生成若干權(quán)向量,權(quán)向量的每個分量對應(yīng)了一個個體學(xué)習(xí)器,這些權(quán)向量被遺傳算法進(jìn)化,得到一個最優(yōu)權(quán)向量,它表示了各個體學(xué)習(xí)器在構(gòu)成集成時的“重要性”,據(jù)此進(jìn)行個體的選擇假設(shè) w2 1/n 分類:有排除的投票 回歸:有排除的平均為了證明選擇性集成學(xué)習(xí)的可操作性,我們提出了GASEN算法w11w12 . w1nw21w22 . w2nwm

5、1wm2 . wmn隨機(jī)生成一個權(quán)向量群體 . . . .Z.-H. Zhou et al., AIJ02與著名的集成學(xué)習(xí)算法Bagging和Boosting相比,GASEN 獲得了更高的(或相當(dāng)?shù)? 精度,而且使用的個體學(xué)習(xí)器少得多 (回歸:19% (3.71/20);分類:36% (7.10/20.0) Z.-H. Zhou et al., AIJ02221bias2xFHy YP Yy xP Yy x21variance12xHy YP Yy x給定學(xué)習(xí)目標(biāo)和訓(xùn)練集規(guī)模, bias 度量了學(xué)習(xí)算法的平均估計結(jié)果與目標(biāo)的接近程度variance 度量了在同樣規(guī)模的不同訓(xùn)練集上,學(xué)習(xí)算法的估

6、計結(jié)果的擾動程度以往研究表明,Bagging主要減小variance,而Boosting主要減小bias E. Bauer & R. Kohavi, MLJ99; L. Breiman, TechRep96我們采用的分解機(jī)制為 R. Kohavi & W.H. Wolpert, ICML96在回歸任務(wù)中,GASEN在減小bias和variance方面都優(yōu)于Bagging和Boosting在分類任務(wù)中,GASEN在減小bias方面優(yōu)于Bagging,在減小variance方面優(yōu)于Boosting GASEN的成功在于其既可以有效地減小bias,又可以有效地減小varianceZ.

7、-H. Zhou et al., AIJ02回歸分類biasvarianceBill Gates: 以人類生物特征進(jìn)行身份驗證的生物識別技術(shù),在今后數(shù)年內(nèi)將成為IT產(chǎn)業(yè)最為重要的技術(shù)革命人臉 臉部熱量圖 指紋 手形 手部血管分布 虹膜 視網(wǎng)膜 簽名 語音 人臉識別因識別方式友好、可隱蔽而備受學(xué)術(shù)界和工業(yè)界關(guān)注(但人臉識別不是萬能的)所謂自動人臉識別系統(tǒng),是指不需要人為干預(yù),能夠自動獲取人臉圖像并且辨別出其身份的系統(tǒng) 一個自動人臉識別系統(tǒng)至少要包含三個部分,即數(shù)據(jù)采集子系統(tǒng)、人臉檢測子系統(tǒng)和人臉識別子系統(tǒng) “人臉識別”有時是指整個自動人臉識別系統(tǒng)所做的工作,有時是指人臉識別子系統(tǒng)所做的工作數(shù)據(jù)采

8、集子系統(tǒng)人臉識別子系統(tǒng)人臉檢測子系統(tǒng)自動人臉識別系統(tǒng)識別結(jié)果:He is !是人臉識別的基準(zhǔn)技術(shù),并已成為事實上的工業(yè)標(biāo)準(zhǔn)該方法基于主成分分析(PCA)PCA是將分散在一組變量上的信息集中到某幾個綜合指標(biāo)(主成分)上的數(shù)學(xué)方法,實際上起著數(shù)據(jù)降維的作用,并保證降維過程最大化保留原數(shù)據(jù)的差異這對最大化類間差異(即不同人之間的差異)并最小化類內(nèi)差異(即同一人的不同圖像間的差異)很有效用PCA將2維數(shù)據(jù)降到1維的例子,綠色點表示二維數(shù)據(jù),PCA的目標(biāo)就是找到這樣一條直線,使得所有點在這條直線上的投影點之間的平均距離最大。也就是最大化地保留了原數(shù)據(jù)的差異性u高N1,寬N2的圖像P 可以轉(zhuǎn)化為N1N2維

9、的向量xu線性變換: ,其中y的維數(shù)m 遠(yuǎn)遠(yuǎn)小于x的維數(shù)nu尋找W 使得y 最大程度地保持x原有的差異(variance)uW 的求法:1) 樣本集的總體散布矩陣: 2) 求出C 的本征向量和對應(yīng)的本征值; 3) 將本征值排序為 ,它們對應(yīng)的本征向量分別為4) 取最前面的m個本征向量 組成變換矩陣W yxTW()() CExxT12n12,nw ww12,mw wwu直接計算C 的本征值和本征向量是困難的,可以通過對矩陣 做奇異值分解間接求出um值的選擇:12(),(),()DxxxX11miiniiT如果將本征向量恢復(fù)成圖像,這些圖像很像人臉,因此稱為“本征臉” M. Turk &

10、A. Pentland, JCN91利用PCA分析眼、鼻、嘴等局部特征,即本征特征方法 R. Brunelli & T. Poggio, TPAMI93 A. Pentland et al., CVPR94這實際上相當(dāng)于:為若干重要的特征建立本征空間,然后將多個本征空間集成起來本征臉利用全局特征,本征特征利用局部特征,二者各有優(yōu)勢待識別圖像本征臉識別結(jié)果本征特征識別結(jié)果 A. Pentland et al., CVPR94(2)(1)(3)(4)難題能否自動確定:該用哪些特征?(眼睛?鼻子?嘴?)特征的確切位置在哪兒?(從哪兒到哪兒算眼睛?)將二者結(jié)合,可以得到更好的識別效果同樣,這實

11、際上相當(dāng)于:為若干重要的特征建立本征空間,然后將多個本征空間集成起來由于嘴部受表情影響很嚴(yán)重,因此未考慮嘴部特征考慮 ,選擇的原則應(yīng)該是:將人臉圖像中所有的矩形區(qū)域都看做一個可能的特征,這樣,在每一個矩形區(qū)域都建立一個本征空間,最后將重要的本征空間集成起來圖像中包含的矩形區(qū)域的數(shù)量是非常巨大的(例如一幅3431的圖像包含的矩形區(qū)域就多達(dá)295,120個),不可能使用所有的本征空間組成集成,但可以運用選擇性集成思想,從中選擇出部分本征空間組成集成EEA 本征空間本身的誤差較小 本征空間之間的差異較大(即互補(bǔ)性較大)l給定k個人臉圖像樣本(每人兩張圖像,一張為gallery圖像,另一張為probe

12、圖像),算法將從所有N個矩形(R1, R2, , RN.)中選擇出m個lFor i = 1, 2, , N:1 以gallery圖像為訓(xùn)練集,在Ri 上訓(xùn)練出一個本征空間2 利用該本征空間識別所有的probe圖像,記下識別率ril將Ri按照相應(yīng)的ri從大到小排序lS = R1,A = R2, , Rn,這里 m n NlFor t = 1, 2, , m-1:1 對A中的每一個矩形Ri,計算Ri 能夠識別正確,而S中至少有一個矩形識別錯誤的probe圖像的數(shù)目,記為ci2 找到具有最大糾正誤識數(shù)目ct的矩形Rt3 將Rt從A中刪除并添加到S中l(wèi)集成與S中m個矩形相對應(yīng)的本征空間用于人臉識別選擇

13、誤差小的矩形特征選擇差異大的矩形特征 X. Geng & Z.-H. Zhou, unpub040.70.750.80.850.90.951123456789 10 11 12 13 14 15 16 17 18 19 20RankSEMEeigenfaceeigenfeatureeigenface + eigenfeatureCumulative match score X. Geng & Z.-H. Zhou, unpub04FERET人臉數(shù)據(jù)庫上的結(jié)果(3)(2)(1)(4)(2)(1)(3)(4)待識別圖像出現(xiàn)在算法返回的前Rank個圖像中SEME選擇的特征本征臉+本征特征所用的特征0.912345RankSEMEeigenfaceeigenfeatureeigenface + eigenfeatureCumulative match scoreSEME的訓(xùn)練(計算)開銷很大,但只需訓(xùn)練一次0.90.920.940.960.98112345RankSEMEeigenfaceeigenfeatureeigenface

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論