獨(dú)立于算法的機(jī)器學(xué)習(xí)_第1頁
獨(dú)立于算法的機(jī)器學(xué)習(xí)_第2頁
獨(dú)立于算法的機(jī)器學(xué)習(xí)_第3頁
獨(dú)立于算法的機(jī)器學(xué)習(xí)_第4頁
獨(dú)立于算法的機(jī)器學(xué)習(xí)_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第十一章獨(dú)立于算法的機(jī)器學(xué)習(xí).11.1模式識(shí)別中的哲學(xué)這里討論的是一些獨(dú)立于具體識(shí)別算法的一般性原理,但可以適用于任何一個(gè)特定的識(shí)別方法:沒有免費(fèi)午餐定理;丑小鴨定理;Occam剃刀原理。沒有免費(fèi)的午餐定理

〔NFL,NoFreeLunchTheorem〕不存在一個(gè)與具體應(yīng)用無關(guān)的,普遍適用的“最優(yōu)分類器〞;學(xué)習(xí)算法必須要作出一個(gè)與問題領(lǐng)域有關(guān)的“假設(shè)〞,分類器必須與問題域相適應(yīng)。丑小鴨定理〔UglyDuckling〕不存在與問題無關(guān)的“最優(yōu)〞的特征集合或?qū)傩约?;也同樣不存在與問題無關(guān)的模式之間的“相似性度量〞。Occam剃刀原理設(shè)計(jì)者不應(yīng)該選用比“必要〞更加復(fù)雜的分類器,“必要〞是由訓(xùn)練數(shù)據(jù)的擬合情況決定的;在對(duì)訓(xùn)練數(shù)據(jù)分類效果相同時(shí),“簡(jiǎn)單的〞分類器往往優(yōu)于“復(fù)雜的〞分類器;根據(jù)“沒有免費(fèi)午餐定理〞,不能說“簡(jiǎn)單的〞分類器對(duì)“復(fù)雜的〞分類器具有天生的優(yōu)越性,但在現(xiàn)實(shí)世界中遇到的各種問題,這種優(yōu)越性往往是存在。11.2分類設(shè)計(jì)的重采樣技術(shù)分類器設(shè)計(jì)的重采樣技術(shù)也被稱為“自適應(yīng)的權(quán)值重置和組合〔arcing,adaptivereweightingandcombining〕;這類方法的主要思想是利用同一個(gè)訓(xùn)練樣本集合構(gòu)造多個(gè)分類器,然后以某種方式將這些分類器組合成一個(gè)分類器;主要方法包括:bagging算法和boosting算法bagging算法從大小為n的原始數(shù)據(jù)集D中獨(dú)立隨機(jī)地抽取n’個(gè)數(shù)據(jù)(n’<n),形成一個(gè)自助數(shù)據(jù)集;重復(fù)上述過程,產(chǎn)生出多個(gè)獨(dú)立的自助數(shù)據(jù)集;利用每個(gè)自助數(shù)據(jù)集訓(xùn)練出一個(gè)“分量分類器〞;最終的分類結(jié)果由這些“分量分類器〞各自的判別結(jié)果投票決定。boosting算法boosting算法同樣是利用訓(xùn)練樣本集合構(gòu)造多個(gè)分量分類器,它只要求這個(gè)分量分類器是一個(gè)弱分類器—準(zhǔn)確率比平均性能好即可。2類問題,3個(gè)分量分類器的訓(xùn)練算法:在數(shù)量為n的原始樣本集D中隨機(jī)選取n1個(gè)樣本構(gòu)成D1,利用D1訓(xùn)練出一個(gè)分類器C1;在樣本集D-D1中選擇被C1正確分類和錯(cuò)誤分類的樣本各一半組成樣本集D2,用D2訓(xùn)練出一個(gè)分類器C2;將樣本集D-D1-D2中所有C1和C2分類結(jié)果不同的樣本組成樣本集D3,訓(xùn)練出一個(gè)分類器C3;boosting的分類算法對(duì)新的樣本x進(jìn)行分類,如果C1和C2判別結(jié)果相同,那么將x判別為此類別,否那么以C3的結(jié)果作為x的類別;原始樣本集分量分類器組合分類器AdaBoost方法AdaBoost(adaptiveboosting)是boosting方法的一個(gè)重要變形,一般所說的boosting方法均是指AdaBoost;AdaBoost方法中,設(shè)計(jì)者可以不斷地增加分量分類器,直到到達(dá)足夠小的錯(cuò)誤率為止;總體分類結(jié)果是由各分量分類器加權(quán)平均得到,權(quán)重由分量分類器的錯(cuò)誤率確定。AdaBoost方法begininitializeD,kmax,W1(i)

1/n,i=1,…,n;

k0;dokk+1

訓(xùn)練使用按照Wk(i)采樣D的弱分類器Ck;

Ek

用Wk(i)采樣D的樣本集測(cè)量Ck的訓(xùn)練誤差;

untilk=kmax;

endAdaBoost方法算法中Wk(i)為每一步迭代中對(duì)每個(gè)樣本的加權(quán),Zk是歸一化因子,Ck為第k個(gè)分量分類器,αk為對(duì)Ck的加權(quán);總體的判別函數(shù)由各分量分類器的加權(quán)平均得到: 其中為Ck分類器給出的判別結(jié)果。AdaBoost方法的推廣能力AdaBoost方法實(shí)際上是增加了分類器的復(fù)雜程度,但實(shí)踐說明此方法出現(xiàn)“過擬合〞的現(xiàn)象極少,這是此方法最吸引人的地方。針對(duì)特征的Boosting算法特征選擇:就是從一組數(shù)量為n的特征中選擇出數(shù)量為m的最優(yōu)特征;最優(yōu)特征組合的評(píng)價(jià)標(biāo)準(zhǔn);選擇出最優(yōu)特征組合的算法;Boosting可以作為特征選擇的方法。AdaBoost特征選擇算法Givenexamples(x1,y1),…,(xn,yn),whereyi=0,1fornegativeandpositiveexamplesrespectively;Initializeweightsw1,i=1/2m,1/2lforyi=0,1respectively,wheremandlarethenumberofnegativesandpositivesrespectively;Fort=1,…,T:Normalizetheweights: sothatwtisaprobabilitydistribution.AdaBoost特征選擇算法Foreachfeature,j,trainaclassifierhjwhichisrestrictedtousingasinglefeature.Theerrorisevaluatedwithrespecttowt,Choosetheclassifierht,withthelowesterrorUpdatetheweights: whereei

=0ifexamplexiisclassifiedcorrectly,ei

=1otherwise,andThefinalclassifieris:11.3分類器的評(píng)價(jià)和比較在分類器設(shè)計(jì)好后,我們只能計(jì)算出分類器在訓(xùn)練樣本集上的錯(cuò)誤率,而不能計(jì)算出在測(cè)試樣本集上的錯(cuò)誤率;可以采用統(tǒng)計(jì)量估計(jì)中的重采樣技術(shù)來對(duì)測(cè)試樣本錯(cuò)誤率進(jìn)行估計(jì),具體方法有:交叉驗(yàn)證;刀切法;自助法;交叉驗(yàn)證(CrossValidation)簡(jiǎn)單驗(yàn)證:將數(shù)量為n的訓(xùn)練樣本集D分成兩局部,一局部作為訓(xùn)練集,用于訓(xùn)練分類器,另一局部作為驗(yàn)證集,用于估計(jì)測(cè)試錯(cuò)誤率;m-重交叉驗(yàn)證:將D分成m個(gè)集合,每個(gè)集合包含n/m個(gè)樣本,每次用m-1個(gè)集合的樣本訓(xùn)練分類器,用剩余的一個(gè)集合測(cè)試,最后將m個(gè)測(cè)試結(jié)果平均,作為測(cè)試錯(cuò)誤率的估計(jì);刀切法〔Jackknife〕刀切法實(shí)際上是m=n時(shí)的m-重交叉驗(yàn)證。在數(shù)量為n的樣本集D中每次留一個(gè)樣本,用其它樣本訓(xùn)練分類器,用留下的一個(gè)樣本測(cè)試錯(cuò)誤率,測(cè)試錯(cuò)誤率為: p

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論