版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第十一章獨(dú)立于算法的機(jī)器學(xué)習(xí)11.1模式識(shí)別中的哲學(xué)這里討論的是一些獨(dú)立于具體識(shí)別算法的一般性原理,但可以適用于任何一個(gè)特定的識(shí)別方法:沒有免費(fèi)午餐定理;丑小鴨定理;Occam剃刀原理。沒有免費(fèi)的午餐定理
(NFL,NoFreeLunchTheorem)不存在一個(gè)與具體應(yīng)用無關(guān)的,普遍適用的“最優(yōu)分類器”;學(xué)習(xí)算法必須要作出一個(gè)與問題領(lǐng)域有關(guān)的“假設(shè)”,分類器必須與問題域相適應(yīng)。丑小鴨定理(UglyDuckling)不存在與問題無關(guān)的“最優(yōu)”的特征集合或?qū)傩约?;也同樣不存在與問題無關(guān)的模式之間的“相似性度量”。Occam剃刀原理設(shè)計(jì)者不應(yīng)該選用比“必要”更加復(fù)雜的分類器,“必要”是由訓(xùn)練數(shù)據(jù)的擬合情況決定的;在對(duì)訓(xùn)練數(shù)據(jù)分類效果相同時(shí),“簡(jiǎn)單的”分類器往往優(yōu)于“復(fù)雜的”分類器;根據(jù)“沒有免費(fèi)午餐定理”,不能說“簡(jiǎn)單的”分類器對(duì)“復(fù)雜的”分類器具有天生的優(yōu)越性,但在現(xiàn)實(shí)世界中遇到的各種問題,這種優(yōu)越性往往是存在。11.2分類性能評(píng)價(jià)方法使用什么樣本測(cè)試分類器的性能?如何劃分樣本集?兩分法:隨機(jī)地將樣本集D劃分為不相交的兩個(gè)集合Dl和Dt,分別用于學(xué)習(xí)分類器和測(cè)試分類器性能。訓(xùn)練樣本集(Dl)測(cè)試樣本集(Dt)分類性能評(píng)價(jià)方法交叉驗(yàn)證:將樣本集D隨機(jī)地劃分為互不相交的k個(gè)子集:使用k-1個(gè)子集的樣本訓(xùn)練一個(gè)分類器;測(cè)試沒有參與訓(xùn)練子集的樣本;重復(fù)k次取平均。留一法(刀切法):k=nD1…D2Dk-1DkDlDt分類性能評(píng)價(jià)方法Bootstrap方法(自助法):從樣本集D中有放回地抽取n個(gè)樣本用于訓(xùn)練;從樣本集D中有放回地抽取n個(gè)樣本用于測(cè)試;重復(fù)k次取平均。樣本集D樣本集Dl樣本集Dt11.3分類設(shè)計(jì)的重采樣技術(shù)分類器設(shè)計(jì)的重采樣技術(shù)也被稱為“自適應(yīng)的權(quán)值重置和組合(arcing,adaptivereweightingandcombining);這類方法的主要思想是利用同一個(gè)訓(xùn)練樣本集合構(gòu)造多個(gè)分類器,然后以某種方式將這些分類器組合成一個(gè)分類器;主要方法包括:bagging算法和boosting算法bagging算法從大小為n的原始數(shù)據(jù)集D中獨(dú)立隨機(jī)地抽取n’個(gè)數(shù)據(jù)(n’<n),形成一個(gè)自助數(shù)據(jù)集;重復(fù)上述過程,產(chǎn)生出多個(gè)獨(dú)立的自助數(shù)據(jù)集;利用每個(gè)自助數(shù)據(jù)集訓(xùn)練出一個(gè)“分量分類器”;最終的分類結(jié)果由這些“分量分類器”各自的判別結(jié)果投票決定。boosting算法boosting算法同樣是利用訓(xùn)練樣本集合構(gòu)造多個(gè)分量分類器,它只要求這個(gè)分量分類器是一個(gè)弱分類器—準(zhǔn)確率比平均性能好即可。2類問題,3個(gè)分量分類器的訓(xùn)練算法:在數(shù)量為n的原始樣本集D中隨機(jī)選取n1個(gè)樣本構(gòu)成D1,利用D1訓(xùn)練出一個(gè)分類器C1;在樣本集D-D1中選擇被C1正確分類和錯(cuò)誤分類的樣本各一半組成樣本集D2,用D2訓(xùn)練出一個(gè)分類器C2;將樣本集D-D1-D2中所有C1和C2分類結(jié)果不同的樣本組成樣本集D3,訓(xùn)練出一個(gè)分類器C3;boosting的分類算法對(duì)新的樣本x進(jìn)行分類,如果C1和C2判別結(jié)果相同,則將x判別為此類別,否則以C3的結(jié)果作為x的類別;原始樣本集分量分類器組合分類器AdaBoost方法AdaBoost(adaptiveboosting)是boosting方法的一個(gè)重要變形,一般所說的boosting方法均是指AdaBoost;AdaBoost方法中,設(shè)計(jì)者可以不斷地增加分量分類器,直到達(dá)到足夠小的錯(cuò)誤率為止;總體分類結(jié)果是由各分量分類器加權(quán)平均得到,權(quán)重由分量分類器的錯(cuò)誤率確定。AdaBoost方法begininitializeD,kmax,W1(i)1/n,i=1,…,n;
k0;dokk+1
訓(xùn)練使用按照Wk(i)采樣D的弱分類器Ck;
Ek用Wk(i)采樣D的樣本集測(cè)量Ck的訓(xùn)練誤差;
untilk=kmax;
endAdaBoost方法算法中Wk(i)為每一步迭代中對(duì)每個(gè)樣本的加權(quán),Zk是歸一化因子,Ck為第k個(gè)分量分類器,αk為對(duì)Ck的加權(quán);總體的判別函數(shù)由各分量分類器的加權(quán)平均得到: 其中為Ck分類器給出的判別結(jié)果。AdaBoost方法的推廣能力AdaBoost方法實(shí)際上是增加了分類器的復(fù)雜程度,但實(shí)踐表明此方法出現(xiàn)“過擬合”的現(xiàn)象極少,這是此方法最吸引人的地方。針對(duì)特征的Boosting算法特征選擇:就是從一組數(shù)量為n的特征中選擇出數(shù)量為m的最優(yōu)特征;最優(yōu)特征組合的評(píng)價(jià)標(biāo)準(zhǔn);選擇出最優(yōu)特征組合的算法;Boosting可以作為特征選擇的方法。AdaBoost特征選擇算法Givenexamples(x1,y1),…,(xn,yn),whereyi=0,1fornegativeandpositiveexamplesrespectively;Initializeweightsw1,i=1/2m,1/2lforyi=0,1respectively,wheremandlarethenumberofnegativesandpositivesrespectively;Fort=1,…,T:Normalizetheweights: sothatwtisaprobabilitydistribution.AdaBoost特征選擇算法Foreachfeature,j,trainaclassifierhjwhichisrestrictedtousingasinglefeature.Theerrorisevaluatedwithrespecttowt,Choosetheclassifierht,with
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 現(xiàn)代醫(yī)療用品的冷鏈物流管理策略
- 現(xiàn)代農(nóng)業(yè)技術(shù)推廣與農(nóng)業(yè)可持續(xù)發(fā)展
- 媽媽班活動(dòng)方案國(guó)慶節(jié)
- 2023八年級(jí)物理上冊(cè) 第二章 物質(zhì)世界的尺度、質(zhì)量和密度第二節(jié) 物體的質(zhì)量及其測(cè)量說課稿 (新版)北師大版
- 4《同學(xué)相伴》第一課時(shí) 說課稿-2023-2024學(xué)年道德與法治三年級(jí)下冊(cè)統(tǒng)編版
- 《6~9的加減法-用減法解決問題》說課稿-2024-2025學(xué)年一年級(jí)上冊(cè)數(shù)學(xué)人教版001
- 1少讓父母為我擔(dān)心(說課稿)-統(tǒng)編版(五四制)道德與法治四年級(jí)上冊(cè)
- 2024-2025學(xué)年高中物理 第四章 勻速圓周運(yùn)動(dòng) 第3節(jié) 向心力的實(shí)例分析說課稿 魯科版必修2
- Unit3《It's a colourful world!》(說課稿)-2024-2025學(xué)年外研版(三起)(2024)英語三年級(jí)上冊(cè)(2課時(shí))
- Unit 4 I have a pen pal Part B Let's learn(說課稿)-2023-2024學(xué)年人教PEP版英語六年級(jí)上冊(cè)
- (二模)遵義市2025屆高三年級(jí)第二次適應(yīng)性考試試卷 地理試卷(含答案)
- 二零二五隱名股東合作協(xié)議書及公司股權(quán)代持及回購(gòu)協(xié)議
- 浙江省湖州是吳興區(qū)2024年中考語文二模試卷附參考答案
- 風(fēng)電設(shè)備安裝施工專項(xiàng)安全措施
- IQC培訓(xùn)課件教學(xué)課件
- 2025年計(jì)算機(jī)二級(jí)WPS考試題目
- 高管績(jī)效考核全案
- 2024年上海市中考英語試題和答案
- 教育部《中小學(xué)校園食品安全和膳食經(jīng)費(fèi)管理工作指引》知識(shí)培訓(xùn)
- 長(zhǎng)沙醫(yī)學(xué)院《無機(jī)化學(xué)》2021-2022學(xué)年第一學(xué)期期末試卷
- eras婦科腫瘤圍手術(shù)期管理指南解讀
評(píng)論
0/150
提交評(píng)論