




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、遷移學習算法研究遷移學習算法研究匯報人:孫鈺灃101遷移學習(Transfer Learning)匯報內(nèi)容02基于實例的遷移學習2遷移學習傳統(tǒng)的機器學習假設(shè)訓練數(shù)據(jù)與測試數(shù)據(jù)服從相同的數(shù)據(jù)分布在許多情況下,由于訓練數(shù)據(jù)過期則不滿足同分布的假設(shè)情況,我們不得不去標注新數(shù)據(jù),但是標注新數(shù)據(jù)又非常昂貴。而且舍棄掉大量的不同分布下的過期數(shù)據(jù)又是很浪費的,在這種情況下,遷移學習變得非常重要,因為遷移學習是可以從現(xiàn)有數(shù)據(jù)中遷移知識,用來幫助將來的學習。3遷移學習機器與人機器學習機器學習人人優(yōu)點計算機可以根據(jù)現(xiàn)有的數(shù)據(jù)進行自動的學習,整理出有用的知識,并應用在問題上“舉一反三”“活到老,學到老”缺點從零開始
2、,并不借鑒以前學到的知識,也不對學到的知識進行改進和發(fā)展無法處理過多的數(shù)據(jù)4遷移學習傳統(tǒng)的機器學習基于統(tǒng)計學習。統(tǒng)計學習雖然在其能力范圍內(nèi)顯示出了很好的學習效果。但是,由于統(tǒng)計學習是基于數(shù)理統(tǒng)計,這就要求學習的知識和應用的問題必須具有相同的統(tǒng)計特征。于是,一般情況下,統(tǒng)計學習只能解決相同領(lǐng)域內(nèi)、同一問題的學習,因為當學習和應用的場景發(fā)生遷移后,統(tǒng)計特征往往發(fā)生改變,從而影響統(tǒng)計學習的效果。然而,在現(xiàn)實生活中,人們在學習時,例如,我們在學習物理的時候,需要大量借助以往的數(shù)學基礎(chǔ)。人在學習時,具有在不同領(lǐng)域、不同問題之間進行遷移轉(zhuǎn)移的能力,這正是機器學習所缺乏的。而,這種知識在不同場景之間遷移轉(zhuǎn)化
3、的能力被稱為遷移學習(Transfer Learning)5遷移學習 遷移學習是人的基本學習技能,但是遷移并不適用于每一件事情上,當兩當兩種學習在內(nèi)容和方法上,種學習在內(nèi)容和方法上,或兩種學習的刺激和反映或兩種學習的刺激和反映無共同之處時,就不會有無共同之處時,就不會有遷移作用的發(fā)生。若兩種遷移作用的發(fā)生。若兩種學習有共同因素時,就會學習有共同因素時,就會產(chǎn)生遷移產(chǎn)生遷移。共同因素越多,遷移作用就越大。6遷移學習遷移學習的定義NIPS 2005對遷移學習給出了一個比較有代表性的定義:transfer learning emphasizes the transfer of knowledge a
4、cross domains, tasks, and distributions that are similar but not the same. 翻譯成中文就是說,遷移學習強調(diào)的是在不同但是相似的領(lǐng)域不同但是相似的領(lǐng)域、任務任務和分布之間進行知識和分布之間進行知識的遷移。即,給定源域DS和學習任務TS,一個目標域DT和學習任務TT,遷移學習致力于用DS和TS中的知識,幫助提高DT中目標預測函數(shù)fT( )的學習。并且有DSDT或TSTT。7基于實例的遷移學習如果訓練數(shù)據(jù)和測試數(shù)據(jù)的分布不同,傳統(tǒng)的機器學習效果可能會非常差。正因為如此,我們希望能夠設(shè)計出一種算法來針對訓練數(shù)據(jù)和測試數(shù)據(jù)來自不同
5、的數(shù)據(jù)源的情況。我們考慮這樣的問題:輔助域(數(shù)據(jù)多)目標域(數(shù)據(jù)少)不同分布模型測試數(shù)據(jù)同分布8基于實例的遷移學習基于Boosting的遷移學習算法基本思想是,盡管輔助數(shù)據(jù)和目標數(shù)據(jù)或多或少會有些不同,但是輔助數(shù)據(jù)中應該還是會存在一部分比較適合用來訓練一個有效的分類模型,并且適應測試數(shù)據(jù)。于是,我們的目標就是從輔助數(shù)據(jù)中找出那些適合測試數(shù)據(jù)的實例,并將這些實例遷移到目標數(shù)據(jù)的學習中去。9基于實例的遷移學習具體來說,推廣了傳統(tǒng)的AdaBoost算法,使之具有遷移學習的能力,從而能夠最大限度的利用輔助數(shù)據(jù)來幫助訓練目標的分類。關(guān)鍵的想法是利用boosting的技術(shù)來過濾掉輔助數(shù)據(jù)中那些與目標數(shù)據(jù)最
6、不像的數(shù)據(jù)。其中,boosting的作用是建立一種自動調(diào)整權(quán)重的機制,于是重要的輔助數(shù)據(jù)的權(quán)重將會增加,不重要的輔助數(shù)據(jù)的權(quán)重將會減小。調(diào)整權(quán)重之后,這些帶權(quán)重的輔助數(shù)據(jù)將會作為額外的訓練數(shù)據(jù),與目標數(shù)據(jù)一起從來提高分類模型的可靠度。于是,我們得到了一個新的boosting算法,稱為Transfer AdaBoost,簡稱TrAdaBoost10基于實例的遷移學習TrAdaboost算法原理(1)初始化訓練數(shù)據(jù)(每個樣本)的權(quán)值分布:如果有N個樣本,則每一個訓練的樣本點最開始時都被賦予相同的權(quán)重:1/N。(2)訓練弱分類器。具體訓練過程中,如果某個樣本已經(jīng)被準確地分類,那么在構(gòu)造下一個訓練集中
7、,它的權(quán)重就被降低;相反,如果某個樣本點沒有被準確地分類,那么它的權(quán)重就得到提高。同時,得到弱分類器對應的話語權(quán)。然后,更新權(quán)值后的樣本集被用于訓練下一個分類器,整個訓練過程如此迭代地進行下去。 (3)將各個訓練得到的弱分類器組合成強分類器。各個弱分類器的訓練過程結(jié)束后,分類誤差率小的弱分類器的話語權(quán)較大,其在最終的分類函數(shù)中起著較大的決定作用,而分類誤差率大的弱分類器的話語權(quán)較小,其在最終的分類函數(shù)中起著較小的決定作用。換言之,誤差率低的弱分類器在最終分類器中占的比例較大,反之較小。11基于實例的遷移學習(d)TrAdaBoost算法通過增加誤分類的目標數(shù)據(jù)的權(quán)重,同時減少誤分類輔助數(shù)據(jù)的權(quán)
8、重,來使得分類面朝正確的方向移動12基于實例的遷移學習問題定義定義定義(基本符號基本符號): Xa為輔助樣例空間(auxiliary in-stance space),設(shè)Xb為目標樣例空間(target instance space),也就是需要被分類的樣例空間。 設(shè)Y =0,1為類空間。在本工作中,我們將問題簡化為兩分類問題。對于多分類問題,可以很自然地從兩分類問題推廣得之。 訓練數(shù)據(jù)T(X=XbXa)Y是從目標樣例空間和輔助樣例空間中采集得來的。 一個概念c:XY,將樣本xX映射到其真實的類標c(x)Y上去。13基于實例的遷移學習問題定義定義定義(測試數(shù)據(jù)集(未標注數(shù)據(jù)集)測試數(shù)據(jù)集(未標
9、注數(shù)據(jù)集)):其中,數(shù)據(jù)集S是未標注的,且k是集合S中的元素個數(shù)。訓練數(shù)據(jù)集T可以劃分為兩個子集合: 1,2,ttiibSxxXik,其中,當,14基于實例的遷移學習問題定義定義定義(訓練訓練數(shù)據(jù)集數(shù)據(jù)集):其中,c(x)是實例x的真實類標。Ta是輔助訓練數(shù)據(jù)集,Tb是目標訓練數(shù)據(jù)集。n和m分別是輔助訓練數(shù)據(jù)集和目標訓練數(shù)據(jù)集的大小。,1,2, ;,1,2, .aaaaiiiabbbbjjjbTxc xxXinTx c xxXjm,其中,當,其中,當,15基于實例的遷移學習于是,合并起來的訓練數(shù)據(jù)集T=(xi,c(xi)就可以定義如下:,1, ;,1,.diisixinxx innm至此,我們
10、可以定義問題如下:給定一個很小的目標訓練數(shù)據(jù)集Tb,大量的輔助訓練數(shù)據(jù)Ta和一些未標注的測試數(shù)據(jù)集S,我們的目標就是要訓練一個分類器,盡可能減小S上的分類誤差。16基于實例的遷移學習17基于實例的遷移學習1tttwb1/ 21/ 21/ 2a任意的都是可以被接受的。本算法中所設(shè)的初始權(quán)重僅僅是為了方便理論分析。這里 必須小于。但是,為了避免算法停止,當 超過時,我們設(shè)置 為。 -1,1,titiitalh xc xintNhTloss 令且為分類器假設(shè) 在輔助訓練數(shù)據(jù)集上的損失值18基于實例的遷移學習實驗分析我們在三個文本數(shù)據(jù)集20 Newsgroups,SRAA和Reuters-21578上測試我們算法的效果。在本實驗中,我們將TrAdaBoost算法與三個基準算法進行比較,分別是:(1)SVM,即簡單的用SVM結(jié)合源訓練數(shù)據(jù)Tb進行訓練;(2) SVMt,即用SVM結(jié)合合并訓練集T進行訓練(3)AuxSVM,根據(jù)SVM的一種遷移學習方法。19基于實例的遷移學習20基于實例的遷移學習21基于實例的遷移學習給出了當只有1%的目標數(shù)據(jù)是訓練數(shù)據(jù)時,SVM, SVMt,AuxSVM和TrAdaBoost(SVM)的分類錯誤率。所有的結(jié)果都是隨機取10次訓練數(shù)據(jù)后的平均結(jié)果。迭代次數(shù)為100表:當只有1%目標數(shù)據(jù)是訓練數(shù)據(jù)時的分類錯誤率22基于實例的遷移學
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)村留守兒童教育現(xiàn)狀與改進策略
- 2025年財務部下半年工作方案
- 配電箱實務知識培訓課件
- 商品的品類管理與談判技巧培訓教材
- 蘭州理工大學《中學信息技術(shù)學科教學論》2023-2024學年第二學期期末試卷
- 江蘇省南京市棲霞區(qū)、雨花區(qū)、江寧區(qū)2025屆中考最后沖刺模擬(一)物理試題文試題含解析
- 畢節(jié)職業(yè)技術(shù)學院《高級英語Ⅰ》2023-2024學年第一學期期末試卷
- 武漢大學《工程倫理學B》2023-2024學年第二學期期末試卷
- 湖南城建職業(yè)技術(shù)學院《食品無損檢測》2023-2024學年第一學期期末試卷
- 2025屆浙江省金華市金東區(qū)初三下學期定時訓練化學試題含解析
- DB11-T 1526-2018 地下連續(xù)墻施工技術(shù)規(guī)程
- 風電制氫項目可行性研究報告
- 加氣站安全生產(chǎn)獎懲規(guī)定模版(3篇)
- 細胞治療政策環(huán)境分析-洞察分析
- 2024-2030年中國玄武巖纖維工業(yè)行業(yè)現(xiàn)狀調(diào)研及投資戰(zhàn)略研究報告
- 公園景觀修復零星維修施工方案
- 掛靠免責協(xié)議書范本
- 小學數(shù)學青島版五年級下冊《異分母分數(shù)大小比較與通分》課件
- 社區(qū)矯正考試題及答案
- 幼兒園水池建設(shè)方案
- 安徽省宿州市省、市示范高中2024-2025學年高一上學期期中教學質(zhì)量檢測英語試題 含解析
評論
0/150
提交評論