




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、DualGAN:圖像到圖像翻譯的無監(jiān)督雙重學(xué)習(xí)摘要:近年來,用于跨域圖像翻譯的條件生成對(duì)抗網(wǎng)絡(luò)(GANs)取得了很大的進(jìn)展。根據(jù)任務(wù)復(fù)雜度,需要數(shù)千到數(shù)百萬個(gè)標(biāo)記的圖像來訓(xùn)練條件GAN。然而,人類的標(biāo)簽是昂貴的,甚至不切實(shí)際的,大量的數(shù)據(jù)可能并不總是可用的。受自然語(yǔ)言翻譯的雙重學(xué)習(xí)的啟發(fā),我們提出了一種新的雙重GAN機(jī)制,使圖像翻譯人員能夠從兩個(gè)領(lǐng)域的兩組未標(biāo)記圖像中進(jìn)行訓(xùn)練。在我們的架構(gòu)中,原始GAN學(xué)習(xí)將圖像從域U轉(zhuǎn)換到域V,而雙GAN學(xué)習(xí)反轉(zhuǎn)任務(wù)。由原始任務(wù)和雙重任務(wù)構(gòu)成的閉環(huán)允許對(duì)來自任一域的圖像進(jìn)行翻譯和重建。因此,可以使用一個(gè)能解釋圖像重建誤差的損失函數(shù)來訓(xùn)練翻譯人員。在無標(biāo)記數(shù)據(jù)
2、的多個(gè)圖像翻譯任務(wù)上的實(shí)驗(yàn)表明,與單個(gè)GAN相比,DualGAN具有相當(dāng)大的性能增益。在某些任務(wù)中,DualGAN甚至可以獲得與基于全標(biāo)記數(shù)據(jù)訓(xùn)練的條件GAN相當(dāng)或稍好的結(jié)果。一、介紹許多圖像處理和計(jì)算機(jī)視覺任務(wù),例如,圖像分割、樣式化和抽象,可以構(gòu)成圖像到圖像的轉(zhuǎn)換問題4,它將對(duì)象或場(chǎng)景的一種視覺表示轉(zhuǎn)換為另一種視覺表示。傳統(tǒng)上,這些任務(wù)由于其內(nèi)在差異而被單獨(dú)處理7、8、21、12、4、18。直到過去兩年,通用和端到端的深度學(xué)習(xí)框架,特別是那些利用完全卷積網(wǎng)絡(luò)(FCNs)11和條件生成對(duì)抗網(wǎng)絡(luò)(cGANs)4的框架才得以開發(fā),以便能夠統(tǒng)一處理這些任務(wù)。到目前為止,這些通用的方法都是通過大量的
3、標(biāo)記和匹配圖像對(duì)來監(jiān)督和訓(xùn)練的。然而,在實(shí)踐中,獲取這樣的訓(xùn)練數(shù)據(jù)可能很耗時(shí)(例如,使用像素化或拼湊標(biāo)記),甚至是不現(xiàn)實(shí)的。例如,雖然有大量的照片或草圖可供使用,但描繪同一姿勢(shì)下同一個(gè)人的照片草圖圖像對(duì)卻很少。在其他圖像轉(zhuǎn)換設(shè)置中,例如,將日光場(chǎng)景轉(zhuǎn)換為夜間場(chǎng)景,即使可以使用固定相機(jī)獲得標(biāo)記和匹配的圖像對(duì),場(chǎng)景中的移動(dòng)對(duì)象通常會(huì)導(dǎo)致不同程度的內(nèi)容差異。本文旨在開發(fā)一個(gè)通用的圖像到圖像轉(zhuǎn)換的無監(jiān)督學(xué)習(xí)框架,該框架僅依賴于未標(biāo)記的圖像數(shù)據(jù),如兩組照片和草圖,來完成圖像到草圖的轉(zhuǎn)換任務(wù)。顯而易見的技術(shù)挑戰(zhàn)是如何在沒有任何數(shù)據(jù)來描述正確翻譯的情況下對(duì)譯者進(jìn)行培訓(xùn)。我們的方法受到自然語(yǔ)言處理的雙重學(xué)習(xí)的
4、啟發(fā)23。雙重學(xué)習(xí)通過最小化由于兩個(gè)翻譯人員的嵌套應(yīng)用而導(dǎo)致的重建損失,同時(shí)訓(xùn)練兩個(gè)“相反”的語(yǔ)言翻譯人員(例如,英語(yǔ)到法語(yǔ)和法語(yǔ)到英語(yǔ))。這兩個(gè)翻譯器代表一個(gè)原始對(duì)偶對(duì),嵌套的應(yīng)用程序形成一個(gè)閉環(huán),允許應(yīng)用強(qiáng)化學(xué)習(xí)。具體來說,在單語(yǔ)數(shù)據(jù)(英語(yǔ)或法語(yǔ))上測(cè)量的重建損失將產(chǎn)生信息反饋,以訓(xùn)練雙語(yǔ)翻譯模型。本文首次提出了一種圖像到圖像翻譯的雙重學(xué)習(xí)框架,它不同于夏等人的NLP雙重學(xué)習(xí)方法。23主要有兩個(gè)方面。首先,NLP方法依賴于預(yù)先訓(xùn)練的(英語(yǔ)和法語(yǔ))語(yǔ)言模型,以表明譯者輸出的是各自目標(biāo)語(yǔ)言中的自然句子的自信程度??紤]到通用處理,并且意識(shí)到這種預(yù)先訓(xùn)練的模型對(duì)于許多圖像翻譯任務(wù)是很難獲得的,我們
5、的工作開發(fā)了經(jīng)過訓(xùn)練的GAN鑒別器3,那是與翻譯人員進(jìn)行反向培訓(xùn)以獲取域分配規(guī)劃設(shè)計(jì)。因此,我們稱我們的學(xué)習(xí)架構(gòu)為DualGAN。此外,我們使用FCNs作為譯者,它自然地適應(yīng)了圖像的二維結(jié)構(gòu),而不是LSTM或門循環(huán)單元(GUT)等順序到順序的翻譯模型。DualGAN以兩組未標(biāo)記的圖像作為輸入,每一組圖像具有一個(gè)圖像域的特征,同時(shí)從一個(gè)域?qū)W習(xí)到另一個(gè)域的兩個(gè)可靠的圖像翻譯器,因此可以執(zhí)行各種各樣的圖像到圖像的翻譯任務(wù)。通過與GAN(帶有圖像條件發(fā)生器和原始鑒別器)和條件GAN的比較,驗(yàn)證了端GAN的有效性。比較結(jié)果表明,在某些應(yīng)用中,DualGAN的性能優(yōu)于基于標(biāo)記數(shù)據(jù)訓(xùn)練的有監(jiān)督方法。2。相關(guān)
6、工作從古德費(fèi)羅等人的開創(chuàng)性工作開始。32014年,針對(duì)各種各樣的問題提出了一系列的GAN族方法。原始GAN可以通過引入一個(gè)對(duì)抗性的鑒別器來學(xué)習(xí)生成器來捕獲真實(shí)數(shù)據(jù)的分布,該鑒別器進(jìn)化為區(qū)分真實(shí)數(shù)據(jù)和偽造數(shù)據(jù)3。不久之后,各種條件GANs(cGAN)被提出用于對(duì)類標(biāo)簽13、屬性14,24、文本15和圖像7、8、21、12、4、18上的圖像生成進(jìn)行條件化。大多數(shù)圖像條件模型都是為特定應(yīng)用開發(fā)的,例如超分辨率7、紋理合成8、從普通地圖到圖像的樣式轉(zhuǎn)換21和視頻預(yù)測(cè)12,而很少有其他模型是針對(duì)通用處理4,18。Isola等人提出的圖像到圖像轉(zhuǎn)換的通用解。需要大量標(biāo)記的圖像對(duì)。Taigman等人提出的跨
7、域圖像轉(zhuǎn)換的無監(jiān)督機(jī)制。18可以在沒有成對(duì)圖像的情況下訓(xùn)練圖像條件生成器,但依賴于一個(gè)復(fù)雜的預(yù)訓(xùn)練函數(shù),該函數(shù)將圖像從任一域映射到中間表示,這需要其他格式的標(biāo)記數(shù)據(jù)。雙重學(xué)習(xí)最早是由夏等人提出的。23減少英法、法英翻譯培訓(xùn)中對(duì)標(biāo)注數(shù)據(jù)的要求。法語(yǔ)-英語(yǔ)翻譯是英語(yǔ)-法語(yǔ)翻譯的雙重任務(wù),他們可以并肩受訓(xùn)。雙重學(xué)習(xí)的核心思想是建立一個(gè)包含兩個(gè)主體的雙重學(xué)習(xí)游戲,每個(gè)主體只能理解一種語(yǔ)言,并且能夠評(píng)估譯文是目標(biāo)語(yǔ)言中的自然句子的可能性,以及重建的句子與原文的一致程度。這種機(jī)制在雙方交替使用,只允許從單語(yǔ)數(shù)據(jù)中訓(xùn)練翻譯人員。盡管缺乏平行的雙語(yǔ)數(shù)據(jù),兩種類型反饋信號(hào)可以產(chǎn)生:評(píng)價(jià)譯文屬于目標(biāo)語(yǔ)言的可能性的
8、隸屬度得分,以及衡量重建句子與原文之間差異的重建誤差。這兩種信號(hào)都是在特定應(yīng)用領(lǐng)域知識(shí)的幫助下進(jìn)行評(píng)估的,即經(jīng)過預(yù)先培訓(xùn)的英語(yǔ)和法語(yǔ)語(yǔ)言模型。在我們的工作中,我們的目標(biāo)是一個(gè)通用的解決方案,圖像到圖像的轉(zhuǎn)換,因此不利用任何領(lǐng)域特定的知識(shí)或預(yù)先訓(xùn)練的領(lǐng)域表示。相反,我們使用區(qū)域自適應(yīng)GAN鑒別器來評(píng)估翻譯樣本的隸屬度得分,而重建誤差則被測(cè)量為每個(gè)圖像區(qū)域內(nèi)重建圖像與原始圖像之間絕對(duì)差的平均值。在CycleGAN中,由Zhu等人同時(shí)完成的一項(xiàng)工作。26對(duì)于未配對(duì)的圖像到圖像的轉(zhuǎn)換提出了同樣的想法,其中DualGAN中的原始-對(duì)偶關(guān)系被稱為循環(huán)映射,它們的循環(huán)一致性損失與我們的重建損失基本相同。賽馬
9、的優(yōu)勢(shì)已經(jīng)被證明在一些配對(duì)訓(xùn)練數(shù)據(jù)幾乎不存在的任務(wù)中,例如在物體變形和繪畫風(fēng)格和季節(jié)轉(zhuǎn)換中。我們稱之為耦合GAN或CoGAN的Liu和Tuzel10最近的工作也在沒有成對(duì)訓(xùn)練數(shù)據(jù)的情況下一起訓(xùn)練兩個(gè)GAN來解決圖像翻譯問題。與DualGAN或CycleGAN不同,CoGAN中的兩個(gè)Gan沒有鏈接以強(qiáng)制循環(huán)一致性。相反,CoGAN從兩個(gè)域?qū)W習(xí)圖像的聯(lián)合分布。CoGAN通過在生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)中共享對(duì)應(yīng)于高級(jí)語(yǔ)義的權(quán)重參數(shù),可以強(qiáng)制兩個(gè)gan以相同的方式解釋這些圖像語(yǔ)義。然而,如CycleGAN的比較研究26所示,CoGAN和類似方法(如2,9)中的權(quán)重分擔(dān)假設(shè)不會(huì)導(dǎo)致有效的通用解決方案,因?yàn)槠溥m
10、用性取決于任務(wù),導(dǎo)致非自然的圖像翻譯結(jié)果。DualGAN和CycleGAN都致力于通用的圖像到圖像轉(zhuǎn)換,而不需要聯(lián)合表示來連接這兩個(gè)圖像域。此外,DualGAN同時(shí)訓(xùn)練原始GANs和對(duì)偶GANs,允許使用重建誤差項(xiàng)來生成信息反饋信號(hào)。三。方法給定分別從域U和域V采樣的兩組無標(biāo)記和無配對(duì)圖像,dualGAN的首要任務(wù)是學(xué)習(xí)將圖像U三U映射到圖像V三V的生成器GA:UtV,而對(duì)偶任務(wù)是訓(xùn)練一個(gè)逆生成器GB:VtU。為此,我們使用了兩個(gè)GAN,原始GAN和對(duì)偶GAN。原始GAN學(xué)習(xí)發(fā)生器gaa和鑒別器DA區(qū)分遺傳算法假輸出和域V的實(shí)成員的數(shù)據(jù)。類似地,雙GAN學(xué)習(xí)生成器gba和鑒別器DB??傮w架構(gòu)和
11、數(shù)據(jù)流如圖1所示。MembershipDomainU(skdiKh)HMnnructkinhrrar|rDscrlminatorrtembenihipwore圖1:DualGAN用于圖像到圖像轉(zhuǎn)換的網(wǎng)絡(luò)結(jié)構(gòu)和數(shù)據(jù)流程圖。如圖1所示,使用遺傳算法將圖像u三u轉(zhuǎn)換為域V。平移GA(u,z)在V中的適配程度由DA評(píng)估,其中z是隨機(jī)噪聲,下面顯示的z0也是。然后,使用GB將GA(u,z)轉(zhuǎn)換回域u,該域輸出GB(GA(u,z),z0)作為u的重構(gòu)版本。同樣,v三v轉(zhuǎn)換為u作為GB(v,z0),然后重構(gòu)為GA(GB(v,z0),z)。判別器DAis以v為正樣本,GA(u,z)為負(fù)樣本訓(xùn)練,dbu為正樣本
12、,GB(v,zO)為負(fù)樣本訓(xùn)練。生成器gaa和GB被優(yōu)化以模擬“假”輸出,從而使相應(yīng)的鑒別器dad和DB盲,并將兩個(gè)重建損失kGA(GB(v,zO),z)vk和kGB(GA(u,z),zO)uk最小化。3.1條。目標(biāo)與傳統(tǒng)的GAN一樣,鑒別器的目標(biāo)是將生成的假樣本與真實(shí)樣本區(qū)分開來。然而,這里我們使用Wasserstein-GAN(WGAN)1倡導(dǎo)的損耗格式,而不是原始GAN3中使用的sigmoid交叉熵?fù)p耗。結(jié)果表明,前者在發(fā)電機(jī)收斂性和樣本質(zhì)量方面,以及在提高優(yōu)化穩(wěn)定性方面都有較好的表現(xiàn)1。數(shù)據(jù)和數(shù)據(jù)庫(kù)中使用的相應(yīng)損耗函數(shù)定義為:件(弘V)=01(6(船司)-(必(1)電仏訶二刀機(jī)刃)-皿
13、3(2)其中U三u和v三v。對(duì)于目標(biāo)相同的發(fā)電機(jī)GA和GBas,采用相同的損失函數(shù)。以前的作品條件圖像合成發(fā)現(xiàn)用L1代替12距離是有益的,因?yàn)榍罢叱3?dǎo)致模糊6,23。因此,我們采用l1距離來測(cè)量恢復(fù)誤差,并將其添加到GAN目標(biāo)中,以強(qiáng)制轉(zhuǎn)換的樣本服從域分布:少何芒)=局冋-川地訃X川+(3)-DbGb(yf/)-Da(Ga(u,z),其中u三u,v三v,和Au,入變?yōu)閮蓚€(gè)常數(shù)參數(shù)。根據(jù)應(yīng)用,入U(xiǎn)and入Vare通常設(shè)置為100.0,1000.0范圍內(nèi)的值。如果U包含自然圖像而V不包含(例如航空照片地圖),我們發(fā)現(xiàn)使用較小的AUthanAV更有效。3.2條。網(wǎng)絡(luò)配置DualGAN采用相同的Ga
14、和GB網(wǎng)絡(luò)結(jié)構(gòu)。生成器配置有相同數(shù)量的下采樣(池)和上采樣層。此外,我們?cè)阽R像的下采樣層和上采樣層之間配置了跳過連接的生成器,如16,4所示,使其成為一個(gè)U形網(wǎng)絡(luò)。這樣的設(shè)計(jì)使得在輸入和輸出之間共享低級(jí)信息,這是有益的,因?yàn)樵S多圖像轉(zhuǎn)換問題隱式地假定輸入和輸出中的圖像結(jié)構(gòu)(例如,對(duì)象形狀、紋理、雜波等)之間的對(duì)齊。如果沒有跳過層,所有級(jí)別的信息都必須通過瓶頸,這通常會(huì)導(dǎo)致高頻信息的大量丟失。此外,類似于4,我們沒有顯式地提供噪聲向量z,z0。相反,它們只以退出的形式提供,并在培訓(xùn)和測(cè)試階段應(yīng)用于我們的發(fā)電機(jī)的幾層。對(duì)于鑒別器,我們采用了文8中所述的馬爾可夫帕奇根結(jié)構(gòu),該結(jié)構(gòu)假定距離特定區(qū)域以外
15、的像素之間的獨(dú)立性僅在修補(bǔ)程序級(jí)別而不是在完整圖像上調(diào)整圖像大小并對(duì)其建模。這樣的配置在捕獲局部高頻特征(如紋理和樣式)方面是有效的,但在建模全局分布時(shí)效果較差。它很好地滿足了我們的需求,因?yàn)榛謴?fù)損失鼓勵(lì)保存全局和低頻信息,并且鑒別器被指定來捕獲本地高頻信息。這種結(jié)構(gòu)的有效性已經(jīng)在各種翻譯任務(wù)中得到了驗(yàn)證23。與23類似,我們?cè)趫D像上卷積運(yùn)行這個(gè)鑒別器,平均所有響應(yīng)以提供最終輸出。這種方案的另一個(gè)優(yōu)點(diǎn)是它需要更少的參數(shù),運(yùn)行速度更快,并且對(duì)輸入圖像的大小沒有限制。鑒別器工作時(shí)的塊大小固定在70 x70,圖像分辨率大多為256x256,與pix2pix4相同。Resultsofday-to-ni
16、ghttranslation.DualGANsuccessfullyemulatesthenightsceneswhilepreservingtexturesintheinputs,e.g.,seedifferencesoverthecloudregionsbetweenourresultsandthegroundtruth(GT).Incomparison,resultsofcGANandGANcontainmuchlessdetails.Photo-to-sketchtranslationforfacesResultsofDualGANaregenerallysharperthanthos
17、efromcGAN,eventhoughtheformerwastrainedusingunpaireddata,whereasthelattermakesuseofimagecorrespondence.ExperimentalresultsfortranslatingChinesepaintingstooilpaintings.ThebackgroundgridsshownintheGANresultsimplythattheoutputsofGANarenotasstableasthoseofDualGAN.3.3條。培訓(xùn)程序?yàn)榱藘?yōu)化DualGAN網(wǎng)絡(luò),我們遵循WGAN1中提出的訓(xùn)練程序
18、;見Alg。一。我們先訓(xùn)練鑒別器一步一步,然后再訓(xùn)練發(fā)電機(jī)。我們采用小批量隨機(jī)梯度下降,并應(yīng)用RMSProp解算器,因?yàn)榛趧?dòng)量的方法,如Adam有時(shí)會(huì)導(dǎo)致不穩(wěn)定1,RMSProp甚至在高度非平穩(wěn)問題19,1上也有很好的表現(xiàn)。我們通常將每個(gè)生成器迭代的臨界迭代次數(shù)ncriticto設(shè)置為2-4,并將批大小指定為1-4,而在實(shí)驗(yàn)的有效性上沒有明顯的差異。剪裁參數(shù)c通常在0.01,0.1中設(shè)置,隨應(yīng)用而變化。算法1DualGAN訓(xùn)練過程要求:圖像集U、圖像集V、具有生成器參數(shù)0A和鑒別器參數(shù)wA的GANA、具有生成器參數(shù)0B的GANB、帶鑒別器參數(shù)wB、剪裁參數(shù)c、批量大小m和ncritic1:R
19、iindornlyijnitidizc龜,I.VB2:reptwit3:/11:i:iMo:sampleimagesC!TWfLtCV5:update心tnminimize;=,肚:lfi:叩血It旳tominimizc匸二惜(t/幻衛(wèi))7:也加(出扣一州廠,cf加(3卩.一聽rS;etuifur9:sampleimagesli亀c比巒cVLQ:update召?v,Brtnminimize占刀量1叫辺製理)ll:untilconvergence傳統(tǒng)的GANs訓(xùn)練需要在生成器和鑒別器之間仔細(xì)地平衡,因?yàn)殡S著鑒別器的改進(jìn),sigmoid交叉熵?fù)p失是局部飽和,可能導(dǎo)致梯度消失。與傳統(tǒng)的GANs不同,
20、Wasserstein損失幾乎在任何地方都是可微的,從而產(chǎn)生了更好的判別器。在每次迭代中,直到鑒別器被訓(xùn)練為ncriticsteps,生成器才被訓(xùn)練。這樣的過程使得鑒別器能夠提供更可靠的梯度信息1。圖2:晝夜翻譯結(jié)果。cGAN4是用標(biāo)記數(shù)據(jù)訓(xùn)練的,而DualGAN和GAN是用無監(jiān)督的方式訓(xùn)練的。DualGAN成功地模擬了夜景,同時(shí)保留了輸入中的紋理,例如,我們的結(jié)果和地面真相(GT)之間的云區(qū)域差異。相比之下,cGAN和GAN的結(jié)果包含的細(xì)節(jié)要少得多。四。實(shí)驗(yàn)結(jié)果與評(píng)價(jià)為了評(píng)估DualGAN在通用圖像到圖像翻譯中的能力,我們對(duì)多種任務(wù)進(jìn)行了實(shí)驗(yàn),包括照片草圖轉(zhuǎn)換、標(biāo)簽圖像翻譯和藝術(shù)風(fēng)格化。為了
21、將DualGAN與GAN和cGAN進(jìn)行比較4,使用了四個(gè)標(biāo)記數(shù)據(jù)集:照片草圖22,25、DayNIGHT5、標(biāo)簽正面20和從Google地圖4直接捕獲的天線圖。這些數(shù)據(jù)集由兩個(gè)域之間的對(duì)應(yīng)圖像組成;它們作為基本真值(GT),也可用于監(jiān)督學(xué)習(xí)。然而,這些數(shù)據(jù)集都不能保證像素級(jí)的特征精確對(duì)齊。例如,草圖照片數(shù)據(jù)集中的草圖是由藝術(shù)家繪制的,與相應(yīng)的照片不精確對(duì)齊,移動(dòng)對(duì)象和云圖案的變化經(jīng)常出現(xiàn)在DayNIGHT數(shù)據(jù)集中,而LABELFACADES數(shù)據(jù)集中的標(biāo)簽并不總是準(zhǔn)確。這在一定程度上突出了獲得高質(zhì)量匹配圖像對(duì)的困難。II7iErl*円亶存和電Ql:4eMairi*9lt4*1Ui*|Inpui(
22、;TIhlMGAIVOANcGAN|圖3:標(biāo)簽T外觀翻譯的結(jié)果。DualGAN忠實(shí)地保留了標(biāo)簽圖像中的結(jié)構(gòu),盡管有些標(biāo)簽在細(xì)節(jié)上與相應(yīng)的照片不太匹配。相比之下,GAN和cGAN的結(jié)果包含許多偽影。在labelphoto失調(diào)的區(qū)域上,cGAN通常會(huì)產(chǎn)生模糊的輸出(例如,第二排的屋頂和第三排的入口)。DualGAN使我們能夠利用大量來自網(wǎng)絡(luò)的未標(biāo)記圖像源。實(shí)驗(yàn)中還測(cè)試了兩個(gè)未標(biāo)記和未配對(duì)的數(shù)據(jù)集。材質(zhì)數(shù)據(jù)集包括由不同材質(zhì)(如石頭、金屬、塑料、織物和木材)制成的對(duì)象的圖像。這些圖像是從Flickr中手動(dòng)選擇的,涵蓋了各種照明條件、構(gòu)圖、顏色、紋理和材質(zhì)子類型17。此數(shù)據(jù)集最初用于物料識(shí)別,但在此處應(yīng)
23、用于物料轉(zhuǎn)移。中國(guó)油畫數(shù)據(jù)集包括兩種不同風(fēng)格的藝術(shù)畫:油畫和中國(guó)畫。所有圖片都是從搜索引擎中抓取的,它們包含不同質(zhì)量、格式和大小的圖片。我們重新格式化、裁剪和調(diào)整圖像大小以進(jìn)行訓(xùn)練和評(píng)估。在這兩個(gè)數(shù)據(jù)集中,來自不同域的圖像之間沒有對(duì)應(yīng)關(guān)系。5個(gè)。定性評(píng)價(jià)使用四個(gè)標(biāo)記的數(shù)據(jù)集,我們首先在以下翻譯任務(wù)中比較DualGAN與GAN和cGAN4:白天夜晚(圖2)、標(biāo)簽口立面(圖3和10)、面部照片n草圖(圖4和5)和地圖n航空照片(圖8和9)在所有這些任務(wù)中,cGAN使用標(biāo)記(即配對(duì))數(shù)據(jù)進(jìn)行訓(xùn)練,其中運(yùn)行4中提供的模型和代碼,并為每個(gè)任務(wù)選擇最佳損失函數(shù):L1lossforfacadelabel和L
24、1+cGANlossforothertasks(參見4了解更多詳細(xì)信息)。相比之下,DualGAN和GAN是以一種無監(jiān)督的方式進(jìn)行訓(xùn)練的,即我們分離圖像對(duì),然后重新組合數(shù)據(jù)。通過在等式(3)中設(shè)置入U(xiǎn)二入V=0.0,使用我們的方法生成GAN的結(jié)果,注意該GAN與原始GAN模型3不同,因?yàn)樗褂脳l件生成器。所有三個(gè)模型都在相同的訓(xùn)練數(shù)據(jù)集上訓(xùn)練,并在不與訓(xùn)練數(shù)據(jù)重疊的新數(shù)據(jù)上測(cè)試。所有的訓(xùn)練都是在一個(gè)GeForceGTXTitanXGPU上進(jìn)行的。在測(cè)試時(shí),所有的模型在這個(gè)GPU上運(yùn)行的時(shí)間都小于1秒。與GAN相比,在幾乎所有情況下,DualGAN產(chǎn)生的結(jié)果不那么模糊,包含的偽影更少,并且更好地
25、保留目標(biāo)域的輸入和捕獲特征(例如,紋理、顏色和/或樣式)中的內(nèi)容結(jié)構(gòu)。我們將這些改進(jìn)歸因于重構(gòu)損失,它迫使輸入通過雙生成器從輸出中重構(gòu),并增強(qiáng)對(duì)目標(biāo)分布進(jìn)行編碼的反饋信號(hào)。在許多情況下,DualGAN在輸出清晰度和對(duì)輸入圖像的忠實(shí)度方面也優(yōu)于有監(jiān)督的cGAN;參見圖2、3、4、5和8。這是令人鼓舞的,因?yàn)閏GAN中的監(jiān)控確實(shí)利用了額外的圖像和像素對(duì)應(yīng)關(guān)系。另一方面,當(dāng)在照片和基于語(yǔ)義的標(biāo)簽(如地圖-空中和標(biāo)簽-正面)之間進(jìn)行轉(zhuǎn)換時(shí),通常不可能僅基于目標(biāo)分布推斷像素顏色和標(biāo)簽之間的對(duì)應(yīng)關(guān)系。因此,DualGAN可能會(huì)將像素映射到錯(cuò)誤的標(biāo)簽(參見圖9和圖10)或?qū)?biāo)簽映射到錯(cuò)誤的顏色/紋理(參見圖
26、3和圖8)。圖6和圖7顯示了使用兩個(gè)未標(biāo)記的數(shù)據(jù)集獲得的圖像翻譯結(jié)果,這些數(shù)據(jù)集包括機(jī)油n中文、塑料金屬、金屬石頭、皮革織物以及木材n塑料。結(jié)果表明,當(dāng)目標(biāo)區(qū)域內(nèi)沒有相應(yīng)的圖像時(shí),DualGAN可以產(chǎn)生具有視覺說服力的圖像。同樣,DualGAN的結(jié)果通常比GAN的結(jié)果包含更少的偽影。5.1條。定量評(píng)價(jià)為了定量評(píng)估DualGAN,我們通過AmazonMechanicalTurk(AMT)建立了兩個(gè)用戶研究?!安牧细兄睖y(cè)試評(píng)估材料傳輸結(jié)果,我們混合所有材料傳輸任務(wù)的輸出,讓土庫(kù)曼人根據(jù)他們認(rèn)為圖像中的對(duì)象是由哪種材料構(gòu)成的來選擇最佳匹配。對(duì)于總共176幅輸出圖像,每幅圖像都由10名土庫(kù)曼人進(jìn)行評(píng)
27、估。如果至少有三個(gè)土耳其人選擇了目標(biāo)材料類型,則輸出圖像被認(rèn)為是成功的。表1總結(jié)了使用不同方法得到的各種材料傳輸結(jié)果的成功速率,表明DualGAN在很大程度上優(yōu)于GAN。圖4:照片面部草圖平移。DualGAN的結(jié)果通常比cGAN的結(jié)果更清晰,盡管前者使用未配對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,而后者使用圖像對(duì)應(yīng)。cCTDiuilGANAu上叱圖5:草圖結(jié)果面的照片平移。由GAN和cGAN產(chǎn)生的結(jié)果比DualGAN顯示出更多的偽影和模糊性。圖6:將中國(guó)畫翻譯成油畫的實(shí)驗(yàn)結(jié)果(沒有GT)。GAN結(jié)果中的背景網(wǎng)格表明,GAN的輸出不如DualGAN的輸出穩(wěn)定Kfraibmil3uE;AK|-wniT:AK|-kTtci
28、lirriiliHsiDuiKiAifrx|QI|JJLiDburiANlpU-Jii.ilai-rilI內(nèi)llirnjC-AIiid!I&AN|MMn!rqi甲日胡心-兀逼旳nihGANl圖7:各種材料轉(zhuǎn)移任務(wù)的實(shí)驗(yàn)結(jié)果。從上到下,塑料T金屬、金屬T石頭、皮革織物和塑料少木材。TuskDualGANGAN2/11(VI1plastic1/110/11metalsBonc2/11()/11stonemclaJ2/110/11leather-*fabric3/11彗IIfabricleather2/111/11pJaNticHinctal7/113/1JrrujLalT卩1昭lie1/110/1
29、1表1:基于AMF材料感知”測(cè)試的各種材料轉(zhuǎn)移任務(wù)的成功率。在每一組傳輸結(jié)果中有11幅圖像,DualGAN比GAN有明顯的改進(jìn)Taskj%vg.realnessscoreZIGANcGAN|GANGTsketchphotoL.W7.&9.D4556daynighlZ421.890耳3.05hbelrt詆坨itkisi.sy2.591.43mipiieriiil2.512.92l.RS111表2:各項(xiàng)任務(wù)產(chǎn)出的平均AMF真實(shí)性”得分。結(jié)果表明,DualGAN在所有任務(wù)中都優(yōu)于GAN。它在素描、拍照、白天、夜間任務(wù)上也優(yōu)于cGAN,但在標(biāo)簽、立面、地圖、空中任務(wù)上仍然落后。在后兩個(gè)任務(wù)中,訓(xùn)練數(shù)據(jù)
30、中額外的圖像對(duì)應(yīng)將有助于cGAN映射標(biāo)簽到正確的顏色/紋理。此外,我們還對(duì)素描照片、標(biāo)簽地圖立面、地圖航拍、白天夜間翻譯進(jìn)行AMT“真實(shí)度評(píng)分”。為了消除潛在的偏見,對(duì)于四個(gè)評(píng)估中的每一個(gè),我們是隨機(jī)的洗牌真實(shí)的照片和輸出從這三種方法之前帶他們?nèi)ネ炼洹C糠鶊D片都會(huì)展示給20個(gè)土耳其人,他們被要求根據(jù)合成照片看起來真實(shí)的程度給圖片打分?!罢鎸?shí)性”得分從0分(完全缺失)、1分(差)、2分(可接受)、3分(好)到4分(令人信服)。然后計(jì)算不同蟑螂在不同任務(wù)上的平均得分,并顯示在表中。2。AMT研究結(jié)果表明,DualGAN在所有任務(wù)上都優(yōu)于GAN,在兩個(gè)任務(wù)上也優(yōu)于cGAN。這表明cGAN對(duì)圖像對(duì)之間的不對(duì)中和不一致的容忍度很低,但是額外的像素級(jí)對(duì)應(yīng)確實(shí)有助于cGAN將標(biāo)簽正確映射到顏色和紋理。最后,如表3和表4所示,我們計(jì)算了立面標(biāo)簽和空中地圖任務(wù)的分割精度。比較結(jié)果表明,在沒有圖像對(duì)應(yīng)信息的情況下,很難從訓(xùn)練數(shù)據(jù)中推斷出正確的標(biāo)記,因此DualGAN的性能優(yōu)于cGAN。6。結(jié)論我們提出了一種新的無監(jiān)督的通用圖像到圖像的雙
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 目標(biāo)明確的信息系統(tǒng)項(xiàng)目管理師試題及答案
- 項(xiàng)目成功因素研究試題及答案
- 公共服務(wù)政策的公平性與效率分析試題及答案
- 軟件設(shè)計(jì)師考試定制化復(fù)習(xí)試題及答案
- 計(jì)算機(jī)軟件測(cè)試在環(huán)境政策評(píng)估中的應(yīng)用試題及答案
- 計(jì)算機(jī)軟件測(cè)試中的常見問題試題及答案
- 公共政策的全球視野與本土化探討試題及答案
- 軟件設(shè)計(jì)師考試技能提升路線試題及答案
- 現(xiàn)代公共政策理論框架試題及答案
- 如何建立健全公共政策的決策制度試題及答案
- 福建省南平市2025屆高三化學(xué)第三次綜合質(zhì)量檢測(cè)試題含解析
- 中國(guó)空氣質(zhì)量改善的健康效應(yīng)評(píng)估
- 江蘇省鹽城市道德與法治中考2025年仿真試卷及答案指導(dǎo)
- 2024年江蘇南通蘇北七市高三三模高考數(shù)學(xué)試卷試題(含答案詳解)
- 方案夜景照明吊繩蜘蛛人專項(xiàng)施工方案
- 高空蜘蛛人施工專項(xiàng)施工方案
- 紡紗學(xué)(東華大學(xué))智慧樹知到期末考試答案章節(jié)答案2024年?yáng)|華大學(xué)
- 《環(huán)境衛(wèi)生學(xué)》考試復(fù)習(xí)題庫(kù)(含答案)
- 《大學(xué)生創(chuàng)業(yè)》課件完整版
- (高清版)JTGT 3331-2024 采空區(qū)公路設(shè)計(jì)與施工技術(shù)規(guī)范
- 見證取樣制度及取樣要求、數(shù)量及方法
評(píng)論
0/150
提交評(píng)論