使用卷積神經(jīng)網(wǎng)絡(luò)的圖像樣式轉(zhuǎn)換_第1頁
使用卷積神經(jīng)網(wǎng)絡(luò)的圖像樣式轉(zhuǎn)換_第2頁
使用卷積神經(jīng)網(wǎng)絡(luò)的圖像樣式轉(zhuǎn)換_第3頁
使用卷積神經(jīng)網(wǎng)絡(luò)的圖像樣式轉(zhuǎn)換_第4頁
使用卷積神經(jīng)網(wǎng)絡(luò)的圖像樣式轉(zhuǎn)換_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、課程論文課程名稱:數(shù)字圖像處理與分析(B)任課教師:吳巍課程號(hào):00942004學(xué)期:2016-2017學(xué)年第1學(xué)期成績使用卷積神經(jīng)網(wǎng)絡(luò)的圖像樣式轉(zhuǎn)換的研究院系信息工程學(xué)院專業(yè)電子與通信工程班級(jí)信研163提交時(shí)間:2016年11月28日使用卷積神經(jīng)網(wǎng)絡(luò)的圖像樣式轉(zhuǎn)換的研究湖北省武漢,430070摘要:以不同的風(fēng)格樣式渲染圖像的內(nèi)容一直都是一個(gè)十分困難的圖像處理任務(wù)。也可以說,以前主要限制因素是不知如何明確表示內(nèi)容信息。在這里我們使用圖像表示導(dǎo)出優(yōu)化的能夠識(shí)別對(duì)象的卷積神經(jīng)網(wǎng)絡(luò),這使得高級(jí)圖像信息顯示。我們引入了一種可以分離和重組自然圖像的圖像內(nèi)容和藝術(shù)風(fēng)格的神經(jīng)算法。這個(gè)算法允許我們生成高質(zhì)量

2、的新目標(biāo)圖像,它能將任意照片的內(nèi)容與許多眾所周知的藝術(shù)品的風(fēng)格相結(jié)合。我們的結(jié)果提供了對(duì)卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的深度圖像表示的新理解,并且展示了他們的高水平圖像合成和操縱的能力。關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);圖像處理;神經(jīng)算法TheStudyofImageStyleTransferUsingConvolutionalNeuralNetworksLiWenxingSchoolofScience,WuhanUniversityofTechnology,Wuhan430070,ChinaAbstract:Renderingthecontentofanimageinadifferentstylehasalwaysb

3、eenadifficultimageprocessingtask.ItcanalsobesaidthatthemainlimitingfactorinthepastisthatIdonotknowhowtoclearlyexpressthecontentinformation.Hereweuseanimagerepresentationtoderiveanoptimized,object-awareconvolutionalneuralnetwork,whichallowsadvancedimageinformationtobedisplayed.Weintroduceaneuralalgor

4、ithmthatcanseparateandreconstructtheimagecontentandartisticstyleofnaturalimages.Thisalgorithmallowsustogeneratehigh-qualitynewtargetimagesthatcombinethecontentofanyphotowiththestyleofmanywell-knownworksofart.Ourresultsprovideanewunderstandingofthedepthimagerepresentationofconvolutionneuralnetworklea

5、rninganddemonstratetheirabilitytosynthesizeandmanipulatehigh-levelimages.Keywords:ConvolutionalNeuralNetwork;ImageProcessing;Neuralalgorithm作者觀點(diǎn)認(rèn)為在卷積神經(jīng)網(wǎng)絡(luò)中的圖像內(nèi)容和圖像風(fēng)格是可分離的。也就是說,可以獲取一個(gè)圖片的圖像內(nèi)容,獲取另一張圖片的圖像風(fēng)格,二者結(jié)合起來產(chǎn)生新的有意義的圖像。讓你的照片瞬間變換成藝術(shù)風(fēng)格作品。它不同于傳統(tǒng)的風(fēng)格濾鏡,而是基于人工智能,每個(gè)風(fēng)格都是由真正的藝術(shù)家創(chuàng)作的。印象派、野獸派、浮世繪、解構(gòu)主義,這些曾經(jīng)的藝術(shù)風(fēng)格

6、都是畫家腦中不可捉摸的概念。然而而到了人工智能時(shí)代,所有藝術(shù)風(fēng)格都被證實(shí)是可以進(jìn)行“量化”的,并且通過卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),可以源源不斷地產(chǎn)生新作品。對(duì)別人做法的評(píng)價(jià)1.他人方法上的不足一直以來,都有人試圖將圖像樣式從一個(gè)圖像轉(zhuǎn)移到另一個(gè)圖像,而且這一直被認(rèn)為是紋理傳送問題。前人的解決方法是在紋理傳送中,從源圖像合成它的紋理,同時(shí)對(duì)紋理合成進(jìn)行約束以保留目標(biāo)圖像的實(shí)際內(nèi)容。對(duì)于這種紋理合成,一直使用強(qiáng)大的非參數(shù)的算法,而這算法是通過重新確定源圖像紋理的像素來合成照片紋理。例如,Efros和Freeman引入了包含目標(biāo)圖像特征的對(duì)應(yīng)圖像,利用圖像的強(qiáng)度來約束紋理合成程序。Hertzmanetal使

7、用了圖像類比的方法,將已經(jīng)風(fēng)格化的圖像中的紋理轉(zhuǎn)移到目標(biāo)圖像上。Ashikhmin則專注于高頻信息的傳輸,同時(shí)保留目標(biāo)圖像的尺度。Leeetal通過利用邊緣取向的信息,額外地操作紋理傳遞來改進(jìn)該算法。雖然這些算法獲得了顯著的結(jié)果,但是它們都有相同的基本限制:它們僅使用目標(biāo)圖像的低級(jí)圖像特征來影響紋理傳送,得到的目標(biāo)圖像看上去像是兩個(gè)圖像的內(nèi)容結(jié)合,而不是風(fēng)格的轉(zhuǎn)移。2.如何克服他人的不足在的一般情況下,將圖像內(nèi)容與圖像中的風(fēng)格分離仍然是一個(gè)非常困難的問題。然而,由于最近的深層卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)步,它已經(jīng)產(chǎn)生了強(qiáng)大的計(jì)算機(jī)視覺系統(tǒng),能夠從自然圖像提取出高級(jí)的語義信息。這表明可以利用卷積神經(jīng)網(wǎng)絡(luò)

8、來克服前人工作上的不足,利用高級(jí)圖像特征來影響紋理傳送。比如在對(duì)象識(shí)別實(shí)驗(yàn)中,能夠獲得足夠的標(biāo)簽數(shù)據(jù)來學(xué)習(xí)如何提取高級(jí)圖像內(nèi)容的特征,得出數(shù)據(jù)集。因此,在這項(xiàng)實(shí)驗(yàn)中,將通過使用高性能卷積神經(jīng)網(wǎng)絡(luò),它可以用來獨(dú)立處理和操縱自然圖像的內(nèi)容和風(fēng)格。實(shí)現(xiàn)過程以及其數(shù)學(xué)基礎(chǔ)我們將使用由19層VGG網(wǎng)絡(luò)的16個(gè)卷積層和5個(gè)池層的歸一化來提供的特征空間。我們可以通過縮放修改各個(gè)權(quán)重來對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行歸一化改進(jìn),使得每個(gè)卷積濾波器在圖像和位置上的平均值等于1,這種重新縮放可以對(duì)VGG網(wǎng)絡(luò)進(jìn)行并且不改變其輸出。對(duì)于圖像合成方面,我們發(fā)現(xiàn),通過平均池替換最大池會(huì)產(chǎn)生更有吸引力的結(jié)果。圖像內(nèi)容的表示通常,在網(wǎng)絡(luò)中的每

9、個(gè)層定義一個(gè)非線性濾波組,它的復(fù)雜度隨著網(wǎng)絡(luò)中的層的位置而增加。因此,給定的輸入圖像x通過對(duì)該圖像的濾波器,在卷積神經(jīng)網(wǎng)絡(luò)的每一層中進(jìn)行編碼。為了觀察到在不同層處編碼的圖像信息,可以對(duì)高斯白噪聲圖像執(zhí)行梯度下降以找到與原始圖像的特征響應(yīng)匹配的另一個(gè)圖像。令p和x是原始圖像和生成的圖像,以及pl和f1表示它們?cè)趯觢中的相應(yīng)特征。然后我們定義兩個(gè)特征來表示平方誤差損失L(P,x,l)=1工(F1-P1)2,該損失相對(duì)于層1中的響應(yīng)的導(dǎo)數(shù)等于content2ijiji,j牛一二(F1-Pi)ifF0QFijlJij從中可以使用標(biāo)準(zhǔn)誤差反向傳播來計(jì)算相對(duì)于圖像的梯度。因此,我們可以改變初始隨機(jī)圖像X,

10、直到它在卷積神經(jīng)網(wǎng)絡(luò)的特定層中產(chǎn)生與原始圖像p相同的響應(yīng)。因此,沿著神經(jīng)網(wǎng)絡(luò)層次加深,輸入圖像對(duì)圖像的實(shí)際內(nèi)容越來越敏感,但是對(duì)于其精確的外觀變得相對(duì)不變。因此,我們將神經(jīng)網(wǎng)絡(luò)的較高層中的特征響應(yīng)稱為內(nèi)容表示。風(fēng)格表示為了獲得輸入圖像的風(fēng)格樣式,我們使用捕獲紋理信息的特征空間。這個(gè)特征空間可以建立在網(wǎng)絡(luò)的任何層中的濾波器響應(yīng)之上。它包括不同濾波器響應(yīng)之間的關(guān)系。整體的風(fēng)格損失函數(shù)是:L(aa,x)=藝wEstyle11風(fēng)格轉(zhuǎn)移1=0為了將藝術(shù)品的風(fēng)格轉(zhuǎn)移到源照片上,我們合成同時(shí)匹配p的內(nèi)容和X的風(fēng)格的新圖像。我們最小化的損失函數(shù)是L(p,a,x)=aL(p,x)+pL(a,x),其中a和B分別

11、是內(nèi)容和樣式重建的加totalcontentstyle權(quán)因子。這里我們使用L-BFGS,我們發(fā)現(xiàn)它最適合圖像合成。4實(shí)現(xiàn)過程中的創(chuàng)新點(diǎn)引入了藝術(shù)風(fēng)格的神經(jīng)算法引入一種全新的算法來執(zhí)行圖像樣式轉(zhuǎn)換。在基本概念上,它是一種特殊的紋理傳輸算法,是通過卷積神經(jīng)網(wǎng)絡(luò)的特征表示方法來約束紋理合成。通過執(zhí)行廣泛的預(yù)圖像搜索,來匹配示例圖像的特征表示來生成新的圖像。這種一般方法在紋理合成中已經(jīng)被廣范使用并且用于改進(jìn)對(duì)深度圖像處理的理解。然而全新的風(fēng)格轉(zhuǎn)移算法結(jié)合基于卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)紋理模型和一種不同于前人的圖像表示的方法。他會(huì)使神經(jīng)系統(tǒng)自動(dòng)學(xué)習(xí)處理圖像風(fēng)格,允許使圖像內(nèi)容與圖像風(fēng)格的相分離。新的的風(fēng)格轉(zhuǎn)移方

12、法為了將源圖像的風(fēng)格轉(zhuǎn)移到目標(biāo)圖像上,因此,我們可以通過使用最小化白噪聲圖像的特征來表示從一層中的照片的內(nèi)容的距離和在卷積神經(jīng)網(wǎng)絡(luò)的多個(gè)層上定義的繪畫的風(fēng)格樣示。為了在可以比較的尺度上提取圖像風(fēng)格信息,我們總是在計(jì)算其風(fēng)格特征之前將風(fēng)格圖像調(diào)整為與源圖像相同的大小。5實(shí)驗(yàn)設(shè)計(jì)中的揚(yáng)長避短1.線性的損失函數(shù),可以折衷內(nèi)容和風(fēng)格的比例。當(dāng)然,任何圖像內(nèi)容和風(fēng)格都不能完全分開。當(dāng)合成一個(gè)圖像的內(nèi)容與另一個(gè)圖像的風(fēng)格樣式的組合圖像時(shí),合成的結(jié)果在通常情況下不能同時(shí)完全匹配兩個(gè)約束。但是,由于在圖像合成時(shí),最小的損失函數(shù)就是內(nèi)容和風(fēng)格的損失函數(shù)之間的一種線性組合,我們可以線性地調(diào)節(jié)對(duì)內(nèi)容或風(fēng)格的重視,在

13、內(nèi)容極端化和風(fēng)格極端極端化之間選取令自己最滿意的結(jié)果,如圖4-1所示。對(duì)風(fēng)格的強(qiáng)烈重視會(huì)產(chǎn)生符合藝術(shù)品外觀的圖像,有效地突出了它的紋理化,但是卻幾乎不顯示任何源圖像的內(nèi)容。當(dāng)強(qiáng)調(diào)內(nèi)容時(shí),可以清楚地識(shí)別出照片,但是繪畫的風(fēng)格不是很匹配,感覺不到風(fēng)格的轉(zhuǎn)移。對(duì)于已經(jīng)給定的內(nèi)容圖像和風(fēng)格圖像,可以折衷內(nèi)容和風(fēng)格,在二者之間選取,以獲得視覺上十分吸引人的圖像。2.選取神經(jīng)網(wǎng)絡(luò)的高級(jí)層影響圖像合成過程中另一個(gè)重要因素是層的選擇。如圖所示,這些層的數(shù)量和位置將決定最終風(fēng)格匹配的尺度,會(huì)導(dǎo)致獲得不同的體驗(yàn)。從中發(fā)現(xiàn),匹配到更高層的樣式會(huì)得到更平滑和更連續(xù)的視覺體驗(yàn)。因此,通常匹配到網(wǎng)絡(luò)中的高層,來創(chuàng)建視覺上最吸引人的圖像。在左下角顯示了作為風(fēng)格圖像的圖像。第一行表示了原始的圖片內(nèi)容。第二行表示匹配層conv22的內(nèi)容,可以看出它保留原始照片的細(xì)節(jié)與結(jié)構(gòu),但是合成圖像好像只是將繪畫的紋理簡單地混合在照片上。第三行表示當(dāng)匹配層conv42的內(nèi)容,此時(shí)繪畫的紋理和照片的內(nèi)容已經(jīng)合并在一起,使得照片的內(nèi)容以繪畫的樣式顯示出來,實(shí)現(xiàn)內(nèi)容與風(fēng)格的完美結(jié)合。C

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論