解密:“無(wú)中生有”的計(jì)算機(jī)視覺(jué)_第1頁(yè)
解密:“無(wú)中生有”的計(jì)算機(jī)視覺(jué)_第2頁(yè)
解密:“無(wú)中生有”的計(jì)算機(jī)視覺(jué)_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

解密:“無(wú)中生有”的計(jì)算機(jī)視覺(jué)計(jì)算機(jī)視覺(jué)(ComputerVision,CV)是一門(mén)研究如何使機(jī)器“會(huì)看”的科學(xué)。1963年來(lái)自MIT的LarryRoberts發(fā)表了該領(lǐng)域第一篇博士論文《MachinePerceptionofThree-DimensionalSolids》,標(biāo)志著CV作為一門(mén)新興人工智能方向研究的開(kāi)始。在發(fā)展了50多年后的今天,我們就來(lái)聊聊最近讓計(jì)算機(jī)視覺(jué)擁有“無(wú)中生有”能力的幾個(gè)有趣嘗試:超分辨率重建;

圖像著色;

看圖說(shuō)話;

人像復(fù)原;

圖像自動(dòng)生成。可以看出,這五個(gè)嘗試層層遞進(jìn),難度和趣味程度也逐步提升。由于篇幅有限,本文在此只談視覺(jué)問(wèn)題,不提太過(guò)具體的技術(shù)細(xì)節(jié),若大家對(duì)某部分感興趣,以后再來(lái)單獨(dú)寫(xiě)文章討論。超分辨率重建(ImageSuper-Resolution)

去年夏天,一款名為“waifu2x”的島國(guó)應(yīng)用在動(dòng)畫(huà)和計(jì)算機(jī)圖形學(xué)中著實(shí)火了一把。waifu2x借助深度“卷積神經(jīng)網(wǎng)絡(luò)”(ConvolutionalNeuralNetwork,CNN)技術(shù),可以將圖像的分辨率提升2倍,同時(shí)還能對(duì)圖像進(jìn)行降噪。簡(jiǎn)單來(lái)說(shuō),就是讓計(jì)算機(jī)“無(wú)中生有”地填充一些原圖中并沒(méi)有的像素,從而讓漫畫(huà)看起來(lái)更清晰真切。大家不妨看看圖1、圖2,真想童年時(shí)候看的就是如此高清的龍珠?。D1《龍珠》超分辨率重建效果。右側(cè)為原畫(huà),左側(cè)為waifu2x對(duì)同幀動(dòng)畫(huà)超分辨率重建結(jié)果圖2waifu2x超分辨率重建對(duì)比,上方為低分辨率且有噪聲的動(dòng)畫(huà)圖像,左下為直接放大的結(jié)果,右下為waifu2x去噪和超分辨率結(jié)果不過(guò)需要指出的是,圖像超分辨率的研究始于2009年左右,只是得力于“深度學(xué)習(xí)”的發(fā)展,waifu2x才可以做出更好的效果。在具體訓(xùn)練CNN時(shí),輸入圖像為原分辨率,而對(duì)應(yīng)的超分辨率圖像則作為目標(biāo),以此構(gòu)成訓(xùn)練的“圖像對(duì)”(ImagePair),經(jīng)過(guò)模型訓(xùn)練便可得到超分辨率重建模型。waifu2x的深度網(wǎng)絡(luò)原型基于香港中文大學(xué)湯曉歐教授團(tuán)隊(duì)的成果(如圖3所示)。有趣的是,這一研究指出可以用傳統(tǒng)方法給予深度模型以定性的解釋。在圖3中,低分辨率圖像通過(guò)CNN的卷積(Convolution)和池化(Pooling)操作后可以得到抽象后的特征圖(FeatureMap)。基于低分辨率特征圖,同樣可以利用卷積和池化實(shí)現(xiàn)從低分辨率到高分辨率特征圖的非線性映射(Non-LinearMapping)。最后的步驟則是利用高分辨率特征圖重建高分辨率圖像。實(shí)際上,這三個(gè)步驟與傳統(tǒng)超分辨率重建方法的三個(gè)過(guò)程是一致的。圖3超分辨率重建算法流程。從左至右依次為:低分辨率圖像(輸入)、經(jīng)過(guò)若干卷積和池化操作得到的低分辨率特征圖、低分辨率特征圖經(jīng)過(guò)非線性映射得到的高分辨率特征圖、高分辨率重建圖像(輸出)圖像著色(ImageColorization)

顧名思義,圖像著色是將原本“沒(méi)有”顏色的黑白圖像進(jìn)行彩色填充。圖像著色同樣借助卷積神經(jīng)網(wǎng)絡(luò),輸入為黑白和對(duì)應(yīng)彩色圖像的“圖像對(duì)”,但僅僅通過(guò)對(duì)比黑白像素和RGB像素來(lái)確定填充的顏色,效果欠佳。因?yàn)轭伾畛涞慕Y(jié)果要符合我們的認(rèn)知習(xí)慣,比如,把一條“汪星人”的毛涂成鮮綠色就會(huì)讓人覺(jué)得很怪異。于是近期,早稻田大學(xué)發(fā)表在2016年計(jì)算機(jī)圖形學(xué)國(guó)際頂級(jí)會(huì)議SIGGRAPH上的一項(xiàng)工作就在原來(lái)深度模型的基礎(chǔ)上,加入了“分類網(wǎng)絡(luò)”來(lái)預(yù)先確定圖像中物體的類別,以此為“依據(jù)”再做以顏色填充。圖

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論