計算機視覺應用開發(fā)課件:圖像增強_第1頁
計算機視覺應用開發(fā)課件:圖像增強_第2頁
計算機視覺應用開發(fā)課件:圖像增強_第3頁
計算機視覺應用開發(fā)課件:圖像增強_第4頁
計算機視覺應用開發(fā)課件:圖像增強_第5頁
已閱讀5頁,還剩48頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

圖像增強圖像增強概述圖像增強的基本概念01任務圖像增強的意義02任務圖像增強的應用場景03任務學習目標了解圖像增強的基本概念

了解圖像增強的意義1圖像增強的基本概念1圖像增強的基本概念在工業(yè)場景中,因為工藝技術現(xiàn)在發(fā)展都比較好,所以很難收集到大量的缺陷數(shù)據(jù)用于深度學習的學習和訓練,針對這種情況,可以利用數(shù)據(jù)增強來幫助深度學習算法更好學習小樣本中的特征。數(shù)據(jù)增強(DataAugmentation)是一種通過讓有限的數(shù)據(jù)產(chǎn)生更多的等價數(shù)據(jù)來人工擴展訓練數(shù)據(jù)集的技術。它是克服訓練數(shù)據(jù)不足的有效手段,目前在深度學習的各個領域中應用廣泛。數(shù)據(jù)增強樣本也有可能是引入片面噪聲,導致過擬合。此時需要考慮的是調(diào)整數(shù)據(jù)增強方法,或者通過算法(可借鑒Pu-Learning思路)選擇增強數(shù)據(jù)的最佳子集,以提高模型的泛化能力。2圖像增強的意義圖像增強的意義對于分類模型來說,有這樣一個結論:其中,N是訓練樣本數(shù)量,

,h是分類模型的VCdimension(用于衡量布爾函數(shù)的復雜度)。

也叫modelcomplexitypenalty。從上式可以看出如果想要使得模型的泛化能力比較好,就要保證trainingerror和modelcomplexitypenalty都比較小,觀察modelcomplexitypenalty這一項可以看出,h越大,modelcomplexitypenalty就會越大。N越大,modelcomplexitypenalty就會越小。大致上來說,越復雜的模型有著越大的h(VCdimension),所以為了模型有著較好的generalization,需要有較大的N來壓低modelcomplexitypenalty。2

圖像增強的意義2數(shù)據(jù)增強的技術,可提高訓練數(shù)據(jù)集的大小和質(zhì)量,以便可以使用它們來構建更好的深度學習模型。數(shù)據(jù)增強的作用在于:1、避免過擬合。當數(shù)據(jù)集具有某種明顯的特征,例如數(shù)據(jù)集中圖片基本在同一個場景中拍攝,使用Cutout方法和風格遷移變化等相關方法可避免模型學到與目標無關的信息。2、提升模型魯棒性,降低模型對圖像的敏感度。當訓練數(shù)據(jù)都屬于比較理想的狀態(tài),碰到一些特殊情況,如遮擋,亮度,模糊等情況容易識別錯誤,對訓練數(shù)據(jù)加上噪聲,掩碼等方法可提升模型魯棒性。3、增加訓練數(shù)據(jù),提高模型泛化能力。4、避免樣本不均衡。在工業(yè)缺陷檢測方面,醫(yī)療疾病識別方面,容易出現(xiàn)正負樣本極度不平衡的情況,通過對少樣本進行一些數(shù)據(jù)增強方法,降低樣本不均衡比例。3圖像增強的應用場景圖像增強的應用場景數(shù)字圖像處理在40多年的時間里,迅速發(fā)展成一門獨立的有強大生命力的學科,圖像增強技術已逐步涉及人類生活和社會生產(chǎn)的各個方面,下面我們僅就幾個方面的應用舉些例子。航空航天領域早在60年代初期,第3代計算機的研制成功和快速傅里葉變換的提出,使圖像增強技術可以在計算機上實現(xiàn)。1964美國噴氣推進實驗室(JPL)的科研人員使用IBM7094計算機以及其它設備,采用集合校正、灰度變換、去噪聲、傅里葉變換以及二維線性濾波等方法對航天探測器“徘徊者7號”發(fā)回的幾千張月球照片成功的進行了處理。隨后他們又對“徘徊者8號”和“水手號”發(fā)回地球的幾萬張照片進行了較為復雜地數(shù)字圖像處理,使圖像質(zhì)量得到進一步的提高,從此圖像增強技術進入了航空航天領域的研究與應用。同時圖像增強技術的發(fā)展也推動了硬件設備的提高,比如1983年LANDSAT-4的分辨率為30m,而如今發(fā)射的衛(wèi)星分辨率可達到3-5m的范圍內(nèi)。圖像采集設備性能的提高,使采集圖像的質(zhì)量和數(shù)據(jù)的準確性和清晰度得到了極大地提高。3圖像增強的應用場景生物醫(yī)學領域圖像增強技術在生物醫(yī)學方面的應用有兩類,其中一類是對生物醫(yī)學的顯微光學圖像進行處理和分析,比如對紅細胞、白細胞、細菌、蟲卵的分類計數(shù)以及染色體的分析;另一類應用是對X射線圖像的處理,其中最為成功的是計算機斷層成像。1973年英國的EMI公司在制造出第一臺X射線斷層成像裝置。由于人體的某些組織,比如心臟、乳腺等軟組織對X射線的衰減變化不大,導致圖像靈敏度不強。由此圖像增強技術在生物醫(yī)學圖像中得到廣泛的應用。公共安全領域在社會安全管理方面,圖像增強技術的應用也十分廣泛,如無損安全檢查、指紋、虹膜、掌紋、人臉等生物特征的增強處理等等。圖像增強處理也應用到交通監(jiān)控中,通過電視跟蹤技術鎖定目標位置,比如對有霧圖像、夜視紅外圖像、交通事故的分析等等。3ThankYOU!有監(jiān)督的圖像增強單樣本圖像增強01任務多樣本圖像增強02任務學習目標掌握單樣本圖像增強的方法

掌握多樣本圖像增強的方法1單樣本圖像增強1單樣本圖像增強按照有無圖像作為參考依據(jù),圖像增強也可分為有監(jiān)督的圖像增強和無監(jiān)督的圖像增強。有監(jiān)督圖像增強,即采用預設的圖像變換規(guī)則,在已有圖像的基礎上進行圖像的擴增,包含單樣本圖像增強和多樣本圖像增強。單樣本圖像增強主要有幾何操作、顏色變換、隨機擦除、添加噪聲等方法。1、裁剪裁剪有兩種擴種方式,一種是對大尺寸的圖像直接按照需要送入網(wǎng)絡的尺寸進行裁剪;另外一種是將隨機裁剪固定尺寸大小的圖片,然后再將圖像通過插值算法調(diào)整到網(wǎng)絡需要的尺寸大小。由于數(shù)據(jù)集中通常數(shù)據(jù)大小不一,后者通常使用的較多。使用OpenCV進行圖像裁剪:img_crop=img[new_h:new_h+512,new_w:new_w+512,:]1單樣本圖像增強2、翻轉(zhuǎn)和旋轉(zhuǎn)翻轉(zhuǎn)和旋轉(zhuǎn)都是將原始的圖像像素在位置空間上做變換,圖像的翻轉(zhuǎn)是將原始的圖像進行鏡像操作,主要包括水平鏡像翻轉(zhuǎn),垂直鏡像翻轉(zhuǎn)和原點鏡像翻轉(zhuǎn)。角度旋轉(zhuǎn)操作和圖像鏡像相對,它主要是沿著畫面的中心進行任意角度的變換,該變換是通過將原圖像和仿射變換矩陣相乘實現(xiàn)的。OpenCV實現(xiàn)圖片翻轉(zhuǎn):h_flip=cv2.flip(img,1)#水平鏡像v_flip=cv2.flip(img,0)#垂直鏡像hv_flip=cv2.flip(img,-1)#水平垂直鏡像OpenCV實現(xiàn)圖片旋轉(zhuǎn):M_rotation=cv2.getRotationMatrix2D((w/2,h/2),angle,1)#計算仿射變換矩陣img_rotated=cv2.warpAffine(img,M_rotation,(w,h))#得到旋轉(zhuǎn)后的圖像1單樣本圖像增強仿射變換矩陣是一個余弦矩陣,在OpenCV中有實現(xiàn)的庫cv2.getRotationMatrix2D(center,angle,scale)可以使用,該函數(shù)的center參數(shù)是旋轉(zhuǎn)中心,angle參數(shù)是逆時針旋轉(zhuǎn)角度,scale參數(shù)是縮放倍數(shù),對于只是旋轉(zhuǎn)的情況參數(shù)值是1,返回的值就是做仿射變換的矩陣。然后通過cv2.warpAffine()將原圖像矩陣乘以旋轉(zhuǎn)矩陣得到最終的結果。通過上述的操作,旋轉(zhuǎn)的圖像會存在黑邊,如果想去除掉圖片的黑邊,需要將原始的圖像做出一些犧牲。對旋轉(zhuǎn)后的圖像取最大內(nèi)接矩陣,該矩陣的長寬比和原始圖像相同,如圖中所示。要計算內(nèi)切矩陣的坐標Q,需要通過旋轉(zhuǎn)角度和原始圖像矩陣的邊長OP得到。1單樣本圖像增強3、縮放圖像可以向外或向內(nèi)縮放。向外縮放時,最終圖像尺寸將大于原始圖像尺寸,為了保持原始圖像的大小,通常需要結合裁剪,從縮放后的圖像中裁剪出和原始圖像大小一樣的圖像。另一種方法是向內(nèi)縮放,它會縮小圖像大小,縮小到預設的大小。OpenCV實現(xiàn)圖片縮放:img=cv2.resize(img,(512,512))4、移位移位只涉及沿X或Y方向(或兩者)移動圖像,mat_shift代表移動的坐標,分別記錄沿X方向和Y方向移動的距離。OpenCV實現(xiàn)圖片移位:mat_shift=np.float32([[1,0,100],[0,1,200]])img_1=cv2.warpAffine(img,mat_shift,(h,w))1單樣本圖像增強5、高斯噪聲基于噪聲的數(shù)據(jù)增強就是在原圖片的基礎上,隨機疊加一些噪聲,最常見的做法就是添加高斯噪聲。OpenCV實現(xiàn)圖片增加高斯噪聲:noise=np.random.normal(mean,var**0.5,image.shape)img=image+noise6、色彩抖動色彩抖動主要是在圖像的顏色方面做增強,主要調(diào)整的是圖像的亮度,飽和度和對比度。工程中不是任何數(shù)據(jù)集都適用,通常如果不同背景的圖像較多,加入色彩抖動操作會有很好的提升。2多樣本圖像增強多樣本圖像增強多樣本增強是通過先驗知識組合及轉(zhuǎn)換多個樣本,主要有Smote、SamplePairing、Mixup等方法在特征空間內(nèi)構造已知樣本的鄰域值。1、Smote(SyntheticMinorityOver-samplingTechnique)Smote方法較常用于樣本均衡學習,核心思想是從訓練集隨機同類的兩近鄰樣本合成一個新的樣本,其方法可以分為三步:1)對于各樣本

,計算與同類樣本的歐式距離,確定其同類的K個近鄰樣本;2)從該樣本k近鄰中隨機選擇一個樣本如近鄰

,生成新的樣本;3)重復2步驟迭代N次,可以合成N個新的樣本。2多樣本圖像增強Python程序中可以通過調(diào)用fromimblearn.over_samplingimportSMOTE來實現(xiàn)Smote數(shù)據(jù)增強。smote=SMOTE()x_train_res,y_train_res=smote.fit_resample(x_train,y_train)2多樣本圖像增強2、SamplePairingSamplePairing算法的核心思想是從訓練集隨機抽取的兩幅圖像疊加合成一個新的樣本(像素取平均值),使用第一幅圖像的label作為合成圖像的正確label。2多樣本圖像增強3、mixupmixup算法的核心思想是按一定的比例隨機混合兩個訓練樣本及其標簽,這種混合方式不僅能夠增加樣本的多樣性,且能夠使決策邊界更加平滑,也增強了難例樣本的識別,模型的魯棒性得到提升。其方法可以分為兩步:1)從原始訓練數(shù)據(jù)中隨機選取的兩個樣本()和()。其中y(原始label)用one-hot編碼。2)對兩個樣本按比例組合,形成新的樣本和帶權重的標簽:最終的loss為各標簽上分別計算cross-entropyloss,加權求和。2多樣本圖像增強4、cutmixcutmix作為mixup的改進版數(shù)據(jù)增強工具,解決了mixup算法的一些短板。cutmix和mixup的區(qū)別是,混合位置是采用hard0-1掩碼,而不是soft操作,相當于新合成的兩張圖是來自兩張圖片的hard結合,而不是mixup的線性組合。但是其label還是和mixup一樣是線性組合,結合操作可以定義為:M是與原圖大小相同的{0,1}掩碼矩陣,

用于控制標簽融合的線性混合度。并且是通過

參數(shù)控制裁剪矩形大小,因為

本身就是權衡兩個圖像的比例參數(shù),可以反應到圖像的大小上。2ThankYOU!基于mixup和cutmix算法的圖像增強案例描述01任務案例目標02任務案例分析03任務案例實施04任務1案例描述1案例描述本案例通過對手寫數(shù)字數(shù)據(jù)進行數(shù)據(jù)增強,然后對數(shù)字進行分類去對比兩種數(shù)據(jù)增強算法mixup和cutmix的效果。2案例目標案例目標熟悉mixup算法和cutmix算法基礎知識和操作流程;

分別利用mixup和cutmix增強算法對圖片進行數(shù)據(jù)增強;對增強后的圖片進行圖片分類。23案例分析案例分析在上一節(jié)中,已經(jīng)講解了兩種算法mixup和cutmix的原理以及方法步驟。在接下來的案例中,將使用代碼分別實現(xiàn)兩種算法的手寫數(shù)據(jù)圖像增強,利用分類網(wǎng)絡進行分類對比兩種算法的優(yōu)劣。34案例實施4案例實施1.加載手寫數(shù)字數(shù)據(jù)集(x_train,y_train),(x_test,y_test)=datasets.mnist.load_data()2.建立mixup算法的函數(shù)aug_mixup()

輸入圖片及標簽(img_batch,label_batch)index=tf.random.shuffle(tf.range(batch_size,dtype=32))x1,x2=img_batch,tf.gather(img_batch,index)img_batch=x1*x_weight+x2*(1.-x_weight)y1,y2=label_batch,tf.gather(label_batch,index)label_batch=y1*y_weight+y2*(1.-y_weight)4案例實施3.定義cutmix算法的函數(shù)cutmix()輸入圖片及標簽(img_batch,label_batch)img_weight=tf.math.logical_and(tf.math.logical_and(tf.reshape(xas,(-1,1,1))<=X,X<=tf.reshape(xbs,(-1,1,1))),tf.math.logical_and(tf.reshape(yas,(-1,1,1))<=Y,Y<=tf.reshape(ybs,(-1,1,1))))img_weight=tf.expand_dims(img_weight,axis=-1)#(BatchSize,img_h,img_w,1)img_batch=tf.where(img_weight,x2,x1)label_weight=tf.cast((ybs-yas)*(xbs-xas)/(img_h*img_w),tf.float32)#(BatchSize)label_weight=tf.expand_dims(label_weight,axis=-1)#(BatchSize,1)label_batch=(label_weight)*y2+(1-label_weight)*y1ThankYOU!無監(jiān)督的圖像增強基于GAN的圖像增強01任務Autoaugmentation02任務Randaugment03任務學習目標了解基于GAN的圖像增強方法

掌握Autoaugmentation和Randaugment圖像增強的方法1基于GAN的圖像增強1基于GAN的圖像增強生成對抗網(wǎng)絡(Generativeadversarialnetworks,簡稱GANs)是一種無監(jiān)督生成模型,它隱含地學習底層分布。在GAN框架中,學習過程是兩個網(wǎng)絡之間的極大極小博弈,一個生成器,生成給定隨機噪聲向量的合成數(shù)據(jù),一個鑒別器,區(qū)分真實數(shù)據(jù)和生成器的合成數(shù)據(jù)。在深度學習的圖像分類中使用GAN來進行數(shù)據(jù)增強,發(fā)現(xiàn)使用GAN直接的數(shù)據(jù)增強不如其他增強策略有效。但是在少樣本學習中,這被證明是使用GANs進行數(shù)據(jù)增強的一個更有前途的用例。下面還有很多基于GAN的變體來實現(xiàn)數(shù)據(jù)增強,例如ACGAN,DAGAN,BAGAN。盡管使用GAN進行簡單的數(shù)據(jù)增強有時可以提高分類器的性能,特別是在非常小或有限的數(shù)據(jù)集的情況下,但使用GAN進行增強的最有希望的情況似乎包括遷移學習或少量學習。隨著研究不斷提高GAN訓練的穩(wěn)定性和可靠性,將GAN用于數(shù)據(jù)增強的快速進展將不足為奇。1基于GAN的圖像增強UEGAN:基于GAN的無監(jiān)督圖像增強無監(jiān)督的圖像增強生成對抗網(wǎng)絡(UEGAN),該網(wǎng)絡以無監(jiān)督的方式從一組具有所需特征的圖像中學習相應的圖像到圖像的映射,而不是學習大量的成對圖像。模型基于單個深度GAN,它嵌入了調(diào)制和注意力機制以捕獲更豐富的全局和局部特征?;谠撃P停肓藘煞N損失來處理無監(jiān)督圖像增強:(1)保真度損失,其定義為預訓練VGG網(wǎng)絡的特征域中的L2正則化,以確保增強圖像之間的內(nèi)容(2)質(zhì)量損失,它被定義為相對hingeadversarialloss,以賦予輸入圖像所需的特性。定量和定性結果均表明,該模型有效地提高了圖像的美學質(zhì)量。2AutoaugmentationAutoaugmentationAutoaugment是Google提出的自動選擇最優(yōu)圖像增強方案的研究,這是無監(jiān)督圖像增強的重要研究方向。它的基本思路是使用增強學習從數(shù)據(jù)本身尋找最佳圖像變換策略,對于不同的任務學習不同的增強方法,流程如下:(1)準備16個常用的數(shù)據(jù)增強操作。(2)從16個中選擇5個操作,隨機產(chǎn)生使用該操作的概率和相應的幅度,將其稱為一個sub-policy,一共產(chǎn)生5個sub-polices。(3)對訓練過程中每一個batch的圖片,隨機采用5個sub-polices操作中的一種。(4)通過模型在驗證集上的泛化能力來反饋,使用的優(yōu)化方法是增強學

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論