基于人工智能算法的圖像識(shí)別與生成_第1頁
基于人工智能算法的圖像識(shí)別與生成_第2頁
基于人工智能算法的圖像識(shí)別與生成_第3頁
基于人工智能算法的圖像識(shí)別與生成_第4頁
基于人工智能算法的圖像識(shí)別與生成_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于人工智能算法的圖像識(shí)別與生成 摘要 本次報(bào)告的工作是利用 PCA SVM 以及人工 神經(jīng)網(wǎng)絡(luò) ANN 實(shí)現(xiàn)對(duì)人臉的特征提取 分類和預(yù)測(cè) 然后利用 GAN 生成對(duì)抗網(wǎng)絡(luò) 實(shí)現(xiàn)對(duì)手寫數(shù)字的生成 并用 SVM 做預(yù)測(cè) 驗(yàn)證生成效果 本次報(bào)告采用的數(shù)據(jù)源自劍橋大學(xué)的 ORL 人臉數(shù)據(jù)庫 其中包含 40 個(gè)人共 400 張人臉圖像 關(guān)鍵詞 人工智能 圖像識(shí)別 數(shù)據(jù) 中圖分類號(hào) TP18 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1009 3044 2018 13 0173 02 1 PCA 降維 PCA principal components analysis 即主成分分析 又稱主分量分析 旨在利用降維的思想 把多指標(biāo)轉(zhuǎn)化為 少數(shù)幾個(gè)綜合指標(biāo) 首先我們給出了數(shù)據(jù)庫的平均臉的圖像 并利用 PCA 對(duì)人臉降維 通過改變降低到的維度研究了保留維度的多 少帶來的影響 最后給出了每一個(gè)維度的特征臉圖像 討 論了每一個(gè)維度所能夠代表的人臉信息 1 1 平均臉 首先 我們將數(shù)據(jù)庫中 400 張人臉按行存儲(chǔ)到一個(gè)矩 陣中 即每一行為一張人臉 10304 像素 每張人臉共 10304 維特征 我們對(duì)每一個(gè)維度去平均 構(gòu)成一個(gè)新的行 向量 這就是平均臉 平均臉反映了數(shù)據(jù)庫中 400 張人臉的平均特征 可以 看清人臉的輪廓 但無法識(shí)別人臉的局部細(xì)節(jié) 1 2 降低至不同維度時(shí)還原臉的情況 從左到右從上到下依次是同一張臉降低至 10 30 50 100 200 250 300 350 400 的圖像 可 以看到 隨著保留維數(shù)的增多 圖像越清晰 與原圖的差 異越小 1 3 提取單一維度的特征做還原 為了研究不同維度所代表的人臉的信息 我們把 PCA 之后的每一個(gè)特征向量單獨(dú)提取出來對(duì)人臉做還原 還原 的時(shí)候不加入平均臉并且做直方圖均衡化 結(jié)果如下 每一張圖像下方的數(shù)字代表了 PCA 之后按特征值從大 到小排序的順序 比如第一張圖代表 PCA 之后最大特征值 所對(duì)應(yīng)的特征向量還原出的人臉 特征累積圖的縱坐標(biāo)代表了所保留的特征占總特征的 比例 它是這樣計(jì)算出來的 假設(shè)保留 k 維信息 則縱坐 標(biāo)值為這 k 個(gè)特征值的和除以總的 400 400 10304 的矩陣 最多有 400 個(gè)非零特征值 個(gè)特征值的和 從圖 4 可以看出 當(dāng)保留維數(shù)為 100 維時(shí) 即能保留 人臉 90 的信息 而之后隨著保留維數(shù)的增多 保留信息 的增多變緩 同樣的結(jié)論也可由提取每個(gè)維度所代表的特征獲得 從前到后觀察實(shí)驗(yàn)所得的圖像 我們可以發(fā)現(xiàn) 人臉變得 越來越模糊 到 100 維以后已經(jīng)分辨不清人臉了 這就說 明前面的維度反映了大眾臉的特征 而越往后面的維度則 反映不同人臉的細(xì)節(jié) 比如頭發(fā)長(zhǎng)短等等 以及圖片噪聲 2 SVM 對(duì)人臉分類 SVM 支持向量機(jī) 是 Corinna Cortes 和 Vapnik 等于 1995 年首先提出的 在機(jī)器學(xué)習(xí)中 支持向量機(jī)是與相關(guān) 的學(xué)習(xí)算法有關(guān)的監(jiān)督學(xué)習(xí)模型 可以分析數(shù)據(jù) 識(shí)別模 式 用于分類和回歸分析 2 1 制作多分類器 用 PCA 對(duì)人臉降維以后 我們用 SVM 將 400 張人臉 進(jìn)行分類 我們?nèi)∶總€(gè)人的前五張照片合并起來共 200 張 作為訓(xùn)練集 每個(gè)人后五張照片合并起來共 200 張作為測(cè) 試集 40 個(gè)人即有 40 個(gè)標(biāo)簽 也就是有 40 類 但 SVM 只 能作二分類器 因此我們利用二分類器生成多分類器 基 本思想是制作 C 40 2 個(gè)一對(duì)一分類器 也就是每?jī)蓚€(gè) 類別一個(gè) 每一張照片都分別用所有一對(duì)一分類器分類 分類結(jié)果存儲(chǔ)到投票矩陣中 分類結(jié)果就是投票矩陣中數(shù) 字最大的那個(gè) 分類前 我們還需對(duì) PCA 后的數(shù)據(jù)進(jìn)行歸一化處理 將圖像矩陣的每一個(gè)元素映射到 1 1 之間 2 2 參數(shù)選擇及程序結(jié)果 1 分類數(shù)據(jù) 每人取前五張做訓(xùn)練 后五張做測(cè)試 不加入自己的人臉 SVM 參數(shù)設(shè)定 k 75 PCA 降至 75 維 Sigma 30 c 15 預(yù)測(cè)準(zhǔn)確率 accuracy 0 8950 2 每人取前五張做訓(xùn)練 后五張做測(cè)試 加入自己的 人臉 SVM 參數(shù)同上 預(yù)測(cè)準(zhǔn)確率 accuracy 0 8585 我們發(fā)現(xiàn) 當(dāng)加入自己拍攝的人臉圖像后 預(yù)測(cè)準(zhǔn)確 率有一定的下降 這可能是由于拍照時(shí)的光線 角度等造 成的 3 ANN 對(duì)人臉分類 人工神經(jīng)網(wǎng)絡(luò) Artificial Neural Networks 簡(jiǎn)寫為 ANNs 也簡(jiǎn)稱為神經(jīng)網(wǎng)絡(luò) NNs 或稱作連接模型 Connection Model 它是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特 征 進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型 這種網(wǎng)絡(luò) 依靠系統(tǒng)的復(fù)雜程度 通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連 接的關(guān)系 從而達(dá)到處理信息的目的 為了方便與 SVM 的結(jié)果作比對(duì) ANN 的訓(xùn)練集和測(cè) 試集與 SVM 相同 并且不加入自己人臉 3 1 ANN 結(jié)果及與 SVM 分類比較 ANN 分類結(jié)果 ANN 參數(shù)設(shè)定為 1 個(gè)隱層 含 200 個(gè)神經(jīng)元 學(xué)習(xí)率 1 dropout fraction 0 5 激活函數(shù) sigmoid L2 正則 0 0001 epoch 200 batchsize 50 分類錯(cuò)誤率 即分類準(zhǔn)確率 accuracy 為 93 5 驗(yàn)過程中可以發(fā)現(xiàn) 通過對(duì)神經(jīng)網(wǎng)絡(luò)多個(gè)參數(shù)的調(diào)節(jié) 準(zhǔn)確率的變化是很復(fù)雜的 最終的 93 5 的準(zhǔn)確率應(yīng)該還有 上升的空間 參數(shù)還待進(jìn)一步調(diào)整 與 SVM 比較 起來 ANN 準(zhǔn)確率更高 但分析表明 對(duì)于本次報(bào)告所采 用的數(shù)據(jù)庫 ANN 和 SVM 的準(zhǔn)確度不會(huì)有太大差異 因 此 SVM 的參數(shù)或許還可以進(jìn)一步優(yōu)化 4 GAN 生成手寫數(shù)字 生成對(duì)抗網(wǎng)絡(luò) GAN 是一種深度學(xué)習(xí)模型 是近年 來復(fù)雜分布上無監(jiān)督學(xué)習(xí)最具前景的方法之一 模型通過 框架中 至少 兩個(gè)模塊 生成模型 Generative Model 和判別模型 Discriminative Model 的互相博弈學(xué)習(xí)產(chǎn)生相 當(dāng)好的輸出 原始 GAN 理論中 并不要求 G 和 D 都是 神經(jīng)網(wǎng)絡(luò) 只需要是能擬合相應(yīng)生成和判別的函數(shù)即可 但實(shí)用中一般均使用深度神經(jīng)網(wǎng)絡(luò)作為 G 和 D 在下面的工作中 我們利用已有的手寫數(shù)字 0 9 圖 片 60000 張用于訓(xùn)練 10000 張用于測(cè)試 對(duì)生成對(duì)抗 網(wǎng)絡(luò) GAN 進(jìn)行訓(xùn)練并生成手寫數(shù)字 每個(gè)數(shù)字提取 5000 個(gè)樣本作為訓(xùn)練集 最后用 SVM 對(duì)電腦生成的手寫數(shù) 字分類 看是否能 騙過 分類器 4 1 參數(shù)設(shè)定及程序結(jié)果 首先 我們選取一個(gè)想要生成的手寫字體 將已有數(shù) 據(jù)中所有該字體挑出并取前 5000 個(gè)作為訓(xùn)練集 參數(shù)設(shè)定 生成器 generator 輸入層 隱層和輸出 層分別有 100 512 784 個(gè)神經(jīng)元 識(shí)別器 discriminator 輸入層 隱層和輸出層分別 有 784 200 1 個(gè)神經(jīng)元 學(xué)習(xí)率 0 01 Batchsize 50 更新判別器時(shí)的迭代次數(shù)設(shè)為 1 生成訓(xùn)練集 load mnist uint8 classify num 9 classify matrix zeros 1 10 classify matrix classify num 1 1 choose zeros size train x 1 1 for i 1 size train x 1 if train y i classify matrix choose i choose i 1 end end choose logical choose train x train x choose train x train x 1 5000 train x double reshape train x 5000 28 28 255 train x permute train x 1 3 2 train x reshape train x 5000 784 生成器損失雖然不是很低 但是最終基本穩(wěn)定 4 2 SVM 對(duì)生成手寫數(shù)字做分類 我們用 GAN 分別生成 0 到 9 的手寫數(shù)字 將生成的圖 片作為測(cè)試集用 SVM 做分類 看是否能分到正確的類別 Result 是 SVM 中的投票矩陣 投票數(shù)最多的一個(gè)的序 號(hào)減一即為所分到的類別 數(shù)字 0 9 這里的 SVM 別于 前面所討論的人臉識(shí)別的 SVM 它是由 45 個(gè) C 10 2 一對(duì)一分類器生成的多分類器 可以看到 每一個(gè)由 GAN 生成的手寫數(shù)字均被 SVM 分到了正確的類別 如此可見 GAN 實(shí)在強(qiáng)大 5 總結(jié) 運(yùn)用 PCA 對(duì)原始數(shù)據(jù)進(jìn)行降維 不僅能夠保留原始的 主要信息 而且可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論