數(shù)字圖像處理與深度學習技術(shù)應(yīng)用 課件 第11章 基于深度學習CNN模型的漢字識別_第1頁
數(shù)字圖像處理與深度學習技術(shù)應(yīng)用 課件 第11章 基于深度學習CNN模型的漢字識別_第2頁
數(shù)字圖像處理與深度學習技術(shù)應(yīng)用 課件 第11章 基于深度學習CNN模型的漢字識別_第3頁
數(shù)字圖像處理與深度學習技術(shù)應(yīng)用 課件 第11章 基于深度學習CNN模型的漢字識別_第4頁
數(shù)字圖像處理與深度學習技術(shù)應(yīng)用 課件 第11章 基于深度學習CNN模型的漢字識別_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第11章基于深度學習CNN模型的漢字識別目錄11.1深度學習技術(shù)概述11.2卷積神經(jīng)網(wǎng)絡(luò)基本概念11.3漢字識別系統(tǒng)設(shè)計11.4漢字圖像預(yù)處理11.5投影與分割11.6構(gòu)建漢字識別模型11.6.1構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型11.6.2識別模型訓練11.7漢字識別模型檢驗 11.1深度學習技術(shù)概述深度學習思想是模擬人類神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能來實現(xiàn)對數(shù)據(jù)的學習和識別。它是一種以人工神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的機器學習方法,具有多層次的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),被稱為深度神經(jīng)網(wǎng)絡(luò)。主要特點:①多層次的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);②自動特征學習;③端到端學習;④大規(guī)模數(shù)據(jù)和計算:。⑤廣泛應(yīng)用。重要概念和組成部分:①神經(jīng)網(wǎng)絡(luò)(NeuralNetworks):包括輸入層、隱藏層和輸出層。②深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetworks,DNN):包含多個隱藏層的神經(jīng)網(wǎng)絡(luò)。③卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN):捉圖像中的局部特征,通過池化層減小特征圖的尺寸,最后通過全連接層進行分類。④深度學習框架:TensorFlow、PyTorch、Keras等簡化了深度學習模型的構(gòu)建和訓練流程。⑤前饋和反向傳播(FeedforwardandBackpropagation):前饋從輸入層經(jīng)過網(wǎng)絡(luò)傳遞到輸出層的過程,反向傳播是通過計算梯度來調(diào)整網(wǎng)絡(luò)權(quán)重的過程。

11.2卷積神經(jīng)網(wǎng)絡(luò)基本概念卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)結(jié)構(gòu)有:輸入層、卷積層、池化層、輸出層等,其他的還可以有全連接層,歸一化層之類的層結(jié)構(gòu)?;靖拍睿?)卷積層(ConvolutionalLayer)通過卷積操作對輸入數(shù)據(jù)進行特征提取。通過共享權(quán)重的方式,減少需要訓練的參數(shù)數(shù)量,從而提高模型的計算效率和泛化能力。其中,f是輸入圖像,g是卷積核,k是卷積核的大小。

(2)濾波器(Filter)或卷積核(Kernel)用于在卷積操作中提取特征的小矩陣。它在卷積過程中通過滑動窗口在輸入數(shù)據(jù)上移動,并與局部區(qū)域進行卷積操作。實際就是一個數(shù)值矩陣,常用的卷積核大小有1×1、3×3、5×5、7×7等。局部感受野和權(quán)值共享是卷積操作的兩個鮮明特點。(3)步幅(Stride)步幅定義了濾波器在輸入數(shù)據(jù)上滑動的步長。較大的步幅可以減小輸出特征圖的尺寸。(4)填充(Padding)在卷積操作中,填充是在輸入數(shù)據(jù)的邊緣周圍添加額外的像素。填充可以用來保持輸出特征圖的尺寸,減小信息丟失。(5)池化層(PoolingLayer)池化層用于減小特征圖的空間尺寸,通過選擇局部區(qū)域的最大值(最大池化)或平均值(平均池化)來實現(xiàn)。池化有助于減少計算量和提高模型的魯棒性。(6)激活函數(shù)(ActivationFunction)作用是選擇性地對神經(jīng)元節(jié)點進行特征激活或抑制,能對有用的目標特征進行增強激活,對無用的背景特征進行抑制減弱。ReLU函數(shù)定義如下:ReLU(x)=max(0,x)特性:①非線性性。②緩解梯度消失問題。③稀疏激活性,提高模型的表達能力。④計算簡單。(7)權(quán)重共享(WeightSharing)卷積操作中每個卷積核的值是不變的,同一濾波器的權(quán)重被用于不同位置的輸入數(shù)據(jù),這種權(quán)重共享的機制減少了模型的參數(shù)數(shù)量。(8)損失函數(shù)卷積神經(jīng)網(wǎng)絡(luò)(CNN)通常用于圖像分類、目標檢測等任務(wù)。對于這些任務(wù),常見的損失函數(shù)包括交叉熵損失和均方誤差損失,具體的選擇取決于任務(wù)的性質(zhì)。①交叉熵損失(Cross-EntropyLoss)在輸出層使用Softmax激活函數(shù)時。二分類交叉熵:

(9)Dropout隨機地關(guān)閉一些神經(jīng)元,用來防止過擬合的正則化技術(shù)。阻止它們參與前向傳播和反向傳播過程。多分類交叉熵:

其中,M是判別的數(shù)量。是觀測樣本i屬于c類的預(yù)測概率。②均方誤差損失(MeanSquaredError,MSE):

在每個訓練迭代中,Dropout的過程如下:隨機選擇一部分神經(jīng)元(隱藏層中的節(jié)點);將選擇的神經(jīng)元的輸出置為零;執(zhí)行前向傳播和反向傳播過程;更新權(quán)重時,只考慮那些沒有被置為零的神經(jīng)元。圖11-1Dropout功能示意圖(10)全連接層(FullyConnectedLayer)在卷積神經(jīng)網(wǎng)絡(luò)的末尾,通常會添加一個或多個全連接層,用于將卷積層的輸出轉(zhuǎn)換為最終的分類或回歸結(jié)果。11.3漢字識別系統(tǒng)設(shè)計漢字識別系統(tǒng)一般包含學習和識別兩個過程。圖11-2漢字識別系統(tǒng)功能圖(1)圖像收集和準備。(2)對圖像進行預(yù)處理。(3)構(gòu)建漢字圖像訓練集。(4)選擇模型結(jié)構(gòu)。(5)模型構(gòu)建。添加適當?shù)木矸e層、池化層、全連接層等組件,并選擇合適的激活函數(shù)。importtensorflowastffromtensorflow.kerasimportlayers,modelsmodel=models.Sequential()model.add(layers.Conv2D(32,(3,3),activation='relu',input_shape=(height,width,channels)))model.add(layers.MaxPooling2D((2,2)))model.add(layers.Conv2D(64,(3,3),activation='relu'))model.add(layers.MaxPooling2D((2,2)))model.add(layers.Conv2D(64,(3,3),activation='relu'))model.add(layers.Flatten())model.add(layers.Dense(128,activation='relu'))model.add(layers.Dense(num_classes,activation='softmax'))(6)模型訓練。選擇合適的停止訓練策略。pile(optimizer='adam',loss='categorical_crossentropy',metrics=['accuracy'])model.fit(train_data,train_labels,epochs=num_epochs,validation_data=(val_data,val_labels))(7)模型評估。使用測試集對模型進行評估,計算準確率、精確度、召回率等性能指標。如果模型性能不滿足要求,可以通過調(diào)整超參數(shù)、改進數(shù)據(jù)集或嘗試其他模型結(jié)構(gòu)來進行優(yōu)化。test_loss,test_acc=model.evaluate(test_data,test_labels)將圖像處理技術(shù)與深度學習相結(jié)合的識別過程:(1)獲取待識別的漢字圖像。(2)對待識別的漢字圖像進行與學習過程相同的圖像預(yù)處理,包括圖像的灰度化、二值化、腐蝕、膨脹、投影分割等操作。(3)使用訓練好的模型對新的漢字圖像進行識別。predictions=model.predict(new_data)(4)部署和應(yīng)用。(5)誤差分析和改進。。(6)用戶界面設(shè)計(可選)。11.4漢字圖像預(yù)處理理論基礎(chǔ)1.漢字圖像預(yù)處理步驟(1)獲取需要處理的圖像。(2)進行灰度化、二值化處理。(3)進行腐蝕、膨脹處理。(4)進行投影與分割。(5)將分割后的圖像保存到指定位置。效果展示圖11-5膨脹圖像進行腐蝕處理圖11-4對二值圖像進行膨脹處理圖11-3對灰度圖像進行二值化處理11.5投影與分割理論基礎(chǔ)漢字圖像 水平投影 垂直投影圖11-6投影與分割實現(xiàn)步驟

(1)將二值化圖像進行水平投影。(2)根據(jù)水平投影圖像確定并記錄水平分割點。(3)將二值化圖像進行垂直投影。(4)根據(jù)垂直投影圖像確定并記錄垂直分割點。通過分割點組合,在原圖中繪制包含漢字的藍色矩形框。(5)通過坐標分割出單個漢字圖像。效果展示圖11-7投影分割示意圖11.6構(gòu)建漢字識別模型11.6.1構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型(1)卷積神經(jīng)網(wǎng)絡(luò)的輸入是深度為3的圖像,故第一層為卷積層,輸入為3,輸出為16,卷積核為3*3,步長為1。使用函數(shù)BatchNorm2d()進行歸一化處理,激活函數(shù)ReLU()被激活。(2)第二層為卷積層,輸入為16,輸出為32,卷積核為3*3,步長為1。使用函數(shù)BatchNorm2d()進行歸一化處理,激活函數(shù)ReLU()被激活。(3)第三層為池化層,池化層進行MaxPool2d()取最大值,核的大小為2*2。(4)第四層為卷積層輸入為32,輸出為64,卷積核為5*5,步長為1。使用函數(shù)BatchNorm2d()進行歸一化處理,激活函數(shù)ReLU()激活;(5)第五層為卷積層輸入為64,輸出為128,卷積核為3*3,步長為1;使用函數(shù)BatchNorm2d()進行歸一化處理,激活函數(shù)ReLU()激活;(6)第六層為池化層,池化層進行MaxPool2d()取最大值,核的大小為2*2;(7)第七層為全連接層,輸入為128*12*12,經(jīng)過全連接層進行分類,輸出為20個類別特征數(shù)據(jù)。構(gòu)建漢字識別模型模型編程實現(xiàn)/***************************************************************/*類名稱:CNN(nn.Module)*功能:漢字識別的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)/***************************************************************/classCNN(nn.Module):def__init__(self):super(CNN,self).__init__()self.layer1=nn.Sequential(nn.Conv2d(3,16,kernel_size=3,stride=1),nn.BatchNorm2d(16),nn.ReLU(inplace=True))self.layer2=nn.Sequential(nn.Conv2d(16,32,kernel_size=3,stride=1),nn.BatchNorm2d(32),nn.ReLU(inplace=True)模型編程實現(xiàn))self.layer3=nn.Sequential(nn.MaxPool2d(kernel_size=2,stride=2))self.layer4=nn.Sequential(nn.Conv2d(32,64,kernel_size=5,stride=1),nn.BatchNorm2d(64),nn.ReLU(inplace=True))self.layer5=nn.Sequential(nn.Conv2d(64,128,kernel_size=3,stride=1),nn.BatchNorm2d(128),nn.ReLU(inplace=True))self.layer6=nn.Sequential(nn.MaxPool2d(kernel_size=2,stride=2))模型編程實現(xiàn))self.fc=nn.Sequential(nn.Linear(128*12*12,1024),nn.ReLU(inplace=True),nn.Linear(1024,128),nn.ReLU(inplace=True),nn.Linear(128,20),nn.Softmax(1))defforward(self,x):x=self.layer1(x)x=self.layer2(x)x=self.layer3(x)x=self.layer4(x)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論