圖像中的文本檢測與定位._第1頁
圖像中的文本檢測與定位._第2頁
圖像中的文本檢測與定位._第3頁
圖像中的文本檢測與定位._第4頁
圖像中的文本檢測與定位._第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、圖像中的文本檢測與圖像中的文本檢測與定位定位 應(yīng)用 應(yīng)用 網(wǎng)絡(luò)過 濾 智能交 通 數(shù)字圖 書館 圖像、 視頻檢 索 文本定位主要方法 基于區(qū)域(同一行字符顏色相似,不適用于字符含多種 顏色) 基于邊緣(文本與背景對比度較大,筆畫邊緣突出,背 景邊緣少) 基于紋理(可檢測字符與背景對比度較小、背景復(fù)雜的 文本,但計算量大,算法比較耗時) 基于學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò),SVM,Adaboost等) 文本定位流程 圖像文本分割方法 直方圖閾值法:通常是對每個區(qū)域色彩空間的各個分量 計算閾值,將各個分量與閾值比較,得到圖像分割結(jié)果。 (1)基于RGB 用88大小的均勻網(wǎng)格將圖像分成互不相交的子圖 像,在每個子圖

2、像中分別求R、G、B的局部閾值。公式如 下: 圖像文本分割方法 圖像文本分割方法 (2)基于HSV HSV顏色空間示意圖中,H 參數(shù)表示色彩信息,該參數(shù)用角 度量表示;S參數(shù)為飽和度,它 表示色彩的純度,數(shù)值大小為0 到1,數(shù)值越高表示色彩越純;V 參數(shù)表示色彩的明亮程度,范圍 從0到1。 圖像文本分割方法 基于HSV比基于RGB效果好些,因為HSV的色彩空間更 符合人眼的視覺特性。 圖像文本分割方法 K均值聚類圖像分割 (1)輸入要分類的數(shù)據(jù)集合,設(shè)置類別數(shù)K (2)隨機選取K個數(shù)據(jù)作為初始聚類中心 (3)逐個將需分類的數(shù)據(jù)樣本按最小距離準(zhǔn)則分配給K個聚 類中心的某一個 (4)各個聚類中心重

3、新計算 (5)聚類中心再次移動到它所在的類別中心 (6)重復(fù)步驟(3)-(5),直到收斂 圖像文本分割方法 圖像文本分割方法 基于均值漂移圖像分割算法 (1)邊緣保持平滑 (2)彩色邊緣檢測 (3)RGB顏色空間的二次采樣 (4)RGB空間轉(zhuǎn)換為LUV空間 (5)均值漂移過程 (6)將分類后的數(shù)據(jù)還原為圖像 圖像文本分割方法 文本候選區(qū)域生成 圖像分層,分割后的圖像被分成若干層,將每層顏色提 取出來,并進行二值化。 對分層后的各子圖進行連通區(qū)域提取 采用深度優(yōu)先搜索思想提取連通區(qū)域,獲得每個子圖像 中連通區(qū)域的位置、面積。結(jié)合文本本身的一些幾何特征、 角點信息以及其他一些規(guī)則剔除一些很明顯的非

4、文本區(qū)域。 角點檢測 連通區(qū)域分析 連通區(qū)域鑒定 (1)圖像中文本的寬和高不會太小,也不會太大,并且 高度比通常在一定范圍內(nèi)。 (2)文本區(qū)域的面積一般呈現(xiàn)某種規(guī)則。 (3)利用文本區(qū)域角點信息剔除一些非文本區(qū)域。 (4)文本區(qū)域向X軸的投影曲線特性與非文本區(qū)域向X軸 的投影曲線特性相差較大。 (5)通常情況下,文本圖像中的文本不會出現(xiàn)在圖像的 邊界區(qū)域。 連通區(qū)域分析 連通區(qū)域合并 生成候選文本區(qū)域 AdaBoost算法 AdaBoost算法 AdaBoost舉例 Adaboost舉例 第一步,根據(jù)分類的正確率,得到一個新的樣本分布D2, 一個子分類器h1。 第二步,根據(jù)分類的正確率,得到一

5、個新的樣本分布D3, 一個子分類器h2。 Adaboost舉例 第三步,得到一個子分類器h3。 整合所有子分類器: 特征提取 HOG特征 LBP特征 其他紋理特征(均值、方差、熵等) HOG特征 生成過程: HOG特征 HOG特征 HOG特征 HOG特征 (4)基于基于梯度幅值的方向權(quán)重投影梯度幅值的方向權(quán)重投影 HOG結(jié)構(gòu):通常使用的HOG結(jié)構(gòu)大致有三種:矩形HOG(簡 稱為R-HOG),圓形HOG和中心環(huán)繞HOG。它們的單位都是 Block(即塊)。Dalal的試驗證明矩形HOG和圓形HOG的檢測 效果基本一致,而環(huán)繞形HOG效果相對差一些。 HOG特征 矩形HOG塊的劃分:一般一個塊(B

6、lock)都由若干單元 (Cell)組成,一個單元都有若干個像素點組成。 HOG特征 (5)HOGHOG特征向量特征向量歸一化歸一化:對block塊內(nèi)的HOG特征向量進行 歸一化。對block塊內(nèi)特征向量的歸一化主要是為了使特征 向量空間對光照,陰影和邊緣變化具有魯棒性。還有歸一化 是針對每一個block進行的,一般采用的歸一化函數(shù)有以下 四種: LBP特征 原始的LBP算子定義為在3*3的窗口內(nèi),以窗口中心像素 為閾值,將相鄰的8個像素的灰度值與其進行比較,若周 圍像素值大于中心像素值,則該像素點的位置被標(biāo)記為1, 否則為0。這樣,3*3鄰域內(nèi)的8個點經(jīng)比較可產(chǎn)生8位二 進制數(shù)(通常轉(zhuǎn)換為十

7、進制數(shù)即LBP碼),即得到該窗口 中心像素點的LBP值,并用這個值來反映該區(qū)域的紋理信 息。如下圖所示: 改進的改進的LBPLBP(一)(一) 基本的 LBP算子只覆蓋了一個固定半徑范圍內(nèi)的小區(qū)域, 為了適應(yīng)不同尺度的紋理特征,并達到灰度和旋轉(zhuǎn)不變 性的要求,Ojala等對 LBP 算子進行了改進。 圓形LBP算子:將 33鄰域擴展到任意鄰域,并用圓形 鄰域代替了正方形鄰域,改進后的 LBP 算子允許在半徑 為 R 的圓形鄰域內(nèi)有任意多個像素點。從而得到了半徑 為R的圓形區(qū)域內(nèi)含有P個采樣點的LBP算子。 改進的改進的LBPLBP(二)(二) LBP旋轉(zhuǎn)不變模式:從 LBP 的定義可以看出,L

8、BP 算子 是灰度不變的,但卻不是旋轉(zhuǎn)不變的。圖像的旋轉(zhuǎn)就會 得到不同的 LBP值。Maenpaa等人又將 LBP算子進行了擴 展,提出了具有旋轉(zhuǎn)不變性的 LBP 算子,即不斷旋轉(zhuǎn)圓 形鄰域得到一系列 初始定義的 LBP值, 取其最小值作為該 鄰域的 LBP 值。 改進的改進的LBPLBP(三)(三) 一個LBP算子可以產(chǎn)生不同的二進制模式,對于半徑為R 的圓形區(qū)域內(nèi)含有P個采樣點的LBP算子將會產(chǎn)生P2種模式。 很顯然,隨著鄰域集內(nèi)采樣點數(shù)的增加,二進制模式的 種類是急劇增加的。為了解決二進制模式過多的問題, 提高統(tǒng)計性,Ojala提出了采用一種“等價模式”來對 LBP算子的模式種類進行降維。Ojala將“等價模式”定 義為:當(dāng)某個LBP所對應(yīng)的循環(huán)二進制數(shù)從0到1或從1到0 最多有兩次跳變時,該LBP所對應(yīng)的二進制就稱為一個等 價模式類。 通過這樣的改進,二進制模式的種類大大減少,而不會 丟失任何信息。模式數(shù)量由原來的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論