下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 基于圖像模式識別的數(shù)字圖書資料修復(fù)及應(yīng)用 王帆摘 要:圖書內(nèi)容的電子化和網(wǎng)絡(luò)化發(fā)展就是圖書資料的數(shù)字化過程,圖書資料實(shí)現(xiàn)了數(shù)字化之后,就會存儲在專業(yè)的數(shù)據(jù)庫服務(wù)系統(tǒng)中,讀者只需要通過網(wǎng)絡(luò)就可以在線閱讀或者下載,文章闡述了圖形模式識別技術(shù)在數(shù)字圖書資料修復(fù)中的應(yīng)用情況,即通過對圖書資料進(jìn)行掃描、二值化和圖像的重建等方法對不清晰的圖形進(jìn)行自動修復(fù),最終實(shí)現(xiàn)數(shù)字圖書資料的數(shù)字化處理。Key:圖像模式識別;數(shù)字圖書;資料修復(fù);1圖書數(shù)字化處理的基本要求圖書資料的數(shù)字化是圖書內(nèi)容的電子化和網(wǎng)絡(luò)化,數(shù)字化的圖書資料脫離了傳統(tǒng)的媒介載體紙質(zhì)材料。圖書經(jīng)數(shù)字化處理后,存儲于專業(yè)管理的數(shù)據(jù)庫服務(wù)器中,讀者通過
2、網(wǎng)絡(luò)進(jìn)行在線閱讀。在我國,當(dāng)前以“清華同方”、“維普資訊”的學(xué)術(shù)文獻(xiàn)數(shù)據(jù)庫的建立與使用為代表;大量的傳統(tǒng)圖書已被制成以光盤為主要存貯形式的電子圖書,如書生之家;“數(shù)字圖書館”(“虛擬圖書館”)的建設(shè)和發(fā)展等都離不開圖書的數(shù)字化處理這一關(guān)鍵技術(shù)。雖然這兩種媒介(網(wǎng)絡(luò)媒介和紙質(zhì)媒介)表達(dá)文獻(xiàn)的方式不一樣,但都是同樣內(nèi)容的呈現(xiàn),圖書數(shù)字化的基本要求是經(jīng)處理后,電子圖書能客觀地再現(xiàn)紙質(zhì)圖書的原有真實(shí)內(nèi)容。2傳統(tǒng)修復(fù)過程中存在的問題對圖書資料進(jìn)行數(shù)字化處理,首先要進(jìn)行數(shù)據(jù)收集,即將相關(guān)的數(shù)據(jù)輸入計(jì)算機(jī);而后,會顯示出一個長方形方框;對這個長方形方框進(jìn)行圖像預(yù)處理之后,就要對區(qū)域內(nèi)的圖像進(jìn)行模式識別。通過
3、這種方法能將圖書資料中的文字清晰而又準(zhǔn)確地反映出來,為圖書資料的修復(fù)提供參考意見。這一系列過程完成之后,就可以實(shí)現(xiàn)圖書和檔案的數(shù)字化。目前,二值化方法是圖書數(shù)字化中使用最多的方法。因?yàn)樵跀?shù)字圖書資料的修復(fù)過程中,需要對大量的數(shù)據(jù)進(jìn)行處理,而使用二值化的方法就能滿足這種需求。二值化方法具有工作效率高的特點(diǎn),這也是其最大的優(yōu)勢。數(shù)字圖書資料經(jīng)過二值化的處理之后,所得到圖像的對比度會高于原有圖書資料中的圖像,給識別和閱讀提供方便的同時也會帶來一些新的問題,例如:二值化處理會使原來圖像中本來就不清晰的部分字符變得更加模糊,不能進(jìn)行準(zhǔn)確識別。這個問題不能解決,就會給圖書資料的數(shù)字化工作帶來巨大的負(fù)面影響
4、。如果連數(shù)字化處理的基本要求都無法達(dá)到,就會迫使圖書管理人員放棄對這一部分資料進(jìn)行修復(fù)。此外,通過圖像采集系統(tǒng)攝入的圖像通常都會自動生成BMP格式并存放在計(jì)算機(jī)中,但計(jì)算機(jī)顯示出來的卻是灰度圖像。在各種因素的影響下,圖像會出現(xiàn)模糊,筆畫斷開、粗細(xì)不均衡等現(xiàn)象,而且圖像中大量孤立噪聲的存在,也會使提取字符的難度加大。針對數(shù)字圖書資料修復(fù)中存在的這些問題,筆者在傳統(tǒng)二值化處理的基礎(chǔ)上,引用了局部二值化的處理方法,主要是為了對不清晰的數(shù)字圖書資料進(jìn)行修復(fù),從而實(shí)現(xiàn)圖書資料的數(shù)字化。3模式識別技術(shù)的原理及方法分析模式識別指的是對表征現(xiàn)象或事物的各種形式的信息進(jìn)行分析和處理,以達(dá)到對現(xiàn)象或事物進(jìn)行描述、
5、辨認(rèn)、分類及解釋的一系列過程。3.1局部二值化的原理局部二值化就是將大塊圖像分割為若干個小塊圖像,分別對各個小圖像進(jìn)行二值化,進(jìn)而形成完整的二值化圖像。講二值化的問題分解為“分割”、“塊副二值化”及“合并”三個步驟來進(jìn)行,以達(dá)到對圖像進(jìn)行二值化處理的目的。3.2圖像分塊的確定在圖像分割時,將圖像分割成正方形和矩形,首先將圖像進(jìn)行若干正方形的分割,其余的部分也就形成了若干的小矩形,閾值選取方法的普適性與時間開銷是息息相關(guān)的。4數(shù)字圖書資料的修復(fù)方法圖書資料的數(shù)字化過程中,經(jīng)掃描得到的圖像要經(jīng)過圖像預(yù)處理、提取圖像中的字符信息、圖像局部的二值化處理等過程,圖像局部的二值化是圖書資料修復(fù)過程的關(guān)鍵。
6、4.1圖像預(yù)處理在圖書或檔案數(shù)字化過程中,由于掃描系統(tǒng)(如CCD攝像頭)、光電轉(zhuǎn)換裝置、工作環(huán)境(光)等因素,常常導(dǎo)致圖像不均勻、對比度不足等問題,使圖像的清晰度差、還原度和可視性降低;另外由于光電敏感元件載荷粒子隨機(jī)運(yùn)動所產(chǎn)生的噪聲、傳輸通道的干擾等原因,數(shù)碼化后的灰度圖像含有一定的噪聲,因此,在圖書、檔案圖像二值化前,要對圖像進(jìn)行預(yù)處理。當(dāng)前主要采取的措施有:灰度變換和平滑濾波。灰度變換是對圖像像素灰度值進(jìn)行修正,實(shí)現(xiàn)圖像處理后成像均勻,對比度飽和;平滑濾波是在圖像處理中,在平滑圖像中的加性噪聲。4.2圖像中字符信息的提取采集系統(tǒng)攝入的是24位的灰度圖像,其有224(16777216)個灰
7、度等級。圖像上的點(diǎn)(x,y)的灰度值設(shè)為f(x,y)。對此灰度圖像進(jìn)行二值化就是將圖像轉(zhuǎn)換為只有兩個等級(黑、白)的二值圖像。依據(jù)圖像區(qū)域的相似性和不連續(xù)性,取圖像灰度平均值為閾值N,二值化處理可表示為:小的點(diǎn),其值設(shè)置為1。像素的集合為背景區(qū)域;小于或等于此閾值N的像素設(shè)置為黑,像素值為1,這樣就得到了只有黑白兩色的二值圖像,將圖書檔案中的字符信息就凸顯了出來。數(shù)字圖書資料的背景色一般為淺色,字符為深色,多數(shù)情況下,紙質(zhì)圖書資料的背景為白色、字符為黑色,因此,采用紙質(zhì)圖書資料的24位位圖,像素點(diǎn)的亮度作為灰度等級值。通常采用圖像的二值化方法是把整個圖像亮度的平均值N作為閾值。當(dāng)局部顏色較淺時
8、,字符信息和背景的亮度都大于N,二值化后,這部分的值都為0,全部都將被視為背景上的點(diǎn),這樣很容易丟失圖書資料中退色的部分信息。為了解決這個問題,文獻(xiàn)提出了圖像全局均值和局部方差方法、文獻(xiàn)提出了小波分析法,在文獻(xiàn)中,先采用開關(guān)中值濾波消除噪聲干擾,然后利用迭代算法實(shí)現(xiàn)圖像的二值化分割。這些方法都涉及復(fù)雜的計(jì)算,在此采用局部二值化方法,取閾值為各個塊亮度的均值。3.3二值化圖像的再處理圖像局部二值化后,得到了各個小塊圖像的“值點(diǎn)”,這樣避免了因某個小塊由于顏色淡而整體無“值點(diǎn)”的情況,但是同時產(chǎn)生了一個新問題,這樣的二值化圖像中含有較多的噪音,在進(jìn)行圖像重建之前必須去除。平滑化處理可以去除噪音,在
9、此采用了文獻(xiàn)的高斯濾波方法進(jìn)行平滑化處理。圖像重構(gòu)。通過前面的處理,得到完整的原始數(shù)字圖書資料的二值化圖像,可以構(gòu)造出增強(qiáng)字符信息的圖像文件,還原出比原來數(shù)字圖書資料效果好的圖像,便于閱讀和處理的數(shù)字圖書資料,可以構(gòu)造其BMP位圖文件,也可以打印出比原來效果好的紙質(zhì)圖書資料,達(dá)到了修復(fù)有損數(shù)字圖書資料的目的。模式識別。除了用重建數(shù)字圖書資料的圖像的方法之外,還可以根據(jù)實(shí)際問題的需要進(jìn)行后繼處理,如文獻(xiàn)中,使用模式識別方法分割字符、歸類識別字符、手工修正、重新輸出原圖書資料的內(nèi)容,對表格字符的識別和圖像重構(gòu)可參見文獻(xiàn)。總結(jié):模式識別技術(shù)在現(xiàn)代圖書信息和檔案處理中有著廣泛的用途,文章闡述了圖形模式識別技術(shù)在數(shù)字圖書資料修復(fù)中的應(yīng)用情況,即通過對圖書資料進(jìn)行掃描、二值化和圖像的重建等方法對不清晰的圖形進(jìn)行自動修復(fù),最終實(shí)現(xiàn)數(shù)字圖書資料的數(shù)字化處理。Reference:1呂俊哲.圖像二值化算法研究及其實(shí)現(xiàn)J.科技情報(bào)開發(fā)與經(jīng)濟(jì),2004(12).2賈昔玲.基于圖像模式識別的數(shù)字圖書資料修復(fù)及應(yīng)用研究J.數(shù)字技術(shù)與應(yīng)用,2010(10).3化明艷.高
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 貴州省事業(yè)單位聘用合同制試行辦法
- 合肥 采購合同范本
- 大班數(shù)學(xué)課件《門牌號碼》
- 2024聘用兼職老師合同書范文
- 山東省東營市利津縣2024-2025學(xué)年八年級上學(xué)期11月期中化學(xué)試題
- m材料力學(xué)第11章 能量法
- 2024劇本版權(quán)制作及發(fā)行權(quán)購買合同參考范本
- 2024合同違約起訴狀范本
- 專題01 標(biāo)題的作用及含義-2022-2023學(xué)年小升初語文記敘文知識點(diǎn)銜接(部編版)
- 幼兒園防詐安全教育
- 《多彩的職業(yè)》參考課件
- 《綠色制造技術(shù)》課件
- 醫(yī)用放射儀器的工作原理
- 抖音傳媒管理制度
- 家畜繁殖學(xué)課件
- 浙江森馬服飾股份有限公司營運(yùn)能力分析及提升策略研究
- 《數(shù)字化測圖》教學(xué)教案
- 圖像數(shù)據(jù)預(yù)處理詳述
- 室顫的搶救與護(hù)理課件
- 人教版 九年級化學(xué)上冊 第六單元 碳和碳的氧化物 課題2 二氧化碳的制取研究 說課稿
- 2023人民音樂出版社招聘7人筆試參考題庫(共500題)答案詳解版
評論
0/150
提交評論