檔案數(shù)字化加工方案計(jì)劃_第1頁(yè)
檔案數(shù)字化加工方案計(jì)劃_第2頁(yè)
檔案數(shù)字化加工方案計(jì)劃_第3頁(yè)
檔案數(shù)字化加工方案計(jì)劃_第4頁(yè)
檔案數(shù)字化加工方案計(jì)劃_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、TOC o 1-5 h z HYPERLINK l bookmark0 o Current Document (三)數(shù)字化加工部分2 HYPERLINK l bookmark2 o Current Document 需求分析與總結(jié)2 HYPERLINK l bookmark4 o Current Document 6.2.參考的國(guó)家標(biāo)準(zhǔn)及技術(shù)規(guī)范2 HYPERLINK l bookmark6 o Current Document 數(shù)字化加工實(shí)施細(xì)則3 HYPERLINK l bookmark8 o Current Document 本項(xiàng)的掃描加工流程3 HYPERLINK l bookmark

2、10 o Current Document 6.9.2.生產(chǎn)流程有以下幾個(gè)主要的步驟組成:4 HYPERLINK l bookmark16 o Current Document 6.9.3.檔案整理5 HYPERLINK l bookmark36 o Current Document 6.9.4.著錄標(biāo)引6 HYPERLINK l bookmark44 o Current Document 6.9.5.紙件掃描7 HYPERLINK l bookmark54 o Current Document 6.9.6.圖像處理8 HYPERLINK l bookmark70 o Current Docu

3、ment 6.9.7.質(zhì)量檢驗(yàn)10 HYPERLINK l bookmark72 o Current Document 6.9.8.檔案還原裝訂10 HYPERLINK l bookmark94 o Current Document 6.9.9.數(shù)據(jù)存儲(chǔ)與備份12 HYPERLINK l bookmark96 o Current Document 6.9.10.檔案電子數(shù)據(jù)與XXXXXX煙草檔案系統(tǒng)的無(wú)縫掛接12 HYPERLINK l bookmark100 o Current Document 項(xiàng)目所采用的OCR處理技術(shù)介紹12 HYPERLINK l bookmark102 o Curr

4、ent Document OCR(光學(xué)字符識(shí)別)技術(shù)12 HYPERLINK l bookmark104 o Current Document 所采用的OCR及雙層PDF生產(chǎn)流程13 HYPERLINK l bookmark110 o Current Document 生產(chǎn)流程邏輯示意圖14 HYPERLINK l bookmark112 o Current Document XXXXXX檔案數(shù)字化服務(wù)特點(diǎn)15 HYPERLINK l bookmark114 o Current Document 6.11.1.自動(dòng)化程度高15 HYPERLINK l bookmark116 o Current

5、 Document 6.11.2.標(biāo)準(zhǔn)化程度高15 HYPERLINK l bookmark118 o Current Document 6.11.3.嚴(yán)格的質(zhì)量控制15 HYPERLINK l bookmark120 o Current Document 6.11.4.文檔安全性高15 HYPERLINK l bookmark122 o Current Document 6.11.5.標(biāo)準(zhǔn)的格式15 HYPERLINK l bookmark124 o Current Document 6.11.6.方便存儲(chǔ)與管理16三)數(shù)字化加工部分需求分析與總結(jié)此次項(xiàng)目是將中國(guó)煙草總公司XXXXXX省公司

6、及所屬11個(gè)市煙草公司的約183萬(wàn)頁(yè)紙質(zhì)檔案進(jìn)行數(shù)字化加工并將成品數(shù)據(jù)掛接到檔案管理系統(tǒng)中,紙質(zhì)檔案的折分整理、掃描與圖像處理、數(shù)據(jù)的掛接與光盤備份都將嚴(yán)格按照國(guó)家檔案局相關(guān)標(biāo)準(zhǔn)及XXXXXX省檔案局相關(guān)規(guī)定,結(jié)合XXXXXX煙草檔案現(xiàn)狀定制加工技術(shù)規(guī)范與生產(chǎn)加工流程。據(jù)上述現(xiàn)狀,具體人員安排,項(xiàng)目實(shí)施周期,采用標(biāo)準(zhǔn)及實(shí)施細(xì)則如下。參考的國(guó)家標(biāo)準(zhǔn)及技術(shù)規(guī)范紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范(DA/T312005)連續(xù)色調(diào)靜態(tài)圖像的數(shù)字壓縮及編碼(GB/T17235.1-1998)電子文件歸檔與管理規(guī)范(GB/T18894-2002)中央檔案館接收檔案的標(biāo)準(zhǔn)XXXXXX省檔案接收和收集管理相關(guān)規(guī)定歸檔文件整

7、理規(guī)則(DA/T22-2000)檔案著錄規(guī)則(DA/T18-1999)無(wú)酸檔案卷皮卷盒用紙及紙板(DA/T24-2000)檔案修裱技術(shù)規(guī)范(DA/T25-2000)XXXXXXXXXXXX檔案數(shù)字化技術(shù)規(guī)范XXXXXX煙草檔案數(shù)字化技術(shù)規(guī)范數(shù)字化加工實(shí)施細(xì)則691本項(xiàng)的掃描加工流程帶案原件整理槪對(duì)頁(yè)號(hào)00CO消蘭*去孚邊血斜板正-去雜點(diǎn)r檔塞還原檔東管理系址4審示入?yún)^(qū)st糧刖GD刻錄機(jī)H2L色舊屋擁扎牯和蛀理w殳面質(zhì)懵按剛生產(chǎn)流程有以下幾個(gè)主要的步驟組成:紙質(zhì)檔案的整理從檔案室進(jìn)行檔案提卷,并記錄提卷的內(nèi)容,接著拆卷,并進(jìn)行去污、平整化,并依據(jù)檔案紙張的大小和厚薄分類。檔案的整理工作主要是為了

8、以后檔案的掃描做準(zhǔn)備。掃描及圖像處理根據(jù)不同檔案紙張的大小和厚薄,選擇不同的掃描儀,較為規(guī)整的選擇快速掃描儀,較薄、較厚和不規(guī)整的用平板掃描儀,這樣既能達(dá)到保護(hù)檔案(高速掃描儀會(huì)發(fā)生卷紙,損壞檔案)的目的,也能提高檔案數(shù)字化加工的速度。查重查漏在掃描的過(guò)程中,難免會(huì)發(fā)生重復(fù)掃描和漏掃的現(xiàn)象,人工的再次校對(duì)能夠發(fā)現(xiàn)檔案數(shù)字化過(guò)程中出現(xiàn)的情況,并即使糾正。數(shù)據(jù)項(xiàng)錄入依據(jù)檔案著錄規(guī)范或者依據(jù)客戶檔案的實(shí)際著錄項(xiàng),錄入標(biāo)題、責(zé)任者、歸檔時(shí)間、檔號(hào)等各種信息。質(zhì)量檢測(cè)對(duì)掃描圖像和著錄的標(biāo)引數(shù)據(jù)進(jìn)行檢驗(yàn),圖像主要是檢驗(yàn)其掃描和凈化處理質(zhì)量,數(shù)據(jù)項(xiàng)的質(zhì)量檢測(cè)主要是檢測(cè)其錄入正確率。檔案還原完成檔案數(shù)字化后,

9、要把原先的檔案原件還原成原樣。6.9.3.檔案整理檔案交接檔案按年度、案卷提檔,提檔時(shí)數(shù)字化實(shí)施方的提卷人員對(duì)每卷的所有頁(yè)面進(jìn)行統(tǒng)一的編號(hào),全卷所有文件頁(yè)號(hào)編寫完成后,再依據(jù)XXXXXX煙草的要求抽出不需要掃描的文件頁(yè),然后再次按序編寫需要掃描的文件頁(yè)號(hào),頁(yè)號(hào)編寫完成后,按實(shí)際文件頁(yè)數(shù)填寫詳細(xì)的紙質(zhì)檔案交按清單,并由雙方主管人員簽字。檔案拆分檔案拆分前要對(duì)檔案進(jìn)行統(tǒng)一的編號(hào),編制總頁(yè)號(hào)后,要從中選中需要掃描的頁(yè)面。再一次編制所需掃描的頁(yè)號(hào),兩個(gè)頁(yè)號(hào)需用鉛筆的顏色或位置區(qū)分,以確保檔案還原時(shí)能夠清楚區(qū)別和核時(shí)頁(yè)數(shù)。目錄數(shù)據(jù)準(zhǔn)備按照檔案著錄規(guī)則(DA/T18)等的要求,規(guī)范檔案中的目錄內(nèi)容。包括確

10、定檔案目錄的著錄項(xiàng)、字段長(zhǎng)度和內(nèi)容要求。如有錯(cuò)誤或不規(guī)范的案卷題名、文件名、責(zé)任者、起止頁(yè)號(hào)和頁(yè)數(shù)等,應(yīng)進(jìn)行修改。拆除裝訂在不去除裝訂物情況下,影響掃描工作進(jìn)行的檔案,應(yīng)拆除裝訂物。拆除裝訂物時(shí)應(yīng)注意保護(hù)檔案不受損害。區(qū)分掃描件和非掃描件按要求把同一案卷中的掃描件和非掃描件區(qū)分開(kāi)。普發(fā)性文件區(qū)分的原則是無(wú)關(guān)和重份的文件要剔除,有正式件的文件可以不掃描原稿。頁(yè)面修整破損嚴(yán)重、無(wú)法直接進(jìn)行掃描的檔案,應(yīng)先進(jìn)行技術(shù)修復(fù),折皺不平影響掃描質(zhì)量的原件應(yīng)先進(jìn)行相應(yīng)處理(壓平或熨平等)后再進(jìn)行掃描。檔案整理登記制作并填寫紙質(zhì)檔案數(shù)字化加工過(guò)程交接登記表單,詳細(xì)記錄檔案整理后每份文件的起始頁(yè)號(hào)和頁(yè)數(shù)。6.9.

11、4.著錄標(biāo)引標(biāo)引著錄標(biāo)引著錄為了方便查閱與管理,打印制作檔案目錄及檔案封面,對(duì)文字錄入的準(zhǔn)確性要求較高,但要錄的文本域并不是完全統(tǒng)一的在某一頁(yè)面上,一些文本域要在多個(gè)文件中選擇,所以錄入時(shí)需要相關(guān)學(xué)部專家進(jìn)行指導(dǎo),確保文本域錄入的準(zhǔn)確率。對(duì)所需錄入的文本進(jìn)行標(biāo)引、或?qū)Σ煌悇e的檔案錄入特征制作相應(yīng)的文字錄入工作說(shuō)明書,供錄入員和校對(duì)人員參考。錄入方式由于文本類型不一,有印刷體、手寫體、有表格內(nèi)的也有表格外的文本信息,所以采用手工錄入和OCR(光學(xué)字符識(shí)別)軟件相結(jié)合的方式錄入。即手寫體或不清晰的印刷體采用手工錄入,較規(guī)整的印刷體采用OCR技術(shù)的錄入方式。校對(duì)方式校對(duì)以軟件校對(duì)和打印輸出對(duì)比校對(duì)

12、相結(jié)合的方式,即對(duì)手工錄入和OCR自動(dòng)錄入的文本打印輸出進(jìn)行對(duì)比校對(duì)的一校、二校、抽查校對(duì),確保索引信息達(dá)到出版質(zhì)量萬(wàn)分之一以下。6.9.5.紙件掃描原件的掃描與存儲(chǔ)格式完全按照國(guó)家檔案管理的統(tǒng)一標(biāo)準(zhǔn)和XXXXXX煙草的相關(guān)要求掃描。掃描人員按照掃描與處理工作說(shuō)明書的要求,填寫移交清單(此移交清單是檔案拆分人員和掃描人員共同填寫)并簽字領(lǐng)取并進(jìn)行紙件掃描掃描圖像使用先進(jìn)的圖像掃描處理軟件(快圖像系統(tǒng)),掃描人員可根據(jù)原稿質(zhì)量,對(duì)系統(tǒng)進(jìn)行定義,如自動(dòng)傾斜校正、自動(dòng)去污、自動(dòng)分文件等批處理功能。在由系統(tǒng)自動(dòng)處理功能的同時(shí),掃描人員根據(jù)原件的實(shí)際情況做相應(yīng)的調(diào)整,如超大頁(yè)面的處理、紙張顏色深淺及薄厚

13、的處理、掃描時(shí)可根據(jù)不同原件的情況,調(diào)整圖像的分辨率、閥值、明亮度以及掃描方式和掃描速度,確保在掃描圖像質(zhì)量清晰的情況下,使原件完好無(wú)損。圖像的分辨率正常情況下為300dpi,如遇字間距和行行距過(guò)密、原件本身是復(fù)印件等字跡不清楚的情況,可適當(dāng)增加掃描的分辨率但要保正圖像清晰的同時(shí)又不影響遠(yuǎn)程查詢和游覽的速度。掃描方式根據(jù)檔案幅面的大小(A4、A3、A0等)選擇相應(yīng)規(guī)格的掃描儀或?qū)I(yè)掃描儀(如工程圖紙可采用0號(hào)圖紙掃描儀)進(jìn)行掃描。大幅面檔案可采用大幅面數(shù)碼平臺(tái),或者縮微拍攝后的膠片數(shù)字化轉(zhuǎn)換設(shè)備等進(jìn)行掃描,也可以采用小幅面掃描后的圖像拼接方式處理。紙張狀況較差,以及過(guò)薄、過(guò)軟或超厚的檔案,應(yīng)采

14、用平板掃描方式;紙張狀況好的檔案可采用高速掃描方式以提高工作效率。掃描色彩模式掃描色彩模式一般有黑白二值、灰度、彩色等。通常采用黑白二值。頁(yè)面為黑白兩色,并且字跡清晰、不帶插圖的檔案可采用黑白二值模式進(jìn)行掃描。頁(yè)面為黑白兩色,但字跡清晰度差或帶有插圖的檔案,以及頁(yè)面為多色文字的檔案,可以采用灰度模式掃描。頁(yè)面中有紅頭、印章或插有黑白照片、彩色照片、彩色插圖的檔案,可視需要采用彩色模式進(jìn)行掃描。掃描分辨率掃描分辨率參數(shù)大小的選擇,原則上以掃描后的圖像清晰、完整、不影響圖像的利用效果為準(zhǔn)。采用黑白二值、灰度、彩色幾種模式對(duì)檔案進(jìn)行掃描時(shí),其分辨率一般均選擇大于或等于200dpi。特殊情況下,如文字

15、偏小、密集、清晰度較差等,可適當(dāng)提高分辨率。需要進(jìn)行OCR漢字識(shí)別的檔案,掃描分辨率建議選擇大于或等于300dpi。掃描登記認(rèn)真填寫紙質(zhì)檔案數(shù)字化轉(zhuǎn)換過(guò)程交接登記表單,登記掃描的頁(yè)數(shù),核對(duì)每份文件的實(shí)際掃描頁(yè)數(shù)與檔案整理時(shí)填寫的文件頁(yè)數(shù)是否一致,不一致時(shí)應(yīng)注明具體原因和處理方法。6.9.6.圖像處理XXXXXXXXXXXX檔案數(shù)字化工廠采用自動(dòng)化處理和人工處理相結(jié)合的方式,確保圖像質(zhì)量的完美。通過(guò)校對(duì)系統(tǒng)對(duì)圖像進(jìn)行校對(duì),確保圖像順序正確、去斑點(diǎn)、校驗(yàn)。,在校對(duì)時(shí)發(fā)現(xiàn)不合格圖像及時(shí)返回前一工序進(jìn)行改正。污漬、黑邊、偏斜處理數(shù)字化加工系統(tǒng)會(huì)根據(jù)原件質(zhì)量的好壞對(duì)污漬的情況進(jìn)行自動(dòng)輕度、中度、高度去污

16、,對(duì)紙質(zhì)變質(zhì)或掃描時(shí)的黑邊完全自動(dòng)清除、自動(dòng)進(jìn)行偏斜校正處理。系統(tǒng)支持局部去污、并能對(duì)不能夠自動(dòng)處理的頁(yè)面進(jìn)行單頁(yè)多次修正。圖像處理人員在發(fā)現(xiàn)掃描不合格的文件,進(jìn)行登記后交掃描人員處理,雙方簽字確認(rèn)后的表單留存?zhèn)洳?。使因掃描造成的不合格圖像機(jī)時(shí)返回上一生產(chǎn)流程。全文字面的掃描密度圖像處理人員在進(jìn)行處理前,掃描人員會(huì)根據(jù)不同原件的情況,提高圖像掃描的分辨率、閥值、明亮度以及掃描方式,如遇字間距和行行距過(guò)密、原件本身是復(fù)印件等字跡不清楚的情況,對(duì)手寫過(guò)密的要對(duì)圖像進(jìn)行細(xì)致的修正,確保各書寫工具寫出的不同顏色、深淺的文字及圖像信息清晰可辯。粘帖頁(yè)與表格對(duì)粘帖頁(yè)面的處理先用XXXXXX數(shù)字化加工軟件系

17、統(tǒng)進(jìn)行自動(dòng)處理,在掃描的時(shí)消除粘帖重疊的曲線,不能自動(dòng)處理的放大后人工處理。對(duì)字跡與表格線顏色深淺不一在掃描時(shí)進(jìn)行細(xì)微調(diào)整后,圖像處理時(shí)再進(jìn)行局部調(diào)整。以確保數(shù)字檔案的可閱讀性。一般性文本流程圖提高圖像掃描的分辨率,調(diào)整閥值、明亮度以及掃描方式,采用局部處理技術(shù)對(duì)圖像進(jìn)行修正。以確保數(shù)字檔案游覽時(shí)辨認(rèn)流程圖的流程線。插圖頁(yè)面處理檔案中有插圖的要在掃描時(shí)對(duì)提高分辨率及相應(yīng)調(diào)整,圖文混排的頁(yè)面不做拆分,在保持原始頁(yè)面信息的同時(shí)使圖像清晰可辯。照片頁(yè)的處理根據(jù)黑白或彩色圖像對(duì)頁(yè)面進(jìn)行調(diào)整,對(duì)特殊照片的處理,必要時(shí)采用專業(yè)的圖像處理軟件進(jìn)行處理,確保照片的清晰度。存儲(chǔ)格式與頁(yè)面空間分辨率:200dpi

18、圖像格式:TIFF、JPG儲(chǔ)存空間:B5或A4,20-30KB/頁(yè)6.9.7.質(zhì)量檢驗(yàn)對(duì)掃描處理完成后的圖像頁(yè)進(jìn)行檢驗(yàn),對(duì)檔案拆分、掃描、修正、去污、文本流程圖的處理、插圖、照片的處理以及文本和圖像頁(yè)的匹配進(jìn)行檢驗(yàn)等質(zhì)量進(jìn)行全面檢驗(yàn)。對(duì)文本域錄入與文本錄入域的標(biāo)引、文件的頁(yè)號(hào)及頁(yè)數(shù)進(jìn)行對(duì)比,對(duì)掃描前的圖像頁(yè)的標(biāo)引與掃描后的圖像頁(yè)的編號(hào)與頁(yè)數(shù)進(jìn)行對(duì)比,發(fā)現(xiàn)不合格的登記清單并退回上一流程重新處理。6.9.8.檔案還原裝訂檔案整理工作嚴(yán)格按照中央檔案館進(jìn)館標(biāo)準(zhǔn)規(guī)定的相關(guān)標(biāo)準(zhǔn)和XXXXXX煙草的實(shí)際情況進(jìn)行有序的整理,XXXXXXXXXXXX檔案數(shù)字化中心安排專人負(fù)責(zé)案卷合并與整理。原件合并把掃描時(shí)挑

19、出的頁(yè)面插入到原來(lái)的頁(yè)面位置中去,將掃描時(shí)展開(kāi)的超大頁(yè)面還原到掃描前的原樣,把數(shù)字化中挑出的不要的多余頁(yè)面提出。全卷整理將每卷文件按形成的時(shí)間、順序、文件類別進(jìn)行整理。編寫頁(yè)號(hào)按重新整理頁(yè)面上按順序統(tǒng)一的編寫頁(yè)號(hào)。案卷目錄和卷內(nèi)目錄按順序?qū)⒁粋€(gè)項(xiàng)目文件的合并到一卷中,并按中央檔案館進(jìn)館標(biāo)準(zhǔn)和XXXXXX煙草特有字段組成案卷目錄和卷內(nèi)目錄。打印案卷封面和卷內(nèi)目錄對(duì)案卷目錄和卷內(nèi)目錄與卷內(nèi)文件進(jìn)行匹配后打印案卷目錄和卷內(nèi)目錄以備裝訂使用。裝訂嚴(yán)格按照中央檔案館進(jìn)館標(biāo)準(zhǔn)和XXXXXX煙草的要求將每卷檔案的封面、卷內(nèi)目錄、卷內(nèi)文件、左下角對(duì)齊打成三孔一線裝訂還原檔案。案卷分盒按年度、案卷、類別、機(jī)構(gòu)等

20、有規(guī)則地按順序裝入定制的檔案盒。打印裝箱單按年度、箱號(hào)、盒號(hào)、卷號(hào)、總頁(yè)數(shù)打印裝箱清單。或按檔案檔案館的要求制作打印裝箱單。按順序裝箱按箱子編號(hào)、年度、箱內(nèi)盒數(shù)、案卷數(shù)與總頁(yè)數(shù)裝箱,參照國(guó)家檔案館的要求結(jié)合XXXXXX煙草的實(shí)際情況按序裝箱。編制目錄(年度目錄)制作出XXXXXX煙草檔案裝箱目錄,合并各箱清單,統(tǒng)一編制頁(yè)碼,形成裝箱目錄,并按通用格式存儲(chǔ)裝箱目錄的電子文件,以便檢索與查找,或按檔案館進(jìn)館要求編制。6.9.9.數(shù)據(jù)存儲(chǔ)與備份在生產(chǎn)過(guò)程中,XXXXXX掃描加工中心是一個(gè)基于網(wǎng)絡(luò)化流程化生產(chǎn)管理系統(tǒng),我們?cè)趻呙璧耐瑫r(shí)就同時(shí)產(chǎn)生兩份備原始圖像數(shù)據(jù)的備份數(shù)據(jù)。在經(jīng)過(guò)生產(chǎn)系統(tǒng)質(zhì)量驗(yàn)收合格的

21、電子文件后,我們將把掃描的成品數(shù)據(jù)與XXXXXX煙草的檔案管理系統(tǒng)掛接,將按規(guī)則生產(chǎn)原始圖像光盤及具備單盤檢索的數(shù)據(jù)光盤。6910.檔案電子數(shù)據(jù)與XXXXXX煙草檔案系統(tǒng)的無(wú)縫掛接文本域錄入和掃描處理檢驗(yàn)后的圖像成品,按年度進(jìn)行文字圖像與系統(tǒng)的掛接,不需手工掛接即可實(shí)現(xiàn)文本與圖像頁(yè)與系統(tǒng)的掛接。掛接到XXXXXX煙草檔案管理系統(tǒng)中后,進(jìn)行再次的成品驗(yàn)收,對(duì)各種使用習(xí)慣逐頁(yè)進(jìn)行檢驗(yàn),驗(yàn)收合格后移交到由XXXXXX煙草專家組成的驗(yàn)收小組驗(yàn)收。6.9.10.1.確保完美無(wú)縫掛接因?yàn)閄XXXXX煙草檔案管理系統(tǒng)是采用XXXXXX軟件的檔案管理軟件系統(tǒng),XXXXXX檔案掃描加工系統(tǒng)和XXXXXX檔案管理

22、系統(tǒng)可以實(shí)現(xiàn)自動(dòng)批量掛接,無(wú)需人工干預(yù)即可實(shí)施目錄數(shù)據(jù)與原文電子數(shù)據(jù)的無(wú)縫掛接。6.4.項(xiàng)目所采用的OCR處理技術(shù)介紹6101OCR(光學(xué)字符識(shí)別)技術(shù)OCR是英文OpticalCharacterRecognition的縮寫,中文意思就是通過(guò)光學(xué)技術(shù)對(duì)文字進(jìn)行識(shí)別。OCR概念的產(chǎn)生是在1929年,德國(guó)的科學(xué)家Tausheck首先提出了OCR的概念,并且申請(qǐng)了專利。幾年后,美國(guó)科學(xué)家Handel也提出了利用技術(shù)對(duì)文字進(jìn)行識(shí)別的想法。但這種夢(mèng)想直到計(jì)算機(jī)的誕生才變成了現(xiàn)實(shí)?,F(xiàn)在這一技術(shù)已經(jīng)由計(jì)算機(jī)來(lái)實(shí)現(xiàn),OCR的意思就演變成為利用光學(xué)技術(shù)對(duì)文字和字符進(jìn)行掃描識(shí)別,轉(zhuǎn)化成計(jì)算機(jī)內(nèi)碼。6.102所采用

23、的OCR及雙層PDF生產(chǎn)流程61021識(shí)別模塊具有超強(qiáng)的識(shí)別核心可以識(shí)別簡(jiǎn)、繁體漢字2萬(wàn)多,識(shí)別的語(yǔ)言包括中文簡(jiǎn)、繁體、英文、日文、韓文,自動(dòng)版面分析能力大大增強(qiáng)最大限度減少手工操作量。61022縱向校對(duì)模塊可以將成百上千張圖像一起校對(duì)將識(shí)別成同一個(gè)字的圖像集中在一個(gè)窗6.10.2.2.1.版面恢復(fù)模塊通過(guò)版面恢復(fù)編輯器,可以將原始圖像的所有信息恢復(fù)過(guò)來(lái)。比如:字體、顏色、花邊U口I:亠HI-“It.fIF!_II.1*1AlHrIIIII*IIIIdIBaiiaatidiaiiiriilIi-iIHIII-l-us.=i.i-=-adi*a-i-rid一.BBJIIRHMLULJ0.1口內(nèi),先標(biāo)記錯(cuò)誤,再自動(dòng)與橫校進(jìn)行合并,后統(tǒng)一改正,校對(duì)工作量減少80%,錯(cuò)誤率可控制在萬(wàn)分之一。等。61023雙層PDF生成模塊可直接在程序中進(jìn)行后臺(tái)PDF處理,無(wú)需在Acrobat中生成,方便而快捷??梢赃x擇生成多種PDF格式:雙層PDF文檔包括圖文混排的PDF、圖在文上的PDF、圖在文下的PDF等。6.10.2.4.自動(dòng)處理模塊轉(zhuǎn)換,生成的PDF文件能夠?qū)崿F(xiàn)全文檢索,可以復(fù)制貼貼,也可以對(duì)某個(gè)指定目錄進(jìn)行長(zhǎng)期監(jiān)視,真正實(shí)現(xiàn)無(wú)人

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論