2022 人工智能 智能字符識(shí)別技術(shù)規(guī)范_第1頁(yè)
2022 人工智能 智能字符識(shí)別技術(shù)規(guī)范_第2頁(yè)
2022 人工智能 智能字符識(shí)別技術(shù)規(guī)范_第3頁(yè)
2022 人工智能 智能字符識(shí)別技術(shù)規(guī)范_第4頁(yè)
2022 人工智能 智能字符識(shí)別技術(shù)規(guī)范_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能智能字符識(shí)別技術(shù)規(guī)范目??次前言 III范圍 1規(guī)范性引用文件 1術(shù)語(yǔ)和定義、縮略語(yǔ) 1術(shù)語(yǔ)和定義 1縮略語(yǔ) 2智能字符識(shí)別系統(tǒng)框架 2功能要求 3圖像采集 3圖像預(yù)處理 3文本檢測(cè) 3文本識(shí)別 4信息提取 4性能要求 4文本檢測(cè)性能要求 4文本識(shí)別性能要求 6測(cè)試方法 7測(cè)試流程 7確定系統(tǒng)質(zhì)量目標(biāo) 8構(gòu)建測(cè)試數(shù)據(jù)集 8搭建測(cè)試環(huán)境 9選擇測(cè)試指標(biāo) 9執(zhí)行測(cè)試步驟 9評(píng)價(jià)測(cè)試結(jié)果 9II人工智能智能字符識(shí)別技術(shù)規(guī)范范圍本文件確立了智能字符識(shí)別技術(shù)參考框架,規(guī)定了功能要求和性能要求,描述了對(duì)應(yīng)的測(cè)試方法。本文件適用于智能字符識(shí)別產(chǎn)品和服務(wù)的設(shè)計(jì)、開(kāi)發(fā)、應(yīng)用和測(cè)試評(píng)價(jià)。規(guī)范性引用文件(包括所有的修改單適用于本文件。GB/T5271.12—2000信息技術(shù)詞匯第12部分:外圍設(shè)備術(shù)語(yǔ)和定義、縮略語(yǔ)術(shù)語(yǔ)和定義GB/T5271.12—2000界定的以及下列術(shù)語(yǔ)和定義適用于本文件。3.1.1光學(xué)字符識(shí)別opticalcharacterrecognition一種字符識(shí)別,它使用光學(xué)手段鑒別圖形字符。[來(lái)源:GB/T5271.12—2000,12.01.53]3.1.2智能字符識(shí)別intelligentcharacterrecognition3.1.3文本檢測(cè)textdetection對(duì)圖像上字符(串)、文本行(列)位置進(jìn)行定位的過(guò)程。注:字符(串)包括數(shù)字,符號(hào),英文,中文或其他語(yǔ)言文本。3.1.4文本識(shí)別textrecognition對(duì)圖像上字符(串)、文本行位置進(jìn)行識(shí)別的過(guò)程。注:字符(串)包括數(shù)字,符號(hào),英文,中文或其他語(yǔ)言文本。3.1.51文本信息提取textinformationextraction對(duì)圖像上識(shí)別出的文本,進(jìn)行排序、合并、自然語(yǔ)言處理等操作,使其轉(zhuǎn)換為結(jié)構(gòu)化信息的過(guò)程??s略語(yǔ)下列縮略語(yǔ)適用于本文件。AI:人工智能(artificialintelligence)BMP位圖(bitmap)GIF:圖像互換格式(graphicsinterchangeformat)ICR:智能字符識(shí)別(intelligentcharacterrecognition)JPEG:聯(lián)合圖像專(zhuān)家組(jointphotographicexpertsgroup)OCR:光學(xué)字符識(shí)別(opticalcharacterrecognition)PNG:便攜式網(wǎng)絡(luò)圖形(portablenetworkgraphics)PDF:可攜式文件格式(portabledocumentformat)TIFF:標(biāo)簽圖像文件格式(tagimagefileformat)WER:詞錯(cuò)誤率(worderrorrate)智能字符識(shí)別系統(tǒng)框架基于人工智能技術(shù)的字符識(shí)別系統(tǒng)框架見(jiàn)圖1。圖1智能字符識(shí)別系統(tǒng)框架ICR將給定圖像中的點(diǎn)或像素字符轉(zhuǎn)換為數(shù)字編碼信息,包括圖像獲取、圖像預(yù)處理、文本檢測(cè)、文本識(shí)別、信息提取五個(gè)模塊。圖像獲取模塊負(fù)責(zé)圖像、視頻截圖中圖像的讀取;文本檢測(cè)模塊負(fù)責(zé)對(duì)于給定圖像(包括原始圖像、圖像中間樣本等)進(jìn)行字符和文本行檢測(cè);2功能要求圖像采集圖像采集功能應(yīng)符合以下要求:JPEG、GIF、PNG、TIFF、BMP、PDF128×128dpi~4096×4096dpi;圖像預(yù)處理對(duì)獲取到的圖像進(jìn)行預(yù)先處理,使圖像便于后續(xù)的檢測(cè)和識(shí)別符合以下要求:、增強(qiáng)圖像質(zhì)量,應(yīng)對(duì)圖像進(jìn)行幾何變換、畸變校正、修剪、數(shù)據(jù)格式轉(zhuǎn)換等操作;采用濾波、超分辨率等技術(shù)手段,在不破壞圖像邊緣、輪廓等原有細(xì)節(jié)的條件下對(duì)噪聲進(jìn)行抑制;文本檢測(cè)字符檢測(cè)在原始圖像或圖像中間樣本識(shí)別從預(yù)定義范圍的字符符合以下要求:應(yīng)支持設(shè)置待檢測(cè)字符類(lèi)型范圍,如:Unicode應(yīng)在檢測(cè)結(jié)果中包含字符在圖像中的位置信息;宜支持對(duì)所檢測(cè)圖像中的最小、最大字符大小的設(shè)置,如:8px~256px。文本行檢測(cè)對(duì)原始圖像或圖像中間樣本進(jìn)行文本行檢測(cè)符合以下要求:應(yīng)支持對(duì)所需檢測(cè)圖像分辨率的設(shè)置,如:128×128dpi~4096×4096dpi;3文本識(shí)別對(duì)圖片中的文本行檢測(cè)區(qū)域進(jìn)行定位后,對(duì)檢測(cè)區(qū)域內(nèi)文本內(nèi)容進(jìn)行識(shí)別,應(yīng)符合以下要求:對(duì)印刷文字和手寫(xiě)文字的識(shí)別;對(duì)字符、字母、混合語(yǔ)種中的文字內(nèi)容進(jìn)行識(shí)別;對(duì)數(shù)字、數(shù)學(xué)公式以及特殊符號(hào)的識(shí)別;16x16px32x32px;對(duì)方向有旋轉(zhuǎn)的文字,支持文字與水平軸<±15°夾角偏轉(zhuǎn);支持對(duì)如中、日、韓文等有比較多豎排文字呈現(xiàn)的文字識(shí)別。信息提取可對(duì)文本中的特定詞匯進(jìn)行糾錯(cuò);可支持識(shí)別表格區(qū)域行列信息,并對(duì)表格區(qū)域結(jié)構(gòu)單元信息進(jìn)行恢復(fù)還原。性能要求文本檢測(cè)性能要求IoU)交并比是用來(lái)評(píng)價(jià)文本目標(biāo)框和文本預(yù)測(cè)框之間的重合度。計(jì)算公式如式1,............................................................................(1)式中:Bp——預(yù)測(cè)的矩形框區(qū)域;Bgt——標(biāo)注的矩形框區(qū)域。精確率(PR)精確度包括字符精確度、單詞精確度和字段精確度。其中:ICRICRICR(串(串正確檢測(cè)是指預(yù)測(cè)框與目標(biāo)框的IoU不小于0.5。.........................................................................(2)4式中:——精確率;C——正確檢測(cè)出的字符(串)框數(shù)量;M——檢測(cè)出的字符(串)框總數(shù)量。召回率(RR)(串框數(shù)量占圖像上真實(shí)存在的字符(串)框數(shù)量的比例。計(jì)算方法見(jiàn)公式3:..........................................................................(3)式中:——召回率;C——正確識(shí)別的字符(串)框數(shù)量;N——圖像上應(yīng)該被正確識(shí)別的字符(串)框總數(shù)量。FScoreFScore為精確率和召回率的調(diào)和平均,平衡因子(權(quán)重)取1。計(jì)算方法見(jiàn)公式4:...............................................................(4)式中:FScore——精確率和召回率的調(diào)和平均;β ——平衡因子,β=1時(shí),精確率和召回率權(quán)重相同;——精確率;——召回率。APAP測(cè)度為在不同IoU閾值情況下,不同召回率下的平均精確率。以召回率RR為橫軸,精確率PR為縱軸,可以得到不同IoU閾值下的精確率-召回率曲線(xiàn)。通常,IoU閾值較低時(shí),精度低,召回高,IoU閾值較高時(shí),精度高,召回低,這樣可以得到一條類(lèi)似雙曲線(xiàn)的函數(shù)。之后對(duì)該曲線(xiàn)進(jìn)行平滑處理,即該曲線(xiàn)上的每一個(gè)點(diǎn),精確率的值取該點(diǎn)右側(cè)最大的精確率的值。繪制出平滑后的精確率-召回率曲線(xiàn)后,取橫軸0-1的10等分點(diǎn)的精確率的值,計(jì)算其平均值作為最終AP測(cè)度的值,它的計(jì)算公式見(jiàn)公式5:...........................................................(5)式中:AP——不同召回率下的平均精確率;RR——召回率;——不同場(chǎng)景下文本檢測(cè)性能要求5電子/掃描、拍照、自然街景、網(wǎng)絡(luò)、多語(yǔ)音等場(chǎng)景下的文本檢測(cè)性能要求應(yīng)符合表1的要求。表1文本行檢測(cè)要求場(chǎng)景類(lèi)型場(chǎng)景描述精確率召回率FScoreAP電子/掃描使用數(shù)字格式或掃描得到帶有文本的圖像≥95%≥95%≥95%≥90%拍照使用相機(jī)拍照得到帶有文本的圖像≥90%≥90%≥90%≥85%自然街景使用自然街景中帶有文本的圖像≥70%≥75%≥70%≥65%網(wǎng)絡(luò)使用網(wǎng)絡(luò)獲取到帶有文本的圖像≥80%≥80%≥80%≥75%多語(yǔ)言使用多語(yǔ)言圖片中帶有文本的圖像≥70%≥60%≥60%≥55%文本識(shí)別性能要求精確率(PR)(串(串..........................................................................................(6)式中:——精確率;C——正確識(shí)別的字符(串)數(shù)量;M——識(shí)別的字符(串)總數(shù)量。注1:若引擎將兩個(gè)單詞之間的空格漏掉,則兩個(gè)單詞都算識(shí)別錯(cuò)誤。注2:字段中如有一個(gè)錯(cuò)誤識(shí)別的文字則整個(gè)字段算作識(shí)別錯(cuò)誤。編輯距離7:m11

Ds

s

..........................................(7)式中:Norm——N——文本行的總數(shù);

N

i i i ii

——預(yù)測(cè)的文本內(nèi)容;——真實(shí)文本內(nèi)容;6xiii和i

Diii與i的編輯距離,描述了兩個(gè)字符串的相似度,定義為從一個(gè)字符串變換到另一個(gè)字符串所需要的最少操作數(shù)。例如,有一個(gè)字符串a(chǎn)='love',b='lolpe'.那么計(jì)算a和b的編輯距離,就是要算出從a變化到b需要經(jīng)過(guò)多少個(gè)步驟。love->lolvel)lolve->lolpev那么ab之間的編輯距離為2。詞錯(cuò)誤率詞錯(cuò)誤率(WordErrorRate,WER)是一種基于編輯距離的評(píng)價(jià)文本識(shí)別準(zhǔn)確率的指標(biāo)。而在評(píng)價(jià)文本,通常采用此錯(cuò)誤率,該指標(biāo)的定義為公式8:式中:

………..(8)EDITDIS(label,pred)——表示標(biāo)簽label與預(yù)測(cè)的結(jié)果pred之間的編輯距離;LENGTH(label)——表示標(biāo)簽的字符數(shù)。不同場(chǎng)景下文本識(shí)別性能要求印刷文字、手寫(xiě)文字等場(chǎng)景下的文本識(shí)別性能要求應(yīng)符合表2的要求。表2文本行識(shí)別要求場(chǎng)景類(lèi)型單字符精確率文本行精確率編輯距離印刷文字中文≥96%≥75%≥78%數(shù)字≥97%≥85%≥88%英文≥98%≥85%≥88%特殊字符≥95%≥85%≥88%手寫(xiě)文字簽名a、批注≥90%≥80%≥83%一般手寫(xiě)文字≥80%≥65%≥68%a字跡清晰、非藝術(shù)字體測(cè)試方法測(cè)試流程智能字符識(shí)別系統(tǒng)的測(cè)試流程見(jiàn)圖2。7圖2智能字符識(shí)別測(cè)試流程確定系統(tǒng)質(zhì)量目標(biāo)應(yīng)運(yùn)用以下步驟確定智能字符識(shí)別系統(tǒng)的質(zhì)量目標(biāo):確定系統(tǒng)質(zhì)量目標(biāo):根據(jù)系統(tǒng)的應(yīng)用場(chǎng)景和風(fēng)險(xiǎn),確定智能字符識(shí)別系統(tǒng)的質(zhì)量目標(biāo),包括:確定系統(tǒng)功能有效性、性能、兼容性、維護(hù)性、可移植性、訓(xùn)練數(shù)據(jù)集的質(zhì)量、對(duì)抗樣本的影響、對(duì)應(yīng)用場(chǎng)景數(shù)據(jù)的魯棒性、可解釋性、安全性的指標(biāo)要求;確定測(cè)評(píng)指標(biāo)評(píng)價(jià)的準(zhǔn)則。構(gòu)建測(cè)試數(shù)據(jù)集測(cè)試場(chǎng)景及對(duì)應(yīng)的測(cè)試數(shù)據(jù)集要求如下

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論