版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、OCR圖文結(jié)構(gòu)技術(shù)架構(gòu)和實(shí)踐技術(shù)創(chuàng)新,變革未來01Contents目錄020301官員養(yǎng)廉OCR可復(fù)制可查詢可錄入個人信息表身份證號碼: 銀行卡卡號:姓名:生日: 地址:02表格印章文字信息元素(表格、圖案、文字)檢測戶口登記機(jī)關(guān)戶:0.52 口:0.87 專:0.90 用:0.92KV輸出戶主姓名:王永* 戶號:509023*住址:杭州市西湖區(qū)*檢測識別結(jié)構(gòu)理 解精準(zhǔn)檢測少量像素誤差可能導(dǎo)致錯誤識別舊凝結(jié)卞1l/旦 日一l 招聘搬磚工:1產(chǎn)品經(jīng)理:1領(lǐng)導(dǎo):2 公司介紹:下海登山親輕而易舉,上天入地?zé)o所不能。尺度變化大長邊跨度1-2000,端邊跨度5-200各種干擾遮擋、傾斜、彎曲、粘連、背景
2、等精準(zhǔn)檢測真實(shí)場景中的文字檢測案例字體&風(fēng)格相似字&生僻字是漢字特有的學(xué)術(shù)難題常用漢字3700個,覆蓋99%書面資料記錄漢字91000個,常用姓名、地名21000個80000個生僻字常用印刷字體有幾百種 古籍、手寫字體多,上億背景、噪聲、扭曲、光照等風(fēng)格變化真實(shí)場景中的文字識別案例一部書即一種字體10w以上字類,且類間差異小 破損、印記、簽注。識別并不是最終用戶需求5101321986*輸出的數(shù)字串是什么? 用戶有設(shè)定的問題:姓名是?結(jié)合空間和語義關(guān)系的結(jié)構(gòu)理解身份證姓名:潘*住址:浙江省* 身份證號碼:510* 生日:*性別:*民族:*解答用戶問題卡證/表單的樣式非常多,有常規(guī)通用性和自定義
3、的 單個卡證也存在打印錯位、噪聲干擾、拍攝扭曲等問題12435553KV輸出戶主姓名:王永* 戶號:509023* 住址:杭州市*簽發(fā)日期:2016年*元素輸出文本:內(nèi)容、位置 表格:位置、還原 印章:位置、類型 二維碼:位置、信息輸入圖文字等元素檢測文字識別輸出結(jié)構(gòu)理解(結(jié)合空間&語義關(guān)系)node:廣義字段: 通用圖實(shí)體狹義字段:文本embeddingedge: node的空間距離GCN-圖匹配網(wǎng)絡(luò)GEMR-圖實(shí)體聚合識別模型03OCR圖轉(zhuǎn)文字文檔產(chǎn)品卡證kv產(chǎn)品模板產(chǎn)品識別產(chǎn)品結(jié)構(gòu)理解kv/表格/版面分析內(nèi)容/順序/智能模板kv結(jié)構(gòu)自學(xué)平臺高拍儀采集錄入照片資料輸入手機(jī)拍照STEP1 用
4、戶在APP中申請信 貸,并通過手機(jī)拍照上傳材料在線初審STEP2 審批人員根據(jù)拍 照材料進(jìn)行識別并初審申請材料人工初審拒絕,補(bǔ)充材料STEP3 申請人將原材料提交至柜臺,工作人員對材料進(jìn)行掃描審批通過人工審核STEP4 放貸過程比對照片材料與掃 描材料異同判斷是否如期放款用戶痛點(diǎn):每份審批材料包含200多張圖片,需要進(jìn)行亂序比對,人工核對量大,誤操作高現(xiàn)場錄入高拍儀采集錄入電子文檔圖片輸入一體機(jī)服務(wù)器客戶端讀光OCR文檔服務(wù)引擎政務(wù)應(yīng)用系統(tǒng)(查看、檢索、對比)各式紙質(zhì)or圖片文檔表格段落印章 標(biāo)題文字文檔中文本、表格、標(biāo)題等元素和結(jié)構(gòu)提取 實(shí)現(xiàn)文檔內(nèi)容還原文件搜索、元素提取&校對、人機(jī)交互 實(shí)
5、現(xiàn)文檔集間交叉對比文件圖片搜索人工確認(rèn)印章:忽略文字:忽略文件系統(tǒng) 批量文件元素提取&校對標(biāo)題一致?段落一致?印章一致?讀光OCR票據(jù)服務(wù)引擎定額發(fā)票火車票出租車票增值稅發(fā)票機(jī)動車發(fā)票機(jī)票行程單類型:火車票出發(fā)站:株洲西站到達(dá)站:廣州南站車次:G1127開車時間:2018年11月15日17:01開 座位號:06車13C號票價:294.0類型:增值稅發(fā)票金額:294.0納稅人識別號:13894927246239 發(fā)票號碼:3210494財務(wù)RPA系統(tǒng)2. 調(diào)用OCR并讀取識別結(jié)果3. 自動錄入報銷系統(tǒng)4. 自動進(jìn)行發(fā)票驗(yàn)真與報稅1.輸入報銷/報帳系統(tǒng)驗(yàn)真、報稅系統(tǒng)數(shù)據(jù)錄入各式報銷材料1.票據(jù) 框
6、檢測2. 自動卡證分類器火車票 出租票 發(fā)票身份證 行駛營業(yè)執(zhí)照 許可證增值稅發(fā)票火車票3. 智能模板類型:增值稅發(fā)票金額:294.0發(fā)票代碼:4300181130發(fā)票號碼:02857254售票方稅號:13894927246239售票方名稱:深圳市中興新云服務(wù)有限公司發(fā)票詳情:服務(wù)名稱: *住宿服務(wù)*; 金額: 318.45; 類 型:火車票出發(fā)站:株洲西站 到達(dá)站:廣州南站 車次:G1127開車時間:2018年11月15日17:01開座位號:06車13C號 票價:294.0人工分類辦理貸款、算螞蟻積分、司法訴訟等都會提供大量卡證表單信息 卡證分類是一個基礎(chǔ)需求個人資質(zhì)企業(yè)資質(zhì)銀行單據(jù)個人征信核驗(yàn)工商信息查詢銀行流水對賬分類管理器可以實(shí)現(xiàn)數(shù)據(jù)歸檔 同時是數(shù)據(jù)結(jié)構(gòu)化的基礎(chǔ)端到端的低成本標(biāo)注方案結(jié)合空間和語義的結(jié)構(gòu)理解通用kv模板:提取各式卡證結(jié)構(gòu)用戶輸入: 100-200張標(biāo)注樣本自學(xué)習(xí):自動數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024食品代理銷售合同協(xié)議書范本模板
- 初任班主任的工作挑戰(zhàn)與應(yīng)對策略
- 旅行服務(wù)員工作總結(jié)
- 碩士答辯攻略模板
- 兒童玩具設(shè)計師的工作描述
- 日用品銷售工作總結(jié)
- 航空業(yè)公司人才培養(yǎng)心得
- 技術(shù)部門技術(shù)支持與系統(tǒng)維護(hù)的工作總結(jié)
- 農(nóng)業(yè)畜牧行業(yè)的保安工作總結(jié)
- 新疆職業(yè)大學(xué)《筆譯理論與技巧(一)》2023-2024學(xué)年第一學(xué)期期末試卷
- 《鄭伯克段于鄢》-完整版課件
- 江蘇省質(zhì)量通病防治手冊
- 7.激素及其作用機(jī)制
- 土壤肥料全套課件
- 畢業(yè)生延期畢業(yè)申請表
- 學(xué)校6S管理制度
- 肽的健康作用及應(yīng)用課件
- 8小時等效A聲級計算工具
- 煤礦礦井供電設(shè)計(DOC26頁)
- 人教版七年級下冊數(shù)學(xué)計算題300道
- 社會實(shí)踐登記表
評論
0/150
提交評論