OCR 分析報告_第1頁
OCR 分析報告_第2頁
OCR 分析報告_第3頁
OCR 分析報告_第4頁
OCR 分析報告_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、OCR定義OCR(Optical Character Recognition)即光學字符識別,是指電子設備(如掃描儀或數(shù)碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法 將形狀翻譯成計算機文字的過程:即對文本資料進行掃描,然后對圖像文件進行分析處理,獲取文字及版面信息的過程。如何除錯或利用輔助信息提高識別正確率, 是OCR最重要的課題,衡量一個OCR系統(tǒng)性能好壞的主要指標有:拒識率、誤識率、識別速度、用戶界面的友好性,產品的穩(wěn)定性,易用性及可行性等。目前項目使用需求項目名稱:吉凱隨訪系統(tǒng);項目甲方:吉凱基因技術有限公司;。需求目標:吉凱隨訪系統(tǒng)中規(guī)劃的OCR技術需

2、求范圍:利用OCR技術功能模塊,解析用戶所上傳的病歷文檔圖片(包含病歷、醫(yī)囑、檢查、檢驗等文書),將圖片轉換為計算機可識別的文字語言;根據(jù)轉換的結果進行分析、統(tǒng)計等應用;對所建議開發(fā)的軟件基本要求如下:l 病例圖片文字識別;l 識別率90%以上,識別時間小于10分鐘;l 輸出病例相關內容,需要按照病例格式輸出,否則無法判斷最終結果;l 患者上傳相關病例文檔圖片,上傳之后后臺識別反饋結果給患者或者醫(yī)生。;l 數(shù)據(jù)詞庫自己訓練,需要程序自動帶有學習功能;l 開發(fā)周期兩個月?,F(xiàn)狀目前市面上OCR技術應用于醫(yī)療行業(yè)的APP及軟件如下:漢王OCR(PC端軟件):漢王OCR是一個帶有 PDF&#

3、160;文件處理功能的 OCR 軟件;具有識別正確率高,識別速度快的特點。有批量處理功能,避免了單頁處理的麻煩;支持處理灰度、彩色、黑白三種色彩的BMP、TIF、JPG、PDF多種格式的圖像文件;可識別簡體、繁體和英文三種語言;具有簡單易用的表格識別功能;具有TXT、RTF、HTM和XLS多種輸出格式,并有所見即所得的版面還原功能。新增打開與識別PDF文件功能,支持文字型PDF的直接轉換和圖像型PDF的OCR識別,既可以采用OCR的方式將PDF文件轉換為可編輯文檔,也可以采用格式轉換的方式直接轉換文字型PDF文件為RTF文件或文本文件; 實際測試漢王OCR后發(fā)現(xiàn)其受圖片質量

4、、圖片格式、圖片灰度、圖片大小等因素影響,實際對于病歷文檔的識別率不到30%,不能滿足項目需求;但其可接受定制化需求,定制化需要額外付費,初步估計在10W以上一個病歷模板,目前病歷的模板種類數(shù)量非常大,項目成本將無法預估;易道博識北京易道博識科技有限公司(簡稱“易道博識”)成立于2013年,由來自中科院、清華大學、北京大學的多名頂尖的模式識別專家共同組建。創(chuàng)始人朱軍民獲得了國家科技進步二等獎等多項業(yè)界成就。核心技術包括:3D人臉識別、銀行表單識別、增值稅發(fā)票識別、支票識別、各類證照識別、一維碼識別、二維碼識別、聯(lián)機手寫識別等。實際測試該公司OCR產品后發(fā)現(xiàn)其OCR對于證件識別率較高,但達不到9

5、0%。識別病歷圖片的準確率達不到20%。但其可接受定制化需求,定制化需要額外付費,基礎功能起步價10W,病歷模板定制10W一個。項目成本無法預估。泰比(ABBYY)泰比(ABBYY)是一個在文檔轉換、數(shù)據(jù)捕獲和語言軟件領域領先的供應商。泰比(ABBYY)研究和發(fā)展的關鍵領域包括文檔識別技術及應用語言學。泰比(ABBYY)的識別技術和產品為人們越來越多的資料信息提供了強有力的工具,使他們能夠:從紙張和圖像上獲得信息,自動獲取數(shù)據(jù),處理和存儲有用的信息。利用識別和數(shù)據(jù)采集產品,人們能夠在數(shù)據(jù)輸入方面節(jié)省大量的金錢和精力,并能以一種更新和更有效的方式來獲取信息和資料。我們的語言產品幫助打破語言障礙,

6、促進交流和溝通變得更容易和更清晰。經過電話咨詢,該公司主要專注于產品的研發(fā),如有需要定制費用相當之昂貴,具體價格沒有提供。捷速OCR捷速OCR文字識別軟件:是一款可以直接識別文字,將圖像轉化成文字的工具。很多時候我們需要一款軟件能夠直接把掃描文件上面的文字的變成直接可以編輯的文字,這樣我們工作就方便很多了,可以直接使用掃描儀掃描書籍和相關的文檔,然后使用捷速掃描文字識別軟件,就可以編輯這些文字,能夠節(jié)省我們辦公人員很多的時間,這些軟件特別是對那些處理文檔的人員和相關的從事編輯行業(yè)的人員特別適用,可以廣泛的應用,并且軟件識別正確率高,可以批量的轉換掃描的文件。實際測試該公司OCR對圖片文字識別率

7、較高,識別率50%左右。識別病歷圖片的準確率達不到30%。但其可接受定制化需求,定制化需要額外付費,基礎功能起步價3W,病歷模板定制價格沒有具體給出。項目成本無法預估。百度云OCR文字識別企業(yè)版、云識別、LEADTOOLS等等其它OCR產品價格都比較昂貴。醫(yī)療行業(yè)OCR類型APP易隨診:病例識別時間需要一天左右,識別率90%左右,后臺人工識別校正。拍醫(yī)拍:病例識別時間10分鐘左右,識別率90%左右,各大論壇評論為后臺人工識別校正。醫(yī)庫嘟嘟醫(yī)生可行性調研重新開發(fā)OCR無相關開發(fā)經驗人員,開發(fā)周期一年以上,還需訓練詞庫,詞庫量越大識別率越高,訓練周期長。開源OCR無相關技術支持,識別率低,不能滿足病例文檔識別的要求,安全性低,維護成本高,二次開發(fā)成本高,開發(fā)周期半年左右。也需要訓練詞庫,訓練周期長;第三方OCR收費,成本高,需要定制,定制的模塊多(1份文檔格式即1個模塊,其量非常大),但有相關技術支持。調研結論綜上所述,重新開發(fā)OCR,使用開源OCR,購買第三方OCR都有各自的優(yōu)缺點,但都不適用于目前吉凱的項目;但就目前市面上產品而言,其他廠商的APP或軟件也使用了其他的方法來規(guī)避該問題來避免識別率低而造成的使用問題;目前而言,雖然項目合同中和技術方案中就此塊內容沒有明確的要求,從技術及其他廠商的產品調研來看,單純的OCR技術無法達到實際使用的要求和積累;備選方案由于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論