AI算法的精準(zhǔn)測(cè)試實(shí)踐_第1頁(yè)
AI算法的精準(zhǔn)測(cè)試實(shí)踐_第2頁(yè)
AI算法的精準(zhǔn)測(cè)試實(shí)踐_第3頁(yè)
AI算法的精準(zhǔn)測(cè)試實(shí)踐_第4頁(yè)
AI算法的精準(zhǔn)測(cè)試實(shí)踐_第5頁(yè)
已閱讀5頁(yè),還剩41頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、AI算法的精準(zhǔn)測(cè)試實(shí)踐1.背景介紹VB虛擬銀行遠(yuǎn)程開戶虛擬銀行(Virtual Bank,簡(jiǎn)稱VB):旨在為用戶提 供隨時(shí)隨地的移動(dòng)銀行服務(wù),將立足于香港,服務(wù)大灣 區(qū),后期將輻射東南亞地區(qū),為用戶提供存、貸、匯等 基礎(chǔ)銀行業(yè)務(wù)和基金、數(shù)字黃金等增值業(yè)務(wù)。騰訊CDG深海實(shí)驗(yàn)室提供AI能力證件OCR(分類器、香港身份證等) 證件鑒偽(香港身份證、通用鑒偽等) 活體檢測(cè)人證比對(duì)(證件人像摳圖、證件生活照比對(duì))AI算法測(cè)試之痛端到端黑盒測(cè)試局限大算法層層嵌套,如何快速定位問題?AI算法黑盒子,結(jié)果難解讀,如何提升AI算法的可解釋性?測(cè)試樣本少證件敏感,收集樣本難,是否一定要用真實(shí)樣本來(lái)測(cè)試?基于少量

2、樣本,如何提升樣本的多樣性?真實(shí)樣本采集慢仍需真實(shí)樣本,但人工采集/人工標(biāo)注效率低,如何提升效率? 生活場(chǎng)景構(gòu)造難,如何覆蓋?2.端到端黑盒測(cè)試局限大盒結(jié)果:識(shí)別成功率 80%算法模型B:我沒問題。算法模型X:我沒問題端到端黑盒測(cè)試之痛1算法層層嵌套,如何快速定位問題算法?端算法模型A:我沒問題端黑AI算法分層測(cè)試漏斗模型原始圖片二分類x%降級(jí)率cn_name: XX en_name: xx, xx圖片旋轉(zhuǎn)目標(biāo)區(qū)域檢測(cè)文本框識(shí)別文字識(shí)別y%降級(jí)率z%降級(jí)率u%降級(jí)率v%降級(jí)率AI算法分層測(cè)試流程validobjdetectText recognitionOCR信息插樁代碼插樁代碼directi

3、on插樁代碼Text box detection插樁代碼插樁位置一代香港身份證: 1插0樁7代8碼 二代香港身份證11631、OCR的整體流程詳細(xì)分析(梳理算 法層次關(guān)系)2、代碼插樁生成被測(cè)服務(wù)對(duì)象3、數(shù)據(jù)準(zhǔn)備(測(cè)試樣本、標(biāo)注文件)4、測(cè)試自動(dòng)化執(zhí)行5、數(shù)據(jù)提取及分析(分層指標(biāo)計(jì)算)AI算法分層測(cè)試-漏斗模型結(jié)果 展示香港一代身份證香港二代身份證AI算法分層測(cè)試-單用例結(jié)果詳情單張圖片分層算法的結(jié)果展示魯(簡(jiǎn)體) vs魯(繁體)AI算法分層測(cè)試收益單次測(cè)試自動(dòng)統(tǒng)計(jì)每層算法正確率、降級(jí)率等指標(biāo),快速發(fā)現(xiàn) 算法瓶頸點(diǎn)結(jié)果頁(yè)面分層展示失敗詳情,方便快速定位問題對(duì)比測(cè)試版本間/版本內(nèi)不同類型樣本的效

4、果對(duì)比,發(fā)現(xiàn)算法是 否存在場(chǎng)景偏見版本間/版本內(nèi)不同模型迭代的效果比對(duì),發(fā)現(xiàn)算法是否存在能力降級(jí)AI算法黑盒,如何解讀AI算法結(jié)果?端到端黑盒測(cè)試之痛2假負(fù)樣本:活體識(shí)別失敗, 識(shí)別為翻拍電腦屏幕Why?假負(fù)樣本:活體識(shí)別失敗, 識(shí)別為用紙擋住半邊臉Why?正樣本:識(shí)別為活體Why?打破AI算法的黑盒子 - Grad-CAMOriginal ImageOriginal ImageVgg Grad-cam DogVgg Grad-cam CatGuided Grad-CAMDogGuided Grad-CAM CatResNet Grad-CAM DogResNet Grad-CAM CatGr

5、adient-weighted Class Activation Mapping基于梯度權(quán)重的類激活映射(Grad-CAM)Grad-CAM熱力圖Grad-CAM可用于分類 問題的CNN算法的可視 化,幫助理解算法在學(xué) 什么,算法為什么會(huì)失 敗。優(yōu)點(diǎn):無(wú)需修改模型網(wǎng) 絡(luò)結(jié)構(gòu),無(wú)需重新訓(xùn) 練。Grad-CAM基本原理Grad-CAM實(shí)際應(yīng)用 解釋分類結(jié)果活體檢測(cè)-正樣本熱力圖Layer 1Layer 2Layer 3Layer 4Grad-CAM實(shí)際應(yīng)用 解釋分類結(jié)果活體檢測(cè)-假負(fù)樣本熱力圖:活體識(shí)別失敗,誤識(shí)為翻拍電腦屏幕Layer 1Layer 2Layer 3Layer 4Grad-CAM

6、實(shí)際應(yīng)用 解釋分類結(jié)果活體檢測(cè)-假負(fù)樣本熱力圖:活體識(shí)別失敗,誤識(shí)為用紙擋住半邊臉Layer 1Layer 2Layer 3Layer 4Grad-CAM實(shí)際應(yīng)用 解釋分類結(jié)果活體檢測(cè)-負(fù)樣本熱力圖:用紙擋住半邊臉Layer 1Layer 2Layer 3Layer 4Grad-CAM實(shí)際應(yīng)用 解釋分類結(jié)果證件分類-正樣本熱力圖Layer 1Layer 2Layer 4Layer 3Grad-CAM實(shí)際應(yīng)用 解釋分類結(jié)果證件分類-假負(fù)樣本熱力圖:旋轉(zhuǎn)圖片導(dǎo)致分類失敗Layer 1Layer 2Layer 4Layer 3Grad-CAM實(shí)際應(yīng)用 解釋分類結(jié)果證件分類-假負(fù)樣本熱力圖:復(fù)雜背景導(dǎo)

7、致分類失敗Layer 1Layer 2Layer 4Layer 33.測(cè)試樣本少測(cè)試樣本少! 收集樣本難!收集證件樣本更難!收集香港證件樣本更是難上加難!AI算法測(cè)試之痛2解決思路-算法的單元測(cè)試拆分端到端的算法流程,抽離出單獨(dú)的算法模型,并單獨(dú)加載測(cè)試研究每個(gè)算法的輸入樣本要求,是否必須要用證件樣本嘗試圖像增強(qiáng)及程序合成生成正常/異常樣本像素增強(qiáng) 中值模糊透視變換光照大小縮放、旋轉(zhuǎn)通大仿高中小像透高值斯射縮添裁斯視素模變模加放剪噪增變糊換糊像、聲強(qiáng)換素旋轉(zhuǎn)測(cè)試樣本多樣性-全局圖像增強(qiáng)通道添加像素高斯模糊 仿射變換 高斯噪聲 裁剪更換背景更換光背照景全局圖像增強(qiáng)-發(fā)現(xiàn)問題舉例1旋轉(zhuǎn)角度導(dǎo)致分類

8、模型出錯(cuò)全局圖像增強(qiáng)-發(fā)現(xiàn)問題舉例2issue_date2: 30-08-12,en_name: SAM, xxxx, issue_date1: xxxxx, sex: 男,“permanent”: “1”,/0num: ,birth: xxxxxxxxx,path: ./hk_test/add_pixels_value_diff_channel.jpg, “type”: “SISSUE”,/CWid: xxxxxxxxxxx像素增強(qiáng)后圖片原圖像素增強(qiáng)像素增強(qiáng)導(dǎo)致文本框截 取中斷錯(cuò)誤全局圖像增強(qiáng)-發(fā)現(xiàn)問題舉例3復(fù)雜背景導(dǎo)致目標(biāo)區(qū)域檢測(cè)模型失敗圖像增強(qiáng)-局部精準(zhǔn)增強(qiáng)對(duì)某個(gè)/某些字段進(jìn)行局部增強(qiáng),

9、驗(yàn)證局部擾亂對(duì)算法的影響- 基于標(biāo)注系統(tǒng) 或 熱力圖局部圖像增強(qiáng)-發(fā)現(xiàn)問題舉例1中文名受模糊影響時(shí),算法會(huì)根據(jù)電碼糾正, 但出現(xiàn)返回簡(jiǎn)體字錯(cuò)誤魯(簡(jiǎn)體) vs魯(繁體)局部圖像增強(qiáng)-基于熱力圖增強(qiáng)舉例驗(yàn)證非關(guān)鍵區(qū)域和關(guān)鍵區(qū)域加光照對(duì)算法的影響測(cè)試樣本多樣性-程序合成樣本文字識(shí)別模型輸入:身份證裁剪的詞條替代樣本:程序合成文本圖片類別準(zhǔn)確率錯(cuò)誤率樣本總數(shù)所有詞條0.590.411100中文名0.230.77300英文名0.970.03300出生日期10300簽發(fā)日期0.990.01300姓名電碼0.970.03300性別10300ID0.970.03300TYPE0.930.073004.真實(shí)樣

10、本采集慢采集真實(shí)樣本效率低!1萬(wàn)2千張證件樣本采集需12人天,數(shù)據(jù)后期分類需2人天(不含標(biāo)注)場(chǎng)景構(gòu)造難,覆蓋有限!AI算法測(cè)試之痛3AI樣本自動(dòng)采集機(jī)械臂沙箱控制中心自動(dòng)化采集及自動(dòng)化標(biāo)注01控制機(jī)械臂和手機(jī)拍攝多角度照片智能燈光覆蓋多種光照?qǐng)鼍吧诚渌闹芸杉语@示屏模擬環(huán)境場(chǎng)景0203AI樣本自動(dòng)采集機(jī)械臂視頻demo1AI樣本自動(dòng)采集機(jī)械臂視頻demo2AI樣本自動(dòng)采集機(jī)械臂視頻demo3機(jī)械臂自動(dòng)化采集及標(biāo)注場(chǎng)景舉例采集圖1采集圖2基準(zhǔn)圖機(jī)械臂自動(dòng)化采集及標(biāo)注成本優(yōu)化采集場(chǎng)景(舉例)1、每次以5度為單位,高度范圍為90度, 左右轉(zhuǎn)動(dòng)為90度,俯仰為60度,則最多一 輪可采集90/5*90/

11、5*60/5= 3888張采集樣本數(shù)據(jù)耗時(shí)(3888張)1、人工采集,以平均耗時(shí)5秒采集一張計(jì)算, 共5.4小時(shí)2、機(jī)械臂,2秒一張,共約2.16小時(shí)圖片標(biāo)注耗時(shí)(3888張)1、人工標(biāo)注,1人1天約工作6小時(shí),標(biāo)注200張,3888張需19.44人天,共約117小時(shí)2、自動(dòng)標(biāo)注約1秒一張,共1.08個(gè)小時(shí),圖片可 按角度、背景等自動(dòng)分類3、自動(dòng)化標(biāo)注的準(zhǔn)確率為97%5.41172.161.08140120100806040200時(shí)間成本對(duì)比(單位:小時(shí))采集樣本圖片標(biāo)注人工自動(dòng)化機(jī)械臂自動(dòng)化采集及標(biāo)注發(fā)現(xiàn)問題舉例數(shù)據(jù)采集- 3D虛擬環(huán)境覆蓋更多場(chǎng)景搭建3D虛擬場(chǎng)景,包括家居、外部光源、拍攝角度等,渲染測(cè)試樣本圖片未來(lái)將覆蓋更多的生活場(chǎng)景,基于虛擬場(chǎng)景發(fā)現(xiàn)的問題挖掘真實(shí)場(chǎng)景的問題數(shù)據(jù)采集- 3D虛擬環(huán)境異常場(chǎng)景舉例1虛擬環(huán)境,誤識(shí)別為翻拍電腦屏幕相似真實(shí)場(chǎng)景,誤識(shí) 別為翻

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論