物體檢索與定位

上傳人：中國(guó)鐵道出版社 IP屬地：四川上傳時(shí)間：2024-01-11 格式：PDF 頁(yè)數(shù)：111 大?。?0.28MB 積分：31.5 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩106頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

內(nèi)容簡(jiǎn)介

物體檢索與定位是計(jì)算機(jī)視覺(jué)技術(shù)最核心的技術(shù)之一本書(shū)主要闡述了物體檢索與定位

。

中的關(guān)鍵問(wèn)題和相關(guān)技術(shù)包括大數(shù)據(jù)時(shí)代的目標(biāo)檢索及應(yīng)用視覺(jué)詞組的貝葉斯池化模型

,、、

位置對(duì)齊的深度示例檢索模型多示例在線學(xué)習(xí)模型基于顯著性的深度特征表示人工智能

、、、

時(shí)代的信息檢索技術(shù)展望

。

本書(shū)內(nèi)容新穎條理清晰適合作為計(jì)算機(jī)與人工智能相關(guān)行業(yè)從業(yè)人員的專(zhuān)業(yè)技術(shù)類(lèi)參

、,

考用書(shū)

。

圖書(shū)在版編目CIP數(shù)據(jù)

()

物體檢索與定位姜文暉著北京中國(guó)鐵道出版社

/.—:

有限公司

,2021.12

ISBN978-7-113-28655-2

物姜數(shù)據(jù)檢索研究

Ⅰ.①…Ⅱ.①…Ⅲ.①-Ⅳ.①G254.926

中國(guó)版本圖書(shū)館數(shù)據(jù)核字第號(hào)

CIP(2021)268557

書(shū)名:物體檢索與定位

作者:姜文暉

策劃:曹莉群編輯部電話:

(010)63549501

責(zé)任編輯:賈星包寧許璐

封面設(shè)計(jì):劉穎

責(zé)任校對(duì):焦桂榮

責(zé)任印制:樊啟鵬

出版發(fā)行:中國(guó)鐵道出版社有限公司北京市西城區(qū)右安門(mén)西街號(hào)

(100054,8)

網(wǎng)址:

http://www.tdpress.com/51eds/

印刷:北京富資園科技發(fā)展有限公司

版次:年月第版年月第次印刷

20211212021121

開(kāi)本:印張:字?jǐn)?shù):千

787mm×1092mm1/166.75131

書(shū)號(hào):

ISBN978-7-113-28655-2

定價(jià):元

45.00

版權(quán)所有侵權(quán)必究

凡購(gòu)買(mǎi)鐵道版圖書(shū)如有印制質(zhì)量問(wèn)題請(qǐng)與本社教材圖書(shū)營(yíng)銷(xiāo)部聯(lián)系調(diào)換電話

,,。:(010)63550836

打擊盜版舉報(bào)電話

:(010)63549461

隨著移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,海量數(shù)據(jù)正在發(fā)生爆發(fā)式增長(zhǎng),從大規(guī)模數(shù)

據(jù)中檢索與定位最重要的目標(biāo)信息具有廣泛且重要的應(yīng)用價(jià)值,因而受到學(xué)術(shù)界

和工業(yè)界的大量關(guān)注。物體檢索與定位,是指給定查詢(xún)目標(biāo)在某種模態(tài)下的信息,

在大規(guī)模圖像視頻數(shù)據(jù)中集中定位該目標(biāo)的技術(shù)。物體檢索與定位是計(jì)算機(jī)視覺(jué)

技術(shù)最核心的課題之一。然而,由于光照、視角、遮擋等外部因素和物體本身的形

變、類(lèi)別多樣性等內(nèi)部因素的共同影響,圖像在不同層次上存在復(fù)雜的表象變化。

除此之外,示例、圖像和標(biāo)簽之間的層次關(guān)聯(lián)繁雜多樣,這些都給物體檢索與定位

帶來(lái)了很大的困難。

本書(shū)從實(shí)際應(yīng)用的角度出發(fā),針對(duì)示例檢索、標(biāo)簽檢索和物體定位三個(gè)相關(guān)問(wèn)

題進(jìn)行深入研究。以視覺(jué)詞袋模型和深度卷積網(wǎng)絡(luò)模型為基礎(chǔ),從模型表示、模型

學(xué)習(xí)和關(guān)聯(lián)匹配幾個(gè)方面進(jìn)行擴(kuò)展和完善。

()針對(duì)基于視覺(jué)詞組的示例檢索模型進(jìn)行了研究。首先,優(yōu)化了視覺(jué)詞組的

定義方式,提高了視覺(jué)詞組的區(qū)分性。其次,分析了一類(lèi)容易被忽視的現(xiàn)象,即視

覺(jué)詞組的突爆匹配。最后,基于概率模型,提出了一種新穎的貝葉斯池化模型用于

消除突爆匹配,從而優(yōu)化了圖像之間的相似性度量,提高了示例檢索的準(zhǔn)確性。

()針對(duì)基于深度卷積網(wǎng)絡(luò)的示例檢索模型進(jìn)行了研究。針對(duì)示例檢索的查

詢(xún)敏感的空間位置關(guān)聯(lián)性問(wèn)題,提出了一種空間位置對(duì)齊的模型框架。更進(jìn)一步,

提出了一種基于排序的深度卷積網(wǎng)絡(luò),用于建模物體的類(lèi)內(nèi)和類(lèi)間差異性。為了

訓(xùn)練這個(gè)網(wǎng)絡(luò),設(shè)計(jì)了一種半監(jiān)督的訓(xùn)練樣本收集策略。該策略不需要任何對(duì)查

詢(xún)物體的先驗(yàn)知識(shí),并且極大地減少了人工收集訓(xùn)練樣本所需的成本。實(shí)驗(yàn)結(jié)果

表明,這一方法顯著地提高了深度模型下示例檢索的準(zhǔn)確性。

()針對(duì)前背景的模糊性,從特征學(xué)習(xí)的角度,介紹了一種多示例在線學(xué)習(xí)模

型解決弱監(jiān)督條件下的圖像標(biāo)注和物體定位問(wèn)題。首先,在現(xiàn)有的多示例學(xué)習(xí)模

型的基礎(chǔ)上,改進(jìn)了訓(xùn)練樣本的選擇和更新策略。改進(jìn)后的策略能夠收集準(zhǔn)確多

樣的正樣本以及有區(qū)分性的負(fù)樣本,從而提高前背景的區(qū)分性。其次,設(shè)計(jì)了一個(gè)

端到端的模型,同時(shí)進(jìn)行訓(xùn)練樣本的選擇和物體檢測(cè)器的訓(xùn)練。最后,通過(guò)對(duì)示例

標(biāo)注和圖像標(biāo)注進(jìn)行關(guān)聯(lián),從而通過(guò)一個(gè)模型聯(lián)合學(xué)習(xí)圖像標(biāo)注和物體檢測(cè)算法。

實(shí)驗(yàn)結(jié)果表明,這一模型有效地提高了圖像標(biāo)注和物體定位的性能。

·Ⅰ·

()從特征表示的角度對(duì)標(biāo)簽檢索和物體定位問(wèn)題進(jìn)行了研究。具體地,本書(shū)

介紹了一種基于顯著性的深度特征模型,改善基于矩形框的物體特征表示。顯著

性模型使得矩形框內(nèi)背景區(qū)域的特征響應(yīng)被抑制,而前景中重要的視覺(jué)區(qū)域的特

征激活得到增強(qiáng)。這樣的特征表示模型使得前景區(qū)域和背景區(qū)域的類(lèi)內(nèi)差異變

小,類(lèi)間差異變大,從而減少了前背景的模糊性。這一顯著性特征模型可以與當(dāng)前

最好的弱監(jiān)督物體檢測(cè)模型融合,從而進(jìn)行端到端的聯(lián)合訓(xùn)練。這一方法的可靠

性在多個(gè)數(shù)據(jù)集上得到了驗(yàn)證。

圖展示了本書(shū)各章之間的關(guān)系。具體結(jié)構(gòu)安排如下:

圖1全書(shū)結(jié)構(gòu)示意圖

第章介紹了物體檢索與定位的研究意義、關(guān)鍵技術(shù)、相關(guān)工作進(jìn)展,并介紹

全書(shū)的創(chuàng)新點(diǎn)和組織結(jié)構(gòu)。

第章和第章針對(duì)示例檢索任務(wù)提出了兩種解決方案。其中第章對(duì)基于

232

局部特征的檢索模型展開(kāi)研究,介紹了一種基于視覺(jué)詞組的貝葉斯池化的圖像檢

索模型;第章提出了一種位置對(duì)齊的深度示例檢索模型。

第章和第章針對(duì)圖像標(biāo)注和物體定位展開(kāi)研究。其中第章從特征學(xué)習(xí)

454

的角度提出了一種多示例在線學(xué)習(xí)模型;第章則從特征表示的角度提出了一種

特征模型。

第章對(duì)全書(shū)進(jìn)行總結(jié),并對(duì)今后的研究工作進(jìn)行展望。

由于著者的學(xué)術(shù)水平和研究深度所限,書(shū)中紕漏和不妥之處在所難免,歡迎廣

大讀者批評(píng)指正。

姜文暉

年月

20219

·Ⅱ·

第1章大數(shù)據(jù)時(shí)代的目標(biāo)檢索及應(yīng)用

11大數(shù)據(jù)時(shí)代的大搜索趨勢(shì)…………………1

12物體搜索：?jiǎn)栴}與挑戰(zhàn)……2

121示例檢索…………3

122標(biāo)簽檢索與定位…………………4

123關(guān)鍵技術(shù)難題……5

13針對(duì)物體檢索與定位的研究歷史與現(xiàn)狀…6

131基于示例的檢索模型……………7

132圖像標(biāo)注…………9

133物體檢測(cè)…………10

14技術(shù)測(cè)評(píng)…………………11

141數(shù)據(jù)集介紹………11

142性能評(píng)價(jià)指標(biāo)……12

參考文獻(xiàn)…………13

第2章視覺(jué)詞組的貝葉斯池化模型

21詞袋模型…………………21

22詞袋模型相關(guān)工作………24

221視覺(jué)單詞的上下文建?！?4

222視覺(jué)突爆現(xiàn)象……25

223貝葉斯決策理論…………………26

23基于視覺(jué)詞組的示例檢索模型…………26

231視覺(jué)詞組的挖掘…………………26

232相似性度量………28

233相關(guān)工作在框架下的解釋………29

·Ⅰ·

24貝葉斯池化模型…………30

241突爆匹配與池化………………30

242模型的建立………32

243參數(shù)估計(jì)…………33

實(shí)驗(yàn)結(jié)果與分析…………

2.535

實(shí)現(xiàn)細(xì)節(jié)…………

2.5.135

參數(shù)影響…………

2.5.237

性能對(duì)比…………

2.5.340

可視化分析………

2.5.441

小結(jié)………………

參考文獻(xiàn)…………

第3章位置對(duì)齊的深度示例檢索模型

31示例檢索的研究現(xiàn)狀……45

32示例檢索有關(guān)的技術(shù)發(fā)展………………46

321深度卷積網(wǎng)絡(luò)……46

322基于深度卷積網(wǎng)絡(luò)的示例檢索…47

33模型整體結(jié)構(gòu)……………48

34似物性采樣………………49

35基于排序?qū)W習(xí)的深度特征學(xué)習(xí)模型……50

351模型結(jié)構(gòu)…………50

352模型訓(xùn)練…………52

353特征提取…………53

36半監(jiān)督的訓(xùn)練數(shù)據(jù)收集策略……………53

37搜索與排序………………55

371級(jí)聯(lián)量化編碼……55

372索引結(jié)構(gòu)…………56

373在線查詢(xún)…………57

38實(shí)驗(yàn)結(jié)果與分析…………57

381實(shí)現(xiàn)細(xì)節(jié)…………57

382性能對(duì)比…………57

383效率分析…………60

·Ⅱ·

384可視化分析………61

小結(jié)………………62

參考文獻(xiàn)…………62

第4章多示例在線學(xué)習(xí)模型

41監(jiān)督信息…………………65

42物體檢測(cè)的工作…………68

421多示例學(xué)習(xí)………68

422多標(biāo)簽學(xué)習(xí)……70

423基于CNN的弱監(jiān)督物體檢測(cè)…70

43多示例在線學(xué)習(xí)…………71

431概述………………71

432特征表示模塊……72

433示例分類(lèi)模塊……73

434示例采樣模塊…………………73

435迭代精化………74

44實(shí)驗(yàn)結(jié)果與分析…………75

441實(shí)現(xiàn)細(xì)節(jié)………75

442關(guān)鍵區(qū)域選擇的重要性………76

443與弱監(jiān)督深度檢測(cè)網(wǎng)絡(luò)WSDDN的變種進(jìn)行

性能對(duì)比………79

444與其他模型的性能對(duì)比………79

小結(jié)………………81

參考文獻(xiàn)…………81

第5章基于顯著性的深度特征表示

51視覺(jué)注意機(jī)制……………84

52視覺(jué)注意機(jī)制相關(guān)工作…………………85

53模型結(jié)構(gòu)…………………86

531物體的顯著性模型………………87

532顯著性池化………88

·Ⅲ·

54實(shí)驗(yàn)結(jié)果與分析…………89

541實(shí)現(xiàn)細(xì)節(jié)…………89

542模型分析………90

543與其他方法的性能對(duì)比…………91

544可視化分析……92

小結(jié)………………94

參考文獻(xiàn)…………95

第6章人工智能時(shí)代的信息檢索技術(shù)展望

61物體檢索與定位技術(shù)總結(jié)………………98

62物體檢索與定位研究展望………………99

·Ⅳ·

第1章

大數(shù)據(jù)時(shí)代的

目標(biāo)檢索及應(yīng)用

1.1大數(shù)據(jù)時(shí)代的大搜索趨勢(shì)

隨著行業(yè)信息化建設(shè)移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的深度普及以及集成電路和高精

、,

度傳感器的快速發(fā)展信息的存儲(chǔ)與傳播方式正在發(fā)生巨大轉(zhuǎn)變其中包括圖像

,。,

視頻在內(nèi)的可視媒體因具有表現(xiàn)力強(qiáng)信息量大生動(dòng)具體等特點(diǎn)目前已經(jīng)成為

、、,

用戶獲取信息傳播信息和消費(fèi)信息的主要對(duì)象是消耗網(wǎng)絡(luò)帶寬存儲(chǔ)和計(jì)算資

、,、

源的主要數(shù)據(jù)形式一方面公共新聞媒體和社交網(wǎng)絡(luò)都存儲(chǔ)了大量可視媒體

。,。

年某社交網(wǎng)站就已經(jīng)存儲(chǔ)了億張圖像某視頻網(wǎng)站同年宣布平均每分

2015,2500;

鐘上傳的視頻超過(guò)官方顯示年平均每天有億張圖片被

400h;Instagram,20160.8

用戶分享另一方面隨著城市規(guī)模不斷擴(kuò)大和建設(shè)平安城市的需要監(jiān)控?cái)z像機(jī)

。,,

也在全球范圍內(nèi)廣泛部署據(jù)統(tǒng)計(jì)目前我國(guó)已經(jīng)部署了約萬(wàn)臺(tái)視頻監(jiān)控

。,4000

攝像機(jī)監(jiān)控視頻數(shù)據(jù)在持續(xù)增長(zhǎng)

,。

海量的多媒體數(shù)據(jù)在信息交流智能安防等應(yīng)用中起到越來(lái)越重要的作用對(duì)

、,

人們?nèi)粘Ｉ畹姆椒矫婷娈a(chǎn)生著深遠(yuǎn)的影響然而如此龐大和日益增長(zhǎng)的數(shù)據(jù)

。,

并非對(duì)每個(gè)用戶都具有同等的價(jià)值從大規(guī)模多媒體數(shù)據(jù)中檢索和定位最相關(guān)的

。

資源返回給用戶并提供全面準(zhǔn)確的搜索結(jié)果的服務(wù)具有巨大的市場(chǎng)需求據(jù)統(tǒng)

,、。

計(jì)百度搜索引擎每天收到的查詢(xún)請(qǐng)求達(dá)多億次在這種背景下設(shè)計(jì)一套可

,60。,

以智能地分析和理解圖像視頻內(nèi)容的計(jì)算機(jī)系統(tǒng)使之擁有與人類(lèi)視覺(jué)相當(dāng)?shù)男?/p>

息處理能力從而滿足更全面準(zhǔn)確的搜索需求是未來(lái)大數(shù)據(jù)背景下大搜索系統(tǒng)

,、,

的重要發(fā)展趨勢(shì)

。

物體檢索與定位是指給定某件或某類(lèi)查詢(xún)物體的視覺(jué)圖像或標(biāo)簽信息從大

··

規(guī)模圖像視頻數(shù)據(jù)集中快速檢索出包含該目標(biāo)的圖片或鏡頭并標(biāo)注目標(biāo)出現(xiàn)的

位置早期的圖像檢索系統(tǒng)以元數(shù)據(jù)為核心[1]對(duì)圖像的元數(shù)據(jù)或用戶生成的標(biāo)

。,

簽進(jìn)行匹配如使用數(shù)十萬(wàn)專(zhuān)業(yè)術(shù)語(yǔ)對(duì)藝術(shù)建筑和文化方面的多媒體

,GettyAAT、

對(duì)象進(jìn)行標(biāo)注和檢索然而由于用戶認(rèn)知差異性的存在標(biāo)簽可能與圖像內(nèi)容存

。,,

在偏差[2]另外人工標(biāo)注元數(shù)據(jù)耗時(shí)耗力難以滿足大規(guī)模實(shí)際應(yīng)用相比之

。,,。

下基于圖像示例和系統(tǒng)標(biāo)簽的搜索系統(tǒng)在大數(shù)據(jù)背景下顯得更加實(shí)用

,。

一幅圖像勝過(guò)千言萬(wàn)語(yǔ)以目標(biāo)的圖像作為查詢(xún)依據(jù)可提供豐富的視覺(jué)細(xì)節(jié)

信息用于對(duì)特定地標(biāo)商品人物進(jìn)行精準(zhǔn)搜索本書(shū)稱(chēng)這一搜索場(chǎng)景為示例檢

,、、。

索示例檢索的典型應(yīng)用是特定商品搜索[3]和行人再辨識(shí)[4]

(instancesearch)。。

與此同時(shí)依靠計(jì)算機(jī)視覺(jué)技術(shù)由系統(tǒng)自動(dòng)生成的圖像標(biāo)簽具有準(zhǔn)確規(guī)范全面

,、、

等特點(diǎn)可以代替用戶手動(dòng)添加的標(biāo)簽提供更準(zhǔn)確的查詢(xún)線索通常系統(tǒng)生成的

,,。

標(biāo)簽涵蓋了抽象廣義的查詢(xún)信息可以應(yīng)用在以關(guān)聯(lián)匹配知識(shí)發(fā)現(xiàn)為目的的搜

、,、

索場(chǎng)景中本書(shū)稱(chēng)這一搜索場(chǎng)景為標(biāo)簽檢索標(biāo)簽檢索的典型

。(tag-basedsearch)。

應(yīng)用是圖像視頻門(mén)戶網(wǎng)站的索引這兩種搜索情景雖有區(qū)別但在功能上互補(bǔ)

。,。

查詢(xún)的目標(biāo)類(lèi)別都覆蓋廣泛成為當(dāng)前圖像檢索與定位的主要技術(shù)途徑

,。

物體檢索與定位的關(guān)鍵技術(shù)難題在于對(duì)圖像和視頻的內(nèi)容理解并建立查詢(xún)

與數(shù)據(jù)集的視覺(jué)目標(biāo)之間的關(guān)聯(lián)模型然而不同于文本和其他類(lèi)型數(shù)據(jù)圖像和

。,,

視頻數(shù)據(jù)因其非結(jié)構(gòu)化的數(shù)據(jù)格式復(fù)雜龐大的內(nèi)容和數(shù)據(jù)來(lái)源多樣等特點(diǎn)使得

、,

數(shù)據(jù)本身內(nèi)容主觀模糊信息隱藏深差異性大關(guān)系繁雜這對(duì)多媒體搜索技術(shù)提

、、、,

出了很大的挑戰(zhàn)

。

本書(shū)主要針對(duì)圖像數(shù)據(jù)集對(duì)示例檢索和標(biāo)簽檢索的幾個(gè)關(guān)鍵技術(shù)進(jìn)行深入

研究在研究現(xiàn)有國(guó)內(nèi)外最新成果的基礎(chǔ)上提出新的模型以改善圖像表示和關(guān)

。,

聯(lián)模型的固有缺陷為多媒體數(shù)據(jù)的準(zhǔn)確查找和智能應(yīng)用提供更好的技術(shù)途徑

,。

1.2物體搜索：?jiǎn)栴}與挑戰(zhàn)

本書(shū)主要研究示例檢索和標(biāo)簽檢索與定位兩類(lèi)問(wèn)題本節(jié)將具體介紹這兩類(lèi)

。

問(wèn)題并將其中的區(qū)別匯總在表中

,1-1。

表1-1示例檢索和標(biāo)簽檢索與定位的對(duì)比

特征示例檢索標(biāo)簽檢索與定位

查詢(xún)對(duì)象物體物體

查詢(xún)模態(tài)圖像標(biāo)簽

查詢(xún)內(nèi)容用戶定義系統(tǒng)定義

··

第1章大數(shù)據(jù)時(shí)代的目標(biāo)檢索及應(yīng)用

續(xù)表

特征示例檢索標(biāo)簽檢索與定位

訓(xùn)練集無(wú)有

應(yīng)用場(chǎng)景精準(zhǔn)搜索關(guān)聯(lián)匹配知識(shí)發(fā)現(xiàn)

1.2.1示例檢索

示例檢索以物體的一張圖片作為查詢(xún)?cè)诖笠?guī)模的圖像數(shù)據(jù)集中定位所有包

含該物體的圖像按置信度排序后返回給用戶在典型的應(yīng)用問(wèn)題中查詢(xún)的示例

,。,

種類(lèi)多樣且均為用戶定義因此沒(méi)有可靠的訓(xùn)練樣本提供準(zhǔn)確的查詢(xún)示例與數(shù)據(jù)

集相關(guān)圖像的關(guān)聯(lián)圖像示例作為輸入提供了較為有效且豐富的信息歧義性小

。,,

因此返回的結(jié)果較有針對(duì)性且較為精準(zhǔn)基于示例的精準(zhǔn)檢索與基于內(nèi)容的圖像

。

檢索[5]或近似拷貝檢測(cè)

(content-basedimageretrieval,CBIR)(nearduplicate

[6]在形式上比較接近但在功能上有明顯區(qū)別如圖所示在基于內(nèi)

detection),。1-1,

容的圖像檢索和近似復(fù)制檢測(cè)中查詢(xún)圖像與數(shù)據(jù)集中的相關(guān)圖像存在全局的視

覺(jué)相似性而在示例檢索中查詢(xún)物體只與圖像的部分區(qū)域相似

。,。

示例檢索

(a)

基于內(nèi)容的圖像檢索近似復(fù)制檢測(cè)

(b)/

圖1-1示例檢索與基于內(nèi)容的圖像檢索的區(qū)別

··

值得注意的是本書(shū)研究的示例檢索與傳統(tǒng)的類(lèi)別檢索[7,8]也有所不同類(lèi)別

,。

檢索的目標(biāo)是查詢(xún)與圖像屬于同一類(lèi)別的物體示例檢索的目標(biāo)是查詢(xún)與圖像完

;

全一樣的物體

。

1.2.2標(biāo)簽檢索與定位

標(biāo)簽檢索與定位問(wèn)題中查詢(xún)以一個(gè)或多個(gè)標(biāo)簽作為輸入在大規(guī)模的圖像數(shù)

據(jù)集中查找所有包含標(biāo)簽內(nèi)容的圖像用矩形框標(biāo)注出對(duì)應(yīng)的物體并按置信度排

序返回給用戶不同于基于示例的搜索場(chǎng)景系統(tǒng)標(biāo)簽種類(lèi)多樣但類(lèi)型有限且每

。,,

一個(gè)被定義的標(biāo)簽都擁有少量訓(xùn)練圖像利用這些圖像系統(tǒng)訓(xùn)練圖像標(biāo)注算法

。,

對(duì)更大規(guī)模的圖像集合自動(dòng)進(jìn)行結(jié)構(gòu)化標(biāo)注從而方便圖像的管理與檢索標(biāo)簽

,。

檢索的核心在于設(shè)計(jì)圖像標(biāo)注算法根據(jù)訓(xùn)練圖像標(biāo)記內(nèi)容的豐富性可以把監(jiān)

。,

督信號(hào)分為強(qiáng)和弱兩類(lèi)如圖所示強(qiáng)監(jiān)督信號(hào)是指訓(xùn)練數(shù)據(jù)集中標(biāo)注了每

,1-2。

一個(gè)物體出現(xiàn)的位置然而人工標(biāo)注每個(gè)示例費(fèi)時(shí)費(fèi)力數(shù)據(jù)集的作者

。,。ILSVRC

們通過(guò)統(tǒng)計(jì)發(fā)現(xiàn)標(biāo)注每個(gè)示例的位置平均耗時(shí)約為[9,10]因此標(biāo)注的困難

,26s。,

使得算法不能方便地?cái)U(kuò)展到更多的類(lèi)別中弱監(jiān)督信號(hào)則是指訓(xùn)練圖像中只有圖

。

像級(jí)的標(biāo)簽表示圖中是否存在該類(lèi)物體但并未給出物體的數(shù)目和出現(xiàn)的準(zhǔn)確位

置弱監(jiān)督假設(shè)將對(duì)標(biāo)注的需求大幅弱化對(duì)于將標(biāo)簽檢索與定位技術(shù)進(jìn)行大規(guī)

。,

模應(yīng)用具有實(shí)際價(jià)值因此本書(shū)重點(diǎn)研究弱監(jiān)督信號(hào)下的標(biāo)簽檢索與定位

。,。

圖1-2強(qiáng)監(jiān)督學(xué)習(xí)與弱監(jiān)督學(xué)習(xí)的區(qū)別

值得注意的是本書(shū)研究的標(biāo)簽檢索與定位和傳統(tǒng)的圖像標(biāo)注問(wèn)題有兩方面

不同首先圖像標(biāo)注問(wèn)題中研究重點(diǎn)在于使每幅圖像返回的前K個(gè)標(biāo)簽盡可能

。,,

準(zhǔn)確[11]而在標(biāo)簽檢索問(wèn)題中研究重點(diǎn)在于使每個(gè)標(biāo)簽對(duì)應(yīng)的前K幅圖像盡可

。,

··

第1章大數(shù)據(jù)時(shí)代的目標(biāo)檢索及應(yīng)用

能準(zhǔn)確其次圖像標(biāo)注問(wèn)題中一個(gè)示例可以觸發(fā)多個(gè)標(biāo)簽例如由人臉可以同

。,,,

時(shí)觸發(fā)表情性別膚色等另外一些標(biāo)簽可能無(wú)法定位例如場(chǎng)景節(jié)日而本

、、。,,、。

書(shū)研究的標(biāo)簽檢索主要針對(duì)物體所研究的標(biāo)簽也是物體的標(biāo)簽進(jìn)而針對(duì)物體的

可定位性和類(lèi)別的唯一性展開(kāi)研究在不引起歧義的條件下本書(shū)中用圖像標(biāo)注

。,

指代本書(shū)研究的物體標(biāo)注

。

1.2.3關(guān)鍵技術(shù)難題

在有限的數(shù)據(jù)集中定位目標(biāo)對(duì)人類(lèi)而言非常容易而對(duì)計(jì)算機(jī)而言則非常具

有挑戰(zhàn)這是由圖像語(yǔ)義提取的復(fù)雜性造成的具體來(lái)說(shuō)體現(xiàn)在以下兩方面

。。,:

1.內(nèi)容理解與建模

物體的圖像在不同層次上存在不同程度的差異性不同類(lèi)的物體之間存在類(lèi)

。

別表象變化同類(lèi)別的不同物體之間存在個(gè)體表象變化如圖所示建立圖像

,,1-3。

的特征表示模型以同時(shí)反映不用程度的差異性一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)性核

心問(wèn)題

。

不同類(lèi)別的物體之間類(lèi)別表象變化示例

(a)

同類(lèi)別的不同物體之間的個(gè)體表象變化示例

(b)

圖1-3物體表象變化示例

圖像信息具有復(fù)雜的語(yǔ)義屬性從人的認(rèn)知角度來(lái)看對(duì)語(yǔ)義的認(rèn)知既包括

。,

簡(jiǎn)單的底層概念又有抽象程度較高的高層概念高層語(yǔ)義概念又包含物體場(chǎng)

,。、

景事件等不同層次和粒度因此人的視覺(jué)對(duì)語(yǔ)義的分析和理解是不同層次不

、。,、

同粒度語(yǔ)義信息的交互過(guò)程反觀計(jì)算機(jī)視覺(jué)的特征模型往往以邊緣顏色紋

。,、、

理等底層特征為基本單元向上構(gòu)建復(fù)雜語(yǔ)義和抽象概念

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 交通運(yùn)輸

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

物體檢索與定位

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

物體檢索與定位

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔