物體檢索與定位_第1頁(yè)
物體檢索與定位_第2頁(yè)
物體檢索與定位_第3頁(yè)
物體檢索與定位_第4頁(yè)
物體檢索與定位_第5頁(yè)
已閱讀5頁(yè),還剩106頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)閱讀全文

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

內(nèi)容簡(jiǎn)介

物體檢索與定位是計(jì)算機(jī)視覺(jué)技術(shù)最核心的技術(shù)之一本書(shū)主要闡述了物體檢索與定位

中的關(guān)鍵問(wèn)題和相關(guān)技術(shù)包括大數(shù)據(jù)時(shí)代的目標(biāo)檢索及應(yīng)用視覺(jué)詞組的貝葉斯池化模型

,、、

位置對(duì)齊的深度示例檢索模型多示例在線學(xué)習(xí)模型基于顯著性的深度特征表示人工智能

、、、

時(shí)代的信息檢索技術(shù)展望

。

本書(shū)內(nèi)容新穎條理清晰適合作為計(jì)算機(jī)與人工智能相關(guān)行業(yè)從業(yè)人員的專(zhuān)業(yè)技術(shù)類(lèi)參

、,

考用書(shū)

。

圖書(shū)在版編目CIP數(shù)據(jù)

()

物體檢索與定位姜文暉著北京中國(guó)鐵道出版社

/.—:

有限公司

,2021.12

ISBN978-7-113-28655-2

物姜數(shù)據(jù)檢索研究

Ⅰ.①…Ⅱ.①…Ⅲ.①-Ⅳ.①G254.926

中國(guó)版本圖書(shū)館數(shù)據(jù)核字第號(hào)

CIP(2021)268557

書(shū)名:物體檢索與定位

作者:姜文暉

策劃:曹莉群編輯部電話:

(010)63549501

責(zé)任編輯:賈星包寧許璐

封面設(shè)計(jì):劉穎

責(zé)任校對(duì):焦桂榮

責(zé)任印制:樊啟鵬

出版發(fā)行:中國(guó)鐵道出版社有限公司北京市西城區(qū)右安門(mén)西街號(hào)

(100054,8)

網(wǎng)址:

http://www.tdpress.com/51eds/

印刷:北京富資園科技發(fā)展有限公司

版次:年月第版年月第次印刷

20211212021121

開(kāi)本:印張:字?jǐn)?shù):千

787mm×1092mm1/166.75131

書(shū)號(hào):

ISBN978-7-113-28655-2

定價(jià):元

45.00

版權(quán)所有侵權(quán)必究

凡購(gòu)買(mǎi)鐵道版圖書(shū)如有印制質(zhì)量問(wèn)題請(qǐng)與本社教材圖書(shū)營(yíng)銷(xiāo)部聯(lián)系調(diào)換電話

,,。:(010)63550836

打擊盜版舉報(bào)電話

:(010)63549461

隨著移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,海量數(shù)據(jù)正在發(fā)生爆發(fā)式增長(zhǎng),從大規(guī)模數(shù)

據(jù)中檢索與定位最重要的目標(biāo)信息具有廣泛且重要的應(yīng)用價(jià)值,因而受到學(xué)術(shù)界

和工業(yè)界的大量關(guān)注。物體檢索與定位,是指給定查詢(xún)目標(biāo)在某種模態(tài)下的信息,

在大規(guī)模圖像視頻數(shù)據(jù)中集中定位該目標(biāo)的技術(shù)。物體檢索與定位是計(jì)算機(jī)視覺(jué)

技術(shù)最核心的課題之一。然而,由于光照、視角、遮擋等外部因素和物體本身的形

變、類(lèi)別多樣性等內(nèi)部因素的共同影響,圖像在不同層次上存在復(fù)雜的表象變化。

除此之外,示例、圖像和標(biāo)簽之間的層次關(guān)聯(lián)繁雜多樣,這些都給物體檢索與定位

帶來(lái)了很大的困難。

本書(shū)從實(shí)際應(yīng)用的角度出發(fā),針對(duì)示例檢索、標(biāo)簽檢索和物體定位三個(gè)相關(guān)問(wèn)

題進(jìn)行深入研究。以視覺(jué)詞袋模型和深度卷積網(wǎng)絡(luò)模型為基礎(chǔ),從模型表示、模型

學(xué)習(xí)和關(guān)聯(lián)匹配幾個(gè)方面進(jìn)行擴(kuò)展和完善。

()針對(duì)基于視覺(jué)詞組的示例檢索模型進(jìn)行了研究。首先,優(yōu)化了視覺(jué)詞組的

1

定義方式,提高了視覺(jué)詞組的區(qū)分性。其次,分析了一類(lèi)容易被忽視的現(xiàn)象,即視

覺(jué)詞組的突爆匹配。最后,基于概率模型,提出了一種新穎的貝葉斯池化模型用于

消除突爆匹配,從而優(yōu)化了圖像之間的相似性度量,提高了示例檢索的準(zhǔn)確性。

()針對(duì)基于深度卷積網(wǎng)絡(luò)的示例檢索模型進(jìn)行了研究。針對(duì)示例檢索的查

2

詢(xún)敏感的空間位置關(guān)聯(lián)性問(wèn)題,提出了一種空間位置對(duì)齊的模型框架。更進(jìn)一步,

提出了一種基于排序的深度卷積網(wǎng)絡(luò),用于建模物體的類(lèi)內(nèi)和類(lèi)間差異性。為了

訓(xùn)練這個(gè)網(wǎng)絡(luò),設(shè)計(jì)了一種半監(jiān)督的訓(xùn)練樣本收集策略。該策略不需要任何對(duì)查

詢(xún)物體的先驗(yàn)知識(shí),并且極大地減少了人工收集訓(xùn)練樣本所需的成本。實(shí)驗(yàn)結(jié)果

表明,這一方法顯著地提高了深度模型下示例檢索的準(zhǔn)確性。

()針對(duì)前背景的模糊性,從特征學(xué)習(xí)的角度,介紹了一種多示例在線學(xué)習(xí)模

3

型解決弱監(jiān)督條件下的圖像標(biāo)注和物體定位問(wèn)題。首先,在現(xiàn)有的多示例學(xué)習(xí)模

型的基礎(chǔ)上,改進(jìn)了訓(xùn)練樣本的選擇和更新策略。改進(jìn)后的策略能夠收集準(zhǔn)確多

樣的正樣本以及有區(qū)分性的負(fù)樣本,從而提高前背景的區(qū)分性。其次,設(shè)計(jì)了一個(gè)

端到端的模型,同時(shí)進(jìn)行訓(xùn)練樣本的選擇和物體檢測(cè)器的訓(xùn)練。最后,通過(guò)對(duì)示例

標(biāo)注和圖像標(biāo)注進(jìn)行關(guān)聯(lián),從而通過(guò)一個(gè)模型聯(lián)合學(xué)習(xí)圖像標(biāo)注和物體檢測(cè)算法。

實(shí)驗(yàn)結(jié)果表明,這一模型有效地提高了圖像標(biāo)注和物體定位的性能。

·Ⅰ·

()從特征表示的角度對(duì)標(biāo)簽檢索和物體定位問(wèn)題進(jìn)行了研究。具體地,本書(shū)

4

介紹了一種基于顯著性的深度特征模型,改善基于矩形框的物體特征表示。顯著

性模型使得矩形框內(nèi)背景區(qū)域的特征響應(yīng)被抑制,而前景中重要的視覺(jué)區(qū)域的特

征激活得到增強(qiáng)。這樣的特征表示模型使得前景區(qū)域和背景區(qū)域的類(lèi)內(nèi)差異變

小,類(lèi)間差異變大,從而減少了前背景的模糊性。這一顯著性特征模型可以與當(dāng)前

最好的弱監(jiān)督物體檢測(cè)模型融合,從而進(jìn)行端到端的聯(lián)合訓(xùn)練。這一方法的可靠

性在多個(gè)數(shù)據(jù)集上得到了驗(yàn)證。

圖展示了本書(shū)各章之間的關(guān)系。具體結(jié)構(gòu)安排如下:

1

圖1全書(shū)結(jié)構(gòu)示意圖

第章介紹了物體檢索與定位的研究意義、關(guān)鍵技術(shù)、相關(guān)工作進(jìn)展,并介紹

1

全書(shū)的創(chuàng)新點(diǎn)和組織結(jié)構(gòu)。

第章和第章針對(duì)示例檢索任務(wù)提出了兩種解決方案。其中第章對(duì)基于

232

局部特征的檢索模型展開(kāi)研究,介紹了一種基于視覺(jué)詞組的貝葉斯池化的圖像檢

索模型;第章提出了一種位置對(duì)齊的深度示例檢索模型。

3

第章和第章針對(duì)圖像標(biāo)注和物體定位展開(kāi)研究。其中第章從特征學(xué)習(xí)

454

的角度提出了一種多示例在線學(xué)習(xí)模型;第章則從特征表示的角度提出了一種

5

特征模型。

第章對(duì)全書(shū)進(jìn)行總結(jié),并對(duì)今后的研究工作進(jìn)行展望。

6

由于著者的學(xué)術(shù)水平和研究深度所限,書(shū)中紕漏和不妥之處在所難免,歡迎廣

大讀者批評(píng)指正。

姜文暉

年月

20219

·Ⅱ·

第1章大數(shù)據(jù)時(shí)代的目標(biāo)檢索及應(yīng)用

11大數(shù)據(jù)時(shí)代的大搜索趨勢(shì)…………………1

.

12物體搜索:?jiǎn)栴}與挑戰(zhàn)……2

.

121示例檢索…………3

..

122標(biāo)簽檢索與定位…………………4

..

123關(guān)鍵技術(shù)難題……5

..

13針對(duì)物體檢索與定位的研究歷史與現(xiàn)狀…6

.

131基于示例的檢索模型……………7

..

132圖像標(biāo)注…………9

..

133物體檢測(cè)…………10

..

14技術(shù)測(cè)評(píng)…………………11

.

141數(shù)據(jù)集介紹………11

..

142性能評(píng)價(jià)指標(biāo)……12

..

參考文獻(xiàn)…………13

第2章視覺(jué)詞組的貝葉斯池化模型

21詞袋模型…………………21

.

22詞袋模型相關(guān)工作………24

.

221視覺(jué)單詞的上下文建?!?4

..

222視覺(jué)突爆現(xiàn)象……25

..

223貝葉斯決策理論…………………26

..

23基于視覺(jué)詞組的示例檢索模型…………26

.

231視覺(jué)詞組的挖掘…………………26

..

232相似性度量………28

..

233相關(guān)工作在框架下的解釋………29

..

·Ⅰ·

24貝葉斯池化模型…………30

.

241突爆匹配與池化………………30

..

242模型的建立………32

..

243參數(shù)估計(jì)…………33

..

實(shí)驗(yàn)結(jié)果與分析…………

2.535

實(shí)現(xiàn)細(xì)節(jié)…………

2.5.135

參數(shù)影響…………

2.5.237

性能對(duì)比…………

2.5.340

可視化分析………

2.5.441

小結(jié)………………

42

參考文獻(xiàn)…………

43

第3章位置對(duì)齊的深度示例檢索模型

31示例檢索的研究現(xiàn)狀……45

.

32示例檢索有關(guān)的技術(shù)發(fā)展………………46

.

321深度卷積網(wǎng)絡(luò)……46

..

322基于深度卷積網(wǎng)絡(luò)的示例檢索…47

..

33模型整體結(jié)構(gòu)……………48

.

34似物性采樣………………49

.

35基于排序?qū)W習(xí)的深度特征學(xué)習(xí)模型……50

.

351模型結(jié)構(gòu)…………50

..

352模型訓(xùn)練…………52

..

353特征提取…………53

..

36半監(jiān)督的訓(xùn)練數(shù)據(jù)收集策略……………53

.

37搜索與排序………………55

.

371級(jí)聯(lián)量化編碼……55

..

372索引結(jié)構(gòu)…………56

..

373在線查詢(xún)…………57

..

38實(shí)驗(yàn)結(jié)果與分析…………57

.

381實(shí)現(xiàn)細(xì)節(jié)…………57

..

382性能對(duì)比…………57

..

383效率分析…………60

..

·Ⅱ·

目錄

384可視化分析………61

..

小結(jié)………………62

參考文獻(xiàn)…………62

第4章多示例在線學(xué)習(xí)模型

41監(jiān)督信息…………………65

.

42物體檢測(cè)的工作…………68

.

421多示例學(xué)習(xí)………68

..

422多標(biāo)簽學(xué)習(xí)……70

..

423基于CNN的弱監(jiān)督物體檢測(cè)…70

..

43多示例在線學(xué)習(xí)…………71

.

431概述………………71

..

432特征表示模塊……72

..

433示例分類(lèi)模塊……73

..

434示例采樣模塊…………………73

..

435迭代精化………74

..

44實(shí)驗(yàn)結(jié)果與分析…………75

.

441實(shí)現(xiàn)細(xì)節(jié)………75

..

442關(guān)鍵區(qū)域選擇的重要性………76

..

443與弱監(jiān)督深度檢測(cè)網(wǎng)絡(luò)WSDDN的變種進(jìn)行

..

性能對(duì)比………79

444與其他模型的性能對(duì)比………79

..

小結(jié)………………81

參考文獻(xiàn)…………81

第5章基于顯著性的深度特征表示

51視覺(jué)注意機(jī)制……………84

.

52視覺(jué)注意機(jī)制相關(guān)工作…………………85

.

53模型結(jié)構(gòu)…………………86

.

531物體的顯著性模型………………87

..

532顯著性池化………88

..

·Ⅲ·

54實(shí)驗(yàn)結(jié)果與分析…………89

.

541實(shí)現(xiàn)細(xì)節(jié)…………89

..

542模型分析………90

..

543與其他方法的性能對(duì)比…………91

..

544可視化分析……92

..

小結(jié)………………94

參考文獻(xiàn)…………95

第6章人工智能時(shí)代的信息檢索技術(shù)展望

61物體檢索與定位技術(shù)總結(jié)………………98

.

62物體檢索與定位研究展望………………99

.

·Ⅳ·

第1章

大數(shù)據(jù)時(shí)代的

目標(biāo)檢索及應(yīng)用

1.1大數(shù)據(jù)時(shí)代的大搜索趨勢(shì)

隨著行業(yè)信息化建設(shè)移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的深度普及以及集成電路和高精

、,

度傳感器的快速發(fā)展信息的存儲(chǔ)與傳播方式正在發(fā)生巨大轉(zhuǎn)變其中包括圖像

,。,

視頻在內(nèi)的可視媒體因具有表現(xiàn)力強(qiáng)信息量大生動(dòng)具體等特點(diǎn)目前已經(jīng)成為

、、,

用戶獲取信息傳播信息和消費(fèi)信息的主要對(duì)象是消耗網(wǎng)絡(luò)帶寬存儲(chǔ)和計(jì)算資

、,、

源的主要數(shù)據(jù)形式一方面公共新聞媒體和社交網(wǎng)絡(luò)都存儲(chǔ)了大量可視媒體

。,。

年某社交網(wǎng)站就已經(jīng)存儲(chǔ)了億張圖像某視頻網(wǎng)站同年宣布平均每分

2015,2500;

鐘上傳的視頻超過(guò)官方顯示年平均每天有億張圖片被

400h;Instagram,20160.8

用戶分享另一方面隨著城市規(guī)模不斷擴(kuò)大和建設(shè)平安城市的需要監(jiān)控?cái)z像機(jī)

。,,

也在全球范圍內(nèi)廣泛部署據(jù)統(tǒng)計(jì)目前我國(guó)已經(jīng)部署了約萬(wàn)臺(tái)視頻監(jiān)控

。,4000

攝像機(jī)監(jiān)控視頻數(shù)據(jù)在持續(xù)增長(zhǎng)

,。

海量的多媒體數(shù)據(jù)在信息交流智能安防等應(yīng)用中起到越來(lái)越重要的作用對(duì)

、,

人們?nèi)粘I畹姆椒矫婷娈a(chǎn)生著深遠(yuǎn)的影響然而如此龐大和日益增長(zhǎng)的數(shù)據(jù)

。,

并非對(duì)每個(gè)用戶都具有同等的價(jià)值從大規(guī)模多媒體數(shù)據(jù)中檢索和定位最相關(guān)的

。

資源返回給用戶并提供全面準(zhǔn)確的搜索結(jié)果的服務(wù)具有巨大的市場(chǎng)需求據(jù)統(tǒng)

,、。

計(jì)百度搜索引擎每天收到的查詢(xún)請(qǐng)求達(dá)多億次在這種背景下設(shè)計(jì)一套可

,60。,

以智能地分析和理解圖像視頻內(nèi)容的計(jì)算機(jī)系統(tǒng)使之擁有與人類(lèi)視覺(jué)相當(dāng)?shù)男?/p>

,

息處理能力從而滿足更全面準(zhǔn)確的搜索需求是未來(lái)大數(shù)據(jù)背景下大搜索系統(tǒng)

,、,

的重要發(fā)展趨勢(shì)

。

物體檢索與定位是指給定某件或某類(lèi)查詢(xún)物體的視覺(jué)圖像或標(biāo)簽信息從大

,,

1

··

規(guī)模圖像視頻數(shù)據(jù)集中快速檢索出包含該目標(biāo)的圖片或鏡頭并標(biāo)注目標(biāo)出現(xiàn)的

,

位置早期的圖像檢索系統(tǒng)以元數(shù)據(jù)為核心[1]對(duì)圖像的元數(shù)據(jù)或用戶生成的標(biāo)

。,

簽進(jìn)行匹配如使用數(shù)十萬(wàn)專(zhuān)業(yè)術(shù)語(yǔ)對(duì)藝術(shù)建筑和文化方面的多媒體

,GettyAAT、

對(duì)象進(jìn)行標(biāo)注和檢索然而由于用戶認(rèn)知差異性的存在標(biāo)簽可能與圖像內(nèi)容存

。,,

在偏差[2]另外人工標(biāo)注元數(shù)據(jù)耗時(shí)耗力難以滿足大規(guī)模實(shí)際應(yīng)用相比之

。,,。

下基于圖像示例和系統(tǒng)標(biāo)簽的搜索系統(tǒng)在大數(shù)據(jù)背景下顯得更加實(shí)用

,。

一幅圖像勝過(guò)千言萬(wàn)語(yǔ)以目標(biāo)的圖像作為查詢(xún)依據(jù)可提供豐富的視覺(jué)細(xì)節(jié)

,,

信息用于對(duì)特定地標(biāo)商品人物進(jìn)行精準(zhǔn)搜索本書(shū)稱(chēng)這一搜索場(chǎng)景為示例檢

,、、。

索示例檢索的典型應(yīng)用是特定商品搜索[3]和行人再辨識(shí)[4]

(instancesearch)。。

與此同時(shí)依靠計(jì)算機(jī)視覺(jué)技術(shù)由系統(tǒng)自動(dòng)生成的圖像標(biāo)簽具有準(zhǔn)確規(guī)范全面

,、、

等特點(diǎn)可以代替用戶手動(dòng)添加的標(biāo)簽提供更準(zhǔn)確的查詢(xún)線索通常系統(tǒng)生成的

,,。

標(biāo)簽涵蓋了抽象廣義的查詢(xún)信息可以應(yīng)用在以關(guān)聯(lián)匹配知識(shí)發(fā)現(xiàn)為目的的搜

、,、

索場(chǎng)景中本書(shū)稱(chēng)這一搜索場(chǎng)景為標(biāo)簽檢索標(biāo)簽檢索的典型

。(tag-basedsearch)。

應(yīng)用是圖像視頻門(mén)戶網(wǎng)站的索引這兩種搜索情景雖有區(qū)別但在功能上互補(bǔ)

。,。

查詢(xún)的目標(biāo)類(lèi)別都覆蓋廣泛成為當(dāng)前圖像檢索與定位的主要技術(shù)途徑

,。

物體檢索與定位的關(guān)鍵技術(shù)難題在于對(duì)圖像和視頻的內(nèi)容理解并建立查詢(xún)

,

與數(shù)據(jù)集的視覺(jué)目標(biāo)之間的關(guān)聯(lián)模型然而不同于文本和其他類(lèi)型數(shù)據(jù)圖像和

。,,

視頻數(shù)據(jù)因其非結(jié)構(gòu)化的數(shù)據(jù)格式復(fù)雜龐大的內(nèi)容和數(shù)據(jù)來(lái)源多樣等特點(diǎn)使得

、,

數(shù)據(jù)本身內(nèi)容主觀模糊信息隱藏深差異性大關(guān)系繁雜這對(duì)多媒體搜索技術(shù)提

、、、,

出了很大的挑戰(zhàn)

。

本書(shū)主要針對(duì)圖像數(shù)據(jù)集對(duì)示例檢索和標(biāo)簽檢索的幾個(gè)關(guān)鍵技術(shù)進(jìn)行深入

,

研究在研究現(xiàn)有國(guó)內(nèi)外最新成果的基礎(chǔ)上提出新的模型以改善圖像表示和關(guān)

。,

聯(lián)模型的固有缺陷為多媒體數(shù)據(jù)的準(zhǔn)確查找和智能應(yīng)用提供更好的技術(shù)途徑

,。

1.2物體搜索:?jiǎn)栴}與挑戰(zhàn)

本書(shū)主要研究示例檢索和標(biāo)簽檢索與定位兩類(lèi)問(wèn)題本節(jié)將具體介紹這兩類(lèi)

。

問(wèn)題并將其中的區(qū)別匯總在表中

,1-1。

表1-1示例檢索和標(biāo)簽檢索與定位的對(duì)比

特征示例檢索標(biāo)簽檢索與定位

查詢(xún)對(duì)象物體物體

查詢(xún)模態(tài)圖像標(biāo)簽

查詢(xún)內(nèi)容用戶定義系統(tǒng)定義

2

··

第1章大數(shù)據(jù)時(shí)代的目標(biāo)檢索及應(yīng)用

續(xù)表

特征示例檢索標(biāo)簽檢索與定位

訓(xùn)練集無(wú)有

應(yīng)用場(chǎng)景精準(zhǔn)搜索關(guān)聯(lián)匹配知識(shí)發(fā)現(xiàn)

,

1.2.1示例檢索

示例檢索以物體的一張圖片作為查詢(xún)?cè)诖笠?guī)模的圖像數(shù)據(jù)集中定位所有包

,

含該物體的圖像按置信度排序后返回給用戶在典型的應(yīng)用問(wèn)題中查詢(xún)的示例

,。,

種類(lèi)多樣且均為用戶定義因此沒(méi)有可靠的訓(xùn)練樣本提供準(zhǔn)確的查詢(xún)示例與數(shù)據(jù)

,

集相關(guān)圖像的關(guān)聯(lián)圖像示例作為輸入提供了較為有效且豐富的信息歧義性小

。,,

因此返回的結(jié)果較有針對(duì)性且較為精準(zhǔn)基于示例的精準(zhǔn)檢索與基于內(nèi)容的圖像

檢索[5]或近似拷貝檢測(cè)

(content-basedimageretrieval,CBIR)(nearduplicate

[6]在形式上比較接近但在功能上有明顯區(qū)別如圖所示在基于內(nèi)

detection),。1-1,

容的圖像檢索和近似復(fù)制檢測(cè)中查詢(xún)圖像與數(shù)據(jù)集中的相關(guān)圖像存在全局的視

,

覺(jué)相似性而在示例檢索中查詢(xún)物體只與圖像的部分區(qū)域相似

。,。

示例檢索

(a)

基于內(nèi)容的圖像檢索近似復(fù)制檢測(cè)

(b)/

圖1-1示例檢索與基于內(nèi)容的圖像檢索的區(qū)別

3

··

值得注意的是本書(shū)研究的示例檢索與傳統(tǒng)的類(lèi)別檢索[7,8]也有所不同類(lèi)別

,。

檢索的目標(biāo)是查詢(xún)與圖像屬于同一類(lèi)別的物體示例檢索的目標(biāo)是查詢(xún)與圖像完

;

全一樣的物體

。

1.2.2標(biāo)簽檢索與定位

標(biāo)簽檢索與定位問(wèn)題中查詢(xún)以一個(gè)或多個(gè)標(biāo)簽作為輸入在大規(guī)模的圖像數(shù)

,,

據(jù)集中查找所有包含標(biāo)簽內(nèi)容的圖像用矩形框標(biāo)注出對(duì)應(yīng)的物體并按置信度排

,,

序返回給用戶不同于基于示例的搜索場(chǎng)景系統(tǒng)標(biāo)簽種類(lèi)多樣但類(lèi)型有限且每

。,,

一個(gè)被定義的標(biāo)簽都擁有少量訓(xùn)練圖像利用這些圖像系統(tǒng)訓(xùn)練圖像標(biāo)注算法

。,

對(duì)更大規(guī)模的圖像集合自動(dòng)進(jìn)行結(jié)構(gòu)化標(biāo)注從而方便圖像的管理與檢索標(biāo)簽

,。

檢索的核心在于設(shè)計(jì)圖像標(biāo)注算法根據(jù)訓(xùn)練圖像標(biāo)記內(nèi)容的豐富性可以把監(jiān)

。,

督信號(hào)分為強(qiáng)和弱兩類(lèi)如圖所示強(qiáng)監(jiān)督信號(hào)是指訓(xùn)練數(shù)據(jù)集中標(biāo)注了每

,1-2。

一個(gè)物體出現(xiàn)的位置然而人工標(biāo)注每個(gè)示例費(fèi)時(shí)費(fèi)力數(shù)據(jù)集的作者

。,。ILSVRC

們通過(guò)統(tǒng)計(jì)發(fā)現(xiàn)標(biāo)注每個(gè)示例的位置平均耗時(shí)約為[9,10]因此標(biāo)注的困難

,26s。,

使得算法不能方便地?cái)U(kuò)展到更多的類(lèi)別中弱監(jiān)督信號(hào)則是指訓(xùn)練圖像中只有圖

。

像級(jí)的標(biāo)簽表示圖中是否存在該類(lèi)物體但并未給出物體的數(shù)目和出現(xiàn)的準(zhǔn)確位

,

置弱監(jiān)督假設(shè)將對(duì)標(biāo)注的需求大幅弱化對(duì)于將標(biāo)簽檢索與定位技術(shù)進(jìn)行大規(guī)

。,

模應(yīng)用具有實(shí)際價(jià)值因此本書(shū)重點(diǎn)研究弱監(jiān)督信號(hào)下的標(biāo)簽檢索與定位

。,。

圖1-2強(qiáng)監(jiān)督學(xué)習(xí)與弱監(jiān)督學(xué)習(xí)的區(qū)別

值得注意的是本書(shū)研究的標(biāo)簽檢索與定位和傳統(tǒng)的圖像標(biāo)注問(wèn)題有兩方面

,

不同首先圖像標(biāo)注問(wèn)題中研究重點(diǎn)在于使每幅圖像返回的前K個(gè)標(biāo)簽盡可能

。,,

準(zhǔn)確[11]而在標(biāo)簽檢索問(wèn)題中研究重點(diǎn)在于使每個(gè)標(biāo)簽對(duì)應(yīng)的前K幅圖像盡可

。,

4

··

第1章大數(shù)據(jù)時(shí)代的目標(biāo)檢索及應(yīng)用

能準(zhǔn)確其次圖像標(biāo)注問(wèn)題中一個(gè)示例可以觸發(fā)多個(gè)標(biāo)簽例如由人臉可以同

。,,,

時(shí)觸發(fā)表情性別膚色等另外一些標(biāo)簽可能無(wú)法定位例如場(chǎng)景節(jié)日而本

、、。,,、。

書(shū)研究的標(biāo)簽檢索主要針對(duì)物體所研究的標(biāo)簽也是物體的標(biāo)簽進(jìn)而針對(duì)物體的

,,

可定位性和類(lèi)別的唯一性展開(kāi)研究在不引起歧義的條件下本書(shū)中用圖像標(biāo)注

。,

指代本書(shū)研究的物體標(biāo)注

。

1.2.3關(guān)鍵技術(shù)難題

在有限的數(shù)據(jù)集中定位目標(biāo)對(duì)人類(lèi)而言非常容易而對(duì)計(jì)算機(jī)而言則非常具

,,

有挑戰(zhàn)這是由圖像語(yǔ)義提取的復(fù)雜性造成的具體來(lái)說(shuō)體現(xiàn)在以下兩方面

。。,:

1.內(nèi)容理解與建模

物體的圖像在不同層次上存在不同程度的差異性不同類(lèi)的物體之間存在類(lèi)

別表象變化同類(lèi)別的不同物體之間存在個(gè)體表象變化如圖所示建立圖像

,,1-3。

的特征表示模型以同時(shí)反映不用程度的差異性一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)性核

心問(wèn)題

。

不同類(lèi)別的物體之間類(lèi)別表象變化示例

(a)

同類(lèi)別的不同物體之間的個(gè)體表象變化示例

(b)

圖1-3物體表象變化示例

圖像信息具有復(fù)雜的語(yǔ)義屬性從人的認(rèn)知角度來(lái)看對(duì)語(yǔ)義的認(rèn)知既包括

。,

簡(jiǎn)單的底層概念又有抽象程度較高的高層概念高層語(yǔ)義概念又包含物體場(chǎng)

,。、

景事件等不同層次和粒度因此人的視覺(jué)對(duì)語(yǔ)義的分析和理解是不同層次不

、。,、

同粒度語(yǔ)義信息的交互過(guò)程反觀計(jì)算機(jī)視覺(jué)的特征模型往往以邊緣顏色紋

。,、、

理等底層特征為基本單元向上構(gòu)建復(fù)雜語(yǔ)義和抽象概念

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論