




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、零樣本學(xué)習(xí)綜述近年來(lái),海量數(shù)據(jù)資源的不斷涌現(xiàn)和機(jī)器計(jì)算能力的不斷提高,給正在興起的機(jī)器學(xué)習(xí)技 術(shù)帶來(lái)了巨大的發(fā)展機(jī)遇與挑戰(zhàn)。隨著大量研究成果已投入實(shí)際應(yīng)用,機(jī)器學(xué)習(xí)技術(shù)催生 出人臉識(shí)別、智慧醫(yī)療、智慧交通等多個(gè)前沿的商業(yè)化應(yīng)用。機(jī)器學(xué)習(xí)旨在通過(guò)計(jì)算機(jī)來(lái) 模擬或者實(shí)現(xiàn)人類(lèi)的學(xué)習(xí)行為,讓計(jì)算機(jī)具備能夠從海量數(shù)據(jù)中獲取新的知識(shí)的能力并不 斷地改善自身的性能。這也使得傳統(tǒng)的基于監(jiān)督的機(jī)器學(xué)習(xí)算法在某些識(shí)別(人臉識(shí)別、 物體識(shí)別)和分類(lèi)等方面的性能已接近甚至超過(guò)人類(lèi)。然而擁有如此高超的性能所需要付出的代價(jià)是大量的人工標(biāo)記數(shù)據(jù)本文主要綜述了零樣本學(xué)習(xí)的理論體系和應(yīng)用體系。組織結(jié)構(gòu)如下:第 1章論述零樣本理
2、 論體系中的相關(guān)基礎(chǔ)概念。第 2章列舉經(jīng)典的零樣本學(xué)習(xí)模型。第 3章構(gòu)建零樣本學(xué)習(xí)的 應(yīng)用體系。第4章討論零樣本學(xué)習(xí)應(yīng)用中的挑戰(zhàn),并對(duì)研究方向進(jìn)行了展望。1零樣本相關(guān)基礎(chǔ)理論研究背景在日常生活中,人類(lèi)能夠相對(duì)容易的根據(jù)已經(jīng)獲取的知識(shí)對(duì)新出現(xiàn)的對(duì)象進(jìn)行識(shí)別而這種根據(jù)以往獲取的信息對(duì)新出現(xiàn)的事物進(jìn)行推理識(shí)別的能力,在2009年被Palatucci正式提出,并取名為零樣本學(xué)習(xí)( Zero-shot Learning , ZSL)定義將上述的推理過(guò)程抽象為通過(guò)已知信息加上輔助信息進(jìn)而推斷出新出現(xiàn)對(duì)象的類(lèi)別。 因此,推理過(guò)程中已知的信息(貓、斑馬、金毛)為訓(xùn)練集,輔助信息(貓的外形、黑色 的條紋、金毛的
3、顏色)為訓(xùn)練集與測(cè)試集相關(guān)聯(lián)的語(yǔ)義信息由于零樣本學(xué)習(xí)依賴(lài)的已知知識(shí)仍是一種帶標(biāo)簽的數(shù)據(jù),我們可以得知零樣本學(xué)習(xí)是一種 特殊的監(jiān)督學(xué)習(xí)技術(shù)。對(duì)比傳統(tǒng)的監(jiān)督學(xué)習(xí),其定義為關(guān)鍵問(wèn)題由定義可知,零樣本學(xué)習(xí)是一種特殊的監(jiān)督學(xué)習(xí)。其存在的問(wèn)題除了傳統(tǒng)的監(jiān)督學(xué) 習(xí)中固有的過(guò)擬合問(wèn)題外領(lǐng)域偏移問(wèn)題(Domain Shift )同一事物在不同領(lǐng)域的視覺(jué)效果相差太大。2015年,F(xiàn)u等人目前學(xué)者們提出的解決辦法主要有三種:第一種是在訓(xùn)練過(guò)程中加入不可見(jiàn)類(lèi)數(shù)據(jù)當(dāng)然,上述的解決方案都是建立在可見(jiàn)類(lèi)與不可見(jiàn)類(lèi)的數(shù)據(jù)分布在樣本級(jí)別上是一致的。 而樞紐點(diǎn)問(wèn)題(Hubness)某個(gè)點(diǎn)成為大多數(shù)點(diǎn)的最鄰近點(diǎn)。2014年,Din
4、u等人目前學(xué)者們提出的解決辦法主要有兩種:第一種是使用嶺回歸模型,建立從低維向高維映 射,在計(jì)算機(jī)視覺(jué)中則為建立從語(yǔ)義到視覺(jué)的映射,這種方法也稱(chēng)為反向映射此外,非主流方法有廣義零樣本學(xué)習(xí)(Generalized Zero-Shot Learning,GZSL )訓(xùn)練集類(lèi)別與測(cè)試集類(lèi)別互斥。本章第二節(jié)已經(jīng)對(duì)廣義零樣本學(xué)習(xí)的定義進(jìn)行描述 以及同零樣本和傳統(tǒng)監(jiān)督學(xué)習(xí)進(jìn)行比較。零樣本學(xué)習(xí)的前提條件是測(cè)試集與訓(xùn)練集沒(méi)有交 集,即可見(jiàn)類(lèi)等于訓(xùn)練集,不可見(jiàn)類(lèi)等于測(cè)試集。這意味著測(cè)試階段,如果樣本來(lái)自訓(xùn)練 集,則無(wú)法預(yù)測(cè)。這在實(shí)際生活中是不現(xiàn)實(shí)的。因此, 2019年,Wang等人目前學(xué)者們提出的解決方法主要有
5、兩種,第一種是先通過(guò)分類(lèi)器,將測(cè)試集中可見(jiàn)類(lèi)與不 可見(jiàn)類(lèi)數(shù)據(jù)進(jìn)行劃分。如果是可見(jiàn)類(lèi)數(shù)據(jù),則直接使用分類(lèi)器進(jìn)行分類(lèi);如果是不可見(jiàn)類(lèi) 數(shù)據(jù),則利用輔助信息進(jìn)行預(yù)測(cè)語(yǔ)義間隔(Semantic Gap)語(yǔ)義空間與視覺(jué)空間流行構(gòu)成不同,相互映射有間隔。零樣本學(xué)習(xí)預(yù)測(cè)不可見(jiàn)類(lèi)數(shù) 據(jù)一般的解決方案是構(gòu)建圖像與語(yǔ)義之間的關(guān)系。2017年,Li等人目前學(xué)者們提出的主要解決方案是將從圖像空間提取的視覺(jué)特征與語(yǔ)義空間提取的語(yǔ)義信 息映射到公共空間中,并將兩者進(jìn)行對(duì)齊常用數(shù)據(jù)集目前,零樣本學(xué)習(xí)在不同的領(lǐng)域得到了廣泛應(yīng)用。本節(jié)根據(jù)應(yīng)用的不同類(lèi)型,文本、 圖像、視頻,分別介紹其在零樣本學(xué)習(xí)中常用的數(shù)據(jù)集。文本常用數(shù)據(jù)集.
6、LASER ( Language-Agnostic Sentence Representations )語(yǔ)言數(shù)據(jù)集。LASERJ28種不同字符系統(tǒng)的90多種語(yǔ)言。在零樣本學(xué)習(xí)任務(wù)中 主要用于開(kāi)發(fā)該數(shù)據(jù)庫(kù)中未包含的小語(yǔ)種。2.WordNet英文詞語(yǔ)數(shù)據(jù)集。 WordNet包括超過(guò)15萬(wàn)個(gè)詞,20萬(wàn)個(gè)語(yǔ)義關(guān)系。語(yǔ)義關(guān)系指的是名詞、 動(dòng)詞、形容詞和副詞之間的語(yǔ)義關(guān)系。零樣本學(xué)習(xí)主要使用的是 WordNet的名詞部分。3.ConceptNet常識(shí)數(shù)據(jù)集。ConceptNet主要由三元組構(gòu)成,包括超過(guò)2100萬(wàn)個(gè)關(guān)系描述、800萬(wàn)個(gè)節(jié)點(diǎn)以及21個(gè)關(guān)系。止匕外,其要素有概念、詞、短語(yǔ)、斷言、關(guān)系,邊等圖像
7、常用數(shù)據(jù)集.AWA (Animal with Attribute )動(dòng)物圖像。AWM 30475張動(dòng)物圖片構(gòu)成,其中有 50個(gè)動(dòng)物類(lèi)別,每個(gè)類(lèi)別至少 有92個(gè)示例,85個(gè)屬性。止匕外,AWA還提供7種不同的特征。由于 AWA有版權(quán)保護(hù), 所以擴(kuò)展數(shù)據(jù)集AWA電運(yùn)而生。AWA包括37322張圖片,與AWA同樣擁有50個(gè)動(dòng)物類(lèi)別 和85個(gè)屬性。一般將40類(lèi)作為訓(xùn)練數(shù)據(jù)的類(lèi)別,10類(lèi)作為測(cè)試數(shù)據(jù)的類(lèi)別。.CUB (Caltech-UCSD-Birds-200-2011 )鳥(niǎo)類(lèi)細(xì)粒度圖像。CUBft 11788張鳥(niǎo)類(lèi)圖片構(gòu)成,其中有 200類(lèi)鳥(niǎo)類(lèi)類(lèi)別,312個(gè) 屬性。一般將150類(lèi)作為訓(xùn)練數(shù)據(jù)的類(lèi)別,
8、50類(lèi)作為測(cè)試數(shù)據(jù)的類(lèi)別。.aPY (aPascal-aYahoo )混合類(lèi)別圖像。aPY由15339張圖片構(gòu)成,其中有32個(gè)類(lèi)別,64個(gè)屬性。并且明 確規(guī)定20個(gè)類(lèi)共12695張照片作為訓(xùn)練數(shù)據(jù)的類(lèi)別,12個(gè)類(lèi)共2644張照片作為測(cè)試數(shù)據(jù)的類(lèi)別4.SUN (SUN Attribute Dataset )場(chǎng)景細(xì)粒度圖像。SUN由14340張場(chǎng)景圖片構(gòu)成,其中包括 717個(gè)場(chǎng)景類(lèi)別,每個(gè) 類(lèi)別20張示例,102個(gè)屬性。一般將645類(lèi)作為訓(xùn)練數(shù)據(jù)的類(lèi)別,72類(lèi)作為測(cè)試數(shù)據(jù)的 類(lèi)別。5.ImageNet混合類(lèi)別圖像。ImageNet由超過(guò)1500萬(wàn)張高分辨率圖片構(gòu)成,其中有 22000個(gè)類(lèi) 別,屬于
9、大數(shù)據(jù)容量數(shù)據(jù)集。因此,一般使用其子數(shù)據(jù)集ILSVRC IVSVRC由100萬(wàn)張圖片構(gòu)成,其中有1000個(gè)類(lèi)別,每個(gè)類(lèi)別1000張示例。一般將800類(lèi)作為訓(xùn)練數(shù)據(jù)的類(lèi)別, 200類(lèi)作為測(cè)試數(shù)據(jù)的類(lèi)別。1.4.3視頻常用數(shù)據(jù)集1.UCF101主要應(yīng)用于人類(lèi)行為識(shí)別。UCF101由13320視頻片段和101個(gè)注釋類(lèi)組成,總時(shí)長(zhǎng)為 27個(gè)小時(shí)。在 THUMOS-20142.ActivityNet主要用于人類(lèi)行為識(shí)別。ActivityNet 由27801個(gè)視頻片段剪輯組成,擁有 203個(gè)活動(dòng)類(lèi) (含注釋),總時(shí)長(zhǎng)為 849個(gè)小時(shí),其主要優(yōu)勢(shì)是擁有更細(xì)粒度的人類(lèi)行為。.CCV (Columbia Con
10、sumer Video )主要用于社會(huì)活動(dòng)分類(lèi)。CCV由9317個(gè)視頻片段組成,擁有 20個(gè)活動(dòng)類(lèi)(含注釋),歸屬于事件、場(chǎng)景、對(duì)象三大類(lèi)。.USAA (Unstructured Social Activity Attribute)主要用于社會(huì)活動(dòng)分類(lèi)。USAA對(duì)CCV(Columbia Consumer Video )中8個(gè)語(yǔ)義類(lèi)各選取100個(gè)視頻進(jìn)行屬性標(biāo)注。一共有69個(gè)屬性,歸屬于動(dòng)作、對(duì)象、場(chǎng)景、聲音、相機(jī)移動(dòng)五大類(lèi)。2經(jīng)典模型本章通過(guò)介紹零樣本學(xué)習(xí)在 3個(gè)發(fā)展階段的經(jīng)典模型,為第 3章應(yīng)用體系的構(gòu)建提 供理論體系的支撐。這 3個(gè)發(fā)展階段分別是,第一,基于屬性的零樣本學(xué)習(xí);第二,基于
11、嵌入的零樣本學(xué)習(xí);第三,基于生成模型的零樣本學(xué)習(xí)?;趯傩缘牧銟颖緦W(xué)習(xí)2013年Lampert等人提出基于屬性的零樣本學(xué)習(xí)方法I.Direct Attribute Prediction(DAP)DAP型DAP型在挑選樣本方面,與 AWAS據(jù)集根據(jù)抽象名稱(chēng)指定動(dòng)物和屬性不同,其更細(xì)致的 考慮了示例圖像,根據(jù)圖像來(lái)指定動(dòng)物與屬性,并使得示例圖像中動(dòng)物出現(xiàn)在最突出的位 置。在數(shù)據(jù)集配置方面將優(yōu)化后的數(shù)據(jù)集類(lèi)別分為50%H1練集和50%M試集。最終實(shí)驗(yàn)取得了多類(lèi)別65.9%的準(zhǔn)確率。通過(guò)利用屬性,DAP真型成功的將沒(méi)有數(shù)據(jù)的類(lèi)別進(jìn)行預(yù)測(cè),并且具有較高的精度。但是 DAP有三個(gè)明顯的缺點(diǎn)。其一,對(duì)于新加
12、入的可見(jiàn)類(lèi)數(shù)據(jù),屬性分類(lèi)器需要重新訓(xùn)練,無(wú) 法對(duì)分類(lèi)器進(jìn)行優(yōu)化和改善。其二,對(duì)于除了屬性外的其他輔助信息(如網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)據(jù) 集Wordnet),難以使用。其三,由于使用了屬性作為中間層,對(duì)于預(yù)測(cè)屬性,模型能夠 做到最優(yōu)。但對(duì)于預(yù)測(cè)類(lèi)別,卻不一定是最好的。與DA唯型一同出現(xiàn)的還有IAP與DAP模型一樣,IAP模型也成功的預(yù)測(cè)出沒(méi)有數(shù)據(jù)的類(lèi)別,并且比DAP模型更加的靈活,簡(jiǎn)單。當(dāng)有新類(lèi)別需要進(jìn)行訓(xùn)練時(shí),IAP模型的訓(xùn)練時(shí)間成本較小。但是 IAP模型在實(shí)驗(yàn)中的效果并沒(méi)有DA暇型的好。在基于屬性的零樣本學(xué)習(xí)中,除了經(jīng)典的DA可口 IAP模型,基于嵌入的零樣本學(xué)習(xí)隨著機(jī)器學(xué)習(xí)的不斷發(fā)展,計(jì)算機(jī)視覺(jué)逐漸成
13、為研究者們的關(guān)注熱點(diǎn)。只有屬性的零樣本 學(xué)習(xí),遠(yuǎn)不能滿(mǎn)足對(duì)圖像處理的需求,而且基于屬性的零樣本學(xué)習(xí)也存在著許多問(wèn)題。因 此,零樣本學(xué)習(xí)提出基于嵌入的零樣本學(xué)習(xí),將語(yǔ)義信息與圖像信息緊密結(jié)合起來(lái)。主要 的方法有語(yǔ)義信息嵌入圖像空間、圖像信息嵌入語(yǔ)義空間、語(yǔ)義信息與圖像信息嵌入公共 空間等。在圖像信息嵌入到語(yǔ)義空間經(jīng)常使用的訓(xùn)練函數(shù)有單線性函數(shù)、雙線性函數(shù)、非線性函數(shù) 等,損失函數(shù)有排序損失,平方損失等。.Embarrassingly Simple Zero-Shot Learning(ESZSL)ESZSL模型ESZSL模型在挑選樣本方面,直接選擇原始的AWA aPY、SUNK據(jù)集進(jìn)行訓(xùn)練以及測(cè)
14、試。最終實(shí)驗(yàn)在AW徽據(jù)集上獲得多類(lèi)別 49.3%的準(zhǔn)確率,比DA唯型多7.8個(gè)百分點(diǎn);在 SU據(jù)集上則獲得多類(lèi)別 65.75%的準(zhǔn)確率,比DA唯型多13個(gè)百分點(diǎn);而在aPY數(shù)據(jù) 集由于準(zhǔn)確度太低,不具備參考價(jià)值。正因?yàn)镋SZSL模型的簡(jiǎn)單,使得在處理大規(guī)模數(shù)據(jù)上的表現(xiàn)不佳,并且每新來(lái)一個(gè)不可見(jiàn) 類(lèi),就需要為其訓(xùn)練一個(gè)映射。而.Deep Visual Semantic Embedding(De ViSE)DeViSE模型DeViSE模型由于使用了 skim-gram模型,其在語(yǔ)義上具有很強(qiáng)的泛化效果。這也使得它即 使預(yù)測(cè)出來(lái)的標(biāo)簽錯(cuò)誤了,結(jié)果也是非常接近正確值。但是,其圖像分類(lèi)器所采用的神經(jīng) 網(wǎng)
15、絡(luò)并非最佳,可以將其換為目前最好的圖像分類(lèi)器,例如在WACV 2021會(huì)議上由DEViSE模型在挑選數(shù)據(jù)集方面,選擇使用ImageNet的子集ILSVRC在數(shù)據(jù)集配置方面,將數(shù)據(jù)集分為50%勺訓(xùn)練集以及50%勺測(cè)試集。但最終實(shí)驗(yàn)由于分類(lèi)器還不夠成熟,沒(méi)有 取得很好的精確度。.Attribute Label Embedding(ALE)ALE模型ALE模型在挑選樣本方面,選擇 AWAU及CUB兩個(gè)動(dòng)物數(shù)據(jù)集。在數(shù)據(jù)集配置方面,將 AW徽據(jù)集分為40個(gè)訓(xùn)練類(lèi)和10個(gè)測(cè)試類(lèi),將CUB&為150個(gè)訓(xùn)練類(lèi)和50個(gè)測(cè)試類(lèi)。最 終實(shí)驗(yàn)在這兩個(gè)數(shù)據(jù)集上能夠取得多類(lèi)別49.7%口 20.1%的精確度。ALE模型
16、的缺點(diǎn)也是顯而易見(jiàn)的。其一,標(biāo)簽所用屬性描述是人為定義的,如果兩個(gè)標(biāo)簽 之間共享的屬性基本一致,則會(huì)導(dǎo)致它們?cè)趯傩钥臻g中難以區(qū)分。其二,從圖像中提取的 不同特征可能對(duì)于同個(gè)屬性。.Structured Joint Embedding(SJE)SJE模型SJE模型在挑選樣本方面,選擇 AWA CUBl及斯坦福大學(xué)推出的狗集三個(gè)動(dòng)物數(shù) 據(jù)集。在數(shù)據(jù)集配置方面,將AW徽據(jù)集分為40個(gè)訓(xùn)練類(lèi)和10個(gè)測(cè)試類(lèi),將CU盼為150個(gè)訓(xùn)練類(lèi)和50個(gè)測(cè)試類(lèi)。最終實(shí)驗(yàn)在 AW徽據(jù)集中最高可獲得 66.7%的準(zhǔn)確率;能在 CU吸據(jù)集中最高獲得50.1%的準(zhǔn)確率。由于SJE模型計(jì)算每一類(lèi)語(yǔ)義空間與特征空間之間的兼容函數(shù)
17、,使得SJE模型能夠進(jìn)行細(xì)粒度識(shí)別。但也正因?yàn)槿绱?,其必須在所有兼容函?shù)計(jì)算完成后才能進(jìn)行,這使得它的效 率較為低下。.Latent Embeddings(LatEm)LatEm模型LatEm模型在挑選樣本方面,選擇 AWA CUB以及斯坦福大學(xué)推出的狗集三個(gè)動(dòng)物數(shù)據(jù)集。 最終實(shí)驗(yàn)在AW徽據(jù)集中最高可獲得 71.9%的準(zhǔn)確率;能在CU吸據(jù)集中最高獲得45.5% 的準(zhǔn)確率。由于LatEm模型考慮了圖像的重要信息,使得它在細(xì)粒度分類(lèi)上表現(xiàn)出來(lái)的效果在當(dāng)下依 然能夠達(dá)到不錯(cuò)的效果。當(dāng)然,在語(yǔ)義一致性以及空間對(duì)齊方面的問(wèn)題也使得這個(gè)模型有 些瑕疵。.Semantic Similarity Embedd
18、ing(SSE)SSE模型SSE模型在挑選樣本方面,選擇 AWA CUB aPY SUN四個(gè)數(shù)據(jù)集。在數(shù)據(jù)集配置上AWA攵據(jù)集按50班訓(xùn)練集,50附測(cè)試集劃分,CU吸據(jù)集分為150個(gè)訓(xùn)練類(lèi)和50個(gè)測(cè)試類(lèi), aPY數(shù)據(jù)集與AWAf同,SUNK據(jù)集中10類(lèi)作為測(cè)試集。最終實(shí)驗(yàn)在四個(gè)數(shù)據(jù)集上分別最 高可獲得 76.33%、40.3%、46.23%、82.5%準(zhǔn)確率。SSE模型能夠應(yīng)用于大規(guī)模數(shù)據(jù)集,7.Joint Latent Similarity Embedding(JLSE)JLSE模型JLSE模型在挑選樣本方面,選擇 AWA CUB aPY SUN四個(gè)數(shù)據(jù)集。在數(shù)據(jù)集配置上與 SSE模型相同。
19、最終實(shí)驗(yàn)在四個(gè)數(shù)據(jù)集上分別最高可獲得80.46%、42.11%、50.35%、83.83%準(zhǔn)確率。8.Cross Modal Transfer(CMT)CM哪型CMT真型在挑選樣本方面,選擇 CIFAR10數(shù)據(jù)集。最終實(shí)驗(yàn)在不可見(jiàn)類(lèi)分類(lèi)上最高可獲得 30%勺準(zhǔn)確率。9.Deep Embedding Model(DEM)DE咖型DEMgl型在挑選樣本方面,選擇 AWA CU評(píng)口 ImageNet子集ILSVRC三個(gè)數(shù)據(jù)集。在數(shù)據(jù)集 配置上AWA CU吸據(jù)集采用SJE模型配置,ImageNet子集采用360個(gè)類(lèi)作為測(cè)試類(lèi)。最 終實(shí)驗(yàn)在三個(gè)數(shù)據(jù)集上分別最高可獲得 88.1%、59.0%、60.7%準(zhǔn)
20、確率。DEM真型除了有減緩樞紐點(diǎn)問(wèn)題的優(yōu)點(diǎn)外,還能夠適用于多個(gè)模態(tài),并且提供端到端的優(yōu) 化,能夠帶來(lái)更好的嵌入空間。但是,模型也只是停留在理論層面的優(yōu)勢(shì),在實(shí)踐過(guò)程中, 對(duì)零樣本學(xué)習(xí)的效果不佳。以上的模型都是基于嵌入的模型,它們之間的比較如表2所示。2.3基于生成模型的零樣本學(xué)習(xí)近年來(lái),生成模型這一發(fā)現(xiàn),引爆了計(jì)算機(jī)視覺(jué)許多領(lǐng)域,眾多具有高實(shí)用價(jià)值的應(yīng)用脫穎而出。現(xiàn)階段生成模型有生成對(duì)抗網(wǎng)絡(luò)( Generative Adversarial Network,GAN )、自 動(dòng)編碼器(AutoEncoder,AE )、生成流(FLOW。而在零樣本學(xué)習(xí)領(lǐng)域,將語(yǔ)義信息嵌入 到圖像空間經(jīng)常使用生成模型
21、。在獲取已知類(lèi)視覺(jué)信息與語(yǔ)義信息的前提下,通過(guò)已知類(lèi) 與不可知類(lèi)語(yǔ)義的連貫性,生成不可見(jiàn)類(lèi)的樣本,使得零樣本學(xué)習(xí)變?yōu)閭鹘y(tǒng)的監(jiān)督學(xué)習(xí), 將生成模型運(yùn)用到極致。1.Semantic AutoEncoder(SAE)零樣本學(xué)習(xí)與 AE的結(jié)合。SAE模型 正是因?yàn)槿绱耍琒AE模型不僅模型簡(jiǎn)單,效果好,還能夠運(yùn)用于廣義零樣本學(xué)習(xí),更能夠 解決領(lǐng)域漂移問(wèn)題。但是 SAE模型所使用的語(yǔ)義信息與圖像信息的嵌入函數(shù)過(guò)于簡(jiǎn)單且固 定,無(wú)法生成高質(zhì)量圖片,不能十分精確的預(yù)測(cè)不可見(jiàn)類(lèi)樣本。SAE模型在挑選樣本方面,選擇 AWA CUB aPY SU明口 ImageNet子集ILSVRC四個(gè)數(shù)據(jù)集。 在數(shù)據(jù)集配置上采用
22、章節(jié) 1第4小節(jié)的一般配置。最終實(shí)驗(yàn)在五個(gè)數(shù)據(jù)集上分別最高可獲 得 84.7%、61.4%、55.4%、91.5%、46.1%準(zhǔn)確率。2.f-x generative adversarial network(f- xGAN)零樣本學(xué)習(xí)與生成對(duì)抗網(wǎng)絡(luò)(GAN的結(jié)合。f-xGAN模型在CVPR 2018會(huì)議上提出,指的 是 f-GAN、f-WGAN f-CLSWGANI型f-xGAN模型沒(méi)有訓(xùn)練語(yǔ)義與圖像之間的嵌入關(guān)系,而是通過(guò)生成特征,將圖像分類(lèi)轉(zhuǎn)化為 圖像特征分類(lèi)來(lái)進(jìn)行零樣本學(xué)習(xí)。生成特征方法的好處在于生成特征數(shù)量無(wú)限,計(jì)算量小, 訓(xùn)練時(shí)間少,效果好,還能夠運(yùn)用于廣泛零樣本學(xué)習(xí)。但由于f-xG
23、AN模型使用的是生成對(duì)抗網(wǎng)絡(luò),生成數(shù)據(jù)的概率分布可能并不在給定數(shù)據(jù)上,會(huì)導(dǎo)致出現(xiàn)模型奔潰。f-xGAN模型在挑選樣本方面,選擇 AWA CUB SUN FLO(Oxford Flowers) 四個(gè)數(shù)據(jù)集。在數(shù)據(jù)集配置上采用章節(jié)1第4小節(jié)的一般配置。最終實(shí)驗(yàn)在四個(gè)數(shù)據(jù)集上分別最高可獲得 69.9%、61.5%、62.1%、71.2%準(zhǔn)確率。3.Invertible Zero-shot Flow(IZF)零樣本學(xué)習(xí)與流模型(FLOW的結(jié)合。IZF模型IZF模型通過(guò)雙向映射,充分的利用已知類(lèi)信息,不僅解決了生成對(duì)抗網(wǎng)絡(luò)在零樣本下學(xué) 習(xí)應(yīng)用中出現(xiàn)的模式奔潰問(wèn)題,還解決了自動(dòng)編碼器在零樣本學(xué)習(xí)中無(wú)法生成
24、高質(zhì)量圖片 問(wèn)題。IZF模型更是通過(guò)擴(kuò)大已知類(lèi)與不可知類(lèi)的分布,解決了零樣本學(xué)習(xí)固有的領(lǐng)域漂 移問(wèn)題。但是IZF模型與傳統(tǒng)的流模型 NICEIZF模型在挑選樣本方面,選擇 AWA1 AWA2 CUB aPY SUNE個(gè)數(shù)據(jù)集。在數(shù)據(jù)集配置 上采用章節(jié)1第4小節(jié)的一般配置。最終實(shí)驗(yàn)在五個(gè)數(shù)據(jù)集上分別最高可獲得80.5%、77.5%、68.0%、60.5%、57%t確率。綜上所述,在預(yù)測(cè)不可見(jiàn)類(lèi)數(shù)據(jù)標(biāo)簽方面,基于屬性的零樣本學(xué)習(xí)多采用兩階段式, 嵌入零樣本學(xué)習(xí)多采用轉(zhuǎn)移到能夠比較的空間方式,生成模型零樣本學(xué)習(xí)多采用生成不可 見(jiàn)類(lèi)樣本方式。在數(shù)據(jù)集方面,小數(shù)據(jù)使用AWA CUB aPY SUN如需進(jìn)
25、行細(xì)粒度識(shí)別,則使用CUB SUN數(shù)據(jù)集。大數(shù)據(jù)集使用ImageNet。并且搭配常用的配置進(jìn)行訓(xùn)練與測(cè)試。 在評(píng)估指標(biāo)方面,采用劃分傳統(tǒng)零樣本學(xué)習(xí)以及廣義零樣本學(xué)習(xí)的配置,以可見(jiàn)類(lèi)、不可 見(jiàn)類(lèi)每類(lèi)準(zhǔn)確率為指標(biāo),是一個(gè)零樣本學(xué)習(xí)模型最佳的評(píng)估方案。在實(shí)現(xiàn)效果方面,上述 模型中在廣義零樣本配置下,不可見(jiàn)類(lèi)每類(lèi)準(zhǔn)確率在AWA CUB aPY SUNK據(jù)集中最高的分別是IZF、IZF、DEM IZF模型??梢?jiàn)類(lèi)準(zhǔn)確率則是 DAP IZF、SAE IZF模型。在局 限性方面,基于屬性的模型取決于分類(lèi)器的準(zhǔn)確率,基于嵌入的模型取決于提供的語(yǔ)義信 息質(zhì)量,基于生成模型的模型取決于生成圖片的智力。零樣本學(xué)習(xí)經(jīng)
26、典模型發(fā)展如圖17所示。零樣本學(xué)習(xí)模型比較如表 3所示。3三維應(yīng)用體系本節(jié)主要介紹零樣本學(xué)習(xí)在三個(gè)維度的應(yīng)用。第一維是詞。使用零樣本學(xué)習(xí)技術(shù)對(duì)詞作處理,并應(yīng)用于多個(gè)領(lǐng)域;第二維是圖片。在第一維應(yīng)用中產(chǎn)生的文本信息可以作為語(yǔ)義信息,嵌入到視覺(jué)空間中,推進(jìn)零樣本學(xué)習(xí)在圖片處理過(guò)程的應(yīng)用。第三維是視頻。視頻中的每一幀可作為圖片。將視頻切分為圖片,運(yùn)用第二維的方法,使零樣本學(xué)習(xí)在視 頻方面的應(yīng)用更進(jìn)一步。3.1 一維一一詞.對(duì)話系統(tǒng)對(duì)話是由多個(gè)詞組成。在對(duì)話系統(tǒng)中,涉及的技術(shù)有語(yǔ)音識(shí)別( ASR、口語(yǔ)理解(SLU)、 對(duì)話管理(DM、自然語(yǔ)言生成(NLG、文本生成語(yǔ)音(TTS)。按照流水線結(jié)構(gòu)組成對(duì)
27、話系統(tǒng)如圖18所示。而零樣本學(xué)習(xí)對(duì)對(duì)話系統(tǒng)的應(yīng)用的貢獻(xiàn)也是十分巨大的。例如.機(jī)器翻譯語(yǔ)言是詞的多種形式。在機(jī)器翻譯中,F(xiàn)aceBook開(kāi)發(fā)了一款包含90多種語(yǔ)言和28種不同字母表編寫(xiě)的工具包一一LASER該模型的原理是將所有語(yǔ)言使用多層BiLstm進(jìn)行訓(xùn)練。LASE所有語(yǔ)言嵌入與傳統(tǒng)單語(yǔ)言嵌入的區(qū)別如圖19所示。在介名H文本中,LASER!先通過(guò)英語(yǔ)這一語(yǔ)種的數(shù)據(jù)進(jìn)行訓(xùn)練,然后應(yīng)用于中文、俄文、越南語(yǔ)等語(yǔ)言上,最終都取得 了很好的結(jié)果。這個(gè)模型的成功說(shuō)明對(duì)于一些沒(méi)有樣本甚至早已不可考究的生僻語(yǔ)種(如 斯瓦西里語(yǔ)),可以通過(guò)已知語(yǔ)種的信息對(duì)生僻語(yǔ)種進(jìn)行推理翻譯,進(jìn)而實(shí)現(xiàn)零樣本學(xué)習(xí) 的應(yīng)用價(jià)值。.
28、文本分類(lèi)文本是由多個(gè)、多種詞組成的。在文本分類(lèi)中,3.2二維圖像.圖像檢索在圖像檢索方面,涉及的技術(shù)有基于文本的圖像檢索技術(shù)以及基于圖像內(nèi)容的圖像檢索技 術(shù)。.目標(biāo)識(shí)別在目標(biāo)識(shí)別方面,.語(yǔ)義分割/圖像分割在語(yǔ)義分割方面,在圖像分割方面,在2021年的CVP心議上,Ye等人提出零樣本圖像分割的解決方 案一一基于背景感知的檢測(cè)-分割算法,并且文獻(xiàn)定義了零樣本下圖像分割的標(biāo)準(zhǔn),為數(shù) 據(jù)樣本難以獲取的兩個(gè)代表性領(lǐng)域一一醫(yī)療以及工業(yè)后續(xù)的發(fā)展提供可行性方案。.3-維視頻.人體行為識(shí)別人體行為識(shí)別領(lǐng)域,由于收集和標(biāo)注視頻中行為是十分困難且費(fèi)力的工作,零樣本學(xué)習(xí)通 過(guò)文本的描述等信息可實(shí)現(xiàn)無(wú)樣本識(shí)別大受歡迎
29、.超分辨率超分辨率領(lǐng)域,零樣本學(xué)習(xí)概念的引入,使得這個(gè)領(lǐng)域有了突破性的進(jìn)展。超分辨率技術(shù) 如圖20所示。與傳統(tǒng)的超分辨率技術(shù)一一提供高分辨率以及其對(duì)應(yīng)的低分辨率樣本進(jìn)行 訓(xùn)練不同,零樣本超分辨率技術(shù)只需要提供低分辨率樣本,然后通過(guò)退化(生成)模型得 到更低分辨率的樣本后進(jìn)行訓(xùn)練即可。零樣本超分辨率技術(shù)目前應(yīng)用于多個(gè)領(lǐng)域,如在公 共安全領(lǐng)域?qū)z像頭抓拍到的視頻進(jìn)行超分辨率,以便公共安全部門(mén)進(jìn)行識(shí)別;在醫(yī)療領(lǐng) 域?qū)︶t(yī)生遠(yuǎn)程會(huì)診的視頻進(jìn)行超分辨率,恢復(fù)重要的局部細(xì)節(jié)4挑戰(zhàn)與未來(lái)方向作為新興的研究領(lǐng)域,零樣本學(xué)習(xí)已經(jīng)具備了較為完整的理論體系和實(shí)際應(yīng)用。根據(jù)嵌入 方式的不同,其算法主要分為三大類(lèi),包括語(yǔ)
30、義空間到視覺(jué)空間嵌入、視覺(jué)空間到語(yǔ)義空間嵌入和語(yǔ)義空間/視覺(jué)空間到第三公共空間嵌入。語(yǔ)義空間、視覺(jué)空間以及第三方空間, 在機(jī)器學(xué)習(xí)領(lǐng)域也稱(chēng)為模態(tài)。由于受到模態(tài)內(nèi)部的數(shù)據(jù)噪聲、跨模態(tài)間數(shù)據(jù)的異構(gòu)性以及 跨模態(tài)導(dǎo)致的信息丟失等影響,使得零學(xué)習(xí)領(lǐng)域的性能仍具有較大的提升空間。目前,零 樣本學(xué)習(xí)領(lǐng)域中面臨的主要挑戰(zhàn)如下:.由于零樣本學(xué)習(xí)需要進(jìn)行跨模態(tài)間的數(shù)據(jù)分析,因此,如何有效化解第一章第三節(jié)所提 到的語(yǔ)義間隔,將不同模態(tài)信息對(duì)齊并映射到相同的特征空間成為首要解決的問(wèn)題。為此, 研究人員分別提出了三種嵌入方案進(jìn)行解決:語(yǔ)義到視覺(jué)的嵌入方法將可見(jiàn)類(lèi)和不可見(jiàn)類(lèi) 的語(yǔ)義特征嵌入到同一個(gè)視覺(jué)空間進(jìn)行對(duì)比;視覺(jué)到語(yǔ)義的嵌入方法將可見(jiàn)類(lèi)和不可見(jiàn)類(lèi) 的視覺(jué)特征嵌入到同一個(gè)語(yǔ)義空間進(jìn)行對(duì)比;語(yǔ)義特征/視覺(jué)特征到第三方公共空間嵌入將語(yǔ)義特征和視覺(jué)特征同時(shí)嵌入到同一個(gè)第三空間進(jìn)行比對(duì)。這些方法很好的解決了多模 態(tài)數(shù)據(jù)在比對(duì)時(shí)信息不對(duì)稱(chēng)的問(wèn)題,然而,這些方法僅簡(jiǎn)單地對(duì)跨模態(tài)數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 湖南司法警官職業(yè)學(xué)院《室內(nèi)設(shè)計(jì)基礎(chǔ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 浙江橫店影視職業(yè)學(xué)院《生物儀器原理與使用》2023-2024學(xué)年第二學(xué)期期末試卷
- 重慶幼兒師范高等專(zhuān)科學(xué)校《制造與材料》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025屆荊州市重點(diǎn)中學(xué)高三下學(xué)期4月診斷考試物理試題含解析
- 工業(yè)用地用地面積優(yōu)化與節(jié)約
- 工程結(jié)算書(shū)中的工程量清單編制
- 歐菲醫(yī)療美容客戶(hù)滿(mǎn)意度調(diào)查問(wèn)卷
- 2025年鄰氨基苯甲酸?行業(yè)現(xiàn)狀分析:鄰氨基苯甲酸有望在更多領(lǐng)域?qū)崿F(xiàn)突破
- 電纜更換施工方案
- 北京市豐臺(tái)區(qū)2024-2025學(xué)年高三(上)期末生物試卷
- 2024屆北京市豐臺(tái)區(qū)等5區(qū)高三下學(xué)期一模英語(yǔ)試題(解析版)
- 我國(guó)醫(yī)療保障現(xiàn)狀問(wèn)題
- 工程項(xiàng)目部安全生產(chǎn)治本攻堅(jiān)三年行動(dòng)實(shí)施方案
- 家電以舊換新風(fēng)險(xiǎn)管控與應(yīng)對(duì)策略
- 第三單元名著閱讀《經(jīng)典常談》-2023-2024學(xué)年八年級(jí)語(yǔ)文下冊(cè)同步教學(xué)課件
- 排污許可證申請(qǐng)與核發(fā)技術(shù)規(guī)范 火電(二次征求意見(jiàn)稿)
- QB-T 2673-2023 鞋類(lèi)產(chǎn)品標(biāo)識(shí)
- 鄰近鐵路營(yíng)業(yè)線施工安全監(jiān)測(cè)技術(shù)規(guī)程 (TB 10314-2021)
- 《中國(guó)帕金森病診療指南(第四版)》(2023)要點(diǎn)
- 2024年揚(yáng)州市職業(yè)大學(xué)高職單招(英語(yǔ)/數(shù)學(xué)/語(yǔ)文)筆試歷年參考題庫(kù)含答案解析
- 2024年北京京北職業(yè)技術(shù)學(xué)院高職單招(英語(yǔ)/數(shù)學(xué)/語(yǔ)文)筆試歷年參考題庫(kù)含答案解析
評(píng)論
0/150
提交評(píng)論