從隱空間認識CLIP多模態(tài)模型_第1頁
從隱空間認識CLIP多模態(tài)模型_第2頁
從隱空間認識CLIP多模態(tài)模型_第3頁
從隱空間認識CLIP多模態(tài)模型_第4頁
從隱空間認識CLIP多模態(tài)模型_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

從隱空間認識CLIP多模態(tài)模型

1前言

AIGC可生成的內容形式包含文本(文句)、圖像、音頻和視頻。它能將文本中的語言符號信息或學問,與視覺中可視化的信息(或學問)建立出對應的關聯。兩者相互加強,形成圖文并茂的景象,激發(fā)人腦更多想象,擴大人們的思維空間。其中,最基礎的就是文本(Text)與圖像(Image)之間的學問關聯。本篇來介紹文本與圖像的關聯,并以CLIP模型為例,深化介紹多模態(tài)AIGC模型的幕后架構,例如隱空間(Latentspace)就是其中的關鍵性機制。

2簡介CLIP模型

在2022年,OpenAI團隊提出了CLIP,它是典型的多模態(tài)(Multi-modal)機器學習模型。OpenAI從互聯網上找到大量的文本(Text)與圖像(Image)的配對,可以用來訓練CLIP模型,然后讓CLIP進行其猜測任務,即是輸入1張圖像,然后猜測出哪一個文本與它是配對的。

CLIP的目標是透過大量圖片及文字描述,建立兩者間的對應關系。其做法是利用ResNet50等來萃取圖像的特征,并映射到隱空間(Latentspace)。也就是將圖像編碼成為隱空間向量。

同時,也利用Transformer萃取與圖像相配對文句的特征,并將文句編碼成為隱空間向量。最終經由模型訓練來漸漸提高兩個向量的相像度。換句話說,CLIP能將圖像和文句映像到同一個隱空間,因此可以快速計算圖像與文句的相像度。

CLIP模型學習整個文句與其對應的圖像之間的關系。當我們在整個文句上訓練時,模型可以學到更多的潛在的東西,并在圖像和文句之間找到一些規(guī)律。值得留意的是,在訓練CLIP模型時,我們輸入的是整個文句,而不是像貓、狗、汽車、電影等單一類別而已。

3CLIP的基本架構

CLIP的核心設計概念是,把各文句和圖像映射到隱空間里的一個點(以向量表示)。針對每一個文句和圖像都會提取其特征,并映射到這個隱空間里的某一點。然后經由矩陣運算,來估量它們之間的相像度,如圖1。

在訓練CLIP模型的過程中,會不斷調整各點的位置(在隱空間里),以表達出它們之間的相像度。CLIP在整合文句與圖像兩種模態(tài)上有突破性的表現。一旦訓練完成之后,就可以對新圖像進行猜測了,亦即猜測出一個文本與它是配對的。例如,輸入1張新圖像,經由圖像編碼器(如ResNet50)來提取這張圖象的特征,然后映射到隱空間里的一個新的點。

然后經由矩陣運算,即可猜測出它與我們所給的一些文句的相像度,就可以得到猜測值了。此外,CLIP也能輸入描述文句來找到相對應的圖像。

4圖解CLIP的空間對映

茲以中藥材的CLIP為例,例如有4張中藥材的圖像,以及其對應的文句,或單詞(圖2)。

這里的文本與圖像之間的對應關聯,可以是人們賜予的,也可以是從互聯網頁的數據而得來的。那么CLIP模型就來建立這些關聯性。

在前面已經說明白,CLIP會利用ResNet50等模型來幫助提取各圖像的特征,并將各圖像(隨機)對映到隱空間(即數學上歐式空間)的點。同時,也使用Transformer模型來關心提取個文句的特征,并將各文本(隨機)對映到隱空間的點(圖3)。

這就是空間對映(Spacemapping),意味著從可觀看空間(即上圖里的圖像和文句空間)對映到隱空間。

5綻開訓練

在進行訓練的過程中漸漸地修正CLIP模型里的參數(如weight和bias值),也就是漸漸地調整隱空間里各點的位置(坐標),來呈現出這些點之間的相像性(Similarity)。例如,在隱空間里,我們可以讓愈相像的點,會愈相互靠近(圖4)。

以上訓練完成了。其智能表達于模型里的參數(如weight和bias)值里。雖然人們可以理解文本和圖像的涵意,但并無法理解模型里的參數,以及所計算出的隱空間向量的涵意,所以才稱為隱蔽性空間,或稱黑箱(Block-box)。

6猜測范例1:從圖像找文本

在剛才的訓練過程中,CLIP已經持續(xù)調整各筆數據(如文本和圖像)的其隱空間里的位置(以隱空間向量表示),來表達其所蘊含的關聯性。一旦訓練完成了,就能進入猜測或推理的階段了。

例如,拿來1張新圖像輸入給CLIP,它就(要求ResNet50等)來幫忙提取這新圖像的特征,并依據其所訓練出來的參數(即weight和bias)值,而計算(對映)出這個新點在隱空間里的位置(圖5)。

由于這張新圖像的特征與左邊第3張(由上而下)圖像特征很接近,也就意味著這兩張圖象很相像,所以在潛藏空間里兩者會很靠近。如此,計算出這個新點與其他各點之相像度,然后挑出相像性最高的文本是:枸杞(圖6)。于是,就順當完成從圖像關連到文本的任務了。

7猜測范例2:從文本找圖像

剛才的范例是:從圖找文。CLIP還可以供應:從文找圖。例如,拿來一個新文句輸入給CLIP,它就(要求Transformer等)來幫忙提取這新文句的特征,并依據其所訓練出來的參數(即weight和bias)值,而計算(對映)出整潛藏空間里這個新點的位置。接著,計算出這點與其他各點之相像度,然后挑出相像性最高的圖像(圖7)。

由于CLIP幕后有Transformer預訓練模型來幫忙,可以發(fā)覺”寧夏枸杞”與”銀川枸杞”兩個文本很

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論