版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
圖與基礎模型:多模態(tài)基礎模型關系推理能力概述近年來,采用深度學習對圖結構數(shù)據建模的方法取得了巨大進展,并改變了模型理解關系結構的能導語力。在集智俱樂部「圖神經網絡與組合優(yōu)化」讀書會中,耶魯大學計算機科學系助理教授應智韜(RexYing)介紹了利用圖結構在多種機器學習場景中實現(xiàn)復雜推理的探索,尤其是聚焦在基礎模型中的應用,包括在對比學習中用鄰近圖捕捉相似關系,稀疏Transformer通過圖擴散來擴散注意力、降低模型復雜度,GNN學習分子圖表征,思維傳播利用關系推理增強大模型的復雜推理能力。本文由社區(qū)成員劉佳瑋整理成文。研究領域:基礎模型,多模態(tài),關系推理,圖神經網絡,對比學習0.基礎模型概述1.模型架構中的關系結構-鄰近圖捕捉相似關系-稀疏Transformer2.任務中的關系結構-GNN學習分子圖表征3.推理中的關系結構-思維傳播4.總結0.基礎模型概述“基礎模型”(foundationmodel)一詞最初由斯坦福大學的Bommasani等人提出,定義為“在廣泛的數(shù)據上訓練且可以被應用于廣泛的下游任務的模型”。人工智能向基礎模型的范式轉變意義重大,允許用更廣泛的通用模型替換幾個狹窄的任務特定模型,這些模型一旦經過訓練就可以快速適應多個應用程序,并且隨著模型參數(shù)增大,有可能展現(xiàn)出“涌現(xiàn)”能力。當談及基礎模型時,我們的定義可能會更加廣泛,不僅僅包括大語言模型(LLM),還涵蓋了基于自監(jiān)督學習框架的各種基礎模型。這些模型通常會在最終任務上進行微調。這種范式在機器學習領域的作用日益增大。以ImageNet為例,它之所以取得成功,主要是因為當時人們普遍崇尚監(jiān)督學習。ImageNet手動標記了1400萬張圖像,這為監(jiān)督學習提供了數(shù)據基礎,從而推動了視覺領域的巨大進展。然而,在大多數(shù)情況下,這種方法并不可行。例如,自然語言處理涉及眾多任務和大量翻譯工作,不可能讓人逐一完成。此外,我們獲取的數(shù)據往往是無監(jiān)督的。因此,基礎模型的最大優(yōu)勢在于,即使在沒有監(jiān)督的情況下,我們仍然可以利用大量數(shù)據來開發(fā)通用模型,適用于各種不同的下游任務。下面是一個傳統(tǒng)的基礎模型框架:圖1預訓練和微調這個過程主要分為預訓練(pre-training)和微調(finetuning)兩個步驟。在預訓練階段,我們采用自監(jiān)督學習方法,例如使用語言模型。首先,我們使用一個編碼器,例如transformer,對輸入數(shù)據進行編碼,然后得到一些嵌入(embedding)。接著,我們再從這個嵌入進行解碼。在解碼后,我們會采用一種自監(jiān)督損失函數(shù),例如掩碼語言模型(masklanguagemodel)。完成預訓練后,在微調階段,我們將編碼器固定下來,不再需要對該部分進行優(yōu)化或僅優(yōu)化很小一部分。然后,我們將輸入數(shù)據直接通過這個編碼器得到一個embedding,再從這個embedding進行各種下游任務的處理,包括文本分類、摘要和翻譯等。在此過程中,我們會采用各種損失函數(shù)來微調下游任務。需要注意的是,如果是GPT模型,需要遷移的部分不再是編碼器,而是解碼器(decoder)。然而,整體框架基本保持不變。對于圖像基礎模型的訓練,同樣可以采用這個框架。只需將輸入數(shù)據從文字轉換為圖片,并采用編碼器-解碼器架構來獲得自監(jiān)督損失。在微調階段,同樣可以將編碼器遷移過來,訓練各種下游任務。這個框架在不同類型的數(shù)據(圖、圖像、文字等)中具有很高的通用性。接下來,我們要考慮不同數(shù)據的模態(tài)。在自然語言處理(NLP)領域,文本通常以句子的形式呈現(xiàn)。在每個句子中,我們能看到不同的單詞,它們組成了不同的詞組。類似地,在計算機視覺(CV)領域,數(shù)據則以圖片的形式出現(xiàn),而圖片的基本單元可能是像素。在圖(Graph)中,圖的構成單元是節(jié)點,許多節(jié)點組成一個子圖。圖2.NLP、CV和Graph的對比本次分享的內容內容涉及這三個不同的方面,同時也會探討不同數(shù)據模態(tài)的適用性。希望所介紹的方法能夠廣泛應用于不同的基礎模型上,這些方法的一個共同點就是利用關系推理或圖的方式來實現(xiàn)。將從三個方面展開,首先是預訓練,其次是微調,最后是模型推理。這三個步驟都可以利用圖關系推理的方法來實現(xiàn)。1.預訓練中的關系結構我們從預訓練開始談起,也就是自監(jiān)督學習。自監(jiān)督學習通常分為兩大類:生成式和對比式。生成式的任務主要是掩碼語言模型,即將數(shù)據的一部分進行掩碼,然后讓模型進行恢復。而對比式則不是生成被掩碼掉的內容,而是去區(qū)分相似的和不相似的數(shù)據。對比式自監(jiān)督算法通常具有較高的有效性,因此我們今天分享的第一項工作是關于對比學習(contrastivelearning)的形式。對比學習是一個非常簡單的原則。在許多數(shù)據中,有些數(shù)據點是相似的,有些則相距甚遠。如果模型能夠區(qū)分出哪些東西相似和哪些東西相距甚遠,我們就達到了自監(jiān)督學習的目的。如果這個嵌入空間能夠捕捉到這樣的屬性,那它就是一個很好的嵌入方式。因此,在訓練時,我們會使用這樣的目標:輸入一些相似的數(shù)據點和一些不相似的數(shù)據點,將這些數(shù)據全部編碼到嵌入空間,然后在嵌入空間上進行對比學習。這樣做的結果是,我們需要把相似數(shù)據的嵌入變得盡可能接近,不相似的數(shù)據的嵌入盡可能遠離。這是一個大致的原則,比較容易理解。一般來說,對于每個需要進行對比學習的數(shù)據點,我們定義一個錨點(author)。錨點的意思是,我們可以創(chuàng)造一些正例(positiveexample就是一些跟自己很相似的東西,還有一些負例(negativeexample一些跟自己很不相似的東西。我們可以通過把嵌入空間里面相似的拉近、不相似的拉遠來做自監(jiān)督學習。如果沒有標簽監(jiān)督的情況下我們怎么樣去找哪些是正例哪些是負例呢?一般來說,做這種對比的方式,就是我可以對自己的錨點做一些變換。比如圖片不管怎么旋轉、位移,進行各種各樣的變換,這個圖片的語義不會有什么區(qū)別,變換以后我們依然能夠認出來它是同一個物體。所以經過變換可以創(chuàng)造一些正例,這樣的準則在圖里面也經常會用。比如一些圖對比學習的方法,會把一個節(jié)點的鄰居進行隨機游走來進行采樣。然后把它作為對鄰居的擾動,可以得到一些類似的鄰居,那這些就是我們的正例。有了這個以后,我們就可以定義各種對比學習的損失函數(shù)(例如InfoNCE然后在這個InfoNCE的框架下,我們不光是要找正例,還得找負例,怎么找負例是一個問題。我們想象什么樣的負例會更有用,看一下可能會出現(xiàn)什么樣的負例。我們可以有簡單負例(easynegative),例如圖3中最左邊的負例跟一開始的圖像完全不同。即便這個模型非常笨它也能夠區(qū)分出它們不同。然后中間是稍微難一些的負例,這些負例就比較有趣,比如說它們可能都是貓科動物,但是它們可能是不同的動物,那這些就是一些困難負例(hardnegative因為模型需要有更多的知識才能發(fā)現(xiàn)它們是不同的東西。然后最右邊叫做偽負例(falsenegative因為它們其實是同一個物種,所以模型沒有必要把它們當做負例。如果是負例的話,通過InfoNCE這些負例之間的距離在嵌入空間上很遠,這沒必要,因為它們都是同一種?;蛘哒f即便我們需要區(qū)分,但是它們不應該被拉得非常遠。然后在這三種里面什么對增加模型的表現(xiàn)能力更有效?很顯然大家都會覺得是困難負例,因為它可能比較像,但是并不完全一樣。所以這更能夠考驗模型的辨識能力。所以困難負例是我們比較關心的,然后它可以是有不同的表現(xiàn)形式。比如說它們可以是背景、花紋比較相似,但其實是不同的動物。圖3簡單負例、困難負例和偽負例BatchSampler:用鄰近圖捕捉相似關系這個工作是講者的學生還有唐杰老師的學生一起合作的一個項目,研究的動機是用鄰近圖(proximitygraph)去捕捉相似的關系。就是說,有各種各樣的數(shù)據點,它們可以是圖也可以是圖像、文字或者各種想要做對比學習的數(shù)據,我們把它轉換成圖的形式,每個節(jié)點代表一個數(shù)據點,這些數(shù)據點之間的連線就代表他們的相似度,只有當這兩個節(jié)點非常相近的時候,我們才會把他們連起來。然后我們通過這個圖來討論怎樣采樣好的困難負例,就是那些看上去很像但其實是不一樣的負例。這個圖的構造其實非常簡單,首先我們有一個正在做對比學習的編碼器,然后我們把節(jié)點編碼到這個嵌入空間,然后做最近鄰等操作構建鄰近圖,基于這個圖做一些操作尋找負例。我們的方法通過有重啟的隨機游走(randomwalkwithrestart)來探索局部鄰域,它的好處在于靈活性。我們可以想象困難負例一般在哪兒,他肯定不是最近的幾個,因為最近的可能是同類,即偽負例。肯定也不是很遠的,因為這些點肯定是完全不相關的簡單負例。我們的方法可以通過超參數(shù)控制重啟概率,論文發(fā)表在KDD2023上,感興趣的讀者可以看一下。YangZ,HuangT,DingM,etal.BatchSampler:SamplingMini-BatchesforContrastiveLearninginVision,Language,andGraphs[J].arXivpreprintarXiv:2306.03355,2023.圖4BatchSampler的基本想法我們把這個方法叫做BatchSampler,它的想法就是通過在鄰近圖上做隨機游走來控制采樣到一些很高質量的負例。我們有一些超參數(shù),首先就是最近鄰的數(shù)量,還有就是隨機游走的重啟概率??梢韵胂螅斨貑⒏怕适?的時候,也就是每走一步就會回到原點,那其實就是找一階鄰居,得到的樣例很難。另一個極端是重啟概率為0,那就是純粹的隨機游走,很容易走到很遠的地方,獲得很簡單的樣例。通過調重啟概率,我們就可以找到想要難度的樣例,這種方法可以用在各種模態(tài)的數(shù)據上面。稀疏Transformer:通過圖擴散來擴散注意力,降低模型復雜度接下來我們用圖的角度解釋Transformer架構。由于Transformer架構的復雜度主要來自注意力機制,它的復雜度是O(token*token),這給Transformer應用于長序列帶來了挑戰(zhàn)。稀疏Transformer可以顯著降低復雜度,我們可以將其想象成圖的形式,這種注意力矩陣很像圖的鄰接矩陣。稀疏Transformer的核心思想是用局部注意力和隨機注意力取代全局注意力,局部注意力是指設置一個很小的窗口,而隨機注意力是指隨機找一些連接來計算。圖5稀疏Transformer的注意力機制這樣做可以節(jié)省時間和空間,但也有一些挑戰(zhàn)。如果我用局部窗口的話,感受野就會降低,也就是我沒法直接在每一層通過算自注意力機制來增加模型的表達能力。還有一個問題是它可能會對序列的擾動敏感,不夠魯棒。為此,我們希望模型能夠具有全局注意力,并且降低模型復雜度。在AAAI的工作中,我們把稀疏Transformer當成一個稀疏圖,然后通過圖擴散的方式來擴散注意力的值,從而在Transformer模型上探索結構。這樣做的好處是很多格子是通過擴散算出來的,不需要反向傳播,從而能夠節(jié)省很多計算和存儲開銷。FengA,LiI,JiangY,etal.Diffuser:efficienttransformerswithmulti-hopattentiondiffusionforlongsequences[C]//ProceedingsoftheAAAIConferenceonArtificialIntelligence.2023,37(11):12772-12780.圖6diffuser的擴散方式2.微調中的關系結構GNN學習分子圖表征在做微調的時候也有一些有意思的技巧,這里關注分子結構的基礎模型,怎樣通過不同的任務和任務之間的相似度來增加模型微調的表現(xiàn)。這里介紹一篇最近發(fā)表在NeurIPS上面的論文。在分子結構上,我們可以有各種下游任務,例如可溶性、毒性或活性預測等,這是一個非常適合基礎模型的場景?;炯軜嬀褪怯肎NN去編碼一個分子輸入,得到每個節(jié)點(原子)的嵌入,然后通過聚合或者池化操作得到分子的嵌入,然后預測各種分子級別的下游任務。HuangT,HuZ,YingR.LearningtoGroupAuxiliaryDatasetsforMolecule[J].arXivpreprintarXiv:2307.04052,2023.圖7分子圖神經網絡的訓練步驟圖上的預訓練任務通??梢允巧墒饺蝿找部梢允菍Ρ仁饺蝿?,但對于分子結構來說仍然是一個非常有挑戰(zhàn)性的話題。首先,有標注的數(shù)據集很少,往往需要昂貴的領域知識來建立。然后往往它們用的分子也都是不一樣的。一個比較自然的想法是說,因為這些下游任務都非常小,所以我們能不能結合多個下游任務,比如把幾個毒性相關的下游任務和數(shù)據放在一起來做微調。通過從基礎模型微調的形式去改進可能會是一個更加有效的策略。但這樣做有一個問題就是很容易出現(xiàn)負遷移。我們觀察一個數(shù)據集是否能幫助另一個數(shù)據集,紅色表示提升很明顯。我們可以看到有些規(guī)律,例如幾乎所有數(shù)據集都可以幫助FreeSolv數(shù)據集。圖8兩個數(shù)據集能否互相幫助的實驗那么能否找到對某個數(shù)據集有幫助的數(shù)據集呢?我們覺得兩個數(shù)據集之間的關系分為兩種,一種是結構的相關性,另一種是任務的相關性。描述這兩種相關性的方式很多,這里不展開討論?;谶@些相關性,我們就可以把單個任務轉化成一組任務。在訓練的時候,我們就可以把這些數(shù)據放到一起算損失。假設這兩個數(shù)據集關系非常緊密,輔助數(shù)據集是非常有用的,那就可以用同一套編碼器,只用不同的解碼器做不同的任務。另一個極端是,如果兩個數(shù)據集或者下游任務完全無關,就應該使用兩套編碼器來訓練,才能得到最好的效果。很多情況可能介于兩種極端情況之間,他們的任務可能在分布上相似又有一定的區(qū)別,這就應該采用中間的混合形式,部分參數(shù)共享。圖9三種融合不同數(shù)據的方式我們建議使用路由機制來動態(tài)分配每個輔助數(shù)據集對網絡子層目標數(shù)據集的影響。路由機制的學習取決于輔助數(shù)據集的梯度如何影響目標數(shù)據集的性能。然而,以目標數(shù)據集感知的方式優(yōu)化這種路由機制具有挑戰(zhàn)性,因為它僅在輔助數(shù)據集的前向傳遞期間使用。為了解決這個問題,我們建議使用雙層優(yōu)化框架,并使用元梯度(metagradients)來自動學習任務的相似度。雙層優(yōu)化框架分為兩個步驟:首先,利用輔助任務的梯度更新除路由函數(shù)外的模型參數(shù);其次,我們重用這個計算圖并計算路由機制的元梯度。3.推理中的關系結構思維傳播:用大模型進行復雜推理關系推理能否在大語言模型的推理階段有所幫助呢?目前比較流行的方式是通過設計各種各樣的提示(prompt)來使大語言模型更好地解決一些復雜問題,例如思維鏈(chain-of-thought)、思維樹(tree-of-thought)和思維圖(graph-of-thought)等,但這些方法還不夠高效。鑒于目前的prompt是獨立的,所以能否通過探索問題之間、解之間的關系來幫助模型有更強的推理能力,這種方式我們叫做思維傳播(thoughtpropagation)。思維傳播包含如下幾個步驟。首先,LLMSolve使用基礎的提示方法解決輸入的問題。然后,LLMPropose是指提示LLM去提出一些相似的問題,這些問題都可以用LLM來解決。然后我們會分別得到一些解,這些解就是模型對于之前問題的回答。然后根據這些回答,我們進行聚合或者投票來得到當前問題的回答,這就叫LLMAggregate。最后的LLMReadout就是判斷新的解和舊的解哪個更好,或者二者能否結合得到更好
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人的生殖和發(fā)育北師大版-課件
- 2021年山西省忻州市公開招聘警務輔助人員輔警筆試自考題2卷含答案
- 2024年山東省煙臺市公開招聘警務輔助人員輔警筆試自考題2卷含答案
- 2024年廣西壯族自治區(qū)南寧市公開招聘警務輔助人員輔警筆試自考題1卷含答案
- 2024年安徽省蚌埠市公開招聘警務輔助人員輔警筆試自考題1卷含答案
- 《刑罰體系和種類》課件
- 感恩教育:說好聽的話
- 《新廣告法重點解讀》課件
- 2024年CA-系列金屬閃光漆及罩光清漆項目資金籌措計劃書代可行性研究報告
- 化工原料銷售兼職合同
- 汽車售后服務管理制度
- 第二十四章 相似三角形(50道壓軸題專練)
- 浙江省溫州市第二中學2024-2025學年上學期九年級英語10月月考試題
- 2024年海南公務員考試申論試題(A卷)
- 網絡安全中的量子密碼學與未來安全技術考核試卷
- 急性ST抬高型心肌梗死溶栓指南課件
- 海堤工程施工組織設計
- 【基于單片機控制的數(shù)字鐘設計(論文)10000字】
- 2024年石油石化技能考試-鉆井液工考試近5年真題附答案
- 世界經典神話與傳說故事閱讀測試(四)
- 2024年第五屆插花花藝行業(yè)技能競賽理論考試題庫(含答案)
評論
0/150
提交評論