AI醫(yī)療系列二:AI大模型輔助先導(dǎo)藥物的發(fā)現(xiàn)_第1頁
AI醫(yī)療系列二:AI大模型輔助先導(dǎo)藥物的發(fā)現(xiàn)_第2頁
AI醫(yī)療系列二:AI大模型輔助先導(dǎo)藥物的發(fā)現(xiàn)_第3頁
AI醫(yī)療系列二:AI大模型輔助先導(dǎo)藥物的發(fā)現(xiàn)_第4頁
AI醫(yī)療系列二:AI大模型輔助先導(dǎo)藥物的發(fā)現(xiàn)_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

隨著2006年DeepLearning算法的提出,人工智能(AI)的發(fā)展進入了第三次浪潮。DeepLearning憑借自身優(yōu)秀的信息表征及關(guān)系提取能力,已經(jīng)為計算機視覺(cv)及自然語言處理(nlp)等領(lǐng)域帶來了突破性的進展?,F(xiàn)在,AI的魔力已經(jīng)被逐步引入藥物研發(fā)的領(lǐng)域,并正在深刻地改變這個領(lǐng)域的研究和發(fā)展流程。無論是在早期的藥物篩選、藥物優(yōu)化,還是在藥物的臨床試驗和后期的上市監(jiān)控,AI的應(yīng)用都愈發(fā)廣泛。在上篇"AIfor醫(yī)療"的專題文章“AIfor醫(yī)療:AI大模型在藥物靶點識別中的應(yīng)用”中,我們整體描述了藥物研發(fā)的流程,并介紹了AI大模型在藥物研發(fā)的第一步:靶點識別中的應(yīng)用。這篇文章,我們將延續(xù)這一路線,介紹AI在藥物研發(fā)的第二步:先導(dǎo)化合物發(fā)現(xiàn)中的應(yīng)用。圖1:藥物研發(fā)生產(chǎn)流程,圖片引自[1]傳統(tǒng)方法在先導(dǎo)化合物發(fā)現(xiàn)中的局限性在AI大模型時代到來之前,先導(dǎo)化合物的發(fā)現(xiàn)以實驗方法及計算機輔助藥物設(shè)計(CADD)的方法為主。這些方法都有著一些自身難以解決的問題。實驗方法:當(dāng)前,藥物化學(xué)實驗方法在很大程度上依賴于"試錯法"。這些技術(shù)涉及檢查大量潛在的藥物化合物,以識別具有所需特性的化合物。顯然,這些方法速度緩慢且成本高昂,若是完全基于實驗方法進行藥物虛擬篩選,完成化合物數(shù)據(jù)庫的篩選所需的時間是一個天文數(shù)字。此外,實驗方法還受到可用測試化合物的供應(yīng)和準確預(yù)測它們在體內(nèi)行為的難度的限制。計算機輔助藥物設(shè)計方法(CADD):CADD相較實驗方法極大地加速了先導(dǎo)化合物發(fā)現(xiàn)的速度。在CADD中,先導(dǎo)化合物的篩選被普遍稱為:虛擬篩選(virtualscreening)。他使用基于分子力場或者量子力場的分子對接方式,對數(shù)據(jù)庫中的海量化合物與靶點進行對接,從而依據(jù)自由能最小化等方式,計算靶點與藥物的親和力,完成藥物的篩選?;贑ADD的方法除了能夠加速,還不受化合物是否可以獲得的限制。然而,基于CADD的虛擬篩選存在一個tradeoff,即想要進行精確的篩選需要大量的計算資源和時間,而想要快速的完成篩選,則會損失較大的精度。在藥物發(fā)現(xiàn)這個先導(dǎo)化合物準確率極為重要的領(lǐng)域,大量的計算資源和時間很難避免。曾有研究統(tǒng)計過,若想要對100億個小分子進行令人滿意的篩選,則需要長達3000年的時間。簡而言之,利用CADD進行高精度的藥物虛擬篩選,所需的時間同樣是難以接受的。AI大模型輔助藥物虛擬篩選基于AI的算法,包括監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí),自監(jiān)督學(xué)習(xí),強化學(xué)習(xí)以及基于規(guī)則的算法,可能有助于解決傳統(tǒng)方法中存在的問題。AI方法通?;趯?shù)據(jù)特征的學(xué)習(xí)。具體來說,就是從大量的已知藥物化合物和非藥物化合物中,去學(xué)習(xí)成藥所需的潛在特征,并依據(jù)這一特征對化合物進行能否成藥的分類。這樣的方法同CADD一樣,是一種虛擬篩選的方法,不受到化合物是否可得的限制。但是相比于CADD,他有著一個巨大的優(yōu)勢,即AI方法并不基于復(fù)雜的物理計算,而是基于已有的數(shù)據(jù)去自主學(xué)習(xí)。這一優(yōu)勢主要的體現(xiàn)便在于,他打破了CADD中的tradeoff,即在高質(zhì)量數(shù)據(jù)的支持下,AI方法能夠做到同時保持高精度以及高速的藥物篩選。然而,高質(zhì)量數(shù)據(jù)這一前提條件十分的苛刻,簡而言之,高質(zhì)量數(shù)據(jù)要求具備兩個特征:1,進行訓(xùn)練的藥物或者非藥化合物涵蓋了大范圍的化合物特征空間,2,藥物針對特定靶點的親和力數(shù)據(jù)十分準確。如果數(shù)據(jù)不符合特征1,則AI方法的泛化性將十分有限,基本無法預(yù)測訓(xùn)練數(shù)據(jù)中沒有見過的化合物種類。如果不符合特征2,AI方法的可信度同樣無法保證。雖然隨著藥物數(shù)據(jù)庫的發(fā)展,高質(zhì)量有標(biāo)簽數(shù)據(jù)變得越來越多,但想要足以支撐高精度的AI模型,數(shù)量還是遠遠不夠的。如常用的藥物親和力數(shù)據(jù)集PDBbind,其包含的蛋白-復(fù)合物條目僅僅24萬左右。這使得數(shù)據(jù)很難覆蓋全部的化合物空間。而大規(guī)模的虛擬篩選數(shù)據(jù)集DUD-E,雖然包含超過100萬個蛋白-復(fù)合物條目,但也因為數(shù)據(jù)自身的質(zhì)量而飽受詬病。隨著transformer模型的出現(xiàn),人們注意到了利用無標(biāo)簽數(shù)據(jù)對模型進行預(yù)訓(xùn)練可以提高模型的性能,正如目前風(fēng)頭正熱的GPT,GPT利用了大量無標(biāo)簽文本數(shù)據(jù)進行自監(jiān)督預(yù)訓(xùn)練,這些文本數(shù)據(jù)雖然沒有標(biāo)簽,但是數(shù)據(jù)量遠遠多于有標(biāo)簽的數(shù)據(jù)。相應(yīng)的,模型也可以進行大規(guī)模的設(shè)計以適應(yīng)海量的數(shù)據(jù)。這便是AI大模型的由來。經(jīng)過了自監(jiān)督訓(xùn)練任務(wù),AI模型方法仿佛理解了自然語言的語法,從而為自然語言處理帶來了質(zhì)的飛躍。而在藥物篩選領(lǐng)域,如果我們依照類似的方式,讓AI模型去充分利用海量的蛋白、分子數(shù)據(jù)去進行自監(jiān)督訓(xùn)練,是否也有可能學(xué)習(xí)到分子世界中的"語法"規(guī)則?這種方法的潛在優(yōu)勢在于,它可以利用現(xiàn)有的大量無標(biāo)簽分子數(shù)據(jù)集,就像GPT使用互聯(lián)網(wǎng)上的無標(biāo)簽文本一樣。通過自監(jiān)督學(xué)習(xí),模型可以無需昂貴的實驗數(shù)據(jù)標(biāo)簽,就能夠識別和理解生物分子的本質(zhì)特性,從而為新穎和強大的藥物發(fā)現(xiàn)機制奠定基礎(chǔ)。如果AI能夠“理解”分子的“語言”,那么它在預(yù)測未知分子活性,以及預(yù)測分子對特定靶標(biāo)的親和力方面的潛力將是無限的。因此,越來越多的自監(jiān)督AI方法被提出以進行藥物虛擬篩選。在這里,我們以近期提出的分子表征大模型Uni-Mol為例,為大家闡述AI大模型是如何助力虛擬篩選的。Uni-Mol:通用分子3D表征模型在藥物設(shè)計等領(lǐng)域,分子自身性質(zhì)的表征對先導(dǎo)化合物篩選而言至關(guān)重要,在給定的藥物靶點先驗下,如果能夠?qū)⒎肿舆M行完美的潛空間嵌入,那么能夠成藥的分子和不能成藥的分子將會自然的在潛空間分隔開,從而便可以非常直觀的進行藥物的篩選。目前已經(jīng)存在許多學(xué)習(xí)分子表征的AI方法,這些分子表征學(xué)習(xí)方法通常將分子視為一維的字符串或二維的圖進行預(yù)訓(xùn)練。然而,分子的三維結(jié)構(gòu)對其性質(zhì)和藥效的影響是至關(guān)重要的。如果僅關(guān)注一維或二維信息,將限制它們在包括三維信息的下游任務(wù)中的應(yīng)用。Uni-Mol的提出正是為了解決這一瓶頸問題,通過構(gòu)建一個可以直接處理三維位置信息的通用學(xué)習(xí)框架,讓AI模型可以充分學(xué)習(xí)到分子的三維結(jié)構(gòu)信息,從而更完美的表征分子。數(shù)據(jù):Uni-Mol是一個預(yù)訓(xùn)練模型,他可以利用大量的無監(jiān)督數(shù)據(jù)去充分學(xué)習(xí)分子的"自身語法"。作者通過對海量的小分子數(shù)據(jù)進行清洗,獲得了19M個小分子數(shù)據(jù)。對于每個小分子數(shù)據(jù),使用RDKit創(chuàng)建了該分子的10個三維構(gòu)像,而對于無法創(chuàng)建三維構(gòu)像的分子,作者為其創(chuàng)建了2D構(gòu)像。最終,作者獲得了總計209M個小分子的三維構(gòu)像數(shù)據(jù),并利用這些數(shù)據(jù)對Uni-Mol進行了充分的預(yù)訓(xùn)練。Uni-Mol模型:基本結(jié)構(gòu):Uni-Mol模型參考了transformer的骨架。他將分子進行了序列表征以及結(jié)構(gòu)表征,并在更新的過程中不斷以自注意力的方式對兩個表征相互融合迭代。最終,可以以分子的CLStoken來表示整個分子在潛空間的嵌入。Uni-Mol相對傳統(tǒng)transformer的創(chuàng)新主要有兩點:旋轉(zhuǎn)平移不變的空間位置編碼,原子對表征。旋轉(zhuǎn)平移不變的空間位置編碼:Uni-Mol的模型是可以處理分子3D結(jié)構(gòu)信息的Transformer。由于Transformer自身有置換不變性,它在沒有位置編碼的情況下無法區(qū)分輸入的具體位置,而且對于分子來說,位置編碼需要在全局旋轉(zhuǎn)和平移的情況下保持不變。因此,作者以原子對的歐氏距離對原子的位置進行表示,之后經(jīng)過高斯核函數(shù)得到位置編碼。從而實現(xiàn)了旋轉(zhuǎn)平移不變的空間位置編碼。編碼方式記錄在圖2的中圖。原子對表征:通常Transformer只對Token(原子)進行表征,然而由于分子的空間位置信息是在原子對級別上編碼的,原子的成對距離表征也會十分重要。因此Uni-Mol在具體實現(xiàn)中對原子成對距離信息進行了表征。原子對表征的初始化是上文提到的旋轉(zhuǎn)平移不變的空間位置編碼。在更新時,則會把原子token的信息不斷融入。這一空間位置編碼同樣也會不斷地加入到token信息之后,通過充分的信息融合,以達到模型能更充分理解分子"語義"的效果。原子對成對表征記錄在圖2右圖。預(yù)訓(xùn)練策略:與BERT類似,Uni-Mol中也使用了對原子掩碼進行"完形填空"的任務(wù)。然而,由于3D空間位置編碼是有化學(xué)鍵信息泄露的,模型很容易依據(jù)相互間的距離推測出被掩蓋的原子類型,因此單獨對原子掩碼進行預(yù)測并不能幫助模型充分的學(xué)習(xí)到分子"語義"。為了解決這個問題,Uni-Mol設(shè)計了一個基于3D坐標(biāo)的"去噪聲"任務(wù)。即對于被掩蓋的原子,給坐標(biāo)加入[-1?,1?]的均勻分布噪聲,之后模型根據(jù)加了噪聲的坐標(biāo)計算出來空間位置編碼進行原子預(yù)測。這樣一來,對于原子掩碼的預(yù)測任務(wù)就不再可有可無。此外,這里還加入了兩個額外的任務(wù)單元來直接對于原子坐標(biāo)進行預(yù)測:1,基于原子對表征,預(yù)測被掩蓋的原子對的歐氏距離。2,直接預(yù)測被掩蓋的原子坐標(biāo)?;谏鲜龅娜齻€預(yù)訓(xùn)練策略,作者認為可以充分的學(xué)習(xí)到分子的合理表征。圖2:Uni-Mol模型骨架。左圖為整體的pretrain模型及預(yù)訓(xùn)練策略。中圖為模型的輸入,包括分子序列及結(jié)構(gòu)信息。右圖為Block內(nèi)部的計算,圖片引自[2]作為結(jié)果,Uni-Mol達到了充分的分子表征效果。以分子生化性質(zhì)數(shù)據(jù)集MoleculeNet為例,MoleculeNet數(shù)據(jù)集中包括分子的水化自由能,親脂性等生化性質(zhì)任務(wù),同時也包含了針對特定靶點蛋白的藥物虛擬篩選任務(wù)。Uni-Mol在MoleculeNet14/15個數(shù)據(jù)集上取得SOTA,尤其是在3D結(jié)構(gòu)強相關(guān)的任務(wù)上有著大幅度提升,漲幅甚至可達21%??梢奤ni-Mol有著極強的小分子表征能力,這對先導(dǎo)化合物的篩選尤為重要。雖然無法確定Uni-Mol是否已經(jīng)學(xué)到了分子的"語法",但毫無疑問的是,在充分利用了大規(guī)模的無標(biāo)簽數(shù)據(jù)后,模型表征分子的能力進一步加強了,這也進一步證明了充分利用無標(biāo)簽的分子數(shù)據(jù),將AI模型做大,對分子性質(zhì)表征任務(wù)而言,是有著明顯的優(yōu)勢的。AI大模型在先導(dǎo)藥物發(fā)現(xiàn)中面臨的挑戰(zhàn)貫徹著"AIfor醫(yī)療"系列的一貫理念,我們認為AI對藥物研發(fā)的幫助并非是顛覆性的,而是一種在目前技術(shù)框架下的優(yōu)化和增強。AI在先導(dǎo)化合物的發(fā)現(xiàn)中同樣存在著自身的問題。下文將主要列舉三點。準確性的驗證:不同于大語言模型,來自分子AI大模型的結(jié)果通常難以進行準確的驗證。利用大語言模型進行自然語言處理時,我們可以直觀的去判斷模型返回給我們的答案是否正確,也能依據(jù)模型的結(jié)果進行獎勵建模及強化學(xué)習(xí)。但利用分子大模型進行虛擬篩選得到的結(jié)果,往往涉及到分子具體的藥物性質(zhì),這是人類無法直觀評價的性質(zhì),需要昂貴的實驗進行證明。這一問題往往使得分子大模型在實際應(yīng)用中處于尷尬的地位。算法的透明度和解釋性:AI在藥物虛擬篩選中的另一個挑戰(zhàn)是算法的“黑箱”性質(zhì)。復(fù)雜的機器學(xué)習(xí)模型,尤其是深度學(xué)習(xí)模型,雖然在預(yù)測性能上表現(xiàn)優(yōu)異,但其內(nèi)部的決策過程往往缺乏透明度,這對于藥物發(fā)現(xiàn)來說是一個嚴重的問題。因為成藥需要是一個嚴謹且透明的過程,如果不能解釋分子為何有效,那么在實驗證明藥效不及預(yù)期后,甚至不知如何進行優(yōu)化。藥物發(fā)現(xiàn)不僅需要預(yù)測哪些分子可能有效,還需要理解為什么這些分子會有效,以及它們可能產(chǎn)生的副作用。數(shù)據(jù)偏差與不平衡:雖然理想情況下分子大模型能夠能夠充分利用無標(biāo)簽的分子數(shù)據(jù)進行分子表征,之后利用高維的分子表征便可以將分子進行分類篩選。然而實際情況下,模型并無法得到完美的分子表征,因此在實際應(yīng)用中,往往需要對大規(guī)模預(yù)訓(xùn)練進行微調(diào),從而優(yōu)化分子的表征。而微調(diào)這一過程同有監(jiān)督學(xué)習(xí)一樣,受到數(shù)據(jù)標(biāo)簽偏差的影響。在虛擬篩選這個領(lǐng)域,分子的標(biāo)簽是嚴重不平衡的,因為藥物化合物的數(shù)量實際是遠遠少于非藥物化合物的。這就導(dǎo)致了微調(diào)階段模型可能會不自覺地過度擬合到現(xiàn)有藥物化合物上,造成模型在實際應(yīng)用中的假陰性上升??偟膩碚f,基于AI的虛擬篩選方法相較傳統(tǒng)的實驗和CADD方法有著突破,他不僅加速了先導(dǎo)化合物的發(fā)現(xiàn),同時還提高了虛擬篩選的準確率。但毫無疑問,他仍在發(fā)展之路上,即便是現(xiàn)在最先進的分子表征大模型,也無法充分理解分子的語義。同時,數(shù)據(jù)不平衡問題、模型的驗證、以及算法的可解釋性,都是我們必須面對并克服的挑戰(zhàn)。盡管如此,隨著計算能力的提升,算法的不斷優(yōu)化,以及跨學(xué)科合作的加深,我們有理由相信,AI在藥物虛擬篩選中的應(yīng)用將越來越廣泛,其精準度和可靠性也將不斷提升。展望未來,AI大模型輔助的藥物虛擬篩選方法方法將繼續(xù)促進創(chuàng)新藥物的研發(fā)。它是一個誕生于大數(shù)據(jù)時代的工具,也將作為大數(shù)據(jù)時代的代表將藥物篩選由principlebase推向database。這不僅有助于縮短藥物從實驗室到市場的時間,還有望為患者帶來更加個性化的治療方案。隨著AI技術(shù)的不斷進步,我們期待著一個更加高效、經(jīng)濟和精確的藥物研發(fā)新時代的到來。Reference[1]

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論