信息科學(xué)應(yīng)引領(lǐng)未來的生物醫(yī)學(xué)研究_第1頁
信息科學(xué)應(yīng)引領(lǐng)未來的生物醫(yī)學(xué)研究_第2頁
信息科學(xué)應(yīng)引領(lǐng)未來的生物醫(yī)學(xué)研究_第3頁
信息科學(xué)應(yīng)引領(lǐng)未來的生物醫(yī)學(xué)研究_第4頁
信息科學(xué)應(yīng)引領(lǐng)未來的生物醫(yī)學(xué)研究_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

一、現(xiàn)代生物學(xué)和新技術(shù)新技術(shù)的不斷涌現(xiàn)一直推動(dòng)著現(xiàn)代生物學(xué)的發(fā)展。例如,在20世紀(jì)60年代末,曾有關(guān)于分子生物學(xué)衰落的討論(即從潛在大分子行為的角度理解生物現(xiàn)象的潛在局限)。這是因?yàn)楫?dāng)時(shí)許多科學(xué)家已經(jīng)意識(shí)到傳統(tǒng)方法(如基于噬菌體的實(shí)驗(yàn))存在一定的局限性。該領(lǐng)域的幾位先驅(qū),包括FrancisCrick本人,隨后向新方向的挑戰(zhàn)發(fā)起探索。然而,隨著新技術(shù)(如重組DNA)的出現(xiàn),所謂的分子生物學(xué)仍然是現(xiàn)代生物學(xué)的主流。更近的例子是,新一代測(cè)序(NGS)技術(shù)的興起和暴發(fā)式發(fā)展不僅在數(shù)量上,而且在質(zhì)量上改變了生物學(xué)和醫(yī)學(xué)。NGS最終將通過社會(huì)保險(xiǎn)制度的變化等方式影響社會(huì)。在這篇評(píng)論中,筆者想在簡(jiǎn)要回顧生物醫(yī)學(xué)研究與數(shù)據(jù)科學(xué)和人工智能(AI)的關(guān)系之后,介紹筆者對(duì)未來生物醫(yī)學(xué)研究的看法。二、信息科學(xué)在生物醫(yī)學(xué)中具有特殊的重要性毫無疑問,使用計(jì)算機(jī)在科學(xué)研究的各個(gè)領(lǐng)域都很重要(如處理“信息”的設(shè)備)。然而筆者想強(qiáng)調(diào),計(jì)算機(jī)的使用在生物(醫(yī)學(xué)科學(xué))中具有特殊的重要性,因?yàn)樗械纳到y(tǒng)基本上都由它們自身的遺傳信息(DNA)控制?!都~約時(shí)報(bào)》中一篇關(guān)于LeroyHood的文章中有一句名言:“生物學(xué)是一門信息科學(xué)?!碑?dāng)然,我們還遠(yuǎn)遠(yuǎn)沒有達(dá)到只對(duì)基因組DNA序列進(jìn)行理論研究就能理解生物學(xué)現(xiàn)象的地步。但計(jì)算研究的相對(duì)重要性無疑將在生物醫(yī)學(xué)領(lǐng)域得到提高,即使是實(shí)驗(yàn)研究也會(huì)得到機(jī)器人和(或)人工智能的極大幫助。要了解復(fù)雜的生物醫(yī)學(xué)現(xiàn)象,如癌癥,我們就需要考慮系統(tǒng)(即在許多條件下,諸多基因產(chǎn)物與細(xì)胞類型之間的相互作用)。如果沒有計(jì)算機(jī)模擬等計(jì)算技術(shù)的幫助,這樣的努力是不可能得到結(jié)果的。三、數(shù)據(jù)科學(xué)很適合生物學(xué)生物學(xué)的另一個(gè)重要特征是,迄今為止,在生物學(xué)上還沒有發(fā)現(xiàn)(或很少)與牛頓定律等價(jià)的主要定律或原理。著名物理學(xué)家ErnestRutherford曾說“所有的科學(xué)要么是物理,要么是集郵”。生物學(xué)或許是他心中一個(gè)“集郵”的典型例子。即使過了一個(gè)世紀(jì),這種情況也沒有太大改變。生物學(xué)的這一特征可能是與生俱來的,因?yàn)樯锵到y(tǒng)是以一種相當(dāng)短視的方式進(jìn)化的,類似于自然語言的發(fā)展。如果生物系統(tǒng)和自然語言的進(jìn)化類似,那么研究它們的有效方法也應(yīng)該有一些共同之處。的確,就像編纂字典對(duì)自然語言研究的重要性一樣,在生物學(xué)和醫(yī)學(xué)領(lǐng)域,建立用于儲(chǔ)存和組織大量數(shù)據(jù)的數(shù)據(jù)庫也非常重要。例如,核心學(xué)術(shù)期刊NucleicAcidsResearch(牛津大學(xué)出版社出版)每年的第一期都以數(shù)據(jù)庫為主題;另一個(gè)例子是,諸如隱馬爾可夫模型(HMM)等概率建模方法已經(jīng)在這兩個(gè)領(lǐng)域得到了成功的應(yīng)用。筆者相信這些事實(shí)證明了數(shù)據(jù)科學(xué)在生物醫(yī)學(xué)中的重要性。實(shí)際上,現(xiàn)代生物學(xué)作為一門數(shù)據(jù)驅(qū)動(dòng)科學(xué)已經(jīng)取得了很大的進(jìn)步。在過去,人們通過巧妙的(小規(guī)模的)實(shí)驗(yàn)來證明某些假設(shè);與此相反,如今通過處理大量系統(tǒng)化產(chǎn)生的無偏數(shù)據(jù)可以得到新的知識(shí)或假設(shè),這種方法有時(shí)被稱為“從數(shù)據(jù)到知識(shí)”(D2K)。這正是需要數(shù)據(jù)科學(xué)的地方,即使不知道基本原理,我們對(duì)生物醫(yī)學(xué)的理解也應(yīng)該在數(shù)據(jù)科學(xué)的幫助下加深至足以造福人類的程度。四、人工智能和生物醫(yī)學(xué)——回顧在計(jì)算機(jī)科學(xué)中,對(duì)人工智能的研究(這里,筆者只是將人工智能定義為嘗試使計(jì)算機(jī)像人類一樣更“智能化”)有著悠久的歷史,包括各種各樣的嘗試,其中一些與生物醫(yī)學(xué)密切相關(guān)。例如,在20世紀(jì)70年代初,一個(gè)名為MYCIN的診斷細(xì)菌感染性疾病的計(jì)算機(jī)程序?qū)ι鐣?huì)產(chǎn)生了巨大的影響;另一個(gè)例子是,在20世紀(jì)70年代末,斯坦福大學(xué)的MOLGEN項(xiàng)目將基于知識(shí)的問題解決方法應(yīng)用于多個(gè)案例,包括設(shè)計(jì)遺傳學(xué)實(shí)驗(yàn)。當(dāng)筆者還是一個(gè)博士生時(shí),選擇了應(yīng)用AI的主題——更具體地說,是基于知識(shí)/規(guī)則的專家系統(tǒng)——來解釋新確定的基因組序列。實(shí)際上,筆者構(gòu)建了一個(gè)“if-then”類型的專家系統(tǒng),用于從氨基酸序列預(yù)測(cè)蛋白質(zhì)的亞細(xì)胞定位。這些規(guī)則是根據(jù)已知與亞細(xì)胞位置相關(guān)的各種蛋白質(zhì)分類信號(hào)和序列特征(如氨基酸組成)來制定的。該系統(tǒng)被命名為PSORT,并用于國際酵母基因組計(jì)劃。后來,我們利用機(jī)器學(xué)習(xí)技術(shù)(k最近鄰算法)全面升級(jí)了系統(tǒng),使其更容易在頻繁更新的訓(xùn)練數(shù)據(jù)下完成更新和優(yōu)化。它是通過互聯(lián)網(wǎng)運(yùn)行的,當(dāng)時(shí)互聯(lián)網(wǎng)還處于起步階段。此后,預(yù)測(cè)因子PSORT家族得到了分子生物學(xué)家的廣泛應(yīng)用。目前,人工智能應(yīng)用于生物醫(yī)學(xué)的主流似乎是深度學(xué)習(xí)(見下文),但筆者認(rèn)為傳統(tǒng)的嘗試在生物醫(yī)學(xué)中使用知識(shí)庫仍然很重要。這樣的研究現(xiàn)在活躍在語義網(wǎng)領(lǐng)域。五、人工智能與生物醫(yī)學(xué)——近期激動(dòng)人心的發(fā)展近年來,人工智能的影響已幾度引發(fā)人們的研究熱情。很明顯,我們現(xiàn)在看到的這種浪潮,很大程度上是由深度學(xué)習(xí)和相關(guān)技術(shù)的成功引起的。在生物學(xué)領(lǐng)域,一個(gè)里程碑可能是人工智能最近在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的關(guān)鍵評(píng)估(CASP)比賽中的獲勝,該比賽自1994年以來每年舉行一次。在CASP中,參賽者得到一組折疊[三維(3D)]結(jié)構(gòu)未知的氨基酸序列的蛋白質(zhì),并提交他們預(yù)測(cè)的3D結(jié)構(gòu),由組織者嚴(yán)格評(píng)審。在最近的第十三屆CASP中,由DeepMind團(tuán)隊(duì)(該團(tuán)隊(duì)因其在傳統(tǒng)圍棋游戲中的成功而聞名)開發(fā)的AlphaFold預(yù)測(cè)系統(tǒng)顯示出了最好的預(yù)測(cè)精度。蛋白質(zhì)折疊這一基本問題已經(jīng)被研究了很多年,所以這一結(jié)果的意義非凡,盡管它并不意味著問題本身已經(jīng)完全解決。因此,類似的方法可能會(huì)對(duì)解決DNA序列解釋中存在的問題很有用,并有利于個(gè)性化醫(yī)療。例如,人工智能可能有助于識(shí)別每個(gè)個(gè)體的基因組序列中潛在的與疾病相關(guān)的突變。事實(shí)上,一個(gè)商業(yè)化的基于人工智能的系統(tǒng)(theIBMWatsonforOncology)根據(jù)各種可用數(shù)據(jù)為醫(yī)生提供優(yōu)先治療方案。最近,有一項(xiàng)針對(duì)中國癌癥患者的人工智能系統(tǒng)與臨床實(shí)踐的一致性研究被發(fā)表。這種技術(shù)毫無疑問有助于:①加速對(duì)大量患者的個(gè)性化診斷;②及時(shí)更新系統(tǒng)以使其與新傳入的數(shù)據(jù)相匹配;③優(yōu)化針對(duì)特定族群的系統(tǒng)。下一個(gè)巨大的挑戰(zhàn)可能是將這類機(jī)器學(xué)習(xí)方法與上述知識(shí)型方法相結(jié)合。六、現(xiàn)代生物醫(yī)學(xué)通過NGS產(chǎn)生大量數(shù)據(jù)正如筆者上面提到的,一切生命系統(tǒng)都是基于它們被編碼成DNA序列的信息(也就是基因組信息)而構(gòu)成的。NGS技術(shù)的最新進(jìn)展使得以合理的成本(約1000USD或更少)測(cè)定每個(gè)個(gè)體的整個(gè)基因組成為可能,這是一個(gè)大約3.3×109

個(gè)堿基的序列(實(shí)際上,每個(gè)個(gè)體基本上有兩個(gè)來自雙親的基因組)(圖1)。NGS在很多方面對(duì)于了解基因組DNA中包含的信息是很有用的:①由于大多數(shù)疾病都與基因組的缺陷或變異有關(guān),因此將患者和健康人的基因組DNA序列進(jìn)行比較,應(yīng)該有助于確定哪些部分的差異與疾病有關(guān)。這種方法被稱為全基因關(guān)聯(lián)研究(GWAS)。一旦發(fā)現(xiàn)DNA的任何候選位置(即所在地)和某種表型,就可以采用另一種被稱為DNA編輯的技術(shù)通過規(guī)律成簇間隔短回文重復(fù)(CRISPR)/Cas系統(tǒng)來培養(yǎng)細(xì)胞以確認(rèn)這種關(guān)系。②與此類似,應(yīng)該對(duì)不同物種和(或)許多個(gè)體的基因組序列進(jìn)行廣泛的比較,以確定DNA的哪些部分是相同的(即保守的),因?yàn)檫@些區(qū)域可能有相同的功能。同樣有趣的是,利用這樣的比較可以弄清一個(gè)物種基因組的新變化將引發(fā)什么樣的進(jìn)化創(chuàng)新。例如,由于人類基因組和黑猩猩(以及其他靈長類動(dòng)物)的基因組非常相似,因此了解人類基因組之間的關(guān)鍵差異是非常重要的。③重要的是,DNA序列通過表觀遺傳學(xué)機(jī)制直接和間接地影響著我們的生活。例如,現(xiàn)在已經(jīng)證實(shí),基因讀取活躍的DNA區(qū)域處于暴露的結(jié)構(gòu)中,并且在DNA本身或其結(jié)合蛋白(組蛋白)上標(biāo)記有特殊的化學(xué)修飾。這些標(biāo)記被用作一種細(xì)胞記憶。這些機(jī)制似乎是理解單個(gè)受精卵如何系統(tǒng)地產(chǎn)生各種細(xì)胞的關(guān)鍵。有趣的是,NGS技術(shù)不僅用于“讀取”DNA序列,還可以通過染色質(zhì)免疫沉淀測(cè)序(ChIP-seq)和Hi-C等技術(shù)來確定各種表觀遺傳狀態(tài)。最近,甚至有可能從單個(gè)細(xì)胞(通過單細(xì)胞測(cè)序/表觀基因組學(xué))獲得這樣的數(shù)據(jù),從而能夠在細(xì)胞水平上精確追蹤一些更簡(jiǎn)單的生物體的整個(gè)發(fā)育過程。這種單細(xì)胞技術(shù)也有助于理解癌細(xì)胞的異質(zhì)性:一種能夠促進(jìn)腫瘤生長的新的體細(xì)胞突變?nèi)绾卧谀[瘤細(xì)胞群中發(fā)生;具有這種突變的細(xì)胞亞群如何隨著腫瘤的生長而增殖;以及一些細(xì)胞是如何獲得在體液中循環(huán)的能力,從而導(dǎo)致癌癥擴(kuò)散到遠(yuǎn)離其起源的身體部位(即轉(zhuǎn)移)。事實(shí)上,即使在癌癥的相對(duì)早期階段,血液循環(huán)中也有來自腫瘤細(xì)胞的DNA碎片。以預(yù)測(cè)患者為目的而對(duì)這種DNA[無細(xì)胞DNA(cfDNA)]進(jìn)行檢測(cè)的技術(shù)被稱為液體活檢,它將徹底改變?cè)缙诎┌Y檢測(cè)。④DNA測(cè)序不僅適用于純化DNA樣本,還適用于混合DNA,即來自多個(gè)物種的DNA(宏基因組)。一個(gè)典型的例子是腸道細(xì)菌的宏基因組測(cè)序,由此我們可以估計(jì)腸道細(xì)菌的大致組成。眾所周知,腸道細(xì)菌通過各種代謝產(chǎn)物(化合物)與人體發(fā)生作用,以多種方式影響人類的健康,所以這些信息對(duì)于了解人類健康是非常有價(jià)值的。因此,結(jié)合使用高通量質(zhì)譜儀系統(tǒng)獲得的代謝組數(shù)據(jù),我們可以獲得更精確的健康狀況組合。綜上所述,NGS可以運(yùn)用到生物醫(yī)學(xué)的多個(gè)方面,人們將持續(xù)努力,以產(chǎn)生大量真實(shí)的數(shù)據(jù)(圖2)。NGS性能提高的速度甚至超過了摩爾定律(圖1)。這種情況必須通過數(shù)據(jù)科學(xué)和人工智能來解決——事實(shí)上,這些技術(shù)應(yīng)該引領(lǐng)生物醫(yī)學(xué),而不僅僅是幫助其解決問題。

圖1.與摩爾定律相比,人類基因組測(cè)序成本的變化趨勢(shì)。虛線代表摩爾定律,其繪制具有一定隨機(jī)性

圖2.公共數(shù)據(jù)庫中的NGS數(shù)據(jù)以驚人的速度增長[美國國立衛(wèi)生研究院(NIH),國家生物技術(shù)信息中心(NCBI)的序列讀取存檔(SRA)數(shù)據(jù)庫]。Y軸以對(duì)數(shù)刻度表示數(shù)據(jù)庫的規(guī)模。實(shí)線代表總庫數(shù),虛線代表開放的庫(即資料下載不受任何限制)。截至2019年6月,SRA總共擁有2.9×1016

個(gè)庫七、結(jié)論大約20年前,當(dāng)人類基因組計(jì)劃啟動(dòng)時(shí),筆者耳聞過生物學(xué)與天氣預(yù)報(bào)之間一個(gè)有趣的類比

:在我們的童年時(shí)代,天氣預(yù)報(bào)是由經(jīng)驗(yàn)豐富的專業(yè)人士來完成的,但他們的預(yù)報(bào)并不十分可靠。如今,數(shù)據(jù)的組合(如溫度、濕度和氣壓)可以在多個(gè)網(wǎng)格點(diǎn)獲得,并輸入超級(jí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論