蛋白質(zhì)折疊模型及算法_第1頁(yè)
蛋白質(zhì)折疊模型及算法_第2頁(yè)
蛋白質(zhì)折疊模型及算法_第3頁(yè)
蛋白質(zhì)折疊模型及算法_第4頁(yè)
蛋白質(zhì)折疊模型及算法_第5頁(yè)
已閱讀5頁(yè),還剩20頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、蛋白質(zhì)折疊模型和算法中山大學(xué) 生科院阿牛哥2013.4.15文獻(xiàn)整理目錄01 理論進(jìn)展03 折疊模擬02 折疊模型04 折疊算法05 數(shù)據(jù)庫(kù)一、理論進(jìn)展1 20世紀(jì)30年代,吳憲提出了蛋白質(zhì)的變性。英國(guó)劍橋大學(xué)的Bemal發(fā)現(xiàn)蛋白質(zhì)折疊是一個(gè)物理過(guò)程,而且能在試管中進(jìn)行。 1973年,Anfisen觀察到完全還原的核糖核酸酶A可以在體外自發(fā)折疊成具有完全活性的天然構(gòu)象,蛋白質(zhì)的一級(jí)結(jié)構(gòu)包含有指導(dǎo)其形成天然構(gòu)象的全部信息。天然結(jié)構(gòu)可能處于總體自由能的最低點(diǎn)。 Levinthal的悖論(paradox)。 Levinthal和wetlaufer提出蛋白質(zhì)的折疊過(guò)程是有動(dòng)力學(xué)控制的。 首先,經(jīng)典的“

2、折疊途徑”模型為主, ,變性蛋白質(zhì)經(jīng)過(guò)確定途徑按折疊中間體的順序到達(dá)天然態(tài)。 隨后,“能量地形面”的概念來(lái)研究蛋白質(zhì)折疊, “折疊漏斗(folding fmmel)”模型。 折疊過(guò)程的模型包括:框架模型、成核增長(zhǎng)機(jī)制、擴(kuò)散-碰撞模型、疏水核折疊模型、等級(jí)制度模型。 常用的技術(shù)包括:可以追蹤三級(jí)結(jié) 構(gòu)形成和解體的吸光度(Abs)和熒光度(FL)分析。 最新,蛋白質(zhì)天然 結(jié)構(gòu)的拓?fù)浣Y(jié)構(gòu)決定了蛋白質(zhì)折疊機(jī)制,蛋白質(zhì)的折疊速率和 機(jī)制主要決定于蛋白質(zhì)的拓?fù)浣Y(jié)構(gòu),而不是原子間的相互作 用。 一、理論進(jìn)展1 直接從氨基酸序列出發(fā)預(yù)測(cè)蛋白質(zhì)分子的折疊 構(gòu)象在理論和操作上都存在很大的困難.其主要困難來(lái)自兩個(gè)方

3、面: (1)對(duì)構(gòu)象穩(wěn)定的自由能情況了解 得很少,難以給出明確判定蛋白質(zhì)活性的構(gòu)象能指 標(biāo); (2)可能的構(gòu)象空間非常大且很復(fù)雜,如二維 模型,長(zhǎng)度為L(zhǎng)的氨基酸序列可有 AL L 種可 能的構(gòu)象,其中 2.63, 0.333,A為一常數(shù).因 此,這是典型的NP難題. 第一個(gè)問(wèn)題需要參照理 化實(shí)驗(yàn)所獲得的信息,歸結(jié)出模擬蛋白質(zhì)折疊的可 行的數(shù)理模型。 第二個(gè)問(wèn)題則要釆用新的優(yōu)化算法, 使之在有限的時(shí)間內(nèi)找到最優(yōu)的穩(wěn)定構(gòu)象。2一、理論進(jìn)展1 蛋白質(zhì)折疊機(jī)理研究熱點(diǎn)1: 一 是蛋白質(zhì)理論模型的。主要是簡(jiǎn)單的格點(diǎn)模型,主要 內(nèi)容有3個(gè)方面:(1)水分子影響;側(cè)鏈的影響;(3)拓?fù)?結(jié)構(gòu)的研究。 二是蛋白

4、質(zhì)折疊機(jī)理的研究。(1) 熱力學(xué)性質(zhì)分析;(2)動(dòng)力學(xué)過(guò)程的研究;(3) 折疊初期研究。 研究的進(jìn)展趨勢(shì)一方面是蛋白質(zhì)折疊研究下一步會(huì)更需要 實(shí)驗(yàn)研究的深人,特別是蛋白質(zhì)折疊初期快速過(guò)程的研究; 另一方面是蛋白質(zhì)折疊過(guò)程的長(zhǎng)時(shí)間計(jì)算機(jī)動(dòng)態(tài)模擬,這包 括全原子模型和簡(jiǎn)化的非格點(diǎn)模型。另外,水分子如何與大分子相互作用, 疏水相互作用的本質(zhì)等也是研究?jī)?nèi)容。二、折疊模型1、格點(diǎn)HP模型 將20類氨基酸分為疏水性的氨基酸和極性的 氨基酸,分別用兩個(gè)有效氨基酸H和P來(lái)表示,一般稱為 HP模型。產(chǎn)生了有關(guān)二維和三維格點(diǎn)的模型研究等。1二、折疊模型2、HZ疏水拉鏈模型 蛋白質(zhì)鏈通過(guò)疏水性接觸作用,形成鏈的局部

5、疏水接觸作用,再將其 近鄰的氨基酸對(duì)拉近,從而帶動(dòng)他們的近鄰兩殘基b- b靠 近并形成接觸對(duì),然后,c - c殘基對(duì)等等,這樣完成一個(gè)p - 片或a螺旋的折疊1。 基本假設(shè)是多肽鏈中必須有一定數(shù)量 和規(guī)則(不規(guī)則)排列的H型殘基并且有較強(qiáng)的相互作用。 這樣一對(duì)對(duì)地形成接觸,就象拉鏈一樣完成它們的折疊過(guò) 程。這樣形成的H型接觸在鏈的組態(tài)空間中的搜索是十分有限的,因此能夠完成快速的折疊1。二、折疊模型3、 Go模型 在有關(guān)蛋白質(zhì)的早期格點(diǎn) 模擬中首次引入了只考慮在其折疊自然態(tài)結(jié)構(gòu)中的相互作 用,即自然相互作用(Native interaction),而假設(shè)非自然的相互 作用對(duì)球蛋白質(zhì)的折疊能量無(wú)貢

6、獻(xiàn)。Go模型是有關(guān)能量地 形理論的重要部分(即具有指向自然態(tài)的折疊漏斗形狀)的 一個(gè)簡(jiǎn)單刻畫:一個(gè)蛋白質(zhì)鏈具有自然相互作用的接觸越 多,蛋白質(zhì)處在能量地形中的狀態(tài)就越接近自然折疊態(tài),也 就是越接近漏斗的底部。Go模型沒(méi)有考慮能量面 的粗糙特性,只能描述折疊漏斗的漏斗形態(tài)的大 致特性,二、折疊模型4、 -發(fā)卡模型 -發(fā)卡模型把統(tǒng)計(jì)物理引用到蛋白質(zhì)折 疊機(jī)制中。對(duì)G蛋白中只有16個(gè)氨基酸的一段小-發(fā)卡的研究很成功。通過(guò)討論各個(gè) 組態(tài)并求出系統(tǒng)的配分函數(shù),最后確定其系統(tǒng)的自由能,有人采用動(dòng)力學(xué)網(wǎng)絡(luò)模型運(yùn)用REMD模擬研究了 G蛋 白的折疊路徑。1三、折疊模擬 蛋白質(zhì)折疊的模擬分三個(gè)層次:全原子模 型

7、,簡(jiǎn)略模型和簡(jiǎn)單晶格模型。 全原子模型可分為兩種:包 括水的和不包括水的。 在簡(jiǎn)略模型中,用球或球棒簡(jiǎn)化表示支鏈,對(duì)勢(shì)能也相 應(yīng)簡(jiǎn)化處理。 簡(jiǎn)單晶格模型常在熱力學(xué)、動(dòng)力學(xué)、二級(jí)結(jié)構(gòu)的形式等地方有獨(dú)特之處。 HMM(即profile-HMM)是一種概率模型, 將多序列比對(duì)轉(zhuǎn)化為二十種氨基酸的位點(diǎn)特異分布概形, 各種氨基酸在每個(gè)位點(diǎn)的概率取值不同, HMM根據(jù)此特異性在大型數(shù)據(jù)庫(kù)中搜尋與模型匹配的蛋白質(zhì)序列, 是目前最成功的蛋白質(zhì)識(shí)別方法之一7。四、折疊算法(l)Metropolis Monte Cario模擬(MC); MC模擬的主要目的在于在特定溫度下對(duì)構(gòu)象空間作統(tǒng) 計(jì)分析??捎糜诮Y(jié)構(gòu)的優(yōu)化。

8、涉及的構(gòu)象范圍較大。1基本步驟2:第一步從一個(gè)隨機(jī)的構(gòu)象S1出發(fā),并計(jì)算其E1 能量值第二步對(duì)S1的某個(gè)殘基定向進(jìn)行隨機(jī)改變, 形成新構(gòu)象S2,并計(jì)算其能量值E2;第三步如果E1E2,接受構(gòu)象S2,使之成為 當(dāng)前構(gòu)象;否則,如果滿足仍然接受S2,其中Ran為(0,1)之間的隨機(jī)數(shù),Ck為一遞減序列.如果不接受S2,則仍使S1為當(dāng)前構(gòu)象;第四步如果不滿足停止準(zhǔn)則,則重復(fù)第二步到第四步.理論上,該算法能保證收斂到全局最小.但是, 實(shí)際上即使利用盡可能多的計(jì)算機(jī)資源,也很難得能量最小的構(gòu)象。四、折疊算法(2)分子動(dòng)力學(xué)(Molecular Dynamics)模擬 (MD); MD通過(guò)牛頓第二方程模擬

9、真實(shí)的動(dòng)力學(xué)過(guò)程,能 夠?qū)﹄逆溦郫B的動(dòng)力學(xué)行為作較準(zhǔn)確的描述,如表示折疊過(guò) 程自組織特征的f分子一噪聲。用于結(jié)構(gòu)的優(yōu)化。一般用于在總體構(gòu)象基本 確定時(shí),消除不合理的局部結(jié)構(gòu)。1四、折疊算法(3)ESMC(熵取樣 Monte Cario),也稱之為 Generalized Ensemble 創(chuàng)造性的將“熵”即某能量或區(qū)間的構(gòu)象數(shù)目的對(duì)數(shù)作為描述對(duì)象,以負(fù)熵代替-E/T的取樣,此法能 夠?qū)π§貐^(qū)域作比較多的取樣,由于低能區(qū)域都是小區(qū)域 熵,故通過(guò)這個(gè)方法可以對(duì)低能構(gòu)象區(qū)域作較好的統(tǒng)計(jì)分 析。熵取樣MC能一次性地給出構(gòu)象數(shù)目隨能量的分 布,非常適合作蛋白質(zhì)折疊的熱力學(xué)的研究。1四、折疊算法遺傳算法(

10、Genetic Algorithm)(GA);GA模擬蛋白質(zhì)折疊的關(guān)鍵問(wèn)題 是解決雜交時(shí)肽鏈的自規(guī)避。1首先要選擇一種合適的編碼方法,要確定算法的參數(shù),要考慮具體的遺傳操作方法算法的基本步驟可描述如下2:第一步隨機(jī)產(chǎn)生N個(gè)構(gòu)象作為初始集團(tuán),并確定參數(shù);第二步計(jì)算每個(gè)構(gòu)象Si被選擇進(jìn)行遺傳操作的概率: 其中Ei為Si的能量值,并約定依據(jù)概率p(Si)進(jìn)行 隨機(jī)選擇; 第三步利用交叉算子和變異算子對(duì)選定的構(gòu)象(即染色體)施行交叉和變異操作,并產(chǎn)生新的集團(tuán)。 第四步若不滿足停止準(zhǔn)則,則重復(fù)第二步到 第三步.否則,輸出集團(tuán)中能量值最小的構(gòu)象. 在交叉操作中,隨機(jī)選擇一對(duì)構(gòu)象作為父代染 色體,并將序列中

11、隨機(jī)選定的一個(gè)點(diǎn)作為交叉點(diǎn).將 每條序列的交叉點(diǎn)前的部分與另一序列交叉點(diǎn)后的 部分連接起來(lái).在二維晶格模型中有三種連接方式: 0連接,90連接和270連接.隨機(jī)選擇一種連接方 式連接兩部分,并尋找一條有效的序列作為子代染 色體.如果三種連接方式所得序列均無(wú)效,則重新選 擇一對(duì)父變異操作類似于MC方法:隨機(jī) 選擇序列中一點(diǎn)并改變?cè)鹊倪B接方式.四、折疊算法遺傳算法(Genetic Algorithm)(GA);GA模擬得到的結(jié)構(gòu),能量值為-19。2在GA基礎(chǔ)上又演化出混合遺傳算法HGA2.四、折疊算法(5)增刪方法PERM 基本思想也類似生存競(jìng)爭(zhēng)的內(nèi)核,髙適應(yīng)度的個(gè)體大規(guī)模復(fù)制,而低適應(yīng)度的個(gè)體

12、消亡,這種方案效率比常規(guī)MC髙, PERM是依格點(diǎn)模型求解蛋白質(zhì)折疊問(wèn)題的最髙效算法。 基本算法流程5:四、折疊算法(5)增刪方法PERM 在求解PERM的過(guò)程中,因?yàn)闇囟萒和人口控制系數(shù)C0是對(duì)計(jì)算影響極大的一個(gè)因素MJ,計(jì)算中嘗試了許多不同T和C0組合,得到了較好的改進(jìn)效果四、折疊算法(6)擴(kuò)散方程 將構(gòu)象能量比作粒子數(shù)密度,而低能量構(gòu)象對(duì)應(yīng)髙密度區(qū)域。利用 擴(kuò)散可使粒子數(shù)分布均勻化,高密度區(qū)域粒子數(shù)減少,而低 密度區(qū)域粒子數(shù)增加。對(duì)應(yīng)于能貌上的操作就是,能谷上 升,能壘下降,由此可將局域勢(shì)阱的數(shù)目減少或深度變淺,將 能貌變得平滑。這種能貌平滑化操作滿足不改變能貌大致 形狀的前提。擴(kuò)散方程

13、的主要步驟是先將能貌平滑化,再對(duì) 折疊進(jìn)行模擬,是肽鏈構(gòu)象在最低能谷內(nèi)或附近,然后在復(fù)原能貌,再進(jìn)行真實(shí)模擬。四、折疊算法(7)簇MC算法(Cluster MC Algorithm) 自旋體系最好的算法之一,它的移動(dòng)集合很具特色,具體操作上的困難,少有引入。1四、折疊算法(8)人口控制算法 一種改進(jìn)的PERM算法,它給出了 PERM 算法的一種擬人解釋,對(duì)算法中的權(quán)重及預(yù)測(cè)值進(jìn)行了擬人化 的改進(jìn),并對(duì)選擇動(dòng)作時(shí)不同情況下的權(quán)重計(jì)算公式進(jìn)行了統(tǒng) 一,算法在計(jì)算效率上有了明顯的提高。1 擬物算法具體步驟如下6: a)在3n 維歐氏空間中隨機(jī)生成一個(gè)點(diǎn),并計(jì)算當(dāng)前構(gòu)型下的U 值; b)當(dāng)前構(gòu)型下的U

14、 值記為U0; C)按梯度下降法作一次優(yōu)化并計(jì)算當(dāng)前U 值,記做Ul; d)計(jì)算U0 - Ul的值,若該值小于0. 000 00l 則結(jié)束;否則轉(zhuǎn)至b 擬人策略6: 當(dāng)擬物計(jì)算落入某一局部極小值“陷阱”時(shí),可獲得與該值相對(duì)應(yīng)的格局以及該格局的中心位置;將此格局中距離該中心最遠(yuǎn)的黑球( 象征著上面例子中那個(gè)非常痛苦的人)取出來(lái)放到這個(gè)中心點(diǎn)上,并以此時(shí)的格局作為新的初始格局進(jìn)行新一輪的擬物計(jì)算。四、折疊算法(9)免疫算法(Immune algorithm) 在遺傳算法基礎(chǔ)上發(fā)展起來(lái)的,它模擬生物免疫系統(tǒng)對(duì)外來(lái)抗原排除,最大的特點(diǎn)是免疫記憶特性,抗體的自我識(shí)別能力和強(qiáng)大 的信息處理能力。作為一種集

15、免疫機(jī)制與進(jìn)化機(jī)制于 一體的全新的演化算法,較遺傳算法較好的解決了已有算法中 出現(xiàn)的退化現(xiàn)象,且使收斂速度有了顯著提高。同時(shí),在非格模 型的優(yōu)化問(wèn)題上,較遺傳算法和模擬退火算法,有更強(qiáng)的全局搜 索能力和更高的穩(wěn)定性。1(10)其他新算法: 基于重要性抽樣的SISPER算法; 基于Monte Carlo的 MSOE算法; 在生物計(jì)算Web Service領(lǐng)域有著重要的應(yīng) 用價(jià)值的網(wǎng)格計(jì)算(Grid Computation) 。四、折疊算法(10)其他新算法: 粒子群優(yōu)化算法(PsO)是一種新的群體智能算法,源于對(duì)鳥群群體捕食行為的研究3 右圖由RasMol繪制而成圖(a)是從數(shù)據(jù)庫(kù)文件中讀取了2

16、sN3的所有C原子坐標(biāo)數(shù)據(jù)得到的結(jié)構(gòu)圖,圖(b)是計(jì)算得到的C原子坐標(biāo)數(shù)據(jù)的結(jié)構(gòu)圖兩種結(jié)構(gòu)的C-RMSD值為612A。五、折疊分類數(shù)據(jù)庫(kù)41、LIFCA數(shù)據(jù)庫(kù) LIFCA數(shù)據(jù)庫(kù)包括、/類2406個(gè)蛋白質(zhì)結(jié)構(gòu)域,選自ASTRAL一165數(shù)據(jù)庫(kù)中序列間同一性小于25、分辨率小于257的非冗余子集。利用基于折疊核心的蛋白質(zhì)折疊類型分類方法,確定每一個(gè)樣本的折疊類型,建立蛋白質(zhì)折疊信息標(biāo)注文件,形成了蛋白核心折疊注釋數(shù)據(jù)庫(kù)LIFCA,相關(guān)信息可以通過(guò)訪問(wèn)http:/ SCOP基于進(jìn)化相關(guān)給出了蛋白質(zhì)折疊類型的分類,被大家廣泛采用,LIFCA是基于折疊核心的二級(jí)結(jié)構(gòu)組成及分布的蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(kù)在折疊識(shí)別中作用顯著參考文獻(xiàn)1.歐陽(yáng)芳平,徐慧,郭愛(ài)敏,李燕峰 ;蛋白質(zhì)折疊機(jī)理的理論研究; China Journal of Bioinformatics; 2007,5;2. 解偉、王翼飛;蛋白質(zhì)折疊的計(jì)算

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論