蛋白質(zhì)結(jié)構(gòu)預(yù)測_第1頁
蛋白質(zhì)結(jié)構(gòu)預(yù)測_第2頁
蛋白質(zhì)結(jié)構(gòu)預(yù)測_第3頁
蛋白質(zhì)結(jié)構(gòu)預(yù)測_第4頁
蛋白質(zhì)結(jié)構(gòu)預(yù)測_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

關(guān)于蛋白質(zhì)結(jié)構(gòu)預(yù)測內(nèi)容概述蛋白質(zhì)的序列分析蛋白質(zhì)二級結(jié)構(gòu)預(yù)測蛋白質(zhì)三維結(jié)構(gòu)的預(yù)測主要生物信息學(xué)資源(蛋白質(zhì)數(shù)據(jù)庫)生物信息學(xué)方法的應(yīng)用(簡單介紹) 預(yù)測蛋白性質(zhì)和結(jié)構(gòu)第2頁,共56頁,2024年2月25日,星期天一、概述蛋白質(zhì)結(jié)構(gòu)研究的重要性基因序列→蛋白質(zhì)序列→蛋白質(zhì)空間構(gòu)象→生物功能解析蛋白質(zhì)的空間結(jié)構(gòu)——有利于認(rèn)識蛋白質(zhì)的功能?認(rèn)識蛋白質(zhì)是如何執(zhí)行功能的?認(rèn)識結(jié)構(gòu)與功能的關(guān)系?基礎(chǔ)——設(shè)計(jì)和創(chuàng)造新蛋白第3頁,共56頁,2024年2月25日,星期天現(xiàn)代結(jié)構(gòu)測定技術(shù)雖然發(fā)展迅速,但是非常復(fù)雜,費(fèi)用很高。 特別是已知結(jié)構(gòu)的蛋白質(zhì),反復(fù)測定,費(fèi)用高昂基因組序列分析→導(dǎo)出大量的蛋白序列→但蛋白的空間結(jié)構(gòu)未知?結(jié)構(gòu)測定面臨的巨大挑戰(zhàn)——蛋白質(zhì)種類數(shù)量龐大,依靠結(jié)構(gòu)測定方法獲得空間結(jié)構(gòu)信息面臨巨大挑戰(zhàn)?假如研究中對cDNA翻譯的序列高級結(jié)構(gòu)一無所知,

——首先通過結(jié)構(gòu)預(yù)測,提供實(shí)驗(yàn)設(shè)計(jì)思路?需要發(fā)展理論分析方法→預(yù)測蛋白質(zhì)的結(jié)構(gòu)2.為什么要進(jìn)行蛋白質(zhì)結(jié)構(gòu)的預(yù)測?第4頁,共56頁,2024年2月25日,星期天3.蛋白質(zhì)結(jié)構(gòu)預(yù)測的可行性分析Anfinsen原理:蛋白去折疊→重新折疊→生物學(xué)活性能夠完全恢復(fù),說明高級結(jié)構(gòu)的信息蘊(yùn)含在一級結(jié)構(gòu)中。因此,設(shè)法以一級結(jié)構(gòu)來推測高級結(jié)構(gòu)具有理論上的可行性。結(jié)構(gòu)分析表明:有些蛋白之間具有很高的同源性,根據(jù)蛋白質(zhì)結(jié)構(gòu)和功能的高同源性關(guān)系預(yù)測未知蛋白質(zhì)結(jié)構(gòu),在理論和實(shí)踐上是可行的。蛋白質(zhì)結(jié)構(gòu)預(yù)測——已有大量研究和成功實(shí)例,提供了實(shí)踐上的可行性。分子生物學(xué)和生物信息學(xué)等技術(shù)的發(fā)展,有可能直接從一級序列出發(fā),預(yù)測蛋白質(zhì)的高級結(jié)構(gòu),為高級結(jié)構(gòu)的預(yù)測提供了保障。因此,蛋白質(zhì)高級結(jié)構(gòu)的預(yù)測是可行的,而且成本相對低廉。第5頁,共56頁,2024年2月25日,星期天4.蛋白質(zhì)結(jié)構(gòu)預(yù)測的目的已知蛋白一級結(jié)構(gòu)序列

↓預(yù)測或測定構(gòu)建立體結(jié)構(gòu)模型

↓預(yù)測或測定結(jié)構(gòu)與功能研究

↓設(shè)計(jì)蛋白質(zhì)新分子

↓蛋白質(zhì)結(jié)構(gòu)改造或創(chuàng)造新分子(生產(chǎn)實(shí)踐中應(yīng)用)第6頁,共56頁,2024年2月25日,星期天獲得一級序列↓尋找同源蛋白↓依據(jù)同源蛋白晶體結(jié)構(gòu)↓構(gòu)建結(jié)構(gòu)模型5.結(jié)構(gòu)預(yù)測的主要思路同源建模(HolologyModeling)折疊識別(FoldRecognition)從頭計(jì)算(AbInitio)獲得一級序列↓沒有同源蛋白↓二級結(jié)構(gòu)預(yù)測超二級結(jié)構(gòu)結(jié)構(gòu)預(yù)測三級結(jié)構(gòu)結(jié)構(gòu)預(yù)測↓構(gòu)建結(jié)構(gòu)模型第7頁,共56頁,2024年2月25日,星期天第一節(jié)蛋白質(zhì)序列分析序列同源性分析雙重序列比對多重序列比對第8頁,共56頁,2024年2月25日,星期天序列同源性分析?概念:與已知的序列進(jìn)行比對,找出同源性序列,從中獲取未知該序列蛋白的性質(zhì)和結(jié)構(gòu)信息的過程。方法:目標(biāo)序列→數(shù)據(jù)庫序列比對→尋找同源得分高的序列→獲得如下信息未知蛋白質(zhì)aa組成、pI、MW、疏水區(qū)等性質(zhì)保守位點(diǎn)、活性位點(diǎn)等建立蛋白質(zhì)之間的進(jìn)化關(guān)系二級和三級結(jié)構(gòu)預(yù)測信息預(yù)測蛋白質(zhì)的折疊塊模式(二級結(jié)構(gòu)與氨基酸關(guān)系,一級結(jié)構(gòu)與三級結(jié)構(gòu)關(guān)系)意義:獲取未知高級結(jié)構(gòu)蛋白的性質(zhì)和結(jié)構(gòu)信息,對蛋白質(zhì)的性質(zhì)和結(jié)構(gòu)進(jìn)一步實(shí)驗(yàn)研究具有指導(dǎo)作用。第9頁,共56頁,2024年2月25日,星期天第10頁,共56頁,2024年2月25日,星期天2.雙重序列比對:概念:兩個序列之間比較序列,通過aa殘基數(shù)匹配,反映序列間同源性高低的程度和序列相似的程度。(1)原理序列最小比較單位是aa殘基,即是每個aa殘基代表一個結(jié)構(gòu)單元通過二維矩陣的方法,尋找兩個序列的最大匹配路徑;允許兩個序列上插入或刪除一些aa殘基(gap)—獲得殘基最大匹配數(shù)量。(2)打分矩陣類型:由計(jì)算機(jī)軟件完成→依據(jù)aa所對應(yīng)的核苷酸變異的分析方法——GCGCMGDM:→依據(jù)aa所對應(yīng)的物化性質(zhì)的分析方法——Rao:→依據(jù)aa側(cè)鏈的疏水性質(zhì)的分析方法——HYDOR:→aa在一組相關(guān)蛋白質(zhì)中相互間的替代關(guān)系——MDPAM:→結(jié)構(gòu)打分矩陣.蛋白拓?fù)浣Y(jié)構(gòu)相應(yīng)區(qū)域氨基酸殘基的取代關(guān)系——RIS:→依據(jù)aa殘基的主鏈二面角(φ—ψ)分布——SCM:→氨基酸殘基的空間傾向因子——SCMm,SCFs:第11頁,共56頁,2024年2月25日,星期天(3)打分矩陣的gap值gap:序列中的aa殘基的插入和刪除。序列比對中允許有“gap”存在,扣除gap值,打分仍最高。(4)矩陣打分——來自統(tǒng)計(jì)的結(jié)果反映蛋白質(zhì)家族的共性。如免疫球蛋白家族、白蛋白家族序列比對:僅在一定程度上反映結(jié)構(gòu)的相似性。結(jié)構(gòu)打分矩陣序列比較——是一種類結(jié)構(gòu)比較法,提高結(jié)構(gòu)相似性(5)雙重比對的實(shí)例:同種蛋白不同亞基,人血紅蛋白——兩個鏈同源性73%(P62)不同來源同功蛋白,人和軟體動物肌紅蛋白同源性22%(P63)同源性高,不同打分矩陣給出結(jié)果相一致。同源性低,不同打分矩陣給出結(jié)果有不同。原因:主要由于序列不保守區(qū)匹配不一致導(dǎo)致。第12頁,共56頁,2024年2月25日,星期天多重序列比對(Multiplesequencealignment;MSA)(1)多重序列比對三個以上的序列(蛋白、DNA等)相互間的序列比對。推導(dǎo)出序列之間的同源性程度序列之間的種系發(fā)生關(guān)系蛋白質(zhì)結(jié)構(gòu)域的三維結(jié)構(gòu)與二級結(jié)構(gòu)等。圖3基于細(xì)胞質(zhì)砷還原蛋白氨基酸序列的系統(tǒng)發(fā)育分析第13頁,共56頁,2024年2月25日,星期天(2)多重序列比對方法多重序列比較以雙重序列比較為基礎(chǔ)序列比對給出顯著性得分的方法假設(shè)6個序列,要得到顯著性得分,將序列重排100次,分別求出每兩對序列的顯著性得分,需要進(jìn)行C62×101=1515(次)歸一化比對得分“NAS值”與“顯著性得分”成正比NAS:兩個序列的(最大顯著性得分)與(序列長度)的比值(歸一化處理)NAS值高的一對序列,即是同源性最高的序列多重序列比對:最先考慮兩個同源性高的序列,再挑選NAS值較高的第三個序列進(jìn)行比對,依次類推,獲得全部序列的同源性高低排列。如:feng-Doolite法和Barton-Sternberg法等。第14頁,共56頁,2024年2月25日,星期天雙重序列比對與多重序列比對關(guān)系雙重比對:目標(biāo)序列與其它系列的同源性和結(jié)構(gòu)相似性比較。

一條系列與其它多條序列的比對。多重比對:包括目標(biāo)系列在內(nèi)的多條系列之間相互關(guān)系的比較。 多條序列之間每兩條序列之間均進(jìn)行相互比較。雙重序列比較是多重比對的基礎(chǔ),相互之間進(jìn)行多重比對,找出它們之間相互的種系發(fā)生關(guān)系和高級結(jié)構(gòu)的關(guān)系。首先進(jìn)行雙重比對,選擇出同源性較高的序列,然后進(jìn)行多重比較,獲得目標(biāo)序列更多的信息。第15頁,共56頁,2024年2月25日,星期天第二節(jié)蛋白質(zhì)二級結(jié)構(gòu)的預(yù)測

二級結(jié)構(gòu)預(yù)測是研究蛋白質(zhì)折疊問題的主要內(nèi)容之一,也是獲得新氨基酸序列結(jié)構(gòu)信息的一般方法。蛋白質(zhì)分子中二級結(jié)構(gòu)具有較強(qiáng)的規(guī)律性,每一段相鄰的氨基酸具有形成二級結(jié)構(gòu)的傾向,

二級結(jié)構(gòu)預(yù)測常作為局部結(jié)構(gòu)預(yù)測和三維空間結(jié)構(gòu)預(yù)測的基礎(chǔ)。第16頁,共56頁,2024年2月25日,星期天1、預(yù)測方法:有幾十種,歸納為3大類統(tǒng)計(jì)法、基于已有知識的預(yù)測方法、混合方法2、預(yù)測的原則以aa殘基為預(yù)測單位假定蛋白二級結(jié)構(gòu)主要由臨近殘基間的相互作用決定。對已知結(jié)構(gòu)蛋白分析、歸納,制定預(yù)測規(guī)則。3、以Chou&Fasman(20th70’)的方法為例進(jìn)行討論—思路基于單個aa殘基統(tǒng)計(jì)的經(jīng)驗(yàn)參數(shù)法——預(yù)測二級結(jié)構(gòu)通過于對大量已知蛋白結(jié)構(gòu)進(jìn)行統(tǒng)計(jì)歸納出每種aa殘基的二級結(jié)構(gòu)傾向因子第17頁,共56頁,2024年2月25日,星期天(1)Chou&Fasman預(yù)測二級結(jié)構(gòu)參數(shù)定義 每個aa殘基具有7個參數(shù),依據(jù)7個參數(shù),預(yù)測二級結(jié)構(gòu)——氨基酸殘基的參數(shù)的定義Pα、Pβ、和Pt:分別為形成螺旋、折疊和轉(zhuǎn)角的傾向性。f(i)、f(i+1)、

f(i+2)、

f(i+3):相鄰四個殘基的轉(zhuǎn)角參數(shù)。f:每個aa殘基在第一、第二、第三和第四位的頻度如:Pro:30%在第二位,第三位<4%依據(jù)Pα和Pβ大?。簩?0種aa分類如:Glu、Ala是最強(qiáng)螺旋aa殘基;Val、Ile:最強(qiáng)折疊aa殘基Asp、Gly、Pro常分布于轉(zhuǎn)角的aa殘基如:Pro中斷螺旋,Glu:中斷折疊第18頁,共56頁,2024年2月25日,星期天(2)Chou&Fasman預(yù)測經(jīng)驗(yàn)規(guī)則基本思路利用一組規(guī)則,掃描氨基酸序列,尋找二級結(jié)構(gòu)成核位點(diǎn)和終止位點(diǎn),擴(kuò)展成核區(qū)域,直到二級結(jié)構(gòu)類型可能發(fā)生終止為止。四個簡要規(guī)則(掌握)

-1、α-螺旋規(guī)則

-2、β-折疊規(guī)則

-3、轉(zhuǎn)角規(guī)則

-4、重疊規(guī)則第19頁,共56頁,2024年2月25日,星期天-1、α-螺旋規(guī)則α-螺旋核:相鄰的6個殘基,至少4個殘基傾向形成α-螺旋,(4個殘基的Pα>100),即為螺旋核。α-螺旋的定義沿序列尋找α-螺旋核,向兩端延伸,直至4個殘基Pα

<100為止。若aa片段長度>5,Pα

均值>Pβ均值,則該片段為螺旋螺旋內(nèi)部不允許Pro出現(xiàn),Pro終止螺旋的延伸。第20頁,共56頁,2024年2月25日,星期天-2、β-折疊規(guī)則和定義β-折疊核,相鄰的6個殘基,至少4個殘基傾向形成β-折疊,(4個殘基的Pβ>100),即為折疊核。沿序列尋找β-折疊核,向兩端延伸,直至4個殘基Pβ

<100為止。若片段Pβ>105

,且Pβ

均值>Pα均值定義該片段為β-折疊Glu:中斷折疊第21頁,共56頁,2024年2月25日,星期天-3、轉(zhuǎn)角規(guī)則和定義轉(zhuǎn)角模型為4肽組合模型,要考慮每個位置上殘基組合的概率,(特定氨基酸在每個位置上的概率)從第i個殘基開始,連續(xù)4個殘基的片段,其概率相乘,根據(jù)計(jì)算結(jié)果判定是否轉(zhuǎn)角若:f(i)×f(i+1)×

f(i+2)×

f(i+3)>7.5×10.5若:四肽Pt>100,且Pt>Pβ

,Pt>Pα判定為轉(zhuǎn)角結(jié)構(gòu)第22頁,共56頁,2024年2月25日,星期天-4、重疊規(guī)則若預(yù)測的肽段——螺旋區(qū)和折疊區(qū)重疊,按照重疊區(qū)域Pα

均值和Pβ均值相對大小進(jìn)行預(yù)測Pα

均值>Pβ均值,預(yù)測為螺旋Pβ

均值>Pα均值,預(yù)測為折疊第23頁,共56頁,2024年2月25日,星期天本節(jié)小結(jié)重點(diǎn)講述了Chou&Fasman預(yù)測方法和規(guī)則α-螺旋規(guī)則β-折疊規(guī)則轉(zhuǎn)角規(guī)則重疊規(guī)則二級結(jié)構(gòu)預(yù)測方法和原理——簡單明了,二級結(jié)構(gòu)參數(shù)的物理意義明確,二級結(jié)構(gòu)成核、延伸、終止規(guī)則,反映了蛋白質(zhì)二級結(jié)構(gòu)形成過程。該方法的預(yù)測準(zhǔn)確率在50%左右。第24頁,共56頁,2024年2月25日,星期天第三節(jié)蛋白質(zhì)三維結(jié)構(gòu)預(yù)測一、蛋白質(zhì)三維結(jié)構(gòu)的理論預(yù)測:利用計(jì)算機(jī),根據(jù)已有理論和已知aa序列等信息來預(yù)測蛋白質(zhì)的三級結(jié)構(gòu)。二、三維結(jié)構(gòu)預(yù)測的復(fù)雜性——是目前最復(fù)雜、最困難的技術(shù)?蛋白質(zhì)序列與結(jié)構(gòu)之間的關(guān)系非常復(fù)雜,已經(jīng)掌握了一些序列與二級結(jié)構(gòu)之間的關(guān)系關(guān)于aa序列與三維結(jié)構(gòu)之間的關(guān)系了解較少。序列相似的蛋白可能折疊成相似的三維結(jié)構(gòu),序列差異較大的蛋白質(zhì)也可能折疊成相似的結(jié)構(gòu),分子伴侶存在下,蛋白的折疊問題更加復(fù)雜。第25頁,共56頁,2024年2月25日,星期天三、蛋白質(zhì)三維結(jié)構(gòu)預(yù)測的理論三維結(jié)構(gòu)分析表明:三維結(jié)構(gòu)堆積的次級作用力和二硫鍵等——在維系三維結(jié)構(gòu)具有重要的作用,對蛋白質(zhì)三維結(jié)構(gòu)預(yù)測具有重要作用。二級結(jié)構(gòu)與三級結(jié)構(gòu)之間的序列模體(motif)、結(jié)構(gòu)域(domain)和折疊單元(fold)對蛋白質(zhì)三維結(jié)構(gòu)預(yù)測具有重要作用。四、預(yù)測的方法(3類)1、同源建模(HolologyModeling)2、折疊識別(FoldRecognition)3、從頭計(jì)算(AbInitio)第26頁,共56頁,2024年2月25日,星期天1、同源建模(1)概念:

又稱比較性模擬,利用已知結(jié)構(gòu)的同源蛋白和蛋白質(zhì)家族中的蛋白質(zhì)作為模板,模擬目標(biāo)蛋白質(zhì)結(jié)構(gòu)的方法(建立目標(biāo)蛋白的分子模型)。(2)預(yù)測思路:未知結(jié)構(gòu)蛋白尋找已知結(jié)構(gòu)的同源蛋白以同源蛋白為模板建立同源蛋白結(jié)構(gòu)模型移植模型蛋白的結(jié)構(gòu)數(shù)據(jù)構(gòu)建未知蛋白的模型(3)特點(diǎn):預(yù)測速度快精度較高局限性大:已知結(jié)構(gòu)蛋白數(shù)量較少,許多蛋白沒有同源序列使用模型不同,預(yù)測結(jié)構(gòu)并不唯一。第27頁,共56頁,2024年2月25日,星期天(4)預(yù)測步驟(6個)搜索結(jié)構(gòu)模型的模板序列比對建立骨架構(gòu)建目標(biāo)蛋白側(cè)鏈建立目標(biāo)蛋白的環(huán)區(qū)優(yōu)化模型預(yù)測結(jié)果若序列的等同部分超過60%,非常接近測定結(jié)果若序列的等同部分超過30%,期望得到較好的預(yù)測結(jié)果搜索結(jié)構(gòu)模型的模板:假定兩個同源蛋白具有相同骨架,按同源蛋白模型建立模板序列比對:目標(biāo)蛋白與模板蛋白殘基匹配建立骨架:模板結(jié)構(gòu)的原子坐標(biāo)移植到目標(biāo)蛋白,建立目標(biāo)蛋白的骨架構(gòu)建目標(biāo)蛋白側(cè)鏈:移植相同殘基的坐標(biāo),不完全匹配的殘基,側(cè)鏈構(gòu)象采用經(jīng)驗(yàn)數(shù)據(jù)預(yù)測,建立目標(biāo)蛋白的環(huán)區(qū):經(jīng)驗(yàn)方法,從已知蛋白質(zhì)中,尋找最優(yōu)的環(huán)區(qū),拷貝結(jié)構(gòu)數(shù)據(jù)優(yōu)化模型:建立初步模型,對不相容的空間坐標(biāo)進(jìn)行改進(jìn)優(yōu)化如:采用分子力學(xué)、分子動力學(xué)、模擬退火等方法進(jìn)行結(jié)構(gòu)優(yōu)化第28頁,共56頁,2024年2月25日,星期天2、折疊識別(FoldRecognition)又稱穿針引線法(threading):根據(jù)結(jié)構(gòu)類型進(jìn)行預(yù)測在沒有同源蛋白模板情況下,將目標(biāo)蛋白序列“穿”入蛋白質(zhì)數(shù)據(jù)庫中,與已知的各種蛋白質(zhì)折疊模板的骨架比對,由計(jì)算機(jī)來識別目標(biāo)蛋白序列與數(shù)據(jù)庫中蛋白質(zhì)折疊模板是否“匹配”。設(shè)計(jì)一個評分標(biāo)準(zhǔn),計(jì)算目標(biāo)蛋白序列折疊成各種已知模板的可能性,根據(jù)得法高低判斷“匹配程度”。適用于大多數(shù)蛋白進(jìn)行結(jié)構(gòu)預(yù)測,評分系統(tǒng)設(shè)計(jì)是決定折疊識別方法預(yù)測準(zhǔn)確度的關(guān)鍵。第29頁,共56頁,2024年2月25日,星期天3、從頭計(jì)算(AbInitio)也稱分子動力學(xué)模擬預(yù)測方法。源于安分森的“最低自由能構(gòu)象假說”。與同源建模和折疊識別兩種方法相比,從頭計(jì)算方法不需要模板,而是以自由能作為預(yù)測蛋白質(zhì)折疊類型的基礎(chǔ)。能量函數(shù)設(shè)計(jì)和最低自由能的確定是決定從頭計(jì)算方法預(yù)測準(zhǔn)確度高低的關(guān)鍵主要是求解體系中每個原子相關(guān)的牛頓運(yùn)動方程和薛定諤方程。方法:利用有限的實(shí)驗(yàn)數(shù)據(jù),構(gòu)建分子結(jié)構(gòu)模型,研究分子的能量與結(jié)構(gòu)動態(tài)變化的關(guān)系。主要應(yīng)用于前兩種方法的補(bǔ)充手段和應(yīng)用于結(jié)構(gòu)優(yōu)化。第30頁,共56頁,2024年2月25日,星期天第四節(jié)蛋白質(zhì)結(jié)構(gòu)預(yù)測中的主要生物信息資源一、常用蛋白質(zhì)序列數(shù)據(jù)庫1、PIR數(shù)據(jù)庫(Proteininformationresource)2、SWISS-PROT數(shù)據(jù)庫

3、TrEMBL數(shù)據(jù)庫4、UniProt蛋白質(zhì)數(shù)據(jù)倉庫二、常見蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫1、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫—PDB(Proteindatabank)2、蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(SCOP和CATH)第31頁,共56頁,2024年2月25日,星期天蛋白序列數(shù)據(jù)庫種類繁多,各有特色。根據(jù)實(shí)際情況,通常結(jié)合幾個不同數(shù)據(jù)庫對結(jié)果進(jìn)行比較以下介紹3種數(shù)據(jù)庫1、PIR數(shù)據(jù)庫(Proteininformationresource)網(wǎng)址:http://www.nbrf./pir/1984年美國國家生物醫(yī)學(xué)研究基金會(NBRF)創(chuàng)建, 源于1960(Dayhoff)《蛋白質(zhì)結(jié)構(gòu)與結(jié)構(gòu)圖冊)1988年成立國家蛋白質(zhì)信息中心(PIR-Interantional)共同收集和維護(hù)PIR國際蛋白序列數(shù)據(jù)庫(PIR-PSD)是一個全面的、經(jīng)過注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫,提供一個蛋白序列數(shù)據(jù)庫、相關(guān)數(shù)據(jù)庫和輔助工具集成系統(tǒng)一、常用蛋白質(zhì)序列數(shù)據(jù)庫第32頁,共56頁,2024年2月25日,星期天PIR提供3種類型的檢索服務(wù)基于文本的交互式查詢,用戶通過關(guān)鍵詞進(jìn)行數(shù)據(jù)查詢標(biāo)準(zhǔn)序列搜索和比對:BLAST、FASTA等工具高級搜索:結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級搜索,包括按注釋分類的相似性搜索、結(jié)構(gòu)域搜索等PIR包括3個子數(shù)據(jù)庫,蛋白質(zhì)序列數(shù)據(jù)庫(PIR-PSD)蛋白質(zhì)分類數(shù)據(jù)庫(iProClass)非冗余蛋白質(zhì)參考資料數(shù)據(jù)庫(PIR-NREF)第33頁,共56頁,2024年2月25日,星期天2.SWISS-PROT數(shù)據(jù)庫

http://www.ebi.ac.uk/swissprot/1986年創(chuàng)建:瑞士Geneva大學(xué)和歐洲生物信息研究所(EBI)瑞士生物信息研究所(SIB)和(EBI)共同維護(hù)管理第34頁,共56頁,2024年2月25日,星期天SWISS-PROT數(shù)據(jù)庫數(shù)據(jù)介紹——包括核心數(shù)據(jù)和和注釋兩大類核心數(shù)據(jù):由蛋白質(zhì)序列(條目)構(gòu)成,包含4大類基本信息:蛋白質(zhì)序列數(shù)據(jù)、引用文獻(xiàn)信息、分類學(xué)信息、注釋信息等注釋:蛋白質(zhì)功能、轉(zhuǎn)錄后修飾、特殊位點(diǎn)和區(qū)域、二級結(jié)構(gòu)、四級結(jié)構(gòu)、與其它序列的相似性、序列殘缺與疾病的關(guān)系、序列變異體和沖突等信息。檢索:利用序列提取系統(tǒng)(SRS),方便地檢索SWISS-PROT和其它EBI的數(shù)據(jù)庫。

序列提交:SWISS-PROT只接受直接測序獲得的蛋白質(zhì)序列,序列提交可以在其Web頁面上完成。第35頁,共56頁,2024年2月25日,星期天SWISS-PROT數(shù)據(jù)庫特點(diǎn)所有序列條目都經(jīng)過有經(jīng)驗(yàn)的分子生物學(xué)家和蛋白質(zhì)化學(xué)家通過計(jì)算機(jī)供給并查閱有關(guān)文獻(xiàn)資料仔細(xì)核實(shí)。每個條目包含——條目基本信息、分類信息(描述蛋白質(zhì)的生物來源)、引用文獻(xiàn)信息、注釋、蛋白質(zhì)序列等。冗余最?。簩?shù)據(jù)進(jìn)行歸并處理,降低了數(shù)據(jù)庫的冗余度。與其它30多個數(shù)據(jù)建立了交叉引用,其中包括核酸序列庫、蛋白質(zhì)序列庫和蛋白質(zhì)結(jié)構(gòu)庫等。第36頁,共56頁,2024年2月25日,星期天3、TrEMBL(歐洲分子生物學(xué)實(shí)驗(yàn)室)數(shù)據(jù)庫 網(wǎng)址:http://www.ebi.ac.uk/trembl/index.html是一個計(jì)算機(jī)注釋的蛋白數(shù)據(jù)庫,是SWISS-PROT數(shù)據(jù)庫的補(bǔ)充。數(shù)據(jù)庫蛋白序列不是直接實(shí)驗(yàn)得到,由DNA序列映射獲得

主要包含EMBL/Genbank/DDBJ核酸數(shù)據(jù)庫中根據(jù)編碼序列(CDS)翻譯獲得蛋白序列TrEMBL由2部分組成SP-TrEMBL(SWISS-PROTTrEMBL)序列被賦予SWISS-PROT登錄號,最終要收集到SWISS-PROTREM-TrEMBL(RemainingTrEMBL)序列沒有被賦予SWISS-PROT登錄號,不準(zhǔn)備放入SWISS-PROT

如:人工合成蛋白序列、申請專利的序列、偽基因?qū)?yīng)的序列等第37頁,共56頁,2024年2月25日,星期天4、蛋白質(zhì)數(shù)據(jù)倉庫(UniveralProteinResourceUniProt)網(wǎng)址:http://www.ebi.ac.uk/uniprot/index.html歐洲生物信息研究所(EBI)將3個蛋白數(shù)據(jù)庫(PIR—Swiss-Prot—TrEMBL)統(tǒng)一起來,稱為UniProtUniProt包括3部分UniProtKnowledgebase(UniProt)數(shù)據(jù)庫

蛋白質(zhì)序列、功能、分類、交叉引用等信息存取中心UniProtNon-redundantReference(UniFef)數(shù)據(jù)庫(非冗余)

密切相關(guān)蛋白序列組合到一條記錄中,提高檢索速度,根據(jù)序列相似程度分成3個數(shù)據(jù)庫UniRef100,UniRef90,UniRef50;UniProtArchive(UniParc)資源庫

檔案數(shù)據(jù)庫:記錄所有蛋白序列歷史第38頁,共56頁,2024年2月25日,星期天二、常見蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫隨著X射線晶體衍射分子結(jié)構(gòu)測定而出現(xiàn)的數(shù)據(jù)庫蛋白質(zhì)分子空間結(jié)構(gòu)原子坐標(biāo)包括蛋白質(zhì)家族、折疊模式、結(jié)構(gòu)域、回環(huán)等數(shù)據(jù)庫主要介紹2類數(shù)據(jù)庫1、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(PDB)2、蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(SCOP和CATH)第39頁,共56頁,2024年2月25日,星期天1、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫—PDB(Proteindatabank)20th70S’問世1998年美國國家科學(xué)基金委、能源部和衛(wèi)生研究院資助,成立結(jié)構(gòu)生物學(xué)合作研究協(xié)會,管理PDB數(shù)據(jù)庫,至今已存放上萬套分子的原子坐標(biāo)。蛋白結(jié)構(gòu)來自—X射線衍射、核磁共振和理論計(jì)算。和核酸序列庫一樣,通過網(wǎng)絡(luò)直接向PDB提交數(shù)據(jù)。大部分為蛋白質(zhì)(多肽、病毒),此外,蛋白核酸復(fù)合物和多糖。數(shù)據(jù)以文本文件存放,每個分子有一套獨(dú)立的文件。數(shù)據(jù)包括原子坐標(biāo)、物種來源、化合物名稱、結(jié)構(gòu)遞交者、文獻(xiàn)等信息。還有分辨率、結(jié)構(gòu)基因、溫度系數(shù)、蛋白主鏈數(shù)、分子式、金屬離子、二級結(jié)構(gòu)信息、二硫鍵位置等數(shù)據(jù)。第40頁,共56頁,2024年2月25日,星期天2、蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(SCOP和CATH)結(jié)構(gòu)分類依據(jù):折疊類型、拓?fù)浣Y(jié)構(gòu)、家族和超家族結(jié)構(gòu)、二級結(jié)構(gòu)、超二級結(jié)構(gòu)等分類信息簡單介紹2個主要的蛋白分類數(shù)據(jù)庫(1)SCOP:(Structuralclassificationofprotein)英國研究委員會分子生物學(xué)實(shí)驗(yàn)室和蛋白質(zhì)工程中心開發(fā)的,具有分類、檢索和分析系統(tǒng)的數(shù)據(jù)庫。網(wǎng)址:http://scop.mrc-lmb.cam.ac.uk/scop/將蛋白分為7大類:α、β、α/β、α+β、多結(jié)構(gòu)域蛋白、膜蛋白和細(xì)胞表面蛋白、小蛋白在大類基礎(chǔ)上,進(jìn)一步按折疊類型、超家族、家族3個層次分類第41頁,共56頁,2024年2月25日,星期天(2)CATH:

英國倫敦大學(xué)開發(fā)與維護(hù)網(wǎng)址:/latest/index.html/分類依據(jù): 類型(Class,C-Level),構(gòu)架(Architecture,A-Level),拓?fù)浣Y(jié)構(gòu)(Topology,T--Level),同源性(Homology,H-Level),序列(Sequencefamilylevels)等層次。數(shù)據(jù)庫的結(jié)構(gòu)層次:(4個)第一分類層次:α、β、α-β(α/β、α+β)、低二級結(jié)構(gòu)類等4個類型第二分類層次:螺旋和折疊形成超二級結(jié)構(gòu)的排列方式(分子框架—如同建筑物的——立柱和橫梁一樣)第三分類層次:拓?fù)浣Y(jié)構(gòu),二級結(jié)構(gòu)的性狀和二級結(jié)構(gòu)之間的聯(lián)系。第四分類層次:結(jié)構(gòu)同源性(同源性比對后,再用結(jié)構(gòu)比較)第42頁,共56頁,2024年2月25日,星期天本節(jié)小結(jié):3種——蛋白質(zhì)序列數(shù)據(jù)庫1、PIR數(shù)據(jù)庫(Proteininformationresource)2、SWISS-PROT數(shù)據(jù)庫

3、TrEMBL數(shù)據(jù)庫4、UniProt蛋白質(zhì)數(shù)據(jù)倉庫2類——蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫1、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫—PDB(Proteindatabank)2、蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(SCOP和CATH)

第43頁,共56頁,2024年2月25日,星期天第五節(jié)應(yīng)用生物信息學(xué)預(yù)測蛋白質(zhì)結(jié)構(gòu)(略)若cDNA編碼一個完整的蛋白質(zhì),編碼蛋白質(zhì)結(jié)構(gòu)功能域怎樣?通過生物信息學(xué)方法獲得結(jié)構(gòu)功能域的信息,對研究計(jì)劃的制定提供重要的指導(dǎo)信息。預(yù)測蛋白質(zhì)結(jié)構(gòu)包括以下5個方面一、蛋白質(zhì)序列檢索二、蛋白質(zhì)基本性質(zhì)分析三、二級結(jié)構(gòu)預(yù)測四、局部結(jié)構(gòu)域預(yù)測五、三維結(jié)構(gòu)預(yù)測1、跨膜區(qū)預(yù)測2、信號肽及其剪切位點(diǎn)預(yù)測3、卷曲螺旋預(yù)測包括氨基酸組成、分子量、等電點(diǎn)、親水性和疏水性、信號肽、跨膜結(jié)構(gòu)和結(jié)構(gòu)功能域等。第44頁,共56頁,2024年2月25日,星期天以鼠傷寒沙門氏菌H-1鞭毛蛋白(FlicSalty)的結(jié)構(gòu)預(yù)測為例:一、序列搜索 從SWISS-PROT數(shù)據(jù)庫獲取鞭毛蛋白的序列1、進(jìn)入SWISS-PROT主頁:/sprot/2、選擇“searchSwiss-prot/TrEMBL”搜索”Flagellin”,在結(jié)果中選擇“FlicSalty”,檢索到S.typhimuriumFlagellin(鞭毛蛋白),AC:P06179

sp|P06179|FLIC_SALTYFlagellin

3、點(diǎn)擊FlicSalty序列右下方“P09179inFASTAformat”,將“FlicSalty”的序列格式“P09179.fas”格式另存為“P09179.txt”格式搜索序列(2種方式),簡單地進(jìn)行基于網(wǎng)絡(luò)的序列檢索通過E-mail進(jìn)行序列檢索

網(wǎng)絡(luò)不是很暢通或不急于得到檢索序列時,可采用E-mail方式搜索同源序列第45頁,共56頁,2024年2月25日,星期天二、蛋白質(zhì)基本性質(zhì)分析1、等電點(diǎn)(PI)、相對分子量(MW)計(jì)算 利用ComputePI/MW計(jì)算“P06179.txt”PI和MW(1)進(jìn)入SWISS-PROT主頁:/sprot/,選擇Proteomicstools(2)點(diǎn)擊“Primarystructureanalysis”,選擇“ComputePI/MW”,輸入序列,“P06179.txt”,可得結(jié)果。2、蛋白質(zhì)多種參數(shù)預(yù)測 利用expasy工具中的ProtParam軟件,可更全面預(yù)測各種參數(shù)。(1)進(jìn)入SWISS-PROT主頁,選擇Proteomicstools(2)點(diǎn)擊“Primarystructureanalysis”,選擇“ProtParam”,輸入序列“P09179.txt”,可得結(jié)果。(3)可預(yù)測氨基酸數(shù)目、組成、PI、MW第46頁,共56頁,2024年2月25日,星期天3、氨基酸組成、電荷分布、疏水區(qū)域、跨膜區(qū)域預(yù)測 利用SAPS軟件預(yù)測(1)進(jìn)入SWISS-PROT主頁:/sprot/,選擇Proteomicstools(2)點(diǎn)擊“Primarystructureanalysis”,選擇“SAPS”,輸入序列,輸入序列“P09179.txt”,可得結(jié)果。4、酶切位點(diǎn)預(yù)測 利用PeptideMass分析,以Themolysin蛋白酶酶切(1)進(jìn)入SWISS-PROT主頁:/sprot/,選擇Proteomicstools(2)點(diǎn)擊“Proteinidentificationandcharacterization”,選擇“PeptideMass”,輸入序列“P09179.txt”,選擇“Themolysin”,可得結(jié)果。第47頁,共56頁,2024年2月25日,星期天三、二級結(jié)構(gòu)預(yù)測利用PredictProtein軟件預(yù)測前,首先在PredictProtein主頁,http://www.P/免費(fèi)注冊,提供接受預(yù)測結(jié)果的E-mail地址。(1)進(jìn)入SWISS-PROT主頁:/sprot/,選擇Proteomicstools(2)點(diǎn)擊“Secondarystructureprediction”,選擇“PredictProtein”,或直接進(jìn)入“PredictProtein”網(wǎng)站:http://www.PredictP/.

/sprot/“P09179.txt”,按要求輸入E-mail地址,設(shè)定輸出格式并提交,選擇所需結(jié)果即可獲得結(jié)果。第48頁,共56頁,2024年2月25日,星期天四、局部結(jié)構(gòu)域預(yù)測1、跨膜區(qū)預(yù)測—利用TMpred軟件(1)進(jìn)入SWISS-PROT主頁:/sprot/,選擇Proteomicstools(2)點(diǎn)擊“Topologyprediction”,選擇“TMpred”,或直接進(jìn)入“TMpred”網(wǎng)站:http://www./software/TMPREDform.html,

/sprot/“P09179.txt”氨基酸序列,(4)選擇一種格式顯示結(jié)構(gòu)格式:GIF-format;Postscript-format;numerical-format,可獲得結(jié)果。該鞭毛蛋白存在2個跨膜螺旋,分別位于257-276,294-310第

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論