版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第五章序列同源比較與系統(tǒng)發(fā)育學(xué)分析
1主要內(nèi)容§5.1概述§5.2序列比對(duì)§5.3系統(tǒng)發(fā)育分析
2§5.1引言3一、序列比對(duì)的概念序列比對(duì)(align):是指通過(guò)將兩個(gè)或多個(gè)核酸序列或蛋白質(zhì)序列進(jìn)行比較,找出其中相似的結(jié)構(gòu)區(qū)域。兩個(gè)序列的比對(duì)是指這兩個(gè)序列中各個(gè)字符的一一對(duì)應(yīng)關(guān)系,或字符的對(duì)比排列。4二、序列比對(duì)的生物學(xué)意義1通過(guò)比較未知序列與已知序列之間的同源性,往往可以很容易地預(yù)測(cè)未知序列的功能。(功能預(yù)測(cè))2通過(guò)分析多個(gè)基因或蛋白質(zhì)序列之間的同源性確定它們?cè)谶M(jìn)化上的關(guān)系。(確定進(jìn)化關(guān)系)3通過(guò)多序列比對(duì),幫助判斷殘基如何發(fā)揮作用以維持蛋白質(zhì)或DNA序列的功能。同時(shí),通過(guò)多序列比對(duì)可以獲得重要?dú)埢車(chē)娜?jí)結(jié)構(gòu)。(判斷殘基作用)4通過(guò)蛋白質(zhì)多序列比對(duì),也有助于蛋白結(jié)構(gòu)的預(yù)測(cè)。
(蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè))5三、序列比對(duì)基本原理1記分矩陣(Scoringmatrix)DNA記分矩陣在進(jìn)行序列比對(duì)過(guò)程中,有兩方面的問(wèn)題直接影響相似性分值:記分矩陣和空位罰分。6蛋白質(zhì)記分矩陣PAM矩陣7BLOSUM6282空位罰分(gappenalty)空位罰分是為了補(bǔ)償插入或缺失對(duì)序列相似性的影響。但由于沒(méi)有合適的理論模型能很好地描述空位問(wèn)題,因此空位罰分缺乏理論依據(jù)而更多的帶有主觀特點(diǎn)。空位罰分處理方法:1)對(duì)第一個(gè)空位罰分,如10-152)對(duì)空位的延伸罰分,如1-29搜索比對(duì)結(jié)果不同的比對(duì)程序所采用的記分矩陣和罰分規(guī)則不同,因而對(duì)同一組數(shù)據(jù)比對(duì)的結(jié)果也會(huì)有很大差異。10§5.2序列同源比較11序列比對(duì)類(lèi)型1)雙序列比對(duì)(pairsequencealignment)。2)序列對(duì)數(shù)據(jù)庫(kù)的比對(duì)3)多序列比對(duì)(Multiple
sequencealignment)12一、雙序列比對(duì)(pairsequencealignment)序列兩兩比對(duì)方面有兩個(gè)著名的算法:Needleman-Wunsch算法,從全局角度計(jì)算兩條序列之間的相似性,其中包括了所有短片段的比對(duì)序列——全局比對(duì)。Smith-Waterman算法,從局部出發(fā)獲得兩條比對(duì)序列的最大相似性的局部片段——局部比對(duì)。兩種算法均可用于核酸序列和蛋白質(zhì)序列。13常用比對(duì)軟件:名稱網(wǎng)址說(shuō)明ALIGNhttp://genome.eerie.fr/fasta/align-query.html對(duì)用戶所提交的兩條序列進(jìn)行優(yōu)化比對(duì),允許選擇不同的記分矩陣,但中允許空位罰分。Alignhttp://www.mips.biochem.mpg.de/只允許對(duì)數(shù)據(jù)庫(kù)中的已有記錄進(jìn)行兩兩比對(duì),不接受用戶所提交的序列。Bl2Seq/gorf/bl2.html允許對(duì)任意兩條序列進(jìn)行兩兩比對(duì),具有Blast軟件的所有功能。14NCBI的Bl2seq15比對(duì)參數(shù)16Blastn參數(shù)17Blastx
參數(shù)18二、序列對(duì)數(shù)據(jù)庫(kù)的比對(duì)序列對(duì)庫(kù)的比對(duì)就是數(shù)據(jù)庫(kù)的搜索,也就是兩兩序列比對(duì)重復(fù)成千上萬(wàn)次。然而由于這種簡(jiǎn)單的重復(fù)分析非常耗時(shí),所以需要一些近似的算法以提高效率。目前在單條序列對(duì)庫(kù)搜索中使用最廣泛的程序是Blast和Fasta。19三、多重序列比對(duì)(multiplesequencealignment)從公共數(shù)據(jù)庫(kù)獲得與新序列相關(guān)的一組序列之后,我們可以從這些序列獲得哪些有用的信息呢?或者說(shuō)如何開(kāi)發(fā)這些相關(guān)序列?多序列比對(duì)找出相關(guān)位點(diǎn)發(fā)現(xiàn)保守區(qū)域,推測(cè)未知序列功能,根據(jù)同源性推斷它們之間的進(jìn)化關(guān)系。20蛋白質(zhì)序列多重比對(duì)21反轉(zhuǎn)錄轉(zhuǎn)座子的反轉(zhuǎn)錄酶序列片段黑色區(qū)域即表示保守區(qū)域22多序列比對(duì)主要軟件:ClustalW/X,使用最廣泛的多序列比對(duì)程序。BioEdit,是一個(gè)免費(fèi)的,序列比對(duì)、編輯與分析程序。它集成了Blast和ClustalW兩個(gè)程序。MultAlin,從兩兩比對(duì)開(kāi)始的多序列比對(duì)程序。23ClustalW:是目前公認(rèn)的最好的進(jìn)行Multiplesequencealignment的程序之一Internet上的許多網(wǎng)站提供ClustalW分析軟件分析序列的輸入格式必須是FASTA(Pearson)格式>sequence1ATTGCAGTTCGCA……>sequence2ATAGCACATCGCA……目前EBI提供的版本是ClustalW224可進(jìn)一步對(duì)排列好的序列進(jìn)行修飾在EBI的ClustalW2分析網(wǎng)頁(yè)(http://www.ebi.ac.uk/Tools/clustalw2/index.html)輸入序列“ClustalWResults”網(wǎng)頁(yè)顯示多序列比對(duì)排列結(jié)果點(diǎn)擊“ShowColors”用不同顏色的字母顯示顏色修飾功能,突出相同或相似位點(diǎn)25添加序列多序列粘貼或文件上傳26ClustalW比對(duì)結(jié)果之一27ClustalW比對(duì)結(jié)果之二(得分表)28ClustalW比對(duì)結(jié)果之三(序列比對(duì)彩色顯示)29ClustalW比對(duì)結(jié)果之四(進(jìn)化樹(shù)-Guidetree)說(shuō)明:雖然ClustalW/X自帶了一個(gè)NJ/UPGMA的建樹(shù)程序,但是該程序只有p-distance模型,而且構(gòu)建的樹(shù)不夠準(zhǔn)確,一般不用來(lái)構(gòu)建進(jìn)化樹(shù)。30本地運(yùn)行ClastalXClustalX是基于Windows的本地運(yùn)行的多序列比對(duì)程序,該程序很小。輸入序列可以是以下6種格式之一:NBRF/PIR,EMBL/SWISS-PROT,Pearson/Fasta,GDE,Clustal,GCG/MSF。也可以是TXT文件(保存有Fasta
格式的序列)程序下載網(wǎng)址:http://www.ebi.ac.uk/Tools/clustalw2/31Clustalx窗口32點(diǎn)擊File下拉菜單中Loadsequences選項(xiàng),打開(kāi)序列文件17-RNASE1.fasta.txt(該文件一定要與ClustalX.exe在同一目錄下,格式可以是*.fasta
或*.txt)**路徑必須是英文路徑。33如果路徑中含有中文,則會(huì)顯示文件無(wú)法打開(kāi)(Cann’topenfile)的信息.34序列文件打開(kāi)后的界面35點(diǎn)擊進(jìn)行多序列比對(duì)保存比對(duì)結(jié)果,生成×.aln文件36比對(duì)結(jié)果‘*’‘:’和空格依次代表該點(diǎn)的序列一致性由高到低37§5.3
系統(tǒng)發(fā)育分析
38一、系統(tǒng)發(fā)育分析系統(tǒng)發(fā)育分析(Phylogeny):就是根據(jù)同源性狀的分歧來(lái)評(píng)估物種或分子之間的進(jìn)化關(guān)系。表示方法:常用分支圖(即系統(tǒng)樹(shù)或稱進(jìn)化樹(shù))來(lái)描述。進(jìn)化論表明:任何物種之間都存在一定的親緣關(guān)系,親緣關(guān)系可以用進(jìn)化分支樹(shù)表示。在分支樹(shù)上距離越遠(yuǎn)的物種,它們?cè)谶M(jìn)化中的親緣關(guān)系也就越遠(yuǎn)。39系統(tǒng)樹(shù)genealogicaltree,phylogenetictree,(也稱進(jìn)化樹(shù),演化樹(shù),譜系樹(shù))認(rèn)為生物各種族的系統(tǒng)關(guān)系有如樹(shù)狀,可用圖來(lái)表示其狀態(tài),此稱為系統(tǒng)樹(shù)。由??藸枺‥.H.Haeckel)1872年提出。他制成了動(dòng)物界和植物界全部的系統(tǒng)樹(shù),給予生物學(xué)以很大的推動(dòng)。也有學(xué)者認(rèn)為生物的系統(tǒng)關(guān)系不一定是樹(shù)狀的,把系統(tǒng)的圖解(diagram)稱作系統(tǒng)樹(shù)也是不恰當(dāng)?shù)?。但是,時(shí)至今日系統(tǒng)樹(shù)仍廣泛受到認(rèn)可。兩種觀點(diǎn):40(1)化石證據(jù)(最理想的方法:化石!——然而…零散、不完整)(Fossil)(2)比較形態(tài)學(xué)證據(jù)(Comparativemorphology)/比較生理學(xué)證據(jù)(Comparativephysiology)經(jīng)典的進(jìn)化研究方法系統(tǒng)學(xué)(Systematics)分類(lèi)學(xué)(Taxonomy)三種研究方法41比較形態(tài)學(xué)和比較生理學(xué):確定大致的進(jìn)化框架?!欢?xì)節(jié)存在巨多的爭(zhēng)議42(3)第三種方案:分子進(jìn)化1964年,Linus
Pauling提出分子進(jìn)化理論;DNA&RNA:4種堿基;蛋白質(zhì)分子:20種氨基酸;發(fā)生在分子層面的進(jìn)化過(guò)程:DNA,RNA和蛋白質(zhì)分子;基本假設(shè):核苷酸和氨基酸序列中含有生物進(jìn)化歷史的全部信息;現(xiàn)代的進(jìn)化研究方法43相比那些基于傳統(tǒng)的解剖學(xué)或形態(tài)學(xué)字符的系統(tǒng)發(fā)育研究,分子系統(tǒng)發(fā)育所含的信息非常豐富。這是因?yàn)樗鼈兎秶鼜V(例如,可以用蛋白質(zhì)序列比較開(kāi)花植物和哺乳動(dòng)物,但不能用形態(tài)學(xué)字符來(lái)比較它們),可以選擇的序列種類(lèi)也很多(即多種字符),數(shù)據(jù)處理是一致且客觀的。分子系統(tǒng)發(fā)育分析的優(yōu)點(diǎn)44比起許多其它學(xué)科而言,用計(jì)算的方法進(jìn)行系統(tǒng)發(fā)育分析很容易得到錯(cuò)誤的結(jié)果,而且出錯(cuò)的危險(xiǎn)幾乎是不可避免的;其它學(xué)科一般都會(huì)有實(shí)驗(yàn)基礎(chǔ),而系統(tǒng)發(fā)育分析不太可能會(huì)擁有實(shí)驗(yàn)基礎(chǔ),至多也就是一些模擬實(shí)驗(yàn)或者病毒實(shí)驗(yàn)(Hillisetal.,1994);實(shí)際上,系統(tǒng)發(fā)育的發(fā)生過(guò)程都是已經(jīng)完成的歷史,只能去推斷或者評(píng)估,而無(wú)法再現(xiàn)。分子系統(tǒng)發(fā)育分析的缺點(diǎn)45怎樣的圖才是系統(tǒng)樹(shù):1)系統(tǒng)樹(shù)由節(jié)點(diǎn)、樹(shù)葉和樹(shù)枝構(gòu)成。2)沒(méi)有回路。46系統(tǒng)樹(shù)分兩類(lèi):有根樹(shù)(rootedtree)無(wú)根樹(shù)(unrootedtree)47有根樹(shù)48無(wú)根樹(shù)49系統(tǒng)樹(shù)的構(gòu)成要素5051關(guān)于“有根樹(shù)與無(wú)根樹(shù)”:1由于生物都存在共同的祖先,所以進(jìn)化樹(shù)應(yīng)該有根的。但由序列數(shù)據(jù)產(chǎn)生的進(jìn)化樹(shù)既可以有根,也可以無(wú)根。2分析有根樹(shù)和樹(shù)枝的長(zhǎng)度,可以了解不同的物種或基因是以什么方式和速率進(jìn)化的。52在于找出分類(lèi)單元中哪一分類(lèi)單元是其他序列的共同祖先,或哪一對(duì)分類(lèi)單元最早從共同祖先中分離出來(lái)。系統(tǒng)樹(shù)分析的困難:系統(tǒng)樹(shù)分析的目標(biāo):對(duì)于給定的分類(lèi)單元數(shù),有很多棵可能的系統(tǒng)樹(shù),但是只有一個(gè)是正確的,系統(tǒng)樹(shù)分析的目標(biāo)就是要尋找這棵正確的樹(shù)。53二、系統(tǒng)發(fā)育分析基本步驟1分子序列或特征數(shù)據(jù)分析,產(chǎn)生距離或特征數(shù)據(jù),為構(gòu)建系統(tǒng)樹(shù)提供依據(jù)2系統(tǒng)樹(shù)的構(gòu)建3系統(tǒng)樹(shù)的評(píng)估54三、系統(tǒng)樹(shù)構(gòu)建方法1距離法(distancemethod)
是一種純數(shù)學(xué)算法,該法首先將數(shù)據(jù)轉(zhuǎn)變?yōu)榫嚯x數(shù)據(jù)。又包括平均距離法(UPGMA法)、NJ(Neighbor-Joining,鄰接法)、ME法(MinimumEvolution,最小進(jìn)化法)。
2最簡(jiǎn)約法(Maximumparsimony,MP)
尋找具有最短樹(shù)長(zhǎng)的樹(shù),即進(jìn)化步數(shù)最少的樹(shù),應(yīng)用最廣泛的系統(tǒng)樹(shù)構(gòu)建方法。(主要用于近緣序列)3最大似然法(maximumlikelihood,ML)
基于基因頻率的系統(tǒng)樹(shù)。(對(duì)于遠(yuǎn)緣序列,一般用NJ或ML
)55建樹(shù)方法選擇56哪一種方法構(gòu)建的系統(tǒng)樹(shù)更可靠?1)相同的序列采用不同的方法可能產(chǎn)生不同的系統(tǒng)樹(shù),不同的方法具有不同的特點(diǎn)和適用度。對(duì)于一組序列最好采用不同的方法進(jìn)行分析,如果不同的方法獲得的結(jié)果相同或近似,則獲得的系統(tǒng)樹(shù)比較可靠;如果不同的方法獲得的結(jié)果差異較大,則要作更深入的分析,判斷哪一種結(jié)果更可靠。2)通常采用數(shù)值重復(fù)抽樣(bootstrap)對(duì)構(gòu)建的系統(tǒng)樹(shù)進(jìn)行驗(yàn)證。所謂重復(fù)抽樣就是通過(guò)隨機(jī)選擇垂直列,從而獲得不同的樣本,根據(jù)不同的取樣進(jìn)行系統(tǒng)發(fā)育分析,比較生成的系統(tǒng)樹(shù)結(jié)構(gòu)的相似度,確定最佳樹(shù)結(jié)構(gòu)。57獲得一組相關(guān)序列多序列比對(duì)結(jié)果最大簡(jiǎn)約法距離法分析數(shù)據(jù)對(duì)預(yù)測(cè)的支持度最大似然法相似度是否高?是否有清晰可辨的相似性?是是否否系統(tǒng)發(fā)育分析方法的選擇58四、常用的系統(tǒng)樹(shù)構(gòu)建程序常用程序:59http://taxonomy.zoology.gla.ac.uk/rod/treeview.html進(jìn)化樹(shù)的顯示軟件:Treeview60MEGA4
(http:///)MEGA是Nei開(kāi)發(fā)的方法并設(shè)計(jì)的圖形化的軟件,使用非常方便。該軟件是初學(xué)者的首選。基本步驟:1)多序列比對(duì)2)比對(duì)結(jié)果輸出為.MEG文件3)根據(jù).MEG文件數(shù)據(jù)繪制系統(tǒng)樹(shù)。61一個(gè)關(guān)于序列分析及比較統(tǒng)計(jì)的工具包包含距離建樹(shù),MP等建
樹(shù)法自動(dòng)或手動(dòng)進(jìn)行序列比對(duì);推斷進(jìn)化樹(shù);估算分子進(jìn)化率,進(jìn)行進(jìn)化假設(shè)測(cè)驗(yàn);聯(lián)機(jī)進(jìn)行數(shù)據(jù)庫(kù)搜索;…62MEGA4可以識(shí)別fasta格式文件將17-RNASE1.fasta.txt重命名為17-RNASE1.fasta可利用Clustal
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 第三方財(cái)產(chǎn)保護(hù)協(xié)議書(shū)范文
- 傳統(tǒng)電能質(zhì)量分析與改善措施
- 離婚協(xié)議書(shū)范文無(wú)財(cái)產(chǎn)2022標(biāo)準(zhǔn)版
- 一次性補(bǔ)嘗協(xié)議書(shū)范文范本
- DNA的生物合成(基因信息傳遞)
- 混凝土裝配式施工專項(xiàng)方案
- 歷史必修三第十課課件
- 勞保用品采購(gòu)合同范本(5篇)
- 2023-2024學(xué)年云南省建水縣四校高三高考保溫金卷數(shù)學(xué)試題試卷
- 項(xiàng)目2-民用建筑構(gòu)造概述
- 十佳班級(jí)答辯
- 初中八年級(jí)音樂(lè)-東方之珠
- TQGCML 2659-2023 模塊化打包箱房
- 投標(biāo)書(shū)范本農(nóng)業(yè)種植模板
- 智能制造招商計(jì)劃
- 第三節(jié)創(chuàng)造有意義的人生
- 智能與人工相結(jié)合的中學(xué)作文批改模式構(gòu)建研究
- SPSS生物統(tǒng)計(jì)分析示例1-基本統(tǒng)計(jì)分析
- 2024年上海城投水務(wù)集團(tuán)有限公司招聘筆試參考題庫(kù)含答案解析
- 校園應(yīng)急事件處理流程【3篇】
- 第5.1課+展示國(guó)家工程了解工匠奉獻(xiàn)-【中職專用】高二語(yǔ)文高效課堂(高教版2023·職業(yè)模塊)
評(píng)論
0/150
提交評(píng)論