分子進(jìn)化分析_第1頁
分子進(jìn)化分析_第2頁
分子進(jìn)化分析_第3頁
分子進(jìn)化分析_第4頁
分子進(jìn)化分析_第5頁
已閱讀5頁,還剩108頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、關(guān)于分子進(jìn)化分析第一張,PPT共一百一十三頁,創(chuàng)作于2022年6月分子進(jìn)化分析介紹系統(tǒng)發(fā)育樹重建方法相關(guān)進(jìn)化模式例子第二張,PPT共一百一十三頁,創(chuàng)作于2022年6月從物種的一些分子特性出發(fā),從而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系。 蛋白和核酸序列通過序列同源性的比較進(jìn)而了解基因的進(jìn)化以及生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律。分子進(jìn)化研究的目的第三張,PPT共一百一十三頁,創(chuàng)作于2022年6月系統(tǒng)發(fā)育樹是什么?對一組實際對象的世系關(guān)系的描述(如基因,物種等)。第四張,PPT共一百一十三頁,創(chuàng)作于2022年6月一個系統(tǒng)發(fā)育樹末端物種頂端中間節(jié)點中間枝條根末端分支葉子節(jié)點第五張,PPT共一百一十三頁,創(chuàng)作于202

2、2年6月ABCDEFG樹只代表分支的拓?fù)浣Y(jié)構(gòu)FGCDEAB第六張,PPT共一百一十三頁,創(chuàng)作于2022年6月分子進(jìn)化研究的基礎(chǔ)(假設(shè))核苷酸和氨基酸序列中含有生物進(jìn)化歷史的全部信息。第七張,PPT共一百一十三頁,創(chuàng)作于2022年6月在各種不同的發(fā)育譜系及足夠大的進(jìn)化時間尺度中,許多序列的進(jìn)化速率幾乎是恒定不變的。(分子鐘理論, 1965 )分子進(jìn)化研究的基礎(chǔ)(理論)第八張,PPT共一百一十三頁,創(chuàng)作于2022年6月雖然很多時候仍然存在爭議,但是分子進(jìn)化確實能闡述一些生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律。分子進(jìn)化研究的基礎(chǔ)(實際)第九張,PPT共一百一十三頁,創(chuàng)作于2022年6月從一個分歧數(shù)據(jù)可以推測其他序

3、列 分 歧 度分歧時間xy分子鐘理論第十張,PPT共一百一十三頁,創(chuàng)作于2022年6月直系同源(orthologs): 同源的基因是由于共同的祖先基因進(jìn)化而產(chǎn)生的.旁系同源(paralogs): 同源的基因是由于基因復(fù)制產(chǎn)生的. (以上定義源自Fitch, W.M. (1970) Distinguishing homologous from analogous proteins. Syst. Zool. 19, 99113) 直系同源與旁系同源第十一張,PPT共一百一十三頁,創(chuàng)作于2022年6月paralogsorthologs第十二張,PPT共一百一十三頁,創(chuàng)作于2022年6月paralog

4、sorthologsErik L.L. Sonnhammer Orthology,paralogy and proposed classification for paralog subtypes TRENDS in Genetics Vol.18 No.12 December 2002 0168-9525/02/$ see front matter 2002 Elsevier Science Ltd. All rights reserved.第十三張,PPT共一百一十三頁,創(chuàng)作于2022年6月 以上兩個概念代表了兩個不同的進(jìn)化事件 用于分子進(jìn)化分析中的序列必須是直系同源的,才能真實反映進(jìn)化過

5、程。第十四張,PPT共一百一十三頁,創(chuàng)作于2022年6月趨同進(jìn)化的基因(genes have converged function by separate evolutionary paths)第十五張,PPT共一百一十三頁,創(chuàng)作于2022年6月異源基因或水平轉(zhuǎn)移基因(xenologous or horizontally transferred genes)第十六張,PPT共一百一十三頁,創(chuàng)作于2022年6月Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Bacterium 1Bacter

6、ium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Phylograms show branch order and branch lengths進(jìn)化樹,有分支和支長信息2.進(jìn)化分支圖,進(jìn)化樹Cladograms show branching order - branch lengths are meaningless進(jìn)化分支圖,只用分支信息,無支長信息。第十七張,PPT共一百一十三頁,創(chuàng)作于2022年6月Rooted by outgrouparchaeaarchaeaarchaeaeukaryoteeukaryoteeuka

7、ryoteeukaryotebacteria outgrouprooteukaryoteeukaryoteeukaryoteeukaryote無根樹archaeaarchaeaarchaeaMonophyletic group(單源群)Monophyleticgroup3.有根樹,無根樹,外圍群有根樹外圍群第十八張,PPT共一百一十三頁,創(chuàng)作于2022年6月 4.基因樹,物種樹We often assume that gene trees give us species treesabcABDGene treeSpecies tree第十九張,PPT共一百一十三頁,創(chuàng)作于2022年6月系統(tǒng)發(fā)育

8、樹重建分析步驟多序列比對(自動比對,手工比對)建立取代模型(建樹方法)建立進(jìn)化樹進(jìn)化樹評估第二十張,PPT共一百一十三頁,創(chuàng)作于2022年6月系統(tǒng)發(fā)育樹重建的基本方法最大簡約法(maximum parsimony,MP)距離法(distance)最大似然法(maximum likelihood,ML)Bayes法第二十一張,PPT共一百一十三頁,創(chuàng)作于2022年6月最大簡約法(MP)最大簡約法(maximum parsimony,MP)最早源于形態(tài)性狀研究,現(xiàn)在已經(jīng)推廣到分子序列的進(jìn)化分析中。最大簡約法的理論基礎(chǔ)是奧卡姆(Ockham)哲學(xué)原則,這個原則認(rèn)為:解釋一個過程的最好理論是所需假設(shè)數(shù)

9、目最少的那一個。對所有可能的拓?fù)浣Y(jié)構(gòu)進(jìn)行計算,并計算出所需替代數(shù)最小的那個拓?fù)浣Y(jié)構(gòu),作為最優(yōu)樹。 第二十二張,PPT共一百一十三頁,創(chuàng)作于2022年6月序列個數(shù)與樹的個數(shù)的關(guān)系第二十三張,PPT共一百一十三頁,創(chuàng)作于2022年6月優(yōu)點:最大簡約法不需要在處理核苷酸或者氨基酸替代的時候引入假設(shè)(替代模型)。此外,最大簡約法對于分析某些特殊的分子數(shù)據(jù)如插入、缺失等序列有用。最大簡約法(MP)第二十四張,PPT共一百一十三頁,創(chuàng)作于2022年6月缺點:在分析的序列位點上沒有回復(fù)突變或平行突變,且被檢驗的序列位點數(shù)很大的時候,最大簡約法能夠推導(dǎo)獲得一個很好的進(jìn)化樹。然而在分析序列上存在較多的回復(fù)突變或

10、平行突變,而被檢驗的序列位點數(shù)又比較少的時候,最大簡約法可能會給出一個不合理的或者錯誤的進(jìn)化樹推導(dǎo)結(jié)果。最大簡約法(MP)第二十五張,PPT共一百一十三頁,創(chuàng)作于2022年6月距離法距離法又稱距離矩陣法,首先通過各個物種之間的比較,根據(jù)一定的假設(shè)(進(jìn)化距離模型)推導(dǎo)得出分類群之間的進(jìn)化距離,構(gòu)建一個進(jìn)化距離矩陣。進(jìn)化樹的構(gòu)建則是基于這個矩陣中的進(jìn)化距離關(guān)系 。第二十六張,PPT共一百一十三頁,創(chuàng)作于2022年6月計算序列的距離,建立距離矩陣通過距離矩陣建進(jìn)化樹第二十七張,PPT共一百一十三頁,創(chuàng)作于2022年6月一種簡單的距離矩陣第二十八張,PPT共一百一十三頁,創(chuàng)作于2022年6月由進(jìn)化距離

11、構(gòu)建進(jìn)化樹的方法有很多,常見有:1.Fitch-Margoliash Method(FM法)2. Neighbor-Joining Method (NJ法/鄰接法)3. Neighbors Relaton Method(鄰居關(guān)系法)4.Unweighted Pair Group Method (UPGMA法)通過矩陣建樹的方法第二十九張,PPT共一百一十三頁,創(chuàng)作于2022年6月最大似然法(ML)最大似然法(maximum likelihood,ML)最早應(yīng)用于系統(tǒng)發(fā)育分析是在對基因頻率數(shù)據(jù)的分析上,后來基于分子序列的分析中也已經(jīng)引入了最大似然法的分析方法。第三十張,PPT共一百一十三頁,創(chuàng)作

12、于2022年6月最大似然法分析中,選取一個特定的替代模型來分析給定的一組序列數(shù)據(jù),使得獲得的每一個拓?fù)浣Y(jié)構(gòu)的似然率都為最大值,然后再挑出其中似然率最大的拓?fù)浣Y(jié)構(gòu)作為最優(yōu)樹。在最大似然法的分析中,所考慮的參數(shù)并不是拓?fù)浣Y(jié)構(gòu)而是每個拓?fù)浣Y(jié)構(gòu)的枝長,并對似然率球最大值來估計枝長 。最大似然法(ML)第三十一張,PPT共一百一十三頁,創(chuàng)作于2022年6月最大似然法的建樹過程是個很費時的過程,因為在分析過程中有很大的計算量,每個步驟都要考慮內(nèi)部節(jié)點的所有可能性。最大似然法是一個比較成熟的參數(shù)估計的統(tǒng)計學(xué)方法,具有很好的統(tǒng)計學(xué)理論基礎(chǔ),在當(dāng)樣本量很大的時候,似然法可以獲得參數(shù)統(tǒng)計的最小方差。只要使用了一個

13、合理的、正確的替代模型,最大似然法可以推導(dǎo)出一個很好的進(jìn)化樹結(jié)果。 最大似然法(ML)第三十二張,PPT共一百一十三頁,創(chuàng)作于2022年6月堿基變化的通用模型第三十三張,PPT共一百一十三頁,創(chuàng)作于2022年6月由于最大似然法的分析過程需要耗費較多的時間,針對這種情況,發(fā)展出了許多優(yōu)化的可以加快最大似然法尋找最優(yōu)樹的搜索方法,如啟發(fā)式搜索,分枝交換搜索等。最大似然法具有堅實的統(tǒng)計學(xué)理論基礎(chǔ),充分的使用了分析序列中的信息資源,只要采用了合理的替代模型,可以得出很好的進(jìn)化樹分析結(jié)果。最大似然法(ML)第三十四張,PPT共一百一十三頁,創(chuàng)作于2022年6月選擇外類群(Outgroup)選擇一個或多個

14、已知與分析序列關(guān)系較遠(yuǎn)的序列作為外類群外類群可以輔助定位樹根外類群序列必須與剩余序列關(guān)系較近,但外類群序列與其他序列間的差異必須比其他序列之間的差異更顯著。bacteria outgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea外圍群第三十五張,PPT共一百一十三頁,創(chuàng)作于2022年6月進(jìn)化樹的可靠性分析自展法(Bootstrap Method)從排列的多序列中隨機(jī)有放回的抽取某一列,構(gòu)成相同長度的新的排列序列重復(fù)上面的過程,得到多組新的序列對這些新的序列進(jìn)行建樹,再觀察這些樹與原始樹是否有差異,以此評價建樹的可靠性第

15、三十六張,PPT共一百一十三頁,創(chuàng)作于2022年6月原始排列Alpha AACAACBeta AACCCCGamma ACCAACDelta CCACCAEpsilon CCAAAC Bootstrap1Alpha ACAAACBeta ACCCCCGamma ACAAACDelta CACCCAEpsilon CAAAAC Bootstrap2Alpha AAAACCBeta AACCCCGamma CCAACCDelta CCCCAAEpsilon CCAACC Bootstrap3Alpha ACAAACBeta ACCCCCGamma CCAAACDelta CACCCAEpsilon

16、 CAAAAC第三十七張,PPT共一百一十三頁,創(chuàng)作于2022年6月分子進(jìn)化模式1、專性胞內(nèi)菌Rickettsia核心基因進(jìn)化機(jī)制2、藍(lán)藻二元信號轉(zhuǎn)導(dǎo)中的環(huán)化酶進(jìn)化機(jī)制3、藍(lán)藻限制性修復(fù)系統(tǒng)進(jìn)化機(jī)制4、蘇云金芽孢桿菌殺蟲蛋白進(jìn)化機(jī)制5、SARS進(jìn)化機(jī)制第三十八張,PPT共一百一十三頁,創(chuàng)作于2022年6月1、專性胞內(nèi)菌Rickettsia核心基因進(jìn)化機(jī)制第三十九張,PPT共一百一十三頁,創(chuàng)作于2022年6月第四十張,PPT共一百一十三頁,創(chuàng)作于2022年6月第四十一張,PPT共一百一十三頁,創(chuàng)作于2022年6月2、藍(lán)藻二元信號轉(zhuǎn)導(dǎo)中的環(huán)化酶進(jìn)化機(jī)制第四十二張,PPT共一百一十三頁,創(chuàng)作于202

17、2年6月第四十三張,PPT共一百一十三頁,創(chuàng)作于2022年6月第四十四張,PPT共一百一十三頁,創(chuàng)作于2022年6月第四十五張,PPT共一百一十三頁,創(chuàng)作于2022年6月第四十六張,PPT共一百一十三頁,創(chuàng)作于2022年6月第四十七張,PPT共一百一十三頁,創(chuàng)作于2022年6月3、藍(lán)藻限制性修復(fù)系統(tǒng)進(jìn)化機(jī)制第四十八張,PPT共一百一十三頁,創(chuàng)作于2022年6月第四十九張,PPT共一百一十三頁,創(chuàng)作于2022年6月第五十張,PPT共一百一十三頁,創(chuàng)作于2022年6月第五十一張,PPT共一百一十三頁,創(chuàng)作于2022年6月4、蘇云金芽孢桿菌殺蟲蛋白進(jìn)化機(jī)制第五十二張,PPT共一百一十三頁,創(chuàng)作于20

18、22年6月第五十三張,PPT共一百一十三頁,創(chuàng)作于2022年6月第五十四張,PPT共一百一十三頁,創(chuàng)作于2022年6月5、SARS進(jìn)化機(jī)制第五十五張,PPT共一百一十三頁,創(chuàng)作于2022年6月第五十六張,PPT共一百一十三頁,創(chuàng)作于2022年6月第五十七張,PPT共一百一十三頁,創(chuàng)作于2022年6月第五十八張,PPT共一百一十三頁,創(chuàng)作于2022年6月第五十九張,PPT共一百一十三頁,創(chuàng)作于2022年6月此部分供同學(xué)們自學(xué)第六十張,PPT共一百一十三頁,創(chuàng)作于2022年6月常見的分子進(jìn)化分析程序1.Phylip 由華盛頓大學(xué)遺傳學(xué)系開發(fā),是一個免費的系統(tǒng)發(fā)育分析軟件包,可以通過以下地址下載。/

19、phylip.html2. PAUP* 最早是在蘋果機(jī)上開發(fā)的具有菜單界面的進(jìn)化分析軟件,早先版本只有MP法,后續(xù)版本已經(jīng)包括距離法和ML法,現(xiàn)今有mac,win,linux等多種版本,該軟件不是免費軟件,使用者需要向開發(fā)者購買。第六十一張,PPT共一百一十三頁,創(chuàng)作于2022年6月Phylip軟件包介紹Phylip是一個免費的系統(tǒng)發(fā)生(phylogenetics)分析軟件包。以下鏈接可以下載: http:/evolution.genetics,/phylip.html 由華盛頓大學(xué)遺傳學(xué)系開發(fā),1980年首次公布,目前的版本是3.6(2000年6月)。第六十二張,PPT共一百一十三頁,創(chuàng)作于

20、2022年6月Phylip軟件包介紹 Phylip包含了35個獨立的程序,這些獨立的程序都實現(xiàn)特定的功能,這些程序基本上包括了系統(tǒng)發(fā)生分析的所有方面。 Phylip有多種不同平臺的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。第六十三張,PPT共一百一十三頁,創(chuàng)作于2022年6月 Phylip是目前最廣泛使用的系統(tǒng)發(fā)生分析程序,主要包括一下幾個程序組:分子序列組,距離矩陣組,基因頻率組,離散字符組,進(jìn)化樹繪制組。 Phylip軟件包介紹第六十四張,PPT共一百一十三頁,創(chuàng)作于2022年6月分子序列組: 1.蛋白質(zhì)序列:protpars,proml

21、,promlk, protdist 2.核酸序列:dnapenny,dnapars, dnamove,dnaml,dnamlk, dnainvar,dnadist,dnacompPhylip軟件包分組介紹第六十五張,PPT共一百一十三頁,創(chuàng)作于2022年6月距離矩陣組:Fitch,kitsch,neighbor基因頻率組:Gendist,contml離散字符組Pars,mix,move,penny,dollop,dolmove,dolpenny,clique,factorPhylip軟件包分組介紹第六十六張,PPT共一百一十三頁,創(chuàng)作于2022年6月進(jìn)化樹繪制組:drawtree,drawgr

22、am其他:restdist,restml,seqboot,contrast treedist,consense,retreePhylip軟件包分組介紹第六十七張,PPT共一百一十三頁,創(chuàng)作于2022年6月 Phylip軟件包的文檔是非常詳細(xì)的,對于每個獨立的程序,都有一個獨立的文檔,詳細(xì)的介紹了該程序的使用及其說明。 此外,Phylip軟件包還包括程序的源代碼(c語言)。Phylip軟件包的文檔第六十八張,PPT共一百一十三頁,創(chuàng)作于2022年6月Phylip軟件包的應(yīng)用1,根據(jù)你的分析數(shù)據(jù),選擇適當(dāng)?shù)某绦?如,你分析的是DNA數(shù)據(jù),就在核酸序列分析類中選擇程序(dnapenny,dnapar

23、s, dnamove,dnaml,dnamlk, dnainvar,dnadist,dnacomp )如果分析的是離散數(shù)據(jù),如突變位點數(shù)據(jù),就在離散字符組里面選擇程序。第六十九張,PPT共一百一十三頁,創(chuàng)作于2022年6月2.選擇適當(dāng)?shù)姆治龇椒ㄈ缒惴治龅氖荄NA數(shù)據(jù),可以選擇簡約法(DNAPARS),似然法(DNAML, DNAMLK),距離法等(DNADIST)。Phylip軟件包的應(yīng)用第七十張,PPT共一百一十三頁,創(chuàng)作于2022年6月3.進(jìn)行分析 選擇好程序后,執(zhí)行,讀入分析數(shù)據(jù),選擇適當(dāng)?shù)膮?shù),進(jìn)行分析,結(jié)果自動保存為outfile,outtree。 Phylip軟件包的應(yīng)用第七十一張

24、,PPT共一百一十三頁,創(chuàng)作于2022年6月Outfile是一個記錄文件,記錄了分析的過程和結(jié)果,可以直接用文本編輯器(如寫字板)打開。outtree是分析結(jié)果的樹文件,可以用phylip提供的繪樹程序打開查看,也可以用其他的程序來打開,如treeviewPhylip軟件包的應(yīng)用第七十二張,PPT共一百一十三頁,創(chuàng)作于2022年6月第七十三張,PPT共一百一十三頁,創(chuàng)作于2022年6月出發(fā)數(shù)據(jù)已經(jīng)排列好的蛋白序列。重構(gòu)算法距離法(protdist.exe) 最大簡約法(protpars.exe) 最大似然法(proml.exe)統(tǒng)計分析撥靴法(bootstrap)實際應(yīng)用(從蛋白序列推導(dǎo)進(jìn)化樹

25、)第七十四張,PPT共一百一十三頁,創(chuàng)作于2022年6月實際操作 Phylip軟件包中的每個分析程序都是一個獨立的應(yīng)用程序。我們選擇好了分析算法后,按一定的順序組合使用選擇的程序,就可以獲得按選擇的算法分析的結(jié)果(進(jìn)化樹)。例子:從我們剛剛通過clustal比對獲得的蛋白序 列推測進(jìn)化樹。 選擇方法:距離法(protdist.exe)第七十五張,PPT共一百一十三頁,創(chuàng)作于2022年6月第一步:雙擊執(zhí)行protdist.exe,根據(jù)提示輸入分析的 文件名(程序默認(rèn)是infile)。第七十六張,PPT共一百一十三頁,創(chuàng)作于2022年6月第二步:設(shè)定各個參數(shù),執(zhí)行程序,獲得距 離矩陣數(shù)據(jù)輸出文件o

26、utfile。第三步:選擇通過距離矩陣推測進(jìn)化樹的算法(fitch.exe,kotsch.exe,neighbor.exe)。第四步:將剛獲得的輸出文件改名為infile,執(zhí)行選擇的推測算法(neighbor.exe)。設(shè)置好參數(shù)后執(zhí)行程序,獲得outfile和outtree兩個結(jié)果輸出。第七十七張,PPT共一百一十三頁,創(chuàng)作于2022年6月第七十八張,PPT共一百一十三頁,創(chuàng)作于2022年6月 獲得的結(jié)果文件中,outtree文件是一個樹文件,可以用treeview等軟件打開。outfile是一個分析結(jié)果的輸出報告,包括了樹和其他一些分析報告,可以用記事本直接打開。outfileouttre

27、e第七十九張,PPT共一百一十三頁,創(chuàng)作于2022年6月加入統(tǒng)計分析(bootstrap)我們剛剛獲得的進(jìn)化樹是純粹的根據(jù)先前獲得的排列數(shù)據(jù)所推導(dǎo)出來的。有很多可能使得這個樹并不一定可靠。1.測序的出錯。2.多序列比對算法本身的問題。3.其他的問題。我們可以引進(jìn)一些統(tǒng)計分析來尋找更優(yōu)的進(jìn)化樹最常見的就是bootstrap分析。第八十張,PPT共一百一十三頁,創(chuàng)作于2022年6月Bootstrap分析Phylip軟件包中有兩個用于執(zhí)行bootstrap分析的程序。(seqboot.exe,consence.exe)。分析過程:1.Seqboot產(chǎn)生大量的數(shù)據(jù)組2.應(yīng)用選擇的算法對產(chǎn)生的數(shù)據(jù)組進(jìn)行

28、分析。3.由consence獲得最優(yōu)樹。第八十一張,PPT共一百一十三頁,創(chuàng)作于2022年6月PAUP*的使用PAUP*的數(shù)據(jù)格式(Nexus)#NEXUSbegin taxa;dimensions ntax=12;taxlabelsLemur_cattaTarsius_syrichta;end;begin characters;dimensions nchar=898;format missing=? gap=- matchchar=. interleave datatype=dna;options gapmode=missing;matrixLemur_catta AAGCTTCATAGG

29、AGCAACCATTCTAATAATCGCACATGGCCTTACATCATCCATATTATTHomo_sapiens AAGCTTCACCGGCGCAGTCATTCTCATAATCGCCCACGGGCTTACATCCTCATTACTATTPan AAGCTTCACCGGCGCAATTATCCTCATAATCGCCCACGGACTTACATCCTCATTATTATTGorilla AAGCTTCACCGGCGCAGTTGTTCTTATAATTGCCCACGGACTTACATCATCATTATTATTPongo AAGCTTCACCGGCGCAACCACCCTCATGATTGCCCATGGAC

30、TCACATCCTCCCTACTGTTHylobates AAGCTTTACAGGTGCAACCGTCCTCATAATCGCCCACGGACTAACCTCTTCCCTGCTATT第八十二張,PPT共一百一十三頁,創(chuàng)作于2022年6月begin assumptions;charset coding = 2-457 660-896;charset noncoding = 1 458-659 897-898;charset 1stpos = 2-4573 660-8963;charset 2ndpos = 3-4573 661-8963;charset 3rdpos = 4-4573 662-.3;

31、exset coding = noncoding;exset noncoding = coding;usertype 2_1 = 4weights transversions 2 times transitionsa c g ta. 2 1 2c 2 . 2 1g1 2 . 2t2 1 2 .;usertype 3_1 = 4weights transversions 3 times transitionsa c g ta. 3 1 3c 3 . 3 1g1 3 . 3t3 1 3 .;taxset hominoids = Homo_sapiens Pan Gorilla Pongo Hylo

32、bates;end;begin paup;constraints ch = (Homo_sapiens,Pan);constraints chg = (Homo_sapiens,Pan,Gorilla);end;第八十三張,PPT共一百一十三頁,創(chuàng)作于2022年6月PAUP*的數(shù)據(jù)格式(Nexus) 主要包括taxa,characters,assumptions,sets,trees,codons,distances,paup八個數(shù)據(jù)塊。 對于一個常規(guī)的分析,taxa,characters塊是必須的。而分析的命令可以通過菜單操作(mac),或者鍵盤命令(win,linux),也可以在nexus

33、文件中加入paup命令塊第八十四張,PPT共一百一十三頁,創(chuàng)作于2022年6月1.TAXA塊 主要是定義所分析的數(shù)據(jù)(如分子序列)個數(shù),以及這些數(shù)據(jù)的名稱(如物種名稱)。2. CHARACTERS 塊 主要是定義數(shù)據(jù)矩陣(如多序列比對結(jié)果)和其他一些相關(guān)的信息(如序列特征值,序列有效區(qū)域等)PAUP*的Nexus的文件塊第八十五張,PPT共一百一十三頁,創(chuàng)作于2022年6月3. ASSUMPTIONS塊 定義了對數(shù)據(jù)的一些設(shè)定,如那些特征值是不需考慮的,怎么處理gap這個特征值等,用戶自定義的一些數(shù)據(jù)也放在這塊,如自定義的打分矩陣。4. SETS塊 定義了一系列的數(shù)據(jù)組,如特征值組,物種組等,

34、這些設(shè)置都是為了方便后續(xù)的分析。 第八十六張,PPT共一百一十三頁,創(chuàng)作于2022年6月5. TREES 塊 定義了用戶自己設(shè)定的樹。用于后續(xù)的分析,如作為限制樹等。6. CODONS 塊 定義了遺傳密碼子的一些信息。如編碼的位置(哪些是編碼的,密碼子的位點等)。7. DISTANCES 塊 定義了一些距離矩陣。第八十七張,PPT共一百一十三頁,創(chuàng)作于2022年6月8. PAUP 塊 是軟件的核心塊,所有的分析命令和一些參數(shù)設(shè)置(90多個命令)都放在這一塊。 這一塊并不是分析輸入數(shù)據(jù)所必須的,這些命令可以寫在這一塊(文件中),這時載入文件時就開始根據(jù)該塊的命令進(jìn)行分析(有點類似dos的批處理過

35、程)。當(dāng)然也可以通過鍵盤命令逐一敲入 ,交互進(jìn)行分析。 批處理的方式在分析過程比較長,耗時比較久的時候是比較有用的。當(dāng)然在進(jìn)行處理之前一定要先保證該批處理過程沒有問題。第八十八張,PPT共一百一十三頁,創(chuàng)作于2022年6月一個PAUP*的基本分析實例1.通過clustalw/clustalx獲取一個多序列比對結(jié)果(可能要經(jīng)過人工調(diào)整,推薦用bioedit做輔助編輯器)。保存成nexus格式的文件,或者用其他格式轉(zhuǎn)換軟件轉(zhuǎn)換成nexus格式。paup*中也有一個tonexus命令可以將其他格式(包括phylip,GCG等格式)的文件轉(zhuǎn)換為nexus格式的文件。第八十九張,PPT共一百一十三頁,創(chuàng)

36、作于2022年6月2.在PAUP*程序中讀入數(shù)據(jù)(Nexus格式)輸入命令的地方打開文件的窗口程序自帶的測試數(shù)據(jù)執(zhí)行該文件還是編輯該文件?執(zhí)行文件時將文件數(shù)據(jù)讀入程序,編輯文件則調(diào)用一個文本編輯器。如果不是nexus格式,執(zhí)行時候會出錯,然后調(diào)用文本編輯器打開。第九十張,PPT共一百一十三頁,創(chuàng)作于2022年6月3.數(shù)據(jù)輸入完成,開始分析 兩個很有用的命令 ?:顯示所有的命令 命令 ?:顯示命令的所有參數(shù)第九十一張,PPT共一百一十三頁,創(chuàng)作于2022年6月分析(開始一)1.開始之前 打開記錄文件?(跟蹤整個分析過程)命令:log start file =your_log_file_name;

37、停止:log stop;第九十二張,PPT共一百一十三頁,創(chuàng)作于2022年6月2.設(shè)置數(shù)據(jù) 哪些用于分析?如:include coding/only; exclude coding/only;哪些物種要分析(刪除不要的)?如: delete 1; 或者 delete taxa_name undelete 1;分析(開始二)第九十三張,PPT共一百一十三頁,創(chuàng)作于2022年6月3.確定建樹方法最大簡約法?最大似然法? 距離法?命令:Set criterion=parsimony|likelihood|distance; 分析(建樹一)第九十四張,PPT共一百一十三頁,創(chuàng)作于2022年6月4.確定

38、其他參數(shù)Set ?查看其他參數(shù)的設(shè)置,改為自己所需要的設(shè)置。如:set maxtree=10000 increase=no autoclose=yes;分析 (建樹二)第九十五張,PPT共一百一十三頁,創(chuàng)作于2022年6月5.確定搜索方法(對于距離法不適用) 窮盡法:alltrees 分支跳躍查找:bandb 啟發(fā)式搜索:hsearch 其他:puzzle(只在likelihood時有效)分析 (建樹三)第九十六張,PPT共一百一十三頁,創(chuàng)作于2022年6月6.開始搜索樹之前(設(shè)置各個建樹方法的參數(shù))距離法:dset如:dset distance=tamnei negbrlen=allow最大

39、簡約法:pset如 pset collapse=no gapmode=newstate最大似然法:lset如:lset nst=6 clock=yes分析 (建樹四)第九十七張,PPT共一百一十三頁,創(chuàng)作于2022年6月7.再次確認(rèn)參數(shù) 是否要設(shè)置外圍群(outgroup)?如 outgroup 1,2 ;或者 outgroup taxa_set;其他參數(shù)?分析 (建樹五)第九十八張,PPT共一百一十三頁,創(chuàng)作于2022年6月7.開始搜索樹距離法:NJ,UPGMA最大簡約法,最大似然法Hsearch ?參數(shù)是否要更改?如:hsearch andseq=random swap=spr分析 (建樹

40、六)第九十九張,PPT共一百一十三頁,創(chuàng)作于2022年6月8.進(jìn)化樹的評估 選擇評估方法?Bootstrap(自展法) 用的最多,是對進(jìn)化樹重新取樣的評估方法,可以對距離法,簡約法,似然法以及衍生出的任何其他方法構(gòu)建的進(jìn)化樹進(jìn)行評估。其分析結(jié)果是一組數(shù)字,這個數(shù)字描述了進(jìn)化樹進(jìn)化分支的支持比例,也就是進(jìn)化樹分支的穩(wěn)健性。分析(樹評估一)第一百張,PPT共一百一十三頁,創(chuàng)作于2022年6月分析 (樹評估二)未經(jīng)過bootstrap的樹Bootstrap后的樹第一百零一張,PPT共一百一十三頁,創(chuàng)作于2022年6月BOOTSTRAP options/heuristic-search-options

41、|branch-and-bound-search-options; 使用分支限制或者是啟發(fā)式搜索的方法進(jìn)行bootstrap分析。參數(shù): BSEED = integer-value 隨機(jī)數(shù)種子。 NREPS = integer-value bootstrap重復(fù)的次數(shù),默認(rèn)值為100。 SEARCH = HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA 搜索方式 CONLEVEL = integer-value bootstrap重復(fù)次數(shù)的最低比率,默認(rèn)為50。 KEEPALL = YES|NO WTS = IGNORE|SIMPLE|REPEATCNT|PROPORTION

42、AL NCHAR = CURRENT|number-of-characters 每次重復(fù)采樣的數(shù)目。 GRPFREQ = YES|NO 顯示bootstrap分割頻率 TREEFILE = bootstrap-tree-file-name 樹的文件 FORMAT= NEXUS|ALTNEXUS|FREQPARS|PHYLIP|HENNIG BRLENS = YES|NO 分支的長度 *REPLACE = YES|NO CUTOFFPCT = integer-value 定義顯示的最低bootstrap分割頻率。Examplebootstrap nreps=200 treefile=boot.t

43、re search=heuristic/addseq=random;分析 (樹評估三)PAUP*中的bootstrap命令第一百零二張,PPT共一百一十三頁,創(chuàng)作于2022年6月對折分析(jackknife) 跟bootstrap類似,只是在對原始數(shù)據(jù)取樣的時候不會取重復(fù)的數(shù)據(jù)位點。因為它重復(fù)取樣的時候是在原始數(shù)據(jù)中除去一個或者多個比對位點。 對折分析得出的結(jié)果和bootstrap是一樣的。命令和參數(shù)都類似,用的比bootstrap少很多。分析 (樹評估四)第一百零三張,PPT共一百一十三頁,創(chuàng)作于2022年6月JACKKNIFE options/heuristic-search-option

44、s|branchand-bound-search-options; 對折分析 PCTDELETE = real-value 每個對折分析循環(huán)中刪除的data set百分?jǐn)?shù) JSEED = integer-value 隨機(jī)數(shù)種子 NREPS = integer-value 對折循環(huán)次數(shù) SEARCH = HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA 樹的搜索方法(NJ和UPGMA僅在最優(yōu)規(guī)則為distance時才可用) RESAMPLE = NORMAL|JAC CONLEVEL = integer-value boostrap中出現(xiàn)的最小比例(最為保留group),默認(rèn)為50,即50 KEEPALL = YES|NO 低于conlevel的樹,若與一致樹兼容,也保留 WTS = IGNOR

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論