第五章分子系統(tǒng)發(fā)育分析課件_第1頁(yè)
第五章分子系統(tǒng)發(fā)育分析課件_第2頁(yè)
第五章分子系統(tǒng)發(fā)育分析課件_第3頁(yè)
第五章分子系統(tǒng)發(fā)育分析課件_第4頁(yè)
第五章分子系統(tǒng)發(fā)育分析課件_第5頁(yè)
已閱讀5頁(yè),還剩92頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第五章分子系統(tǒng)發(fā)育分析5.1分子進(jìn)化的基本概念5.2分子進(jìn)化模型與序列分歧度計(jì)算5.3分子系統(tǒng)樹(shù)的構(gòu)建5.4分子系統(tǒng)樹(shù)的檢驗(yàn)5.5分子系統(tǒng)發(fā)育分析軟件及應(yīng)用5.1分子進(jìn)化的基本概念系統(tǒng)發(fā)生(phylogeny)——是指生物形成或進(jìn)化的歷史系統(tǒng)發(fā)生學(xué)(phylogenetics)——研究物種之間的進(jìn)化關(guān)系系統(tǒng)發(fā)生樹(shù)(phylogenetictree)——表示形式,描述物種之間進(jìn)化關(guān)系5.1分子進(jìn)化的基本概念同源性與相似性關(guān)于現(xiàn)代人起源的研究:

線粒體DNA ——所有現(xiàn)代人都是一個(gè)非洲女性的后代分類單元(物種或序列)物種之間的進(jìn)化關(guān)系

有根樹(shù)與無(wú)根樹(shù)有根樹(shù)的數(shù)目ABCABCDDDDD無(wú)根樹(shù)的數(shù)目ABCABCDDDNumberofTaxaNumberofunrootedtrees

Numberofrootedtrees

313431551510561059457945103958103951351359135135202702510202702534459425有根樹(shù)與無(wú)根樹(shù)的數(shù)目5.2分子進(jìn)化模型

與序列分歧度計(jì)算5.2.1核苷酸序列進(jìn)化5.2.2蛋白質(zhì)編碼序列進(jìn)化5.2.3核苷酸序列分歧度5.2.4蛋白質(zhì)編碼序列分歧度5.2.1核苷酸序列進(jìn)化ATCGJukesandCantor(1969)的單參數(shù)模型嘌呤嘧啶在t時(shí)間內(nèi)DNA序列上某個(gè)位點(diǎn)的堿基由A突變到G的概率為在t時(shí)間內(nèi)DNA序列上某個(gè)位點(diǎn)的堿基為A保持不變的概率為JukesandCantor(1969)的單參數(shù)模型在t+t時(shí)間內(nèi)核苷酸在某個(gè)位點(diǎn)上堿基為A保持不變的概率為表示在0到t這段時(shí)間內(nèi)DNA序列上某個(gè)位點(diǎn)的堿基為A保持不變的概率因此,在0到t這段時(shí)間內(nèi)DNA序列上某個(gè)位點(diǎn)的堿基保持不變的概率為因此,在0到t這段時(shí)間內(nèi)DNA序列上某個(gè)位點(diǎn)的堿基發(fā)生突變的概率為1下面考慮在0到t這段時(shí)間內(nèi)DNA序列上某個(gè)位點(diǎn)的堿基發(fā)生突變的平均次數(shù)設(shè)表示0到t這段時(shí)間內(nèi)DNA序列上某個(gè)位點(diǎn)的堿基發(fā)生突變的次數(shù)為n的概率,則突變率2即在0到t這段時(shí)間內(nèi)DNA序列上某個(gè)位點(diǎn)的堿基發(fā)生突變的次數(shù)服從泊松分布,平均次數(shù)為,方差也為。兩條DNA序列分歧度的計(jì)算AACGACGATCGAAGGACGATCG:Species2AACGATGATCG:Species1tt

Thetimeis2tbetweenSpecies1andSpecies2

定義兩條DNA序列間的分歧度為K=2t

對(duì)于JukesandCantor模型Sp1:AAGCCTCGGGGCCCTTATTTTTTG||||||||||||||||||Sp2:AATCTCCGGGGCCTCTATTTTTTTp=0.25K=0.304099Geneticdistancesarescaledtobethenumberofsubstitutionspersite.Kimura(1980)的兩參數(shù)模型ATCG嘌呤嘧啶

堿基的轉(zhuǎn)換(transition)

堿基的顛換(transversion)(1)(2)(3)(4)(1)-(3)代入(1)式,得推導(dǎo)KK80AACGACGATCGAAGGACGATCG:Species2AACGACTATCG:Species1tt

Thetimeis2tbetweenSpecies1andSpecies2

定義兩條DNA序列間的分歧度為K=2t=2(+2)t

設(shè)Ns為轉(zhuǎn)換數(shù),Nv為顛換數(shù),則Ps=P=Ns/L,Pv=Q=Nv/LSp1:AAGCCTCGGGGCCCTTATTTTTTG||||||||||||||||||Sp2:AATCTCCGGGGCCTCTATTTTTTTWhatarePandQ?P=4/24,Q=2/24K值的取樣誤差其中P=4/24Q=2/24p=6/24L=24Implicationsofsubstitutionsinprotein-codingregionsNonsynonymoussubstitution:ThrTyrLeuLeuACCTATTTGCTGACCTCTTTGCTGThrSer

LeuLeuSynonymoussubstitution:ThrTyrLeuLeuACCTATTTGCTGACCTCCTTGCTGThrTyrLeuLeuTheratesofnucleotidesubstitutionsinthethirdpositionaremuchhigherthaninthefirstandsecondpositions,duetoredundancyinthethirdposition:Changesinthefirstandsecondpositionfrequentlychangestheresultingaminoacid,whilechangesinthethirdpositionaretypicallysynonymous.Countingthenumberofsynonymous&nonsynonymoussubstitutionsbetweenapairofhomologoussequences:Inthe“evolutionarymethod,”wetakeintoaccountallpossibleevolutionarypathwaysbetweeneachpairofhomologouscodons.sdandndarethenumberofsynonymous&nonsynonymoussubstitutionspercodon.ForGTT(Val)andGTA(Val),thereisonesynonymousdifferenceandnononsynonymousdifferences.Therefore,sdandndare1&0,respectively.Itismorecomplicatedwhentherearemultiplesubstitutionspercodon:Multiplesubstitutionspercodon:Thereare6pathwaysbetweenTTGandAGA:TTG(Leu)<->ATG(Met)<->AGG(Arg)<->AGA(Arg)TTG(Leu)<->ATG(Met)<->ATA(Ile)<->AGA(Arg)TTG(Leu)<->TGG(Trp)<->AGG(Arg)<->AGA(Arg)TTG(Leu)<->TGG(Trp)<->TGA(Ter)<->AGA(Arg)TTG(Leu)<->TTA(Leu)<->ATA(Ile)<->AGA(Arg)TTG(Leu)<->TTA(Leu)<->TGA(Ter)<->AGA(Arg)Subs:S,N1,20,31,2*1,2*Wecanignore4&6,whichinvolvestopcodons.sdandndarethen?and9/4,respectively.ThetotalnumberofsubstitutionsThetotalnumberofsubstitutionsareSdandNd,whicharethesumsofsdandndforallcodonsinthecomparedsequences.NotethatSd+Ndisequaltothetotalnumberofnucleotidedifferencesbetweenthetwosequencescompared.Sincesomesubstitutionsmightbemorecommonduetotransition-transversionbias,wecanmodifyourestimateswithparametersfortheseratesTheproportionofsubstitutionsWhileSdandNd

provideuswithinformationaboutthenumberofsubstitutions,wearemoreinterestedintherelativeratesofthesesubstitutionsbetweendifferentgenes.Therefore,weestimatetheproportionofdifferences:Ks=Sd/S&KA=Nd/NWhereS&Narethenumbersofsynonymousandnonsynonymoussites;S+N=3C(thetotalnumberofcodons).TheratesKs&KAareestimatedusingtheJukes-Cantormethod,assumingequalnucleotidefrequencyandnotransition-transversionbias.Add’lparameterscanbeaddediftheseassumptionsarenotvalid.Seq1SerThrGluMetCysLeu

TCAACTGAGATGTGTTTASeq2TCAACAGAGATATGTCTASerThrGluIleCysLeu Sd=2

Nd=1Onesubstitutioninthecodon:Seq1SerThrGluMetCysLeu

TCGACAGAGATGTGTTTASeq2TCGACAGAGATGTGTCTTSerThrGluMetCysLeuSeveralpathwaysproblem1. TTACTA

CTT2. TTATTTCTTTwosubstitutioninthecodonSeveralpathwaysproblem

LeuLeuLeu1. TTA

CTA

CTT2. TTATTT

CTT

LeuPheLeu

Sd=2Nd=0

Sd=0Nd=2Averagepathways Sd=(2+0)/2=1

Nd=(0+2)/2=1Seq1 SerThrGluMetCysLeu

TCGACAGAGATGTGTTTASeq2 TCGACAGAGCGCTGTTTA SerThrGluArgCysLeuSeveralpathwaysproblem1. ATGATC

AGC

CGC2. ATGATC

CTC

CGC3. ATGAGGAGC

CGC4. ATGAGGCGGCGC5. ATGCTG

CTC

CGC6. ATGCTG

CGGCGCThreesubstitutioninthecodonSeveralpathwaysproblemMetIleSerArg1.ATGATC

AGCCGCMetIleLeuArg2.ATGATCCTCCGCMetArgSerArg3.ATGAGGAGCCGCMetArgArgArg4.ATGAGG

CGG

CGCMetLeuLeuArg5.ATG

CTG

CTC

CGCMetLeuArgArg6.ATG

CTG

CGG

CGC

Sd=0Nd=3AveragepathwaysSd=(0+0+0+2+1+1)/6=0.67Nd=(3+3+3+1+2+2)/6=2.33

Sd=0Nd=3

Sd=0Nd=3

Sd=2Nd=1

Sd=1Nd=2

Sd=1Nd=2Calculatethenumbersof

synonymousandnonsynonymoussites苯基丙氨酸半胱氨酸

SerThrGluMetCysLeuS1

TCAACTGAGATGTGTTTA NNSNNSNN1/3SNNNNN1/2S1/3SN1/3S

2/3N1/2N2/3N2/3N SerThrGluIleCysLeuS2 TCAACAGAGATATGTCTA NNSNNSNN1/3SNN2/3SNN1/2S1/3SNS

2/3N1/3N1/2N2/3NExample:Seq1SerThrGluMetCysLeu

TCAACTGAGATGTGTTTASeq2TCAACAGAGATATGTCTASerThrGluIleCysLeuS=4.1667N=13.8333Sd=0+1+0+0+0+1=2Nd=0+0+0+1+0+0=1DivergenceforSynonymousandNonsynonymoususingJukesandCantor’sModelinThisExample5.3分子系統(tǒng)樹(shù)的構(gòu)建5.3.1距離矩陣法5.3.2簡(jiǎn)約法UPGMA法鄰接法Fitch-Margoliash法最大簡(jiǎn)約法進(jìn)化簡(jiǎn)約法其他方法方法比較

距離矩陣法—UPGMA法設(shè)類群OTUp和OTUq中含有np和nq個(gè)原始類群,并且它們聚合成類群OTUr,則OTUr與OTUi間的距離dr,i為例5—1OTU1OTU2OTU3OTU4

OTU1OTU2

OTU3

OTU4UnweightedPair-GroupMethodusingArithmeticaverages第一步:將OTU1和OTU2聚合為OTUr1,則OTUr1OTU3OTU4OTUr1OTU3OTU4第二步:將OTUr1和OTU3聚合為OTUr2,則OTUr2OTU4OTUr2

OTU4第三步:將OTUr2和OTU4聚合為OTUr3,結(jié)束。用UPGMA法構(gòu)建的系統(tǒng)樹(shù)

距離矩陣法—鄰近法ABCDEABCDEABCDEABCDEABCDE鄰近法的計(jì)算步驟對(duì)于所有的分類單元i,計(jì)算選擇一對(duì)分類單元i和j,使最小將i和j歸并為新的類(ij),在樹(shù)中添加一個(gè)新的節(jié)點(diǎn),代表新生成的分類,計(jì)算從i和j到新節(jié)點(diǎn)的分支長(zhǎng)度:計(jì)算新類與其它類的距離:如果有兩個(gè)以上的分類存在,則繼續(xù)執(zhí)行循環(huán);否則用長(zhǎng)度為Di,j的分支連接剩余的兩個(gè)類。例5-25個(gè)分類群5SrRNA的例子BsuBstLviAmoMluBsuBstLviAmoMlu0.30930.3387670.3958670.4524670.420533設(shè)LviAmo0.11140.1681BsuBstLviAmoMluBsuBstLviAmoMluu1()()u10.12220.17980.17980.12220.27190.2719BsuBstu1

MluBsuBstu1

Mlu0.26310.27850.28690.3551BsuBstu1

Mlu設(shè)LviAmo0.11140.1681Bsu0.04920.0730BsuBstu1

MluBsuBstu1

Mlu

u2BstMlu

u2

BstMlu

u2BstMlu

u2

BstMlu0.30580.32040.3970

u2BstMluLviAmo0.11140.1681Bsu0.04920.0730設(shè)Bst0.06460.0500Mlu0.1412

距離矩陣法

—Fitch-Margoliash法距離定義:某個(gè)分類單元到一個(gè)合并類的距離定義為這個(gè)分類單元到這個(gè)合并類中的分類單元的平均距離ACED例5—3設(shè)A—D4個(gè)類群間的距離為:ABCDABCDACAve.BDACBDAC①②③ABCDABCDBD(AC)B

D(AC)ACBD①②③②-③:④①+④調(diào)整ACDB

最大簡(jiǎn)約法推斷序列中堿基替換的數(shù)為最小的進(jìn)化樹(shù)適用于較短的、相似度較高的序列算法并不復(fù)雜,但能保證獲得最優(yōu)樹(shù)常用的軟件有PAUP和PHYLIP以一個(gè)例子說(shuō)明最大簡(jiǎn)約法位點(diǎn)123456789序列1AAGAGTGCA序列2AGCCGTGCG序列3AGATATCCA序列4AGAGATCCGAdaptedfromLiandGraur1991四條序列可能有3種無(wú)根樹(shù)一些位點(diǎn)有信息,這些點(diǎn)偏愛(ài)其中的一棵樹(shù),信息位點(diǎn)的字母至少在兩條序列中出現(xiàn)只須分析信息位點(diǎn),如位點(diǎn)5、7、9GCAA1234位點(diǎn)123456789序列1AAGAGTGCA序列2AGCCGTGCG序列3AGATATCCA序列4AGAGATCCGGGACA1324GACA1423樹(shù)1樹(shù)2樹(shù)3AAAAAACTG1234位點(diǎn)123456789序列1AAGAGTGCA序列2AGCCGTGCG序列3AGATATCCA序列4AGAGATCCGCATCG1324AGCT1423樹(shù)1樹(shù)2樹(shù)3TTCATGGAA1234位點(diǎn)123456789序列1AAGAGTGCA序列2AGCCGTGCG序列3AGATATCCA序列4AGAGATCCGGGAGA1324GAGA1423樹(shù)1樹(shù)2樹(shù)3AAAAAAGAG1234位點(diǎn)123456789序列1AAGAGTGCA序列2AGCCGTGCG序列3AGATATCCA序列4AGAGATCCGAAAGG1324AGGA1423樹(shù)1樹(shù)2樹(shù)3AAGAAGGAA1234GGAGA1324GAGA1423AAAAAGGCC1234GGCGC1324GCGC1423CCCCCAGAG1234AAAGG1324AGGA1423AAGAA位點(diǎn)5位點(diǎn)7位點(diǎn)9堿基替換總數(shù)455GGAGGGACAACGGGAACA位點(diǎn)123456789序列1AAGAGTGCA序列2AGCCGTGCG序列3AGATATCCA序列4AGAGATCCG

進(jìn)化簡(jiǎn)約法以四個(gè)分類群為例說(shuō)明考慮三種可能的系統(tǒng)樹(shù),分別稱為X型、Y型、Z型:ABCDACBDADBC位點(diǎn)1234567891011121314151617181920SAAUCAGGCUUGCACUAACUGGSBAGGAGAAGUAAGGCCACUUCSCAGGUGUAAUCAGGGCAGAACSDAGCUACCUUUUGCAACGAUA將每個(gè)位點(diǎn)的堿基轉(zhuǎn)換成單位矢量11111333133111331112123413311341111

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論