版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、第九章 系統(tǒng)發(fā)育分析Mark A. Hershkovitz and Detlef D.LeipeNational Center for Biotechnology InformationNational Library of MedicineNational Institutes of HealthBethesda,Maryland 系統(tǒng)發(fā)育學(xué)研究的是進化關(guān)系,系統(tǒng)發(fā)育分析就是要推斷或者評估這些進化關(guān)系。通過系統(tǒng)發(fā)育分析所推斷出來的進化關(guān)系一般用分枝圖表(進化樹)來描述,這個進化樹就描述了同一譜系的進化關(guān)系,包括了分子進化(基因樹)、物種進化以及分子進化和物種進化的綜合。因為”cla
2、de”這個詞(擁有共同祖先的同一譜系)在希臘文中的本意是分支,所以系統(tǒng)發(fā)育學(xué)有時被稱為遺傳分類學(xué)(cladistics)。在現(xiàn)代系統(tǒng)發(fā)育學(xué)研究中,研究的重點已經(jīng)不再是生物的形態(tài)學(xué)特征或者其他特性,而是生物大分子尤其是序列。盡管本章的目的是想描述一個萬能的系統(tǒng)發(fā)育分析方法,但是這個目標(biāo)過于天真,是不可能實現(xiàn)的(Hills et al.,1993)。雖然人們已經(jīng)設(shè)計了大量的用于系統(tǒng)發(fā)育的算法、過程和計算機程序,這些方法的可靠性和實用性還是依賴于數(shù)據(jù)的結(jié)構(gòu)和大小,因此關(guān)于這些方法的優(yōu)點和缺點的激烈爭論成了分類學(xué)和系統(tǒng)發(fā)育學(xué)期刊的熱門課題(Avise, 1994:Saitou, 1996; Li, 1
3、997; Swofford et al., 1996a)。Hillis等人(1993)曾經(jīng)極其簡單地介紹過系統(tǒng)發(fā)育學(xué)。比起許多其它學(xué)科而言,用計算的方法進行系統(tǒng)發(fā)育分析很容易得到錯誤的結(jié)果,而且出錯的危險幾乎是不可避免的;其它學(xué)科一般都會有實驗基礎(chǔ),而系統(tǒng)發(fā)育分析不太可能會擁有實驗基礎(chǔ),至多也就是一些模擬實驗或者病毒實驗(Hillis et al., 1994);實際上,系統(tǒng)發(fā)育的發(fā)生過程都是已經(jīng)完成的歷史,只能去推斷或者評估,而無法再現(xiàn)了。盡管現(xiàn)在的系統(tǒng)發(fā)育分析的程序存在著很多缺陷,許多生物學(xué)著作中仍然大量引用系統(tǒng)發(fā)育分析得到的結(jié)論,這些結(jié)論的源數(shù)據(jù)只是簡單地應(yīng)用了某一個系統(tǒng)發(fā)育的分析程序。
4、只有在很偶然的情況下,在應(yīng)用某些軟件處理數(shù)據(jù)時受到的困難會少一點,但是在概念上理解這些程序是如何處理數(shù)據(jù)仍然是個難題。本文中關(guān)于系統(tǒng)發(fā)育分析方法的指導(dǎo)有如下一些目的。首先,我們要介紹一個概念性的步驟,這個步驟包含了當(dāng)前在對生物序列進行系統(tǒng)發(fā)育分析時最廣泛使用的方法中應(yīng)用到的一些最重要的原理。這個步驟認(rèn)為,所有的系統(tǒng)發(fā)育方法都刻畫了一個模型去模擬真實的進化過程,然后假定程序發(fā)現(xiàn)的序列之間的差異是模擬的進化結(jié)果,而這個模型本身就包含了方法中固有的假定。對于一個好的使用的系統(tǒng)發(fā)育的分析方法,刻畫一個正確的模型同描繪一個正確的進化樹是同等重要的。另外,我們還將討論一些比較通用的方法所刻畫的模型,并且討
5、論一下這些模型是如何影響對數(shù)據(jù)組的分析的。最后,我們會針對系統(tǒng)發(fā)育模型和進化史的推論,提供一些具體方法應(yīng)用的例子。系統(tǒng)發(fā)育模型的組成系統(tǒng)發(fā)育的建樹方法都會預(yù)先假定一個進化模型(Penny et al., 1994)。比如,所有廣泛使用的方法都假定進化的分歧是嚴(yán)格分枝的,因此我們可以用樹狀拓?fù)浒l(fā)生圖來描述已知的數(shù)據(jù)。但是在一個給定的數(shù)據(jù)組中,因為存在著物種的雜交以及物種之間遺傳物質(zhì)的傳遞,這個假定很可能會被推翻。因此,如果所觀察的序列并非是嚴(yán)格遺傳的話,大多數(shù)系統(tǒng)發(fā)育方法就會得到錯誤的結(jié)果。系統(tǒng)發(fā)育方法中固有的模型會導(dǎo)致一些額外的假定:1. 序列有指定的來源并且正確無誤(Helbig and S
6、eibold, 1996; Hershkovitz and Lewis, 1996; Soltis et al., 1997)。 2. 序列是同源的(也就是說,所有的序列都起源于同一祖先序列);這些序列不是“paralog“(paralog指的是一個祖先序列通過復(fù)制等方法在基因組中產(chǎn)生的歧化序列)的混合物。 3. 序列比對中,不同序列的同一個位點都是同源的。 4. 在接受分析的一個序列組中,序列之間的系統(tǒng)發(fā)育史是相同的(比如,序列組中不存在核序列與細(xì)胞器序列的混合)。 5. 樣本足以解決感興趣的問題。 6. 樣本序列之間的差異代表了感興趣的寬組。 7. 樣本序列之間的差異包含了足以解決感興趣的
7、問題的系統(tǒng)發(fā)育信號。 還有一些假定,在某些方法中是默認(rèn)的,但是在另外一些方法中是可以修正的:8. 樣本序列是隨機進化的。 9. 序列中的所有位點的進化都是隨機的。 10. 序列中的每一個位點的進化都是獨立的。 許多公開發(fā)表的系統(tǒng)發(fā)育分析結(jié)果的錯誤通常都是因為違反了上述假定,特別令人惱火的是現(xiàn)有的方法并不能察覺對基本假定的違反。每一個序列組都必須根據(jù)上述基本假定進行評估,并且同分析過程相協(xié)調(diào)。下面我們將會描述分析過程。系統(tǒng)發(fā)育數(shù)據(jù)分析:比對,建立取代模型,建立進化樹以及進化樹評估對DNA序列進行系統(tǒng)發(fā)育分析的四個主要步驟是比對,建立取代模型,建立進化樹以及進化樹評估。一般來說,執(zhí)行這四個步驟的計
8、算機程序都是相互獨立的,但是他們都是進行系統(tǒng)發(fā)育分析的有機部分。當(dāng)前的討論主要集中在分析DNA序列的方法上,這些方法基本上(不全是)仍然是通過堿基和密碼子的替代來考察序列的差異;這個方法同樣應(yīng)用于對蛋白質(zhì)序列的分析,但是由于氨基酸的生物化學(xué)多樣性,我們必須引入更多的數(shù)學(xué)參數(shù)。因此,下面討論的適用于核苷酸堿基的方法同樣適用于氨基酸和密碼子,而關(guān)于蛋白質(zhì)的一些特殊問題和程序會在別的地方得到討論(Felsenstein, 1996)。因為建樹的標(biāo)準(zhǔn)在一定程度上依賴比對和取代模型,因此一開始就應(yīng)該介紹這些方法,這些介紹非常必要。三種主要的建樹方法分別是距離、最大節(jié)約(maximum parsimony
9、, MP)和最大似然(maximum likelihood,ML)。距離樹考察數(shù)據(jù)組中所有序列的兩兩比對結(jié)果,通過序列兩兩之間的差異決定進化樹的拓?fù)浣Y(jié)構(gòu)和樹枝長度。最大節(jié)約方法考察數(shù)據(jù)組中序列的多重比對結(jié)果,優(yōu)化出的進化樹能夠利用最少的離散步驟去解釋多重比對中的堿基差異。最大似然方法考察數(shù)據(jù)組中序列的多重比對結(jié)果,優(yōu)化出擁有一定拓?fù)浣Y(jié)構(gòu)和樹枝長度的進化樹,這個進化樹能夠以最大的概率導(dǎo)致考察的多重比對結(jié)果。這些方面將會在后面詳細(xì)討論。建立數(shù)據(jù)模型(比對)系統(tǒng)發(fā)育的序列數(shù)據(jù)通常會進行多重比對,也就是說,在系統(tǒng)發(fā)育的有關(guān)文獻中通常會把那些單獨的比對好的堿基所占據(jù)的位置稱作位點;在進行系統(tǒng)發(fā)育的理論討
10、論時這些位點等同于特征符,而占據(jù)這些位點的真實的堿基或者空位被稱為特征符狀態(tài);但是也有例外,STATALIGN程序(Thorne and Kishino, 1992)在進行系統(tǒng)發(fā)育分析時不會進行多重比對,它使用原始的未比對過的序列。多重比對在第七章中有詳細(xì)討論,在這里我們只討論與系統(tǒng)發(fā)育分析有關(guān)的多重比對方法。對準(zhǔn)的序列位點將會被應(yīng)用于系統(tǒng)發(fā)育分析,但是這只能描述一個先驗的系統(tǒng)發(fā)育的結(jié)論,因為位點本身(不是真實的堿基)都是假定為同源的(Mindell, 1991; Wheeler, 1994)。因此,出于系統(tǒng)發(fā)育的目的,比對程序只是系統(tǒng)發(fā)育分析的一部分。建立一個比對模型的基本步驟包括:選擇合適
11、的比對程序;然后從比對結(jié)果中提取系統(tǒng)發(fā)育的數(shù)據(jù)集,至于如何提取有效數(shù)據(jù),取決于所選擇的建樹程序如何處理容易引起歧義的比對區(qū)域和插入-刪除序列(即所謂的indel狀態(tài)或者空位狀態(tài))。多重比對程序多重比對程序有如下一些屬性:計算機依賴性:無依賴;部分依賴;完全依賴。系統(tǒng)發(fā)育調(diào)用:無調(diào)用;先驗調(diào)用;遞歸調(diào)用。比對參數(shù)評估:先驗評估;動態(tài)評估;遞歸評估。比對特征:基本結(jié)構(gòu)(比如序列);高級結(jié)構(gòu)。數(shù)學(xué)優(yōu)化:統(tǒng)計優(yōu)化;非統(tǒng)計優(yōu)化。在系統(tǒng)發(fā)育分析研究中,一個典型的比對過程包括:首先應(yīng)用CLUSTAL W程序,然后進行手工比對,最后提交給一個建樹程序。這個過程有如下特征選項:(1)、部分依賴于計算機(也就是說
12、,需要手工調(diào)整);(2)、需要一個先驗的系統(tǒng)發(fā)育標(biāo)準(zhǔn)(也就是說需要一個前導(dǎo)樹);(3)、使用先驗評估方法和動態(tài)評估方法(推薦)對比對參數(shù)進行評估;(4)、對基本結(jié)構(gòu)(序列)進行比對(對于親水的氨基酸,推薦引入部分的二級結(jié)構(gòu)特征);(5)、應(yīng)用非統(tǒng)計數(shù)學(xué)優(yōu)化。這些特征選項的取舍都依賴于下面將要描述的具體的系統(tǒng)發(fā)育分析方法。計算機依賴型提倡進行完全的計算機多重比對的人常常有這樣的依據(jù),他們認(rèn)為手工比對通常都是含混不清的(Gatesy et al., 1993)。MALIGN(Wheeler and Gladstein, 1994)和TreeAlign(Hein, 1990, 1994)程序都試圖在
13、根據(jù)系統(tǒng)發(fā)育功能而優(yōu)化比對的時候?qū)崿F(xiàn)完全計算機化,尤其是試圖通過初步的多重比對而優(yōu)化出一個最大節(jié)約樹(MP tree)。一般來說,只有當(dāng)我們假定計算機程序能夠進行正確的比對的時候,我們才會實行完全的計算機處理。之所以還提倡進行手工比對(比如,Thompson et al., 1994),是因為現(xiàn)在的比對算法和程序還不能滿足系統(tǒng)發(fā)育分析的需要。系統(tǒng)發(fā)育標(biāo)準(zhǔn)許多計算機多重比對程序(比如CLUSTAL, PileUp,ALIGN in ProPack)根據(jù)明確的系統(tǒng)發(fā)育標(biāo)準(zhǔn)(一個前導(dǎo)樹)進行比對,這個前導(dǎo)樹是由雙重比對得到的。但是SAM(Hughey et al., 1996)和MACAW(Lawr
14、ence et al., 1993)程序在進行多重比對時并不引入明確的系統(tǒng)發(fā)育標(biāo)準(zhǔn),雖然這些程序也可以模擬系統(tǒng)發(fā)育過程操作參數(shù)。如果在進行系統(tǒng)發(fā)育分析的時候,比對中引入了前導(dǎo)樹,那么通過這個比對推導(dǎo)出的進化樹邏輯上應(yīng)該同前導(dǎo)樹的拓?fù)浣Y(jié)構(gòu)相同。由CLUSTAL比對得到的前導(dǎo)樹(如圖9.1)將會被轉(zhuǎn)化成PHYLIP樹的文件格式,然后輸入到畫樹程序中,這些畫樹程序包括TreeTool(X windows), TreeDraw(Macintosh), PHYLODENDRON(Macintosh), TREEVIEW(Macintosh, Microsoft Windows) 或者PAUP(圖 9.1
15、;Macintosh, Microsoft Windows)的畫樹工具。按道理,我們應(yīng)該回過頭來為CLUSTAL比對再指定一個前導(dǎo)樹,但是在實際操作中我們并不會這么做。有些程序(比如TreeAlign and MALIGN)為了得到優(yōu)化的比對和系統(tǒng)發(fā)育樹,程序本身就設(shè)計了交叉(同步)遞歸優(yōu)化的算法。理論上,能夠解決比對-系統(tǒng)發(fā)育難題的同步優(yōu)化算法或者配套算法應(yīng)該是存在的,但是遞歸算法必須冒一定的風(fēng)險,它很可能會導(dǎo)致一個錯誤的或者不完整的結(jié)果(Thorne and Kishino, 1992)。因此,根據(jù)比對結(jié)果建立進化樹之后,必須考慮另外的可能性,也就是說,如果根據(jù)其它的比對結(jié)果得到一個并不是
16、最優(yōu)化的進化樹,這個次優(yōu)化的進化樹是不是更能夠滿足研究的需要。比對參數(shù)評估在比對中會出現(xiàn)一些序列區(qū)域,其長度是可變的,如何處理這些區(qū)域中indel狀態(tài)的位點是最重要,這取決于進化模型的所有要素(比如,包括核苷酸轉(zhuǎn)換/顛換速率),而且相關(guān)的參數(shù)在前導(dǎo)樹與比對推導(dǎo)的進化樹中應(yīng)該保持一致。比對參數(shù)應(yīng)該隨著進化的分叉動態(tài)變化(Thompson et al., 1994),只有這樣才能保證堿基錯配的幾率能夠滿足序列趨異的需要;比對參數(shù)應(yīng)該隨時調(diào)整(Thompson et al., 1994, Hughey et al., 1996),以防止引入過多的近似序列而導(dǎo)致比對序列的信息量不足,可以通過降低近似序
17、列的比對分值權(quán)重來防止這種情況。CULSTAL程序兼顧了這兩種情況(參數(shù)動態(tài)變化),而SAM程序引入了序列權(quán)重。利用基本結(jié)構(gòu)或者高級結(jié)構(gòu)進行比對根據(jù)二級或者三級序列結(jié)構(gòu)進行比對,比起直接利用一級序列進行比對的可信度要好,因為在同源性評估中,人們一直認(rèn)為復(fù)雜結(jié)構(gòu)的保守性高于簡單特征(核苷酸,氨基酸)的同源保守性,而且,立足于復(fù)雜結(jié)構(gòu)的比對程序還可以搜索到一些特殊的關(guān)聯(lián)位點,這些位點是進化的功能區(qū)域。實際上,基于系統(tǒng)發(fā)育的結(jié)構(gòu)多重比對并沒有將問題簡化,也就是說,序列比對必須服從結(jié)構(gòu)進化,而結(jié)構(gòu)進化則同系統(tǒng)發(fā)育保持一致。有一個探索式的手工程序(如圖9.2),是用來對核糖體DNA進行結(jié)構(gòu)比對的(Gut
18、ell et al., 1994),這個程序要考察相關(guān)取代的樣式,但是相關(guān)性必須通過系統(tǒng)發(fā)育樹中的多個獨立的補償性突變推導(dǎo)得到(cf. Harvey and Pagel, 1991)。數(shù)學(xué)優(yōu)化有些比對程序(比如,MACAW, SAM)根據(jù)一個統(tǒng)計模型進行優(yōu)化,但是這些統(tǒng)計同系統(tǒng)發(fā)育模型的關(guān)系并不清楚。僅僅根據(jù)一個系統(tǒng)發(fā)育模型是沒有辦法比較多重比對方法的優(yōu)劣的??偨Y(jié):對于系統(tǒng)發(fā)育分析,最好的比對程序是什么呢?對于一個給定的系統(tǒng)發(fā)育問題,如果預(yù)先不知道其中的系統(tǒng)發(fā)育關(guān)系,就很難知道最適用的比對方法(cf. Morrison and Ellis, 1997)。一般來說,我們并不贊成直接把計算機比對結(jié)
19、果提交給建樹程序,因為建樹程序不能發(fā)現(xiàn)比對的錯誤;尤其是那些包含在比對程序包中(比如,CLUSTAL and TREE in ProPack)的建樹程序,特別要注意這一點(Feng and Doolittle, 1996),因為在這些程序包中的建樹程序更加不嚴(yán)格。我們必須通過分子結(jié)構(gòu)�功能和堿基取代過程作出一些假定,并且結(jié)合另外一些獨立的系統(tǒng)發(fā)育證據(jù),對整個比對進行考察。從比對中提取系統(tǒng)發(fā)育數(shù)據(jù)集在某些比對中,比對長度是可變的,這時,系統(tǒng)發(fā)育數(shù)據(jù)集同比對就不會完全吻合;即使 在一些長度不變的比對中,數(shù)據(jù)集也可能同比對結(jié)果不一致-舉一個很簡單的例子,有時候我們只需要處理第一個和第二
20、個密碼子位點,就不需要全部的比對結(jié)果,這個話題我們在后面討論取代模型的時候還會涉及到。如果比對中出現(xiàn)可變長度,我們通常會根據(jù)比對的不確定性程度和處理indel狀態(tài)的原則這兩個標(biāo)準(zhǔn)對比對結(jié)果進行取舍,從中選擇所需的系統(tǒng)發(fā)育數(shù)據(jù)集;其中針對indel狀態(tài)的處理方法取決于建樹方法以及從比對結(jié)果中發(fā)掘出的系統(tǒng)發(fā)育信息,最極端的方法是把包括空位在內(nèi)的所有indel位點從比對中清除出去,在分析時不加考慮(cf. Swofford et al., 1996a),這個方法的好處是可以把序列的變化包容在取代模型中,而不需要特別的模型來處理indel狀態(tài),但是它的缺點也很明顯:indel區(qū)域的系統(tǒng)發(fā)育信息完全被忽
21、略了。在提取數(shù)據(jù)集時保留indel區(qū)域但是忽略所有的空位分值,將會保留包括空位在內(nèi)的位點堿基變化信息。某些長度可變區(qū)域在部分序列或者全部序列中很難對準(zhǔn),在這種情況下,這些難以對準(zhǔn)的堿基的分值應(yīng)該清零;這個方法存在很大的缺陷,MP和ML建樹方法會不加考慮地把這些清零的或者被忽略的分值理解為零分歧,但是實際上隱藏在這些分值下面的實際的數(shù)據(jù)(不管是空位還是難以對準(zhǔn)的堿基),一般來說,反映出的分歧度都很大。PAUP 4.0中的距離建樹方法(將在下文描述)允許通過非空位區(qū)域外推得到空位區(qū)域的距離。最大節(jié)約(MP;見下)是允許把可比對的空位合并,并將其視為特征符的唯一方法;可以通過兩種方式達(dá)到目的:作為一
22、個附加的特征符狀態(tài)(第五種核酸堿基或者第二十一種氨基酸),或者作為一套獨立于堿基取代的特征符集。當(dāng)空位占據(jù)了不止一個位點的時候,前一個方法行不通,因為每一個空位位點都會被統(tǒng)計為一次獨立的特征符狀態(tài)變化。當(dāng)比對的序列的局部出現(xiàn)很好的可比對的空位的時候,后一種方法非常有用。我們可以把一套空位特征符附加到比對序列數(shù)據(jù)集中,也可以用額外的堿基程序在適當(dāng)?shù)奈恢脤瘴挥嫹?,但是在計分的時候,空位位點中只有一個作為空位計分,其余的將會被忽略。PAUP將會執(zhí)行這個方法。對于某些比對而言,比對程序會忽略所有的空位分值或者忽略所有低于預(yù)設(shè)值的空位分值;但是,還沒有任何一種程序會忽略單個序列的單個位點。如果比對在序
23、列組內(nèi)部相當(dāng)明確,但是處身其中時卻不太清楚,此時必須對比對做“手術(shù)”,確保同序列組相關(guān)的明確的信息被保留,而除去模糊的信息。圖9.3給出了一個比對“手術(shù)”的例子。在空位區(qū)域,我們必須作出決定:在可供選擇的比對中,哪一個更加合理,尤其重要的是,哪一個更加適合于建立進化樹分析。如果手工解決比對的不確定性,就必須考慮系統(tǒng)發(fā)育關(guān)系、取代過程(比如,轉(zhuǎn)換和顛換)和堿基組成;在這個階段,用系統(tǒng)發(fā)育證據(jù)解決不確定性非常合理。在傾向于變長的序列區(qū)域,關(guān)系非常疏遠(yuǎn)的序列和序列組的比對就可以側(cè)向展開(就是說,引入人工空位,并且忽略分值),最終的結(jié)果使得只有關(guān)系很近的序列區(qū)域?qū)?zhǔn)在一起。某些序列中的某些位點雖然對準(zhǔn)
24、了,但是并不確定,他們的分值可以在計分時忽略;這個方法的優(yōu)點是可以保留同這些序列相關(guān)的明確信息,缺點是最大節(jié)約和最大似然的建樹方法會把這些“缺失”的分值看做是零分歧。由MALIGN(Wheeler and Gladstein, 1994)和TreeAlign得到的比對不需要在比對后用這些方法中的建樹方法進行數(shù)據(jù)修飾,即使這些比對中仍然有一些同樣類型的不確定性,這些不確定性在另外一個程序進行分析時需要修正。如前所述,這些程序會根據(jù)由比對得到的最好的MP系統(tǒng)發(fā)育進化樹,對比對參數(shù)進行遞歸優(yōu)化。MALIGN還會利用一套空位為代價,對以連接的可供選擇的比對為基礎(chǔ)的建樹方法進行優(yōu)化;在這個方法中,在最有
25、可能的幾種比對中出現(xiàn)的比對特征將會被加權(quán)。這就提供了一種方法,可以捕獲序列分歧的數(shù)量(在取消不確定的比對區(qū)域的分值的時候這些分歧是被忽略掉的),因為這些區(qū)域的所有可能的比對方式都將顯示這些區(qū)域的最大的序列分歧。處于不確定的比對區(qū)域中的位點很可能不是同源的,因此在進化樹中需要加入一些噪聲干擾或者偏向。決定取代模型對于取代模型,應(yīng)該給予同比對和建樹同樣的重視。就像前面暗示的那樣,取代模型既影響比對,也影響建樹;因此需要采用遞歸方法?,F(xiàn)在,對于核酸數(shù)據(jù)而言,可以通過取代模型中的兩個要素進行計算機評估(Swofford, 1997),但是對于氨基酸和密碼子數(shù)據(jù)而言,沒有什么評估方案(Felsenste
26、in, 1996)。其中一個要素是堿基之間相互取代的模型;另外一個要素是序列中不同位點的所有取代的相對速率。還沒有一種簡單的計算機程序可以對較復(fù)雜的變量(比如,位點特異性或者系統(tǒng)特異性取代模型)進行評估,同樣,現(xiàn)有的建樹軟件也不可能理解這些復(fù)雜變量。堿基取代速率模型一般而言,生物化學(xué)性質(zhì)相近的堿基之間的取代頻率較高;在DNA中,四種轉(zhuǎn)換(Aà G, Gà A, Cà T, Tà C)的頻率比八種顛換(Aà C, Aà T, Cà G, Gà T, 以及前四種的反向取代)的頻率要高;這些偏向會影響兩個序列之間的預(yù)計的
27、分歧。各個殘基之間的相對取代速率一般由方陣形式列出;對于堿基而言,行數(shù)和列數(shù)都是4,對于氨基酸而言,行數(shù)和列數(shù)都是20(比如PAM方陣),對于密碼子而言,行數(shù)和列數(shù)都是61(除去了中止密碼子)。非對角線元素對應(yīng)于一個堿基變?yōu)榱硪粋€堿基的相對代價,而對角線元素則代表不同序列擁有同一個堿基的代價。這些代價值可以固定為先驗的代價表,以確保建樹方法在計分時對每一種取代都使用確定的代價值。固定的代價方陣是典型的靜態(tài)權(quán)重方陣,MP建樹方法(如圖9.4)使用的就是這種方陣。如果使用這種權(quán)重,那么這個方法就會被稱為“加權(quán)節(jié)約”。又如,ML建樹方法,代價值是由即時的速率方陣得到的,這個方陣(如圖9.5)代表了各
28、種取代可能會發(fā)生的概率的ML估計值。MP權(quán)重方陣只涉及簡單的算術(shù),而應(yīng)用距離和ML速率方陣則可以引入復(fù)雜的代數(shù)。為了避免盲目使用不適當(dāng)?shù)姆椒?,建議大家熟悉其內(nèi)部的基本原理(見Li, 1997, and / or Swofford et al., 1996a)。實際上,“前進”和“反向”取代速率被認(rèn)為是相同的;這個取代模型被稱為是“時間可逆”;這個模型擁有“靜態(tài)”的性質(zhì),因為在所有的堿基頻率中沒有預(yù)知的變化。在系統(tǒng)發(fā)育的特殊歷史中,不同序列中的堿基頻率不同表明,前進和反向速率實際上可能會不同;而傳統(tǒng)的取代權(quán)重或者速率方陣不能包容這個“非靜態(tài)”環(huán)境;本節(jié)的結(jié)尾將討論一個基于非靜態(tài)取代模型(“l(fā)og
29、�det”)的建樹方法,這個方法將會提供一個可供選擇的計算方法。通常,特征符狀態(tài)的權(quán)重方陣都會或多或少地通過觀察進行過估值,當(dāng)然也可以從速率矩陣衍生得到。比如,如果假定兩個轉(zhuǎn)化的其中一個,發(fā)生的頻率是每個顛換的兩倍,那么據(jù)此就可以確定一個權(quán)重方陣,比如,A�G的轉(zhuǎn)換代價為1,而A�T的顛換代價為2(圖9.4)。(節(jié)約方法規(guī)定對角線元素值,或者說是不同序列中擁有相同堿基的代價值為零。這是節(jié)約方法的一個缺點��詳見下文)在隨后的建樹步驟中,這套假定會把顛換的總數(shù)降至最低值,而力求把那些主要差異是轉(zhuǎn)換的序列集中在一起。任何一種“時
30、間可逆”的核苷酸取代模型都可以用圖9.5所示的方陣刻畫,只是其中一個速率和其它速率的差異;在任意組合中,最多可以達(dá)到只有六個參數(shù),其中每一個速率參數(shù)都是獨立的(Swofford et al., 1996a;Li, 1997)。如果平衡的堿基頻率不相等,則需要額外的參數(shù);如果平衡的堿基頻率不相等,但是卻假定這些頻率相等,那么系統(tǒng)發(fā)育進化樹的最終結(jié)果將會出錯(Li, 1997)。側(cè)線(paralinear)(Lake, 1994)和“l(fā)og�det”(Lockhart et al., 1994)做了一些修正(見Swofford et al., 1996a)來滿足非靜態(tài)環(huán)境的需要;這個
31、方法只適用于距離進化樹的建立;在這個方法中,對于每一個序列匹配,各種類型和變化方向的原始取代的數(shù)目都會計算在一個4×4的方陣中(如圖9.6)。每個方陣都會有一個代數(shù)行列式,這個行列式的log值是評估序列差異性的一個要素,因此被稱為“l(fā)og�det”。對那些擁有各種各樣的堿基頻率的序列進行雙重比較,就會得到各種各樣的方陣,也就會得到各種各樣的行列式值;因此,在評估序列兩兩之間的距離的時候,就要受到序列兩兩之間的行列式值的影響,而且序列兩兩之間的比較允許適用不同的取代模型,因此沿著系統(tǒng)發(fā)育進化樹的不同樹枝,將會產(chǎn)生多元化。Log�det尤其對位點之間的速率差異
32、(見下文)敏感,因此,堿基頻率的偏向可能只存在于那些承受變化的位點。位點內(nèi)速率差異模型除了取代模型的多元化以外,一個序列中各個不同位點之間取代速率的差異也會對建立進化樹的結(jié)果產(chǎn)生很深遠(yuǎn)的影響(Swofford et al., 1996a);關(guān)于位點之間的速率差異(或者叫做位點異質(zhì)性),有一個最明顯的例子,就是在一個編碼序列中,三聯(lián)體編碼的位點差異:在三聯(lián)體編碼中,第三個編碼位點比另外兩個位點更加容易發(fā)生變化;正是出于這個原因,許多系統(tǒng)發(fā)育分析方法在分析編碼序列時,都會把第三個編碼位點排除在外;但是在某些情況下,速率差異模型會更加敏銳(比如,對應(yīng)于蛋白質(zhì)或者rRNA的保守序列)。對位點差異的取代
33、速率進行估值的方法有非參數(shù)化模型(W.M. Yang et al., 1996),不變式模型和gamma分布模型(Swofford et al., 1996a)。非參數(shù)化方法源于特異位點的相對速率的范疇;這個方法可以在MP建樹方法中使用,只要根據(jù)相對的變異頻率對特異位點進行簡單加權(quán)就可以了,當(dāng)然進行加權(quán)時需要有關(guān)于真實進化樹的預(yù)備知識;這個方法同樣也可以適用于ML建樹方法,但是在計算上被認(rèn)為是不切實際的(W.M. Yang et al., 1996)。不變式模型對一定比例的位點進行估值,這些位點并不能自由變化;剩余的位點假定為等概率變化。至于gamma模型方法,它假定一個給定的序列變化的概率是
34、遵守gamma分布規(guī)律的,據(jù)此指定位點的取代概率;gamma分布的形狀(有形狀參數(shù)描述)描述了一個序列中各個位點的取代頻率的分布(Swofford et al., 1996a, p. 444, Figure 13; cf. Li, 1997, p. 76, Figure 3.10; 注意尺度差異)。在一個混合方法中,可以假定一部分位點是不變的,而剩余的位點則是按照gamma分布變化的。實際上,gamma修正可以是連續(xù)的,離散的或者自離散的(W.M. Yang et al., 1996)。連續(xù)gamma的意思是各個位點沿一條連續(xù)的概率曲線變化;目前,這個方法在絕大多數(shù)情況下無法計算。離散gamm
35、a逼近方法指定各個位點的概率,使得這些(大量的)概率值逼近gamma曲線。自離散模型假定相鄰的位點的變化速率是相關(guān)聯(lián)的;許多組位點被分為許多類,其中每一類中的位點的變化速率可能被假定為常量或者異類值。進化樹建立程序使用各種各樣的位點速率差異修正方法。對于核酸數(shù)據(jù),PAUP 4.0在單獨或者混合使用時間可逆的距離建樹方法和最大似然建樹方法時,既使用不變式gamma模型,也使用離散的gamma模型;在使用log�det距離建樹方法時,使用不變式模型(見下)。對于核酸,氨基酸和編碼子數(shù)據(jù),PAML使用連續(xù)的,離散的和自離散的gamma模型。對于核酸和氨基酸數(shù)據(jù),PHYLIP使用一種離散
36、的gamma模型。究竟使用哪一種取代模型呢?在一個給定的序列集中,即使一個取代模型中的任何參數(shù)都可以證明是很有判斷力的,但是最好的模型并不一定總是擁有最多的蠶室;相反,參數(shù)越少,模型越好,這是因為對每一個參數(shù)進行估值都會引入一個相關(guān)的變量,而每引入一個附加的參數(shù)維度,都會使得整體的變數(shù)增加,有時候甚至?xí)δP推鹨种谱饔茫ㄒ奓i, 1997: p. 84, 表4.1)。對于一個給定的序列比較,如果模型只有兩個參數(shù),那么堿基差異的總和要被劃分為兩個類別;如果模型有六個參數(shù),那么堿基差異的總和要被劃分為六個類別;很明顯,如果分為六個類別,那么每一個類別中的位點樣本數(shù)目將會很小,很可能小得無法進行合理
37、地估值。PAUP的“描述樹”特征是對DNA序列的取代模型進行規(guī)范的一個較好的策略,它使用似然方法同時評估六個可逆的取代速率、gamma分布的形狀參數(shù)和不變的位點的比例(圖9.7)。這些參數(shù)可以通過相等的或者指定的堿基頻率進行估值。通常,任何一個合理的系統(tǒng)發(fā)育進化樹(比如,很容易就可以得到一個相鄰連接的進化樹)都適用于這個程序,因為很明顯,對參數(shù)的估值在很大程度上受到特征符模式的影響,而不是進化樹的拓?fù)浣Y(jié)構(gòu)(Swofford et al., 1996b)。這個估值程序?qū)τ?0個序列而言,并不會耗費太多的時間。如果序列較多,或者時間較緊,可以對試驗的進化樹進行精簡,在保留全部的系統(tǒng)發(fā)育范圍和結(jié)構(gòu)的
38、同時,減少分類數(shù)目。通過這些估算的取代參數(shù),我們可以通過比較由較多參數(shù)和較少參數(shù)分別評估得到的似然分值,決定一個簡化的模型是否合理(比如,六個取代類別是否可以減少到兩個)。有時候,參數(shù)和不變位點的比例可以相互替換,所以我們應(yīng)該比較每一個單獨使用時得到的似然分值和兩個同時使用時得到的似然分值。注意,和MP以及ME不同,用不同的參數(shù)值得到ML分值可以直接比較(Swofford et al., 1996b)。對于編碼蛋白質(zhì)的DNA序列,根據(jù)樣本的分歧程度,有時候很明顯地,有用的變化基本上都是第一位和第二位的編碼位點,而在整個數(shù)據(jù)集中,第三位點通常都是隨機的,或者第三位點變化而第一位點和第二位點不變。
39、盡管除去“無用”位點可以提高剩余位點的不同速率的估值精確度,上面所述的程序還是要對這個速率差異進行修正。對于節(jié)約進化樹的建立,我們有時候會把隨機的第三位點從分析中除去,因為這些位點只會引入噪聲,如果堿基頻率不相等,這些位點還會引入錯誤。怎么樣才能確定數(shù)據(jù)集中的非靜態(tài)因素是否會成為一個問題呢?最簡單的方法可能就是去比較PAUP中兩種通過不同方法得到的建樹結(jié)果和進化樹評估結(jié)果,一種方法是使用時間可逆的方法,另一種方法是log�det距離建樹方法。下面的章節(jié)中將會涉及到這些程序。還沒有什么好的計算方法,能夠直接從序列數(shù)據(jù)中評估非靜態(tài)因素的影響。PAUP中有一個命令,會列出所有序列的堿基
40、頻率。這個程序應(yīng)該使用排除不變位點(Exclude Constant Sites)的選項。序列中的堿基頻率可以很直觀地比較出來。數(shù)據(jù)文件應(yīng)該指定 gapmode=missing,或者PAUP要把一個空位特征符計算為一個堿基變化。堿基頻率的命令還要對數(shù)據(jù)執(zhí)行一個“chi平方(chi�square)”測試,但是這個測試并不切實際,因為它假定數(shù)據(jù)是從一個隨機樣本中提取的,而結(jié)果就會假定所觀察到的不相等是相互獨立的而不是系統(tǒng)發(fā)育結(jié)構(gòu)的結(jié)果。一個毫無意義的chi�square分值并不能除去非靜態(tài)因素,而一個有意義的分值很可能會進一步證實非靜態(tài)因素。PAUP中的堿基組成命令已經(jīng)
41、被用來證明:在被子植物和綠藻的5.8S rDNA序列中,兩者之間變化比較大的位點集中存在中堿基偏好,但是并不一定在某個序列上產(chǎn)生變化(Hershkovitz and Lewis, 1996)。建樹方法現(xiàn)有的軟件中所采用的建樹方法已經(jīng)在某些著作(Saitou, 1996; Swofford et al., 1996a; Li, 1997)中有很詳盡的討論;這部分只是簡單地描述一些最常用的方法。建樹方法可以分為兩類,每類有兩種不同的方法:1. 基于算法的和基于標(biāo)準(zhǔn)的?;谒惴ǖ慕浞椒ǜ鶕?jù)一系列的步驟得到一個進化樹;而基于標(biāo)準(zhǔn)的建樹方法則是根據(jù)一些優(yōu)化的功能對可選的進化樹進行評估。相鄰連接方法(N
42、J)是一個純粹的基于算法的建樹方法,這個方法只得到一個進化樹,這個進化樹擁有令人滿意的性質(zhì),它的距離附加值接近或者是非常優(yōu)化的(見下);而一個基于標(biāo)準(zhǔn)的距離建樹方法將會根據(jù)進化樹的附加值優(yōu)化的標(biāo)準(zhǔn),對所有可能的進化樹(不管這些進化樹是否產(chǎn)生)進行評估。 2. 基于距離的和基于特征符的。歷史上的和現(xiàn)有的許多關(guān)于系統(tǒng)發(fā)育的討論描述了各種各樣的基于距離的和基于特征符的建樹方法的效用(比如,Saitou, 1996: Li, 1997)。距離建樹方法根據(jù)一些尺度計算出雙重序列的距離,然后拋開真實數(shù)據(jù),只是根據(jù)固定的距離建立進化樹;而基于特征符的建樹方法在建立進化樹時,優(yōu)化了每一個特征符的真實數(shù)據(jù)模式的
43、分布,于是雙重序列的距離不再固定,而是取決于進化樹的拓?fù)浣Y(jié)構(gòu)。最常用的基于特征符的建樹方法包括MP和ML。 距離建樹方法距離建樹方法根據(jù)雙重序列比對的差異程度(距離)建立進化樹。如果所有的起源分歧事件都很精確地記錄在序列中(Swofford et al., 1996a),那么距離建樹方法將會重構(gòu)真實的進化樹。然而,當(dāng)序列突變達(dá)到飽和時,分歧程度就會達(dá)到上限。一對分歧序列的其中之一在某個特定位點發(fā)生突變后,后續(xù)的突變不管發(fā)生在哪一條序列,都不會再造成更多的差異。實際上,后續(xù)的變異很可能會使得前一個位點恢復(fù)成相等的狀態(tài),從而屏蔽掉前一個突變,因此,絕大多數(shù)基于距離的建樹方法都會針對這樣“不可見”的
44、替換進行修正。在實際操作中,使用的速率方陣都會很有效地假定:在所觀察的相等的堿基對中,實際上存在一定比例的位點,這些位點經(jīng)受了多次突變,而且,隨著整個序列差異程度的增加,這些位點的比例也在增加。有些程序(至少是隨意地)會計算出不正確的距離進行,比方說,MEGA程序(Kumar et al., 1994)只針對密碼子和氨基酸數(shù)據(jù)會計算出錯誤的距離;除非序列的整體差異程度很小,這個程序?qū)嵸|(zhì)上將會保證給出錯誤的結(jié)果。雙重序列差異使用最大似然方法的取代速率計算得到。最常用的距離建樹程序使用的模型局限于時間可逆模型,只包含很有限的幾個取代模型;但是PAUP 4.0 基本上會測試時間可逆模型的所有變化,包
45、括用最大似然方法從數(shù)據(jù)中評估得到的實際模型,以及針對非靜態(tài)數(shù)據(jù)的log�det距離建樹方法所得到的模型。與最大似然方法相比,距離建樹方法的計算強度很小,但是可以使用序列進化的相同模型,這是它們最主要的優(yōu)點。這個方法的缺點是屏蔽了真實的特征符數(shù)據(jù)。最常用的距離建樹方法是“不加權(quán)配對組算術(shù)方法”(UPGMA,unweighted pair group method with arithmetic mean)、相鄰連接方法(NJ,neighbor joining)和對距離進化樹的附加值進行優(yōu)化的方法,包括最小進化方法(ME,minimum evolution)。有些方法被不止一個系統(tǒng)發(fā)
46、育軟件包引用,但是在使用時不一定會使用相同的指定參數(shù)和(或)進化樹優(yōu)化特征(比如,樹枝交換��見下)。不加權(quán)配對組算術(shù)方法(UPGMA,unweighted pair group method with arithmetic mean)UPGMA是一種聚類或者說是分類方法��它按照配對序列的最大相似性和連接配對的平均值的標(biāo)準(zhǔn)將進化樹的樹枝連接起來。它還不是一種嚴(yán)格的進化距離建樹方法(Li, 1997)。只有當(dāng)序列分歧是基于一個分子鐘或者近似等于原始的序列差異性的時候,我們才會期望UPGMA會產(chǎn)生一個擁有真實的樹枝長度的準(zhǔn)確的拓?fù)浣Y(jié)構(gòu)(ul
47、trametric; Swofford et al., 1996a)。正如前面討論的那樣,在實際問題中很少會遇到這種情況。相鄰連接方法(NJ,neighbor joining)相鄰連接算法在距離建樹中經(jīng)常會用到,而不會理會使用什么樣的優(yōu)化標(biāo)準(zhǔn)。完全解析出的進化樹是通過對完全沒有解析出的“星型”進化樹進行“分解”得到的,分解的步驟是連續(xù)不斷地在最接近(實際上,是最孤立的)的序列對中插入樹枝,而保留進化樹的終端(圖9.8)。于是,最接近的序列對被鞏固了,而“星型”進化樹被改善了,這個過程將不斷重復(fù)。這個方法相對而言很快,也就是說,對于一個50個序列的進化樹,只需要若干秒甚至更少。Fitch&
48、;#0;Margoliash(FM)Fitch�Margoliash(FM)方法設(shè)法通過把所有可能觀察到的距離相對于進化樹中所有可能的路徑長度的偏差的平方極小化,將進化樹中觀察到的雙重距離的合適度極大化(Felsenstein, 1997)。有一些變量,在怎樣對錯誤進行加權(quán)的處理上不太一樣。對變化的估值并非是完全獨立的,因為所有的進化樹內(nèi)部的樹枝中存在的錯誤都至少被計算了兩次(Rzhetsky and Nei, 1992)。最小進化方法(ME,Minimum Evolution)最小進化方法先使用同F(xiàn)M相同的方式計算出路徑長度,然后根據(jù)路徑長度優(yōu)化出最短的進化樹;也就是說,它要求
49、將觀察到的距離相對于基于進化樹的距離的偏差的平方最小化(Rzhetsky and Nei, 1992; Swofford et al., 1996a; Felsenstein, 1997)。同F(xiàn)M方法不同,ME方法并不使用所有可能的雙重序列距離和所有可能的相關(guān)的進化樹路徑長度,而是先根據(jù)到外層節(jié)點的距離固定進化樹內(nèi)部節(jié)點的位置,然后根據(jù)這些觀察點之間的最小計算誤差,對內(nèi)部的樹枝長度進行優(yōu)化。于是這個方法聲稱它消除了FM計算的依賴性。究竟哪一個基于距離的建樹程序是最好的ME和FM似乎是最好的程序程序,它們在模擬研究中所取得的成績幾乎相同(Huelsenbeck, 1995)。ME在計算機程序中的
50、應(yīng)用越來越廣泛了,包括METREE(Rzhetsky and Nei, 1994)和PAUP都在使用ME。對于蛋白質(zhì)數(shù)據(jù),PHYLIP中的FM程序提供了最多的時間可逆取代模型,但是沒有對位點內(nèi)部的取代速率差異進行修正。MEGA(Kumar et al., 1994)和METREE軟件包包括一個針對蛋白質(zhì)的gamma修正,但是只有同一個原始(“p�距離”)的分歧模型(沒有距離修正或者偏好修正)結(jié)合時才進行修正,這種方法只有當(dāng)分歧很小時才合理(Rzhetsky and Nei, 1994)。MEGA也計算同義的和異義的位點的分離距離,但是只有當(dāng)沒有取代或者堿基頻率偏好的時候,以及沒有
51、對位點內(nèi)部的速率差異進行修正的時候,這個方法才合理。因此,對于絕大多數(shù)數(shù)據(jù)集而言,對核苷酸數(shù)據(jù)應(yīng)用一個更加理想的模型可能會比MEGA方法要好。模擬研究指出,對于一個大范圍的進化樹形狀空間,UPGMA的可操作性很差(Huelsenbeck, 1995)。我們并不贊成使用這種方法,而之所以在這里會提及這個方法,是因為在現(xiàn)在的出版物上經(jīng)常會出現(xiàn)UPGMA的應(yīng)用,這一點可以由當(dāng)前的出版物中出現(xiàn)的UPGMA“基因進化樹”證明(Huelsenbeck, 1995)。很顯然,NJ是最快的程序,并且所產(chǎn)生的進化樹同ME進化樹相比,雖不能說一樣,但也已經(jīng)非常相近了(Rzhetsky and Nei, 1992;
52、 Li, 1997)。但是,NJ只產(chǎn)生一個進化樹。根據(jù)數(shù)據(jù)結(jié)構(gòu),有大量不同的進化樹可能和NJ進化樹一樣好,甚至比NJ進化樹好得多(Swofford et al.1996a)。我們中的一個(MAH)和D.Hillis(個人通訊)已經(jīng)各自獨立地得到了一些(雖然很少)數(shù)據(jù)集,對于這些數(shù)據(jù)集,NJ給出的進化樹很糟糕;但是使用PAUP方法中的“最接近(closest)”選項后,進行逐步加總,得到了一個較好的距離進化樹(Swofford, 1997)。特征符建樹方法除了在所有的分析步驟中都會用到特征符數(shù)據(jù)以外,基于特征符的建樹方法毫無共同之處。這就使得我們能夠評估一個比對中每一個堿基位點對其它所有的堿基位
53、點的依賴性。最常用的基于特征符的建樹方法是最大節(jié)約方法和最大似然方法。最大節(jié)約方法(MP,Maximum Parsimony)最大節(jié)約方法是一種優(yōu)化標(biāo)準(zhǔn),這個標(biāo)準(zhǔn)遵循“奧卡姆剃刀原則(Occams razor)”:對數(shù)據(jù)最好的解釋也是最簡單的,而最簡單的所需要的特別假定也最少。在實際應(yīng)用中,MP進化樹是最短的�也是變化最少的進化樹,根據(jù)定義,這個進化樹的平行變化最少,或者說是同形性最低。MP中有一些變量與特征符狀態(tài)改變的可行方向不盡相符(Swofford et al., 1996a)。為了能夠包容取代偏好,MP必須加權(quán);比如,顛換的變換相對于轉(zhuǎn)換(見上文)被加權(quán)。進行加權(quán)的最簡單
54、的方法就是建立一個加權(quán)步驟方陣,在這個方陣?yán)?,?quán)重用速率的倒數(shù),這個速率是由上面描述的ML方法評估得到的。步驟方陣加權(quán)可能會極大地減慢MP的計算速度。如果比對內(nèi)部的位點確實存在這速率差異,那么MP方法就會執(zhí)行得很不好(Huelsenbeck, 1995)。對于這個問題,還沒有什么很好的解決方法。有一個方法,就是對數(shù)據(jù)集進行修改,使得最終分析的數(shù)據(jù)集中只包括那些內(nèi)部差異性很小的位點,這些位點是由前面提到的似然分析方法判斷得到的。更常見的情況是,MP分析只簡單地屏蔽掉那些高度同形的可疑位點(比如說,某些序列比對中的第三個編碼位點)。另外一個方法是根據(jù)引導(dǎo)樹中所能觀察到的位點變化傾向,對位點進行循環(huán)
55、加權(quán)。這個“連續(xù)逼近”方法在PAUP中會自動簡化,但是這個方法的出錯的傾向程度取決于引導(dǎo)樹的出錯程度。MP分析期望能夠產(chǎn)生大量的(有時候是成千上萬個)具有相同分值的進化樹。因為這些進化樹之間的優(yōu)化程度相同,所以只有所有進化樹都嚴(yán)格一致的分組才算是得到數(shù)據(jù)的支持。距離建樹方法和ML建樹方法期望得到一個最簡單的最好的進化樹,是因為這些方法的算法中包括了除法和小數(shù),而MP建樹方法只是計算離散的步長。對于一個給定的數(shù)據(jù)集,存在著比最佳的進化樹差不了多少的ME進化樹或者ML進化樹,如果這些進化樹嚴(yán)格一致的話,很可能會產(chǎn)生同MP一致進化樹多少有些可比性的分解。不幸的是,MP的使用者傳統(tǒng)上都會給出嚴(yán)格一致的
56、進化樹(有時候是進化樹的一致性,其中有一個或者兩個步驟不太好),而ME和ML用戶通常就不會這樣做。現(xiàn)在已經(jīng)開發(fā)了大量的進化樹統(tǒng)計量值來描述一個MP進化樹。除了進化樹的長度外,這些統(tǒng)計量包括各種各樣的比例,用以描述同形的數(shù)量,比如稠度指數(shù),或者一個進化樹中一個特征符改變狀態(tài)的平均次數(shù)(Swofford, 1990)。盡管在MP分析中仍然經(jīng)常報告這些指數(shù),但是已經(jīng)證明這些指數(shù)受到許多人為因素的干擾,比如被分析的分類群的數(shù)量。模擬研究(Huelsenbeck, 1995)已經(jīng)表明,如果從世系分歧開始的序列進化的數(shù)量遠(yuǎn)大于世系分離的分歧數(shù)量(比如,一個進化樹中,終端的樹枝很長,而內(nèi)部節(jié)間的樹枝很短),
57、MP的效果同ME一樣差,比ML還要更差。這種情況會造成“長樹枝效應(yīng)”��長樹枝可能會被人工連接,因為累積的非同源的相似性的數(shù)量超過了因為真實的相關(guān)性而保留的同源相似性的數(shù)量(Swofford et al., 1996a)。在這種情況下,特征符加權(quán)會改善MP的執(zhí)行效果(Huelsenbeck, 1995)。最大似然方法(ML, Maximum Likelihood)ML對系統(tǒng)發(fā)育問題進行了徹底搜查。ML期望能夠搜尋出一種進化模型(包括對進化樹本身進行搜索),使得這個模型所能產(chǎn)生的數(shù)據(jù)與觀察到的數(shù)據(jù)最相似。實際上,ML是從比對的每一個堿基位點衍生出來的。給定一個特定的進
58、化樹和觀察到的全部的堿基頻率,我們可以計算出似然值,具體方法是要計算一個位點遵循一個特定取代過程時所得到的變化模式的概率;似然值就是把在這個特定的取代過程中每一個可能的取代的再現(xiàn)的概率進行加和。所有位點的似然值相乘就得到了整個進化樹的似然值(也就是說,數(shù)據(jù)集的概率給出了進化樹和進化過程)。大家可以想象一下,對于一個特定的進化樹,數(shù)據(jù)集的似然值在某些位點偏低,而另外一些位點偏高。如果進化樹比較好,那么大多數(shù)位點的似然值都會較高,因此整個似然值較高;如果進化樹不太好,似然值就會比較低。如果數(shù)據(jù)集中沒有系統(tǒng)發(fā)育的信號,所有隨機的進化樹的似然值上都會相差無幾。取代模型應(yīng)該得到優(yōu)化,以適應(yīng)觀察到的數(shù)據(jù)的
59、需要。比方說,如果存在著轉(zhuǎn)化的偏好(其明顯表現(xiàn)為有大量的位點只包含嘌呤或者只包含嘧啶),那么,如果計算數(shù)據(jù)的似然值時所采用的模型沒有考慮偏好的話,其效果顯然不如采用考慮了偏好的模型。同樣地,如果有一部分位點確實只包含一種堿基,而另外一部分位點以相同的概率包含各種堿基,那么,如果計算數(shù)據(jù)的似然值時所采用的模型假定所有位點的進化都平等的話,其效果顯然不如采用考慮了位點內(nèi)部的速率差異的模型。對于一個特定的進化樹,改變?nèi)〈鷧?shù)就意味著將改變與之相關(guān)聯(lián)的數(shù)據(jù)集的似然值;因此,在某一個取代模型下,進化樹可以取得很高的似然值,但是,在另一個取代模型下,進化樹所取得的似然值就可能會很低。因為ML要耗費大量的計算機機時,所以對于一個給定的數(shù)據(jù)集,想要在優(yōu)化取代模型和進化樹的同時進行完全的搜索幾乎是不可實現(xiàn)的。值得推薦的是一個很經(jīng)濟的探索式的程序(Adachi and Hasegawa, 1996; Swofford et al., 1996a)。在這一點上,可能最好的節(jié)約時間的方法是前面所說的對取代模型的ML評估(圖9.7)。這個程序可以反復(fù)進行,搜索到較好的ML進化樹,然后重新對參數(shù)進
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度農(nóng)村飲水安全工程承包合同范例4篇
- 二零二五年度無機房電梯安裝與驗收規(guī)范合同2篇
- 2025年度嬰幼兒用品總代理銷售合同4篇
- 2025個人短期無抵押貸款合同模板
- 2025年度新材料研發(fā)中心廠房租賃合同范本11篇
- 二零二五年度充電樁充電設(shè)施建設(shè)進度監(jiān)控合同4篇
- 2025年度文化旅游門面房租賃及推廣合同4篇
- 2025年度電商平臺廣告投放效果分析與優(yōu)化合同4篇
- 2025年度純凈水企業(yè)員工培訓(xùn)服務(wù)合同協(xié)議2篇
- 2025年度個人旅游消費貸款合同范本4篇
- 中華人民共和國保守國家秘密法實施條例培訓(xùn)課件
- 管道坡口技術(shù)培訓(xùn)
- 2024年全國統(tǒng)一高考英語試卷(新課標(biāo)Ⅰ卷)含答案
- 2024年認(rèn)證行業(yè)法律法規(guī)及認(rèn)證基礎(chǔ)知識 CCAA年度確認(rèn) 試題與答案
- 皮膚儲存新技術(shù)及臨床應(yīng)用
- 外研版七年級英語上冊《閱讀理解》專項練習(xí)題(含答案)
- 2024年遼寧石化職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫必考題
- 上海市復(fù)旦大學(xué)附中2024屆高考沖刺模擬數(shù)學(xué)試題含解析
- 幼兒園公開課:大班健康《國王生病了》課件
- 小學(xué)六年級說明文閱讀題與答案大全
- 人教pep小學(xué)六年級上冊英語閱讀理解練習(xí)題大全含答案
評論
0/150
提交評論