版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第五章第五章: 基于特征的系統(tǒng)發(fā)生分析基于特征的系統(tǒng)發(fā)生分析生命科學(xué)與技術(shù)學(xué)院生命科學(xué)與技術(shù)學(xué)院閻閻 愛愛 俠俠 分子系統(tǒng)發(fā)生分析主要分成三個(gè)步驟: (1)分子序列或特征數(shù)據(jù)的分析; (2)系統(tǒng)發(fā)生樹的構(gòu)造; (3)結(jié)果的檢驗(yàn)。 其中,第一步的作用是通過分析,產(chǎn)生距離或特征數(shù)據(jù),為建立系統(tǒng)發(fā)生樹提供依據(jù)。 構(gòu)成系統(tǒng)發(fā)生樹的分子數(shù)據(jù): 特征數(shù)據(jù)特征數(shù)據(jù) 基于特征的系統(tǒng)發(fā)生分析 距離數(shù)據(jù)距離數(shù)據(jù) 基于距離的系統(tǒng)發(fā)生分析 關(guān)于進(jìn)化關(guān)系的結(jié)論的一致性可以看作是對(duì)一棵系統(tǒng)發(fā)生樹的正確性的積極認(rèn)可。5.1 簡(jiǎn)約法簡(jiǎn)約法 在生物學(xué)中,描述按照進(jìn)化途徑中突變事件最少的標(biāo)準(zhǔn)來(lái)優(yōu)先選擇一個(gè)進(jìn)化途徑的過程。 兩個(gè)簡(jiǎn)
2、單假設(shè):(1)突變是罕見事件;(2)一個(gè)模型引發(fā)了越不合理的事件,這個(gè)模型就越不可能是正確的。 因此,因此,突變最少的進(jìn)化關(guān)系突變最少的進(jìn)化關(guān)系就越有可能是物種之間就越有可能是物種之間真實(shí)的真實(shí)的進(jìn)化關(guān)系。進(jìn)化關(guān)系。4個(gè)物種三種可能的無(wú)根樹個(gè)物種三種可能的無(wú)根樹1234132414235.1.1 信息位點(diǎn)和非信息位點(diǎn)信息位點(diǎn)和非信息位點(diǎn)根據(jù)信息內(nèi)容可以分為:信息位點(diǎn)信息位點(diǎn) (informative): 含有信息的位點(diǎn) 信息位點(diǎn)信息位點(diǎn)就是指能由位點(diǎn)產(chǎn)生的突變數(shù)目把一棵樹與其 它樹區(qū)分開來(lái)的位點(diǎn);非信息位點(diǎn)非信息位點(diǎn) (uninformative): 不含有信息的位點(diǎn) 不變位點(diǎn)不變位點(diǎn) (in
3、variant): 屬于非信息位點(diǎn),比較的所有序列都有同樣的核苷酸。即每一棵描述所有序列間進(jìn)化關(guān)系的樹都有相同的突變數(shù)目(0)。1 GG2 GGG 3G 4(1,2)(3,4)1 GG3 GGG 2G 4(1,3)(2,4)1 GG4 GGG 2G 3(1,4)(2,3)序列位點(diǎn)1位點(diǎn)2位點(diǎn)3位點(diǎn)4位點(diǎn)5位點(diǎn)61GGGGGG2GGGAGT3GGATAG4GATCAT 圖圖5.15.1 4 4條同源序列的比對(duì)(每條序列有條同源序列的比對(duì)(每條序列有6 6個(gè)核苷酸)個(gè)核苷酸)6 6個(gè)位點(diǎn)構(gòu)造個(gè)位點(diǎn)構(gòu)造4 4個(gè)物種之間進(jìn)化關(guān)系的可能無(wú)根樹個(gè)物種之間進(jìn)化關(guān)系的可能無(wú)根樹不變位點(diǎn)不變位點(diǎn)序列位點(diǎn)1位點(diǎn)2
4、位點(diǎn)3位點(diǎn)4位點(diǎn)5位點(diǎn)61GGGGGG2GGGAGT3GGATAG4GATCAT1 GG2 GGG 3A 4(1,2)(3,4)1 GG3 GGG 2A 4(1,3)(2,4)1 GG4 AGG 2G 3(1,4)(2,3)不變位點(diǎn)不變位點(diǎn)非信息位點(diǎn)非信息位點(diǎn)序列位點(diǎn)1位點(diǎn)2位點(diǎn)3位點(diǎn)4位點(diǎn)5位點(diǎn)61GGGGGG2GGGAGT3GGATAG4GATCAT不變位點(diǎn)不變位點(diǎn)非信息位點(diǎn)非信息位點(diǎn)非信息位點(diǎn)非信息位點(diǎn)1 GG2 GAA 3T 4(1,2)(3,4)1 GG3 AGG 2T 4(1,3)(2,4)(1,4)(2,3)1 GG4 TGG 2A 3序列位點(diǎn)1位點(diǎn)2位點(diǎn)3位點(diǎn)4位點(diǎn)5位點(diǎn)61G
5、GGGGG2GGGAGT3GGATAG4GATCAT不變位點(diǎn)不變位點(diǎn)非信息位點(diǎn)非信息位點(diǎn)非信息位點(diǎn)非信息位點(diǎn)非信息位點(diǎn)非信息位點(diǎn)1 GG2 ATT 3C 4(1,2)(3,4)1 GG3 TAA 2C 4(1,3)(2,4)1 GG4 CAA 2T 3(1,4)(2,3)序列位點(diǎn)1位點(diǎn)2位點(diǎn)3位點(diǎn)4位點(diǎn)5位點(diǎn)61GGGGGG2GGGAGT3GGATAG4GATCAT不變位點(diǎn)不變位點(diǎn)非信息位點(diǎn)非信息位點(diǎn)非信息位點(diǎn)非信息位點(diǎn) 非信息位點(diǎn)非信息位點(diǎn)信息位點(diǎn)信息位點(diǎn)1 GG2 GAA 3A 4(1,2)(3,4)1 GG3 AGG 2A 4(1,3)(2,4)1 GG4 AGG 2A 3(1,4)(2
6、,3)序列位點(diǎn)1位點(diǎn)2位點(diǎn)3位點(diǎn)4位點(diǎn)5位點(diǎn)61GGGGGG2GGGAGT3GGATAG4GATCAT不變位點(diǎn)不變位點(diǎn)非信息位點(diǎn)非信息位點(diǎn)非信息位點(diǎn)非信息位點(diǎn) 非信息位點(diǎn)非信息位點(diǎn)信息位點(diǎn)信息位點(diǎn)信息位點(diǎn)信息位點(diǎn)1 GG2 TGG 3T 4(1,2)(3,4)1 GG4 TGT 2G 3(1,4)(2,3)1 GG3 GGT 2T 4(1,3)(2,4)T 信息位點(diǎn)的共同特征:信息位點(diǎn)的共同特征: 如果一個(gè)位點(diǎn)是信息位點(diǎn)信息位點(diǎn),那么它(1)至少有兩種不同的核至少有兩種不同的核苷酸苷酸,并且(2)這些核苷酸至少出現(xiàn)兩次。這些核苷酸至少出現(xiàn)兩次。5.1.2 無(wú)權(quán)簡(jiǎn)約法無(wú)權(quán)簡(jiǎn)約法 最簡(jiǎn)約樹最簡(jiǎn)約樹
7、:考慮每個(gè)信息位點(diǎn)所有可能的樹,分別給每棵樹進(jìn)行打分,統(tǒng)計(jì)每個(gè)位點(diǎn)的核苷酸最小替換數(shù)目。所有簡(jiǎn)約信息位點(diǎn)簡(jiǎn)約信息位點(diǎn)最小核苷酸替換數(shù)的總和最小的樹記為最簡(jiǎn)最簡(jiǎn)約樹約樹。 4條序列比對(duì)的例子可能是最簡(jiǎn)單的例子: 在只包含4條序列的分析中,每個(gè)信息位點(diǎn)只能支持 3 棵可能的樹中的1棵,含有最多信息位點(diǎn)的樹就是最簡(jiǎn)約樹最簡(jiǎn)約樹。 5 5條或更多序列數(shù)據(jù)集的計(jì)算復(fù)雜得多。條或更多序列數(shù)據(jù)集的計(jì)算復(fù)雜得多。原因在于: 隨序列數(shù)增加,無(wú)根樹數(shù)目也增加; 每個(gè)信息位點(diǎn)可能有多棵樹,整個(gè)數(shù)據(jù)集的最大簡(jiǎn)約樹不一定是含最多信息位點(diǎn)的樹; 每棵樹的核苷酸替換數(shù)目的計(jì)算更加困難。 n個(gè)物種可能得到無(wú)根系統(tǒng)發(fā)生樹 (N
8、u) 數(shù)目: Nu=(2n-5)!/2n-3(n-3)!下圖是描述5條不同序列之間關(guān)系的15棵可能無(wú)根樹中的3棵。這3棵無(wú)根樹有相同的簡(jiǎn)約度,它們的最小替換數(shù)都是它們的最小替換數(shù)都是2 2。由簡(jiǎn)約規(guī)則,推斷出的祖先的候選核苷酸分別列在每個(gè)內(nèi)部節(jié)點(diǎn)的旁邊。T512346789GGAAGA(GA)(GAT)(a)A123456789GGTAGA (GT) (GTA)(b)123456789GTGAAGGA(GA)( c )計(jì)算祖先核苷酸位置的算法:計(jì)算祖先核苷酸位置的算法:如果一個(gè)內(nèi)部節(jié)點(diǎn)的兩個(gè)直接后代節(jié)點(diǎn)上的核苷酸的交集非空,那么這個(gè)節(jié)點(diǎn)的最可能的候選核苷酸集就是這個(gè)交集; 否則為它的兩個(gè)后代節(jié)
9、點(diǎn)上的核苷酸集的并集。 上述方法只適用于信息位點(diǎn),不適用于非信息位點(diǎn)。 非信息位點(diǎn)的最小替換數(shù)非信息位點(diǎn)的最小替換數(shù):外部節(jié)點(diǎn)上不同核苷酸數(shù)目減去1 (與樹的拓?fù)浣Y(jié)構(gòu)無(wú)關(guān)) 例如:例如: 5條序列的比對(duì)中,有一個(gè)位置上的核苷酸是 G、G、A、G和T,則最最小替換數(shù)小替換數(shù)就是 3-1=2 。 非信息位點(diǎn)對(duì)所有可能的樹的貢獻(xiàn)都是等價(jià)的,在簡(jiǎn)約分析中往往被完全排除。 樹的長(zhǎng)度樹的長(zhǎng)度(length):當(dāng)一棵樹在信息位點(diǎn)和非信息位點(diǎn)的替換數(shù)的總和是一個(gè)確定的數(shù)值時(shí),這個(gè)數(shù)值就是指樹樹的長(zhǎng)度的長(zhǎng)度。5.1.3 加權(quán)簡(jiǎn)約法加權(quán)簡(jiǎn)約法 賦值的必要性: “突變是罕見事件” 將所有突變看成是等價(jià)的,但之前的學(xué)
10、習(xí)已經(jīng)告訴我們插入和刪除比替換可能性小;長(zhǎng)插入和長(zhǎng)刪除比短插入和短刪除少見;轉(zhuǎn)換概率大于顛換;功能相關(guān)的突變比無(wú)關(guān)的突變發(fā)生的概率小 因此,我們給各種突變賦予相對(duì)概率值,在簡(jiǎn)約算法中可將這些值轉(zhuǎn)化為權(quán)值權(quán)值。我們無(wú)法得到一組適用于所有數(shù)據(jù)集的權(quán)值,原因有三:(1)一些序列比其他序列更容易插入和刪除;(2)即使是同源基因,對(duì)功能的重要性也因不同的基因、 不同的物種而有所差別;(3)不同的基因和物種有不同的替換偏好。因此,最佳的權(quán)值最佳的權(quán)值通常來(lái)自對(duì)實(shí)驗(yàn)數(shù)據(jù)集的分析,可獲得的最佳實(shí)驗(yàn)數(shù)據(jù)集是實(shí)際分析過的數(shù)據(jù)集。例如:例如:假如轉(zhuǎn)換出現(xiàn)頻率為顛換的3倍,那么對(duì)同一序列集的簡(jiǎn)約分析簡(jiǎn)約分析就可以給所
11、有的轉(zhuǎn)換替換賦權(quán)值權(quán)值 1,給所有的顛換替換賦權(quán)值權(quán)值 0.33。5.2 推斷出的祖先序列推斷出的祖先序列 簡(jiǎn)約法簡(jiǎn)約法最值得注意的副產(chǎn)品是分析過程中產(chǎn)生的推斷出的推斷出的祖先序列祖先序列,即使這些祖先可能在數(shù)億年前就已經(jīng)滅絕。 推斷出的樹中的內(nèi)部分支的信息位點(diǎn)稱作共源性狀共源性狀 (synapomorphies,幾個(gè)物種共有的遺傳狀態(tài))。 其他信息位點(diǎn)稱作同形性狀同形性狀(homoplasies,),它是通過趨同進(jìn)化、平行進(jìn)化和逆轉(zhuǎn)進(jìn)化,由物種獨(dú)立發(fā)展出來(lái)的特征,而不是從共同祖先遺傳得到的。哺乳動(dòng)物嚙齒動(dòng)物 例如同形性狀同形性狀共源性狀共源性狀 應(yīng)用 進(jìn)化論對(duì)創(chuàng)世論的反駁 利用簡(jiǎn)約分析推斷出
12、祖先,不僅填補(bǔ)了分子進(jìn)化研究中空白,還能從現(xiàn)存后代序列中推斷出中間狀態(tài);5.3 快速搜索策略快速搜索策略 即使信息位點(diǎn)的數(shù)目較少,用未改進(jìn)的簡(jiǎn)約法對(duì)較多序列的比對(duì)進(jìn)行手工計(jì)算也是不現(xiàn)實(shí)。分析10條序列需要考慮200萬(wàn)棵樹。 由于數(shù)據(jù)集十分龐大,計(jì)算困難,因此研究出一些改進(jìn)的算法,不用考慮所有可能的樹就能夠方便可靠地確定最簡(jiǎn)最簡(jiǎn)約樹約樹。 分支約束法分支約束法 啟發(fā)式搜索啟發(fā)式搜索5.3.1 分支約束法分支約束法分支約束法分支約束法(Branch and Bound Method) 是在一個(gè)復(fù)雜的空間中進(jìn)行搜索的通用技術(shù),搜索空間以從一個(gè)分層樹的根節(jié)點(diǎn)至葉節(jié)點(diǎn)的一系列路徑表示。步驟:步驟: 為最
13、簡(jiǎn)約樹的長(zhǎng)度長(zhǎng)度確定一個(gè)上限 L。 L的值可以是隨機(jī)選擇的任何一棵描述被研究物種之間關(guān)系的樹的長(zhǎng)度。但是如果用近似最簡(jiǎn)約的樹(例如UPGMA產(chǎn)生的樹)來(lái)建立上限更有效。 樹的生長(zhǎng)過程,即在描述部分序列之間關(guān)系的樹中每次增加一個(gè)分支。這個(gè)方法的原理原理是:由數(shù)據(jù)子集得到的任何一棵樹,如果它的替換數(shù)替換數(shù)大于L,那么當(dāng)剩下的序列加入后,總的分支長(zhǎng)度必定變得更大,那么原先的長(zhǎng)度為L(zhǎng)的樹為最簡(jiǎn)約樹最簡(jiǎn)約樹。如果在分析過程中,如果發(fā)現(xiàn)比初始建立的上限為L(zhǎng)的樹替換數(shù)更少的樹,那么L的值將隨之修正,這樣余下的數(shù)據(jù)集的分析將更為有效。分支約束法搜索最簡(jiǎn)約樹的過程分支約束法搜索最簡(jiǎn)約樹的過程 表示 3個(gè)物種 (
14、A, B, C) 之間關(guān)系的無(wú)根樹只有1棵 (A1); 用這棵樹作為起始點(diǎn),將第4個(gè)物種 (D) 插入到樹A1中,得到四個(gè)物種的 3 種無(wú)根樹 (B1, B2,B3); 如果插入后得到的樹的長(zhǎng)度大于原來(lái)的樹,例如 B3,舍棄該樹。 繼續(xù)插入第5個(gè)物種,重復(fù)上述步驟,直到所有待分析物種都被插入到樹中。 下圖是用分支約束法搜索簡(jiǎn)約樹的過程BACA1STOPABCDB3ABCDB2ABCDB1ABCDEABCDEABCDEABCD EABCDEABCDEABCDEABCDEABCDEABCDEC2.1C2.2C2.3C2.4C2.5STOPSTOPSTOPSTOPSTOPC1.1C1.2C1.3C1
15、.4C1.5圖圖5.4 用分支約束法搜索最簡(jiǎn)約樹的過程用分支約束法搜索最簡(jiǎn)約樹的過程分支約束法快速搜索策略的優(yōu)缺點(diǎn)分支約束法快速搜索策略的優(yōu)缺點(diǎn)優(yōu)點(diǎn)優(yōu)點(diǎn): 分支約束法分支約束法保證在分析完成時(shí)沒有遺漏更簡(jiǎn)約的樹,具有比窮舉法搜索快幾個(gè)數(shù)量級(jí)的優(yōu)點(diǎn);能分析多達(dá)20條序列。缺點(diǎn):缺點(diǎn): 對(duì)于多于11021可能的無(wú)根樹的分析,計(jì)算量還是太大。5.3.2 啟發(fā)式搜索啟發(fā)式搜索 對(duì)大于20條序列的多序列進(jìn)行比對(duì)必須采用近似的更為有效的算法。 啟發(fā)式方法的假設(shè)啟發(fā)式方法的假設(shè):各個(gè)可能的樹并不總是相互獨(dú)立的。 最簡(jiǎn)約數(shù)和次簡(jiǎn)約數(shù)拓?fù)浣Y(jié)構(gòu)相似,因此首先構(gòu)建一棵初始樹,從它開始尋找更短的樹。 因此啟發(fā)式搜索啟
16、發(fā)式搜索通過子樹分支交換,把它們嫁接到該步分析中找到的最好的那棵樹的其他位置上,從而產(chǎn)生一棵拓?fù)浣Y(jié)構(gòu)和初始樹相似的樹。 同分支約束法一樣,如果初始樹很接近于最簡(jiǎn)約樹(例如UPGMA產(chǎn)生的樹),啟發(fā)式搜索會(huì)更有效。圖圖5.5 分支交換分支交換再接再接12345 67剪除剪除1245673 第一輪分析中,由初始樹產(chǎn)生出上百棵新樹,其中所有比初始樹短的新樹都在第二輪分析中被剪枝剪枝和嫁接嫁接。不斷重復(fù)這個(gè)過程,直到某一輪通過剪枝剪枝和嫁接嫁接無(wú)法產(chǎn)生與前一輪等長(zhǎng)或更短的樹。 大量序列比對(duì)的可能的無(wú)根樹的數(shù)目是一個(gè)天文數(shù)字,這種比對(duì)深度對(duì)計(jì)算造成了很大困難,把多個(gè)序列比對(duì)分成幾個(gè)較少序列的比對(duì)可以較好
17、的解決這一問題。例如:同源哺乳動(dòng)物序列靈長(zhǎng)類序列嚙齒類序列部分偶蹄、兔類、靈長(zhǎng)、嚙齒探知樹中靈長(zhǎng)類所在樹干的末段之間的關(guān)系確定樹中嚙齒類所在樹干的末段之間的關(guān)系檢驗(yàn)更早的分支、更具體的靈長(zhǎng)類樹干和嚙齒類樹干的最后位置5.4 一致樹一致樹 簡(jiǎn)約法簡(jiǎn)約法產(chǎn)生多棵等價(jià)的簡(jiǎn)約數(shù)是很常見的。 此時(shí)最簡(jiǎn)單的方法是用一個(gè)一致樹一致樹 (consensus tree)作為代表來(lái)概括所有等價(jià)的簡(jiǎn)約樹。方法如下: (1)在所有樹中都一致的分支點(diǎn)在一致樹一致樹中表示成二叉分支點(diǎn)。 (2)不一致的分支點(diǎn)蛻變成連接三個(gè)或更多后代分支的內(nèi)部節(jié)點(diǎn)。嚴(yán)格一致樹嚴(yán)格一致樹 (strict consensus tree):只要有
18、一棵簡(jiǎn)約樹與其他不同,對(duì)所有不一致的分支點(diǎn)都進(jìn)行相同的處理。過半截定一致過半截定一致 (50% majority-rule consensus) :只要有至少一半的樹符合條件,這個(gè)內(nèi)部節(jié)點(diǎn)在一致樹中就可以表示成二叉節(jié)點(diǎn),而少于一半的樹符合條件的內(nèi)部節(jié)點(diǎn)表示為多叉節(jié)點(diǎn)。不一致性閾值不一致性閾值是一個(gè)參數(shù),可以取0 100%的任意值。由一個(gè)數(shù)據(jù)集推斷出的由一個(gè)數(shù)據(jù)集推斷出的3 3棵樹棵樹7712345612345612345671234567過半截定一致原則過半截定一致原則1234567嚴(yán)格一致原則嚴(yán)格一致原則5.5 樹的置信度樹的置信度 所有的系統(tǒng)發(fā)生樹所有的系統(tǒng)發(fā)生樹都是關(guān)于組成數(shù)據(jù)集的序列的
19、進(jìn)化歷史的假設(shè)。 系統(tǒng)發(fā)生樹的可靠性? 問題:?jiǎn)栴}: (1 1)整棵樹和它的組成部分(分支)的置信度置信度是多少? (2 2)這樣得到正確的樹正確的樹的可能性比隨機(jī)選出一棵是正確的樹的可能性大多少? 解決方法:解決方法:自舉檢驗(yàn)解決問題(1 1)參數(shù)檢驗(yàn)解決問題(2 2)5.5.1 自舉檢驗(yàn)自舉檢驗(yàn) (bootstrap test) 自舉檢驗(yàn)自舉檢驗(yàn)是一種重采樣技術(shù),能粗略地量化這些置信度水平。 自舉檢驗(yàn)的基本方法基本方法是:(1)從原數(shù)據(jù)集中抽?。ㄍ瑫r(shí)替換)部分?jǐn)?shù)據(jù)組成新的數(shù)據(jù)集。(2)用這個(gè)新的數(shù)據(jù)集 推斷 系統(tǒng)發(fā)生樹。 重復(fù)上述過程,產(chǎn)生成百上千的重采樣數(shù)據(jù)集,并同時(shí)生成對(duì)應(yīng)的自舉樹,進(jìn)
20、而檢驗(yàn)自舉樹對(duì)最終系統(tǒng)發(fā)生樹各個(gè)分支的支持率。在各個(gè)自舉樹中都有出現(xiàn)或大量出現(xiàn)的那些部分將具有較高的在各個(gè)自舉樹中都有出現(xiàn)或大量出現(xiàn)的那些部分將具有較高的置信度。置信度。產(chǎn)生相同分組的自舉樹的數(shù)目數(shù)目常常標(biāo)注在系統(tǒng)發(fā)生樹相應(yīng)節(jié)點(diǎn)的旁邊,表示樹中每個(gè)部分的相對(duì)置信度相對(duì)置信度。 系統(tǒng)發(fā)生樹的自舉檢驗(yàn)系統(tǒng)發(fā)生樹的自舉檢驗(yàn)序列位置推斷樹自舉樹1自舉樹2自舉樹3(a)(b)自舉樹(c) 為為3個(gè)重采樣數(shù)據(jù)集的一致樹個(gè)重采樣數(shù)據(jù)集的一致樹7567G G G G G G G A A AG G G A G G G A A AG G G T A A A A A TG A A C A A A G G TG T
21、T C A A A A A T12245557710G G G G G G A T T TG G G A T T A T T TA A A T G G A C C CT T T C T T G T T TT T T C T T A T T T3334667888G G G G G G G C C CG G G G G G T C C CG G A A A A G A A AG G T A A A T A A AG G T A A A T C C C1135556999GG G G G G A T C AGG G A G T A T C AGG A T A G A C A TGA T C A T
22、 G T A TGT T C A T A T C T123456789105.5.2 參數(shù)檢驗(yàn)參數(shù)檢驗(yàn) 是否一棵有 10,000 個(gè)替換的樹比另一棵有10,001個(gè)替換的樹更有可能描述序列間真實(shí)進(jìn)化關(guān)系? 比起先前提出的另一棵描述物種間進(jìn)化關(guān)系的樹,最簡(jiǎn)約最簡(jiǎn)約樹樹是真實(shí)樹真實(shí)樹的概率會(huì)大多少? H. Kishino 和 M. Hasegawa 假設(shè)假設(shè)比對(duì)中的各個(gè)信息位點(diǎn)彼此獨(dú)立而且等價(jià),并用兩棵樹的最小替換數(shù)之差 D作為檢驗(yàn)統(tǒng)計(jì)量檢驗(yàn)統(tǒng)計(jì)量。分別考慮每一個(gè)信息位點(diǎn),按下式計(jì)算反映 D 變化程度的 V 值: 其中 n 是信息位點(diǎn)的數(shù)目,Di 為兩棵樹中各個(gè)信息位點(diǎn)替換數(shù)的差值。n1個(gè)自由度的
23、 t 檢驗(yàn)檢驗(yàn)可以用來(lái)檢驗(yàn)空假設(shè),即兩棵樹的替換數(shù)相等的情況:5.6 各種系統(tǒng)發(fā)生分析方法的比較各種系統(tǒng)發(fā)生分析方法的比較 無(wú)論是基于距離的系統(tǒng)發(fā)生樹重建方法,還是基于特征的系統(tǒng)發(fā)生樹重建方法,都不能保證一定能夠得到一棵描述比對(duì)序列進(jìn)化歷史的真實(shí)的樹真實(shí)的樹。 一般的,對(duì)于某個(gè)數(shù)據(jù)集,如果用一種方法能推斷出正確的系統(tǒng)發(fā)生關(guān)系,那么用其他流行的方法也能得到好的結(jié)果。但是,如果模擬數(shù)據(jù)集中序列變化很大,或不同的分支變化速率不同,則沒有一種方法十分可靠。 總規(guī)則:總規(guī)則:如果用截然不同的距離矩陣法和簡(jiǎn)約法分析一個(gè)數(shù)據(jù)集能夠產(chǎn)生相似的系統(tǒng)發(fā)生樹相似的系統(tǒng)發(fā)生樹,則這棵樹相當(dāng)可靠。5.7 分子系統(tǒng)發(fā)生分
24、析分子系統(tǒng)發(fā)生分析5.7.1 生命之樹生命之樹 序列分析序列分析提供了關(guān)于進(jìn)化關(guān)系的新信息,其中最具影響力的是我們對(duì)于生命分化本質(zhì)的理解。 過去30年中涌現(xiàn)了無(wú)數(shù)用序列分析解開進(jìn)化關(guān)系之謎的有趣而重要的例子。這樣的研究往往對(duì)醫(yī)學(xué)、農(nóng)業(yè)和自然保護(hù)有重要的意義。 例如:對(duì)一種傳染病治療有效的藥物可能對(duì)其他相關(guān)生物體引起的傳染病也有效;抗病因子通常容易在近緣關(guān)系的物種之間進(jìn)行傳遞;一個(gè)生物體種群是否足以成為一個(gè)獨(dú)立的物種而值得特別保護(hù)。5.7.1 生命之樹生命之樹 很多年前,生物學(xué)家將所有生命分成植物和動(dòng)物這兩個(gè)主要的類。 隨著越來(lái)越多生物體的發(fā)現(xiàn),后來(lái)在細(xì)胞結(jié)構(gòu)的基礎(chǔ)上,人們把生物體分成了原核生物
25、和真核生物。 再后來(lái),人們又提出了一些生命的基本分類,例如Whittaker的五界學(xué)說(shuō)(原核生物、原生生物、植物、真菌和動(dòng)物)。 20世紀(jì)70年代后期開始,DNA和RNA序列被用來(lái)解開物種之間進(jìn)化歷史的主線。5.7.1 生命之樹生命之樹真核生物真核生物真細(xì)菌真細(xì)菌古細(xì)菌古細(xì)菌廣域古生界嗜泉古生界內(nèi)阿米巴蟲粘液菌動(dòng)物真菌植物纖毛蟲鞭毛蟲毛滴蟲雙滴蟲小孢子蟲綠色無(wú)硫細(xì)菌革蘭氏陽(yáng)性細(xì)菌嗜熱菌黃質(zhì)菌藍(lán)細(xì)菌紫色細(xì)菌圖圖5.8 無(wú)根無(wú)根“生命之樹生命之樹”用簡(jiǎn)約法簡(jiǎn)約法和距離矩陣法距離矩陣法處理 16SrRNA 基因序列數(shù)據(jù),得到了無(wú)根無(wú)根“生生命之樹命之樹”。3個(gè)主要分支分別是:真核生物、真細(xì)菌和古細(xì)菌
26、。5.7.1 生命之樹生命之樹 古細(xì)菌和細(xì)菌,雖然由于它們都沒有內(nèi)膜而都被認(rèn)為是原核生物,但是它們?cè)谶z傳上的差異程度就像細(xì)菌和真核一樣。 它們?cè)诒硇头矫娴倪M(jìn)化并不明顯,化石記錄也毫無(wú)幫助。只有把它們的核苷酸序列進(jìn)行比較,才可以看出明顯差別。 其他基因的序列,包括5S核糖體RNA、大核糖體RNA和編碼一些很重要的蛋白質(zhì)的基因,都強(qiáng)烈支持該觀點(diǎn)這三個(gè)主要的進(jìn)化類的劃分法是最好的。5.7 分子系統(tǒng)發(fā)生分析分子系統(tǒng)發(fā)生分析5.6.2 人類起源人類起源 用DNA序列來(lái)研究進(jìn)化關(guān)系的另一個(gè)領(lǐng)域是人類進(jìn)化人類進(jìn)化。 與人類在大小、身體形狀、面部特征、皮膚顏色等方面的的顯著差異性相比,基因上的差異相對(duì)較小。線粒體DNA序列的分析表明兩種人群之間序列的平均差異約為0.33%,而其他的靈長(zhǎng)類動(dòng)物則表現(xiàn)出更大的差異性。例如,猩猩的兩個(gè)亞種之間的差異為5%。這表明所有的人種之間的親緣關(guān)系很近。盡管如此,不同的人群之間確實(shí)存在一些基因上的差異。5.7 分子系統(tǒng)發(fā)生分析分子系統(tǒng)發(fā)生分析 “現(xiàn)代人走出非洲理論現(xiàn)代人走出非洲理論” 在非洲的人群之間的差異比居住在不同大陸的人群之間的差異還要大,因此很多專家認(rèn)為人類起源于非洲,并在非洲進(jìn)行了早期的進(jìn)化分歧。當(dāng)不同基因的人群在非洲進(jìn)化后,一小部分人可能遷移出非洲并且發(fā)展成為其他的人群。 來(lái)自線粒體DNA 和 Y染色體 (雄性染色體)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024至2030年中國(guó)不銹鋼雙扣淋浴軟管數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2024年中國(guó)高級(jí)右斗式子連盤圍棋市場(chǎng)調(diào)查研究報(bào)告
- 2024年物流企業(yè)車輛運(yùn)輸服務(wù)及信息化管理合同3篇
- 2024年中國(guó)自動(dòng)消防系統(tǒng)產(chǎn)品市場(chǎng)調(diào)查研究報(bào)告
- 2024年中國(guó)桑蠶干繭市場(chǎng)調(diào)查研究報(bào)告
- 2024至2030年椰油丙基甜菜堿項(xiàng)目投資價(jià)值分析報(bào)告
- 2024至2030年板式玻璃茶幾項(xiàng)目投資價(jià)值分析報(bào)告
- 2024年特色小吃街?jǐn)傊鞴蛡蚝贤0?篇
- 2025至2031年中國(guó)黑色金屬產(chǎn)品行業(yè)投資前景及策略咨詢研究報(bào)告
- 2024年特定地塊房產(chǎn)開發(fā)項(xiàng)目協(xié)議模板版
- 山東省煙臺(tái)市2025屆高三上學(xué)期期末學(xué)業(yè)水平診斷政治試卷(含答案)
- 2025北京石景山初二(上)期末數(shù)學(xué)真題試卷(含答案解析)
- 中考語(yǔ)文真題專題復(fù)習(xí) 小說(shuō)閱讀(第01期)(解析版)
- 《陸上風(fēng)電場(chǎng)工程概算定額》NBT 31010-2019
- 魯科版物理五四制八年級(jí)下冊(cè)全冊(cè)課件
- ISO27001-2022信息安全管理體系管理手冊(cè)
- 經(jīng)濟(jì)困難學(xué)生家庭走訪情況登記表
- 《新中國(guó)獨(dú)立自主的外交》 教學(xué)課件
- 簡(jiǎn)支箱梁橋畢業(yè)設(shè)計(jì)
- 監(jiān)理安全安全通知書(春節(jié)假期)
- 啟明星辰天鏡網(wǎng)站安全監(jiān)測(cè)系統(tǒng)用戶手冊(cè)
評(píng)論
0/150
提交評(píng)論