




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、分子(fnz)系統(tǒng)發(fā)生學(xué):理論和實(shí)踐文摘:分子進(jìn)化是重要的解決各種生物物種或基因之間的關(guān)系等問題的起源,發(fā)展和物種的數(shù)目變化和遷移模式。測序技術(shù)(jsh)的進(jìn)步了系統(tǒng)發(fā)育分析到一個(gè)新的高度。生物進(jìn)化已經(jīng)滲透到幾乎每一個(gè)分支,過多的分支以及龐雜的分析軟件包讓生物學(xué)家犯了愁。在這里,我們審查系統(tǒng)進(jìn)化分析的主要方法,包括直系、距離、可能性和貝葉斯方法。我們討論他們的優(yōu)勢和劣勢,為其使用提供指導(dǎo)。出現(xiàn)DNA測序技術(shù)之前,系統(tǒng)發(fā)育樹幾乎只用于描述(mio sh)在分類學(xué)和物種分類之間的關(guān)系。今天,生物學(xué)的分子測序用于幾乎所有進(jìn)化分支。除了代表的關(guān)系,基因在物種生命之樹上的發(fā)展史是用來描述paralogu
2、es之間的關(guān)系在一個(gè)基因家族,歷史的人口,病原體的進(jìn)化- ary和流行病學(xué)動(dòng)態(tài),體細(xì)胞的系譜關(guān)系在不同的點(diǎn)子和癌癥發(fā)展和語言的進(jìn)化。最近,分子系統(tǒng)發(fā)生學(xué)基因組compari子基因成為一個(gè)不可或缺的工具。在這種情況下,它使用:將宏基因組序列,識(shí)別基因,監(jiān)管元素和新測序的基因組的非編碼rna;解釋現(xiàn)代和古代個(gè)人基因組;重建祖先基因組。在其他應(yīng)用程序中,發(fā)展史本身可能不是直接利益但不過必須占在分析。這種“樹思維”改變了許多生物學(xué)的分支。在群體遺傳學(xué),開發(fā)創(chuàng)新中合并理論和廣泛的可用性的多個(gè)個(gè)體的基因序列相同物種的發(fā)展促使genealogy-based推理方法,具有轉(zhuǎn)速- olutionized現(xiàn)代計(jì)算
3、人口麝貓- ics。這里,基因樹描述序列樣本的家譜是高度不確定的;他們不是直接興趣但是包含有價(jià)值的公司美信模型中的參數(shù)。樹想也結(jié)下了深厚的人口遺傳學(xué)和合成系統(tǒng)發(fā)生學(xué),形成統(tǒng)計(jì)進(jìn)化地理學(xué)的新興領(lǐng)域。在物種樹methods2基因樹的單個(gè)位點(diǎn)可能不是直接興趣和可能與物種樹相沖突。在未被注意的平均基因樹下多品種聯(lián)合模型,這些方法推斷物種樹盡管基因樹的不確定性。在比較分析,推理之間的關(guān)聯(lián)特征(例如,睪丸大小和性濫交)使用現(xiàn)代物種的觀測特征應(yīng)該考慮物種發(fā)展史避免曲解歷史事件的因果關(guān)系。推理的自適應(yīng)蛋白質(zhì)進(jìn)化發(fā)展史是用來跟蹤同義和nonsynonymous substitu沿著樹枝,不確定加速氨基酸變化的情
4、況下,即使發(fā)展史不直接利益。如今,每一個(gè)生物學(xué)家需要了解系統(tǒng)發(fā)育推斷。然而,一個(gè)試驗(yàn)心理生物學(xué)家不熟悉的領(lǐng)域,許多分析方法和軟件的存在似乎令人生畏。在本文中,我們描述當(dāng)前的套件phylo方法遺傳推斷使用序列數(shù)據(jù)。我們還討論各種統(tǒng)計(jì)標(biāo)準(zhǔn),有助于選擇最適合一個(gè)特定的問題的方法和數(shù)據(jù)類型。下一代測序(上天)技術(shù)的認(rèn)識(shí)產(chǎn)生巨大的數(shù)據(jù)集。分析這樣的數(shù)據(jù)集,減少系統(tǒng)誤差,提高模型的魯棒性侵犯更重要如此更比減少隨機(jī)抽樣錯(cuò)誤。我們討論幾個(gè)問題在大型數(shù)據(jù)集的分析,例如哲學(xué)樹一個(gè)種系發(fā)生是系譜歷史分支長河中不知道的參數(shù)。例如,左圖的種系發(fā)生在t0t1時(shí)間點(diǎn)內(nèi)的兩個(gè)特殊事件。分支的長度(b0,b1,b2,b3)展示
5、的是在整個(gè)進(jìn)化分支中每兩個(gè)位點(diǎn)間預(yù)期的替換單位和測量值總和的類型。如果替換數(shù)據(jù)長時(shí)間保持恒定,我們稱之為分子保留時(shí)鐘。這棵樹將會(huì)有一個(gè)超度量的根,意思是從樹尖到樹根的距離是相等的。在樹根上的物種代表年齡是祖先的節(jié)點(diǎn)因此包含長長分支的參數(shù)。樹根和分子鐘傲慢的程序分子鐘根。對(duì)于親緣關(guān)系較近的物種來說,假設(shè)這個(gè)時(shí)鐘不傲慢。分子生物學(xué)家分析,不能出現(xiàn)這種結(jié)果。如果分支樹上的每一個(gè)分支允許有一個(gè)獨(dú)立(dl)的進(jìn)化數(shù)據(jù),通常用的模型和方法是不能識(shí)別根上的特定位點(diǎn)的,所以只有樹上的非根除能被識(shí)別推斷出來。一個(gè)沒有根的S物種(wzhng)的樹應(yīng)該有2S-3的距離。據(jù)分析通常用的策略是包括物種以外的樹根,眾所周
6、知的親緣關(guān)系遠(yuǎn)的物種。盡管推斷樹對(duì)于(duy)所有的物種都是無根的,但在整個(gè)分支的特定位點(diǎn)仍然被相信有根的存在來領(lǐng)導(dǎo)外源物種所以物種內(nèi)是有根的。這個(gè)策略被稱為組織外的根。一個(gè)系統(tǒng)進(jìn)化樹包括節(jié)點(diǎn)和分支,每一個(gè)分支 代表一個(gè)遺傳宗譜的存在,每一個(gè)節(jié)點(diǎn)代表一個(gè)新的遺傳宗譜的出現(xiàn)。如果這個(gè)樹代表一群物種的關(guān)系那么這個(gè)節(jié)點(diǎn)代表嗲表五中的形成,在別的context中關(guān)系可能就不是這樣了。比如在一個(gè)人類的基因序列樹中,一個(gè)節(jié)點(diǎn)就會(huì)代表一個(gè)個(gè)體的出生,然而在一個(gè)paralogous基因樹中,一個(gè)節(jié)點(diǎn)就會(huì)代表一個(gè)重復(fù)基因的出現(xiàn)。系統(tǒng)進(jìn)化數(shù)不是直接發(fā)現(xiàn)的,它是由基因序列或是其他數(shù)據(jù)推出來的。本次系統(tǒng)進(jìn)化樹的重建時(shí)
7、基于距離和character倆方面。在距離矩陣的方法中,沒對(duì)序列的距離被估計(jì),之后的結(jié)果用于樹的重建。 基于性狀的方法包括maximum parsimony, maximum likelihood and Bayesian inference 方法。這些方法同時(shí)比對(duì)所有的序列,如果有一個(gè)位點(diǎn)相同就給這個(gè)樹加一分。這個(gè)樹的分?jǐn)?shù)是 maximum parsi-mony(最大值過度吝嗇)方法里邊的最小的改變值,是 maximum likelihood 方法里的可能值的log值,是Bayesian inference方法里的posterior probability值。在理論上,用分?jǐn)?shù)最高的樹和所有可
8、能的樹做對(duì)比,而實(shí)際上,因?yàn)橛泻芏嗫赡艿臉洌热鐝氐椎挠?jì)算不實(shí)一個(gè)好的計(jì)算方法除非是一個(gè)曉得數(shù)據(jù),所以我們用了算法來得到啟發(fā)式的樹,經(jīng)常用一種快速的算法來得到一個(gè)starting tree的樹,之后 再用次數(shù)來重新排列以計(jì)算次數(shù)的分?jǐn)?shù)。一個(gè)啟發(fā)式的樹不能保證是一個(gè)最好的樹在一定的標(biāo)準(zhǔn)下,但是它使得大數(shù)據(jù)的反洗成為可能。為了描述大數(shù)據(jù),這三種方法被用來替換模型之后模型構(gòu)建。但是maximum parsimon。失敗了。兩個(gè)序列的距離用 Markov chain模型中的核酸替換率來計(jì)算。幾種通用的模型在FIG.1中北介紹。JC69 模型認(rèn)為倆個(gè)核酸的替換率是相等的。 K80模型認(rèn)為在 transi
9、tions和 transversions.之間有不同的替換率。倆種方法都預(yù)測了四個(gè)核苷酸的相同序列,而在HKY85和GTR模型中,這個(gè)序列的預(yù)測就不是很嚴(yán)格,因?yàn)樵谕蛔兟屎瓦x擇上的變化,基因和蛋白上的不同位點(diǎn)以不同的速度在進(jìn)化。在距離的計(jì)算中這樣的變化是被gamm(位點(diǎn)的分布律)值來調(diào)整的,就像在 JC69 + , HKY85 + or GTR +?模型中一樣。在距離矩陣模型中當(dāng)序列的距離倍計(jì)算之后,序列對(duì)比就沒有(mi yu)用處了 。這是一個(gè)用相同的方塊(fn kui)的方法用于數(shù)據(jù)統(tǒng)計(jì)來適應(yīng)直線y=a+bx固定散落的點(diǎn)。是優(yōu)化分支長度導(dǎo)致了被給的分?jǐn)?shù)是Q,這個(gè)數(shù)最小的分?jǐn)?shù)就是估計(jì)這個(gè)數(shù)的
10、真實(shí)值。 最小的進(jìn)化方法用樹的長度代替Q為樹的選擇,盡管這些樹的分枝(fn zh)長度可以用來估計(jì)最小方塊的標(biāo)準(zhǔn),在最小進(jìn)化標(biāo)準(zhǔn)下,樹越短就越正確。廣泛運(yùn)用距離方法是加入鄰居,這是一個(gè)群算法和通過開始一棵像星型樹連續(xù)的選擇一對(duì)分類去加入到一起的操作。直到一個(gè)獲得一個(gè)圓滿解決好的樹。這個(gè)樹將會(huì)被選擇被估計(jì)最小樹的長度,兩個(gè)分類將會(huì)代表他們的祖先并且聯(lián)系到根源分類的數(shù)目將會(huì)減少一個(gè)。最大的距離在分類取代兩個(gè)原始分類對(duì)于鄰居的討論在不斷地更新。加入鄰居的高效實(shí)施在MEGA的方法中找到了。距離方法的優(yōu)點(diǎn)和弱點(diǎn)。第一個(gè)距離方法的優(yōu)點(diǎn)是計(jì)算的高效性,一組計(jì)算是非常快的因?yàn)樗⒉恍枰c其他很多樹進(jìn)行最佳標(biāo)準(zhǔn)
11、的比較。由于這個(gè)原因,加入鄰居是個(gè)很大的具有非常低的可分離性的數(shù)據(jù)設(shè)置分析。記載表明,他用于計(jì)算兩個(gè)兩個(gè)的距離可能非常重要。距離方法表現(xiàn)的非常差在分離序列上。因?yàn)榇蟮木嚯x包含了大量的樣品錯(cuò)誤,大多數(shù)的距離方法并不會(huì)由于大的距離的估測導(dǎo)致高度的變化。距離的方法對(duì)于直線排列的缺口非常的敏感。最大的節(jié)儉節(jié)儉樹的分?jǐn)?shù)。最大的節(jié)儉方法使基因樹的數(shù)目通過分配特征情況對(duì)于樹上內(nèi)部的節(jié)點(diǎn)的數(shù)量最小化。特征長度是需要改變長度的最小數(shù)。然而,樹的分?jǐn)?shù)是所有位點(diǎn)的特征長度的總和,最大節(jié)儉樹是使樹分?jǐn)?shù)最小化的一種樹。一些位點(diǎn)在靠節(jié)儉法在對(duì)樹的比較上并沒有用,例如連續(xù)位點(diǎn),相同的核酸出現(xiàn)在所有的物種有一個(gè)特征長度為零在
12、所有的樹上,那種只在一種物種上出現(xiàn)的單獨(dú)的核苷酸序列。也能夠被忽略,特征長度也總是相同的。節(jié)儉信息為那些至少有兩個(gè)可以區(qū)分的特征。對(duì)于四類物種僅僅有三個(gè)位點(diǎn)模型XXYY:XYXY:,所在位置是區(qū)分兩個(gè)核苷酸序列。這三個(gè)模型可能不是相同根源的樹對(duì)那四類物種,他們中最大的節(jié)儉樹依靠三個(gè)位點(diǎn)模型出現(xiàn)在列隊(duì)中的頻率。這個(gè)列隊(duì)是為了找到在雙源樹中的最小改變的數(shù),這個(gè)列隊(duì)被他們普遍發(fā)展節(jié)儉工程。節(jié)儉的起源發(fā)展是用來分析所摧毀的形態(tài)學(xué)特征,在世紀(jì)年代末,他開始用于分子數(shù)據(jù),一個(gè)節(jié)儉或者可能性是否形態(tài)學(xué)的分析是一個(gè)公開辯論。這個(gè)公開辯論已經(jīng)被減弱,方法的重要性能夠廣泛被認(rèn)可,節(jié)儉法仍然被廣泛使用。并不是因?yàn)楣?jié)
13、儉法被認(rèn)為是自由假設(shè)而是因?yàn)樗芙?jīng)常產(chǎn)生合理結(jié)果和計(jì)算高效。節(jié)儉法的優(yōu)點(diǎn)和缺點(diǎn)。優(yōu)點(diǎn)是因?yàn)樗芎唵?,很容易去描述去理解,它是可調(diào)節(jié)的對(duì)于嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)分析。簡單幫助了電腦高效性的發(fā)展。一個(gè)最大的缺點(diǎn)是缺乏一個(gè)明確假設(shè),這樣會(huì)導(dǎo)致在沒有任何序列進(jìn)化樹結(jié)構(gòu)的知識(shí)的基礎(chǔ)上的可操作性不強(qiáng)。圖二所示:相鄰加入算法。相鄰加入算法是一個(gè)分開的聚類算法。它從一棵星型樹開始:兩個(gè)節(jié)點(diǎn)然后在這顆樹上聚集在一起(在這個(gè)例子中,節(jié)點(diǎn)1和節(jié)點(diǎn)2),在這棵樹的根部減少節(jié)點(diǎn)的數(shù)量(shling)至1個(gè)(節(jié)點(diǎn)X)。這個(gè)過程一直在重復(fù)直到一顆完整解決好的進(jìn)化樹誕生。使它一直存在一個(gè)問題名為long-branch-attractio
14、n43。(長枝條誘惑)。如果正確(zhngqu)的進(jìn)化樹(T1,in FlG 3a)有兩個(gè)額外的長枝條,且被一個(gè)短的內(nèi)在枝條分割,簡約性將會(huì)朝向一個(gè)錯(cuò)誤推斷的進(jìn)化樹(T2 in FIG 3b),而且這些長枝條被聚集在一起。當(dāng)這些枝條在T1中伸長到一定程度時(shí),對(duì)于XXYY位置模式的可能性(用于支持正確的進(jìn)化樹(T1)),可能會(huì)比XYXY位置模式(用于支持錯(cuò)誤的進(jìn)化樹T2)更小。因此,在序列里有越多的作用位點(diǎn),就會(huì)有越大的可能性對(duì)于XXYY模式被觀測到概率比XYXY被觀測到的概率更低,而且更能確定的是:這顆錯(cuò)誤的進(jìn)化樹T2將會(huì)被選擇作為最簡約的進(jìn)化樹。因此簡約性匯聚了一顆錯(cuò)誤的進(jìn)化樹,并且所提供的
15、數(shù)據(jù)前后不一致。long-branch-attraction43(長枝條誘惑)已經(jīng)被證實(shí)在許多真實(shí)和模擬的數(shù)據(jù)集合,并且是由于簡約性引導(dǎo)在同一位點(diǎn)正確的多水平的變化的錯(cuò)誤或者是適應(yīng)在兩個(gè)長枝條的平行變化??碦EFS的24,25頁有更多關(guān)于這個(gè)問題的討論。值得注意的是,如果假設(shè)模型過于簡單,忽略了節(jié)點(diǎn)之間的速度變化,那么(n me)基于模型的方法(即 距離,似然法和貝葉斯方法)也遭受長枝吸引。在深層次的系統(tǒng)發(fā)育結(jié)構(gòu)的重建中,長枝吸引(以及物種之間的不平等的核苷酸或氨基酸的頻率)是系統(tǒng)誤差的重要來源(FIG 3c,d) 。在這個(gè)分析中,去使用現(xiàn)實(shí)的替代模型或者似然法。貝葉斯方法論是明智可取的選擇。
16、高頻率的生物分類單位的抽樣去打破長枝或者消除高速演化的蛋白以及位點(diǎn)也能夠奏效。 最大相似性最大相似性的基礎(chǔ),最大可能性是在二十世紀(jì)二十年代作為一種估計(jì)一個(gè)模型中的未知參數(shù)的統(tǒng)計(jì)方法被R.A.Fisher開發(fā)出,可能性函數(shù)被定義為給定參數(shù)的數(shù)據(jù)的概率,但被看做是數(shù)據(jù)中的一個(gè)參數(shù)的函數(shù)。它代表了數(shù)據(jù)中與參數(shù)有關(guān)的所有信息,參數(shù)的最大相似估計(jì)值是可能性最大化的參數(shù)值。通常來講,最大相似估計(jì)值在數(shù)字上使用了迭代優(yōu)化算法。 MLES有著理想的漸進(jìn)性質(zhì);它們是客觀的,穩(wěn)定的;高效的。最大似然樹重建,第一個(gè)DNA序列數(shù)據(jù)的最大相似性分析的算法是由FLESETEIN開發(fā)的。得益于日益增加的計(jì)算能力和軟件的啟用
17、以及序列進(jìn)化的越發(fā)現(xiàn)實(shí)化的模型。使該方法現(xiàn)在已經(jīng)得到廣泛應(yīng)用??勺⒁獾?,兩個(gè)優(yōu)化步驟參與了最大相似樹的估計(jì):分支長度的優(yōu)化的計(jì)算使每個(gè)候選樹的樹得分以找出樹空間中最大似然樹。從一個(gè)統(tǒng)計(jì)學(xué)角度來講,樹(拓?fù)浣Y(jié)構(gòu))是一個(gè)模型而不是一個(gè)參數(shù),而給定樹的分支長度和替換參數(shù)是模型中的參數(shù)。最大似然樹推理就相當(dāng)于比較許多統(tǒng)計(jì)模型,每個(gè)都有相同數(shù)量的參數(shù)。上文所提到的MLES的引人注目的漸進(jìn)性質(zhì)在真實(shí)樹被給出未應(yīng)用于參數(shù)估計(jì),但不是最大相似樹。 在各種替代模型下計(jì)算一個(gè)給定樹的相似性在文獻(xiàn)23、24中有相應(yīng)解釋。用距離計(jì)算的所有替代模型中都可以用在這里。事實(shí)上通過比較許多序列容納復(fù)雜的模型是可行的。最常用的
18、分子進(jìn)化中的模型假設(shè)序列中的位點(diǎn)可獨(dú)立進(jìn)化,因此相似性是不同位點(diǎn)的概率的產(chǎn)物。在任何特定位點(diǎn)的概率是平均超過無法觀察的在最早節(jié)點(diǎn)的特征狀態(tài)。而相似平均超過所有可能的狀態(tài)。早期的最大似然應(yīng)用包括PHYP MOLPHY 和PAUP4 現(xiàn)代應(yīng)用 如PLYML53 PAML54 GARLI55,都不只是計(jì)算速度更快但也更有尋找具有高度相似性的樹時(shí)高效性。MEGA5的最大似然性最近加入了該方法(fngf),使其更容易被沒有電腦經(jīng)驗(yàn)的生物學(xué)家們所接受。最大相似性的優(yōu)劣勢。最大相似性的一個(gè)優(yōu)勢在于其所有的假象模型都很清晰,所以它們可以被評(píng)估和改進(jìn)。一個(gè)最大相似法中復(fù)雜進(jìn)化模型的計(jì)算機(jī)指令系統(tǒng)的實(shí)用性是其由于
19、簡約發(fā)的最大優(yōu)勢。深度中系問題的現(xiàn)代推理運(yùn)用飽受蛋白質(zhì)法幾乎完全依賴于相似性和貝葉斯定理(dngl)的方法。第五(d w)頁表1|的幾個(gè)功能常用的系統(tǒng)發(fā)育程序名稱簡述參考文獻(xiàn)鏈接貝葉斯進(jìn)化分析取樣樹木(BEAST)貝葉斯MCMC計(jì)劃下的時(shí)鐘推斷根性樹種或?qū)捤傻臅r(shí)鐘模式。它可用于分析核苷酸序列和氨基酸序列,以及形態(tài)數(shù)據(jù)。一套程序,如示蹤和FigTree,還提供了用于診斷,總結(jié)和可視化結(jié)果http:/beast.bio.ed.ac.uk遺傳算法快速似然推斷(GARLI)使用遺傳算法的程序來搜索最大似然樹。它包括GTR+模型和特殊情況,可以分析核苷酸,氨基酸和密碼子的序列。并行版本也已經(jīng)推出/p/g
20、arli假設(shè)使用測試系統(tǒng)發(fā)育(的HyPHY)最大似然程序的分子進(jìn)化的擬合模型。它實(shí)現(xiàn),用戶可以用它來指定模型一個(gè)高級(jí)語言和建立似然比檢驗(yàn)分子進(jìn)化遺傳分析(MEGA基于Windows的程序采用了全圖形化的用戶界面,可以在Mac OSX或Linux上使用的Windows模擬器上運(yùn)行。它包括距離,系統(tǒng)發(fā)育重建的簡約性和可能性的方法,雖然其優(yōu)勢在于距離的方法。它采用了比對(duì)程序從GenBank中的ClustalW和可檢索數(shù)據(jù)MrBayes貝葉斯MCMC計(jì)劃系統(tǒng)發(fā)育推斷。它包括所有的核苷酸,氨基酸和密碼子替代的模型開發(fā)的可能性分析系統(tǒng)發(fā)育分析通過最大似然(PAML)方案估計(jì)的參數(shù)和假設(shè)檢驗(yàn)的集合使用可能性
21、。它主要用于陽性篩選試驗(yàn),祖重建和分子鐘約會(huì)。它是不適合的搜索樹系統(tǒng)發(fā)育分析采用簡約*和其它方法(PAUP*4.0)PAUP*4.0仍然是一個(gè)beta版本(在撰寫本文時(shí))。它實(shí)現(xiàn)了簡約,系統(tǒng)發(fā)育重建的距離和似然法PHYLIP程序包通過的距離,簡約的進(jìn)化推理程序和似然法PhyML快速程序用于搜索使用核苷酸的最大似然樹或蛋白質(zhì)序列數(shù)據(jù)RAxML快速程序用于搜索下GTR的最大似然樹模型使用的核苷酸或氨基酸序列。水貨版本特別是強(qiáng)大的采用新樹分析技術(shù)(TNT)快速節(jié)儉計(jì)劃,旨在對(duì)非常大的數(shù)據(jù)集注:所有程序可以在Windows,Mac OSX和Unix或Linux平臺(tái)(pngti)上運(yùn)行。除了PAUP*,
22、其中收取象征性的費(fèi)用,所有的包都是免費(fèi)下載。見費(fèi)爾森斯丁的綜合節(jié)目列表/phylip/software.html。GTR,一般(ybn)時(shí)間可逆的;MCMC,馬氏鏈蒙特卡羅。似然比檢驗(yàn)一般的假設(shè)檢驗(yàn)使用該方法似然性來比較兩個(gè)嵌套的假說,通常使用的2分布,以評(píng)估的意義。分子鐘該假說或觀察的進(jìn)化速率不隨時(shí)間變化或整個(gè)譜系。先驗(yàn)分布分配的分配之前的參數(shù)分析的數(shù)據(jù)(shj)。后驗(yàn)分布的分布參數(shù)(或模型)條件的數(shù)據(jù)。它結(jié)合信息在現(xiàn)有和在數(shù)據(jù)(可能性)。(本段文字為左邊邊框內(nèi)容)對(duì)于這種推論,它做為模型,以適應(yīng)位點(diǎn)之間可變的氨基酸取代率或甚至這些位點(diǎn)之間不同氨基酸的頻率是很重要的。最大似然擁有距離有明顯的
23、優(yōu)勢或簡約性方法,如果目的是為了理解序列進(jìn)化的過程。似然比測試可以用來檢查演化模型的擬合,并測試一些有趣的生物的假說,如分子時(shí)鐘和達(dá)爾文選擇影響蛋白質(zhì)進(jìn)化。見參考文獻(xiàn)22,24,64,65為摘要這樣的測試在系統(tǒng)發(fā)育。最大似然法的主要缺點(diǎn)是似然度計(jì)算和,特別是樹搜索可能性準(zhǔn)則下的計(jì)算苛刻。另一個(gè)缺點(diǎn)在于,該方法具有可能不佳的統(tǒng)計(jì)特性,如果模型錯(cuò)誤識(shí)別。這也是真正的貝葉斯分析(表2).貝葉斯方法貝葉斯推理的基礎(chǔ)。貝葉斯推理是一般統(tǒng)計(jì)推斷的方法。它不同于在最大似然模型中的參數(shù)被認(rèn)為是隨機(jī)變量的統(tǒng)計(jì)分布,而在最大似然他們未知固定常數(shù)的分析之前,數(shù)據(jù)時(shí),參數(shù)被分配一個(gè)先驗(yàn)分布,這是結(jié)合的數(shù)據(jù)(或可能性)
24、來生成后驗(yàn)分布。所有有關(guān)的推論參數(shù),然后基于所述后驗(yàn)分布。在過去的二十年中,貝葉斯推理具有得到普及得益于先進(jìn)的計(jì)算方法,特別是馬爾可夫鏈蒙特卡羅算法(MCMC算法)。貝葉斯系統(tǒng)發(fā)育。貝葉斯推理介紹在十九世紀(jì)九十年代后期分子(fnz)系統(tǒng)學(xué)。早期的方法,假設(shè)一個(gè)分子鐘。更高效的MCMC 算法發(fā)展這消除了時(shí)鐘的假設(shè)(允許獨(dú)立在無根樹分支長度)和該方案MrBayes的新聞稿中所作的方法分子systematists的歡迎。一個(gè)更近在程序BEAST72用途貝葉斯實(shí)施所謂寬松的時(shí)鐘模型來推斷根樹盡管該模型允許替代率改變跨譜系(表1)。結(jié)論(jiln)第六頁的圖中的。a Correct tree, T1正確
25、(zhngqu)的樹b Wrong tree, T2錯(cuò)誤的樹c The Gnepine tree能力有限未查到d The GneCup tree能力有限未查到然后圖里其他的是各種屬名,就沒翻譯。圖三。在理論上和實(shí)踐上的長枝吸引。圖a和b依據(jù)Felsenstein顯示了對(duì)四個(gè)物種情況的分析。如果正確的樹(T1)有兩個(gè)長分支由一個(gè)內(nèi)部短分支隔開,簡約性(以及在簡單模型中基于模型的方法如似然法和貝葉斯法)傾向于恢復(fù)錯(cuò)誤樹(T2),兩個(gè)長分支被組合在一起。圖c和d顯示出類似的現(xiàn)象用一個(gè)真實(shí)數(shù)據(jù)集合。關(guān)于種子植物的系統(tǒng)發(fā)生。買麻藤目是一個(gè)形態(tài)學(xué)和生態(tài)上裸子植物的不同分組,包括三個(gè)屬(麻黃,買麻藤和千歲蘭
26、),但其系統(tǒng)發(fā)育位置一直存在爭議。最大似然分析葉綠體蛋白質(zhì)產(chǎn)生GneCup樹(d),麻黃目與Cupressophyta分組,顯然由于長枝吸引加工。然而,Gnepine樹(c),麻黃目連接松科,排除進(jìn)化最快的。不包括18蛋白質(zhì)以及三種蛋白質(zhì)(即psbC rpl2和rps7),推斷出經(jīng)歷過許多平行的替換日本柳杉分支和分支之間的祖先是買麻藤目。Gnepine樹(c)還支持兩種蛋白質(zhì)的核基因組和看上去是正確的樹。分支長度和引導(dǎo)比例都是使用RAxML計(jì)算的。有關(guān)詳細(xì)信息,請(qǐng)參閱REF134。正文貝葉斯推理依賴于貝葉斯定理,公式是這樣的P(T,)是樹T的先驗(yàn)概率和參數(shù),P(D | T,)的可能性或概率鑒于
27、樹的數(shù)據(jù)和參數(shù),P(T,| D)是后驗(yàn)概率。分母P(D)是標(biāo)準(zhǔn)化常數(shù),它的作用是確保P(T,| D)的和依靠樹木和集成在一個(gè)參數(shù)上。定理公式是后與前時(shí)間成正比的可能性,或者是嗎是之前的信息加上后信息數(shù)據(jù)信息。一般來說,樹的后驗(yàn)概率不能直接計(jì)算。特別是,標(biāo)準(zhǔn)化常數(shù)(P(D)涉及高維積分所有可能的參數(shù)值)在所有可能的樹求和。相反,貝葉斯系統(tǒng)發(fā)育推斷依賴于采樣算法從后驗(yàn)分布上來生成一個(gè)樣本,這是示框2。見第5章介紹采樣的REF。24。貝葉斯推理的優(yōu)點(diǎn)和缺點(diǎn)方法。似然法和貝葉斯方法使用似然函數(shù),從而分享許多統(tǒng)計(jì)的屬性,如一致性和效率。然而,最大似然法和貝葉斯推理表示反對(duì)哲學(xué)的統(tǒng)計(jì)推斷。貝葉斯推理看上去
28、是作為一個(gè)優(yōu)勢或劣勢相同的特性,取決于一個(gè)人的哲學(xué)。參見REF24共同的簡要描述。在這里我們?cè)u(píng)論兩個(gè)問題結(jié)果的可解釋性和之前信息模型的實(shí)用性。首先,眾所周知,貝葉斯統(tǒng)計(jì)回答生物問題直接和收益結(jié)果是容易解釋:樹的后驗(yàn)概率是,這里樹是正確的樹??紤]到旁邊(pngbin)小字馬爾可夫鏈蒙特卡羅算法(采樣算法)。一個(gè)(y )蒙卡洛模擬是計(jì)算機(jī)模擬生物使用隨機(jī)過程數(shù)字。一個(gè)采樣算法蒙特卡洛模擬算法,生成一個(gè)樣本的目標(biāo)分布(通常是一個(gè)貝葉斯后驗(yàn)分布)。不同的樹重建方法的優(yōu)點(diǎn)(yudin)和缺點(diǎn)的總結(jié)簡約的方法 :優(yōu)點(diǎn)簡單而直觀的吸引力 唯一的框架,適用于一些數(shù)據(jù) (如正弦和LINES)缺點(diǎn)假設(shè)是隱式的,并
29、了解甚少 缺乏一個(gè)模型使得它幾乎不可能把我們的序列進(jìn)化的知識(shí)合并分支長度基本上是低估了的時(shí)候 替代率很高 最大簡約法可能遭受長期分支的吸引力 距離法 優(yōu)點(diǎn):快速的運(yùn)算速度 只要遺傳距離確定了可應(yīng)用到任何類型的數(shù)據(jù)可以選擇適應(yīng)的數(shù)據(jù)計(jì)算模型的距離缺點(diǎn):大多數(shù)距離的理論,如相鄰數(shù)據(jù)加入,不考慮距離估計(jì)的方差 距離的計(jì)算是有問題的,當(dāng)序列是發(fā)散的,涉及到許多對(duì)準(zhǔn)缺口 負(fù)分支長度是沒有意義的似然方法 優(yōu)點(diǎn):可以使用復(fù)雜的替換機(jī)型 使生物接近現(xiàn)實(shí) 強(qiáng)大的框架來估計(jì)參數(shù)和進(jìn)行假設(shè)檢驗(yàn)缺點(diǎn):最大似然法涉及大量的計(jì)算 拓?fù)浣Y(jié)構(gòu)不是一個(gè)參數(shù),使其難以適用來估計(jì)最大似然理論,引導(dǎo) 比例很難解釋貝葉斯方法 優(yōu)點(diǎn):可
30、以用現(xiàn)實(shí)的替代模型,如最大似然法 首先先存概率包含一些信息或?qū)I(yè)知識(shí) 其次系統(tǒng)樹和進(jìn)化枝的后驗(yàn)概率更容易被解釋缺點(diǎn):Markov chain Monte Carlo(MCMC)中涉及大量的計(jì)算 大量數(shù)據(jù)表明,MCMC收斂和混合問題都很難識(shí)別和糾正 首先沒有信息的話概率很難確定。對(duì)于那些后來的沒有知識(shí)的研究者們來說,多維的概率可能會(huì)產(chǎn)生不當(dāng)影響 后驗(yàn)概率往往會(huì)出現(xiàn)過高的現(xiàn)象 模型的選擇會(huì)涉及到很多具有挑戰(zhàn)性的計(jì)算與此相反,像是最大似然法的分析中,類似于置信區(qū)間這樣的概念有著人為的解釋,模糊了很多數(shù)據(jù)的使用者們。在系統(tǒng)發(fā)育中,還不可能確定一棵樹的置信區(qū)間。盡管付出很多的努力,廣泛的利用輔助程序的理
31、論但還是很難解釋它。當(dāng)然老一代人不能完全的否定最大似然法。系統(tǒng)樹和進(jìn)化枝計(jì)算時(shí)的后存概率往往出現(xiàn)(chxin)的過高。在很多分析中,所有模型的后驗(yàn)概率都達(dá)到了100%。系統(tǒng)樹的后驗(yàn)概率(gil)很容易改變模型,使用簡單的模型可能會(huì)導(dǎo)致飛漲的后驗(yàn)概率。系統(tǒng)(xtng)發(fā)生理論的數(shù)據(jù)評(píng)定系統(tǒng)發(fā)生的推理目的是估計(jì)進(jìn)化樹的拓?fù)浣Y(jié)構(gòu)和它可能的進(jìn)化枝。存在四種標(biāo)準(zhǔn)用來判斷進(jìn)化樹的理論。一致性當(dāng)能夠趨于正確的參數(shù)接近無窮時(shí),一個(gè)預(yù)測的方法就可以說是不矛盾的。當(dāng)預(yù)測的樹接向正確的樹靠近也就是序列上的位置增加時(shí),一個(gè)樹的重現(xiàn)方法就是不矛盾的,如果假定的模型是正確的,那么模型方法就是統(tǒng)一的。有一些樹在聯(lián)合中過度節(jié)
32、儉,就可能是矛盾的。Felsensteins證明了這一點(diǎn)并促進(jìn)了更多的熱門討論。效率在一個(gè)參數(shù)的統(tǒng)計(jì)學(xué)評(píng)估中,一個(gè)無偏斜的有小方差的預(yù)測比有大方差的更有效率。在一個(gè)發(fā)展史樹中,效率可能用還原一個(gè)正確的樹的可能性來評(píng)估,這可以通過電腦模擬來預(yù)測,重現(xiàn)一個(gè)數(shù)的復(fù)雜意味著MLEs的漸進(jìn)理論可能是不成立的,然而電腦已經(jīng)發(fā)現(xiàn)比過度節(jié)儉更高的效率也就是最有可能恢復(fù)的正確的樹(MCMC)是一個(gè)從一棵樹(或參數(shù)值)到另一棵樹的移動(dòng)的運(yùn)算法則,從長遠(yuǎn)來看,參照樹木(或參數(shù))的比例進(jìn)行后驗(yàn)概率。樹參數(shù)設(shè)置 (T,)構(gòu)成了該算法的狀態(tài)。在這里,參數(shù)may包括: 樹的分支長度和參數(shù)的演化模型,如過渡/顛換率比。下述方
33、案說明了主要的MCMC算法的特點(diǎn)。 第1步:初始化,隨機(jī)選擇起始樹和啟動(dòng)參數(shù)(T,)。 第2步:主回路步驟2a。建議把樹T.Propose改變成一個(gè)新的樹,T *,通過改變當(dāng)前樹,如果T*具有比當(dāng)前樹高后驗(yàn)概率, P(T *,| D) P(T,| D),接受新樹T*。否則,接受T *的概率為:如果T *是公認(rèn)的,設(shè)定T= T *步驟2b。建議更改參數(shù).Propose新的參數(shù)值,*,通過改變當(dāng)前。這里,為了簡單起見,我們假定這些建議是對(duì)稱的,這樣的提議*從equals的概率的概率建議from*。如果P(T,*| D) P(T,| D),接受新的*。否則,接受* 概率:如果新的*被接受時(shí),設(shè)定=*
34、。步驟2c。鏈中的樣品。打印(d yn)出來(T,)。注意,第一次的算法不需要?dú)w一化常數(shù)的計(jì)算P(D),因?yàn)樗谔嶙h后比率的步驟(bzhu)2a和2b。第二,從長遠(yuǎn)來看,一棵樹的參數(shù)設(shè)置如果(rgu)比另一組后驗(yàn)概率高將被更頻繁的算法比訪問:。的確,算法在任意樹上的時(shí)間的預(yù)期比例正好是它的后驗(yàn)概率: P(T|D因此,通過計(jì)數(shù)在算法中各樹被訪問的頻率,我們得到后驗(yàn)概率的MCMC的估計(jì)。對(duì)于樹木對(duì)值的序列(或鏈)(T,)由算法產(chǎn)生有這樣的可能性,考慮到當(dāng)前的狀態(tài)(T,),它移動(dòng)到新的物業(yè)狀態(tài)的概率不依賴于過去的狀態(tài)。此無記憶特性被稱為馬爾可夫特性,其中指出這樣的現(xiàn)狀,未來不取決于在過去。生成的
35、序列稱為馬爾可夫鏈,因?yàn)轳R爾可夫鏈?zhǔn)怯蒑onteCarlo模擬生成的。魯棒性。(魯棒性就是系統(tǒng)的健壯性。它是在異常和危險(xiǎn)情況下系統(tǒng)生存的關(guān)鍵)是一種穩(wěn)健的方法,如果它給正確的答案即使它的假設(shè)被違反。一些假設(shè)關(guān)系比其他的重要。隨著序列數(shù)據(jù)快速增長堆積,抽樣誤差在建樹中顯著減小,所以系統(tǒng)錯(cuò)誤或穩(wěn)健性的方法變得更加重要。 計(jì)算速度。此屬性是容易評(píng)估。使用聚類算法鄰近的加入到一棵樹是非??斓?。該方法是搜索下一個(gè)最好的標(biāo)準(zhǔn)樹,如最大進(jìn)化,最大簡約法和最大似然速度較慢。貝葉斯方法的運(yùn)算速度取決于鏈的長度(由MCMC算法產(chǎn)生的),這是高度依賴于數(shù)據(jù)的。進(jìn)化的計(jì)算可能是昂貴的,最大似然和貝葉斯推理速度通常比最
36、大簡約較慢。然而,對(duì)于大型數(shù)據(jù)集在計(jì)算算法取得基于似然方法方法進(jìn)行分析以取得相當(dāng)大的進(jìn)步。利用新的算法的優(yōu)勢即多核處理器和圖形的計(jì)算機(jī)處理單元(GPU),正在推動(dòng)邊界更進(jìn)一步。大數(shù)據(jù)集系統(tǒng)發(fā)生分析隨著新的測序技術(shù)的出現(xiàn)和完成各種基因組計(jì)劃的到來,系統(tǒng)發(fā)育已進(jìn)入基因組大規(guī)模數(shù)據(jù)集的時(shí)代。在這里,我們就這樣大的數(shù)據(jù)集討論與分析的幾個(gè)問題。 超級(jí)樹和超級(jí)矩陣處理。兩種方法已被提倡的系統(tǒng)分析數(shù)百個(gè)基因或蛋白質(zhì),特別是當(dāng)一些位點(diǎn)缺失的一些物種。該supertree方法分別分析了各基因,然后使用啟發(fā)式算法的集合子樹的單個(gè)基因組成一個(gè)supertree對(duì)于所有物種。單獨(dú)分析對(duì)研究在重建子樹或患病水平基因轉(zhuǎn)移
37、的區(qū)別有用。然而,這是低效估計(jì)一個(gè)共同的系統(tǒng)發(fā)育構(gòu)成所有基因。在超級(jí)矩陣的方法中,序列多基因被連接起來以產(chǎn)生一個(gè)數(shù)據(jù)超矩陣,在其中丟失的數(shù)據(jù)將被一個(gè)詢問標(biāo)記代替,該超級(jí)矩陣然后用于重建樹。大多數(shù)的超級(jí)矩陣分析忽略了基因間的進(jìn)化動(dòng)力學(xué)差異。需要注意的是一個(gè)超級(jí)矩陣分析,假定不同的進(jìn)化模型和不同的樹和分支長度對(duì)于基因是相當(dāng)于一個(gè)單獨(dú)的或supertree分析。當(dāng)一個(gè)普通的樹位于所有基因之下,理想辦法應(yīng)該是一個(gè)對(duì)所有基因的組合(超級(jí)矩陣)分析,利用適應(yīng)在進(jìn)化過程中周圍基因同源域的可能性。我們的下面的評(píng)論涉及到這個(gè)組合的方法。缺失數(shù)據(jù)的影響。很多基因組數(shù)據(jù)集高度不完全,所以大部分細(xì)胞基因矩陣將是空的。
38、雖然,從理論上講,該似然函數(shù)(在最大似然和貝葉斯方法)可以正常容納丟失數(shù)據(jù),這種大規(guī)模的缺失數(shù)據(jù)和排列差異的影響并不很好理解的。模擬顯示最大似然和貝葉斯推斷總體表現(xiàn)比鄰居加入或最大簡約處理丟失的數(shù)據(jù)更好,貝葉斯推理是被發(fā)現(xiàn)進(jìn)行最佳的。相鄰接合的低性能可被理解為如果考慮極端情況,排除排列差異后,成對(duì)距離的計(jì)算從不同集合的基因或位點(diǎn)的,其中一些是快速進(jìn)化的,而另一些正在慢慢演變。對(duì)于(duy)傳統(tǒng)(chuntng)的參數(shù)估計(jì),我們重視的置信區(qū)間,他表明參與(cny)點(diǎn)的不確定性所述參數(shù)的估計(jì)值。這在分子系統(tǒng)中是不可能的,如概念中的方差,和當(dāng)施加到樹木的置信區(qū)間都是沒有意義的。對(duì)于距離,簡約又似然的方法,并且
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 送餐合同范本
- 稅務(wù)交換協(xié)議書
- 小孩被撞傷賠償協(xié)議書
- 苗木補(bǔ)種協(xié)議書
- 遺產(chǎn)問題協(xié)議書
- 蘆筍種植協(xié)議書
- 老夢(mèng)離婚協(xié)議書
- 贈(zèng)予合同解除協(xié)議書
- 貸款合同延續(xù)協(xié)議書
- 2025醫(yī)用耗材采購合同「簡化版」
- 道路運(yùn)輸企業(yè)主要負(fù)責(zé)人和安全生產(chǎn)管理人員安全考核試題庫及答案
- 【模板】領(lǐng)導(dǎo)XXX考察行程安排表
- 母親健康快車項(xiàng)目立項(xiàng)申請(qǐng)及實(shí)施計(jì)劃表格填報(bào)模板
- MDR醫(yī)療器械法規(guī)試卷
- DB11-139-2015鍋爐大氣污染物排放標(biāo)準(zhǔn)
- 大金D型水冷螺桿機(jī)說明書
- 五方責(zé)任主體授權(quán)書和承諾書
- 《泵站運(yùn)行工》word版
- 食藥同源-PPT課件(PPT 55頁)
- 山東大學(xué)畢業(yè)論文答辯通用ppt模板
- 榆林智能礦山項(xiàng)目招商引資方案【參考范文】
評(píng)論
0/150
提交評(píng)論