五序列的同源比較及分子系統(tǒng)學和分子進化分析PPT課件_第1頁
五序列的同源比較及分子系統(tǒng)學和分子進化分析PPT課件_第2頁
五序列的同源比較及分子系統(tǒng)學和分子進化分析PPT課件_第3頁
五序列的同源比較及分子系統(tǒng)學和分子進化分析PPT課件_第4頁
五序列的同源比較及分子系統(tǒng)學和分子進化分析PPT課件_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

20 04 2020 1 第五章 序列的同源比較及分子系統(tǒng)學和分子進化分析 第一節(jié) 簡介第二節(jié) 相似序列的獲得第三節(jié) 多序列比對第四節(jié) 系統(tǒng)發(fā)育分析第五節(jié) 其他分子標記在生物系統(tǒng)學中的應用 20 04 2020 2 第一節(jié) 簡介 生物學研究中常用的方法之一是通過比較分析獲得有用的信息 過去進化學家和分類學家為衡量物種間親緣關系的密切程度 花大量的精力把形態(tài)學特征數(shù)量化 希望以量化的形態(tài)學差異來表示物種間進化距離 但工作量大 標準不統(tǒng)一 導致進展緩慢 現(xiàn)如今 以大量公開的核酸和蛋白質(zhì)數(shù)據(jù)為基礎 利用序列分析的計算機軟件構建生物進化樹來研究各物種間的進化關系 20 04 2020 3 在本章里研究進化關系所用的軟件 我們在應用這些軟件時會遇到很多專業(yè)術語和應用的計算機程序 這些陌生的術語對于初學者的我們沒必要搞清 只要會用就可以了 但要做出非常專業(yè)的進化分析則必須搞清每個專業(yè)術語的含義 構建系統(tǒng)樹有很多的方法和步驟 我們會逐步學習 但不管采用什么樣的方法 都有一些值得注意的問題 20 04 2020 4 第二節(jié) 相似序列的獲得 對一段序列進行進化分析的基礎是獲得此序列大量的同源序列 包括同一物種和不同物種之間 當序列有足夠的相似性性 我們才能推斷序列之間是否具有同源性 同源性的判斷是質(zhì)的判斷 進化分析是量的結(jié)果 兩者之間如何進行統(tǒng)一 就是要有假設 當序列之間相似性超過一個值時 認為其是同源的 序列相似的原因有兩個 一是來自于同一祖先 然后發(fā)生分歧 二是兩個序列來自于不同的祖先 在相似的選擇壓力下發(fā)生趨同進化 形成相似序列 20 04 2020 5 三 VASTVAST是NCBI的相似結(jié)構搜索工具 它將一個新的蛋白質(zhì)三維結(jié)構與PDB或MMDB數(shù)據(jù)庫中的結(jié)構進行比較 通過結(jié)構比較 可以發(fā)現(xiàn)通過序列比較而無法發(fā)現(xiàn)的遠程同源蛋白質(zhì) VAST算法是基于統(tǒng)計以下的結(jié)構相似性比較算法 VAST在評價結(jié)構相似顯著性時 不過多的考慮微小子結(jié)構因偶然因素而形成的相似關系 而是著重考慮結(jié)構域的相似性 http www ncbi nlm nih gov structure VAST 20 04 2020 6 VAST的比較有三個步驟 首先 在數(shù)據(jù)坐標的基礎上 標出所有構成蛋白質(zhì)核心部分的 螺旋和 片層 然后根據(jù)這些二級結(jié)構單位的位置計算向量 使用這些向量進行結(jié)構比對而不是整個一套坐標 然后算法試圖最佳地匹配這些向量 尋找類型和相對方向相同的成對結(jié)構單位 并且在這些單位之間還要有同樣的連接方式 最后 在每個殘基位置上使用蒙特卡洛方法對結(jié)構的比對進行優(yōu)化 1LFL 20 04 2020 7 第三節(jié) 多序列比對 用于多序列比對的程序開發(fā)是一個很活躍的領域 目前 絕大多數(shù)的方法均是基于漸進比對的概念 漸進比對的方法假設了參與比對的序列存在親緣關系 在算法上下功夫 以尋求計算速度與獲得最佳比對之間的平衡 一 CLUSTAL W 20 04 2020 8 CLUSTAL是一個單機版的基于漸進比對的多序列比對工具 由HigginsD G 等開發(fā) 有應用于多種操作系統(tǒng)平臺的版本 包括linux版 DOS版的clustlw clustalx等 CLUSTAL是一種漸進的比對方法 先將多個序列兩兩比對構建距離矩陣 反應序列之間兩兩關系 然后根據(jù)距離矩陣計算產(chǎn)生系統(tǒng)進化指導樹 對關系密切的序列進行加權 然后從最緊密的兩條序列開始 逐步引入臨近的序列并不斷重新構建比對 直到所有序列都被加入為止 20 04 2020 9 CLUSTAL W工作原理 Clustal輸入多個序列 快速的序列兩兩比對 計算序列間的距離 獲得一個距離矩陣 鄰接法 NJ 構建一個樹 引導樹 根據(jù)引導樹 漸進比對多個序列 20 04 2020 10 CLUSTAL W應用 1 輸入輸出格式 輸入序列的格式比較靈活 可以是前面介紹過的FASTA格式 還可以是PIR SWISS PROT GDE Clustal GCG MSF RSF等格式 輸出格式也可以選擇 有ALN GCG PHYLIP和NEXUS等 用戶可以根據(jù)自己的需要選擇合適的輸出格式 20 04 2020 11 2 兩種工作模式 a 多序列比對模式 b 剖面 profile 比對模式 3 一個實際的例子 CLUSTAL W的應用 20 04 2020 12 多序列比對實例步驟 輸入文件的格式 fasta KCC2 YEASTNYIFGRTLGAGSFGVVRQARKLSTN DMK HUMANDFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK KPRO MAIZETRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN DAF1 CAEELQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD 1CSNHYKVGRRIGEGSFGVIFEGTNLLNN 20 04 2020 13 第一步 輸入序列文件 20 04 2020 14 第二步 設定比對的一些參數(shù) 20 04 2020 15 第三步 開始序列比對 第三步 開始序列比對 20 04 2020 16 第四步 比對完成 選擇保存結(jié)果文件的格式 第四步 比對完成 選擇保存結(jié)果文件的格式 20 04 2020 17 二 BioEditBioEdit程序非常適合序列比對 編輯和分析 是基于Windows平臺的一種比對程序 目前應用最多 可免費下載 BioEdit具體用法見三 MultAlinMultAlin從一系列的兩聯(lián)比對開始 得到分值 然后根據(jù)這個分值進行分層次的聚類 http multalin toulouse inra fr multalin multalin html四 GCG數(shù)據(jù)庫GCG軟件是一套蛋白質(zhì) 核酸序列分析軟件 20 04 2020 18 GCG支持五種數(shù)據(jù)庫供Wisconsin軟件包使用 其中包括兩種核酸數(shù)據(jù)庫 GenBank數(shù)據(jù)庫 由GenBank中沒有的序列組成的簡化版的EMBL核酸序列數(shù)據(jù)庫 和三種蛋白質(zhì)數(shù)據(jù)庫 PIR Swiss Prot SP TrEMBL數(shù)據(jù)庫 GCG支持的數(shù)據(jù)庫兩個月更新一次 20 04 2020 19 第四節(jié) 系統(tǒng)發(fā)育分析課本104頁 系統(tǒng)發(fā)育分析是根據(jù)同源性狀的分歧來評估物種或分子之間的進化關系 這種進化關系通常用分支圖 系統(tǒng)樹 來描述 對序列的系統(tǒng)發(fā)育分析又稱為分子系統(tǒng)學或分子系統(tǒng)發(fā)育研究 比起其他實驗性學科 分子系統(tǒng)學與其他進化研究一樣有其局限 即系統(tǒng)發(fā)育的發(fā)生過程都是已經(jīng)完成的歷史 不能再現(xiàn) 如何從序列中得到有用的信息 如何用計算的辦法得到可信的進化樹 如何從有限的數(shù)據(jù)得到進化模式已成為這個領域的研究熱點 系統(tǒng)發(fā)育樹是什么 對一組實際對象的世系關系的描述 如基因 物種等 20 04 2020 20 一個系統(tǒng)發(fā)育樹 末端 物種 頂端 中間節(jié)點 中間枝條 根 末端分支 葉子 節(jié)點 20 04 2020 21 A B C D E F G 樹只代表分支的拓撲結(jié)構 F G C D E A B 20 04 2020 22 一般來說 系統(tǒng)樹是一種兩叉樹 由一系列節(jié)點和分支組成 每個節(jié)點代表一個分類單元 物種或序列 而節(jié)點之間的連線代表物種間的進化關系 樹的節(jié)點又分為外部節(jié)點和內(nèi)部節(jié)點 系統(tǒng)發(fā)生樹有多種形式 可能是有根樹 rootedtree 也可能是無根樹 unrootedtree 可能是一般的樹 也可能是二叉樹 可能是有權值的樹 或標度樹 樹中標明分支長度 也可能是無權值樹 非標度樹 在有根樹中 有一個唯一的根節(jié)點 代表所有其他根節(jié)點的共同祖先 這樣的樹能夠反映進化層次 從根節(jié)點歷經(jīng)進化到任何其他節(jié)點只有唯一的路徑 20 04 2020 23 Rootedbyoutgroup archaea archaea archaea bacteriaoutgroup root eukaryote eukaryote eukaryote eukaryote 無根樹 archaea archaea archaea Monophyleticgroup 單源群 Monophyleticgroup 有根樹 無根樹 外圍群 有根樹 外圍群 20 04 2020 24 分子進化研究的基礎 假設 核苷酸和氨基酸序列中含有生物進化歷史的全部信息 分子進化研究的基礎 理論 在各種不同的發(fā)育譜系及足夠大的進化時間尺度中 許多序列的進化速率幾乎是恒定不變的 分子鐘理論 1965 分子進化研究的基礎 實際 雖然很多時候仍然存在爭議 但是分子進化確實能闡述一些生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律 20 04 2020 25 從一個分歧數(shù)據(jù)可以推測其他 序列分歧度 分歧時間 x 分子鐘理論 20 04 2020 26 一 系統(tǒng)樹的構建方法系統(tǒng)樹的構建主要有三種方法 距離法 最簡約法 最大似然法 1 距離法距離法又稱距離矩陣法 首先通過各個物種之間的比較 根據(jù)一定的假設 進化距離模型 推導得出分類群之間的進化距離 構建一個進化距離矩陣 進化樹的構建則是基于這個矩陣中的進化距離關系 計算序列的距離 建立距離矩陣 通過距離矩陣建進化樹 20 04 2020 27 一種簡單的距離矩陣 20 04 2020 28 由進化距離構建進化樹的方法有很多 常見有 1 Fitch MargoliashMethod FM法 2 Neighbor JoiningMethod NJ法 鄰接法 3 NeighborsRelatonMethod 鄰居關系法 4 UnweightedPairGroupMethod UPGMA法 通過矩陣建樹的方法 20 04 2020 29 Fitch Margoliash方法 FM法 20 04 2020 30 1 找出關系最近的序列對 如A和B2 將剩余的序列作為一個簡單復合序列 分別計算A B到所有其他序列的距離的平均值3 用這些值來計算A和B間的距離4 將A B作為一個單一的復合序列AB 計算與每一個其他序列的距離 生成新的距離矩陣5 確定下一對關系最近的序列 重復前面的步聚計算枝長7 從每個序列對開始 重復整個過程8 對每個樹計算每對序列間的預測距離 發(fā)現(xiàn)與原始數(shù)據(jù)最符合的樹 Fitch Margoliash方法 FM法 小結(jié) 20 04 2020 31 NJ 鄰接法 任意兩個節(jié)點選為相鄰序列的總支長計算公式 20 04 2020 32 把A B看成一個新的復合序列 構建一個新的距離表 重復以上過程 20 04 2020 33 鄰居關系法 AB組合出現(xiàn)3次 DE組合出現(xiàn)3次 CD AC BC組合各一次 則AB和DE各為兩對關系最近的鄰居 關系最近的鄰居作為鄰居的次數(shù)最多 將鄰居看成一個新的復合序列 重復這個過程 20 04 2020 34 UPGMA法 d e 10 2 5 20 04 2020 35 c 19 2 9 5g c d 9 5 5 4 5 20 04 2020 36 a b 22 2 11 20 04 2020 37 f1 a f2 c 40 5 2 20 25f1 9 25 f2 11 75 20 04 2020 38 2 最大簡約法簡約法是分子系統(tǒng)學中應用最廣的一種方法 該方法的原則是在所有可能的物種中 最能反映進化歷史的樹具有最短的樹長 即進化步數(shù)最少 形狀在系統(tǒng)樹種改變的次數(shù) 樹長是所有形狀在所有分支上發(fā)生的狀態(tài)改變的總和 20 04 2020 39 最大簡約法 maximumparsimony MP 最早源于形態(tài)性狀研究 現(xiàn)在已經(jīng)推廣到分子序列的進化分析中 最大簡約法的理論基礎是奧卡姆 Ockham 哲學原則 這個原則認為 解釋一個過程的最好理論是所需假設數(shù)目最少的那一個 對所有可能的拓撲結(jié)構進行計算 并計算出所需替代數(shù)最小的那個拓撲結(jié)構 作為最優(yōu)樹 優(yōu)點 最大簡約法不需要在處理核苷酸或者氨基酸替代的時候引入假設 替代模型 此外 最大簡約法對于分析某些特殊的分子數(shù)據(jù)如插入 缺失等序列有用 20 04 2020 40 缺點 在分析的序列位點上沒有回復突變或平行突變 且被檢驗的序列位點數(shù)很大的時候 最大簡約法能夠推導獲得一個很好的進化樹 然而在分析序列上存在較多的回復突變或平行突變 而被檢驗的序列位點數(shù)又比較少的時候 最大簡約法可能會給出一個不合理的或者錯誤的進化樹推導結(jié)果 20 04 2020 41 3 最大似然法用于構建基于基因頻率的系統(tǒng)樹 這種方法是首先選定一個進化模型 計算該模型下 各種分支樹產(chǎn)生現(xiàn)有數(shù)據(jù)的可能性 具有最大可能性的系統(tǒng)樹為最優(yōu) 一個樹的似然性等于每一個形狀的似然性之和或每一個性狀的似然性對數(shù)和 20 04 2020 42 最大似然法分析中 選取一個特定的替代模型來分析給定的一組序列數(shù)據(jù) 使得獲得的每一個拓撲結(jié)構的似然率都為最大值 然后再挑出其中似然率最大的拓撲結(jié)構作為最優(yōu)樹 在最大似然法的分析中 所考慮的參數(shù)并不是拓撲結(jié)構而是每個拓撲結(jié)構的枝長 并對似然率球最大值來估計枝長 最大似然法的建樹過程是個很費時的過程 因為在分析過程中有很大的計算量 每個步驟都要考慮內(nèi)部節(jié)點的所有可能性 最大似然法是一個比較成熟的參數(shù)估計的統(tǒng)計學方法 具有很好的統(tǒng)計學理論基礎 在當樣本量很大的時候 似然法可以獲得參數(shù)統(tǒng)計的最小方差 只要使用了一個合理的 正確的替代模型 最大似然法可以推導出一個很好的進化樹結(jié)果 20 04 2020 43 由于最大似然法的分析過程需要耗費較多的時間 針對這種情況 發(fā)展出了許多優(yōu)化的可以加快最大似然法尋找最優(yōu)樹的搜索方法 如啟發(fā)式搜索 分枝交換搜索等 最大似然法具有堅實的統(tǒng)計學理論基礎 充分的使用了分析序列中的信息資源 只要采用了合理的替代模型 可以得出很好的進化樹分析結(jié)果 20 04 2020 44 4 對三種構建方法的評價 1 距離法是一種純數(shù)學計算過程 其算法本身就決定了最優(yōu)樹的選擇標準 2 當DNA的進化速率在不同分支上相差很大或親緣關系太遠時 簡約法低估了實際發(fā)生的堿基替換數(shù)而造成數(shù)據(jù)越多越支持錯誤的系統(tǒng)樹 3 在計算時間上 距離法最快 最大似然法最慢 因此 當數(shù)據(jù)矩陣過大時 距離法非常有用 4 距離法和最大似然法都可以估計枝長 而簡約法不能 20 04 2020 45 5 系統(tǒng)樹的統(tǒng)計分析 1 在分子系統(tǒng)學研究中 用重復取樣來檢驗系統(tǒng)樹的可靠性 主要有兩種方法即自展法和折刀法 自展法是原有數(shù)據(jù)中的性狀進行復置重復取樣 即隨機抽取一個性狀后 再將該性狀放回原數(shù)據(jù) 繼續(xù)隨機抽樣 直到新產(chǎn)生的一組數(shù)據(jù)大小與原有數(shù)據(jù)相同為止 20 04 2020 46 2 對整個系統(tǒng)樹的評價廣泛用于評價一個系統(tǒng)樹可靠性的指標是一致性系數(shù) CI 和保持性指數(shù) RI Ic R LR 所有性狀的范圍的總和 即性狀可能變化的最小值L 給定系統(tǒng)樹的最小進化步數(shù) 20 04 2020 47 二 常用的系統(tǒng)樹構建程序1 PHYLIPPHYLIP是包含35個獨立程序的軟件包 基本上包括了系統(tǒng)發(fā)育分析的所有方面 可在很多平臺上運行 包括windows Macintosh DOS Linux Unix和OpenVMX http evolution genetics washington edu phylip html可以免費下載軟件及手冊 PHYLIP是目前使用較為廣泛的系統(tǒng)發(fā)育程序 主要包括一下幾個程序組 分子序列組 距離矩陣組 基因頻率組 離散字符組 進化樹繪制組 PHYLIP現(xiàn)版本為3 69 20 04 2020 48 PHYLIP軟件包分組介紹 分子序列組 1 蛋白質(zhì)序列 protpars proml promlk protdist2 核酸序列 dnapenny dnapars dnamove dnaml dnamlk dnainvar dnadist dnacomp距離矩陣組 Fitch kitsch neighbor基因頻率組 Gendist contml 20 04 2020 49 離散字符組 Pars mix move penny dollop dolmove dolpenny clique factor進化樹繪制組 drawtree drawgram其他 restdist restml seqboot contrasttreedist consense retree 20 04 2020 50 PHYLIP軟件包的文檔是非常詳細的 對于每個獨立的程序 都有一個獨立的文檔 詳細的介紹了該程序的使用及其說明 此外 PHYLIP軟件包還包括程序的源代碼 c語言 PHYLIP軟件包的文檔 20 04 2020 51 軟件包的應用 1 根據(jù)你的分析數(shù)據(jù) 選擇適當?shù)某绦蛉?你分析的是DNA數(shù)據(jù) 就在核酸序列分析類中選擇程序 dnapenny dnapars dnamove dnaml dnamlk dnainvar dnadist dnacomp 如果分析的是離散數(shù)據(jù) 如突變位點數(shù)據(jù) 就在離散字符組里面選擇程序 2 選擇適當?shù)姆治龇椒ㄈ缒惴治龅氖荄NA數(shù)據(jù) 可以選擇簡約 DNAPARS 似然法 DNAML DNAMLK 距離法等 DNADIST 20 04 2020 52 3 進行分析選擇好程序后 執(zhí)行 讀入分析數(shù)據(jù) 選擇適當?shù)膮?shù) 進行分析 結(jié)果自動保存為outfile outtree Outfield是一個記錄文件 記錄了分析的過程和結(jié)果 可以直接用文本編輯器 如寫字板 打開 Outtree是分析結(jié)果的樹文件 可以用phylip提供的繪樹程序打開查看 也可以用其他的程序來打開 如treeview 20 04 2020 53 加入統(tǒng)計分析 我們剛剛獲得的進化樹是純粹的根據(jù)先前獲得的排列數(shù)據(jù)所推導出來的 有很多可能使得這個樹并不一定可靠 1 測序的出錯 2 多序列比對算法本身的問題 3 其他的問題 我們可以引進一些統(tǒng)計分析來尋找更優(yōu)的進化樹最常見的就是bootstrap分析 20 04 2020 54 分析 Phylip軟件包中有兩個用于執(zhí)行bootstrap分析的程序 seqboot exe consence exe 分析過程 1 Seqboot產(chǎn)生大量的數(shù)據(jù)組2 應用選擇的算法對產(chǎn)生的數(shù)據(jù)組進行分析 3 由consence獲得最優(yōu)樹 20 04 2020 55 2 PAUPPAUP是著名的系統(tǒng)發(fā)育分析商業(yè)軟件 具有簡單并帶有菜單的頁面 目前 PAUP中構建系統(tǒng)樹的方法包括MP 最簡約法 如果針對核苷酸數(shù)據(jù) 還有距離法和最大似然法 現(xiàn)今有mac win linux等多種版本 該軟件不是免費軟件 使用者需要向開發(fā)者購買 20 04 2020 56 3 PAMLPAML是免費軟件包 PAML能夠進行ML模型的建立和系統(tǒng)樹的構建與評估 4 其他程序 1 FastDNAml是一個獨立的最大似然法建樹程序 2 MACCLEADE是一個交互式的Macintosh程序 能夠?qū)ο到y(tǒng)樹和數(shù)據(jù)進行操作 研究特性狀態(tài)下的系統(tǒng)發(fā)育行為 3 MEGAplusMETREE 4 MOLPHY是共享軟件包 可進行ML分析及核苷酸序列或氨基酸序列的統(tǒng)計 20 04 2020 57 三 一些需要注意的問題 1 到目前為止 在進行系統(tǒng)的發(fā)育分析中 最重要的不是進行發(fā)育分析采用的方法 而是輸入數(shù)據(jù)的質(zhì)量 即選擇數(shù)據(jù)永遠比比對過程重要 即使是最復雜的發(fā)育推斷方法都不能矯正數(shù)據(jù)的錯誤 2 從盡可能多的角度觀察數(shù)據(jù) 可以分別從距離法 最大簡約法和最大似然法分別觀察數(shù)據(jù) 然后比較其所建立的進化樹的一致性 盡管不同的方法得到的結(jié)果一致 也不能必然意味著結(jié)果就是統(tǒng)計顯著的 因為達到一致性的因素很多 20 04 2020 58 3 選擇合適的外群對分析相當重要 尤其是當外群同一個或幾個內(nèi)在的分類群擁有一個不同尋常的屬性時 問題就會復雜化 4 序列的輸入順序不同 程序也會給出不同的系統(tǒng)樹 如建樹軟件PHYLIP和PAUP提供了一個隨機選項 可以按照隨機的順序輸入程序進行運算 20 04 2020 59 系統(tǒng)樹構建案例分析 1 病毒基因組分析病毒受自身突變和自然選擇的影響 但病毒基因組的進化速度遠遠超過其他細胞的基因組 2 運用生物信息學方法研究SARS由一個典型的冠狀病毒結(jié)構 按照一定的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論