多重序列比對_第1頁
多重序列比對_第2頁
多重序列比對_第3頁
多重序列比對_第4頁
多重序列比對_第5頁
已閱讀5頁,還剩36頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、多重序列比對序列相似性比較: 就是將待研究序列與就是將待研究序列與DNA或蛋白質(zhì)序列庫進行比較,用于確或蛋白質(zhì)序列庫進行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有有BLAST、FASTA等等;序列同源性分析: 是將待研究序列加入到一組與之同源,但來自不同物種的是將待研究序列加入到一組與之同源,但來自不同物種的序列中進行多序列同時比較,以確定該序列與其它序列間序列中進行多序列同時比較,以確定該序列與其它

2、序列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;等;r 用于描述一組序列之間的相似性關(guān)系,用于描述一組序列之間的相似性關(guān)系,以便了解一個基因家族的基本特征,尋以便了解一個基因家族的基本特征,尋找找motif,保守區(qū)域等。,保守區(qū)域等。r 用于描述一個同源基因之間的親緣關(guān)系用于描述一個同源基因之間的親緣關(guān)系的遠近,應(yīng)用到分子進化分析中。的遠近,應(yīng)用到分子進化分析中。r 基因和蛋白質(zhì)功能分析基因和蛋白質(zhì)功能分析r 其他應(yīng)用,如構(gòu)建其

3、他應(yīng)用,如構(gòu)建profile,打分矩陣等。,打分矩陣等。C-terminalN-terminalAMP-bindingr 1. 最優(yōu)的多序列比對,其兩兩序列之間的比對最優(yōu)的多序列比對,其兩兩序列之間的比對不一定最優(yōu)不一定最優(yōu)最優(yōu)的多序列比對非最優(yōu)的雙序列比對r 1. 漸進方法:漸進方法:progressive methods|ClustalW/X, T-Coffeer 2. 迭代算法:迭代算法:iterative methods|PRRP, DIALIGNr 3. 部分有向圖算法:部分有向圖算法:|Partial Order Algorithm (POA)r 4. 全局多序列比對的隱馬爾科夫模

4、型全局多序列比對的隱馬爾科夫模型|ProbCons r 5. 整合算法:整合算法:meta-methods|MUSCLEr (1) ClustalW/X|a. Clustal: 1988年開發(fā)年開發(fā)|b. ClustalW: 1994年,年,Julie D. Thompson等人改進、開發(fā)等人改進、開發(fā)|c. ClustalX: 1997年,圖形化軟件年,圖形化軟件r (2) T-Coffeer 1. 將所有序列兩兩比對,計算距離矩陣;將所有序列兩兩比對,計算距離矩陣;r 2. 構(gòu)建鄰接進化樹構(gòu)建鄰接進化樹(neighbor-joining tree)/指導(dǎo)樹指導(dǎo)樹(guide tree);r

5、 3. 將距離將距離最近最近的兩條序列用動態(tài)規(guī)劃的算的兩條序列用動態(tài)規(guī)劃的算法進行比對;法進行比對;r 4. “漸進漸進”的加上其他的序列的加上其他的序列兩兩比對,構(gòu)建距離矩陣指導(dǎo)樹的構(gòu)建漸進比對1.1.輸入輸出格式。輸入輸出格式。 輸入序列的格式比較靈活,可以是前面介紹過的輸入序列的格式比較靈活,可以是前面介紹過的FASTA格式,還可以是格式,還可以是PIRPIR、SWISS-PROTSWISS-PROT、GDEGDE、ClustalClustal、GCG/MSFGCG/MSF、RSFRSF等格式。等格式。 輸出格式也可以選擇,有輸出格式也可以選擇,有ALN、GCGGCG、PHYLIPPHY

6、LIP和和NEXUSNEXUS等,等,用戶可以根據(jù)自己的需要選擇合適的輸出格式。用戶可以根據(jù)自己的需要選擇合適的輸出格式。2.2.兩種工作模式。兩種工作模式。 a.多序列比對模式。 b.剖面(profile)比對模式。輸入文件的格式輸入文件的格式(fasta)(fasta):KCC2_YEASTKCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTN NYIFGRTLGAGSFGVVRQARKLSTNDMK_HUMANDMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK. DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMN

7、K.KPRO_MAIZEKPRO_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLENDAF1_CAEELDAF1_CAEELQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALDQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD1CSN1CSN HYKVGRRIGEGSFGVIFEGTNLLNN HYKVGRRIGEGSFGVIFEGTNLLNNr 第一步:輸入序列文件。第一步:輸入序列文件。r 第二步:設(shè)定比對的一些參數(shù)。第二步:設(shè)定比對的一些參數(shù)。r 參數(shù)

8、設(shè)定窗口。參數(shù)設(shè)定窗口。r 部分參數(shù)定義r Gap opening penalty:增大數(shù)值使 gap 數(shù)目減少r Gap extension penalty:增大數(shù)值使 gap 長度變短r Weight transition:AG 轉(zhuǎn)換或 CT 轉(zhuǎn)換(multiple DNA sequence alignment)r Hydrophilic gap:選擇“ on” 將增加形成 gap 的機會(multiple protein sequence alignment)r Residue-specific gap penalties:選擇“ on” 將增加在某些氨基酸殘基處形成 gap 的機會,而

9、減少在另一些氨基酸殘基處形成 gap 的機會(multiple protein sequence alignment)r 第三步:開始序列比對。第三步:開始序列比對。r 第四步:比對完成,選擇保存結(jié)果文件的格式第四步:比對完成,選擇保存結(jié)果文件的格式r 產(chǎn)生輸出的ALN文件r 產(chǎn)生輸出的DND文件,它是系統(tǒng)的種系樹r 1. 距離最近的,有兩組序列距離最近的,有兩組序列AB和和CD,哪,哪組最先比對?兩種方案:組最先比對?兩種方案:|A. 分別、同時比對。但是,是以分別、同時比對。但是,是以AB為準,加為準,加入入CD,然后再加上其他序列,還是,然后再加上其他序列,還是CD為準?為準?結(jié)果可能出

10、入很大結(jié)果可能出入很大|B. 隨機挑選一組作為基準隨機挑選一組作為基準r 2. 當序列差異較大時,上述問題更加明顯當序列差異較大時,上述問題更加明顯r 1. 三條序列:三條序列:r 2.若若Seq1,2先比對,先比對,再加入再加入Seq3:r 3. Seq1,3先比對,再先比對,再加入加入Seq2:r 4. Seq2,3先比對,再先比對,再加入加入Seq1:Seq1: ARKCVSeq2: ARCVSeq3: AKCVARKCVAR-CVA-KCVAR C VA-RCVA-KCVARKCVAR-CVAK-CVr 算法分為三個部分,每個部分相對獨立;算法分為三個部分,每個部分相對獨立;r 1.

11、Draft progressive: |(1) 對兩條序列,計算距離采用對兩條序列,計算距離采用k-mer的思想;的思想;|(2) 用用UPGMA算法構(gòu)建引導(dǎo)樹算法構(gòu)建引導(dǎo)樹|(3) 使用漸進算法進行多序列比對使用漸進算法進行多序列比對r 優(yōu)點:兩條序列之間的距離不采用動態(tài)規(guī)優(yōu)點:兩條序列之間的距離不采用動態(tài)規(guī)劃算法進行比對,節(jié)省時間劃算法進行比對,節(jié)省時間r 2. Improved progressive: |(1)基于基于k-mer得到的樹可能會產(chǎn)生次優(yōu)結(jié)果,得到的樹可能會產(chǎn)生次優(yōu)結(jié)果,因此,采用因此,采用Kimura距離的方法對距離的方法對k-mer產(chǎn)生產(chǎn)生的樹重新計算距離矩陣的樹重新計

12、算距離矩陣|(2)重新用重新用UPGMA構(gòu)建進化樹構(gòu)建進化樹|(3)使用漸進算法進行多序列比對使用漸進算法進行多序列比對r 2. Refinement: |(1)隨機從進化樹上挑出一條邊,刪除隨機從進化樹上挑出一條邊,刪除|(2)得到兩組樹,對每組樹,計算得到兩組樹,對每組樹,計算profile|(3)將兩組將兩組profile進行比對進行比對|(4)如果最終得分提高,保留結(jié)果,否則丟棄如果最終得分提高,保留結(jié)果,否則丟棄 在許多情況下多序列比對需要揭示被多個非保守區(qū)間隔的多個保守區(qū),對此MAP2是個有效工具。下面的截圖介紹如何使用在線版的MAP2 。1.在線MAP2的網(wǎng)址以及兩種輸入數(shù)據(jù)提供方式。在本例中數(shù)據(jù)被貼入提供的窗口,數(shù)據(jù)與ClustalX2.0中相同,是23個動物中的miR-19。2.主要的參數(shù)及其缺省值。DNA block penalty(Linux版本的參數(shù)major_diff)影響非保守區(qū)塊的大小,mismatch score、gap open penalty和gap extension penalty只影響保守區(qū)中的全局比對。3.MAP2以兩種方式返回三個結(jié)果 在線

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論