




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、生物信息學(xué),第二章序列比較,南方醫(yī)科大學(xué)珠海吉林大學(xué)李英,生物信息學(xué),3,1節(jié)簡(jiǎn)介,第1節(jié)introduction,4,(1)同源,兩個(gè)序列享有一種共同進(jìn)化,對(duì)于這兩個(gè)序列,他們不能說動(dòng)員或其他來源的70%或80%的動(dòng)員。同源,相似性和距離,5、同源是垂直同源和水平同源,垂直同源和水平同源。6,(2)相似性和距離,相似性和距離可分為相似性:匹配序列之間的相似性。距離:對(duì)應(yīng)序列之間的差異程度。相似性可以用于全局匹配和局部匹配,但距離通常僅用于全局匹配。這是因?yàn)樗从沉藢⒁粋€(gè)序列轉(zhuǎn)換為另一個(gè)序列所需的字符替換成本。7,2,相似性和距離的定量描述,相似性可以量化為兩個(gè)序列的函數(shù)。也就是說,它可以有多
2、個(gè)值。值的大小取決于兩個(gè)序列中相應(yīng)位置的相同字符數(shù)。值越大,表示兩個(gè)序列越相似。“編輯距離”(edit distance)可以定量定義為兩個(gè)序列的函數(shù),其值取決于兩個(gè)序列中相應(yīng)位置的差異字符數(shù),或者值越小,表示兩個(gè)序列越相似。8,無論在匹配,分?jǐn)?shù)上使用什么計(jì)分函數(shù),相似性都定義為總等效最大分?jǐn)?shù)。對(duì)于k序列,如果對(duì)每列中的所有替換操作使用一個(gè)函數(shù)cost()進(jìn)行計(jì)分,則多個(gè)序列之間的距離等于最小分?jǐn)?shù)。9,11,3,算法實(shí)現(xiàn)比較,用計(jì)算機(jī)科學(xué)術(shù)語比較兩個(gè)序列是查找兩個(gè)序列的最長(zhǎng)公共子序列(longest common subsequence,LCS),反映了兩個(gè)序列的最高相似性。12,動(dòng)態(tài)規(guī)劃法示
3、意圖,(a)使用動(dòng)態(tài)規(guī)劃法查找兩個(gè)序列最長(zhǎng)的公共部分。(b)創(chuàng)建動(dòng)態(tài)計(jì)劃表單。13,4,序列排序的作用,共同序列排序突變分析系統(tǒng)分析保守段分析基因和蛋白質(zhì)功能分析,14,2節(jié)比較算法摘要,第2節(jié)Alignment Algorithms,15,(16,b .兩個(gè)序列有一個(gè)公共子序列。17,c .兩個(gè)序列反向匹配,18,d。兩個(gè)序列有兩個(gè)不連續(xù)的子序列。19,(2) DNA序列匹配的替換分?jǐn)?shù)矩陣,相應(yīng)的矩陣。20,核苷酸轉(zhuǎn)換矩陣,21,(3)蛋白質(zhì)序列匹配的替換分?jǐn)?shù)矩陣,等效矩陣遺傳密碼矩陣(GCM)疏水矩陣(hydrophobic matrix) PAM矩陣BLOSUM矩陣,2,PAM/BLOS
4、UM矩陣數(shù)與序列親緣關(guān)系的比較,23、2、2、2、2、2、2、2、2、2、2、2、2、2、2、2、2、2、2、2、2 M=a.I和b1.j的最大相似度分?jǐn)?shù)。24,w(c,D)是字母C和D根據(jù)替換分?jǐn)?shù)矩陣計(jì)算的分?jǐn)?shù)。您可以按照以下規(guī)則建立分?jǐn)?shù)矩陣:S (I,0)=0,0i m s (0,j)=0,0j n,s (I-1,j-1) w (ai,bj)。W(a,-)=w(-,b)=w(不一致)=-1,26,分?jǐn)?shù)矩陣、28、4、多序列全局比較、多序列匹配主要包含四個(gè)元素。選擇一組可匹配的序列(要求是源序列)。選擇實(shí)現(xiàn)比較和分?jǐn)?shù)的算法和軟件。確定軟件的參數(shù)。合理解釋比較結(jié)果。與雙序列排序類似,多序列排序
5、也具有全局和局部匹配。29,(a)多序列匹配的動(dòng)態(tài)編程方法,(a)計(jì)算三個(gè)序列之間的比較單位(I,j,k)取決于七個(gè)前置項(xiàng)。(b) u=atgtat,v=ATCGTAC,w=ATGC計(jì)算三階對(duì)應(yīng)三維分?jǐn)?shù)矩陣。計(jì)算三個(gè)序列匹配,30,(2)漸進(jìn)式多序列匹配,三個(gè)序列的匹配匹配不一定合并為一個(gè)多序列匹配.對(duì)于接近或超過31、100個(gè)序列的多序列匹配,增量多序列匹配更有效。最流行的漸進(jìn)多序列比較軟件是Clustal家族。32、ClustalW具有以下特征:首先,在匹配中為每個(gè)序列指定特殊權(quán)重,以減少高近似序列的影響,并增加遠(yuǎn)處序列的影響(參見下圖)。ClustalW如何將權(quán)限授予序列,33,二,根據(jù)
6、序列間進(jìn)化距離的離婚,在徐璐不同階段徐璐使用不同的氨基酸替代矩陣。第三,使用與特定氨基酸相關(guān)的空缺(gap)罰分函數(shù),對(duì)親水氨基酸區(qū)域的空缺進(jìn)行了低罰。第四,在早期配對(duì)比較中,對(duì)出現(xiàn)空缺的位置的處罰較少,對(duì)引入空缺和擴(kuò)大空缺的懲罰也不同。34,迭代方法基于一致性的方法遺傳算法,其他多序列全局匹配方法,35,5,多序列局部匹配,全局匹配,公共特征假定序列中的所有相應(yīng)字符都可以匹配,所有字符都具有相同的重要性,插入空格以匹配整個(gè)序列,包括兩端對(duì)齊。局部匹配不假定整個(gè)序列可以匹配。關(guān)注考慮序列中可高度匹配的一個(gè)部分將賦予該部分較大的分?jǐn)?shù)權(quán)重,插入空格以更好地匹配高度匹配的段。36、2個(gè)序列的全局和局
7、部比較可以得到完全不同的結(jié)果。37,基于隱藏Markov模型的多序列比較方法,隱藏Markov模型和3個(gè)蛋白質(zhì)序列PHSFTYVMT,PGSFTYW,RFTGFW的最小公共超圖,38;2.將序列與隨機(jī)生成的序列集進(jìn)行比較,然后將比分與對(duì)應(yīng)的分?jǐn)?shù)進(jìn)行比較。3.隨機(jī)重組兩個(gè)序列中的任意一個(gè)。例如,重組100次,與其他序列相比,獲得一組對(duì)應(yīng)分?jǐn)?shù)。39,3節(jié)數(shù)據(jù)庫搜索,3節(jié)數(shù)據(jù)庫搜索,40,1,經(jīng)典BLAST,基本BLAST算法本身很簡(jiǎn)單。重點(diǎn)是“段對(duì)”(segment pair)。41、BLAST的查詢序列和數(shù)據(jù)庫類型,42,BLAST算法圖,43,2,衍生的BLAST,(1) PSI-BLAST主
8、要用來搜索感興趣的蛋白質(zhì)和較遠(yuǎn)的蛋白質(zhì)。(b) PHI-BLAST有助于判斷這種蛋白質(zhì)屬于哪個(gè)家族。(c) BLASTZ BLASTZ是在人類和老鼠的基因組中開發(fā)的,適合比較非常長(zhǎng)的序列。44,3,Blat,Blat(BLAST-Like Alignment Tool)與BLAST搜索原理類似,但開發(fā)了用于全基因組分析的技術(shù)。BLAT的優(yōu)點(diǎn)是速度快。比BLAST快幾百倍。根本原因是: BLAST索引查詢序列,而BLAT索引搜索數(shù)據(jù)庫。BLAT將相關(guān)的線性比較結(jié)果鏈接為較大的比較結(jié)果。45、4、RNA序列搜索、RNA序列匹配/搜索算法可分為兩大類:查詢序列(查詢序列)的結(jié)構(gòu)未知,需要查找與數(shù)據(jù)庫
9、結(jié)構(gòu)相似的同源序列。,46,利用查詢序列的結(jié)構(gòu)信息,建立描述RNA序列的公共結(jié)構(gòu)的概率模型,可以細(xì)分為數(shù)據(jù)庫搜索。根據(jù)索引(index)或motif(motif)中介紹的方法,定義RNA結(jié)構(gòu)或公共結(jié)構(gòu)并執(zhí)行數(shù)據(jù)庫搜索。47,5,數(shù)據(jù)庫搜索的統(tǒng)計(jì)重要性,典型BLAST搜索的輸出包括E值和分?jǐn)?shù),分為原始分?jǐn)?shù)和位分?jǐn)?shù)。P=1-e-E,P和E值是使用E值而不是P值定義搜索的統(tǒng)計(jì)重要性的兩種不同方法。48、第iv節(jié)比較軟件、參數(shù)和數(shù)據(jù)資源、第4節(jié)alignment software、Parameter and Resource、49.49,1,參數(shù)選擇的一般原則,空白罰分存在一些問題,對(duì)于大小不同的空缺
10、,罰分空白的引入和擴(kuò)大是否徐璐給予其他罰分。50,如果數(shù)據(jù)庫搜索產(chǎn)生太多返回結(jié)果,則可以采取以下措施:使用參照序列(帶有“refseq”)的數(shù)據(jù)庫可以減少大量重復(fù)結(jié)果。通過確保祖懷順序僅包含一個(gè)域,減少多域?qū)е碌亩鄠€(gè)匹配。根據(jù)查詢序列和數(shù)據(jù)庫序列之間的關(guān)系,使用更合適的替代分?jǐn)?shù)矩陣。減小e值。51,如果數(shù)據(jù)庫搜索返回的結(jié)果太少,可以采取以下措施:增加e值。使用較大的PAM矩陣或較小的BLOSUM矩陣??s短字符長(zhǎng)度,減小閾值。52,2,主要比較軟件,53,3,EBI的序列匹配工具,54、4、UCSC中的BLAT匹配工具、BLAT聯(lián)機(jī)工具輸入界面、55,Bl。57、1、glocal比較、兩個(gè)序列的本地、全局和glocal匹配路徑、58,2,全基因組比較,59,UCSC基因組瀏覽器中使用的多序列比較在很多方面有所改善。首先,使用“參照序列”(reference sequence),使用BLASTZ將每個(gè)序列與參照序列進(jìn)行局部匹配,將參照序列的一個(gè)堿基與另一序列的多個(gè)堿基進(jìn)行比較。其次,根據(jù)分?jǐn)?shù)矩陣和兩個(gè)序列的系譜關(guān)系,匹配的結(jié)果被稱為“連接”和“網(wǎng)絡(luò)”。然后,U
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 華中師范大學(xué)《基因工程及實(shí)驗(yàn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 平頂山職業(yè)技術(shù)學(xué)院《實(shí)驗(yàn)力學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年保健品銷售合同范本
- 魔術(shù)車托班課件
- 2025至2031年中國(guó)多協(xié)議網(wǎng)絡(luò)控制器行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2030年中國(guó)門鈴界面模塊數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)聚酯桶罐裝線數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025年度寧波商鋪?zhàn)赓U合同模板
- 2025至2030年中國(guó)特效除苦劑數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 油水井壓力測(cè)試施工方案
- 年產(chǎn)萬噸酒精發(fā)酵車間設(shè)計(jì)
- 三種水封井及標(biāo)準(zhǔn)圖集
- 生物化學(xué)與分子生物學(xué)人衛(wèi)版教材全集
- 照片里的故事
- 管道陰極保護(hù)
- 土木工程畢業(yè)設(shè)計(jì)框架結(jié)構(gòu)教學(xué)樓計(jì)算書
- 整理【越南】環(huán)境保護(hù)法
- 河北工業(yè)大學(xué)碩士生指導(dǎo)教師(含新申請(qǐng)者)簡(jiǎn)況表.
- TAIYE370-DTH-IV液壓鉆機(jī)操作維護(hù)說明書
- 最新小微企業(yè)有限責(zé)任公司章程范本
- 吉林大學(xué)第一臨床醫(yī)學(xué)院進(jìn)修人員申請(qǐng)表
評(píng)論
0/150
提交評(píng)論