選修9第四章dna和蛋白質序列比對_第1頁
選修9第四章dna和蛋白質序列比對_第2頁
選修9第四章dna和蛋白質序列比對_第3頁
選修9第四章dna和蛋白質序列比對_第4頁
選修9第四章dna和蛋白質序列比對_第5頁
免費預覽已結束,剩余58頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、生物信息學Bioinformatics1丁乃崢山東師范大學生命科學學院信箱: 第四章 DNA與蛋白質序列比對第一節(jié) 序列的相似性第二節(jié) 序列的兩兩比對第三節(jié) 序列的多重比對第四節(jié) BLAST的應用2什么是序列比對?序列比對(Sequence Alignment)是通過在序列中搜索一系列單個性狀或性狀模式來比較2個(雙序列比對)或更多(多重序列比對)序列的方法按比對序列條數(shù)分類雙序列比對:兩條序列的比對多序列比對:三條或以上序列的比對3我們?yōu)槭裁搓P注序列比對?相似的序列可能具有相似的結構與功能發(fā)現(xiàn)一個基因或蛋白哪些區(qū)域容易發(fā)生突變,哪些位點突變后對功能沒有影響 發(fā)現(xiàn)生物進化方面的信息4序列比對的

2、根本任務:發(fā)現(xiàn)序列之間的相似性辨別序列之間的差異目的:相似序列相似的結構相似的功能 判別序列之間的同源性推測序列之間的進化關系 第一節(jié) 序列的相似性5一致性(identity):描述了在每個位點上兩條或兩條以上的序列的實際相似程度,通過計算排列完的序列上相同的堿基或氨基酸數(shù)目衡量。例如 THISISA-SEQUENCE TH-ATSEQUENCE6第一節(jié) 序列的相似性1611= 68.75%7相似性 (Similarity)序列比對過程中用來描述檢測序列和目標序列之間相似DNA堿基或氨基酸殘基序列所占比例;定量描述;真正的匹配不必相同第一節(jié) 序列的相似性TH I S ISASEQUENCETH

3、 A T -SEQUENCETHISISA-SEQUENCETH-ATSEQUENCE疏水性側鏈為-OH帶極性8同源性 (Homology)兩個基因或蛋白質序列具有共同祖先的結論;定性判斷;兩種類型:直系同源(Orthologous )是不同物種內具有相同功能的同源序列,它們來自于物種形成時的共同祖先基因。旁系同源(Paralogous )是通過類似基因復制的機制產(chǎn)生的同源序列。如在同一物種內具有不同功能,但也有共同起源的基因。第一節(jié) 序列的相似性同源有兩種不同的情況即垂直方向的(orthology)與水平方向的(paralogy)Orthology直系同源、直向同源、垂直同源。Paralog

4、y旁系同源、并系同源、橫向同源直系同源的定義是:直系同源(orthology)是比較基因組學中最重要的定義。在進化上起源于一個始祖基因并垂直傳遞(vertical descent)的同源基因;分布于兩種或兩種以上物種的基因組;功能高度保守乃至于近乎相同,甚至于其在近緣物種可以相互替換;結構相似;組織特異性與亞細胞分布相似。 9鑒定直系同源的實際操作標準(practical criteria)為:如基因組中的A基因與基因組中的A基因被認為是直系同源,則要求:A的產(chǎn)物比任何在基因組中所發(fā)現(xiàn)的其它基因產(chǎn)物都更相似于A產(chǎn)物;A與A的相似程度比在任何一個親緣關系較遠的基因組中的任一基因都要高;A編碼的蛋

5、白與A編碼的蛋白要從頭到尾都能并排比較, 即含有相似以至于相同的模序(motif)。10例如同是起源于珠蛋白的珠蛋白、珠蛋白和肌紅蛋白。11paralogs祖先基因經(jīng)過復制后分離產(chǎn)生的基因是paralog相似性和同源性關系同源序列一般是相似的一般來說,序列間的相似性越高的話,它們是同源序列的可能性就更高。但也有例外,相似序列不一定是同源的。例如:兩條序列的相似性很高,但它們可能并不是同源序列,這兩條序列的相似性可能是由隨機因素所產(chǎn)生的,這在進化上稱為“趨同,這樣一對序列可稱為同功序列12第一節(jié) 序列的相似性序列比較的基本操作是比對(Alignment) 兩個序列的比對是指這兩個序列中各個字符的

6、一種一一對應關系,或字符的對比排列 。設有兩個序列:GACGGATTAG,GATCGGAATAGAlignment2: GA CGGATTAGGATCGGAATAGAlignment1:GACGGATTAG GATCGGAATAG13第一節(jié) 序列的相似性一、字母表和序列二、編輯距離(Edit Distance)三、序列兩兩比對的相似性評價四、打分矩陣(Weight Matrices)14第一節(jié) 序列的相似性一、字母表和序列在生物分子信息處理過程中,將生物分子序列抽象為字符串,其中的字符取自特定的字母表。字母表是一組符號或字符,字母表中的元素組成序列。一些重要的字母表有:4字符DNA字母表:A,

7、 C, G, T擴展的遺傳學字母表或IUPAC編碼單字母氨基酸編碼上述字母表形成的子集。1516擴展的遺傳學字母表或IUPAC編碼17氨基酸名稱英文縮寫簡 寫氨基酸名稱英文縮寫簡 寫甘氨酸GlyG絲氨酸SerS丙氨酸AlaA蘇氨酸ThrT纈氨酸ValV天冬酰胺AsnN異亮氨酸IleI谷酰胺GlnQ亮氨酸LeuL酪氨酸TyrY苯丙氨酸PheF組氨酸HisH脯氨酸ProP天冬氨酸AspD甲硫氨酸MetM谷氨酸GluE色氨酸TrpW賴氨酸LysK半胱氨酸CysC精氨酸ArgR單字母氨基酸編碼 代表字母表 A* 代表由字母表A中字符所形成的一系列有限長度序列或字符串或序列的集合 a、b、c代表單獨的字

8、符 s、t、u、v代表A*中的序列 |s|代表序列s的長度18特定的符號 為了說明序列s子序列和s中單個字符,在s中各字符之間用數(shù)字標明分割邊界例如,設s=ACCACGTA,則s可表示為 0A1C2C3A4C5G6T7A8 i:s:j 指明第i位和第j位之間的子序 列, 當然,0 i j |s|。 子序列 0:s: i 稱為前綴即prefix(s,i) 子序列 i:s:|s| 稱為后綴, 即suffix(s, |s|-i)有兩種特殊的情況,即i=j 或i = j-1。 i:s: i 為空序列j-1:s:j 表示s 中的第j 個字符,簡記為sj19i=3 j=60:s: 3 prefix(s,3

9、) 3:s:6 3A4C5G60A1C2C33:s:8 suffix(s, 8-3)i=3i=3 3A4C5G6T7A8j=4 4-1:s:4 s43A4子序列:選取s中的某些字符(或刪除s中的某些字符)而形成s的子序列例如: TTT 是 ATATAT的子序列。 子串:是由s中相繼的字符所組成。 例如: TAC是AGTACA的子串, 但不是TTGAC的子串(是子序列)。 子串是子序列 子序列不一定是子串20子序列與子串字符串操作字符串連接操作:兩個序列s和t的連接: s + + t例如:ACC+CTA = ACCCTA 字符串k操作 刪除字符串兩端的字符 其定義如下:prefix(s,l) =

10、 sk|s|-lsuffix(s,l) = k|s|-ls i:s:j = kisk|s|-j 21(1)兩條長度相近的序列相似 找出序列的差別(2)判斷一條序列的前綴與另一條序列的后綴相似(3)判斷一條序列是否是另一條序列的子序列(4)判斷兩條序列中是否有非常相似的子序列22序列比較可以分為四種基本情況:序列片段的組裝搜索特定的序列模式分析保守序列例如,設s=ACCACGTA,則s可表示為 0A1C2C3A4C5G6T7A8 prefix(s,l) = sk|s|-l l=3 |s|=8prefix(s,3) =0:s: 3 =0A1C2C3= sk8-3 表示對s序列進行k操作,刪除s后面

11、的5個字符0A1C2C3A4C5G6T7A8 23字符串k操作例如,設s=ACCACGTA,則s可表示為 0A1C2C3A4C5G6T7A8 suffix(s,l) = k|s|-ls l=5 |s|=8suffix(s,5) =suffix(s, |s|-i)= i:s:|s|suffix(s, 8-3)=3:s:8 =3A4C5G6T7A8= k8-5 s 表示對s序列進行k操作,刪除s前面的3個字符0A1C2C3A4C5G6T7A8 24字符串k操作例如,設s=ACCACGTA,則s可表示為 0A1C2C3A4C5G6T7A8 i:s:j = kisk|s|-j i=3 j=6 |s|=

12、83:s:6 =3A4C5G6= k3sk8-6表示對s序列進行k操作,刪除s前面的3個字符和后面的2個字符0A1C2C3A4C5G6T7A8 25字符串k操作二、編輯距離(Edit Distance)GCATGACGAATCAG TATGACAAACAGC GCATGACGAATCAG TATGAC-AAACAGC 要說明兩條序列的相似程度 定量計算 26觀察這樣兩條DNA 序列:GCATGACGAATCAG TATGACAAACAGC 有兩種方法可用于量化兩條序列的相似程度:相似度:它是兩個序列的函數(shù),其值越大,表示兩個序列越相似 距離:兩個序列之間的距離。距離越大,則兩個序列的相似度就越

13、小 二、編輯距離(Edit Distance)27最簡單的距離就是海明(Hamming)距離。對于兩條長度相等的序列,海明距離等于對應位置字符不同的個數(shù)。例如二、編輯距離(Edit Distance)28在許多情況下,直接運用海明距離來衡量兩條序列的相似程度是不合理的。字符編輯操作(Edit Operation)字符編輯操作可將一個序列轉化為一個新序列 Match(a,a)Delete(a,-) Replace(a,b)Insert(-,b)29字符匹配從第一條序列刪除一個字符,或在第二條序列相應的位置插入空白字符;以第二條序列中的字符b 替換第一條序列中的字符a在第一條序列插入空位字符,或刪

14、除第二條序列中的對應字符b。引入上述編輯操作后,重新計算兩條序列的距離,就成為編輯距離。兩個空位字符不能匹配擴展的編輯操作ACCGACAATATGCATA ATAGGTATAACAGTCAACCGACAATATGCATA ACTGACAATATGGATA 第二條序列頭尾顛倒(反向)CTAGTCGAGGCAATCTGAACAGCTTCGTTAGT ?30CTAGTCGAGGCAATCTCTTGTCGAAGCAATCA(互補)三、序列兩兩比對的相似性評價序列的兩兩比對(Pairwise Sequence Alignment)按字符位置重組兩個序列,使得兩個序列達到一樣的長度 31 s:AGCACA

15、CAAGCACACA t:ACACACTAACACACTA Match(A, A)Match(A, A)Delete(G, - )Replace(G, C)Match(C, C)Insert( -, A)Match(A, A)Match(C, C)Match(C, C)Match(A, A)Match(A, A)Match(C, C)Match(C, C)Replace(A, T)Insert( -, T)Delete(C, -)Match(A, A)Match(A, A) 序列AGCACACA和ACACACTA的兩種比對結果Alignment -1 Alignment -2不同編輯操作的代價

16、不同為編輯操作定義函數(shù)w,它表示“代價(cost)”或“權重(weight)”。對字母表中的任意字符a、b,定義 w (a, a) = 0 w (a, b) = 1 a b w (a, -) = w ( -, b) = 1 33依據(jù),配對得0分,不匹配扣1分。得分(score)函數(shù)也可以使用得分(score)函數(shù)來評價編輯操作 p (a, a) = 1 p (a, b) = 0 a b p (a, -) = w ( -, b) = -1 34依據(jù),配對得1分,不匹配不得分,插入1個gap扣1分??瘴涣P分例如:s:AGCACACAt:ACACACTA cost=2 s:AGCACACA t:AC

17、ACACTA score (s,t)= 5序列比對的目的是尋找一個得分最大(或代價最小)的比對。35空位罰分(Gap Penalties)最優(yōu)的序列比對通常具有以下兩下特征:盡可能多的匹配盡可能少的空位插入任意多的空位會產(chǎn)生較高的分數(shù),但找到的并不一定是真正相似序列為補償插入與缺失對序列相似性的影響,必須使用空位和空位罰分36空位罰分(Gap Penalties)空位罰分:在一條序列的殘基間引入一個空位使得這條序列與第二條序列的相似殘基對齊,引入空位的一個數(shù)值罰分(分值)稱為空位罰分。每個記分矩陣都有默認的空位罰分值??瘴涣P分分類:空位開放罰分(Gap opening penalty)對起始缺

18、失進行罰分。空位延長罰分(Gap extension penalty) :當加入一個空位至已存在的空位時的罰分,使得大于一個殘基不能對齊或者和空位對齊。37空位罰分381 GTGATAGACAC | 1 GTGCATAGACAC允許空位但不罰分不允許有空位 match = 5mismatch = -41 GTG-ATAGACAC | |1 GTGCATAGACAC1 GTG-ATAGACAC | |1 GTGC-ATAGACAC?Score: -21Score: 55空位罰分公式 A T G T T A T A CT A T G T G C G T A T A Score=4參數(shù):匹配= 1非

19、匹配= 0g= 3r = 0.1x = 3score:8 - 3.2 = 4.8Wx=g+r(x-1)Wx:空位總記分g:空位開放罰分r:空位擴展罰分x:空位長度T A T G T G C G T A T A insertion / deletionA T G T - - - T A T A CWx= 3 +(3 -1) 0.1 = 3.239四、打分矩陣(Weight Matrices)理化性質相近得分應該高于理化性質相差甚遠保守的氨基酸替換得分應該高于非保守的氨基酸替換。這樣的打分方法在比對非常相近的序列以及差異極大的序列時,會得出不同的分值。這就是提出打分矩陣(或者稱為取代矩陣)的原由。

20、40丙氨酸 纈氨酸 小且疏水 影響較小 得分高 代價小賴氨酸 大且?guī)щ?影響較大 得分低 代價大四、打分矩陣(Weight Matrices)41打分矩陣列出各種字符替換的得分用打分矩陣來增強序列比對的敏感性。選擇不同的打分矩陣將得到不同的比較結果了解打分矩陣的理論依據(jù)將有助于在實際應用中選擇合適的打分矩陣。四、打分矩陣(Weight Matrices)421、核酸打分矩陣2、蛋白質打分矩陣四、打分矩陣(Weight Matrices)1、核酸打分矩陣設DNA序列所用的字母表為 = A,C,G,T 等價矩陣:BLAST矩陣:轉換-顛換矩陣:4344等價矩陣:是最簡單的一種打分矩陣,相同核苷酸匹

21、配得分為“1”,不同核苷酸的替換得分為“0”(沒有得分)。ATCGA1000T0100C0010G0001等價矩陣表1、核酸打分矩陣45BLAST矩陣:是目前最流行的核酸序列比較程序,右表是其打分矩陣。這也是一個非常簡單的矩陣,如果被比的兩個核苷酸相同,則得分為“+5”,反之得分為“-4”。1、核酸打分矩陣ATCGA5-4-4-4T-45-4-4C-4-45-4G-4-4-45BLAST矩陣轉換-顛換矩陣:如果DNA 堿基的變化(堿基替換)保持環(huán)數(shù)不變,則稱為轉換(transition),如AG,CT;如果環(huán)數(shù)發(fā)生變化,稱為顛換(transversion),如AC,AT 等。在進化過程中,轉換

22、發(fā)生的頻率遠比顛換高,其中轉換的得分為“-1”,而顛換的得分為“-5”。1、核酸打分矩陣轉換-顛換矩陣46四、打分矩陣(Weight Matrices)2、蛋白質打分矩陣設蛋白質的字母表為單字母氨基酸編碼等價矩陣氨基酸突變代價矩陣(遺傳密碼矩陣GCM)疏水矩陣 PAM矩陣(Point Accepted Mutation)BLOSUM矩陣(Blocks Amino Acid Substitution Matrices)47等價矩陣其中Rij代表打分矩陣元素i、j分別代表字母表第i和第j個字符。482、蛋白質打分矩陣遺傳密碼矩陣GCMGCM 矩陣通過計算一個氨基酸殘基轉變到另一個氨基酸殘基所需的密

23、碼子變化數(shù)目而得到,矩陣元素的值對應于代價。492、蛋白質打分矩陣變化1個堿基氨基酸的密碼子改變代價為1變化2個堿基氨基酸的密碼子改變代價為2注意,Met 到Tyr 的轉變是僅有的密碼子三個位置都發(fā)生變化的轉換。50Glx 代表Gly、Gln 或GluAsx 代表Asn 或Asp代表任意氨基酸GCM 常用于進化距離的計算,其優(yōu)點是計算結果可以直接用于繪制進化樹,但是它在蛋白質序列比對尤其是相似程度很低的序列比對中很少被使用。疏水矩陣是根據(jù)氨基酸殘基替換前后疏水性的變化而得到得分矩陣。若一次氨基酸替換疏水特性不發(fā)生太大的變化,則這種替換得分高,否則替換得分低。512、蛋白質打分矩陣52為了得到打

24、分矩陣,更常用的方法是統(tǒng)計自然界中各種氨基酸殘基的相互替換率。兩種特定氨基酸之間替換頻繁,那么這一對氨基酸在打分矩陣中的互換得分就比較高。PAM 矩陣就是這樣一種打分矩陣532、蛋白質打分矩陣PAM 矩陣(Point Accepted Mutation,點接受突變)54PAM 矩陣Dr. Margaret Oakley Dayhoff (1925-1983)1978年,Dayhoff教授給出了一個PAM矩陣,這個矩陣實際上是一個概率表,就是每一個氨基酸突變成另一個氨基酸的概率是多少,由于沒有足夠多的序列和理想的比對算法,她選擇了相似程度非常高(85%)的蛋白質序列集。在統(tǒng)計了1572個突變點之

25、后,她總結出了每一個氨基酸突變成另一個氨基酸的概率表,就是PAM1矩陣。編碼相同蛋白質的基因隨著進化發(fā)生分歧,相似度降低。但存在取代頻率大大地傾向于那些不影響蛋白質功能的取代,即這些點突變已經(jīng)被進化所接受。氨基酸容易被其它生化、物理特性相似的氨基酸替換。PAM代表可接受點突變,每100個殘基中可接受的點突變。55PAM 矩陣PAM1(1個PAM單位)被定義為每100個殘基出現(xiàn)1個被接受的點突變(氨基酸的置換不引起蛋白質功能上的顯著變化)PAMn是PAM1自乘n次PAM 250矩陣:這個矩陣是指平均100個殘基上固定會發(fā)生250次突變。也就是很多殘基都發(fā)生過一次以上的突變。這種變化數(shù)量接近于檢測

26、遙遠關系的極限。PAM 250是一種較為常見的替代矩陣。56矩陣集合- PAM-N針對不同的進化距離采用PAM 矩陣序列相似度 = 40% 50% 60% | | |打分矩陣 = PAM120 PAM80 PAM 60PAM250 14% - 27% 57 A R N D C Q E G H I L K M F P S T W Y V B ZA 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1

27、1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3

28、 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2

29、4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3 -4 -2 -4 0 -4 -4 -5 0 -

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論