蛋白質序列--基礎知識與打分矩陣_第1頁
蛋白質序列--基礎知識與打分矩陣_第2頁
蛋白質序列--基礎知識與打分矩陣_第3頁
蛋白質序列--基礎知識與打分矩陣_第4頁
蛋白質序列--基礎知識與打分矩陣_第5頁
已閱讀5頁,還剩57頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、序列比對 (sequence alignment)retinol-binding protein(NP_006735)b-lactoglobulin(P02754)中心思想:從隨機的相似性中尋找同源導致的相似性 1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . | | . |. . . | : .|.:| : 1 .MKCLLLALALTCGAQALIVT.QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD.V

2、CADMVGTFTDTE 97 RBP : | | | | : | .| . | |: | |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin 98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV.QYSC 136 RBP | |. | :.| | . .| 94 IPAVFKIDALNENKVL.VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCL

3、ARQYRLIV 185 RBP . | | | : | . | | | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI. 178 lactoglobulinn序列比對的基本概念nDayhoff模型和Blosumn比對算法:局部比對和全局比對n比對結果的統(tǒng)計檢驗序列比對的作用n生物大分子的進化n搜索相似序列nIt is used to identify domains or motifs that are shared between proteinsnIt is the basis of database searchingn結構預測和基因預測

4、蛋白質序列比對比蛋白質序列比對比DNA比對信息量更大比對信息量更大 protein is more informative (20 vs 4 characters); many amino acids share related biophysical properties codons are degenerate: changes in the third position often do not alter the amino acid that is specified protein sequences offer a longer “l(fā)ook-back” time DNA seq

5、uences can be translated into protein, and then used in pairwise alignmentsQuery: 181 catcaactacaactccaaagacacccttacacccactaggatatcaacaaacctacccac 240 | | | | | | Sbjct: 189 catcaactgcaaccccaaagccacccct-cacccactaggatatcaacaaacctacccac 247DNA比對的特殊作用比對的特殊作用 Many times, DNA alignments are appropriate-t

6、o confirm the identity of a cDNA-to study noncoding regions of DNA-to study DNA polymorphisms-example: Neanderthal vs modern human DNA序列比對的一些基本概念 1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . | | . |. . . | : .|.:| : 1 .MKCLLLALALTCGAQALIVT.QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin

7、51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD.VCADMVGTFTDTE 97 RBP : | | | | : | .| . | |: | |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin 98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV.QYSC 136 RBP | |. | :.| | . .| 94 IPAVFKIDALNENKVL.VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin137 RL

8、LNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : | . | | | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI. 178 lactoglobulinPairwise alignment of retinol-binding protein and b b-lactoglobulin 1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . | | . |. . . | : .|.:| : 1

9、.MKCLLLALALTCGAQALIVT.QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD.VCADMVGTFTDTE 97 RBP : | | | | : | .| . | |: | |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin 98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV.QYSC 136 RBP | |. | :.| | . .| 94 IP

10、AVFKIDALNENKVL.VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : | . | | | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI. 178 lactoglobulinPairwise alignment of retinol-binding protein and b b-lactoglobulinIdentity(bar) 1 MKWVWALLL

11、LAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . | | . |. . . | : .|.:| : 1 .MKCLLLALALTCGAQALIVT.QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD.VCADMVGTFTDTE 97 RBP : | | | | : | .| . | |: | |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobul

12、in 98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV.QYSC 136 RBP | |. | :.| | . .| 94 IPAVFKIDALNENKVL.VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : | . | | | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI. 178 lactoglobulinPairwise align

13、ment of retinol-binding protein and b b-lactoglobulinSomewhatsimilar(one dot)Verysimilar(two dots)序列比對n指通過一定算法對序列進行比較,找出兩者的最大相似性匹配,以評估序列相似性的程度,并據此估計同源的可能性n然而,進化中會發(fā)生片段的插入和缺失 1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . | | . |. . . | : .|.:| : 1 .MKCLLLALALTCGAQALIVT.QTMKGLDIQKVAGTWY

14、SLAMAASD. 44 lactoglobulin 51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD.VCADMVGTFTDTE 97 RBP : | | | | : | .| . | |: | |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin 98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV.QYSC 136 RBP | |. | :.| | . .| 94 IPAVFKIDALNENKVL.VLDTDYKKYLLFCMENSAEPEQS

15、LAC 135 lactoglobulin137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : | . | | | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI. 178 lactoglobulinPairwise alignment of retinol-binding protein and b b-lactoglobulinInternalgapTerminalgap 1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSG

16、TWYAMAKKDPEG 50 RBP . | | . |. . . | : .|.:| : 1 .MKCLLLALALTCGAQALIVT.QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD.VCADMVGTFTDTE 97 RBP : | | | | : | .| . | |: | |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin 98 DPAKFKMKYWGVASFLQKGNDDH

17、WIVDTDYDTYAV.QYSC 136 RBP | |. | :.| | . .| 94 IPAVFKIDALNENKVL.VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : | . | | | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI. 178 lactoglobulinPairwise alignment of retinol-binding prote

18、in and b b-lactoglobulin 1 .MKWVWALLLLA.AWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDP 48 : | | | .|.|. .| :|:.|:.| |.| 1 MLRICVALCALATCWA.QDCQVSNIQVMQNFDRSRYTGRWYAVAKKDP 47 . . . . . 49 EGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDVCADMVGTFTDTED 98 | |:|:|.|.|.| | :|:.|.| | | | 48 VGLFLLDNVVAQFSVDESGKMTATAHGRVIILNNW

19、EMCANMFGTFEDTPD 97 . . . . . 99 PAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAVQYSCRLLNLDGTCADS 148 |:| |:| |:| |: | .| | 98 PAKFKMRYWGAASYLQTGNDDHWVIDTDYDNYAIHYSCREVDLDGTCLDG 147 . . . . . 149 YSFVFSRDPNGLPPEAQKIVRQRQEELCLARQYRLIVHNGYCDGRSERNLL 199 |:| | | | | :.|:| .| : | |:|: 148 YSFIFSRHPTGLRPEDQKIVTDKKKEICF

20、LGKYRRVGHTGFCESS. 192Pairwise alignment of retinol-binding protein from human (top) and rainbow trout (O. mykiss)兩序列比對的一般步驟兩序列比對的一般步驟 選擇兩個序列 選擇可以打分的算法 允許空格(插入和刪除) 求得最大得分用以反應序列的相似性 比對可以是局部或整體的 估計比對在隨機情況下發(fā)生的可能性簡單而粗燥的計分方法n1.匹配計分:F34個分值:兩個字母相同一個分值、兩個字母不同一個分值、字母對空格12個分值。F簡單易掌握,我們利用它來說明比對的一般原理。脂肪族氨基酸芳香族氨基

21、酸疏水氨基酸微型氨基酸小型氨基酸陽性氨基酸極性氨基酸帶電氨基酸計分方法n可觀測變換計分:F通過統(tǒng)計實際觀測到的序列的突變來進行計分(PAM矩陣與BLOSUM矩陣)。F優(yōu)點:以真實事件為基礎Dayhoff模型:可接受點突變nDayhoff和同事研究了71組緊密相關的蛋白質中1572個變化,整理出一個個氨基酸殘基轉換的概率矩陣,把它看作馬爾可夫模型,矩陣可自乘,自乘的次數越多得出的進化年代越遠的氨基酸殘基替代關系。n因此“可接受突變”的定義是基于經驗觀察的PAM矩陣構建的步驟尋找相似性在85%以上的保守氨基酸序列根據匹配計分進行多重比對,比對結果不含空格根據比對結果構建進化樹,樹中能反映氨基酸替換

22、關系計算每種氨基酸轉換成其他氨基酸的次數計算每種氨基酸的突變率計算每一種氨基酸突變成另外一種氨基酸的突變率,得到突變概率矩陣Dayhoffs numbers of “accepted point mutations”:what amino acid substitutions occur in proteins?Dayhoffs PAM1 mutation probability matrix原氨基酸原氨基酸取代氨基酸取代氨基酸Dayhoffs PAM0 mutation probability matrix:the rules for extremely slowly evolving pr

23、oteinsTop: original amino acidSide: replacement amino acidDayhoffs PAM mutation probability matrix:the rules for very distantly related proteinsPAM AAlaRArgNAsnDAspCCysQGlnEGluGGlyA8.7% 8.7% 8.7% 8.7% 8.7% 8.7% 8.7% 8.7%R4.1% 4.1% 4.1% 4.1% 4.1% 4.1% 4.1% 4.1%N4.0% 4.0% 4.0% 4.0% 4.0% 4.0% 4.0% 4.0%

24、D4.7% 4.7% 4.7% 4.7% 4.7% 4.7% 4.7% 4.7%C3.3% 3.3% 3.3% 3.3% 3.3% 3.3% 3.3% 3.3%Q3.8% 3.8% 3.8% 3.8% 3.8% 3.8% 3.8% 3.8%E5.0% 5.0% 5.0% 5.0% 5.0% 5.0% 5.0% 5.0%G8.9% 8.9% 8.9% 8.9% 8.9% 8.9% 8.9% 8.9%Top: original amino acidSide: replacement amino acidPAM矩陣構建的步驟尋找相似性在85%以上的保守氨基酸序列根據匹配計分進行多重比對,比對結果不含

25、空格根據比對結果構建進化樹,樹中能反映氨基酸替換關系計算每種氨基酸轉換成其他氨基酸的次數計算每種氨基酸的突變率計算每一種氨基酸突變成另外一種氨基酸的突變率,得到突變概率矩陣,將此矩陣按需將此矩陣按需要自乘若干次要自乘若干次PAM1 and PAM250PAM1PAM1 and PAM250PAM250PAM250 mutation probability matrix A R N D C Q E G H I L K M F P S T W Y V A 13 6 9 9 5 8 9 12 6 8 6 7 7 4 11 11 11 2 4 9 R 3 17 4 3 2 5 3 2 6 3 2 9

26、4 1 4 4 3 7 2 2 N 4 4 6 7 2 5 6 4 6 3 2 5 3 2 4 5 4 2 3 3 D 5 4 8 11 1 7 10 5 6 3 2 5 3 1 4 5 5 1 2 3 C 2 1 1 1 52 1 1 2 2 2 1 1 1 1 2 3 2 1 4 2 Q 3 5 5 6 1 10 7 3 7 2 3 5 3 1 4 3 3 1 2 3 E 5 4 7 11 1 9 12 5 6 3 2 5 3 1 4 5 5 1 2 3 G 12 5 10 10 4 7 9 27 5 5 4 6 5 3 8 11 9 2 3 7 H 2 5 5 4 2 7 4 2 15

27、2 2 3 2 2 3 3 2 2 3 2 I 3 2 2 2 2 2 2 2 2 10 6 2 6 5 2 3 4 1 3 9 L 6 4 4 3 2 6 4 3 5 15 34 4 20 13 5 4 6 6 7 13 K 6 18 10 8 2 10 8 5 8 5 4 24 9 2 6 8 8 4 3 5 M 1 1 1 1 0 1 1 1 1 2 3 2 6 2 1 1 1 1 1 2 F 2 1 2 1 1 1 1 1 3 5 6 1 4 32 1 2 2 4 20 3 P 7 5 5 4 3 5 4 5 5 3 3 4 3 2 20 6 5 1 2 4 S 9 6 8 7 7 6

28、 7 9 6 5 4 7 5 3 9 10 9 4 4 6 T 8 5 6 6 4 5 5 6 4 6 4 6 5 3 6 8 11 2 3 6 W 0 2 0 0 0 0 0 0 1 0 1 0 0 1 0 1 0 55 1 0 Y 1 1 2 1 3 1 1 1 3 2 2 1 2 15 1 2 2 3 31 2 V 7 4 4 4 4 4 4 5 4 15 10 4 10 5 5 5 7 2 4 17 Top: original amino acidSide: replacement amino acidPAM1矩陣自乘矩陣自乘2000次次 PAM2000PAM AAlaRArgNAsn

29、DAspCCysQGlnEGluGGlyA8.7% 8.7% 8.7% 8.7% 8.7% 8.7% 8.7% 8.7%R4.1% 4.1% 4.1% 4.1% 4.1% 4.1% 4.1% 4.1%N4.0% 4.0% 4.0% 4.0% 4.0% 4.0% 4.0% 4.0%D4.7% 4.7% 4.7% 4.7% 4.7% 4.7% 4.7% 4.7%C3.3% 3.3% 3.3% 3.3% 3.3% 3.3% 3.3% 3.3%Q3.8% 3.8% 3.8% 3.8% 3.8% 3.8% 3.8% 3.8%E5.0% 5.0% 5.0% 5.0% 5.0% 5.0% 5.0% 5.0%

30、G8.9% 8.9% 8.9% 8.9% 8.9% 8.9% 8.9% 8.9%Top: original amino acidSide: replacement amino acidPAM突變概率矩陣不能作為打分矩陣突變概率矩陣不能作為打分矩陣n我們得到的是同源的蛋白質在進化中各個氨基酸之間替換的概率,為了估計兩條被比較的序列是同源的還是隨機的,需要把氨基酸替換概率與隨機情況作比較。n以概率作為分數,總分數應該是所有概率的乘積,計算上比較麻煩。取對數可以消除這個問題。 A R N D C Q E G H I L K M F P S T W Y V A 13 6 9 9 5 8 9 12 6

31、8 6 7 7 4 11 11 11 2 4 9 R 3 17 4 3 2 5 3 2 6 3 2 9 4 1 4 4 3 7 2 2 N 4 4 6 7 2 5 6 4 6 3 2 5 3 2 4 5 4 2 3 3 D 5 4 8 11 1 7 10 5 6 3 2 5 3 1 4 5 5 1 2 3 C 2 1 1 1 52 1 1 2 2 2 1 1 1 1 2 3 2 1 4 2 Q 3 5 5 6 1 10 7 3 7 2 3 5 3 1 4 3 3 1 2 3 E 5 4 7 11 1 9 12 5 6 3 2 5 3 1 4 5 5 1 2 3 G 12 5 10 10 4 7

32、 9 27 5 5 4 6 5 3 8 11 9 2 3 7 H 2 5 5 4 2 7 4 2 15 2 2 3 2 2 3 3 2 2 3 2 I 3 2 2 2 2 2 2 2 2 10 6 2 6 5 2 3 4 1 3 9 L 6 4 4 3 2 6 4 3 5 15 34 4 20 13 5 4 6 6 7 13 K 6 18 10 8 2 10 8 5 8 5 4 24 9 2 6 8 8 4 3 5 M 1 1 1 1 0 1 1 1 1 2 3 2 6 2 1 1 1 1 1 2 F 2 1 2 1 1 1 1 1 3 5 6 1 4 32 1 2 2 4 20 3 P 7

33、5 5 4 3 5 4 5 5 3 3 4 3 2 20 6 5 1 2 4 S 9 6 8 7 7 6 7 9 6 5 4 7 5 3 9 10 9 4 4 6 T 8 5 6 6 4 5 5 6 4 6 4 6 5 3 6 8 11 2 3 6 W 0 2 0 0 0 0 0 0 1 0 1 0 0 1 0 1 0 55 1 0 Y 1 1 2 1 3 1 1 1 3 2 2 1 2 15 1 2 2 3 31 2 V 7 4 4 4 4 4 4 5 4 15 10 4 10 5 5 5 7 2 4 17 PAM矩陣構建的步驟計算每一種氨基酸突變成另外一種氨基酸的突變率,得到突變概率矩陣,

34、將此矩陣按需要自乘若干次將此矩陣中的氨基酸i替換氨基酸j的突變率除以氨基酸i的出現頻度,再取10為底的對數后乘以10,這樣就可以得到PAM打分矩陣了A 2 R -2 6 N 0 0 2 D 0 -1 2 4 C -2 -4 -4 -5 12 Q 0 1 1 2 -5 4 E 0 -1 1 3 -5 2 4 G 1 -3 0 1 -3 -1 0 5 H -1 2 2 1 -3 3 1 -2 6 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 L -2 -3 -3 -4 -6 -2 -3 -4 -2 -2 6 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 M -1 0

35、 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 1

36、0 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 A R N D C Q E G H I L K M F P S T W Y V PAM250 對數對數比值打分矩陣比值打分矩陣怎么從突變概率矩陣轉變?yōu)閷当戎荡蚍志仃囋趺磸耐蛔兏怕示仃囖D變?yōu)閷当戎荡蚍志仃?對數矩陣的每個元素是兩個概率的比值比對數矩陣的每個元素是兩個概率的比值比:真實比對時的可能性真實比對時的可能性隨機情況下的可能性隨機情況下的可能性比對殘基比對殘基a、b的分值的分值S由下式給出由下式給出:S(a,b) = 10 log10 (Mab/pb)As an exam

37、ple, for tryptophan(色氨酸)(色氨酸),S(a,tryptophan) = 10 log10 (0.55/0.010) = 17.4What do the numbers meanin a log odds matrix?A score of +2 indicates that the amino acid replacementoccurs 1.6 times as frequently as expected by chance.A score of 0 is neutral(中性的)(中性的).A score of 10 indicates that the corr

38、espondence of two amino acids in an alignment that accurately representshomology (evolutionary descent) is one tenth as frequentas the chance alignment of these amino acids.(分值(分值-10表示對應的氨基酸在相應的同源比對中比對在一起表示對應的氨基酸在相應的同源比對中比對在一起的概率是這些氨基酸隨機比對在一起的概率的的概率是這些氨基酸隨機比對在一起的概率的1/10。)。)A 2 R -2 6 N 0 0 2 D 0 -1

39、2 4 C -2 -4 -4 -5 12 Q 0 1 1 2 -5 4 E 0 -1 1 3 -5 2 4 G 1 -3 0 1 -3 -1 0 5 H -1 2 2 1 -3 3 1 -2 6 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 L -2 -3 -3 -4 -6 -2 -3 -4 -2 -2 6 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -

40、1 -2 -5 6 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 A R N D C Q E G H I L K M F P S T W Y V PA

41、M250 log oddsscoring matrixPAM10 log oddsscoring matrixA 7 R -10 9 N -7 -9 9 D -6 -17 -1 8 C -10 -11 -17 -21 10 Q -7 -4 -7 -6 -20 9 E -5 -15 -5 0 -20 -1 8 G -4 -13 -6 -6 -13 -10 -7 7 H -11 -4 -2 -7 -10 -2 -9 -13 10 I -8 -8 -8 -11 -9 -11 -8 -17 -13 9 L -9 -12 -10 -19 -21 -8 -13 -14 -9 -4 7 K -10 -2 -

42、4 -8 -20 -6 -7 -10 -10 -9 -11 7 M -8 -7 -15 -17 -20 -7 -10 -12 -17 -3 -2 -4 12 F -12 -12 -12 -21 -19 -19 -20 -12 -9 -5 -5 -20 -7 9 P -4 -7 -9 -12 -11 -6 -9 -10 -7 -12 -10 -10 -11 -13 8 S -3 -6 -2 -7 -6 -8 -7 -4 -9 -10 -12 -7 -8 -9 -4 7 T -3 -10 -5 -8 -11 -9 -9 -10 -11 -5 -10 -6 -7 -12 -7 -2 8 W -20

43、-5 -11 -21 -22 -19 -23 -21 -10 -20 -9 -18 -19 -7 -20 -8 -19 13 Y -11 -14 -7 -17 -7 -18 -11 -20 -6 -9 -10 -12 -17 -1 -20 -10 -9 -8 10 V -5 -11 -12 -11 -9 -10 -10 -9 -9 -1 -5 -13 -4 -12 -9 -10 -6 -22 -10 8 A R N D C Q E G H I L K M F P S T W Y V PAM matrices reflect different degrees of divergencePAM2

44、50%Difference PAM 1 1 5 5 10 11 15 17 20 23 25 30 30 38 35 47 %Difference PAM 40 56 45 67 50 80 55 94 60 112 65 133 70 159 75 195 80 246 85 328nBLOSUM62BLOSUM62:BLASTBLAST缺省矩陣。缺省矩陣。n通過測試一系列通過測試一系列BLOSUMBLOSUM矩陣和矩陣和PAMPAM矩陣在矩陣在BLASTBLAST搜索數據庫時檢測蛋白質的能力。他們發(fā)搜索數據庫時檢測蛋白質的能力。他們發(fā)現現BLOSUM62BLOSUM62矩陣檢測各種蛋白的效

45、果比矩陣檢測各種蛋白的效果比BLOSUM60BLOSUM60和和BLOSUM70BLOSUM70稍好,比稍好,比PAMPAM矩陣好得矩陣好得多。多。 BLOSUMBLOSUM矩陣對于檢測僅有微弱打分的比對矩陣對于檢測僅有微弱打分的比對特別有用。特別有用。PAM的重要替代者的重要替代者:BLOSUM MatricesBLOSUMnBLOSUMBLOSUM主要原理:為了比較兩個主要原理:為了比較兩個遠相關蛋白質,應該從更遠相關的遠相關蛋白質,應該從更遠相關的序列中產生氨基酸替換的打分矩陣序列中產生氨基酸替換的打分矩陣。nBLOSUMBLOSUM在計算時,那些同一個家族的在計算時,那些同一個家族的近

46、相關序列之間的氨基酸替換會造成偏近相關序列之間的氨基酸替換會造成偏差,因此,需要把那些近相關的序列合差,因此,需要把那些近相關的序列合并成一條序列。并成一條序列。n合并的不同閾值產生不同的矩陣。合并的不同閾值產生不同的矩陣。BLOSUM Matrices1006230Percent amino acid identityBLOSUM62collapseBLOSUM Matrices1006230Percent amino acid identityBLOSUM621006230BLOSUM301006230BLOSUM80collapsecollapsecollapseAll BLOSUM m

47、atrices are based on observed alignments; they are not extrapolated from comparisons of closely related proteins. The BLOCKS database contains thousands of groups ofmultiple sequence alignments.BLOSUM62 is the default matrix in BLAST 2.0. BLOSUM MatricesBLOSUM構建步驟構建步驟將有一定相似性的序列合成同一序列;統(tǒng)計各區(qū)塊的氨基酸對數量f;計

48、算氨基酸對的出現頻率q;計算每種氨基酸出現的期望頻率p;計算每種氨基酸對出現的期望頻率e;計算氨基酸對的出現頻率與期望頻率的比值q/e;將比值q/e取2的對數后乘以2.這樣就得到了BLOSUM矩陣。BLOSUM矩陣構建的例子矩陣構建的例子n已知3個氨基酸區(qū)塊的若干序列片段,其中第一個區(qū)塊的四個序列片段分別是FKILK、FKIKK、FFILL、FFIKL.第二個區(qū)塊的四個序列片段分別是IIFFF、IIFIF、IKFFL、IKFIL。第三個區(qū)塊的四個序列片段分別是KIFKK、KIFLK、KLFKL、KLFLL。請按Henidoff的方法構建BLOSUM矩陣。BLOSUM62Rat (大鼠) ver

49、sus mouse(小鼠) RBPRat versus Bacterial(細菌)lipocalin矩陣的選擇矩陣的選擇Comparing two proteins with a PAM1 matrixgives completely different results than PAM250!Consider two distantly related proteins. A PAM40 matrixis not forgiving of mismatches, and penalizes themseverely. Using this matrix you can find almost no match.A PAM250 matrix is very tolerant of mismatches.hsrbp, 136 CRLLNLDGTC btlact, 3 CLLLALALTC * * * * 24.7% identity

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論