




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
序列相似性的概念1第一頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
序列比較的問題(Theproblemwithsequencecomparison)序列比較:序列比較包括從兩個(gè)或多個(gè)序列中找出所有顯著相似的區(qū)域。最主要的問題是必須首先作出定義,對(duì)于生物序列來說何為顯著相似。在開始講程序之前,讓我們先了解一下它們做些什么和為什么那樣做。這一節(jié)主要是關(guān)于序列比較是如何進(jìn)行的。2第二頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
序列比較的問題(Theproblemwithsequencecomparison)當(dāng)我們比較兩個(gè)序列時(shí),總是會(huì)對(duì)顯著相似的區(qū)段比較感興趣,可是從生物學(xué)的角度如何定義何為“顯著相似”?為了更好的理解這一點(diǎn),讓我們先看看幾個(gè)例子。首先從比較兩個(gè)簡(jiǎn)單序列開始。
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
3第三頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
序列比較的問題(Theproblemwithsequencecomparison)在這里我們只是簡(jiǎn)單的將兩個(gè)序列并排比較,對(duì)比兩個(gè)序列之間的堿基,將匹配的殘基用垂直線標(biāo)出,可見一個(gè)保守的區(qū)域。但是,是否還有更好的排比方式呢?顯然,如果將其中一個(gè)序列相對(duì)另一序列錯(cuò)開兩個(gè)堿基位置,可以得到一個(gè)更好的排比結(jié)果(這里說更好是指得到更多相匹配的堿基)ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||||||||||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT4第四頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
序列比較的問題(Theproblemwithsequencecomparison)結(jié)論是,我們不能夠簡(jiǎn)單的將兩個(gè)序列頭尾對(duì)應(yīng)的排比,而是對(duì)各種可能的排比方式都進(jìn)行比較以找出最佳的排比結(jié)果。可是,這還不行。生物體有許多變化的機(jī)制,簡(jiǎn)單的從一個(gè)殘基變?yōu)榱硪粋€(gè)殘基只是其中之一,而插入和缺失也經(jīng)常發(fā)生,我們是否可以將插入和缺失考慮進(jìn)去,以得到更好的排比結(jié)果呢?ATGCATGCATGCATGCATATATATATAT----ATATATGCATGCATGCATGCATGC||||||||||||||||||||||||||||||||||||||||CGATCGATCGATCGATATATATATATGCATATAT----ATGCATGCATGCATGCAT5第五頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
序列比較的問題(Theproblemwithsequencecomparison)這里我們用了連字號(hào)(--)來標(biāo)記插入/缺失的事件。僅僅觀察兩個(gè)序列是很難知道是否有插入或缺失的發(fā)生的,因此我們將它簡(jiǎn)稱為一個(gè)“indel”。插入“indels”通常會(huì)大大增加匹配殘基的數(shù)目:在序列比較時(shí)必須考慮“gaps”的存在,采用“gaps”通??梢源蟠笤黾悠ヅ錃埢臄?shù)量。----AT--GCAT--GCATGC--ATGCATATATATATAT----ATATAT----GCATGCATGCATGCATGC|||||||||||||||||||||||||||||||||||||||||||CGATCG--ATCG--AT--CG--------ATATATATATATGCATATATATGCATGCATGCATGCAT6第六頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
序列比較的問題(Theproblemwithsequencecomparison)但是,在加入“gaps”后又會(huì)出現(xiàn)一個(gè)問題:這個(gè)排比是否還有意義呢?如上述例子,我們通過加入了許多“gaps”來增加相似度,僅僅為了得到多一些匹配殘基數(shù)就加入許多的“gaps”,這樣做是否值得呢?答案是:有時(shí)。(不很滿意,是嗎?)有時(shí)確實(shí)值得,而有時(shí)又不劃算。如果我們需要使序列變化太大,那很可能是不值得的。怎樣知道是否值得呢?通過大量的觀察研究表明,“indel”事件發(fā)生的機(jī)率遠(yuǎn)小于點(diǎn)突變。而常識(shí)又告訴我們,在上述例子中,單堿基的“indels”有可能破壞序列上原來的開放讀碼框,如果有的話。因此,“gaps”比單點(diǎn)突變代表了更大的生物學(xué)改變?!癷ndels(gaps)”在引入時(shí)必須格外小心。7第七頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
序列比較的問題(Theproblemwithsequencecomparison)如上述,將兩個(gè)序列相對(duì)位移(shift),根據(jù)突變的情況引入“gaps”可以得到更好的排比結(jié)果。但是,這樣做是否就已經(jīng)發(fā)掘了所有的顯著匹配?仔細(xì)再看看可以發(fā)現(xiàn),我們還忽略了一些重要的特征,讓我們用不同顏色標(biāo)出:ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGCCGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT8第八頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
序列比較的問題(Theproblemwithsequencecomparison)是的,有一個(gè)重復(fù)序列模體(motif)分布于序列中,從簡(jiǎn)單的排比中是不可能使這種特異序列顯現(xiàn)出來的。因那樣只能使其中一序列上的模體與另一序列上的模體匹配,而不能使所有的模體在排比中互相匹配,我們需要更好的方式來比較序列的相似度,而不僅僅是簡(jiǎn)單的排比。ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGCCGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT9第九頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
序列比較的問題(Theproblemwithsequencecomparison)可是,問題還不僅于此。讓我們仔細(xì)看看以下兩個(gè)序列,看是否能找出顯著相似的區(qū)段。它們似乎并無多少相似,是嗎?當(dāng)然,可以通過一些位移和gaps增加相似度,好象也不存在明顯的重復(fù)序列。然而,這兩個(gè)序列卻給人相似的印象,只是第一眼看去不明顯而已。只要把其中一個(gè)序列水平打轉(zhuǎn),讓其5‘端與3’端對(duì)調(diào)。ATGCGACATTATATGGACGCCGACAATATGCATGACTAGCATAGCATGCGAT|||||||||||TAGCGTACGAGACGTTCAGTAGGTATAACAGTCGCAGGTATCTTACAGCGTA10第十頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
序列比較的問題(Theproblemwithsequencecomparison)很吃驚,是吧。讓我們?cè)倏纯聪旅娴睦?,找到相似的地方嗎?ATGCGACATTATATGGACGCCGACAATATGCATGACTAGCATAGCATGCGAT|||||||||||||||||||||||||||||||||||||||||||||||ATGCGACATTCTATGGACGCTGACAATATGGATGACTTGCAGAGCATGCGATATGCGATCAGATGATCAGATGACATGACATAGGCATACCCAATTGACATACG||||||||||||CGTATGTCAATTGGGTATGCCTATGTCATGTCATCTGATCATCTGATCGCAT11第十一頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
序列比較的問題(Theproblemwithsequencecomparison)是的,這一次序列已經(jīng)被反轉(zhuǎn)為互補(bǔ)的了。你看,除了簡(jiǎn)單的將兩個(gè)序列放到一起比較以外,還是有很多可以做的,而且有時(shí)僅靠肉眼判斷還是非常難的。這就是為什么我們非得用計(jì)算機(jī)工具來幫助做這些工作的原因。ATGCGATCAGATGATCAGATGACATGACATAGGCATACCCAATTGACATACG||||||||||||CGTATGTCAATTGGGTATGCCTATGTCATGTCATCTGATCATCTGATCGCAT12第十二頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
利用計(jì)算機(jī)比較序列我們可以讓計(jì)算機(jī)以最佳的方式來作序列比較。開始時(shí),可以先將兩個(gè)序列擺在一起,數(shù)一數(shù)匹配的殘基數(shù)。可是,這樣還沒有考慮生物序列的另一相關(guān)因子:殘基之間可以存在不同的相似度。例如,亮氨酸與異亮氨酸的相似度大于其與其它氨基酸如組氨酸等的相似度,盡管它們都屬于不同的氨基酸。13第十三頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
利用計(jì)算機(jī)比較序列因此,第一步首先制作一個(gè)表或距陣,用來標(biāo)明各不同氨基酸殘基之間的相似度。這樣一來,計(jì)算機(jī)就不會(huì)將亮氨酸變?yōu)楫惲涟彼崤c亮氨酸變?yōu)榻M氨酸等同對(duì)待。有好些這種氨基酸相似度表或距陣已被制作出來,如PAM、BLOSUM、BLOSUM32等,每個(gè)距陣都是根據(jù)不同的假設(shè)或?qū)嶒?yàn)數(shù)據(jù)制作出來。計(jì)算機(jī)就根據(jù)這些表來判定殘基之間的相似度。14第十四頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
利用計(jì)算機(jī)比較序列當(dāng)然,我們還希望計(jì)算機(jī)將兩個(gè)序列逐個(gè)堿基相對(duì)錯(cuò)位,以免忽略耷掉任何相似的區(qū)段。如果我們把這一過程做成一個(gè)二維的圖表,可能比較容易看出這個(gè)工作是如何完成的。在圖表中,將其中一個(gè)序列的殘基與另一序列的所有殘基逐一比較。15第十五頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
利用計(jì)算機(jī)比較序列
C|XG|XATGCT|X||||A|XATGC+---------------ATGC16第十六頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析利用計(jì)算機(jī)比較序列上圖的對(duì)角線代表不作任何移位比較兩個(gè)序列時(shí)的匹配殘基。就象前面舉的第一個(gè)例子一樣。而一系列的位移比較可以用相鄰的對(duì)角線表示:17第十七頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
利用計(jì)算機(jī)比較序列
A|X.C|.XATGCAG|X.X||||T|.XGATGCA|.X+----------------------GATGC18第十八頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
利用計(jì)算機(jī)比較序列這里,我們將主對(duì)角線用點(diǎn)標(biāo)出以作參考??梢钥闯?,相似的區(qū)域表現(xiàn)為對(duì)角線。而相對(duì)的錯(cuò)位則簡(jiǎn)單的表現(xiàn)為移置的對(duì)角線。孤立的匹配標(biāo)記代表個(gè)別的匹配而不是區(qū)段的匹配,因此將其忽略不計(jì)。19第十九頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
利用計(jì)算機(jī)比較序列這一方法在查看反轉(zhuǎn)序列時(shí)也很有用,反轉(zhuǎn)的序列將簡(jiǎn)單的表現(xiàn)為反對(duì)角線。
A|XT|XCGTAG|XC|XATGC+--------------------ATGC20第二十頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
利用計(jì)算機(jī)比較序列采用這一方法,不斷位移時(shí)從不同的殘基開始比較表現(xiàn)為不同的對(duì)角線。事實(shí)上我們將經(jīng)常用“對(duì)角線”這個(gè)詞作為相似性的同義詞。你可以想象為對(duì)角線是兩個(gè)序列在互相移位后向上轉(zhuǎn)45度所成。21第二十一頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
利用計(jì)算機(jī)比較序列對(duì)角線比擬法在查找前面見過的序列中隱藏特征時(shí)也很有用。例如,一個(gè)重復(fù)序列會(huì)表現(xiàn)為一系列平行的對(duì)角線,它們從不同的殘基發(fā)出而有同樣的長度。22第二十二頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
利用計(jì)算機(jī)比較序列23第二十三頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析利用計(jì)算機(jī)比較序列查找反轉(zhuǎn)的重復(fù)序列、stem-loops等,也可以通過檢查這個(gè)二維圖很容易找出:24第二十四頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
利用計(jì)算機(jī)比較序列一旦我們了每一個(gè)殘基相對(duì)位移比較完了序列之后,加gaps的工作就等于是在不斷的移位殘基比較中查找相似的區(qū)段,然后用適當(dāng)?shù)膅aps將它們連接起來。說起來簡(jiǎn)單,實(shí)際上還是很難的。因?yàn)橛?jì)算機(jī)可能會(huì)加入太多的gaps,而我們知道自然情況下gaps并非發(fā)生的很頻繁,而且它們通常會(huì)破壞序列的功能。我們需要建立一個(gè)方法來評(píng)定哪里需要加gaps。但一旦加了gaps之后,對(duì)于其它的限制,如引入新的鄰近gap,即延長gap的長度,則應(yīng)相對(duì)放松。25第二十五頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析利用計(jì)算機(jī)比較序列所以關(guān)鍵的問題是引入gaps,也就是產(chǎn)生一個(gè)“indel”事件。但一旦產(chǎn)生了,它是可以有不同大小的。Gaps越大時(shí)對(duì)功能產(chǎn)生的影響也越大。要解決這一問題,我們需要為計(jì)算機(jī)建立一套雙值打分系統(tǒng)。一個(gè)值判斷產(chǎn)生新的gaps,另一個(gè)值判斷gap的延伸。計(jì)算機(jī)有了這兩個(gè)值,就可以通過不同的對(duì)角線查找不重疊(non-overlapping)的相似區(qū)段并通過引入gaps試圖將之連接起來。26第二十六頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
利用計(jì)算機(jī)比較序列27第二十七頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
利用計(jì)算機(jī)比較序列可見,對(duì)角線的的思路引至了非常有效的序列比較分析方法。其實(shí),這就是目前大多數(shù)計(jì)算機(jī)程序做序列比較分析時(shí)所采用的方法:它們首先嘗試象上述一樣的建立一個(gè)序列比較的距陣,然后尋找對(duì)角線,最后嘗試將盡可能多的對(duì)角線連接起來,成為一個(gè)最佳相似排比(記住:一個(gè)對(duì)角線代表一個(gè)相似的序列區(qū)段)。28第二十八頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
利用計(jì)算機(jī)比較序列可是,這一方法還有兩個(gè)主要缺點(diǎn):比較的量,它隨著序列大小的增加而增加,因?yàn)槊恳粋€(gè)殘基都要與另一序列的所有殘基比較;必須從距陣中尋找對(duì)角線,并尋找各種可能的組合,以找出最佳排比。29第二十九頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
利用計(jì)算機(jī)比較序列完成以上兩步在計(jì)算機(jī)的運(yùn)算中是非常消耗資源的,因此,大多數(shù)計(jì)算機(jī)軟件都走捷徑來加快運(yùn)算的速度,讓我們看一個(gè)稍微復(fù)雜的比較:30第三十頁,共四十頁,2022年,8月28日31第三十一頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
利用計(jì)算機(jī)比較序列這里所比較的也只不過是兩個(gè)小序列(約100堿基)。可以從中看出一些對(duì)角線,但是它們被大量孤立的點(diǎn)弄模糊了。這些孤立點(diǎn)代表隨機(jī)的匹配。由于點(diǎn)太多,要判斷哪些是有關(guān)的哪些是無關(guān)的,即使對(duì)計(jì)算機(jī)來說也是很艱難的工作。32第三十二頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
利用計(jì)算機(jī)比較序列這里所比較的也只不過是兩個(gè)小序列(約100堿基)??梢詮闹锌闯鲆恍?duì)角線,但是它們被大量孤立的點(diǎn)弄模糊了。這些孤立點(diǎn)代表隨機(jī)的匹配。由于點(diǎn)太多,要判斷哪些是有關(guān)的哪些是無關(guān)的,即使對(duì)計(jì)算機(jī)來說也是很艱難的工作。要加速這一序列比較進(jìn)程的可能解決方法是用“詞”(word)來減少需要比較的數(shù)量。一個(gè)詞是一套連續(xù)的殘基,把它們當(dāng)作一個(gè)單位,計(jì)算機(jī)將一次過比較“詞”中的所有殘基,因此,減少了要進(jìn)行的總比較數(shù)量。33第三十三頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
利用計(jì)算機(jī)比較序列任何情況下我們都是對(duì)一段連續(xù)的相似殘基感興趣,而對(duì)隨機(jī)匹配不感興趣,也就是對(duì)沿著對(duì)角線的匹配感興趣。我們可以設(shè)一個(gè)最小的對(duì)角線長度,比如說10個(gè)連續(xù)的殘基,這樣一來就可以消除隨機(jī)的點(diǎn),這就叫一個(gè)“window”(窗口)。要求至少有這么長的相似區(qū)段才去考慮它,但這樣一來又會(huì)排除了一些低相似度或散布的相似區(qū)段。我們可以通過允許在“window”中有一些不匹配的殘基,從而得到更加精確的結(jié)果。因此在相似的地帶容納一些小的不匹配區(qū),這就是我們通常所稱的“嚴(yán)謹(jǐn)度”(stringency)。就象雜交實(shí)驗(yàn)的洗滌一樣,嚴(yán)謹(jǐn)度越高,留在膜上的越是相似的序列。34第三十四頁,共四十頁,2022年,8月28日Dotplots-序列相似性的作圖分析
利用計(jì)算機(jī)比較序列以下例子的window大小為21,嚴(yán)謹(jǐn)度為14。這就是說,被選出的相似區(qū)大小為21殘基,其相似的分值最小為14。嚴(yán)謹(jǐn)度通常以最小分值給出,即比較時(shí)window最少達(dá)到該相似度才被認(rèn)為是與分析相關(guān)的。需要支出的是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 手車買賣分期付款合同
- 爺爺?shù)氖找魴C(jī)珍貴的家庭物品寫物10篇
- 二手房意向金協(xié)議
- 應(yīng)急分隊(duì)考試試題及答案
- 疫苗考試試題及答案
- 醫(yī)藥政策考試試題及答案
- 六一其它活動(dòng)方案
- 六一奶茶店活動(dòng)方案
- 六一安全活動(dòng)方案
- 六一抓魚活動(dòng)方案
- 儀器儀表制造職業(yè)技能競(jìng)賽理論題庫
- 國家開放大學(xué)2025年《創(chuàng)業(yè)基礎(chǔ)》形考任務(wù)3答案
- SL631水利水電工程單元工程施工質(zhì)量驗(yàn)收標(biāo)準(zhǔn)第1部分:土石方工程
- 2023-2024學(xué)年江蘇省蘇州市高二下學(xué)期6月期末物理試題(解析版)
- 《成本會(huì)計(jì)學(xué)(第10版)》課后參考答案 張敏
- LNG加氣站質(zhì)量管理手冊(cè)
- (正式版)HGT 22820-2024 化工安全儀表系統(tǒng)工程設(shè)計(jì)規(guī)范
- 國家開放大學(xué)《流通概論》章節(jié)測(cè)試參考答案
- 中小學(xué)廁所蹲位數(shù)量統(tǒng)計(jì)表
- 總平施工方案
- 四川省破格申報(bào)專業(yè)技術(shù)職務(wù)任職資格審核表
評(píng)論
0/150
提交評(píng)論