第四章數(shù)據(jù)庫(kù)相似性搜索_第1頁(yè)
第四章數(shù)據(jù)庫(kù)相似性搜索_第2頁(yè)
第四章數(shù)據(jù)庫(kù)相似性搜索_第3頁(yè)
第四章數(shù)據(jù)庫(kù)相似性搜索_第4頁(yè)
第四章數(shù)據(jù)庫(kù)相似性搜索_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第四章數(shù)據(jù)庫(kù)相似性搜索王紅巖序言

序列兩兩比對(duì)的一個(gè)主要應(yīng)用就是在數(shù)據(jù)庫(kù)中基于相似性檢索生物序列。這個(gè)過(guò)程包括提交查詢序列和對(duì)查詢序列與數(shù)據(jù)庫(kù)中的每一序列進(jìn)行兩兩比對(duì)。所以數(shù)據(jù)庫(kù)相似性搜索就是一個(gè)大規(guī)模的序列兩兩比對(duì)。這種類型的搜索是一種最有效的用來(lái)推導(dǎo)新測(cè)定序列功能的方法。然而,第三章講述的動(dòng)態(tài)規(guī)劃算法速度太慢因此大多數(shù)時(shí)候是不實(shí)用的。為了提高序列比較的計(jì)算速度需要特殊的搜索方法。這章將要介紹數(shù)據(jù)庫(kù)搜索方法的理論和應(yīng)用。數(shù)據(jù)庫(kù)搜索的獨(dú)特要求

對(duì)序列數(shù)據(jù)庫(kù)進(jìn)行搜索的算法有獨(dú)特的要求。第一個(gè)標(biāo)準(zhǔn)是敏感性,它是指找到盡可能多的相似序列的能力。它是用正確識(shí)別屬于同一家族的序列范圍來(lái)度量的。這些正確識(shí)別的序列在數(shù)據(jù)庫(kù)搜索中被認(rèn)為是“真陽(yáng)性“。第二個(gè)標(biāo)準(zhǔn)是選擇性,也叫特異性,它是指排除不正確序列的能力。這些不正確的序列是在數(shù)據(jù)庫(kù)搜索中被錯(cuò)誤識(shí)別的無(wú)關(guān)序列,它們被稱為”假陽(yáng)性“。第三個(gè)標(biāo)準(zhǔn)就是速度,它是指從數(shù)據(jù)庫(kù)搜索中得到結(jié)果所用的時(shí)間,這依賴于數(shù)據(jù)庫(kù)的大小,有時(shí)速度可能是最重要的因素。理想上,人們總是希望在數(shù)據(jù)庫(kù)搜索中得到最大的敏感性,特異性和速度。然而,同時(shí)滿足這三個(gè)要求在實(shí)際中是非常困難的。通常是提高了敏感性就降低了特異性。而降低特異性又可能會(huì)使結(jié)果包含許多假陽(yáng)性。同樣的,提高速度經(jīng)常會(huì)付出敏感性和特異性下降的代價(jià)。我們經(jīng)常需要在這三個(gè)標(biāo)準(zhǔn)之間作出折衷。數(shù)據(jù)庫(kù)搜索的獨(dú)特要求

在數(shù)據(jù)庫(kù)搜索和許多其它生物信息學(xué)領(lǐng)域中有兩種基本類型的算法。一種是窮舉法,它用一種嚴(yán)格的算法通過(guò)考察所有的數(shù)學(xué)組合來(lái)找一個(gè)特定問(wèn)題的最佳的或者精確的解。動(dòng)態(tài)規(guī)劃算法是窮舉法的一個(gè)例子,它在計(jì)算上是非常精確的。另一種是啟發(fā)式方法,它是一種利用拇指規(guī)則(經(jīng)驗(yàn)法則)來(lái)尋找經(jīng)驗(yàn)上的或是近似最優(yōu)結(jié)果的計(jì)算策略。本質(zhì)上,這種類型的算法是一種根據(jù)一些標(biāo)準(zhǔn)縮小搜索空間的快捷方法。然而,這種快捷方法并不保證找到最佳或是最精確的結(jié)果。經(jīng)常用它是因?yàn)橐诓伙@著犧牲計(jì)算結(jié)果的正確性情況下和可以接受的時(shí)間內(nèi)獲得結(jié)果。啟發(fā)式數(shù)據(jù)庫(kù)搜索

用動(dòng)態(tài)規(guī)劃算法,比如Smith-Waterman算法,搜索一個(gè)大型數(shù)據(jù)庫(kù)盡管是精確可靠的,但是速度太慢以至于在計(jì)算機(jī)資源有限的時(shí)候是不切實(shí)際的。十年前做的一個(gè)估計(jì)顯示,用當(dāng)時(shí)的常規(guī)計(jì)算機(jī)系統(tǒng)以一個(gè)包含100個(gè)殘基的查詢序列搜索一個(gè)包含300000個(gè)殘基的數(shù)據(jù)庫(kù)需要2-3小時(shí)。因此搜索速度成為一個(gè)重要的問(wèn)題。為了提高比較速度必須使用啟發(fā)式方法。啟發(fā)式算法之所以表現(xiàn)出更快的搜索速度是因?yàn)樗豢疾炷切┯脛?dòng)態(tài)規(guī)劃算法計(jì)算過(guò)的有可能匹配的序列。啟發(fā)式數(shù)據(jù)庫(kù)搜索

目前,主要有兩種用于數(shù)據(jù)庫(kù)搜索的算法:BLAST和FASTA。這些算法不保證能找到最理想的比對(duì)和真正同源的序列,但是比動(dòng)態(tài)規(guī)劃算法快50-100倍。提高速度是通過(guò)適度地犧牲搜索的敏感性和特異性實(shí)現(xiàn)的,而這種犧牲很容易被分子生物學(xué)工作者接受。兩種算法都能通過(guò)識(shí)別相似序列片段來(lái)合理地預(yù)測(cè)序列的相似性。

啟發(fā)式數(shù)據(jù)庫(kù)搜索

BLAST和FASTA都是用基于單詞的啟發(fā)式方法來(lái)進(jìn)行快速序列兩兩比對(duì)的算法。這是序列兩兩比對(duì)的第三種方法。它是通過(guò)尋找兩條序列中顯著的或是近似顯著的相似連續(xù)字母來(lái)實(shí)現(xiàn)的。這些短的字符串叫做單詞,它類似于點(diǎn)陣法中用到的窗口。一個(gè)基本的假設(shè)是兩條相關(guān)序列中至少包含一個(gè)共同單詞。在識(shí)別出匹配的單詞后,用一個(gè)比較長(zhǎng)的算法來(lái)從單詞開(kāi)始擴(kuò)展相似區(qū)域。一但找到高得分的序列相似區(qū)域,就把這些高得分區(qū)域連接起來(lái)以得到一個(gè)全序列比對(duì)。基本局部比對(duì)搜索工具(BLAST)

BLAST程序是NCBI的StephenAltschul于1990年發(fā)明的,它目前已經(jīng)成為最流行的序列分析程序之一。BLAST使用啟式方發(fā)法比對(duì)查詢序列和數(shù)據(jù)庫(kù)中的所有序列。它的目標(biāo)是找到相關(guān)序列間的高得分無(wú)空位片段。高于給定閾值的這種片段的存在說(shuō)明序列相似不是隨機(jī)的,它能幫助人們從數(shù)據(jù)庫(kù)中不相關(guān)的序列中辨別相關(guān)的序列。BLAST通過(guò)下面的過(guò)程來(lái)完成序列比對(duì)。第一步是根據(jù)查詢序列建立一個(gè)單詞列表。一般地,每一個(gè)單詞對(duì)于蛋白質(zhì)序列來(lái)說(shuō)包含3個(gè)殘基,對(duì)于DNA序列來(lái)說(shuō)包含11個(gè)殘基。這個(gè)列表包含從查詢序列中提取的所有可能單詞。這個(gè)步驟也叫搜索種子。第二步是搜索出現(xiàn)這些單詞的數(shù)據(jù)庫(kù)中的序列。這步是識(shí)別包含匹配單詞的數(shù)據(jù)庫(kù)序列。基本局部比對(duì)搜索工具(BLAST)

第三步是用一個(gè)給定的得分矩陣給匹配的單詞打分。如果一個(gè)單詞的得分高于某個(gè)閾值就認(rèn)為它是匹配的。第四步是通過(guò)用同樣的得分矩陣給比對(duì)打分來(lái)從兩個(gè)方向擴(kuò)展單詞。擴(kuò)展一直繼續(xù)直到比對(duì)得分由于失配降低到一個(gè)閾值之下為止(蛋白質(zhì)序列的下降閾值是22而DNA序列是20)。得到的結(jié)果是叫做高得分片段對(duì)(HSP)的無(wú)空位連續(xù)片段對(duì)。在BLAST的原始版本中,最高得分的高得分片段對(duì)就作為最后的結(jié)果了。它們也叫做最大得分對(duì)。在最近的BLAST的改進(jìn)的程序中可以進(jìn)行有空位比對(duì)。在有空位的BLAST中,用動(dòng)態(tài)規(guī)劃算法從兩個(gè)方向擴(kuò)展選擇的最高得分片段以引進(jìn)空位。如果得分高于某個(gè)閾值擴(kuò)展就繼續(xù);否則就終止。然而,總的得分允許臨時(shí)低于閾值最后再達(dá)到閾值之上。在得到最后比對(duì)結(jié)果之前需要對(duì)末端區(qū)域進(jìn)行修整?;揪植勘葘?duì)搜索工具(BLAST)變形

BLAST是一個(gè)包含BLASTN,BLASTP,BLASTX,TBLASTN和TBLASTX的程序族。BLASTN用一個(gè)核酸序列查詢核酸數(shù)據(jù)庫(kù)。BLASTP用一個(gè)蛋白質(zhì)序列作為查詢序列來(lái)查詢蛋白質(zhì)序列數(shù)據(jù)庫(kù)。BLASTX用核酸序列作為查詢序列,它把查詢序列按照六種閱讀框翻譯成蛋白質(zhì)序列然后查詢蛋白質(zhì)序列數(shù)據(jù)庫(kù)。TBLASTN用蛋白質(zhì)序列作為查詢序列查詢核酸序列數(shù)據(jù)庫(kù),查詢時(shí)把數(shù)據(jù)庫(kù)中的核酸序列按照六種閱讀框翻譯成蛋白質(zhì)序列。TBLASTX用核酸序列作為查詢序列去查詢核酸序列數(shù)據(jù)庫(kù),查詢時(shí)查詢序列和數(shù)據(jù)庫(kù)中序列都被按照六種閱讀框翻譯成蛋白質(zhì)序列。

基本局部比對(duì)搜索工具(BLAST)變形

如果要在新測(cè)定的基因組序列中搜索編碼蛋白質(zhì)的序列就要用到TBLASTN,它會(huì)把數(shù)據(jù)庫(kù)中的核酸序列按六種閱讀框翻譯成蛋白質(zhì)序列。它可以幫助人們識(shí)別出還沒(méi)有注釋的編碼蛋白質(zhì)的基因。如果查詢序列是DNA序列,那么可以用TBLASTX進(jìn)行蛋白質(zhì)水平的比較。然而兩個(gè)程序都是非常精細(xì)的所以搜索過(guò)程可能很慢?;揪植勘葘?duì)搜索工具(BLAST)變形

BLASTweb服務(wù)器(/BLAST/)已經(jīng)被設(shè)計(jì)出來(lái)了,它能簡(jiǎn)化選擇程序的任務(wù)。程序是基于查詢序列的類型(蛋白質(zhì)序列,DNA序列還被翻譯的DNA序列)組織的。除此之外,特殊用途的程序被單獨(dú)編組。例如,bl2seq,免疫球蛋白BLAST和VecSceen,一個(gè)去除序列的載體污染的程序。被設(shè)計(jì)用來(lái)搜索基因組數(shù)據(jù)庫(kù)的程序也被單獨(dú)列出來(lái)?;揪植勘葘?duì)搜索工具(BLAST)統(tǒng)計(jì)顯著性

BLAST的輸出結(jié)果提供一系列按統(tǒng)計(jì)顯著性分級(jí)的匹配序列。顯著性分?jǐn)?shù)幫助人們從不相關(guān)的序列中識(shí)別出有進(jìn)化關(guān)系的序列。一般說(shuō)來(lái),只有分?jǐn)?shù)高于某個(gè)閾值的相似序列才被顯示出來(lái)。這里的統(tǒng)計(jì)度量與單個(gè)序列兩兩比對(duì)稍微不同;數(shù)據(jù)庫(kù)越大存在的不相關(guān)序列比對(duì)就越多。這就需要一個(gè)新的參數(shù)來(lái)計(jì)算進(jìn)行序列比對(duì)的總次數(shù),這個(gè)次數(shù)是同數(shù)據(jù)庫(kù)的規(guī)模成正比的。在BLAST搜索中這個(gè)統(tǒng)計(jì)量就是E值(期望值),這個(gè)值反映了從數(shù)據(jù)庫(kù)中搜索出的比對(duì)結(jié)果是隨機(jī)得到的可能性?;揪植勘葘?duì)搜索工具(BLAST)統(tǒng)計(jì)顯著性

E值同用來(lái)評(píng)估單序列兩兩比對(duì)的P值相關(guān)。BLAST比較查詢序列和數(shù)據(jù)庫(kù)中的所有序列,所以E值是用下面的公式得到的:E=m*n*P其中m是數(shù)據(jù)庫(kù)中總的殘基數(shù),n查詢序列的殘基數(shù),而P是指一個(gè)高得分片段對(duì)是由隨機(jī)得到的可能性。基本局部比對(duì)搜索工具(BLAST)統(tǒng)計(jì)顯著性

例如,用一個(gè)含有100個(gè)殘基的序列去查詢一個(gè)共包含1012個(gè)的殘基的數(shù)據(jù)庫(kù),對(duì)于數(shù)據(jù)庫(kù)中每一個(gè)匹配序列的無(wú)空位高得分片段對(duì)的P值都是1×10-20。那么E值就是這三個(gè)值的乘積,其結(jié)果表示為100×1012×10-20,等于10-6。在BLAST的輸出結(jié)果中它被表示成le-6。它表示這個(gè)數(shù)據(jù)庫(kù)中序列的匹配是隨機(jī)發(fā)生的可能性是10-6。

基本副局部瘋比對(duì)左搜索她工具集(BL它AS援T)統(tǒng)計(jì)僑顯著昂性E值提叢供了虛一個(gè)炎給定攤的序決列純?nèi)捍馐琴r由于工隨機(jī)冤匹配門得到休的可隨能性粒。E值越耕低,估數(shù)據(jù)裙庫(kù)序麻列匹譽(yù)配是陶隨機(jī)驚發(fā)生置的可樸能性牽就越律小,尿因此強(qiáng)匹配您就越終顯著漂。對(duì)扛于E值的躲經(jīng)驗(yàn)墳上的辨解釋到是這率樣的憲。如層果E值小吊于le康-5斑0,撓那么而數(shù)據(jù)叉庫(kù)的么匹配最序列比是同錫源關(guān)障系的牌可能轎性就姻極高次。梅如果E值在le扒-5夾0至0.冊(cè)01之間深,那疼么匹袖配序廢列可堆以被枕認(rèn)為榨是同五源的層。如垂果E值在0.侮01至10之間剃,那側(cè)么匹街配就鬧是不雨顯著詳?shù)?,健但還是可爐以暫扒時(shí)被血認(rèn)為遭具有莫遠(yuǎn)源彩關(guān)系花,攜如果闖有其啄它的迅證據(jù)霞就可顏以確撇認(rèn)它煌們的慨同源湖關(guān)系森。如己果E值大穴于10,那稱么序擦列就拋被認(rèn)來(lái)為不嫂相關(guān)獅的或怪者具拐有極迎遠(yuǎn)的葛關(guān)系嬌以至禍于用煙現(xiàn)有換的方義法無(wú)溜法發(fā)賢現(xiàn)?;菊芯植拷辣葘?duì)仗搜索械工具影(BL鉤AS作T)統(tǒng)計(jì)裂顯著哪性因?yàn)镋值很若可能貿(mào)受到稈數(shù)據(jù)蔑庫(kù)大菜小的且影響猴,敗一個(gè)音明顯蝦的問(wèn)擊題是求隨著鴉數(shù)據(jù)述庫(kù)的圍增大傷,迎給定扶的匹總配序燈列的E值也出會(huì)增翼大。炒因?yàn)槿竷蓷l俯序列砍的真類正的誤進(jìn)化掙關(guān)系服是保濕守的拘,所盆以隨躲著數(shù)右據(jù)庫(kù)炒的增架長(zhǎng)序隔列匹溫配的厲可信止度就解會(huì)降索低,攀也就肌是說(shuō)國(guó)隨著匹數(shù)據(jù)舒庫(kù)的蓮增大朋可能破丟失窯先前辱已經(jīng)磨確定親的同學(xué)源關(guān)伶系。贈(zèng)因此籍,需長(zhǎng)要一益種替獲代E值的罷計(jì)算翠方法秧。基本蘆局部戲比對(duì)節(jié)搜索燃工具鞠(BL摘AS娛T)統(tǒng)計(jì)薯顯著肺性bi能t分?jǐn)?shù)夫是除探了E值之勉外在BL感AS艇T的輸么出中糧用到擔(dān)的另寸一個(gè)怎重要主的統(tǒng)擺計(jì)指打示量歷。bi佛t分?jǐn)?shù)洞不依抄靠查每詢序井列的測(cè)長(zhǎng)度貞和數(shù)蘇據(jù)庫(kù)扔的大俊小衡注量序葬列的止相似棍性,竄需要篇用嚴(yán)四格序瓜列兩蘇兩比煎對(duì)分暖數(shù)對(duì)雅它進(jìn)孩行標(biāo)機(jī)準(zhǔn)化部。bi門t分?jǐn)?shù)怕(S’)是創(chuàng)用下席面的吉公式殺得到她的。S’蓮=(λ×S偶-解l參nK蔥)/籠ln淘2其中λ是坎肝貝爾笑分布型常數(shù)性,S是嚴(yán)陳格序宏列比鮮對(duì)分旺數(shù),K是與糟使用形的得總分矩附陣有洲關(guān)的霉常數(shù)受。昆很明猜顯,bi與t分?jǐn)?shù)栽與嚴(yán)返格比宅對(duì)分尤數(shù)是含線性領(lǐng)相關(guān)緊的。霸因此密,bi胞t分?jǐn)?shù)詢?cè)礁咂雌ヅ渚娘@廈著性戒就越范高。遭不管娃是搜講索不室同大啟小的足不同付數(shù)據(jù)傾庫(kù)還騾是在作數(shù)據(jù)離庫(kù)增披長(zhǎng)過(guò)圾程中方搜索救不同梢時(shí)間避的同新一個(gè)慨?dāng)?shù)據(jù)額庫(kù),Bi鳥t分?jǐn)?shù)惱都提投供了親一種香固定予的統(tǒng)肅計(jì)指帳示量夜。基本渣局部幻玉比對(duì)疊搜索詞工具唱(BL甜AS辛T)低復(fù)易雜性芹區(qū)域?qū)τ谌赖鞍缀速|(zhì)序?qū)伊泻虳N盛A序列灘都存森在包佳含高羊度重非復(fù)殘膀基的方區(qū)域營(yíng),比分如重設(shè)復(fù)的罷短片驢段,松或者映是由吐少數(shù)殖殘基德組成到的高救度重著復(fù)片出段。左這些興區(qū)域短被認(rèn)琴為是竟低復(fù)糞雜性冒區(qū)域館(LC樓Rs)。手低復(fù)則雜性奴區(qū)域棒在數(shù)獎(jiǎng)?chuàng)?kù)絨序列箱中是扶非常罪普遍添的,塵估計(jì)步低復(fù)模雜性隊(duì)區(qū)域夢(mèng)占公朵共數(shù)浙據(jù)庫(kù)禍中蛋材白質(zhì)放序列致的15粱%。昆查詢屬序列謀中的鐘這些熟成分督會(huì)引潮起假敏的數(shù)宰據(jù)庫(kù)迅匹配盛從而主人為微地提紡高了屈不相呼關(guān)序萍列比得對(duì)分菠數(shù)?;緢F(tuán)局部柜比對(duì)少搜索范工具凡(BL葛AS堂T)低復(fù)講雜性穴區(qū)域?yàn)榱烁疟苊庥嵱捎趶d低復(fù)賴雜性演區(qū)域?qū)挼钠タv配引沙起的祝高相木似得何分使歸真正徑相似容的序暖列不辱顯著惜的問(wèn)導(dǎo)題,踢過(guò)濾次掉查材詢序反列和鋒數(shù)據(jù)戲庫(kù)中品序列感的問(wèn)貞題區(qū)疾域以浮提高景信噪鬧比是雨非常咐重要村的。編常用母的過(guò)役程是趁掩蔽嗚。一指共有蟲兩種住類型加的掩算蔽:反硬掩家蔽和再軟掩捷蔽。貿(mào)硬掩盾蔽就勵(lì)是在BL街AS皺T程序襖中用思一個(gè)江意義筆不明嫁確的犬字符符,棒如核漏酸序稠列用眠的N或蛋惰白質(zhì)槐序列管用的X,來(lái)科取代勢(shì)問(wèn)題慌區(qū)域座以避基免使桂用問(wèn)顯題區(qū)負(fù)域比很對(duì)從蜂而避文免假您陽(yáng)性潮。缺幼點(diǎn)是競(jìng)由于室縮短加了比森對(duì)的膜長(zhǎng)度盤可能餓使真汗正同服源的騰序列程得分箱降低拜。軟俘掩蔽壘保留描問(wèn)題浙序列籌但是瞞減小霞它們寫的作傲用,繪就是灰在構(gòu)芝建單每詞表狗的時(shí)謀候忽烘略它尿們,槳但是保在單撕詞擴(kuò)嗎展和擠最優(yōu)條化比充對(duì)時(shí)鑒使用淡它們狹?;究嗑植勘П葘?duì)革搜索犬工具拍(BL女AS確T)低復(fù)俘雜性鵝區(qū)域SE煤G是一辭個(gè)能箱在執(zhí)文行數(shù)按據(jù)庫(kù)宅搜索嫁前識(shí)項(xiàng)別并感掩蔽盞重復(fù)務(wù)序列學(xué)的程籮序。壇它通店過(guò)比輪較某朵一區(qū)送域殘判基的蛋出現(xiàn)撲頻率婚和在圓數(shù)據(jù)鬼庫(kù)中上殘基會(huì)出現(xiàn)艘的平麥均頻尤率來(lái)睛識(shí)別瓦低復(fù)樓雜性已區(qū)域星。如畏果查商詢序雖列的鳴某一號(hào)區(qū)域減的殘塔基出卸現(xiàn)頻誼率明狗顯高耐于數(shù)隙據(jù)庫(kù)解中的緩平均奏頻率陡,則敢這個(gè)在區(qū)域身就被悉標(biāo)記龜為低坐復(fù)雜冷性區(qū)威域。SE逢G已經(jīng)競(jìng)被集仇成到舞基于we暑b的BL匠AS曲T程序道中。挪需要父一個(gè)懇低復(fù)鋤雜性訪過(guò)濾綿器選啄項(xiàng)面?zhèn)鍋?lái)閉標(biāo)記多低復(fù)司雜性歉區(qū)域軌。Re掏pe磨at助Ma俯sk宏er收(ht牙tp己:/憤/w吸oo捆dy油.e策mb測(cè)l-戚he閣id色el藏be崗rg叛.d幅e/話re芹pe扣at言ma道sk/)是一捧個(gè)用Sm頃it貪h-鑼W(xué)a確te席rm這an算法刷通過(guò)辜比較五查詢顧序列回和包挪含重瞧復(fù)序央列的鋒固定才的庫(kù)勝來(lái)識(shí)武別重燥復(fù)序俘列的鑒獨(dú)立瘋的掩設(shè)蔽程粒序。違如果雅某一斤序列戰(zhàn)區(qū)域狂的比覆對(duì)得摔分高包于閾維值,拳這個(gè)監(jiān)區(qū)域夾就被善認(rèn)為弊是一侮個(gè)低贈(zèng)復(fù)雜奸性區(qū)欄域。歷對(duì)應(yīng)涼的堿收基被端掩蔽韻為N或X?;景Ь植慷奖葘?duì)音搜索塑工具逆(BL栗AS凈T)BL魄AS駐T的輸購(gòu)出格巨式BL娛AS僅T的輸互出包版括一吸個(gè)圖帆示,詞一個(gè)筍匹配慰列表平和一美個(gè)序毀列比假對(duì)的跑文本圓說(shuō)明炮。圖姿示包那括帶擴(kuò)顏色渡的橫時(shí)線,齒通過(guò)務(wù)它們黑可以創(chuàng)快速成識(shí)別捏出數(shù)欠據(jù)庫(kù)掩序列輩匹配鮮的數(shù)纖目和纏匹配闖的相況似性動(dòng)得分芬。橫猾線的蠅顏色雞與匹靠配序畝列的公相似逮性一匯致(扒紅色框:最跪相關(guān)節(jié),綠蝕色和溫藍(lán)色汽:適氣度相燦關(guān),丙黑色紫:不匹相關(guān)芬)。歡橫線及的長(zhǎng)恐度代吵表了遮匹配交序列光相對(duì)者于查衡詢序舉列的閥跨度鋼。每際一條營(yíng)橫線肚都被筋鏈接照到與僻這條陳序列碼相關(guān)虛的文頭字說(shuō)姻明部營(yíng)分。辯圖示企的下踏面是羞一組后按E值遞慈增的連順序敏排列父的相惑匹配積序列啟。庫(kù)每一煎個(gè)序元列都走包含倉(cāng)登錄混號(hào),糊數(shù)據(jù)鎖庫(kù)記融錄的疤題目滴(通擠常是齡一部赴分)急,bi仰t分?jǐn)?shù)竭和E值?;景艟植吭副葘?duì)口搜索桂工具頃(BL自AS得T)BL酷AS丟T的輸晉出格乳式匹配澇序列蝕列表盤下面砌就是章文本尋說(shuō)明廊。它飄包括柱三個(gè)鍋部分行:頭腿部,嬸統(tǒng)計(jì)黎資料絡(luò)和比騰對(duì)。裳頭部安包括員基因黎索引站號(hào)或礙者是祝數(shù)據(jù)流庫(kù)序疊列的咬參考招文獻(xiàn)近號(hào)和箭一行掌的數(shù)尖據(jù)庫(kù)膊序列書描述傍。在垂它下暢面是饒搜索暴輸出裙的統(tǒng)講計(jì)資閃料,謠它包委括bi掙t分?jǐn)?shù)畏,E值,沉一絞致性紗比例調(diào),相稻似性虛比例摟和空涼位。右在具妻體比頃對(duì)部女分,射查詢亡序列箏在一遮對(duì)序珠列的謀上部庸而搜勞索出賽來(lái)的裂數(shù)據(jù)膜庫(kù)序饑列在菠下部從并且緊被標(biāo)茅號(hào)為Ob政je首ct。在喇兩條焰序列共之間圣,相例一致象的殘乒基被蛙寫在棕相應(yīng)瘋的位該置,介而不惠一致等但是掀相似鞏的殘燙基用坐“+”標(biāo)記涂。查鏟詢序瓦列中所任何椅被標(biāo)攔記為優(yōu)低復(fù)蠅雜性晶區(qū)域碌的殘卡基都治被標(biāo)黨記為X或N所以派比對(duì)普不包翼含這頭些區(qū)悄域。FA摟ST盡AFA猴ST肯A(FA項(xiàng)ST垃A猶LL,ww頭w.狹eb岔i.陣ac餅.u老k/湊fa販st翻a3剝3)實(shí)際多上是隊(duì)第一朋個(gè)數(shù)遍據(jù)庫(kù)較相似辭性搜繪索工孝具,喚它拔出現(xiàn)礎(chǔ)在BL誼AS燈T之前點(diǎn)。FA襖ST架A用哈超希策脂略來(lái)昂查找鳳長(zhǎng)度例為k的一止小段嬌連續(xù)吧的殘洽基之信間的尖匹配聽(tīng)。這腔種殘碧基組扣成的膀字符震串叫共做k元組爬,它舒和BL甲AS碗T中的愛(ài)單詞柔是同脊義的睜,但閣是通齡常比飽單詞聞短。k元組頸的典糊型長(zhǎng)腰度是她蛋白暮質(zhì)序憤列為帥兩個(gè)缸殘基瓜而DN戶A序列彈為六苦個(gè)殘絲式基。FA剪ST鮮A算法喉的第退一步易是用剝哈希秘策略塞識(shí)別伏兩條吵序列盈中的k元組船。蔑這種盛策略等是構(gòu)梯造顯晴示兩并條序泛列中患每一猾個(gè)k元組尿位置響的查燭找表狀。養(yǎng)兩條效序列川中的密每一笨個(gè)共肺同k元組程的位沸置差潔是通倘過(guò)用迷第一茫條序蛋列中許的位織置減朵去第塘二條腿序列殿中的慶位置去來(lái)得螺到的父,這吹個(gè)差滋被表泄示為膝位移嘆。院具有善相同啞位移陡值的k元組乞被連窄接起夸來(lái)表先示一賭段連揉續(xù)的喚一致夾性序符列區(qū)旋域,鏟它對(duì)獵應(yīng)于居二維個(gè)矩陣倍中的律一條頸連續(xù)梁的對(duì)蛇角線跡。FA果ST滴A第二向步是廟縮小予兩條牌序列翅之間裙的高饞相似部區(qū)域脖。通征常,職在哈仗希階仇段能鬼識(shí)別贏出兩灘條序剪列之做間的胳許多維對(duì)角社線。竊具有儀最密習(xí)集對(duì)媽角線磚的前士十個(gè)熊區(qū)域賭被識(shí)日別出挨來(lái)作吳為高飼相似缸區(qū)域埋。對(duì)拴這些退區(qū)域溝中的琴對(duì)角句線用趕一個(gè)躬得分社矩陣綁進(jìn)行時(shí)打分饒。沿潑同一怕條對(duì)蹈角線忠的鄰之近的轉(zhuǎn)高相亮似區(qū)筒域被搞連接倍起來(lái)妖形成仍單一值序列樸比對(duì)窗。這錦個(gè)階慌段允菠許應(yīng)遺用空揮位罰梅分從險(xiǎn)而在魄不同祝的對(duì)昆角線枯之間醉引進(jìn)洽空位訪。引劇進(jìn)空串位之濁后的聯(lián)得分控需要烏重新速計(jì)算踢出來(lái)拼。在鄉(xiāng)豐第三杠步中盒,用Sm爪it錢h-今Wa謎te悶rm淹an算法仆對(duì)引慌進(jìn)空回位的魂比對(duì)圖進(jìn)一蝴步提理煉以難得到隔最終虜?shù)谋雀皩?duì)。梨最后相一步他是向BL顛AS滴T算法春一樣飼用E值對(duì)輕最終輪比對(duì)裙結(jié)果鞋進(jìn)行樣統(tǒng)計(jì)殖評(píng)價(jià)公。FA耗ST洗A和BL陰AS病T相似麗,F(xiàn)A仰ST擺A也有守許多旁子程毀序?;瑲W洲汗生物朽信息員學(xué)協(xié)付會(huì)提德供基析于we牲b的FA副ST藝A程序惑允許警使用亮蛋白短質(zhì)或清核酸肺序列寨作為長(zhǎng)查詢爪序列霸來(lái)搜蔬索蛋計(jì)白質(zhì)揭序列營(yíng)或核欠酸序益列數(shù)仙據(jù)庫(kù)則??善蘅康幕I程序糧的變助形有FA冬ST陷X,它賺先把DN愚A序列甲翻譯斷成蛋日白質(zhì)歪序列先然后姻用這邀個(gè)蛋掌白質(zhì)房誠(chéng)序列豎查詢庸蛋白西質(zhì)序穗列數(shù)女據(jù)庫(kù)鎖,還沿有TF爹AS飾TX,他變以蛋南白質(zhì)功序列慰作為梯查詢糞序列襪,用鞋它去準(zhǔn)搜索油翻譯盤成蛋其白質(zhì)灣序列掙的DN凳A序列參數(shù)據(jù)桃?guī)?。FA博ST叫A統(tǒng)計(jì)中顯著腰性FA瀉ST另A也使嫩用E值和bi平t分?jǐn)?shù)股。在FA顫ST葵A中估每計(jì)這牲兩個(gè)備參數(shù)娘本質(zhì)下上和BL沸AS故T相同碌。不御過(guò),F(xiàn)A浸ST公A提供民了一果個(gè)更突具有曠統(tǒng)計(jì)靠意義把的參沈量就螺是Z分?jǐn)?shù)狡。紀(jì)它描岔述在例數(shù)據(jù)蹤蝶庫(kù)搜文索中返與平多均分制數(shù)的盒標(biāo)準(zhǔn)御誤差徐。因蓄為大壇多數(shù)榮的與擁查詢款序列撫的比步對(duì)都廉是不姑相關(guān)谷序列泥比對(duì)邊,飲所以隊(duì)得到尊的匹枯配序薄列的Z分?jǐn)?shù)貸越高和,比喚對(duì)得血分離講得分味分布還的平侍均值攝就越假遠(yuǎn),辟匹瓜配就商越顯咽著。社如果Z分?jǐn)?shù)渡大于15就認(rèn)輸為匹因配是烤極其犬顯著叮的,片它們悔當(dāng)然本就是黃同源狐關(guān)系亮。如陪果Z分?jǐn)?shù)役在5到15的范葵圍內(nèi)緊,序撤列對(duì)概被認(rèn)悉為有優(yōu)很高出的同堪源可丑能性效。如箏果Z分?jǐn)?shù)午小于5,它漠們的頓關(guān)系薪就非負(fù)常不后確定抹。FA性ST弱A與BL表AS感T的比木較BL寬AS底T和FA面ST拿A在常辦規(guī)數(shù)奴據(jù)庫(kù)泥搜索止中顯醒示了遣同樣賞好的默性能飼。下然而歸這兩祥種方犯法之裕間也謎存在掉一些則值得泡注意唯的不夸同點(diǎn)企。最帳主要點(diǎn)的不凡同是鄙在搜抽索種廳子階決段。BL秩AS思T是用尚替換畫矩陣替查找體匹配跟的單井詞,巾而FA盲ST勇A是用紫哈希竊過(guò)程識(shí)識(shí)別長(zhǎng)顯著曲匹配凍單詞震。在宇默認(rèn)靜情況涌下,F(xiàn)A旱ST魔A掃描悟更小鴿的窗霉口。摧所以外,它石給出辰比BL斧AS襪T更敏鬼感的而結(jié)果于。右在BL溜AS貌T中使選用低袍復(fù)雜勤性掩潮蔽技園術(shù),螺使它話得到曾的結(jié)腹果比FA州ST茂A具有纏更高絨的特剖異性林,因走為它動(dòng)降低兼了潛誘在的螺假陽(yáng)老性。BL陶AS疼T有時(shí)暑給出臨一條衫序列薪的多繞個(gè)最朗高得辦分比忘對(duì),河而FA料ST團(tuán)A只能兔給出郵一個(gè)孩最終泄比對(duì)蕩結(jié)果海。用Sm猾it鄉(xiāng)豐h-州Wa腹te燃rm要an算法規(guī)進(jìn)行勤數(shù)據(jù)嗽庫(kù)搜吩索前面宮已經(jīng)幟提到塑,嚴(yán)絹格的傭動(dòng)態(tài)妻規(guī)劃報(bào)算法必通常踢不能農(nóng)用來(lái)險(xiǎn)進(jìn)行瞇數(shù)據(jù)先庫(kù)搜躁索,秀因?yàn)楫吽?jì)帝算速唱度慢知而且岸花費(fèi)規(guī)代價(jià)心大。喉啟發(fā)遲法如BL遷AS調(diào)T和FA控ST塊A提高付了計(jì)述算速匪度。菊然輪而,誼啟發(fā)稀式方端法在挽敏感先性方容面存成在局晶限而憂且不竭保證姓能找吵到最熱佳比捕對(duì)。季它們侵經(jīng)常深不能語(yǔ)找到荒數(shù)據(jù)困庫(kù)中趟的遠(yuǎn)銀距離隸相關(guān)們序列壞。估身計(jì)指晝出對(duì)飼于一艇些蛋劑白質(zhì)志序列巨家族腦,BL葡AS桌T會(huì)丟駕失30療%的真憂正同嘆源序留列。贏目前撓計(jì)算鄙技術(shù)否的發(fā)飛展,悶如巨畏型計(jì)奔算機(jī)亦的并賞行處括理,搞使得塞動(dòng)態(tài)文規(guī)劃清算法保成為渡能滿汪足性咳能要組求的對(duì)數(shù)據(jù)周庫(kù)搜賺索算泛法。用Sm魂it偷h-鼻Wa標(biāo)te萄rm襖an算法今進(jìn)行子數(shù)據(jù)河庫(kù)搜快索為了艇實(shí)現(xiàn)仍這個(gè)久目的階,Ne夾ed路le秤ma桃n-莊Wu氏ns翠ch和Sm瓜it套h忘-W勝at逗er床ma飽n算法碧的機(jī)較器代械碼必排須進(jìn)叔行修凍改以給使它熄們能袍在并滑行處眨理環(huán)燈境中摘運(yùn)行灘從而折使搜香索過(guò)橋程能搭在合毒理的使時(shí)限矩內(nèi)完率成。甩目前蛙,它掛的搜捎索速怒度仍喜然比廁流行熱的啟凳發(fā)式蚊算法至慢。企所以未,這蛛種方凈法還靜不能饅用在村日常犬工作臥中。欲不過(guò)罰,可桿以利葛用動(dòng)架態(tài)規(guī)斷劃算忠法在愚序列尋的水考平上遠(yuǎn)找到等具有泰最大朵敏感信性的醬同源呀序列葛。經(jīng)您驗(yàn)上殖的測(cè)較試顯們示窮腰盡式雹算法父確實(shí)混能比慨啟發(fā)寶式算甩法得陪到更濕加優(yōu)紀(jì)秀的態(tài)結(jié)果豈。下門面是氧一些起基于悄動(dòng)態(tài)己規(guī)劃等算法治的用覽于數(shù)乳據(jù)庫(kù)禽搜索京的we晨b程序革。用Sm宜it港h-鈴Wa聰te并rm嘆an算法報(bào)進(jìn)行范數(shù)據(jù)貧庫(kù)搜棚索Sc哨an幟PS秋(S炮ca謀n艇Pr攻ot餃ei停nSe育qu敞en廚ce慢,w罰ww影.e玻bi書.a藍(lán)c.竟uk答/s臭ca潛np遙s/)是一貓個(gè)基怠于we伶b的適鼠用于誕并行酒處理喘的Sm約it晶h-音Wa比te拔rm斥an算法歷的改偽進(jìn)版梯本的抵實(shí)現(xiàn)跨程序娘。兄它的向主要嬸特點(diǎn)置是可倚以像PS衰I-受BL餓AS雹T那樣型進(jìn)行礙反復(fù)盈的搜拒索,PS洞I-除BL豬AS膽T通過(guò)捉第一響輪計(jì)賢算結(jié)高果建零立一考個(gè)數(shù)鞏據(jù)表雨,在扔第二越輪搜粒索中指會(huì)用尖到這嘆個(gè)表炎。為狡了增榜加敏茄感性找每一刺輪都

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論