已閱讀5頁(yè),還剩34頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
生物序列的相似性搜索blast簡(jiǎn)介及其應(yīng)用,2,生物序列的相似性,相似性(similarity):是指一種很直接的數(shù)量關(guān)系,比如部分相同或相似的百分比或其它一些合適的度量。比如說(shuō),A序列和B序列的相似性是80,或者4/5。這是個(gè)量化的關(guān)系。當(dāng)然可進(jìn)行自身局部比較。,3,同源性(homology):指從一些數(shù)據(jù)中推斷出的兩個(gè)基因或蛋白質(zhì)序列具而共同祖先的結(jié)論,屬于質(zhì)的判斷。就是說(shuō)A和B的關(guān)系上,只有是同源序列,或者非同源序列兩種關(guān)系。而說(shuō)A和B的同源性為80都是不科學(xué)的。,生物序列的同源性,4,相似性和同源性關(guān)系,序列的相似性和序列的同源性有一定的關(guān)系,一般來(lái)說(shuō)序列間的相似性越高的話(huà),它們是同源序列的可能性就更高,所以經(jīng)常可以通過(guò)序列的相似性來(lái)推測(cè)序列是否同源。正因?yàn)榇嬖谶@樣的關(guān)系,很多時(shí)候?qū)π蛄械南嗨菩院屯葱跃蜎](méi)有做很明顯的區(qū)分,造成經(jīng)常等價(jià)混用兩個(gè)名詞。所以有出現(xiàn)A序列和B序列的同源性為80一說(shuō)。,5,數(shù)據(jù)庫(kù)搜索目的,確定特定的蛋白質(zhì)或核酸序列有哪些已知的直系同源或旁系同源序列。確定哪些蛋白質(zhì)和基因在特定的物種中出現(xiàn)。確定一個(gè)DNA或蛋白質(zhì)序列身份。發(fā)現(xiàn)新基因。尋找對(duì)于一個(gè)蛋白質(zhì)的功能或結(jié)構(gòu)起關(guān)鍵作用的氨基酸殘基。,6,Blast簡(jiǎn)介(一),BLAST是由美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)開(kāi)發(fā)的一個(gè)基于序列相似性的數(shù)據(jù)庫(kù)搜索程序。BLAST是“局部相似性基本查詢(xún)工具”(BasicLocalAlignmentSearchTool)的縮寫(xiě)。,7,Blast是一個(gè)序列相似性搜索的程序包,其中包含了很多個(gè)獨(dú)立的程序,這些程序是根據(jù)查詢(xún)的對(duì)象和數(shù)據(jù)庫(kù)的不同來(lái)定義的。比如說(shuō)查詢(xún)的序列為核酸,查詢(xún)數(shù)據(jù)庫(kù)亦為核酸序列數(shù)據(jù)庫(kù),那么就應(yīng)該選擇blastn程序。下表列出了主要的blast程序。,Blast簡(jiǎn)介(二),8,9,ProgramInputDatabase,10,11,Blast程序評(píng)價(jià)序列相似性的兩個(gè)數(shù)據(jù),Score:使用打分矩陣對(duì)匹配的片段進(jìn)行打分,這是對(duì)各對(duì)氨基酸殘基(或堿基)打分求和的結(jié)果,一般來(lái)說(shuō),匹配片段越長(zhǎng)、相似性越高則Score值越大。Evalue:在相同長(zhǎng)度的情況下,兩個(gè)氨基酸殘基(或堿基)隨機(jī)排列的序列進(jìn)行打分,得到上述Score值的概率的大小。E值越小表示隨機(jī)情況下得到該Score值的可能性越低。,12,NCBI提供的Blast服務(wù),登陸n(yōu)cbi的blast主頁(yè),核酸序列,蛋白序列,翻譯序列,底下有其他一些針對(duì)特殊數(shù)據(jù)庫(kù)的和查看以往的比對(duì)結(jié)果等,13,Blast任務(wù)提交表單(一),1.序列信息部分,填入查詢(xún)(query)的序列,序列范圍(默認(rèn)全部),選擇搜索數(shù)據(jù)庫(kù),如果接受其他參數(shù)默認(rèn)設(shè)置,點(diǎn)擊開(kāi)始搜索,14,Blast任務(wù)提交表單(二),設(shè)置搜索的范圍,entrez關(guān)鍵詞,或者選擇特定物種,2.設(shè)置各種參數(shù)部分,一些過(guò)濾選項(xiàng),包括簡(jiǎn)單重復(fù)序列,人類(lèi)基因組中的重復(fù)序列等,E值上限,窗口大小,如果你對(duì)blast的命令行選項(xiàng)熟悉的話(huà),可以在這里加入更多的參數(shù),15,Blast任務(wù)提交表單(三),3.設(shè)置結(jié)果輸出顯示格式,選擇需要顯示的選項(xiàng)以及顯示的文件格式,顯示數(shù)目,Alignment的顯示方式,篩選結(jié)果,E值范圍,其他一些顯示格式參數(shù),點(diǎn)擊開(kāi)始搜索,16,提交任務(wù),返回查詢(xún)號(hào)(requestid),可以修改顯示結(jié)果格式,修改完顯示格式后點(diǎn)擊進(jìn)入結(jié)果界面,17,結(jié)果頁(yè)面(一),圖形示意結(jié)果,18,結(jié)果頁(yè)面(二),目標(biāo)序列描述部分,帶有g(shù)enbank的鏈接,點(diǎn)擊可以進(jìn)入相應(yīng)的genbank序列,匹配情況,分值,e值,19,結(jié)果頁(yè)面(三),詳細(xì)的比對(duì)上的序列的排列情況,查詢(xún)序列和目標(biāo)序列之間的字母表示兩個(gè)氨基酸相同,加號(hào)+表示兩個(gè)氨基酸相似??瞻妆硎炯炔幌嗤膊幌嗨?。,20,一個(gè)具體的例子(blastp),假設(shè)以下為一未知蛋白序列query_seqMSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADSTQA我們通過(guò)blast搜索來(lái)獲取一些這個(gè)序列的信息。,21,具體步驟,1.登陸blast主頁(yè)/BLAST/2.根據(jù)數(shù)據(jù)類(lèi)型,選擇合適的程序3.填寫(xiě)表單信息4.提交任務(wù)5.查看和分析結(jié)果,22,分析過(guò)程(一),1.登陸n(yōu)cbi的blast主頁(yè),2.選擇程序,因?yàn)椴樵?xún)序列是蛋白序列可以選擇blastp,點(diǎn)擊進(jìn)入,也可以選擇tblastn,作為演示,我們這里選blastp,23,分析過(guò)程(二),3.填入序列(copypaste)Fasta格式,或者純序列,4.選擇搜索區(qū)域,這里我們要搜索整個(gè)序列,不填,5.選擇搜索數(shù)據(jù)庫(kù),這里我們選nr(非冗余的蛋白序列庫(kù))。,是否搜索保守區(qū)域數(shù)據(jù)庫(kù)(cdd),蛋白序列搜索才有。我們選上,24,分析過(guò)程(三),6.限制條件,我們限制在病毒里面找。,7.其他選項(xiàng)保持默認(rèn)值,打分矩陣,25,分析過(guò)程(四),8.輸出格式選項(xiàng)保持默認(rèn)值,9.點(diǎn)擊開(kāi)始搜索,26,分析過(guò)程(五),10.查詢(xún)序列的一些相關(guān)信息,在cdd庫(kù)里面找到兩個(gè)保守區(qū)域,點(diǎn)擊可以進(jìn)入,27,分析過(guò)程(六),圖形結(jié)果,28,分析過(guò)程(七),匹配序列列表,29,序列同源性的判斷方法:,搜索結(jié)果是否顯著查看E值列表,是否顯著.如果是核酸序列,E10-6為顯著;如果是蛋白質(zhì)序列,E10-3為顯著查看同一性分值如果是核酸序列,Identity70%為顯著;如果是蛋白質(zhì)序列,Identity25%為顯著兩個(gè)蛋白是否具有近似的大小,30,兩個(gè)蛋白是否有共同的模體或信號(hào)序列.兩個(gè)蛋白質(zhì)是不是一個(gè)合理的多序列比對(duì)的一部分兩個(gè)蛋白質(zhì)是否共有一個(gè)相似的生物學(xué)功能.兩個(gè)蛋白質(zhì)是否具有相似的三維結(jié)構(gòu).PSI-BLAST搜索,31,BLAST搜索策略調(diào)整,搜索結(jié)果過(guò)多情況加Entrez限制條件利用序列的一部分進(jìn)行搜索調(diào)整記分矩陣調(diào)整期望值搜索結(jié)果過(guò)少情況去掉Entrez限制提高期望值使用更高PAM值或更低BLOSUM值的記分矩陣高級(jí)BLAST搜索,32,進(jìn)一步深入Blast,1.blast22.Megablast3.Psi-blast4.PHI-blast5.其他(rpsblast,blastclust等),33,Blast2,兩個(gè)序列的blast比對(duì),給定兩個(gè)序列,相互進(jìn)行blast比對(duì)。能快速檢查兩個(gè)序列是否存在相似性片斷或者是否一致。這比起全序列比對(duì)要快很多。,34,Megablast,megablast采用了貪婪算法(greedyalgorithm),它連接了多個(gè)查詢(xún)序列進(jìn)行一次搜索比對(duì),這樣節(jié)省了很多搜索數(shù)據(jù)庫(kù)的時(shí)間。主要針對(duì)核酸序列。是blast經(jīng)過(guò)優(yōu)化后,適用于由于測(cè)序或者其他原因形成的輕微的差別的序列之間的比較,比一般的相似性搜索程序要快10倍,可以很快的完成兩組大數(shù)據(jù)的比對(duì)。,35,PSI-blast,PositionspecificiterativeBLAST(PSI-BLAST)位點(diǎn)特異的迭代blast搜索,主要針對(duì)蛋白序列。第一次blast搜索后,結(jié)果中最相似的序列重新構(gòu)建PSSM(位點(diǎn)特異性打分矩陣),然后再使用該矩陣進(jìn)行第二輪blast搜索,再調(diào)整矩陣,搜索,如此迭代。最終高度保守的區(qū)域就會(huì)得到比較高的分值,而不保守的區(qū)域則分?jǐn)?shù)降低,趨近0。這樣可以提高blast搜索的靈敏度,有助于尋找遠(yuǎn)源相關(guān)的蛋白。,36,PHI-BLAST,模式識(shí)別BLAST(PatternhitintiatedBLAST)PHI-BLAST能找到與查詢(xún)序列相似的符合某種模式(pattern)的蛋白質(zhì)序列,37,Blast的算法基礎(chǔ),基本思想是:通過(guò)產(chǎn)生
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版綠色包裝材料研發(fā)及推廣合同2篇
- 2025年度石料廠產(chǎn)品質(zhì)量安全承包管理合同范本2篇
- 二零二五年度城市綜合體建筑設(shè)計(jì)合同3篇
- 2025年度高新技術(shù)企業(yè)知識(shí)產(chǎn)權(quán)質(zhì)押擔(dān)保合同范本3篇
- 二零二五版農(nóng)村小微企業(yè)發(fā)展借款合同解析論文3篇
- 二零二五年生物制藥工藝技術(shù)聘用合同2篇
- 二零二五版股權(quán)代持協(xié)議簽訂前的合同談判注意事項(xiàng)3篇
- 二零二五年度建筑工程安全施工環(huán)境保護(hù)監(jiān)理合同3篇
- 二零二五版購(gòu)房合同違約責(zé)任條款解析3篇
- 2025年度緊急物資承攬運(yùn)輸合同3篇
- 停車(chē)場(chǎng)施工施工組織設(shè)計(jì)方案
- GB/T 37238-2018篡改(污損)文件鑒定技術(shù)規(guī)范
- 普通高中地理課程標(biāo)準(zhǔn)簡(jiǎn)介(湘教版)
- 河道治理工程監(jiān)理通知單、回復(fù)單范本
- 超分子化學(xué)簡(jiǎn)介課件
- 高二下學(xué)期英語(yǔ)閱讀提升練習(xí)(一)
- 易制爆化學(xué)品合法用途說(shuō)明
- 【PPT】壓力性損傷預(yù)防敷料選擇和剪裁技巧
- 大氣喜慶迎新元旦晚會(huì)PPT背景
- DB13(J)∕T 242-2019 鋼絲網(wǎng)架復(fù)合保溫板應(yīng)用技術(shù)規(guī)程
- 心電圖中的pan-tompkins算法介紹
評(píng)論
0/150
提交評(píng)論