版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第三章第三章 核酸數(shù)據(jù)庫的應(yīng)用核酸數(shù)據(jù)庫的應(yīng)用 數(shù)據(jù)庫涉及到的內(nèi)容主要包括兩大部分:數(shù)據(jù)庫涉及到的內(nèi)容主要包括兩大部分:數(shù)據(jù)庫組織和數(shù)據(jù)庫開發(fā)工具。數(shù)據(jù)庫組織和數(shù)據(jù)庫開發(fā)工具。就核酸數(shù)據(jù)就核酸數(shù)據(jù)庫而言,前者有庫而言,前者有NCBINCBI、EBIEBI以及日本生物信息以及日本生物信息學(xué)服務(wù)器學(xué)服務(wù)器等;后者包括等;后者包括序列相似性搜索基本序列相似性搜索基本工具工具EntrezEntrez,BLASTBLAST和和FASTAFASTA。 核酸數(shù)據(jù)庫的應(yīng)用包括兩個(gè)主要方面,即核酸數(shù)據(jù)庫的應(yīng)用包括兩個(gè)主要方面,即數(shù)據(jù)庫查詢(數(shù)據(jù)庫查詢(database querydatabase query)和
2、數(shù)據(jù)庫搜)和數(shù)據(jù)庫搜索(索(database searchdatabase search)。)。 數(shù)據(jù)庫查詢和數(shù)據(jù)庫搜索數(shù)據(jù)庫查詢和數(shù)據(jù)庫搜索是分子生物信息是分子生物信息學(xué)中兩個(gè)常用序語。學(xué)中兩個(gè)常用序語。 數(shù)據(jù)庫查詢是指數(shù)據(jù)庫查詢是指對序列、結(jié)構(gòu)以及各種二對序列、結(jié)構(gòu)以及各種二級數(shù)據(jù)庫中的注釋信息進(jìn)行關(guān)鍵詞匹配查找。級數(shù)據(jù)庫中的注釋信息進(jìn)行關(guān)鍵詞匹配查找。 數(shù)據(jù)庫搜索是指數(shù)據(jù)庫搜索是指通過特定的序列相似性比通過特定的序列相似性比對算法,找出核酸或蛋白質(zhì)序列數(shù)據(jù)庫中與檢對算法,找出核酸或蛋白質(zhì)序列數(shù)據(jù)庫中與檢測序列具有一定程度相似性的序列。測序列具有一定程度相似性的序列。第一節(jié)第一節(jié) 常用的核
3、酸數(shù)據(jù)庫常用的核酸數(shù)據(jù)庫 一、一、GenBankGenBankNCBINCBI核酸序列數(shù)據(jù)庫核酸序列數(shù)據(jù)庫1 1、 GenBankGenBank核酸序列數(shù)據(jù)庫的檢索核酸序列數(shù)據(jù)庫的檢索GenBank數(shù)據(jù)庫的數(shù)據(jù)庫的簡單查詢簡單查詢是是在在NCBI首頁上的首頁上的Search中中直接查詢直接查詢檢索窗口利用著者進(jìn)行查詢時(shí),輸入格式應(yīng)為作者利用著者進(jìn)行查詢時(shí),輸入格式應(yīng)為作者的姓加上名的縮寫。如:的姓加上名的縮寫。如: ThomasThomas點(diǎn)擊點(diǎn)擊點(diǎn)擊點(diǎn)擊也可以用序列登記號(也可以用序列登記號(accession numberaccession number)進(jìn))進(jìn)行一般查詢,如:行一般查詢,
4、如:AF477385AF477385點(diǎn)擊點(diǎn)擊 高級檢索是通過高級檢索是通過NCBINCBI的的EntrezEntrez檢索系統(tǒng)檢索系統(tǒng)實(shí)實(shí)現(xiàn)?,F(xiàn)。EntrezEntrez是是NCBINCBI的數(shù)據(jù)庫檢索查詢系統(tǒng)的的數(shù)據(jù)庫檢索查詢系統(tǒng)的核心。核心。 利用利用EntrezEntrez系統(tǒng),可以檢索系統(tǒng),可以檢索GenBankGenBank和其和其他數(shù)據(jù)庫的蛋白質(zhì)序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)、他數(shù)據(jù)庫的蛋白質(zhì)序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)、來自分子模型數(shù)據(jù)庫(來自分子模型數(shù)據(jù)庫(MMDBMMDB)的蛋白質(zhì)三維)的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群序列數(shù)據(jù)集,以及有結(jié)構(gòu)數(shù)據(jù)、種群序列數(shù)據(jù)集,以及有PubmedPubmed
5、獲得獲得MedlineMedline的生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)。的生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)。EntrezEntrez提供方便實(shí)用的檢索服務(wù),所有操提供方便實(shí)用的檢索服務(wù),所有操作都可以在網(wǎng)絡(luò)瀏覽器上完成。利用作都可以在網(wǎng)絡(luò)瀏覽器上完成。利用EntrezEntrez界面提供的限制條件(界面提供的限制條件(Limit鍵)、鍵)、索引(索引(Index鍵)、檢索歷史(鍵)、檢索歷史(History鍵)鍵)和剪貼板(和剪貼板(Clipboard鍵)等功能實(shí)現(xiàn)復(fù)雜鍵)等功能實(shí)現(xiàn)復(fù)雜的檢索查詢工作。的檢索查詢工作。 進(jìn)入進(jìn)入NCBINCBI的的EntrezEntrez主頁,用戶可以選擇組主頁,用戶可以選擇組成成Entre
6、zEntrez系統(tǒng)的系統(tǒng)的五個(gè)數(shù)據(jù)庫五個(gè)數(shù)據(jù)庫之一作為查詢起之一作為查詢起點(diǎn)。如以點(diǎn)。如以NucleotideNucleotide開始。選擇開始。選擇NucleotideNucleotide即進(jìn)入即進(jìn)入Entrez Nucleotide searchEntrez Nucleotide search界面,點(diǎn)界面,點(diǎn)擊擊LimitsLimits進(jìn)入限定檢索界面。如上圖。完成進(jìn)入限定檢索界面。如上圖。完成各各限制條件限制條件后,點(diǎn)擊后,點(diǎn)擊GoGo即進(jìn)行檢索。即進(jìn)行檢索。2、NCBI中的中的GenBank數(shù)據(jù)的格式數(shù)據(jù)的格式LOCUS DEFINITION 序列名稱序列名稱 基因定義基因定義ACCE
7、SSION 序列編號序列編號 序列接受號或登記號序列接受號或登記號VERSION 序列版本號序列版本號DATE 序列提交、創(chuàng)建和更新日期序列提交、創(chuàng)建和更新日期DISCRIPTION 序列簡要描述序列簡要描述KEYWORDS 與序列相關(guān)的關(guān)鍵詞與序列相關(guān)的關(guān)鍵詞SOURCE 序列的來源種屬序列的來源種屬ORGANISM 序列的來源分類序列的來源分類REFERENCE 參考文獻(xiàn)編號或遞交序列信息參考文獻(xiàn)編號或遞交序列信息REMARK 參考文獻(xiàn)評述參考文獻(xiàn)評述MEDLINE 參考文獻(xiàn)交叉索引或遞交序列在參考文獻(xiàn)交叉索引或遞交序列在Medline 中的存取號中的存取號TITLEAUTHER 參考文獻(xiàn)
8、作者或遞交序列作者參考文獻(xiàn)作者或遞交序列作者TITLE 參考文獻(xiàn)題目參考文獻(xiàn)題目JOURNAL 參考文獻(xiàn)出處參考文獻(xiàn)出處FEATURES 序列特征表起始序列特征表起始 COMMENT 序列注釋信息序列注釋信息BASE COUNT 序列起始標(biāo)序列起始標(biāo)志ORIGEN 序列數(shù)據(jù)序列數(shù)據(jù) LOCUS TG29 EDGP 839bp DNA linear INV18-APR-1998DEFINITIONToxoplasma gondii DNA encodinga29kD GRA.ACCESSION Y13863VERSION Y13863.1GI:2231107KEYWORDS 29kDa prot
9、ein;dense granule protein;p29gene.SOURCE Toxoplasma gondiiORGANISM ToxoplasmagondiiEukaryota;Alveolata;Apicomplexa;Coccidia;Eimeriida;Sarcocystidae;Toxoplasma.REFERENCE1(bases1to839)AUTHORSFischer,H.G.,Stachelhaus,S.,Sahm,M.,et al.TITLEGRA7,JOURNAL Mol.Biochem.Parasitol.91(2),251-262(1998)PUBMED 956
10、6518 1:Y13863.ReportsToxoplasmagondii.gi:2231107REFERENCE2(bases1to839)AUTHORSFischer,H.G.TITLEDirectSubmissionJOURNALSubmitted(16-JUN-997)FischerH.G.,InstituteforMedicalMicrobiology and Virology,Heinrich-Heine-UniversitaetDuesseldorf,Universitaetsstr.1,D-40225Duesseldorf40225GERMANYFEATURES Locatio
11、n/QualifiersCDSCDS 79.78979.789n檢索大分子生物學(xué)數(shù)據(jù)檢索大分子生物學(xué)數(shù)據(jù)n獲取獲取GenBankGenBank, EMBL, EMBL等數(shù)據(jù)庫的核酸序列;等數(shù)據(jù)庫的核酸序列;n獲取獲取Swiss-Swiss-prot,PIR,PRF,PDBprot,PIR,PRF,PDB等蛋白質(zhì)序等蛋白質(zhì)序列;從核酸序列翻譯到蛋白質(zhì)的序列;列;從核酸序列翻譯到蛋白質(zhì)的序列;n獲取基因和染色體圖譜;蛋白質(zhì)三維結(jié)構(gòu)獲取基因和染色體圖譜;蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)及大分子模式(數(shù)據(jù)及大分子模式(MMDBMMDB)等其他生物信)等其他生物信息數(shù)據(jù)庫檢索。息數(shù)據(jù)庫檢索。nPubMedPubMed
12、書目文獻(xiàn)數(shù)據(jù)。書目文獻(xiàn)數(shù)據(jù)。EntrezEntrez生命科學(xué)搜索引擎生命科學(xué)搜索引擎檢索字段限制分子類型選擇基因位置限定序列片段限定數(shù)據(jù)更新日期限定功能欄核酸序列檢索核酸序列檢索序列存取號基因定義數(shù)據(jù)庫標(biāo)識符代碼物種來源參考文獻(xiàn)特性專業(yè)評論堿基數(shù)原序列復(fù)制后,可到BLAST中進(jìn)行相似性對比二、二、EMBL歐洲核酸數(shù)據(jù)庫歐洲核酸數(shù)據(jù)庫EMBL數(shù)據(jù)庫共有數(shù)據(jù)庫共有Genomes、Simple sequence retrieval 和和SRS(序列提取系統(tǒng))(序列提取系統(tǒng))三種檢索方式。三種檢索方式。1、Genomes 提供已完成測序的基因組數(shù)據(jù),提供已完成測序的基因組數(shù)據(jù),用戶可以通過生物分類名稱
13、以分層點(diǎn)擊瀏覽用戶可以通過生物分類名稱以分層點(diǎn)擊瀏覽的方式獲取相關(guān)信息,通過相關(guān)鏈接,用戶的方式獲取相關(guān)信息,通過相關(guān)鏈接,用戶可獲得大量已完成測序的基因組數(shù)據(jù)??色@得大量已完成測序的基因組數(shù)據(jù)。網(wǎng)址為:網(wǎng)址為:http:/www.ebi.ac.uk/genomes2、Simple sequence retrieval:直接輸入序直接輸入序列接受號檢索核酸序列。列接受號檢索核酸序列。網(wǎng)址網(wǎng)址:http:/www.ebi.ac.uk/cgi-bin/emblfetch3、SRS(序列提取系統(tǒng))(序列提取系統(tǒng)):是目前生物信是目前生物信息界應(yīng)用最為廣泛的數(shù)據(jù)庫系統(tǒng)。息界應(yīng)用最為廣泛的數(shù)據(jù)庫系統(tǒng)。網(wǎng)
14、址:網(wǎng)址:http:/srs.ebi.ac.uk/檢索序列時(shí)只需用鼠標(biāo)點(diǎn)擊檢索序列時(shí)只需用鼠標(biāo)點(diǎn)擊“Search”,在輸入框中輸入擬檢索的信息即可。在輸入框中輸入擬檢索的信息即可。SRS的的 詳細(xì)信息參見:詳細(xì)信息參見:http:/www.sanger.ac.uk/srs/srsman.html三、三、DDBJ日本日本DNA數(shù)據(jù)庫數(shù)據(jù)庫包括包括GetentryGetentry、SRSSRS、AfgateAfgateTAISTAIS、HomologyHomology等幾種方法。前四種用于檢索等幾種方法。前四種用于檢索DDBJDDBJ數(shù)據(jù)庫中原數(shù)據(jù)庫中原始數(shù)據(jù),始數(shù)據(jù), HomologyHomol
15、ogy采用采用FASTA/BLASTFASTA/BLAST檢索對用檢索對用戶提供的序列或片段做同源性分析。戶提供的序列或片段做同源性分析。1 1、GetentryGetentry:通過登錄號檢索:通過登錄號檢索DDBJDDBJ核酸數(shù)據(jù)核酸數(shù)據(jù)庫,最多可同時(shí)輸入庫,最多可同時(shí)輸入1010個(gè)號碼進(jìn)行檢索,各號個(gè)號碼進(jìn)行檢索,各號碼之間用空格或碼之間用空格或“,”分隔,連續(xù)號碼可用分隔,連續(xù)號碼可用“- -”表示。還可用表示。還可用Locus nameLocus name、Gene nameGene name、Product nameProduct name、P-IDP-ID、Clone numbe
16、rClone number和和PatentPatent號等檢索。號等檢索。2 2、SRSSRS:有快速檢索和高級檢索兩種途徑。快:有快速檢索和高級檢索兩種途徑。快速檢索可同時(shí)選擇多個(gè)數(shù)據(jù)庫進(jìn)行檢索,并且速檢索可同時(shí)選擇多個(gè)數(shù)據(jù)庫進(jìn)行檢索,并且它只對來自它只對來自“IDID”、“MoleculeMolecule”、“DiscriptionDiscription”、“AccNumberAccNumber”、“KeywordsKeywords”、“SourceSource”“OrganismOrganism”、“AuthorsAuthors”、“TitleTitle”及及“CommentCommen
17、t”等等1010個(gè)默認(rèn)字段的信息進(jìn)行檢索。個(gè)默認(rèn)字段的信息進(jìn)行檢索。3 3、AfgateAfgateTAISTAIS:比較簡單的關(guān)鍵詞檢索途徑,:比較簡單的關(guān)鍵詞檢索途徑,在檢索框內(nèi)輸入檢索策略,點(diǎn)擊在檢索框內(nèi)輸入檢索策略,點(diǎn)擊start searchstart search按鈕即可完成。按鈕即可完成。第二節(jié)第二節(jié) 常用的常用的RNA數(shù)據(jù)庫及軟件數(shù)據(jù)庫及軟件一、一、Transterm-mRNA序列和翻譯調(diào)控元件數(shù)據(jù)庫序列和翻譯調(diào)控元件數(shù)據(jù)庫1、Transterm數(shù)據(jù)庫簡介數(shù)據(jù)庫簡介 Transterm數(shù)據(jù)庫由新西蘭數(shù)據(jù)庫由新西蘭Otago大學(xué)生物化學(xué)系大學(xué)生物化學(xué)系構(gòu)建并維護(hù),是一個(gè)構(gòu)建并維護(hù)
18、,是一個(gè)mRNA序列和翻譯調(diào)控元件序列和翻譯調(diào)控元件數(shù)數(shù)據(jù)庫。據(jù)庫。 Transterm設(shè)計(jì)的目的是研究設(shè)計(jì)的目的是研究mRNA的構(gòu)成以及翻的構(gòu)成以及翻譯過程中的調(diào)控信號。譯過程中的調(diào)控信號。 Transterm中收錄的中收錄的mRNA序序列包括多種功能成分,既可以對一種物種進(jìn)行分析,列包括多種功能成分,既可以對一種物種進(jìn)行分析,也可以借此進(jìn)行信息查詢。也可以借此進(jìn)行信息查詢。每一個(gè)從每一個(gè)從GenBank內(nèi)提取的內(nèi)提取的mRNA被分成以下部被分成以下部分:分:功能成分,起始編碼區(qū),終止編碼區(qū),即功能成分,起始編碼區(qū),終止編碼區(qū),即5-UTR、3-UTR和翻譯信號的側(cè)翼序列和翻譯信號的側(cè)翼序列
19、。網(wǎng)址:網(wǎng)址:http:/www.uther.otago.ac.nz/Transterm.html2、 Transterm數(shù)據(jù)檢索數(shù)據(jù)檢索Transterm提供每一物種密碼子使用表格,還提供描提供每一物種密碼子使用表格,還提供描述述mRNA中已知的基序或特征的模式的總結(jié)。通過中已知的基序或特征的模式的總結(jié)。通過Transterm來源于來源于GenBank的編碼區(qū)可被分割為的編碼區(qū)可被分割為5側(cè)側(cè)翼、起始區(qū)、全編碼區(qū)、終止區(qū)、翼、起始區(qū)、全編碼區(qū)、終止區(qū)、3側(cè)翼。在側(cè)翼。在Transterm的的WWW界面使用與數(shù)據(jù)庫文件和有關(guān)數(shù)界面使用與數(shù)據(jù)庫文件和有關(guān)數(shù)據(jù)庫相關(guān)聯(lián)的圖表,可以搜索所有或部分?jǐn)?shù)據(jù)
20、庫內(nèi)據(jù)庫相關(guān)聯(lián)的圖表,可以搜索所有或部分?jǐn)?shù)據(jù)庫內(nèi)容,找尋任一條符合條件的模式或用戶自定義的模容,找尋任一條符合條件的模式或用戶自定義的模式。式。二、RDP-11-核糖體數(shù)據(jù)庫核糖體數(shù)據(jù)庫由由Maidak等人創(chuàng)建,提供一切與核糖體有等人創(chuàng)建,提供一切與核糖體有關(guān)的數(shù)據(jù)、程序及相關(guān)服務(wù)計(jì)算機(jī)程序,包關(guān)的數(shù)據(jù)、程序及相關(guān)服務(wù)計(jì)算機(jī)程序,包括括rRNA在線數(shù)據(jù)分析、進(jìn)化分類系統(tǒng)樹、在線數(shù)據(jù)分析、進(jìn)化分類系統(tǒng)樹、rRNA相似序列的排列、序列注釋、相似序列的排列、序列注釋、rRNA二級結(jié)構(gòu)圖以及各種相似序列比較分析和顯二級結(jié)構(gòu)圖以及各種相似序列比較分析和顯示軟件示軟件。網(wǎng)址:網(wǎng)址:http:/www. r
21、1、簡介、簡介2、 RDP-數(shù)據(jù)庫提供的分析工具數(shù)據(jù)庫提供的分析工具(1)Probe Match:分析特異探針在數(shù)據(jù)庫中出現(xiàn)的頻率分析特異探針在數(shù)據(jù)庫中出現(xiàn)的頻率(2)Sequence Match:通過通過nearest neighbors算法確定與算法確定與 用戶序列最相近的用戶序列最相近的RDP-序列。序列。(3)Sequence Align:對使用者的數(shù)據(jù)進(jìn)行排列,找到與對使用者的數(shù)據(jù)進(jìn)行排列,找到與 使用者序列最相近的使用者序列最相近的RDP-序列。序列。(4)Similarity Matrix:計(jì)算計(jì)算RDP-和和/或使用者序列的或使用者序列的 相似性相似
22、性/不相似性矩陣。不相似性矩陣。(5)Chimera Check:檢查用戶序列是否為嵌合型。檢查用戶序列是否為嵌合型。(6)Alignment Slices:從從RDP-全排列數(shù)據(jù)庫中抽取興全排列數(shù)據(jù)庫中抽取興 趣部分,與相鄰序列精簡壓縮為趣部分,與相鄰序列精簡壓縮為 一個(gè)序列,突出鄰近序列的差異性一個(gè)序列,突出鄰近序列的差異性.(7)Sequence Selection:從動(dòng)態(tài)展示的等級分類中選取從動(dòng)態(tài)展示的等級分類中選取 序列,選出的序列可被下載并序列,選出的序列可被下載并 進(jìn)行進(jìn)行RDP-其他軟件分析。其他軟件分析。(8)T-RFLP:以以ABI測序系統(tǒng)格式使用數(shù)據(jù),建立一個(gè)測序系統(tǒng)格式
23、使用數(shù)據(jù),建立一個(gè)相似性矩陣。相似性矩陣。(9)TAPT-RFLP:在在RDP數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)庫中進(jìn)行“T-RFLP實(shí)實(shí)驗(yàn)驗(yàn)”,利于設(shè)計(jì)與分析。,利于設(shè)計(jì)與分析。(10)(Sub)Trees:一種一種Java applet,可以用來展示、,可以用來展示、操縱種屬進(jìn)化系統(tǒng)樹,產(chǎn)生新分支,或選取序列進(jìn)操縱種屬進(jìn)化系統(tǒng)樹,產(chǎn)生新分支,或選取序列進(jìn)行其他的行其他的RDP-分析。分析。(11)PCA(principal Component analysis):對那):對那些較大的序列系統(tǒng)進(jìn)行圖象化處理,些較大的序列系統(tǒng)進(jìn)行圖象化處理,PCA可通過網(wǎng)可通過網(wǎng)頁上的頁上的“Sopplementary Mat
24、erial links”找到。找到。三、三、RNARNA二級結(jié)構(gòu)預(yù)測二級結(jié)構(gòu)預(yù)測 借助計(jì)算機(jī)生物學(xué)可以很好地利用已知的借助計(jì)算機(jī)生物學(xué)可以很好地利用已知的RNARNA序列進(jìn)行二級結(jié)構(gòu)預(yù)測乃至三級結(jié)構(gòu)建模。目序列進(jìn)行二級結(jié)構(gòu)預(yù)測乃至三級結(jié)構(gòu)建模。目前較成熟并實(shí)現(xiàn)自動(dòng)化的軟件主要在前較成熟并實(shí)現(xiàn)自動(dòng)化的軟件主要在二級結(jié)構(gòu)二級結(jié)構(gòu)預(yù)測的水平上。預(yù)測的水平上。1 1、ViennaRNAViennaRNA軟件包軟件包 綜合了兩種算法來預(yù)測綜合了兩種算法來預(yù)測RNARNA二級二級結(jié)構(gòu):一種是最小自由能的動(dòng)態(tài)規(guī)劃算法,另一種是結(jié)構(gòu):一種是最小自由能的動(dòng)態(tài)規(guī)劃算法,另一種是McCaskillMcCaskill
25、的分割函數(shù)算法。除的分割函數(shù)算法。除RNARNA折疊外,還可計(jì)算折疊外,還可計(jì)算給定二級結(jié)構(gòu)的給定二級結(jié)構(gòu)的RNARNA能量、能量、RNARNA比熱及采用字符串聯(lián)配比熱及采用字符串聯(lián)配或編輯計(jì)算二級結(jié)構(gòu)間距離,還為反折疊提供一種算或編輯計(jì)算二級結(jié)構(gòu)間距離,還為反折疊提供一種算法,搜索給定二級結(jié)構(gòu)的法,搜索給定二級結(jié)構(gòu)的RNARNA序列。序列。2 2、MFOLDMFOLD Zuker Zuker的主頁含眾多的主頁含眾多RNARNA結(jié)構(gòu)站點(diǎn)的超鏈結(jié)構(gòu)站點(diǎn)的超鏈接,作為接,作為RNARNA相關(guān)網(wǎng)站的導(dǎo)航站點(diǎn)相關(guān)網(wǎng)站的導(dǎo)航站點(diǎn)。該站點(diǎn)可以下載該站點(diǎn)可以下載最新最新mfoldmfold軟件,也可以將序列
26、提交給軟件,也可以將序列提交給ZukerZuker的的mfoldmfold服務(wù)器完成。其中服務(wù)器完成。其中RNA structure RNA structure 是是ZukerZuker預(yù)測預(yù)測RNARNA二二級結(jié)構(gòu)的級結(jié)構(gòu)的Windows9X/WindowsNTWindows9X/WindowsNT版本,可以免費(fèi)下載。版本,可以免費(fèi)下載。3 3、RNA drawRNA draw 其主頁詳細(xì)介紹了程序的安裝、原理、其主頁詳細(xì)介紹了程序的安裝、原理、使用和前景。大多數(shù)使用和前景。大多數(shù)RNARNA二級結(jié)構(gòu)預(yù)測均可在大型計(jì)二級結(jié)構(gòu)預(yù)測均可在大型計(jì)算機(jī)上完成,一般實(shí)驗(yàn)室不具備這些條件。算機(jī)上完成,一
27、般實(shí)驗(yàn)室不具備這些條件。4 4、RNARNA世界世界 可能是最全面的可能是最全面的RNARNA站點(diǎn),其超鏈接包站點(diǎn),其超鏈接包括各種數(shù)據(jù)庫站點(diǎn)、網(wǎng)絡(luò)工具、序列、二級結(jié)構(gòu)以及括各種數(shù)據(jù)庫站點(diǎn)、網(wǎng)絡(luò)工具、序列、二級結(jié)構(gòu)以及相關(guān)軟件??梢院芊奖愕馗鶕?jù)相關(guān)軟件??梢院芊奖愕馗鶕?jù)PDBPDB(protein data protein data bankbank)代碼或者)代碼或者NDBNDB(nucleic acid data basenucleic acid data base)代)代碼來查找所需要碼來查找所需要RNARNA的結(jié)構(gòu)信息,同時(shí)提供包括研究的結(jié)構(gòu)信息,同時(shí)提供包括研究方法、參考文獻(xiàn)、可視化
28、圖象軟件及相關(guān)數(shù)據(jù)庫等信方法、參考文獻(xiàn)、可視化圖象軟件及相關(guān)數(shù)據(jù)庫等信息。息。5 5、其他核酸數(shù)據(jù)庫、其他核酸數(shù)據(jù)庫 HIV Database HIVHIV Database HIV序列數(shù)據(jù)庫、序列數(shù)據(jù)庫、IMGT ImMunoGeneTicsIMGT ImMunoGeneTics數(shù)據(jù)庫;數(shù)據(jù)庫;dbESTdbEST表達(dá)序列標(biāo)簽數(shù)表達(dá)序列標(biāo)簽數(shù)據(jù)庫、據(jù)庫、BERLIN 5S rRNA BERLIN 5S rRNA 數(shù)據(jù)庫;數(shù)據(jù)庫;EPDEPD真核啟動(dòng)子數(shù)據(jù)真核啟動(dòng)子數(shù)據(jù)庫。庫。二、二、BLAST簡介簡介 BLAST和和FASTA是當(dāng)前應(yīng)用最廣泛的程序,最新是當(dāng)前應(yīng)用最廣泛的程序,最新版的版的B
29、LAST和和FASTA中已消除原有各自局限性。綜合中已消除原有各自局限性。綜合程序速度和敏感性,本節(jié)介紹程序速度和敏感性,本節(jié)介紹NCBI中的中的BLAST程序。程序。 BLAST (basic local alignment search tool,局部序列相似,局部序列相似性對比工具性對比工具)集速度、敏感性、彈性與統(tǒng)計(jì)處理的最佳)集速度、敏感性、彈性與統(tǒng)計(jì)處理的最佳組合于一身,能迅速找到非空位的相似片段。在報(bào)告相組合于一身,能迅速找到非空位的相似片段。在報(bào)告相似性的同時(shí),也報(bào)告這個(gè)相似性片段出現(xiàn)的可能性。似性的同時(shí),也報(bào)告這個(gè)相似性片段出現(xiàn)的可能性。 BLAST集成了一系列程序進(jìn)行核酸和
30、氨基酸序列不集成了一系列程序進(jìn)行核酸和氨基酸序列不同類型的搜索,采用卡林氏統(tǒng)計(jì)描述結(jié)果的顯著性。同類型的搜索,采用卡林氏統(tǒng)計(jì)描述結(jié)果的顯著性。 BLAST是是NCBI提供的用于核酸或蛋白質(zhì)序列相似提供的用于核酸或蛋白質(zhì)序列相似性對比分析的一個(gè)軟件,已發(fā)展到包括性對比分析的一個(gè)軟件,已發(fā)展到包括BLASTP, BLASTN,BLASTX, TBLASTN, TBLASTX, MEGABLAST, PSI-BLAST, PHI-BLAST, RPS-BLAST等多個(gè)軟件和應(yīng)用工具的多功能序列分析程序。等多個(gè)軟件和應(yīng)用工具的多功能序列分析程序。1、BLASTN:最早的最早的BLAST程序,用于鑒定測
31、序所程序,用于鑒定測序所得序列和查找與之相似的序列。系最常用得序列和查找與之相似的序列。系最常用BLAST軟件。軟件。程序程序 數(shù)據(jù)庫數(shù)據(jù)庫 查查 詢詢 簡簡 述述 blastpblastnblastxtblastntblastx 蛋白質(zhì)蛋白質(zhì)核酸核酸蛋白質(zhì)蛋白質(zhì)核苷酸核苷酸(翻譯翻譯)核酸核酸(翻譯翻譯) 蛋白質(zhì)蛋白質(zhì)核苷酸核苷酸核酸核酸(翻譯翻譯)蛋白質(zhì)蛋白質(zhì)核酸核酸(翻譯翻譯) 可能找到具有遠(yuǎn)可能找到具有遠(yuǎn)源進(jìn)化關(guān)系的匹源進(jìn)化關(guān)系的匹配序列配序列適合尋找分值較適合尋找分值較高的匹配,不適高的匹配,不適合遠(yuǎn)源關(guān)系合遠(yuǎn)源關(guān)系適合新適合新DNA序列序列和和EST序列的分序列的分析析適合尋找數(shù)據(jù)
32、庫適合尋找數(shù)據(jù)庫中尚未標(biāo)注的編中尚未標(biāo)注的編碼區(qū)碼區(qū)適合分析適合分析EST序序列列 2、MEGABLAST:用于鑒定一個(gè)未知的核酸序列。用于鑒定一個(gè)未知的核酸序列。若要了解測得一個(gè)未知核酸序列是否已發(fā)表在公開若要了解測得一個(gè)未知核酸序列是否已發(fā)表在公開的核酸數(shù)據(jù)庫中,以及其相關(guān)的生物研究文獻(xiàn)時(shí),的核酸數(shù)據(jù)庫中,以及其相關(guān)的生物研究文獻(xiàn)時(shí),這是一個(gè)最好的工具。它可有效地找到與序列相近這是一個(gè)最好的工具。它可有效地找到與序列相近的其他序列。的其他序列。3、 Discontiguous MEGABLAST:與與MEGABLAST相似,主要用于相近的序列段比較短、并且相鄰的相似,主要用于相近的序列段比
33、較短、并且相鄰的序列段不連續(xù)的搜索。相近序列不易查找時(shí),該工序列段不連續(xù)的搜索。相近序列不易查找時(shí),該工具可以提高查詢靈敏度和查詢效果。具可以提高查詢靈敏度和查詢效果。4、 BLASTP:為查詢蛋白質(zhì)序列設(shè)計(jì)的軟件,主要為查詢蛋白質(zhì)序列設(shè)計(jì)的軟件,主要用于鑒定蛋白質(zhì)的氨基酸序列和在數(shù)據(jù)庫中查找相似用于鑒定蛋白質(zhì)的氨基酸序列和在數(shù)據(jù)庫中查找相似的序列。既可通過找到相似的已知蛋白質(zhì)的功能來鑒的序列。既可通過找到相似的已知蛋白質(zhì)的功能來鑒定一個(gè)未知的蛋白質(zhì)序列的功能,也可用于兩個(gè)或多定一個(gè)未知的蛋白質(zhì)序列的功能,也可用于兩個(gè)或多個(gè)蛋白質(zhì)序列的比較。個(gè)蛋白質(zhì)序列的比較。5、 PSI-BLAST ( 點(diǎn)
34、位重心點(diǎn)位重心BLAST):):最靈敏的最靈敏的BLAST程序,通過它可以找到一個(gè)蛋白質(zhì)的遠(yuǎn)親序程序,通過它可以找到一個(gè)蛋白質(zhì)的遠(yuǎn)親序列。列。6、 PHI-BLAST ( 特異片段重心特異片段重心BLAST):):可以指可以指定某一個(gè)蛋白質(zhì)序列片段,并以這個(gè)片段為重心查詢定某一個(gè)蛋白質(zhì)序列片段,并以這個(gè)片段為重心查詢相關(guān)蛋白質(zhì)序列。相關(guān)蛋白質(zhì)序列。7、 BLASTX:把所需查詢的核酸序列翻譯成氨基酸把所需查詢的核酸序列翻譯成氨基酸序列序列,再在蛋白質(zhì)數(shù)據(jù)庫中查找。再在蛋白質(zhì)數(shù)據(jù)庫中查找。LBASTX可以將核可以將核酸序列翻譯成有酸序列翻譯成有6種可能的氨基酸序列后在進(jìn)行查尋,種可能的氨基酸序列
35、后在進(jìn)行查尋,對編碼區(qū)所有三聯(lián)密碼的組合所翻譯的氨基酸序列都對編碼區(qū)所有三聯(lián)密碼的組合所翻譯的氨基酸序列都查尋,提高了查尋靈敏度。查尋,提高了查尋靈敏度。8、TBLASTN:與與BLASTX相反,相反,TBLASTN蛋白質(zhì)序蛋白質(zhì)序列翻譯成可能的列翻譯成可能的6種三聯(lián)密碼核酸序列,對尋找相似功能種三聯(lián)密碼核酸序列,對尋找相似功能的核酸序列特別有用。多用于的核酸序列特別有用。多用于EST和大規(guī)模測序所做的和大規(guī)模測序所做的序列分析,對三聯(lián)密碼的錯(cuò)位有很高的容錯(cuò)度。序列分析,對三聯(lián)密碼的錯(cuò)位有很高的容錯(cuò)度。9、TBLASTX:把要查尋的核酸序列和進(jìn)行比較的核酸把要查尋的核酸序列和進(jìn)行比較的核酸序列
36、都翻譯成序列都翻譯成6種可能的氨基酸序列后進(jìn)行比較。種可能的氨基酸序列后進(jìn)行比較。10、RPS-BLAST:用于鑒定某些進(jìn)化上比較穩(wěn)定的蛋白用于鑒定某些進(jìn)化上比較穩(wěn)定的蛋白質(zhì)功能片段。數(shù)據(jù)來源于質(zhì)功能片段。數(shù)據(jù)來源于NCBI的的CDD數(shù)據(jù)庫。數(shù)據(jù)庫。11、CDART(conserved domain architeture retrieval tool):):用于篩選特定蛋白質(zhì)數(shù)據(jù)庫中所有的蛋白質(zhì)功用于篩選特定蛋白質(zhì)數(shù)據(jù)庫中所有的蛋白質(zhì)功能片段和功能片段結(jié)構(gòu),并得到含有某一個(gè)或多個(gè)功能能片段和功能片段結(jié)構(gòu),并得到含有某一個(gè)或多個(gè)功能片段結(jié)構(gòu)的所有蛋白質(zhì)序列。片段結(jié)構(gòu)的所有蛋白質(zhì)序列。三、三、B
37、LAST應(yīng)用舉例應(yīng)用舉例順序:順序:建立建立BLAST搜索,確定查詢序列;搜索,確定查詢序列; 選擇適當(dāng)?shù)乃阉鞒绦蚝拖鄳?yīng)的數(shù)據(jù)選擇適當(dāng)?shù)乃阉鞒绦蚝拖鄳?yīng)的數(shù)據(jù) 庫,以及參數(shù);庫,以及參數(shù); 發(fā)送查詢序列;發(fā)送查詢序列; 讀取讀取BLAST結(jié)果。結(jié)果。1、具體步驟、具體步驟(1)確定查詢序列;)確定查詢序列;(2)選擇數(shù)據(jù)庫和搜索程序:數(shù)據(jù)庫為核酸數(shù)據(jù)庫,)選擇數(shù)據(jù)庫和搜索程序:數(shù)據(jù)庫為核酸數(shù)據(jù)庫,程序?yàn)槌绦驗(yàn)锽LASTN;(3)選擇默認(rèn)的允許非空位的搜索;)選擇默認(rèn)的允許非空位的搜索;( 4)E值限制,默認(rèn)為值限制,默認(rèn)為10;(5)用默認(rèn)矩陣)用默認(rèn)矩陣BLOSUM62;(6)最后確認(rèn)結(jié)果輸出
38、格式。)最后確認(rèn)結(jié)果輸出格式。 確認(rèn)以上參數(shù)無誤后,點(diǎn)擊確認(rèn)以上參數(shù)無誤后,點(diǎn)擊“BLAST”按鈕,同時(shí)按鈕,同時(shí)也可以選擇也可以選擇E-mail回復(fù)結(jié)果?;貜?fù)結(jié)果。2、結(jié)果分析、結(jié)果分析BLAST結(jié)果分兩部分,即圖形化結(jié)果和文字結(jié)果,結(jié)果分兩部分,即圖形化結(jié)果和文字結(jié)果,后者又分為有意義的序列排列、兩兩對比結(jié)果、統(tǒng)計(jì)后者又分為有意義的序列排列、兩兩對比結(jié)果、統(tǒng)計(jì)結(jié)果三部分。結(jié)果三部分。選擇對比程序基因組對比特殊對比將序列數(shù)據(jù)庫中的復(fù)制序列在此粘貼點(diǎn)擊點(diǎn)擊(1)圖形結(jié)果)圖形結(jié)果得分高低以不同顏色表示:得分高低以不同顏色表示:200200紅色,紅色,80-20080-200分紅分紅色,色,50
39、-8050-80綠色,綠色,40-5040-50藍(lán)色,藍(lán)色,4040黑色,也表示同源黑色,也表示同源性由高到低。性由高到低。2、文字結(jié)果、文字結(jié)果搜索的分值高低排列,即同源性從高到低。排搜索的分值高低排列,即同源性從高到低。排列第一的是查詢序列本身。右側(cè)分別為隨機(jī)分列第一的是查詢序列本身。右側(cè)分別為隨機(jī)分值(值(scorescore,S S值)和期望值(值)和期望值(expectexpect,E E值)。值)。E E值是特定匹配中基本的隨機(jī)噪聲。值是特定匹配中基本的隨機(jī)噪聲。S S值增加,值增加,E E值呈指數(shù)性減少,即隨機(jī)噪聲降低,表明序列值呈指數(shù)性減少,即隨機(jī)噪聲降低,表明序列同源性較高。同源性較高。經(jīng)驗(yàn)提示,經(jīng)驗(yàn)提示
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年經(jīng)濟(jì)型酒店聘用協(xié)議
- 2025年植皮粘合用生物粘合劑項(xiàng)目合作計(jì)劃書
- 2024水庫承包的合同
- 水泥制造業(yè)事故處理
- 航空航天材料企業(yè)聘用合同模板
- 水利水電監(jiān)理服務(wù)承諾書
- 航空物流總經(jīng)理聘用協(xié)議
- 廣告公司入駐管理
- 宿舍安全共建共享
- 臨時(shí)旅游服務(wù)用電安全管理辦法
- 神經(jīng)網(wǎng)絡(luò)-BP算法-課件
- 假結(jié)婚私下協(xié)議書
- 工程監(jiān)督中心鉆井液監(jiān)督培訓(xùn)教材
- 附件1:中國聯(lián)通動(dòng)環(huán)監(jiān)控系統(tǒng)B接口技術(shù)規(guī)范(V3.0)
- 運(yùn)維人員崗位培訓(xùn)(通信電源)實(shí)操手冊
- 鍋爐車間輸煤機(jī)組 PLC電氣控制系統(tǒng)設(shè)計(jì)
- 專題01《水銀花開的夜晚》 高考語文二輪復(fù)習(xí)
- 文件簽發(fā)單(標(biāo)準(zhǔn)模版)
- GB/T 9081-2008機(jī)動(dòng)車燃油加油機(jī)
- 施工臨時(shí)用電安全隱患大全對錯(cuò)圖示一目了然
- 國家開放大學(xué)《經(jīng)濟(jì)數(shù)學(xué)基礎(chǔ)12》形考作業(yè)1-4
評論
0/150
提交評論