版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
GeneBank的使用學(xué)習(xí)課件第1頁(yè)/共127頁(yè)生物信息學(xué)數(shù)據(jù)庫(kù)歐洲分子生物學(xué)實(shí)驗(yàn)室的EMBLhttp://www.embl-heidelberg.de美國(guó)生物技術(shù)信息中心的GenBank/Genbank/日本國(guó)立遺傳研究所的DDBJhttp://www.ddbj.nig.ac.jp/searches-e.html核酸序列數(shù)據(jù)庫(kù)第2頁(yè)/共127頁(yè)GenBank數(shù)據(jù)庫(kù)結(jié)構(gòu)作用:了解序列數(shù)據(jù)庫(kù)的格式,有助于更好地提高數(shù)據(jù)庫(kù)檢索的效率和準(zhǔn)確性。DDBJ數(shù)據(jù)庫(kù)的內(nèi)容和格式與GenBank相同,此處不作詳細(xì)介紹。分別介紹EMBL和GenBank的數(shù)據(jù)庫(kù)結(jié)構(gòu)第3頁(yè)/共127頁(yè)GenBank數(shù)據(jù)庫(kù)數(shù)據(jù)注釋
(/genbank/)GenBank庫(kù)包含所有已知的核酸序列和蛋白質(zhì)序列,以及與它們相關(guān)的文獻(xiàn)著作和生物學(xué)注釋。NCBI可提供廣泛的數(shù)據(jù)查詢、序列相似性搜索以及其它分析服務(wù)。數(shù)據(jù)庫(kù)序列文件:注釋內(nèi)容——文章索引文件:檢索目錄——文摘第4頁(yè)/共127頁(yè)GenBank數(shù)據(jù)庫(kù)結(jié)構(gòu)完整的GenBank數(shù)據(jù)庫(kù)包括序列文件,索引文件以及其它有關(guān)文件。索引文件是根據(jù)數(shù)據(jù)庫(kù)中作者、參考文獻(xiàn)等建立的,用于數(shù)據(jù)庫(kù)查詢。GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質(zhì)序列數(shù)據(jù)庫(kù)數(shù)據(jù)格式為FastA。第5頁(yè)/共127頁(yè)GenBank數(shù)據(jù)庫(kù)結(jié)構(gòu)GenBank中最常用的是序列文件。序列文件的基本單位:是序列條目,包括核苷酸堿基排列順序和注釋兩部分。生物信息資源中心通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)提供該數(shù)據(jù)庫(kù)文件。注釋條目:文章的格式(/genbank/第6頁(yè)/共127頁(yè)Genbank第7頁(yè)/共127頁(yè)Genbank查找頁(yè)面第8頁(yè)/共127頁(yè)D31716描述部分第9頁(yè)/共127頁(yè)CDsarerecurringunitsinpolypeptidechains(sequenceandstructuremotifs),theextentsofwhichcanbedeterminedbycomparativeanalysis.Molecularevolutionusessuchdomainsasbuildingblocksandthesemayberecombinedindifferentarrangementstomakedifferentproteinswithdifferentfunctions.CDs編碼序列,含終止密碼子polyA_signal多聚A信號(hào)
第10頁(yè)/共127頁(yè)D31716特性表序列本身關(guān)鍵字CDsarerecurringunitsinpolypeptidechains第11頁(yè)/共127頁(yè)D31716序列本身第12頁(yè)/共127頁(yè)第13頁(yè)/共127頁(yè)序列結(jié)束4859bp第14頁(yè)/共127頁(yè)D31716第15頁(yè)/共127頁(yè)GenBank數(shù)據(jù)記錄第16頁(yè)/共127頁(yè)GenBank數(shù)據(jù)記錄第17頁(yè)/共127頁(yè)GenBank數(shù)據(jù)庫(kù)結(jié)構(gòu)GenBank序列文件由單個(gè)的序列條目組成。序列條目由字段組成,每個(gè)字段由關(guān)鍵字起始,后面為該字段的具體說(shuō)明。字段分若干次子字段,以次關(guān)鍵字或特性表說(shuō)明符開始。每個(gè)序列條目以雙斜杠“//”作結(jié)束標(biāo)記第18頁(yè)/共127頁(yè)GenBank數(shù)據(jù)庫(kù)結(jié)構(gòu)序列條目的格式非常重要,關(guān)鍵字從第一列開始,次關(guān)鍵字從第三列開始,特性表說(shuō)明符從第五列開始。每個(gè)字段可占一行,也可以占若干行。若一行中寫不下時(shí),繼續(xù)行以空格開始第19頁(yè)/共127頁(yè)GenBank數(shù)據(jù)庫(kù)物種:GenBank庫(kù)里的數(shù)據(jù)按來(lái)源于大約100,000個(gè)物種,其中56%是人類的基因組序列(所有序列中的34%是人類的EST序列)記錄:每條GenBank數(shù)據(jù)記錄包含對(duì)序列的簡(jiǎn)要描述,它的科學(xué)命名,物種分類名稱,參考文獻(xiàn),序列特征表,及序列本身第20頁(yè)/共127頁(yè)GenBank數(shù)據(jù)庫(kù)序列特征表:包含對(duì)序列生物學(xué)特征注釋如:編碼區(qū)、轉(zhuǎn)錄單元、重復(fù)區(qū)域、突變位點(diǎn)或修飾位點(diǎn)等分類:所有數(shù)據(jù)記錄被劃分為如細(xì)菌類、病毒類、靈長(zhǎng)類、嚙齒類,以及EST數(shù)據(jù)、基因組測(cè)序數(shù)據(jù)、大規(guī)模基因組序列數(shù)據(jù)等16類,其中EST數(shù)據(jù)等又被分成若干文件第21頁(yè)/共127頁(yè)注釋內(nèi)容序列條目關(guān)鍵字:LOCUS(代碼),DEFINITION(說(shuō)明),ACCESSION(編號(hào)),NID符(核酸標(biāo)識(shí)),KEYWORDS(關(guān)鍵詞),SOURCE(數(shù)據(jù)來(lái)源),REFERENCE(文獻(xiàn)),F(xiàn)EATURES(特性表),BASECOUNT(堿基組成)ORIGIN(堿基排列順序)。新版的核酸序列數(shù)據(jù)庫(kù)將引入新的關(guān)鍵詞SV(序列版本號(hào)),用“編號(hào).版本號(hào)”表示,并取代關(guān)鍵詞NID第22頁(yè)/共127頁(yè)LOCUSLOCUS(代碼):是該序列條目的標(biāo)記,或者說(shuō)標(biāo)識(shí)符,蘊(yùn)涵這個(gè)序列的功能:如HUMCYCLOX表示人的環(huán)氧化酶。序列長(zhǎng)度類型種屬來(lái)源錄入日期等說(shuō)明字段是有關(guān)這一序列的簡(jiǎn)單描述第23頁(yè)/共127頁(yè)ACCESSIONACCESSION(編號(hào)):具有唯一性和永久性,在文獻(xiàn)中引用這個(gè)序列時(shí),應(yīng)該以此編號(hào)為準(zhǔn)。第24頁(yè)/共127頁(yè)KEYWORDSKEYWORDS(關(guān)鍵詞)字段:由該序列的提交者提供,包括該序列的基因產(chǎn)物其它相關(guān)信息第25頁(yè)/共127頁(yè)SOURCESOURCE(數(shù)據(jù)來(lái)源)字段:說(shuō)明該序列是從什么生物體、什么組織得到的次關(guān)鍵字ORGANISM(種屬):指出該生物體的分類學(xué)地位第26頁(yè)/共127頁(yè)REFERENCEREFERENCE(文獻(xiàn))字段:說(shuō)明該序列中的相關(guān)文獻(xiàn),包括AUTHORS(作者),TITLE(題目)及JOURNAL(雜志名)等,以次關(guān)鍵詞列出。MEDLINE的代碼:該代碼實(shí)際上是個(gè)超文本鏈接,點(diǎn)擊它可以直接調(diào)用上述文獻(xiàn)摘要。一個(gè)序列可有多篇文獻(xiàn),以不同序號(hào)表示,并給出該序列中哪一部分與文獻(xiàn)有關(guān)。第27頁(yè)/共127頁(yè)FEATURESFEATURES(特性表):具有特定的格式,用來(lái)詳細(xì)描述序列特性。特性表中帶有‘/db-xref/’標(biāo)志的字符可以連接到其它數(shù)據(jù)庫(kù),如分類數(shù)據(jù)庫(kù)(taxon9606),以及蛋白質(zhì)序列數(shù)據(jù)庫(kù)(PID:g181254)。序列中各部分的位置都在表中標(biāo)明,5’非編碼區(qū),編碼區(qū),3’非編碼區(qū),多聚腺苷酸重復(fù)區(qū)域等。翻譯所得信號(hào)肽以及最終蛋白質(zhì)產(chǎn)物堿基含量字段,給出序列中的堿組成第28頁(yè)/共127頁(yè)ORIGINORIGIN行是序列的引導(dǎo)行下面便是堿基序列以雙斜杠行“//”結(jié)束。第29頁(yè)/共127頁(yè)GenBank數(shù)據(jù)庫(kù)—數(shù)據(jù)庫(kù)格式FASTA格式
>gi|1293613|gb|U49845.1|SCU49845SaccharomycescerevisiaeTCP1-betagene,partialcds;andAxl2p(AXL2)andRev7p(REV7)genes,completecdsGATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATAATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCT……(該序列沒有完全列出)第30頁(yè)/共127頁(yè)GenBank數(shù)據(jù)庫(kù)—數(shù)據(jù)庫(kù)格式(1)FASTA格式:將一個(gè)DNA或者蛋白質(zhì)序列表示為一個(gè)帶有一些標(biāo)記的核苷酸或氨基酸字符串。大于號(hào)(>)表示一個(gè)新文件的開始結(jié)束用(//)FASTA格式并沒有什么特殊的要求。第31頁(yè)/共127頁(yè)FASTA格式序列的提交第32頁(yè)/共127頁(yè)GenBank數(shù)據(jù)庫(kù)—數(shù)據(jù)庫(kù)格式(1)FASTA格式特點(diǎn):只存儲(chǔ)了最少量的信息它將所存儲(chǔ)的信息轉(zhuǎn)化為簡(jiǎn)單的字符串人和計(jì)算機(jī)對(duì)其存儲(chǔ)的信息都具有極大的可讀性FASTA格式在許多分子生物學(xué)軟件包中得到廣泛應(yīng)用。第33頁(yè)/共127頁(yè)GenBank數(shù)據(jù)庫(kù)—數(shù)據(jù)庫(kù)格式(2)GenBank純文本文件格式(GenBankflatfile,GBFF):GenBank、EMBL、DDBJ每天都相互同步更新各自的數(shù)據(jù)庫(kù),它們是怎樣交換數(shù)據(jù)的呢?第34頁(yè)/共127頁(yè)GBFF文件格式GBFF是GenBank數(shù)據(jù)庫(kù)的基本信息單位,是最為廣泛使用的生物信息學(xué)序列格式之一。第35頁(yè)/共127頁(yè)頭部中部尾部GENBANK純文本文件格式>LOCUSSCU498455028bpDNAPLN21-JUN-1999DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(REV7)genes,completecds.ACCESSIONU49845VERSIONU49845.1GI:1293613KEYWORDS.SOURCEbaker'syeast.ORGANISMSaccharomycescerevisiaeEukaryota;Fungi;Ascomycota;Hemiascomycetes;Saccharomycetales;Saccharomycetaceae;Saccharomyces.REFERENCE1(bases1to5028)AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.TITLECloningandsequenceofREV7,agenewhosefunctionisrequiredforDNAdamage-inducedmutagenesisinSaccharomycescerevisiaeJOURNALYeast10(11),1503-1509(1994)MEDLINE95176709REFERENCE2(bases1to5028)AUTHORSRoemer,T.,Madden,K.,Chang,J.andSnyder,M.TITLESelectionofaxialgrowthsitesinyeastrequiresAxl2p,anovelplasmamembraneglycoproteinJOURNALGenesDev.10(7),777-793(1996)MEDLINE96194260REFERENCE3(bases1to5028)AUTHORSRoemer,T.TITLEDirectSubmissionJOURNALSubmitted(22-FEB-1996)TerryRoemer,Biology,YaleUniversity,NewHaven,CT,USAFEATURESLocation/Qualifierssource1..5028/organism="Saccharomycescerevisiae"/db_xref="taxon:4932"/chromosome="IX"/map="9"CDS<1..206/codon_start=3/product="TCP1-beta"/protein_id="AAA98665.1"/db_xref="GI:1293614"/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEAAEVLLRVDNIIRARPRTANRQHM"gene687..3158/gene="AXL2"CDS687..3158/gene="AXL2"/note="plasmamembraneglycoprotein"/codon_start=1/function="requiredforaxialbuddingpatternofS.cerevisiae"/product="Axl2p"/protein_id="AAA98666.1"/db_xref="GI:1293615"/translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF……(有部分序列未列出)
VDFSNKSNVNVGQVKDIHGRIPEML"BASECOUNT1510a1074c835g1609tORIGIN1gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg61ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct……(有部分序列未列出)
4921ttttcagtgttagattgctctaattctttgagctgttctctcagctcctcatatttttct4981tgccatgactcagattctaattttaagctattcaatttctctttgatc//第36頁(yè)/共127頁(yè)GBFF格式按域(Field)可以劃分為三個(gè)部分頭部包含整個(gè)記錄的信息(描述符);第二部分包含了注釋這一記錄的特性;第三部分是核苷酸序列本身。所有序列數(shù)據(jù)庫(kù)記錄都在最后一行以“//”結(jié)尾。第37頁(yè)/共127頁(yè)GBFF格式頭部-Locus行所有的GBFF都起始于LOCUS行:+++++1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999第38頁(yè)/共127頁(yè)GBFF格式頭部-Locus行1、LOCUS行:第一項(xiàng)是LOCUS名稱:最初這一名稱是用來(lái)表示本記錄描述的基因座,以方便檢索相似序列:前三個(gè)字母代表特定物種的名稱第四、第五個(gè)字母代表如基因產(chǎn)物等特定的類別名稱。如HUMHBB(人-珠蛋白基因區(qū)域)。第39頁(yè)/共127頁(yè)GBFF格式頭部-Locus行LOCUS這種“十字符”命名方式已經(jīng)無(wú)法滿足基因在基因座中所包含的信息。LOCUS名稱目前唯一的作用是它在數(shù)據(jù)庫(kù)中是獨(dú)一無(wú)二的,已不在具有任何實(shí)際意義。僅使用檢索號(hào)碼(acessionnumber)以滿足對(duì)LOCUS名稱的要求1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999第40頁(yè)/共127頁(yè)GBFF格式頭部-Locus行第二項(xiàng)是序列長(zhǎng)度。GenBank對(duì)提交的序列長(zhǎng)度沒有上限要求。根據(jù)國(guó)際序列數(shù)據(jù)庫(kù)合作計(jì)劃的協(xié)議,為方便不同的軟件處理序列,規(guī)定單條數(shù)據(jù)庫(kù)記錄的長(zhǎng)度不能超過(guò)350kb。GenBank已經(jīng)很少接受長(zhǎng)度低于50bp的序列。1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999第41頁(yè)/共127頁(yè)GBFF格式頭部-Locus行第三項(xiàng)表明序列的分子類型:其序列必須是一種單一的分子類型。包括:基因組DNA、RNA、RNA前體、mRNA(cDNA)、tRNA等。1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999第42頁(yè)/共127頁(yè)GBFF格式頭部-Locus行第四項(xiàng)是GenBank分類碼:由三個(gè)字母組成,分類碼將GenBank數(shù)據(jù)庫(kù)分為17個(gè)分支1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999第43頁(yè)/共127頁(yè)GenBank分類碼(GenBankDivision)類中文名稱符號(hào)類符號(hào)primatesequences靈長(zhǎng)類動(dòng)物序列PRIrodentsequences嚙齒類動(dòng)物序列RODothermammaliansequences其它哺乳動(dòng)物序列MAMothervertebratesequencs其它脊椎動(dòng)物序列VRTinvertebratesequences無(wú)脊椎動(dòng)物序INVPlants,fungal,andalgalsequences植物、真菌和藻類序列PLNbacterialsequences細(xì)菌序列BCTviralsequences病毒序列VRLbacteriophagesequences噬菌體序列PHGsyntheticsequences人工合成序列SYNunanntotatedsequences未注釋序列UNAESTsequences表達(dá)序列標(biāo)簽ESTpatentsequences專利序列PATSTSsequences序列標(biāo)記位點(diǎn)STSgenomesurveysequences基因組測(cè)定序列GSSHTGSsequences高通量基因組序列HTGunfinishedhigh-throughputcDNAsequencing未完成測(cè)序的高通量cDNA序列HTC第44頁(yè)/共127頁(yè)GBFF格式頭部-Locus行第五項(xiàng)是最后修訂日期。某些時(shí)候,它也是數(shù)據(jù)第一次被公開的日期。這項(xiàng)簡(jiǎn)單的信息并無(wú)法對(duì)此做出判斷。1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999第45頁(yè)/共127頁(yè)GBFF格式頭部-DEFINITION行2、DEFINITION行:主要對(duì)GenBank記錄中所含的生物學(xué)意義做出總結(jié)。它的說(shuō)明內(nèi)容包括來(lái)源物種、基因/蛋白質(zhì)名稱;+++++1102030405060DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(REV7)genes,completecds.第46頁(yè)/共127頁(yè)GBFF格式頭部-DEFINITION行如果序列是非編碼區(qū),則包含對(duì)序列功能的簡(jiǎn)單描述;如果序列是一段編碼區(qū),則標(biāo)明該序列是部分序列(partialcds)還是全序列(completecds)。+++++1102030405060DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(REV7)genes,completecds.第47頁(yè)/共127頁(yè)GBFF格式頭部-ACCESSION行3、檢索號(hào)(ACCESSION):是序列記錄的唯一指針。檢索號(hào)通常由一個(gè)字母加5個(gè)數(shù)字(U12345)或者由兩個(gè)字母加6個(gè)數(shù)字(AF123456)組成。+++++1102030405060ACCESSIONU49845DearGenBankSubmitter:ThankyouforyourdirectsubmissionofsequencedatatoGenBank.WehaveprovidedaGenBankaccessionnumberforyournucleotidesequence:bankit660463AY795899WestronglyrecommendthatthisGenBankaccessionnumberappearsinanypublicationthatreportsordiscussesthesedata,asitgivesthecommunityauniquelabelwithwhichtheymayretrieveyourdatafromouron-lineservers.第48頁(yè)/共127頁(yè)GBFF格式頭部-ACCESSION行檢索號(hào)在數(shù)據(jù)庫(kù)中是唯一而且不變的,即使數(shù)據(jù)的提交者改變數(shù)據(jù)的內(nèi)容。在ACCESSION行中可能出現(xiàn)多個(gè)檢索號(hào),可能是因?yàn)閿?shù)據(jù)提交者提交了一條與原記錄相關(guān)的新記錄,或者新提交的記錄覆蓋了原有的舊記錄。第一個(gè)檢索號(hào)為主檢索號(hào),而其余的統(tǒng)稱為二級(jí)檢索號(hào)。第49頁(yè)/共127頁(yè)GBFF格式頭部-VERSION行4、版本號(hào)行:它的格式是:檢索號(hào).版本號(hào)。版本號(hào)于99年2月由三大數(shù)據(jù)庫(kù)采納使用。主要用于識(shí)別數(shù)據(jù)庫(kù)中一條單一的特定核苷酸序列。在數(shù)據(jù)庫(kù)中,如果某條序列數(shù)據(jù)發(fā)生了變化,即使是單堿基的改變,它的版本號(hào)都將增加,而它的檢索號(hào)保持不變?nèi)缬蒛12345.1變?yōu)閁12345.2。+++++++11020304050607079VERSIONU49845.1GI:1293613第50頁(yè)/共127頁(yè)GBFF格式頭部-VERSION行版本號(hào)系統(tǒng)與跟在其后的GI(GenInfoIdentifier)號(hào)系統(tǒng)是平行運(yùn)行當(dāng)一條序列改變后,它將被賦予一個(gè)新的GI號(hào),同時(shí)它的版本號(hào)將增加。當(dāng)依據(jù)核酸序列的內(nèi)部序列進(jìn)行蛋白質(zhì)翻譯時(shí),蛋白質(zhì)的翻譯發(fā)生任何變換,核酸序列都將被賦予一個(gè)新的GI號(hào)。+++++++11020304050607079VERSIONU49845.1GI:1293613第51頁(yè)/共127頁(yè)GBFF格式頭部-KEYWORDS行5、關(guān)鍵詞行:是用來(lái)描述序列的。如果該行中沒有任何內(nèi)容,那么就只包含一個(gè)“.”。由于沒有對(duì)照詞匯表,所以NCBIGenBank拒絕接受關(guān)鍵詞,它只存在于舊的記錄中。+++++++11020304050607079KEYWORDS.第52頁(yè)/共127頁(yè)GBFF格式頭部-SOURCE行6、序列來(lái)源行:沒有做特殊的規(guī)定,它通常包含序列來(lái)源生物的簡(jiǎn)稱,有些時(shí)候也包含分子類型。Organism:以NCBI的分類數(shù)據(jù)庫(kù)為依據(jù),指明物種的正式科學(xué)名稱。+++++++11020304050607079SOURCEbaker'syeast.ORGANISMSaccharomycescerevisiaeEukaryota(真核);Fungi(真菌);Ascomycota(子囊菌門);Hemiascomycetes(半子囊菌綱);Saccharomycetales;Saccharomycetaceae;Saccharomyces.第53頁(yè)/共127頁(yè)GBFF格式頭部-REFERENCE行7、參考文獻(xiàn)行:將與該數(shù)據(jù)有關(guān)的參考文獻(xiàn)均收錄在內(nèi),將最先發(fā)表的文獻(xiàn)列于第一位。如果序列數(shù)據(jù)沒有被文獻(xiàn)報(bào)道,該行將顯示“inpress”或“unpublished”如所引用文獻(xiàn)存在于MEDLINE數(shù)據(jù)庫(kù)中,將出現(xiàn)一個(gè)MEDLINE單一指針(uniqueidentifier,UID)以便檢索。+++++++11020304050607079REFERENCE1(bases1to5028)AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.TITLECloningandsequenceofREV7,agenewhosefunctionisrequiredforDNAdamage-inducedmutagenesisinSaccharomycescerevisiaeJOURNALYeast10(11),1503-1509(1994)MEDLINE95176709第54頁(yè)/共127頁(yè)GBFF格式頭部-REFERENCE行如果序列是直接提交而未經(jīng)發(fā)表的,就將在標(biāo)題(TITLE)中注明“直接提交(DirectSubmission)”在期刊(JOURNAL)中注明提交日期,提交者姓名以及提交者的工作單位。+++++++11020304050607079REFERENCE
1
(bases1to1939)
AUTHORS
Yi,CAO.,Dairong,QIAO.,Qinghua,HE.andShunji,HE.
TITLE
CloningandexpressionstudiesofacDNAencodingUDP-glucosedehydrogenasefromDunaliellasalina
JOURNAL
Unpublished第55頁(yè)/共127頁(yè)GBFF格式中部特性表(FEATURES):它描述基因和基因的產(chǎn)物,以及與序列相關(guān)的生物學(xué)特性。特性表提供一個(gè)參考詞匯表以對(duì)合法的特性進(jìn)行注釋這些特性包括該序列是否執(zhí)行一個(gè)生物學(xué)功能;它是否與一個(gè)生物學(xué)功能的表達(dá)相關(guān);它是否與其它分子相互作用;它是否影響一條序列的復(fù)制;它是否與其它序列的重組相關(guān);它是否是一條已識(shí)別的重復(fù)序列;它是否有二級(jí)或三級(jí)結(jié)構(gòu);它是否存在變異或者它是否被修訂過(guò)。第56頁(yè)/共127頁(yè)GBFF格式中部特性表格式:按表單的方式設(shè)計(jì)的,包含三個(gè)部分:第一,特性關(guān)鍵詞(Featurekey);第二,特性位置(Location);第三,限定詞(Qualifiers)。FEATURESLocation/Qualifierssource1..5028/organism=“Saccharomycescerevisiae”釀酒酵母/mol_type="genomicDNA"基因組DNA/db_xref="taxon:4932"分類學(xué)/chromosome="IX"染色體/map="9"第57頁(yè)/共127頁(yè)GBFF格式中部-FEATURES第一,特性關(guān)鍵詞(Featurekey),是一個(gè)簡(jiǎn)要說(shuō)明功能組的關(guān)鍵詞,允許加入新的或未定義的特性;第二,特性位置(Location),指明在特性表中的什么地方找到相關(guān)特性,在位置特性中可以包含操作符(Operator)和功能性描述符(Descriptor)以指明序列需經(jīng)過(guò)怎樣的處理才能得到相應(yīng)的特性;第三,限定詞(Qualifiers),相關(guān)特性的輔助信息,限定詞使用一組標(biāo)準(zhǔn)化的對(duì)照詞匯表以利于計(jì)算機(jī)從中提取信息。第58頁(yè)/共127頁(yè)GBFF格式中部-FEATURES例1KeyLocation/QualifiersCDS23..400/product="alcoholdehydrogenase"/gene="adhI"特性表含義:該編碼序列(CDS)起始于第23堿基,終止于第400堿基產(chǎn)物是乙醇脫氫酶基因名稱是“adhI”。第59頁(yè)/共127頁(yè)GBFF格式中部-FEATURES例2KeyLocation/QualifiersCDSjoin(544..589,688..1032)/product="T-cellreceptorbeta-chain"特性表含義:它表示記錄中所存儲(chǔ)的序列為部分編碼序列,表達(dá)產(chǎn)物“T-細(xì)胞受體beta鏈”由序列內(nèi)兩個(gè)片段結(jié)合生成指明兩個(gè)片段在序列中所處的位置。第60頁(yè)/共127頁(yè)GBFF格式中部-特性表關(guān)鍵詞1、特性表的關(guān)鍵詞:以樹型結(jié)構(gòu)生成misc_feature生物學(xué)特性無(wú)法用特性表關(guān)鍵詞描述的序列misc_difference序列特性無(wú)法用特性表關(guān)鍵詞描述的序列conflict同一序列在不同的研究中在位點(diǎn)或區(qū)域上有差異unsure序列不能確定的區(qū)域old_sequence該序列對(duì)以前的版本做過(guò)修訂variation包含穩(wěn)定突變的序列modified_base修飾過(guò)的核苷酸gene已識(shí)別為基因或已命名的序列區(qū)域misc_signal無(wú)法用信號(hào)特性關(guān)鍵詞描述的信號(hào)序列promoter轉(zhuǎn)錄起始區(qū)CAAT_signal真核啟動(dòng)子上游的CAAT盒,與RNA結(jié)合相關(guān)TATA_signal真核啟動(dòng)子的TATA盒-35_signal原核啟動(dòng)子中的-35框-10_signal原核啟動(dòng)子Pribow盒GC_signal真核啟動(dòng)子的GC盒RBS核糖體結(jié)合位點(diǎn)polyA_signalRNA轉(zhuǎn)錄本的剪切識(shí)別位點(diǎn)enhancer增強(qiáng)子attenuator與轉(zhuǎn)錄終止有關(guān)的序列terminator轉(zhuǎn)錄終止序列rep_origin雙鏈DNA復(fù)制起始區(qū)第61頁(yè)/共127頁(yè)GBFF格式中部-特性表關(guān)鍵詞misc_RNA無(wú)法用RNA關(guān)鍵詞描述的轉(zhuǎn)錄物或RNA產(chǎn)物prim_transcript初始轉(zhuǎn)錄本precursor_RNA前體RNAmRNA信使RNA5'clip前體轉(zhuǎn)錄本中被剪切掉的5’端序列3'clip前體轉(zhuǎn)錄本中被剪切掉的3’端序列5'UTR5’非翻譯區(qū)3'UTR3’非翻譯區(qū)exon外顯子CDS蛋白質(zhì)編碼序列sig_peptide編碼信號(hào)肽的序列transit_peptide轉(zhuǎn)運(yùn)蛋白編碼序列mat_peptide編碼成熟肽的序列intron內(nèi)含子polyA_siteRNA轉(zhuǎn)錄本的多聚腺苷酸化位點(diǎn)rRNA核糖體RNAtRNA轉(zhuǎn)運(yùn)RNAscRNA小細(xì)胞質(zhì)RNAsnRNA小核RNAsnoRNA加工和修飾rRNA的小核RNA第62頁(yè)/共127頁(yè)GBFF格式中部-特性表關(guān)鍵詞immunoglobulin_relatedC_region免疫相關(guān)蛋白上的穩(wěn)定區(qū)D_segment碼免疫球蛋白重鏈的可變區(qū)基因之一J_segment編碼免疫球蛋白輕鏈和重鏈的可變區(qū)基因之一N_region插入重排免疫球蛋白片段間的核苷酸S_region免疫球蛋白重鏈的開關(guān)區(qū)V_region免疫球蛋白輕鏈和重鏈的可變區(qū),和T-細(xì)胞受體α,β和γ鏈;編碼可變的氨基末端部分;可由V_segment,D_segment,N_region和J_segment組成V_segment免疫球蛋白輕鏈和重鏈的可變區(qū)段,和T-細(xì)胞受體α,β和γ鏈;編碼大多數(shù)可變區(qū)(v_region)和前導(dǎo)肽的最后幾個(gè)氨基酸repeat_region基因組中所包含的重復(fù)序列第63頁(yè)/共127頁(yè)GBFF格式中部-特性表關(guān)鍵詞repeat_unit單個(gè)的重復(fù)元件LTR長(zhǎng)末端重復(fù)序列Satellite衛(wèi)星重復(fù)序列misc_binding無(wú)法描述的核酸序列結(jié)合位點(diǎn)primer_bind復(fù)制、轉(zhuǎn)錄的引物結(jié)合位點(diǎn)protein_bind蛋白質(zhì)結(jié)合區(qū)STS測(cè)序標(biāo)簽位點(diǎn)misc_recomb無(wú)法用重組特性關(guān)鍵詞描述的重組事件iDNA通過(guò)重組所消除的DNAmisc_structure無(wú)法用結(jié)構(gòu)關(guān)鍵詞描述的核酸序列高級(jí)結(jié)構(gòu)或構(gòu)型stem_loop發(fā)夾結(jié)構(gòu)D-loop線粒體中DNA中的取代環(huán)第64頁(yè)/共127頁(yè)GBFF格式中部-Location2、特性位置(Location):用來(lái)描述在序列中的什么區(qū)域能夠找到相關(guān)的特性,位置特性可以包含Complement、Join、Order等三個(gè)操作符(Operator)。467指明序列中的單個(gè)堿基340..565指明包括起始和中止堿基在內(nèi)的一段連續(xù)序列<345..500指明序列起始于起始?jí)A基號(hào)之前的某個(gè)位置,但起始?jí)A基號(hào)之前的特性邊界未知第65頁(yè)/共127頁(yè)GBFF格式中部-Location<1..888指明特性起始于第一個(gè)已測(cè)序的堿基之前(102.110)指明正確位置未知,但包含在102和110號(hào)堿基之間(23.45)..600指明序列特性起始?jí)A基在23和45堿基之間,終止于600號(hào)堿基(122.133)..(204.221)指明序列特性起始于122和133堿基之間,終止于204和221號(hào)堿基之間123^124指明123和124號(hào)堿基之間的位點(diǎn),如限制性酶切位點(diǎn)145^177指明145和177堿基之間的某個(gè)位點(diǎn)第66頁(yè)/共127頁(yè)GBFF格式中部-Locationjoin(12..78,134..202)12至78堿基及134至202堿基之間序列相應(yīng)連以構(gòu)成一段連續(xù)序列complement(join(2691..4571,4918..5163))紀(jì)錄中的特性處于2691至4571堿基以及4918至5163堿基之間的序列相連構(gòu)成的連續(xù)序列的互補(bǔ)鏈上join(complement(4918..5163),complement(2691..4571))將4918至5163堿基之間序列的互補(bǔ)鏈與2691至4571間序列的互補(bǔ)鏈結(jié)合以構(gòu)成一段連續(xù)序列第67頁(yè)/共127頁(yè)GBFF格式中部-Locationcomplement(34..(122.126))指明序列特性起始于與122至126堿基之間某個(gè)互補(bǔ)的堿基,終止于與34號(hào)堿基互補(bǔ)的堿基J00194:100..202指明起始于100號(hào)堿基,終止于202號(hào)堿基的序列在數(shù)據(jù)庫(kù)中的主檢索號(hào)為J00194第68頁(yè)/共127頁(yè)GBFF格式中部-Qualifiers3、限定詞(Qualifier):為進(jìn)一步說(shuō)明特性表關(guān)鍵詞和特性位置提供的信息給出了一個(gè)通用機(jī)制。格式:在“/”后跟上限定詞名稱,加上“=”,其后是限定詞的值KeyLocation/QualifiersCDS86..742次黃嘌呤磷酸核糖轉(zhuǎn)移酶/product="hypoxanthinephosphoribosyltransferase"/label=hprt/note="hprtcatalyzesvitalstepsinthereutilizationpathwayforpurinebiosynthesisanditsdeficiencyleadstoformsof""gouty""arthritis"rep_origin234..243缺乏/direction=leftCDS109..564/usedin=X10009:catalase
重復(fù)利用易患痛風(fēng)的關(guān)節(jié)炎過(guò)氧化氫酶第69頁(yè)/共127頁(yè)常見的特性表關(guān)鍵詞所使用的限定詞限定詞含義限定詞含義/allele=給定基因的等位基因/anticodon=tRNA反義密碼子的位置及它所編碼的氨基酸/bound_moiety=嵌合范圍/cell_line=獲得序列的細(xì)胞系/cell_type=獲得序列的細(xì)胞類型/chromosome=獲得序列的染色體/citation=已被引用的參考文獻(xiàn)數(shù)/clone=獲得序列的克隆子/clone_lib=獲得序列的克隆文庫(kù)/codon=指出與參考密碼子不同的密碼子/codon_start=相對(duì)于序列第一個(gè)堿基,編碼序列密碼子的偏移量/cons_splice=區(qū)分內(nèi)含子剪切位點(diǎn)和“5'-GT.AG-3'”剪切位點(diǎn)/country=DNA樣本的來(lái)源國(guó)/cultivar=所獲序列植物的栽培變種/db_xref=其它數(shù)據(jù)庫(kù)信息的交叉索引號(hào)/dev_stage=序列來(lái)源于某種生物的特定發(fā)育階段/direction=DNA復(fù)制方向/EC_number=序列產(chǎn)物的酶學(xué)編號(hào)/environmental_sample=序列直接從環(huán)境材料中獲得而沒有指明來(lái)源物種/evidence=序列特性來(lái)源于實(shí)驗(yàn)還是推理/exception=指明DNA序列未按通常的生物學(xué)規(guī)律翻譯,如RNA編輯/focus指出在紀(jì)錄中的來(lái)源特性在其它物種中還有不同的來(lái)源特性/frequency=在種群中發(fā)生變異的頻率/function=序列所代表的功能/germline如果序列是DNA并來(lái)源于免疫球蛋白家族,則表示該序列來(lái)源于未重排DNA/haplotype=序列來(lái)源于某種物種的單倍體/insertion_seq=序列來(lái)源于某種插入元件/isolation_source=描述序列來(lái)源物種的生理、環(huán)境和地理信息/isolate=序列來(lái)源的生物個(gè)體/label=序列特性的俗名第70頁(yè)/共127頁(yè)常見的特性表關(guān)鍵詞所使用的限定詞(續(xù))/lab_host=為擴(kuò)增序列來(lái)源物種所用的實(shí)驗(yàn)室宿主/map=相關(guān)特性在基因圖譜上的位置/macronuclear指明DNA來(lái)源于染色體分化的大核期/mod_base=被修飾堿基的簡(jiǎn)寫/note=評(píng)論及附加信息/number=從5’→3’注明遺傳元件的順序/organelle=獲得序列的細(xì)胞器/organism=提供測(cè)序用遺傳物質(zhì)的物種的科學(xué)名稱/PCR_conditions=描述PCR的反應(yīng)條件/phenotype=序列特性所導(dǎo)致的表型/pop_variant=獲得序列的群體變異種名稱/plasmid=獲得序列的質(zhì)粒名稱/product=序列編碼產(chǎn)物的名稱/protein_id=蛋白質(zhì)的檢索號(hào)/proviral整合在基因組中的前病毒/pseudo假基因/rearranged如果序列是DNA并來(lái)源于免疫球蛋白家族,則表示該序列來(lái)源于重排DNA/replace=表明特性間的間隔序列已被替換/rpt_family=重復(fù)序列/rpt_type=重復(fù)序列的組織方式/rpt_unit=指明重復(fù)區(qū)域的重復(fù)元件構(gòu)成/sequenced_mol=獲得序列的分子類型/serotype=同一物種的不同血清學(xué)特征/serovar=同一原核生物的血清學(xué)特征/sex=獲得序列的物種性別/specific_host=獲得序列的天然宿主/specimen_voucher=指明來(lái)源物種保存于什么地方/standard_name=特性的通用名稱/strain=獲得序列的菌株/sub_clone=獲得序列的亞克隆/sub_species=獲得序列的來(lái)源物種的亞種/sub_strain=獲得序列的來(lái)源微生物亞種/tissue_lib=獲得序列組織庫(kù)/tissue_type=獲得序列組織類型/transgenic指明物種的來(lái)源特性是否是轉(zhuǎn)基因受體/translation=按通用或指定的密碼子表翻譯的氨基酸序列/transl_except=標(biāo)明序列中未按指定密碼子表翻譯的氨基酸的位置/transl_table=描述在翻譯中與通用密碼表不同的密碼表/transposon=轉(zhuǎn)座子/usedin=表明該特性在其它檢索中也被使用/variety=獲得序列的生物變種/virion病毒顆粒第71頁(yè)/共127頁(yè)GBFF格式尾部-ORIGIN序列:類似于FASTA格式給出了所記錄的序列。ORIGIN1gatcctccatatacaacggtatctccacctcaggtttaga41tctcaacaacggaaccattgccgacatgagacagttaggt81atcgtcgagagttacaagctaaaacgagcagtagtcagct……(有部分序列未列出)4921ttttcagtgttagattgctctaattctttgagctgttctc4961tcagctcctcatatttttcttgccatgactcagattctaa5001ttttaagctattcaatttctctttgatc//第72頁(yè)/共127頁(yè)總結(jié)全面了解GBFF文件格式及其所涉及的各個(gè)方面GBFF是核苷酸和蛋白質(zhì)序列數(shù)據(jù)庫(kù)最常用的數(shù)據(jù)格式。正確地理解數(shù)據(jù)庫(kù)格式成分的含義,知道從中如何提取生物學(xué)知識(shí)在數(shù)據(jù)庫(kù)中進(jìn)行檢索,使用不同的工具進(jìn)行生物信息學(xué)分析,具有十分重要的意義。第73頁(yè)/共127頁(yè)圖C2.2人類某一EST克隆的Genbank(dbEST)第74頁(yè)/共127頁(yè)第75頁(yè)/共127頁(yè)第76頁(yè)/共127頁(yè)EMBL生化實(shí)驗(yàn)技術(shù)質(zhì)譜分析(Mass
Spectrometry)等細(xì)胞生物學(xué)(Cell
Biology),研究細(xì)胞膜上蛋白和脂肪的分布,包括膜運(yùn)輸、微管網(wǎng)絡(luò)、細(xì)胞核及細(xì)胞周期,焦點(diǎn)是Rab蛋白。細(xì)胞生物物理(Cell
Biophysics),重點(diǎn)是理論創(chuàng)新和實(shí)際應(yīng)用的研究,尤其是光學(xué)顯微鏡的完善使用。分化(Differentiation),集中研究果蠅的早期發(fā)育。第77頁(yè)/共127頁(yè)EMBL的研究?jī)?nèi)容基因表達(dá)(Gene
Expression),研究基因到蛋白質(zhì)信息傳遞的過(guò)程,尤其是核糖體合成在整個(gè)細(xì)胞生命過(guò)程中的重要作用。結(jié)構(gòu)生物學(xué)(Structure
Biology),在過(guò)去9年中建立了cDNA測(cè)序技術(shù)、生物計(jì)算、蛋白工程、晶體學(xué)、電子顯微鏡(EM)及核磁共振(VMR),研究肌肉巨型蛋白分子Titin。Grenoble研究分部,主要研究蛋白質(zhì)合成過(guò)程,尤其揭示了G-蛋白-鳥苷酸交換因子偶聯(lián)物的結(jié)構(gòu)Hamburg研究分部,有關(guān)長(zhǎng)期的分子生物學(xué)國(guó)際合作研究歷史,著重于結(jié)構(gòu)生物學(xué)研究,如光學(xué)測(cè)量系統(tǒng)、晶體學(xué)、X-線吸收光譜及小角散射。第78頁(yè)/共127頁(yè)EMBL的研究?jī)?nèi)容Hinxton研究分部EBI,重點(diǎn)是與世界上其他分子生物學(xué)數(shù)據(jù)庫(kù)進(jìn)行合作研究,主要有EMBL核酸序列數(shù)據(jù)庫(kù),于1980年開始建立,隨后參予了與日內(nèi)瓦大學(xué)共同進(jìn)行的SWISS-PROT的建設(shè)。在SWISS-PROT與EMBL核苷酸序列庫(kù)之間的數(shù)據(jù)轉(zhuǎn)移的基礎(chǔ)上,產(chǎn)生了新的數(shù)據(jù)庫(kù)TREMBL,即使核苷酸序列庫(kù)的核苷酸序列自動(dòng)翻譯成SWISS-PROT蛋白序列庫(kù)中的蛋白序列。放射性雜交數(shù)據(jù)庫(kù)(Radiation
Hybrid
Database)。Monterotondo研究中心:EMBL和歐洲其他研究機(jī)構(gòu)一起,加入到哺乳類生物學(xué)和生物醫(yī)學(xué)等的研究行列,該中心位于意大利羅馬北部的Monterotondo。EMBL著重于鼠遺傳學(xué)研究第79頁(yè)/共127頁(yè)EMBL數(shù)據(jù)記錄第80頁(yè)/共127頁(yè)EMBL數(shù)據(jù)庫(kù)結(jié)構(gòu)EMBL數(shù)據(jù)庫(kù)的基本單位也是序列條目,包括核甘酸堿基排列順序和注釋兩部分。序列條目由字段組成,每個(gè)字段由標(biāo)識(shí)字起始,后面為該字段的具體說(shuō)明。有些字段又分若干次子字段,以次標(biāo)識(shí)字或特性表說(shuō)明符開始,最后以雙斜杠“//”作本序列條目結(jié)束標(biāo)記。第81頁(yè)/共127頁(yè)EMBL數(shù)據(jù)庫(kù)結(jié)構(gòu)條目的關(guān)鍵字包括:ID(序列名稱),DE(序列簡(jiǎn)單說(shuō)明),AC(序列編號(hào)),SV(序列版本號(hào)),KW(與序列相關(guān)的關(guān)鍵詞),OS(序列來(lái)源的物種名),OC(序列來(lái)源的物種學(xué)名和分類學(xué)位置),RN(相關(guān)文獻(xiàn)編號(hào)或遞交序列的注冊(cè)信息),RA(相關(guān)文獻(xiàn)作者或遞交序列的作者),第82頁(yè)/共127頁(yè)EMBL數(shù)據(jù)庫(kù)結(jié)構(gòu)RT(相關(guān)文獻(xiàn)題目)RL(相關(guān)文獻(xiàn)雜志名或遞交序列的作者單位),RX(相關(guān)文獻(xiàn)Mediline引文代碼),RC(相關(guān)文獻(xiàn)注釋),RP(相關(guān)文獻(xiàn)其他注釋),CC(關(guān)于序列的注釋信息),DR(相關(guān)數(shù)據(jù)庫(kù)交叉引用號(hào)),F(xiàn)H(序列特征表起始),F(xiàn)T(序列特征表子項(xiàng)),SQ(堿基種類統(tǒng)計(jì)數(shù))第83頁(yè)/共127頁(yè)EMBL數(shù)據(jù)庫(kù)記錄注釋代碼和內(nèi)容說(shuō)明代碼(Code)(Fullmeaning)全稱說(shuō)明(Comments)IDACDTDEKWOSOCOGRNRCRPRXRARTRLDRFHFTCCXXSQblank//identifieraccessionnumberdatadescriptionkeywordsorganism(species)organism(classification)Organellereferencenumberreferencecommentreferencepositionscross-referencereferenceauthorsreferencetitlereferencelocationdatabasecross-referencefeatureheaderfeaturetabledatacommentsspacerlinesequenceheadersequencedataterminationline(身份號(hào))(記錄號(hào))(日期)(描述)(關(guān)鍵詞)(物種)(分類)(細(xì)胞器)(文獻(xiàn)編號(hào))(文獻(xiàn)說(shuō)明)(文獻(xiàn)大?。ㄏ嚓P(guān)文獻(xiàn))(文獻(xiàn)作者)(文獻(xiàn)題目)(文獻(xiàn)出處)(相關(guān)文獻(xiàn)數(shù)據(jù)庫(kù))(主表頭)(主表數(shù)據(jù))(說(shuō)明)(空白行)(序列頭)(空白)(終止行)該行的第一項(xiàng)內(nèi)容是該數(shù)據(jù)庫(kù)記錄的名稱,該名稱是唯一的,是由EMBL數(shù)據(jù)庫(kù)給定的。其它內(nèi)容注明了該記錄的一些狀況(如是否已經(jīng)被核實(shí)—本例中為已核實(shí),即standard;記錄的堿基數(shù)等)每個(gè)記錄號(hào)均是唯一的,并從不更改,是由GenBank給定的。如果兩個(gè)記錄被合并成一個(gè)記錄,原始上著2個(gè)記錄號(hào)均會(huì)被注明2個(gè)日期被注出,一個(gè)是該數(shù)據(jù)第一次被記錄時(shí)間,另一個(gè)是最后一次的時(shí)間。對(duì)該基因的文字描述描述該基因的關(guān)鍵詞物種名稱物種的一個(gè)簡(jiǎn)單分類,該分類并不一定準(zhǔn)確,應(yīng)謹(jǐn)慎從事該基因是否在某一個(gè)特殊的細(xì)胞器中與該記錄研究相關(guān)的文獻(xiàn)信息見文中說(shuō)明該記錄主要內(nèi)容列表表頭見文中說(shuō)明對(duì)記錄的文字說(shuō)明有關(guān)該序列大小和組成的信息一個(gè)記錄的終止符號(hào)第84頁(yè)/共127頁(yè)第85頁(yè)/共127頁(yè)http://www.ebi.ac.uk/ena/第86頁(yè)/共127頁(yè)第87頁(yè)/共127頁(yè)第88頁(yè)/共127頁(yè)相關(guān)文獻(xiàn)數(shù)據(jù)庫(kù)(DR)的說(shuō)明許多二級(jí)數(shù)據(jù)庫(kù)內(nèi)容來(lái)自初始數(shù)據(jù)庫(kù)OMIM數(shù)據(jù)庫(kù)是有關(guān)人類遺傳疾病的數(shù)據(jù),如OMIM中的一個(gè)記錄與EMBL中一個(gè)已知序列的基因有關(guān),則該基因?qū)⑴c該記錄建立聯(lián)系,EMBL庫(kù)中該序列的DR欄中將包括OMIM和OMIM中相關(guān)記錄的名稱。DR欄中有該DNA序列翻譯成蛋白質(zhì)序列的SWISS-PROT記錄號(hào)等。第89頁(yè)/共127頁(yè)EMBL數(shù)據(jù)庫(kù)記錄相關(guān)文獻(xiàn)數(shù)據(jù)庫(kù)第90頁(yè)/共127頁(yè)相關(guān)文獻(xiàn)數(shù)據(jù)庫(kù)(DR)的說(shuō)明DR欄內(nèi)容有助于了解與該原始DNA序列相關(guān)信息的狀況和存貯站點(diǎn)。與DR欄有關(guān)的數(shù)據(jù)庫(kù):SWISS-PROT、EMBL、OMIM、PROSITE(保守蛋白質(zhì)模序數(shù)據(jù)庫(kù))、HSSP、PDB、PIR、MEDLNE(與RL欄相關(guān)的文獻(xiàn)摘要數(shù)據(jù)庫(kù))等。第91頁(yè)/共127頁(yè)相關(guān)文獻(xiàn)數(shù)據(jù)庫(kù)(DR)的說(shuō)明注釋中另一個(gè)需要說(shuō)明的重要內(nèi)容是主表數(shù)據(jù)(featuretabledata,FT)欄。主表試圖將盡可能多的序列信息囊括其中,并以計(jì)算機(jī)可以閱讀的格式編排。3個(gè)主要DNA數(shù)據(jù)庫(kù)(EMBL、GenBank和DDBJ)已經(jīng)對(duì)該表的表述格式達(dá)成了一致。具體表述在:www.ebi.ac.uk/ebi_docs/embl_db/ft/feature_table.html第92頁(yè)/共127頁(yè)GeneralInformation第93頁(yè)/共127頁(yè)AdditionalInformation第94頁(yè)/共127頁(yè)AdditionalInformation第95頁(yè)/共127頁(yè)Sequence第96頁(yè)/共127頁(yè)P(yáng)rimaryAccession-頭部第97頁(yè)/共127頁(yè)P(yáng)rimaryAccession-中部第98頁(yè)/共127頁(yè)P(yáng)rimaryAccession-尾部第99頁(yè)/共127頁(yè)序列文件格式文本格式簡(jiǎn)單文本格式Line,PlainTextStadenFASTABionet(生物網(wǎng)膜allowscomments)加入注釋的文本格式GenBankGCG二進(jìn)制格式(通常都帶有注釋)MacVector第100頁(yè)/共127頁(yè)序列文件格式例子(Fasta)>gi|995614|dbj|D49653|RATOBESERatmRNAforobese.CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCCTGAATGCTGAGGTTTC以上這個(gè)FASTA文件中包含了gi號(hào)碼、GenBank檢索號(hào)碼、LOCUS名稱、以及GenBank記錄中的DEFINATION字段。一種最簡(jiǎn)單的fasta序列形式可以表示為:>D49653CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCG….第101頁(yè)/共127頁(yè)序列文件格式例子(GenBank)LOCUSRATOBESE539bpss-mRNAROD23-SEP-1995DEFINITIONRatmRNAforobese.ACCESSIOND49653KEYWORDS.SOURCERattusnorvegicus(strainOLETF,LETOandZucker,)differentiatedadiposecDNAtomRNA.ORGANISMRattusnorvegicusEukaryotae;mitochondrialeukaryotes;Metazoa;Chordata;Vertebrata;Sarcopterygii;Mammalia;Eutheria;Rodentia;Sciurognathi;Myomorpha;Muridae;Murinae;Rattus.REFERENCE1(bases1to539)AUTHORSMurakami,T.andShima,K.TITLECloningofratobesecDNAanditsexpressioninobeseratsJOURNALBiochem.Biophys.Res.Commun.209,944-952(1995)STANDARDfullautomaticCOMMENTSubmitted(10-Mar-1995)toDDBJby:TakashiMurakamiDepartmentofLaboratoryMedicineSchoolofMedicineUniversityofTokushimaKuramotocho3-chom
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 地鐵鄰近高層住宅建筑振動(dòng)分布規(guī)律及影響因素研究
- 讀書樂趣多演講稿五百字六年級(jí)讀書的樂趣演講稿六篇
- 二零二五年度智慧城市項(xiàng)目按揭貸款抵押服務(wù)協(xié)議3篇
- 2025版酒店會(huì)員積分兌換單位合同范本3篇
- 知到智慧樹網(wǎng)課《生活中的社會(huì)學(xué)》章節(jié)測(cè)試滿分答案
- 周長(zhǎng)解決問(wèn)題說(shuō)課
- 二零二五年度電子商務(wù)平臺(tái)分成合同范本3篇
- 安全第一課:肺結(jié)核
- 家庭教育與商業(yè)創(chuàng)新的關(guān)聯(lián)性研究
- 2024版新材料研發(fā)與生產(chǎn)合同
- 淋巴水腫康復(fù)治療技術(shù)
- 礦山隱蔽致災(zāi)普查治理報(bào)告
- 零星維修工程 投標(biāo)方案(技術(shù)方案)
- 護(hù)理基礎(chǔ)測(cè)試題+參考答案
- 副總經(jīng)理招聘面試題與參考回答(某大型國(guó)企)2024年
- 2024年工程咨詢服務(wù)承諾書
- 2024年SATACT家教培訓(xùn)合同
- 青桔單車保險(xiǎn)合同條例
- 《ESPEN重癥病人營(yíng)養(yǎng)指南(2023版)》解讀課件
- 智慧茶園監(jiān)控系統(tǒng)的設(shè)計(jì)
- 2024年宜賓發(fā)展產(chǎn)城投資限公司第三批員工公開招聘高頻難、易錯(cuò)點(diǎn)500題模擬試題附帶答案詳解
評(píng)論
0/150
提交評(píng)論