




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
教你如何讀懂GeneBank數(shù)據(jù)第一頁,共一百二十三頁,編輯于2023年,星期六生物信息學(xué)數(shù)據(jù)庫歐洲分子生物學(xué)實驗室的EMBLhttp://www.embl-heidelberg.de美國生物技術(shù)信息中心的GenBank/Genbank/日本國立遺傳研究所的DDBJhttp://www.ddbj.nig.ac.jp/searches-e.html核酸序列數(shù)據(jù)庫第二頁,共一百二十三頁,編輯于2023年,星期六GenBank數(shù)據(jù)庫結(jié)構(gòu)作用:了解序列數(shù)據(jù)庫的格式,有助于更好地提高數(shù)據(jù)庫檢索的效率和準確性。DDBJ數(shù)據(jù)庫的內(nèi)容和格式與GenBank相同,此處不作詳細介紹。分別介紹EMBL和GenBank的數(shù)據(jù)庫結(jié)構(gòu)第三頁,共一百二十三頁,編輯于2023年,星期六GenBank數(shù)據(jù)庫數(shù)據(jù)注釋
(/genbank/)GenBank庫包含所有已知的核酸序列和蛋白質(zhì)序列,以及與它們相關(guān)的文獻著作和生物學(xué)注釋。NCBI可提供廣泛的數(shù)據(jù)查詢、序列相似性搜索以及其它分析服務(wù)。數(shù)據(jù)庫序列文件:注釋內(nèi)容——文章索引文件:檢索目錄——文摘第四頁,共一百二十三頁,編輯于2023年,星期六GenBank數(shù)據(jù)庫結(jié)構(gòu)完整的GenBank數(shù)據(jù)庫包括序列文件,索引文件以及其它有關(guān)文件。索引文件是根據(jù)數(shù)據(jù)庫中作者、參考文獻等建立的,用于數(shù)據(jù)庫查詢。GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質(zhì)序列數(shù)據(jù)庫數(shù)據(jù)格式為FastA。第五頁,共一百二十三頁,編輯于2023年,星期六GenBank數(shù)據(jù)庫結(jié)構(gòu)GenBank中最常用的是序列文件。序列文件的基本單位:是序列條目,包括核苷酸堿基排列順序和注釋兩部分。生物信息資源中心通過計算機網(wǎng)絡(luò)提供該數(shù)據(jù)庫文件。注釋條目:文章的格式(/genbank/第六頁,共一百二十三頁,編輯于2023年,星期六Genbank第七頁,共一百二十三頁,編輯于2023年,星期六Genbank查找頁面第八頁,共一百二十三頁,編輯于2023年,星期六D31716描述部分第九頁,共一百二十三頁,編輯于2023年,星期六CDsarerecurringunitsinpolypeptidechains(sequenceandstructuremotifs),theextentsofwhichcanbedeterminedbycomparativeanalysis.Molecularevolutionusessuchdomainsasbuildingblocksandthesemayberecombinedindifferentarrangementstomakedifferentproteinswithdifferentfunctions.CDs編碼序列,含終止密碼子polyA_signal多聚A信號
第十頁,共一百二十三頁,編輯于2023年,星期六D31716特性表序列本身關(guān)鍵字CDsarerecurringunitsinpolypeptidechains第十一頁,共一百二十三頁,編輯于2023年,星期六D31716序列本身第十二頁,共一百二十三頁,編輯于2023年,星期六第十三頁,共一百二十三頁,編輯于2023年,星期六序列結(jié)束4859bp第十四頁,共一百二十三頁,編輯于2023年,星期六D31716第十五頁,共一百二十三頁,編輯于2023年,星期六GenBank數(shù)據(jù)記錄第十六頁,共一百二十三頁,編輯于2023年,星期六GenBank數(shù)據(jù)記錄第十七頁,共一百二十三頁,編輯于2023年,星期六GenBank數(shù)據(jù)庫結(jié)構(gòu)GenBank序列文件由單個的序列條目組成。序列條目由字段組成,每個字段由關(guān)鍵字起始,后面為該字段的具體說明。字段分若干次子字段,以次關(guān)鍵字或特性表說明符開始。每個序列條目以雙斜杠“//”作結(jié)束標(biāo)記第十八頁,共一百二十三頁,編輯于2023年,星期六GenBank數(shù)據(jù)庫結(jié)構(gòu)序列條目的格式非常重要,關(guān)鍵字從第一列開始,次關(guān)鍵字從第三列開始,特性表說明符從第五列開始。每個字段可占一行,也可以占若干行。若一行中寫不下時,繼續(xù)行以空格開始第十九頁,共一百二十三頁,編輯于2023年,星期六GenBank數(shù)據(jù)庫物種:GenBank庫里的數(shù)據(jù)按來源于大約100,000個物種,其中56%是人類的基因組序列(所有序列中的34%是人類的EST序列)記錄:每條GenBank數(shù)據(jù)記錄包含對序列的簡要描述,它的科學(xué)命名,物種分類名稱,參考文獻,序列特征表,及序列本身第二十頁,共一百二十三頁,編輯于2023年,星期六GenBank數(shù)據(jù)庫序列特征表:包含對序列生物學(xué)特征注釋如:編碼區(qū)、轉(zhuǎn)錄單元、重復(fù)區(qū)域、突變位點或修飾位點等分類:所有數(shù)據(jù)記錄被劃分為如細菌類、病毒類、靈長類、嚙齒類,以及EST數(shù)據(jù)、基因組測序數(shù)據(jù)、大規(guī)?;蚪M序列數(shù)據(jù)等16類,其中EST數(shù)據(jù)等又被分成若干文件第二十一頁,共一百二十三頁,編輯于2023年,星期六注釋內(nèi)容序列條目關(guān)鍵字:LOCUS(代碼),DEFINITION(說明),ACCESSION(編號),NID符(核酸標(biāo)識),KEYWORDS(關(guān)鍵詞),SOURCE(數(shù)據(jù)來源),REFERENCE(文獻),F(xiàn)EATURES(特性表),BASECOUNT(堿基組成)ORIGIN(堿基排列順序)。新版的核酸序列數(shù)據(jù)庫將引入新的關(guān)鍵詞SV(序列版本號),用“編號.版本號”表示,并取代關(guān)鍵詞NID第二十二頁,共一百二十三頁,編輯于2023年,星期六LOCUSLOCUS(代碼):是該序列條目的標(biāo)記,或者說標(biāo)識符,蘊涵這個序列的功能:如HUMCYCLOX表示人的環(huán)氧化酶。序列長度類型種屬來源錄入日期等說明字段是有關(guān)這一序列的簡單描述第二十三頁,共一百二十三頁,編輯于2023年,星期六ACCESSIONACCESSION(編號):具有唯一性和永久性,在文獻中引用這個序列時,應(yīng)該以此編號為準。第二十四頁,共一百二十三頁,編輯于2023年,星期六KEYWORDSKEYWORDS(關(guān)鍵詞)字段:由該序列的提交者提供,包括該序列的基因產(chǎn)物其它相關(guān)信息第二十五頁,共一百二十三頁,編輯于2023年,星期六SOURCESOURCE(數(shù)據(jù)來源)字段:說明該序列是從什么生物體、什么組織得到的次關(guān)鍵字ORGANISM(種屬):指出該生物體的分類學(xué)地位第二十六頁,共一百二十三頁,編輯于2023年,星期六REFERENCEREFERENCE(文獻)字段:說明該序列中的相關(guān)文獻,包括AUTHORS(作者),TITLE(題目)及JOURNAL(雜志名)等,以次關(guān)鍵詞列出。MEDLINE的代碼:該代碼實際上是個超文本鏈接,點擊它可以直接調(diào)用上述文獻摘要。一個序列可有多篇文獻,以不同序號表示,并給出該序列中哪一部分與文獻有關(guān)。第二十七頁,共一百二十三頁,編輯于2023年,星期六FEATURESFEATURES(特性表):具有特定的格式,用來詳細描述序列特性。特性表中帶有‘/db-xref/’標(biāo)志的字符可以連接到其它數(shù)據(jù)庫,如分類數(shù)據(jù)庫(taxon9606),以及蛋白質(zhì)序列數(shù)據(jù)庫(PID:g181254)。序列中各部分的位置都在表中標(biāo)明,5’非編碼區(qū),編碼區(qū),3’非編碼區(qū),多聚腺苷酸重復(fù)區(qū)域等。翻譯所得信號肽以及最終蛋白質(zhì)產(chǎn)物堿基含量字段,給出序列中的堿組成第二十八頁,共一百二十三頁,編輯于2023年,星期六ORIGINORIGIN行是序列的引導(dǎo)行下面便是堿基序列以雙斜杠行“//”結(jié)束。第二十九頁,共一百二十三頁,編輯于2023年,星期六GenBank數(shù)據(jù)庫—數(shù)據(jù)庫格式FASTA格式
>gi|1293613|gb|U49845.1|SCU49845SaccharomycescerevisiaeTCP1-betagene,partialcds;andAxl2p(AXL2)andRev7p(REV7)genes,completecdsGATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATAATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCT……(該序列沒有完全列出)第三十頁,共一百二十三頁,編輯于2023年,星期六GenBank數(shù)據(jù)庫—數(shù)據(jù)庫格式(1)FASTA格式:將一個DNA或者蛋白質(zhì)序列表示為一個帶有一些標(biāo)記的核苷酸或氨基酸字符串。大于號(>)表示一個新文件的開始結(jié)束用(//)FASTA格式并沒有什么特殊的要求。第三十一頁,共一百二十三頁,編輯于2023年,星期六FASTA格式序列的提交第三十二頁,共一百二十三頁,編輯于2023年,星期六GenBank數(shù)據(jù)庫—數(shù)據(jù)庫格式(1)FASTA格式特點:只存儲了最少量的信息它將所存儲的信息轉(zhuǎn)化為簡單的字符串人和計算機對其存儲的信息都具有極大的可讀性FASTA格式在許多分子生物學(xué)軟件包中得到廣泛應(yīng)用。第三十三頁,共一百二十三頁,編輯于2023年,星期六GenBank數(shù)據(jù)庫—數(shù)據(jù)庫格式(2)GenBank純文本文件格式(GenBankflatfile,GBFF):GenBank、EMBL、DDBJ每天都相互同步更新各自的數(shù)據(jù)庫,它們是怎樣交換數(shù)據(jù)的呢?第三十四頁,共一百二十三頁,編輯于2023年,星期六GBFF文件格式GBFF是GenBank數(shù)據(jù)庫的基本信息單位,是最為廣泛使用的生物信息學(xué)序列格式之一。第三十五頁,共一百二十三頁,編輯于2023年,星期六頭部中部尾部GENBANK純文本文件格式>LOCUSSCU498455028bpDNAPLN21-JUN-1999DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(REV7)genes,completecds.ACCESSIONU49845VERSIONU49845.1GI:1293613KEYWORDS.SOURCEbaker'syeast.ORGANISMSaccharomycescerevisiaeEukaryota;Fungi;Ascomycota;Hemiascomycetes;Saccharomycetales;Saccharomycetaceae;Saccharomyces.REFERENCE1(bases1to5028)AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.TITLECloningandsequenceofREV7,agenewhosefunctionisrequiredforDNAdamage-inducedmutagenesisinSaccharomycescerevisiaeJOURNALYeast10(11),1503-1509(1994)MEDLINE95176709REFERENCE2(bases1to5028)AUTHORSRoemer,T.,Madden,K.,Chang,J.andSnyder,M.TITLESelectionofaxialgrowthsitesinyeastrequiresAxl2p,anovelplasmamembraneglycoproteinJOURNALGenesDev.10(7),777-793(1996)MEDLINE96194260REFERENCE3(bases1to5028)AUTHORSRoemer,T.TITLEDirectSubmissionJOURNALSubmitted(22-FEB-1996)TerryRoemer,Biology,YaleUniversity,NewHaven,CT,USAFEATURESLocation/Qualifierssource1..5028/organism="Saccharomycescerevisiae"/db_xref="taxon:4932"/chromosome="IX"/map="9"CDS<1..206/codon_start=3/product="TCP1-beta"/protein_id="AAA98665.1"/db_xref="GI:1293614"/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEAAEVLLRVDNIIRARPRTANRQHM"gene687..3158/gene="AXL2"CDS687..3158/gene="AXL2"/note="plasmamembraneglycoprotein"/codon_start=1/function="requiredforaxialbuddingpatternofS.cerevisiae"/product="Axl2p"/protein_id="AAA98666.1"/db_xref="GI:1293615"/translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF……(有部分序列未列出)
VDFSNKSNVNVGQVKDIHGRIPEML"BASECOUNT1510a1074c835g1609tORIGIN1gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg61ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct……(有部分序列未列出)
4921ttttcagtgttagattgctctaattctttgagctgttctctcagctcctcatatttttct4981tgccatgactcagattctaattttaagctattcaatttctctttgatc//第三十六頁,共一百二十三頁,編輯于2023年,星期六GBFF格式按域(Field)可以劃分為三個部分頭部包含整個記錄的信息(描述符);第二部分包含了注釋這一記錄的特性;第三部分是核苷酸序列本身。所有序列數(shù)據(jù)庫記錄都在最后一行以“//”結(jié)尾。第三十七頁,共一百二十三頁,編輯于2023年,星期六GBFF格式頭部-Locus行所有的GBFF都起始于LOCUS行:+++++1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999第三十八頁,共一百二十三頁,編輯于2023年,星期六GBFF格式頭部-Locus行1、LOCUS行:第一項是LOCUS名稱:最初這一名稱是用來表示本記錄描述的基因座,以方便檢索相似序列:前三個字母代表特定物種的名稱第四、第五個字母代表如基因產(chǎn)物等特定的類別名稱。如HUMHBB(人-珠蛋白基因區(qū)域)。第三十九頁,共一百二十三頁,編輯于2023年,星期六GBFF格式頭部-Locus行LOCUS這種“十字符”命名方式已經(jīng)無法滿足基因在基因座中所包含的信息。LOCUS名稱目前唯一的作用是它在數(shù)據(jù)庫中是獨一無二的,已不在具有任何實際意義。僅使用檢索號碼(acessionnumber)以滿足對LOCUS名稱的要求1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999第四十頁,共一百二十三頁,編輯于2023年,星期六GBFF格式頭部-Locus行第二項是序列長度。GenBank對提交的序列長度沒有上限要求。根據(jù)國際序列數(shù)據(jù)庫合作計劃的協(xié)議,為方便不同的軟件處理序列,規(guī)定單條數(shù)據(jù)庫記錄的長度不能超過350kb。GenBank已經(jīng)很少接受長度低于50bp的序列。1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999第四十一頁,共一百二十三頁,編輯于2023年,星期六GBFF格式頭部-Locus行第三項表明序列的分子類型:其序列必須是一種單一的分子類型。包括:基因組DNA、RNA、RNA前體、mRNA(cDNA)、tRNA等。1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999第四十二頁,共一百二十三頁,編輯于2023年,星期六GBFF格式頭部-Locus行第四項是GenBank分類碼:由三個字母組成,分類碼將GenBank數(shù)據(jù)庫分為17個分支1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999第四十三頁,共一百二十三頁,編輯于2023年,星期六GenBank分類碼(GenBankDivision)類中文名稱符號類符號primatesequences靈長類動物序列PRIrodentsequences嚙齒類動物序列RODothermammaliansequences其它哺乳動物序列MAMothervertebratesequencs其它脊椎動物序列VRTinvertebratesequences無脊椎動物序INVPlants,fungal,andalgalsequences植物、真菌和藻類序列PLNbacterialsequences細菌序列BCTviralsequences病毒序列VRLbacteriophagesequences噬菌體序列PHGsyntheticsequences人工合成序列SYNunanntotatedsequences未注釋序列UNAESTsequences表達序列標(biāo)簽ESTpatentsequences專利序列PATSTSsequences序列標(biāo)記位點STSgenomesurveysequences基因組測定序列GSSHTGSsequences高通量基因組序列HTGunfinishedhigh-throughputcDNAsequencing未完成測序的高通量cDNA序列HTC第四十四頁,共一百二十三頁,編輯于2023年,星期六GBFF格式頭部-Locus行第五項是最后修訂日期。某些時候,它也是數(shù)據(jù)第一次被公開的日期。這項簡單的信息并無法對此做出判斷。1102030405060LOCUSSCU498455028bpDNAPLN21-JUN-1999第四十五頁,共一百二十三頁,編輯于2023年,星期六GBFF格式頭部-DEFINITION行2、DEFINITION行:主要對GenBank記錄中所含的生物學(xué)意義做出總結(jié)。它的說明內(nèi)容包括來源物種、基因/蛋白質(zhì)名稱;+++++1102030405060DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(REV7)genes,completecds.第四十六頁,共一百二十三頁,編輯于2023年,星期六GBFF格式頭部-DEFINITION行如果序列是非編碼區(qū),則包含對序列功能的簡單描述;如果序列是一段編碼區(qū),則標(biāo)明該序列是部分序列(partialcds)還是全序列(completecds)。+++++1102030405060DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds,andAxl2p(AXL2)andRev7p(REV7)genes,completecds.第四十七頁,共一百二十三頁,編輯于2023年,星期六GBFF格式頭部-ACCESSION行3、檢索號(ACCESSION):是序列記錄的唯一指針。檢索號通常由一個字母加5個數(shù)字(U12345)或者由兩個字母加6個數(shù)字(AF123456)組成。+++++1102030405060ACCESSIONU49845DearGenBankSubmitter:ThankyouforyourdirectsubmissionofsequencedatatoGenBank.WehaveprovidedaGenBankaccessionnumberforyournucleotidesequence:bankit660463AY795899WestronglyrecommendthatthisGenBankaccessionnumberappearsinanypublicationthatreportsordiscussesthesedata,asitgivesthecommunityauniquelabelwithwhichtheymayretrieveyourdatafromouron-lineservers.第四十八頁,共一百二十三頁,編輯于2023年,星期六GBFF格式頭部-ACCESSION行檢索號在數(shù)據(jù)庫中是唯一而且不變的,即使數(shù)據(jù)的提交者改變數(shù)據(jù)的內(nèi)容。在ACCESSION行中可能出現(xiàn)多個檢索號,可能是因為數(shù)據(jù)提交者提交了一條與原記錄相關(guān)的新記錄,或者新提交的記錄覆蓋了原有的舊記錄。第一個檢索號為主檢索號,而其余的統(tǒng)稱為二級檢索號。第四十九頁,共一百二十三頁,編輯于2023年,星期六GBFF格式頭部-VERSION行4、版本號行:它的格式是:檢索號.版本號。版本號于99年2月由三大數(shù)據(jù)庫采納使用。主要用于識別數(shù)據(jù)庫中一條單一的特定核苷酸序列。在數(shù)據(jù)庫中,如果某條序列數(shù)據(jù)發(fā)生了變化,即使是單堿基的改變,它的版本號都將增加,而它的檢索號保持不變?nèi)缬蒛12345.1變?yōu)閁12345.2。+++++++11020304050607079VERSIONU49845.1GI:1293613第五十頁,共一百二十三頁,編輯于2023年,星期六GBFF格式頭部-VERSION行版本號系統(tǒng)與跟在其后的GI(GenInfoIdentifier)號系統(tǒng)是平行運行當(dāng)一條序列改變后,它將被賦予一個新的GI號,同時它的版本號將增加。當(dāng)依據(jù)核酸序列的內(nèi)部序列進行蛋白質(zhì)翻譯時,蛋白質(zhì)的翻譯發(fā)生任何變換,核酸序列都將被賦予一個新的GI號。+++++++11020304050607079VERSIONU49845.1GI:1293613第五十一頁,共一百二十三頁,編輯于2023年,星期六GBFF格式頭部-KEYWORDS行5、關(guān)鍵詞行:是用來描述序列的。如果該行中沒有任何內(nèi)容,那么就只包含一個“.”。由于沒有對照詞匯表,所以NCBIGenBank拒絕接受關(guān)鍵詞,它只存在于舊的記錄中。+++++++11020304050607079KEYWORDS.第五十二頁,共一百二十三頁,編輯于2023年,星期六GBFF格式頭部-SOURCE行6、序列來源行:沒有做特殊的規(guī)定,它通常包含序列來源生物的簡稱,有些時候也包含分子類型。Organism:以NCBI的分類數(shù)據(jù)庫為依據(jù),指明物種的正式科學(xué)名稱。+++++++11020304050607079SOURCEbaker'syeast.ORGANISMSaccharomycescerevisiaeEukaryota(真核);Fungi(真菌);Ascomycota(子囊菌門);Hemiascomycetes(半子囊菌綱);Saccharomycetales;Saccharomycetaceae;Saccharomyces.第五十三頁,共一百二十三頁,編輯于2023年,星期六GBFF格式頭部-REFERENCE行7、參考文獻行:將與該數(shù)據(jù)有關(guān)的參考文獻均收錄在內(nèi),將最先發(fā)表的文獻列于第一位。如果序列數(shù)據(jù)沒有被文獻報道,該行將顯示“inpress”或“unpublished”如所引用文獻存在于MEDLINE數(shù)據(jù)庫中,將出現(xiàn)一個MEDLINE單一指針(uniqueidentifier,UID)以便檢索。+++++++11020304050607079REFERENCE1(bases1to5028)AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.TITLECloningandsequenceofREV7,agenewhosefunctionisrequiredforDNAdamage-inducedmutagenesisinSaccharomycescerevisiaeJOURNALYeast10(11),1503-1509(1994)MEDLINE95176709第五十四頁,共一百二十三頁,編輯于2023年,星期六GBFF格式頭部-REFERENCE行如果序列是直接提交而未經(jīng)發(fā)表的,就將在標(biāo)題(TITLE)中注明“直接提交(DirectSubmission)”在期刊(JOURNAL)中注明提交日期,提交者姓名以及提交者的工作單位。+++++++11020304050607079REFERENCE
1
(bases1to1939)
AUTHORS
Yi,CAO.,Dairong,QIAO.,Qinghua,HE.andShunji,HE.
TITLE
CloningandexpressionstudiesofacDNAencodingUDP-glucosedehydrogenasefromDunaliellasalina
JOURNAL
Unpublished第五十五頁,共一百二十三頁,編輯于2023年,星期六GBFF格式中部特性表(FEATURES):它描述基因和基因的產(chǎn)物,以及與序列相關(guān)的生物學(xué)特性。特性表提供一個參考詞匯表以對合法的特性進行注釋這些特性包括該序列是否執(zhí)行一個生物學(xué)功能;它是否與一個生物學(xué)功能的表達相關(guān);它是否與其它分子相互作用;它是否影響一條序列的復(fù)制;它是否與其它序列的重組相關(guān);它是否是一條已識別的重復(fù)序列;它是否有二級或三級結(jié)構(gòu);它是否存在變異或者它是否被修訂過。第五十六頁,共一百二十三頁,編輯于2023年,星期六GBFF格式中部特性表格式:按表單的方式設(shè)計的,包含三個部分:第一,特性關(guān)鍵詞(Featurekey);第二,特性位置(Location);第三,限定詞(Qualifiers)。FEATURESLocation/Qualifierssource1..5028/organism=“Saccharomycescerevisiae”釀酒酵母/mol_type="genomicDNA"基因組DNA/db_xref="taxon:4932"分類學(xué)/chromosome="IX"染色體/map="9"第五十七頁,共一百二十三頁,編輯于2023年,星期六GBFF格式中部-FEATURES第一,特性關(guān)鍵詞(Featurekey),是一個簡要說明功能組的關(guān)鍵詞,允許加入新的或未定義的特性;第二,特性位置(Location),指明在特性表中的什么地方找到相關(guān)特性,在位置特性中可以包含操作符(Operator)和功能性描述符(Descriptor)以指明序列需經(jīng)過怎樣的處理才能得到相應(yīng)的特性;第三,限定詞(Qualifiers),相關(guān)特性的輔助信息,限定詞使用一組標(biāo)準化的對照詞匯表以利于計算機從中提取信息。第五十八頁,共一百二十三頁,編輯于2023年,星期六GBFF格式中部-FEATURES例1KeyLocation/QualifiersCDS23..400/product="alcoholdehydrogenase"/gene="adhI"特性表含義:該編碼序列(CDS)起始于第23堿基,終止于第400堿基產(chǎn)物是乙醇脫氫酶基因名稱是“adhI”。第五十九頁,共一百二十三頁,編輯于2023年,星期六GBFF格式中部-FEATURES例2KeyLocation/QualifiersCDSjoin(544..589,688..1032)/product="T-cellreceptorbeta-chain"特性表含義:它表示記錄中所存儲的序列為部分編碼序列,表達產(chǎn)物“T-細胞受體beta鏈”由序列內(nèi)兩個片段結(jié)合生成指明兩個片段在序列中所處的位置。第六十頁,共一百二十三頁,編輯于2023年,星期六GBFF格式中部-特性表關(guān)鍵詞1、特性表的關(guān)鍵詞:以樹型結(jié)構(gòu)生成misc_feature生物學(xué)特性無法用特性表關(guān)鍵詞描述的序列misc_difference序列特性無法用特性表關(guān)鍵詞描述的序列conflict同一序列在不同的研究中在位點或區(qū)域上有差異unsure序列不能確定的區(qū)域old_sequence該序列對以前的版本做過修訂variation包含穩(wěn)定突變的序列modified_base修飾過的核苷酸gene已識別為基因或已命名的序列區(qū)域misc_signal無法用信號特性關(guān)鍵詞描述的信號序列promoter轉(zhuǎn)錄起始區(qū)CAAT_signal真核啟動子上游的CAAT盒,與RNA結(jié)合相關(guān)TATA_signal真核啟動子的TATA盒-35_signal原核啟動子中的-35框-10_signal原核啟動子Pribow盒GC_signal真核啟動子的GC盒RBS核糖體結(jié)合位點polyA_signalRNA轉(zhuǎn)錄本的剪切識別位點enhancer增強子attenuator與轉(zhuǎn)錄終止有關(guān)的序列terminator轉(zhuǎn)錄終止序列rep_origin雙鏈DNA復(fù)制起始區(qū)第六十一頁,共一百二十三頁,編輯于2023年,星期六GBFF格式中部-特性表關(guān)鍵詞misc_RNA無法用RNA關(guān)鍵詞描述的轉(zhuǎn)錄物或RNA產(chǎn)物prim_transcript初始轉(zhuǎn)錄本precursor_RNA前體RNAmRNA信使RNA5'clip前體轉(zhuǎn)錄本中被剪切掉的5’端序列3'clip前體轉(zhuǎn)錄本中被剪切掉的3’端序列5'UTR5’非翻譯區(qū)3'UTR3’非翻譯區(qū)exon外顯子CDS蛋白質(zhì)編碼序列sig_peptide編碼信號肽的序列transit_peptide轉(zhuǎn)運蛋白編碼序列mat_peptide編碼成熟肽的序列intron內(nèi)含子polyA_siteRNA轉(zhuǎn)錄本的多聚腺苷酸化位點rRNA核糖體RNAtRNA轉(zhuǎn)運RNAscRNA小細胞質(zhì)RNAsnRNA小核RNAsnoRNA加工和修飾rRNA的小核RNA第六十二頁,共一百二十三頁,編輯于2023年,星期六GBFF格式中部-特性表關(guān)鍵詞immunoglobulin_relatedC_region免疫相關(guān)蛋白上的穩(wěn)定區(qū)D_segment碼免疫球蛋白重鏈的可變區(qū)基因之一J_segment編碼免疫球蛋白輕鏈和重鏈的可變區(qū)基因之一N_region插入重排免疫球蛋白片段間的核苷酸S_region免疫球蛋白重鏈的開關(guān)區(qū)V_region免疫球蛋白輕鏈和重鏈的可變區(qū),和T-細胞受體α,β和γ鏈;編碼可變的氨基末端部分;可由V_segment,D_segment,N_region和J_segment組成V_segment免疫球蛋白輕鏈和重鏈的可變區(qū)段,和T-細胞受體α,β和γ鏈;編碼大多數(shù)可變區(qū)(v_region)和前導(dǎo)肽的最后幾個氨基酸repeat_region基因組中所包含的重復(fù)序列第六十三頁,共一百二十三頁,編輯于2023年,星期六GBFF格式中部-特性表關(guān)鍵詞repeat_unit單個的重復(fù)元件LTR長末端重復(fù)序列Satellite衛(wèi)星重復(fù)序列misc_binding無法描述的核酸序列結(jié)合位點primer_bind復(fù)制、轉(zhuǎn)錄的引物結(jié)合位點protein_bind蛋白質(zhì)結(jié)合區(qū)STS測序標(biāo)簽位點misc_recomb無法用重組特性關(guān)鍵詞描述的重組事件iDNA通過重組所消除的DNAmisc_structure無法用結(jié)構(gòu)關(guān)鍵詞描述的核酸序列高級結(jié)構(gòu)或構(gòu)型stem_loop發(fā)夾結(jié)構(gòu)D-loop線粒體中DNA中的取代環(huán)第六十四頁,共一百二十三頁,編輯于2023年,星期六GBFF格式中部-Location2、特性位置(Location):用來描述在序列中的什么區(qū)域能夠找到相關(guān)的特性,位置特性可以包含Complement、Join、Order等三個操作符(Operator)。467指明序列中的單個堿基340..565指明包括起始和中止堿基在內(nèi)的一段連續(xù)序列<345..500指明序列起始于起始堿基號之前的某個位置,但起始堿基號之前的特性邊界未知第六十五頁,共一百二十三頁,編輯于2023年,星期六GBFF格式中部-Location<1..888指明特性起始于第一個已測序的堿基之前(102.110)指明正確位置未知,但包含在102和110號堿基之間(23.45)..600指明序列特性起始堿基在23和45堿基之間,終止于600號堿基(122.133)..(204.221)指明序列特性起始于122和133堿基之間,終止于204和221號堿基之間123^124指明123和124號堿基之間的位點,如限制性酶切位點145^177指明145和177堿基之間的某個位點第六十六頁,共一百二十三頁,編輯于2023年,星期六GBFF格式中部-Locationjoin(12..78,134..202)12至78堿基及134至202堿基之間序列相應(yīng)連以構(gòu)成一段連續(xù)序列complement(join(2691..4571,4918..5163))紀錄中的特性處于2691至4571堿基以及4918至5163堿基之間的序列相連構(gòu)成的連續(xù)序列的互補鏈上join(complement(4918..5163),complement(2691..4571))將4918至5163堿基之間序列的互補鏈與2691至4571間序列的互補鏈結(jié)合以構(gòu)成一段連續(xù)序列第六十七頁,共一百二十三頁,編輯于2023年,星期六GBFF格式中部-Locationcomplement(34..(122.126))指明序列特性起始于與122至126堿基之間某個互補的堿基,終止于與34號堿基互補的堿基J00194:100..202指明起始于100號堿基,終止于202號堿基的序列在數(shù)據(jù)庫中的主檢索號為J00194第六十八頁,共一百二十三頁,編輯于2023年,星期六GBFF格式中部-Qualifiers3、限定詞(Qualifier):為進一步說明特性表關(guān)鍵詞和特性位置提供的信息給出了一個通用機制。格式:在“/”后跟上限定詞名稱,加上“=”,其后是限定詞的值KeyLocation/QualifiersCDS86..742次黃嘌呤磷酸核糖轉(zhuǎn)移酶/product="hypoxanthinephosphoribosyltransferase"/label=hprt/note="hprtcatalyzesvitalstepsinthereutilizationpathwayforpurinebiosynthesisanditsdeficiencyleadstoformsof""gouty""arthritis"rep_origin234..243缺乏/direction=leftCDS109..564/usedin=X10009:catalase
重復(fù)利用易患痛風(fēng)的關(guān)節(jié)炎過氧化氫酶第六十九頁,共一百二十三頁,編輯于2023年,星期六常見的特性表關(guān)鍵詞所使用的限定詞限定詞含義限定詞含義/allele=給定基因的等位基因/anticodon=tRNA反義密碼子的位置及它所編碼的氨基酸/bound_moiety=嵌合范圍/cell_line=獲得序列的細胞系/cell_type=獲得序列的細胞類型/chromosome=獲得序列的染色體/citation=已被引用的參考文獻數(shù)/clone=獲得序列的克隆子/clone_lib=獲得序列的克隆文庫/codon=指出與參考密碼子不同的密碼子/codon_start=相對于序列第一個堿基,編碼序列密碼子的偏移量/cons_splice=區(qū)分內(nèi)含子剪切位點和“5'-GT.AG-3'”剪切位點/country=DNA樣本的來源國/cultivar=所獲序列植物的栽培變種/db_xref=其它數(shù)據(jù)庫信息的交叉索引號/dev_stage=序列來源于某種生物的特定發(fā)育階段/direction=DNA復(fù)制方向/EC_number=序列產(chǎn)物的酶學(xué)編號/environmental_sample=序列直接從環(huán)境材料中獲得而沒有指明來源物種/evidence=序列特性來源于實驗還是推理/exception=指明DNA序列未按通常的生物學(xué)規(guī)律翻譯,如RNA編輯/focus指出在紀錄中的來源特性在其它物種中還有不同的來源特性/frequency=在種群中發(fā)生變異的頻率/function=序列所代表的功能/germline如果序列是DNA并來源于免疫球蛋白家族,則表示該序列來源于未重排DNA/haplotype=序列來源于某種物種的單倍體/insertion_seq=序列來源于某種插入元件/isolation_source=描述序列來源物種的生理、環(huán)境和地理信息/isolate=序列來源的生物個體/label=序列特性的俗名第七十頁,共一百二十三頁,編輯于2023年,星期六常見的特性表關(guān)鍵詞所使用的限定詞(續(xù))/lab_host=為擴增序列來源物種所用的實驗室宿主/map=相關(guān)特性在基因圖譜上的位置/macronuclear指明DNA來源于染色體分化的大核期/mod_base=被修飾堿基的簡寫/note=評論及附加信息/number=從5’→3’注明遺傳元件的順序/organelle=獲得序列的細胞器/organism=提供測序用遺傳物質(zhì)的物種的科學(xué)名稱/PCR_conditions=描述PCR的反應(yīng)條件/phenotype=序列特性所導(dǎo)致的表型/pop_variant=獲得序列的群體變異種名稱/plasmid=獲得序列的質(zhì)粒名稱/product=序列編碼產(chǎn)物的名稱/protein_id=蛋白質(zhì)的檢索號/proviral整合在基因組中的前病毒/pseudo假基因/rearranged如果序列是DNA并來源于免疫球蛋白家族,則表示該序列來源于重排DNA/replace=表明特性間的間隔序列已被替換/rpt_family=重復(fù)序列/rpt_type=重復(fù)序列的組織方式/rpt_unit=指明重復(fù)區(qū)域的重復(fù)元件構(gòu)成/sequenced_mol=獲得序列的分子類型/serotype=同一物種的不同血清學(xué)特征/serovar=同一原核生物的血清學(xué)特征/sex=獲得序列的物種性別/specific_host=獲得序列的天然宿主/specimen_voucher=指明來源物種保存于什么地方/standard_name=特性的通用名稱/strain=獲得序列的菌株/sub_clone=獲得序列的亞克隆/sub_species=獲得序列的來源物種的亞種/sub_strain=獲得序列的來源微生物亞種/tissue_lib=獲得序列組織庫/tissue_type=獲得序列組織類型/transgenic指明物種的來源特性是否是轉(zhuǎn)基因受體/translation=按通用或指定的密碼子表翻譯的氨基酸序列/transl_except=標(biāo)明序列中未按指定密碼子表翻譯的氨基酸的位置/transl_table=描述在翻譯中與通用密碼表不同的密碼表/transposon=轉(zhuǎn)座子/usedin=表明該特性在其它檢索中也被使用/variety=獲得序列的生物變種/virion病毒顆粒第七十一頁,共一百二十三頁,編輯于2023年,星期六GBFF格式尾部-ORIGIN序列:類似于FASTA格式給出了所記錄的序列。ORIGIN1gatcctccatatacaacggtatctccacctcaggtttaga41tctcaacaacggaaccattgccgacatgagacagttaggt81atcgtcgagagttacaagctaaaacgagcagtagtcagct……(有部分序列未列出)4921ttttcagtgttagattgctctaattctttgagctgttctc4961tcagctcctcatatttttcttgccatgactcagattctaa5001ttttaagctattcaatttctctttgatc//第七十二頁,共一百二十三頁,編輯于2023年,星期六總結(jié)全面了解GBFF文件格式及其所涉及的各個方面GBFF是核苷酸和蛋白質(zhì)序列數(shù)據(jù)庫最常用的數(shù)據(jù)格式。正確地理解數(shù)據(jù)庫格式成分的含義,知道從中如何提取生物學(xué)知識在數(shù)據(jù)庫中進行檢索,使用不同的工具進行生物信息學(xué)分析,具有十分重要的意義。第七十三頁,共一百二十三頁,編輯于2023年,星期六圖C2.2人類某一EST克隆的Genbank(dbEST)第七十四頁,共一百二十三頁,編輯于2023年,星期六第七十五頁,共一百二十三頁,編輯于2023年,星期六第七十六頁,共一百二十三頁,編輯于2023年,星期六EMBL生化實驗技術(shù)質(zhì)譜分析(Mass
Spectrometry)等細胞生物學(xué)(Cell
Biology),研究細胞膜上蛋白和脂肪的分布,包括膜運輸、微管網(wǎng)絡(luò)、細胞核及細胞周期,焦點是Rab蛋白。細胞生物物理(Cell
Biophysics),重點是理論創(chuàng)新和實際應(yīng)用的研究,尤其是光學(xué)顯微鏡的完善使用。分化(Differentiation),集中研究果蠅的早期發(fā)育。第七十七頁,共一百二十三頁,編輯于2023年,星期六EMBL的研究內(nèi)容基因表達(Gene
Expression),研究基因到蛋白質(zhì)信息傳遞的過程,尤其是核糖體合成在整個細胞生命過程中的重要作用。結(jié)構(gòu)生物學(xué)(Structure
Biology),在過去9年中建立了cDNA測序技術(shù)、生物計算、蛋白工程、晶體學(xué)、電子顯微鏡(EM)及核磁共振(VMR),研究肌肉巨型蛋白分子Titin。Grenoble研究分部,主要研究蛋白質(zhì)合成過程,尤其揭示了G-蛋白-鳥苷酸交換因子偶聯(lián)物的結(jié)構(gòu)Hamburg研究分部,有關(guān)長期的分子生物學(xué)國際合作研究歷史,著重于結(jié)構(gòu)生物學(xué)研究,如光學(xué)測量系統(tǒng)、晶體學(xué)、X-線吸收光譜及小角散射。第七十八頁,共一百二十三頁,編輯于2023年,星期六EMBL的研究內(nèi)容Hinxton研究分部EBI,重點是與世界上其他分子生物學(xué)數(shù)據(jù)庫進行合作研究,主要有EMBL核酸序列數(shù)據(jù)庫,于1980年開始建立,隨后參予了與日內(nèi)瓦大學(xué)共同進行的SWISS-PROT的建設(shè)。在SWISS-PROT與EMBL核苷酸序列庫之間的數(shù)據(jù)轉(zhuǎn)移的基礎(chǔ)上,產(chǎn)生了新的數(shù)據(jù)庫TREMBL,即使核苷酸序列庫的核苷酸序列自動翻譯成SWISS-PROT蛋白序列庫中的蛋白序列。放射性雜交數(shù)據(jù)庫(Radiation
Hybrid
Database)。Monterotondo研究中心:EMBL和歐洲其他研究機構(gòu)一起,加入到哺乳類生物學(xué)和生物醫(yī)學(xué)等的研究行列,該中心位于意大利羅馬北部的Monterotondo。EMBL著重于鼠遺傳學(xué)研究第七十九頁,共一百二十三頁,編輯于2023年,星期六EMBL數(shù)據(jù)記錄第八十頁,共一百二十三頁,編輯于2023年,星期六EMBL數(shù)據(jù)庫結(jié)構(gòu)EMBL數(shù)據(jù)庫的基本單位也是序列條目,包括核甘酸堿基排列順序和注釋兩部分。序列條目由字段組成,每個字段由標(biāo)識字起始,后面為該字段的具體說明。有些字段又分若干次子字段,以次標(biāo)識字或特性表說明符開始,最后以雙斜杠“//”作本序列條目結(jié)束標(biāo)記。第八十一頁,共一百二十三頁,編輯于2023年,星期六EMBL數(shù)據(jù)庫結(jié)構(gòu)條目的關(guān)鍵字包括:ID(序列名稱),DE(序列簡單說明),AC(序列編號),SV(序列版本號),KW(與序列相關(guān)的關(guān)鍵詞),OS(序列來源的物種名),OC(序列來源的物種學(xué)名和分類學(xué)位置),RN(相關(guān)文獻編號或遞交序列的注冊信息),RA(相關(guān)文獻作者或遞交序列的作者),第八十二頁,共一百二十三頁,編輯于2023年,星期六EMBL數(shù)據(jù)庫結(jié)構(gòu)RT(相關(guān)文獻題目)RL(相關(guān)文獻雜志名或遞交序列的作者單位),RX(相關(guān)文獻Mediline引文代碼),RC(相關(guān)文獻注釋),RP(相關(guān)文獻其他注釋),CC(關(guān)于序列的注釋信息),DR(相關(guān)數(shù)據(jù)庫交叉引用號),F(xiàn)H(序列特征表起始),F(xiàn)T(序列特征表子項),SQ(堿基種類統(tǒng)計數(shù))第八十三頁,共一百二十三頁,編輯于2023年,星期六EMBL數(shù)據(jù)庫記錄注釋代碼和內(nèi)容說明代碼(Code)(Fullmeaning)全稱說明(Comments)IDACDTDEKWOSOCOGRNRCRPRXRARTRLDRFHFTCCXXSQblank//identifieraccessionnumberdatadescriptionkeywordsorganism(species)organism(classification)Organellereferencenumberreferencecommentreferencepositionscross-referencereferenceauthorsreferencetitlereferencelocationdatabasecross-referencefeatureheaderfeaturetabledatacommentsspacerlinesequenceheadersequencedataterminationline(身份號)(記錄號)(日期)(描述)(關(guān)鍵詞)(物種)(分類)(細胞器)(文獻編號)(文獻說明)(文獻大?。ㄏ嚓P(guān)文獻)(文獻作者)(文獻題目)(文獻出處)(相關(guān)文獻數(shù)據(jù)庫)(主表頭)(主表數(shù)據(jù))(說明)(空白行)(序列頭)(空白)(終止行)該行的第一項內(nèi)容是該數(shù)據(jù)庫記錄的名稱,該名稱是唯一的,是由EMBL數(shù)據(jù)庫給定的。其它內(nèi)容注明了該記錄的一些狀況(如是否已經(jīng)被核實—本例中為已核實,即standard;記錄的堿基數(shù)等)每個記錄號均是唯一的,并從不更改,是由GenBank給定的。如果兩個記錄被合并成一個記錄,原始上著2個記錄號均會被注明2個日期被注出,一個是該數(shù)據(jù)第一次被記錄時間,另一個是最后一次的時間。對該基因的文字描述描述該基因的關(guān)鍵詞物種名稱物種的一個簡單分類,該分類并不一定準確,應(yīng)謹慎從事該基因是否在某一個特殊的細胞器中與該記錄研究相關(guān)的文獻信息見文中說明該記錄主要內(nèi)容列表表頭見文中說明對記錄的文字說明有關(guān)該序列大小和組成的信息一個記錄的終止符號第八十四頁,共一百二十三頁,編輯于2023年,星期六第八十五頁,共一百二十三頁,編輯于2023年,星期六http://www.ebi.ac.uk/ena/第八十六頁,共一百二十三頁,編輯于2023年,星期六第八十七頁,共一百二十三頁,編輯于2023年,星期六第八十八頁,共一百二十三頁,編輯于2023年,星期六相關(guān)文獻數(shù)據(jù)庫(DR)的說明許多二級數(shù)據(jù)庫內(nèi)容來自初始數(shù)據(jù)庫OMIM數(shù)據(jù)庫是有關(guān)人類遺傳疾病的數(shù)據(jù),如OMIM中的一個記錄與EMBL中一個已知序列的基因有關(guān),則該基因?qū)⑴c該記錄建立聯(lián)系,EMBL庫中該序列的DR欄中將包括OMIM和OMIM中相關(guān)記錄的名稱。DR欄中有該DNA序列翻譯成蛋白質(zhì)序列的SWISS-PROT記錄號等。第八十九頁,共一百二十三頁,編輯于2023年,星期六EMBL數(shù)據(jù)庫記錄相關(guān)文獻數(shù)據(jù)庫第九十頁,共一百二十三頁,編輯于2023年,星期六相關(guān)文獻數(shù)據(jù)庫(DR)的說明DR欄內(nèi)容有助于了解與該原始DNA序列相關(guān)信息的狀況和存貯站點。與DR欄有關(guān)的數(shù)據(jù)庫:SWISS-PROT、EMBL、OMIM、PROSITE(保守蛋白質(zhì)模序數(shù)據(jù)庫)、HSSP、PDB、PIR、MEDLNE(與RL欄相關(guān)的文獻摘要數(shù)據(jù)庫)等。第九十一頁,共一百二十三頁,編輯于2023年,星期六相關(guān)文獻數(shù)據(jù)庫(DR)的說明注釋中另一個需要說明的重要內(nèi)容是主表數(shù)據(jù)(featuretabledata,FT)欄。主表試圖將盡可能多的序列信息囊括其中,并以計算機可以閱讀的格式編排。3個主要DNA數(shù)據(jù)庫(EMBL、GenBank和DDBJ)已經(jīng)對該表的表述格式達成了一致。具體表述在:www.ebi.ac.uk/ebi_docs/embl_db/ft/feature_table.html第九十二頁,共一百二十三頁,編輯于2023年,星期六GeneralInformation第九十三頁,共一百二十三頁,編輯于2023年,星期六AdditionalInformation第九十四頁,共一百二十三頁,編輯于2023年,星期六AdditionalInformation第九十五頁,共一百二十三頁,編輯于2023年,星期六Sequence第九十六頁,共一百二十三頁,編輯于2023年,星期六PrimaryAccession-頭部第九十七頁,共一百二十三頁,編輯于2023年,星期六PrimaryAccession-中部第九十八頁,共一百二十三頁,編輯于2023年,星期六PrimaryAccession-尾部第九十九頁,共一百二十三頁,編輯于2023年,星期六序列文件格式文本格式簡單文本格式Line,PlainTextStadenFASTABionet(生物網(wǎng)膜allowscomments)加入注釋的文本格式GenBankGCG二進制格式(通常都帶有注釋)MacVector第一百頁,共一百二十三頁,編輯于2023年,星期六序列文件格式例子(Fasta)>gi|995614|dbj|D49653|RATOBESERatmRNAforobese.CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCCTGAATGCTGAGGTTTC以上這個FASTA文件中包含了gi號碼、GenBank檢索號碼、LOCUS名稱、以及GenBank記錄中的DEFINATION字段。一種最簡單的fasta序列形式可以表示為:>D49653CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCG….第一百零一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Unit4 A glimpse of the future Using language 教學(xué)設(shè)計-2023-2024學(xué)年外研版高中英語(2019)選擇性必修第三冊
- 小學(xué)信息技術(shù)五年級下冊第5課《控制系統(tǒng)的三個環(huán)節(jié)》教學(xué)設(shè)計
- 籃球:運球后轉(zhuǎn)身 教學(xué)設(shè)計-2023-2024學(xué)年高一上學(xué)期體育與健康人教版必修第一冊
- 全國青島版信息技術(shù)八年級上冊專題二第2課二、《登錄虛擬機器人在線仿真平臺》教學(xué)設(shè)計
- 2025年空間環(huán)境監(jiān)測系統(tǒng)項目合作計劃書
- 第二單元第八課 排版技巧-制作封面和封底 教學(xué)設(shè)計 2024-2025學(xué)年教科版初中信息技術(shù)七年級上冊
- 浙教版高中信息技術(shù)選2《多媒體技術(shù)應(yīng)用》教學(xué)設(shè)計:3.3照相館的美容師-數(shù)碼照片的合成與修飾
- Unit 2 Teachers'Day(教學(xué)設(shè)計)-2024-2025學(xué)年閩教版英語五年級上冊
- 2021-2026年中國海運行業(yè)發(fā)展監(jiān)測及投資戰(zhàn)略規(guī)劃研究報告
- 名著閱讀《 朝花夕拾》教學(xué)設(shè)計+預(yù)習(xí)任務(wù)單2024-2025學(xué)年統(tǒng)編版語文七年級上冊
- 人教版小學(xué)語文1-6年級背誦內(nèi)容完整版
- 2023徐金桂“徐徐道來”(行政法知識點)版
- 《事故汽車常用零部件修復(fù)與更換判別規(guī)范》
- 2024-2030年中國酒類流通行業(yè)發(fā)展動態(tài)及投資盈利預(yù)測研究報告
- 物業(yè)管理如何實現(xiàn)降本增效
- DL-T825-2021電能計量裝置安裝接線規(guī)則
- 信息科技重大版 七年級下冊 互聯(lián)網(wǎng)應(yīng)用與創(chuàng)新 第一單元單元教學(xué)設(shè)計 互聯(lián)網(wǎng)創(chuàng)新應(yīng)用
- 2024年興業(yè)銀行股份有限公司校園招聘考試試題及參考答案
- 2024智慧城市城市交通基礎(chǔ)設(shè)施智能監(jiān)測技術(shù)要求
- 2024年湖南環(huán)境生物職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫及參考答案
- 專題06 壓強計算(壓強與浮力結(jié)合題)-上海市2024年中考復(fù)習(xí)資料匯編(培優(yōu)專用)【解析版】
評論
0/150
提交評論