生物信息學的應(yīng)用_第1頁
生物信息學的應(yīng)用_第2頁
生物信息學的應(yīng)用_第3頁
生物信息學的應(yīng)用_第4頁
生物信息學的應(yīng)用_第5頁
已閱讀5頁,還剩136頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

生物信息學的應(yīng)用第1頁/共141頁生物信息學(Bioinformatics)生物分子數(shù)據(jù)計算機計算+第2頁/共141頁概念(廣義)生物體系和過程中信息的存貯、傳遞和表達細胞、組織、器官的生理、病理藥理過程的中各種生物信息信息科學生命科學中的信息科學

第3頁/共141頁概念(狹義)生物分子數(shù)據(jù)深層次生物學知識分子生物信息學MolecularBioinformatics挖掘獲取生物分子信息的獲取、存貯、分析和利用第4頁/共141頁

生物信息學主要研究兩種信息載體DNA分子蛋白質(zhì)分子第5頁/共141頁生物分子至少攜帶著三種信息遺傳信息與功能相關(guān)的結(jié)構(gòu)信息進化信息第6頁/共141頁

第一節(jié)生物信息學與基因組學一、生物信息學概述(一)生物信息學發(fā)展簡史生物信息學發(fā)展的3個階段:前基因組時代基因組時代后基因組時代生物信息學的發(fā)展脈絡(luò):

1956年,在美國田納西州蓋特林堡(Gatlinburg)召開的首次“生物學中的信息理論研討會”上,孕育了生物信息學的概念.1987年,佛羅里達州立大學32歲的林華安(Wa.A.Lim)博士首創(chuàng)“Bioinformatics”

一詞,被譽為“世界生物信息之父”。第7頁/共141頁1990年,林華安博士發(fā)起第一屆國際Bioinformatics學術(shù)會議。

1990年10月,被譽為生命科學“阿波羅登月計劃”的國際人類基因組計劃(HGP)啟動。

1995年,美國人類基因組計劃第一個五年總結(jié)報告中給出生物信息學一個較為完整的定義。

2000年6月26日,美、英、日、德、法、中等六國科學家共同努力,完成人類基因組工作草圖,這是人類科學史上又一個里程碑式的事件。

2003年4月14日,國際人類基因組測序組隆重宣布:美、英、日、德、法和中國科學家歷經(jīng)13年共同努力,人類基因組序列圖(“完成圖”)提前繪制成功。人類邁入“后基因組時代”(Post-genomicEra)。第8頁/共141頁(二)生物信息學的主要研究內(nèi)容1.生物信息的收集、存儲、管理與提供2.基因組序列信息的提取和分析3.功能基因組相關(guān)信息分析4.基因表達數(shù)據(jù)的分析與處理5.蛋白質(zhì)結(jié)構(gòu)預測第9頁/共141頁基因組數(shù)據(jù)庫

蛋白質(zhì)序列數(shù)據(jù)庫

蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫

DDBJEMBLGenBankSWISS-PROTPDBPIR1、生物分子數(shù)據(jù)的收集與管理第10頁/共141頁2、數(shù)據(jù)庫搜索及序列比較搜索同源序列在一定程度上就是通過序列比較尋找相似序列序列比較的一個基本操作就是比對(Alignment),即將兩個序列的各個字符(代表核苷酸或者氨基酸殘基)按照對應(yīng)等同或者置換關(guān)系進行對比排列,其結(jié)果是兩個序列共有的排列順序,這是序列相似程度的一種定性描述多重序列比對研究的是多個序列的共性。序列的多重比對可用來搜索基因組序列的功能區(qū)域,也可用于研究一組蛋白質(zhì)之間的進化關(guān)系。第11頁/共141頁發(fā)現(xiàn)同源分子第12頁/共141頁3、基因組序列分析遺傳語言分析——天書基因組結(jié)構(gòu)分析基因識別基因功能注釋基因調(diào)控信息分析基因組比較第13頁/共141頁4、基因表達數(shù)據(jù)的分析與處理基因表達數(shù)據(jù)分析是目前生物信息學研究的熱點和重點目前對基因表達數(shù)據(jù)的處理主要是進行聚類分析,將表達模式相似的基因聚為一類,在此基礎(chǔ)上尋找相關(guān)基因,分析基因的功能

第14頁/共141頁基因芯片第15頁/共141頁二維電泳圖第16頁/共141頁5、蛋白質(zhì)結(jié)構(gòu)預測蛋白質(zhì)的生物功能由蛋白質(zhì)的結(jié)構(gòu)所決定,蛋白質(zhì)結(jié)構(gòu)預測成為了解蛋白質(zhì)功能的重要途徑蛋白質(zhì)結(jié)構(gòu)預測分為:二級結(jié)構(gòu)預測空間結(jié)構(gòu)預測蛋白質(zhì)折疊第17頁/共141頁二級結(jié)構(gòu)預測在一定程度上二級結(jié)構(gòu)的預測可以歸結(jié)為模式識別問題

在二級結(jié)構(gòu)預測方面主要方法有:立體化學方法圖論方法統(tǒng)計方法最鄰近決策方法基于規(guī)則的專家系統(tǒng)方法分子動力學方法人工神經(jīng)網(wǎng)絡(luò)方法預測準確率超過70%的第一個軟件是基于神經(jīng)網(wǎng)絡(luò)的PHD系統(tǒng)第18頁/共141頁空間結(jié)構(gòu)預測在空間結(jié)構(gòu)預測方面,比較成功的理論方法是同源模型法該方法的依據(jù)是:相似序列的蛋白質(zhì)傾向于折疊成相似的三維空間結(jié)構(gòu)運用同源模型方法可以完成所有蛋白質(zhì)10-30%的空間結(jié)構(gòu)預測工作第19頁/共141頁(三)生物信息學研究現(xiàn)狀與展望

1.國外生物信息學研究現(xiàn)狀2.我國生物信息學研究現(xiàn)狀3.我國生物信息學研究目標

實現(xiàn)基因組數(shù)據(jù)、蛋白質(zhì)組和結(jié)構(gòu)基因組數(shù)據(jù)、天然及合成化合物數(shù)據(jù)的計算機處理、分析和可視化,以及生物實驗和生物分子的模擬設(shè)計,解析蛋白質(zhì)三維結(jié)構(gòu)和蛋白質(zhì)組的時空表達關(guān)系等第20頁/共141頁蛋白質(zhì)研究為生物信息學提供了極為豐富的研究數(shù)據(jù),極大地推動了生物信息學的發(fā)展。生物信息學在蛋白質(zhì)的序列分析、結(jié)構(gòu)預測、功能預測、分子設(shè)計等方面具有重要應(yīng)用。二、生物信息學與蛋白質(zhì)

第21頁/共141頁

序列比對是生物信息學的基礎(chǔ),通過比較兩個或多個蛋白質(zhì)序列的相似區(qū)域和保守性位點,確定相互間具有共同功能的序列模式和分子進化關(guān)系,進一步分析其結(jié)構(gòu)和功能。把未知結(jié)構(gòu)的蛋白質(zhì)序列與已知具有三維結(jié)構(gòu)的蛋白質(zhì)序列進行序列比對,有助于進一步了解該未知結(jié)構(gòu)蛋白質(zhì)的空間折疊信息(一)蛋白質(zhì)序列分析第22頁/共141頁(二)蛋白質(zhì)結(jié)構(gòu)預測

蛋白質(zhì)結(jié)構(gòu)預測內(nèi)容二級結(jié)構(gòu)預測三維結(jié)構(gòu)預測蛋白質(zhì)結(jié)構(gòu)預測方法

理論分析方法:是在理論計算的基礎(chǔ)上進行結(jié)構(gòu)預測。統(tǒng)計分析方法:是在對已知結(jié)構(gòu)的蛋白質(zhì)進行統(tǒng)計分析的基礎(chǔ)上,建立由序列到結(jié)構(gòu)的映射模型,對未知結(jié)構(gòu)的蛋白質(zhì)直接從氨基酸序列預測其結(jié)構(gòu)。第23頁/共141頁

是否未知蛋白序列與已知功能的蛋白質(zhì)相似確定跨膜螺旋、卷曲螺旋和前導序列未知序列是否包含保守序列模體查對PROSITE數(shù)據(jù)庫庫查對BLOCKS和PRINTS數(shù)據(jù)庫整理所有肯定的結(jié)果并核對一致性預測蛋白質(zhì)功能蛋白質(zhì)功能預測流程圖(三)蛋白質(zhì)功能預測(引自HPDB蛋白質(zhì)數(shù)據(jù)庫(/prediction/subprediction/functionalflowchat.asp)第24頁/共141頁(四)蛋白質(zhì)分子設(shè)計蛋白質(zhì)分子設(shè)計類型:按照被改造部位的多少可以分為“小改”、“中改”和“大改”三種。

“小改”:即通過對目標蛋白質(zhì)進行定位突變或化學修飾改變其結(jié)構(gòu)和功能。

“中改”:即通過對來源于不同蛋白質(zhì)的結(jié)構(gòu)域進行拼接和組裝,從而較大程度的改變其結(jié)構(gòu)和功能?!按蟾摹保杭赐耆珡念^設(shè)計出一種具有特異結(jié)構(gòu)與功能的全新蛋白質(zhì)。第25頁/共141頁常用的數(shù)據(jù)庫有:核酸序列數(shù)據(jù)庫(NucleotideSequenceDatabases)

RNA序列數(shù)據(jù)庫(RNAsequencedatabases)蛋白質(zhì)序列數(shù)據(jù)庫(Proteinsequencedatabases)結(jié)構(gòu)數(shù)據(jù)庫(StructureDatabases)基因組數(shù)據(jù)庫(GenomicsDatabases(non-vertebrate))代謝酶相關(guān)產(chǎn)物(MetabolicandSignalingPathways)人類和其他脊椎動物基因組(HumanandotherVertebrateGenomes)人類基因和疾?。℉umanGenesandDiseases)芯片和其他基因表達數(shù)據(jù)庫(MicroarrayDataandotherGeneExpressionDatabases);蛋白組資源(ProteomicsResources);其他分子生物學數(shù)據(jù)庫(OtherMolecularBiologyDatabases)

細胞器官數(shù)據(jù)庫(Organelledatabases);植物數(shù)據(jù)庫(Plantdatabases);免疫學數(shù)據(jù)庫(Immunologicaldatabases)第二節(jié)常用數(shù)據(jù)庫第26頁/共141頁生物信息學數(shù)據(jù)庫類型一次數(shù)據(jù)庫:數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù),僅對原始數(shù)據(jù)進行簡單的歸類整理和注釋。如Genbank、EMBL和DDBJ等核酸序列數(shù)據(jù)庫;SWISS-PROT、PIR等蛋白質(zhì)序列數(shù)據(jù)庫;PDB等蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫。二次數(shù)據(jù)庫:針對不同的研究內(nèi)容和需要在一次數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎(chǔ)上對相關(guān)生物學知識和信息進行進一步分析和整理。如人類基因組圖譜庫GDB、轉(zhuǎn)錄因子和結(jié)合位點庫TRANSFAC、蛋白質(zhì)結(jié)構(gòu)家族分類庫SCOP等。第27頁/共141頁圖6-2生物信息學數(shù)據(jù)庫相互關(guān)系

生物信息學數(shù)據(jù)庫相互關(guān)系第28頁/共141頁常用數(shù)據(jù)庫類型名稱網(wǎng)址核酸序列一次數(shù)據(jù)庫Genebank/Genbank/EMBLhttp://www.ebi.ac.uk/embl/DDBJhttp://www.ddbj.nig.ac.jp/Welcome.html.ja/基因組一次數(shù)據(jù)庫GDB/蛋白質(zhì)序列一次數(shù)據(jù)庫SWISS-PROT/sprot/PIR/TrEMBLhttp://www.ebi.ac.uk/trembl/UniProt/index.shtml/MIPShttp://mips.gsf.de/GenPept/pub/genpept/NRL-3D/general/software/packages/nrl_3d/nrl_3d.html/復合數(shù)據(jù)庫NRDBhttp://www.nrdb.co.uk/OWLhttp://www.bioinf.manchester.ac.uk/dbbrowser/OWL/SWISS-PROT+TrEMBLhttp://www.ebi.ac.uk/clustr/

二次數(shù)據(jù)庫PROSITE/prosite/PRINTShttp://www.bioinf.man.ac.uk/dbbrowser/PRINTS/BLOCKS/Pfamhttp://pfam.sanger.ac.uk/IDENTIFY/identify/COGs/COG/ProDomhttp://www.toulouse.inra.fr/prodom.html/第29頁/共141頁結(jié)構(gòu)一次數(shù)據(jù)庫PDB/pdb/home/home.doMMDB/Structure/MMDB/mmdb.shtml/

二次數(shù)據(jù)庫DSSPhttp://www.sander.embl-heidelberg.de/dssp/HSSPhttp://www.sander.embl-heidelberg.de/hssp/FSSPhttp://www.ebi.ac.uk/dali/fssp/PSdb/~geigel/PSdb/PSdb.html/

結(jié)構(gòu)分類SCOPhttp://scop.mrc-lmb.cam.ac.uk/scop/CATH/latest/index.html/PDBsumhttp://www.ebi.ac.uk/thornton-srv/databases/pdbsum/

分類二次數(shù)據(jù)庫ProtoMap蛋白質(zhì)組

蛋白質(zhì)組

氨基酸索引AAindexhttp://www.genome.ad.jp/dbget/蛋白質(zhì)間功能關(guān)系Predictome/蛋白質(zhì)組分析ProteomeAnalysishttp://www.ebi.ac.uk/integr8/EBI-Integr8-HomePage.do/二維凝膠電泳GELBANK/SWISS-2DPAGE/ch2d/酵母蛋白質(zhì)定位YPL.dbhttp://ypl.tugraz.at/模式生物蛋白質(zhì)組BioknowledgeLibrnary/pages/index.php?id=home/第30頁/共141頁

一、核酸數(shù)據(jù)庫

(一)核酸序列數(shù)據(jù)庫目前,國際上主要有Genbank、EMBL、DDBJ三大核酸序列數(shù)據(jù)庫,三大核酸數(shù)據(jù)庫之間每天相互交換數(shù)據(jù),保持數(shù)據(jù)同步更新。第31頁/共141頁1.Genbank

Genbank由美國國立生物技術(shù)信息中心(NCBI)建立維護,其主頁如圖6-3所示。第32頁/共141頁Genbank數(shù)據(jù)直接來源測序工作者提交的序列、測序中心提交的大量EST序列、其它測序數(shù)據(jù)以及與其它數(shù)據(jù)機構(gòu)協(xié)作交換的數(shù)據(jù)。Genbank內(nèi)容所有已知的核酸序列和蛋白質(zhì)序列,還包括對序列的簡要描述、科學命名、物種分類名稱、參考文獻、序列特征表等輔助信息。Genbank對數(shù)據(jù)記錄的處理劃分為細菌類、病毒類、靈長類、嚙齒類,EST數(shù)據(jù)、基因組測序數(shù)據(jù)、大規(guī)?;蚪M序列數(shù)據(jù)等16類。第33頁/共141頁(1)Genbank數(shù)據(jù)檢索

通過NCBI首頁“Search”選項中的“gene”或“Nucleotide”等選項,在檢索窗口輸入檢索詞進行直接檢索;利用NCBI網(wǎng)站的綜合生物信息數(shù)據(jù)庫檢索系統(tǒng)Entrez提供的限制條件(Limits)、索引(Index)、檢索歷史(History)和剪貼板(Clipboard)等功能進行精細檢索圖6-4NCBI-Entrzgene檢索界面第34頁/共141頁第35頁/共141頁Entrez綜合生物信息數(shù)據(jù)庫檢索系統(tǒng)將核酸序列、蛋白質(zhì)序列、基因圖譜、蛋白質(zhì)結(jié)構(gòu)等數(shù)據(jù)庫整合在一起。而且可以通過其生物醫(yī)學文獻摘要數(shù)據(jù)庫(MEDLINE),獲取序列相關(guān)的文獻信息??梢岳肊ntrezcross-database數(shù)據(jù)庫進行綜合信息檢索(圖6-5)。圖6-5NCBI-Entrezcross-database檢索界面第36頁/共141頁美國國家生物技術(shù)信息中心(NCBI)EntrezEntrez,TheLifeSciencesSearchEngine第37頁/共141頁PubMed:

biomedicalliteraturecitationsandabstracts

是一個醫(yī)學文獻網(wǎng)絡(luò)搜索界面

BLAST(BasicLocalAlignmentsearchTool)

是DNA或氨基酸序列比對分析的重要軟件第38頁/共141頁

OMIM:

onlineMendelianInheritanceinMan

人類孟德爾遺傳數(shù)據(jù)庫在線

Books:

onlinebooks第39頁/共141頁

TaxBrowser:Taxonomybrowser

分類瀏覽器Structure:該目錄下最重要的資源是分子模型數(shù)據(jù)庫MMDB及Cn3D生物大分子三維模型查看軟件

第40頁/共141頁EMBL和GenBank數(shù)據(jù)庫識別標志EMBL識別標志GenBank識別標志含義IDLOCUS標識字符串及短描述字XX為閱讀清晰而加的空行ACACCESSION唯一的提取號SVVERSION序列版本號DTDATE建立日期DEDEFINITION簡單的描述KWKEYWORDS關(guān)鍵字OSSOURCE來源生物體OCORGANISM生物體分類譜系RNREFERENCE引文編號RCREMARK引文注釋RP其他注釋RXMEDLINEMEDLINE引文代碼第41頁/共141頁RAAUTHORS引文作者RTTITLE引文題目RLJOURNAL引文出處CCCOMMENT評注DR相關(guān)數(shù)據(jù)庫交叉引用號FHFEATURES特性表頭FT特征表SQEMBL序列開始,后跟長度、字母數(shù)BASECOUNTGeneBank堿基數(shù)ORIGINGeneBank序列開始標志,為空行////序列結(jié)束標志第42頁/共141頁GenBank核酸數(shù)據(jù)庫實例

以人畜共患的病源菌鼠傷寒沙門氏菌(Salmonellatyphimurium

)H1相抗原基因H-1-i為例,簡要說明GenBank核酸數(shù)據(jù)庫的數(shù)據(jù)格式。LOCUSSTYFLGH1I1485bpDNAlinearBCT26-APR-1993DEFINITIONSalmonellatyphimuriumH-1-igeneencodingphase1flagellarfilamentprotein(flagellin),completecds.ACCESSIONM11332VERSIONM11332.1GI:153978KEYWORDSflagellin.SOURCESalmonellatyphimuriumORGANISMSalmonellatyphimuriumBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.REFERENCE1(bases1to1485)AUTHORSJoys,T.M.TITLEThecovalentstructureofthephase-1flagellarfilamentproteinof

Salmonella

typhimuriumanditscomparisonwithotherflagellinsJOURNALJ.Biol.Chem.260(29),15758-15761(1985)PUBMED2999134序列標識簡單描述序列編號版本號關(guān)鍵詞物種來源物種分類引文編號引文作者引文標題引文出處第43頁/共141頁COMMENTOriginalsourcetext:S.typhimuriumSL877DNA.Draftentryandcleancopysequencefor[1]kindlyprovidedbyT.M.Joyce,18-FEB-1986.IndividualSalmonellaserotypesusuallyalternatebetweentheproductionoftwoantigenicformsofflagella,termedphase-1andphase-2,eachspecifiedbyseparatestructuralgenes.Bothendsoftheflagellingeneactintheregulationofflagellinsynthesis.FEATURESLocation/Qualifierssource1..1485/organism="Salmonella

typhimurium"/mol_type="genomicDNA"/db_xref="taxon:602"CDS13..1485/note="phase-1flagellarfilamentprotein"/codon_start=1/transl_table=11/protein_id="AAA27072.1"/db_xref="GI:153979"評注特征表編碼區(qū)第44頁/共141頁/translation="MAQVINTNSLSLLTQNNLNKSQSALGTAIERLSSGLRINSAKDDAAGQAIANRFTANIKGLTQASRNANDGISIAQTTEGALNEINNNLQRVRELAVQSANSTNSQSDLDSIQAEITQRLNEIDRVNGQTQFSGVKVLAQDNTLTIQVGANDGETIDIDLKQINSQTLGLDTLNVQQKYKVSDTAATVTGYADTTIALDNSTFKASATGLGGTDEKIDGDLKFDDTTGKYYAKVTVTGGTGKDGYYEVSVDKTNGEVTLAAVTPATVTTATALSGKMYSANPDSDIAKAALTAAGVTGTASVVKMSYTDNNGKTIDGGLAVKVGDDYYSATQDKDGSISIDTTKYTADNGTSKTALNKLGGADGKTEVVTIDGKTYNASKAAGHDFKAEPELAEQAAKTTENPLQKIDAALAQVDTLRSDLGAVQNRFNSAITNLGNTVNNLSSARSRIEDSDYATEVSNMSRAQILQQAGTSVLAQANQVPQNVLSLLR"ORIGIN98bpupstreamofTaqIsite.1aaggaaaagatcatggcacaagtcattaatacaaacagcctgtcgctgttgacccagaat61aacctgaacaaatcccagtccgctctgggcaccgctatcgagcgtctgtcttccggtctg121cgtatcaacagcgcgaaagacgatgcggcaggtcaggcgattgctaaccgttttaccgcg181aacatcaaaggtctgactcaggcttcccgtaacgctaacgacggtatctccattgcgcag241accactgaaggcgcgctgaacgaaatcaacaacaacctgcagcgtgtgcgtgaactggcg301gttcagtctgctaacagcaccaactcccagtctgacctcgactccatccaggctgaaatc蛋白序列基因序列第45頁/共141頁361acccagcgtctgaacgaaatcgaccgtgtaaatggccagactcagttcagcggcgtgaaa421gtcctggcgcaggacaacaccctgaccatccaggttggtgccaacgacggtgaaactatc481gatatcgatctgaagcagatcaactctcagaccctgggtctggatacgctgaatgtgcaa541caaaaatataaggtcagcgatacggctgcaactgttacaggatatgccgatactacgatt601gctttagacaatagtacttttaaagcctcggctactggtcttggtggtactgacgagaaa661attgatggcgatttaaaatttgatgatacgactggaaaatattacgccaaagttaccgtt721acggggggaactggtaaagatggctattatgaagtttccgttgataagacgaacggtgag781gtgactcttgctgcggtcactcccgctacagtgactactgcgacagcactgagtggaaaa841atgtacagtgcaaatcctgattctgacatagctaaagccgcattgacagcagcaggtgtt901accggcacagcatctgttgttaagatgtcttatactgataataacggtaaaactattgat961ggtggtttagcagttaaggtaggcgatgattactattctgcaactcaagataaagatggt1021tccataagtattgatactacgaaatacactgcagataacggtacatccaaaactgcacta1081aacaaactgggtggcgcagacggcaaaaccgaagtcgttactatcgacggtaaaacctac1141aatgccagcaaagccgctggtcatgatttcaaagcagaaccagagctggcggaacaagcc1201gctaaaaccaccgaaaacccgctgcagaaaattgatgctgctttggcacaggttgacacg1261ttacgttctgacctgggtgcggtacagaaccgtttcaactccgctattaccaacctgggc1321aacaccgtaaacaacctgtcttctgcccgtagccgtatcgaagattccgactacgcgacc1381gaagtctccaacatgtctcgcgcgcagattctgcagcaggccggtacctccgttctggcg1441caggcgaaccaggttccgcaaaacgtcctctctttactgcgttaa//

記錄結(jié)束第46頁/共141頁

少量序列利用BankIt提交,大量序列利用Sequin程序進行提交。NCBI網(wǎng)站提供數(shù)據(jù)查詢、序列相似性搜索等服務(wù),從其FTP服務(wù)器上可免費下載Genbank數(shù)據(jù)。NCBI網(wǎng)址:/BankIt網(wǎng)址:/BankIt/Sequin網(wǎng)址:/Sequin/Genebank網(wǎng)址:/Genbank/Entrezgene網(wǎng)址:/sites/entrez?db=gene

Entrezcross-database網(wǎng)址:/sites/gquery/(2)向Genbank提交序列數(shù)據(jù)第47頁/共141頁EMBL核酸序列數(shù)據(jù)庫創(chuàng)建于1982年,由歐洲生物信息學研究所(EBI)管理維護。使用序列提取系統(tǒng)(SRS)進行查詢檢索,利用基于網(wǎng)絡(luò)的WEBIN工具,或利用Sequin軟件向EMBL核酸序列數(shù)據(jù)庫提交序列。

EMBL網(wǎng)址:

http://www.ebi.ac.uk/embl/SRS的網(wǎng)址:http://srs.ebi.ac.uk/WEBIN網(wǎng)址:http://www.ebi.ac.uk/webin-align/webinalign_help.html/Sequin網(wǎng)址:http://www.ebi.ac.uk/Sequin/2.EMBL核酸序列數(shù)據(jù)庫

第48頁/共141頁DDBJ核酸序列數(shù)據(jù)庫創(chuàng)建于1986年,由日本國家遺傳學研究所負責維護和管理。使用SRS工具進行數(shù)據(jù)檢索和序列分析,利用Sequin軟件向該數(shù)據(jù)庫提交序列。為方便檢索DDBJ主頁可進行日文和英文互換。DDBJ的日文版網(wǎng)址:

http://www.ddbj.nig.ac.jp/index-j.html/DDBJ的英文版網(wǎng)址:

http://www.ddbj.nig.ac.jp/index-e.html/3.DDBJ數(shù)據(jù)庫第49頁/共141頁

(二)基因組數(shù)據(jù)庫GDB

基因組數(shù)據(jù)庫(GDB)創(chuàng)建于1990年,是一個專門匯集人類基因組數(shù)據(jù)的數(shù)據(jù)庫,以對象模型來保存數(shù)據(jù),提供基于網(wǎng)絡(luò)的數(shù)據(jù)對象檢索服務(wù),可搜索各種類型的對象,并以圖形方式觀看基因組圖譜。GDB的網(wǎng)址是:/第50頁/共141頁(一)蛋白質(zhì)序列數(shù)據(jù)庫常用的蛋白質(zhì)序列數(shù)據(jù)庫有SWISS-PROT、PIR、TrEMBL、UniProt、GenPept等,分述如下。

1.SWISS-PROTSWISS-PROT數(shù)據(jù)庫提供蛋白質(zhì)序列查詢及相似蛋白質(zhì)序列搜索等服務(wù)。

二、蛋白質(zhì)數(shù)據(jù)庫第51頁/共141頁圖6-6Swiss-Prot數(shù)據(jù)庫網(wǎng)站主頁第52頁/共141頁SWISS-PROT數(shù)據(jù)庫內(nèi)容

核心數(shù)據(jù):包括蛋白質(zhì)序列、引用文獻、分類信息等。注釋:包括結(jié)構(gòu)域、功能位點、跨膜區(qū)域、二硫鍵位置、翻譯后修飾、與其它蛋白質(zhì)的相似性等。SWISS-PROT將廣泛收集的相關(guān)數(shù)據(jù)進行合并,且與蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫(PDB)等其他數(shù)據(jù)庫交互索引。通過SWISS-PROT數(shù)據(jù)庫可以得到某蛋白質(zhì)的序列,再通過交互引用從PDB數(shù)據(jù)庫得到其結(jié)構(gòu)。SWISS-PROT數(shù)據(jù)由數(shù)據(jù)行排列組成,數(shù)據(jù)格式與EMBL數(shù)據(jù)庫數(shù)據(jù)格式基本相同(見表6-3)。第53頁/共141頁表6-3SWISS-PORT數(shù)據(jù)庫的行識別標志及含義中止符號Terminationline//序列標頭SequenceheaderSQ特征表FeaturetabledataFT關(guān)鍵詞KeywordsKW交叉引用數(shù)據(jù)庫Databasecross-referenceDR評注或注釋CommentsornotesCC引文出處ReferencelocationRL引文標題ReferencetileRT引文作者ReferenceauthorsRA交叉引用Cross-referenceRX相關(guān)內(nèi)容ReferencecommentsRC引文位置ReferencepositionRP引文序號ReferencenumberRN物種分類OrganismclassificationOC來源細胞器OrganelleOG來源物種OrganismspeciesOS基因名稱Genename(s)GN描述DescriptionDE登錄日期或最后更新日期DateDT序列編號AccessionNumberAC標識號IdentificationID含義全稱縮寫第54頁/共141頁

以鼠傷寒沙門氏菌SalmonellatyphimuriumH1-i基因編碼的鞭毛蛋白FLIC_SALTY為例介紹SWISS-PORT數(shù)據(jù)庫的數(shù)據(jù)格式。第55頁/共141頁IDFLIC_SALTYReviewed;495AA.ACP06179;P97160;Q02871;Q56088;DT01-JAN-1988,integratedintoUniProtKB/Swiss-Prot.DT23-JAN-2007,sequenceversion4.DT24-JUL-2007,entryversion69.DEFlagellin(Phase1-Iflagellin).GNName=fliC;Synonyms=flaF,hag;OrderedLocusNames=STM1959;OSSalmonellatyphimurium.OCBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.OXNCBI_TaxID=602;RN[1]RPNUCLEOTIDESEQUENCE[GENOMICDNA].RXMEDLINE=86059460;PubMed=2999134;RAJoysT.M.;RT"Thecovalentstructureofthephase-1flagellarfilamentproteinofSalmonellatyphimuriumanditscomparisonwithotherflagellins.";RLJ.Biol.Chem.260:15758-15761(1985).序列標識序列編號登錄日期描述基因名稱來源物種物種分類物種分類號引文序號引文位置交叉引用引文作者引文標題引文出處SWISS-PROT數(shù)據(jù)庫條目實例第56頁/共141頁RN[9]RPNUCLEOTIDESEQUENCE[GENOMICDNA]OF476-495.RCSTRAIN=LT2/ATCC23564;……CC-!-FUNCTION:Flagellinisthesubunitproteinwhichpolymerizestoformthefilamentsofbacterialflagella.CC-!-MISCELLANEOUS:IndividualSalmonellaserotypesusuallyalternatebetweentheproductionof2antigenicformsofflagella,termedphase1andphase2,eachspecifiedbyseparatestructuralgenes,fliCandfljB.CC-!-SIMILARITY:Belongstothebacterialflagellinfamily.CCDREMBL;M11332;AAA27072.1;-;Genomic_DNA.DREMBL;D13689;BAA02846.1;-;Genomic_DNA.DREMBL;AE008787;AAL20871.1;-;Genomic_DNA.DREMBL;X51740;CAA36029.1;-;Genomic_DNA.DREMBL;J01801;AAA27074.1;-;Genomic_DNA.DRPIR;A24262;A24262.DRPIR;S16121;S16121.DRPDB;1IO1;X-ray;A=54-451.DRPDB;1P95;Model;A=57-451.DRPDB;1UCU;EM;A=1-495.相關(guān)內(nèi)容評注功能其他特性

相似性交叉引用數(shù)據(jù)庫

EMBL核酸序列數(shù)據(jù)庫

PIR蛋白序列數(shù)據(jù)庫

PDB蛋白結(jié)構(gòu)數(shù)據(jù)庫第57頁/共141頁PE1:Evidenceatproteinlevel;KW3D-structure;Completeproteome;Flagellum.FTINIT_MET11Removed(Bysimilarity).FTCHAIN2495Flagellin.FT/FTId=PRO_0000182578.FTCONFLICT127127S->N(inRef.1).FTCONFLICT133133N->S(inRef.1).……FTHELIX332FTTURN3739FTHELIX4498關(guān)鍵詞特征表不同來源數(shù)據(jù)庫的沖突位點二級結(jié)構(gòu)信息第58頁/共141頁SQSEQUENCE495AA;51612MW;4BD7849FA3B936BACRC64;

MAQVINTNSLSLLTQNNLNKSQSALGTAIERLSSGLRINSAKDDAAGQAIANRFTANIKGLTQASRNANDGISIAQTTEGALNEINNNLQRVRELAVQSANSTNSQSDLDSIQAEITQRLNEIDRVSGQTQFNGVKVLAQDNTLTIQVGANDGETIDIDLKQINSQTLGLDTLNVQQKYKVSDTAATVTGYADTTIALDNSTFKASATGLGGTDQKIDGDLKFDDTTGKYYAKVTVTGGTGKDGYYEVSVDKTNGEVTLAGGATSPLTGGLPATATEDVKNVQVANADLTEAKAALTAAGVTGTASVVKMSYTDNNGKTIDGGLAVKVGDDYYSATQNKDGSISINTTKYTADDGTSKTALNKLGGADGKTEVVSIGGKTYAASKAEGHNFKAQPDLAEAAATTTENPLQKIDAALAQVDTLRSDLGAVQNRFNSAITNLGNTVNNLTSARSRIEDSDYATEVSNMSRAQILQQAGTSVLAQANQVPQNVLSLLR//序列標頭蛋白質(zhì)序列記錄結(jié)束第59頁/共141頁2.PIR

PIR的子數(shù)據(jù)庫:蛋白質(zhì)序列數(shù)據(jù)庫(PIR-PSD)蛋白質(zhì)分類數(shù)據(jù)庫(iProClass)非冗余的蛋白質(zhì)參考資料數(shù)據(jù)庫(PIR-NREF)PIR數(shù)據(jù)庫按照數(shù)據(jù)性質(zhì)和注釋層次分四個部分:

PIR1序列已經(jīng)驗證,注釋最為詳盡;

PIR2為尚未確定的冗余序列;

PIR3序列既未檢驗,也未注釋;

PIR4序列來自其它渠道,既未驗證,也無注釋。美國國家生物醫(yī)學研究基金會與國際蛋白質(zhì)信息中心(PIR-International)共同維護。PIR是第一個蛋白質(zhì)分類和功能注釋數(shù)據(jù)庫第60頁/共141頁

PIR作用:提供基于文本的交互式檢索、序列相似性搜索以及結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級檢索。PIR網(wǎng)址:/第61頁/共141頁3.TrEMBL是一個經(jīng)計算機注釋的蛋白質(zhì)數(shù)據(jù)庫,采用SWISS-PROT數(shù)據(jù)庫格式。主要包含從EMBL/Genbank/DDBJ三大核酸數(shù)據(jù)庫中根據(jù)編碼序列翻譯的、尚未集成到SWISS-PROT數(shù)據(jù)庫中的蛋白質(zhì)序列。TrEMBL為SWISS-PROT數(shù)據(jù)庫及時提供補充。

TrEMBL網(wǎng)址:http://www.ebi.ac.uk/trembl/第62頁/共141頁4.UniProtUniProt將SWISS-PROT、PIR、TrEMBL三個數(shù)據(jù)庫合并。通過文本檢索、序列相似檢索以及UniProtFtp網(wǎng)站可獲得蛋白質(zhì)序列。如圖6-7所示圖6-7UniProt網(wǎng)站主頁第63頁/共141頁UniProt包含UniProtKB、UniRef和UniParc3個部分:(1)UniProtKB數(shù)據(jù)庫(UniProtKnowledgebase):蛋白質(zhì)序列、功能、分類、交叉引用等信息存取中心;(2)UniRef數(shù)據(jù)庫(UniProtReferenceClusters):為提高檢索的速度,將緊密相關(guān)的蛋白質(zhì)序列合并到同一條記錄中。目前,根據(jù)序列相似程度可將UniRef數(shù)據(jù)庫分為UniRef100、UniRef90和UniRef503個子庫(3)UniParc(UniProtArchive):儲存大量蛋白質(zhì)研究的歷史信息。第64頁/共141頁

利用UniProt可方便的進行蛋白質(zhì)序列的交互檢索,SalmonellatyphimuriumH-1項鞭毛蛋白P06176的UniProt檢索截圖如下。

UniProt網(wǎng)址:/index.shtml第65頁/共141頁圖6-8核心數(shù)據(jù)第66頁/共141頁圖6-9核心數(shù)據(jù)(續(xù))、引用文獻與評注第67頁/共141頁圖6-10交互檢索與關(guān)鍵詞第68頁/共141頁圖6-11特征表與序列信息第69頁/共141頁5.GenPept數(shù)據(jù)庫GenPept數(shù)據(jù)庫特點由Genebank數(shù)據(jù)庫的核酸序列經(jīng)翻譯后產(chǎn)生。GenPept數(shù)據(jù)量大,隨核酸數(shù)據(jù)庫的更新而更新,但未經(jīng)實驗證實,也未有詳細注釋。

GenPept蛋白質(zhì)數(shù)據(jù)庫實例以鼠傷寒沙門氏菌S.typhimuriumH-1-i基因編碼的鞭毛蛋白為例進行GenPept數(shù)據(jù)庫檢索。第70頁/共141頁GenPept蛋白質(zhì)數(shù)據(jù)庫實例LOCUSAAA27072490aalinearBCT26-APR-1993DEFINITIONphase-1flagellarfilamentprotein.ACCESSIONAAA27072VERSIONAAA27072.1GI:153979DBSOURCElocusSTYFLGH1IaccessionM11332.1KEYWORDS.SOURCESalmonellatyphimuriumORGANISMSalmonellatyphimuriumBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.REFERENCE1(residues1to490)AUTHORSJoys,T.M.TITLEThecovalentstructureofthephase-1flagellarfilamentproteinof

SalmonellatyphimuriumanditscomparisonwithotherflagellinsJOURNALJ.Biol.Chem.260(29),15758-15761(1985)PUBMED2999134COMMENTDraftentryandcleancopysequencefor[1]kindlyprovidedbyT.M.Joyce,18-FEB-1986.IndividualSalmonellaserotypesusuallyalternatebetweentheproductionoftwoantigenicformsofflagella,termedphase-1andphase-2,eachspecifiedbyseparatestructuralgenes.……

序列標識簡單描述序列編號版本號關(guān)鍵詞物種來源物種分類引文編號引文作者引文標題引文出處評注第71頁/共141頁FEATURESLocation/Qualifierssource1..490/organism="Salmonellatyphimurium"/db_xref="taxon:602"

Protein1..490/name="phase-1flagellarfilamentprotein"Region1..490/region_name="PRK08026"/note="flagellin;PRK08026"/db_xref="CDD:76379"Region29..163/region_name="Flagellin_N"/note="BacterialflagellinN-terminus.Flagellinspolymerisetoformbacterialflagella.Thisfamilyincludesflagellinsandhookassociatedprotein3;

pfam00669"/db_xref="CDD:64529"Region191..>256

/region_name="Flagellin_D3"/note="FlagellinD3domain.ThisdomainisfoundinthecentralportionbacterialflagellinFliC.Thedomaincontainsastructuralmotifcalledabeta-foliumfold;

pfam08884"/db_xref="CDD:72304"特征表第72頁/共141頁

Region397..468

/region_name="Flagellin_C"

……/db_xref="CDD:64558"CDS1..490/coded_by="M11332.1:13..1485"/transl_table=11ORIGIN1maqvintnslslltqnnlnksqsalgtaierlssglrinsakddaagqaianrftanikg61ltqasrnandgisiaqttegalneinnnlqrvrelavqsanstnsqsdldsiqaeitqrl121neidrvngqtqfsgvkvlaqdntltiqvgandgetididlkqinsqtlgldtlnvqqkyk181vsdtaatvtgyadttialdnstfkasatglggtdekidgdlkfddttgkyyakvtvtggt241gkdgyyevsvdktngevtlaavtpatvttatalsgkmysanpdsdiakaaltaagvtgta301svvkmsytdnngktidgglavkvgddyysatqdkdgsisidttkytadngtsktalnklg361gadgktevvtidgktynaskaaghdfkaepelaeqaakttenplqkidaalaqvdtlrsd421lgavqnrfnsaitnlgntvnnlssarsriedsdyatevsnmsraqilqqagtsvlaqanq481vpqnvlsllr//蛋白質(zhì)序列記錄結(jié)束GenPept的網(wǎng)址是:/pub/genpept/第73頁/共141頁國際上主要的蛋白質(zhì)序列數(shù)據(jù)庫的種類和特點

名稱維護單位注釋冗余度數(shù)據(jù)量更新PIRNCBI、JIPID、MIPS部分完善較大較大較慢SWISSPROTEBI、SIB完善小不大較慢NRL-3DNCBI完善小小較慢TrEMBLEBI、SIB不完善大大快GenPeptNCBI不完善大大快NRDBEBI一般小大較快OWLHGMP一般小大較慢(引自《生物信息學》,趙國屏等編著,科學出版社,2002)第74頁/共141頁(二)蛋白質(zhì)序列二次數(shù)據(jù)庫

1.PROSITEPROSITE是蛋白質(zhì)家族保守區(qū)域和功能位點數(shù)據(jù)庫,也是第一個蛋白質(zhì)序列二次數(shù)據(jù)庫,收錄蛋白質(zhì)家族中同源序列多重比對所確定的保守性區(qū)域:如酶活性位點、配體結(jié)合位點、金屬離子結(jié)合位點、其它蛋白質(zhì)結(jié)合位點等已知具有重要生物學功能蛋白質(zhì)位點和序列模式。

PROSITE數(shù)據(jù)庫組成包含Prosite(數(shù)據(jù)文件)和PrositeDoc(說明文件)兩個文件數(shù)據(jù)庫。PROSITE數(shù)據(jù)庫主頁如圖6-12所示。第75頁/共141頁圖6-12PROSITE數(shù)據(jù)庫主頁第76頁/共141頁PROSITE數(shù)據(jù)庫作用:可確定一段新蛋白質(zhì)序列中包含的功能位點以及其歸屬的蛋白質(zhì)家族。PROSITE的網(wǎng)址:http://www.expasy.ch/prosite/或/prosite/PROSITE的中國鏡像網(wǎng)址是:/prosite/第77頁/共141頁2.PRINTSPRINTS蛋白質(zhì)指紋圖譜數(shù)據(jù)庫將多個保守的序列模式作為識別蛋白質(zhì)家族的特征,與PROSITE數(shù)據(jù)庫的單個序列模式相比,PRINTS具有更好的識別率。PRINTS網(wǎng)址:http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/第78頁/共141頁3.BLOCKS

序列模塊(block):是通過序列比對得到的若干蛋白質(zhì)序列中具有較高相似性的序列片段。

BLOCKS由通過自動檢測PROSITE數(shù)據(jù)庫和PRINTS蛋白質(zhì)指紋圖譜數(shù)據(jù)庫中蛋白質(zhì)家族高度保守區(qū)域產(chǎn)生的序列模塊組成。

BLOCKS的網(wǎng)址:/第79頁/共141頁(三)蛋白結(jié)構(gòu)數(shù)據(jù)庫

1.PDBPDB(ProteinDataBank)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫是國際上最完整的蛋白質(zhì)、核酸、糖類、蛋白質(zhì)-核酸復合物及病毒等生物大分子三維結(jié)構(gòu)數(shù)據(jù)庫。PDB主頁,如圖6-13所示。其數(shù)據(jù)庫增長曲線,如圖6-14所示。第80頁/共141頁圖6-13PDB數(shù)據(jù)庫主頁第81頁/共141頁圖6-14結(jié)構(gòu)數(shù)據(jù)庫增長曲線截圖紅色圖:總結(jié)構(gòu)數(shù)藍色圖:新增結(jié)構(gòu)數(shù)(引自/pdb/statistics/contentGrowthChart.do?content=molType-protein&seqid=100)第82頁/共141頁PDB數(shù)據(jù)庫作用提供序列詳細信息、原子坐標、三維結(jié)構(gòu)、交叉檢索等與結(jié)構(gòu)相關(guān)的信息。

PDB數(shù)據(jù)庫實例以鼠傷寒沙門氏菌SalmonellatyphimuriumH1-i鞭毛蛋白(P06176)F41片段晶體結(jié)構(gòu)為例,圖示PDB數(shù)據(jù)庫格式(框6-4)和網(wǎng)頁格式(圖6-15)。三維結(jié)構(gòu)的動態(tài)展示(如圖6-16所示)。

PDB的地址:

/pdb/home/home.do第83頁/共141頁框6-4PDB格式實例HEADERSTRUCTURALPROTEIN28-DEC-001IO1TITLECRYSTALSTRUCTUREOFF41FRAGMENTOFFLAGELLINCOMPNDMOL_ID:1;COMPND2MOLECULE:PHASE1FLAGELLIN;……

SOURCEMOL_ID:1;SOURCE2ORGANISM_SCIENTIFIC:SALMONELLATYPHIMURIUM;……

KEYWDSBETA-FOLIUM,FLAGELLINEXPDTAX-RAYDIFFRACTIONAUTHORF.A.SAMATEY,K.IMADA,S.NAGASHIMA,F.VONDERVISZ,T.KUMASAKA,AUTHOR2M.YAMAMOTO,K.NAMBAREVDAT215-APR-031IO11SOURCEDBREFSEQADVREVDAT104-APR-011IO10JRNLAUTHF.A.SAMATEY,K.IMADA,S.NAGASHIMA,F.VONDERVISZ,JRNLAUTH2T.KUMASAKA,M.YAMAMOTO,K.NAMBA……

REMARK1REMARK2REMARK2RESOLUTION.2.00ANGSTROMS.

……

標頭題目化合物名稱來源關(guān)鍵詞作者發(fā)布日期相關(guān)文獻注釋第84頁/共141頁SEQADV1IO1ALAA426UNPP06179GLY426CONFLICTSEQRES1A398PHETHRALAASNILELYSGLYLEUTHRGLNALASERARGSEQRES2A398ASNALAASNASPGLYILESERILEALAGLNTHRTHRGLU……

FORMUL2HOH*354(H2O)HELIX11ILEA57ALAA99143HELIX22SERA104THRA129126……SHEET1A2ASNA141GLNA1460SHEET2A2THRA154LEUA159-1OILEA155NILEA145……

CRYST151.75036.440118.35090.0091.1590.00P12112ORIGX11.0000000.0000000.0000000.00000ORIGX20.0000001.0000000.0000000.00000ORIGX30.0000000.0000001.0000000.00000SCALE10.0193240.0000000.0003880.00000SCALE20.0000000.0274420.0000000.00000SCALE30.0000000.0000000.0084510.00000ATOM1NASN

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論