生物信息學(xué)資源檢索_第1頁
生物信息學(xué)資源檢索_第2頁
生物信息學(xué)資源檢索_第3頁
生物信息學(xué)資源檢索_第4頁
生物信息學(xué)資源檢索_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

生物信息學(xué)資源檢索演示文稿目前一頁\總數(shù)五十二頁\編于十九點(diǎn)生物信息學(xué)資源檢索ppt課件目前二頁\總數(shù)五十二頁\編于十九點(diǎn)3生物信息學(xué)數(shù)據(jù)庫概述一生物信息學(xué)數(shù)據(jù)庫的類型二生物信息數(shù)據(jù)收集與存貯三生物信息學(xué)數(shù)據(jù)庫的查找3目前三頁\總數(shù)五十二頁\編于十九點(diǎn)4一、生物信息學(xué)數(shù)據(jù)庫的類型文獻(xiàn)數(shù)據(jù)庫

突變數(shù)據(jù)庫

圖譜數(shù)據(jù)庫

結(jié)構(gòu)數(shù)據(jù)庫

序列數(shù)據(jù)庫

類型按收錄信息內(nèi)容分

4目前四頁\總數(shù)五十二頁\編于十九點(diǎn)5二、生物信息數(shù)據(jù)收集與存貯(一)生物信息數(shù)據(jù)的收集生物信息數(shù)據(jù)收集與存貯

(二)生物信息數(shù)據(jù)的存貯5目前五頁\總數(shù)五十二頁\編于十九點(diǎn)6(一)生物信息數(shù)據(jù)的收集數(shù)據(jù)庫與數(shù)據(jù)庫合作數(shù)據(jù)庫與測序中心合作數(shù)據(jù)庫與期刊合作

建庫的初期4.?dāng)?shù)據(jù)交換

3.成批發(fā)送

2.直接發(fā)送

1.人工收集

6目前六頁\總數(shù)五十二頁\編于十九點(diǎn)7(二)生物信息數(shù)據(jù)的存貯1.記錄格式主要有:EMBL格式、GenBank格式存貯格式2.序列格式:FASTA格式,又稱Pearson格式

7目前七頁\總數(shù)五十二頁\編于十九點(diǎn)三、生物信息學(xué)數(shù)據(jù)庫的查找通過搜索引擎查找通過專門的生物信息學(xué)數(shù)據(jù)庫目錄查詢從2000年開始,《NucleicAcidsResearch》設(shè)立了一個(gè)數(shù)據(jù)庫目錄()。通過生物信息學(xué)中心資源導(dǎo)航查詢一些著名的生物信息學(xué)中心不僅自己建立和維護(hù)大量的生物信息數(shù)據(jù)庫,而且一般在網(wǎng)上提供資源導(dǎo)航。

8目前八頁\總數(shù)五十二頁\編于十九點(diǎn)9核酸序列數(shù)據(jù)庫GenBank

:由美國國家生物技術(shù)信息中心(NCBI)管理和維護(hù)大型、綜合性的公共核酸序列數(shù)據(jù)庫,包括所有已知的核酸序列和蛋白質(zhì)序列,以及與它們相關(guān)的文獻(xiàn)和生物學(xué)注釋。網(wǎng)址:9目前九頁\總數(shù)五十二頁\編于十九點(diǎn)10國際核酸序列數(shù)據(jù)庫協(xié)作體INSDC

DDBJ

EMBL

GenBank

10目前十頁\總數(shù)五十二頁\編于十九點(diǎn)GenBank檢索Entrez是NCBI生物信息學(xué)數(shù)據(jù)庫集成檢索系統(tǒng),可以檢索以下生物信息學(xué)數(shù)據(jù)庫。11目前十一頁\總數(shù)五十二頁\編于十九點(diǎn)例如,查找H1N1流感病毒(H1N1FluVirus)的核酸序列。其檢索步驟是:12目前十二頁\總數(shù)五十二頁\編于十九點(diǎn)(1)進(jìn)入Entrez主頁(),在提問框輸入H1N1FluVirus。13目前十三頁\總數(shù)五十二頁\編于十九點(diǎn)

(2)點(diǎn)擊“GO”,得到各個(gè)數(shù)據(jù)庫的檢索結(jié)果。14目前十四頁\總數(shù)五十二頁\編于十九點(diǎn)(3)點(diǎn)擊“Nucleotide:Coresubsetofnucleotidesequencerecords”,得到GenBank核酸序列數(shù)據(jù)庫中的4801條記錄簡要格式(Summary)。15目前十五頁\總數(shù)五十二頁\編于十九點(diǎn)(4)點(diǎn)擊記錄的標(biāo)題,即可獲取該記錄的詳細(xì)信息。16目前十六頁\總數(shù)五十二頁\編于十九點(diǎn)17蛋白質(zhì)數(shù)據(jù)庫一蛋白質(zhì)序列數(shù)據(jù)庫二蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫

三蛋白質(zhì)功能數(shù)據(jù)庫17目前十七頁\總數(shù)五十二頁\編于十九點(diǎn)18一、蛋白質(zhì)序列數(shù)據(jù)庫(三)TrEMBL

(四)GenPept

(二)SWISS-PROT

(一)PIR

(五)UniProt

(六)OWL

18目前十八頁\總數(shù)五十二頁\編于十九點(diǎn)(一)PIR創(chuàng)建于1984年。1988年,美國NBRF、日本國際蛋白質(zhì)信息數(shù)據(jù)庫(JapanInternationalProteinInformationDatabase,JIPID)與德國的慕尼黑蛋白質(zhì)序列信息中心(MunichInformationCenterforProteinSequences,MIPS)合作成立國際蛋白質(zhì)序列信息中心(PIR-International)。第75.03版的PIR數(shù)據(jù)庫按照數(shù)據(jù)的性質(zhì)和注釋詳略分成四個(gè)子庫:PIR1、PIR2、PIR3和PIR4。PIR1中的序列已經(jīng)驗(yàn)證,注釋最為詳盡;PIR2中包含尚未確定的冗余序列;PIR3中的序列尚未加檢驗(yàn),也未加注釋;PIR4包括其他渠道獲得的序列,既未驗(yàn)證,也無注釋。網(wǎng)址:19目前十九頁\總數(shù)五十二頁\編于十九點(diǎn)PIR主頁20目前二十頁\總數(shù)五十二頁\編于十九點(diǎn)(二)SWISS-PROT創(chuàng)建于1986年由瑞士生物信息學(xué)研究所(SwissInstituteofBioinformatics,SIB)和歐洲生物信息研究所(EBI)共同維護(hù)和管理。1994年,SIB創(chuàng)建蛋白質(zhì)專家分析系統(tǒng)(ExpertProteinAnalysisSystem,ExPASy)(http://www.expasy.Ch),除了開發(fā)、維護(hù)和管理SWISS-PROT數(shù)據(jù)庫外,還提供蛋白質(zhì)序列、結(jié)構(gòu)、功能和蛋白質(zhì)2D圖譜等蛋白質(zhì)信息資源到2009年10月,SWISS-PROT(57.11版)收錄了512994條序列,包含180531504個(gè)氨基酸。網(wǎng)址:/sprot/

21目前二十一頁\總數(shù)五十二頁\編于十九點(diǎn)(三)TrEMBL創(chuàng)建于1996年,意即“TranslationofEMBL”,是計(jì)算機(jī)翻譯并注釋的蛋白質(zhì)序列數(shù)據(jù)庫,收錄的序列是從EMBL中的cDNA序列翻譯得到的。記錄采用SWISS-PROT數(shù)據(jù)庫格式。TrEMBL分為兩個(gè)部分:SP-TrEMBL和REM-TrEMBL。SP-TrEMBL的條目已經(jīng)專家分類并且給予SWISS-PROT存取號,但尚未通過人工審查,最終將收入SWISS-PROT。REM-TrEMBL包含其他剩余序列,主要是免疫球蛋白、T細(xì)胞受體、少于8個(gè)氨基酸堿基的多肽、人工合成序列、專利序列等。22目前二十二頁\總數(shù)五十二頁\編于十九點(diǎn)(四)GenPept由GenBank中的cDNA序列翻譯得到的蛋白質(zhì)序列數(shù)據(jù)庫。網(wǎng)址:)23目前二十三頁\總數(shù)五十二頁\編于十九點(diǎn)(五)UniProt將PIR、SWISS-PROT和TrEMBL3個(gè)蛋白質(zhì)數(shù)據(jù)庫統(tǒng)一起來組建而成,包含3個(gè)部分:(1)UniProtKnowledgebase(UniProtKB),這是蛋白質(zhì)序列、功能、分類、交叉引用等蛋白質(zhì)知識庫,記錄經(jīng)過人工篩選和注釋;(2)UniRef(UniProtNon-redundantReference)數(shù)據(jù)庫,將密切相關(guān)的蛋白質(zhì)序列組合到一條記錄中,以便提高搜索速度;目前,根據(jù)序列相似程度形成3個(gè)子庫,即UniRef100、UniRef90和UniRef50;(3)UniParc(UniProtArchive),是UniProt存檔庫,收錄所有蛋白質(zhì)序列。用戶可以通過文本查詢數(shù)據(jù)庫,可以利用BLAST程序搜索數(shù)據(jù)庫,也可以直接通過FTP下載數(shù)據(jù)。網(wǎng)址:24目前二十四頁\總數(shù)五十二頁\編于十九點(diǎn)(六)OWL1994年由英國里茲(Leeds)大學(xué)和Warrington的Daresbury國家實(shí)驗(yàn)室合作創(chuàng)建并維護(hù)的一個(gè)復(fù)合型數(shù)據(jù)庫。數(shù)據(jù)來源于SWISS-PROT、PIR、GenPept、SWISS-PROT、PDB、NRL3D等數(shù)據(jù)庫,去重后整合而成的非冗余蛋白質(zhì)序列數(shù)據(jù)庫。網(wǎng)址:

25目前二十五頁\總數(shù)五十二頁\編于十九點(diǎn)小結(jié):①SWISSPROT的序列經(jīng)過嚴(yán)格審核,注釋完善,但數(shù)量仍較少。②PIR數(shù)據(jù)量較大,但包含未經(jīng)驗(yàn)證的序列,注釋也不完善。③TrEMBL和GenPept的數(shù)據(jù)量最大,且隨核酸序列數(shù)據(jù)庫的更新而更新,但是由于TrEMBL和GenPept均是由核酸序列經(jīng)過計(jì)算機(jī)程序翻譯生成的,這兩個(gè)數(shù)據(jù)庫中的序列錯(cuò)誤率較大,并存在較多的冗余序列。④OWL中的序列雖具有較好的代表性,但采用某些標(biāo)準(zhǔn)取舍序列,導(dǎo)致某些數(shù)據(jù)不完整。⑤UniProt中的序列具有較好的代表性,數(shù)據(jù)較完整。26目前二十六頁\總數(shù)五十二頁\編于十九點(diǎn)27二、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(三)DSSP

(四)HSSP

(二)MMDB(一)PDB

(五)SCOP

(六)CATH

27目前二十七頁\總數(shù)五十二頁\編于十九點(diǎn)(一)PDB創(chuàng)建于1971年,是國際上最著名、最完整的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫。最先由美國Brookhaven國家實(shí)驗(yàn)室負(fù)責(zé)維護(hù)和管理,從1998年開始,由結(jié)構(gòu)生物信息學(xué)合作研究協(xié)會(RCSB)負(fù)責(zé)管理。到2009年12月統(tǒng)計(jì),PDB數(shù)據(jù)庫已經(jīng)收錄了利用X線衍射、NMR、電子顯微鏡實(shí)驗(yàn)數(shù)據(jù)或理論計(jì)算得出的蛋白質(zhì)、核酸、蛋白質(zhì)/核酸復(fù)合物等結(jié)構(gòu)數(shù)據(jù)61808條,而且數(shù)據(jù)增長速度相當(dāng)快。28目前二十八頁\總數(shù)五十二頁\編于十九點(diǎn)PDB數(shù)據(jù)庫以文本文件格式存放數(shù)據(jù),每條記錄即是一個(gè)獨(dú)立的文件,包括物種來源、化合物名稱、原子坐標(biāo)、結(jié)構(gòu)提交者以及有關(guān)文獻(xiàn)等基本注釋信息。此外,還包括分辨率、結(jié)構(gòu)因子,溫度系數(shù)、主鏈數(shù)目、配體分子式、金屬離子、二級結(jié)構(gòu)信息、二硫鍵位置等和結(jié)構(gòu)有關(guān)的數(shù)據(jù)。網(wǎng)址:

29目前二十九頁\總數(shù)五十二頁\編于十九點(diǎn)PDB主頁30目前三十頁\總數(shù)五十二頁\編于十九點(diǎn)31目前三十一頁\總數(shù)五十二頁\編于十九點(diǎn)32三、蛋白質(zhì)功能數(shù)據(jù)庫(三)STRING(二)DIP

(一)BOND

(四)KEGG

32目前三十二頁\總數(shù)五十二頁\編于十九點(diǎn)(一)BONDBOND是生物分子網(wǎng)絡(luò)數(shù)據(jù)庫,創(chuàng)建于2005年,由UnleashedInformatics公司管理和維護(hù)。主要收錄生物分子及其蛋白質(zhì)序列、結(jié)構(gòu)和相互作用等數(shù)據(jù),其中生物分子包括蛋白質(zhì)、DNA、RNA、配基、復(fù)合體、基因、光子(photon)等。BOND集成了多個(gè)重要數(shù)據(jù)庫,如BIND(生物分子相互作用網(wǎng)絡(luò)數(shù)據(jù)庫)、SMID(小分子相互作用數(shù)據(jù)庫)、Genbank、GO(基因本體)、OMIM、conserveddomains(保守功能域)、交叉參考數(shù)據(jù)庫、完整基因組等。網(wǎng)址:

33目前三十三頁\總數(shù)五十二頁\編于十九點(diǎn)BOND主頁34目前三十四頁\總數(shù)五十二頁\編于十九點(diǎn)(二)DIPDIP專門存放實(shí)驗(yàn)確定的蛋白質(zhì)之間相互作用的數(shù)據(jù),既包括經(jīng)典實(shí)驗(yàn)手段確定的蛋白質(zhì)相互作用,也包括高通量實(shí)驗(yàn)手段確定的蛋白質(zhì)相互作用數(shù)據(jù)。數(shù)據(jù)要經(jīng)過人工審核和采用計(jì)算方法自動(dòng)驗(yàn)證后加入數(shù)據(jù)庫。數(shù)據(jù)的自動(dòng)驗(yàn)證有3種指標(biāo),即EPRIndex、PVMScore和DPVScore。在目前缺乏蛋白質(zhì)相互作用數(shù)據(jù)金標(biāo)準(zhǔn)的現(xiàn)實(shí)情況下,DIP為采用計(jì)算的方法自動(dòng)驗(yàn)證高通量技術(shù)產(chǎn)生的蛋白質(zhì)相互作用數(shù)據(jù)做了開拓性的工作。DIP還利用XML技術(shù)專門開發(fā)了一種用來存放和交換蛋白質(zhì)相互作用數(shù)據(jù)的xin格式。網(wǎng)址:35目前三十五頁\總數(shù)五十二頁\編于十九點(diǎn)(三)STRINGSTRING不僅存貯實(shí)驗(yàn)確定的蛋白質(zhì)相互作用數(shù)據(jù),而且還存貯預(yù)測的蛋白質(zhì)相互作用數(shù)據(jù),并對各種預(yù)測方法的準(zhǔn)確性給出了相應(yīng)的權(quán)重,對于采用經(jīng)典實(shí)驗(yàn)方法研究蛋白質(zhì)的功能、生物學(xué)意義具有非常重要的意義。數(shù)據(jù)來源有4種,一是高通量實(shí)驗(yàn)技術(shù)產(chǎn)生的蛋白質(zhì)相互作用數(shù)據(jù),二是由保守的共表達(dá)數(shù)據(jù)推導(dǎo)出的蛋白質(zhì)功能聯(lián)系,三是文獻(xiàn)搜索得到的蛋白質(zhì)相互作用數(shù)據(jù),四是采用預(yù)測蛋白質(zhì)相互作用的方法,根據(jù)基因組中基因的上下文關(guān)系(genomiccontext)預(yù)測得到的蛋白質(zhì)相互作用數(shù)據(jù)。目前STRING數(shù)據(jù)庫已經(jīng)包括179個(gè)物種中的736429個(gè)蛋白,覆蓋率相當(dāng)高。網(wǎng)址:36目前三十六頁\總數(shù)五十二頁\編于十九點(diǎn)(四)KEGG京都基因和基因組百科全書(KEGG)是系統(tǒng)分析基因功能,聯(lián)系基因組信息和功能信息的知識庫?;蚪M信息存貯在GENES數(shù)據(jù)庫里,包括完整和部分測序的基因組序列;功能信息存貯在PATHWAY數(shù)據(jù)庫里,包括圖解的細(xì)胞生化過程如代謝、膜轉(zhuǎn)運(yùn)、信號傳遞、細(xì)胞周期,還包括同系保守的子通路等信息;KEGG的另一個(gè)數(shù)據(jù)庫是LIGAND,包含關(guān)于化學(xué)物質(zhì)、酶分子、酶反應(yīng)等信息。KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖譜和操作表達(dá)圖譜,以及其它序列比較、圖形比較和通路計(jì)算的工具,可以免費(fèi)獲取。網(wǎng)址:

37目前三十七頁\總數(shù)五十二頁\編于十九點(diǎn)KEGG主頁38目前三十八頁\總數(shù)五十二頁\編于十九點(diǎn)39目前三十九頁\總數(shù)五十二頁\編于十九點(diǎn)40基因組數(shù)據(jù)庫一EntrezGonomes

二Ensembl

三UCSCGenomeBrowser

四其他基因組數(shù)據(jù)庫

40目前四十頁\總數(shù)五十二頁\編于十九點(diǎn)一、EntrezGonomesNCBI提供的,是世界上最大、最完整的多物種的基因組資源。目前已收錄5937個(gè)物種的8500多條記錄,按生物體分成古細(xì)菌(Archaea)、細(xì)菌(Bacteria)、真核生物(Eukaryotae)、病毒(Viruses)、類病毒(Viroids)和質(zhì)粒(Plasmids)六大類。提供了各種基因組圖譜,包括完整的染色體、序列圖譜、遺傳圖譜、物理圖譜和連續(xù)子(contigs)圖譜。可以通過Entrez進(jìn)行關(guān)鍵詞搜索,也可以通過MapViewer進(jìn)行瀏覽、檢索及編輯。網(wǎng)址:41目前四十一頁\總數(shù)五十二頁\編于十九點(diǎn)EntrezGonomes主頁42目前四十二頁\總數(shù)五十二頁\編于十九點(diǎn)(一)MapViewerMapViewer是一種從眾多資源中匯集圖譜和序列信息的圖譜瀏覽器。它既允許用戶瀏覽和檢索某有機(jī)體完整基因組信息,又允許用戶在序列水平,通過瀏覽單個(gè)染色體圖譜或某染色體上的特定區(qū)域,探查完整基因組信息。對于每一個(gè)基因組,MapViewer從4個(gè)層次揭示其信息:生物體主頁(HomePage)基因組瀏覽(GenomeView)圖譜瀏覽(MapView)序列瀏覽(SequenceView)43目前四十三頁\總數(shù)五十二頁\編于十九點(diǎn)(二)MapViewer的使用MapViewer主頁44目前四十四頁\總數(shù)五十二頁\編于十九點(diǎn)檢索結(jié)果45目前四十五頁\總數(shù)五十二頁\編于十九點(diǎn)46鼠基因組數(shù)據(jù)庫人類基因組數(shù)據(jù)庫線蟲基因組數(shù)據(jù)庫四、其他基因組數(shù)據(jù)庫(一)GDB(二)MDB(三)ACEDB46目前四十六頁\總數(shù)五十二頁\編于十九點(diǎn)47疾病基因數(shù)據(jù)庫一OMIM

三GeneExpressionOmnibus四突

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論