基因組數(shù)據(jù)庫(kù)課件_第1頁(yè)
基因組數(shù)據(jù)庫(kù)課件_第2頁(yè)
基因組數(shù)據(jù)庫(kù)課件_第3頁(yè)
基因組數(shù)據(jù)庫(kù)課件_第4頁(yè)
基因組數(shù)據(jù)庫(kù)課件_第5頁(yè)
已閱讀5頁(yè),還剩90頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、網(wǎng)絡(luò)生物醫(yī)學(xué)資源概論生物分子數(shù)據(jù)庫(kù)基因組數(shù)據(jù)庫(kù)蛋白質(zhì)序列、生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)蛋白質(zhì)二級(jí)結(jié)構(gòu)、互作數(shù)據(jù)庫(kù)基因產(chǎn)物注釋數(shù)據(jù)庫(kù)網(wǎng)絡(luò)生物醫(yī)學(xué)資源概論網(wǎng)絡(luò)生物醫(yī)學(xué)資源所包含的主要內(nèi)容網(wǎng)上生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)網(wǎng)上生物醫(yī)學(xué)數(shù)據(jù)庫(kù)(分子生物學(xué)數(shù)據(jù)庫(kù))網(wǎng)上生物醫(yī)學(xué)文獻(xiàn)類型1文摘型數(shù)據(jù)庫(kù)2全文型數(shù)據(jù)庫(kù)3事實(shí)型數(shù)據(jù)庫(kù)4生物醫(yī)學(xué)專業(yè)網(wǎng)站5生物醫(yī)學(xué)整合知識(shí)平臺(tái)文摘型生物醫(yī)學(xué)數(shù)據(jù)庫(kù)1.Pubmed數(shù)據(jù)庫(kù)2.TOXNET數(shù)據(jù)庫(kù)3.EMBase荷蘭醫(yī)學(xué)文摘?如是對(duì)引起胃癌基因感興趣的讀者,想從事這方面的研究,請(qǐng)問如何查找這方面的信息。能夠?qū)@方面的研究動(dòng)態(tài)有一定的了解生物分子數(shù)據(jù)庫(kù)生物分子數(shù)據(jù)庫(kù)應(yīng)滿足5個(gè)方面的主要需求(1)

2、時(shí)間性(2)注釋 (3)支撐數(shù)據(jù) (4)數(shù)據(jù)質(zhì)量 (5)集成性生物分子數(shù)據(jù)庫(kù) 一級(jí)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)直接來源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過簡(jiǎn)單的歸類整理和注釋 二級(jí)數(shù)據(jù)庫(kù)對(duì)原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果,是在一級(jí)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定的應(yīng)用目標(biāo)而建立的 。國(guó)際上權(quán)威的核酸序列數(shù)據(jù)庫(kù) (1)歐洲分子生物學(xué)實(shí)驗(yàn)室的EMBL http:/www.embl-heidelberg.de (2)美國(guó)生物技術(shù)信息中心的GenBank /Web/Genbank/index.html (3)日本遺傳研究所的DDBJ http:/www.ddbj.nig.ac.jp/“ID”為序列的標(biāo)識(shí)

3、符行,包括登錄號(hào)、類型,分子的長(zhǎng)度 “AC”為登錄號(hào)行;“XX”為分隔符號(hào)行; “DT”為創(chuàng)建和更新日期行 “DE”為序列描述行;“KW”為關(guān)鍵字行;“OG”行描述細(xì)胞組織;“OS”行描述生物體種屬;“OC”行描述生物體分類信息;“RN”描述參考文獻(xiàn)的編號(hào);“RP”描述參考文獻(xiàn)的頁(yè)碼;“RA”描述參考文獻(xiàn)的作者;“RT”描述參考文獻(xiàn)的題目;“RL”描述參考文獻(xiàn)的出處;“RC”描述參考文獻(xiàn)的注解;“RX”、“DR”行描述交叉引用信息;“FH” 為特征開始符號(hào);“FT”為特征表行 (1)Feature Key,它是描述域生物功能的關(guān)鍵字; (2)Location,指明特征在序列中的特定位置; (3

4、)Qualifiers,描述關(guān)于一個(gè)特征的輔助信息;文件體由序列本身所組成,由“SQ”標(biāo)志的行開始。序列結(jié)束的標(biāo)記是“/”。EMBL核酸數(shù)據(jù)庫(kù)中的每一個(gè)序列數(shù)據(jù)被賦予一個(gè)登錄號(hào),它是一個(gè)永久性的唯一標(biāo)識(shí) EMBL的序列數(shù)據(jù)用外在的ASCII文本文件來表示,而每一個(gè)文件分為文件頭和文件體兩大部分 文件頭由一系列的信息描述行所組成,文件頭實(shí)際上對(duì)應(yīng)于一個(gè)序列的注釋(annotation)核酸數(shù)據(jù)庫(kù)提供一些與序列相關(guān)的檢索操作(基于3W服務(wù)器)(1)序列查詢最簡(jiǎn)單的查詢就是通過序列的登錄號(hào)(如X58929)或序列名稱(如SCARGC)直接查詢。如果找到所查詢的序列,則服務(wù)器將查詢結(jié)果以HTML文件返

5、回給用戶如果數(shù)據(jù)庫(kù)中該序列有到MEDLINE的交叉索引,則系統(tǒng)同時(shí)返回與包含參考文獻(xiàn)摘要等信息的MEDLINE鏈接如果該序列有到其它數(shù)據(jù)庫(kù)的交叉索引,也返回相應(yīng)的鏈接(2)核酸同源性搜索 3W服務(wù)器支持用戶使用FastA程序進(jìn)行核酸同源搜索。FastA根據(jù)給定的目標(biāo)序列在數(shù)據(jù)庫(kù)中搜索其同源序列。生物基因組數(shù)據(jù)庫(kù)基因組數(shù)據(jù)庫(kù)(GDB)鼠基因組數(shù)據(jù)庫(kù) MGD(/)酵母基因組數(shù)據(jù)庫(kù) SGD(/Saccharomyces/)蛋白質(zhì)序列數(shù)據(jù)庫(kù)1、PIR(Protein Information Resource)2、SWISS-PROT3、TrEMBL4、蛋白質(zhì)數(shù)據(jù)倉(cāng)庫(kù)UniProtUniProt包含3個(gè)

6、部分:(1)UniProt Knowledgebase(UniProt) 蛋白質(zhì)序列、功能、分類、交叉引用等信息存取中心(2)UniProt Non-redundant Reference(UniRef)數(shù)據(jù)庫(kù) 將密切相關(guān)的蛋白質(zhì)序列組合到一條記錄中 以便提高搜索速度;(3)UniProt Archive(UniParc) 資源庫(kù),記錄所有蛋白質(zhì)序列的歷史。生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)1、PDB(Protein Data Bank)PDB中含有通過實(shí)驗(yàn)(X射線晶體衍射,核磁共振NMR)測(cè)定的生物大分子的三維結(jié)構(gòu)蛋白質(zhì)核酸糖類其它復(fù)合物 其它生物分子數(shù)據(jù)庫(kù)核酸序列變化單堿基多態(tài)性SNPs(Single

7、nucleotide polymorphisms)SNPs對(duì)人類遺傳學(xué)研究和醫(yī)學(xué)應(yīng)用具有重要的意義無論對(duì)于人類種群遺傳學(xué)的研究,還是對(duì)疾病性狀分析或個(gè)體化醫(yī)療,都需要深入地研究SNPs。 1、單堿基多態(tài)性數(shù)據(jù)庫(kù)dbSNP基因組數(shù)據(jù)庫(kù)隨著核酸測(cè)序技術(shù)的迅速發(fā)展,人類已經(jīng)得到一部分生物的全基因組數(shù)據(jù),如人、小鼠、大鼠等。這些數(shù)據(jù)對(duì)于我們認(rèn)識(shí)基因組信息組織的奧秘、了解生物體的生長(zhǎng)發(fā)育的規(guī)律是非常重要的。國(guó)際上有專門的組織收集和管理這些數(shù)據(jù)。NCBI基因組數(shù)據(jù)庫(kù)Entrez Gonomes (/entrez/query.fcgi?db=Genome)所收集的基因組數(shù)據(jù)量非常大,基因組數(shù)據(jù)庫(kù)(GDB)

8、GDB 人類基因組學(xué)數(shù)據(jù)庫(kù)資源名稱:The Genome Database交替名稱:基因組數(shù)據(jù)庫(kù)創(chuàng)建機(jī)構(gòu):美國(guó)馬里蘭州巴爾的摩市約翰霍普金斯大學(xué)基因組數(shù)據(jù)庫(kù)(GDB)為人類基因組計(jì)劃(HGP)保存和處理基因組圖譜數(shù)據(jù)。GDB的目標(biāo)是構(gòu)建關(guān)于人類基因組的百科全書,除了構(gòu)建基因組圖譜之外,還開發(fā)了描述序列水平的基因組內(nèi)容的方法,包括序列變異和其它對(duì)功能和表型的描述。 目前GDB中有:人類基因組區(qū)域(包括基因、克隆、amplimers PCR 標(biāo)記、斷點(diǎn)breakpoints、細(xì)胞遺傳標(biāo)記cytogenetic markers、易碎位點(diǎn)fragile sites、EST序列、綜合區(qū)域syndromi

9、c regions、contigs和重復(fù)序列);人類基因組圖譜(包括細(xì)胞遺傳圖譜、連接圖譜、放射性雜交圖譜、content contig圖譜和綜合圖譜等);人類基因組內(nèi)的變異(包括突變和多態(tài)性,加上等位基因頻率數(shù)據(jù))。GDB數(shù)據(jù)庫(kù)以對(duì)象模型來保存數(shù)據(jù),提供基于Web的數(shù)據(jù)對(duì)象檢索服務(wù),用戶可以搜索各種類型的對(duì)象,并以圖形方式觀看基因組圖譜此外,GDB數(shù)據(jù)庫(kù)還包括了與核酸序列數(shù)據(jù)庫(kù) GenBank和EMBL、遺傳疾病數(shù)據(jù)庫(kù)OMIM、醫(yī)藥文摘數(shù)據(jù)庫(kù)MedLine等其他網(wǎng)絡(luò)信息資源的超文本鏈接。 GDB數(shù)據(jù)庫(kù)是用大型商業(yè)軟件Sybase數(shù)據(jù)庫(kù)管理系統(tǒng)開發(fā)的,并用Java語(yǔ)言編寫基因圖譜顯示程序,為用

10、戶提供了很好的界面,缺點(diǎn)是傳輸速度受到一定限制。 GDB數(shù)據(jù)庫(kù)是國(guó)際合作的成果,其宗旨是為從事基因組研究的生物學(xué)家和醫(yī)護(hù)人員提供人類基因組信息資源。其數(shù)據(jù)來自于世界各國(guó)基因組研究的成果,經(jīng)過注冊(cè)的用戶可以直接向GDB數(shù)據(jù)庫(kù)中添加和編輯數(shù)據(jù)。目前GDB數(shù)據(jù)庫(kù)主站點(diǎn)設(shè)在加拿大安大略多倫多兒童醫(yī)院生物信息中心。不過,根據(jù)協(xié)議,生物信息中心對(duì) GDB的管理到2002年底終結(jié),因此,自2003年始,GDB數(shù)據(jù)庫(kù)內(nèi)容沒有更新,不過,各鏡像站點(diǎn)仍繼續(xù)提供檢索服務(wù)。據(jù)稱新的主站點(diǎn)正在建設(shè)中,不過新的主站點(diǎn)將設(shè)在何處尚是未知數(shù)。 其它模式生物基因組數(shù)據(jù)庫(kù)酵母基因組數(shù)據(jù)庫(kù)SGD(/)小鼠基因組信息學(xué)數(shù)據(jù)庫(kù)MGI(

11、/)果蠅基因組數(shù)據(jù)庫(kù)FlyBase(/)線蟲基因組數(shù)據(jù)庫(kù)WormBase(/) 蛋白質(zhì)序列、生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)簡(jiǎn)介由于蛋白質(zhì)序列測(cè)定技術(shù)先于DNA序列測(cè)定技術(shù)問世,蛋白質(zhì)序列的搜集也早于DNA序列。蛋白質(zhì)序列數(shù)據(jù)庫(kù)的雛形可以追朔到60年代。60年代中期到80年代初,美國(guó)國(guó)家生物醫(yī)學(xué)研究基金會(huì)(National Biomedical Research Foundation,簡(jiǎn)稱NBRF)Dayhoff領(lǐng)導(dǎo)的研究組將搜集到的蛋白質(zhì)序列和結(jié)構(gòu)信息以“蛋白質(zhì)序列和結(jié)構(gòu)地圖集”(Atlas of Protein Sequence and Structure)的形式發(fā)表,主要用來研究蛋白質(zhì)的進(jìn)化關(guān)

12、系。1984年,“蛋白質(zhì)信息資源”(Protein Information Resource,簡(jiǎn)稱PIR)計(jì)劃正式啟動(dòng),蛋白質(zhì)序列數(shù)據(jù)庫(kù)PIR也因此而誕生。與核酸序列數(shù)據(jù)庫(kù)的國(guó)際合作相呼應(yīng),1988年,美國(guó)的NBRF、日本的國(guó)際蛋白質(zhì)信息數(shù)據(jù)庫(kù)(Japanese International Protein Information Database,簡(jiǎn)稱JIPID)和德國(guó)的慕尼黑蛋白質(zhì)序列信息中心(Munich Information Center for Protein Sequences,簡(jiǎn)稱MIPS)合作成立了國(guó)際蛋白質(zhì)信息中心(PIR-International),共同收集和維護(hù)蛋白質(zhì)序

13、列數(shù)據(jù)庫(kù)PIR,除了PIR外,另一個(gè)重要的蛋白質(zhì)序列數(shù)據(jù)庫(kù)則是SwissProt。該數(shù)據(jù)庫(kù)由瑞士日內(nèi)瓦大學(xué)于1986年創(chuàng)建,目前由瑞士生物信息學(xué)研究所(Swiss Institute of Bioinformatics,簡(jiǎn)稱SIB)和歐洲生物信息學(xué)研究所 EBI共同維護(hù)和管理。瑞士生物信息研究所下屬的蛋白質(zhì)分析專家系統(tǒng)(Expert Protein Analysis System,,簡(jiǎn)稱ExPASy)的Web服務(wù)器除了開發(fā)和維護(hù)SwissProt數(shù)據(jù)庫(kù)外,也是國(guó)際上蛋白質(zhì)組和蛋白質(zhì)分子模型研究的中心,為用戶提供大量蛋白質(zhì)信息資源。北京大學(xué)生物信息中心設(shè)有ExPASy的鏡象SwissProt數(shù)據(jù)

14、庫(kù)中的所有序列條目都經(jīng)過有經(jīng)驗(yàn)的分子生物學(xué)家和蛋白質(zhì)化學(xué)家通過計(jì)算機(jī)工具并查閱有關(guān)文獻(xiàn)資料仔細(xì)核實(shí)。SIB和EBI共有70多人的研究隊(duì)伍,專門從事蛋白質(zhì)序列數(shù)據(jù)的搜集、整理、分析、注釋、發(fā)布,力圖提供高質(zhì)量的蛋白質(zhì)序列和注釋信息。SwissProt數(shù)據(jù)庫(kù)的每個(gè)條目都有詳細(xì)的注釋,包括結(jié)構(gòu)域、功能位點(diǎn)、跨膜區(qū)域、二硫鍵位置、翻譯后修飾、突變體等。該數(shù)據(jù)庫(kù)中還包括了與核酸序列數(shù)據(jù)庫(kù)EMBL/GenBank/DDBJ、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB以及Prosite、PRINTTS等十多個(gè)二次數(shù)據(jù)庫(kù)的交叉引用代碼。ExPAsy專門聘請(qǐng)了由200多位國(guó)際知名生物學(xué)家組成的網(wǎng)上專家評(píng)審團(tuán),并將SwissProt

15、數(shù)據(jù)庫(kù)中的蛋白質(zhì)分成200多個(gè)類別,每個(gè)類別由1位或2位評(píng)審專家負(fù)責(zé),通過計(jì)算機(jī)網(wǎng)絡(luò)進(jìn)行審核。ExPASy網(wǎng)站上列出了這些評(píng)審專家的姓名、電子郵件地址和他們所負(fù)責(zé)評(píng)審蛋白質(zhì)種類。用戶若對(duì)某個(gè)蛋白質(zhì)條目有疑義,可以直接和相應(yīng)的評(píng)審專家取得聯(lián)系.截止1998年6月,SWISS-PROT數(shù)據(jù)庫(kù)包含約7萬條序列,這些序列涵蓋了5千多個(gè)不同種屬,其中大部分來自于幾種主要模式生物,如人、小鼠等。蛋白質(zhì)序列、生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)SWISS-PROT 數(shù)據(jù)記錄(Entry)詳解: 每條蛋白質(zhì)序列條目按照各種數(shù)據(jù)行的格式書寫排列 1.ID (IDentification)標(biāo)識(shí)記錄名 (Entry-name)X_

16、YX代表蛋白質(zhì)名稱的記憶碼,至多4位;Y代表蛋白質(zhì)的生物來源,至多5位,一般前3位是屬名,后2位是種名。常見普通生物以自釋碼表明來源,如HUMAN,YEAST等,病毒例外,以臨時(shí)碼代替。如PDI_YEAST ,PDI代表Protein Disulfide Isomerase(蛋白質(zhì)二硫鍵異構(gòu)酶);YEAST代表它來源于Yeast(酵母),屬于自釋碼。 FER_HALHAFER代表ferredoxin鐵還原蛋白;HALHA表明其生物來源為Halobacterirn halobium(海洋嗜鹽菌,HAL代表嗜鹽菌層Halobacterium,HA代表海洋生物Halobium)。 1.2 數(shù)據(jù)類型

17、(Data class)分標(biāo)準(zhǔn)(Standard)數(shù)據(jù)和初級(jí)(Preliminary)數(shù)據(jù)兩類。數(shù)據(jù)達(dá)不到SWISS- PROT標(biāo)準(zhǔn)的屬于初級(jí)數(shù)據(jù)。1.3 分子類型 (Molecular type)在SWISS-PROT數(shù)據(jù)庫(kù),分子類型均為PRT,代表蛋白質(zhì)(PRoTein)。1.4 分子長(zhǎng)度(Length of the molecule)ID數(shù)據(jù)行的最后一項(xiàng)是序列的氨基酸殘基數(shù)目。2.AC (Accession number) 蛋白質(zhì)注冊(cè)號(hào)由于數(shù)據(jù)的合并與增刪,一個(gè)記錄可能有幾個(gè)注冊(cè)號(hào),以第一個(gè)注冊(cè)號(hào)為準(zhǔn);但一般情況下,一個(gè)記錄只有一個(gè)注冊(cè)號(hào)。3.DT (Date) 記錄日期或最后一次更新的

18、日期格式為DD-MMM-YEAR(REL. XX. COMMENT) 日-月-年(發(fā)行號(hào),記錄緣由)記錄緣由分為創(chuàng)建、序列更新 和其他內(nèi)容更新三種。4.DE (DEscription) 描述包含蛋白質(zhì)序列的描述性信息,無固定格式。5.GN (GeneName)基因名稱格式為GN NAME1AND/ORNAME2多個(gè)基因編碼同一個(gè)蛋白時(shí),同義名稱的基因間以 OR 相隔;不同基因編碼蛋白質(zhì)的不同亞基時(shí),基因之間以 AND 相隔。6.KW (KeyWord)關(guān)鍵詞可用于蛋白質(zhì)功能,結(jié)構(gòu)或其他范疇的蛋白質(zhì)序列索引。7.OS (Organism Species)生物種屬表明序列的來源,通常采用拉丁種屬名

19、,括弧中繼以英文名。如:OS SACCHARMYCES CEREVISIAE(BAKERS YEAST)表示: 生物來源為酵母OS HOMO SAPIENS(HUMAN)表示: 生物來源為人描述內(nèi)容組成。8.OG (OrGanelle)細(xì)胞器(細(xì)胞內(nèi)小器官)表明基因編碼蛋白的來源或定位,如細(xì)胞內(nèi)的線粒體,葉綠體或質(zhì)粒等。9.OC (Organism classification)生物分類以樹狀分類的從上至下的格式列出,最普遍的類目列在最前面。10.RN,RP,RC,RX,RA,RL 參考數(shù)據(jù)RN (Reference Number) 參考號(hào)在本記錄中的參考文獻(xiàn)的排號(hào)RP (Reference

20、Position) 參考性質(zhì) 文獻(xiàn)作者的工作性質(zhì)和范圍RC (Reference Comment)相關(guān)內(nèi)容文獻(xiàn)相關(guān)內(nèi)容(可選數(shù)據(jù)行)RX (Reference Cross-reference) 交互參照用來表示題錄型數(shù)據(jù)庫(kù)(Bibliographic database)中的標(biāo)識(shí)號(hào),一般是MEDLINE數(shù)據(jù)庫(kù)的標(biāo)識(shí)號(hào)。如:RX MEDLINE;91001972RA (Reference Author)文獻(xiàn)作者RL (Reference Location)參考文獻(xiàn)來源,包括幾種:雜志:注明雜志縮寫,卷次,頁(yè)碼及發(fā)表日期(年); 書:注明書名,版次,卷次,編號(hào),頁(yè)碼,出版及發(fā)表日期(年)書名前冠以(

21、IN)字樣; 未出版物:示“UNPUBLISHED”字樣; 論文(Thesis):冠以“THESIS”標(biāo)記,注明時(shí)間(年),研究所,國(guó)家; 專利(Patent):注明專利號(hào),日期; 直接遞交序列(submissions):注明遞交年月及數(shù)據(jù)庫(kù)。 11.DR (Database cross-Reference) 參照數(shù)據(jù)庫(kù)格式為DRDATA_BANK_IDENTIFIER;PRIMARY_IDENTIFIER;SECONDARY_ IDENTIFIER 包含數(shù)據(jù)庫(kù)縮寫名,第一標(biāo)識(shí)號(hào)(Primary Identifier),第二標(biāo)識(shí)號(hào)(Secondary Identifier,為補(bǔ)充信息)。12.

22、FT (Feature Table) 特征表提供簡(jiǎn)潔精煉的數(shù)據(jù)注釋,描述了序列的位點(diǎn)及作用區(qū)域。一般情況下列出翻譯后修飾、結(jié)合位點(diǎn)、酶活性位點(diǎn)和局部二級(jí)結(jié)構(gòu)等其他特征。每一特征數(shù)據(jù)行按關(guān)鍵詞、殘基起始序號(hào)區(qū)域及簡(jiǎn)扼的13.SQ (SeQuence header)序列題頭列出蛋白質(zhì)的序列長(zhǎng)度(氨基酸數(shù)目),分子量(MW),CRC32序列值蛋白質(zhì)數(shù)據(jù)庫(kù)(簡(jiǎn)稱PDB),專門用于處理和分類儲(chǔ)存蛋白質(zhì)等生物大分子的3D結(jié)構(gòu)及其他生物學(xué)數(shù)據(jù),應(yīng)用范圍極其廣泛,是十分重要的世界性數(shù)據(jù)庫(kù)之一。蛋白質(zhì)的基本立體結(jié)構(gòu)數(shù)據(jù)庫(kù)為PDB (Protein Data Bank),1971年建立于美國(guó)布魯??撕N膰?guó)家實(shí)驗(yàn)室

23、。該數(shù)據(jù)庫(kù)中收集了通過X射線衍射和核磁共振(NMR)試驗(yàn)測(cè)定的蛋白質(zhì)結(jié)構(gòu)的精確坐標(biāo)數(shù)據(jù)。這種數(shù)據(jù)即蛋白質(zhì)中的原子坐標(biāo)是蛋白質(zhì)結(jié)構(gòu)的最細(xì)致的層次。該數(shù)據(jù)庫(kù)的管理者是結(jié)構(gòu)生物信息學(xué)合作研究組織(Research Collaboration for Structural Bioinformatics, RCSB, /pdb截至2004年4月20日,該數(shù)據(jù)庫(kù)所收錄的各種結(jié)構(gòu)數(shù)據(jù)已達(dá)25176條之多。在太平洋時(shí)間每個(gè)周三的凌晨一點(diǎn),該數(shù)據(jù)庫(kù)會(huì)釋放一些新的結(jié)構(gòu)數(shù)據(jù),在PDB年報(bào)和PDB新聞中,用戶可以詳盡地了解該數(shù)據(jù)庫(kù)的歷史、功能、最新進(jìn)展以及最終目的等信息。PDB是RCSB建立的全世界最完整的包括蛋白質(zhì)

24、、核酸、蛋白質(zhì)-核酸復(fù)合物及病毒等生物大分子的三維結(jié)構(gòu)數(shù)據(jù)庫(kù)。 PDB生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)的內(nèi)容來自于全世界相關(guān)研究者提交的生物大分子的原子坐標(biāo)、注釋、一級(jí)結(jié)構(gòu)、二級(jí)機(jī)構(gòu)、晶體結(jié)構(gòu)因子、NMR實(shí)驗(yàn)數(shù)據(jù),由RCSB維護(hù)。每周大概生成50-100個(gè)新數(shù)據(jù)。這些分子結(jié)構(gòu)信息可以從PDB主頁(yè)檢索,也可以通過其鏡像站點(diǎn),或者FTP站點(diǎn)下載。PDB的基本目標(biāo)是使得用戶可以查找到感興趣的結(jié)構(gòu)資料對(duì)一個(gè)或多個(gè)數(shù)據(jù)執(zhí)行簡(jiǎn)單的分析作為互聯(lián)網(wǎng)上一個(gè)可以了解到更多附加說明信息的入口使得用戶可以下載結(jié)構(gòu)信息,尤其是笛卡爾原子坐標(biāo)等以便于下一步的分析。 數(shù)據(jù)格式 每個(gè)PDB文件可能分割成一系列行,由行終止符終止.在記錄文

25、件中每行由80列組成.每條PDB記錄末尾標(biāo)志應(yīng)該是行終止符.PDB文件中每行都是自我識(shí)別的.每行的前六列存放記錄名稱,左對(duì)齊空格補(bǔ)足.必須和規(guī)定的記錄名稱一致.PDB文件也可看成是各種記錄類型的總和.每個(gè)記錄類型包括一行或多行又被更深一層分成各字段.該文件詳細(xì)描述了每個(gè)數(shù)據(jù)類型,一般包括如下幾部分:綜述 記錄格式 細(xì)節(jié) 例子 HEADER(分子類,公布日期、ID號(hào))記錄的表示PDB數(shù)據(jù)庫(kù)中的數(shù)據(jù)都應(yīng)按照一定的規(guī)定來出現(xiàn),強(qiáng)制記錄類型必須出現(xiàn)在所有的記錄中,當(dāng)強(qiáng)制數(shù)據(jù)沒有提供,記錄名必須出現(xiàn)在記錄中并以NULL表示當(dāng)此條件存在時(shí)選擇項(xiàng)表就變成強(qiáng)制記錄類型。以下表格是對(duì)這兩種類型的具體劃分和描述:

26、蛋白質(zhì)序列數(shù)據(jù)庫(kù)為基礎(chǔ)構(gòu)建的二級(jí)數(shù)據(jù)庫(kù)生物信息資料的龐大無比,如何快速而正確的取得、管理、分析、使用這些網(wǎng)絡(luò)資源已成為十分重要的課題。建立面向不同領(lǐng)域的二級(jí)數(shù)據(jù)庫(kù),將具有相同特點(diǎn)的蛋白質(zhì)資源進(jìn)行歸納、分析,找出它們之間的共同之處。二級(jí)數(shù)據(jù)庫(kù)的種類蛋白序列模式的二級(jí)數(shù)據(jù)庫(kù)種類繁多,包括Prosite、Prints、Blocks等等。這些數(shù)據(jù)庫(kù)的共同特點(diǎn)是基于多序列比對(duì)。不同之處:一次數(shù)據(jù)庫(kù)來源及處理比對(duì)結(jié)果的原則和方法不同Prosite數(shù)據(jù)庫(kù)基于多序列比較得到的單一保守序列片段,或稱序列模體。除Prosite外,蛋白質(zhì)序列二次數(shù)據(jù)庫(kù)還有蛋白質(zhì)序列指紋圖譜數(shù)據(jù)庫(kù)Prints(Attwood, 19

27、98)、蛋白質(zhì)序列模塊數(shù)據(jù)庫(kù)Blocks(Henikoff, 1998)、蛋白質(zhì)序列家族數(shù)據(jù)庫(kù)Pfam(Sonnhammer, 1998)、蛋白質(zhì)序列概貌數(shù)據(jù)庫(kù)Profile、蛋白質(zhì)序列識(shí)別數(shù)據(jù)庫(kù)Identify等(表1.16)。應(yīng)該說,這些方法各有一定的特色。從某種意義上說,蛋白質(zhì)序列二次數(shù)據(jù)庫(kù)實(shí)際上也是蛋白質(zhì)功能數(shù)據(jù)庫(kù),因?yàn)閺倪@些數(shù)據(jù)庫(kù)中,可以得到有關(guān)蛋白質(zhì)功能、家族、進(jìn)化等信息。?分別說明幾個(gè)二級(jí)數(shù)據(jù)庫(kù)所存儲(chǔ)的內(nèi)容,具有什么功能單元DIP數(shù)據(jù)庫(kù)及數(shù)據(jù)介紹DIP(Database of Interacting Proteins,蛋白互相作用數(shù)據(jù)庫(kù))于1999年在UCLA的David Els

28、enberg實(shí)驗(yàn)室建立;主旨:是把關(guān)于蛋白互作的多樣的實(shí)驗(yàn)信息整合成一個(gè)容易進(jìn)行查詢的專一數(shù)據(jù)庫(kù)?;プ髦傅氖莾蓚€(gè)氨基酸鏈在實(shí)驗(yàn)上證實(shí)相互結(jié)合。它轉(zhuǎn)化了MEDLINE文獻(xiàn)中關(guān)于蛋白互作的實(shí)驗(yàn)結(jié)果,儲(chǔ)存和組織了多種觀察和實(shí)驗(yàn)技術(shù)下得到的蛋白互作信息.DIP發(fā)展了全基因組范圍的數(shù)據(jù)質(zhì)量監(jiān)測(cè)工具,保證了數(shù)據(jù)的可信性 DIP收集的互作蛋白數(shù)據(jù)不僅有利于研究某一具體互作蛋白的關(guān)系,還對(duì)信號(hào)轉(zhuǎn)導(dǎo)、蛋白相互作用細(xì)胞網(wǎng)絡(luò)的組織和復(fù)雜性研究起推動(dòng)作用。DIP數(shù)據(jù)庫(kù)及數(shù)據(jù)介紹DIP數(shù)據(jù)庫(kù)使用開放式的PostgreSQL數(shù)據(jù)庫(kù)管理系統(tǒng)。注:PostgreSQL 是一種非常復(fù)雜的對(duì)象-關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)(ORDBMS

29、), 也是目前功能最強(qiáng)大,特性最豐富和最復(fù)雜的自由軟件數(shù)據(jù)庫(kù)系統(tǒng)。有些特性甚至連商業(yè)數(shù)據(jù)庫(kù)都不具備。這個(gè)起源于伯克利(BSD)的數(shù)據(jù)庫(kù)研究計(jì)劃目前已經(jīng)衍生成一項(xiàng)國(guó)際開發(fā)項(xiàng)目, 并且有非常廣泛的用戶。 DIP數(shù)據(jù)庫(kù)及數(shù)據(jù)介紹Experiment部分包括了對(duì)實(shí)驗(yàn)細(xì)節(jié)的介紹和相關(guān)文獻(xiàn)的鏈接。注: EVIDENCE表格提供相關(guān)實(shí)驗(yàn)的具體細(xì)節(jié)SOURCE表格提供了相關(guān)實(shí)驗(yàn)的來源,包括MEDLINE標(biāo)準(zhǔn)的文獻(xiàn)號(hào)碼(PMID/UID)和文獻(xiàn)的作者、題目、刊物和出版年份等數(shù)據(jù)庫(kù)搜尋DIP數(shù)據(jù)庫(kù)可以以多種方式搜尋得到信息,也可以根據(jù)用戶特定的標(biāo)準(zhǔn)得到蛋白或相互作用數(shù)據(jù)庫(kù)組成DIP數(shù)據(jù)庫(kù)是由節(jié)點(diǎn)(node)和邊(

30、edge)組成: DIP節(jié)點(diǎn)(蛋白) 每個(gè)DIP相互作用的蛋白都具有一個(gè)獨(dú)特的識(shí)別信息(形式為)和對(duì)應(yīng)其他一個(gè)主要的蛋白數(shù)據(jù)庫(kù)PIR, SWISSPROT 和/或 GENBANK的參考。另外,包括一些關(guān)于蛋白的基本信息,如名稱、功能、亞細(xì)胞定位、在其他生物學(xué)數(shù)據(jù)庫(kù)中的參考等。 DIP邊 (相互作用) 每個(gè)DIP相互作用都具有一個(gè)獨(dú)特的識(shí)別信息(形式為),還具有相互作用區(qū)域、區(qū)域分離常數(shù)和實(shí)驗(yàn)手段等標(biāo)志此相互作用的信息。 一個(gè)DIP發(fā)展的重要方面是整合現(xiàn)在存在的很好的生物學(xué)數(shù)據(jù)庫(kù), 如: 蛋白數(shù)據(jù)庫(kù)SWISS-PROT, 通路數(shù)據(jù)庫(kù)KEGG、TRANSPATH, 酵母數(shù)據(jù)庫(kù)YPD等, 使用戶能對(duì)

31、一個(gè)指定的蛋白得到最完整的信息。 1 增加DIP數(shù)據(jù)庫(kù)中人亞數(shù)據(jù)的數(shù)據(jù)數(shù)目;2 發(fā)展新的獲得和分析數(shù)據(jù)庫(kù)中信息的工具。DIP未來發(fā)展方向 Gene Ontology 的功能本體論框架基因本體論(gene ontology)的建立Ontology是一個(gè)哲學(xué)術(shù)語(yǔ),在西方哲學(xué)中Ontology是指本體論,反映世界的本原是存在的本身。這一個(gè)哲學(xué)術(shù)語(yǔ)水者人們對(duì)自然科學(xué)的研究的深入,已經(jīng)作為一個(gè)概念的規(guī)范以及通過概念與概念之間的關(guān)系來對(duì)不同自然科學(xué)知識(shí)體系進(jìn)行客觀的描述,完成對(duì)不同自然科學(xué)領(lǐng)域的知識(shí)表示。這些概念的詳細(xì)說明和它們之間的關(guān)系通過具有代表性的詞匯表來描述,通過這些詞表可以用基于知識(shí)的程序來表示

32、知識(shí)體系。它所反映的不是某個(gè)個(gè)體私有的,而是可以被一個(gè)群體所接受的。通過Ontology的建立,我們可以達(dá)到知識(shí)共享,獲取和再利用的目的,能夠方便有效的進(jìn)行人工智能和機(jī)器學(xué)習(xí),以實(shí)現(xiàn)對(duì)知識(shí)體系的進(jìn)一步認(rèn)識(shí)。Gene Ontology (GO)項(xiàng)目正是為了能夠使對(duì)各種數(shù)據(jù)庫(kù)中基因產(chǎn)物功能描述相一致的努力結(jié)果。這個(gè)項(xiàng)目最初是由1988年對(duì)三個(gè)模式生物數(shù)據(jù)庫(kù)的整合開始:: FlyBase (果蠅數(shù)據(jù)庫(kù)Drosophila), Saccharomyces Genome Database (酵母基因組數(shù)據(jù)庫(kù)SGD) 和 Mouse Genome Database (小鼠基因組數(shù)據(jù)庫(kù)MGD)。 從那開始,

33、GO不斷發(fā)展擴(kuò)大,現(xiàn)在已包含數(shù)十個(gè)動(dòng)物、植物、微生物的數(shù)據(jù)庫(kù)。GO的結(jié)構(gòu)包括三個(gè)方面:分子生物學(xué)上的功能生物學(xué)途徑在細(xì)胞中的組件作用. 當(dāng)然,它們可能在每一個(gè)方面都有多種性質(zhì)。如細(xì)胞色素C,在分子功能上體現(xiàn)為電子傳遞活性,在生物學(xué)途徑中與氧化磷酸化和細(xì)胞凋亡有關(guān),在細(xì)胞中存在于線粒體質(zhì)中和線粒體內(nèi)膜上。下面,將進(jìn)一步的分別說明GO的具體定義情況?;虍a(chǎn)物 基因產(chǎn)物和其生物功能常常被我們混淆。例如,“乙醇脫氫酶”既可以指放在Eppendorf管里的基因產(chǎn)物,也表明了它的功能。一個(gè)基因產(chǎn)物可以擁有多種分子功能,多種基因產(chǎn)物也可以行使同一種分子功能。比如還是“乙醇脫氫酶”,其實(shí)多種基因產(chǎn)物都具有這種

34、功能,而并不是所有的這些酶都是由乙醇脫氫酶基因編碼的。一個(gè)基因產(chǎn)物可以同時(shí)具有“乙醇脫氫酶”和“乙醛歧化酶”兩種功能,甚至更多。所以,在GO中,很重要的一點(diǎn)在于,當(dāng)使用“乙醇脫氫酶活性”這種術(shù)語(yǔ)時(shí),所指的是功能,并不是基因產(chǎn)物。許多基因產(chǎn)物會(huì)形成復(fù)合物后執(zhí)行功能。這些“基因復(fù)合物”有些非常簡(jiǎn)單(如血紅蛋白由血紅蛋白基因產(chǎn)物球蛋白、球蛋白和小分子的亞血紅素組成),有些非常復(fù)雜(如核糖體)?,F(xiàn)在,小分子的描述還沒有包括在GO中。在未來,這個(gè)問題可望由和現(xiàn)在的Klotho和LIGAND等小分子數(shù)據(jù)庫(kù)聯(lián)合而解決。分子功能 分子功能描述在分子生物學(xué)上的活性,如催化活性或結(jié)合活性。GO分子功能定義功能而不

35、是整體分子,而且不特異性地指出這些功能具體的時(shí)空信息。分子功能大部分指的是單個(gè)基因產(chǎn)物的功能,還有一小部分是此基因產(chǎn)物形成的復(fù)合物的功能。定義功能的義項(xiàng)包括催化活性、轉(zhuǎn)運(yùn)活性、結(jié)合活性等,更為狹窄的定義包括腺苷酸環(huán)化酶活性或鐘形受體結(jié)合活性等。 生物學(xué)途徑 生物學(xué)途徑是由分子功能有序地組成的,具有多個(gè)步驟的一個(gè)過程。舉例來說,較為寬泛的是細(xì)胞生長(zhǎng)和維持、信號(hào)傳導(dǎo)。一些更為具體的例子包括嘧啶代謝或配糖基的運(yùn)輸?shù)取R粋€(gè)生物學(xué)途徑并不是完全和一條生物學(xué)通路相等。因此,GO并不涉及到通路中復(fù)雜的機(jī)制和所依賴的因素 細(xì)胞中的位置指基因產(chǎn)物位于何種細(xì)胞器或基因產(chǎn)物組中(如糙面內(nèi)質(zhì)網(wǎng),核或核糖體,蛋白酶體等

36、)。GO的形式 GO 定義的術(shù)語(yǔ)有著直接非循環(huán)式(directed acyclic graphs (DAGs)的特點(diǎn),而并非是傳統(tǒng)的等級(jí)制(hierarchy)定義方式(隨著代數(shù)增加,下一級(jí)比上一級(jí)更為具體)。舉個(gè)例子來說,生物學(xué)途徑中有一個(gè)定義是己糖合成,它的上一級(jí)為己糖代謝和單糖合成。當(dāng)某個(gè)基因被注解為“己糖合成活性”后,它自動(dòng)地獲得了己糖代謝和單糖合成地注解。因?yàn)樵贕O中,每個(gè)術(shù)語(yǔ)必須遵循“真途徑“法則,即如果下一代的術(shù)語(yǔ)可以用于描述此基因產(chǎn)物,其上一代術(shù)語(yǔ)也可以適用。Gene Ontology中功能之間關(guān)系的分析Gene Ontology在我們的工作中主要用來分析功能之間的聯(lián)系。如果從

37、物理層面看待生命現(xiàn)象,可以想象蛋白質(zhì)在細(xì)胞中多個(gè)生物功能、多個(gè)細(xì)胞過程和生化反應(yīng)中發(fā)揮作用,使得生命得以維持;但如果從功能層面來看,每一個(gè)蛋白質(zhì)都攜帶了不同的功能,細(xì)胞就可以看作是一個(gè)復(fù)雜的功能相互作用的網(wǎng)絡(luò)。在這個(gè)網(wǎng)絡(luò)中,通常一個(gè)功能會(huì)與其他多個(gè)功能集中完成同一件任務(wù),然后與另外一些功能相互作用去完成另一件任務(wù)。 Gene Ontology詳細(xì)的功能分類體系為分析系統(tǒng)的功能結(jié)構(gòu)提供了便利。我們把Gene Ontology中功能之間的聯(lián)系分為兩種類型:第一種是層與層之間的“is a” 關(guān)系和“part of” 關(guān)系,我們統(tǒng)稱為父子關(guān)系;第二種基于功能之間的互作,如果兩個(gè)功能之間有互作并且二者沒

38、有包含與被包含的關(guān)系,即其中一個(gè)功能不是另一功能的祖先節(jié)點(diǎn)也不是另一功能的子孫節(jié)點(diǎn),我們就稱兩個(gè)功能有非繼承關(guān)系。一個(gè)功能會(huì)與其他多個(gè)功能集中完成同一件任務(wù),從另一個(gè)角度看,這使得一個(gè)單個(gè)的蛋白質(zhì)會(huì)同時(shí)具有多個(gè)功能。利用這一點(diǎn),可以識(shí)別相關(guān)的功能,并可以利用蛋白質(zhì)層面信息判斷什么情況下不同功能傾向于共同發(fā)揮作用。我們能夠直接從Gene Ontology結(jié)構(gòu)中得到第一種功能關(guān)系;利用蛋白質(zhì)功能注釋信息,判斷不同功能是否在同一個(gè)蛋白質(zhì)中出現(xiàn),可于確定非繼承關(guān)系的功能聯(lián)系。KEGG京都基因和基因組百科全書(KEGG)是系統(tǒng)分析基因功能,聯(lián)系基因組信息和功能信息的知識(shí)庫(kù)?;蚪M信息存儲(chǔ)在GENES數(shù)據(jù)庫(kù)里,包括完整和部分測(cè)序的基因組序列;更高級(jí)的功能信息存儲(chǔ)在PATHWAY數(shù)據(jù)庫(kù)里,包括圖解的細(xì)胞生化過程如代謝、膜轉(zhuǎn)運(yùn)、信號(hào)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論