基因組數(shù)據(jù)庫(kù)課件

上傳人：6*** IP屬地：貴州上傳時(shí)間：2022-07-24 格式：PPT 頁(yè)數(shù)：95 大小：393KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩90頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、網(wǎng)絡(luò)生物醫(yī)學(xué)資源概論生物分子數(shù)據(jù)庫(kù)基因組數(shù)據(jù)庫(kù)蛋白質(zhì)序列、生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)蛋白質(zhì)二級(jí)結(jié)構(gòu)、互作數(shù)據(jù)庫(kù)基因產(chǎn)物注釋數(shù)據(jù)庫(kù)網(wǎng)絡(luò)生物醫(yī)學(xué)資源概論網(wǎng)絡(luò)生物醫(yī)學(xué)資源所包含的主要內(nèi)容網(wǎng)上生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)網(wǎng)上生物醫(yī)學(xué)數(shù)據(jù)庫(kù)(分子生物學(xué)數(shù)據(jù)庫(kù))網(wǎng)上生物醫(yī)學(xué)文獻(xiàn)類型1文摘型數(shù)據(jù)庫(kù)2全文型數(shù)據(jù)庫(kù)3事實(shí)型數(shù)據(jù)庫(kù)4生物醫(yī)學(xué)專業(yè)網(wǎng)站5生物醫(yī)學(xué)整合知識(shí)平臺(tái)文摘型生物醫(yī)學(xué)數(shù)據(jù)庫(kù)1.Pubmed數(shù)據(jù)庫(kù)2.TOXNET數(shù)據(jù)庫(kù)3.EMBase荷蘭醫(yī)學(xué)文摘？如是對(duì)引起胃癌基因感興趣的讀者，想從事這方面的研究，請(qǐng)問如何查找這方面的信息。能夠?qū)@方面的研究動(dòng)態(tài)有一定的了解生物分子數(shù)據(jù)庫(kù)生物分子數(shù)據(jù)庫(kù)應(yīng)滿足5個(gè)方面的主要需求（1）

2、時(shí)間性（2）注釋（3）支撐數(shù)據(jù) （4）數(shù)據(jù)質(zhì)量（5）集成性生物分子數(shù)據(jù)庫(kù) 一級(jí)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)直接來源于實(shí)驗(yàn)獲得的原始數(shù)據(jù)，只經(jīng)過簡(jiǎn)單的歸類整理和注釋二級(jí)數(shù)據(jù)庫(kù)對(duì)原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果，是在一級(jí)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定的應(yīng)用目標(biāo)而建立的。國(guó)際上權(quán)威的核酸序列數(shù)據(jù)庫(kù) （1）歐洲分子生物學(xué)實(shí)驗(yàn)室的EMBL http:/www.embl-heidelberg.de （2）美國(guó)生物技術(shù)信息中心的GenBank /Web/Genbank/index.html （3）日本遺傳研究所的DDBJ http:/www.ddbj.nig.ac.jp/“ID”為序列的標(biāo)識(shí)

3、符行，包括登錄號(hào)、類型，分子的長(zhǎng)度 “AC”為登錄號(hào)行；“XX”為分隔符號(hào)行； “DT”為創(chuàng)建和更新日期行 “DE”為序列描述行；“KW”為關(guān)鍵字行；“OG”行描述細(xì)胞組織；“OS”行描述生物體種屬；“OC”行描述生物體分類信息；“RN”描述參考文獻(xiàn)的編號(hào)；“RP”描述參考文獻(xiàn)的頁(yè)碼；“RA”描述參考文獻(xiàn)的作者；“RT”描述參考文獻(xiàn)的題目；“RL”描述參考文獻(xiàn)的出處；“RC”描述參考文獻(xiàn)的注解；“RX”、“DR”行描述交叉引用信息；“FH” 為特征開始符號(hào)；“FT”為特征表行（1）Feature Key，它是描述域生物功能的關(guān)鍵字；（2）Location，指明特征在序列中的特定位置；（3

4、）Qualifiers，描述關(guān)于一個(gè)特征的輔助信息；文件體由序列本身所組成，由“SQ”標(biāo)志的行開始。序列結(jié)束的標(biāo)記是“/”。EMBL核酸數(shù)據(jù)庫(kù)中的每一個(gè)序列數(shù)據(jù)被賦予一個(gè)登錄號(hào)，它是一個(gè)永久性的唯一標(biāo)識(shí) EMBL的序列數(shù)據(jù)用外在的ASCII文本文件來表示，而每一個(gè)文件分為文件頭和文件體兩大部分文件頭由一系列的信息描述行所組成，文件頭實(shí)際上對(duì)應(yīng)于一個(gè)序列的注釋（annotation）核酸數(shù)據(jù)庫(kù)提供一些與序列相關(guān)的檢索操作（基于3W服務(wù)器）（1）序列查詢最簡(jiǎn)單的查詢就是通過序列的登錄號(hào)（如X58929）或序列名稱（如SCARGC）直接查詢。如果找到所查詢的序列，則服務(wù)器將查詢結(jié)果以HTML文件返

5、回給用戶如果數(shù)據(jù)庫(kù)中該序列有到MEDLINE的交叉索引，則系統(tǒng)同時(shí)返回與包含參考文獻(xiàn)摘要等信息的MEDLINE鏈接如果該序列有到其它數(shù)據(jù)庫(kù)的交叉索引，也返回相應(yīng)的鏈接（2）核酸同源性搜索 3W服務(wù)器支持用戶使用FastA程序進(jìn)行核酸同源搜索。FastA根據(jù)給定的目標(biāo)序列在數(shù)據(jù)庫(kù)中搜索其同源序列。生物基因組數(shù)據(jù)庫(kù)基因組數(shù)據(jù)庫(kù)（GDB）鼠基因組數(shù)據(jù)庫(kù) MGD（/）酵母基因組數(shù)據(jù)庫(kù) SGD（/Saccharomyces/）蛋白質(zhì)序列數(shù)據(jù)庫(kù)1、PIR（Protein Information Resource）2、SWISS-PROT3、TrEMBL4、蛋白質(zhì)數(shù)據(jù)倉(cāng)庫(kù)UniProtUniProt包含3個(gè)

6、部分：（1）UniProt Knowledgebase（UniProt）蛋白質(zhì)序列、功能、分類、交叉引用等信息存取中心（2）UniProt Non-redundant Reference（UniRef）數(shù)據(jù)庫(kù) 將密切相關(guān)的蛋白質(zhì)序列組合到一條記錄中以便提高搜索速度；（3）UniProt Archive（UniParc）資源庫(kù)，記錄所有蛋白質(zhì)序列的歷史。生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)1、PDB（Protein Data Bank）PDB中含有通過實(shí)驗(yàn)（X射線晶體衍射，核磁共振NMR）測(cè)定的生物大分子的三維結(jié)構(gòu)蛋白質(zhì)核酸糖類其它復(fù)合物其它生物分子數(shù)據(jù)庫(kù)核酸序列變化單堿基多態(tài)性SNPs（Single

7、nucleotide polymorphisms）SNPs對(duì)人類遺傳學(xué)研究和醫(yī)學(xué)應(yīng)用具有重要的意義無論對(duì)于人類種群遺傳學(xué)的研究，還是對(duì)疾病性狀分析或個(gè)體化醫(yī)療，都需要深入地研究SNPs。 1、單堿基多態(tài)性數(shù)據(jù)庫(kù)dbSNP基因組數(shù)據(jù)庫(kù)隨著核酸測(cè)序技術(shù)的迅速發(fā)展，人類已經(jīng)得到一部分生物的全基因組數(shù)據(jù)，如人、小鼠、大鼠等。這些數(shù)據(jù)對(duì)于我們認(rèn)識(shí)基因組信息組織的奧秘、了解生物體的生長(zhǎng)發(fā)育的規(guī)律是非常重要的。國(guó)際上有專門的組織收集和管理這些數(shù)據(jù)。NCBI基因組數(shù)據(jù)庫(kù)Entrez Gonomes （/entrez/query.fcgi?db=Genome）所收集的基因組數(shù)據(jù)量非常大，基因組數(shù)據(jù)庫(kù)（GDB）

8、GDB 人類基因組學(xué)數(shù)據(jù)庫(kù)資源名稱：The Genome Database交替名稱：基因組數(shù)據(jù)庫(kù)創(chuàng)建機(jī)構(gòu)：美國(guó)馬里蘭州巴爾的摩市約翰霍普金斯大學(xué)基因組數(shù)據(jù)庫(kù)(GDB)為人類基因組計(jì)劃(HGP)保存和處理基因組圖譜數(shù)據(jù)。GDB的目標(biāo)是構(gòu)建關(guān)于人類基因組的百科全書，除了構(gòu)建基因組圖譜之外，還開發(fā)了描述序列水平的基因組內(nèi)容的方法，包括序列變異和其它對(duì)功能和表型的描述。目前GDB中有：人類基因組區(qū)域(包括基因、克隆、amplimers PCR 標(biāo)記、斷點(diǎn)breakpoints、細(xì)胞遺傳標(biāo)記cytogenetic markers、易碎位點(diǎn)fragile sites、EST序列、綜合區(qū)域syndromi

9、c regions、contigs和重復(fù)序列)；人類基因組圖譜(包括細(xì)胞遺傳圖譜、連接圖譜、放射性雜交圖譜、content contig圖譜和綜合圖譜等)；人類基因組內(nèi)的變異(包括突變和多態(tài)性，加上等位基因頻率數(shù)據(jù))。GDB數(shù)據(jù)庫(kù)以對(duì)象模型來保存數(shù)據(jù)，提供基于Web的數(shù)據(jù)對(duì)象檢索服務(wù)，用戶可以搜索各種類型的對(duì)象，并以圖形方式觀看基因組圖譜此外，GDB數(shù)據(jù)庫(kù)還包括了與核酸序列數(shù)據(jù)庫(kù) GenBank和EMBL、遺傳疾病數(shù)據(jù)庫(kù)OMIM、醫(yī)藥文摘數(shù)據(jù)庫(kù)MedLine等其他網(wǎng)絡(luò)信息資源的超文本鏈接。 GDB數(shù)據(jù)庫(kù)是用大型商業(yè)軟件Sybase數(shù)據(jù)庫(kù)管理系統(tǒng)開發(fā)的，并用Java語(yǔ)言編寫基因圖譜顯示程序，為用

10、戶提供了很好的界面，缺點(diǎn)是傳輸速度受到一定限制。 GDB數(shù)據(jù)庫(kù)是國(guó)際合作的成果，其宗旨是為從事基因組研究的生物學(xué)家和醫(yī)護(hù)人員提供人類基因組信息資源。其數(shù)據(jù)來自于世界各國(guó)基因組研究的成果，經(jīng)過注冊(cè)的用戶可以直接向GDB數(shù)據(jù)庫(kù)中添加和編輯數(shù)據(jù)。目前GDB數(shù)據(jù)庫(kù)主站點(diǎn)設(shè)在加拿大安大略多倫多兒童醫(yī)院生物信息中心。不過，根據(jù)協(xié)議，生物信息中心對(duì) GDB的管理到2002年底終結(jié)，因此，自2003年始，GDB數(shù)據(jù)庫(kù)內(nèi)容沒有更新，不過，各鏡像站點(diǎn)仍繼續(xù)提供檢索服務(wù)。據(jù)稱新的主站點(diǎn)正在建設(shè)中，不過新的主站點(diǎn)將設(shè)在何處尚是未知數(shù)。其它模式生物基因組數(shù)據(jù)庫(kù)酵母基因組數(shù)據(jù)庫(kù)SGD（/）小鼠基因組信息學(xué)數(shù)據(jù)庫(kù)MGI（

11、/）果蠅基因組數(shù)據(jù)庫(kù)FlyBase（/）線蟲基因組數(shù)據(jù)庫(kù)WormBase（/）蛋白質(zhì)序列、生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)簡(jiǎn)介由于蛋白質(zhì)序列測(cè)定技術(shù)先于DNA序列測(cè)定技術(shù)問世，蛋白質(zhì)序列的搜集也早于DNA序列。蛋白質(zhì)序列數(shù)據(jù)庫(kù)的雛形可以追朔到60年代。60年代中期到80年代初，美國(guó)國(guó)家生物醫(yī)學(xué)研究基金會(huì)(National Biomedical Research Foundation，簡(jiǎn)稱NBRF)Dayhoff領(lǐng)導(dǎo)的研究組將搜集到的蛋白質(zhì)序列和結(jié)構(gòu)信息以“蛋白質(zhì)序列和結(jié)構(gòu)地圖集”(Atlas of Protein Sequence and Structure)的形式發(fā)表，主要用來研究蛋白質(zhì)的進(jìn)化關(guān)

12、系。1984年，“蛋白質(zhì)信息資源”(Protein Information Resource，簡(jiǎn)稱PIR)計(jì)劃正式啟動(dòng)，蛋白質(zhì)序列數(shù)據(jù)庫(kù)PIR也因此而誕生。與核酸序列數(shù)據(jù)庫(kù)的國(guó)際合作相呼應(yīng)，1988年，美國(guó)的NBRF、日本的國(guó)際蛋白質(zhì)信息數(shù)據(jù)庫(kù)(Japanese International Protein Information Database，簡(jiǎn)稱JIPID)和德國(guó)的慕尼黑蛋白質(zhì)序列信息中心(Munich Information Center for Protein Sequences，簡(jiǎn)稱MIPS)合作成立了國(guó)際蛋白質(zhì)信息中心(PIR-International)，共同收集和維護(hù)蛋白質(zhì)序

13、列數(shù)據(jù)庫(kù)PIR，除了PIR外，另一個(gè)重要的蛋白質(zhì)序列數(shù)據(jù)庫(kù)則是SwissProt。該數(shù)據(jù)庫(kù)由瑞士日內(nèi)瓦大學(xué)于1986年創(chuàng)建，目前由瑞士生物信息學(xué)研究所(Swiss Institute of Bioinformatics，簡(jiǎn)稱SIB)和歐洲生物信息學(xué)研究所 EBI共同維護(hù)和管理。瑞士生物信息研究所下屬的蛋白質(zhì)分析專家系統(tǒng)(Expert Protein Analysis System,，簡(jiǎn)稱ExPASy)的Web服務(wù)器除了開發(fā)和維護(hù)SwissProt數(shù)據(jù)庫(kù)外，也是國(guó)際上蛋白質(zhì)組和蛋白質(zhì)分子模型研究的中心，為用戶提供大量蛋白質(zhì)信息資源。北京大學(xué)生物信息中心設(shè)有ExPASy的鏡象SwissProt數(shù)據(jù)

14、庫(kù)中的所有序列條目都經(jīng)過有經(jīng)驗(yàn)的分子生物學(xué)家和蛋白質(zhì)化學(xué)家通過計(jì)算機(jī)工具并查閱有關(guān)文獻(xiàn)資料仔細(xì)核實(shí)。SIB和EBI共有70多人的研究隊(duì)伍，專門從事蛋白質(zhì)序列數(shù)據(jù)的搜集、整理、分析、注釋、發(fā)布，力圖提供高質(zhì)量的蛋白質(zhì)序列和注釋信息。SwissProt數(shù)據(jù)庫(kù)的每個(gè)條目都有詳細(xì)的注釋，包括結(jié)構(gòu)域、功能位點(diǎn)、跨膜區(qū)域、二硫鍵位置、翻譯后修飾、突變體等。該數(shù)據(jù)庫(kù)中還包括了與核酸序列數(shù)據(jù)庫(kù)EMBL/GenBank/DDBJ、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB以及Prosite、PRINTTS等十多個(gè)二次數(shù)據(jù)庫(kù)的交叉引用代碼。ExPAsy專門聘請(qǐng)了由200多位國(guó)際知名生物學(xué)家組成的網(wǎng)上專家評(píng)審團(tuán)，并將SwissProt

15、數(shù)據(jù)庫(kù)中的蛋白質(zhì)分成200多個(gè)類別,每個(gè)類別由1位或2位評(píng)審專家負(fù)責(zé)，通過計(jì)算機(jī)網(wǎng)絡(luò)進(jìn)行審核。ExPASy網(wǎng)站上列出了這些評(píng)審專家的姓名、電子郵件地址和他們所負(fù)責(zé)評(píng)審蛋白質(zhì)種類。用戶若對(duì)某個(gè)蛋白質(zhì)條目有疑義，可以直接和相應(yīng)的評(píng)審專家取得聯(lián)系.截止1998年6月，SWISS-PROT數(shù)據(jù)庫(kù)包含約7萬條序列，這些序列涵蓋了5千多個(gè)不同種屬，其中大部分來自于幾種主要模式生物，如人、小鼠等。蛋白質(zhì)序列、生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)SWISS-PROT 數(shù)據(jù)記錄(Entry)詳解：每條蛋白質(zhì)序列條目按照各種數(shù)據(jù)行的格式書寫排列 1.ID (IDentification)標(biāo)識(shí)記錄名 (Entry-name)X_

16、YX代表蛋白質(zhì)名稱的記憶碼，至多4位；Y代表蛋白質(zhì)的生物來源，至多5位，一般前3位是屬名，后2位是種名。常見普通生物以自釋碼表明來源，如HUMAN，YEAST等，病毒例外，以臨時(shí)碼代替。如PDI_YEAST ,PDI代表Protein Disulfide Isomerase（蛋白質(zhì)二硫鍵異構(gòu)酶）；YEAST代表它來源于Yeast(酵母)，屬于自釋碼。 FER_HALHAFER代表ferredoxin鐵還原蛋白；HALHA表明其生物來源為Halobacterirn halobium(海洋嗜鹽菌，HAL代表嗜鹽菌層Halobacterium，HA代表海洋生物Halobium)。 1.2 數(shù)據(jù)類型

17、(Data class)分標(biāo)準(zhǔn)(Standard)數(shù)據(jù)和初級(jí)(Preliminary)數(shù)據(jù)兩類。數(shù)據(jù)達(dá)不到SWISS- PROT標(biāo)準(zhǔn)的屬于初級(jí)數(shù)據(jù)。1.3 分子類型 (Molecular type)在SWISS-PROT數(shù)據(jù)庫(kù)，分子類型均為PRT，代表蛋白質(zhì)(PRoTein)。1.4 分子長(zhǎng)度(Length of the molecule)ID數(shù)據(jù)行的最后一項(xiàng)是序列的氨基酸殘基數(shù)目。2.AC (Accession number) 蛋白質(zhì)注冊(cè)號(hào)由于數(shù)據(jù)的合并與增刪，一個(gè)記錄可能有幾個(gè)注冊(cè)號(hào)，以第一個(gè)注冊(cè)號(hào)為準(zhǔn)；但一般情況下，一個(gè)記錄只有一個(gè)注冊(cè)號(hào)。3.DT (Date) 記錄日期或最后一次更新的

18、日期格式為DD-MMM-YEAR(REL. XX. COMMENT) 日-月-年(發(fā)行號(hào)，記錄緣由）記錄緣由分為創(chuàng)建、序列更新和其他內(nèi)容更新三種。4.DE (DEscription) 描述包含蛋白質(zhì)序列的描述性信息，無固定格式。5.GN (GeneName)基因名稱格式為GN NAME1AND/ORNAME2多個(gè)基因編碼同一個(gè)蛋白時(shí)，同義名稱的基因間以 OR 相隔；不同基因編碼蛋白質(zhì)的不同亞基時(shí)，基因之間以 AND 相隔。6.KW (KeyWord)關(guān)鍵詞可用于蛋白質(zhì)功能，結(jié)構(gòu)或其他范疇的蛋白質(zhì)序列索引。7.OS (Organism Species)生物種屬表明序列的來源，通常采用拉丁種屬名

19、，括弧中繼以英文名。如：OS SACCHARMYCES CEREVISIAE(BAKERS YEAST)表示：生物來源為酵母OS HOMO SAPIENS（HUMAN）表示：生物來源為人描述內(nèi)容組成。8.OG (OrGanelle)細(xì)胞器(細(xì)胞內(nèi)小器官)表明基因編碼蛋白的來源或定位，如細(xì)胞內(nèi)的線粒體，葉綠體或質(zhì)粒等。9.OC (Organism classification)生物分類以樹狀分類的從上至下的格式列出，最普遍的類目列在最前面。10.RN，RP，RC，RX，RA，RL 參考數(shù)據(jù)RN (Reference Number) 參考號(hào)在本記錄中的參考文獻(xiàn)的排號(hào)RP (Reference

20、Position) 參考性質(zhì) 文獻(xiàn)作者的工作性質(zhì)和范圍RC (Reference Comment)相關(guān)內(nèi)容文獻(xiàn)相關(guān)內(nèi)容(可選數(shù)據(jù)行)RX (Reference Cross-reference) 交互參照用來表示題錄型數(shù)據(jù)庫(kù)(Bibliographic database)中的標(biāo)識(shí)號(hào)，一般是MEDLINE數(shù)據(jù)庫(kù)的標(biāo)識(shí)號(hào)。如：RX MEDLINE；91001972RA (Reference Author)文獻(xiàn)作者RL (Reference Location)參考文獻(xiàn)來源，包括幾種：雜志：注明雜志縮寫，卷次，頁(yè)碼及發(fā)表日期（年）；書：注明書名，版次，卷次，編號(hào)，頁(yè)碼，出版及發(fā)表日期（年）書名前冠以(

21、IN)字樣；未出版物：示“UNPUBLISHED”字樣；論文(Thesis)：冠以“THESIS”標(biāo)記，注明時(shí)間（年），研究所，國(guó)家；專利(Patent)：注明專利號(hào)，日期；直接遞交序列(submissions)：注明遞交年月及數(shù)據(jù)庫(kù)。 11.DR (Database cross-Reference）參照數(shù)據(jù)庫(kù)格式為DRDATA_BANK_IDENTIFIER；PRIMARY_IDENTIFIER；SECONDARY_ IDENTIFIER 包含數(shù)據(jù)庫(kù)縮寫名，第一標(biāo)識(shí)號(hào)(Primary Identifier)，第二標(biāo)識(shí)號(hào)（Secondary Identifier,為補(bǔ)充信息）。12.

22、FT (Feature Table）特征表提供簡(jiǎn)潔精煉的數(shù)據(jù)注釋，描述了序列的位點(diǎn)及作用區(qū)域。一般情況下列出翻譯后修飾、結(jié)合位點(diǎn)、酶活性位點(diǎn)和局部二級(jí)結(jié)構(gòu)等其他特征。每一特征數(shù)據(jù)行按關(guān)鍵詞、殘基起始序號(hào)區(qū)域及簡(jiǎn)扼的13.SQ (SeQuence header）序列題頭列出蛋白質(zhì)的序列長(zhǎng)度（氨基酸數(shù)目），分子量（MW），CRC32序列值蛋白質(zhì)數(shù)據(jù)庫(kù)（簡(jiǎn)稱PDB）,專門用于處理和分類儲(chǔ)存蛋白質(zhì)等生物大分子的3D結(jié)構(gòu)及其他生物學(xué)數(shù)據(jù)，應(yīng)用范圍極其廣泛，是十分重要的世界性數(shù)據(jù)庫(kù)之一。蛋白質(zhì)的基本立體結(jié)構(gòu)數(shù)據(jù)庫(kù)為PDB (Protein Data Bank)，1971年建立于美國(guó)布魯?？撕Ｎ膰?guó)家實(shí)驗(yàn)室

23、。該數(shù)據(jù)庫(kù)中收集了通過X射線衍射和核磁共振（NMR）試驗(yàn)測(cè)定的蛋白質(zhì)結(jié)構(gòu)的精確坐標(biāo)數(shù)據(jù)。這種數(shù)據(jù)即蛋白質(zhì)中的原子坐標(biāo)是蛋白質(zhì)結(jié)構(gòu)的最細(xì)致的層次。該數(shù)據(jù)庫(kù)的管理者是結(jié)構(gòu)生物信息學(xué)合作研究組織（Research Collaboration for Structural Bioinformatics， RCSB， /pdb截至2004年4月20日，該數(shù)據(jù)庫(kù)所收錄的各種結(jié)構(gòu)數(shù)據(jù)已達(dá)25176條之多。在太平洋時(shí)間每個(gè)周三的凌晨一點(diǎn)，該數(shù)據(jù)庫(kù)會(huì)釋放一些新的結(jié)構(gòu)數(shù)據(jù)，在PDB年報(bào)和PDB新聞中，用戶可以詳盡地了解該數(shù)據(jù)庫(kù)的歷史、功能、最新進(jìn)展以及最終目的等信息。PDB是RCSB建立的全世界最完整的包括蛋白質(zhì)

24、、核酸、蛋白質(zhì)-核酸復(fù)合物及病毒等生物大分子的三維結(jié)構(gòu)數(shù)據(jù)庫(kù)。 PDB生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)的內(nèi)容來自于全世界相關(guān)研究者提交的生物大分子的原子坐標(biāo)、注釋、一級(jí)結(jié)構(gòu)、二級(jí)機(jī)構(gòu)、晶體結(jié)構(gòu)因子、NMR實(shí)驗(yàn)數(shù)據(jù)，由RCSB維護(hù)。每周大概生成50-100個(gè)新數(shù)據(jù)。這些分子結(jié)構(gòu)信息可以從PDB主頁(yè)檢索，也可以通過其鏡像站點(diǎn)，或者FTP站點(diǎn)下載。PDB的基本目標(biāo)是使得用戶可以查找到感興趣的結(jié)構(gòu)資料對(duì)一個(gè)或多個(gè)數(shù)據(jù)執(zhí)行簡(jiǎn)單的分析作為互聯(lián)網(wǎng)上一個(gè)可以了解到更多附加說明信息的入口使得用戶可以下載結(jié)構(gòu)信息，尤其是笛卡爾原子坐標(biāo)等以便于下一步的分析。數(shù)據(jù)格式每個(gè)PDB文件可能分割成一系列行,由行終止符終止.在記錄文

25、件中每行由80列組成.每條PDB記錄末尾標(biāo)志應(yīng)該是行終止符.PDB文件中每行都是自我識(shí)別的.每行的前六列存放記錄名稱,左對(duì)齊空格補(bǔ)足.必須和規(guī)定的記錄名稱一致.PDB文件也可看成是各種記錄類型的總和.每個(gè)記錄類型包括一行或多行又被更深一層分成各字段.該文件詳細(xì)描述了每個(gè)數(shù)據(jù)類型,一般包括如下幾部分:綜述記錄格式細(xì)節(jié) 例子 HEADER(分子類，公布日期、ID號(hào))記錄的表示PDB數(shù)據(jù)庫(kù)中的數(shù)據(jù)都應(yīng)按照一定的規(guī)定來出現(xiàn)，強(qiáng)制記錄類型必須出現(xiàn)在所有的記錄中，當(dāng)強(qiáng)制數(shù)據(jù)沒有提供,記錄名必須出現(xiàn)在記錄中并以NULL表示當(dāng)此條件存在時(shí)選擇項(xiàng)表就變成強(qiáng)制記錄類型。以下表格是對(duì)這兩種類型的具體劃分和描述：

26、蛋白質(zhì)序列數(shù)據(jù)庫(kù)為基礎(chǔ)構(gòu)建的二級(jí)數(shù)據(jù)庫(kù)生物信息資料的龐大無比，如何快速而正確的取得、管理、分析、使用這些網(wǎng)絡(luò)資源已成為十分重要的課題。建立面向不同領(lǐng)域的二級(jí)數(shù)據(jù)庫(kù)，將具有相同特點(diǎn)的蛋白質(zhì)資源進(jìn)行歸納、分析，找出它們之間的共同之處。二級(jí)數(shù)據(jù)庫(kù)的種類蛋白序列模式的二級(jí)數(shù)據(jù)庫(kù)種類繁多，包括Prosite、Prints、Blocks等等。這些數(shù)據(jù)庫(kù)的共同特點(diǎn)是基于多序列比對(duì)。不同之處：一次數(shù)據(jù)庫(kù)來源及處理比對(duì)結(jié)果的原則和方法不同Prosite數(shù)據(jù)庫(kù)基于多序列比較得到的單一保守序列片段，或稱序列模體。除Prosite外，蛋白質(zhì)序列二次數(shù)據(jù)庫(kù)還有蛋白質(zhì)序列指紋圖譜數(shù)據(jù)庫(kù)Prints(Attwood, 19

27、98)、蛋白質(zhì)序列模塊數(shù)據(jù)庫(kù)Blocks(Henikoff, 1998)、蛋白質(zhì)序列家族數(shù)據(jù)庫(kù)Pfam(Sonnhammer, 1998)、蛋白質(zhì)序列概貌數(shù)據(jù)庫(kù)Profile、蛋白質(zhì)序列識(shí)別數(shù)據(jù)庫(kù)Identify等(表1.16)。應(yīng)該說，這些方法各有一定的特色。從某種意義上說，蛋白質(zhì)序列二次數(shù)據(jù)庫(kù)實(shí)際上也是蛋白質(zhì)功能數(shù)據(jù)庫(kù)，因?yàn)閺倪@些數(shù)據(jù)庫(kù)中，可以得到有關(guān)蛋白質(zhì)功能、家族、進(jìn)化等信息。？分別說明幾個(gè)二級(jí)數(shù)據(jù)庫(kù)所存儲(chǔ)的內(nèi)容，具有什么功能單元DIP數(shù)據(jù)庫(kù)及數(shù)據(jù)介紹DIP(Database of Interacting Proteins，蛋白互相作用數(shù)據(jù)庫(kù))于1999年在UCLA的David Els

28、enberg實(shí)驗(yàn)室建立；主旨：是把關(guān)于蛋白互作的多樣的實(shí)驗(yàn)信息整合成一個(gè)容易進(jìn)行查詢的專一數(shù)據(jù)庫(kù)?；プ髦傅氖莾蓚€(gè)氨基酸鏈在實(shí)驗(yàn)上證實(shí)相互結(jié)合。它轉(zhuǎn)化了MEDLINE文獻(xiàn)中關(guān)于蛋白互作的實(shí)驗(yàn)結(jié)果，儲(chǔ)存和組織了多種觀察和實(shí)驗(yàn)技術(shù)下得到的蛋白互作信息.DIP發(fā)展了全基因組范圍的數(shù)據(jù)質(zhì)量監(jiān)測(cè)工具，保證了數(shù)據(jù)的可信性 DIP收集的互作蛋白數(shù)據(jù)不僅有利于研究某一具體互作蛋白的關(guān)系，還對(duì)信號(hào)轉(zhuǎn)導(dǎo)、蛋白相互作用細(xì)胞網(wǎng)絡(luò)的組織和復(fù)雜性研究起推動(dòng)作用。DIP數(shù)據(jù)庫(kù)及數(shù)據(jù)介紹DIP數(shù)據(jù)庫(kù)使用開放式的PostgreSQL數(shù)據(jù)庫(kù)管理系統(tǒng)。注：PostgreSQL 是一種非常復(fù)雜的對(duì)象-關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)（ORDBMS

29、），也是目前功能最強(qiáng)大，特性最豐富和最復(fù)雜的自由軟件數(shù)據(jù)庫(kù)系統(tǒng)。有些特性甚至連商業(yè)數(shù)據(jù)庫(kù)都不具備。這個(gè)起源于伯克利（BSD）的數(shù)據(jù)庫(kù)研究計(jì)劃目前已經(jīng)衍生成一項(xiàng)國(guó)際開發(fā)項(xiàng)目，并且有非常廣泛的用戶。 DIP數(shù)據(jù)庫(kù)及數(shù)據(jù)介紹Experiment部分包括了對(duì)實(shí)驗(yàn)細(xì)節(jié)的介紹和相關(guān)文獻(xiàn)的鏈接。注： EVIDENCE表格提供相關(guān)實(shí)驗(yàn)的具體細(xì)節(jié)SOURCE表格提供了相關(guān)實(shí)驗(yàn)的來源，包括MEDLINE標(biāo)準(zhǔn)的文獻(xiàn)號(hào)碼（PMID/UID）和文獻(xiàn)的作者、題目、刊物和出版年份等數(shù)據(jù)庫(kù)搜尋DIP數(shù)據(jù)庫(kù)可以以多種方式搜尋得到信息，也可以根據(jù)用戶特定的標(biāo)準(zhǔn)得到蛋白或相互作用數(shù)據(jù)庫(kù)組成DIP數(shù)據(jù)庫(kù)是由節(jié)點(diǎn)（node）和邊（

30、edge）組成: DIP節(jié)點(diǎn)(蛋白) 每個(gè)DIP相互作用的蛋白都具有一個(gè)獨(dú)特的識(shí)別信息（形式為）和對(duì)應(yīng)其他一個(gè)主要的蛋白數(shù)據(jù)庫(kù)PIR, SWISSPROT 和/或 GENBANK的參考。另外，包括一些關(guān)于蛋白的基本信息，如名稱、功能、亞細(xì)胞定位、在其他生物學(xué)數(shù)據(jù)庫(kù)中的參考等。 DIP邊 (相互作用) 每個(gè)DIP相互作用都具有一個(gè)獨(dú)特的識(shí)別信息（形式為），還具有相互作用區(qū)域、區(qū)域分離常數(shù)和實(shí)驗(yàn)手段等標(biāo)志此相互作用的信息。一個(gè)DIP發(fā)展的重要方面是整合現(xiàn)在存在的很好的生物學(xué)數(shù)據(jù)庫(kù)，如：蛋白數(shù)據(jù)庫(kù)SWISS-PROT，通路數(shù)據(jù)庫(kù)KEGG、TRANSPATH，酵母數(shù)據(jù)庫(kù)YPD等，使用戶能對(duì)

31、一個(gè)指定的蛋白得到最完整的信息。 1 增加DIP數(shù)據(jù)庫(kù)中人亞數(shù)據(jù)的數(shù)據(jù)數(shù)目；2 發(fā)展新的獲得和分析數(shù)據(jù)庫(kù)中信息的工具。DIP未來發(fā)展方向 Gene Ontology 的功能本體論框架基因本體論（gene ontology）的建立Ontology是一個(gè)哲學(xué)術(shù)語(yǔ)，在西方哲學(xué)中Ontology是指本體論，反映世界的本原是存在的本身。這一個(gè)哲學(xué)術(shù)語(yǔ)水者人們對(duì)自然科學(xué)的研究的深入，已經(jīng)作為一個(gè)概念的規(guī)范以及通過概念與概念之間的關(guān)系來對(duì)不同自然科學(xué)知識(shí)體系進(jìn)行客觀的描述，完成對(duì)不同自然科學(xué)領(lǐng)域的知識(shí)表示。這些概念的詳細(xì)說明和它們之間的關(guān)系通過具有代表性的詞匯表來描述，通過這些詞表可以用基于知識(shí)的程序來表示

32、知識(shí)體系。它所反映的不是某個(gè)個(gè)體私有的，而是可以被一個(gè)群體所接受的。通過Ontology的建立，我們可以達(dá)到知識(shí)共享，獲取和再利用的目的，能夠方便有效的進(jìn)行人工智能和機(jī)器學(xué)習(xí)，以實(shí)現(xiàn)對(duì)知識(shí)體系的進(jìn)一步認(rèn)識(shí)。Gene Ontology (GO)項(xiàng)目正是為了能夠使對(duì)各種數(shù)據(jù)庫(kù)中基因產(chǎn)物功能描述相一致的努力結(jié)果。這個(gè)項(xiàng)目最初是由1988年對(duì)三個(gè)模式生物數(shù)據(jù)庫(kù)的整合開始：: FlyBase (果蠅數(shù)據(jù)庫(kù)Drosophila), Saccharomyces Genome Database (酵母基因組數(shù)據(jù)庫(kù)SGD) 和 Mouse Genome Database (小鼠基因組數(shù)據(jù)庫(kù)MGD)。從那開始，

33、GO不斷發(fā)展擴(kuò)大，現(xiàn)在已包含數(shù)十個(gè)動(dòng)物、植物、微生物的數(shù)據(jù)庫(kù)。GO的結(jié)構(gòu)包括三個(gè)方面：分子生物學(xué)上的功能生物學(xué)途徑在細(xì)胞中的組件作用. 當(dāng)然，它們可能在每一個(gè)方面都有多種性質(zhì)。如細(xì)胞色素C,在分子功能上體現(xiàn)為電子傳遞活性，在生物學(xué)途徑中與氧化磷酸化和細(xì)胞凋亡有關(guān)，在細(xì)胞中存在于線粒體質(zhì)中和線粒體內(nèi)膜上。下面，將進(jìn)一步的分別說明GO的具體定義情況?；虍a(chǎn)物基因產(chǎn)物和其生物功能常常被我們混淆。例如，“乙醇脫氫酶”既可以指放在Eppendorf管里的基因產(chǎn)物，也表明了它的功能。一個(gè)基因產(chǎn)物可以擁有多種分子功能，多種基因產(chǎn)物也可以行使同一種分子功能。比如還是“乙醇脫氫酶”，其實(shí)多種基因產(chǎn)物都具有這種

34、功能，而并不是所有的這些酶都是由乙醇脫氫酶基因編碼的。一個(gè)基因產(chǎn)物可以同時(shí)具有“乙醇脫氫酶”和“乙醛歧化酶”兩種功能，甚至更多。所以，在GO中，很重要的一點(diǎn)在于，當(dāng)使用“乙醇脫氫酶活性”這種術(shù)語(yǔ)時(shí)，所指的是功能，并不是基因產(chǎn)物。許多基因產(chǎn)物會(huì)形成復(fù)合物后執(zhí)行功能。這些“基因復(fù)合物”有些非常簡(jiǎn)單（如血紅蛋白由血紅蛋白基因產(chǎn)物球蛋白、球蛋白和小分子的亞血紅素組成），有些非常復(fù)雜（如核糖體）?，F(xiàn)在，小分子的描述還沒有包括在GO中。在未來，這個(gè)問題可望由和現(xiàn)在的Klotho和LIGAND等小分子數(shù)據(jù)庫(kù)聯(lián)合而解決。分子功能分子功能描述在分子生物學(xué)上的活性，如催化活性或結(jié)合活性。GO分子功能定義功能而不

35、是整體分子，而且不特異性地指出這些功能具體的時(shí)空信息。分子功能大部分指的是單個(gè)基因產(chǎn)物的功能，還有一小部分是此基因產(chǎn)物形成的復(fù)合物的功能。定義功能的義項(xiàng)包括催化活性、轉(zhuǎn)運(yùn)活性、結(jié)合活性等，更為狹窄的定義包括腺苷酸環(huán)化酶活性或鐘形受體結(jié)合活性等。生物學(xué)途徑生物學(xué)途徑是由分子功能有序地組成的，具有多個(gè)步驟的一個(gè)過程。舉例來說，較為寬泛的是細(xì)胞生長(zhǎng)和維持、信號(hào)傳導(dǎo)。一些更為具體的例子包括嘧啶代謝或配糖基的運(yùn)輸?shù)取Ｒ粋€(gè)生物學(xué)途徑并不是完全和一條生物學(xué)通路相等。因此，GO并不涉及到通路中復(fù)雜的機(jī)制和所依賴的因素細(xì)胞中的位置指基因產(chǎn)物位于何種細(xì)胞器或基因產(chǎn)物組中（如糙面內(nèi)質(zhì)網(wǎng)，核或核糖體，蛋白酶體等

36、）。GO的形式 GO 定義的術(shù)語(yǔ)有著直接非循環(huán)式（directed acyclic graphs (DAGs)的特點(diǎn)，而并非是傳統(tǒng)的等級(jí)制（hierarchy）定義方式（隨著代數(shù)增加，下一級(jí)比上一級(jí)更為具體）。舉個(gè)例子來說，生物學(xué)途徑中有一個(gè)定義是己糖合成，它的上一級(jí)為己糖代謝和單糖合成。當(dāng)某個(gè)基因被注解為“己糖合成活性”后，它自動(dòng)地獲得了己糖代謝和單糖合成地注解。因?yàn)樵贕O中，每個(gè)術(shù)語(yǔ)必須遵循“真途徑“法則，即如果下一代的術(shù)語(yǔ)可以用于描述此基因產(chǎn)物，其上一代術(shù)語(yǔ)也可以適用。Gene Ontology中功能之間關(guān)系的分析Gene Ontology在我們的工作中主要用來分析功能之間的聯(lián)系。如果從

37、物理層面看待生命現(xiàn)象，可以想象蛋白質(zhì)在細(xì)胞中多個(gè)生物功能、多個(gè)細(xì)胞過程和生化反應(yīng)中發(fā)揮作用，使得生命得以維持；但如果從功能層面來看，每一個(gè)蛋白質(zhì)都攜帶了不同的功能，細(xì)胞就可以看作是一個(gè)復(fù)雜的功能相互作用的網(wǎng)絡(luò)。在這個(gè)網(wǎng)絡(luò)中，通常一個(gè)功能會(huì)與其他多個(gè)功能集中完成同一件任務(wù)，然后與另外一些功能相互作用去完成另一件任務(wù)。 Gene Ontology詳細(xì)的功能分類體系為分析系統(tǒng)的功能結(jié)構(gòu)提供了便利。我們把Gene Ontology中功能之間的聯(lián)系分為兩種類型：第一種是層與層之間的“is a” 關(guān)系和“part of” 關(guān)系，我們統(tǒng)稱為父子關(guān)系；第二種基于功能之間的互作，如果兩個(gè)功能之間有互作并且二者沒

38、有包含與被包含的關(guān)系，即其中一個(gè)功能不是另一功能的祖先節(jié)點(diǎn)也不是另一功能的子孫節(jié)點(diǎn)，我們就稱兩個(gè)功能有非繼承關(guān)系。一個(gè)功能會(huì)與其他多個(gè)功能集中完成同一件任務(wù)，從另一個(gè)角度看，這使得一個(gè)單個(gè)的蛋白質(zhì)會(huì)同時(shí)具有多個(gè)功能。利用這一點(diǎn)，可以識(shí)別相關(guān)的功能，并可以利用蛋白質(zhì)層面信息判斷什么情況下不同功能傾向于共同發(fā)揮作用。我們能夠直接從Gene Ontology結(jié)構(gòu)中得到第一種功能關(guān)系；利用蛋白質(zhì)功能注釋信息，判斷不同功能是否在同一個(gè)蛋白質(zhì)中出現(xiàn)，可于確定非繼承關(guān)系的功能聯(lián)系。KEGG京都基因和基因組百科全書(KEGG)是系統(tǒng)分析基因功能，聯(lián)系基因組信息和功能信息的知識(shí)庫(kù)?；蚪M信息存儲(chǔ)在GENES數(shù)據(jù)庫(kù)里，包括完整和部分測(cè)序的基因組序列；更高級(jí)的功能信息存儲(chǔ)在PATHWAY數(shù)據(jù)庫(kù)里，包括圖解的細(xì)胞生化過程如代謝、膜轉(zhuǎn)運(yùn)、信號(hào)

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基因組數(shù)據(jù)庫(kù)課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基因組數(shù)據(jù)庫(kù)課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔