生物分子數(shù)據(jù)庫(kù)管理知識(shí)

上傳人：b*** IP屬地：江西上傳時(shí)間：2021-11-24 格式：PPTX 頁數(shù)：107 大小：1.29MB 積分：40 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩102頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、主講人：孫主講人：孫嘯嘯制作人：劉志華制作人：劉志華東南大學(xué) 吳健雄實(shí)驗(yàn)室生物分子數(shù)據(jù)生物分子數(shù)據(jù)高速增長(zhǎng)高速增長(zhǎng) 分子生物學(xué)分子生物學(xué)及相關(guān)領(lǐng)域研究人員及相關(guān)領(lǐng)域研究人員迅速獲得最新實(shí)驗(yàn)數(shù)據(jù)迅速獲得最新實(shí)驗(yàn)數(shù)據(jù) 建立生物分子數(shù)據(jù)庫(kù)建立生物分子數(shù)據(jù)庫(kù) v生物分子數(shù)據(jù)庫(kù)應(yīng)滿足5個(gè)方面的主要需求v（1）時(shí)間性v（2）注釋 v（3）支撐數(shù)據(jù) v（4）數(shù)據(jù)質(zhì)量 v（5）集成性 v生物分子數(shù)據(jù)庫(kù) 一級(jí)數(shù)據(jù)庫(kù)v數(shù)據(jù)庫(kù)中的數(shù)據(jù)直接來源于實(shí)驗(yàn)獲得的原始數(shù)據(jù)，只經(jīng)過簡(jiǎn)單的歸類整理和注釋二級(jí)數(shù)據(jù)庫(kù)v對(duì)原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果，是在一級(jí)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定的應(yīng)用目標(biāo)而建立的

2、。（1）數(shù)據(jù)庫(kù)的更新速度不斷加快數(shù)據(jù)量呈指數(shù)增長(zhǎng)趨勢(shì) （2）數(shù)據(jù)庫(kù)使用頻率增長(zhǎng)更快（3）數(shù)據(jù)庫(kù)的復(fù)雜程度不斷增加（4）數(shù)據(jù)庫(kù)網(wǎng)絡(luò)化（5）面向應(yīng)用（6）先進(jìn)的軟硬件配置三個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)基本一致，僅在數(shù)據(jù)格式上有所差別，對(duì)于特定的查詢，三個(gè)數(shù)據(jù)庫(kù)的響應(yīng)結(jié)果一樣。這三個(gè)數(shù)據(jù)庫(kù)是綜合性的DNA和RNA序列數(shù)據(jù)庫(kù)，每條記錄代表一個(gè)單獨(dú)、連續(xù)、附有注釋的DNA或RNA片段。以下著重介紹以下著重介紹EBMLEBMLMBL中的數(shù)據(jù)分類情況（單位：Gigabases）（EST-Expressed sequence tags; STS-sequence tagged sites）21 Mar 20

3、03 37,943,364,438 bases in 24,353,128 records. “ID”為序列的標(biāo)識(shí)符行，包括登錄號(hào)、類型，分子的長(zhǎng)度 “AC”為登錄號(hào)行；“XX”為分隔符號(hào)行； “DT”為創(chuàng)建和更新日期行 “DE”為序列描述行；“KW”為關(guān)鍵字行；“OG”行描述細(xì)胞組織；“OS”行描述生物體種屬；“OC”行描述生物體分類信息；“RN”描述參考文獻(xiàn)的編號(hào)；“RP”描述參考文獻(xiàn)的頁碼；“RA”描述參考文獻(xiàn)的作者；“RT”描述參考文獻(xiàn)的題目；“RL”描述參考文獻(xiàn)的出處；“RC”描述參考文獻(xiàn)的注解；“RX”、“DR”行描述交叉引用信息；“FH” 為特征開始符號(hào)；“FT”為特征表行（1

4、）Feature Key，它是描述域生物功能的關(guān)鍵字；（2）Location，指明特征在序列中的特定位置；（3）Qualifiers，描述關(guān)于一個(gè)特征的輔助信息；文件體由序列本身所組成，由“SQ”標(biāo)志的行開始。序列結(jié)束的標(biāo)記是“/”。EMBL核酸數(shù)據(jù)庫(kù)中的每一個(gè)序列數(shù)據(jù)被賦予一個(gè)登錄號(hào)，它是一個(gè)永久性的唯一標(biāo)識(shí) EMBL的序列數(shù)據(jù)用外在的ASCII文本文件來表示，而每一個(gè)文件分為文件頭和文件體兩大部分文件頭由一系列的信息描述行所組成，文件頭實(shí)際上對(duì)應(yīng)于一個(gè)序列的注釋（annotation）提交數(shù)據(jù)提交數(shù)據(jù)（1）編輯電子表格（2）利用Authorin程序使用使用EMBLEMBL（1）CD-

5、ROM形式（2）ftp服務(wù)器（3）Gopher服務(wù)器這是目前最常用的一種形式 EMBLEMBL提供一些與序列相關(guān)的檢索操作（基于提供一些與序列相關(guān)的檢索操作（基于3W3W服務(wù)器）服務(wù)器）（1）序列查詢最簡(jiǎn)單的查詢就是通過序列的登錄號(hào)（如X58929）或序列名稱（如SCARGC）直接查詢。如果找到所查詢的序列，則服務(wù)器將查詢結(jié)果以HTML文件返回給用戶如果數(shù)據(jù)庫(kù)中該序列有到MEDLINE的交叉索引，則系統(tǒng)同時(shí)返回與包含參考文獻(xiàn)摘要等信息的MEDLINE鏈接如果該序列有到其它數(shù)據(jù)庫(kù)的交叉索引，也返回相應(yīng)的鏈接例如: 登錄號(hào)為J00231的核酸序列具有這樣一個(gè)交叉索引行：DRSWISS-PROT：P

6、01860；GC3_HUMAN（2）核酸同源性搜索 3W服務(wù)器支持用戶使用FastA程序進(jìn)行核酸同源搜索。FastA根據(jù)給定的目標(biāo)序列在數(shù)據(jù)庫(kù)中搜索其同源序列。人類基因組計(jì)劃所得到的圖譜數(shù)據(jù)人類基因組計(jì)劃所得到的圖譜數(shù)據(jù) 目前GDB包含對(duì)下述三種對(duì)象的描述：（1）人類基因組區(qū)域包括基因、克隆、PCR標(biāo)記物、斷點(diǎn)、細(xì)胞遺傳學(xué)標(biāo)記、易碎位點(diǎn)、 EST、綜合區(qū)域、contigs、重復(fù)等；（2）人類基因組圖譜，包含細(xì)胞遺傳學(xué)圖譜、連接圖譜、輻射混合圖譜、contig 圖譜、集成圖譜，所有這些圖譜都可以被直觀地顯示出來；（3）人類基因組中的變化，包括基因突變和基因多態(tài)性，加上等位基因頻率數(shù)據(jù)。

7、與染色體相關(guān)的信息EnsemblEnsembl包括所有公開的人類基因組包括所有公開的人類基因組DNADNA序列，通過注序列，通過注釋形成的關(guān)于序列的特征。釋形成的關(guān)于序列的特征。現(xiàn)在包括其他基因組，如現(xiàn)在包括其他基因組，如大鼠、小鼠、線蟲、果蠅等。大鼠、小鼠、線蟲、果蠅等。例如：基例如：基因因通過實(shí)驗(yàn)發(fā)現(xiàn)的通過實(shí)驗(yàn)發(fā)現(xiàn)的或者是通過或者是通過GenScan程序預(yù)測(cè)的程序預(yù)測(cè)的其他的特征：其他的特征：?jiǎn)魏塑账岫鄳B(tài)性（單核苷酸多態(tài)性（SNPSNP）、重復(fù)序列等）、重復(fù)序列等Ensembl 數(shù)據(jù)庫(kù)結(jié)構(gòu)圖 Ensembl提供多種查詢方式通過關(guān)鍵字查詢用BLAST進(jìn)行相似序列的搜索另一種更直觀的方式

8、是顯示各染色體用戶可以在染色體水平上選擇感興趣的位點(diǎn)，逐層放大瀏覽整個(gè)基因組人的第人的第9號(hào)號(hào)染色體及大染色體及大鼠對(duì)應(yīng)的染鼠對(duì)應(yīng)的染色體片段色體片段EST（Expressed Sequence Tags）方法已被證明是識(shí)別轉(zhuǎn)錄序列的最有效方法，EST序列大約覆蓋了人類基因的90%。 WEB頁面或emailFTP有關(guān)EST的數(shù)據(jù)dbEST數(shù)據(jù)庫(kù)每個(gè)UniGene群包含:代表一個(gè)唯一基因的多個(gè)序列，附有該基因相關(guān)的信息，如基因表達(dá)的組織類型、定位圖譜除了基因的序列之外，還包括大量的EST序列。目前，UniGene中包括人類、大鼠、小鼠、牛的相關(guān)數(shù)據(jù)，因?yàn)檫@些生物有大量的EST數(shù)據(jù)。w 目的

9、：目的：幫助研究者鑒別和解釋蛋白質(zhì)序列信息，幫助研究者鑒別和解釋蛋白質(zhì)序列信息，研究分子進(jìn)化、功能基因組。研究分子進(jìn)化、功能基因組。w 它是一個(gè)全面的、經(jīng)過注釋的、非冗余的蛋白它是一個(gè)全面的、經(jīng)過注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫(kù)。質(zhì)序列數(shù)據(jù)庫(kù)。 w 所有序列數(shù)據(jù)都經(jīng)過整理，超過所有序列數(shù)據(jù)都經(jīng)過整理，超過99%的序列已的序列已按蛋白質(zhì)家族分類，一半以上還按蛋白質(zhì)超家按蛋白質(zhì)家族分類，一半以上還按蛋白質(zhì)超家族進(jìn)行了分類。族進(jìn)行了分類。1 1、PIRPIR（Protein Information ResourceProtein Information Resource）除了蛋白質(zhì)序列數(shù)據(jù)之外，除了

10、蛋白質(zhì)序列數(shù)據(jù)之外，PIR還包含以下還包含以下信息：信息： (1)蛋白質(zhì)名稱、蛋白質(zhì)的分類、蛋白質(zhì)的來源；蛋白質(zhì)名稱、蛋白質(zhì)的分類、蛋白質(zhì)的來源； (2)關(guān)于原始數(shù)據(jù)的參考文獻(xiàn)；關(guān)于原始數(shù)據(jù)的參考文獻(xiàn)； (3)蛋白質(zhì)功能和蛋白質(zhì)的一般特征，包括基因蛋白質(zhì)功能和蛋白質(zhì)的一般特征，包括基因表達(dá)、翻譯后處理、活化等；表達(dá)、翻譯后處理、活化等； (4)序列中相關(guān)的位點(diǎn)、功能區(qū)域。序列中相關(guān)的位點(diǎn)、功能區(qū)域。PIR提供三種類型的檢索服務(wù):一是基于文本的交互式查詢，用戶通過關(guān)鍵字進(jìn)行數(shù)據(jù)查詢。二是標(biāo)準(zhǔn)的序列相似性搜索，包括BLAST、FastA等。三是結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級(jí)搜索，包

11、括按注釋分類的相似性搜索、結(jié)構(gòu)域搜索等。三個(gè)子數(shù)據(jù)庫(kù) SWISS-PROT中的數(shù)據(jù)來源于不同源地：（1）從核酸數(shù)據(jù)庫(kù)經(jīng)過翻譯推導(dǎo)而來；（2）從蛋白質(zhì)數(shù)據(jù)庫(kù)PIR挑選出合適的數(shù)據(jù)；（3）從科學(xué)文獻(xiàn)中摘錄；（4）研究人員直接提交的蛋白質(zhì)序列數(shù)據(jù) SWISS-PROT有三個(gè)明顯的特點(diǎn) ：（1 1）在SWISS-PROT中，數(shù)據(jù)分為核心數(shù)據(jù)和注釋兩大類。核心數(shù)據(jù)包括：序列數(shù)據(jù)、參考文獻(xiàn)、分類信息（蛋白質(zhì)生物來源的描述）注釋包括：（A)蛋白質(zhì)的功能描述； (B)翻譯后修飾； (C)域和功能位點(diǎn)，如鈣結(jié)合區(qū)域、ATP結(jié)合位點(diǎn)等； (D)蛋白質(zhì)的二級(jí)結(jié)構(gòu)； (E)蛋白質(zhì)的四級(jí)結(jié)構(gòu)，如同構(gòu)二聚體、異構(gòu)三聚

12、體等； (F)與其它蛋白質(zhì)的相似性； (G)由于缺乏該蛋白質(zhì)而引起的疾??； (H)序列的矛盾、變化等。盡量將相關(guān)的數(shù)據(jù)歸并，降低數(shù)據(jù)庫(kù)的冗余程度。如果不同來源的原始數(shù)據(jù)有矛盾，則在相應(yīng)序列特征表中加以注釋。對(duì)于每一個(gè)登錄項(xiàng)，有許多指向其它數(shù)據(jù)庫(kù)相關(guān)數(shù)據(jù)的指針，這便于用戶迅速得到相關(guān)的信息。現(xiàn)有的交叉索引有：到EMBL核酸序列數(shù)據(jù)庫(kù)的索引，到PROSITE模式數(shù)據(jù)庫(kù)的索引，到生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB的索引等。包括： Swiss-Prot TrEMBL PIR 用戶可以通過文本查詢數(shù)據(jù)庫(kù)，可以利用BLAST程序搜索數(shù)據(jù)庫(kù)，也可以直接通過FTP 下載數(shù)據(jù)。UniProt包含3個(gè)部分

13、：（1）UniProt Knowledgebase（UniProt）蛋白質(zhì)序列、功能、分類、交叉引用等信息存取中心蛋白質(zhì)序列、功能、分類、交叉引用等信息存取中心（2）UniProt Non-redundant Reference（UniRef）數(shù)據(jù)庫(kù) 將密切相關(guān)的蛋白質(zhì)序列組合到一條記錄中以便提高搜索速度；（3）UniProt Archive（UniParc）資源庫(kù)，記錄所有蛋白質(zhì)序列的歷史。第四節(jié)第四節(jié) 生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)1、PDB（Protein Data Bank）w PDB中含有通過實(shí)驗(yàn)（X射線晶體衍射，核磁共振NMR）測(cè)定的生物大分子的三維結(jié)構(gòu)蛋白質(zhì)核酸糖

14、類其它復(fù)合物 w 一種是顯式序列信息（explicit sequence）在PDB文件中，以關(guān)鍵字SEQRES作為顯式序列標(biāo)記，以該關(guān)鍵字打頭的每一行都是關(guān)于序列的信息。 w 一種是隱式序列信息(implicit sequence) PDB的隱式序列即為立體化學(xué)數(shù)據(jù)，包括每個(gè)原子的名稱和原子的三維坐標(biāo)。 HEADER HYDROLASE 19-FEB-97 1ADZ TITLE THE SOLUTION STRUCTURE OF THE SECOND KUNITZ DOMAIN OF TITLE 2 TISSUE FACTOR PATHWAY INHIBITOR, NMR, 30 STRUCT

15、URES COMPND MOL_ID: 1; COMPND 2 MOLECULE: TISSUE FACTOR PATHWAY INHIBITOR; 。COMPND 8 BIOLOGICAL_UNIT: MONOMER SOURCE MOL_ID: 1; 。SOURCE 7 EXPRESSION_SYSTEM_PLASMID: PFLAG KEYWDS HYDROLASE, INHIBITOR, COAGULATION EXPDTA NMR, 30 STRUCTURES AUTHOR M.J.M.BURGERING,L.P.M.ORBONS REVDAT 1 25-FEB-98 1ADZ 0

16、JRNL AUTH M.J.BURGERING,L.P.ORBONS,A.VAN DER DOELEN, 。REMARK 1 REFERENCE 1 REMARK 1 AUTH M.T.STUBBS II REMARK 1 TITL STRUCTURAL ASPECTS OF FACTOR XA INHIBITION 。REMARK 999 SEQUENCE REMARK 999 1ADZ SWS P10646 1 - 111 NOT IN ATOMS LIST REMARK 999 1ADZ SWS P10646 183 - 304 NOT IN ATOMS LIST REMARK 999

17、THE FIRST NINE RESIDUES ARE NOT PART OF THE TFPI DOMAIN II REMARK 999 SEQUENCE BUT ARE FROM THE PFLAG PEPTIDE CLONING VECTOR. DBREF 1ADZ 1 71 SWS P10646 TFPI_HUMAN 112 182 SEQADV 1ADZ ASP 1 SWS P10646 ILE 112 ENGINEERED SEQADV 1ADZ TYR 2 SWS P10646 ILE 113 ENGINEERED SEQRES 1 71 ASP TYR LYS ASP ASP

18、ASP ASP LYS LEU LYS PRO ASP PHE SEQRES 2 71 CYS PHE LEU GLU GLU ASP PRO GLY ILE CYS ARG GLY TYR SEQRES 3 71 ILE THR ARG TYR PHE TYR ASN ASN GLN THR LYS GLN CYS SEQRES 4 71 GLU ARG PHE LYS TYR GLY GLY CYS LEU GLY ASN MET ASN SEQRES 5 71 ASN PHE GLU THR LEU GLU GLU CYS LYS ASN ILE CYS GLU SEQRES 6 71

19、ASP GLY PRO ASN GLY PHE HELIX 1 1 ASP 12 PHE 15 5 4 HELIX 2 2 ASN 34 THR 36 5 3 HELIX 3 3 LEU 57 ILE 63 1 7 SHEET 1 A 2 ARG 29 ASN 33 0 SHEET 2 A 2 GLN 38 PHE 42 -1 N PHE 42 O ARG 29 CRYST1 1.000 1.000 1.000 90.00 90.00 90.00 P 1 1 ORIGX1 1.000000 0.000000 0.000000 0.00000 ORIGX2 0.000000 1.000000 0

20、.000000 0.00000 ORIGX3 0.000000 0.000000 1.000000 0.00000 SCALE1 1.000000 0.000000 0.000000 0.00000 SCALE2 0.000000 1.000000 0.000000 0.00000 SCALE3 0.000000 0.000000 1.000000 0.00000 圖4.5 PDB文件 PDB文件示意顯示分子結(jié)構(gòu)（顯示分子結(jié)構(gòu)（RasMol RasMol ， ChemView ChemView ）2、MMDB(Molecular Modeling Database)w 分子模型分子模型MMD

21、B 是（是（NCBI）所開發(fā)的生物）所開發(fā)的生物信息數(shù)據(jù)庫(kù)集成系統(tǒng)信息數(shù)據(jù)庫(kù)集成系統(tǒng)Entrez的一個(gè)部分，數(shù)的一個(gè)部分，數(shù)據(jù)庫(kù)的內(nèi)容包括來自于實(shí)驗(yàn)的生物大分子結(jié)據(jù)庫(kù)的內(nèi)容包括來自于實(shí)驗(yàn)的生物大分子結(jié)構(gòu)數(shù)據(jù)。構(gòu)數(shù)據(jù)。 w 與與PDB相比，對(duì)于數(shù)據(jù)庫(kù)中的每一個(gè)生物大相比，對(duì)于數(shù)據(jù)庫(kù)中的每一個(gè)生物大分子結(jié)構(gòu)，分子結(jié)構(gòu)，MMDB具有許多附加的信息，如具有許多附加的信息，如分子的生物學(xué)功能、產(chǎn)生功能的機(jī)制、分子分子的生物學(xué)功能、產(chǎn)生功能的機(jī)制、分子的進(jìn)化歷史等的進(jìn)化歷史等。w 還提供生物大分子三維結(jié)構(gòu)模型顯示、結(jié)構(gòu)還提供生物大分子三維結(jié)構(gòu)模型顯示、結(jié)構(gòu)分析和結(jié)構(gòu)比較工具。分析和結(jié)構(gòu)比較工具。MMDB

22、實(shí)用工具第五節(jié)第五節(jié) 其它生物分子數(shù)據(jù)庫(kù)其它生物分子數(shù)據(jù)庫(kù)w 核酸序列變化單堿基多態(tài)性SNPs（Single nucleotide polymorphisms）w SNPs對(duì)人類遺傳學(xué)研究和醫(yī)學(xué)應(yīng)用具有重要的意義無論對(duì)于人類種群遺傳學(xué)的研究，還是對(duì)疾病性狀分析或個(gè)體化醫(yī)療，都需要深入地研究SNPs。 1、單堿基多態(tài)性數(shù)據(jù)庫(kù)dbSNP實(shí)例：GTTTGTGATT ACTTTGTAAA AACAGTGTAA TAAGTACTCA CTAAAGGAAA TTTAGAAAAT GATAAGCTTA Aggccgggca tggtgcctca tgcctgtaat cctagcactt tgggaggc

23、tg aggtgggtgg atcacctgag ctcaggagtt ccagatcatc ctggacaata tggtgaaacc ctgtctacgc ttaaaatacg R aaattagccg ggcgtggtgg ggcatgcctg tggtctcagc tactttggag actaaggtag aaggatcact tgaatcctgg aggtggaggt tgcagagtga gccaatatcg tgccactgca ctccagccta ggtgacagag gaagactctg tctcaaaaaa aagaaaaTAA GGCCAGACAC GGGGGCTCA

24、T GCTTGTAATC R=A/G 單倍型數(shù)據(jù)2、蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(kù)、蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(kù)SCOPwSCOP數(shù)據(jù)庫(kù) ( http:/scop.mrc-lmb.cam.ac.uk/scop/）的目標(biāo)是提供關(guān)于已知結(jié)構(gòu)的蛋白質(zhì)之間結(jié)構(gòu)和進(jìn)化關(guān)系的詳細(xì)描述，包括蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB中的所有條目。wSCOP數(shù)據(jù)庫(kù)除了提供蛋白質(zhì)結(jié)構(gòu)和進(jìn)化關(guān)系信息外，對(duì)于每一個(gè)蛋白質(zhì)還包括下述信息：到PDB的連接，序列，參考文獻(xiàn)，結(jié)構(gòu)的圖像等。w可以按結(jié)構(gòu)和進(jìn)化關(guān)系對(duì)蛋白質(zhì)分類，分類結(jié)果是一個(gè)具有層次結(jié)構(gòu)的樹，其主要的層次是家族、超家族和折疊: (1)家族：具有明顯的進(jìn)化關(guān)系 (2)超家族：具有遠(yuǎn)源進(jìn)化關(guān)系，具有共

25、同的進(jìn)化源 (3)折疊類：主要結(jié)構(gòu)相似3 3、蛋白質(zhì)二級(jí)結(jié)構(gòu)數(shù)據(jù)庫(kù)、蛋白質(zhì)二級(jí)結(jié)構(gòu)數(shù)據(jù)庫(kù)DSSPDSSPThe DSSP codeH = alpha helix B = residue in isolated beta-bridge E = extended strand, participates in beta ladder G = 3-helix (3/10 helix) I = 5 helix (pi helix) T = hydrogen bonded turn S = bend 例：4、蛋白質(zhì)同源序列比對(duì)數(shù)據(jù)庫(kù)、蛋白質(zhì)同源序列比對(duì)數(shù)據(jù)庫(kù)HSSPFrom PDBFrom Swiss-

26、prot多重序列比對(duì)多重序列比對(duì)已知結(jié)構(gòu) 未知結(jié)構(gòu)5、OMIMw OMIM (Online Mendelian Inheritance in Man),是關(guān)于人類基因和遺傳疾病的分類數(shù)據(jù)庫(kù) 。該數(shù)據(jù)庫(kù)收集了已知的人類基因及由于這些基因突變或者缺失而導(dǎo)致的遺傳疾病。 w OMIM的使用非常方便查詢程序根據(jù)輸入到檢索窗口的一個(gè)或幾個(gè)詞執(zhí)行簡(jiǎn)單的查詢，返回含有該詞的文檔的列表，用戶可以在列表中選擇一個(gè)或更多的異常查看其OMIM記錄的全文瀏覽染色體瀏覽染色體6、EPD7、TRRDw TRRD是一個(gè)關(guān)于基因調(diào)控信息的集成數(shù)據(jù)庫(kù)，該數(shù)據(jù)庫(kù)搜集真核生物基因轉(zhuǎn)錄調(diào)控區(qū)域結(jié)構(gòu)和功能的信息。每一個(gè)TRRD的條目

27、對(duì)應(yīng)于一個(gè)基因，包含特定基因各種結(jié)構(gòu)功能特性 w TRRD6.0包括七個(gè)相關(guān)的數(shù)據(jù)表：（1）基因描述表TRRDGENES （2）控制區(qū)域表TRRDLCR （3）調(diào)控區(qū)域表TRRDUNITS （4）轉(zhuǎn)錄因子結(jié)合位點(diǎn)表TRRDSITES （5）轉(zhuǎn)錄因子表TRRDFACTORS （6）表達(dá)模式表TRRDEXP （7）實(shí)驗(yàn)來源表TRRDBIB 8、TRANSFACw TRANSFAC （http:/transfac.gbf.de/）是真核基因順式調(diào)控元件和反式作用因子數(shù)據(jù)庫(kù)，數(shù)據(jù)搜集的對(duì)象從酵母到人類 w TRANSFAC包括6類數(shù)據(jù) ：（1）SITE類數(shù)據(jù) （2）GENE類數(shù)據(jù) （3）FACTOR

28、類數(shù)據(jù) （4）CELL類數(shù)據(jù) （5）CLASS類數(shù)據(jù) （6）MATRIX數(shù)據(jù) 9、BODYMAPw BODYMAP (http:/bodymap.ims.u-tokyo.ac.jp/）w 是關(guān)于人和老鼠基因表達(dá)信息的數(shù)據(jù)庫(kù)，基因表達(dá)數(shù)據(jù)來自于不同組織、不同細(xì)胞以及不同時(shí)刻。這里的基因表達(dá)數(shù)據(jù)實(shí)際上是3端的EST。w 通過分析這些數(shù)據(jù)，用戶可以初步掌握基因活性，了解組織中mRNA的組成，研究基因表達(dá)規(guī)律,發(fā)現(xiàn)新的基因。10、PROSITE11、DBCatw DBCat是生物信息數(shù)據(jù)庫(kù)的目錄數(shù)據(jù)庫(kù)，它收集了500多個(gè)生物信息學(xué)數(shù)據(jù)庫(kù)的信息，并根據(jù)它們的應(yīng)用領(lǐng)域進(jìn)行了分類DNARNA蛋白質(zhì)基因組圖

29、譜蛋白質(zhì)結(jié)構(gòu)文獻(xiàn)著作等基本類型， DBCat中分類數(shù)據(jù)庫(kù)個(gè)數(shù)中分類數(shù)據(jù)庫(kù)個(gè)數(shù) 數(shù)據(jù)對(duì)象數(shù)據(jù)庫(kù)個(gè)數(shù)DNA87RNA29Protein94Genomic58Mapping29Protein structure18Literature43Miscellaneous15312、PubMed第六節(jié)第六節(jié) 數(shù)據(jù)庫(kù)搜索數(shù)據(jù)庫(kù)搜索w 數(shù)據(jù)庫(kù)使用數(shù)據(jù)庫(kù)使用關(guān)鍵字查詢關(guān)鍵字查詢目標(biāo)搜索目標(biāo)搜索w 序列搜索問題序列搜索問題搜索效率搜索效率標(biāo)準(zhǔn)算法標(biāo)準(zhǔn)算法 O(n2) w 最流行的序列數(shù)據(jù)庫(kù)快速搜索程序最流行的序列數(shù)據(jù)庫(kù)快速搜索程序 FastABLASTFASTA的基本思想：的基本思想：序列s:序列 t: 找出兩個(gè)

30、序列具有最大匹配的相對(duì)位移1、FASTA算法位移 = 6 6 8 10s： -A-A-T-t: -A-A-T- 3 5 7位移 = 3w FASTP的基本算法是順序?qū)?shù)據(jù)庫(kù)中的每一個(gè)序列與查詢序列比較，返回與查詢序列非常相似的數(shù)據(jù)庫(kù)序列w 首先確定兩個(gè)序列的共同k元組（即連續(xù)的k個(gè)字符，k-tup），對(duì)于蛋白質(zhì)序列，k=1或2。k決定了字串的大小。增大k參數(shù)就會(huì)減少字串命中的數(shù)目，也就會(huì)減少所需要的最佳搜索的數(shù)目，提高搜索速度。w 算法設(shè)置兩個(gè)數(shù)據(jù)結(jié)構(gòu)：（1）查找表存放第一條序列各k元組的位置（2）位移向量位移決定一個(gè)序列相對(duì)于另一個(gè)發(fā)生字符替換的位置。如果共同的k元組起始于si和tj，則

31、位移等于i-j。 1 2 3 4 5 6 7 8 9 10 11 s = H A R F Y A A Q I V L 查找表 A 2,6,7 F 4 H 1 I 9 L 11 Q 8 R 3 V 10 Y 5 1 2 3 4 5 6 7 8 t = V D M A A Q I A 位移 +9 -2 -3 +2 +2 -6 +2 +1 -2 +3 +2 -1位移向量-7 -6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10 1 1 2 1 1 4 1 1最大匹配位移位移累計(jì)最大值意義：（1）該位移下匹配最多（2）計(jì)算相應(yīng)動(dòng)態(tài)規(guī)劃矩陣對(duì)角線附近區(qū)域?qū)?/p>

32、際處理：將在同一位移下距離較近的多個(gè)k元組聯(lián)合起來，形成區(qū)域。一個(gè)區(qū)域可被看成是一個(gè)片段對(duì)，或無空白的局部對(duì)比排列，根據(jù)匹配或失配對(duì)區(qū)域進(jìn)行打分。對(duì)產(chǎn)生的5個(gè)最好區(qū)域按PAM矩陣進(jìn)行重新打分，最高的得分就是序列s和序列t相似性的初始得分。對(duì)于數(shù)據(jù)庫(kù)中的每一個(gè)序列，按上述方法計(jì)算與查詢序列比較的初始得分。根據(jù)初始得分將所有數(shù)據(jù)庫(kù)序列按非遞增順序排序，對(duì)于排在前面的幾個(gè)具有最高初始得分的序列，利用動(dòng)態(tài)規(guī)劃算法計(jì)算它們與查詢序列最優(yōu)對(duì)比排列的得分，但計(jì)算過程僅限于初始對(duì)比排列（對(duì)應(yīng)于初始得分的對(duì)比排列）附近區(qū)域。FastA的最新版本是FastA3軟件包，下表2列出FastA3家族所有成員：FastA

33、家族程程序序查詢序查詢序列類型列類型數(shù)據(jù)數(shù)據(jù)庫(kù)類庫(kù)類型型FastADNADNA蛋白質(zhì)蛋白質(zhì)FASTXFASTYDNA蛋白質(zhì) TFastA蛋白質(zhì)DNATFASTXTFASTY蛋白質(zhì)DNAFastA使用界面2、BLASTw BLAST 是基本的局部對(duì)比排列搜索工具的簡(jiǎn)稱。研制BLAST的最初目的是為了改善FastA的算法的性能，通過尋找更小、更好的熱點(diǎn)，提高計(jì)算速度。w 為了進(jìn)一步提高數(shù)據(jù)庫(kù)的搜索速度，BLAST增加了限制，即在序列的局部比對(duì)中不包括空缺字符。BLAST的基本思想：的基本思想：序列S:序列t: 找出兩個(gè)序列共同的短片段經(jīng)過擴(kuò)展后形成更長(zhǎng)的相似片斷擴(kuò)展擴(kuò)展w 給定一個(gè)查詢序列，B

34、LAST返回所有查詢序列與數(shù)據(jù)庫(kù)序列得分超過某個(gè)閾值S的片段對(duì)。w 閾值S可以由用戶設(shè)定，但程序有一個(gè)缺省的推薦值。選擇S的基本原則是：一條隨機(jī)序列與查詢序列比較的得分不會(huì)超過S w 在進(jìn)行序列兩兩比較之前，BLAST首先尋找一顆“種子”，它是兩個(gè)序列之間的一個(gè)非常短的片段對(duì)。w 種子可以向兩個(gè)方向擴(kuò)展，直至達(dá)到擴(kuò)展的最大可能的得分。 w BLAST的計(jì)算過程分為三個(gè)階段：（1）收集一系列高得分的串，形成高得分單詞表（2）搜索種子（3）擴(kuò)展種子對(duì)于蛋白序列的搜索：w 單詞表所有w個(gè)字符構(gòu)成的單詞與查詢序列單詞比較得分超過T這里，w和T是兩個(gè)參數(shù)對(duì)于蛋白質(zhì)序列搜索推薦的w值（即種子的長(zhǎng)度）為

35、4這一步所得到的高得分單詞表實(shí)際上是一些候選的種子w 掃描數(shù)據(jù)庫(kù)，搜索那些處于單詞表中的種子Hash table有限自動(dòng)機(jī) w 最后一步擴(kuò)展過程比較直觀。當(dāng)擴(kuò)展時(shí)的得分低于該擴(kuò)展前面的最佳得分的某個(gè)下限時(shí)，擴(kuò)展停止。對(duì)于DNA序列搜索，w 單詞表包含查詢序列長(zhǎng)度為w的所有單詞壓縮數(shù)據(jù)，每個(gè)核酸僅用2位（bit）表示，4個(gè)核酸組成一個(gè)字節(jié)w 搜索、擴(kuò)展過程與對(duì)蛋白質(zhì)序列的處理過程相似 w BLAST是一個(gè)序列數(shù)據(jù)庫(kù)搜索程序家族其中有許多特定用途的程序，BLAST 使用界面實(shí)際應(yīng)用中傾向于蛋白質(zhì)序列搜索實(shí)際應(yīng)用中傾向于蛋白質(zhì)序列搜索 4 4種字符種字符 Vs. 20 Vs. 20種字符種字符 D

36、NA DNA序列數(shù)據(jù)庫(kù)龐大、冗余序列數(shù)據(jù)庫(kù)龐大、冗余打分矩陣打分矩陣蛋白質(zhì)序列比蛋白質(zhì)序列比DNADNA序列更加保守序列更加保守3、VASTw VAST是NCBI的相似結(jié)構(gòu)搜索工具，它將一個(gè)新的蛋白質(zhì)三維結(jié)構(gòu)與PDB或MMDB數(shù)據(jù)庫(kù)中的結(jié)構(gòu)進(jìn)行比較。w 通過結(jié)構(gòu)相似搜索，VAST列出若干與查詢待查詢結(jié)構(gòu)相似的蛋白質(zhì)，用戶利用系統(tǒng)提供的交互顯示軟件Cn3D（Wang et al., 2000）觀察重疊的分子模型圖，詳細(xì)分析這些蛋白質(zhì)空間結(jié)構(gòu)的關(guān)系，分析蛋白質(zhì)因?yàn)檫M(jìn)化而改變的結(jié)構(gòu)區(qū)域。VAST的比較有三個(gè)步驟：w 首先，在坐標(biāo)數(shù)據(jù)的基礎(chǔ)上，標(biāo)出所有構(gòu)成蛋白質(zhì)核心部分的螺旋和片層。w 然后根據(jù)

37、這些二級(jí)結(jié)構(gòu)單位的位置計(jì)算向量。使用這些向量進(jìn)行結(jié)構(gòu)比對(duì)而不是整個(gè)一套坐標(biāo)。然后，算法試圖最佳地匹配這些向量，尋找類型和相對(duì)方位相同的成對(duì)結(jié)構(gòu)單位，并且在這些單位之間還要有同樣的連接方式。w 最后，在每個(gè)殘基位置上使用蒙特卡洛方法對(duì)結(jié)構(gòu)的比對(duì)進(jìn)行優(yōu)化。第七節(jié)第七節(jié) 數(shù)據(jù)庫(kù)集成數(shù)據(jù)庫(kù)集成w 集成數(shù)據(jù)庫(kù)的一種方法是構(gòu)造一個(gè)“數(shù)據(jù)倉(cāng)庫(kù)”，使其包含各種數(shù)據(jù)庫(kù)中數(shù)據(jù)集，通過自動(dòng)或手工方式添加注釋和連接 .Entrez和SRS就是這樣的一類系統(tǒng)。w 另一種實(shí)現(xiàn)數(shù)據(jù)庫(kù)集成的方法是設(shè)計(jì)智能查詢工具，進(jìn)行數(shù)據(jù)庫(kù)的虛擬集成。 1、Entrezw 查詢和搜索系統(tǒng)w 集成NCBI各種數(shù)據(jù)庫(kù)中的信息核酸序列蛋白質(zhì)序列生

38、物大分子結(jié)構(gòu)基因組數(shù)據(jù)生物分類數(shù)據(jù)庫(kù)孟德爾人類遺傳學(xué)數(shù)據(jù)（OMIM）PubmedEntrez集成系統(tǒng)結(jié)構(gòu)如圖4.8所示。圖4.8、Entrez數(shù)據(jù)庫(kù)系統(tǒng)結(jié)構(gòu)圖2. SRSw SRS（Sequence Retrieval System）是EMBL研制的一個(gè)基于WEB的查詢系統(tǒng)w SRS采用全菜單驅(qū)動(dòng)方式包括EMBL、EMBL_NEW、SwissProt、PIR等一級(jí)數(shù)據(jù)庫(kù)還包括許多二級(jí)數(shù)據(jù)庫(kù)，如蛋白質(zhì)家族和結(jié)構(gòu)域數(shù)據(jù)庫(kù)Prosite、限制酶數(shù)據(jù)庫(kù)ReBase、PDB序列子集數(shù)據(jù)庫(kù)NRL_3D、真核基因啟動(dòng)子數(shù)據(jù)庫(kù)EPD、E.coli 數(shù)據(jù)庫(kù)ECD、酶名稱和反應(yīng)數(shù)據(jù)庫(kù)ENZYME、生物計(jì)算文獻(xiàn)數(shù)據(jù)庫(kù)SEQANALREF等，還有與功能、疾病相關(guān)的數(shù)據(jù)庫(kù)，總共有80個(gè)數(shù)據(jù)庫(kù)。w SRS在中國(guó)的鏡像站點(diǎn)建立在北京大學(xué)生物信息中心。3、ExPASy第八節(jié) 生物信息分析工具GCG w GCG (Genetics Computer Group) 軟件包

人人文庫(kù)> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

生物分子數(shù)據(jù)庫(kù)管理知識(shí)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

生物分子數(shù)據(jù)庫(kù)管理知識(shí)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔