版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第二章分子生物信息數(shù)據(jù)庫1一、分子生物信息數(shù)據(jù)庫簡介(一)誕生背景生物分子數(shù)據(jù)高速增長分子生物學(xué)及相關(guān)領(lǐng)域研究人員迅速獲得最新實(shí)驗(yàn)數(shù)據(jù)
建立分子生物數(shù)據(jù)庫
2分子生物數(shù)據(jù)庫應(yīng)滿足幾個(gè)方面的主要需求:(1)時(shí)間性(2)注釋(3)數(shù)據(jù)質(zhì)量(4)集成性3生物信息學(xué)數(shù)據(jù)庫工具染色體核酸蛋白質(zhì)基因組圖譜DNA序列蛋白質(zhì)序列蛋白質(zhì)結(jié)構(gòu)基因組數(shù)據(jù)庫核酸序列數(shù)據(jù)庫蛋白質(zhì)序列數(shù)據(jù)庫蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫二級數(shù)據(jù)庫復(fù)合數(shù)據(jù)庫基因組作圖序列測定結(jié)構(gòu)測定(二)、分子生物信息數(shù)據(jù)庫種類
5生物信息數(shù)據(jù)庫
一級數(shù)據(jù)庫數(shù)據(jù)庫中的數(shù)據(jù)直接來源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋
二級數(shù)據(jù)庫對原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果,是在一級數(shù)據(jù)庫、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對特定的應(yīng)用目標(biāo)而建立的。6二、一級數(shù)據(jù)庫簡介7(一)、基因組數(shù)據(jù)庫來源于人類基因組計(jì)劃及各種模式生物基因組計(jì)劃1977年,最早獲得的生物基因組全序列是噬菌體(53kb)8101113
AceDB
線蟲基因組數(shù)據(jù)庫。既是一個(gè)數(shù)據(jù)庫,又是一個(gè)數(shù)據(jù)庫管理系統(tǒng)。
提供很好的圖形界面,用戶能夠從大到整個(gè)基因組、小到單個(gè)序列的各個(gè)層次觀察和分析基因組數(shù)據(jù)。
http://
數(shù)據(jù)內(nèi)容:限制性圖譜,基因結(jié)構(gòu)信息,質(zhì)粒圖譜,序列數(shù)據(jù),參考文獻(xiàn)…14151、核酸序列數(shù)據(jù)庫(1)歐洲分子生物學(xué)實(shí)驗(yàn)室的EMBL(EuropeanMolecularBiologyLaboratory)
(2)美國生物技術(shù)信息中心(NationalCenterforBiotechnologyInformation)的GenBank(3)日本遺傳研究所的DDBJ(DNADataBaseofJapan)
17三個(gè)數(shù)據(jù)庫中的數(shù)據(jù)基本一致,僅在數(shù)據(jù)格式上有所差別,對于特定的查詢,三個(gè)數(shù)據(jù)庫的響應(yīng)結(jié)果一樣。GenBankDDBJEMBL1819“ID”為序列的標(biāo)識(shí)符行,包括登錄號、類型,分子的長度
“AC”為登錄號行;“XX”為分隔符號行;
“DT”為創(chuàng)建和更新日期行“DE”為序列描述行;“KW”為關(guān)鍵字行;“OG”行描述細(xì)胞組織;“OS”行描述生物體種屬;“OC”行描述生物體分類信息;“RN”描述參考文獻(xiàn)的編號;“RP”描述參考文獻(xiàn)的頁碼;“RA”描述參考文獻(xiàn)的作者;“RT”描述參考文獻(xiàn)的題目;“RL”描述參考文獻(xiàn)的出處;“RC”描述參考文獻(xiàn)的注解;“RX”、“DR”行描述交叉引用信息;文件體由序列本身所組成,由“SQ”標(biāo)志的行開始。序列結(jié)束的標(biāo)記是“//”。EMBL的序列數(shù)據(jù)用外在的ASCII文本文件來表示,而每一個(gè)文件分為文件頭和文件體兩大部分文件頭由一系列的信息描述行所組成,文件頭實(shí)際上對應(yīng)于一個(gè)序列的注釋(annotation)21EMBL標(biāo)識(shí)字GenBank標(biāo)識(shí)字含義IDLOCUS序列名稱DEDEFINITION序列簡單說明ACACCESSION唯一的序列編號SVVERSION序列版本號KWKEYWORDS與序列相關(guān)的關(guān)鍵詞OSSOURCE序列來源的物種名OCORGANISM序列來源的物種學(xué)名和分類學(xué)位置DT建立日期RNREFERENCE相關(guān)文獻(xiàn)編號或提交注冊信息RAAUTHORS相關(guān)文獻(xiàn)作者或提交序列作者RTTITLE相關(guān)文獻(xiàn)題目RLJOURNAL相關(guān)文獻(xiàn)刊物名或作者單位RXMEDLINE相關(guān)文獻(xiàn)Medline引文代碼RCREMARK相關(guān)文獻(xiàn)注釋RP相關(guān)文獻(xiàn)其它注釋CCCOMMENT關(guān)于序列的注釋信息DR相關(guān)數(shù)據(jù)庫交叉引用號FHFEATURES序列特征表起始FT序列特征表子項(xiàng)SQBASECONTENT序列長度、堿基數(shù)目統(tǒng)計(jì)數(shù)空格ORIGIN序列////序列結(jié)束標(biāo)志、空行EMBL和GenBank數(shù)據(jù)庫的行識(shí)別標(biāo)志比較頭部特性序列223、蛋白質(zhì)序列數(shù)據(jù)庫
PIR(美國)SWISS-PROT(歐洲)2325目的: 幫助研究者鑒別和解釋蛋白質(zhì)序列信息, 研究分子進(jìn)化、功能基因組。它是一個(gè)全面的、經(jīng)過注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫。所有序列數(shù)據(jù)都經(jīng)過整理,超過99%的序列已按蛋白質(zhì)家族分類,一半以上還按蛋白質(zhì)超家族進(jìn)行了分類。PIR(ProteinInformationResource)262、SWISS-PROT
1986年,瑞士日內(nèi)瓦大學(xué)建立;2.瑞士生物信息學(xué)研究所(SwissInstituteofBioinformatics,SIB)和歐洲生物信息學(xué)研究所(EBI)維護(hù)和管理;3.目前國際上比較權(quán)威的蛋白質(zhì)序列數(shù)據(jù)庫,其中的蛋白質(zhì)序列是經(jīng)過注釋的。
SWISS-PROT的網(wǎng)址:
2930SWISS-PROT中的數(shù)據(jù)來源于:(1)從核酸數(shù)據(jù)庫經(jīng)過翻譯推導(dǎo)而來;(2)從蛋白質(zhì)數(shù)據(jù)庫PIR挑選出合適的數(shù)據(jù);(3)從科學(xué)文獻(xiàn)中摘錄;(4)研究人員直接提交的蛋白質(zhì)序列數(shù)據(jù)。SWISS-PROT有三個(gè)明顯的特點(diǎn):31在SWISS-PROT中,數(shù)據(jù)分為核心數(shù)據(jù)和注釋兩大類。核心數(shù)據(jù)包括:序列數(shù)據(jù)、參考文獻(xiàn)、分類信息(蛋白質(zhì)生物來源的描述)(1)注釋32Identification,序列的標(biāo)識(shí)符行;Accessionnumber,登錄號行;Description,序列描述行;Organismspecies,描述生物體種屬;Organnismclassification,描述生物體分類信息;Referencenumber,描述參考文獻(xiàn)的編號;Referenceauthors,描述參考文獻(xiàn)的作者;Referencetitle,描述參考文獻(xiàn)的題目;Referencelocation,描述參考文獻(xiàn)的出處;Genename,基因名稱;Date,創(chuàng)建和更新日期行;Referenceposition,參考文獻(xiàn)涉及內(nèi)容;Cross-references,參考文獻(xiàn)的MEDLINE號;3334注釋包括:(A)蛋白質(zhì)的功能描述;(B)特殊位點(diǎn)和區(qū)域,如鈣結(jié)合區(qū)域、ATP結(jié)合位點(diǎn)等;(C)與其它蛋白質(zhì)序列的相似性;(D)序列殘缺與疾病的關(guān)系;35(2)最小冗余盡量將相關(guān)的數(shù)據(jù)歸并,降低數(shù)據(jù)庫的冗余程度。如果不同來源的原始數(shù)據(jù)有矛盾,則在相應(yīng)序列特征表中加以注釋。(3)與其它數(shù)據(jù)庫的連接對于每一個(gè)登錄項(xiàng),有許多指向其它數(shù)據(jù)庫相關(guān)數(shù)據(jù)的指針,這便于用戶迅速得到相關(guān)的信息?,F(xiàn)有的交叉索引有:到EMBL核酸序列數(shù)據(jù)庫的索引,到生物大分子結(jié)構(gòu)數(shù)據(jù)庫PDB的索引等。3637(三)、結(jié)構(gòu)數(shù)據(jù)庫381、PDB(ProteinDataBank)PDB中含有通過實(shí)驗(yàn)(X射線晶體衍射,核磁共振NMR)測定的生物大分子的三維結(jié)構(gòu)蛋白質(zhì)核酸糖類蛋白質(zhì)和核酸復(fù)合物
對于每一個(gè)結(jié)構(gòu),包含名稱、參考文獻(xiàn)、序列、一級結(jié)構(gòu)、二級結(jié)構(gòu)和原子坐標(biāo)等信息。
3940一種是顯式序列信息(explicitsequence) 在PDB文件中,以關(guān)鍵字SEQRES作為顯式序列標(biāo)記,以該關(guān)鍵字打頭的每一行都是關(guān)于序列的信息。41一種是隱式序列信息(implicitsequence)
PDB的隱式序列即為立體化學(xué)數(shù)據(jù),包括每個(gè)原子的名稱和原子的三維坐標(biāo)。42顯示分子結(jié)構(gòu)(RasMol,ChemView)432、蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫SCOP(StructuralClassificationofProteins)44
SCOP(StructuralClassificationofProtein)
英國醫(yī)學(xué)研究委員會(huì)分子生物學(xué)實(shí)驗(yàn)室和蛋白質(zhì)工程中心開發(fā)的基于web的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫分類、檢索和分析系統(tǒng);SCOP的網(wǎng)址:/
454647二級數(shù)據(jù)庫簡介48
二級數(shù)據(jù)庫的形式:大多以web界面為基礎(chǔ),具有文字信息、表格、圖形、圖表等方式顯示數(shù)據(jù)庫內(nèi)容;
一級數(shù)據(jù)庫與二級數(shù)據(jù)庫之間并無明確的界限。(例如:GDB、AceDB、SCOP、CATH等都已經(jīng)具有二級數(shù)據(jù)庫的特色)491、基因組信息二級數(shù)據(jù)庫TransFac(真核生物基因調(diào)控轉(zhuǎn)錄因子數(shù)據(jù)庫)
德國生物工程研究所開發(fā)維護(hù),始建于1988年。是真核基因順式調(diào)控元件和反式作用因子數(shù)據(jù)庫,數(shù)據(jù)搜集的對象從酵母到人類。TransFac的網(wǎng)址:http://
50512、蛋白質(zhì)序列二級數(shù)據(jù)庫
Prosite(蛋白質(zhì)序列功能位點(diǎn)數(shù)據(jù)庫)
始建于1990年代初,由瑞典生物信息學(xué)研究所SIB負(fù)責(zé)維護(hù)。
構(gòu)建依據(jù):通過多序列比對方法,得到的保守性區(qū)域,如酶的催化位點(diǎn)、配體結(jié)合位點(diǎn)、與金屬離子結(jié)合的殘基。
蛋白質(zhì)序列功能位點(diǎn)數(shù)據(jù)庫。()5253DSSP()對生物大分子數(shù)據(jù)庫PDB中的任何一個(gè)蛋白質(zhì),根據(jù)其PDB中的原子坐標(biāo),計(jì)算氨基酸殘基的二級結(jié)構(gòu)構(gòu)象參數(shù)。3、蛋白質(zhì)結(jié)構(gòu)二級數(shù)據(jù)庫54TheDSSPcodeH=alphahelixB=residueinisolatedbeta-bridgeE=extendedstrand,participatesinbetaladderG=3-helix(3/10helix)I=5helix(pihelix)T=hydrogenbondedturnS=bend對研究蛋白質(zhì)序列與蛋白質(zhì)二級結(jié)構(gòu)及空間結(jié)構(gòu)的關(guān)系非常有用。DSSP二級結(jié)構(gòu)實(shí)例55同源蛋白質(zhì)數(shù)據(jù)庫HSSPHSSP()數(shù)據(jù)來源于PDB,或來源于SWISS-PROT對于PDB中的每一個(gè)蛋白質(zhì),HSSP將與其同源的所有蛋白質(zhì)序列進(jìn)行對比,從而將相似序列的蛋白質(zhì)聚集成結(jié)構(gòu)同源的家族。HSSP有助于分析蛋白質(zhì)的保守區(qū)域,研究蛋白質(zhì)的進(jìn)化關(guān)系,有助于蛋白質(zhì)的分子設(shè)計(jì)。56三其它生物分子數(shù)據(jù)庫57基因組水平上由單個(gè)核苷酸的變異引起的DNA序列的多態(tài)性單核苷酸多態(tài)性SNPs(Singlenucleotidepolymorphisms)SNPs對人類遺傳學(xué)研究和醫(yī)學(xué)應(yīng)用具有重要的意義無論對于人類種群遺傳學(xué)的研究,還是對疾病易感性狀分析或個(gè)體化醫(yī)療,都需要深入地研究SNPs。1、單核苷酸多態(tài)性數(shù)據(jù)庫dbSNP
NCBI與人類基因組研究所(NationalHumanGenomeResearchInstitute)合作建立的,它是關(guān)于單堿基替換以及短插入、刪除多態(tài)性的資源庫。5859實(shí)例:GTTTGTGATTACTTTGTAAAAACAGTGTAATAAGTACTCACTAAAGGAAATTTAGAAAATGATAAGCTTAAggccgggcatggtgcctcatgcctgtaatcctagcactttgggaggctgaggtgggtggatcacctgagctcaggagttccagatcatcctggacaatatggtgaaaccctgtctacgcttaaaatacgRaaattagccgggcgtggtggggcatgcctgtggtctcagctactttggagactaaggtagaaggatcacttgaatcctggaggtggaggttgcagagtgagccaatatcgtgccactgcactccagcctaggtgacagaggaagactctgtctcaaaaaaaagaaaaTAAGGCCAGACACGGGGGCTCATGCTTGTAATCR=A/G602、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 定金罰則法律風(fēng)險(xiǎn)
- 誠實(shí)保證字萬能保證書
- 招標(biāo)文件條款的全面解讀與實(shí)踐
- 招標(biāo)文件商務(wù)評分的操作流程
- 正規(guī)訂餐服務(wù)合同樣本
- 非受雇關(guān)系非固定員工聲明書
- 技術(shù)支持服務(wù)合同樣本
- 招標(biāo)房屋租賃信息
- 招標(biāo)信息格式技巧
- 招標(biāo)文件疑問全解析
- 20K607 防排煙及暖通防火設(shè)計(jì)審查與安裝
- 《金剛石、石墨和C60》第一課時(shí)名師課件
- 2024年安徽合肥市建設(shè)工程監(jiān)測中心有限責(zé)任公司招聘筆試參考題庫含答案解析
- 滑雪指導(dǎo)員理論考試復(fù)習(xí)題庫(含答案)
- 兩癌篩查年度工作計(jì)劃實(shí)施方案
- 2024年常德市高三一模語文試卷(含答案)
- 帶你聽懂中國傳統(tǒng)音樂智慧樹知到期末考試答案2024年
- 南京市秦淮區(qū)2022-2023七年級上學(xué)期期中語文試卷及答案
- 肺癌伴咯血護(hù)理查房
- 上海市監(jiān)理通用表
- 學(xué)校歸屬感量表
評論
0/150
提交評論