




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、 直接來源于實驗獲得的原始數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類、整理只經(jīng)過簡單的歸類、整理和注釋。和注釋。 一級核酸數(shù)據(jù)庫:一級核酸數(shù)據(jù)庫:genbank數(shù)據(jù)庫、數(shù)據(jù)庫、embl數(shù)據(jù)庫、數(shù)據(jù)庫、ddbj數(shù)據(jù)庫數(shù)據(jù)庫 一級蛋白質序列數(shù)據(jù)庫:一級蛋白質序列數(shù)據(jù)庫:swiss-prot庫、庫、pir庫庫 一級蛋白質結構數(shù)據(jù)庫:一級蛋白質結構數(shù)據(jù)庫:pdb數(shù)據(jù)庫數(shù)據(jù)庫 在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎上,針對不同的研在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎上,針對不同的研究內(nèi)容和需要,對生物學知識和信息的進一步整理得到的數(shù)據(jù)究內(nèi)容和需要,對生物學知識和信息的進一步整理得到的數(shù)據(jù)庫。庫
2、。 人類基因組圖譜庫人類基因組圖譜庫gdb、轉錄因子和結合位點庫、轉錄因子和結合位點庫transfac、蛋白質序列功能位點數(shù)據(jù)庫蛋白質序列功能位點數(shù)據(jù)庫prosite等。等。(1 1)數(shù)據(jù)庫的更新速度不斷加快)數(shù)據(jù)庫的更新速度不斷加快 數(shù)據(jù)量呈指數(shù)增長趨勢數(shù)據(jù)量呈指數(shù)增長趨勢 (2 2)數(shù)據(jù)庫使用頻率增長更快)數(shù)據(jù)庫使用頻率增長更快 (3 3)數(shù)據(jù)庫的復雜程度不斷增加)數(shù)據(jù)庫的復雜程度不斷增加 (4 4)數(shù)據(jù)庫網(wǎng)絡化)數(shù)據(jù)庫網(wǎng)絡化 (5 5)面向應用)面向應用(6 6)先進的軟硬件配置)先進的軟硬件配置rgenbank/genbank/ind
3、ex.htmlrembl(european melecular biology laboratory)http:/www.ebi.ac.uk/embl/rddbj(dna data bank of japan)http:/www.ddbj.nig.ac.jp/index-e.htmlr1982.4 由由los alamos national lab創(chuàng)建創(chuàng)建rncbi (national center for biotechnology information)rnih (national institute of health)r 數(shù)據(jù)庫查詢工具:數(shù)據(jù)庫查詢工具:entrezr 數(shù)據(jù)提交工具:
4、數(shù)據(jù)提交工具: sequinr nucleic acids research, 2008 jan;36(database issue):d25-30v173.0,2009.09r1. 提供高質量的,無冗余的,完整的序列提供高質量的,無冗余的,完整的序列信息;信息;r2. 包括基因組的包括基因組的dna,轉錄成的轉錄成的rna以及蛋以及蛋白質序列信息。白質序列信息。r3. 序列文件的標識符:序列文件的標識符:mrna序列:序列:nm_001158非編碼非編碼rna:nr_002769蛋白質序列:蛋白質序列: np_001159r /refseq
5、/r1982.3 由德國科隆大學收集整理由德國科隆大學收集整理rebi(european bioinformatics institute)r 數(shù)據(jù)庫查詢工具:數(shù)據(jù)庫查詢工具:sas (開源開源)r數(shù)據(jù)提交工具:數(shù)據(jù)提交工具:webin, sequinrhttp:/www.ebi.ac.uk/embl/r創(chuàng)建于創(chuàng)建于1986年年rnig(national institute of genetics)r 數(shù)據(jù)庫查詢工具:數(shù)據(jù)庫查詢工具:sasr數(shù)據(jù)提交工具:數(shù)據(jù)提交工具: sequinr http:/www.ddbj.nig.ac.jp/index-e.htmlr1998年,年,genbank、
6、embl和和ddbj共同共同成立了國際核酸序列數(shù)據(jù)庫協(xié)會成立了國際核酸序列數(shù)據(jù)庫協(xié)會(international nucleotide sequence database collaboration,insdc)r三大核酸數(shù)據(jù)庫之間每天將新測定或更新三大核酸數(shù)據(jù)庫之間每天將新測定或更新的數(shù)據(jù)進行交換共享,保證數(shù)據(jù)信息的完的數(shù)據(jù)進行交換共享,保證數(shù)據(jù)信息的完整與同步,每兩個月更新一次版本。整與同步,每兩個月更新一次版本。r/rpir/rswissprothttp:/www.expasy.ch/sprot/rtr
7、emblhttp:/www.expasy.ch/sprot/r1984年,蛋白質信息資源(年,蛋白質信息資源(protein information resource,pir)計劃由美國)計劃由美國國家醫(yī)學研究基金會(國家醫(yī)學研究基金會(nref)正式啟動)正式啟動r1988年,日本的國際蛋白質信息數(shù)據(jù)庫年,日本的國際蛋白質信息數(shù)據(jù)庫(jipid)和德國慕尼黑蛋白質序列信息中)和德國慕尼黑蛋白質序列信息中心(心(mips)加入)加入pirr非冗余、高質量注釋、全面分類非冗余、高質量注釋、全面分類r1986年,由瑞士日內(nèi)瓦大學創(chuàng)建。年,由瑞士日內(nèi)瓦大學創(chuàng)建。rsib(swiss institut
8、e of bioinformatics)rexpasy(expert protein analysis system)r所有序列條目均經(jīng)過有經(jīng)驗的分子生物學所有序列條目均經(jīng)過有經(jīng)驗的分子生物學家和蛋白質化學家審核,因此又稱為蛋白家和蛋白質化學家審核,因此又稱為蛋白質專家?guī)熨|專家?guī)靣1996年創(chuàng)建,意為年創(chuàng)建,意為“translation of embl”r從從embl的的cdna序列翻譯而來,包含序列翻譯而來,包含embl數(shù)據(jù)庫中所有核酸編碼序列信息數(shù)據(jù)庫中所有核酸編碼序列信息r2002年在年在nih資助下將資助下將pir、swiss-prot和和trembl合并為合并為uniprot(uni
9、versal protein resource)r具有全世界最全面的蛋白質分類信息具有全世界最全面的蛋白質分類信息r包含三個子庫包含三個子庫uniprotkb(uniprot knowledgebase)uniref(uniprot reference clusters)uniparc(uniprot archive)rruniprot knowledgebase(uniprotkb):): release 15.4 , 16-jun-2009 ,包括:,包括:swiss-prot release 57.4 : 497293 entries tremb
10、l release 40.4 : 9145906 entries r包含蛋白質序列全面的信息,提供準確、包含蛋白質序列全面的信息,提供準確、豐富的序列與功能注釋。豐富的序列與功能注釋。r記錄以記錄以6位字母和數(shù)字組成,例:位字母和數(shù)字組成,例:q5k8d3 runiprot refefence clusters (uniref)r通過通過cd-hit算法把非常相似的序列聚類算法把非常相似的序列聚類r根據(jù)序列根據(jù)序列identity=100%,identity90%, identity50%進行聚類合并,形成進行聚類合并,形成uniref100、uniref90和和uniref50三個子三個子庫
11、,加速同源搜索。庫,加速同源搜索。r記錄以記錄以unirefxx開頭加開頭加uniprotkb的的accession表示,例:表示,例:uniref90_o70405 runiprot archive (uniparc)r存儲所有公共數(shù)據(jù)庫中有效的蛋白質序列存儲所有公共數(shù)據(jù)庫中有效的蛋白質序列數(shù)據(jù),包括序列的來源及來源數(shù)據(jù)庫的鏈數(shù)據(jù),包括序列的來源及來源數(shù)據(jù)庫的鏈接。接。r記錄所有蛋白質的當前狀態(tài)和歷史信息記錄所有蛋白質的當前狀態(tài)和歷史信息r記錄以記錄以upi開頭,例:開頭,例:upi000005e9d0 pdb網(wǎng)址:網(wǎng)址:/pdb(美國美國)(1)pdb
12、(protein data bank) u 由由 brookhaven national laboratories 創(chuàng)辦創(chuàng)辦 v 蛋白質蛋白質 v 核酸核酸 v 其它其它 u 57,706 個結構圖(個結構圖(2009.5.20)r2003年,年,pdb(rcsb),),msd-ebi(ebi),),pdbj(japan)組建了全球范)組建了全球范圍的圍的pdb庫(庫(worldwide pdb,wwpdb)r數(shù)據(jù)共享,統(tǒng)一數(shù)據(jù)格式數(shù)據(jù)共享,統(tǒng)一數(shù)據(jù)格式r數(shù)據(jù)集中存儲,尚未提供數(shù)據(jù)檢索服務數(shù)據(jù)集中存儲,尚未提供數(shù)據(jù)檢索服務rhttp:/www.wwpdb.
13、org/顯示分子結構(顯示分子結構(rasmol rasmol , chemview chemview )r收集某些生物整個基因組序列的數(shù)據(jù)庫收集某些生物整個基因組序列的數(shù)據(jù)庫r基因組計劃基因組計劃human genome projecthttp:/www.sanger.ac.uk/hgp/c. elegans projecthttp:/www.sanger.ac.uk/projects/c_elegans/r從從genbank中選擇同一物種的核酸信息組中選擇同一物種的核酸信息組成的二級庫成的二級庫 老鼠老鼠(mouse) /mgd.h
14、tml 小鼠小鼠(rat) http:/ratmap.gen.gu.se 狗狗(dog) /dog.html 牛牛(cow) http:/locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl 豬豬(pig) http:/www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html 羊羊(sheep) http:/dirk.invermay.cri.nz 雞雞(chicken) http:/www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.
15、html 斑馬魚斑馬魚(zebra fish) 線蟲線蟲(c. elegans) http:/www.ddbj.nig.ac.jp/htmls/celegans/html/ce_index.html 果蠅果蠅(drosophila) 蚊子蚊子(mosquito) 擬南芥擬南芥(arabidopsis) /arabidopsis 棉花棉花(cotton) http:/algodon
16、. 玉米玉米(maize) 水稻水稻(rice) http:/www.staff.or.jp 大豆大豆(soya) :8000/main.html 樹樹(trees) 二級數(shù)據(jù)庫的形式:大多以二級數(shù)據(jù)庫的形式:大多以web界面為基礎,具有文字信界面為基礎,具有文字信息、表格、圖形、圖表等方式顯示數(shù)據(jù)庫內(nèi)容;息、表格、圖形、圖表等方式顯示數(shù)據(jù)庫內(nèi)容; 一級數(shù)據(jù)庫與二級數(shù)據(jù)庫之間并無明確的界限。一級數(shù)據(jù)庫與二級數(shù)據(jù)庫之
17、間并無明確的界限。 (例如:(例如:gdb、acedb、scop、cath等都已經(jīng)具有二級數(shù)據(jù)庫的等都已經(jīng)具有二級數(shù)據(jù)庫的特色)特色) 德國德國pastear研究所建立。研究所建立。 除具有瀏覽、檢索、搜尋功能外,還對環(huán)狀基因組實現(xiàn)可除具有瀏覽、檢索、搜尋功能外,還對環(huán)狀基因組實現(xiàn)可視化。視化。 網(wǎng)址網(wǎng)址:http:/ 德國生物工程研究所開發(fā)維護,始建于德國生物工程研究所開發(fā)維護,始建于1988年。年。 包括順式調控位點、基因、轉錄因子、細胞來源、分類和包括順式調控位點、基因、轉錄因子、細胞來源、分類和調控位點核苷酸分布調控位點核苷酸分布6個子庫。個子庫。transfac的網(wǎng)址的網(wǎng)址:http
18、:/ colibri網(wǎng)址網(wǎng)址:http:/ 始建于始建于1990年代初,由瑞典生物信息學研究所年代初,由瑞典生物信息學研究所sib負責維負責維護。護。 基于對蛋白質家族中同源序列多重序列比對得到的保守區(qū)基于對蛋白質家族中同源序列多重序列比對得到的保守區(qū)域,這些區(qū)域通常與生物學功能相關。域,這些區(qū)域通常與生物學功能相關。 數(shù)據(jù)庫包括兩個數(shù)據(jù)庫文件:數(shù)據(jù)文件數(shù)據(jù)庫包括兩個數(shù)據(jù)庫文件:數(shù)據(jù)文件prosite;說明文件;說明文件prositedoc。prosite網(wǎng)址網(wǎng)址:/prosite 蛋白質二級結構構象參數(shù)數(shù)據(jù)庫蛋白質二級結構構象參數(shù)數(shù)據(jù)庫 dssp的網(wǎng)址的
19、網(wǎng)址:http:/www.cmbi.kun.nl/gv/dssp/ 蛋白質家族數(shù)據(jù)庫蛋白質家族數(shù)據(jù)庫 fssp的網(wǎng)址:的網(wǎng)址:http:/www2.embl-ebi.ac.uk/dall/fssp/ 同源蛋白質數(shù)據(jù)庫同源蛋白質數(shù)據(jù)庫 hssp的網(wǎng)址:的網(wǎng)址: http:/www.cmbi.kun.nl/gv/hssp/ 酶和代謝數(shù)據(jù)庫酶和代謝數(shù)據(jù)庫(1)kegg (kyoto encyclopedia of genes and genomes) u 各種代謝、遺傳等路徑圖各種代謝、遺傳等路徑圖 u 可檢索參于可檢索參于各種各種路徑的基因路徑的基因kegg主頁主頁http:/www.genome
20、.ad.jp/kegg/點擊點擊“kegg pathway” “pathway”網(wǎng)頁點擊任何代謝路徑(網(wǎng)頁點擊任何代謝路徑(metabolism),),如糖酵解如糖酵解/糖原異生途徑(糖原異生途徑(glycolysis/gluconeogenesis)u 檢索檢索metabolism(1)u 檢索檢索genetic information processing(2)kegg主頁點擊主頁點擊“kegg pathway” “pathway”網(wǎng)頁點擊任何遺傳信息(網(wǎng)頁點擊任何遺傳信息(genetic information processing)路徑,如)路徑,如 protein export 路徑
21、路徑可以查看參加這一路徑蛋白質的可以查看參加這一路徑蛋白質的信息信息 u 檢索檢索environmental information processing(3)kegg主頁點擊主頁點擊“kegg pathway” “pathway”網(wǎng)頁點擊任何網(wǎng)頁點擊任何environmental information processing 路徑,如路徑,如 mapk signaling pathway 路徑路徑可以查看與這一路徑相連的可以查看與這一路徑相連的其它信號路徑其它信號路徑或參加這一路徑的或參加這一路徑的蛋白質信息蛋白質信息 u 檢索檢索celluar processes(4)kegg主頁點擊主頁
22、點擊“kegg pathway” “pathway”網(wǎng)頁點擊任何網(wǎng)頁點擊任何cellular processes 路徑,如路徑,如 cell cycle 路徑路徑可以查看與這一路徑相連的其它信號路徑可以查看與這一路徑相連的其它信號路徑或參加這一路徑的蛋白質信息或參加這一路徑的蛋白質信息 歷史原因:沒有完全統(tǒng)一的數(shù)據(jù)庫格式;歷史原因:沒有完全統(tǒng)一的數(shù)據(jù)庫格式; 了解所用數(shù)據(jù)庫格式的重要性了解所用數(shù)據(jù)庫格式的重要性 一般由兩部分組成:一般由兩部分組成: 文字注釋文字注釋 內(nèi)容(序列,內(nèi)容(序列,)一個數(shù)據(jù)庫記錄一個數(shù)據(jù)庫記錄(entry)一般由兩部分組成:一般由兩部分組成: 1. 原始序列數(shù)據(jù)原始
23、序列數(shù)據(jù)(sequence data) 2. 描述這些數(shù)據(jù)生物學信息的注釋描述這些數(shù)據(jù)生物學信息的注釋(annotation)注釋中包含的信息與相應的序列數(shù)據(jù)同樣重要和有應用價值注釋中包含的信息與相應的序列數(shù)據(jù)同樣重要和有應用價值數(shù)據(jù)的完整性和注釋工作量:數(shù)據(jù)的完整性和注釋工作量: 1. 序列數(shù)據(jù)廣,序列注釋不夠完整序列數(shù)據(jù)廣,序列注釋不夠完整 2. 庫數(shù)據(jù)面窄,序列注釋全面庫數(shù)據(jù)面窄,序列注釋全面數(shù)據(jù)庫的動態(tài)更新:數(shù)據(jù)庫的動態(tài)更新: 1. 不斷增加不斷增加 2. 不斷修正不斷修正r1. dna/rna/氨基酸代碼的標識氨基酸代碼的標識r2. genbank數(shù)據(jù)格式數(shù)據(jù)格式r3. unipro
24、tr4. fasta子庫類型子庫類型geninfo identifierembl標識字genbank標識字含義idlocus序列名稱dedefinition序列簡單說明acaccession唯一的序列編號svversion序列版本號kwkeywords與序列相關的關鍵詞ossource序列來源的物種名ocorganism序列來源的物種學名和分類學位置dt建立日期rnreference相關文獻編號或提交注冊信息raauthors相關文獻作者或提交序列作者rttitle相關文獻題目rljournal相關文獻刊物名或作者單位rxmedline相關文獻medline引文代碼rcremark相關文獻注釋
25、rp相關文獻其它注釋cccomment關于序列的注釋信息dr相關數(shù)據(jù)庫交叉引用號fhfeatures序列特征表起始ft序列特征表子項sqbase content序列長度、堿基數(shù)目統(tǒng)計數(shù)空格origin序列/序列結束標志、空行關鍵詞關鍵詞 名詞、描述性詞、詞組名詞、描述性詞、詞組 序列注冊號序列注冊號 (accession number) 檢索體系檢索體系 entrez sequence retrieval system (srs) integrated database retrieval system (dbget) entrez是基于web界面的綜合生物信息數(shù)據(jù)庫檢索系統(tǒng)。 http:/w
26、/entrez 利用entrez系統(tǒng),用戶不僅可以方便地檢索genbank的核酸數(shù)據(jù),還可以檢索來自genbank和其它數(shù)據(jù)庫的蛋白質序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)、來自分子模型數(shù)據(jù)庫(mmdb)的蛋白質三維結構數(shù)據(jù)、種群序列數(shù)據(jù)集、以及由pubmed獲得medline的文獻數(shù)據(jù)。 8大類大類44個與個與 entreze 體系相連的體系相連的數(shù)據(jù)庫數(shù)據(jù)庫 u “nucleotide sequences” databases (15) u “protein sequences” databses (4) u “structures” databases (5) u
27、 “genes” databases (4) u “gene expression” databases (4) u “taxonomy” databases (2) u “genomes” databases (6) u “l(fā)iterature” databases (4)r entrez是面向生物學家的數(shù)據(jù)庫查詢系統(tǒng),其特點之一是使用十分方便。它把序列、結構、文獻、基因組、系統(tǒng)分類等不同類型的數(shù)據(jù)庫有機的結合在一起,通過超文本鏈接,用戶可以從一個數(shù)據(jù)庫直接轉入另外一個數(shù)據(jù)庫r entrez的另一個特點是把數(shù)據(jù)庫和應用程序結合在一起。例如,通過“related sequence”工具,可以直接找到與查詢所得蛋白質序列同源的其它蛋白質。查詢得到的蛋白質三維結構,可以通過在用戶計算機上安裝的cn3d軟件直接顯示分子圖形。r entrez系統(tǒng)的開發(fā)基于特殊的數(shù)據(jù)模型ncbi ans.1 (abstract syntax notation),在對于文
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 倉房搭建合同范例
- 農(nóng)村永久征地合同范例
- 臨時用工合同范例
- 洗浴吧員崗位職責
- 公廁管理勞務合同范例
- tod開發(fā)模式合同范例
- 保溫棉廠家采購合同范例
- 個人賬號合同范本
- 麗水專業(yè)食堂承包合同范例
- 一年級成長之旅
- LY/T 2499-2015野生動物飼養(yǎng)場總體設計規(guī)范
- 愛德華閥門檢修工藝(2)2
- GB/T 13701-1992單標準氣體質譜法鈾同位素分析
- AMOLED技術寶典(十年OLED技術經(jīng)驗總結)
- 7S稽核查檢表-倉庫
- 小學科學《噪音的危害與防治》優(yōu)質課件
- 病理學-第3章 局部血液循環(huán)障礙
- 湖北省黃石市基層診所醫(yī)療機構衛(wèi)生院社區(qū)衛(wèi)生服務中心村衛(wèi)生室信息
- 打印版醫(yī)師執(zhí)業(yè)注冊健康體檢表(新版)
- 時代與變革-為人生而藝術
- 人教八年級下冊英語U5Do-you-remember-what-you-were-doing?課件
評論
0/150
提交評論