生物信息學(xué)中基因數(shù)據(jù)庫的發(fā)展_第1頁
生物信息學(xué)中基因數(shù)據(jù)庫的發(fā)展_第2頁
生物信息學(xué)中基因數(shù)據(jù)庫的發(fā)展_第3頁
生物信息學(xué)中基因數(shù)據(jù)庫的發(fā)展_第4頁
生物信息學(xué)中基因數(shù)據(jù)庫的發(fā)展_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

生物信息學(xué)中基因數(shù)據(jù)庫的發(fā)展生物體系和過程中信息的存貯、傳遞和表達細胞、組織、器官的生理、病理、藥理過程的中各種生物信息信息科學(xué)生命科學(xué)中的信息科學(xué)

Definition廣義分子生物信息學(xué)MolecularBioinformatics狹義(Molecular)bio–informatics:bioinformaticsisconceptualisingbiologyintermsofmolecules(inthesenseofPhysicalchemistry)andapplying“informaticstechniques”(derivedfromdisciplinessuchasappliedmaths,computerscienceandstatistics)tounderstandandorganisetheinformationassociatedwiththesemolecules,onalargescale.Inshort,bioinformaticsisamanagementinformation

systemformolecularbiologyandhasmanypracticalapplications生物信息學(xué)發(fā)展概要Compbiobioinformatiquebio-informaticsbioinformatics20世紀50年代,生物信息學(xué)開始孕育20世紀60年代,生物分子信息在概念上將計算生物學(xué)和計算機科學(xué)聯(lián)系起來20世紀70年代,生物信息學(xué)的真正開端20世紀70年代到80年代初期,出現(xiàn)了一系列著名的序列比較方法和生物信息分析方法20世紀80年代以后,出現(xiàn)一批生物信息服務(wù)機構(gòu)和生物信息數(shù)據(jù)庫20世紀90年代后,HGP促進生物信息學(xué)的迅速發(fā)展前基因組時代基因組時代

1977年,最早獲得的生物基因組全序列是噬菌體(53kb)1995年,第一個自由生物體流感嗜血菌(H.inf)被完全測序1996年,Affymetrix生產(chǎn)出第一塊基因芯片1998年,亞太生物信息學(xué)網(wǎng)絡(luò)成立1999年,果蠅的基因組被完全測序

2001年2月12日,六國科學(xué)家和美國塞萊拉遺傳公司聯(lián)合公布人類基因組圖譜及初步分析結(jié)果后基因組時代功能基因組蛋白質(zhì)組生物信息學(xué)發(fā)展概要基因數(shù)據(jù)庫英文名稱:genedatabank,定義:含基因和基因組資料的DNA數(shù)據(jù)庫。其主要任務(wù)是收集和保藏各種生物來源與人工構(gòu)建的基因、基因元件、載體、基因組DNA、宿主細胞和工程細胞株等,目前已有保存物282株,并提供相關(guān)檢索.生物分子數(shù)據(jù)

計算機技術(shù)

++基因數(shù)據(jù)庫

DNA核酸序列蛋白質(zhì)氨基酸序列蛋白質(zhì)結(jié)構(gòu)蛋白質(zhì)功能最基本的生物信息維持生命活動的機器第一部遺傳密碼第二部遺傳密碼?生命體系千姿百態(tài)的變化生物分子數(shù)據(jù)及其關(guān)系基因數(shù)據(jù)庫:易于共享,冗余度小,數(shù)據(jù)間聯(lián)系緊密核酸數(shù)據(jù)庫數(shù)據(jù)《NucleicAcidsResearch》雜志每年的第一期中詳細介紹最新版本的各種數(shù)據(jù)庫。在2000年1月1日出版的28卷第一期115種通用和專用數(shù)據(jù)庫。至2007年,生物信息學(xué)數(shù)據(jù)庫總數(shù)已達968個。比2006年增加110個。The2008updateincludes1078databases,110morethanthepreviousone.

生物信息數(shù)據(jù)庫基因數(shù)據(jù)庫的發(fā)展歷史從歷史上來看,蛋白質(zhì)數(shù)據(jù)庫是先于核苷酸數(shù)據(jù)庫出現(xiàn)的。早在60年代初,Dayhoff和他的同事們收集了所有當(dāng)時已知的氨基酸序列,這就是“蛋白質(zhì)序列與結(jié)構(gòu)圖冊”(Dayhoffetal.,1965)。這一蛋白質(zhì)數(shù)據(jù)庫后來成為PIR(Georgeetal.,1997)。這個在1965年可以很容易地存放在一張軟盤上的數(shù)據(jù)集,是一小群人多年的工作成果。今天,任何一個DNA或蛋白質(zhì)數(shù)據(jù)庫每天增加的數(shù)據(jù)量都數(shù)倍于此?;蚪M數(shù)據(jù)庫的發(fā)展歷史DNA序列數(shù)據(jù)庫最早于1982年在歐洲分子生物學(xué)實驗室誕生,隨即就開始了一個數(shù)據(jù)庫爆炸的時代。此后不久因一項NIH與洛斯阿拉莫斯國家實驗室的合同而誕生了GenBank。日本的DNA數(shù)據(jù)庫(DDBJ),在幾年后加入了數(shù)據(jù)收集的合作。1988年“國際DNA序列數(shù)據(jù)庫合作計劃”之后三大數(shù)據(jù)庫達成了一項協(xié)議,對數(shù)據(jù)庫的記錄采用共同的格式?,F(xiàn)在三個中心都收集直接提交的數(shù)據(jù),并在三者之間發(fā)布。GenBank數(shù)據(jù)庫的發(fā)展歷史建立GenBank的主要目標是收集世界范圍內(nèi)已發(fā)表和自行投送的核甘酸序列以從相關(guān)的文獻資料,建立檔案,以長期保存。1988一1989年:NCBI處于草創(chuàng)時期,隸屬于NIH的國家醫(yī)學(xué)圖書館。1990年:開始應(yīng)用BLAST。BLAST是——種快速檢索相似性序列的工具。1991年:開始應(yīng)用Entrez。Entrez是一個整合的數(shù)據(jù)查詢系統(tǒng)。1992年:GenBank正式移到NCBI;表達序列標簽(expressedsequencetag,EST)技術(shù)開始應(yīng)用,NCBI-dbEST數(shù)據(jù)庫系統(tǒng)建立。1993年:開始應(yīng)用Internet和3-DEntrez。GenBank由CD-ROM轉(zhuǎn)換為網(wǎng)絡(luò)系。1994年:NCBI-GenBank網(wǎng)頁建立。1995年:開始應(yīng)用Banklt。Banklt是基于互聯(lián)網(wǎng)的DNA序列投送軟件;將物種、系統(tǒng)發(fā)育信息與Entrez結(jié)合使用。1996年:開始應(yīng)用UniGene數(shù)據(jù)庫和GeneMap‘96系統(tǒng),整合STS圖譜、序列和UniGene簇數(shù)據(jù),1997年:PubMed界面實現(xiàn)了Entrez軟件系統(tǒng)與MEDLINE數(shù)據(jù)庫的結(jié)合;EntrezStructures數(shù)據(jù)庫、VAST(vectoralignmentsearcht001)算法和Cn3D結(jié)構(gòu)瀏覽器開始用于蛋白質(zhì)分析;GappedBLAST和PSI-BLAST開始用于快速序列相似性檢索;COG(clus·tersoforthologousgroup)方法和系統(tǒng)開始用于基因組分析1998年:建立HTGS(高通量基因組序列)組,以適應(yīng)人類基因組計劃的進程;已經(jīng)貯存兩千億以上的堿基對,其中超過一半來自人類基因組計劃。1999年:隨著人類基因組計劃接近完成,NCBI將重點轉(zhuǎn)移到人類基因組分析基因組數(shù)據(jù)庫

蛋白質(zhì)序列數(shù)據(jù)庫

蛋白質(zhì)結(jié)構(gòu)&互作(功能)數(shù)據(jù)庫

DDBJEMBLUniProtPDBPIR生物信息數(shù)據(jù)庫的分類KEGGGenBankEntrzeSRS1.數(shù)據(jù)庫之間鏈接2.數(shù)據(jù)庫和應(yīng)用程序結(jié)合3.特殊數(shù)據(jù)模型1.統(tǒng)一的用戶界面2.高效的查詢功能3.靈活的指針鏈接4.方便的程序接口5.開放的管理模式NCBI’sGenbank

(1982-)EBI’sEMBL(1982-)NIG’sDDBJ(1987-)數(shù)據(jù)格式GenBankEMBLDDBJGenBank格式EMBL格式DDBJ格式FASTA基因數(shù)據(jù)庫的格式193條核酸序列4249條ESTs認識GenBank文件格式(頭部)頭部包含關(guān)于整個記錄的信息(描述符)LOCUSRATOBESE539bpss-mRNAROD23-SEP-1995

LOCUS行中的日期是數(shù)據(jù)最后被公開的日期這一行中的第一項是LOCUS名稱。歷史上曾用這個名稱來表示本記錄描述的基因座,提交者和數(shù)據(jù)庫工作人員花費了無數(shù)的時間來設(shè)計這一名稱。這一成分開始于一個英文字母,總長度不能超過10個字符。第二個字符以后可以是數(shù)字或字母,所有字符均要大寫。LOCUS名稱在以前是最為有用的,那時大多數(shù)DNA序列記錄只表示一個基因座,這樣在GenBank中尋找一個可以用少數(shù)幾個字母和數(shù)字來代表生物體的獨特的名字是很容易的事。經(jīng)典的例子包括HUMHBB:人β-珠蛋白基因座,或SV40:猿猴病毒(拷貝之一,因為存在許多拷貝)。為了可用起見,LOCUS名稱在數(shù)據(jù)庫中必須是獨一的。因為幾乎所有有意義的命名符都被使用過了,所以今天LOCUS名稱已不再是一個有用的成分。但仍有許多軟件包依賴于一個獨一無二的LOCUS名稱,所以數(shù)據(jù)庫還不能將其徹底去掉??尚械霓k法是代之以一個獨一無二的詞,最簡單的是用一個保證不會重復(fù)的檢索號碼。序列長度,GenBank一般不接受50bp以下的記錄生物分子的類型,這里是單鏈的mRNAGenBank分類碼,由三個字母組成,這或者具有物種分類意義,或者出于其他分類目的。這一代碼的存在也是由于歷史的原因。認識GenBank文件格式(特性表)FEATURESLocation/Qualifierssource1..539/organism="Rattusnorvegicus"/strain="OLETF,LETOandZucker"/dev_stage="differentiated"/sequenced_mol="cDNAtomRNA"/tissue_type="adipose"CDS30..533/partial/note="NCBIgi:995615"/codon_start=1/product="obese"/translation="MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQLDLSPEC"來源(source)是唯一一個必須在所有GenBank記錄中出現(xiàn)的特性包含屬和種的科學(xué)名稱存在的或者潛在的編碼區(qū)編碼序列的翻譯產(chǎn)物編碼序列的gi號認識GenBank文件格式(序列)BASECOUNT121a167c133g118tORIGIN1ccaagaagaagaagaccccagcgaggaaaatgtgctggagacccctgtgccggttcctgt61ggctttggtcctatctgtcctatgttcaagctgtgcctatccacaaagtccaggatgaca121ccaaaaccctcatcaagaccattgtcaccaggatcaatgacatttcacacacgcagtcgg181tatccgccaggcagagggtcaccggtttggacttcattcccgggcttcaccccattctga241gtttgtccaagatggaccagaccctggcagtctatcaacagatcctcaccagcttgcctt301cccaaaacgtgctgcagatagctcatgacctggagaacctgcgagacctcctccatctgc361tggccttctccaagagctgctccctgccgcagacccgtggcctgcagaagccagagagcc421tggatggcgtcctggaagcctcgctctactccacagaggtggtggctctgagcaggctgc481agggctctctgcaggacattcttcaacagttggaccttagccctgaatgctgaggtttc//結(jié)束符號堿基統(tǒng)計信息序列開始序列主體選擇fasta格式三大基因數(shù)據(jù)庫Genbank

Genbank庫包含了所有已知的核酸序列和蛋白質(zhì)序列,以及與它們相關(guān)的文獻著作和生物學(xué)注釋。它是由美國國立生物技術(shù)信息中心(NCBI)建立和維護的。

NCBI的網(wǎng)址是:。EMBL核酸序列數(shù)據(jù)庫

由歐洲生物信息學(xué)研究所(EBI)維護的核酸序列數(shù)據(jù)構(gòu)成,查詢檢索可以通過通過因特網(wǎng)上的序列提取系統(tǒng)(SRS)服務(wù)完成。

數(shù)據(jù)庫網(wǎng)址是:http://www.ebi.ac.uk/embl/。

DDBJ數(shù)據(jù)庫

日本DNA數(shù)據(jù)倉庫(DDBJ)也是一個全面的核酸序列數(shù)據(jù)庫,與Genbank和EMBL核酸庫合作交換數(shù)據(jù)。使用其主頁上提供的SRS工具進行數(shù)據(jù)檢索和序列分析。

DDBJ的網(wǎng)址是:http://www.ddbj.nig.ac.jp/。主要的數(shù)據(jù)庫資源數(shù)據(jù)庫是生物信息學(xué)的主要內(nèi)容,各種數(shù)據(jù)庫幾乎覆蓋了生命科學(xué)的各個領(lǐng)域。核酸序列數(shù)據(jù)庫主要有GenBank,EMBL,DDBJ等.蛋白質(zhì)序列數(shù)據(jù)庫有SWISS-PROT,PIR,OWL,NRL3D,TrEMBL等,蛋白質(zhì)片段數(shù)據(jù)庫有PROSITE,BLOCKS,PRINTS等,三維結(jié)構(gòu)數(shù)據(jù)庫有PDB,NDB,BioMagResBank,CCSD等,蛋白質(zhì)結(jié)構(gòu)有關(guān)的數(shù)據(jù)庫還有SCOP,CATH,FSSP,3D-ALI,DSSP等,與基因組有關(guān)的數(shù)據(jù)庫還有ESTdb,OMIM,GDB,GSDB等,文獻數(shù)據(jù)庫有Medline,Uncover等。1.2NCBI上常用的生物學(xué)資源常用的生物學(xué)資源主要有以下幾種:1.2.1GeneBank數(shù)據(jù)庫

GeneBank數(shù)據(jù)庫由17個子庫組成,存有超過105000個不同的生物體的核苦酸序列,每條GeneBank數(shù)據(jù)記錄包含了對序列的簡要描述,它的科學(xué)命名,物種分類名稱,參考文獻,序列特征表,以及序列本身的堿基組成。1.2.2EST數(shù)據(jù)庫對cDNA文庫克隆的隨機測序所得到的兩端各200-400bp左右的序列被稱為表達序列標記(EST)。在GeneBank等的EST數(shù)據(jù)庫中有存有包括人、鼠、牛、豬、狗、線蟲、水稻、果蠅等的大量的EST序列。1、NCBI數(shù)據(jù)庫(NationalCenterforBiotechnologyinformation)

美國國家生物技術(shù)信息中心(NCBI)有一系列的生物信息學(xué)數(shù)據(jù)庫.其集成系統(tǒng)Entrez包括:序列報告數(shù)據(jù)庫Nucleotide

蛋白質(zhì)信息數(shù)據(jù)庫Protien

結(jié)構(gòu)數(shù)據(jù)庫Structure

基因組數(shù)據(jù)庫Genoma

遺傳信息知識庫OMIM等

Entrez由美國NCBI開發(fā),用于對文獻摘要、序列、結(jié)構(gòu)和基因組等數(shù)據(jù)庫進行關(guān)鍵詞查詢,找出相關(guān)的一個或幾個數(shù)據(jù)庫條目。該系統(tǒng)目前主要包括核酸序列數(shù)據(jù)庫、蛋白質(zhì)序列數(shù)據(jù)庫、基因組數(shù)據(jù)庫、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫、生物醫(yī)學(xué)文獻摘要數(shù)據(jù)庫、系統(tǒng)分類數(shù)據(jù)庫、人類遺傳疾病和遺傳缺失在線數(shù)據(jù)庫,以及基因信息數(shù)據(jù)庫、種群親緣關(guān)系核酸序列比對數(shù)據(jù)庫、表達序列標簽數(shù)據(jù)庫等。Entrez系統(tǒng)

Entrez

是由NCBI主持的一個數(shù)據(jù)庫檢索系統(tǒng),它包括核酸,蛋白以及Medline文摘數(shù)據(jù)庫,在這三個數(shù)據(jù)庫中建立了非常完善的聯(lián)系。因此,可以從一個DNA序列查詢到蛋白產(chǎn)物以及相關(guān)文獻,而且,每個條目均有一個類鄰(neighboring)信息,給出與查詢條目接近的信息。Entrez系統(tǒng)

Entrez中核酸數(shù)據(jù)庫為:GenBank,EMBL,DDBJ蛋白質(zhì)數(shù)據(jù)庫為:Swiss-Prot,PIR,PFR,PDB

PubMed基因組和染色體圖譜資料Entrez中的數(shù)據(jù)庫包括:Entrez系統(tǒng)檢索領(lǐng)域:(SearchFields)在WWWEntrez檢索系統(tǒng)中,檢索內(nèi)容被分為許多小的領(lǐng)域,每一個檢索領(lǐng)域包含以下信息:進入(Accession):

包含進入號相關(guān)性(Affiliation):

包括該檢索領(lǐng)域建立時的相關(guān)信息,原作者地址,有時亦有其他作者地址作者姓名(AuthorName):

包含文章作者清單E.C號(E.C.Number):

是酶學(xué)委員會命名的酶的編號特征詞(FeatureKey):

描述DNA特征的關(guān)鍵詞基因符號(GeneSymbol):

基因的標準名稱雜志名(JournalTitle):為檢索條目第一次發(fā)表時的雜志名,該雜志名是以縮寫形式儲存于數(shù)據(jù)庫中,如果不清楚雜志是如何縮寫的可采用ListTerms來查看關(guān)鍵詞(Keywords):可以使用較特定的索引條目來檢索以上數(shù)據(jù)庫。類似于醫(yī)學(xué)光盤檢索MedlineUID:

是Medline對每一個條目給出的唯一識別標記MeSH主題詞(MeSHTerms):

包括MeSH的主題詞,下級主題詞MeSH主要關(guān)鍵詞(MeSHMajorTopic):為檢索條目十分重要的MeSH詞目Entrez系統(tǒng)修改日期(ModificationDate):

包含該條目進入Entrez的日期,與出版日期一樣,以年/月/日形式出現(xiàn)頁數(shù)(PageNumber):

該文章所在雜志的頁碼特性(Property):

一個或幾個關(guān)鍵詞,用來描述該序列的類型出版日期(PublicationDate):包含文章出版日期以及序列錄入GenBank的日期PubMedID:PubMed對每一個條目給出的識別標記物種(Organism):

包含與該蛋白或核酸序列相關(guān)物種的學(xué)名和俗名蛋白質(zhì)名稱(Proteinname):SeqId:

與FASTA識別標記類似,為序列的一種識別標記物質(zhì)(Substance):

與該條目相關(guān)的化學(xué)物質(zhì)名稱Entrez系統(tǒng)文字檢索詞(TextWords):包含文章中的所有詞,其中:Medline詞目:標題和文摘蛋白質(zhì)詞目:定義,評論,蛋白名稱,蛋白描述核酸條目:定義,評論,基因名稱,基因名稱標題檢索詞(TitleWords):

在標題中出現(xiàn)的詞,或在描述該條目時出現(xiàn)的詞卷(Volume):

刊登該文章雜志所在卷使用MedlineUID,PubMedID和SeqID進行檢索時,在欄目框中要輸入數(shù)字。如要輸入多個數(shù)字,中間要用空格或逗號隔開。并選擇相對應(yīng)的檢索領(lǐng)域Entrez系統(tǒng)wwwEntrez可以采用幾種不同途徑的檢索方式:

名詞列表格式(listterm):當(dāng)輸入一檢索詞后,Entrez將列出與此相關(guān)的該領(lǐng)域中所有標準的檢索詞名稱,此時,可選擇一或多個標準名詞去檢索。

自動格式(automatic):當(dāng)輸入一個檢索詞后,即自動檢索,如果輸入的檢索詞超過一個,則Entrez會自動將之組合起來,如果無結(jié)果,則可嘗試將這多個檢索詞用“”括起來。Entrez系統(tǒng)檢索模式(SearchModes)

每一個文件都可以有數(shù)種閱讀方式,目的各不相同。一般來說,“引文格式(citation)”最適合于閱讀Medline形式的文件;“GenPept”格式適用于閱讀蛋白質(zhì)文件;“GenBank”格式用來閱讀核酸文件。Entrez系統(tǒng)閱讀文獻(ViewingDocument)文字檢索詞(TextWords):包含文章中的所有詞,其中:Medline詞目:標題和文摘蛋白質(zhì)詞目:定義,評論,蛋白名稱,蛋白描述核酸條目:定義,評論,基因名稱,基因名稱標題檢索詞(TitleWords):

在標題中出現(xiàn)的詞,或在描述該條目時出現(xiàn)的詞卷(Volume):

刊登該文章雜志所在卷使用MedlineUID,PubMedID和SeqID進行檢索時,在欄目框中要輸入數(shù)字。如要輸入多個數(shù)字,中間要用空格或逗號隔開。并選擇相對應(yīng)的檢索領(lǐng)域Entrez系統(tǒng)

每一個文件都可以有數(shù)種閱讀方式,目的各不相同。一般來說,“引文格式(citation)”最適合于閱讀Medline形式的文件;“GenPept”格式適用于閱讀蛋白質(zhì)文件;“GenBank”格式用來閱讀核酸文件。Entrez系統(tǒng)閱讀文獻(ViewingDocument)1.2NCBI上常用的生物學(xué)資源BLAST家族

BLAST是目前最常用的DNA和蛋白質(zhì)序列數(shù)據(jù)庫搜索算法。BLASTP:比較一個查詢蛋白序列和一個蛋白序列數(shù)據(jù)庫BPASTN:比較一個核酸查詢序列和一個核酸序列數(shù)據(jù)庫BLASTX:比較一個查詢核酸序列和一個蛋白序列數(shù)據(jù)庫,能用此方法發(fā)現(xiàn)一個未知核酸序列的潛在翻譯產(chǎn)物TBLASTN:比較一個查詢蛋白序列和一個核酸序列數(shù)據(jù)庫TBLASTX:將DNA查詢序列和核酸序列庫中的序列全部翻譯成蛋白質(zhì)序列,然后進行蛋白質(zhì)序列比較4、數(shù)據(jù)庫技術(shù)及數(shù)據(jù)挖掘數(shù)據(jù)庫技術(shù)數(shù)據(jù)倉庫虛擬數(shù)據(jù)庫技術(shù)(VirtualDatabase,簡稱VDB)數(shù)據(jù)挖掘(datamining)又稱作數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase),它是從數(shù)據(jù)庫或數(shù)據(jù)倉庫中發(fā)現(xiàn)并提取隱藏在其中的信息的一種新技術(shù),它能自動分析數(shù)據(jù),對它們進行歸納性推理和聯(lián)想,尋找數(shù)據(jù)間內(nèi)在的某些關(guān)聯(lián),從中發(fā)掘出潛在的、對信息預(yù)測和決策行為起著十分重要作用的模式數(shù)據(jù)挖掘過程一般分為4個基本步驟:數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘和結(jié)果分析Entrez是面向生物學(xué)家的數(shù)據(jù)庫查詢系統(tǒng),其特點之一是使用十分方便。它把序列、結(jié)構(gòu)、文獻、基因組、系統(tǒng)分類等不同類型的數(shù)據(jù)庫有機的結(jié)合在一起,通過超文本鏈接,用戶可以從一個數(shù)據(jù)庫直接轉(zhuǎn)入另外一個數(shù)據(jù)庫Entrez的另一個特點是把數(shù)據(jù)庫和應(yīng)用程序結(jié)合在一起。例如,通過“Relatedsequence”工具,可以直接找到與查詢所得蛋白質(zhì)序列同源的其它蛋白質(zhì)。查詢得到的蛋白質(zhì)三維結(jié)構(gòu),可以通過在用戶計算機上安裝的Cn3D軟件直接顯示分子圖形。Entrez系統(tǒng)的開發(fā)基于特殊的數(shù)據(jù)模型NCBIANS.1(AbstractSyntaxNotation),在對于文獻摘要中的關(guān)鍵字查詢時,不僅考慮了查詢對象和數(shù)據(jù)庫中單詞的實際匹配,而且考慮了意義相近的匹配。在查詢文獻數(shù)據(jù)庫摘要得到結(jié)果后,可以通過點擊“RelatedArticles”繼續(xù)查找相關(guān)文獻。現(xiàn)狀及問題1.我國已有強大的DNA測序中心:

華大,北方,南方,..但我們需要運算速度遠比現(xiàn)在計算速度快的機器或方法.

2.生物信息學(xué)處理系統(tǒng)處于初級規(guī)模.有一些Genbank,EMBL,GCG的鏡象.

(1).沒有自己的完善的系統(tǒng)(2).沒有大量新算法的開發(fā)

3.后基因組:科研單位及制藥工業(yè)并未完全吸收利用生物信息學(xué)的工具.基因組測序計劃海量DNA序列數(shù)據(jù)DNA序列是生命的真諦,生命的源代碼。人類基因組計劃(HGP)1990年啟動目標:測定人類基因組的全部DNA序列,了解基因及其功能國際大合作:美國、英國、日國、法國、德國、中國投入:30億美元結(jié)果:2003年完成精細圖,長度約為30億個堿基人類基因組的組成

核基因組(nucleargenome):由大約30億bp組成,分為24條線性DNA分子(55~250Mb),分別包含在24條不同的染色體中(22條常染色體和2條性染色體X、Y)

線粒體基因組(mitochondriongenome):長為16,569bp的環(huán)狀DNA分子,位于產(chǎn)生能量的細胞器——線粒體中基因組測序完成生物及基因數(shù)目預(yù)測

生物基因組大小完成時間預(yù)計基因數(shù)目酵母12.1Mb19966,034線蟲97Mb199819,099果蠅180Mb200013,061擬南芥125Mb200025,498人類3000Mb200126,000-38,000水稻460Mb200144,000-65,000150多個物種的基因組測序完成/正在進行中humanArabidopsis擬南芥ThermotogamaritimaEscherichiacoli大腸桿菌Buchnerasp.APSRickettsiaprowazekiiUreaplasmaurealyticumBacillussubtilisDrosophilamelanogasterThermoplasmaacidophilumPlasmodiumfalciparumHelicobacterpylori

mouseCaenorhabitiselegansratBorreliaburgorferiBorreliaburgorferiAquifexaeolicusNeisseriameningitidisZ2491Mycobacteriumtuberculosis模式生物基因組數(shù)據(jù)庫GeneCard:人類基因的綜合數(shù)據(jù)庫GeneCards是人類基因的綜合數(shù)據(jù)庫,包括基因組,蛋白質(zhì)組和轉(zhuǎn)錄組的信息,以及相關(guān)疾病,單核苷酸多態(tài)性,基因表達,基因功能等信息。UCSC’sHumanGenomeBrowser果蠅(常用模式生物)數(shù)據(jù)庫

/

AceDB:線蟲基因組數(shù)據(jù)庫MajorApplicationI:DesigningDrugsUnderstandingHowStructuresBindOtherMolecules(Function)DesigningInhibitorsDocking,StructureModelingMajorApplicationII:FindingHomologsMajor

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論