




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、LifeScience生物信息學(xué)12LifeScienceLifeScience第一節(jié)第一節(jié) 生物信息學(xué)生物信息學(xué)(Bioinformatics)一、生物學(xué)基礎(chǔ)(復(fù)習(xí))二、發(fā)展背景與定義三、研究內(nèi)容四、研究現(xiàn)狀五、發(fā)展前景LifeScience一、生物學(xué)基礎(chǔ)一、生物學(xué)基礎(chǔ)表型與基因型(phenotype vs. genotype)遺傳信息的流動基因的表達(dá)與調(diào)控分子進(jìn)化DNA序列分析:基因識別、調(diào)控元件識別、進(jìn)化分析mRNA:剪切位點(diǎn)識別、基因表達(dá)分析蛋白質(zhì):結(jié)構(gòu)預(yù)測、蛋白質(zhì)間相互作用、亞細(xì)胞定位基因組:基因預(yù)測、進(jìn)化分析染色體:結(jié)構(gòu)分析網(wǎng)絡(luò):pathway建模細(xì)胞: 系統(tǒng):LifeScienc
2、eLifeScience二、發(fā)展背景和定義二、發(fā)展背景和定義LifeScience生物信息生物信息廣義的概念廣義的概念生命現(xiàn)象是不同層次上的物質(zhì)、能量與信息的交換,不同層次是指核酸、蛋白質(zhì)、細(xì)胞、器官、系統(tǒng)、整體等研究生物體系和生物過程中信息的內(nèi)涵和信息的傳遞 生物電磁學(xué)與電磁生物學(xué)、視覺系統(tǒng)與光信息處理、腦和神經(jīng)系統(tǒng)與信息、生物體結(jié)構(gòu)與微光機(jī)電系統(tǒng)LifeScience發(fā)展背景發(fā)展背景BiocomputingComputational BiologyBioinformatics1986年,在EMBL Heidelberg成立Biocomputing部門,命名為BIOinformatis.如果
3、我們不能回答生物學(xué)問題,作為計(jì)算生物學(xué)家是失敗的。1997年底創(chuàng)立了CABIOS(Computer Applications in the Biosciences).we assert:computational planning and analysis is an integral part of the biological discovery process.在完整基因組序列和高通量技術(shù)時(shí)代不要僅僅談?wù)摲治龊A繑?shù)據(jù)的挑戰(zhàn),相反,要談?wù)摷膊‘a(chǎn)生的風(fēng)險(xiǎn),關(guān)于人類遺傳差異、基因型改變的進(jìn)化如何導(dǎo)致功能的改變,如何使用數(shù)據(jù)來回答這些問題。LifeScience 背景1965 1970 1975
4、 1980 1985 1990 1995 2000100,00010,0001,0001001010.10.010.0011,000Medline RecordsTransistors/ChipDNA Sequences3D StructuresCumulative Growth of Biological Information and Computer PowerMark Bogulski (1998) Bioinformatics: A New EraLifeScience生物醫(yī)藥工業(yè)生物醫(yī)藥工業(yè) 提供大量基因序列分析的工具,在以下方面加快新藥開發(fā)的進(jìn)程:l資料的獲取、包括從數(shù)據(jù)庫中尋找
5、新藥開發(fā)者感興趣的基因序列和相關(guān)資料文獻(xiàn)l基因功能的預(yù)測和基因生理作用的預(yù)測l需要大量信息處理的藥物篩選和加工過程(Weinstein JN et al. ,1997) LifeScienceDefinition of Bioinformatics (1)Bioinformatics is defined as a scientific discipline that encompasses all aspects of biological information acquisition, processing, storage, distribution, analysis and int
6、erpretation, that combines the tools and techniques of mathematics, computer science and biology with the aim of understanding the biological significance of a variety of data.生物信息學(xué)是一門交叉學(xué)科。它包含了生物信息的獲取、處理、存儲、生物信息學(xué)是一門交叉學(xué)科。它包含了生物信息的獲取、處理、存儲、分發(fā)、分析和解釋等在內(nèi)的所有方面,它綜合運(yùn)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)分發(fā)、分析和解釋等在內(nèi)的所有方面,它綜合運(yùn)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)和生
7、物學(xué)的各種工具,來闡明和理解大量數(shù)據(jù)所包含的生物學(xué)意義。和生物學(xué)的各種工具,來闡明和理解大量數(shù)據(jù)所包含的生物學(xué)意義。Understanding Our Genetic Inheritance. The US Human Genome Project: The First Five Years 1991-1995. NIH Publibcation No. 901590, April, 1995LifeScienceDefinition of Bioinformatics (2)Bioinformatics is conceptualising biology in terms of molec
8、ules(in the sense of Physical chemistry) and applying “informatics techniques” (derived from disciplines such as applied maths, computer science and statistics) to understand and organise the information associated with these molecules, on a large scale.Oxford English DictionaryLifeScienceComputatio
9、nInformaticsBiologyBioinformaticsLifeScience算法統(tǒng)計(jì)學(xué)信息理論圖形學(xué)科學(xué)可視化圖像識別人工智能密碼學(xué)非線性動力學(xué)計(jì)算機(jī)模擬語言學(xué)機(jī)器學(xué)習(xí)數(shù)據(jù)庫軟件工程計(jì)算機(jī)網(wǎng)絡(luò)分布式系統(tǒng)數(shù)據(jù)獲取數(shù)據(jù)解釋基因組圖譜三維結(jié)構(gòu)預(yù)測分子建模藥物設(shè)計(jì)同源比較分子進(jìn)化數(shù)據(jù)庫檢索基因預(yù)測儀器設(shè)計(jì)數(shù)據(jù)庫構(gòu)建基因調(diào)控基因診斷及治療生物信息學(xué)計(jì)算機(jī)科學(xué)和數(shù)學(xué)分子生物學(xué) LifeScience生物信息學(xué)研究意義利用數(shù)理統(tǒng)計(jì)、模式識別、動態(tài)規(guī)劃、密碼解讀、利用數(shù)理統(tǒng)計(jì)、模式識別、動態(tài)規(guī)劃、密碼解讀、語意解析、信令傳遞、神經(jīng)網(wǎng)絡(luò)、遺傳算法以及語意解析、信令傳遞、神經(jīng)網(wǎng)絡(luò)、遺傳算法以及隱馬氏模
10、型等各種方法隱馬氏模型等各種方法對序列、結(jié)構(gòu)數(shù)據(jù)進(jìn)行對序列、結(jié)構(gòu)數(shù)據(jù)進(jìn)行定性和定量分析定性和定量分析,從中獲,從中獲取基因編碼、基因調(diào)控、序列取基因編碼、基因調(diào)控、序列- -結(jié)構(gòu)結(jié)構(gòu)- -功能關(guān)系等功能關(guān)系等理性知識理性知識闡明細(xì)胞、器官和個體的發(fā)生、發(fā)育、病變、衰闡明細(xì)胞、器官和個體的發(fā)生、發(fā)育、病變、衰亡的基本規(guī)律和亡的基本規(guī)律和時(shí)空聯(lián)系時(shí)空聯(lián)系探索生命起源、生物進(jìn)化、生命本質(zhì)等重大理論探索生命起源、生物進(jìn)化、生命本質(zhì)等重大理論問題,最終建立問題,最終建立“生物學(xué)周期表生物學(xué)周期表”指導(dǎo)分子生物學(xué)實(shí)驗(yàn)指導(dǎo)分子生物學(xué)實(shí)驗(yàn)LifeScienceLifeScience生物信息學(xué) 研究方向基因組序
11、列裝配基因組序列裝配基因識別基因識別基因功能預(yù)報(bào)基因功能預(yù)報(bào)基因多態(tài)性分析基因多態(tài)性分析基因進(jìn)化基因進(jìn)化mRNAmRNA結(jié)構(gòu)預(yù)測結(jié)構(gòu)預(yù)測基因芯片設(shè)計(jì)基因芯片設(shè)計(jì)基因芯片數(shù)據(jù)分析基因芯片數(shù)據(jù)分析疾病相關(guān)基因分析疾病相關(guān)基因分析 蛋白質(zhì)序列分析蛋白質(zhì)序列分析 蛋白質(zhì)家族分類蛋白質(zhì)家族分類 蛋白質(zhì)結(jié)構(gòu)預(yù)測蛋白質(zhì)結(jié)構(gòu)預(yù)測 蛋白質(zhì)折疊研究蛋白質(zhì)折疊研究 代謝途徑分析代謝途徑分析 轉(zhuǎn)錄調(diào)控機(jī)制轉(zhuǎn)錄調(diào)控機(jī)制 蛋白質(zhì)芯片設(shè)計(jì)蛋白質(zhì)芯片設(shè)計(jì) 蛋白質(zhì)芯片數(shù)據(jù)分析蛋白質(zhì)芯片數(shù)據(jù)分析 藥物設(shè)計(jì)藥物設(shè)計(jì)LifeScience三、生物信息學(xué)的研究內(nèi)容三、生物信息學(xué)的研究內(nèi)容數(shù)學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué)1、與HGP相關(guān)的研究內(nèi)
12、容2、功能基因組研究相關(guān)內(nèi)容3、蛋白組學(xué)相關(guān)4、基因芯片信息學(xué)研究LifeScienceStatistics 統(tǒng)計(jì)學(xué)Probability Theory 概率論 (特別是隨機(jī)過程理論)Operational Research 運(yùn)籌學(xué)Optimization Theory & Method 最優(yōu)化理論與方法Topology 拓?fù)鋵W(xué) (主要是幾何拓?fù)洌〧unction Theory 函數(shù)論Information Theory 信息論Computational Mathematics 計(jì)算數(shù)學(xué)Group Theory 群論數(shù)學(xué)數(shù)學(xué)(Maths)LifeScience幾個常用幾個常用 數(shù)學(xué)模型
13、概念與方法數(shù)學(xué)模型概念與方法Bayes 公式、 Bayes統(tǒng)計(jì)馬氏鏈 (Markov chains)隱馬氏鏈 (Hidden Markov chains)Poisson 過程與連續(xù)時(shí)間馬氏鏈熵、相對熵與信息增益神經(jīng)網(wǎng)絡(luò) (neural networks (NN): Multi-layer feed-forward NN, self-organized learning NN, recurrent NN(Hopfield NN, Bolztmann machine )LifeScience網(wǎng)絡(luò)技術(shù)數(shù)據(jù)庫 (特別是關(guān)系型數(shù)據(jù)庫)數(shù)據(jù)整合和可視化數(shù)據(jù)挖掘基于Unix操作系統(tǒng)的各種軟件包一些重要的算法
14、的復(fù)雜性研究計(jì)算機(jī)科學(xué)計(jì)算機(jī)科學(xué)(Computer Science)計(jì)算機(jī)硬件LifeScience生物信息學(xué)研究內(nèi)容生物信息學(xué)研究內(nèi)容 (序列比對) 包括:全序列、局部和多重比對;Fasta, Blast, PSI-Blast (蛋白質(zhì)結(jié)構(gòu)預(yù)測) (計(jì)算機(jī)輔助基因識別) 算法紛紜,較著名的為GeneScan, GeneFinder, 等;尚存在許多問題 (DNA語言) (分子進(jìn)化和比較基因組學(xué)) (序列重疊群裝配) (遺傳密碼的起源) (代謝網(wǎng)絡(luò)分析) (基因芯片設(shè)計(jì))LifeScience與與HGP相關(guān)的生物信息學(xué)研究相關(guān)的生物信息學(xué)研究 1、高度自動化的實(shí)驗(yàn)數(shù)據(jù)的獲得、加工和整理高度自動
15、化的實(shí)驗(yàn)數(shù)據(jù)的獲得、加工和整理各種自動化分子生物學(xué)儀器應(yīng)用上,如DNA測序儀,PCR儀等實(shí)驗(yàn)過程高度自動化甚至工廠化,產(chǎn)生的海量數(shù)據(jù)(gigabyte),專門的實(shí)驗(yàn)室數(shù)據(jù)管理系統(tǒng)自動完成包括實(shí)驗(yàn)進(jìn)程和實(shí)驗(yàn)數(shù)據(jù)的紀(jì)錄,常規(guī)數(shù)據(jù)分析,數(shù)據(jù)質(zhì)量檢測和問題的自動查找,常規(guī)的數(shù)據(jù)說明和數(shù)據(jù)輸入數(shù)據(jù)庫。目前還沒有成熟的通用的分子生物學(xué)數(shù)據(jù)管理系統(tǒng)。 LifeScience2、序列片段的拼接目前DNA自動測序儀每個反應(yīng)只能測序500bp左右,傳統(tǒng)測序方法是將克隆進(jìn)行亞克隆并對亞克隆進(jìn)行排序。自動而高速拼接序列的算法,Lander-Waterman模型(Lander ES and Waterman MS,19
16、98)利用鳥槍法進(jìn)行測序,再將大量隨機(jī)測序的片段用計(jì)算機(jī)進(jìn)行自動拼接。1.9Mb Haemophilus influenzae(流感嗜血桿菌)(Fleischmann RD et al. ,1995)0.58Mb Mycoplasmu genitalium(枝原體)(Fraser CM et al. ,1995) 0.58Mb jannaschii(甲烷桿菌) (Bult CJ et al. ,1996)有待改進(jìn):將已知的基因組知識應(yīng)用于拼接算法,進(jìn)一步提高拼接真核基因組的有效性;自動處理自動測序造成的差錯LifeScienceLifeScience (序列比對、聯(lián)配、 對齊等) 包括:全序列
17、、局部 多重比對; Fasta, Blast, PSI-Blast_LifeScienceRaw DNA sequenceGeneBank: 11.5Millon sequence 12.5billion basesSeparating coding and non-coding Identification of introns and exonsGene product predictionForensic analysisLifeScience基因識別基因識別識別基因組編碼區(qū),識別基因結(jié)構(gòu)1、同源比較(DNA序列、EST)2、基因預(yù)測(不是用同源搜索的方法來識別基因)從頭開始基因預(yù)測基于
18、知識的基因預(yù)測(密碼子使用,堿基組成,剪切位點(diǎn)特征,PolyA信號,2、3、6核苷酸頻率,轉(zhuǎn)錄信號,轉(zhuǎn)譯信號,尺寸分布)LifeScience基因預(yù)測的步驟:1、識別可能的外顯子2、辨別起始/內(nèi)部/終止外顯子3、把起始、一些內(nèi)部的和終止外顯子的連起來,形成可能的基因4、確保該可能的基因沒有內(nèi)部的移位或終止密碼子5、leftovers:shadow exons算法: Rule-based system, linguistic system, linear discriminant analysis, decision tree, spliced alignment, fourier analys
19、isLifeScienceLifeScienceLifeScienceEvaluating Gene Prediction敏感性(Sensitivity)敏感性=預(yù)測基因中確為基因的數(shù)目/待測序列中的基因數(shù)目;How many exons were correctly predicted?特異性(Specifity)特異性=預(yù)測基因中確為基因的數(shù)目/預(yù)測基因數(shù)目How many exon predictions are true?LifeScience 雖然人類基因組的草圖很快就要完成,但生物學(xué)家們對基因組里到底有多少基因的猜測仍有極大的不同。最近在美國紐約冷泉港召開的一個會議上,他們設(shè)立了一
20、美元一個(次)的基因數(shù)目賭注。勝者將于2003年揭曉,他除了可獲得全部賭金外,還可得到一本由DNA結(jié)構(gòu)的發(fā)現(xiàn)者James Watson親筆簽名的皮革封面雙螺旋一書。 如果基因組是生命的天書,那么基因就是寫成這本書的詞匯。生物學(xué)家們一直假設(shè),微生物的故事較短,而人類的故事則是一部巨作,人類擁有8萬到10萬個基因。但是美國加州大學(xué)伯克利分校的果蠅基因組計(jì)劃的主任Gerald Rubin指出,果蠅的基因比我們所認(rèn)為的最簡單的線蟲少了5000個。他警告說:“生物體的復(fù)雜性并不是簡單地與基因數(shù)量相關(guān)聯(lián)的?!?確實(shí),根據(jù)目前已測序完成的人類基因組第21對、22對染色體的經(jīng)驗(yàn),德國分子生物技術(shù)研究所的 An
21、dre Rosenthal 說,我們得出的結(jié)論是整個基因組有不多于4萬個基因。法國的分子遺傳學(xué)家Hugues Roest Crollius通過比較現(xiàn)有的人類基因序列與淡水河豚基因序列,提出了更低的人類基因數(shù)估計(jì):在27700與34300之間。美國西雅圖華盛頓大學(xué)的基因?qū)W家Phil Green是常用的組合基因序列數(shù)據(jù)的程序PHRED和PHRAP的發(fā)明人,他提出人類基因數(shù)大約為35000。 Green說:“我們使用了3種獨(dú)立的計(jì)算方法得出了這些較低的基因數(shù)估計(jì),我確信基因數(shù)目就在這個范圍內(nèi)?!泵绹鴩胰祟惢蚪M研究所主任Francis Collins表示他同意Green的估計(jì),將他1美元的賭金下在
22、48011個基因上。但馬里蘭Rockville的基因組研究所(TIGR)的John Quackenbush根據(jù)TIGR的人類基因指數(shù)的估計(jì),將他的1美元賭在118259個基因上。加州Incyte Genomics公司的Sam LaBrie賭的基因數(shù)是153478個,該公司在1999年9月曾宣布人類基因至少有14萬個。 但是支持人類基因數(shù)目是一個較小數(shù)的科學(xué)家們也不灰心,他們爭論說生物體的復(fù)雜性來自于基因如何被管理或表達(dá)的,而不是基因數(shù)目本身。Rosenthal解釋說:“我們不需要那么多的基因成為高等動物,”他賭的是38000個。你賭多少呢?LifeScience基因功能預(yù)測基因功能預(yù)測 (1)
23、序列同源比較如果基因A與基因 B有相當(dāng)?shù)耐葱裕敲椿駻可能具有類似基因B的功能。公共數(shù)據(jù)庫:GenBank,EMBL,DDBJ功能數(shù)據(jù)庫:dbEST, dbSTS, dbGSS(Genome Survey Sequence,類似EST,不同的是它是基因組的片段而非cDNA的片段,來自隨機(jī)的對基因組片段進(jìn)行一輪測序,以及外顯子捕捉和Alu PCR等方法),dbHTG(high throughput Genomic Sequence,未完成整理的序列數(shù)據(jù))蛋白質(zhì)序列庫:PIR(protein information resource), Swiss-Prot 蛋白質(zhì)高級結(jié)構(gòu)數(shù)據(jù)庫PDB(pro
24、tein data bank):生物大分子三級結(jié)構(gòu)的數(shù)據(jù)庫,包括原子標(biāo)記、文獻(xiàn)引用、一級和二級結(jié)構(gòu)信息,以及晶體結(jié)構(gòu)和核磁共振的數(shù)據(jù)。同源比較算法:分為整體對齊(Global alignment)和局部對齊(local alignment)局部對齊的算法有Smith-Watermann 算法;FASTA算法;BLAST算法LifeScienceProtein Sequence400,000 sequences(SWISS-PROT) 300aaSequence comparison algorithmsMultiple sequence alignments algorithmsIdentif
25、ication of conserved sequence motifsLifeScience蛋白質(zhì)結(jié)構(gòu)預(yù)測蛋白質(zhì)結(jié)構(gòu)預(yù)測 可以通過計(jì)算(如分子力學(xué)、分子動力學(xué)等)來進(jìn)行結(jié)構(gòu)預(yù)測(1)對于自然的蛋白質(zhì)結(jié)構(gòu)和未折疊的蛋白質(zhì)結(jié)構(gòu),兩者之間的能量差非常?。?kcal/mol 數(shù)量級)(2)研究蛋白質(zhì)結(jié)構(gòu)的計(jì)算量非常大 LifeScienceAnfinsen, 1960esX-射線衍射和核磁共振蛋白質(zhì)結(jié)構(gòu)預(yù)測的實(shí)驗(yàn)基礎(chǔ)蛋白質(zhì)結(jié)構(gòu)預(yù)測的實(shí)驗(yàn)基礎(chǔ)天然核糖核酸酶變性還原核糖核酸酶LifeScienceLifeScience蛋白質(zhì)的二級結(jié)構(gòu)蛋白質(zhì)的二級結(jié)構(gòu)二面角定義NCACNOCACywfORR蛋白質(zhì)分子的主
26、鏈二面角la螺旋(f,y) (-60,-40)lb折疊(f,y) (-120,140)l環(huán)區(qū)LifeScience蛋白質(zhì)分子的三級結(jié)構(gòu)蛋白質(zhì)分子的三級結(jié)構(gòu)l典型的蛋白質(zhì)結(jié)構(gòu)類型 a、b、 a / b 、 a blPDBSUMhttp:/www.biochem.ucl.ac.uk/bsm/pdbsumlSCOPhttp:/ 已知同源的序列間的配比FASTA:全基因數(shù)據(jù)庫的快速搜索PSI-BLAST:非??焖俚娜珨?shù)據(jù)庫搜索HMM:特定蛋白家族的序列模式識別PHYLIPS:基因進(jìn)化樹充分利用InternetLifeScience二級結(jié)構(gòu)預(yù)測二級結(jié)構(gòu)預(yù)測 l用處估計(jì)蛋白的結(jié)構(gòu)類型提高同源模建的準(zhǔn)確性三
27、級結(jié)構(gòu)預(yù)測的起點(diǎn)遠(yuǎn)緣蛋白的Threadingl方法Chou-FasmanGarnier神經(jīng)網(wǎng)絡(luò)組合算法LifeScience蛋白質(zhì)三級結(jié)構(gòu)預(yù)測蛋白質(zhì)三級結(jié)構(gòu)預(yù)測 (1) 同源模型化方法(2) 遠(yuǎn)程同源模型化方法(3) 結(jié)構(gòu)的從頭預(yù)測方法距離幾何分子動力學(xué) LifeScience一級序列數(shù)據(jù)庫搜索同源結(jié)構(gòu)序列和結(jié)構(gòu)配比挑選模板蛋白模建保守區(qū)域模建環(huán)區(qū)模建側(cè)鏈優(yōu)化和評估LifeScienceMacromolecular structureSecondary,tertiary structure prediction3D structural alignment algorithmsProtein
28、geometry measurementsSurface and volume shape calculationIntermolecular interactions Molecular simulationsForce-field calculationsMolecular movementsDocking predictions15,000 structures(PDB) 1000 atomic coordinates eachLifeScienceGenomes300 complete genomes 11.6 million sequencesCharacterization of
29、repeatsStructural assignments to genesPhylogenetic analysisGenomic scale censuses(characterization of protein content, metabolic pathways)Linkage analysis relating specific genes to diseasesLifeScience比較基因組學(xué)研究研究生命是從哪里起源的?生命是如何進(jìn)化的?遺傳密碼是如何起源的?估計(jì)最小獨(dú)立生活的生物至少需要多少基因,這些基因是如何使它們活起來的?比如,鼠和人的基因組大小相似,都含有約三十億堿基
30、對,基因的數(shù)目也類似。可是鼠和人差異確如此之大,這是為什么?同樣,有的科學(xué)家估計(jì)不同人種間基因組的差別僅為 0.1%;人猿間差別約為1%。但他們表型間的差異十分顯著。 這又為什么?完整基因組序列的比較研究是解決這些問題的重要途徑。LifeScience基于完整基因組數(shù)據(jù)的生物進(jìn)化基于完整基因組數(shù)據(jù)的生物進(jìn)化研究研究1、序列相似性比較。就是將待研究序列與DNA或蛋白質(zhì)序列庫進(jìn)行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有BLAST、FASTA等;2、序列同源性分析。是將待研究序列加入到一組與之同源,但來自不同物種的
31、序列中進(jìn)行多序列同時(shí)比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;3、構(gòu)建系統(tǒng)進(jìn)化樹。根據(jù)序列同源性分析的結(jié)果,重建反映物種間進(jìn)化關(guān)系的進(jìn)化樹。為完成這一工作已發(fā)展了多種軟件包,象PYLIP、MEGA等;4、穩(wěn)定性檢驗(yàn)。為了檢驗(yàn)構(gòu)建好的進(jìn)化樹的可靠性,需要進(jìn)行統(tǒng)計(jì)可靠性檢驗(yàn),通常構(gòu)建過程要隨機(jī)地進(jìn)行成百上千次,只有以大概率(70以上)出現(xiàn)的分支點(diǎn)才是可靠的。通用的方法使用 Bootstrap算法,相應(yīng)的軟件已包括在構(gòu)建系統(tǒng)進(jìn)化樹所用的軟件包當(dāng)中。為便于使用者查找表三給出了進(jìn)化分析相關(guān)軟件的因特網(wǎng)地
32、址。LifeSciencePhylogeny of 23 completely sequenced Bacteria and Archaea species on the basis of 16s rRNA.LifeScienceGene expressionCorrelating expression patternsMapping expression data to sequence, structural and biochemical dataLifeScience基因表達(dá)分析和調(diào)控網(wǎng)絡(luò)研究基因表達(dá)分析和調(diào)控網(wǎng)絡(luò)研究高通量基因轉(zhuǎn)錄實(shí)驗(yàn)技術(shù)高通量基因轉(zhuǎn)錄實(shí)驗(yàn)技術(shù)1、mRNAcDNA m
33、icroarrayOligonucleotide chipRT-PCRSAGE2、protein2D-PAGELifeScienceHierarchical ClusteringLifeSciencePrincipal Component Analysis1234-4-3-2-11234-4-3-2-1LifeScienceMetabolic pathwaysPathway simulationsMetabolic pathwaysRegulatory networkSignal cascadeProtein-protein interactionLifeScienceLifeScienceL
34、iterature11 million citations Digital libraries for automated bibliographical serachesKnowledge databases of data from literatureLifeScience其他其他郝柏林院士:DNA序列中的分形模式,計(jì)算高頻片斷張春霆院士:z-curve陳潤生 拼接方法基因表達(dá)數(shù)據(jù)分析和調(diào)控網(wǎng)絡(luò)研究基因芯片設(shè)計(jì)及信息處理基因芯片設(shè)計(jì)及信息處理探針設(shè)計(jì)探針設(shè)計(jì)解決雜交條件一致性問題芯片優(yōu)化芯片優(yōu)化提高芯片制備效率公共 數(shù)據(jù)庫專用 數(shù)據(jù)庫確定目標(biāo)確定目標(biāo)自動設(shè)計(jì)目標(biāo)序列數(shù)據(jù)分析數(shù)據(jù)分析分析雜
35、交檢測結(jié)果及可靠性基因芯片 數(shù)據(jù)庫圖像處理圖像處理數(shù)數(shù) 據(jù)據(jù) 庫庫 查查 詢詢 序序 列列 分分 析析生生 物物 信信 息息 學(xué)學(xué) 數(shù)數(shù) 據(jù)據(jù) 挖挖 掘掘雜交檢測圖像LifeScience四、生物信息學(xué)研究現(xiàn)狀四、生物信息學(xué)研究現(xiàn)狀1、研究機(jī)構(gòu)2、數(shù)據(jù)庫3、軟件及應(yīng)用4、重大成果LifeScienceLifeScienceNCBI National Center for Biotechnology Information (US) EBI European Bioinformatics Institute (EU) HGMP Human Genome Mapping Project Resou
36、rce Centre (UK )ExPASy Expert of Protein Analysis System (Switzerland )CMBI Centre of Molecular and Biomolecule (The Netherlands)ANGIS National Genome Information Service (Australia) NIG National Institute of Genetics (Japan)BIC National Bioinformatics Centre (Singapore)LifeScience北京大學(xué)生物信息中心北京大學(xué)生物信息
37、中心 http:/http:/中國生物信息中國生物信息//北京大學(xué)物理化學(xué)研究所北京大學(xué)物理化學(xué)研究所 http:/http:/北京醫(yī)科大學(xué)生物醫(yī)學(xué)信息北京醫(yī)科大學(xué)生物醫(yī)學(xué)信息 http:/http:/中國科學(xué)院微生物研究所中國科學(xué)院微生物研究所 http:/http:/天津大學(xué)生物信息中心天津大學(xué)生物信息中心 http:/http:/中科院計(jì)算所智能信息處理重點(diǎn)實(shí)驗(yàn)室生物信息學(xué)研究組中科院計(jì)算所智能信息處理重點(diǎn)實(shí)驗(yàn)室生物信息學(xué)研究組http:/ http:/ http:/www.embl-heidelberg
38、.de/ http:/www.ebi.ac.uk/embl/ GenBank /Web/Genbank/ DDBJ http:/www.ddbj.nig.ac.jp/ Ensembl / Medline /medline/queryform.html BioMedNet http:/www.BioMedN http:/ (biological package)RCSB(結(jié)構(gòu)生物信息學(xué)研究聯(lián)合實(shí)驗(yàn)室)(結(jié)構(gòu)生物信息學(xué)研究聯(lián)合實(shí)驗(yàn)室)www.rcsb.
39、orgPRESAGE(Collaborative resource for structural genomics 結(jié)構(gòu)基因組學(xué)聯(lián)合資源)/ ExPASy http:/www.expasy.ch/ SRS http:/srs.ebi.ac.uk:5000/ Entrez /Entrez/ GCG: http:/ LifeScienceDictyDb(Dictyostelium discoideum genome database Dictyostelium discoideum基因組數(shù)據(jù)庫
40、)/others/dsmith/dictydb.htmlEcoCyc(Encyclopedia of E.coli genes and metabolism 大腸桿菌基因和代謝百科全書)http:/ EcoGene(Escherichia coli K12 genome database Escherichia coli K12基因組數(shù)據(jù)庫)/EcoGene/EcoWeb/ F l y B a s e ( D r o s o p h i l a g e n o m e d a t a b a s e
41、果 蠅 基 因 組 數(shù) 據(jù) 庫 )/ http:/gin.ebi.ac.uk:7081/ HIV(HIV sequence database HIV序列數(shù)據(jù)庫)/ M a i z e D B ( M a i z e g e n o m e d a t a b a s e 玉 米 基 因 組 數(shù) 據(jù) 庫 )/ IMGT(ImMunoGeneTics db 免疫基因標(biāo)記數(shù)據(jù)庫)http:/usc.fr:8104/ MAIZE-2DPAGE(M
42、aize genome 2D Electrophoresis database 玉米基因組雙向電泳數(shù)據(jù)庫)http:/moulon.moulon.inra.fr/imgd/ Mendel(Mendel-GFDb (Plant genes families database) 孟德爾植物基因家族數(shù)據(jù)庫)http:/www.mendel.ac.uk MGD(Mouse genome database 小鼠基因組數(shù)據(jù)庫)/ .au/mgd/ http:/bioinformatics.weizmann.ac.
43、il/mgd/ http:/mgd.hgmp.mrc.ac.uk/ http:/mgd.niai.affrc.go.jp/ LifeScienceMIM(Online Mendelian Inheritance in Man (OMIM) 人類孟德爾遺傳網(wǎng)上數(shù)據(jù)庫)/omim/ NRSUB(Non-redundant B.subtilis database 無冗余枯草桿菌數(shù)據(jù)庫)http:/pbil.univ-lyon1.fr/nrsub/nrsub.html SGD(Saccharomyces Genome Database 酵母基因組數(shù)據(jù)
44、庫)/Saccharomyces/ SubtiList(Bacillus subtilis 168 genome database 枯草桿菌168基因組數(shù)據(jù)庫)http:/www.pasteur.fr/Bio/SubtiList/ TIGR(The bacterial database(s) of The Institute of Genome Research 基因組研究所的細(xì)菌數(shù)據(jù)庫)/tdb/ TubercuList(Mycobacterium tuberculosis H37Rv genome
45、 database分支結(jié)核桿菌H37Rv基因組數(shù)據(jù)庫)http:/www.pasteur.fr/Bio/TubercuList/ GeneCards(GeneCards: human genes, protein and diseases 基因卡:人基因、蛋白和疾?。﹉ttp:/bioinformatics.weizmann.ac.il/cards/ ZFIN(Zebrafish Information Network genome database 斑馬魚信息網(wǎng)基因組數(shù)據(jù)庫)/ZFIN/酵母功能庫http:/www.mips.biochem.mp
46、g.de/proj/yeast/pathways/index.html LifeScienceExPASy (swiss institute of Bioinfomativcs)http:/www.isb-sib.ch/ (proteomics, protein prediction)SWISS-PROT http:/www.expasy.ch/sprot-top.html PIR(Protein sequence database of the Protein Information Resource 蛋白質(zhì)信息資源數(shù)據(jù)庫)/ http:/ww
47、/pir/ GDB / PDB(Protein Data Bank 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫)/pdb/ http:/www2.ebi.ac.uk/pdb/ .au/pdb/ http:/pdb.weizmann.ac.il/ http:/ SCOP http:/ /scop/ http:/scop.mrc-lmb.cam.ac.uk/scop/ BLOCKS(BLOCKS 蛋白質(zhì)模塊數(shù)據(jù)庫)http:/ww
48、/ D O M O ( P r o t e i n D o m a i n d a t a b a s e 蛋 白 質(zhì) 結(jié) 構(gòu) 域 數(shù) 據(jù) 庫 )biogen.fr/gracy/domo ECO2DBASE(Escherichia coli gene-protein database (2D gel spots) 大腸桿菌基因-蛋白數(shù)據(jù)庫)/eco2dbase/ E N Z Y M E ( E n z y m e s n o m e n c l a t u r e d a
49、t a b a s e 酶 命 名 數(shù) 據(jù) 庫 )http:/www.expasy.ch/enzyme/ GCRDb(G protein-coupled receptor database G蛋白耦聯(lián)受體數(shù)據(jù)庫)h t t p : / / w w w . g c r d b . u t h s c s a . e d u / LifeScienceHSSP(Homology-derived secondary structure of proteins database 蛋白質(zhì)同源二級結(jié)構(gòu)數(shù)據(jù)庫)http:/www.sander.ebi.ac.uk/hssp/P f a m ( P f a m
50、 p r o t e i n d o m a i n d a t a b a s e 蛋 白 質(zhì) 結(jié) 構(gòu) 域 數(shù) 據(jù) 庫 )/Pfam/ http:/www.sanger.ac.uk/Pfam/ PRINTS(Protein Motif fingerprint database 蛋白質(zhì)模式數(shù)據(jù)庫)h t t p : / / b i o i n f . m a n . a c . u k / b s m / d b b r o w s e r / P R I N T S / ProDom(ProDom Protein domain database 蛋
51、白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫)h t t p : / / p r o t e i n . t o u l o u s e . i n r a . f r / p r o d o m . h t m l PROSITE(PROSITE: protein domains and families database 蛋白質(zhì)結(jié)構(gòu)域和家族數(shù)據(jù)庫)http:/www.expasy.ch/prosite/ REBASE(Restriction enzymes and methylases database 限制性酶和甲基化酶數(shù)據(jù)庫)http:/ TrEMBLNRL-3DNRDBPDBsumMMDBhttp:/www.ncbi.nl
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 自理能力評分試題及答案
- 水處理考試題及答案
- 環(huán)保題目面試題及答案
- 注冊土木工程師考試復(fù)習(xí)承載方法試題及答案
- 教育學(xué)各章試題及答案
- 電動汽車智能駕駛系統(tǒng)考核試題及答案
- 安全工程師考試新趨勢試題及答案
- 市場商務(wù)筆試題目及答案
- 鷹潭四中考試試卷及答案
- 法學(xué)天賦測試題及答案
- TD/T 1044-2014 生產(chǎn)項(xiàng)目土地復(fù)墾驗(yàn)收規(guī)程(正式版)
- 敬畏生命-道德與法治市公開課一等獎省賽課微課金獎?wù)n件
- 知識圖譜智慧樹知到期末考試答案章節(jié)答案2024年浙江大學(xué)
- 2024年高考體育單招考試政治重點(diǎn)知識點(diǎn)歸納總結(jié)(復(fù)習(xí)必背)
- 多發(fā)傷救治及進(jìn)展
- 高血壓與青光眼的關(guān)系
- 數(shù)字經(jīng)濟(jì)對廣東省經(jīng)濟(jì)影響研究
- 2024年上海銀聯(lián)數(shù)據(jù)服務(wù)有限公司招聘筆試參考題庫含答案解析
- 工業(yè)園區(qū)規(guī)劃環(huán)評報(bào)告書
- 養(yǎng)老院項(xiàng)目組織結(jié)構(gòu)方案
- 士兵軍考模擬卷(化學(xué))
評論
0/150
提交評論