生物信息學(xué)總論2014_第1頁(yè)
生物信息學(xué)總論2014_第2頁(yè)
生物信息學(xué)總論2014_第3頁(yè)
生物信息學(xué)總論2014_第4頁(yè)
生物信息學(xué)總論2014_第5頁(yè)
已閱讀5頁(yè),還剩122頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Bioinformatics 2014 生物信息學(xué)概論 武漢大學(xué)武漢大學(xué) 生物醫(yī)學(xué)工程系生物醫(yī)學(xué)工程系 趙旻趙旻 Introduction to Bioinformatics Bioinformatics 2014第一節(jié)第一節(jié) 生物信息學(xué)基礎(chǔ)生物信息學(xué)基礎(chǔ)第二節(jié)第二節(jié) 生物信息學(xué)生物信息學(xué)與人類基因組計(jì)劃與人類基因組計(jì)劃第三節(jié)第三節(jié) 生物信息學(xué)的生物信息學(xué)的研究?jī)?nèi)容研究?jī)?nèi)容第四節(jié)第四節(jié) 生物信息學(xué)相關(guān)技術(shù)生物信息學(xué)相關(guān)技術(shù) 本章內(nèi)容本章內(nèi)容Bioinformatics 2014學(xué)習(xí)目的1、了解生物信息學(xué)的發(fā)展背景2、理解生物信息學(xué)在生命科學(xué)研究中的作用3、理解數(shù)學(xué)、計(jì)算機(jī)科學(xué)與生物信息學(xué)的關(guān)系

2、4、了解生物信息學(xué)主要技術(shù)方法的原理和應(yīng)用Bioinformatics 2014醫(yī)學(xué)生物信息學(xué)原理醫(yī)學(xué)生物信息學(xué)原理教材參考資料目錄教材參考資料目錄教材教材 1. 生物信息學(xué)(供8年制及7年制臨床醫(yī)學(xué)等專業(yè)用)李霞,李亦學(xué),廖飛 人民衛(wèi)生出版社 2012 2. 生物信息學(xué)基礎(chǔ)與臨床醫(yī)學(xué)應(yīng)用指南 伍欣星 趙旻 主編 科學(xué)出版社 2005參考書(shū)目參考書(shū)目 1. 基因組研究手冊(cè):基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)、生物信息學(xué)、倫理和法律問(wèn)題。 C.W.森森(Sensen.C.W.),謝東 著 科學(xué)出版社 20092. 理解生物信息學(xué). M.澤瓦勒貝,JO.鮑姆 著 科學(xué)出版社 20123. 生物信息學(xué)

3、許忠能 清華大學(xué)出版社 2008Bioinformatics 2014序號(hào)課程內(nèi)容授課教師課時(shí)日期1總論; 數(shù)據(jù)庫(kù)應(yīng)用趙旻52014,9,212基因組與醫(yī)學(xué)(1)趙旻52014,9,283基因組與醫(yī)學(xué)(2);數(shù)據(jù)分析基礎(chǔ)趙旻62014,10,124RNA組學(xué)原理和應(yīng)用邱小萍52014,10,195模式生物與轉(zhuǎn)基因技術(shù)蔡國(guó)斌52014,10,266蛋白質(zhì)組學(xué)與技術(shù)邱小萍52014,11,27分子進(jìn)化與病毒進(jìn)化趙旻52014,11,98考試:完成綜述2014,11,16病毒所三樓,病毒所三樓, Bioinformatics 2014 第一節(jié) 生物信息學(xué)基礎(chǔ)Bioinformatics 2014一、

4、生物信息的特征生物信息的特征生命現(xiàn)象是不同層次上的物質(zhì)物質(zhì)、能量能量與信息信息的交換,不同層次是指核酸、蛋白質(zhì)、細(xì)胞、器官、系統(tǒng)、機(jī)體,與醫(yī)學(xué)研究密切相聯(lián)生物信息不僅包括基因組信息基因組信息,如基因的DNA序列、染色體定位,也包括基因產(chǎn)物(蛋白質(zhì)或RNA)的結(jié)構(gòu)和結(jié)構(gòu)和功能功能;生物種間的進(jìn)化關(guān)系進(jìn)化關(guān)系等其他信息資源。生物體系和生物過(guò)程中信息的內(nèi)涵和信息的傳遞 Bioinformatics 2014生命與信息生命與信息 Concept Computers Organisms Instructions Program Genome Bits 0,1 a,c,g,t Stable memory

5、ROM,Disk,tape DNA Active memory RAM RNA Processing CPU/Compiler enzyme/Ribosome Editing Editor tRNA Environment Sockets,people Water,salts,heat I/O AD/DA proteins Monomer Minerals Nucleotide Polymer chip DNA,RNA,protein Replication Cut/Paste DNA replication Sensor/In scanner Chem/photo receptorBioin

6、formatics 2014基因組信息的獲取、處理、貯存、傳遞、分析和解釋蛋白質(zhì)的序列、結(jié)構(gòu)、功能及定位分類、蛋白質(zhì)連鎖圖、蛋白質(zhì)數(shù)據(jù)庫(kù)的建立相關(guān)分析軟件的開(kāi)發(fā)和應(yīng)用新藥研制生物進(jìn)化二、生物信息的研究范疇二、生物信息的研究范疇Bioinformatics 2014n遺傳信息遺傳信息三、生物信息的內(nèi)涵三、生物信息的內(nèi)涵n與功能相關(guān)的結(jié)構(gòu)信息與功能相關(guān)的結(jié)構(gòu)信息n進(jìn)化信息進(jìn)化信息Bioinformatics 2014Bioinformation From the Nucleus to Protein Machines Bioinformatics 2014基因序列基因序列DNA前體RNAmRNA多

7、肽鏈多肽鏈蛋白質(zhì)序列蛋白質(zhì)序列對(duì)對(duì)應(yīng)應(yīng)關(guān)關(guān)系系遺遺傳傳密密碼碼Bioinformatics 2014DNA通過(guò)復(fù)制,在生物體的繁衍過(guò)程中傳遞通過(guò)復(fù)制,在生物體的繁衍過(guò)程中傳遞遺傳遺傳信息信息 基因通過(guò)轉(zhuǎn)錄和翻譯,使遺傳信息在生物個(gè)體中得基因通過(guò)轉(zhuǎn)錄和翻譯,使遺傳信息在生物個(gè)體中得以表達(dá),并使后代表現(xiàn)出與親代相似的生物性狀以表達(dá),并使后代表現(xiàn)出與親代相似的生物性狀 基因控制著蛋白質(zhì)的合成基因控制著蛋白質(zhì)的合成 DNARNA蛋白蛋白質(zhì)質(zhì)轉(zhuǎn)錄轉(zhuǎn)錄翻譯翻譯?逆轉(zhuǎn)錄逆轉(zhuǎn)錄中心法則中心法則Bioinformatics 2014nDNA本身是否也具有酶活性呢?1994年,GFJoyce等人發(fā)現(xiàn)一個(gè)人工合成的

8、DNA分子具有一種特殊的磷酸二酯酶活性。又有多例報(bào)道人工合成的DNA序列具有各種不同的酶活性。1995年后從多種生物中提取的DNA均具有酯酶活性,能催化乙酸萘酯水解為萘酚和乙酸。這種較弱的酯酶活性并不需要特定序列的DNA編碼,而是非特異性DNA的一般性質(zhì)。DNA分子本身的酯酶活性作為 “分子化石”遺跡。 n1970年,DBaltimore和HMTemin在致癌的RNA病毒中,發(fā)現(xiàn)依賴RNA的DNA多聚酶,即逆轉(zhuǎn)錄酶。這就是說(shuō),遺傳信息流也可以反過(guò)來(lái),從RNADNA。巴爾的摩和梯明于1975年榮獲諾貝爾獎(jiǎng)。n1981年,TRCech等人在四膜蟲(chóng)發(fā)現(xiàn)自催化剪切的tRNA。1983年SAltman發(fā)

9、現(xiàn)大腸桿菌的核糖核酸P的催化活性取決于RNA而不是蛋白質(zhì)。這意味著RNA可以不通過(guò)蛋白質(zhì)而直接表現(xiàn)出本身的某種遺傳信息,而這種信息并不以核苷酸三聯(lián)體來(lái)編碼。這是對(duì)中心法則的又一次補(bǔ)充和發(fā)展。切赫和阿爾特曼榮獲1989年的諾貝爾化學(xué)獎(jiǎng)。中心法則的補(bǔ)充中心法則的補(bǔ)充朊病毒朊病毒蛋白質(zhì)信息傳遞疑問(wèn)?蛋白質(zhì)信息傳遞疑問(wèn)?朊病毒病已發(fā)現(xiàn)有4種:庫(kù)魯病Ku-rmm、克雅氏綜合癥CJD、格斯特曼綜合癥GSS及致死性家庭性失眠癥FFI。臨床變化都局限于人和動(dòng)物的中樞神經(jīng)系統(tǒng)。 Bioinformatics 2014DNA分子分子 蛋白質(zhì)分子蛋白質(zhì)分子四、生物信息載體四、生物信息載體Bioinformatics

10、 2014(1)遺傳信息的載體遺傳信息的載體DNA或或RNAn 遺傳信息的載體主要是DNA或RNA分子n 控制生物體性狀的基因是一系列DNA片段n 生物體生長(zhǎng)發(fā)育的本質(zhì)就是遺傳信息的傳遞和表達(dá) Bioinformatics 2014(2)遺傳信息的功能載體遺傳信息的功能載體蛋白質(zhì)蛋白質(zhì)n蛋白質(zhì)蛋白質(zhì)功能功能取決于蛋白質(zhì)的空間取決于蛋白質(zhì)的空間結(jié)構(gòu)結(jié)構(gòu) n蛋白質(zhì)結(jié)構(gòu)決定于蛋白質(zhì)的蛋白質(zhì)結(jié)構(gòu)決定于蛋白質(zhì)的序列序列,蛋白質(zhì)結(jié),蛋白質(zhì)結(jié)構(gòu)的信息隱含在蛋白質(zhì)序列之中。構(gòu)的信息隱含在蛋白質(zhì)序列之中。Bioinformatics 2014(3) DNA分子和蛋白質(zhì)分子都含有分子和蛋白質(zhì)分子都含有進(jìn)化信息進(jìn)化

11、信息n通過(guò)比較相似的蛋白質(zhì)序列相似的蛋白質(zhì)序列,如肌紅蛋白和血紅蛋白,可以發(fā)現(xiàn)由于基因復(fù)制而產(chǎn)生的分子進(jìn)化證據(jù)。n通過(guò)比較來(lái)自于不同種屬的同源蛋白質(zhì),即直系直系同源蛋白質(zhì)同源蛋白質(zhì),可以分析蛋白質(zhì)甚至種屬之間的系統(tǒng)發(fā)生關(guān)系,推測(cè)它們共同的祖先蛋白質(zhì)。Bioinformatics 2014n進(jìn)化信息 通過(guò)比較相似的蛋白質(zhì)序列可以發(fā)現(xiàn)基因的分子進(jìn)化證據(jù)。通過(guò)比較來(lái)自于不同種屬的同源蛋白質(zhì),即直系同源蛋白質(zhì),可以分析種屬之間的系統(tǒng)發(fā)生關(guān)系,推測(cè)它們共同的祖先蛋白質(zhì)。Bioinformatics 2014五、生物信息的特征五、生物信息的特征n生物信息數(shù)據(jù)量龐大生物信息數(shù)據(jù)量龐大 n生物信息復(fù)雜度高:生

12、物信息復(fù)雜度高:遺傳信息,功能結(jié)構(gòu)信息n生物信息之間存在著密切的聯(lián)系生物信息之間存在著密切的聯(lián)系n存在特定載體:存在特定載體:核酸分子和分子和蛋白質(zhì)分子分子n存在不同的層次:存在不同的層次:分子,細(xì)胞,組織器官和機(jī)體分子,細(xì)胞,組織器官和機(jī)體Bioinformatics 2014六、六、 生物信息學(xué)生物信息學(xué)(Bioinformatics)的建立的建立 八十年代末期,林華安博士認(rèn)識(shí)到將計(jì)算機(jī)科學(xué)與生物學(xué)結(jié)合起來(lái)的重要意義。起初,使用的是CompBio,之后又將其更改為 bioinformatique ;進(jìn)一步更改為bio-informatics (或bio/informatics)。該名稱中的

13、-或/符號(hào)經(jīng)常會(huì)引起許多計(jì)算機(jī)系統(tǒng)問(wèn)題,于是將其去除, bioinformatics 就正式誕生,林博士也因此贏得了“生物信息學(xué)之父”的美譽(yù)。 Bioinformatics 2014生物信息學(xué)生物信息學(xué)(bioinformatics)是80年代未隨著人類基因組計(jì)劃(Human genome project, HGP)的啟動(dòng)而興起的一門(mén)新的交叉學(xué)科。它涉及生物學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)和工程學(xué),依賴于計(jì)算機(jī)科學(xué)、工程學(xué)和應(yīng)用數(shù)學(xué)的基礎(chǔ),依賴于生物實(shí)驗(yàn)和衍生數(shù)據(jù)的大量?jī)?chǔ)存和加工。 Bioinformatics 2014ComputationInformaticsBiologyBioinformatics

14、學(xué)科交叉發(fā)展的需要學(xué)科交叉發(fā)展的需要Bioinformatics 2014HGP生物數(shù)據(jù)生物數(shù)據(jù)(每(每15個(gè)月翻一番個(gè)月翻一番)生物學(xué)家生物學(xué)家數(shù)學(xué)家數(shù)學(xué)家計(jì)算機(jī)計(jì)算機(jī)科學(xué)家科學(xué)家生物信息學(xué)生物信息學(xué)(bioinfomatics)的誕生的誕生大量數(shù)據(jù)處理分析的需要大量數(shù)據(jù)處理分析的需要Bioinformatics 2014生物體系和過(guò)程中信息的存貯、生物體系和過(guò)程中信息的存貯、傳遞傳遞和表達(dá)和表達(dá)細(xì)胞、組織、器官的生理、病理、細(xì)胞、組織、器官的生理、病理、藥理過(guò)程的中各種生物信息藥理過(guò)程的中各種生物信息信息科學(xué)信息科學(xué)生生命命科科學(xué)學(xué)中中的的信信息息科科 學(xué)學(xué) 醫(yī)學(xué)發(fā)展的需要醫(yī)學(xué)發(fā)展的需要B

15、ioinformatics 2014 1995年,在人類基因組計(jì)劃(HGP)第一個(gè)五年總結(jié)報(bào)告中給出了一個(gè)較為完整較為完整的生物信息學(xué)的定義:生信息學(xué)是包含生物信息的獲取、處理、貯存、分發(fā)、分析和解釋的所有方面的一門(mén)學(xué)科,它綜合運(yùn)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)和生物學(xué)的各種工具進(jìn)行研究,目的在于理解生物大分子信息的生物學(xué)意義的交叉學(xué)科。 Bioinformatics 2014生物信息學(xué)研究意義生物信息學(xué)研究意義生物信息學(xué)將是生物信息學(xué)將是21世紀(jì)生物學(xué)的核心世紀(jì)生物學(xué)的核心 n認(rèn)識(shí)生物本質(zhì)認(rèn)識(shí)生物本質(zhì)了解生物分子信息的組織和結(jié)構(gòu),破譯基因組信息,闡明生物信息之間的關(guān)系對(duì)序列、結(jié)構(gòu)數(shù)據(jù)進(jìn)行定性和定量分析,從

16、中獲取基因編碼、基因調(diào)控、序列-結(jié)構(gòu)-功能關(guān)系等理性知識(shí)闡明細(xì)胞、器官和個(gè)體的發(fā)生、發(fā)育、病變、衰亡的基本規(guī)律和時(shí)空聯(lián)系探索生命起源、生物進(jìn)化、生命本質(zhì)等重大理論問(wèn)題,最終建立“生物學(xué)周期表”Bioinformatics 2014 DNA核酸序列核酸序列蛋白質(zhì)蛋白質(zhì)氨基酸序列氨基酸序列蛋白質(zhì)蛋白質(zhì)結(jié)構(gòu)結(jié)構(gòu)蛋白質(zhì)蛋白質(zhì)功能功能最基本的最基本的生物信息生物信息維持生命活維持生命活動(dòng)的機(jī)器動(dòng)的機(jī)器第一部第一部遺傳密碼遺傳密碼第二部第二部遺傳密碼?遺傳密碼?生命體系千姿生命體系千姿百態(tài)的變化百態(tài)的變化生物分子數(shù)據(jù)及其關(guān)系生物分子數(shù)據(jù)及其關(guān)系Bioinformatics 2014n第一部遺傳密碼已被破譯

17、,但對(duì)密碼的轉(zhuǎn)錄過(guò)程還不清楚,對(duì)大多數(shù)DNA非編碼區(qū)域的功能還知之甚少n 對(duì)于第二部密碼,目前則只能用統(tǒng)計(jì)學(xué)的方法進(jìn)行分析n無(wú)論是第一部遺傳密碼,還是第二部遺傳密碼,都隱藏在大量的生物分子數(shù)據(jù)之中。Bioinformatics 2014n改變生物學(xué)的研究方式改變生物學(xué)的研究方式 改變傳統(tǒng)研究方式,引進(jìn)現(xiàn)代信息學(xué)方法n在醫(yī)學(xué)上的重要意義在醫(yī)學(xué)上的重要意義為疾病的診斷和治療提供依據(jù)為設(shè)計(jì)新藥提供依據(jù)生物分子數(shù)據(jù)是寶藏,生物信息數(shù)據(jù)庫(kù)是生物分子數(shù)據(jù)是寶藏,生物信息數(shù)據(jù)庫(kù)是金礦,等待我們?nèi)ネ诰蚝屠谩=鸬V,等待我們?nèi)ネ诰蚝屠?。Bioinformatics 2014第二節(jié)第二節(jié) 生物信息學(xué)的建立和發(fā)展

18、生物信息學(xué)的建立和發(fā)展 人類基因組計(jì)劃簡(jiǎn)介人類基因組計(jì)劃簡(jiǎn)介Bioinformatics 2014生物信息學(xué)產(chǎn)生的背景生物信息學(xué)產(chǎn)生的背景1、人類基因組計(jì)劃的初步完成人類基因組計(jì)劃的初步完成 人類基因組計(jì)劃工作草圖已完成。人類基因組計(jì)劃工作草圖已完成。人類對(duì)基因的認(rèn)識(shí),人類對(duì)基因的認(rèn)識(shí),從以往的單個(gè)基因的了解,上升到在整個(gè)基因組水平。從以往的單個(gè)基因的了解,上升到在整個(gè)基因組水平。2、后基因組時(shí)代到來(lái)、后基因組時(shí)代到來(lái) 基因組研究已進(jìn)入全面信息提取和數(shù)據(jù)分析基因組研究已進(jìn)入全面信息提取和數(shù)據(jù)分析階段,功能階段,功能基因組和蛋白質(zhì)組的大量數(shù)據(jù)已開(kāi)始涌現(xiàn)?;蚪M和蛋白質(zhì)組的大量數(shù)據(jù)已開(kāi)始涌現(xiàn)。Bi

19、oinformatics 2014海量生物信息需要分析;海量生物信息需要分析;大量未知基因需要破解其功能大量未知基因需要破解其功能nGenBank中的DNA堿基數(shù)目呈指數(shù)增加。2000年后其數(shù)目已達(dá)110億,它們來(lái)自47000種生物;UniGene的數(shù)目約達(dá)7萬(wàn)個(gè)。n1999年初單核苷酸多態(tài)性(SNP)數(shù)據(jù)庫(kù)出現(xiàn)以來(lái),已超過(guò)600萬(wàn)。n自全長(zhǎng)1.8Mb的嗜血流感桿菌基因組序列于1995年發(fā)表以來(lái),已有54個(gè)模型生物的完整基因組完成了測(cè)序,包括9個(gè)古細(xì)菌、31個(gè)原核真細(xì)菌、14個(gè)真核生物的完整基因組或它們的完整染色體,其中包括釀酒酵母和線蟲(chóng)。還有另外的70余個(gè)微生物基因組正在測(cè)試當(dāng)中。Bioin

20、formatics 2014計(jì)算機(jī)運(yùn)算速度計(jì)算機(jī)運(yùn)算速度: 18個(gè)月增長(zhǎng)一倍個(gè)月增長(zhǎng)一倍; DNA序列數(shù)據(jù)序列數(shù)據(jù): 14個(gè)月增長(zhǎng)一倍個(gè)月增長(zhǎng)一倍Bioinformatics 2014n20世紀(jì)50年代,生物信息學(xué)開(kāi)始孕育n20世紀(jì)60年代,生物分子信息在概念上將計(jì)算生物學(xué)和計(jì)算機(jī)科學(xué)聯(lián)系起來(lái)n20世紀(jì)70年代,生物信息學(xué)的真正開(kāi)端n20世紀(jì)70年代到80年代初期 ,出現(xiàn)了一系列著名的序列比較方法和生物信息分析方法 n20世紀(jì)80年代以后,出現(xiàn)一批生物信息服務(wù)機(jī)構(gòu)和生物信息數(shù)據(jù)庫(kù)n20世紀(jì)90年代后 ,HGP促進(jìn)生物信息學(xué)的迅速發(fā)展生物信息學(xué)的發(fā)展歷程Bioinformatics 2014生物

21、信息學(xué)的發(fā)展歷程n1952年,Sanger根據(jù)胰島素蛋白質(zhì)的測(cè)序結(jié)果,推斷蛋白質(zhì)是排列完美的分子。最早的信息論觀點(diǎn)。n1955年,Sanger與合作者分別對(duì)牛、豬和羊的胰島素蛋白質(zhì)進(jìn)行了測(cè)序并做了序列上的比較。最早的序列比對(duì)。n1962年,鮑林提出分子進(jìn)化的理論,推測(cè)在人中可能存在50,000100,000個(gè)不同的基因/蛋白質(zhì)。分子進(jìn)化理論的奠定。n1965年,Margaret Dayhoff構(gòu)建蛋白質(zhì)序列圖譜n1970年,Needleman-Wunsch算法:全局優(yōu)化比對(duì)。n1981年,Smith-Waterman算法開(kāi)發(fā):局部?jī)?yōu)化比對(duì)。n1990年,快速序列相似性搜索工具BLAST的開(kāi)發(fā)B

22、ioinformatics 2014生物信息學(xué)發(fā)展過(guò)程中的里程碑性事件生物信息學(xué)發(fā)展過(guò)程中的里程碑性事件Bioinformatics 2014人類基因組計(jì)劃人類基因組計(jì)劃 人類基因組計(jì)劃(Human Genome Project,HGP)是由美國(guó)科學(xué)家Renato Dulbecco在1985年首先提出,美國(guó)政府1990年10月正式啟動(dòng)的,耗資30億美元。 目標(biāo)是構(gòu)建詳細(xì)的人類基因組遺傳圖和物理圖,確定人類DNA的全部核苷酸序列,定位約3萬(wàn)基因,以及人類基因的鑒定和分離的內(nèi)容。人類基因組計(jì)劃全部測(cè)序工作提前到2000年春季完成“工作框架”,即工作草圖。Bioinformatics 2014曼哈頓

23、原子彈計(jì)劃曼哈頓原子彈計(jì)劃阿波羅登月計(jì)劃阿波羅登月計(jì)劃人類基因組計(jì)劃人類基因組計(jì)劃人類自然科學(xué)史上的三大計(jì)劃人類自然科學(xué)史上的三大計(jì)劃Bioinformatics 2014 人類基因組計(jì)劃準(zhǔn)備用15年時(shí)間投入30億美元,完成人全部24(22+X+Y)條染色體中3109個(gè)堿基對(duì)的序列測(cè)定,主要任務(wù)包括作圖、測(cè)序和基因預(yù)測(cè),其根本任務(wù)是解讀和破譯生物體的遺傳信息。Bioinformatics 2014Bioinformatics 20141984 猶他州阿爾塔組織會(huì)議,研討測(cè)定人類整個(gè)基因組猶他州阿爾塔組織會(huì)議,研討測(cè)定人類整個(gè)基因組DNA序列的意義序列的意義1985 Dulbecco在在Scie

24、nce撰文撰文 “腫瘤研究的轉(zhuǎn)折點(diǎn)腫瘤研究的轉(zhuǎn)折點(diǎn):人類基因組的測(cè)人類基因組的測(cè)序序” ;美國(guó)能源部;美國(guó)能源部(DOE)提出提出“人類基因組計(jì)劃人類基因組計(jì)劃”草案草案1987 美國(guó)能源部和國(guó)家衛(wèi)生研究院(美國(guó)能源部和國(guó)家衛(wèi)生研究院(NIH)聯(lián)合啟動(dòng))聯(lián)合啟動(dòng)計(jì)劃計(jì)劃1989 美國(guó)成立美國(guó)成立“國(guó)家人類基因組研究中心國(guó)家人類基因組研究中心”,Watson擔(dān)任第一任主任擔(dān)任第一任主任1990.10 經(jīng)美國(guó)國(guó)會(huì)批準(zhǔn),人類基因組計(jì)劃正式啟動(dòng)經(jīng)美國(guó)國(guó)會(huì)批準(zhǔn),人類基因組計(jì)劃正式啟動(dòng)James WatsonBioinformatics 20141996 完成人類基因組計(jì)劃的遺傳作圖完成人類基因組計(jì)劃的遺

25、傳作圖1998 完成人類基因組計(jì)劃的物理作圖;開(kāi)始人類基因組的大規(guī)模測(cè)序;完成人類基因組計(jì)劃的物理作圖;開(kāi)始人類基因組的大規(guī)模測(cè)序;Celera公司加入,與公共領(lǐng)域競(jìng)爭(zhēng);啟動(dòng)水稻基因組計(jì)劃公司加入,與公共領(lǐng)域競(jìng)爭(zhēng);啟動(dòng)水稻基因組計(jì)劃1999.7 第第5屆國(guó)際公共領(lǐng)域人類基因組測(cè)序會(huì)議,加快測(cè)序速度屆國(guó)際公共領(lǐng)域人類基因組測(cè)序會(huì)議,加快測(cè)序速度流感嗜血菌流感嗜血菌( (1995) )釀酒酵母釀酒酵母(1997)秀麗線蟲(chóng)秀麗線蟲(chóng)(1998)大腸桿菌大腸桿菌 (1998)水稻基因組計(jì)水稻基因組計(jì)劃劃(2002)Bioinformatics 20142000 Celera公司宣布完成果蠅基因組測(cè)序;國(guó)

26、際公共領(lǐng)域宣布完成第公司宣布完成果蠅基因組測(cè)序;國(guó)際公共領(lǐng)域宣布完成第一個(gè)植物基因組一個(gè)植物基因組擬南芥全基擬南芥全基 因組的測(cè)序工作因組的測(cè)序工作2001.2.15 Nature刊文發(fā)表人類基因組測(cè)序國(guó)際公共領(lǐng)域結(jié)果刊文發(fā)表人類基因組測(cè)序國(guó)際公共領(lǐng)域結(jié)果2001.2.16 Science刊文發(fā)表刊文發(fā)表Celera公司及其合作者結(jié)果公司及其合作者結(jié)果Drosophila melanogaster果蠅果蠅(2000)Arabidopsis thaliana擬南芥擬南芥(2000)Bioinformatics 2014確定人類基因組全部確定人類基因組全部DNA序列;建立序列;建立基因組圖譜基因組

27、圖譜識(shí)別基因;識(shí)別基因;建立儲(chǔ)存信息的數(shù)據(jù)庫(kù);建立儲(chǔ)存信息的數(shù)據(jù)庫(kù);開(kāi)發(fā)數(shù)據(jù)分析工具軟件;開(kāi)發(fā)數(shù)據(jù)分析工具軟件;人類基因組研究的模式生物(細(xì)菌、酵母菌、線蟲(chóng)、人類基因組研究的模式生物(細(xì)菌、酵母菌、線蟲(chóng)、 果蠅、小鼠、擬南介)的基因組果蠅、小鼠、擬南介)的基因組研究研究HGP實(shí)施所帶來(lái)的倫理、法律和社會(huì)問(wèn)題。實(shí)施所帶來(lái)的倫理、法律和社會(huì)問(wèn)題。發(fā)展建立生物信息學(xué)發(fā)展建立生物信息學(xué) HGP目標(biāo)目標(biāo)Bioinformatics 2014遺傳圖譜、物理圖譜、轉(zhuǎn)錄圖譜和序列圖譜遺傳圖譜、物理圖譜、轉(zhuǎn)錄圖譜和序列圖譜n遺傳圖譜是以具有遺傳多態(tài)性的遺傳標(biāo)記為“路標(biāo)”,以遺傳學(xué)距離為圖距的基因組圖。進(jìn)行基因識(shí)

28、別和基因定位n物理圖譜是指有關(guān)基因組中特異性序列排列和間距的信息.建立物理圖譜實(shí)際上是為全基因組測(cè)序建立“路標(biāo)”。n轉(zhuǎn)錄圖譜是在識(shí)別基因組所包含的蛋白質(zhì)編碼序列的基礎(chǔ)上繪制的結(jié)合有關(guān)基因序列、位置及表達(dá)模式等信息的圖譜。Bioinformatics 2014基因組學(xué)功能基因組學(xué)1、信息的整合、信息的整合2、信息的儲(chǔ)存、信息的儲(chǔ)存3、信息的比較、信息的比較4、信息的分析、信息的分析5、信息的分解、信息的分解人類基因組計(jì)劃對(duì)生物信息學(xué)的挑戰(zhàn)人類基因組計(jì)劃對(duì)生物信息學(xué)的挑戰(zhàn)Bioinformatics 20142022-5-30 人類基因組計(jì)劃提供了巨量的生物學(xué)信息資源。人類基因組計(jì)劃提供了巨量的生

29、物學(xué)信息資源。 基因組信息的收集、儲(chǔ)存、分發(fā)、分析顯得越來(lái)基因組信息的收集、儲(chǔ)存、分發(fā)、分析顯得越來(lái)越緊迫和重要,信息的管理和分析成為人類基因組計(jì)越緊迫和重要,信息的管理和分析成為人類基因組計(jì)劃實(shí)施過(guò)程中的一項(xiàng)重要工作,人類基因組計(jì)劃向信劃實(shí)施過(guò)程中的一項(xiàng)重要工作,人類基因組計(jì)劃向信息學(xué)提出了巨大的挑戰(zhàn)。息學(xué)提出了巨大的挑戰(zhàn)。 人類基因組計(jì)劃一開(kāi)始就與計(jì)算機(jī)技術(shù)、信息高人類基因組計(jì)劃一開(kāi)始就與計(jì)算機(jī)技術(shù)、信息高速公路同步發(fā)展,信息技術(shù)為生物信息學(xué)的發(fā)展提供速公路同步發(fā)展,信息技術(shù)為生物信息學(xué)的發(fā)展提供了非常好的條件,為生物信息學(xué)的研究和應(yīng)用提供了了非常好的條件,為生物信息學(xué)的研究和應(yīng)用提供了非

30、常好的支撐。非常好的支撐。48Bioinformatics 20142022-5-30 從信息學(xué)的角度來(lái)看,最重要的任務(wù)是利用各種數(shù)從信息學(xué)的角度來(lái)看,最重要的任務(wù)是利用各種數(shù)學(xué)模型和人工智能技術(shù),分析現(xiàn)有的基因組數(shù)據(jù),研究學(xué)模型和人工智能技術(shù),分析現(xiàn)有的基因組數(shù)據(jù),研究基因組數(shù)據(jù)之間的關(guān)系,發(fā)現(xiàn)隱藏在大量數(shù)據(jù)背后的生基因組數(shù)據(jù)之間的關(guān)系,發(fā)現(xiàn)隱藏在大量數(shù)據(jù)背后的生物學(xué)規(guī)律,解讀生物遺傳密碼,認(rèn)識(shí)生命的本質(zhì)。物學(xué)規(guī)律,解讀生物遺傳密碼,認(rèn)識(shí)生命的本質(zhì)。49Bioinformatics 20142022-5-30 如果說(shuō)生物信息學(xué)在人類基因組計(jì)劃中的著重點(diǎn)如果說(shuō)生物信息學(xué)在人類基因組計(jì)劃中的著重

31、點(diǎn)是基因組序列的話,那么在功能基因組中,生物信息是基因組序列的話,那么在功能基因組中,生物信息學(xué)的著重點(diǎn)則是序列的生物學(xué)意義,基因組編碼序列學(xué)的著重點(diǎn)則是序列的生物學(xué)意義,基因組編碼序列的轉(zhuǎn)錄、翻譯的過(guò)程和結(jié)果,著重分析基因表達(dá)調(diào)控的轉(zhuǎn)錄、翻譯的過(guò)程和結(jié)果,著重分析基因表達(dá)調(diào)控信息,分析基因及其產(chǎn)物的功能。信息,分析基因及其產(chǎn)物的功能。 在功能基因組時(shí)代,應(yīng)用生物信息學(xué)方法,高通在功能基因組時(shí)代,應(yīng)用生物信息學(xué)方法,高通量地注釋基因組所有編碼產(chǎn)物的生物學(xué)功能是功能基量地注釋基因組所有編碼產(chǎn)物的生物學(xué)功能是功能基因組研究的一個(gè)重要特征因組研究的一個(gè)重要特征。50Bioinformatics 20

32、142022-5-30 生物信息學(xué)與人類基因組計(jì)劃緊密結(jié)合,互相滲透,生物信息學(xué)與人類基因組計(jì)劃緊密結(jié)合,互相滲透,生物信息學(xué)成為基因組計(jì)劃不可分割的一部分。事實(shí)證生物信息學(xué)成為基因組計(jì)劃不可分割的一部分。事實(shí)證明,人類基因組計(jì)劃在生物信息學(xué)的支持下,前進(jìn)步伐明,人類基因組計(jì)劃在生物信息學(xué)的支持下,前進(jìn)步伐大大加快,已經(jīng)提前完成了預(yù)期計(jì)劃,功能基因組研究大大加快,已經(jīng)提前完成了預(yù)期計(jì)劃,功能基因組研究也已經(jīng)全面展開(kāi)。也已經(jīng)全面展開(kāi)。 而人類基因組計(jì)劃反過(guò)來(lái)又大大促進(jìn)了生物信息學(xué)而人類基因組計(jì)劃反過(guò)來(lái)又大大促進(jìn)了生物信息學(xué)的發(fā)展,的發(fā)展,HGP豐富了生物信息學(xué)的研究?jī)?nèi)容,促進(jìn)生物豐富了生物信息學(xué)

33、的研究?jī)?nèi)容,促進(jìn)生物信息學(xué)新思想、新方法的產(chǎn)生,生物信息學(xué)在近信息學(xué)新思想、新方法的產(chǎn)生,生物信息學(xué)在近10年迅年迅速發(fā)展的歷程證明了這一點(diǎn)。速發(fā)展的歷程證明了這一點(diǎn)。51Bioinformatics 2014Bioinformatics 2014第三節(jié)第三節(jié)生物信息學(xué)主要研究?jī)?nèi)容生物信息學(xué)主要研究?jī)?nèi)容Bioinformatics 2014研究?jī)?nèi)容研究?jī)?nèi)容1 1、生物分子數(shù)據(jù)的收集與管理、生物分子數(shù)據(jù)的收集與管理2 2、數(shù)據(jù)庫(kù)搜索及序列比較、數(shù)據(jù)庫(kù)搜索及序列比較 3 3、基因組序列分析、基因組序列分析 4 4、基因表達(dá)數(shù)據(jù)的分析與處理、基因表達(dá)數(shù)據(jù)的分析與處理 5 5、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)結(jié)

34、構(gòu)預(yù)測(cè)Bioinformatics 2014 (序列比對(duì)) (蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)) (計(jì)算機(jī)輔助基因識(shí)別) (DNA語(yǔ)言) (分子進(jìn)化和比較基因組學(xué)) (序列重疊群裝配) (遺傳密碼的起源) (代謝網(wǎng)絡(luò)分析) (基因芯片設(shè)計(jì))常見(jiàn)研究領(lǐng)域常見(jiàn)研究領(lǐng)域Bioinformatics 2014研究方向研究方向基因組序列裝配基因組序列裝配基因識(shí)別基因識(shí)別基因功能預(yù)報(bào)基因功能預(yù)報(bào)基因多態(tài)性分析基因多態(tài)性分析基因進(jìn)化基因進(jìn)化mRNA結(jié)構(gòu)預(yù)測(cè)結(jié)構(gòu)預(yù)測(cè)基因芯片設(shè)計(jì)基因芯片設(shè)計(jì)基因芯片數(shù)據(jù)分析基因芯片數(shù)據(jù)分析疾病相關(guān)基因分析疾病相關(guān)基因分析 蛋白質(zhì)序列分析蛋白質(zhì)序列分析 蛋白質(zhì)家族分類蛋白質(zhì)家族分類 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)

35、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè) 蛋白質(zhì)折疊研究蛋白質(zhì)折疊研究 代謝途徑分析代謝途徑分析 轉(zhuǎn)錄調(diào)控機(jī)制轉(zhuǎn)錄調(diào)控機(jī)制 蛋白質(zhì)芯片設(shè)計(jì)蛋白質(zhì)芯片設(shè)計(jì) 蛋白質(zhì)芯片數(shù)據(jù)分析蛋白質(zhì)芯片數(shù)據(jù)分析 藥物設(shè)計(jì)藥物設(shè)計(jì)Bioinformatics 2014基因組基因組數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù) 蛋白質(zhì)蛋白質(zhì)序列序列數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù) 蛋白質(zhì)蛋白質(zhì)結(jié)構(gòu)結(jié)構(gòu)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù) DDBJEMBLGenBankSWISS-PROT PDBPIR1、 生物分子數(shù)據(jù)的收集與管理生物分子數(shù)據(jù)的收集與管理Bioinformatics 2014各種自動(dòng)化分子生物學(xué)儀器應(yīng)用上,如DNA測(cè)序儀,PCR儀等n實(shí)驗(yàn)過(guò)程高度自動(dòng)化,產(chǎn)生的海量數(shù)據(jù),專門(mén)的實(shí)驗(yàn)室數(shù)據(jù)管理系統(tǒng)自動(dòng)完成包

36、括實(shí)驗(yàn)進(jìn)程和實(shí)驗(yàn)數(shù)據(jù)的紀(jì)錄,常規(guī)數(shù)據(jù)分析,數(shù)據(jù)質(zhì)量檢測(cè)和問(wèn)題的自動(dòng)查找,常規(guī)的數(shù)據(jù)說(shuō)明和數(shù)據(jù)輸入數(shù)據(jù)庫(kù)。n建立分子生物學(xué)數(shù)據(jù)管理系統(tǒng)。 例:高度自動(dòng)化的實(shí)驗(yàn)數(shù)據(jù)的獲得、加工和整理例:高度自動(dòng)化的實(shí)驗(yàn)數(shù)據(jù)的獲得、加工和整理Bioinformatics 2014DNA序列片段的測(cè)序拼接序列片段的測(cè)序拼接n目前DNA自動(dòng)測(cè)序儀每個(gè)反應(yīng)只能測(cè)序100-1000bp,傳統(tǒng)測(cè)序方法是將克隆進(jìn)行亞克隆并對(duì)亞克隆進(jìn)行排序。n自動(dòng)而高速拼接序列的算法,Lander-Waterman模型(Lander ES and Waterman MS,1998)利用鳥(niǎo)槍法進(jìn)行測(cè)序,再將大量隨機(jī)測(cè)序的片段用計(jì)算機(jī)進(jìn)行自動(dòng)拼接。

37、 1.9Mb Haemophilus influenzae(流感嗜血桿菌流感嗜血桿菌) (1995) 0.58Mb Mycoplasmu genitalium(支原體)(支原體) (1995) 0.58Mb jannaschii(甲烷桿菌)(甲烷桿菌) (1996)n拼接算法需要進(jìn)一步提高拼接真核基因組的有效性;自動(dòng)處理自動(dòng)測(cè)序造成的差錯(cuò)。Bioinformatics 20142、 數(shù)據(jù)庫(kù)搜索及序列比較數(shù)據(jù)庫(kù)搜索及序列比較 n搜索同源序列在一定程度上就是通過(guò)序列比較尋找相似序列 n序列比較的一個(gè)基本操作就是比對(duì)(Alignment),即將兩個(gè)序列的各個(gè)字符(代表核苷酸或者氨基酸殘基)按照對(duì)應(yīng)等

38、同或者置換關(guān)系進(jìn)行對(duì)比排列,其結(jié)果是兩個(gè)序列共有的排列順序,這是序列相似程度的一種定性描述n多重序列比對(duì)研究的是多個(gè)序列的共性。序列的多重比對(duì)可用來(lái)搜索基因組序列的功能區(qū)域,也可用于研究一組蛋白質(zhì)之間的進(jìn)化關(guān)系。 Bioinformatics 2014常用序列分析工具常用序列分析工具nCLUSTAL: 已知同源的序列間的配比nFASTA:全基因數(shù)據(jù)庫(kù)的快速搜索nPSI-BLAST:非常快速的全數(shù)據(jù)庫(kù)搜索nHMM:特定蛋白家族的序列模式識(shí)別nPHYLIPS:基因進(jìn)化樹(shù)Bioinformatics 2014序列比較序列比較發(fā)現(xiàn)同源分子發(fā)現(xiàn)同源分子Bioinformatics 20143、 基因組序

39、列分析基因組序列分析 n遺傳語(yǔ)言分析遺傳語(yǔ)言分析n基因組結(jié)構(gòu)分析基因組結(jié)構(gòu)分析n基因識(shí)別基因識(shí)別n基因功能注釋基因功能注釋n基因調(diào)控信息分析基因調(diào)控信息分析n基因組比較基因組比較Bioinformatics 2014基因識(shí)別基因識(shí)別n識(shí)別基因組編碼區(qū),識(shí)別基因結(jié)構(gòu)1、同源比較(DNA序列、EST)2、基因預(yù)測(cè)(不是用同源搜索的方法來(lái)識(shí)別基因) 從頭開(kāi)始基因預(yù)測(cè),基于知識(shí)的基因預(yù)測(cè)(密碼子使用,堿基組成,剪切位點(diǎn)特征,PolyA信號(hào),核苷酸頻率,轉(zhuǎn)錄信號(hào),轉(zhuǎn)譯信號(hào),尺寸分布)Bioinformatics 2014基因預(yù)測(cè)的步驟:1、識(shí)別可能的外顯子2、辨別起始/內(nèi)部/終止外顯子3、把外顯子聯(lián)結(jié)起

40、來(lái),形成可能的基因4、確保該可能的基因沒(méi)有內(nèi)部的移位或終止密碼子5、leftovers:shadow exons算法: Rule-based system; linguistic system; linear discriminant analysis;decision tree; spliced alignment;fourier analysisBioinformatics 2014Evaluating Gene Predictionn敏感性敏感性(Sensitivity) 敏感性=預(yù)測(cè)基因中確為基因的數(shù)目/待測(cè)序列中的基因數(shù)目; How many exons were correctly

41、 predicted?n特異性特異性(Specifity) 特異性=預(yù)測(cè)基因中確為基因的數(shù)目/預(yù)測(cè)基因數(shù)目 How many exon predictions are true?Bioinformatics 2014n生物學(xué)家們一直假設(shè),人類擁有生物學(xué)家們一直假設(shè),人類擁有8萬(wàn)到萬(wàn)到10萬(wàn)個(gè)基因。但萬(wàn)個(gè)基因。但是根據(jù)測(cè)序完成的人類基因組第是根據(jù)測(cè)序完成的人類基因組第21對(duì)、對(duì)、22對(duì)染色體的經(jīng)對(duì)染色體的經(jīng)驗(yàn),得出的結(jié)論是整個(gè)基因組有不多于驗(yàn),得出的結(jié)論是整個(gè)基因組有不多于4萬(wàn)個(gè)基因。萬(wàn)個(gè)基因。n比較現(xiàn)有的人類基因序列與淡水河豚基因序列,提出了比較現(xiàn)有的人類基因序列與淡水河豚基因序列,提出了更低

42、的人類基因數(shù)估計(jì):在更低的人類基因數(shù)估計(jì):在27700與與34300之間。之間。n馬里蘭馬里蘭Rockville的基因組研究所的基因組研究所(TIGR)的的John Quackenbush根據(jù)根據(jù)TIGR的人類基因指數(shù)的估計(jì)的人類基因指數(shù)的估計(jì)118259個(gè)個(gè)基因。基因。 *生物體的復(fù)雜性并不是簡(jiǎn)單地與基因數(shù)量相關(guān)聯(lián)的。生生物體的復(fù)雜性并不是簡(jiǎn)單地與基因數(shù)量相關(guān)聯(lián)的。生物體的復(fù)雜性來(lái)自于基因如何被管理或表達(dá)的,而不是物體的復(fù)雜性來(lái)自于基因如何被管理或表達(dá)的,而不是基因數(shù)目本身?;驍?shù)目本身。人類基因的數(shù)目爭(zhēng)論!人類基因的數(shù)目爭(zhēng)論!Bioinformatics 2014基因功能預(yù)測(cè)基因功能預(yù)測(cè)

43、序列同源比較: 如果基因A與基因 B有相當(dāng)?shù)耐葱?,那么基因A可能具有類似基因B的功能。n公共數(shù)據(jù)庫(kù):GenBank,EMBL,DDBJn功能數(shù)據(jù)庫(kù):dbEST, dbSTS, dbGSS(Genome Survey Sequence), dbHTG(high throughput Genomic Sequence,未完成整理的序列數(shù)據(jù))n蛋白質(zhì)序列庫(kù):PIR(protein information resource), Swiss-Prot n蛋白質(zhì)高級(jí)結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB(protein data bank):生物大分子三級(jí)結(jié)構(gòu)的數(shù)據(jù)庫(kù)。n同源比較算法:分為整體對(duì)齊(Global alignm

44、ent)和局部對(duì)齊(local alignment)局部對(duì)齊的算法有Smith-Watermann 算法; FASTA算法;BLAST算法Bioinformatics 20144、基因表達(dá)數(shù)據(jù)的分析與處理、基因表達(dá)數(shù)據(jù)的分析與處理n基因表達(dá)數(shù)據(jù)分析是目前生物信息學(xué)研究的熱基因表達(dá)數(shù)據(jù)分析是目前生物信息學(xué)研究的熱 點(diǎn)和重點(diǎn)點(diǎn)和重點(diǎn) n目前對(duì)基因表達(dá)數(shù)據(jù)的處理主要是進(jìn)行聚類分目前對(duì)基因表達(dá)數(shù)據(jù)的處理主要是進(jìn)行聚類分 析,將表達(dá)模式相似的基因聚為一類,在此基析,將表達(dá)模式相似的基因聚為一類,在此基 礎(chǔ)上尋找相關(guān)基因,分析基因的功能礎(chǔ)上尋找相關(guān)基因,分析基因的功能 n所用方法主要有:所用方法主要有:n

45、相關(guān)分析方法相關(guān)分析方法n模式識(shí)別技術(shù)中的層次式聚類方法模式識(shí)別技術(shù)中的層次式聚類方法n人工智能中的自組織映射神經(jīng)網(wǎng)絡(luò)人工智能中的自組織映射神經(jīng)網(wǎng)絡(luò)n主元分析方法主元分析方法 Bioinformatics 2014基因表達(dá)分析和調(diào)控網(wǎng)絡(luò)研究基因表達(dá)分析和調(diào)控網(wǎng)絡(luò)研究n高通量基因轉(zhuǎn)錄實(shí)驗(yàn)技術(shù)高通量基因轉(zhuǎn)錄實(shí)驗(yàn)技術(shù)1、mRNAncDNA microarraynOligonucleotide chipnRT-PCRnSAGE2、proteinn 2D-PAGEBioinformatics 2014Bioinformatics 2014層次式聚類層次式聚類Bioinformatics 2014Bioi

46、nformatics 20145、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè) n蛋白質(zhì)的生物功能由蛋白質(zhì)的結(jié)構(gòu)所決定蛋白質(zhì)的生物功能由蛋白質(zhì)的結(jié)構(gòu)所決定 ,蛋,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)成為了解蛋白質(zhì)功能的重要途徑白質(zhì)結(jié)構(gòu)預(yù)測(cè)成為了解蛋白質(zhì)功能的重要途徑n蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)分為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)分為:n二級(jí)結(jié)構(gòu)預(yù)測(cè)二級(jí)結(jié)構(gòu)預(yù)測(cè)n空間結(jié)構(gòu)預(yù)測(cè)空間結(jié)構(gòu)預(yù)測(cè) 蛋白質(zhì)折疊蛋白質(zhì)折疊Bioinformatics 2014二級(jí)結(jié)構(gòu)預(yù)測(cè)二級(jí)結(jié)構(gòu)預(yù)測(cè)n二級(jí)結(jié)構(gòu)的預(yù)測(cè)可以歸結(jié)為模式識(shí)別問(wèn)題二級(jí)結(jié)構(gòu)的預(yù)測(cè)可以歸結(jié)為模式識(shí)別問(wèn)題 n主要方法有:主要方法有:n立體化學(xué)方法立體化學(xué)方法n圖論方法圖論方法n統(tǒng)計(jì)方法統(tǒng)計(jì)方法n最鄰近決策方法最鄰近決策方法

47、n基于規(guī)則的專家系統(tǒng)方法基于規(guī)則的專家系統(tǒng)方法n分子動(dòng)力學(xué)方法分子動(dòng)力學(xué)方法n人工神經(jīng)網(wǎng)絡(luò)方法人工神經(jīng)網(wǎng)絡(luò)方法 n預(yù)測(cè)準(zhǔn)確率超過(guò)預(yù)測(cè)準(zhǔn)確率超過(guò)70%的第一個(gè)軟件是基于神經(jīng)網(wǎng)絡(luò)的的第一個(gè)軟件是基于神經(jīng)網(wǎng)絡(luò)的PHD系統(tǒng)系統(tǒng)Bioinformatics 2014蛋白質(zhì)三級(jí)結(jié)構(gòu)預(yù)測(cè) n同源模型化方法n遠(yuǎn)程同源模型化方法n結(jié)構(gòu)的從頭預(yù)測(cè)方法n距離幾何n分子動(dòng)力學(xué) Bioinformatics 2014同源模型化方法同源模型化方法n空間結(jié)構(gòu)預(yù)測(cè)方面,比較成功的理論方法是空間結(jié)構(gòu)預(yù)測(cè)方面,比較成功的理論方法是同源模型法同源模型法 n該方法的依據(jù)是:相似序列的蛋白質(zhì)傾向于折疊成相似該方法的依據(jù)是:相似序列的蛋

48、白質(zhì)傾向于折疊成相似的三維空間結(jié)構(gòu),如果具有的三維空間結(jié)構(gòu),如果具有25-30%的等同序列,可以的等同序列,可以假設(shè)這兩個(gè)蛋白質(zhì)折疊成相似的空間結(jié)構(gòu)假設(shè)這兩個(gè)蛋白質(zhì)折疊成相似的空間結(jié)構(gòu)n運(yùn)用同源模型方法,借助于數(shù)據(jù)庫(kù)搜索和序列的比對(duì)排運(yùn)用同源模型方法,借助于數(shù)據(jù)庫(kù)搜索和序列的比對(duì)排列,可以完成所有蛋白質(zhì)列,可以完成所有蛋白質(zhì)10-30%的空間結(jié)構(gòu)預(yù)測(cè)工作的空間結(jié)構(gòu)預(yù)測(cè)工作Bioinformatics 2014n可以通過(guò)計(jì)算(如分子力學(xué)、分子動(dòng)力學(xué)可以通過(guò)計(jì)算(如分子力學(xué)、分子動(dòng)力學(xué)等)來(lái)進(jìn)行結(jié)構(gòu)預(yù)測(cè)等)來(lái)進(jìn)行結(jié)構(gòu)預(yù)測(cè)n可以通過(guò)計(jì)算(如分子力學(xué)、分子動(dòng)力學(xué)可以通過(guò)計(jì)算(如分子力學(xué)、分子動(dòng)力學(xué)等)

49、來(lái)進(jìn)行結(jié)構(gòu)預(yù)測(cè):立體作用等)來(lái)進(jìn)行結(jié)構(gòu)預(yù)測(cè):立體作用, 空間堆積,空間堆積,靜電作用,氫鍵,疏水作用靜電作用,氫鍵,疏水作用Bioinformatics 20146 比較基因組比較基因組學(xué)學(xué)研究研究n研究生命是從哪里起源的?n生命是如何進(jìn)化的?n遺傳密碼是如何起源的?n估計(jì)最小獨(dú)立生活的生物至少需要多少基因,這些基因是如何使它們活起來(lái)的?n鼠和人的基因組大小相似,基因的數(shù)目類似。可是鼠和人為什么差異確如此之大?n不同人種間基因組的差別僅為 0.01%;人猿間差別約為1%。但表型間的差異十分顯著。Bioinformatics 2014生物進(jìn)化研究1、序列相似性比較。就是將待研究序列與DNA或蛋白

50、質(zhì)序列庫(kù)進(jìn)行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有BLAST、FASTA等;2、序列同源性分析。是將待研究序列加入到一組與之同源,但來(lái)自不同物種的序列中進(jìn)行多序列同時(shí)比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;Bioinformatics 20143、構(gòu)建系統(tǒng)進(jìn)化樹(shù)。根據(jù)序列同源性分析的結(jié)果,重建反映物種間進(jìn)化關(guān)系的進(jìn)化樹(shù)。為完成這一工作已發(fā)展了多種軟件包,象PYLIP、MEGA等;4、穩(wěn)定性檢驗(yàn)。為了檢驗(yàn)構(gòu)

51、建好的進(jìn)化樹(shù)的可靠性,需要進(jìn)行統(tǒng)計(jì)可靠性檢驗(yàn),通常構(gòu)建過(guò)程要隨機(jī)地進(jìn)行成百上千次,只有以大概率(70以上)出現(xiàn)的分支點(diǎn)才是可靠的。通用的方法使用 Bootstrap算法,相應(yīng)的軟件已包括在構(gòu)建系統(tǒng)進(jìn)化樹(shù)所用的軟件包當(dāng)中。為便于使用者查找表三給出了進(jìn)化分析相關(guān)軟件的因特網(wǎng)地址。Bioinformatics 2014 16S rRNA 通過(guò)比較真核細(xì)胞通過(guò)比較真核細(xì)胞 rRNA的核苷酸順序和的核苷酸順序和“真細(xì)真細(xì)菌菌”、“古細(xì)菌古細(xì)菌”的的 rRNA核苷酸順序,發(fā)現(xiàn)它們之核苷酸順序,發(fā)現(xiàn)它們之間截然不同,表明真核細(xì)胞不是來(lái)自原核細(xì)胞,而是間截然不同,表明真核細(xì)胞不是來(lái)自原核細(xì)胞,而是遠(yuǎn)在原核細(xì)胞

52、生成之前,真核細(xì)胞就已和原核細(xì)胞分遠(yuǎn)在原核細(xì)胞生成之前,真核細(xì)胞就已和原核細(xì)胞分開(kāi)而成獨(dú)立的一支,即開(kāi)而成獨(dú)立的一支,即“早真核生物早真核生物”,它才是現(xiàn)代,它才是現(xiàn)代真核生物的始祖真核生物的始祖。Bioinformatics 2014Bioinformatics 2014第四節(jié)第四節(jié) 生物信息學(xué)的主要任務(wù)生物信息學(xué)的主要任務(wù)Bioinformatics 2014 當(dāng)今生物信息學(xué)界,注意力集中在基因組、蛋白質(zhì)組、蛋白質(zhì)結(jié)構(gòu)以及與之相結(jié)合的藥物設(shè)計(jì)上。 Bioinformatics 20141. 基因組基因組 1.1 新基因的發(fā)現(xiàn)新基因的發(fā)現(xiàn) 通過(guò)計(jì)算分析從EST(Expressed Seque

53、nce Tags)序列庫(kù)中拼接出完整的新基因編碼區(qū),也就是通俗所說(shuō)的“電子克隆電子克隆”; 通過(guò)計(jì)算分析從基因組DNA序列中確定新基因編碼區(qū),如根據(jù)編碼區(qū)具有的獨(dú)特序列特征、根據(jù)編碼區(qū)與非編碼區(qū)在堿基組成上的差異、根據(jù)高維分布的統(tǒng)計(jì)方法、根據(jù)神經(jīng)網(wǎng)絡(luò)方法、根據(jù)分形方法和根據(jù)密碼學(xué)方法等。 Bioinformatics 20141.2 非蛋白編碼區(qū)生物學(xué)意義的分析非蛋白編碼區(qū)生物學(xué)意義的分析 非蛋白編碼區(qū)約占人類基因組的95%,其生物學(xué)意義目前尚不是很清楚,但從演化觀點(diǎn)來(lái)看,其中必然蘊(yùn)含著重要的生物學(xué)功能,由于它們并不編碼蛋白,一般認(rèn)為,它們的生物學(xué)功能可能體現(xiàn)在對(duì)基因表達(dá)的時(shí)空調(diào)控上。 Bio

54、informatics 2014對(duì)非蛋白編碼區(qū)進(jìn)行生物學(xué)意義分析的策略1 基于已有的已經(jīng)為實(shí)驗(yàn)證實(shí)的所有功能已知的DNA元件的序列特征,預(yù)測(cè)非蛋白編碼區(qū)中可能含有的功能已知的DNA元件,從而預(yù)測(cè)其可能的生物學(xué)功能,并通過(guò)實(shí)驗(yàn)進(jìn)行驗(yàn)證;2 通過(guò)數(shù)理理論直接探索非蛋白編碼區(qū)的新的未知的序列特征,并從理論上預(yù)測(cè)其可能的信息含義,最后同樣通過(guò)實(shí)驗(yàn)驗(yàn)證。Bioinformatics 20141.3 基因組整體功能及其調(diào)節(jié)網(wǎng)絡(luò)的系統(tǒng)把握基因組整體功能及其調(diào)節(jié)網(wǎng)絡(luò)的系統(tǒng)把握 研究生命的本質(zhì),僅僅掌握基因組中部分基因的表達(dá)調(diào)控是遠(yuǎn)遠(yuǎn)不夠的,因?yàn)樯F(xiàn)象是基因組中所有功能單元相互作用共同制造出來(lái)的。基因芯片基因

55、芯片技術(shù)由于可以監(jiān)測(cè)基因組在各種時(shí)間斷面上的整體轉(zhuǎn)錄表達(dá)狀況,因此成為該領(lǐng)域中一項(xiàng)非常重要和關(guān)鍵的實(shí)驗(yàn)技術(shù),對(duì)該技術(shù)所產(chǎn)生的大量實(shí)驗(yàn)數(shù)據(jù)進(jìn)行高效分析,從中獲得基因組運(yùn)轉(zhuǎn)以及調(diào)控的整體系統(tǒng)的機(jī)制或者是網(wǎng)絡(luò)機(jī)制,便成了生物信息學(xué)在該領(lǐng)域中首先要解決的問(wèn)題。 Bioinformatics 20141.4 基因組進(jìn)化與物種進(jìn)化基因組進(jìn)化與物種進(jìn)化Bioinformatics 2014 僅依靠某些基因或者分子的進(jìn)化現(xiàn)象,就想闡明物種整體的演化歷史似乎不太可靠。例如,智人與黑猩猩之間有98%-99%的結(jié)構(gòu)基因和蛋白質(zhì)是相同的,然而表型上卻具有如此巨大的差異,這就不能不使我們聯(lián)想到形形色色千差萬(wàn)別的建筑樓群

56、,它們的外觀如此不同,但基礎(chǔ)的部件組成卻是幾乎一樣的,差別就在于這些基礎(chǔ)部件的組織方式不同,這就提示我們基因組整體組織方式而不僅僅是個(gè)別基因在研究物種進(jìn)化歷史中的重要作用。Bioinformatics 2014 由于基因組是物種所有遺傳信息的儲(chǔ)藏庫(kù),從根本上決定著物種個(gè)體的發(fā)育和生理,因此,從基因組整體從基因組整體結(jié)構(gòu)組織和整體功能調(diào)節(jié)網(wǎng)絡(luò)方面,結(jié)合相應(yīng)的生理表結(jié)構(gòu)組織和整體功能調(diào)節(jié)網(wǎng)絡(luò)方面,結(jié)合相應(yīng)的生理表征現(xiàn)象,進(jìn)行基因組整體的演化研究,將是揭示物種真征現(xiàn)象,進(jìn)行基因組整體的演化研究,將是揭示物種真實(shí)演化歷史的最佳途徑。實(shí)演化歷史的最佳途徑。Bioinformatics 20142、蛋白質(zhì)

57、組、蛋白質(zhì)組 Bioinformatics 2014 基因組對(duì)生命體的整體控制必須通過(guò)它所表達(dá)的基因組對(duì)生命體的整體控制必須通過(guò)它所表達(dá)的全部蛋白質(zhì)來(lái)執(zhí)行,由于基因芯片技術(shù)只能反映從基全部蛋白質(zhì)來(lái)執(zhí)行,由于基因芯片技術(shù)只能反映從基因組到因組到RNA的轉(zhuǎn)錄水平上的表達(dá)情況,從的轉(zhuǎn)錄水平上的表達(dá)情況,從RNA到蛋白到蛋白質(zhì)還有許多中間環(huán)節(jié)的影響,因此僅憑基因芯片技術(shù)質(zhì)還有許多中間環(huán)節(jié)的影響,因此僅憑基因芯片技術(shù)我們還不能最終掌握生物功能具體執(zhí)行者我們還不能最終掌握生物功能具體執(zhí)行者蛋白質(zhì)蛋白質(zhì)的整體表達(dá)狀況。的整體表達(dá)狀況。 Bioinformatics 2014 因此,近幾年在發(fā)展基因芯片的同時(shí)

58、,人們也發(fā)展了一套研究基因組所有蛋白質(zhì)產(chǎn)物表達(dá)情況蛋白質(zhì)組研究技術(shù),從技術(shù)上來(lái)講包括二維凝膠電泳技術(shù)二維凝膠電泳技術(shù)和質(zhì)質(zhì)譜譜測(cè)序技術(shù)。 通過(guò)二維凝膠電泳技術(shù)可以獲得某一時(shí)間截面上蛋白質(zhì)組的表達(dá)情況,通過(guò)質(zhì)譜測(cè)序技術(shù)就可以得到所有這些蛋白質(zhì)的序列組成。 重要的就是如何運(yùn)用生物信息學(xué)理論方法去分析所得到的巨量數(shù)據(jù),從中還原出生命運(yùn)轉(zhuǎn)和調(diào)控的整體系統(tǒng)的分子機(jī)制。 Bioinformatics 2014 蛋白質(zhì)的功能是通過(guò)其三維高級(jí)結(jié)構(gòu)來(lái)執(zhí)行的,蛋白質(zhì)三維結(jié)構(gòu)也不一定蛋白質(zhì)三維結(jié)構(gòu)也不一定是靜態(tài)的,在行使功能的是靜態(tài)的,在行使功能的過(guò)程中其結(jié)構(gòu)也會(huì)相應(yīng)的過(guò)程中其結(jié)構(gòu)也會(huì)相應(yīng)的有所改變有所改變。目前通

59、過(guò)諸如X射線晶體結(jié)構(gòu)分析、多維核磁共振(NMR)波譜分析和電子顯微鏡二維晶體三維重構(gòu)(電子晶體學(xué),EC)等物理方法得到蛋白質(zhì)三維結(jié)構(gòu)。3、蛋白質(zhì)結(jié)構(gòu)、蛋白質(zhì)結(jié)構(gòu) Bioinformatics 2014計(jì)算機(jī)輔助預(yù)測(cè)的方法:蛋白質(zhì)的折疊類型只有數(shù)百到數(shù)千種,遠(yuǎn)遠(yuǎn)小于蛋白質(zhì)所具有的自由度數(shù)目,而且蛋白質(zhì)的折疊類型與其氨基酸序列具有相關(guān)性,這樣就有可能直接從蛋白質(zhì)的氨基酸序列通過(guò)計(jì)算機(jī)輔助方法預(yù)測(cè)出蛋白質(zhì)的三維結(jié)構(gòu) 。Bioinformatics 20144、新藥設(shè)計(jì)、新藥設(shè)計(jì) Bioinformatics 2014 近年來(lái)隨著結(jié)構(gòu)生物學(xué)的發(fā)展,相當(dāng)數(shù)量的蛋白質(zhì)以及一些核酸、多糖的三維結(jié)構(gòu)獲得精確測(cè)

60、定,基于生物大分子結(jié)構(gòu)知識(shí)的藥物設(shè)計(jì)成為當(dāng)前的熱點(diǎn)。 生物信息學(xué)的研究不僅可提供生物大分子空間結(jié)構(gòu)的信息,還能提供電子結(jié)構(gòu)的信息,如能級(jí)、表面電荷分布、分子軌道相互作用等以及動(dòng)力學(xué)行為的信息,如生物化學(xué)反應(yīng)中的能量變化、電荷轉(zhuǎn)移、構(gòu)象變化等。理論模擬還可研究包括生物分子及其周?chē)h(huán)境的復(fù)雜體系和生物分子的量子效應(yīng)。Bioinformatics 2014生物信息學(xué)不僅僅是一門(mén)科學(xué)學(xué)科,生物信息學(xué)不僅僅是一門(mén)科學(xué)學(xué)科, 它更是一種重要的研究開(kāi)發(fā)工具它更是一種重要的研究開(kāi)發(fā)工具 從科學(xué)的角度來(lái)講,它是一門(mén)研究生物和生物相關(guān)系從科學(xué)的角度來(lái)講,它是一門(mén)研究生物和生物相關(guān)系統(tǒng)中信息內(nèi)容物和信息流向的綜合系統(tǒng)科學(xué),

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論