Chapter-1-生物信息學簡介_第1頁
Chapter-1-生物信息學簡介_第2頁
Chapter-1-生物信息學簡介_第3頁
Chapter-1-生物信息學簡介_第4頁
Chapter-1-生物信息學簡介_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、生物信息基礎生物信息學簡介2022/8/122主講教師:高 昇Cell:mail: gaoshengOffice:教三樓803-模式識別實驗室助教:莫能斌Cell:mail: Office:教三樓803-模式識別實驗室參考資料孫嘯等編著,生物信息學基礎, 清華大學出版社,2005年5月.王勇獻等編著,生物信息學導論面向高性能計算的算法與應用,清華大學出版社,2011年6月.陳寶林,最優(yōu)化理論與算法(第二版),清華大學出版社,2005年10月. 課件存放郵箱: bioinfo_ passwd: bioinfo2022/8/123考核方式 期末成

2、績 40%大作業(yè) or 考試平時成績 40%小作業(yè)開放項目,鼓勵自由參與日常考勤 20% 2022/8/124課程定位Introduction to Life Science and Artificial Life生物信息基礎 生命科學中的信息科學利用信息科學的方法和技術,研究生物體系和生物過程中信息的存儲、信息的內涵和信息的傳遞,研究和分析生物體細胞、組織、器官的生理、病理、藥理過程中的各種生物信息。Bioinformatics:分析復雜生物學數(shù)據的學科:應用信息科學的理論、方法和技術,管理、分析和利用生物分子數(shù)據。分子生物信息學(Molecular Bioinformatics)2022/

3、8/1252022/8/126內容提要生物信息學產生的背景什么是生物信息學生物信息學的研究意義生物信息學的發(fā)展歷史 生物信息學主要研究內容 生物信息學所用的方法和技術2022/8/127生命信息的組織、傳遞、表達物理化學分子生物學遺傳學信息技術引言8歷史回顧(1)1866年,神父Gregor Mendel通過對豌豆的雜交和遺傳學研究,提出了傳遞遺傳特征的基本單位-遺傳因子(基因)的概念1944年, Avery & McCarty第一次發(fā)現(xiàn)了遺傳信息的載體是染色體上的DNA(而不是先前認為的蛋白質).9歷史回顧(2)1953年,James Watson & Francis Crick發(fā)現(xiàn)了DNA

4、的雙螺旋空間結構并推斷出了DNA的復制方式,由此揭開了分子生物學研究的序幕。1990年,人類基因組計劃啟動人類歷史上的三大科技工程2022/8/1210曼哈頓原子彈研制計劃人類基因組計劃阿波羅登月計劃1941.12.6 - 1945.7.16羅斯福批準耗資20億美元原子半徑10-10m原子體積10-30m31990.10.1 - 2003.4.23克林頓、布萊爾批準耗資30億美元1961.5.25 - 1969.7.20肯尼迪批準耗資240億美元人體半徑100m人體體積100m3太陽系半徑1012m太陽系體積1034m3人類基因組計劃人類基因組計劃(Human Genome Project,

5、HGP)1986年R.Dulbeccol在Science上撰文,建議對人類基因組進行全測序。1990年美國政府正式啟動人類基因組計劃耗資30億美元、為期15年的計劃,預期到2005年完成人類基因組大約30億個堿基的全序列測定美、英、日、法、德、中六國科學家共同參與HGP的主要任務是:人類基因組以及一些模式生物體(細菌、酵母、線蟲、果蠅等)基因組的作圖、測序和基因識別。人類基因組計劃的發(fā)展歷程前期準備1984年DOE(Department of Energy) 委托Alta, White R., Mendelsonhm M 科學家專業(yè)會議;1985年提出人類基因組計劃的動議1986年McKusi

6、ck V 稱從整個基因組層次上研究遺傳的科學為基因 組學1986年Dulbecco R 在Science上發(fā)表文章”腫瘤研究的轉折 人類基因組的全序列分析”, 提出人類基因組計劃1986年Gilbert W & Berg P 主持人類基因組計劃專家會議1987年DOE(能源部)和NIH(國家健康研究院)下?lián)苎芯拷涃M1988年NRC(原子能調整委員會)的專家發(fā)表mapping and sequencing the human genome報告1988年成立了國家人類基因組研究中心。Watson 第一任主任。人類基因組計劃的發(fā)展歷程正式啟動1990年經過5年辯論, 美國國會通過“人類基因組計劃”1

7、990年10月1日啟動計劃15年,30億美元 多國參與(英國1989, 法國1990, 德國1995, 中國1999)1990年 6月, 歐共體通過“歐洲人類基因組計劃”。此外,丹麥,日本,韓國,俄羅斯和澳大利亞也加入行動行列1999年9月1日,楊煥明教授在第五次倫敦國際人類基因組戰(zhàn)略討論會上介紹情況。會議正式接受中國加入國際合作,劃定了測序區(qū)域,正式承擔的測序任務2000年6月26日各國科學家公布了人類基因組工作草圖2004年精度大于99%的完成圖公布人類基因組計劃參與HGP的國家美國(54%)英國(33%)日本(7%)法國(2.8%)德國(2.2%)中國(1%)目標:測定人類基因組DNA序

8、列中的30億個堿基順序,獲取四張圖譜:遺傳圖譜物理圖譜序列圖譜基因圖譜HGP負責人柯林斯(Collins )已完成測序的基因組(http:/www.ebi.ac.uk/genomes)種類數(shù)目備注古細菌(Archaea)16真細菌(Bacteria)120其中有的測定了2個以上的菌株真核生物(Eukaryo)15包括酵母、線蟲、果蠅、蚊子、擬南芥、人等病毒(Virus)885包括不同亞類或不同株系類病毒(Viroid)40包括不同亞類或不同株系噬菌體(Phage)114包括不同亞類或不同株系細胞器(Organelle)308包括線粒體和葉綠體質粒(Plasmid)282103 Kilo106

9、Mega109 Giga1012 Tera 1015 Peta1018 Exa1021 Zetta1024 Yotta一個普通生物實驗室每年產生的數(shù)據量100 Terra-bytes (1014)人類迄今為止所說過的話(詞語量)5 exa-bytes (51018)生物信息量至少是所有人類說過的話的200倍!巨量的數(shù)據GenBank DataYearBase PairsSequences1982680,33860619832,274,0292,42719843,368,7654,17519855,204,4205,70019869,615,3719,978198715,514,77614,58

10、4198823,800,00020,579198934,762,58528,791199049,179,28539,533199171,947,42655,6271992101,008,48678,6081993157,152,442143,4921994217,102,462215,2731995384,939,485555,6941996651,972,9841,021,21119971,160,300,6871,765,84719982,008,761,7842,837,89719993,841,163,0114,864,570200011,101,066,28810,106,02320

11、0115,849,921,43814,976,310200228,507,990,16622,318,883200336,553,368,48530,968,418200444,575,745,17640,604,319/Genbank/genbankstats.html蛋白質序列四種數(shù)據原始數(shù)據(Original data)科學文獻(Scientific literature)數(shù)據組合(Datasets)綜合性數(shù)據(Organized data)后基因組時代的呼喚傳統(tǒng)生物學:實驗科學現(xiàn)代生物學的發(fā)展:數(shù)據獲取日益實現(xiàn)自動化、半工業(yè)化從數(shù)據庫中實現(xiàn)數(shù)據挖掘、知識發(fā)現(xiàn)海量數(shù)據難以完全依賴實驗手段

12、對新數(shù)據進行分析,必須借助計算機實現(xiàn)分析和篩選更復雜層次的生物學問題復雜的基因調控網絡、代謝網絡;細胞間信號轉導過程;生物個體全部基因表達變化面對堆積如山的生物學數(shù)據2022/8/1222HGP生物數(shù)據的激增(每15個月翻一番)生物學家數(shù)學家信息科學家生物信息學(bioinfomatics)的誕生生物信息學概念“We are not limited by the number of experiments that we can do, we are limited by our ability to understand the information that is generated a

13、s a result of these experiments. “Biology is quickly becoming an information science.生物學日益成為一門信息科學Biology easily has 500 years of exciting problems to work on.生物學中有著至少500年也解決不完的有趣問題。Donald E. KnuthLets begin our exploration of computational and theoretical biology!什么是生物信息學生物信息學是現(xiàn)代生命科學與信息科學、計算機科學、數(shù)學、

14、統(tǒng)計學、物理學、化學等學科相互滲透而形成的交叉學科,是應用計算機技術和信息論方法研究蛋白質及核酸序列等各種生物信息的采集、存儲、傳遞、檢索、分析和解讀,以幫助了解生物學信息的科學。從研究涉及的學科來看:多學科交叉從研究內容來看:基因組信息學、蛋白質組信息學、結構模擬與分子設計等構成其主要組成部分2022/8/1226生物體系和生物過程中信息的存儲、傳遞和表達細胞、組織、器官的生理、病理、藥理過程的中各種生物信息信息科學生命科學中的信息科學概念(廣義)2022/8/1227生物分子數(shù)據深層次生物學知識分子生物信息學Molecular Bioinformatics挖掘獲取概念(狹義)生物分子信息的

15、獲取、存儲、分析和利用2022/8/1228生物分子數(shù)據 信息計算 + Bioinformatics2022/8/1229細胞分子存儲、復制、傳遞和表達遺傳信息的系統(tǒng)生物信息的載體生物分子信息2022/8/1230主要研究兩種信息載體DNA分子蛋白質分子2022/8/1231生物分子至少攜帶三種信息遺傳信息與功能相關的結構信息進化信息2022/8/1232遺傳信息的載體 - DNA遺傳信息的載體主要是DNA控制生物體性狀的基因是 - 系列DNA片段生物體生長發(fā)育的本質就是遺傳信息的傳遞和表達33DNA生物體(人)人體由上億個細胞組成每個細胞都有著相同的染色體組染色體對每條染色體是一個DNA分子

16、,基因是DNA的功能區(qū)域DNA雙螺旋結構7.5-10101223對2.8-3.5萬2022/8/1234蛋白質的結構決定其功能蛋白質功能取決于蛋白質的空間結構蛋白質結構決定于蛋白質的序列(這是目前基本共認的假設),蛋白質結構的信息隱含在蛋白質序列之中。2022/8/1235DNA分子和蛋白質分子都含有進化信息通過比較相似的蛋白質序列,如肌紅蛋白和血紅蛋白,可以發(fā)現(xiàn)由于基因復制而產生的分子進化證據。通過比較來自于不同種屬的同源蛋白質,可以分析蛋白質甚至種屬之間的系統(tǒng)發(fā)生關系,推測它們共同的祖先蛋白質。2022/8/1236生物分子信息DNA序列數(shù)據 蛋白質序列數(shù)據 生物分子結構數(shù)據 生物分子功能

17、數(shù)據 最基本直觀復雜2022/8/1237DNA核酸序列蛋白質氨基酸序列蛋白質結構蛋白質功能最基本的生物信息維持生命活動的機器第一部: 遺傳密碼第二部: 遺傳密碼?生命體系千姿百態(tài)的變化生物分子數(shù)據及其關系2022/8/1238生物分子信息的特征生物分子信息數(shù)據量大生物分子信息復雜生物分子信息之間存在著密切的聯(lián)系2022/8/1239生物信息學的目標和任務收集和管理生物分子數(shù)據數(shù)據分析和挖掘開發(fā)分析工具和實用軟件生物分子序列比較工具基因識別工具生物分子結構預測工具基因表達數(shù)據分析工具2022/8/1240 實驗 數(shù)據 信息 知識 收集 表示 分析 建模 刻畫特征 比較 推理應 用基因工程蛋白質

18、設計疾病診斷疾病治療開發(fā)新藥生物分子信息處理流程數(shù)據源數(shù)據量生物信息學任務DNA序列11.5百萬條序列125.0 億個堿基分離編碼與非編碼區(qū)域識別內含子與外顯子基因產物預測基因功能注釋基因調控信息分析 蛋白質序列40.0萬條序列(每條序列平均有300氨基酸 )序列比較多重序列比對識別保守的序列模式進化分析 數(shù)據源數(shù)據量生物信息學任務大分子結構1.5 萬個結構(每個結構平均1000個原子坐標) 二級結構、空間結構預測三維結構比對蛋白質幾何學度量表面和形態(tài)計算分子間相互作用分析分子模擬 基因組300個基因組 標注重復序列基因結構分析系統(tǒng)發(fā)生分析基因與疾病的連鎖分析基因組比較遺傳語言分析2022/8

19、/1243數(shù)據源數(shù)據量生物信息學任務基因表達酵母6000個基因在約20時間點表達值 表達模式相關分析基因基因調控網絡分析表達調控信息分析 2022/8/1244分子生物學的三大核心數(shù)據庫GenBank核酸序列數(shù)據庫SWISS-PROT蛋白質序列數(shù)據庫PDB生物大分子結構數(shù)據庫2022/8/1245生物信息學研究意義認識生物本質了解生物分子信息的組織和結構,破譯基因組信息,闡明生物信息之間的關系。改變生物學的研究方式 改變傳統(tǒng)研究方式,引進現(xiàn)代信息學方法在醫(yī)學上的重要意義為疾病的診斷和治療提供依據為設計新藥提供依據2022/8/1246生物信息學基本思想的產生 生物信息學 的迅速發(fā)展二十世紀50

20、年代二十世紀80-90年代生物科學和技術的發(fā)展人類基因組計劃的推動 生物信息學的發(fā)展歷史2022/8/124720世紀50年代,生物信息學開始孕育20世紀60年代,生物分子信息在概念上將計算生物學和計算機科學聯(lián)系起來20世紀70年代,生物信息學的真正開端20世紀70年代到80年代初期 ,出現(xiàn)了一系列著名的序列比較方法和生物信息分析方法20世紀80年代以后,出現(xiàn)一批生物信息服務機構和生物信息數(shù)據庫20世紀90年代后, HGP促進生物信息學的迅速發(fā)展2022/8/1248生物信息學主要研究內容序列分析/Sequence analysisSequence alignmentStructure and

21、 function predictionGene finding結構分析/Structure analysisProtein structure comparisonProtein structure prediction RNA structure modeling表達分析/Expression analysisGene clusteringGen expression analysis蛋白質組學/ProteomicsProtein-Protein Interaction2022/8/1249基因組數(shù)據庫 蛋白質序列數(shù)據庫 蛋白質結構數(shù)據庫 DDBJEMBLGenBankSWISS-PROT

22、 PDBPIR生物分子數(shù)據的收集與管理序列分析從DNA序列與蛋白質序列中進行信息及模式發(fā)現(xiàn)尋找進化聯(lián)系尋找基因組的編碼區(qū)尋找序列中的功能信號區(qū)全基因組序列的拼接與組裝識別非編碼區(qū),探索其功能單核苷酸多態(tài)性SNP (Single nucleotide polymorphism)序列比對/alignment序列分析分子進化和比較基因組學結構分析蛋白質結構和功能的預測分析 蛋白質家族保守序列尋找從氨基酸組成辨識蛋白質蛋白質二級結構預測 蛋白質的三維結構蛋白質的物理性質預測其他特殊局部信息:其它特殊局部結構包括膜蛋白的跨膜螺旋、信號肽、卷曲螺旋(Coiled Coils)等,具有明顯的序列特征和結構特

23、征,也可以用計算方法加以預測基因表達數(shù)據分析基因表達數(shù)據:近年來 biochips, microarray 技術迅速發(fā)展起來,使得我們可能得到同一時間成千上萬個基因的表達水平的數(shù)據。上述基因表達數(shù)據為我們提供了深入研究基因功能,基因相互作用,基因網絡等復雜網絡問題的有力工具?;虮磉_數(shù)據分析面臨維數(shù)極高,噪聲大而且相關,數(shù)據重復度低等問題,對數(shù)理統(tǒng)計等學科提出了新問題。目前對基因表達數(shù)據的處理主要是進行聚類分析,將表達模式相似的基因聚為一類,在此基礎上尋找相關基因,分析基因的功能。2022/8/1255基因調控網絡與信號轉導基因的表達受到蛋白的調控,一個基因的表達與否,表達量,均受到細胞中各種

24、蛋白的調控。所以基因的調控可以看作是細胞中各基因對應的 mRNA 與各種蛋白的一個相互作用網絡。信號轉導指當細胞受到某種影響,其中某個蛋白的含量發(fā)生變化,而引起一系列的蛋白的表達變化的過程和路徑。它對于研究藥理、病理、細胞的分化、發(fā)育、進化等重大問題都十分重要。信號轉導、基因網絡與基因表達的數(shù)據分析是緊密相關的。生物信息處理并行算法2022/8/1258生物信息學主要研究內容序列分析/Sequence analysisSequence alignmentStructure and function predictionGene finding結構分析/Structure analysisPro

25、tein structure comparisonProtein structure prediction RNA structure modeling表達分析/Expression analysisGene clusteringGen expression analysis蛋白質組學/ProteomicsProtein-Protein Interaction2022/8/1259生物信息學所用的方法和技術1、數(shù)學統(tǒng)計方法 2、動態(tài)規(guī)劃方法 3、機器學習與模式識別技術 4、數(shù)據庫技術及數(shù)據挖掘 5、人工神經網絡技術6、專家系統(tǒng)7、分子模型化技術8、生物分子的計算機模擬9、因特網(Interne

26、t)技術2022/8/1260數(shù)學統(tǒng)計方法生物活動常常以大量、重復的形式出現(xiàn),既受到內在因素的制約,又受到外界環(huán)境的隨機干擾。因此概率論和數(shù)學統(tǒng)計是現(xiàn)代生物學研究中一種常用的分析方法 數(shù)據統(tǒng)計、因素分析、多元回歸分析是生物學研究必備的工具隱馬爾科夫模型(Hidden Markov Models)在序列分析方面有著重要的應用。與隱馬爾科夫模型相關的技術是馬爾科夫鏈(Markov Chain) 2022/8/1261動態(tài)規(guī)劃方法動態(tài)規(guī)劃(Dynamic Programming)是一種解決多階段決策過程的最優(yōu)化方法或復雜空間的優(yōu)化搜索方法 動態(tài)規(guī)劃解決問題的基本過程是:將一個問題的全局解分解為局部解

27、,逆序遞推求出局部最優(yōu)解,隨著執(zhí)行過程的推進,“局部”逐漸接近“全局”,最終獲得全局最優(yōu)解2022/8/1262機器學習與模式識別技術機器學習機器學習是模擬人類的學習過程,以計算機為工具獲取知識、積累經驗 遺傳算法采用隨機搜索方法,具有自適應能力和便于并行計算 神經網絡的理論是基于人腦的結構,其目的是揭示一個系統(tǒng)是如何向環(huán)境學習的,這一種方法被稱為聯(lián)接主義。2022/8/1263機器學習與模式識別技術模式識別模式識別是機器學習的一個主要任務。模式是對感興趣客體定量的或者結構的描述,而模式識別就是利用計算機對客體進行鑒別,將相同或相似的客體歸入同類中模式識別主要有兩種方法:根據對象的統(tǒng)計特征進行

28、識別,根據對象的結構特征進行識別 2022/8/1264環(huán)境學習知識庫執(zhí)行反饋機器學習系統(tǒng)的基本結構 2022/8/1265數(shù)據庫技術及數(shù)據挖掘數(shù)據挖掘(data mining) 又稱作數(shù)據庫中的知識發(fā)現(xiàn) (Knowledge Discovery in Database),它是從數(shù)據庫或數(shù)據倉庫中發(fā)現(xiàn)并提取隱藏在其中的信息的一種新技術,它能自動分析數(shù)據,對它們進行歸納性推理和聯(lián)想,尋找數(shù)據間內在的某些關聯(lián),從中發(fā)掘出潛在的、對信息預測和決策行為起著十分重要作用的模式 數(shù)據挖掘過程一般分為4個基本步驟:數(shù)據選擇、數(shù)據轉換、數(shù)據挖掘和結果分析2022/8/1266人工神經網絡技術人工神經網絡(Ar

29、tificial Neural Network, 簡稱ANN)是通過模擬神經元的特性以及腦的大規(guī)模并行結構、信息的分布式和并行處理等機制建立的一種數(shù)學模型2022/8/1267輸入層隱藏層輸出層2022/8/1268專家系統(tǒng)專家系統(tǒng)(Expert System)是一種基于知識的智能系統(tǒng),它將領域專家的經驗用一定的知識表示方法表示出來,并放入知識庫中,供推理機使用.2022/8/1269 使 用 界 面解釋機構推 理 機知識獲取知識庫數(shù)據庫領域專家用 戶AI專家專家系統(tǒng)的基本結構2022/8/1270分子模型化技術分子模型化(Molecular modeling)是利用計算機模擬分子結構、研究分

30、子之間相互作用的一種技術分子模型化是進行分子設計的基礎。分子圖形學(Molecular Graphics)是進行分子模型化的一項重要技術,正是由于分子圖形學和其它計算化學方法(如分子力學、分子動力學)的相互結合,才使得分子模型化方法取得成功2022/8/12712022/8/1272生物分子的計算機模擬傳統(tǒng)的生物分子研究主要是實驗方法,如利用測序技術確定DNA分子的序列,通過分子遺傳學方法確定基因的多態(tài)性,通過X-射線晶體衍射確定蛋白質分子的結構,通過生化實驗研究生物大分子之間的相互作用、藥物分子與靶分子的結合。所謂生物分子的計算機模擬就是從分子或者原子水平上的相互作用出發(fā),建立分子體系的數(shù)學

31、模型,利用計算機進行模擬實驗,預測生物分子的結構和功能,預測動力學及熱力學等方面的性質2022/8/1273 反饋,改進模型實驗實驗現(xiàn)象數(shù)學模型計算機模擬模擬結果分析 新的設想 產生設計解釋2022/8/1274因特網(Internet)技術Internet已經成為生物學研究的平臺,同時也成為分子生物學研究人員進行信息交流特別是生物分子數(shù)據的交流的場所通過網絡查詢或搜索所需要的生物信息,使用分析工具 將所要處理的數(shù)據直接送到相應的網絡服務器上,服務器接受你的處理請求,并將處理結果返回復雜網絡分析理論 社會網:社交網,演員合作網,姻親關系網,科研合作網,Email網生物網:食物鏈網,神經網,新陳代謝網,蛋白質網,基因網絡信息網絡:WWW,專利使用,論文引用,計算機共享技術網絡:電力網,Internet,電話線路網交通運輸網:航線網,鐵路網,公路網,自然河流網75中藥方劑網雖然中藥方劑的數(shù)量很大,但目前還沒有統(tǒng)計用的數(shù)據庫。不得不用手工進行統(tǒng)計,因此統(tǒng)計的數(shù)據量受到很大限制。選用了1536付藥方,681種藥物進行了統(tǒng)計。節(jié)點:藥物,邊:在一付方劑中藥物的相互作用。方劑:藥物、藥物的相互作用構成的固定完全圖局域網,同時也可以看作是節(jié)點(藥物) 的合作成果。各個完全圖通過共用的節(jié)點(藥物)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論