版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
生物信息學
Bioinformatics
(BF035018)生命科學學院呂巍lvwei_star@163.com2/5/20231主要學習內(nèi)容生物信息學總體印象(第一章)生物信息學用到什么?(第二章)生物信息學能做什么及怎么做?(第三、四、五章)生物信息學的實際應用(第六章)生物信息學的定義、發(fā)展史、相關概念、重要性、研究內(nèi)容及發(fā)展方向生物知識、計算機知識、網(wǎng)絡資源、數(shù)據(jù)庫資源和軟件資源雙序列比對、多序列比對、核酸分析、蛋白質分析,另外還有分子模建、活性預測、藥物設計等等基因組計劃、蛋白質組、代謝組等等2/5/20232教學目的掌握生物信息學的基本理論和專門知識;掌握生物信息學數(shù)據(jù)庫的查詢、檢索和利用;掌握核酸及蛋白質序列比對方法;了解人類基因組計劃意義及應用前景。2/5/20233參考教材羅靜初等譯,《生物信息學概論》,北京大學出版社趙國屏等,《生物信息學》,科學出版社,2002李衍達孫之榮等譯,《生物信息學-基因和蛋白質分析的實用指南》,清華大學出版社,2000張成崗等,《生物信息學方法與實踐》、科學出版社,2002D.R.Wedthead等,Bioinformatics,科學出版社,20032/5/20234考核方法理論考試(閉卷,占80%)隨堂提示重點難點知識,及課后練習題課堂成績(占20%)出勤率,課堂表現(xiàn),隨堂練習成績2/5/20235第一章概論
近年來,隨著現(xiàn)代分子生物學的發(fā)展,特別是人類基因組計劃的實施,不斷產(chǎn)生出海量的分子生物學數(shù)據(jù),這些數(shù)據(jù)數(shù)量巨大、關系復雜,以至于不利用計算機根本無法實現(xiàn)數(shù)據(jù)的存儲和分析。這樣,生物信息學最終形成一門獨立的學科并被推上了生物科學發(fā)展的最前沿。2/5/20236InformaticsComputationBiologyBioinformatics2/5/20237一、生物信息學定義1995年,在美國人類基因組計劃第一個五年總結報告中,給出了一個較為完整的生物信息學定義:生物信息學(Bioinformatics)是一門交叉科學,它包含了生物信息的獲取、加工、存儲、分配、分析、解釋等在內(nèi)的所有方面,它綜合運用數(shù)學、計算機科學和生物學的各種工具,來闡明和理解大量數(shù)據(jù)所包含的生物學意義。2/5/20238生物信息學(Bioinformatics)這個名詞有許多不同的定義。從字面上來看,生物信息學是將信息科學和技術應用于生物學。一般提到的"生物信息學"是就指這個狹義的概念,準確地說應該是分子生物信息學(MolecularBioinformatics)。2/5/20239廣義概念生命科學與數(shù)學、計算機科學和信息科學交匯融合形成的一門交叉學科,應用先進的數(shù)據(jù)管理技術、數(shù)學分析模型和計算軟件對各種生物信息進行提取、儲存處理和分析,旨在掌握復雜生命現(xiàn)象的形成模式與演化規(guī)律。2/5/202310具體地說,生物信息學是把基因組DNA序列信息分析作為源頭,找到基因組序列中代表蛋白質和RNA基因的編碼區(qū);同時,闡明基因組中大量存在的非編碼區(qū)的信息實質,破譯隱藏在DNA序列中的遺傳語言規(guī)律;在此基礎上,歸納、整理與基因組遺傳信息釋放及其調(diào)控相關的轉錄譜和蛋白質譜的數(shù)據(jù),從而認識代謝、發(fā)育、分化、進化的規(guī)律。2/5/202311生物信息學主要研究兩種信息載體核酸分子(DNA、RNA)蛋白質分子生物分子至少攜帶著三種信息遺傳信息與功能相關的結構信息進化信息2/5/202312二、生物信息學發(fā)展史1866年孟德爾從實驗上提出了假設:基因是以生物成分存在。1953年JamesWatson和FrancisCrick推測出DNA的三維結構(雙螺旋).他們的理論奠定了分子生物學的基礎。Crick于1954年提出了遺傳信息傳遞的規(guī)律,DNA是合成RNA的模板,RNA又是合成蛋白質的模板,稱之為中心法則(Centraldogma)。2001年,人類基因組工程測序的完成,使生物信息學走向了一個高潮。2/5/202313生物信息學的產(chǎn)生20世紀后期,生物科學技術迅猛發(fā)展,無論從數(shù)量上還是從質量上都極大地豐富了生物科學的數(shù)據(jù)資源。尋求一種強有力的工具去組織這些數(shù)據(jù),以利于儲存、加工和進一步利用。另一方面,以數(shù)據(jù)分析、處理為本質的計算機科學技術和網(wǎng)絡技術迅猛發(fā)展,并日益滲透到生物科學的各個領域。于是,一門嶄新的、擁有巨大發(fā)展?jié)摿Φ男聦W科——生物信息學——悄然興起。2/5/202314生物信息學經(jīng)歷三個階段基因組前期:主要是序列分析、數(shù)據(jù)庫的查詢、計算機操作;基因組年代:主要是基因的尋找、數(shù)據(jù)與數(shù)據(jù)之間的比較、網(wǎng)絡相互界面(Interface);后基因組年代:主要是數(shù)據(jù)的挖掘、表達、數(shù)據(jù)多樣性的分析、相互交叉數(shù)據(jù)分布的總結與分析。其研究的內(nèi)容不僅包括基因的查尋和同源性分析;而且進一步到基因和基因組的功能分析,即所謂的功能基因組學研究。2/5/20231520世紀50年代,生物信息學開始孕育。20世紀60年代,生物分子信息在概念上將計算生物學和計算機科學聯(lián)系起來。20世紀70年代,生物信息學的真正開端。20世紀70年代到80年代初期,出現(xiàn)了一系列著名的序列比較方法和生物信息分析方法。20世紀80年代以后,出現(xiàn)一批生物信息服務機構和生物信息數(shù)據(jù)庫。20世紀90年代后,人類基因組計劃促進生物信息學的迅速發(fā)展。2/5/202316三與生物信息學相關的概念序列測定基因組計劃模式識別和結構功能預測蛋白質折疊同源性與相似性2/5/202317序列測定,是獲得序列數(shù)據(jù)的基本方法,分為蛋白質序列測定和核酸序列測定。第一個完整多肽(胰島素)于1955年ryle等人完成。埃德曼降解-環(huán)甲基化方法;自動測序儀;質譜技術的發(fā)展大大提高了蛋白質測序技術。核酸測序,由于基因克隆和多聚酶鏈式反應的快速發(fā)展,為核酸的快速測序提供了良好的基礎,這也就促使了現(xiàn)階段大量核酸序列的測序完成。2/5/202318基因組計劃:80年代美國能源部開始啟動一系列研究項目,旨在構建人類基因組詳盡圖譜和物理圖譜,測定人類基因組的全部核苷酸序列,并將人類十萬個左右的基因定位于染色體。在2000年,人類全基因組測序完成并正式公布,這就是著名的人類基因組計劃。2/5/202319另外一些模式生物的基因組計劃也先后在世界各地啟動。它們包括大腸桿菌,啤酒酵母,線蟲,果蠅,擬南芥,狗,小鼠等。這是1998年公布的一個數(shù)據(jù),而現(xiàn)在由于測序技術的不斷成熟,獲得的動植物的全基因組序列越來越多。像國內(nèi)的華大基因研究院,每年就要完成很多種生物的測序。2/5/202320模式識別利用已知的蛋白序列或結構中的某些特征模式來識別未知蛋白質的一些性質結構功能預測通過蛋白質序列特征來直接預測其結構或功能,而不依靠于其它已知蛋白信息。2/5/202321蛋白質折疊蛋白質折疊問題是分子生物學研究的中心問題。它所要解決的是蛋白質一級結構中的氨基酸序列最終怎樣折疊成三維空間結構。研究蛋白質折疊的過程,可以說是破譯“第二遺傳密碼”-折疊密碼(foldingcode)的過程。2/5/202322蛋白質的基本單位為氨基酸,而蛋白質的一級結構指的就是其氨基酸序列,蛋白質會由所含氨基酸殘基的親水性、疏水性、帶正電、帶負電……等等特性通過殘基間的相互作用而折疊成一立體的三級結構。雖然蛋白質可在短時間中從一級結構折疊至立體結構,研究者卻無法在短時間中從氨基酸序列計算出蛋白質結構,甚至無法得到準確的三維結構。2/5/202323同源性,也可以說同源序列,是指從某一共同祖先經(jīng)趨異進化而形成的不同序列。相似性,有兩層含義:1,指那些折疊方式相似卻沒有明顯的序列相似性的蛋白質;2,指蛋白質中一組具有相同催化活性和空間構像的氨基酸殘基,但分子間整體上的序列和結構卻不具有相似性。指不同祖先經(jīng)趨同進化而形成相似功能或結構。2/5/202324三生物信息學重要性認識生物本質了解生物分子信息的組織和結構,破譯基因組信息,闡明生物信息之間的關系。改變生物學的研究方式改變傳統(tǒng)研究方式,引進現(xiàn)代信息學方法在醫(yī)學上的重要意義為疾病的診斷和治療提供依據(jù)為設計新藥提供依據(jù)2/5/202325四生物信息學研究內(nèi)容生物信息學的研究內(nèi)容是伴隨著基因組研究而發(fā)展的。廣義地說,生物信息學從事對基因組研究相關生物信息的獲取、加工、存儲、分配、分析和解釋。這個定義的含義是雙重的:一是對海量數(shù)據(jù)的收集、整理與服務,即管理好這些數(shù)據(jù);二是從中發(fā)現(xiàn)新的規(guī)律,也就是使用好這些數(shù)據(jù)。2/5/202326獲取人和各種生物的完整基因組發(fā)現(xiàn)新基因和新的單核苷酸多態(tài)性(1)基因的電腦克?。?)從基因組DNA序列中預測新基因(3)發(fā)現(xiàn)單核苷酸多態(tài)(SNP)基因組中非編碼區(qū)信息結構分析在基因組水平研究生物進化完整基因組的比較研究功能基因組研究生物大分子結構模擬與藥物設計生物信息學的發(fā)展與應用研究2/5/202327獲取人和各種生物的完整基因組基因組研究的首要目標是獲得人的整套遺傳密碼。隨著科學技術的飛速發(fā)展,科學家于1985年提出了旨在闡明人類46條染色體上30億個脫氧核苷酸的排列順序,這就是規(guī)??涨暗娜祟惢蚪M計劃(HGP),已于1990年啟動,至今已取得巨大成就,使人類第一次在分子水平上全面認識自我。2/5/2023282000年6月26日,是人類科學史上值得紀念的日子。由美、英、法、德、日、中等6國合作,公眾支持的國際人類基因組計劃協(xié)作組織在全球同一時間聯(lián)合宣布:人類生命藍圖—人類基因組“工作框架圖”已經(jīng)完成。這是人類基因組計劃取得的重大成果,也是自然科學史上最重要的里程碑。2/5/2023292/5/202330自1995年科學家破譯了全長為180萬核苷酸的流感嗜血桿菌基因組。目前已完成完整基因組測序生物,有:小鼠、酵母、線蟲、果蠅、擬南芥、水稻、馬、短尾負鼠、貓、伊蚊、葡萄、恒河猴、海鞘、蜜蜂、白蟻、牛、衣藻、狗、雞……2/5/2023312/5/2023322/5/202333海鞘(cionaintestinalis)是人類的一種無脊椎近親,它們的心臟、神經(jīng)系統(tǒng)就像是人類的簡化版。2/5/202334發(fā)現(xiàn)新基因和新的單核苷酸多態(tài)性發(fā)現(xiàn)新基因是當前國際上基因組研究的熱點,使用生物信息學的方法是發(fā)現(xiàn)新基因的重要手段。2/5/202335卷舌V形發(fā)際線大拇指彎曲長睫毛我們身體中常見的單基因控制的性狀2/5/202336基因組中非編碼區(qū)信息結構分析近年來的研究表明,在細菌這樣的微生物中,非編碼蛋白質的區(qū)域只占整個基因組序列的10%到20%。隨著生物的進化,非編碼區(qū)越來越多,在高等生物和人的基因組中非編碼序列已占到基因組序列的絕大部分。這表明:這些非編碼序列必定具有重要的生物功能。普遍的認識是它們與基因的表達調(diào)控有關。2/5/202337完整基因組的比較研究研究發(fā)現(xiàn):全部基因可以按照功能和系統(tǒng)發(fā)生分為若干類,其中包括與復制、轉錄、翻譯、分子伴侶、能量產(chǎn)生、離子轉運、各種代謝相關的基因。這一工作也為蛋白質分類提供了新的途徑。同時,科學家們通過幾個完整基因組的比較,統(tǒng)計出維持生命活動所需要的最少基因的個數(shù)為265~350個左右。研究表明在同一生物中,某些核糖體蛋白排列順序的差異能反映出物種間的親緣關系,親緣關系越近,基因排列順序越接近。這樣就可以通過比較基因的排列順序來研究物種間的系統(tǒng)發(fā)育關系。2/5/202338功能基因組研究在不同的組織中表達基因的數(shù)目差別是很大的,同一組織在不同的個體生長發(fā)育階段,表達基因的種類、數(shù)量也是不同的。因此我們不僅需要了解基因的序列,還要了解基因的功能,也就是要了解在不同的時間、不同的組織中基因的表達譜。這就是通常所說的功能基因組研究。2/5/202339生物大分子結構模擬與藥物設計包括RNA(核糖核酸)的結構模擬和反義RNA的分子設計;蛋白質空間結構模擬和分子設計;具有不同功能域的復合蛋白質以及連接肽的設計;生物活性分子的電子結構計算和設計;納米生物材料的模擬與設計;基于酶和功能蛋白質結構、細胞表面受體結構的藥物設計;基于DNA結構的藥物設計等。2/5/2023402/5/202341發(fā)現(xiàn)探索研究充分研究注冊大量候選藥物的合成項目組與計劃化合物合成早期案例性研究候選化合物制劑開發(fā)動物安全性研究篩選健康志愿者研究I期候選藥物測試300-10,000患者(III期)100-300患者研究(II期)臨床數(shù)據(jù)分析2/5/202342生物信息學的發(fā)展與應用研究發(fā)展有效的軟件、數(shù)據(jù)庫以及若干數(shù)據(jù)庫工具,諸如電子網(wǎng)絡等遠程通訊工具;改進現(xiàn)有的理論分析方法,如統(tǒng)計方法、模式識別方法、隱馬爾科夫過程方法、分維方法、神經(jīng)網(wǎng)絡方法、復雜性分析方法、密碼學方法、多序列比較方法等;創(chuàng)建一切適用于基因組信息分析的新方法、新技術。包括引入復雜系統(tǒng)分析技術、信息系統(tǒng)分析技術等;建立嚴格的多序列比較方法;發(fā)展研究基因組完整信息結構和信息網(wǎng)絡的研究方法等;發(fā)展生物大分子空間結構模擬和藥物設計的新方法與新技術。2/5/202343五國外發(fā)展現(xiàn)狀各國政府和業(yè)界對生物信息學的發(fā)展極為重視,投入了大量資金。歐美各國及日本相繼成立了生物信息中心,如美國的國家生物技術信息中心(NCBI)、歐洲生物信息學研究所(EBI)、日本國家遺傳學研究所(NIG)等。NCBI、EBI和NIG相互合作,共同維護著GenBank、EMBL、DDBJ三大基因序列數(shù)據(jù)庫。它們每天通過計算機網(wǎng)絡互相交換數(shù)據(jù),使得三個數(shù)據(jù)庫能同時獲得最新數(shù)據(jù)。此外,他們每年召開年會討論合作事宜。2/5/202344國際著名生物信息中心
BioinformaticsCentresNCBI NationalCenterforBiotechnologyInformation(US)
EBI EuropeanBioinformaticsInstitute(EU)NIG NationalInstituteofGenetics(Japan)HGMP HumanGenomeMappingProjectResourceCentre(UK)SIBSwissInstituteofBioinformatics(Switzerland)CMBI CentreofMolecularandBiomolecule(Netherlands)ANGIS NationalGenomeInformationService(Australia)
BIC NationalBioinformaticsCentre(Singapore)2/5/2023452/5/2023462/5/2023472/5/202348美國核酸數(shù)據(jù)庫GenBank從1979年開始建設,1982年正式運行(NCBI);歐洲分子生物學實驗室的EMBL數(shù)據(jù)庫也于1982年開始服務(EBI);日本于1984年開始建立國家級的核酸數(shù)據(jù)庫DDBJ,并于1987年正式服務(NIG)。2/5/202349近年來GenBank中的DNA堿基數(shù)目呈指數(shù)增加,大約每14個月增加一倍。到1999年12月其數(shù)目已達30億,它們來自47000種生物。2000年4月DNA堿基數(shù)目是60億。現(xiàn)在,2001年初這一數(shù)目已達110億。各種生物的EST序列已達600多萬條,其中人類的EST序列已超過300萬條,估計覆蓋人類基因90%以上;2/5/202350分子生物學和遺傳學的文獻積累從60年代中期的接近10萬篇迅速增長至60年代末期的20多萬篇,即在3-4年間,翻了一番。此后,至80年代中期,上升至約30萬篇,即平均每年增長6-7千篇。至90年代中,文獻數(shù)已上升至40多萬篇;即在10年中,平均每年增長1萬篇。到2000年,則增長至約50萬篇,即在約5年間,又增長了10萬篇。2/5/202351DNA數(shù)據(jù)的增長幅度:2004年已有相當于16個人類基因組的完成序列2/5/202352六國內(nèi)發(fā)展現(xiàn)狀在我國,生物信息學隨著人類基因組研究的展開才起步較遲,但已顯露出蓬勃發(fā)展的勢頭。北京大學于1997年3月成立了生物信息學中心,中科院上海生命科學研究院也于2000年3月成立了生物信息學中心。我國首家自主開發(fā)的核酸(DNA)序列公共數(shù)據(jù)庫(BiosinoDatabase)于2001年7月3日上午9時正式上網(wǎng)試運行,并同時開始接受我國核酸序列的注冊登記。2/5/202353炎黃計劃“炎黃計劃”是以保護、開發(fā)和利用中華民族群體遺傳資源為目的的長程基因組學研究,主要研究人類基因變異、代謝平衡與健康的關系。中科院基因組學研究所將通過實施該計劃,不斷對中國的群體遺傳學資源加以開發(fā),制作具有更高分辯率的中華民族群體基因組單倍體圖(HapMap),定位并普查可能影響人類健康的基因變異,所涉及的疾病主要有傳染病、糖尿病、肥胖、心腦血管病、癌癥、老年性癡呆和其它慢性疾病。2/5/202354計劃的預期成果建立東亞人種特異性的高密度、高分辨醫(yī)學遺傳圖譜;利用醫(yī)學遺傳圖譜,建立包括可用于篩查疾病相關基因的分子標記集,大規(guī)模篩查中國(東亞)人群特異性疾病。2/5/202355神農(nóng)計劃以保護和開發(fā)中醫(yī)中藥相關生物資源并促進中醫(yī)藥科學現(xiàn)代化的基因組研究計劃。它以傳統(tǒng)醫(yī)學和藥學現(xiàn)代化為目的,從事以基因組研究為出發(fā)點的藥用生物資源開發(fā)與應用研究,聚焦于有明確臨床效果的中草藥的分子標記,次生代謝物催化酶基因和有機化合物(如次級代謝產(chǎn)物)的開發(fā)利用。與“炎黃計劃”的科學目標相結合,立足于防治常見疾病和傳染性疾病。2/5/202356計劃的預期成果測定若干中草藥的基因組序列(如冬蟲夏草、丹參、黃芪、柴胡等)和分子標記物建立中草藥數(shù)據(jù)和資源庫分離和鑒定關鍵催化酶(藥用動植物基因庫)開發(fā)基于中草藥的防病健康調(diào)節(jié)劑和治病藥物。2/5/202357軒轅計劃是以生物資源開發(fā)與生態(tài)資源保護為目的,科學強國和科學健民的基因組學研究計劃。該計劃以農(nóng)業(yè)現(xiàn)代化、振興經(jīng)濟和保護環(huán)境為基本內(nèi)涵,以經(jīng)濟動植物、農(nóng)作物、生態(tài)物種和生物能源為研究對象的基因組學研究計劃。2/5/202358計劃的預期成果在這一計劃的框架下,BGI已經(jīng)階段性地完成了水稻基因組基因圖譜、家蠶基因組“工作框架圖”、繼續(xù)“豬基因組計劃”和“雞基因組多態(tài)性計劃”等農(nóng)作物和家養(yǎng)動物的基因組計劃。該計劃將在資金允許的情況下在5年內(nèi)測定大豆、馬鈴薯等重要經(jīng)濟作物的基因組,初步揭示雜交優(yōu)勢、雜種
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 茂名職業(yè)技術學院《大數(shù)據(jù)分析及可視化》2023-2024學年第一學期期末試卷
- 2024年版:紅磚購銷合同標準文本
- 2025年廣東貨運從業(yè)資格考試答案大全
- 2025房屋抵押合同范本格式
- 2025年運城a2貨運從業(yè)資格證考試
- 2025汽車融資租賃合同書
- 2024年標準協(xié)議延期補充要點協(xié)議版B版
- 交通運輸廉政合同施工
- 交通樞紐供熱設施改造合同
- 金屬沖壓刀具維護保養(yǎng)
- 機場行李自動處理系統(tǒng)建模與仿真研究的開題報告
- 產(chǎn)品合格證出廠合格證A4打印模板
- 護理中斷事件(演示文稿)
- 地基與基礎工程試題及參考答案
- 新能源汽車專業(yè)畢業(yè)論文
- 部編版六年級上冊語文期末古詩文專項訓練(含答案)
- GB/T 29465-2023浮頭式熱交換器用法蘭
- 鋼渣的綜合利用
- 少年宮乒乓球興趣小組簡介
- 西醫(yī)癥狀鑒別診斷全部
- 靜脈輸液流程圖
評論
0/150
提交評論