生物信息學講義第六章_第1頁
生物信息學講義第六章_第2頁
生物信息學講義第六章_第3頁
生物信息學講義第六章_第4頁
生物信息學講義第六章_第5頁
已閱讀5頁,還剩107頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

生物信息學講義第六章第1頁,課件共112頁,創(chuàng)作于2023年2月§6.1基因及基因組第2頁,課件共112頁,創(chuàng)作于2023年2月基因的定義1、基因是一段與多肽鏈或功能RNA產生有關的DNA片段,包括編碼區(qū)前的引導序列、編碼區(qū)后的尾部序列、編碼區(qū)內的插入序列和編碼區(qū)序列。2、基因是編碼一條多肽鏈或功能RNA(如rRNA、tRNA)所必需的全部核苷酸序列,是DNA分子鏈上特定區(qū)域。3、基因是遺傳信息的一種獨立單位。基因的概念隨著科學的發(fā)展而不斷發(fā)展,迄今為止,仍有各種說法。Todaywhenwespeakofageneforsomemalady,aregulatorygene,astructuralgene,oragenefrequency,itisentirelypossiblethatwearedeployingdifferentgeneconceptseventhoughweareusingthesameterm.——M.R.Dietrich,2000從分子生物學的角度而言,一般認為基因是負載特定生物遺傳信息的DNA分子片段,基因在一定條件下能夠表達這種遺傳信息,產生特定的生命功能。第3頁,課件共112頁,創(chuàng)作于2023年2月基因的種類結構基因(structuralgene)、調控基因(regulatorygene)

二者都可以轉錄成mRNA,并可被翻譯成多肽鏈。調控基因的作用是調控其它基因的活性,轉錄成的mRNA翻譯成阻遏蛋白質或激活蛋白質。rRNA基因和tRNA基因

二者只轉錄產生相應的RNA而不翻譯成多肽鏈。啟動子(promotor)和操縱基因(operator)

啟動子是轉錄時RNA聚合酶與DNA結合的部位;操縱基因是調控基因產物(如阻遏蛋白質或激活蛋白質)與DNA結合的部位;嚴格地講,二者只是不轉錄的DNA片段,不能稱為基因。第4頁,課件共112頁,創(chuàng)作于2023年2月什么是基因組(genome)?

基因組(genome)是指一個細胞或病毒包含的全部遺傳信息的總和。絕大部分基因組,包括所有的細胞生命形式的基因組,是由DNA組成;一些病毒具有RNA基因組;

真核生物:指一個物種的單倍體染色體所含有的一整套基因;

原核生物:一般只有一個環(huán)狀DNA分子,其上所有的基因為一個基因組;真核生物細胞中的細胞器(如葉綠體、線粒體等)中的DNA也為環(huán)狀,構成葉綠體基因組、線粒體基因組?;蚪M的大小用堿基對(basepair,bp)的數(shù)量來表示:103為kb,106為Mb。第5頁,課件共112頁,創(chuàng)作于2023年2月基因組大小與物種的關系基因組的大小大致上與物種進化的復雜性相關;大多數(shù)真核生物的基因組都比原核生物的基因組大,比原核生物的基因組復雜;隨著動物或植物進化程度的上升,每個單倍體的DNA含量一般趨于增加,但是存在例外(C值佯謬);思考:為什么會出現(xiàn)“C值佯謬”?第6頁,課件共112頁,創(chuàng)作于2023年2月基因組基因組大小(kb)型式病毒MS4單鏈RNASV405環(huán)狀雙鏈DNAX1745環(huán)狀單鏈DNASARS-CoV30單鏈RNA單純皰疹病毒152線性雙鏈DNAT2、T4、T6165天花267細菌支原體(M.hominis)760大腸桿菌(E.coli)4,600環(huán)狀雙鏈DNA真核生物單倍體染色體數(shù)目酵母(S.cerevisiae)13,00016線蟲(C.elegans)100,0006擬南芥(A.thaliana)100,0005果蠅(D.melanognater)165,0004人(H.sapiens)3,000,00023玉米(Z.mays)4,500,00010蠑螈(A.spp.)76,000,00014不同生物基因組大小的比較第7頁,課件共112頁,創(chuàng)作于2023年2月基因數(shù)目與物種的關系基因數(shù)目的多少大致上與物種進化的復雜性相關;在高等動植物中,巨大的基因組并不意味著有巨量的基因數(shù)目。人類究竟有多少個基因?理論上:根據基因組的大小,可具有106個基因“生物體的復雜性并不是簡單地與基因數(shù)量相關聯(lián)的。”(G.Rubin)5萬,6萬,7萬,8萬,14萬!……?

4萬,3萬,……?打賭!基因數(shù)目猜獎(GeneSweepstake)第8頁,課件共112頁,創(chuàng)作于2023年2月生物學家們?yōu)槿祟惢虻臄?shù)目打賭生物學家們對基因組里到底有多少基因的猜測一直有極大的不同。2000年,在紐約冷泉港召開的一個會議上,他們設立了一美元一個(次)的基因數(shù)目賭注。勝者將于2003年揭曉,他除了可獲得全部賭金外,還可得到一本由J.Watson親筆簽名的皮革封面《雙螺旋》一書。如果基因組是生命的天書,那么基因就是寫成這本書的詞匯。生物學家們一直假設,微生物的故事較短,而人類的故事則是一部巨作,人類擁有8萬到10萬個基因。但是UCBerkly的果蠅基因組計劃的主任G.Rubin指出,果蠅的基因比我們所認為的最簡單的線蟲少了5,000個。他警告說:“生物體的復雜性并不是簡單地與基因數(shù)量相關聯(lián)的?!?/p>

德國分子生物技術研究所的A.Rosenthal說,我們得出的結論是整個基因組有不多于4萬個基因。法國的分子遺傳學家H.R.Crollius通過比較現(xiàn)有的人類基因序列與淡水河豚基因序列,提出了更低的人類基因數(shù)估計:在27,700與34,300之間。華盛頓大學的基因學家P.Green提出人類基因數(shù)大約為35,000。美國國家人類基因組研究所主任F.Collins表示他同意Green的估計,將他1美元的賭金下在48,011個基因上。但Rockville的基因組研究所(TIGR)的J.

Quackenbush根據TIGR的人類基因指數(shù)的估計,將他的1美元賭在118,259個基因上。加州IncyteGenomics公司的S.LaBrie賭的基因數(shù)是153,478個,該公司在1999年9月曾宣布人類基因至少有14萬個。但是支持人類基因數(shù)目是一個較小數(shù)的科學家們也不灰心,他們爭論說生物體的復雜性來自于基因如何被管理或表達的,而不是基因數(shù)目本身。Rosenthal解釋說:“我們不需要那么多的基因成為高等動物,”他賭的是38,000個。你賭多少呢?第9頁,課件共112頁,創(chuàng)作于2023年2月基因輪盤賭(GeneSweepstake)/Genesweep/

TheGeneSweepstakewillrunbetween2000and2003.Therulesare:Itcosts$1tomakeabetin2000,$5in2001and$20in2002.Betsareforonenumber.Closestnumberwins,andincaseofties,thepotissplit.Ageneisasetofconnectedtranscripts.Atranscriptisasetofexonsviatranscriptionfollowed(optionally)bypre-mRNAsplicing.Twotranscriptsareconnectediftheyshareatleastpartofoneexoninthegenomiccoordinates.Atleastonetranscriptmustbeexpressedoutsideofthenucleusandonetranscriptmustencodeaprotein.AssessmentofthemethodusedtodeterminethegenewilloccurbyvotingatColdSpringHarborGenomeMeeting2002.Researcherswillbeinvitedtosubmittheirmethodstothecommunityatthistime.Assessmentofthegenenumberwilloccuronthe2003CSHLGenomemeeting.Peoplebettingshouldwritetheirname,emailandnumberintheGeneSweepstakebook,heldatColdSpringHarbor.Onebetperperson,peryear.Yeardefinedasacalendaryear.Nopencilbets(ie,youcan'tchangeyournumber).Bets165Mean61,710Lowest27,462Highest153,478LastGenesweepVotesVotedistribution第10頁,課件共112頁,創(chuàng)作于2023年2月WhoswepttheGeneSweepstake?Thewinnerwasannouncedatlastweek'sHomoSapiensgeneticsmeetingatColdSpringHarborLaboratory,NewYork.Thegenechamp,LeeRowen,whodirectsasequencingprojectattheInstituteforSystemsBiologyinSeattle,Washington-beat460otherhopefulstotakehomepartofthecashpot.Rowen'swagerat25,947isclosesttothecurrentreckoninginageneticdatabasecalledEnsembl,of24,847.Likeallgoodgamblers,hernumberwas"astab";onerunner-uppicked27,462becausethe27April,1962washisbirthday.Recognizinggenes-regionsofDNAthatcodeforproteins-hasprovedtougherthanexpected.Onereasonisthatpredictorprograms,whichtrawlthroughDNAforlandmarksequencescharacteristicofagene,arenotoriouslyunreliable.HumangenenumberwagerwonGeneticistsdrawsweepstakedespiteuncertaintyoverfinaltally

3June2003第11頁,課件共112頁,創(chuàng)作于2023年2月人類基因數(shù)目之謎目前已經發(fā)現(xiàn)和定位了26,000多個功能基因,其中尚有42%的基因尚不知道功能。原先曾經預測人類約有14萬個基因,Celera公司現(xiàn)將人類基因總數(shù)定在26,383到39,114個之間,只是線蟲或果蠅基因數(shù)量的兩倍,人有而鼠沒有的基因只有300個。根據Ensembl數(shù)據庫得到的計算結果,目前的最新估計數(shù)目是24,847。基因組的大小和基因的數(shù)量在生命進化上可能不具有特別重大的意義;人類的基因較其他生物體更“有效”。人類的復雜性更主要的體現(xiàn)在蛋白質的復雜網絡中,即蛋白質就是構成生命的基本構件。Celera公司首席科學家Venter認為:“大部分的生物學行為發(fā)生在蛋白質水平,而不是基因水平?!钡?2頁,課件共112頁,創(chuàng)作于2023年2月§6.2高等真核生物基因結構與基因預測簡介第13頁,課件共112頁,創(chuàng)作于2023年2月人類基因組的物理結構

核基因組(nucleargenome):由大約30億bp組成,分為24條線性DNA分子(55~250Mb),分別包含在24條不同的染色體中(22條常染色體和2條性染色體X、Y)

線粒體基因組(mitochondriongenome):長為16,569bp的環(huán)狀DNA分子,位于產生能量的細胞器——線粒體中§6.2.1真核生物的基因結構第14頁,課件共112頁,創(chuàng)作于2023年2月第15頁,課件共112頁,創(chuàng)作于2023年2月基因家族、假基因多數(shù)真核生物基因表現(xiàn)為多拷貝(某些基因多次重復),稱為基因家族(genefamily);真核生物的基因多拷貝為大量產生RNA、蛋白質所需要;或者可以在不同組織、不同發(fā)育階段被表達;基因家族產生的推測:進化過程中的基因加倍;由于突變導致失去功能的基因拷貝叫假基因(pseudogene)。假基因:與功能性基因密切相關的DNA系列,但由于缺失、插入和無義突變失去閱讀框架而不能編碼蛋白質產物。有些人類假基因可以轉錄但不能翻譯成蛋白質。假基因的兩種類型:(1)、由于一種基因的加倍而不能表達,但保留原來親本基因的外顯子及內含子;(2)、僅含有親本基因的外顯子,源于mRNA并通過逆轉錄而重新整合進基因組的。第16頁,課件共112頁,創(chuàng)作于2023年2月重復DNA序列高度重復DNA序列是多數(shù)真核生物基因組的主要成分超過90%為重復序列,不編碼mRNA前體或其它RNA。(個體間的重復序列有巨大差異

-->DNA指紋)重復序列分為3類:高度重復序列、中等重復序列、低重復序列。目前的一些認識:(1)、GC含量低,AT含量高。(AT的氫鍵弱);(2)、3'端和5'端有直接重復序列的存在。有利于形成環(huán)狀結構。第17頁,課件共112頁,創(chuàng)作于2023年2月真核生物的基因結構內含子(intron)和外顯子(exon)

真核生物的基因一般為斷裂基因(interruptedgene),由內含子和外顯子組成,編碼區(qū)被內含子分隔成若干段;內含子-外顯子結構的意義:提供編碼區(qū)進行重組的機會,產生新基因,有利于真核生物的進化。IntergenicregionGeneExonIntron例子:人類第21號染色體的Contig3部分(長3,450,497bp)基因“TRPC7”的總長為62,668bp,其中編碼部分總長為3,345bp,由25個外顯子組成,長度范圍48~354bp。第18頁,課件共112頁,創(chuàng)作于2023年2月人類結構基因的結構示意圖第19頁,課件共112頁,創(chuàng)作于2023年2月人類結構基因的結構示意圖人類結構基因的結構包括4個區(qū)域:(1)、外顯子;(2)、內含子;(3)、前導區(qū)(位于編碼區(qū)上游,相當于mRNA5’端非編碼區(qū)(非翻譯區(qū)));(4)、調節(jié)區(qū)(包括啟動子和增強子等基因編碼區(qū)的兩側,也稱為側翼序列);第20頁,課件共112頁,創(chuàng)作于2023年2月真核生物基因結構和轉錄過程第21頁,課件共112頁,創(chuàng)作于2023年2月與轉錄有關的調控信號(1)、啟動子(promoter)(2)、增強子(enhancer)(3)、負性調節(jié)元件(4)、LCR(Locuscontrolregions)(基因座調控區(qū))(5)、轉錄因子(6)、與轉錄終止有關的序列:(7)、mRNA的剪接第22頁,課件共112頁,創(chuàng)作于2023年2月(1)、人類細胞核基因組中編碼序列不到2%,約含3萬左右不同的基因,且有近1/3為多拷貝;(2)、結構基因大多含有插入序列。即大部分基因為斷裂基因(interruptedgene);(3)、外顯子(exon)一般不長于800bp,內含子(intron)則在30bp~數(shù)十kb不等;(4)、mRNA剪接位點(Splicesites)的識別信號:每個外顯子和內含子接頭區(qū)都有一段高度保守序列(consensussequence),即內含子5’端大多數(shù)是GT(稱為donorsite)開始,3’端大多數(shù)是AG(稱為acceptorsite)結束,稱為GT-AG法則;人類基因組結構的特點第23頁,課件共112頁,創(chuàng)作于2023年2月(5)、盡管擁有相同的一套基因組,不同的分化細胞中所表達的基因也不同,每個細胞只表達一部分基因(例如:人腦細胞的基因表達百分比最高,為22%);(6)、轉錄在細胞核內進行,翻譯在細胞質核糖體中進行,二者在時間空間上是分開的。第24頁,課件共112頁,創(chuàng)作于2023年2月內含子-外顯子結構的統(tǒng)計研究10種真核生物的外顯子和內含子數(shù)目及長度的統(tǒng)計結果比較(Deutsch&Long,1999)(外顯子的長度單位是氨基酸,內含子的長度單位是核苷酸)平均每個基因包含外顯子4.1個,內含子3.1個;基因中每1kb長的編碼蛋白質區(qū)域(也稱為CDS,CodingSequence)平均包含3.7個內含子.第25頁,課件共112頁,創(chuàng)作于2023年2月10種真核生物的外顯子和內含子長度的統(tǒng)計分布(Deutsch&Long,1999)(外顯子長度的單位為氨基酸,內含子長度的單位為核苷酸;圖中橫坐標表示長度,縱坐標表示頻率。)外顯子長度概率分布曲線的山峰處于30~40個氨基酸長度的地方,且山峰比較緊湊,而內含子的長度則大多數(shù)為40~125個核苷酸,山峰相對平緩。第26頁,課件共112頁,創(chuàng)作于2023年2月人(Homosapiens)的基因組:平均每個基因包含內含子4.0個(最多的是116個),外顯子5.0個,每1kb的CDS平均含有5.3個內含子,是這10種真核生物中內含子數(shù)目最多、長度最大的。內含子的平均長度為3413.1bp,其中大多數(shù)為75~150bp,已知最長的內含子要大于100kb。每1kb的CDS所包含的內含子長度為6825bp。同樣地,人類基因組外顯子長度的概率分布要比內含子的概率分布要緊湊得多。第27頁,課件共112頁,創(chuàng)作于2023年2月人類基因組的外顯子和內含子數(shù)目及長度的統(tǒng)計結果比較(Deutsch&Long,1999)(外顯子的長度單位是氨基酸,內含子的長度單位是核苷酸)第28頁,課件共112頁,創(chuàng)作于2023年2月人類基因組外顯子和內含子長度的統(tǒng)計分布圖(Deutsch&Long,1999)(外顯子長度的單位為氨基酸,內含子長度的單位為核苷酸;圖中橫坐標表示長度,縱坐標表示頻率。)同樣地,人類基因組外顯子長度的概率分布要比內含子的概率分布要緊湊得多。第29頁,課件共112頁,創(chuàng)作于2023年2月基因預測:早期指預測DNA序列中編碼蛋白質的部分,即外顯子部分;現(xiàn)在指整個基因結構的預測,綜合各種外顯子預測的算法及對基因結構信號的認識,預測出可能的完整基因?;蝾A測(GenePrediction)基因識別(GeneIdentification)基因尋找(GeneFinding)基因注釋(GeneAnnotation)ComputationalGeneIdentification、ComputationalGenePrediction(基因注釋:描述基因組,并通過計算分析,輔以生物數(shù)據庫和生物學知識,將原始的基因組序列數(shù)據轉換成有用的生物學信息。)§6.2.2真核基因預測研究概況第30頁,課件共112頁,創(chuàng)作于2023年2月基因預測的主要目的抓住如下特征:(1)、編碼蛋白質基因的區(qū)域信息;(2)、編碼蛋白質基因的結構信息(包括非翻譯區(qū)和調控元,以及所有與轉錄有關的外顯子、內含子);(3)、每一轉錄所對應的所有可能翻譯成蛋白質產物的翻譯;(4)、重復序列的區(qū)域及其特征;(5)、編碼非編碼RNA的基因的區(qū)域。第31頁,課件共112頁,創(chuàng)作于2023年2月基因預測的主要內容啟動子的識別翻譯起始位點的識別剪接位點的識別多腺苷化信號的識別蛋白編碼區(qū)的識別內含子的識別第32頁,課件共112頁,創(chuàng)作于2023年2月Burset和Guigo(1996)分三個層次來評估:編碼核苷酸、外顯子結構、蛋白質產物。(1)從編碼核苷酸的水平指對于每個單個的核苷酸,將預測的狀態(tài)與其真正的狀態(tài)相比較,進而考察預測的效果。1、基因預測效果的評估第33頁,課件共112頁,創(chuàng)作于2023年2月TP(truepositive):實際編碼區(qū)的核酸中被成功預測的核酸數(shù)目;TN(truenegative):實際非編碼區(qū)的核酸中被成功預測的核酸數(shù)目;FN(falsenegative):實際編碼區(qū)的核酸中被誤測為非編碼的核酸數(shù)目;FP(falsepositive):實際非編碼區(qū)的核酸中被誤測為編碼的核酸數(shù)目。TPTNFNFPREALITYcodingnoncodingcodingnoncodingPREDICTIONTP+FNFP+TNTP+FPFN+TN第34頁,課件共112頁,創(chuàng)作于2023年2月基于TP、TN、FP、FN,主要引進四個參數(shù):Sn、Sp、CC、AC。敏感性(sensitivity,Sn):特異性(specificity,Sp):Sn:實際編碼區(qū)核酸序列中被成功預測的比例;Sp:預測為編碼核酸序列中被成功預測的比例。條件概率:x:某個核酸的狀態(tài)(即編碼或非編碼),F(xiàn)(x):該核酸被預測的狀態(tài),c:編碼狀態(tài),n:非編碼狀態(tài)第35頁,課件共112頁,創(chuàng)作于2023年2月相關系數(shù)CC(CorrelationCoefficient):更全面地衡量基因預測的效果CC:取值范圍[-1,1],不僅包含P(F(x)=c|x=c)和P(x=c|F(x)=c)的信息,而且也包含了P(F(x)=n|x=n)和P(x=n|F(x)=n)的信息。缺陷:不允許分母中TP+FN、TN+FP、TP+FP和TN+FN中任何一項為零。近似相關AC(ApproximationCorrelation):來作為評估基因預測的效果AC:對P(F(x)=c|x=c)、P(x=c|F(x)=c)、P(F(x)=n|x=n)和P(x=n|F(x)=n)四種條件概率的等權平均,取值范圍[-1,1]。|AC|>=|CC|第36頁,課件共112頁,創(chuàng)作于2023年2月(2)從外顯子結構的水平沿著DNA序列鏈,對預測出的外顯子結構與實際的外顯子結構進行比較。(比較的標準尚未統(tǒng)一,但目前用得較多的比較標準是:只有當預測的外顯子結構與實際的外顯子結構完全吻合(包括剪接位點的信息),才認為預測是成功的。)外顯子預測的評估同樣可以引進敏感性(Sn)和特異性(Sp)兩個參數(shù):Sn:DNA鏈上實際的外顯子中被成功預測到的比例;Sp:DNA鏈上被預測為外顯子中被成功預測到的比例。第37頁,課件共112頁,創(chuàng)作于2023年2月引入ME(MissingExons)和WE(WrongExons)ME:實際的外顯子中完全沒有預測到(即二者沒有重疊的部分)的比例;WE:所預測的外顯子中完全沒有預測到的比例。第38頁,課件共112頁,創(chuàng)作于2023年2月(3)從蛋白質產物的水平將預測的基因所編碼的蛋白質產物與實際的基因編碼的蛋白質產物作比較。預測結果的評估目前尚無公認的統(tǒng)一標準。有的標準是考察被準確預測到的氨基酸序列的比例,以及被錯誤預測的氨基酸比例。第39頁,課件共112頁,創(chuàng)作于2023年2月基于內容檢測的方法(searchbycontent或contentsensors)基于信號檢測的方法(searchbysignal或signalsensors)基于相似性比較的方法(searchbysimilaritycomparison)2、基因預測方法簡介第40頁,課件共112頁,創(chuàng)作于2023年2月基于內容檢測的方法原理:DNA序列中的編碼蛋白質區(qū)域的字符的上下文特征與非編碼的區(qū)域是有區(qū)別的。由于蛋白質產物對氨基酸和同義密碼子的選擇的偏倚性,因此也決定了編碼區(qū)序列的核苷酸組成的特性,如周期性(periodicities)、短程相關性(short-rangecorrelations)、寡核苷酸(oligonucleatide)使用的偏倚性等。第41頁,課件共112頁,創(chuàng)作于2023年2月基于內容檢測的方法信號檢測的方法就是根據人們目前對基因組結構的一些相關的位點信號的認識來識別基因。這些信號包括剪接信號、起始密碼子信號、終止密碼子信號、啟動子信號、轉錄終止信號、分支點(branchpoint)等。第42頁,課件共112頁,創(chuàng)作于2023年2月對于真核生物的基因識別,目前應用比較廣泛的軟件一般都是結合上述兩種方法來設計。除上述兩類方法外,還有的方法結合了序列相似性數(shù)據庫搜尋(sequencesimilaritysearches)技術,即對已知序列數(shù)據庫的相似性比較。第43頁,課件共112頁,創(chuàng)作于2023年2月常用算法(1)詞匯統(tǒng)計算法

對核苷酸序列(NucleotideWords)中詞匯選用頻率的統(tǒng)計研究。由于序列中的編碼部分與非編碼部分在核苷酸、密碼子的選用、周期特性等存在差異性,因此可以用來區(qū)別編碼區(qū)和非編碼區(qū);(Claverie&Bougueleret,1986;Bechmann,1986(2)同源比較算法將未知序列通過對已知EST(ExpressedSequenceTag,表達序列標簽)數(shù)據庫的相似性比較,也可以比較有效地找到基因。許多有名的基因預測軟件(如GRAILⅡ)都已結合了同源比較算法;(Claverie,1993;Green,1993)第44頁,課件共112頁,創(chuàng)作于2023年2月(4)HMM(HiddenMarkovModel)算法

將核苷酸序列看成一個隨機序列,DNA序列的編碼部分與非編碼部分在核苷酸的選用頻率上對應著不同的Markov模型。由于這些Markov模型的統(tǒng)計規(guī)律是未知的,而HMM能夠自動尋找出它們隱藏的統(tǒng)計規(guī)律。對于高等生物這樣復雜的DNA序列,HMM必須學習不同的基因結構的信號。典型的基于HMM的基因預測系統(tǒng)VEIL(JohnHopkinsUniversity)HMMgene(TechnicalUniversityofDenmark)GeneMark.hmm(GeorgiaInstituteofTech)Genie(UCSantaCruz&UCBerkeley)GENSCAN(Stanford)第45頁,課件共112頁,創(chuàng)作于2023年2月GenScan的HMM模型第46頁,課件共112頁,創(chuàng)作于2023年2月GENSCAN對某個基因的預測結果示意圖:第47頁,課件共112頁,創(chuàng)作于2023年2月常見的HMM模型第48頁,課件共112頁,創(chuàng)作于2023年2月(5)動態(tài)規(guī)劃算法(DynamicProgramming)

將預測出的各個可能的外顯子和內含子進行拼接,組成完整的基因。并對各種可能的拼接進行計分,從而得出最可能的基因結構;(Gelfang&Roytberg,1993)(6)法則系統(tǒng)(Rule-basedSystem)算法(Guigo,1992)(7)語言學方法(Linguistic)(Dong&Searls,1994);(8)人工神經網絡方法(ANN)(9)LDA方法(LinearDiscriminateAnalysis)(Fickett&Tung,1992);(10)決策樹(DecisionTree)算法(Salzberg,1995);(11)Fourier分析(Tiwari,1997)。第49頁,課件共112頁,創(chuàng)作于2023年2月常用真核基因預測軟件(1)、FGENEH作者:Solovyev等,1995所用算法:LDA(LinearDiscriminantAnalysis)方法(2)、GeneID作者:Guigo等,1992所用算法:法則系統(tǒng)(Rule-basedSystem)算法(3)、GeneParser作者:Snyder和Stormo,1993所用算法:動態(tài)規(guī)劃算法(DynamicProgramming)(4)、Genie作者:Henderson等,1997所用算法:廣義隱Markov模型(GeneralizedHiddenMarkovModel)方法、動態(tài)規(guī)劃算法(5)、GenLang作者:Dong和Searls,1994所用算法:語言學方法(Linguistic)第50頁,課件共112頁,創(chuàng)作于2023年2月(6)、GENESCAN作者:Burge和Karlin,1997所用算法:隱Markov模型(HiddenMarkovModel)方法、動態(tài)規(guī)劃算法(7)、HEXON作者:Solovyev等,1994所用算法:LDA(LinearDiscriminantAnalysis)方法、動態(tài)規(guī)劃算法(8)、VEIL作者:Krogh等,1994所用算法:隱Markov模型(HiddenMarkovModel)方法、動態(tài)規(guī)劃算法

第51頁,課件共112頁,創(chuàng)作于2023年2月目前常用軟件的基因預測結果評估(Claverie,1997)

第52頁,課件共112頁,創(chuàng)作于2023年2月目前常用軟件的基因預測結果評估(Rogic等,2001)第53頁,課件共112頁,創(chuàng)作于2023年2月目前的各種算法還存在許多缺陷需進一步改進,主要表現(xiàn)在以下兩點:(1)、這些算法對基因中的非編碼區(qū)(即內含子)和基因間的序列不加任何區(qū)別,所以預測出的基因是不完全的,而對5’和3’非翻譯區(qū)(UTR)的預測基本上還是空白;(2)、這些算法的學習依賴性較強。如同源比較算法是完全依賴于已知的基因序列,而HMM之類的算法都需要對已知的基因結構信號進行學習或訓練。第54頁,課件共112頁,創(chuàng)作于2023年2月§6.3原核基因組研究及基因預測方法第55頁,課件共112頁,創(chuàng)作于2023年2月原核生物基因組的研究意義1、揭示生命活動的基本規(guī)律——導致現(xiàn)代分子遺傳學的許多重大發(fā)現(xiàn)染色體、DNA雙螺旋、遺傳密碼、DNA復制、中心法則…第56頁,課件共112頁,創(chuàng)作于2023年2月原核生物基因組的研究意義2、揭示生命起源與進化的奧秘第57頁,課件共112頁,創(chuàng)作于2023年2月3、進行分子遺傳學的良好材料4、在農業(yè)、工業(yè)和生物制藥工程上的應用十分廣泛作為微生物基因工程的反應器,直接運用于干擾素、人胰島素、生長激素、乙型肝炎疫苗等現(xiàn)代基因工程產品的生產。第58頁,課件共112頁,創(chuàng)作于2023年2月原核生物基因組結構的特點1、原核生物基因組一般比真核生物基因組小得多

E.coli的基因組(4.6Mb)約為酵母基因組(12.1Mb)的2/52、絕大部分原核生物基因組由一個單一的環(huán)狀DNA分子組成3、原核生物的基因通常比真核生物的少E.coli:4000多個基因,人:~30000個4、原核生物的基因絕大多數(shù)是連續(xù)基因,不含間隔的內含子;基因組結構緊密,重復序列遠少于真核生物的基因組。例子:E.coliK-12

雙鏈環(huán)狀DNA分子,全基因組長為4,600kb;目前已經定位的基因有4,289個;非編碼區(qū)占的比例約為11.4%。第59頁,課件共112頁,創(chuàng)作于2023年2月長開放閱讀框(ORF,openreadingframe)若終止密碼子出現(xiàn)在非編碼核酸序列中,大約每21個密碼子出現(xiàn)一次(3/64)絕大部分原核生物蛋白質的長度大于60個氨基酸;——(E.coli:蛋白質編碼區(qū)域平均長度為316.8個密碼子,不到1.8%的基因的長度小于60個密碼子)長ORF表明該區(qū)域可能對應于一個原核生物基因的編碼序列——從統(tǒng)計學角度來看,如果所有的密碼子在隨機的核酸序列中以相同的頻率出現(xiàn),則不含終止密碼子且長度為N個密碼子的序列出現(xiàn)的概率為(61/64)N。長度為N的ORF的95%顯著性置信度等價于5%“隨機”命中的可能性,即(61/64)N=0.05,這里N等于60,表示典型長度的ORF中密碼子的數(shù)目。第60頁,課件共112頁,創(chuàng)作于2023年2月高基因密度原核生物基因組的許多信息都是為了維持細胞的基本功能,如構造和復制DNA,產生新蛋白質,以及獲得和存儲能量。完全測序的細菌和古細菌的基因組數(shù)據表明,其中85%到88%的核酸序列與基因的編碼直接相關。例如,在E.coli中總共有4,289個基因,平均編碼長度約為950bp,而基因之間的平均間隔長度只有~120bp。第61頁,課件共112頁,創(chuàng)作于2023年2月連續(xù)的基因結構與真核基因結構相比較,原核基因的結構相對簡單。原核基因為連續(xù)基因,其編碼區(qū)是一個完整的DNA片段。但原核基因的轉錄起始、翻譯起始的調控機制比較復雜。完整的基因結構從基因的5’-端啟動子區(qū)域開始,到3’-端終止區(qū)結束。基因的轉錄開始位置由轉錄起始位點確定,轉錄過程直至遇到轉錄終止位點結束,轉錄的內容包括5’UTR、開放閱讀框以及3’UTR?;蚍g的準確起止位置由起始密碼子和終止密碼子決定,翻譯的對象即為介于這兩者之間的開放閱讀框。第62頁,課件共112頁,創(chuàng)作于2023年2月第63頁,課件共112頁,創(chuàng)作于2023年2月原核生物基因組的操縱子與基因群結構第64頁,課件共112頁,創(chuàng)作于2023年2月原核生物的基因結構STOPATGATG…CCCTCGAAGC…ATGTranscriptionInitiationMotifCodingORFTranslationInitiationMotifUpstreamregion第65頁,課件共112頁,創(chuàng)作于2023年2月Textsfromcoding/noncodingregionsinDNAsequenceGTGAGGGATCGTGGGCATATTTCACAAACTTACTTTTAAAACCATACAACGAAGAAGCGGCCATAATGAACGACTCTTTACAGAATACGGATCTCATTTCACACTTCTCACATCCATTTTAGTTGGAAACACATGAAAGTGAGACCATCAGTTAAACCAATCTGCGAAAAATGTAAAGTTATTTCGCAGAAAAGGAAAAGTAATGGTGATCTGTGAAAATCCAAAGCATAAACAAAAACAAGGATAAGGTTATATAAATGAAAAGATTTCTGATTGGCGCAGGCGTCGCAGCGGTGATTTTATCAGGTTTGGTTTATTGCGGACCATCAAACCCACTCACAGGAAATGAAAGTCGCTGAGAAAATGATTGGATAAGAGATTATTGATGAAAATCAGCCGGATTCTATTGGCAGCAGTGATTTTAAGTAGTGTATTTTTCAATAACTTATTTGCAAAGTGATCATAATACTGAAATTAAAGTTGCTGCAGATCGGGTAGGGGCATAGGTGAGTTTGTATGAAATTGAAGTCTAAACTATTACTCTCTTGTCTGGCTCTAAGCACTGTGGTTCGTGGCAACAACTATTGCAAATGCACCTACACACCAAATTGAAGTTGCACAACGAGGAATGATTTAAAGCCCTCTCGATGGAAAAGATCCCTTGCTTCGCGGAGGAATTGATTATAGGCCTCTCTATCCTGGGGCCGCAAATATTCAAAGTCGAAATGAATGTCACGGAAGCCATATCTTCTGGCATTCTCGACTAGCACGGGACATATGATGGCTTGCAGGTCTTTTAAAGAGACAGCGGCGGTTTGTGACAAGTCAATCAGAAATCCTTCACCCGAGCGCTGCCGGCTGTTCATTTTCCGAAATGCTTCTATGTCTTTTTCATTCTGACGCCTGAAATATGGTCCGCGTGAAGATGTGTATCAAATACGTGAGTAATCGTTGCACCCTTCCCCTTCGCAAAATCTATAAAGAAATTCACCATACGTGTCGCATCAATAATTGCTGCTTCACCATTTGAAAAGCCAAAAATGATCGACACAGCTATGAAATCGGAGAAGAAATCATGCTTCCGAGTGAAACACGCATGGGCAGAAGGGCCAGCTTTTTTGATTTTTTTAAACTGCGCCCTTTCAAAATGGGGATTTTGATATATGTAATATGTATGAATTCTTGATTGATGATCGTATCATCAGTTATTTCAATTGCCTCAACGTCAAACTCTTGTTGCAGCGCTTTGACAAACCTTTTTACATTTCCTGTTTTACTCTCATATGTAATTAACAATGTCCCTATGAAAATACTGCCCTCTGTCCCGATCACCTCCGCCCGGATGTCATGTCCGTATGGAGAGGTTCTGCTTGCCTCGACGTCCCCCGCTGCGCCCGAGTCAAATTCAATATACGTCAGCTGAStartcodonStopcodonATGGTGTTGTAATAGTGAProteincodinggenesNoncodingsequences第66頁,課件共112頁,創(chuàng)作于2023年2月原核生物基因組研究的主要方法1、原核基因組的測序獲得所研究生物的全基因組DNA序列測序方法:鏈終止法。一次測序反映只能測幾百個堿基對。序列的拼接方法。2、原核基因組的序列解讀通過結合計算機分析、試驗驗證等手段,初步定位基因及其調控區(qū)并闡明基因的功能。發(fā)展原核基因組的基因及其功能識別算法是基因組的計算機分析的重要目標。第67頁,課件共112頁,創(chuàng)作于2023年2月當前著名的原核基因預測軟件1、GeneMark系列軟件(包括最新版本GeneMarkS)

Borodovsky等,1993~2001——Besemer,J.,Lomsadze,A.andBorodovsky,M.(2001)GeneMarkS:aself-trainingmethodforpredictionofgenestartsinmicrobialgenomes.Implicationsforfindingsequencemotifsinregulatoryregions.NucleicAcidsRes.,29:2607-2618.2、Glimmer2.02(Salzberg等,1999)——Delcher,A.L.,Harmon,D.,Kasif,S.,White,O.,andSalzberg,S.L.(1999)ImprovedmicrobialgeneidentificationwithGLIMMER.NucleicAcidsRes.,27,4636-4641原核基因預測算法的研究現(xiàn)狀第68頁,課件共112頁,創(chuàng)作于2023年2月3、ZCURVE1.0

張春霆等,1991-2003第69頁,課件共112頁,創(chuàng)作于2023年2月4、MED系列佘振蘇、朱懷球等,2004-2007第70頁,課件共112頁,創(chuàng)作于2023年2月其它:如EasyGene(LarsenandKrogh,2003)ORPHUS(Frishmanetal.,1998)第71頁,課件共112頁,創(chuàng)作于2023年2月基本方法1、Markov模型方法:用非均勻Markov模型刻畫DNA序列giveanestimateoftheprobabilityforalocalsegment(suchasak-tuples)tobelongtotheclassofproteincodingsequences

如:GeneMark、Glimmer2、其它方法,如Z-curve方法、MED方法如:ZCURVE1.0、MED2.03、結合HMM方法與蛋白質相似比較的方法如:EasyGene(LarsenandKrogh,2003)

原核基因預測軟件被廣泛應用于原核基因組研究,提供了許多物種的基因組GenBank注釋——基因位點的計算預測。第72頁,課件共112頁,創(chuàng)作于2023年2月當前原核基因預測存在的主要問題1、GenBank數(shù)據庫提供的原核基因注釋信息(基因位點、功能等)只有部分經過實驗確認,其它部分只有計算預測或未實驗證實的注釋信息。2、GenBank數(shù)據庫的注釋信息存在系統(tǒng)性的錯誤,處于不斷的修正之中?!狿seudoshortgenes——Genestarts——功能信息的錯誤——注釋眾說紛紜(如H.inf,148amendmentsbydifferentauthors

)第73頁,課件共112頁,創(chuàng)作于2023年2月3、基因翻譯起始位點的精確預測——原核基因轉錄和翻譯起始機制的認識——多樣性、復雜性4、短基因的預測——短于100AA——統(tǒng)計模型對短基因刻畫的困難——短基因的生物學意義?(功能、進化歷程)5、高GC、高AT含量基因組的基因預測——背景DNA噪聲——基因組組分與生物進化的聯(lián)系6、原核基因結構的數(shù)學模型——缺乏綜合的理解——缺乏良好的模型第74頁,課件共112頁,創(chuàng)作于2023年2月評論1、與真核生物基因預測的研究相比,原核生物基因預測的研究走在更前面2、原核生物基因預測的方法和結果為人類基因組計劃和模式生物基因組計劃做出了很大的貢獻,但也帶來一定的后果3、原核基因的復雜結構還沒有真正被了解4、原核基因的預測還有很多沒有解決的問題第75頁,課件共112頁,創(chuàng)作于2023年2月§6.4原核基因結構的統(tǒng)計模型及基因預測新方法(2004-2007)第76頁,課件共112頁,創(chuàng)作于2023年2月基因預測研究的總體思路ModelPredictUnderstand對基因復雜結構信息進行統(tǒng)計分析,并建立合理的數(shù)學物理模型進行刻畫(包括對模型的檢驗)。根據模型,對新測序的基因組序列,有效預測其基因結構。為基因組實驗研究提供理論指導。綜合實驗和理論結果,探索模型揭示的生物學意義,深刻理解生物復雜系統(tǒng)。第77頁,課件共112頁,創(chuàng)作于2023年2月第78頁,課件共112頁,創(chuàng)作于2023年2月兩段取自E.coli(EscherichiacoliK-12MG1655)的DNA序列ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA[190~255]gene=“thrL”(Aminoacidbiosynthesis:Threonine)ATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAA[30~98]non-codingORF§6.4.1原核基因結構的EDP模型第79頁,課件共112頁,創(chuàng)作于2023年2月取自E.coli的兩段ORF的假想氨基酸序列:Codingsequence(Gene“thrL”)

ATGAAACGCATTAGCACCACCATTACCACCACCATC

MKRISTTITTTI

ACCATTACCACAGGTAACGGTGCGGGCTGA

TITTGNGAGZNon-codingsequence

ATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATA

MSLCGLKKECLIGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAA

AASELVTCREZ

DNA序列假想翻譯序列遺傳密碼表第80頁,課件共112頁,創(chuàng)作于2023年2月基于一段DNA序列的假想氨基酸序列,引入它的熵密度分布(EntropyDensityProfile,EDP){Si}:i:Indexof20aminoacidpi:FrequencyoftheithaminoacidShannonentropy:對于任一有限長的DNA序列,都可得到它的EDP{Si},對應于20維相空間上唯一的一點。EDP:asetofmultivariateparameters第81頁,課件共112頁,創(chuàng)作于2023年2月DNA序列的EDP表現(xiàn)出編碼/非編碼的聚類性。第82頁,課件共112頁,創(chuàng)作于2023年2月在EDP的相空間上定義歐氏距離來刻畫兩類DNA序列(編碼、非編碼)的編碼性:也可定義相對熵距離:第83頁,課件共112頁,創(chuàng)作于2023年2月500條基因和500條非編碼ORF的EDP距離(取自E.coli)第84頁,課件共112頁,創(chuàng)作于2023年2月基于EDP思想的基因識別算法

原核生物編碼ORF與非編碼ORF的平均EDP在相空間上的普適性構造具有普適性的編碼、非編碼EDP中心;基于普適的編碼與非編碼EDP中心,得到該基因組的編碼與非編碼ORF中心;設計迭代算法,求得該基因組的編碼、非編碼“根”序列(rootORFs);根據rootORFs,識別所有ORF的編碼性。第85頁,課件共112頁,創(chuàng)作于2023年2月EDPgenefindingalgorithmRootcoding

ORFsEDPsRepresentativecoding-EDPs’EDPsRootnon-coding

ORFsRepresentativenon-coding-EDPs’ClusteringClusteringSearchforallORFsunknownsetofORFEDPD_cD_ncD_c<D_ncD_nc<D_cCodingORFNon-codingORF第86頁,課件共112頁,創(chuàng)作于2023年2月EDP模型的評論

描述ORF序列的整體特性,是序列編碼性與相似性的統(tǒng)一難以實現(xiàn)對序列局部功能信號的刻畫作為基因預測算法,有局限性:基因起始位點的預測精度較差短基因的預測精度較差第87頁,課件共112頁,創(chuàng)作于2023年2月當前的原核基因預測算法對基因起始位點的預測精度要遠遠低于基因終止位點的預測精度—Detectageneasanopenreadingframe(ORF)justwithan‘open’start;—例子:對E.coli

的195條實驗確認基因的預測水平:預測軟件終止位點預測精度起始、終止位點同時預測的精度ORPHEUS(1998)92.8%75.9%GLIMMER2.02(1999)100%74.9%MED1.0(2004)100%68.2%§6.4.2原核基因結構的TIS模型第88頁,課件共112頁,創(chuàng)作于2023年2月精確預測基因的重要性:

——有助于研究基因表達的產物(蛋白質、功能RNA)——有助于認識基因轉錄和翻譯的機制提高基因翻譯起始位點的預測精度是精確預測基因的關鍵第89頁,課件共112頁,創(chuàng)作于2023年2月原核基因起始位點預測的困難——缺乏用于學習的數(shù)據集具有實驗確認起始位點的基因數(shù)據遠遠不夠——與基因翻譯起始相關的序列特征并不強翻譯起始機制的多樣性、復雜性序列信號的模糊性第90頁,課件共112頁,創(chuàng)作于2023年2月基因起始位點(TIS)預測方法

RBSfinder

(Salzbergetal.,2001):—inputsanentiregenomicsequenceandfirst-passannotationtotrainaprobabilisticmodelthatscorescandidateRBSsurroundingpreviouslyannotatedstartcodons.第91頁,課件共112頁,創(chuàng)作于2023年2月

GS-finder

(Zhangetal.,2004):—Introducedsixrecognitionvariablestodescribetheconsensussignals(e.g.,theSDsequences)inthevicinityofgenestarts,thecodingpotentialofDNAsequencesnearthestartcodon,thestartcodonitselfandthedistancefromtheleftmoststartcodontothecandidatestartcodon,respectively.—TheformerfourvariableswerederivedbasedontheZ-curvemethod,w

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論