生物物理的學(xué)習(xí)材料_第1頁(yè)
生物物理的學(xué)習(xí)材料_第2頁(yè)
生物物理的學(xué)習(xí)材料_第3頁(yè)
生物物理的學(xué)習(xí)材料_第4頁(yè)
生物物理的學(xué)習(xí)材料_第5頁(yè)
已閱讀5頁(yè),還剩49頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

生物物理的學(xué)習(xí)材料第1頁(yè)/共54頁(yè)IdealcaseRealworld第2頁(yè)/共54頁(yè)Whatisagene?WilhelmJohannsen’sdefinitionofagene:ThewordgenewasfirstusedbyWilhelmJohannsenin1909,basedontheconceptdevelopedbyGregorMondelin1866.“Thespecialconditions,foundationsanddeterminerswhicharepresent[inthegametes(配子)inunique,separateandtherebyindependentways[bywhich]manycharacteristicsoftheorganismarespecified.”Johannsen,W.(1909)Biol.Philos.4:303-329.第3頁(yè)/共54頁(yè)Whatisagene?Ageneisthebasicphysicalandfunctionalunitofheredity.Genes,whicharemadeupofDNA,actasinstructionstomakemoleculescalledproteins.

Oldconcept:Ageneisalocus(orregion)of

DNA

thatencodesafunctionalproteinorRNA

product,andisthe

molecular

unitof

heredity.Newdefinition:第4頁(yè)/共54頁(yè)GenePredictionGeneprediction:ToidentifyallgenesinagenomeatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctGene第5頁(yè)/共54頁(yè)Genepredictionisthebasicforfunctionalstudies第6頁(yè)/共54頁(yè)FindingallgenesinagenomecouldbehardFindingallthegenesishardMammaliangenomesarelarge

8000kmof10bptypeOnlyabout1%codingproteinsNon-codingRNAsaremore

difficulttobepredicted第7頁(yè)/共54頁(yè)Thestructureofprokaryotic(原核生物的)genes第8頁(yè)/共54頁(yè)P(yáng)romoterstructureofprokaryotic(原核生物的)genes第9頁(yè)/共54頁(yè)Thestructureofeukaryotic(真核生物的)genes第10頁(yè)/共54頁(yè)Thestructureofeukaryotic(真核生物的)genes第11頁(yè)/共54頁(yè)OpenReadingFrames(ORFs)Proteincodinggenepredictionistodetectpotentialcoding

regionsbylookingforORFsSignalsdefiningORFsineukaryoticgenes:Startcodon:ATGStopcodons:TAG,TGA,TAASplicingdonorsites:usuallyGTSplicingacceptorsites:usuallyAGUTRsareusuallydefinedaccordingtoexpressionevidence第12頁(yè)/共54頁(yè)Typesofexons第13頁(yè)/共54頁(yè)SixFramesinaDNASequenceDNAreplicationoccursinthe5-to-3direction

第14頁(yè)/共54頁(yè)SixFramesinaDNASequence第15頁(yè)/共54頁(yè)SixFramesinaDNASequence第16頁(yè)/共54頁(yè)Codonusageselectionintranslation第17頁(yè)/共54頁(yè)Codonusageselectionintranslation第18頁(yè)/共54頁(yè)CodonusageinmousegenomeUnevenusageofcodonsmaycharacterizearealgene!第19頁(yè)/共54頁(yè)EukaryoticORFpredictionSignalsdefiningORFsineukaryoticgenes:Startcodon:ATGStopcodons:TAG,TGA,TAASplicingdonorsites:usuallyGTSplicingacceptorsites:usuallyAG-Codingframe-Codonusage第20頁(yè)/共54頁(yè)GenesyntaxrulesThecommongenesyntaxrulesforforward-strandgenes:第21頁(yè)/共54頁(yè)Conceptualgenefindingframework第22頁(yè)/共54頁(yè)Conceptualgenefindingframework第23頁(yè)/共54頁(yè)MethodsforEukaryoticGenePredictionAbinitiomethod:

-Onlyusegenomicsequencesasinput

--GENSCAN(Burge1997;BurgeandKarlin1997)

--Fgenesh(SolovyevandSalamov1997)

-Capabletopredictnovelgenes2.Transcript-alignment-based

method:

-UsecDNA,mRNAorproteinsimilarityasmajorclues

--ENSEMBL(Birneyetal.2004)

-Highaccuracy

-Canonlyfindgeneswithtranscriptionevidence3.Hybrid

method:

-IntegrateEST,cDNA,mRNAorproteinalignmentsinto

abinitiomethod

--Fgenesh+(SolovyevandSalamov1997)

--AUFUSRUS+(Stanke,Schoffmannetal.2006)第24頁(yè)/共54頁(yè)MethodsforEukaryoticGenePrediction4.Comparative-genomics-based

method:

-Assumecodingregionsaremoreconserved

Genome1Genome2第25頁(yè)/共54頁(yè)MethodsforEukaryoticGenePrediction4.Comparative-genomics-based

method:

-Assumecodingregionsaremoreconserved

-Capabletopredictnovelgenesandnon-proteincodinggenes

-Canusetranscriptdatatoimprovepredictionaccuracy

--TWINCANandN-SCAN(donotusetranscriptsimilarity)

--TWINCAN-ESTandN-SCAN-EST(usetranscriptsimilarity)Problems:-Performancedependsontheevolutionarydistancebetweenthecomparedsequences-Exon/intronboundariesmaynotbeconserved第26頁(yè)/共54頁(yè)AbouttheabinitiogenepredictionmethodsDifficulttohandlethefollowingcases:Nested/overlappedgenesPolycistronicgenesAlternativesplicingFrame-shifterrorsSplitstartcodonsNon-ATGtripletasthestartcodonExtremelyshortexonsExtremelylongintronsNon-canonicalintronsUTRintrons第27頁(yè)/共54頁(yè)HiddenMarkovModelisacommonlyusedalgorithmforgenepredictionHiddenMarkovModel(HMM)MarkovPropertyMarkovChainMarkovModelHiddenMarkovModel第28頁(yè)/共54頁(yè)MarkovPropertyMarkovPropertyissimplythatgiventhepresentstate,

futurestatesareindependentofthepastStochasticprocessesaregenerallyconsideredasthecollections

ofrandomvariables,thushaveMarkovProperty第29頁(yè)/共54頁(yè)MarkovChainMarkovChainisasystemthatwecanusetopredictthe

futuregiventhepresentIntheMarkovChain,thepresentstateonlydependson

twothings:-Previousstate

-Probabilityofmovingfrompreviousstatetopresentstate第30頁(yè)/共54頁(yè)MarkovChainToestimatethestatusofstudents第31頁(yè)/共54頁(yè)MarkovChainSupposegraduatestudentshavetwotypesofmoods:

-Happy

-DepressedaboutresearchEachtypeofstudentshasitsownMarkovchainFinally,therearethreelocationswecanfindthestudents:

-Lab

-Canteen

-Dorm第32頁(yè)/共54頁(yè)MarkovChainMarkovChainofhappystudentsLabCanteenDorm第33頁(yè)/共54頁(yè)MarkovChainMarkovChainofdepressedstudentsLabCanteenDorm第34頁(yè)/共54頁(yè)MarkovChainProbabilityTheprobabilityofobservingagivensequenceisequalto

theproduct(乘積)ofallobservedtransitionprobabilities.

P(Canteen->Dorm->Lab)=

P(Canteen)P(Dorm|Canteen)P(Lab|Dorm)

P(Canteen->Lab)=

P(Canteen)P(Lab|Canteen)第35頁(yè)/共54頁(yè)MarkovModelAMarkovmodelisastochasticmodelusedtomodelrandomly

changingsystemwhereitisassumedthatthefuturestates

dependsonlyonthepresentstate.LabCanteenDorm

LabCanteenDormDormCanteenLab

第36頁(yè)/共54頁(yè)HiddenMarkovModelNowwehavethegeneralinformationabouttherelationship

betweenthestudentmoodandlocation

-MoodisHiddenIfwesimplyobservethelocationsofastudent,canwetell

whatmoodheisin?-Observationsarethelocationsofthestudents-Parametersofthemodelaretheprobabilitiesofastudentbeinginaparticularlocation第37頁(yè)/共54頁(yè)HiddenMarkovModel(HMM)Observations:

LLLCDCLLDDLLCDLDDCDDDDLCLLLCCLHiddenstate:

HHHHHHHHHHHHDDDDDDDDDHHHHHH第38頁(yè)/共54頁(yè)UsingHMMtoestimatestudentmoodLab0.75Dorm0.05Lab0.4Canteen0.2Dorm0.4

Canteen0.2HiddenMarkovModel(HMM)第39頁(yè)/共54頁(yè)ApplicationofHMMingenepredictionWhatdowewant?WhyareHMMsagoodfitforgeneprediction?-DNAsequencesareinorderwhichisnecessaryforHMMs-Enoughtrainingdataforwhatisageneandwhatisnotagene-Tofindcodingandnon-codingregionsfromanunlabeledstringofDNAsequencesHMMsneedtobetrainedtobetrulyeffective第40頁(yè)/共54頁(yè)HMMsforgeneprediction第41頁(yè)/共54頁(yè)HMMsforgeneprediction第42頁(yè)/共54頁(yè)CautionsaboutHMMsNeedtobemindfulofoverfittingHMMscanbeslow(needsproperdecoding)-DNAsequencescanbeverylongthusprocessingthemcanbeverytimeconsumingStatesaresupposedtobeindependentofeachotherand

thisisNOTalwaystrue!-Needagoodtrainingset-Moretrainingdatadoesnotalwaysmeanabettermodel第43頁(yè)/共54頁(yè)P(yáng)rotein-codinggeneshavespecificevolutionaryconstraints-Gapsbetweenhomologousgenesaremultiplesofthree(preserveaminoacidtranslation)-Mutationsaremostlyatsynonymouspositions-Conservationboundariesaresharp(pinpointindividualsplicingsignals)FeaturesforproteincodinggenesDmelTGTTCATAAATAAA-----TTTACAACAGTTAGCTG-GTTAGCCAGGCGGAGTGTCTGCGCCCATTACCGTGCGGACGAGCATGT---GGCTCCAGCATCTTCDsecTGTCCATAAATAAA-----TTTACAACAGTTAGCTG-GTTAGCCAGGCGGAGTGTCTGCGCCCATTACCGTGCGGACGAGCATGT---GGCTCCAGCATCTTCDsimTGTCCATAAATAAA-----TTTACAACAGTTAGCTG-GTTAGCCAGGCGGAGTGTCTGCGCCCATTACCGTGCGGACGAGCATGT---GGCTCCAGCATCTTCDyakTGTCCATAAATAAA-----TTTACAACAGTTAGCTG-GTTAGCCAGGCGGAGTGCCTTCTACCATTACCGTGCGGACGAGCATGT---GGCTCCAGCATCTTCDereTGTCCATAAATAAA-----TTTACAACAGTTAGCTG-CTTAGCCATGCGGAGTGCCTCCTGCCATTGCCGTGCGGGCGAGCATGT---GGCTCCAGCATCTTTDanaTGTCCATAAATAAA-----TCTACAACATTTAGCTG-GTTAGCCAGGCGGAGTGTCTGCGACCGTTCATG------CGGCCGTGA---GGCTCCATCATCTTADpseTGTCCATAAATGAA-----TTTACAACATTTAGCTG-CTTAGCCAGGCGGAATGGCGCCGTCCGTTCCCGTGCATACGCCCGTGG---GGCTCCATCATTTTCDperTGTCCATAAATGAA-----TTTACAACATTTAGCTG-CTTAGCCAGGCGGAATGCCGCCGTCCGTTCCCGTGCATACGCCCGTGG---GGCTCCATTATTTTCDwilTGTTCATAAATGAA-----TTTACAACACTTAACTGAGTTAGCCAAGCCGAGTGCCGCCGGCCATTAGTATGCAAACGACCATGG---GGTTCCATTATCTTCDmojTGATTATAAACGTAATGCTTTTATAACAATTAGCTG-GTTAGCCAAGCCGAGTGGCGCC------TGCCGTGCGTACGCCCCTGTCCCGGCTCCATCAGCTTTDvirTGTTTATAAAATTAATTCTTTTAAAACAATTAGCTG-GTTAGCCAGGCGGAATGGCGCC------GTCCGTGCGTGCGGCTCTGGCCCGGCTCCATCAGCTTCDgriTGTCTATAAAAATAATTCTTTTATGACACTTAACTG-ATTAGCCAGGCAGAGTGTCGCC------TGCCATGGGCACGACCCTGGCCGGGTTCCATCAGCTTT

***************************************************Splice第44頁(yè)/共54頁(yè)REALITYPREDICTIONExonLevelWRONG

EXONCORRECT

EXONMISSINGEXONSn=Sensitivity(靈敏度)numberofcorrectex

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論