![生物信息學(xué)第五章核酸序列分析_第1頁](http://file4.renrendoc.com/view/950fd842baee9f4ce03bf0d3f6078e91/950fd842baee9f4ce03bf0d3f6078e911.gif)
![生物信息學(xué)第五章核酸序列分析_第2頁](http://file4.renrendoc.com/view/950fd842baee9f4ce03bf0d3f6078e91/950fd842baee9f4ce03bf0d3f6078e912.gif)
![生物信息學(xué)第五章核酸序列分析_第3頁](http://file4.renrendoc.com/view/950fd842baee9f4ce03bf0d3f6078e91/950fd842baee9f4ce03bf0d3f6078e913.gif)
![生物信息學(xué)第五章核酸序列分析_第4頁](http://file4.renrendoc.com/view/950fd842baee9f4ce03bf0d3f6078e91/950fd842baee9f4ce03bf0d3f6078e914.gif)
![生物信息學(xué)第五章核酸序列分析_第5頁](http://file4.renrendoc.com/view/950fd842baee9f4ce03bf0d3f6078e91/950fd842baee9f4ce03bf0d3f6078e915.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
生物信息學(xué)第五章核酸序列分析第一頁,共八十四頁,編輯于2023年,星期日基因結(jié)構(gòu)及功能的預(yù)測和分析PromoterEnhancerTerminatorRegulatoryelementGCboxCAATboxTATAboxPribnowbox-35regionExonExonIntronORF5`3`TGGATATTATAGCTAGAGCGGATAStem-loop第二頁,共八十四頁,編輯于2023年,星期日一、核苷酸頻率分析(單鏈)核苷酸頻率:對于一個給定的基因組,最簡單的計算就是統(tǒng)計DNA序列中各類核苷酸出現(xiàn)的頻率。對于隨機分布的DNA序列來說,每種核苷酸的出現(xiàn)是均勻分布的,即出現(xiàn)頻率各為0.25。而真實基因組的核苷酸分布則是非均勻的,如酵母基因組核苷酸出現(xiàn)頻率如下左表。單雙鏈的區(qū)別:同時計算DNA的正反兩條鏈,根據(jù)堿基配對原則,A和T、G和C的出現(xiàn)頻率應(yīng)該是相同的。但實際上A和T、G和C的出現(xiàn)頻率不同,但是卻非常接近,如酵母單鏈核苷酸出現(xiàn)頻率如下右表。核苷酸頻率A0.325T0.325G0.175C0.175核苷酸頻率A0.344T0.343G0.157C0.155(單鏈)核苷酸頻率同時計算DNA的正反兩條鏈核苷酸頻率第三頁,共八十四頁,編輯于2023年,星期日例:(單鏈)核苷酸頻率核苷酸頻率ATGC第四頁,共八十四頁,編輯于2023年,星期日核苷酸關(guān)聯(lián)性分析-雙聯(lián)核苷酸頻率:不同基因組中兩個連續(xù)核苷酸出現(xiàn)的頻率也是不相同的4種核苷酸可以組合成16種兩聯(lián)核苷酸核苷酸對頻率AA0.1193400681800AC0.0520605330203AG0.0558517890546AT0.0975313373925CA0.0583060967492CC0.0325646199051CG0.0283909584052CT0.0558517890546GA0.0557622179282GC0.0348050746970GG0.0325646199051GT0.0520605330203TA0.0915019798308TC0.0557622179282TG0.0583060967492TT0.1193400681800酵母基因組兩聯(lián)核苷酸頻率表設(shè):Pij代表兩聯(lián)核苷酸(i,j)的出現(xiàn)頻率;Pi代表核苷酸i的出現(xiàn)頻率則:Sij=Pij/(PiPj),
Sij反應(yīng)了核苷酸i和j的關(guān)聯(lián)關(guān)系,若Sij=1,則在兩個連續(xù)的位置上,核苷酸i和j的出現(xiàn)是相對獨立的。若Sij>1,則兩個連續(xù)位置上,核苷酸i和j的出現(xiàn)是相關(guān)的。如:酵母基因組P(A)=0.3248,P(AA)=0.1193,則S(AA)=0.1193/(0.32482×0.32482)=1.131>1,這表明在兩個連續(xù)位置上“A”的出現(xiàn)不是獨立的,而是相關(guān)的。第五頁,共八十四頁,編輯于2023年,星期日三聯(lián)核苷酸頻率–基因密碼子常常需要對三聯(lián)核苷酸進(jìn)行統(tǒng)計分析,這實際上是分析密碼子的使用偏性。密碼子用法:在基因中,同義密碼子用法(如出現(xiàn)頻率等)并不是完全一致的,不同物種、不同個體的密碼子用法存在差異。蛋白三級結(jié)構(gòu)、功能與密碼子用法有關(guān)。通過聚類分析(clusterAnAlysis),發(fā)現(xiàn)具有相似三級結(jié)構(gòu)蛋白的編碼基因大致聚在同一類中,對于同一類型的基因,由物種引起的同義密碼子使用偏性的差異較小。AAACAAGAATAAAACCACGACTACAAGCAGGAGTAGAATCATGATTATACACCAGCATCAACCCCCGCCTCCACGCCGGCGTCGACTCCTGCTTCTAGACGAGGATGAAGCCGCGGCTGCAGGCGGGGGTGGAGTCGTGGTTGTATACTAGTATTAATCCTCGTCTTCATGCTGGTGTTGATTCTTGTTTTT6第六頁,共八十四頁,編輯于2023年,星期日密碼子的簡并(degenerAcy):氨基酸都對應(yīng)2種以上密碼子(M,W除外),最多有6種對應(yīng)的密碼子。氨基酸有20~21種,三聯(lián)核苷酸有43=64種。氨基酸密碼子IATT,ATC,ATALCTT,CTC,CTA,CTG,TTA,TTGVGTT,GTC,GTA,GTGFTTT,TTCMATGCTGT,TGCAGCT,GCC,GCA,GCGGGGT,GGC,GGA,GGGPCCT,CCC,CCA,CCGTACT,ACC,ACA,ACGSTCT,TCC,TCA,TCG,AGT,AGCYTAT,TACWTGGQCAA,CAGNAAT,AACHCAT,CACEGAA,GAGDGAT,GACKAAA,AAGRCGT,CGC,CGA,CGG,AGA,AGG*TAA,TAG,TGA20種氨基酸的密碼子表二、密碼子偏好性分析密碼子使用偏好(CodonusAgebiAs):不同生物常常偏好使用編碼同一個氨基酸的多個密碼子中的一個;偏好的產(chǎn)生是一個分子進(jìn)化的爭論熱點,一般認(rèn)為密碼子偏好反映了變異偏好和自然選擇的平衡,在生長快的微生物中,如大腸桿菌和酵母,偏好反映了該物種tRNA的組成;偏好的密碼子往往翻譯更快更精確,研究tRNA進(jìn)化較少。第七頁,共八十四頁,編輯于2023年,星期日異常起始密碼子GUGUUGAUAAcinetobactercalcoaceticus,乙酸鈣不動桿菌Alcaligeneseutrophus,真養(yǎng)產(chǎn)堿桿菌Bacillusamyloliquefaciens,解淀粉芽孢桿菌Bacillusbrevis,短芽孢桿菌Agrobacteriumrhizogenes,發(fā)根土壤桿菌Bacilluscereus,蠟樣芽孢桿菌Clostridiumacetobutylicum,丙酮丁醇梭菌Escherichiacoli,大腸埃希氏菌Strephylococcusaureus,金黃色葡萄球菌Escherichiacoli,大腸埃希氏菌第八頁,共八十四頁,編輯于2023年,星期日Sequence=“ATGAGTCTTCTAACCGAGGTCGAAACGTACGTTCTCTCTATCATCCCGTCAGGCCCCCTCAAAGCCGAGATCGCGCAGAAACTTGAAGATGTCTTTGCAGGGAAGAACACCGATCTCGAGGC”Translation(StandardGeneticCode)=“MSLLTEVETYVLSIIPSGPLKAEIAQKLEDVFAGKNTDLE”Translation(PlantMitochondrialCode)=“MSLLTEVETYVLSIIPSGPLKTEIAQKLEDVFAGKNTDLE”Translation(VertebrateMitochondrialCode)=“MSLLTEVETTVLSIIPSGPLKAEIAQKLEDVFAGKNTDLE”例第九頁,共八十四頁,編輯于2023年,星期日密碼子使用偏好性分析工具(在線):CodonUsageDatabaseCodonUsageAnalyzerCodonW第十頁,共八十四頁,編輯于2023年,星期日密碼子分析數(shù)據(jù)庫:CodonUsageDatabasehttp://www.kazusa.or.jp/codon/查詢物種名稱第十一頁,共八十四頁,編輯于2023年,星期日CodonUsageDatabase查詢結(jié)果第十二頁,共八十四頁,編輯于2023年,星期日CodonUsageAnalyzer/codon/cgi-bin/codon.cgi第十三頁,共八十四頁,編輯于2023年,星期日GC含量(GCcontent):是基因組的基本參數(shù),即DNA分子或基因組中GC堿基對所占的比例,通常用百分比表示,如15~75%。物種的GC含量存在兩頭少中間多的正態(tài)分布情況。GC含量可用分光計測量,DNA的解鏈溫度(解鏈時260nm光的吸收率猛增),因GC間為3個氫鍵,因此,(超)嗜熱菌GC含量高(GC-rich)。GC含量被用于分類學(xué),也對PCR重要,一般基因內(nèi)GC含量高于基因組,外顯子高于內(nèi)含子(原因不明)。三、GC含量分析第十四頁,共八十四頁,編輯于2023年,星期日ATGGTGAGCAAGGGCGAGGAGCTGTTCACCGGGGTGGTGCCCATCCTGGTCGAGCTGGACGGCGACGTAAACGGCCACAAGTTCAGCGTGTCCGGCGAGGGCGAGGGCGATGCCACCTACGGCAAGCTGACCCTGAAGTTCATCTGCACCACCGGCAAGCTGCCCGTGCCCTGGCCCACCCTCGTGACCACCCTGACCTACGGCGTGCAGTGCTTCAGCCGCTACCCCGACCACATGAAGCAGCACGACTTCTTCAAGTCCGCCATGCCCGAAGGCTACGTCCAGGAGCGCACCATCTTCTTCAAGGACGACGGCAACTACAAGACCCGCGCCGAGGTGAAGTTCGAGGGCGACACCCTGGTGAACCGCATCGAGCTGAAGGGCATCGACTTCAAGGAGGACGGCAACATCCTGGGGCACAAGCTGGAGTACAACTATotalbases=437A=98[A]=22.43%C=141[C]=32.27%T=66[T]=15.10%G=132[G]=30.21%A+T=164[A+T]=37.53%C+G=273[C+G]=62.47%第十五頁,共八十四頁,編輯于2023年,星期日第十六頁,共八十四頁,編輯于2023年,星期日ORF(Openreadframe):開放閱讀框是基因序列中的一段無終止序列打斷的堿基序列,可編碼相應(yīng)的蛋白。ORF的識別是證明一個新的DNA序列為特定的蛋白質(zhì)編碼基因的部分或全部的先決條件。例如,對于序列ATTCGATCGCAA,一種可能的密碼子閱讀順序為ATT、CGA、TCG、CAA,另外兩種可能的密碼子閱讀順序分別為A、TTC、GAT、CGC、AA和AT、TCG、ATC、GCA、A。這三種順序被稱為開放閱讀框。實現(xiàn)方法:①掃描給定的DNA序列,在3個不同的閱讀框中尋找較長的ORF。②當(dāng)遇到終止密碼子后,回頭尋找起始密碼子,以確定完整的編碼區(qū)域。四、開放閱讀框分析第十七頁,共八十四頁,編輯于2023年,星期日基因開放閱讀框/基因結(jié)構(gòu)分析識別工具Getorfhttp://bioweb.pasteur.fr/seqanal/interfaces/getorf.htmlEMBOSS通用Plotorfhttp://bioweb.pasteur.fr/seqanal/interfaces/plotorf.htmlEMBOSS通用ORFFinder/gorf/gorf.htmlNCBI通用BestORF/all.htmSoftberry真核GENSCAN/GENSCAN.htmlMIT脊椎、擬南芥、玉米GeneFinder/tools/genefinder/Zhanglab人、小鼠、擬南芥、酵母FGENESH/all.htmSoftberry真核GeneMark/GeneMark/GIT原核GLIMMER/genomes/MICROBES/glimmer_3.cgi/software/glimmer
Maryland原核FgeneSB/all.htmSoftberry細(xì)菌FgeneSV/all.htmSoftberry病毒Generation/generation/ORNL原核FGENESH+/all.htmSoftberry原核GenomeScan
/genomescan.html
MIT脊椎、擬南芥、玉米GeneWise
http://www.ebi.ac.uk/Wise2/EBI人、蠕蟲GRAIL/grailexp/ORNL人、小鼠、擬南芥、果蠅第十八頁,共八十四頁,編輯于2023年,星期日例:胰島素由A、B兩個肽鏈組成。人胰島素(InsulinHuman)A鏈有11種21個氨基酸,B鏈有15種30個氨基酸,共16種51個氨基酸組成。
Accession:NM_000207“AGCCCTCCAGGACAGGCTGCATCAGAAGAGGCCATCAAGCAGATCACTGTCCTTCTGCCATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGACCTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTGGCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGCTCCCTCTACCAGCTGGAGAACTACTGCAACTAGACGCAGCCCGCAGGCAGCCCCACACCCGCCGCCTCCTGCACCGAGAGAGATGGAATAAAGCCCTTGAACCAGCAAAA”第十九頁,共八十四頁,編輯于2023年,星期日第二十頁,共八十四頁,編輯于2023年,星期日ORFFinder
是一個圖形的序列分析工具,分析并找到序列的ORF區(qū)(開放讀碼框架),這個工具使用標(biāo)準(zhǔn)的或其它特殊的遺傳密碼子列出所有可能的ORF區(qū),并推出氨基酸序列。第二十一頁,共八十四頁,編輯于2023年,星期日點擊結(jié)果出現(xiàn)六個圖形,這是根據(jù)六種不同的編碼方式得到的(包括正反鏈)。右邊出現(xiàn)各個預(yù)測的ORF區(qū)的長度與編碼方式。點其中一個就可以看該區(qū)域的序列,并且有推導(dǎo)的氨基酸序列。一般來講,長的ORF區(qū)基本上都是正確的,有可能編碼基因。第二十二頁,共八十四頁,編輯于2023年,星期日五、啟動子分析原核生物真核生物TTGACATATAATAmRNA+1-10-35PyAPyTATAATGC區(qū)CAAT區(qū)mRNA+1-40-25-110增強子上游啟動子元件,UPE核心啟動子元件轉(zhuǎn)錄起始位點第二十三頁,共八十四頁,編輯于2023年,星期日啟動子預(yù)測:1、CpGProD(CpG
Island
Promoter
Detection)
,
預(yù)測哺乳動物
CpG
島相關(guān)啟動子序列的程序。http://pbil.univlyonl.fr/software/cpgprod_query.html
2、Dragon
Promoter
Finder
啟動子預(yù)測工具,適用于預(yù)測脊椎動物啟動子,支持多種序列格式。
.sg/promoter/promoter1_5/DPF.hm3、McPromoter,麻省理工大學(xué)開發(fā)的真核生物
(
主要是脊椎動物
/
果蠅
)DNA
轉(zhuǎn)錄起始位點預(yù)測工具,其目標(biāo)是盡量精確地預(yù)測
RNA
轉(zhuǎn)錄酶
II
的啟示轉(zhuǎn)錄位點,需要提供一個
來接收預(yù)測結(jié)果,可以特異的選擇脊椎動物或是果蠅。
/generegulation/McPromoter/4、
PromoterScan,啟動子區(qū)預(yù)測工具,其預(yù)測基于比較所提交的序列與真核生物
RNA
聚合酶
II
啟動子序列同源性。/molbio/proscan/5、TESS,
Transcription
Element
Search
System
是一款預(yù)測啟動子上轉(zhuǎn)錄因子結(jié)合位點的工具,通過所提交的序列與
TRANSFAC,
JASPAR,
IMD,
CBIL-GibbsMat
數(shù)據(jù)庫相比對,獲得啟動子上可能存在結(jié)合位點。/cgi-bin/tess/tess?RQ=SEA-FR-Query
第二十四頁,共八十四頁,編輯于2023年,星期日推薦:
丹麥技術(shù)大學(xué)的生物序列分析中心http://www.cbs.dtu.dk/services/Promoter/第二十五頁,共八十四頁,編輯于2023年,星期日啟動子預(yù)測是一個復(fù)雜的,十分有技術(shù)含量的工作,需要大量的推斷和演算,還需要用實驗去驗證。因此對于啟動子的預(yù)測,一個、兩個軟件或者算法都是不全面的,需要綜合去考慮。另一個很好用的啟動子預(yù)測網(wǎng)站/seq_tools/promoter.html利用神經(jīng)網(wǎng)絡(luò)算法預(yù)測真核及原核生物啟動子第二十六頁,共八十四頁,編輯于2023年,星期日例:Humanobeseprotein(ob)geneU43589第二十七頁,共八十四頁,編輯于2023年,星期日對于分析的結(jié)果要結(jié)合起始密碼子前的非編碼區(qū)序列進(jìn)行綜合分析,啟動子區(qū)存在CAAGbox,TATAbox,-10,-35等特征區(qū)第二十八頁,共八十四頁,編輯于2023年,星期日PromoterpredictionpracticalexerciseRegulationofHumanobeseproteingenePracticalexerciseEnriqueBlanco-eblanco@imim.esAbstract:Inthisexercise,thepreviouslyannotatedpromoterregionoftheLeptingene(瘦素,obeseproteingene(肥胖基因))willbeusedtotestdifferentmethodsforpredictingregulatoryelements.Firstofall,amatrixwillbeconstructedfromarealcollectionofsites.Secondly,theTRANSFACdatabasewillbeaccessedtoextractrealmatricesandthen,thepromotersequencewillbescannedsearchingforpromotermotifs.Finally,duetothenumberoffalsepositivesthatwillbeobtained,aphylogeneticapproach(系統(tǒng)發(fā)育樹)willbesuggested.Bothhumanandmousehomologueswillbealignedtoelucidate(解釋)thecoordinatesoftheactualbindingsites.
自學(xué),不做要求第二十九頁,共八十四頁,編輯于2023年,星期日A.DescriptionofthegeneStep1.Retrieve(檢索)theannotationandthesequenceofthegene(EMBLdatabase)
GotoEMBLdatabaseatEBI
mRNAsequence:TypeU43653inNucleotidesequences
Ontop,clickovertheEMBL:HS436531entryHavealookatthedescription:IDs,references,attributes,sequencesSearchtheFeatureofCodingSequence(FTCDS).ClickoverandchecktheORFcorrectness:thebeginningandtheendofthesequencecorrespondrespectivelytotheStartandStopcodons?Accession:U43653/nuccore/1226243?report=fasta第三十頁,共八十四頁,編輯于2023年,星期日Step2.LearnmoreabouttheLeptingeneUsingagenomebrowserGobacktotheinitialscreenthatcontainedtheresultofyourfirstquery.Ontheleft,youwillfindtheDisplayOptionsbox.SelecttheFastaSeqsviewandpressthebuttonApplyDisplayOptions
OpentheUCSCgenomebrowser
SelectthealignmentprogramBlat(humangenome)PastetheFastasequenceoftheLeptingeneandsubmitthequeryBrowsethefirsthitinthelistofmatches
第三十一頁,共八十四頁,編輯于2023年,星期日Havealookatthedifferentdisplayingoptions.Werecommendtozoomout10xtheinitialpicturetoexplorethegenomiclandscapearoundthegene.Forinstance,tryto:obtaintheRefSeqgenesequence
checkthepresenceofaCpGislandinthepromoterexaminethemRNAssupportingthegeneannotationevaluatetheconservationbetweenorthologues(同源)RefSeqgenesequenceCpGislandmRNAs第三十二頁,共八十四頁,編輯于2023年,星期日ParameterControlit第三十三頁,共八十四頁,編輯于2023年,星期日Task1:Whatdoyouhavetodoifyouwanttoseethecomputationallypredictedtranscriptionfactorbindingsites?
Task2:TrytolocatethesequenceinothergenomesusingBLAT(e.g.mouse)GotoLocusLinkdatabaseatNCBI
TypeU43653inQuery
ClickontheentryLEP(leptin)
Identifymainfieldsintheentry:functionaldescription,NMandNPannotationsevaluatetheconservation第三十四頁,共八十四頁,編輯于2023年,星期日CLICK第三十五頁,共八十四頁,編輯于2023年,星期日Step3.PROMOTERinformation:sequenceandexperimentalannotation
Thistrackdescribesthelocationoftranscriptionstartsites(TSS)throughoutthehumangenomealongwithaconfidencemeasureforeachTSSbasedonexperimentalevidence.
第三十六頁,共八十四頁,編輯于2023年,星期日實際上,我們query的序列(U43653)是mRNA,不是DNA,因為mRNA是已經(jīng)轉(zhuǎn)錄并剪接過的序列,無法從mRNA上預(yù)測出啟動子區(qū),要預(yù)測啟動子需要的是DNA(基因組或者染色體序列),前面的演示是希望通過mRNA序列定位到染色體上,從而找到真正的基因組DNA序列,為啟動子的預(yù)測提供基礎(chǔ)。點擊進(jìn)入details頁面第三十七頁,共八十四頁,編輯于2023年,星期日……………………DNAmRNA第三十八頁,共八十四頁,編輯于2023年,星期日定位啟動子區(qū)(TSS+TPBS)HumanChromosome7:127880000-127882000SCAN第三十九頁,共八十四頁,編輯于2023年,星期日第四十頁,共八十四頁,編輯于2023年,星期日第四十一頁,共八十四頁,編輯于2023年,星期日>chr7:127880000-127882000TTATTGAGACAGAGTTTCACTCTTGTTGCCCAGGCTGTAGTGCAATGGTCTGATCTTGGCTCACTGCAACCTCCACTTCCCAGGTTCAAGCCATTCTCCTGCCTCAGCCTCTCAAGTAGCTGGGATTACAGACACTCACCACCACACCTGGCTAATTTTGTATTTTTAGTAGAGATGAGGTTTCACCATGTTGGCCAGGCTGGTCTCGAAATCCTGACCTCAGGTGATCCACCCACCTTGGCCTCCCAAAGTGCTGGGATTACAGGCTTGAGCTACCACGCCTGGCTGGGTTGGTTCTCAATGGAGTGGTTTGTTTTTGGAGCTGCTCTGCGCAGTGGGGACCAGAATAGGCCTGGGTTCCTAGCCCATTGCTATTCCTTACCAGCTGTGGATTCTAAGGAAAGTCATTTAACCTCGCTGGACCTTAGATTCCTCATCCCTGAAGCCCAAGGGTAAAACAAAACAAAACAAAACAAAACAAACCAACCCATCATGTAAAGCGGGGAACTACAAACGATACAGGTGAAACATGCCTACCACACCACTCACAGGCTATGATGACAAAAACGTGGCTACATCTGGGACCACCCCCCAACCCCCACTTTGTACGTAGGAAATACGGAGTTGAGGATGGAGACCCACAGTATGTCCAGAGTGTCCCCAAAGGCCACAGTGCCCGCCTGGAGCCCTCCAGAGAGCGTGCACTCCCTGGGGTGCCAGCCAGAGACAACTTGCCCTGAGGCTTGGAACTCGATTCTCCGCGTGCCAGAGAAGGGGTGGGACTTCAGAACCCCCAACCCCGCAATCTGGGTCGGGGAGCCTGGCGCACTGCGGGCCGCTCCCTCTAACCCTGGGCTTCCCTGGCGTCCAGGGCCGTCGGGGCCGAGTCCCGATTCGCTCCCACCCCGAAGCCGCGCCAGGACCAACGAGGGCGCAGCCGTATGCCCCAGCCCGCTCCGCGGAGCCCCTCACAGCCACCCCCgCCCCGACCGCGCCCCGCGCGGCTCGAAGCACCTTCCCAAGGGGCTGGTCCTTGCGCCATAGTCGCGCCGGAGCCTCTGGAGGGACATCAAGGATTTCTCGCTCCTACCAGCCACCCCCAAATTTTTGGGAGGTACCCAAGGGTGCGCGCGTGGCTCCTGGCGCGCCGAGGCCCTCCCTCGAGGCCCCGCGAGGTGCACACTGCGGGCCCAGGGCTAGCAGCCGCCCGGCACGTCGCTACCCTGAGGGGCGGGGCGGGAGCTGGCGCTAGAAATGCGCCGGGGCCTGCGGGGCAGTTGCGCAAGTTGTGATCGGGCCGCTATAAGAGGGGCGGGCAGGCATGGAGCCCCGTAgGAATCGCAGCGCCAGCGGTTGCAAGGTAAGGCCCCGGCGCGCTCCTTCCTCCTTCTCTGCTGGTCTTTCTTGGCAGGCCACAGGGCCCCACACAACTCTGGATCCCGGGGAAACTGAGTCAGGAGGGATGCAGGGCGGATGGCTTAGTTCTGGACTATGATAGCTTTGTACCGAGTTCTAGCCAGATAGAAGGTTACCGGGAGCTGGGGAGCGTTGGATTTGCTGCTGGGCTGTGCCGGTGCCCAGAAGGCAGGACCTTGCAGAACCAGCCAGGTCCCTGGGAGACTGTCAGACCCACCAACCTGGTGGCATTCGCAGAGCTGAGATGCATTGGAAATTGCCTTGGGCACATCCCCAAAGATCAGGATGTCCCACCCCAGTCTGAAGGAGATAAAGTTGGGGGTAGGAGAGACGCAGATGCAAGTGATCAGTCTCAGTCCCAGACATTGCCTTGCTCTGCGGGTAGGAATTCAGGATTCATTTTCCAGGGAAGTTCCTGACCTCTGAATGAGAGGGGCTGTGTAAGGCCAATGCCTGGGAGGAAGGCAAGGATGAGTAGAGGTGGGGGGAAACAAGTGTCAGGAAGACTCAAAATCTTCCAGAGAAATTGTGCAGGGTCTTACCAGATCTGTCCTCAAAGCCATGCAAATTGCCTTCTTTGCAATG
>gb|U43589.1|HSU43589:1922-2922Humanobeseprotein(ob)gene,partialpromotersequence
/seq_tools/promoter.html第四十二頁,共八十四頁,編輯于2023年,星期日>chr7:127880000-127882000TTATTGAGACAGAGTTTCACTCTTGTTGCCCAGGCTGTAGTGCAATGGTCTGATCTTGGCTCACTGCAACCTCCACTTCCCAGGTTCAAGCCATTCTCCTGCCTCAGCCTCTCAAGTAGCTGGGATTACAGACACTCACCACCACACCTGGCTAATTTTGTATTTTTAGTAGAGATGAGGTTTCACCATGTTGGCCAGGCTGGTCTCGAAATCCTGACCTCAGGTGATCCACCCACCTTGGCCTCCCAAAGTGCTGGGATTACAGGCTTGAGCTACCACGCCTGGCTGGGTTGGTTCTCAATGGAGTGGTTTGTTTTTGGAGCTGCTCTGCGCAGTGGGGACCAGAATAGGCCTGGGTTCCTAGCCCATTGCTATTCCTTACCAGCTGTGGATTCTAAGGAAAGTCATTTAACCTCGCTGGACCTTAGATTCCTCATCCCTGAAGCCCAAGGGTAAAACAAAACAAAACAAAACAAAACAAACCAACCCATCATGTAAAGCGGGGAACTACAAACGATACAGGTGAAACATGCCTACCACACCACTCACAGGCTATGATGACAAAAACGTGGCTACATCTGGGACCACCCCCCAACCCCCACTTTGTACGTAGGAAATACGGAGTTGAGGATGGAGACCCACAGTATGTCCAGAGTGTCCCCAAAGGCCACAGTGCCCGCCTGGAGCCCTCCAGAGAGCGTGCACTCCCTGGGGTGCCAGCCAGAGACAACTTGCCCTGAGGCTTGGAACTCGATTCTCCGCGTGCCAGAGAAGGGGTGGGACTTCAGAACCCCCAACCCCGCAATCTGGGTCGGGGAGCCTGGCGCACTGCGGGCCGCTCCCTCTAACCCTGGGCTTCCCTGGCGTCCAGGGCCGTCGGGGCCGAGTCCCGATTCGCTCCCACCCCGAAGCCGCGCCAGGACCAACGAGGGCGCAGCCGTATGCCCCAGCCCGCTCCGCGGAGCCCCTCACAGCCACCCCCgCCCCGACCGCGCCCCGCGCGGCTCGAAGCACCTTCCCAAGGGGCTGGTCCTTGCGCCATAGTCGCGCCGGAGCCTCTGGAGGGACATCAAGGATTTCTCGCTCCTACCAGCCACCCCCAAATTTTTGGGAGGTACCCAAGGGTGCGCGCGTGGCTCCTGGCGCGCCGAGGCCCTCCCTCGAGGCCCCGCGAGGTGCACACTGCGGGCCCAGGGCTAGCAGCCGCCCGGCACGTCGCTACCCTGAGGGGCGGGGCGGGAGCTGGCGCTAGAAATGCGCCGGGGCCTGCGGGGCAGTTGCGCAAGTTGTGATCGGGCCGCTATAAGAGGGGCGGGCAGGCATGGAGCCCCGTAgGAATCGCAGCGCCAGCGGTTGCAAGGTAAGGCCCCGGCGCGCTCCTTCCTCCTTCTCTGCTGGTCTTTCTTGGCAGGCCACAGGGCCCCACACAACTCTGGATCCCGGGGAAACTGAGTCAGGAGGGATGCAGGGCGGATGGCTTAGTTCTGGACTATGATAGCTTTGTACCGAGTTCTAGCCAGATAGAAGGTTACCGGGAGCTGGGGAGCGTTGGATTTGCTGCTGGGCTGTGCCGGTGCCCAGAAGGCAGGACCTTGCAGAACCAGCCAGGTCCCTGGGAGACTGTCAGACCCACCAACCTGGTGGCATTCGCAGAGCTGAGATGCATTGGAAATTGCCTTGGGCACATCCCCAAAGATCAGGATGTCCCACCCCAGTCTGAAGGAGATAAAGTTGGGGGTAGGAGAGACGCAGATGCAAGTGATCAGTCTCAGTCCCAGACATTGCCTTGCTCTGCGGGTAGGAATTCAGGATTCATTTTCCAGGGAAGTTCCTGACCTCTGAATGAGAGGGGCTGTGTAAGGCCAATGCCTGGGAGGAAGGCAAGGATGAGTAGAGGTGGGGGGAAACAAGTGTCAGGAAGACTCAAAATCTTCCAGAGAAATTGTGCAGGGTCTTACCAGATCTGTCCTCAAAGCCATGCAAATTGCCTTCTTTGCAATG
第四十三頁,共八十四頁,編輯于2023年,星期日B.BuildingrepresentationsofbindingsitesStep4.AccessingTransfacdatabaseGotoTRANSFACdatabase
Note:TRANSFACisfreeforusersfromnon-profitorganizationsbutrequiresaregistrationInTRANSFAC6.0:chooseSearchactionSelectthetableofFactor
EnterthefactornameTBP(tatabindingprotein)SetFactorName(FA)assearchingfieldandsubmitthequerySelect(T00794):youwillfindadescriptionofthefactorinhuman(Ontheleft)Findthesefields:(BS)forbindingsites,(MX)formatricesSelectoneofthesitesforinspectionB-E,requirearegistration.第四十四頁,共八十四頁,編輯于2023年,星期日Step5.BuildingamodelfromasetofactualsitesThisisacollectionofrealTBPsitesextractedfromTRANSFAC.ObservethedifferentcharacteristicsandtheconservationofthecoreOpentheCLUSTALWwebserveratEBIPastethecollectionof23TBPsitesSwitchontheboxes:ALIGNMENT=fastCOLORALIGNMENT=yesOUTPUTFORMAT=alnwo/numbersPresstheRunbuttonOpentheWebLogowebserver
PastetheCLUSTALalignmentintothecorrespondingboxActivateDNA/RNAintheSequencetypeboxSubmitthequery(Createlogo)toobtainarepresentationforthecollectionofTBPsitesasthefollowing.Noticethehighligthedcoreofthebindingsite(TATAAAA)第四十五頁,共八十四頁,編輯于2023年,星期日Figure2.Graphicalrepresentationofthealignmentof23realTATAbindingsitesStep6.ObtainingtheTRANSFACpositionweightmatricesGotoTRANSFACdatabase
InTRANSFAC6.0:chooseSearchactionSelectthetableofMatrix
EnterthefactornameTATA
SetFactorName(FA)assearchingfieldandsubmitthequeryTherearetwoentries:M00252andM00216SelectM00252matrixRepeattheproceduretorecovertheSP1(M00008)andc/EBP(M00159)matricesConservethewindowscontainingthethreematricesAlternativesolution:
PROMOisadatabaseofpre-computedmatricesthatallowsyoutoselectthespeciesorgroupofspeciesfromwhichanewweightmatrixwillbeconstructedforagivenfactor,usingTRANSFACbindingsites.第四十六頁,共八十四頁,編輯于2023年,星期日C.Computationalpredictionofregulatoryelements(bindingsites)Step7.SearchingfortheannotatedregulatoryelementswithcurrentmatricesOpenRSAtoolswebserver
Ontheleftframe,clickonPatternmatching-patser(matrices)
PastetheHumanobeseproteingenepromoter(1000bps)SelecttransfacasMatrixFormatandpastetheTransfacTATAmatrix(includingmatrixheader)SetOrigintostart(ofthesequence)andpressGO
Checktheresults:oneofthesetwoputativeTATAsitesistherealone(usetheannotations)Toobtainagraphicalrepresentationofpredictions,pressfeaturemap
SetasDisplaylimitsfrom0to1000andpressGO
RepeattheprocedureusingtheSP1andcEBPmatrices,tryingtofindtherealsitesintothepredictions.Noticetheamountoffalsepositivespredictedonlyusingonematrix第四十七頁,共八十四頁,編輯于2023年,星期日Step8.AbinitiopromoterpredictionGotoTRANSFACapplications
ChoosetheprogramMatchtoscanpromotersequencessearchingforsitesusingthecompletelibraryofTRANSFACmatricesPastetheHumanobeseproteingenepromoterinthetextareaSetcut-offs:0.75(matrixsimilarity)and0.85(coresimilarity)
SubmitthequeryFindtherealannotations(e.g.TBPandCEBP)inthistextoutput.NoticethehugenumberoffalsepositivepredictionsFigure3.GraphicalrepresentationofpredictedbindingsitesusingMATCH+TRANSFACinthepromotersequenceU43589(allofthepredictionsarenotshown)第四十八頁,共八十四頁,編輯于2023年,星期日D.Comparativepromoterprediction(human/mouse)Step9.Human-MousecomparisonsWehaveobtainedthehomologousgenepromoter(FASTA,1000bpsupstreamtheTSS)inmouse[Entry:U36238]
Now,thesearetheannotations(promoterelements)inbothsequences(humanandmouse)Thisisagraphicalcomparisonofbothpromoterannotations.ObservethephylogeneticfootprintingorconservationintheregulatoryelementsStep10.Locatingshortconservedregulatoryelements
ConnecttoBlast2Sequenceswebserver
Pastebothsequences[humanpromoterandmousepromoter]inthecorrespondingtextboxesTodetectshortconservedstretchesofDNA,setthefollowingparameters:Mismatch=-5Gapextension=0NoticethatsomeshortverywellconservedHSPs(blastfragments)attheendofthesequence.Checktheannotationstoverifywhethertheycorrespondtorealbindingsitesornot第四十九頁,共八十四頁,編輯于2023年,星期日Now,abinitiopromoterpredictionserchescanbeperformedagainbutonlyonthoseinterestingregions,usingRSAtoolsorTRANSFACWhenmorethan2genomesareavailable,amultiplelocalalignmentcanbeperformedwithprogramssuchasMEMEorAlignaceFigure5.GraphicalcomparisonofblastnalignmentofhumanpromoterU43589anditshomologueU36238inmouse第五十頁,共八十四頁,編輯于2023年,星期日E.ResultsHereyoucanfindthesolutionstoeveryexercise:Geneannotation:EMBLrecordGeneannotation:EMBLrecord(plaintext)FASTAsequenceoftheentryU43653Geneannotation:LocuslinkPromoterannotation:PubMedrecordPromoterannotation:NCBIentryU43589TBPsiteMultiplealignmentofTBPsTBPsequencelogoTATAboxmatrixSP1matrixcEBPmatrixPutativeTATAboxes(text)PutativeSP1sites(text)PutativecEBPsites(text)PutativeTATAboxes(plot)PutativeSP1sites(plot)PutativecEBPsites(plot)Match-TRANSFACpredictionPromoterannotation:NCBIentryU36238(mouse)Blast2seqalignment第五十一頁,共八十四頁,編輯于2023年,星期日六、CpG島分析CpG島(CpGisland):CpG雙核苷酸在人類基因組中的分布很不均一,而在基因組的某些區(qū)段,CpG保持或高于正常概率,這些區(qū)段被稱作CpG島。CpG島主要位于基因啟動子(promotor)和第一外顯子區(qū)域,約有60%以上基因的啟動子含有CpG島。許多基因的啟動子(promotor)或“起始”區(qū)域周圍都含有CpG島,CpG島的C容易被甲基化形成T,從而經(jīng)常被抑制。啟動子區(qū)的高甲基化導(dǎo)致抑癌基因失活是人類腫瘤所具有的共同特征之一,而且這種高甲基化是導(dǎo)致抑癌基因失活的又一個機制。第五十二頁,共八十四頁,編輯于2023年,星期日CpG_MI:IdentifyingFunctionalCpGIslandusingMutualInformation8/cpgmi/TATAATATAATATATGACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATACGCGCGCGCGCGCGCGCGCGATATATATATATATTATATATTTTTATACATTATATATATAAACTATATAACAATATAACATATTATGTGTATAATATATATTACATATAGTATAAAATATATTATATTATATTATATTATATTATATTATATTATATTAGACTGTATTACTAACAAAATTATAAACAGAAACCCCAGCAAAAATATCCTATGTATATTTGAAATTTTAGGTCAAAAATAAAATAATTTAATGTGCAGCAATTAA第五十三頁,共八十四頁,編輯于2023年,星期日CpGIsland分析CpGIsland/cpgislands2/cpg.aspxWebCpGfinder/berry.phtml?topic=cpgfinder&group=programs&subgroup=promoterWebCpGPlot/CpGReport/Isochorehttp://www.ebi.ac.uk/emboss/cpgplot/index.htmlWeb生物軟件網(wǎng)/國產(chǎn)軟件第五十四頁,共八十四頁,編輯于2023年,星期日七、外顯子和內(nèi)含子分析外顯子:結(jié)構(gòu)基因中編碼蛋白質(zhì)的序列稱為外顯子。內(nèi)含子:結(jié)構(gòu)基因中不編碼蛋白質(zhì)的序列稱為內(nèi)含子。外顯子和內(nèi)含子存在于真核生物中,原核生物多以間隔序列出現(xiàn)。外顯子和內(nèi)含子的角色可以相互轉(zhuǎn)化。Exon1Exon3IIIIExon25`UTR3`UTRSplicingExon1Exon3Exon2Exon1Exon3Exon2Exon1Exon2Exon3Exon2Exon1Exon3第五十五頁,共八十四頁,編輯于2023年,星期日原理:外顯子和內(nèi)含子的預(yù)測是基于RNA的剪切原理進(jìn)行的。RNAsplice的保守序列是“GU-----AG”,即內(nèi)含子的5`端是GU,3`端是AG。當(dāng)然其附近的序列也是有規(guī)律的,但沒那么保守。第五十六頁,共八十四頁,編輯于2023年,星期日方法:1、Augustus:功能強大(http://bioinf.uni-greifswald.de/augustus/),需要Linux操作系統(tǒng),并且要下載安裝。2、SplicePort:功能較全面(/)3、GeneSplicer:針對Plasmodiumfalciparum、A.thaliana、human、Drosophila、andrice4、NetGene2只針對human、C.elegans、A.thaliana5、MaxEntScan:只針對human第五十七頁,共八十四頁,編輯于2023年,星期日第五十八頁,共八十四頁,編輯于2023年,星期日剪接連接點(splicingjunctions)是指在切斷和重接位點處的兩旁的順序。在內(nèi)含子左側(cè)的連接點稱為供體(donor)。在內(nèi)含子右側(cè)的稱為受體(acceptor)。第五十九頁,共八十四頁,編輯于2023年,星期日Genescan工具/GENSCAN.html結(jié)果返回到郵箱(可選)提交序列提交序列文件運行GENSCAN選擇物種顯示氨基酸或CDS序列序列名稱(可選)是否顯示非最優(yōu)外顯子第六十頁,共八十四頁,編輯于2023年,星期日基因、外顯子及類型正鏈、負(fù)鏈預(yù)測單元起始、終止及長度相位編碼區(qū)打分值可信概率、得分值GENSCAN輸出結(jié)果:文本第六十一頁,共八十四頁,編輯于2023年,星期日GENSCAN輸出結(jié)果:圖形exon1exon5exon4exon3exon2第六十二頁,共八十四頁,編輯于2023年,星期日提交待分析序列提交同源蛋白質(zhì)序列運行GenomeScanGenomescan工具/genomescan.html第六十三頁,共八十四頁,編輯于2023年,星期日GenomeScan輸出結(jié)果:文本預(yù)測外顯子位置、可信度等信息同源比對信息預(yù)測結(jié)果氨基酸序列第六十四頁,共八十四頁,編輯于2023年,星期日GenomeScan輸出結(jié)果:圖形第六十五頁,共八十四頁,編輯于2023年,星期日外顯子、內(nèi)含子剪切位點識別:NetGene2http://www.cbs.dtu.dk/services/NetGene2/提交序列選擇物種第六十六頁,共八十四頁,編輯于2023年,星期日NetGene2輸出結(jié)果供體位點受體位點可信度第六十七頁,共八十四頁,編輯于2023年,星期日mRNA剪切位點識別:SpideyNCBI開發(fā)的在線預(yù)測程序用于mRNA序列同基因組序列比對分析第六十八頁,共八十四頁,編輯于2023年,星期日序列在線提交形式:界面中有兩個窗口:上方窗口用于輸入基因組序列(直接粘貼序列或用GenbankID/AC號)下方窗口用于輸入cDNA/mRNA序列(直接粘貼序列或用GenbankID/AC號)可同時輸入多條cDNA/mRNA序列與同一條基因組序列進(jìn)行分析Spidey序列提交頁面輸入基因組序列或序列數(shù)據(jù)庫號輸入mRNA.txt文檔中的6條序列判斷用于分析的序列間的差異,并調(diào)整比對參數(shù)不受默認(rèn)內(nèi)含子長度限制,默認(rèn)長度:內(nèi)部內(nèi)含子為35kb,末端內(nèi)含子為100kb比對閾值選擇物種輸出格式第六十九頁,共八十四頁,編輯于2023年,星期日Spidey輸出結(jié)果外顯子對應(yīng)于基因組上的起始/結(jié)束位置外顯子對應(yīng)于mRNA/cDNA上的起始/結(jié)束位置外顯子長度一致性百分比錯配和gap序列聯(lián)配結(jié)果外顯子序號第一條藍(lán)色序列為基因組序列,橘黃色為外顯子供體、受體位點第七十頁,共八十四頁,編輯于2023年,星期日分析mRNA/cDNA的外顯子組成GeneSeqer/cgi-bin/gs.cgiWeb/LinuxSpidey/spideyWebPROT_MAP/berry.phtml?topic=prot_map&group=programs&subgroup=xmapWebSim4http://gamay.univ
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物業(yè)小區(qū)外墻保溫施工方案
- 聽評課記錄高中數(shù)學(xué)數(shù)列
- 金融市場深度解讀
- 家居設(shè)計季報總結(jié)
- 魯教版(五四制)地理六年級下冊《第三節(jié) 撒哈拉以南的非洲》聽課評課記錄6
- 江蘇省八年級生物下冊 第23章 第4節(jié) 人類的起源和進(jìn)化說課稿 蘇科版
- 2025年度進(jìn)口服裝代理服務(wù)合同范本二零二五
- 部編人教版道德與法治九上3.1《生活在民主國家》聽課評課記錄
- 2025年度裝配式建筑專用磚采購協(xié)議
- 2025年度跨境并購項目股份購買合同
- 中考現(xiàn)代文閱讀理解題精選及答案共20篇
- ESD測試作業(yè)指導(dǎo)書-防靜電手環(huán)
- 高頻變壓器的制作流程
- 春季開學(xué)安全第一課PPT、中小學(xué)開學(xué)第一課教育培訓(xùn)主題班會PPT模板
- JJG30-2012通用卡尺檢定規(guī)程
- 部編版人教版二年級上冊語文教材分析
- 艾賓浩斯遺忘曲線復(fù)習(xí)方法表格模板100天
- APR版制作流程
- 《C++程序設(shè)計》完整教案
- 美國LM2500艦用燃?xì)廨啓C
- RNA-seq研究方法與策略-zzz
評論
0/150
提交評論