




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第四章DNA序列分析1主要內(nèi)容§4.1引言§4.2序列的一般分析§4.3基因預(yù)測與鑒定§4.4非編碼區(qū)分析與調(diào)控元件識別2§4.3基因預(yù)測與鑒定3功能基因組學(xué)(Functionalgenomics):利用結(jié)構(gòu)基因組學(xué)研究所得的各種信息在基因組水平上研究編碼序列及非編碼序列生物學(xué)功能的學(xué)科。基因組學(xué)(genomics):研究生物體全基因組DNA的序列和屬性的學(xué)科。包括結(jié)構(gòu)基因組學(xué)和功能基因組學(xué)兩個方面。4一、基因預(yù)測方法基因預(yù)測方法包括兩類:1從基因組序列入手,識別基因2基于表達(dá)序列標(biāo)簽(EST)的基因鑒定從整體到局部從局部到整體目前還沒有一個基因預(yù)測工具可以完全正確地預(yù)測一個基因組中的所有基因(Matheetal.2002)5二、從基因組序列預(yù)測新基因從基因組預(yù)測新基因的方法大體上又可分為兩類:1)從頭預(yù)測法2)相似性比較預(yù)測法隨著HGP和其他模式生物基因組測序計劃的進(jìn)行,大量的基因組序列數(shù)據(jù)隨之產(chǎn)生,接下來一個重要的課題就是如何從這些序列中找到可能具有編碼產(chǎn)物的功能基因。6概念:是指直接利用基因以及外顯子/內(nèi)含子結(jié)構(gòu)在基因序列上已知的一些統(tǒng)計特征或信號,在基因組序列中直接預(yù)測基因的位置與組成。方法及常用軟件:1以隱馬爾可夫模式為基礎(chǔ)的算法:GENSCAN、Genie、HMMgene、Veil2以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的算法:GrailⅡ、GrailEXP_Perceval3以決策樹為基礎(chǔ)的算法:MZEF、MZEF-SPC4整合預(yù)測方法:FgeneH5其它算法:GeneID、GeneVeiw1從頭預(yù)測(ab
initioprediction
):7GENSCAN基因預(yù)測程序GENSCAN是美國麻省理工大學(xué)(MassachusettsInstituteofTechnology,縮寫:MIT)的ChristopherBurge于1997年開發(fā)成功的人類(包括脊椎動物)基因預(yù)測軟件。2001年又推出了升級版預(yù)測軟件Genomescan。后者整合了從頭預(yù)測和相似性搜索兩種觀測方法。(http:///GENSCAN.html)GENSCAN是目前“從頭”預(yù)測算法中應(yīng)用最廣泛,尤其是對基因編碼區(qū)預(yù)測最為成功的軟件之一。NCBI開發(fā)的參考序列(RefSeq)數(shù)據(jù)庫采用Genomescan,而EMBL開發(fā)的ENSEMBL采用GENSCAN8目前Christopher
Burge還開發(fā)了適用于果蠅、擬南芥、玉米的專用版本。對于非版本專用的物種,其預(yù)測準(zhǔn)確率會下降。
用脊椎動物版本進(jìn)行基因預(yù)測的準(zhǔn)確率
91基因數(shù)目
可能將兩個基因的外顯子歸并到一個基因,或者相反。2物種
GENSCAN主要是針對人類(或脊椎動物)基因組序列設(shè)計,用于其他物種準(zhǔn)確性可能降低。目前有適用于果蠅、玉米、擬南芥菜、秀麗線蟲的版本。原核生物和酵母的基因預(yù)測,建議用Glimmer或GeneMark軟件。3根據(jù)測試集得到的準(zhǔn)確性指標(biāo)可能與實際的情況不同4對各個結(jié)構(gòu)元件的預(yù)測準(zhǔn)確性不同
總體來說,對中間外顯子預(yù)測的準(zhǔn)確性高于起始外顯子和末端外顯子,外顯子的準(zhǔn)確性高于polyA或啟動子。對啟動子的預(yù)測較不可靠,建議用NNPPprogram
預(yù)測啟動子。5植物基因剪接位點的預(yù)測建議用SplicePredictor程序GENSCAN可能出現(xiàn)的誤差:10以人類基因組序列Z83819
為例進(jìn)行基因預(yù)測。中國生物信息中心(Biosino)也提供了GENSCAN的Web基因預(yù)測界面http:///pages/lab.htm應(yīng)用實例11步驟1進(jìn)入頁面,設(shè)置參數(shù)1)序列來源物種;2)顯示次優(yōu)外顯子(推薦0.1);3)輸出結(jié)果12步驟2上傳序列文件或粘貼序列可以TXT文本格式或Fasta格式(*.fasta)13步驟3點擊按鈕RunGENSCAN,開始GENSCAN的預(yù)測程序,獲得預(yù)測結(jié)果預(yù)測的基因和外顯子統(tǒng)計結(jié)果兩種結(jié)果表示形式:1)文字結(jié)果2)圖形化結(jié)果14將預(yù)測出的基因翻譯成蛋白序列15文字部分:1)預(yù)測出的所有外顯子詳細(xì)統(tǒng)計信息2)開放閱讀框序列及其所編碼的氨基酸序列3)第三部分是對第一部分結(jié)果中出現(xiàn)的統(tǒng)計參數(shù)進(jìn)行解釋圖形結(jié)果:PDF格式和PS格式16Z83819預(yù)測結(jié)果PDF17表頭說明18Z83819-Reversed預(yù)測結(jié)果19如果對原核生物及酵母的基因組進(jìn)行預(yù)測,建議采用Glimmer或GeneMark程序http:///GeneMark/或NCBI站點提供的Glimmer和GeneMark/genomes/MICROBES/glimmer_3.cgihttp:///genomes/MICROBES/genemark.cgi20利用相似性搜索的方法來發(fā)現(xiàn)新基因是目前國際上另一個非常通用且成熟的方法。2相似性比較預(yù)測比較基因組學(xué):就是直接通過比較各個不同物種之間的基因組序列來對那些進(jìn)化上保守的基因進(jìn)行研究。通過對不同物種來源的基因組序列進(jìn)行相似性比較,以實現(xiàn)同源新基因的快速識別是比較基因組學(xué)的一個重要研究方向。21有2個重要的軟件可實現(xiàn)全基因組比較預(yù)測1)SGP-1SGP-1是德國MaxPlanck研究所生物信息學(xué)小組開發(fā)的同源基因預(yù)測程序。http://jakob.genetik.uni-koeln.de/bioinformatik/software/sgp-1/2)VISTAVISTA是美國伯克利國家實驗室開發(fā)的一個基因比對工具。http:///vista/index.shtml22主要區(qū)別:SPG-1能同時對基因組序列進(jìn)行外顯子預(yù)測后再進(jìn)行同源性比較。尤其適用于比較兩個完全未知的基因組序列。VISTA則要求提供一個所謂的基礎(chǔ)物種的基因組序列結(jié)構(gòu)信息,然后在此基礎(chǔ)上來預(yù)測其他物種的基因組序列中高度同源的基因結(jié)構(gòu)。尤其適用于預(yù)測已知某個物種的基因在其它物種基因組中的同源基因。23SGP-1主頁24VISTA主頁25VISTA比較預(yù)測頁面26除了基因組序列,目前最容易得到的也是信息量最大的基因鑒定數(shù)據(jù)來源就是各個物種的表達(dá)序列標(biāo)簽(EST)數(shù)據(jù)庫。這一方法又稱為基因的電子克隆或電子延伸。三、從EST鑒定新基因概念:
EST(EspressedSequenceTag,表達(dá)序列標(biāo)簽)指在進(jìn)行cDNA序列測定過程中所獲得的序列片段(200-600bp)。它們代表了mRNA序列的一部分,也代表了相應(yīng)基因的表達(dá)情況。
27其基本過程是:將待分析的序列(稱為種子序列)用Blast搜索EST數(shù)據(jù)庫,選擇與種子序列具有較高同源性的EST序列(一般要求在重疊40個堿基范圍內(nèi)有95%以上同源性,稱為匹配序列)將匹配序列與種子序列裝配成新生序列,此過程稱為片段重疊群分析(contiganalysis)再以此新生序列作為種子序列重復(fù)上述過程,直至沒有新的匹配序列入選,從而生成最后的新生序列。28重疊群(contig):是兩個或兩個以上的EST序列或轉(zhuǎn)錄序列組成的一致序列(consensussequence)對于一個新的序列,如何進(jìn)行新基因的鑒定,我們必須首先考慮的幾個問題:1)該序列是否可能為新基因?2)該序列是否被包含在某個EST重疊群?3)如何進(jìn)行EST重疊群的拼接和組裝?4)拼接后的一致序列是否為全長cDNA?291)該序列是否可能為新基因?采用相似性搜索的方法來考察新序列代表的基因是否已被他人測序并存儲至GenBank數(shù)據(jù)庫中。一般地,應(yīng)同時在核酸和氨基酸水平上進(jìn)行相似性搜索。如果至少有一個匹配結(jié)果滿足匹配長度大于100bp,序列一致性大于95%,匹配長度占新序列總長度的80%以上,說明該序列代表的基因序列已被收錄入GenBank中。302)該序列是否被包含在某個EST重疊群?由于目前基于EST的計算機(jī)克隆是在EST重疊群基礎(chǔ)上進(jìn)行的,因此如果一個實驗中所獲得序列在EST數(shù)據(jù)庫中找不到任何部分相似的EST,那么就意味著無法構(gòu)建相應(yīng)的EST重疊群,從而也不能進(jìn)一步進(jìn)行計算機(jī)克隆。由于EST數(shù)據(jù)庫海量增長,這種可能性很小。兩種方法建立重疊群(1)利用Blastn直接搜索EST,對于獲得的EST重疊群可利用拼接程序進(jìn)行人工拼接,得到一致序列。(2)直接利用UniGene數(shù)據(jù)庫的衍生數(shù)據(jù)庫如Genexpress
Index、GeneNest系統(tǒng)、TIGR的THC等,將獲得的EST重疊群自動拼接得到一致序列。313)如何進(jìn)行EST重疊群的拼接和組裝?(1)人工拼接程序:CAP(contigassemblyprogram)該程序是中國人所編制的序列拼接工具,最早出于1992年。目前的版本是CAP4,已成為世界上許多測序中心首選的序列拼接工具。http://pbil.univ-lyon1.fr/cap3.php(2)自動拼接程序:GeneNest系統(tǒng),http://genenest.molgen.mpg.de/32CAP3拼接程序序列格式要求:1)必須為Fasta格式2)序列中不能有數(shù)字和空格。33拼接結(jié)果34雙序列比對結(jié)果,兩條序列100%匹配354)拼接后的一致序列是否為全長cDNA?確定全長cDNA的策略大致包括對一致序列進(jìn)行轉(zhuǎn)錄起始位點區(qū)、第一個起始密碼子、Kozak規(guī)則、開放閱讀框、終止密碼子和3′端UTR中的polyA加尾信號等的基因特征序列的確認(rèn)。Kozak規(guī)則:該規(guī)則是基于真核基因結(jié)構(gòu)的分析統(tǒng)計結(jié)果。第一個起始密碼子ATG側(cè)翼序列的堿基分布所滿足的統(tǒng)計規(guī)律,若第一個ATG中的堿基A、T、G分別標(biāo)為1、2、3位,則Kozak規(guī)則可描述如下:①第4位的偏好堿基為G;②ATG的5′端約15bp范圍的側(cè)翼序列內(nèi)不含堿基T;③在-3,-6,和-9位置,G為偏好堿基;④除-3,-6,和-9位,在整個側(cè)翼序列區(qū),C是偏好堿基。36§4.4非編碼區(qū)分析與調(diào)控元件識別37真核生物基因序列中,絕大部分序列是非編碼序列。人類基因組中,僅有3%的序列為編碼序列。非編碼序列并非沒有生物意義,相反這部分序列中蘊藏著大量的信息,這些信息主要是與基因的表達(dá)調(diào)控密切相關(guān),因而對這部分序列的研究吸引著越來越多的生物學(xué)家參與其中。38真核生物基因表達(dá)在時間和空間上的有序性已吸引越來越多的科學(xué)家,并成為20世紀(jì)90年代以來分子生物學(xué)研究最為活躍的領(lǐng)域之一。真核生物基因調(diào)控瞬時調(diào)控(可逆調(diào)控),相當(dāng)于原核細(xì)胞對環(huán)境條件變化作出的反應(yīng)。發(fā)育調(diào)控(不可逆調(diào)控),是真核基因調(diào)控的精髓部分,它決定了核細(xì)胞生長、分化、發(fā)育的全部過程。39啟動子是指確保轉(zhuǎn)錄精確而有效地起始的DNA序列。基因調(diào)控按其發(fā)生時間的先后順序以可分為:轉(zhuǎn)錄水平調(diào)控、轉(zhuǎn)錄后水平調(diào)控、翻譯水平調(diào)控和蛋白質(zhì)加工水平調(diào)控?;蚪M序列中啟動子的存在與否以及含有何種啟動子對于了解相應(yīng)基因的轉(zhuǎn)錄調(diào)控具有重要意義。某些保守的功能區(qū)如啟動子、增強(qiáng)子、轉(zhuǎn)錄因子結(jié)合位點、內(nèi)含子與外顯子剪接位點等都可通過生物信息學(xué)技術(shù)分析。40重復(fù)序列是指在基因組中不同位置出現(xiàn)的相同或?qū)ΨQ性片段,相同包括同一個基因組中相似的片段,也可以是不同物種間基因組中的相似片段?,F(xiàn)象:從原核生物到真核生物,其基因組中的重復(fù)序列呈遞增趨勢。功能:重復(fù)序列主要參與到順式調(diào)控元件、表觀遺傳修飾、染色質(zhì)的重建等重要程序中。一、基因組重復(fù)序列分析41真核生物中各種重復(fù)序列所占比例很高。RepBase,是真核生物DNA中重復(fù)序列數(shù)據(jù)庫,由遺傳信息研究所(GeneticInformationResearchInstitute,GIRI)維護(hù)。http:///repbase/index.htmlCensor,是RepBase提供的重復(fù)序列檢查工具。著名的RepeatMasker程序就是基于該數(shù)據(jù)庫工作的重復(fù)序列分析工具。http://ftp,/cgi-bin/repeatmasker42Repbase數(shù)據(jù)庫主頁43Censor主頁http:///censor/44啟動子(promoter):DNA分子上能與RNA聚合酶結(jié)合并形成轉(zhuǎn)錄起始復(fù)合體的區(qū)域,在許多情況下,還包括促進(jìn)這一過程的調(diào)節(jié)蛋白的結(jié)合位點。二、基因啟動子分析啟動子是基因(gene)的一個組成部分,控制基因表達(dá)(轉(zhuǎn)錄)的起始時間和表達(dá)的程度。啟動子就像“開關(guān)”,決定基因的活動。啟動子本身并不控制基因活動,而是通過轉(zhuǎn)錄因子(一種蛋白質(zhì))結(jié)合而控制基因活動的。轉(zhuǎn)錄因子就像一面“旗子”,指揮著酶(RNA聚合酶polymerases)的活動。
45EPD(EukaryoticPromoterDatabase),真核生物啟動子數(shù)據(jù)庫http://www.epd.isb-sib.ch/已注釋的非冗余真核生物RNA聚合酶II的啟動子數(shù)據(jù)庫。數(shù)據(jù)庫中的條目與EMB
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 員工自愿離職協(xié)議書
- 車輛掛靠運輸協(xié)議
- 知識產(chǎn)權(quán)交易轉(zhuǎn)讓合同
- 中介委托服務(wù)合同
- 電子數(shù)據(jù)交易平臺合作協(xié)議書
- 基于可再生能源的城市規(guī)劃與建設(shè)合作協(xié)議
- 房地產(chǎn)銷售聯(lián)合代理合同協(xié)議書
- 低碳環(huán)保技術(shù)與產(chǎn)品推廣應(yīng)用方案
- 普通短期貨物運輸合同
- 企業(yè)數(shù)字化轉(zhuǎn)型與供應(yīng)鏈優(yōu)化合作協(xié)議
- GB/T 554-1996帶纜樁
- 馬工程教材《公共財政概論》PPT-第四章 政府消費支出
- GB/T 20313-2006建筑材料及制品的濕熱性能含濕率的測定烘干法
- 拉擠樹脂及其成型工藝介紹課件
- 山東省中考物理總復(fù)習(xí) 八上 第6講 質(zhì)量與密度
- 2023年南京信息職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試筆試模擬試題及答案解析
- 10KV供配電工程施工方案設(shè)計
- 商務(wù)部專員績效考核指標(biāo)量表
- (完整)PEP人教版小學(xué)生英語單詞四年級上冊卡片(可直接打印)
- 面神經(jīng)疾病課件
- 基本公共衛(wèi)生服務(wù)項目績效考核的課件
評論
0/150
提交評論