結(jié)構(gòu)基因組學(xué)

上傳人：9*** IP屬地：湖北上傳時間：2023-02-06 格式：PPT 頁數(shù)：65 大?。?.89MB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩60頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

第五章基因組序列注釋完成基因組測序僅僅是基因組計劃的第一步，更大的挑戰(zhàn)在于弄清：基因組序列中所包含的全部遺傳信息是什么；基因組作為一個整體如何行使其功能。這兩項任務(wù)都必須依賴于對基因組序列的正確注釋（annotation）。基因組注釋方法：①自動注釋：依據(jù)某些規(guī)則進行數(shù)據(jù)分析得出是否為基因的結(jié)論。②人工注釋：人為檢測評價自動注釋的結(jié)果并根據(jù)其他數(shù)據(jù)進行分析與校正。③實驗注釋：根據(jù)實驗結(jié)果進行檢測，如EST或全長cDNA。自動注釋的內(nèi)容：依據(jù)基因結(jié)構(gòu)的特點采用軟件預(yù)測，不依賴已有的表達序列；同源性比較，在同一物種或不同物種中查找已有的基因序列；功能域（domain）或基序（motif）分析?；蛐蛄凶⑨尰蚬δ茏⑨?’非翻譯區(qū)3’非翻譯區(qū)5.1搜尋基因

5.1.1根據(jù)基因結(jié)構(gòu)特征搜尋基因基因（gene）Ⅰ.開放讀碼框在DNA鏈上，由蛋白質(zhì)合成的起始密碼子開始，到終止密碼子為止的一個連續(xù)編碼序列稱為一個開放讀碼框（openreadingframe,ORF）。讀碼框（readingframe）任意一段DNA序列都有6種可能的讀碼框。終止密碼子:TAA,TAG,TGAGC%=50%，終止密碼子每64bp出現(xiàn)一次；

GC%>50%，終止密碼子每100~200bp出現(xiàn)一次；由于多數(shù)基因ORF均多于50個密碼子，因此最可能的選擇應(yīng)該是ORF

不少于100

個密碼子。

ORF的長度：最長ORF法在細菌基因組中，蛋白質(zhì)編碼基因從起始密碼子ATG到終止密碼子平均有100bp，而300bp長度以上的ORF平均每36Kb才出現(xiàn)一次，所以只要找出序列中最長的ORF（＞300bp）就能相當(dāng)準(zhǔn)確地預(yù)測出基因。在真核生物中，存在大量非編碼序列和內(nèi)含子，ORF閱讀比較復(fù)雜。全長cDNA的編碼區(qū)一般也可以用最長ORF法，如水稻的3萬多條的全長cDNA的編碼區(qū)預(yù)測，有時例外。全長cDNA的編碼蛋白序列應(yīng)為4-029B，而非最長的4-029A。Ⅱ起始密碼子ATG第一個ATG的確定依據(jù)Kozak規(guī)則。Kozak是一個女科學(xué)家，她研究過起始密碼子ATG周邊堿基定點突變后對轉(zhuǎn)錄和翻譯所造成的影響，并總結(jié)出在真核生物中，起始密碼子兩端序列為：——G/N-C/N-C/N-ANNATGG——，如GCCACCATGG、GCCATGATGG時，轉(zhuǎn)錄和翻譯效率最高，特別是-3位的A對翻譯效率非常重要。該序列被后人稱為Kozak序列，并被應(yīng)用于表達載體的構(gòu)建中。

若將第一個ATG中的堿基A、T、G分別標(biāo)為1、2、3位，則Kozak規(guī)則可描述如下：(1)第4位的偏好堿基為G；(2)ATG的5’端約15bp范圍的側(cè)翼序列內(nèi)不含堿基T；(3)在-3，-6和-9位置，G是偏好堿基；(4)除-3，-6和-9位，在整個側(cè)翼序列區(qū)，C是偏好堿基。Kozak規(guī)則是基于已知數(shù)據(jù)的統(tǒng)計結(jié)果，不見得必須全部滿足，一般來說，滿足前兩項即可。

Kozak規(guī)則的內(nèi)容：Ⅲ密碼子偏愛性（codonbias）編碼同一氨基酸的不同密碼子稱為同義密碼，其差別僅在密碼子的第3位堿基不同。不同種屬間使用同義密碼的頻率有很大差異：如人類基因中，丙氨酸（Ale）密碼子多為GCA、GCC或GCT，而GCG很少使用。幾乎所有基因（或操縱子）都有上游調(diào)控序列，它們可與DNA結(jié)合蛋白作用，控制基因表達，如啟動子序列。生物的基因組特有組成也可作為判別依據(jù)，如幾乎所有的管家基因（House-Keepinggene）及約占40%的組織特異性基因的5’末端含有CpG島。在大規(guī)模DNA測序計劃中，每發(fā)現(xiàn)一個CpG島，則預(yù)示可能在此存在基因。Ⅳ上游控制順序Chambon等發(fā)現(xiàn)內(nèi)含子特點：（1）內(nèi)含子連接點具有很短的保守序列，稱為邊界順序。其規(guī)律稱為GT-AG法則（GT-AGrule)或Chambon法則。。Ⅴ外顯子與內(nèi)含子邊界

左(5')位點

右(3')位點

外顯子A64G73G100T100A62AG8G84T63…12PyNC65A100G100

N外顯子內(nèi)含子

內(nèi)含子和外顯子的交界順序GT-AG法則(仿B.Lewin:《GENES》Ⅵ,1997，F(xiàn)ig30.3)

P314OH

GAG外顯子1外顯子2OH

外顯子1UGO

AG外顯子1外顯子2核RNA的剪接反應(yīng)(仿B.Lewin:《GENES》Ⅵ,1997，F(xiàn)ig30.5)（2）分枝點順序：為Py80NPy87Pu75APy95，其中A為百分之百的保守，且具有2’-OH。（3）內(nèi)含子5’端有一保守序列可以和U1snRNA的5’端的保守順序互補。3’端的確認主要根據(jù)Poly(A)尾序列，若測試序列不含Poly(A)，則根據(jù)加尾信號序列“AATAAA”和BLAST同源性比較結(jié)果共同判斷。Ⅵ3’端的確認

轉(zhuǎn)錄起始

延伸

5’帽子

AAUAAA

剪切

Poly(A)聚合酶

5’帽子

AAUAAAAn

mRNA3’端加Poly(A)尾巴

由于內(nèi)含子的進化沒有外顯子受到的選擇壓力大，內(nèi)含子的序列比外顯子的序列更隨機。這是目前各種預(yù)測程序中被廣泛應(yīng)用的一種方法，如GCG的TestCode、美國波士頓大學(xué)GeneID和BaylorMedcineCollege的BCMGeneFinder等程序。Ⅶ編碼區(qū)與非編碼區(qū)5.1.2同源基因查詢物種之間存在著廣泛的同源基因，包括編碼和非編碼序列。生物基因組相似性%資料來源人類99.9HumanGenomeProject100孿生子黑猩猩98.4AmericansforMedicalProgress98.7CeleraGenomics大猩猩98.38AmJHumGenet2001,682:444~456.小鼠98AmericansforMedicalProgress85NHGRI狗95JonEntine,intheSanFranciscoExaminer線蟲74JonEntine,intheSanFranciscoExaminer注：以人類基因組DNA序列為基準(zhǔn)，與其他生物基因組DNA序列對比。Ⅰ同源查詢（homologysearch）利用已存入數(shù)據(jù)庫中的基因序列與待查的基因組序列進行比較，從中查找可與之匹配的堿基序列或蛋白質(zhì)序列及其比例，這種識別基因的方法稱為~。同源查詢相似性的表現(xiàn)：存在某些完全相同的序列；ORF的排列類似，如等長的外顯子；ORF的氨基酸序列相同；模擬的多肽高級結(jié)構(gòu)相似。以上標(biāo)準(zhǔn)可單獨使用，亦可綜合考察；一般認為氨基酸的一致性或相似性在25%以上可視為同源基因。Ⅱ區(qū)分概念：

同源性、一致性和相似性同源性（homology）：起源于同一祖先但序列已經(jīng)發(fā)生變異的序列之間的關(guān)聯(lián)性。

同源性只有“是”和“非”的區(qū)別，無所謂百分比。一致性（identity）：同源DNA序列的同一堿基位置上相同的堿基成員，或者蛋白質(zhì)中同一氨基酸位置上相同的氨基酸成員的比例。相似性（similarity）：同源蛋白質(zhì)的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。

一致性和相似性可用百分比表示，相似性往往高于一致性。同源基因有關(guān)概念：直向同源基因（orthologousgene）：指分布在不同物種之間的同源基因，它們來自物種分隔之前的同一祖先。共生同源基因（paralogousgene）：指同一物種因基因倍增產(chǎn)生的同源基因。（旁系同源基因）倍增基因（ohnologousgene）：因全基因組加倍產(chǎn)生的同源基因稱~。異向同源基因（xenologousgene）：不同物種之間因水平轉(zhuǎn)移產(chǎn)生的同源基因稱~。物種種化（speciationevent）而產(chǎn)生了直系同源（orthology）的基因序列，基因重復(fù)（duplicationevent）而產(chǎn)生了旁系同源（paralogy）的基因序列。globin

基因的直系同源、旁系同源關(guān)系圖

在基因分類時，缺少同源序列的ORF被稱為孤獨基因（orphangene）。當(dāng)某一序列從數(shù)據(jù)庫中無法找到同源序列，又無法排除其是不是基因的可能性時，必須依靠實驗來進一步確認。兩點說明：在DNA水平上區(qū)分同源基因的難度要大于氨基酸水平。

原因：密碼子的搖擺性，相似氨基酸的取代。確定兩個基因是否同源，氨基酸序列的比較以及蛋白質(zhì)高級結(jié)構(gòu)的模擬給出的結(jié)果更為可靠。

原因：同源基因功能相似，關(guān)鍵位置氨基酸相同。Ⅲ基因注釋軟件信號指令（signalterm）：如起始密碼、終止密碼、內(nèi)含子分支點保守序列等；內(nèi)容指令（contentterm）：如密碼子使用偏好等。Ⅳ基因注釋水平的分類已知基因（knowngene）：與已知cDNA和蛋白質(zhì)序列同源的基因。新基因（novelgene）：與其他物種cDNA或蛋白質(zhì)序列同源的基因。新轉(zhuǎn)錄物（noveltranscript）：與新基因相似，但缺少明確的ORF。可能的基因（putativegene）：有同源EST支持，但缺少cDNA或ORF。預(yù)測基因（predictedgene）：數(shù)據(jù)庫中至少有一個外顯子支持，但缺少cDNA或明確的ORF。假基因（pseudogene）：與已知蛋白質(zhì)有50%的一致性，但cDNA殘缺，在其他位點存在正常的同源基因的序列。（DunhamI等，2001）5.1.3實驗確認基因依據(jù)：任何基因都可轉(zhuǎn)錄為RNA拷貝。分子雜交可確定DNA片段是否含表達序列——Northern印跡（Northernboltting）。由EST和cDNA指認基因——搜集盡可能多的EST和cDNA成員是基因組注釋最簡單最可靠的方法。5.2基因功能預(yù)測根據(jù)基因結(jié)構(gòu)、功能與進化的內(nèi)在聯(lián)系，采用生物信息學(xué)方法進行基因功能的預(yù)測已成為基因功能前期研究的主流內(nèi)容。5.2.1計算機預(yù)測基因功能采用軟件分析方法，根據(jù)已有的基因功能推測基因組中具有相似結(jié)構(gòu)的基因的功能。依據(jù)：同源性比較

直向同源基因，共生同源基因蛋白質(zhì)結(jié)構(gòu)預(yù)測5.2.2蛋白質(zhì)結(jié)構(gòu)域在功能預(yù)測中的意義結(jié)構(gòu)域（domain）（功能域）：蛋白質(zhì)高級結(jié)構(gòu)中具有相對獨立的亞結(jié)構(gòu)區(qū)，通常它們含有數(shù)個二級結(jié)構(gòu)基序（motif），具有相對獨立的功能。真核生物中大約80%的蛋白質(zhì)，原核生物中大約66%的蛋白質(zhì)均含有多個結(jié)構(gòu)域（ApicG等，2001）。蛋白質(zhì)的域結(jié)構(gòu)

（domainarchitecture）又稱為蛋白質(zhì)指紋（proteinfingerprint）：用來特指蛋白質(zhì)中結(jié)構(gòu)域的組合形式及其排列次序。蛋白質(zhì)的整體功能是通過各個結(jié)構(gòu)域之間的協(xié)同作用實現(xiàn)的，結(jié)構(gòu)域的組成提供了蛋白質(zhì)功能解讀的關(guān)鍵信息。舉例：細胞跨膜信號傳導(dǎo)蛋白的結(jié)構(gòu)域接受外界信號的受體功能域；傳達信號的胞內(nèi)激酶域；蛋白質(zhì)定位在細胞膜上的跨膜域。蛋白質(zhì)結(jié)構(gòu)域在基因的功能預(yù)測中起著極其重要的作用，是預(yù)測基因功能的主要依據(jù)之一。同一物種或不同物種中具有相同結(jié)構(gòu)域的蛋白質(zhì)可將其劃歸在同一蛋白質(zhì)家族（proteinfamily），當(dāng)其他物種相關(guān)蛋白質(zhì)家族成員的功能已知時，根據(jù)同源性可以推知另一物種相同結(jié)構(gòu)域蛋白質(zhì)的功能。有時2個無明顯親緣關(guān)系的蛋白質(zhì)含有個別相同的結(jié)構(gòu)域：分析：可能具有相似的生物學(xué)功能，相似的結(jié)構(gòu)域是蛋白質(zhì)功能的核心區(qū)域?；虮旧頍o共同的祖先，但其結(jié)構(gòu)域卻有共同的起源。舉例：涉及mRNA加工的蛋白質(zhì)共有結(jié)構(gòu)域：RNA結(jié)合域承擔(dān)功能：mRNA的轉(zhuǎn)運；mRNA前體的剪接加工；mRNA的翻譯；mRNA的編輯等。轉(zhuǎn)錄因子的共同特點是可與DNA結(jié)合，即具有DNA結(jié)合域。TIRG生物技術(shù)公司利用Pfam和InterPro蛋白質(zhì)域軟件包搜尋與注釋水稻基因組序列，鑒別出2462個轉(zhuǎn)錄因子基因。5.2.3根據(jù)協(xié)同進化（co-evolved）注釋基因功能為了加快基因功能的注釋與分類，根據(jù)相關(guān)功能基因具有協(xié)同進化的特點，ZhengL等（2002）提出了一種協(xié)同進化基因功能注釋策略，用以解決部分沒

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

結(jié)構(gòu)基因組學(xué)

文檔簡介

溫馨提示

最新文檔

評論

結(jié)構(gòu)基因組學(xué)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔