結(jié)構(gòu)基因組學(xué)_第1頁(yè)
結(jié)構(gòu)基因組學(xué)_第2頁(yè)
結(jié)構(gòu)基因組學(xué)_第3頁(yè)
結(jié)構(gòu)基因組學(xué)_第4頁(yè)
結(jié)構(gòu)基因組學(xué)_第5頁(yè)
已閱讀5頁(yè),還剩60頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第五章基因組序列注釋完成基因組測(cè)序僅僅是基因組計(jì)劃的第一步,更大的挑戰(zhàn)在于弄清:基因組序列中所包含的全部遺傳信息是什么;基因組作為一個(gè)整體如何行使其功能。這兩項(xiàng)任務(wù)都必須依賴于對(duì)基因組序列的正確注釋(annotation)?;蚪M注釋方法:①自動(dòng)注釋:依據(jù)某些規(guī)則進(jìn)行數(shù)據(jù)分析得出是否為基因的結(jié)論。②人工注釋:人為檢測(cè)評(píng)價(jià)自動(dòng)注釋的結(jié)果并根據(jù)其他數(shù)據(jù)進(jìn)行分析與校正。③實(shí)驗(yàn)注釋:根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行檢測(cè),如EST或全長(zhǎng)cDNA。自動(dòng)注釋的內(nèi)容:依據(jù)基因結(jié)構(gòu)的特點(diǎn)采用軟件預(yù)測(cè),不依賴已有的表達(dá)序列;同源性比較,在同一物種或不同物種中查找已有的基因序列;功能域(domain)或基序(motif)分析?;蛐蛄凶⑨尰蚬δ茏⑨?’非翻譯區(qū)3’非翻譯區(qū)5.1搜尋基因

5.1.1根據(jù)基因結(jié)構(gòu)特征搜尋基因基因(gene)Ⅰ.開(kāi)放讀碼框在DNA鏈上,由蛋白質(zhì)合成的起始密碼子開(kāi)始,到終止密碼子為止的一個(gè)連續(xù)編碼序列稱為一個(gè)開(kāi)放讀碼框(openreadingframe,ORF)。讀碼框(readingframe)任意一段DNA序列都有6種可能的讀碼框。終止密碼子:TAA,TAG,TGAGC%=50%,終止密碼子每64bp出現(xiàn)一次;

GC%>50%,終止密碼子每100~200bp出現(xiàn)一次;由于多數(shù)基因ORF均多于50個(gè)密碼子,因此最可能的選擇應(yīng)該是ORF

不少于100

個(gè)密碼子。

ORF的長(zhǎng)度:最長(zhǎng)ORF法在細(xì)菌基因組中,蛋白質(zhì)編碼基因從起始密碼子ATG到終止密碼子平均有100bp,而300bp長(zhǎng)度以上的ORF平均每36Kb才出現(xiàn)一次,所以只要找出序列中最長(zhǎng)的ORF(>300bp)就能相當(dāng)準(zhǔn)確地預(yù)測(cè)出基因。在真核生物中,存在大量非編碼序列和內(nèi)含子,ORF閱讀比較復(fù)雜。全長(zhǎng)cDNA的編碼區(qū)一般也可以用最長(zhǎng)ORF法,如水稻的3萬(wàn)多條的全長(zhǎng)cDNA的編碼區(qū)預(yù)測(cè),有時(shí)例外。全長(zhǎng)cDNA的編碼蛋白序列應(yīng)為4-029B,而非最長(zhǎng)的4-029A。Ⅱ起始密碼子ATG第一個(gè)ATG的確定依據(jù)Kozak規(guī)則。Kozak是一個(gè)女科學(xué)家,她研究過(guò)起始密碼子ATG周邊堿基定點(diǎn)突變后對(duì)轉(zhuǎn)錄和翻譯所造成的影響,并總結(jié)出在真核生物中,起始密碼子兩端序列為:——G/N-C/N-C/N-ANNATGG——,如GCCACCATGG、GCCATGATGG時(shí),轉(zhuǎn)錄和翻譯效率最高,特別是-3位的A對(duì)翻譯效率非常重要。該序列被后人稱為Kozak序列,并被應(yīng)用于表達(dá)載體的構(gòu)建中。

若將第一個(gè)ATG中的堿基A、T、G分別標(biāo)為1、2、3位,則Kozak規(guī)則可描述如下:(1)第4位的偏好堿基為G;(2)ATG的5’端約15bp范圍的側(cè)翼序列內(nèi)不含堿基T;(3)在-3,-6和-9位置,G是偏好堿基;(4)除-3,-6和-9位,在整個(gè)側(cè)翼序列區(qū),C是偏好堿基。Kozak規(guī)則是基于已知數(shù)據(jù)的統(tǒng)計(jì)結(jié)果,不見(jiàn)得必須全部滿足,一般來(lái)說(shuō),滿足前兩項(xiàng)即可。

Kozak規(guī)則的內(nèi)容:Ⅲ密碼子偏愛(ài)性(codonbias)編碼同一氨基酸的不同密碼子稱為同義密碼,其差別僅在密碼子的第3位堿基不同。不同種屬間使用同義密碼的頻率有很大差異:如人類基因中,丙氨酸(Ale)密碼子多為GCA、GCC或GCT,而GCG很少使用。幾乎所有基因(或操縱子)都有上游調(diào)控序列,它們可與DNA結(jié)合蛋白作用,控制基因表達(dá),如啟動(dòng)子序列。生物的基因組特有組成也可作為判別依據(jù),如幾乎所有的管家基因(House-Keepinggene)及約占40%的組織特異性基因的5’末端含有CpG島。在大規(guī)模DNA測(cè)序計(jì)劃中,每發(fā)現(xiàn)一個(gè)CpG島,則預(yù)示可能在此存在基因。Ⅳ上游控制順序Chambon等發(fā)現(xiàn)內(nèi)含子特點(diǎn):(1)內(nèi)含子連接點(diǎn)具有很短的保守序列,稱為邊界順序。其規(guī)律稱為GT-AG法則(GT-AGrule)或Chambon法則。。Ⅴ外顯子與內(nèi)含子邊界

左(5')位點(diǎn)

右(3')位點(diǎn)

外顯子A64G73G100T100A62AG8G84T63…12PyNC65A100G100

N外顯子內(nèi)含子

內(nèi)含子和外顯子的交界順序GT-AG法則(仿B.Lewin:《GENES》Ⅵ,1997,F(xiàn)ig30.3)

P314OH

GAG外顯子1外顯子2OH

外顯子1UGO

AG外顯子1外顯子2核RNA的剪接反應(yīng)(仿B.Lewin:《GENES》Ⅵ,1997,F(xiàn)ig30.5)(2)分枝點(diǎn)順序:為Py80NPy87Pu75APy95,其中A為百分之百的保守,且具有2’-OH。(3)內(nèi)含子5’端有一保守序列可以和U1snRNA的5’端的保守順序互補(bǔ)。3’端的確認(rèn)主要根據(jù)Poly(A)尾序列,若測(cè)試序列不含Poly(A),則根據(jù)加尾信號(hào)序列“AATAAA”和BLAST同源性比較結(jié)果共同判斷。Ⅵ3’端的確認(rèn)

轉(zhuǎn)錄起始

延伸

5’帽子

AAUAAA

剪切

Poly(A)聚合酶

5’帽子

AAUAAAAn

mRNA3’端加Poly(A)尾巴

由于內(nèi)含子的進(jìn)化沒(méi)有外顯子受到的選擇壓力大,內(nèi)含子的序列比外顯子的序列更隨機(jī)。這是目前各種預(yù)測(cè)程序中被廣泛應(yīng)用的一種方法,如GCG的TestCode、美國(guó)波士頓大學(xué)GeneID和BaylorMedcineCollege的BCMGeneFinder等程序。Ⅶ編碼區(qū)與非編碼區(qū)5.1.2同源基因查詢物種之間存在著廣泛的同源基因,包括編碼和非編碼序列。生物基因組相似性%資料來(lái)源人類99.9HumanGenomeProject100孿生子黑猩猩98.4AmericansforMedicalProgress98.7CeleraGenomics大猩猩98.38AmJHumGenet2001,682:444~456.小鼠98AmericansforMedicalProgress85NHGRI狗95JonEntine,intheSanFranciscoExaminer線蟲(chóng)74JonEntine,intheSanFranciscoExaminer注:以人類基因組DNA序列為基準(zhǔn),與其他生物基因組DNA序列對(duì)比。Ⅰ同源查詢(homologysearch)利用已存入數(shù)據(jù)庫(kù)中的基因序列與待查的基因組序列進(jìn)行比較,從中查找可與之匹配的堿基序列或蛋白質(zhì)序列及其比例,這種識(shí)別基因的方法稱為~。同源查詢相似性的表現(xiàn):存在某些完全相同的序列;ORF的排列類似,如等長(zhǎng)的外顯子;ORF的氨基酸序列相同;模擬的多肽高級(jí)結(jié)構(gòu)相似。以上標(biāo)準(zhǔn)可單獨(dú)使用,亦可綜合考察;一般認(rèn)為氨基酸的一致性或相似性在25%以上可視為同源基因。Ⅱ區(qū)分概念:

同源性、一致性和相似性同源性(homology):起源于同一祖先但序列已經(jīng)發(fā)生變異的序列之間的關(guān)聯(lián)性。

同源性只有“是”和“非”的區(qū)別,無(wú)所謂百分比。一致性(identity):同源DNA序列的同一堿基位置上相同的堿基成員,或者蛋白質(zhì)中同一氨基酸位置上相同的氨基酸成員的比例。相似性(similarity):同源蛋白質(zhì)的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。

一致性和相似性可用百分比表示,相似性往往高于一致性。同源基因有關(guān)概念:直向同源基因(orthologousgene):指分布在不同物種之間的同源基因,它們來(lái)自物種分隔之前的同一祖先。共生同源基因(paralogousgene):指同一物種因基因倍增產(chǎn)生的同源基因。(旁系同源基因)倍增基因(ohnologousgene):因全基因組加倍產(chǎn)生的同源基因稱~。異向同源基因(xenologousgene):不同物種之間因水平轉(zhuǎn)移產(chǎn)生的同源基因稱~。物種種化(speciationevent)而產(chǎn)生了直系同源(orthology)的基因序列,基因重復(fù)(duplicationevent)而產(chǎn)生了旁系同源(paralogy)的基因序列。globin

基因的直系同源、旁系同源關(guān)系圖

在基因分類時(shí),缺少同源序列的ORF被稱為孤獨(dú)基因(orphangene)。當(dāng)某一序列從數(shù)據(jù)庫(kù)中無(wú)法找到同源序列,又無(wú)法排除其是不是基因的可能性時(shí),必須依靠實(shí)驗(yàn)來(lái)進(jìn)一步確認(rèn)。兩點(diǎn)說(shuō)明:在DNA水平上區(qū)分同源基因的難度要大于氨基酸水平。

原因:密碼子的搖擺性,相似氨基酸的取代。確定兩個(gè)基因是否同源,氨基酸序列的比較以及蛋白質(zhì)高級(jí)結(jié)構(gòu)的模擬給出的結(jié)果更為可靠。

原因:同源基因功能相似,關(guān)鍵位置氨基酸相同。Ⅲ基因注釋軟件信號(hào)指令(signalterm):如起始密碼、終止密碼、內(nèi)含子分支點(diǎn)保守序列等;內(nèi)容指令(contentterm):如密碼子使用偏好等。Ⅳ基因注釋水平的分類已知基因(knowngene):與已知cDNA和蛋白質(zhì)序列同源的基因。新基因(novelgene):與其他物種cDNA或蛋白質(zhì)序列同源的基因。新轉(zhuǎn)錄物(noveltranscript):與新基因相似,但缺少明確的ORF??赡艿幕颍╬utativegene):有同源EST支持,但缺少cDNA或ORF。預(yù)測(cè)基因(predictedgene):數(shù)據(jù)庫(kù)中至少有一個(gè)外顯子支持,但缺少cDNA或明確的ORF。假基因(pseudogene):與已知蛋白質(zhì)有50%的一致性,但cDNA殘缺,在其他位點(diǎn)存在正常的同源基因的序列。(DunhamI等,2001)5.1.3實(shí)驗(yàn)確認(rèn)基因依據(jù):任何基因都可轉(zhuǎn)錄為RNA拷貝。分子雜交可確定DNA片段是否含表達(dá)序列——Northern印跡(Northernboltting)。由EST和cDNA指認(rèn)基因——搜集盡可能多的EST和cDNA成員是基因組注釋最簡(jiǎn)單最可靠的方法。5.2基因功能預(yù)測(cè)根據(jù)基因結(jié)構(gòu)、功能與進(jìn)化的內(nèi)在聯(lián)系,采用生物信息學(xué)方法進(jìn)行基因功能的預(yù)測(cè)已成為基因功能前期研究的主流內(nèi)容。5.2.1計(jì)算機(jī)預(yù)測(cè)基因功能采用軟件分析方法,根據(jù)已有的基因功能推測(cè)基因組中具有相似結(jié)構(gòu)的基因的功能。依據(jù):同源性比較

直向同源基因,共生同源基因蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)5.2.2蛋白質(zhì)結(jié)構(gòu)域在功能預(yù)測(cè)中的意義結(jié)構(gòu)域(domain)(功能域):蛋白質(zhì)高級(jí)結(jié)構(gòu)中具有相對(duì)獨(dú)立的亞結(jié)構(gòu)區(qū),通常它們含有數(shù)個(gè)二級(jí)結(jié)構(gòu)基序(motif),具有相對(duì)獨(dú)立的功能。真核生物中大約80%的蛋白質(zhì),原核生物中大約66%的蛋白質(zhì)均含有多個(gè)結(jié)構(gòu)域(ApicG等,2001)。蛋白質(zhì)的域結(jié)構(gòu)

(domainarchitecture)又稱為蛋白質(zhì)指紋(proteinfingerprint):用來(lái)特指蛋白質(zhì)中結(jié)構(gòu)域的組合形式及其排列次序。蛋白質(zhì)的整體功能是通過(guò)各個(gè)結(jié)構(gòu)域之間的協(xié)同作用實(shí)現(xiàn)的,結(jié)構(gòu)域的組成提供了蛋白質(zhì)功能解讀的關(guān)鍵信息。舉例:細(xì)胞跨膜信號(hào)傳導(dǎo)蛋白的結(jié)構(gòu)域接受外界信號(hào)的受體功能域;傳達(dá)信號(hào)的胞內(nèi)激酶域;蛋白質(zhì)定位在細(xì)胞膜上的跨膜域。蛋白質(zhì)結(jié)構(gòu)域在基因的功能預(yù)測(cè)中起著極其重要的作用,是預(yù)測(cè)基因功能的主要依據(jù)之一。同一物種或不同物種中具有相同結(jié)構(gòu)域的蛋白質(zhì)可將其劃歸在同一蛋白質(zhì)家族(proteinfamily),當(dāng)其他物種相關(guān)蛋白質(zhì)家族成員的功能已知時(shí),根據(jù)同源性可以推知另一物種相同結(jié)構(gòu)域蛋白質(zhì)的功能。有時(shí)2個(gè)無(wú)明顯親緣關(guān)系的蛋白質(zhì)含有個(gè)別相同的結(jié)構(gòu)域:分析:可能具有相似的生物學(xué)功能,相似的結(jié)構(gòu)域是蛋白質(zhì)功能的核心區(qū)域?;虮旧頍o(wú)共同的祖先,但其結(jié)構(gòu)域卻有共同的起源。舉例:涉及mRNA加工的蛋白質(zhì)共有結(jié)構(gòu)域:RNA結(jié)合域承擔(dān)功能:mRNA的轉(zhuǎn)運(yùn);mRNA前體的剪接加工;mRNA的翻譯;mRNA的編輯等。轉(zhuǎn)錄因子的共同特點(diǎn)是可與DNA結(jié)合,即具有DNA結(jié)合域。TIRG生物技術(shù)公司利用Pfam和InterPro蛋白質(zhì)域軟件包搜尋與注釋水稻基因組序列,鑒別出2462個(gè)轉(zhuǎn)錄因子基因。5.2.3根據(jù)協(xié)同進(jìn)化(co-evolved)注釋基因功能為了加快基因功能的注釋與分類,根據(jù)相關(guān)功能基因具有協(xié)同進(jìn)化的特點(diǎn),ZhengL等(2002)提出了一種協(xié)同進(jìn)化基因功能注釋策略,用以解決部分沒(méi)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論