第六章-基因組測(cè)序及分析_第1頁(yè)
第六章-基因組測(cè)序及分析_第2頁(yè)
第六章-基因組測(cè)序及分析_第3頁(yè)
第六章-基因組測(cè)序及分析_第4頁(yè)
第六章-基因組測(cè)序及分析_第5頁(yè)
已閱讀5頁(yè),還剩156頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第六章基因組測(cè)序及分析第一節(jié)DNA測(cè)序與序列片段的拼接第二節(jié)基因組注釋?zhuān)夯騾^(qū)域的預(yù)測(cè)第三節(jié)基因組分析第四節(jié)基因組分析舉例:水稻基因組分析人類(lèi)基因組和其它一些生物基因組的大規(guī)模測(cè)序?qū)⒊蔀榭茖W(xué)史上的一個(gè)里程碑?;蚪M測(cè)序帶動(dòng)了一大批相關(guān)學(xué)科和技術(shù)的發(fā)展,一批新興學(xué)科脫穎而出,生物信息學(xué)、基因組學(xué)、蛋白質(zhì)組學(xué)等便是一批最前沿的新興學(xué)科??梢哉f(shuō),基因組測(cè)序及其序列分析使整個(gè)生命科學(xué)界的真正認(rèn)識(shí)了生物信息學(xué),生物信息學(xué)也真正成為了一門(mén)受到廣泛重視的獨(dú)立學(xué)科?;蚪M測(cè)序及其分析實(shí)際是人類(lèi)的又一場(chǎng)“淘金”和“探險(xiǎn)”運(yùn)動(dòng)。哥倫布等一大批探險(xiǎn)家在幾百年前發(fā)現(xiàn)了美洲、澳洲等一大批新大陸,最終使人類(lèi)認(rèn)識(shí)了地球上的每一塊處女地。于是有人形象地把人類(lèi)目前的基因組研究形象地比喻為“地球探險(xiǎn)”,并把基因組研究稱(chēng)為基因組地理(genomicgeography)。我們不妨想象一下,人類(lèi)基因組的各條染色體就如同人類(lèi)基因“地球”上的7大洲,尋找新基因和搞清楚基因組結(jié)構(gòu)與功能的過(guò)程恰如開(kāi)墾地球上的每一塊處女地,而這些處女地上可能蘊(yùn)藏著無(wú)窮的寶藏。目前人類(lèi)全基因組序列已基本測(cè)定完成,另有一大批生物也已完成基因組測(cè)定或正在進(jìn)行。世界上無(wú)數(shù)大型測(cè)序儀(最好的測(cè)序儀一次可以閱讀1000多個(gè)堿基)日夜不停地運(yùn)轉(zhuǎn),每日獲得的序列數(shù)據(jù)以百萬(wàn)和千萬(wàn)計(jì)。同時(shí),來(lái)自政府和企業(yè)的大量投資,使整個(gè)世界的測(cè)序能力與日俱增。面對(duì)基因組的天文數(shù)據(jù),分析方法舉足輕重,大量新的分析方法被提出和改進(jìn),大量重要基因被發(fā)現(xiàn);大量來(lái)自基因組水平上的分析比較結(jié)果被公布,這些結(jié)果正在改變?nèi)祟?lèi)已有的一些觀念。第一節(jié)DNA測(cè)序與序列片段的拼接一、DNA測(cè)序的一般方法二、DNA片段測(cè)序策略三、基因組測(cè)序策略四、序列片段的拼接方法一、DNA測(cè)序的一般方法1、DNA測(cè)序的基本原理2、雙脫氧測(cè)序法(Sanger法)3、化學(xué)測(cè)序法(Maxam-Gilbert法)4、熒光自動(dòng)測(cè)序儀1、DNA測(cè)序的基本原理DNA序列測(cè)定的工作基礎(chǔ)是在變性聚丙烯酰胺凝膠(測(cè)序膠)上進(jìn)行的高分離度的電泳過(guò)程。這些所謂的測(cè)序膠能在長(zhǎng)達(dá)500bp的單鏈寡核苷酸中分辨出一個(gè)脫氧核苷酸的差異。操作時(shí),在相應(yīng)的待測(cè)DNA區(qū)段產(chǎn)生一套標(biāo)記的寡核苷酸單鏈,它們有固定的起點(diǎn),但另一端是按模板序列連續(xù)終止于各不相同的核苷酸。確定每個(gè)脫氧核糖核苷酸的序列的關(guān)鍵,是在4個(gè)獨(dú)立的酶學(xué)或化學(xué)反應(yīng)中產(chǎn)生終止于所有不同的A、T、G、C位點(diǎn)的寡核苷酸鏈,而這4個(gè)反應(yīng)的寡核苷酸產(chǎn)物在測(cè)序膠的相鄰泳道中都能被一一分辨出來(lái)。由于在4個(gè)泳道中再現(xiàn)了所有的可能寡核苷酸鏈,DNA的序列能從圖4.1所示的4個(gè)寡核苷酸“階梯”中依次直接讀出。圖4.1DNA測(cè)序的一般策略。進(jìn)行DNA序列測(cè)定時(shí),在4個(gè)獨(dú)立的反應(yīng)中,各產(chǎn)生一套放射性標(biāo)記的單鏈寡核苷酸,它們有固定的起點(diǎn),另一端終止于不同的A、T、G或C位點(diǎn)。每個(gè)反應(yīng)的產(chǎn)物在高分離度的聚丙烯酰胺凝膠上電泳分級(jí)。經(jīng)放射自顯影,DNA序列可從凝膠上直接讀出(奧斯伯等,1998)。實(shí)際上,從一套測(cè)序反應(yīng)中所能獲得的信息量受限于測(cè)序膠的分離度。雖然最新的測(cè)序技術(shù)經(jīng)??蓮囊惶诇y(cè)序反應(yīng)中測(cè)到高達(dá)500核苷酸的信息,但獲得的可靠序列信息大約在300個(gè)核苷酸。因此,如果待測(cè)DNA的區(qū)段在300核苷酸以?xún)?nèi),所需的工作只是簡(jiǎn)單地將此片段克隆于合適的載體,以產(chǎn)生一個(gè)能方便地進(jìn)行測(cè)序的重組DNA分子。對(duì)于大片段DNA的序列測(cè)定,往往需要將其切割成能單獨(dú)進(jìn)行測(cè)定的小片段,這可通過(guò)隨機(jī)的或有序的方式進(jìn)行。下一節(jié)將討論測(cè)定大片段DNA的策略。目前廣泛應(yīng)用于DNA序列測(cè)定的方法有酶學(xué)的雙脫氧法和化學(xué)裂解法,在產(chǎn)生寡核苷酸“階梯”的技術(shù)上,兩者截然不同。酶學(xué)雙脫氧法是利用DNA聚合酶合成與模板互補(bǔ)的標(biāo)記拷貝,化學(xué)裂解法是一套堿基專(zhuān)一的化學(xué)試劑作用于標(biāo)記好的DNA鏈。這兩種方法下面將進(jìn)一步描述。2、雙脫氧測(cè)序法(Sanger法)雙脫氧法或酶法利用DNA聚合酶合成單鏈DNA模板的互補(bǔ)拷貝,這一方法最先(1977)由F.Sanger及其合作者提出。DNA聚合酶不能起始DNA鏈的合成,而能在退火于“模板”DNA的引物3‘端上進(jìn)行鏈的延伸(如圖4.2)。通過(guò)與模板堿基的特異性配對(duì),脫氧核糖核苷酸(dNTP)被摻入到引物的生長(zhǎng)鏈上。鏈的延伸是通過(guò)引物生長(zhǎng)端的3‘羥基與被摻入脫氧核糖核苷酸的5‘磷酸基的反應(yīng)形成磷酸二酯鍵,在總體上看,鏈?zhǔn)菑?‘→3‘方向延伸的。雙脫氧測(cè)序法利用了DNA聚合酶能從雙脫氧核糖核苷酸(ddNTP)為底物的特性。當(dāng)ddNTP被摻入到延伸著的引物的3‘端時(shí),由于鏈上3‘羥基的缺如,鏈的延伸就終止于G、A、T或C。在4個(gè)測(cè)序反應(yīng)中,每個(gè)反應(yīng)只需各加入4種可能的ddNTP中的一種,就將產(chǎn)生如圖4.1所示的4個(gè)序列階梯。調(diào)整每個(gè)測(cè)反應(yīng)中的ddNTP與dNTP的比例,使引物的延伸在對(duì)應(yīng)于模板DNA上的每個(gè)可能摻入ddNTP的位置都有可能發(fā)生終止。以這種測(cè)序方式,每個(gè)延伸反應(yīng)的產(chǎn)物是一系列長(zhǎng)短不一的引物延伸鏈,它們都具有由退火引物決定的固定的5‘端以及終止于某一ddNTP的不定的3‘端。圖4.2中介紹了兩種雙脫氧測(cè)序的工作方案。最早期的雙脫氧法,本章稱(chēng)之為Sanger法,是利用大腸桿菌DNA聚合酶I大片段(或稱(chēng)Klenow片段,Klenow酶)發(fā)展起來(lái)的?!皹?biāo)記/終止法”則利用了一種修飾的T7DNA聚合酶,在兩個(gè)獨(dú)立的反應(yīng)中分別進(jìn)行引物的標(biāo)記和雙脫氧核苷酸的摻入終止。引物與模板退火后,標(biāo)記反應(yīng)發(fā)生在4種低濃度dNTP(其中1種是放射性標(biāo)記)中,DNA的合成持續(xù)到一種或多種dNTP被耗竭為止,這樣可保證摻入全部的標(biāo)記的脫氧核糖核苷酸。鏈終止反應(yīng)在4個(gè)獨(dú)立的反應(yīng)中進(jìn)行,每個(gè)反應(yīng)除了含有4種dNTP外,還各含4種ddNTP中的一種,而高濃度的dNTP保證DNA逐次合成至生長(zhǎng)鏈因ddNTP的摻入而終止。圖4.2雙脫氧測(cè)序法。在圖示的每種方法中,單鏈DNA片段與引物退火后進(jìn)行聚合反應(yīng)(步驟1),在Sanger法中(右圖),加入Klenow酶和放射標(biāo)記的dATP(步驟2),然后,分成4份進(jìn)行反應(yīng)(步驟3),分別加入其余的3種dNTP和加入ddATP、ddTTP、ddGTP和ddCTP其中的一種(步驟4)。DNA合的成進(jìn)行至攝入ddNTP后被終止。追加dNTP(步驟5)使未被終止的鏈再延伸以產(chǎn)生更高分子量的DNA?!皹?biāo)記/終止法”(左圖)說(shuō)明略。在每種方法中,反應(yīng)終止后,樣品加樣于測(cè)序膠的相鄰泳道上,進(jìn)行電泳分離(奧斯伯等,1998)。Sanger法測(cè)序產(chǎn)物的平均鏈長(zhǎng)取決于ddNTP:dNTP的比例,比例高時(shí),得到較短的產(chǎn)物;“標(biāo)記/終止法”測(cè)序產(chǎn)物的平均長(zhǎng)度可通過(guò)標(biāo)記反應(yīng)中dNTP濃度(高濃度能得到長(zhǎng)的產(chǎn)物)或終止反應(yīng)的ddNTP:dNTP來(lái)調(diào)整。有多種商品化的用于序列測(cè)定的DNA聚合酶。熱穩(wěn)定的DNA聚合酶是用于測(cè)序的最新的一類(lèi)酶,可在高的溫度進(jìn)行測(cè)序反應(yīng)。此時(shí)DNA模板的二級(jí)結(jié)構(gòu)不穩(wěn)定,因而排除了它們對(duì)延伸反應(yīng)的干擾。3、化學(xué)測(cè)序法(Maxam-Gilbert法)在A.Maxam和W.Gilbert(1977)發(fā)展的DNA化學(xué)測(cè)序法中,與堿基發(fā)生專(zhuān)一性反應(yīng)的化學(xué)試劑在一種或兩種特定核苷酸位置上隨機(jī)斷裂已純化的3‘端或5‘端標(biāo)記DNA鏈,產(chǎn)生4套寡聚脫氧核糖核苷酸。在隨后的測(cè)序膠放射自顯影中,僅末端標(biāo)記的片段顯跡,故可得到如圖4.3所示的4種DNA階梯。肼、硫酸二甲酯(DMS)或甲酸可以專(zhuān)一性地修飾DNA分子中的堿基,這構(gòu)成了化學(xué)測(cè)序法的基礎(chǔ),加入吡啶可催化DNA鏈在這些被修飾核苷酸處斷裂?;瘜W(xué)法的特異性基于第1步反應(yīng)中肼、硫酸二甲酯,或甲酸僅與DNA鏈上小部分特定堿基的作用,而第2步的哌啶斷裂必須定量反應(yīng)。第1步反應(yīng)的化學(xué)機(jī)制如下:G反應(yīng):DMS使鳥(niǎo)嘌呤的7位氮原子甲基化,其后斷開(kāi)第8位碳原子和第9位氮原子間的化學(xué)鍵,哌啶置換了被修飾鳥(niǎo)嘌呤與核糖的結(jié)合。G+A反應(yīng):甲酸使嘌呤環(huán)上的氮原子質(zhì)子化,削弱了腺嘌呤脫氧核糖核苷酸和鳥(niǎo)嘌呤脫氧核糖核苷酸中的糖苷鍵,然后哌啶置換了嘌呤。T+C反應(yīng):肼斷開(kāi)了嘧啶環(huán),產(chǎn)生的堿基片段能被哌啶所置換。C反應(yīng):在NaCl存在時(shí),只有C才能與肼發(fā)生反應(yīng),隨后被修飾的胞嘧啶被哌啶置換。圖4.3化學(xué)測(cè)序的策略。圖中表示四個(gè)化學(xué)裂解反應(yīng)產(chǎn)物經(jīng)凝膠電泳分離后的寡核苷酸階梯?!?”表示DNA片段上32P標(biāo)記的位置。本例是在片段的5‘端。凝膠右側(cè)的片段3‘端加陰影的堿基表示經(jīng)化學(xué)修飾后,在哌啶介導(dǎo)的鏈間切割中從核苷酸鏈上被取代的堿基(奧斯伯等,1998)。4、熒光自動(dòng)測(cè)序儀自動(dòng)化測(cè)序儀使凝膠電泳、DNA條帶檢測(cè)和分析過(guò)程全部自動(dòng)化。目前,所有的商品化DAN自動(dòng)化測(cè)序儀的設(shè)計(jì)都是以酶法(即Sanger法)測(cè)序反應(yīng)產(chǎn)生熒光標(biāo)記或放射性標(biāo)記的測(cè)序產(chǎn)物為基礎(chǔ),它們都具有數(shù)據(jù)收集的能力,并含有進(jìn)一步分析處理的程序。熒光標(biāo)記物通過(guò)引物或ddNTP摻入到測(cè)序產(chǎn)物中。4種堿基產(chǎn)生4種顏色的熒光反應(yīng),所以以單泳道或毛細(xì)管電泳就可以分辨出相應(yīng)的寡核苷酸產(chǎn)物。圖4.4全自動(dòng)測(cè)序儀基本操作原理下面結(jié)合兩種型號(hào)的DNA自動(dòng)測(cè)序儀介紹自動(dòng)測(cè)序原理。ALF全自動(dòng)激光熒光DNA測(cè)序系統(tǒng)(automatedlaserfluorescentDNAsequencer)是由德國(guó)海德堡(Heidelberg)歐洲分子生物學(xué)試驗(yàn)室(EMBL)W.Ansorge和B.Sproat提出和設(shè)計(jì)的。與同位素測(cè)序系統(tǒng)相比,ALF不但在儀器硬件設(shè)計(jì)上,而且在驅(qū)控儀器的軟件功能上都作了很大改進(jìn)。操作中能直接分析原始數(shù)據(jù),也可以及時(shí)處理收集過(guò)程中獲取的數(shù)據(jù)。最近推出的ALFexpressTM全自動(dòng)激光熒光核酸測(cè)序儀,則是利用電泳原理把熒光標(biāo)記的DNA片段通過(guò)測(cè)序膠電泳分離。該儀器本身設(shè)計(jì)獨(dú)特,提供快速可靠的核酸測(cè)序、片段分析、HLA序列定型及突變檢測(cè)等。在人類(lèi)基因組大規(guī)模序列測(cè)定中,該設(shè)備起到了重要的初篩作用。ALFexpressTM系統(tǒng)采用非放射性的單一Gy5熒光素標(biāo)記引物或dNTPs進(jìn)行核酸測(cè)序和片段分析,沿用Sanger雙脫氧核酸末端終止測(cè)序法,使用Cy5熒光標(biāo)記的引物與模板進(jìn)行退火。測(cè)試時(shí),把A、C、G、T四種反應(yīng)物分別加到凝膠板上的樣品槽內(nèi),上樣程序與手工測(cè)序相同。另外,在儀器電泳單元的下方是由激光槍(lasersource)和探測(cè)器排列組成的探測(cè)系統(tǒng):每個(gè)樣品道后面都有一個(gè)探測(cè)器,激光能透過(guò)凝膠的每一條泳道,當(dāng)DNA條帶遷移到探測(cè)區(qū)域并遇上激光時(shí),DNA上的熒光標(biāo)記立刻被激活,放出光信號(hào);此熒光信號(hào)由泳道前的光探測(cè)器接收,并將信息輸送給電腦進(jìn)行分析和保存(圖4.4)。電泳結(jié)束后,電腦將收集到的信號(hào)(原始數(shù)據(jù))進(jìn)行處理,從而獲得最終序列。早在1987年P(guān)erkin

Elmer(PE)Applied

Biosystems公司就推出DNA自動(dòng)測(cè)序儀,其專(zhuān)利是分別采用4種熒光染料進(jìn)行標(biāo)記且在同一個(gè)泳道測(cè)序,具有極大的優(yōu)越性。377型全自動(dòng)DNA測(cè)序儀是PE公司近年推出的新型測(cè)序儀,它采用專(zhuān)利的四種熒光染料標(biāo)記,并采用激光檢測(cè)方法,具有測(cè)序精確度高、每個(gè)樣品判讀序列長(zhǎng)(700bp)、一次電泳可測(cè)定樣品數(shù)量多(64個(gè))、不需要同位素測(cè)序,方法靈活多樣等特點(diǎn),在人類(lèi)基因組測(cè)序和cDNA文庫(kù)測(cè)序研究中應(yīng)用極其廣泛。此外,該儀器在各種應(yīng)用軟件的輔助下還可以進(jìn)行DNA片段大小分析和定量分析,應(yīng)用于基因突變分析SSCP、DNA指紋圖譜分析、基因連鎖圖譜表達(dá)水平的研究,有著極其廣泛的應(yīng)用前景。其原理是采用四種熒光染料標(biāo)記終止物ddNTP或引物,經(jīng)Sanger測(cè)序反應(yīng)后,產(chǎn)物3′端(標(biāo)記終止物ddNTP法)或5′端(標(biāo)記引物法)帶有不同熒光標(biāo)記,一個(gè)樣品的4個(gè)測(cè)序可以在一個(gè)泳道內(nèi)電泳,從而降低了測(cè)序泳道間遷移率差異對(duì)精確性的影響。由于增加了一個(gè)電泳樣品的數(shù)目,可一次測(cè)定64個(gè)或更多樣品。經(jīng)電泳后各個(gè)熒光譜帶分開(kāi),同時(shí)激光檢測(cè)器同步掃描,激發(fā)出的熒光經(jīng)光柵分光后打到CCD攝像機(jī)上同步成像。也就是代表不同堿基信息的不同顏色熒光經(jīng)光柵分光,經(jīng)CCD成像,因而一次掃描可檢測(cè)出多種熒光,傳入電腦。其測(cè)序速度高達(dá)200bp/h,比373型DNA測(cè)序儀速度大大提高。最后經(jīng)過(guò)軟件分析后輸出結(jié)果。自動(dòng)化測(cè)序儀的發(fā)明促進(jìn)了人類(lèi)基因組的大規(guī)模測(cè)序行動(dòng)。自動(dòng)化測(cè)序效率高,而且測(cè)序的質(zhì)量也比手工操作好。由于DNA多聚酶和熒光底物的不斷更新,在很長(zhǎng)一段時(shí)間內(nèi),熒光自動(dòng)化測(cè)序?qū)?huì)處于主導(dǎo)地位。二、DNA片段測(cè)序策略1、鳥(niǎo)槍測(cè)序法(shotgunsequencing)2、引物步查法(primerwalking)3、限制性酶切-亞克隆法(restrictionendonucleasedigestionandsubcloning)1、鳥(niǎo)槍測(cè)序法(shotgunsequencing)大分子DNA被隨機(jī)地“敲碎”成許多小片段,收集這些隨機(jī)小片段并將它們?nèi)窟B接到合適的測(cè)序載體;小片段測(cè)序完成后,根據(jù)重疊區(qū)計(jì)算機(jī)將小片段整合出大分子DNA序列。這就是所謂的鳥(niǎo)槍測(cè)序法(見(jiàn)圖4.6)。鳥(niǎo)槍測(cè)序法可以迅速獲得90%左右的片段序列結(jié)果,但隨后測(cè)序效率明顯下降,這是因?yàn)殡S后測(cè)定的隨機(jī)片段越來(lái)越多地是重復(fù)已測(cè)序完成的片段。因此,一般通過(guò)合成特定的寡核苷酸引物來(lái)測(cè)定剩余少量未知片段。有三種方法可用來(lái)將DNA大片段切割成小片段:限制性?xún)?nèi)切酶、超聲波處理和DNA酶I降解(加Mn2+)。在這三種方法處理前,DNA的純化非常重要,要去除載體DNA或僅由載體DNA產(chǎn)生的片段。鳥(niǎo)槍測(cè)序法的優(yōu)點(diǎn)是成本低、快速、易于自動(dòng)化操作,它的缺點(diǎn)是在測(cè)序后期,大量重復(fù)測(cè)序使測(cè)序效率變低。1995年第一個(gè)細(xì)胞有機(jī)體——流感嗜血(Haemophilus

influenzae)全基因組序列被完成,這是完全用鳥(niǎo)槍法策略直接完成的,說(shuō)明鳥(niǎo)槍法用于微生物基因組測(cè)序是有效的。研究者直接將全基因組DNA打成1.6~2.0kb大小的片段分別克隆,共使用了19687個(gè)模板,進(jìn)行了28443個(gè)測(cè)序反應(yīng),組建了140個(gè)片段重疊群,測(cè)序用時(shí)3~4個(gè)月,耗費(fèi)100萬(wàn)美金左右。2、引物步查法(primerwalking)引物步查法是一種漸進(jìn)式測(cè)序策略,也是最簡(jiǎn)單的一種測(cè)序策略。該方法適合于雙脫氧測(cè)序,并繞開(kāi)了亞克隆小片段DNA的要求。最初的序列數(shù)據(jù)是通過(guò)利用載體上的引物獲得的,一旦新的序列被確認(rèn),與新獲得序列的3‘端雜交的寡核苷酸就能合成,并能以之為引物進(jìn)行下一輪的雙脫氧測(cè)序反應(yīng)。這樣,從兩頭向中間,序列被一步步測(cè)序(見(jiàn)圖4.7)引物步查法相對(duì)較慢,因?yàn)樾蛄袃H從兩頭測(cè)得。每一步均需要一個(gè)測(cè)序反應(yīng)(凝膠電泳)、數(shù)據(jù)分析、新引物設(shè)計(jì)和合成。這些過(guò)程將至少需要幾天時(shí)間,如果引物供應(yīng)不暢,可能時(shí)間還要更長(zhǎng)。該方法適合于短cDNA片段,不適合于長(zhǎng)cDNA片段,同時(shí)不宜自動(dòng)化處理,因?yàn)槊恳环磻?yīng)需要一個(gè)不同的引物,這些引物將依據(jù)上一次反應(yīng)結(jié)果而定。引物步查法成本相對(duì)較高,每一步都需要合成一個(gè)新引物,這制約了該技術(shù)的廣泛應(yīng)用。但是,最近寡核苷酸合成的成本已顯著下降,所以成本問(wèn)題有望解決。該技術(shù)的優(yōu)點(diǎn)在于它的簡(jiǎn)單,不需要亞克隆或其它一些操作,實(shí)際操作時(shí)間不多,在其測(cè)序過(guò)程中,分析者有大量時(shí)間可以干其它一些事情。引物步查法將合成一套覆蓋整條序列的測(cè)序引物,如果序列需要重復(fù)測(cè)序,如測(cè)定序列突變等位位點(diǎn),這套引物則成為很有用的資源。3、限制性酶切-亞克隆法(restrictionendonucleasedigestionandsubcloning)原理上講,序列的信息可以從其已知的限制性?xún)?nèi)切酶位點(diǎn)中獲得。用限制性?xún)?nèi)切酶酶切并亞克隆一個(gè)適當(dāng)大小的片段,使酶切位點(diǎn)附近的未知片段與載體已知序列相鄰,這樣就可以用載體的引物去測(cè)定未知序列;可以很方便地利用2個(gè)或更多位點(diǎn)切除一個(gè)未知克隆片段并用DNA聚合酶再將酶切下來(lái)的克隆產(chǎn)物再接合上去。由于所選用的內(nèi)切酶不可能產(chǎn)生粘性末端,所以正常情況下,有必要用Klenow或T4DNA聚合酶把它們轉(zhuǎn)變?yōu)槠蕉恕T摲椒ㄊ疽鈭D見(jiàn)圖4.8.該方法的關(guān)鍵一步是需要一張準(zhǔn)確的限制性?xún)?nèi)切酶譜,而且這些酶切位點(diǎn)間最好都相隔幾百個(gè)堿基。對(duì)于一個(gè)熟練的研究者來(lái)說(shuō),制作一張酶切圖并不難,但是酶切位點(diǎn)的分布則是一個(gè)隨機(jī)問(wèn)題,所以,不可能位點(diǎn)距離總是符合該方法的測(cè)序。利用該方法可以得到整條片段的大部分序列。由于該方法是基于酶切圖,所以對(duì)于尚有哪些缺口(gap),缺口有多大都很清楚,這有助于進(jìn)一步的分析。該方法難以自動(dòng)化分析,因?yàn)樗蕾?lài)于一套特定的亞克隆過(guò)程,而這些過(guò)程在每次的測(cè)序計(jì)劃均是不同的??赡茏畛S玫姆椒ㄊ怯梦粗沃械纳倭棵盖形稽c(diǎn),每個(gè)位點(diǎn)作為未知片段的一個(gè)新起點(diǎn),然后用引物步查法在每個(gè)方向進(jìn)行測(cè)序。這種混合方法較單用引物步查法可以顯著減少整個(gè)片段的測(cè)序時(shí)間。三、基因組測(cè)序策略1、逐步克?。╟lonebyclone):從遺傳圖譜、物理圖譜到基因組圖譜2、全基因組鳥(niǎo)槍法(whole-genomeshortgun)1、逐步克?。╟lonebyclone):從遺傳圖譜、物理圖譜到基因組圖譜基因組測(cè)序涉及DNA的大規(guī)模測(cè)序,它是一項(xiàng)如同“曼哈頓登月計(jì)劃”一樣的龐大工程,是人類(lèi)在現(xiàn)有技術(shù)水平的重重障礙中科學(xué)技術(shù)的又一次進(jìn)步。根據(jù)現(xiàn)有的技術(shù)水平,人類(lèi)還無(wú)法對(duì)基因組這樣的復(fù)雜DNA大分子直接進(jìn)行測(cè)序,而只能采取分而治之的測(cè)序基本策略,即將基因組DNA分割成一定大小的片段,然后分別對(duì)這些片段進(jìn)行測(cè)序。這樣便產(chǎn)生了這樣一個(gè)問(wèn)題:如何將這些片段準(zhǔn)確地拼接起來(lái)?目前的測(cè)序方法(上節(jié))每次反應(yīng)只能測(cè)定500bp左右長(zhǎng)度的DNA片段,而一般一條染色體的長(zhǎng)度對(duì)于400-500bp長(zhǎng)度如同天文數(shù)字。所以,要進(jìn)行諸如人類(lèi)基因組測(cè)序,則必須在2個(gè)方面取得突破:一是將基因組DNA大分子分割并構(gòu)建適合于測(cè)序的DNA片段庫(kù),而且?guī)熘械钠我采w整條序列;二是在整條線性序列上建立一定數(shù)量的“路標(biāo)”,使切割下來(lái)的DAN片段能準(zhǔn)確拼裝回去。遺傳圖譜和物理圖譜便是這樣的“路標(biāo)”圖。人類(lèi)遺傳和物理圖譜于1998年的建成使最終人類(lèi)基因組測(cè)序成為可能?;蚪M上的DNA相當(dāng)穩(wěn)定,因此可以構(gòu)建含有這些DNA片段的新生物體??寺〖夹g(shù)是把基因組上的片段插入不同生物載體,并轉(zhuǎn)染到一些生物體中使其生存和穩(wěn)定復(fù)制,由此可以分析由小片段DNA組成的基因組拷貝(克隆群)。目前選用插入的載體包括酵母、細(xì)菌、粘粒、噬菌體等。遺傳圖譜(geneticmap)又稱(chēng)連鎖圖譜(linkagemap)或遺傳連鎖圖譜(geneticlinkagemap),是指基因組內(nèi)基因和專(zhuān)一的多態(tài)性DNA標(biāo)記(marker)相對(duì)位置的圖譜,其研究經(jīng)歷了從經(jīng)典的基因連鎖圖譜到現(xiàn)代的DNA標(biāo)記連鎖圖譜的過(guò)程。構(gòu)建遺傳圖譜的基本原理是真核生物遺傳過(guò)程中會(huì)發(fā)生堿數(shù)分裂,此過(guò)程中染色體要進(jìn)行重組和交換,這種重組和交換的概率會(huì)隨著染色體上任意兩點(diǎn)間相對(duì)距離的遠(yuǎn)近而發(fā)生相應(yīng)的變化。根據(jù)概率大小,人們就可以推斷出同一條染色體上兩點(diǎn)間的相對(duì)距離和位置關(guān)系。正因?yàn)槿绱?,我們得到的這張圖譜也就只能顯示標(biāo)記之間的相對(duì)距離。我們稱(chēng)這一距離(概率)為遺傳距離(cM),由此構(gòu)建的圖譜也稱(chēng)為遺傳圖譜。遺傳圖譜的“路標(biāo)”(遺傳標(biāo)記)已經(jīng)歷了幾次從“粗”到“細(xì)”的大的演變,或者說(shuō),從第1代標(biāo)記向第2代、第3代標(biāo)記的過(guò)渡。經(jīng)典的遺傳標(biāo)記(第1代標(biāo)記)最初主要是利用蛋白質(zhì)或免疫學(xué)等的標(biāo)記,70年代中后期建立起來(lái)的限制性片段長(zhǎng)度多態(tài)性(RFLP)方法成為第1代的DNA標(biāo)記,這類(lèi)標(biāo)記在整個(gè)基因組中確定的位點(diǎn)數(shù)目可達(dá)105以上。第2代標(biāo)記為可變數(shù)量串聯(lián)重復(fù)序列(Variablenumbertandemrepeat,VNTR),包括微、小衛(wèi)星(microsatellite/minisatellite)或短串聯(lián)重復(fù)(shorttandemrepeat,STR或shortsequentlengthpolymorphysm,SSLP)標(biāo)記等。第3代標(biāo)記是一類(lèi)稱(chēng)作SNP(single

nuleotide

polymorphysm)的遺傳標(biāo)記系統(tǒng),即單核苷酸多態(tài)性標(biāo)記。遺傳圖譜上的各種DNA標(biāo)記正如地圖上標(biāo)明的河流、山川,基因組中的這些標(biāo)記種類(lèi)繁多,隨著人類(lèi)基因組等計(jì)劃的進(jìn)行,人們不斷發(fā)現(xiàn)一些新的標(biāo)記,而且這些標(biāo)記在地圖上的密度也越來(lái)越高,迄今已經(jīng)有好幾個(gè)版本的圖譜發(fā)表出來(lái)。在Internet網(wǎng)上的GDB(geneomedatabase)網(wǎng)頁(yè)上可以方便地查找到迄今已發(fā)表的各種遺傳標(biāo)記(http://)。遺傳圖譜的構(gòu)建是人類(lèi)基因組研究必不可少的一步,它對(duì)搞清基因的功能、定位及分離克隆新基因、排列DNA片段、研究染色體上基因的排列順序等起到不可估量的作用。遺傳圖譜在過(guò)去幾年的人類(lèi)基因組研究中發(fā)揮了巨大的作用,以致同樣的策略也被應(yīng)用于其它模式生物。物理圖譜是描述位于染色體上的基因和生物學(xué)界標(biāo)獨(dú)特并有確定位置及實(shí)際距離的染色體結(jié)構(gòu)。任何圖譜都是一系列路標(biāo)及客觀物(objects)按其固有的順序和可能的距離構(gòu)建出來(lái)的。客觀物的順序應(yīng)不隨構(gòu)圖方法的不同而不同,但它們之間的距離則可能不一致。在遺傳圖譜中按重組率來(lái)估計(jì)實(shí)際距離會(huì)有很大的偏差。物理圖譜可以理解為用物理學(xué)方法而不是遺傳學(xué)方法定位的由客觀物組成的任何圖譜,而通常物理圖譜是指高分辨率(high-resolution)的物理圖譜,即基因組長(zhǎng)片段限制性酶切圖譜和重疊克隆圖譜等,但整合物理圖譜還應(yīng)包括只能粗略分辨路標(biāo)位置但不能準(zhǔn)確排位的染色體圖譜(chromosomemap)和遺傳連鎖圖譜。人類(lèi)基因組測(cè)序的開(kāi)展還得益于另一項(xiàng)突破:隨著脈沖場(chǎng)電泳技術(shù)(pulsed-fieldgelelectrophoresis,PFGE)、YAC克隆、BAC和PAC克隆的出現(xiàn),可以把切割基因組后產(chǎn)生的大片段DNA準(zhǔn)確地分離和純化,并插入能轉(zhuǎn)入DNA大片段的載體,轉(zhuǎn)染酵母細(xì)胞形成YAC克隆庫(kù)或轉(zhuǎn)染大腸桿菌形成BAC克隆庫(kù)。這些載體可載入10Mb長(zhǎng)度(相當(dāng)于人類(lèi)全基因組堿基長(zhǎng)度的1/300)的DNA片段。全基因組的YAC克隆庫(kù)及BAC克隆庫(kù)保證了基因組分析的完整性和準(zhǔn)確性。可以用雜交技術(shù)等來(lái)發(fā)現(xiàn)重疊克隆,以此進(jìn)行克隆片段的排序。對(duì)于大片段DNA克隆進(jìn)行再切割,并載入粘粒、細(xì)菌或噬菌體,即可構(gòu)建相應(yīng)于特定YAC或BAC克隆的亞克隆(subcloning),供測(cè)序使用。這一系統(tǒng)過(guò)程的建立為大規(guī)模測(cè)序打下了堅(jiān)實(shí)的基礎(chǔ)。構(gòu)建物理圖譜最終是要統(tǒng)一到基于STS的物理圖譜。STS(sequence-taggedsite,序列標(biāo)簽位點(diǎn))的概念首先由Olson于1989年提出,目的是建立一套人類(lèi)基因組統(tǒng)一的生物學(xué)界標(biāo)。STS本身是隨機(jī)地從人類(lèi)基因組上選擇出來(lái)的長(zhǎng)度在200~300bp左右的特異性短序列。STS路標(biāo)的建立一般是從噬菌體M13上構(gòu)建特定染色體克隆開(kāi)始,STS概念的提出是物理構(gòu)圖的一次革命,由于特定STS在一套基因組結(jié)構(gòu)中只出現(xiàn)一次,統(tǒng)一地把相應(yīng)的克隆庫(kù)中的克隆進(jìn)行排序變得更準(zhǔn)確和更科學(xué)。如果兩個(gè)或兩個(gè)以上的克隆包含有相同的STS,則它們之間存在重疊?;赟TS的物理圖譜的重要性在于(1)它們可用來(lái)特異地定義YAC、粘?;蚴删w克??;(2)STS可鑒定出與特定克隆存在重疊的克??;(3)在計(jì)算機(jī)數(shù)據(jù)庫(kù)中的各種物理圖譜可以用STS這種通用語(yǔ)言統(tǒng)一起來(lái)?;赟TS的物理圖譜不但可對(duì)染色體圖譜、限制性酶切位點(diǎn)為路標(biāo)的限制性酶切圖、重疊探針雜交的YAC克隆片段重疊群(contig)圖譜及其亞克隆重疊排序,以及新近發(fā)展的其它新方法構(gòu)建的物理圖譜進(jìn)行整合,也可對(duì)遺傳圖譜、基因圖譜等各類(lèi)圖譜進(jìn)行整合,最終完成系統(tǒng)、統(tǒng)一的基因組終極圖譜。最終完成的人類(lèi)基因組核苷酸序列相當(dāng)于STS密度最高的基因組物理圖譜。圖4.5人類(lèi)基因組的各種圖譜。最粗糙的圖譜是遺傳圖譜,它根據(jù)相鄰標(biāo)記(如基因和多態(tài)片段)間的重組率來(lái)測(cè)量相互間的距離;具有1-2Mb長(zhǎng)度的限制性酶切片段可被分離和構(gòu)建物理圖譜;YAC等長(zhǎng)度在40-400kb的插入片段排列構(gòu)建高分辨率物理圖譜;堿基序列為最高分辨率物理圖譜。綜上所述,廣義上各種基于路標(biāo)位點(diǎn)構(gòu)建的物理圖譜方法從低分辨率到高分辨率可主要分為以下幾種:(1)對(duì)路標(biāo)進(jìn)行粗略定位的染色體圖譜即細(xì)胞遺傳圖譜(cytogeneticmap),通常使用原位雜交(ISH)或熒光原位雜交(FISH)技術(shù)確定含有路標(biāo)DNA片段在染色體上的區(qū)帶位置和分布。DNA片段可被定在2~10Mb的范圍內(nèi)。

(2)cDNA圖譜是在細(xì)胞遺傳圖譜上顯示cDNA或ESTs(expressedsequencetags),即表達(dá)DNA(外因子)的區(qū)帶位置。部分cDNA序列可作為路標(biāo)。(3)利用家系分離分析法(pedigreesegregateanalysis)可確定具有多態(tài)性的遺傳標(biāo)記位點(diǎn)在遺傳連鎖圖譜上的位置,最新的人類(lèi)基因組遺傳連鎖圖譜已把標(biāo)記間的平均距離縮小到1cM以下,即粗略地對(duì)應(yīng)于物理圖譜中的1Mb范圍內(nèi)。(4)輻射雜種圖譜是利用體細(xì)胞遺傳技術(shù)(somaticcellgeneticapproach)構(gòu)建高分辨率、長(zhǎng)范圍連續(xù)的人類(lèi)基因組圖譜?;驹頌椋藶榈赜梅派渚€打斷染色體,制備出含有特定人類(lèi)染色體或片段的雜交細(xì)胞系,并利用類(lèi)似于傳統(tǒng)的減數(shù)分裂構(gòu)圖原理確定路標(biāo)間的距離和位置,最高的分辨率可達(dá)到50kp。(5)脈沖場(chǎng)電泳的長(zhǎng)片段限制性位點(diǎn)(macrorestrietionalsite)圖譜,即限制性酶切位點(diǎn)指紋(restrictionenzymefingerpriting)圖譜是描述以稀有酶切位點(diǎn)為生物學(xué)界標(biāo)的順序和距離,以及形成基因組或染色體區(qū)域上的酶切圖譜。由于些法是從大片段入手,常常又稱(chēng)為“從上到下”(Top-down)構(gòu)圖法;此外,區(qū)域性DNA大片段有利于較精細(xì)制圖,如YAC克隆插入片段分析便于重疊圖譜的分析,此方法可把DNA片段定位在100kb到1Mb范圍內(nèi)。(6)由DNA片段重疊群(contig)形成的小組合,即相連組合圖譜,或稱(chēng)重疊克隆群(overlappingsetsofcloning)圖譜描述存在于重疊的DNA片段克隆的順序和距離。通常通過(guò)粘粒重疊克隆把DNA片段定位在小于2Mb的范圍內(nèi),相對(duì)于長(zhǎng)片段限制性酶切位點(diǎn)圖譜,這種構(gòu)圖法也被稱(chēng)為“從下到上”(Bottom-up)法。(7)序列標(biāo)簽位點(diǎn)(sequence-taggedsite,STS)構(gòu)成了STS基礎(chǔ)上整合圖。它是基因組上篩選特異序列,其最終密度至少達(dá)到平均每100kb左右一個(gè),最終將把各種方法構(gòu)建的圖譜整合起來(lái),完成準(zhǔn)確完整的系統(tǒng)物理圖譜。(8)部分及全基因組測(cè)序是分辨率最高的物理圖譜,而目前要構(gòu)建的高分辨率(<100kb)物理圖譜上路標(biāo)序列本身也是基因組序列信息的一部分。此外,一些構(gòu)建物理圖譜的方法還包括基因組序列抽樣(genomicsequencesampling,GSS)和可見(jiàn)圖譜(opticalmap)等。GSS是結(jié)合片段限制性酶切和STS的一種作圖法,分辨率可達(dá)到1~5kb;可見(jiàn)圖譜則是結(jié)合限制性酶切、電泳和FISH技術(shù)通過(guò)觀察單個(gè)DNA大分子在限制性酶切作用下的圖象來(lái)作圖。低分辨率物理圖譜在人類(lèi)基因組計(jì)劃中本身是獨(dú)立的部分,但從染色體區(qū)帶-表達(dá)基因區(qū)域-遺傳學(xué)距離-物理學(xué)實(shí)際距離-堿基序列這一過(guò)程來(lái)看,低分辨率染色體分帶可看作粗略的物理圖譜,堿基序列則是最精密的物理圖譜。低分辨率圖譜上的一些路標(biāo)常常被用在高分辨率圖譜的構(gòu)建中,結(jié)合其它路標(biāo)形成高密度路標(biāo)分布的圖譜,同時(shí)這些高密度路標(biāo)可以重新在低分辯率圖譜進(jìn)行驗(yàn)證,形成高分辯率與低分辯率相結(jié)合的整合物理圖譜。每種圖譜都有各自的優(yōu)缺點(diǎn),所以即使對(duì)同一基因組研究,不同的實(shí)驗(yàn)室會(huì)采用不同的作圖方法,但最終各種圖譜的結(jié)果應(yīng)能統(tǒng)一起來(lái),相互補(bǔ)充和完善。表4.2中列舉的物理圖譜數(shù)據(jù)庫(kù)的數(shù)據(jù)主要來(lái)自人類(lèi)基因組,但同時(shí)也包含了其它的一些生物體。構(gòu)成物理圖譜的4個(gè)基本要素之一可復(fù)制DNA片段(clonablefragment)(另3個(gè)要素是路標(biāo)、單位、順序)主要包括輻射雜種細(xì)胞(RH)、YAC、BAC、PAC等。對(duì)于這些DNA大片段的測(cè)序一般需要將其再細(xì)分為能單獨(dú)進(jìn)行序列分析的小片段,目前有三種常用方法:鳥(niǎo)槍測(cè)序法、引物步查法和限制性酶切—亞克隆法。2、全基因組鳥(niǎo)槍法(whole-genomeshortgun)在基因組水平上,全基因組鳥(niǎo)槍法和逐步克隆測(cè)定法是目前廣泛應(yīng)用的兩個(gè)測(cè)序策略。小的單分子基因組,如細(xì)菌和小基因組(<10Mb)可直接用鳥(niǎo)槍法測(cè)序。雖然有人提出用鳥(niǎo)槍法直接測(cè)序人類(lèi)基因組(Weber和Mayers,1997),但由于人類(lèi)基因組中存在高比例的重復(fù)序列(尤其是LINE,2-7kb)、克隆文庫(kù)不可避免的間隙和基因的多態(tài)性等原因,鳥(niǎo)槍法的片段組裝幾乎是不可能的。受讀序長(zhǎng)度的限制,一個(gè)反應(yīng)無(wú)法跨過(guò)LINE。鳥(niǎo)槍法在小組因組(1-5Mb)測(cè)序方面已取得了非常好的效果,例如流感嗜血桿菌(H.influenzae,1.9Mb)、枝原體(M.genitalium,0.58Mb)和甲烷球菌(M.jannaschii)基因組均用此法完成測(cè)序。逐步克隆測(cè)定法則通過(guò)建立克隆文庫(kù)(YAC、BAC、PAC、Cosmid、Fosmicl、噬菌體、質(zhì)粒),然后用鳥(niǎo)槍法進(jìn)行克隆片段的測(cè)序。所以,大規(guī)模測(cè)序的兩個(gè)前沿基本都是采用鳥(niǎo)槍法(圖4.9)。圖4.9鳥(niǎo)槍法測(cè)序策略。基因組的逐步克隆測(cè)序包括圖中的所有步驟:DNA單鏈→構(gòu)建BAC文庫(kù)→鳥(niǎo)槍法克隆測(cè)序→組裝;全基因組鳥(niǎo)槍法測(cè)序則省去中間的構(gòu)建BAC文庫(kù)步驟。四、序列片段的拼接方法無(wú)論是逐步克隆測(cè)序還是全基因組鳥(niǎo)槍法測(cè)序,都存在片段拼接組裝的難題。目前DNA自動(dòng)測(cè)序儀每個(gè)反應(yīng)只能測(cè)序500bp左右,如何將這些片段拼接成完整的DNA序列呢?Lander和Waterman(1988)提出利用“指紋”(fingerprinting)隨機(jī)克隆進(jìn)行基因組作圖的算法,它為大量鳥(niǎo)槍法隨機(jī)測(cè)序的片段用計(jì)算機(jī)進(jìn)行自動(dòng)拼接提供了可能。這種技術(shù)不僅避免了傳統(tǒng)的亞克隆策略的大量繁瑣工作,還使測(cè)序具有一定的冗余性(即一定數(shù)量的重復(fù)),保證了測(cè)序中每個(gè)堿基的準(zhǔn)確性。目前DNA序列拼接應(yīng)用的主要軟件是由美國(guó)華盛頓大學(xué)PhilGreen實(shí)驗(yàn)室開(kāi)發(fā)的Phred-Phrap-Consed系統(tǒng)。Green也因研制該系統(tǒng)而在人類(lèi)基因組研究歷史上占有一席之地(見(jiàn)Science2001年2月16日人類(lèi)基因組專(zhuān)刊“AhistoryofHumanGenomeProject”一文)。Phred(測(cè)序器)是一種堿基識(shí)別系統(tǒng)(base-caller),它根據(jù)自動(dòng)測(cè)序儀信號(hào)按順序識(shí)別堿基,估計(jì)測(cè)序錯(cuò)誤率等。Phrap(組裝器)是根據(jù)Phred的結(jié)果從頭組裝由鳥(niǎo)槍法產(chǎn)生的不同的短序列。Consed(校對(duì)器)與Phrep組成一個(gè)有機(jī)整體,利用Phrap組裝的序列由Consed編輯、整合人工校對(duì)結(jié)果等。目前36個(gè)國(guó)家900多個(gè)實(shí)驗(yàn)室都在使用上述系統(tǒng)。非贏利研究機(jī)構(gòu)或個(gè)人可申請(qǐng)免費(fèi)利用該系統(tǒng)。圖4.11自動(dòng)測(cè)序組裝系統(tǒng)Phred-Phrap-Consed主頁(yè)圖4.12Phrap程序中序列重疊群比對(duì)結(jié)果顯示窗口Phrap拼接鳥(niǎo)槍法序列的的方法也是通過(guò)列線(aligment)查找匹配序列。其列線算法采用的是Smith-Waterman算法和Needleman-Wunsch算法(可選擇),替換矩陣(缺省為BLOSUM50)、空位設(shè)置罰值和空位擴(kuò)展罰值(缺省值分別為-12和-2)、E值(缺省值1.0)等都在列線比對(duì)中被應(yīng)用。Phrap的算法中使用了一個(gè)新參數(shù)——Z值(Z-score)。當(dāng)數(shù)據(jù)庫(kù)序列長(zhǎng)度變化很大時(shí)(實(shí)際情況往往如此),理論分析和經(jīng)驗(yàn)研究都表明列線值敏感性下降,即判別由隨機(jī)性產(chǎn)生匹配的能力下降。Z值的引入便是為了解決這一問(wèn)題。Z值定義如下:其中s和n為原始列線值和數(shù)據(jù)庫(kù)序列長(zhǎng)度,f(n)和g(n)分別是序列長(zhǎng)度為n的序列列線值平均數(shù)和變異度。由此,Z值的平均數(shù)為零,標(biāo)準(zhǔn)差為1,與序列長(zhǎng)度n無(wú)關(guān)。相對(duì)而言,Z值與數(shù)據(jù)庫(kù)大小無(wú)關(guān),這一特性與原始列線值s相似,但與E值不同,所以,Z值是比s值更合理的一個(gè)指標(biāo)尺度。第二節(jié)基因組注釋?zhuān)夯騾^(qū)域的預(yù)測(cè)一、從序列中尋找基因二、最長(zhǎng)ORF法等:基因編碼區(qū)特性三、序列相似性比較法四、隱馬爾可夫模型(HMM)五、神經(jīng)網(wǎng)絡(luò)六、RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)一、從序列中尋找基因1、基因及基因區(qū)域預(yù)測(cè)2、發(fā)現(xiàn)基因的一般過(guò)程3、解讀序列(makingsenseofthesequence)1、基因及基因區(qū)域預(yù)測(cè)在完成序列的拼接后,我們得到的是很長(zhǎng)的DNA序列,甚至可能是整個(gè)基因組的序列。這些序列中包含有許多未知的基因,將基因從這些序列中找出來(lái)是生物信息學(xué)的一個(gè)研究熱點(diǎn)?;蛞辉~最早是由丹麥遺傳學(xué)家約翰遜(JohannsenW.)于1909年提出,而在這之前,遺傳學(xué)創(chuàng)始人孟德?tīng)栍谩斑z傳因子”表達(dá)了對(duì)基因的朦朧認(rèn)識(shí)?;虻母拍铍S著遺傳學(xué)、分子生物學(xué)等的發(fā)展而不斷完善。從分子生物學(xué)角度看,基因是負(fù)載特定生物遺傳信息的DNA分子片段,在一定條件下能夠表達(dá)這種遺傳信息,產(chǎn)生特定的生理功能。基因按其功能可分為結(jié)構(gòu)基因和調(diào)控基因:結(jié)構(gòu)基因可被轉(zhuǎn)錄形成mRNA,并進(jìn)而轉(zhuǎn)譯成多肽鏈;調(diào)控基因是指某些可調(diào)節(jié)控制結(jié)構(gòu)基因表達(dá)的基因。在DNA鏈上,由蛋白質(zhì)合成的起始密碼開(kāi)始,到終止密碼子為止的一個(gè)連續(xù)編碼序列稱(chēng)為一個(gè)開(kāi)放閱讀框(OpenReadingFrame,ORF)。結(jié)構(gòu)基因多含有插入序列,除了細(xì)菌和病毒的DNA中ORF是連續(xù)的,包括人類(lèi)在內(nèi)的真核生物的大部分結(jié)構(gòu)基因?yàn)閿嗔鸦颍雌渚幋a序列在DNA分子上是不連續(xù)的,或被插入序列隔開(kāi)。斷裂基因被轉(zhuǎn)錄成前體mRNA,經(jīng)過(guò)剪切過(guò)程,切除其中非編碼序列(即內(nèi)含子),再將編碼序列(即外顯子)連接形成成熟mRNA,并翻譯成蛋白質(zhì)。假基因是與功能性基因密切相關(guān)的DNA序列,但由于缺失、插入和無(wú)義突變失去閱讀框而不能編碼蛋白質(zhì)產(chǎn)物。圖4.13一種典型的真核蛋白質(zhì)編碼基因的結(jié)構(gòu)示意圖。其編碼序列(外顯子)是不連續(xù)的,被非編碼區(qū)(內(nèi)含子)隔斷。所謂基因區(qū)域預(yù)測(cè),一般是指預(yù)測(cè)DNA序列中編碼蛋白質(zhì)的部分,即外顯子部分。不過(guò)目前基因區(qū)域的預(yù)測(cè)已從單純外顯子預(yù)測(cè)發(fā)展到整個(gè)基因結(jié)構(gòu)的預(yù)測(cè)。這些預(yù)測(cè)綜合各種外顯子預(yù)測(cè)的算法和人們對(duì)基因結(jié)構(gòu)信號(hào)(如TATA盒等)的認(rèn)識(shí),預(yù)測(cè)出可能的完整基因。某一算法的優(yōu)劣可以通過(guò)一定的標(biāo)準(zhǔn)衡量:敏感性(sensitive)和特異性(specifity)。假設(shè)待測(cè)序列中有M條序列是基因序列,而剩余的為非基因序列。我們用某一程序(算法)對(duì)待測(cè)序列進(jìn)行預(yù)測(cè),共預(yù)測(cè)出N條基因序列,而這N條序列中有N1條確實(shí)為基因。則敏感性定義為N1/M,它表示程序預(yù)測(cè)的功能;特異性定義為N1/N,它表示程序預(yù)測(cè)結(jié)果的可靠程度。敏感性和特異性往往是一對(duì)矛盾。基因區(qū)域的預(yù)測(cè)是一個(gè)活躍的研究領(lǐng)域,先后有一大批預(yù)測(cè)算法和相應(yīng)程序被提出和應(yīng)用,其中有的方法對(duì)編碼序列的預(yù)測(cè)準(zhǔn)確率高達(dá)90%以上,而且在敏感性和特異性之間取得了很好的平衡。預(yù)測(cè)方法中,最早是通過(guò)序列核苷酸頻率、密碼子等特性進(jìn)行預(yù)測(cè)(如最長(zhǎng)ORF法等),隨著各類(lèi)數(shù)據(jù)庫(kù)的建立和完善,通過(guò)相似性列線比對(duì)也可以預(yù)測(cè)可能的基因。同時(shí),一批新方法也被提了出來(lái),如隱馬爾可夫模型(HiddenMarkovModel,HMM)、動(dòng)態(tài)規(guī)劃法(dynamicprogramming)、法則系統(tǒng)(ruled-basedsystem)、語(yǔ)言學(xué)(linguistic)方法、線性判別分析(LinearDiscriminant

Analysis,LDA)、決策樹(shù)(decisiontree)、拼接列線(splicedalingment)、博利葉分析(Fourieranalysis)等。表4.3列出了claverie(1997)對(duì)部分程序預(yù)測(cè)基因區(qū)域能力的比較結(jié)果,表中同時(shí)列出了相應(yīng)算法和程序的網(wǎng)址。目前基因區(qū)域預(yù)測(cè)的各種算法均基于已知基因序列。如相似性列線比較算法是完全依賴(lài)于已知的序列,而象HMM之類(lèi)的算法都需要對(duì)已知的基因結(jié)構(gòu)信號(hào)進(jìn)行學(xué)習(xí)或訓(xùn)練,由于訓(xùn)練所用的序列畢竟是有限的,所以對(duì)那些與學(xué)習(xí)過(guò)的基因結(jié)構(gòu)不太相似的基因,這些算法的預(yù)測(cè)效果就要大打折扣了。要解決以上問(wèn)題,需要對(duì)基因結(jié)構(gòu)進(jìn)行更深入的研究,尋找隱藏在基因不同結(jié)構(gòu)中的內(nèi)在統(tǒng)計(jì)規(guī)律。表4.3部分程序預(yù)測(cè)基因區(qū)域能力的比較結(jié)果(claverie,1997)注釋?zhuān)孩貺DA:線性判別分析;RB:法則系統(tǒng);DP:動(dòng)態(tài)規(guī)劃法;HMM:隱馬爾可夫模型;DT:決策樹(shù);②敏感性(%nucl):實(shí)際編碼序列被成功預(yù)測(cè)為編碼序列;特異性(%nucl):預(yù)測(cè)為編碼的序列實(shí)際確定為編碼序列;敏感性(%exactexon):實(shí)際的外顯子被準(zhǔn)確預(yù)測(cè)(包括拼接位點(diǎn));特異性(%exactexon):預(yù)測(cè)為外顯子的序列與實(shí)際外顯子準(zhǔn)確符合;丟失的外顯子(%):未能預(yù)測(cè)出的實(shí)際外顯子;錯(cuò)誤的外顯子(%):預(yù)測(cè)為外顯子的序列實(shí)際不是任何外顯子的片段。2、發(fā)現(xiàn)基因的一般過(guò)程從序列中發(fā)現(xiàn)基因可以理解為基因區(qū)域預(yù)測(cè)和基因功能預(yù)測(cè)2個(gè)層次。生物信息學(xué)在這2個(gè)層次上均形成具有自身學(xué)科特色的算法和手段,以下便簡(jiǎn)單描述通過(guò)生物信息學(xué)手段發(fā)現(xiàn)基因的一般過(guò)程。有關(guān)基因功能的預(yù)測(cè)將在以后的章節(jié)中進(jìn)一步論述,同時(shí)本小節(jié)描述的發(fā)現(xiàn)過(guò)程只是生物信息學(xué)手段的一種可選策略。以下主要根據(jù)GeneDiscovey(http://bioinformatics.weizmann.ac.il):第一步:獲取DNA目標(biāo)序列①如果你已有目標(biāo)序列,可直接進(jìn)入第2步;②可通過(guò)PubMed查找你感興趣的資料;通過(guò)GenBank或EMBL等數(shù)據(jù)庫(kù)查找目標(biāo)序列。第二步:查找ORF并將目標(biāo)序列翻譯成蛋白質(zhì)序列利用相應(yīng)工具,如ORFFinder、Genefeature(BaylorCollegeofMedicine)、GenLang(UniversityofPennsylvania)等,查找ORF并將DNA序列翻譯成蛋白質(zhì)序列。第三步:在數(shù)據(jù)庫(kù)中進(jìn)行序列搜索可以利用BLAST進(jìn)行ORF核苷酸序列和ORF翻譯的蛋白質(zhì)序列搜索。第四步:進(jìn)行目標(biāo)序列與搜索得到的相似序列的整體列線(globalalignment)雖然第三步已進(jìn)行局部列線(localalignment)分析,但整體列線有助于進(jìn)一步加深目標(biāo)序列的認(rèn)識(shí)。第五步:查找基因家族進(jìn)行多序列列線(multiplesequencealignment)和獲得列線區(qū)段的可視信息??煞謩e在AMAS(OxfordUniversity)和BOXSHADE(ISREC,Switzerland)等服務(wù)器上進(jìn)行。第六步:查找目標(biāo)序列中的特定模序①分別在Procite、BLOCK、Motif數(shù)據(jù)庫(kù)進(jìn)行profile、模塊(block)、模序(motif)檢索;②對(duì)蛋白質(zhì)序列進(jìn)行統(tǒng)計(jì)分析和有關(guān)預(yù)測(cè)第七步:預(yù)測(cè)目標(biāo)序列結(jié)構(gòu)可以利用PredictProtein(EMBL)、NNPREDICT(UniversityofCalifornia)等預(yù)測(cè)目標(biāo)序列的蛋白質(zhì)二級(jí)結(jié)構(gòu)。第八步:獲取相關(guān)蛋白質(zhì)的功能信息為了了解目標(biāo)序列的功能,收集與目標(biāo)序列和結(jié)構(gòu)相似蛋白質(zhì)的功能信息非常必要??衫肞ubMed進(jìn)行搜索。第九步:把目標(biāo)序列輸入“提醒”服務(wù)器如果有與目標(biāo)序列相似的新序列數(shù)據(jù)輸入數(shù)據(jù)庫(kù),提醒(alert)服務(wù)會(huì)向你發(fā)出通知??蛇x用SequenceAlerting(EMBL)、Swiss-Shop(Switzerland)等服務(wù)器。3、解讀序列(makingsenseofthesequence)在2001年二月份的第二星期里(12日-18日),Science和Nature同時(shí)刊發(fā)了具有劃時(shí)代意義的人類(lèi)基因組研究專(zhuān)刊。在Science的專(zhuān)刊中,有一篇題為“解讀序列”(makingsenseofthesequence)(GalasD.J.)的綜述文章。文章對(duì)序列,特別是人類(lèi)基因組序列如何解讀進(jìn)行了深入分析,比較全面地展示了人類(lèi)目前對(duì)序列的理解能力和技術(shù)現(xiàn)狀。以下內(nèi)容摘譯自該篇文章。利用基因組序列解決生物學(xué)問(wèn)題已經(jīng)具備了其自身(學(xué)科)特色,它被冠以“功能基因組學(xué)”。自從1996年酶母(Sacharomyces

cerevisiae)基因組序列被公布,我們已熟悉用全基因組序列來(lái)研究基因表達(dá)模式等等生物學(xué)問(wèn)題。雖然我們還不知道約1/3酶母基因的功能,但是我們知道所有與細(xì)胞功能有關(guān)的可能的蛋白質(zhì)和RNA均由我們已知的序列編碼。根據(jù)目前對(duì)基因的分析結(jié)果,哺乳動(dòng)物一個(gè)基因的轉(zhuǎn)錄產(chǎn)物平均有2~3種或者更多。從現(xiàn)有序列數(shù)據(jù)估計(jì),人類(lèi)的基因數(shù)約為3萬(wàn),這意味著人類(lèi)基因組編碼了約有9萬(wàn)或更多種蛋白質(zhì)。但是,以上由現(xiàn)有序列數(shù)據(jù)推測(cè)的結(jié)論有很多不確定因素。重疊序列群(contig)是由單個(gè)測(cè)序反應(yīng)測(cè)得的序列(通常400~800堿基長(zhǎng)度)拼裝而成的一條連續(xù)片段,重疊序列群的數(shù)量和長(zhǎng)度分布是基因分析的兩個(gè)重要參數(shù)。正如美國(guó)NCBI2000年12月12日的報(bào)告所說(shuō),目前公共數(shù)據(jù)庫(kù)中最大的重疊序列群為28.5Mb,其中43個(gè)超過(guò)1Mb,566個(gè)在250Kb~1Mb之間,而1628個(gè)在100~250Kb。這意味著長(zhǎng)度大于100Kb的重疊序列群總長(zhǎng)度約600Mb——不足人類(lèi)基因組全部序列的20%;而基因組的一半序列是由22Kb或更小的重疊序列群所涵蓋。由于基因的長(zhǎng)度(一般估計(jì)為30000堿基對(duì))大于或等于重疊序列群,這說(shuō)明一定比例的人類(lèi)基因不可能只在一個(gè)重疊群中;在一個(gè)重疊群中發(fā)現(xiàn)一個(gè)最長(zhǎng)的基因,如肌聯(lián)蛋白(Titin)基因(約250Kb,內(nèi)含200多個(gè)外顯子),比發(fā)現(xiàn)一個(gè)短的簡(jiǎn)單基因,如嗅感受蛋白基因(平均小于2Kb)的概率小得多。但要將序列缺口和重疊群擴(kuò)大還要籍以時(shí)日。因此,在不久的將來(lái),基因的合成將通過(guò)組配重疊群“鑲嵌物”(mosaic),或稱(chēng)為“支架”(scaffold)來(lái)完成,這意味著重疊群間的拼接又將增加序列數(shù)據(jù)的不確定性。要想將所有的基因都落入拼裝而成的無(wú)缺口的支架片段中似乎還不可能,但是組裝成的基因的大致輪廓將變得很清楚。這就象一個(gè)被重新復(fù)原的古希臘花瓶,雖然花瓶的殘缺部分被用陶土填補(bǔ),而整個(gè)花瓶的輪廓已很清晰。文特爾(Venter)等人進(jìn)行基因拼裝和分析的方法中,一人重要的參數(shù)是支架的大小和分布。據(jù)報(bào)道,支架的平均長(zhǎng)度超過(guò)1Mb,而10Mb以上的支架占整個(gè)基因組的25%,支架間的缺口平均只有2Kb。這些為基因分析者提供了高檔次的序列數(shù)據(jù)。從一給定序列片段中,通過(guò)相似性比較發(fā)現(xiàn)基因的效果決定于簡(jiǎn)單的統(tǒng)計(jì)量和重疊群在基因組中的覆蓋率。當(dāng)該覆蓋率達(dá)到90%以上,那就意味著幾乎所有的基因(或至少是基因片段)均可在序列數(shù)據(jù)中找到。因此,利用本周公布的數(shù)據(jù)(指Science和Nature的人類(lèi)基因組專(zhuān)刊),通過(guò)相似性搜索來(lái)發(fā)現(xiàn)任何一個(gè)基因幾乎都是可能的。但是必須注意的是,這樣確定的基因可能還具有隨意性。這是因?yàn)槟骋簧铮绻?Drosophila)的一條具有高度相似的受體基因序列可能來(lái)自幾個(gè)不同的同源基因,而這些基因可能具有相同或完全不同的功能,甚至可能是一些沒(méi)有功能的假基因(pseudoge)。也就是說(shuō),共同的功能域(domain)或模序(motif)可能在幾個(gè)基因同時(shí)存在。使用BLAST搜索工具可能還是目前發(fā)現(xiàn)相似序列的最佳途徑。NCBI網(wǎng)站簡(jiǎn)明的介紹內(nèi)容有助理解不斷增多的BLAST系列工具的特性,有些小冊(cè)子介紹了BLAST近似算法的統(tǒng)計(jì)特色和局限。BLAST算法并不適合于所有目的的近似估計(jì),但使用者應(yīng)有這樣的認(rèn)識(shí),即任何一種算法都有可能錯(cuò)過(guò)一些特殊相似性。例如,由于對(duì)一些相隔相似性(interruptedsimilarity)的忽略,使間隔越大,獲得相似性統(tǒng)計(jì)顯著的可能性越小。新的一些方法試圖利用編碼區(qū)的結(jié)構(gòu)因素來(lái)進(jìn)行相似性比對(duì),這突破了相似顯著性方法的局限。雖然在基因組序列基因的自動(dòng)化識(shí)別方面已取得巨大進(jìn)步,但根據(jù)序列構(gòu)建準(zhǔn)確的基因模型(modelofgenes)還需要大量的人力,即“手工操作”(“hand-on”effort)。基因的最佳模型是其全長(zhǎng)mRNA序列。RNA序列(以cDNA形式)可以將基因組序列基因的外顯子結(jié)構(gòu)串聯(lián)起來(lái),而不必考慮這些片段身處何方——片段的連續(xù)性、順序和方向并不影響串聯(lián)過(guò)程。但是,假基因和高度相同的重復(fù)序列可能使這一策略失靈,這引起了對(duì)收集更多全長(zhǎng)cDNA序列數(shù)據(jù)的爭(zhēng)論。大致有2條途徑可以發(fā)現(xiàn)基因:(1)基于同源性的方法,包括已知mRNA序列的應(yīng)用;(2)基因家族和特殊序列間的比較。最初的方法包括利用各種計(jì)算機(jī)手段分析外顯子和其它序列信號(hào),如酶切位點(diǎn)等。在每一個(gè)基因模型中,與調(diào)控相關(guān)的序列位置和結(jié)構(gòu)往往是最難完成的注釋(annotation)之一。在一些情況下,可以通過(guò)諸如模序(motif)(檢索)來(lái)尋找和鑒定這些重要序列區(qū)段,但是我們目前對(duì)調(diào)控區(qū)段的鑒定和預(yù)測(cè)能力還很有限和不可靠。特定基因組間的比較是獲得這些區(qū)段的一條途徑,它建立在可以通過(guò)比較找出保守區(qū)的假設(shè)基礎(chǔ)上。新的一些實(shí)驗(yàn)方法,例如列陣技術(shù)可以定位基因組水平的轉(zhuǎn)錄位點(diǎn),同樣可以有效地檢測(cè)出基因組順式調(diào)節(jié)(cis-regulatory)信號(hào)。目前已有很多工具可以用于自動(dòng)注釋工作,對(duì)于這些工具的特點(diǎn)本文不做進(jìn)一步論述。將統(tǒng)計(jì)學(xué)和啟發(fā)式機(jī)器學(xué)習(xí)方法(heuristicmethods)相結(jié)合來(lái)分析基因和基因特征是目前流行的趨勢(shì)(例如隱馬爾可夫模型、神經(jīng)網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò))。它們?cè)诎l(fā)現(xiàn)基因方面最有效的方法并不是在準(zhǔn)確建模方面,而是常與同源性方法配合使用。影響這些算法有效性的因素包括測(cè)序誤差和統(tǒng)計(jì)偏差,例如堿基組成。數(shù)據(jù)的噪音(noise)會(huì)極大降低這些方法的效果,所以以上基于誤差率較高的序列草圖的預(yù)測(cè)結(jié)果將明顯劣于基于完成序列的預(yù)測(cè)。GENSCAN(/GENSCAN.html)是被廣泛用于基因查尋和預(yù)測(cè)的軟件之一,但是一些新軟件,如Genie也不遜色。Genie(http://www_/inf/genie.html)是一種隱馬爾可夫模型(HMM)系統(tǒng),它可以整合不同來(lái)源的信息,如信號(hào)傳感器(酶切位點(diǎn)、起始密碼等)、內(nèi)含子和外顯子、mRNAEST的列線和肽序列等。其它軟件工具,如GENEBUILDER、GLIMMERM、FGENES、GRAIL等,最近也都被評(píng)價(jià)過(guò)。有一個(gè)簡(jiǎn)單的辦法可以比較這些軟件的優(yōu)劣:利用果蠅基因組數(shù)據(jù)為例,GASPI項(xiàng)目(GenomeAnnotationAssessmentProject)(/GASPI)對(duì)真核生物基因組注釋的進(jìn)展和存在的問(wèn)題進(jìn)行很好的比較分析。另外利用擬南芥(Arabidopsis)基因組也進(jìn)行了相同的比較分析。Nature和Sciece上的兩篇人類(lèi)基因組分析論文分別使用了各自的基因分析系統(tǒng)。由公共資金資助的人類(lèi)基因組計(jì)劃(IHGSC)(論文發(fā)表在Nature上)使用的是一個(gè)稱(chēng)為“Ensembl”的系統(tǒng),它使用GENSCAN進(jìn)行初步預(yù)測(cè),GENSCAN利用mRNA、EST和蛋白質(zhì)模序信息進(jìn)行比對(duì);然后使用GeneWise(www.sanger.ac.uk/software/Wise2/)進(jìn)行蛋白質(zhì)匹配分析,GeneWise曾被用于果蠅基因組分析。以文達(dá)爾(Venter)為代表的私人公司(論文發(fā)表在Science上)使用的是一種稱(chēng)為“otto”的專(zhuān)家注釋系統(tǒng)(rule-basedexpertsystemforannotation),該系統(tǒng)力圖將人的一些智能納入程序中。二、最長(zhǎng)ORF法等:基因編碼區(qū)特性基因區(qū)域或蛋白質(zhì)編碼區(qū)的識(shí)別,特別是對(duì)高等真核生物基因組DNA序列中編碼區(qū)的識(shí)別仍未能實(shí)現(xiàn)完全自動(dòng)化。將每條鏈按6個(gè)讀框全部翻譯出來(lái),然后找出所有可能的不間斷開(kāi)放閱讀框(ORF)往往有助于基因的發(fā)現(xiàn)。預(yù)測(cè)基因組的全部編碼區(qū)或稱(chēng)為開(kāi)放閱讀框的方法概括來(lái)說(shuō)也可以分為三類(lèi):一類(lèi)是基于編碼區(qū)所具有的獨(dú)特信號(hào),如始起密碼子、終止密碼子等;二是基于編碼區(qū)的堿基組成不同于非編碼區(qū),這是由于蛋白質(zhì)中20種氨基酸出現(xiàn)的概率、每種氨基酸的密碼子兼并度和同一種氨基酸的兼并密碼子使用頻率不同等原因造成的;三是通過(guò)同源性比較搜尋蛋白質(zhì)庫(kù)或dbEST庫(kù)尋找編碼區(qū)。前二類(lèi)方法主要是利用編碼區(qū)的特性來(lái)尋找,本小節(jié)對(duì)這二類(lèi)方法做簡(jiǎn)單描述。最長(zhǎng)ORF法:在細(xì)菌基因組中,蛋白質(zhì)編碼基因從起始密碼ATG到終止密碼平均有100bp,而300bp長(zhǎng)度以上的ORF平均每36Kb才出現(xiàn)一次,所以只要找出序列中最長(zhǎng)的ORF(>300bp)就能相當(dāng)準(zhǔn)確地預(yù)測(cè)出基因。在真核生物中,全長(zhǎng)cDNA的編碼區(qū)一般也可以用最長(zhǎng)ORF法,如水稻的3萬(wàn)多條的全長(zhǎng)cDNA的編碼區(qū)預(yù)測(cè)(見(jiàn)KOMEDATABASE)。但是,要十分小心的是,這一預(yù)測(cè)有時(shí)也會(huì)出錯(cuò)。例如:以下全長(zhǎng)cDNA的編碼蛋白序列應(yīng)為4-029B,而非最長(zhǎng)的4-029A。>4_029ATCGGCCATTACGGCCGGGGACACAACAAACCAACAAACATCATAATTAACCTCTTCCTCCCAAGTAGTCATCTGCCAACATGAAAGCCCTCGCACTCTTCTTCGTACTTTCCCTCTATCTCCTCGCAACCCAGCTCATTCCAAGTTCAATCCCATCCGCCTCCGCCCCGCCCACGAAACGGCGTCGTCCGAAACTCCGGTGCTCGACATCAACGGCGACGAAGTCCGGGCCGGCGAAAATTACTACATTGTCTCGCCATATGGGGCGCCGGCGGAGGAGGCCTGAGACTCGTCCGATTGGATTCCTCCTCGAACGAATGCGCCAGCGACGTGATCGTATCCCGGAGCGACTTCGACAACGGCGACCCGATTACCATCACGCGGCGGACCCGGAATCCACCGTCGTCATGCCGTCGACGTTCCAGACCTTCAGATTCAACATTGCGACCAACAAACTCTGCGTAAACAACGTAAACTGGGGGATCAAGCACGACAGTGAATCCGGGCATATTTCGTGAAAGCCGGCGAGTTCGTCTCCGACAATAGCAACCAGTTCAAGATTGAGGTGGTCAACGACAACCTTAACGCTTACAAAATCAGTTATTGTCAGTTCGGCACCGAGAAATGCTTCAACGTGGCAGATACTACGACCCGTTGACCAGGGCTACGCGTTTGGCTCTCAGTAATACTCCCTTCGTGTTTGTGATCAAACCTACTGATATGTAATGAGCACCGGTGTTGAGGTTGCATGCATGTTATGGACTATGCTAAATAAGTAACGTTGCAACTTTGACAACGTTGTACGTGTAATAATAAGAATAAACATGCAATAAATCCGAGCTTGTTGTGTTGTGTAAATTTAACTATCTTAAATGAATAAGCATAATATATCTATGCGAAAAAGAAAAAATAATAAAAAAAATTCATGTTCCGCCGCCTCGGCCCAGTCAACTCTGAATCCAAGCAAGCTTATGCATGCGGCCCAAATTCAAGCTCAATTGGCCAATTCGCCTATAGGAGTCGTATTACATTCATGGCCGTCGTTTTACACGTCGGGACTGGGAAAACCCTGGGGTTACCCAACTTATCCCCTTGGGCCCATTCCTCC>4_029AORF:69..755Frame-2Mostlength687MQPQHRCSLHISRFDHKHEGSITESQTRSPGQRVVVSANVEAFLGAELTITDFVSVKVVVDHLNLELVAIVGDELAGFHEILPGFTVVLDPPVYVVYAEFVGRNVESEGLERRRHDDGGFRVRRRDGRVAVVEVAPGYDHVAGAFVRGGIQSDESQASSAGAPYGGDNVVIFAGPDFVAVDVEHRSFGRRRFVGGAEADGIELGMSWVGEEIEGKYEEECEGFHVGR>4_029BORF:81..731Frame+3secondlength651MKALALFFVLSLYLLANPAHSKFNPIRLRPAHETASSETPVLDINGDEVRAGENYYIVSAIWGAGGGGLRLVRLDSSSNECASDVIVSRSDFDNGDPITITPADPESTVVMPSTFQTFRFNIATNKLVNNVNWGIKHDSESGQYFVKAGEFVSDNSNQFKIEVVNDNLNAYKISYCQFGTEKCFNVGRYYDPLTRATRLALSNTPFVFVIKPTDM利用編碼區(qū)與非編碼區(qū)密碼子選用頻率的差異進(jìn)行編碼區(qū)的統(tǒng)計(jì)學(xué)鑒別方法:由于內(nèi)含子的進(jìn)化不受約束,而外顯子則受到選擇壓力,因此內(nèi)含子的序列要比外顯子更隨機(jī)。這是目前各種預(yù)測(cè)程序中被廣泛應(yīng)用的一種方法,如GCG(GeneticComputerGroup研制,一種通用核酸、蛋白質(zhì)分析軟件包)的TestCode、美波士頓大學(xué)GeneID和BaylorMedcineCollege的BCMGeneFinder等程序均利用了這一方法。具體方法描述可參閱相關(guān)程序說(shuō)明。CpG島:CpG島(CpGisland)一詞是用來(lái)描述哺乳動(dòng)物基因組DNA中的一部分序列,其特點(diǎn)是胞嘧啶(C)與鳥(niǎo)嘌呤(G)的總和超過(guò)4種堿基總和的50%,即每10個(gè)核苷酸約出現(xiàn)一次雙核苷酸序列CG。具有這種特點(diǎn)的序列僅占基因組DNA總量的10%左右。從已知的DNA序列統(tǒng)計(jì)發(fā)現(xiàn),幾乎所有的管家基因(House-Keepinggene)及約占40%的組織特異性基因的5‘末端含有CpG島,其序列可能包括基因轉(zhuǎn)錄的啟動(dòng)子及第一個(gè)外顯子。因此,在大規(guī)模DNA測(cè)序計(jì)劃中,每發(fā)現(xiàn)一個(gè)CpG島,則預(yù)示可能在此存在基因。另外,AT含量也可以作為編碼區(qū)的批示指標(biāo)之一。三、序列相似性比較法近年來(lái)相似比較算法也被應(yīng)用于預(yù)測(cè)可能存在的基因。這一方法之所以可以預(yù)測(cè)新基因,主要有以下幾個(gè)原因:

(1)大約已經(jīng)有50%的基因有了對(duì)應(yīng)的EST,已知的蛋白質(zhì)序列也越來(lái)越多;(2)不少原核生物和酶母的全序列已經(jīng)測(cè)定。研究表明有將近一半的脊椎動(dòng)物基因可以通過(guò)BLAST在酶母、細(xì)菌和線蟲(chóng)的序列數(shù)據(jù)庫(kù)中找到相似性相當(dāng)高的序列;

(3)大多數(shù)EST都采用每個(gè)克隆分別從5‘和3‘測(cè)序,克服了早期EST只代表3‘外顯子的缺點(diǎn)。許多基因預(yù)測(cè)的程序都已經(jīng)整合了同源比較算法。下面舉例說(shuō)明如何通過(guò)人類(lèi)EST數(shù)據(jù)庫(kù)搜索和拼接與已知基因高度同源的人類(lèi)新基因:①以已知基因cDNA序列對(duì)EST數(shù)據(jù)庫(kù)進(jìn)行BLAST分析,找出與已知基因cDNA序列高度相似的EST;②用Seqlab的FragmentAssembly軟件構(gòu)建重疊群,并找出重疊群的一致(consensus)序列;③比較各重疊群的一致序列與已知基因關(guān)系(圖4.14)。通常有兩種情況,一是EST足夠多,可形成一個(gè)覆蓋全長(zhǎng)的重疊群,以此拼接基因全長(zhǎng)序列;另一情況則是,EST形成幾個(gè)重疊群,所以可以拼接基因的幾段序列。④對(duì)編碼區(qū)蛋白質(zhì)序列進(jìn)行比較,并與已知基因蛋白質(zhì)的功能域(domain)進(jìn)行比較分析,推測(cè)新基因的功能。⑤用新基因序列或EST序列對(duì)STS數(shù)據(jù)庫(kù)進(jìn)行BLAST分析,如果某一EST(非重復(fù)序列)與某一STS有重疊,那么,STS的位置即確定了新基因的定位。四、隱馬爾可夫模型(HMM)五、神經(jīng)網(wǎng)絡(luò)略六、RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)盡管現(xiàn)有一些RNA折疊程序可以預(yù)測(cè)RNA二級(jí)結(jié)構(gòu),但這類(lèi)分析仍然是一門(mén)藝術(shù)。RNA折疊有助于找出RNA分子中可能的穩(wěn)定莖區(qū),但對(duì)給定的RNA分子來(lái)說(shuō),這一結(jié)果的生物學(xué)意義究竟有多大,還是一個(gè)未知數(shù)。即使有此局限性,二級(jí)結(jié)構(gòu)的預(yù)測(cè)還是有助于找出mRNA控制區(qū)以及RNA分子中可能形成穩(wěn)定折疊結(jié)構(gòu)的區(qū)段。預(yù)測(cè)二級(jí)結(jié)構(gòu)的最大難題是對(duì)三級(jí)結(jié)構(gòu)中既有的相互作用進(jìn)行模型處理,然后將此處理結(jié)果回歸成一級(jí)結(jié)構(gòu)要素,以用于折疊結(jié)構(gòu)的預(yù)測(cè)。誠(chéng)然,現(xiàn)有的RNA折疊程序并未考慮核酸分子中可能的三級(jí)結(jié)構(gòu)。這些程序只能定出有限數(shù)目的二維結(jié)構(gòu)的能學(xué)參數(shù),由此推測(cè)的二維最穩(wěn)定結(jié)構(gòu),可能與三維最穩(wěn)定結(jié)構(gòu)相去甚遠(yuǎn),因?yàn)槿S億個(gè)結(jié)構(gòu)里的環(huán)區(qū)可以與環(huán)區(qū)相互作用,螺旋區(qū)可以堆積,還會(huì)出現(xiàn)各種的非Watson-Crick堿基對(duì)結(jié)構(gòu)。目前已有一些比較有名的預(yù)測(cè)程序,例如MFOLD[M代表多(multi),從早期的RNAFold程序或GCG軟件包的FOLD程序擴(kuò)充而成],由加拿大國(guó)家研究基金會(huì)的MichaelZuker設(shè)計(jì)。除對(duì)堿基配對(duì)的標(biāo)準(zhǔn)能學(xué)進(jìn)行分析外,MFOLD還考慮到了堿基堆積的能量及單堿基統(tǒng)計(jì)的熵。這一程序的VMS、VNIX、DOS和Macintosh版本可以從許多軟件組合中找到。盡管MFOLD的輸出是文本形式的(圖4.17A),但有幾個(gè)程序可以將預(yù)測(cè)結(jié)構(gòu)轉(zhuǎn)化為圖示形成(例如由DonGillbert設(shè)計(jì)的LoopViewer,見(jiàn)圖4.17B)。圖4.17RNA二級(jí)結(jié)構(gòu)的文本輸出結(jié)果(A)和圖形顯示(B)。分別由GCG的FOLD和Squiggles程序生成。第三節(jié)基因組分析一、基因組分析:生物信息學(xué)發(fā)展的“史記”二、比較基因組學(xué)一、基因組分析:生物信息學(xué)發(fā)展的“史記”自從1995年第一個(gè)可以獨(dú)立生存的生物被基因組測(cè)序以來(lái)(Fleischmannetal.Whole-genomerandomsequencingandassemblyofHaemophilus

influenzae.Science.1995,269:496-512),每年在NATURE和SCIENCE雜志上都會(huì)發(fā)表一些重要生物基因組測(cè)序完成后的分析文章。這些大文章(Article)中對(duì)基因組的分析可謂登峰造極,往往包括了當(dāng)時(shí)想得到的和可以做得到的序列分析手段,它們代表著當(dāng)時(shí)生物信息學(xué)發(fā)展的最新高度??梢哉f(shuō),這些文章是生物信息學(xué)發(fā)展史的另類(lèi)記錄。以下列出了一些重要基因組分析文章,感興趣的讀者不妨對(duì)他們的分析內(nèi)容或方法做些比較:1977Firstbiology:PhageφX174(5.386kb)SangerF,AirGM,BarrellBG,etal.NucleotidesequenceofbacteriophagephiX174DNA.Nature,1977,265:687-6951982Phagelambdagenome

SangerF,CoulsonAR,HongGF,HillDF,PetersenGB.NucleotidesequenceofbacteriophagelambdaDNA.JMolBiol.1982,Dec25;162(4):729-731983PhageT7genome(39.937kb)Dunn,J.J.andStudier,F.W.CompletenucleotidesequenceofbacteriophageT7DNAandthelocationsofT7geneticelements.J.Mol.Biol.1983,166(4),477-5351995Firstbacterialgenomes(1.8Mb)Fleischmannetal.Whole-genomerandomsequencing

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論