版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
轉(zhuǎn)錄組學(xué)研究及其在基因表達(dá)調(diào)控中的應(yīng)用
廣泛的轉(zhuǎn)移組代表細(xì)胞或組織中的所有倫字段,包括編碼蛋白質(zhì)的mrna和非編碼rn(rna、tna、pcr等)。而狹義的轉(zhuǎn)錄組系指所有編碼蛋白質(zhì)的mRNA總和。轉(zhuǎn)錄組研究能夠從整體水平研究基因功能以及基因結(jié)構(gòu),揭示特定生物學(xué)過程以及疾病發(fā)生過程中的分子機(jī)理,已廣泛應(yīng)用于基礎(chǔ)研究、臨床診斷和藥物研發(fā)等領(lǐng)域。隨著一系列模式生物(Modelorganism)基因組測(cè)序的完成,功能基因組學(xué)的研究方興未艾。參照這些模式生物的參考序列(Referencesequence),研究人員可以很方便的研究該物種的全基因組轉(zhuǎn)錄情況、不同個(gè)體之間的SNP差異、基因拷貝數(shù)差異等。而對(duì)于非模式生物而言,情況則不容樂觀。雖然具有許多模式生物缺少的有趣特征,且其轉(zhuǎn)錄組研究對(duì)解決基因進(jìn)化、遺傳育種以及生態(tài)等諸多方面的問題具有重要意義。但是由于大量的人力和財(cái)力都投入到了模式生物的基因組研究當(dāng)中,導(dǎo)致非模式生物的基因組信息嚴(yán)重缺乏。沒有相應(yīng)物種的參考基因組信息,使得非模式生物轉(zhuǎn)錄組的研究舉步維艱。傳統(tǒng)的研究方法是建立cDNA文庫(kù),Sanger法測(cè)序獲得基因,構(gòu)建基因芯片,其操作復(fù)雜,實(shí)驗(yàn)周期長(zhǎng),花費(fèi)大,讓很多研究人員望而卻步。近年來,隨著DNA高通量測(cè)序技術(shù)的發(fā)展,出現(xiàn)了“下一代”大規(guī)模平行測(cè)序(Massiveparallelsequencing,MPS)技術(shù),如Roche公司(454GS-FLX)、Illumina公司(GenomeAnalyzerII)和ABI(ABSOLiD),這些大規(guī)模平行測(cè)序技術(shù)的出現(xiàn)已完全改變了轉(zhuǎn)錄組研究的方式,產(chǎn)生了“RNA測(cè)序技術(shù)(RNA-seq)”。RNA-seq也稱為轉(zhuǎn)錄組測(cè)序,與傳統(tǒng)的基因芯片技術(shù)相比,該技術(shù)可以高通量的測(cè)定轉(zhuǎn)錄組cDNA的序列,揭示特定細(xì)胞或組織中表達(dá)的全部基因或表達(dá)序列標(biāo)簽(Expressedsequencetag,EST)、不同基因的相對(duì)表達(dá)豐度(表達(dá)量)(Abundance)、發(fā)現(xiàn)轉(zhuǎn)錄水平的SNP、識(shí)別一個(gè)基因不同的轉(zhuǎn)錄本和可變剪切位點(diǎn)(不同拼接)、SSR等遺傳多態(tài)性和遺傳標(biāo)記、能夠檢測(cè)未知基因、發(fā)現(xiàn)新的轉(zhuǎn)錄本等。RNA-seq提供精確的數(shù)字化信號(hào),更高的檢測(cè)通量以及更廣泛的檢測(cè)范圍,是目前深入研究轉(zhuǎn)錄組復(fù)雜性的強(qiáng)大工具。目前,RNA-seq已經(jīng)成功用于水稻(Oryzasativa)、玉米(Zeamays)、擬南芥(Arabidopsisthaliana)的大規(guī)模EST測(cè)序研究,發(fā)現(xiàn)了這些物種更多EST。但是這些物種都是模式生物,它們不但具有完整的基因組DNA序列信息,而且具有豐富的轉(zhuǎn)錄組序列。這些已知的序列信息為測(cè)序序列的基因組定位(Mapping)或組裝(Assembly)提供強(qiáng)大的支持。RNA-seq在用于檢測(cè)基因表達(dá)和轉(zhuǎn)錄組研究時(shí),最顯著的優(yōu)勢(shì)是無需像基因芯片那樣需先解碼研究物種的基因信息并設(shè)計(jì)特異性的探針。因此,RNA-seq可在沒有研究物種基因信息的情況下,直接對(duì)任何物種的轉(zhuǎn)錄組進(jìn)行分析。RNA-seq的這一特征,彌補(bǔ)了非模式生物轉(zhuǎn)錄組研究中缺乏基因組信息的不足。但是,與模式生物轉(zhuǎn)錄組研究相比,由于缺乏基因組信息,非模式生物仍不能進(jìn)行測(cè)序序列的基因組定位和注釋,只能進(jìn)行從頭拼裝(Denovoassembly),并通過同源比對(duì)進(jìn)行測(cè)序序列的注釋和分析。這也就要求有強(qiáng)大的生物信息學(xué)方法和軟件作為基礎(chǔ)。不過隨著生物信息學(xué)方法的不斷進(jìn)步,近年來RNA-seq已成為非模式生物轉(zhuǎn)錄組研究的先進(jìn)技術(shù),大量非模式生物的轉(zhuǎn)錄組得到研究。本文綜述了利用RNA-seq進(jìn)行非模式生物轉(zhuǎn)錄組研究的概況,總結(jié)了使用RNA-seq技術(shù)研究非模式生物轉(zhuǎn)錄組的一般流程及方法,最后對(duì)非模式生物轉(zhuǎn)錄組研究中有待進(jìn)一步分析的問題進(jìn)行展望。1非模式生物的基因測(cè)序技術(shù)RNA-seq對(duì)非模式生物轉(zhuǎn)錄組的研究因無參考基因組(Referencegenome)信息,被稱為從頭轉(zhuǎn)錄組分析(Denovotranscriptomeanalysis)。2008年,Vera等運(yùn)用454GS-20測(cè)序技術(shù)進(jìn)行了第一例從頭轉(zhuǎn)錄組分析研究(M.cinxia;Lepidoptera:Nymphalidae)。之后已經(jīng)有大量的非模式生物的轉(zhuǎn)錄組通過RNA-seq得到研究(圖1)。由圖1可以看出,得到研究的非模式生物的數(shù)量在逐年增加,尤其是2010年,有高達(dá)36個(gè)非模式生物物種利用RNA-seq技術(shù)進(jìn)行了轉(zhuǎn)錄組分析研究。另外,通過文獻(xiàn)查閱,筆者對(duì)近5年使用RNA-seq技術(shù)研究的非模式生物的情況進(jìn)行了匯總(表1)。由表1可以看出,以上非模式生物的從頭轉(zhuǎn)錄組研究絕大多數(shù)是運(yùn)用RocheGS-20sequencer、Roche454GS-FLX、454GS-FLXTitanium完成。只有少數(shù)是運(yùn)用IlluminaGAII、GAIIx、HiSeqTM2000完成,包括油菜(B.napus)、煙粉虱(B.tabaci)、甘薯(I.batatas)、弓形蟲(T.gondii)、不吉按蚊(A.funestus)、雛豆(C.arietinumL.)、大蒜(A.sativum)、斑海豹(P.largha)、貫葉連翹(H.perforatum)、紅花(C.tinctoriusL.)、胡黃連(P.kurrooa)、鹽沼甲(P.chalceus)、靜水椎實(shí)螺(L.stagnalis)、桔小實(shí)蠅(B.dorsalis)、歐洲笠螺(P.vulgata)、首烏(P.cuspidatum)、紫甘薯(I.batatasL.)。而ABI公司的ABSOLiD技術(shù)則幾乎沒有運(yùn)用,僅僅在甜瓜(C.meloL.)的SNP分析上有所運(yùn)用。究其原因是SOLiD測(cè)序技術(shù)讀長(zhǎng)較短(平均讀長(zhǎng)50bp),并且測(cè)序運(yùn)行時(shí)間較長(zhǎng)。由于非模式生物缺乏參考基因組信息,測(cè)序讀長(zhǎng)越長(zhǎng),越有利于測(cè)序片段的裝配。因此,讀長(zhǎng)最長(zhǎng)的Roche454技術(shù)(平均讀長(zhǎng)400bp)在非模式生物轉(zhuǎn)錄組研究中應(yīng)用最為廣泛,其次是IlluminaSolexa技術(shù)(平均讀長(zhǎng)100bp)有少數(shù)應(yīng)用。從表1可以看出,非模式生物的從頭轉(zhuǎn)錄組研究絕大多數(shù)是由國(guó)外的科研機(jī)構(gòu)完成的,他們最先將RNA-seq技術(shù)使用到非模式動(dòng)物轉(zhuǎn)錄組的研究上,而國(guó)內(nèi),則起步稍晚。目前,國(guó)內(nèi)也已經(jīng)展開了對(duì)中藥植物、農(nóng)業(yè)昆蟲等物種的從頭轉(zhuǎn)錄組研究,包括黃花蒿(A.annua)、油菜(B.napus)、煙粉虱(B.tabaci)、丹參(S.miltiorrhiza)、灰飛虱(L.Striatellus)、黃瓜(C.sativusL.)、西洋參(P.QuinquefoliusL.)、甘薯(I.batatas)、淫羊藿(E.Sagittatum)、紫杉(T.cuspidate)、蝴蝶蘭(P.orchids)、大蒜(A.sativum)、紅花(C.tinctoriusL.)、首烏(P.cuspidatum)等。這些研究證明RNA-seq在發(fā)現(xiàn)非模式生物轉(zhuǎn)錄組基因及遺傳標(biāo)記中非常有效。例如用新一代高通量測(cè)序技術(shù)454GS-FLXTitanium對(duì)2年生丹參根的轉(zhuǎn)錄組進(jìn)行測(cè)序,研究其基因表達(dá)譜,挖掘其功能基因,獲得46722表達(dá)序列標(biāo)簽(EST),序列平均長(zhǎng)度414bp,與Sanger測(cè)序的長(zhǎng)度相當(dāng);所得序列與GenBank中丹參的EST合并拼接,獲得18235條唯一基因(Unigene),包括6620個(gè)序列重疊群(Contig)和11615條單一序列(Singleton),唯一基因總長(zhǎng)7.89Mb。在全部唯一基因中,Roche454高通量測(cè)序發(fā)現(xiàn)了13980條新的唯一基因。數(shù)據(jù)庫(kù)中的序列同源性比較表明,其中73.0%(13308條)與其他生物的已知基因具有不同程度的同源性(獲得了基因注釋)。根據(jù)擬南芥蛋白質(zhì)組數(shù)據(jù)庫(kù)注釋結(jié)果,被注釋序列大約包含7800個(gè)轉(zhuǎn)錄本;另有4927條唯一基因(27.0%)未被注釋,認(rèn)為是可能的新基因。通過BLAST與基因本體論(GeneOntology)分析獲得了可能參與丹參酮合成的序列27條(編碼15個(gè)關(guān)鍵酶),參與丹酚酸合成的序列29條(編碼11個(gè)關(guān)鍵酶),細(xì)胞色素P450序列70條,轉(zhuǎn)錄因子序列577條。證明Roche454高通量測(cè)序技術(shù)作為藥用植物功能基因組研究的重要手段可在丹參功能基因的發(fā)現(xiàn)中發(fā)揮重要作用,這些基因的發(fā)現(xiàn)為丹參酮和丹酚酸類化合物生物合成研究奠定了基礎(chǔ),同時(shí)也為丹參的轉(zhuǎn)錄組研究提供了基礎(chǔ)數(shù)據(jù)。另外,將RNA-seq和定制基因芯片聯(lián)合使用,對(duì)于快速研究非模式生物的轉(zhuǎn)錄組非常有效。應(yīng)用第二代測(cè)序技術(shù)對(duì)非模式生物進(jìn)行轉(zhuǎn)錄組測(cè)序,發(fā)現(xiàn)基因或EST信息,隨后用定制“基因/EST芯片”對(duì)單個(gè)個(gè)體的基因表達(dá)情況進(jìn)行快速鑒定,這一研究思路在非模式生物的功能基因組學(xué)研究方面越來越流行。例如,來自美國(guó)和芬蘭的科學(xué)家相互合作,運(yùn)用第二代測(cè)序技術(shù)和定制芯片,對(duì)一種沒有參考序列的非模式生物——慶網(wǎng)蛺蝶(M.cinxia)進(jìn)行研究。研究者首先提取不同家系的慶網(wǎng)蛺蝶幼蟲、蛹和成蟲混合樣本的RNA,反轉(zhuǎn)錄為cDNA。用第二代測(cè)序技術(shù)進(jìn)行測(cè)序。共得到608053個(gè)表達(dá)序列標(biāo)簽(平均長(zhǎng)度110bp),獲得48354個(gè)重疊群和59943個(gè)單拷貝。為了保證實(shí)驗(yàn)結(jié)果的正確性,研究者同時(shí)取了一部分RNA樣品,構(gòu)建cDNA文庫(kù),用傳統(tǒng)的Sanger法測(cè)序,以此做為第二代測(cè)序結(jié)果的參照。Sanger法測(cè)序得到3888條序列,經(jīng)過拼接后,得到813條可用序列,其中749條(92%)能在第二代測(cè)序的結(jié)果中找到。這表明第二代測(cè)序的結(jié)果具有很高的準(zhǔn)確率。由于取樣時(shí),研究者取了不同家系的慶網(wǎng)蛺蝶做為樣本,所以依據(jù)第二代測(cè)序的結(jié)果,研究者還發(fā)現(xiàn)了慶網(wǎng)蛺蝶的一些SNP位點(diǎn)和可變剪接方式。隨后研究者根據(jù)測(cè)序得到的數(shù)據(jù),用Agilent的e-array自主設(shè)計(jì)基因芯片。由于昆蟲體內(nèi)一般都會(huì)有一些共生或者寄生的微生物,因此以成蟲為樣本時(shí),就順帶提取了微生物的RNA,并進(jìn)行測(cè)序,針對(duì)微生物的探針也包括在基因芯片上。研究者用自主設(shè)計(jì)的基因芯片,檢測(cè)不同家系單個(gè)慶網(wǎng)蛺蝶個(gè)體的基因表達(dá)情況,結(jié)果發(fā)現(xiàn)了不同家系的慶網(wǎng)蛺蝶攜帶的微生物也不同。這一成果對(duì)于研究慶網(wǎng)蛺蝶的種群特征具有重要意義。這篇文章提供給我們一種比較新穎的研究思路。當(dāng)我們想對(duì)那些沒有參考基因組信息的非模式生物進(jìn)行基因組研究時(shí),我們可以先用第二代測(cè)序技術(shù)對(duì)混合樣本進(jìn)行測(cè)序,發(fā)現(xiàn)基因,根據(jù)序列數(shù)據(jù),用Agilent的e-array進(jìn)行定制基因芯片,然后用基因芯片對(duì)不同種群或者不同個(gè)體的基因轉(zhuǎn)錄情況進(jìn)行快速分析。2不同模式生物的rt-pcr檢測(cè)利用RNA-seq技術(shù)研究非模式生物轉(zhuǎn)錄組的一般流程主要包括:測(cè)序RNA樣品的準(zhǔn)備、高通量DNA測(cè)序和生物信息學(xué)分析(圖2)。由于非模式生物無參考基因組信息,因此與模式生物轉(zhuǎn)錄組研究有一定的差異,例如,獲得非模式生物的RNA-seq數(shù)據(jù)后,首先需要進(jìn)行測(cè)序讀段(Reads)的從頭組裝(Denovoassembly),生成唯一基因(包括重疊群和單一序列),才能進(jìn)行下一步的基因注釋和生物信息學(xué)分析;而對(duì)于模式生物,則可以直接將測(cè)序讀段定位(Mapping)到參考基因組上進(jìn)行基因注釋及下游分析。下面簡(jiǎn)要介紹非模式生物轉(zhuǎn)錄組研究的一般流程與方法。2.1樣品準(zhǔn)備2.1.1浮浪幼蟲的篩選和重新測(cè)序根據(jù)所研究的非模式生物及其研究目的,需要選擇性地采集不同的樣本。例如,Vera等在研究慶網(wǎng)蛺蝶(M.cinxia)轉(zhuǎn)錄組時(shí),采集了不同家系慶網(wǎng)蛺蝶的幼蟲、蛹和成蟲組成混合樣本(8個(gè)家系,80個(gè)個(gè)體);Gregory等在對(duì)不吉按蚊(A.funestus)的表達(dá)譜重測(cè)序(Denovoexpressionprofiling)的研究中,為了獲得一個(gè)覆蓋更廣泛的轉(zhuǎn)錄組數(shù)據(jù)集,分別采集了兩個(gè)品系不吉按蚊不同生長(zhǎng)階段的樣本(每個(gè)品系取10個(gè)4齡幼蟲、10個(gè)蛹,10個(gè)雌性成蟲和10個(gè)雄性成蟲);Meyer等在珊瑚(A.millepora)轉(zhuǎn)錄組重新測(cè)序分析研究時(shí),選擇珊瑚的浮浪幼蟲作為實(shí)驗(yàn)材料,為了增加表達(dá)基因的多樣性,研究者將珊瑚的浮浪幼蟲分成兩組進(jìn)行了不同的溫度處理(28℃和32℃培養(yǎng)5d);Jeukens等利用RocheGS-FLX平臺(tái)研究白鮭(C.clupeaformis)的SNP時(shí),為了增加基因型和表達(dá)基因的多樣性,采集了24個(gè)個(gè)體和3種不同的組織(白色肌、腦和肝臟);Kaur等在發(fā)現(xiàn)和驗(yàn)證豌豆和蠶豆的SSR遺傳標(biāo)記的研究中,分別采集了其各個(gè)生長(zhǎng)階段的樣本,包括葉子(幼葉和老葉)、莖、花、未成熟的豆莢、成熟的豆莢和未成熟的種子。由此可知,非模式生物轉(zhuǎn)錄組研究的樣本采集是一個(gè)復(fù)雜的過程,需要研究者根據(jù)不同的研究目的,采集不同的樣本,進(jìn)行不同的條件處理。2.1.2植物總rna提取研究者根據(jù)自己的研究目的,采集到相應(yīng)的樣本之后,就需要提取樣本中的總RNA。筆者通過文獻(xiàn)查閱,發(fā)現(xiàn)非模式生物轉(zhuǎn)錄組研究中大部分樣本的總RNA是通過TRIzol試劑(Invitrogen)提取的。當(dāng)然也有其他方法,但只有少數(shù)運(yùn)用,例如,李瀅等采用通用植物總RNA提取試劑盒(百泰克公司)提取丹參根總RNA;Parchman等采用CTAB法,可以簡(jiǎn)單快速的提取松樹總RNA。此外,用于非模式生物轉(zhuǎn)錄組測(cè)序研究的總RNA樣品,要滿足A260/A280在1.9~2.1之間,A260/A230在2.0~2.5之間,以及RNA完整性指數(shù)大于8才能用于后續(xù)的研究。因此在進(jìn)行下一步cDNA合成之前要對(duì)RNA樣品進(jìn)行DNaseI的處理(37℃,30min)和進(jìn)一步純化(RNeasyMinEluteCleanupKit,Qiagen)。經(jīng)過DNaseI(RNaseFree)處理并檢測(cè)合格的RNA樣品即可用于下一步的cDNA文庫(kù)的構(gòu)建。非模式生物轉(zhuǎn)錄組測(cè)序中,為了盡可能囊括該物種所有基因,測(cè)序的RNA樣品制備中,提取各種組織的總RNA,再將各種組織的總RNA混合成一個(gè)樣品,進(jìn)行高通量測(cè)序。2.2cdna開放程度、歸一化過程由于大部分非模式生物從頭轉(zhuǎn)錄組研究采用Roche454技術(shù),以新一代高通量測(cè)序平臺(tái)Roche454GSFLX為例,其cDNA文庫(kù)制備與測(cè)序流程簡(jiǎn)述如下:(1)從總RNA樣品中提取與純化mRNA,這一過程一般使用mRNA提取試劑盒完成,如OligotexmRNAMinikit(Qiagen);(2)以純化的mRNA為模板合成雙鏈cDNA,并純化合成的cDNA;(3)cDNA片段化,即打斷成400~800bp的片段;(4)cDNA片段的末端補(bǔ)平;(5)在兩個(gè)末端連接上A和B接頭(3′和5′端具有特異性);(6)具有A、B接頭的單鏈DNA片段被純化回收后即組成了樣品文庫(kù),至此cDNA文庫(kù)制備完成;(7)將單鏈DNA文庫(kù)固定在特別設(shè)計(jì)的DNA捕獲磁珠上,使大部分磁珠攜帶一個(gè)獨(dú)特的單鏈DNA片段,然后進(jìn)行乳液PCR擴(kuò)增;(8)經(jīng)乳液PCR擴(kuò)增后,乳液混合物被打破,擴(kuò)增的片段仍然結(jié)合在磁珠上,攜帶DNA的捕獲磁珠隨后放入“PicoTiterPlate”(PTP)板中進(jìn)行后續(xù)的測(cè)序。另外,在cDNA文庫(kù)制備過程中還存在歸一化(Normalization)問題。歸一化過程一般包括cDNA變性與重新組合、DSN(Duplex-specificnuclease)處理以及歸一化片段的擴(kuò)增。歸一化會(huì)降低樣本中高豐度轉(zhuǎn)錄本的數(shù)量,有利于新基因的發(fā)現(xiàn),并且可以使代表不同轉(zhuǎn)錄本的讀段數(shù)量占總測(cè)序讀段的比例增加,有利于SNP的發(fā)現(xiàn)與分析。但是,也有文獻(xiàn)指出,歸一化對(duì)基因發(fā)現(xiàn)效率的影響很小,并且歸一化還會(huì)消除自然cDNA樣品中基因表達(dá)量的差異,以及影響等位基因頻率(標(biāo)準(zhǔn)化傾向于降低常見等位基因頻率)。因此,研究者在進(jìn)行非模式生物轉(zhuǎn)錄組研究時(shí),需要根據(jù)自己的研究目的選擇是否進(jìn)行cDNA文庫(kù)的歸一化。2.3數(shù)據(jù)處理與生物信息分析2.3.1序列的東北部組裝對(duì)于非模式生物而言,獲得RNA-seq原始數(shù)據(jù)后,首先需要進(jìn)行序列的從頭組裝,這是后續(xù)研究與分析的基礎(chǔ)。但是,在序列從頭組裝之前,有時(shí)還需要根據(jù)測(cè)序數(shù)據(jù)情況對(duì)其做某些基本的預(yù)處理。例如,數(shù)據(jù)過濾。2.3.2非模式生物轉(zhuǎn)錄組的rna-seq研究在缺乏參考基因組信息的非模式生物轉(zhuǎn)錄組研究中,獲得RNA-seq原始數(shù)據(jù)后,首先需要將所有測(cè)序讀段通過從頭組裝生成重疊群和單一序列,這是后續(xù)處理及生物學(xué)功能分析的基礎(chǔ)。要完成測(cè)序讀段的從頭組裝并不簡(jiǎn)單,因此,為了有效地做好從頭組裝,目前生物信息學(xué)領(lǐng)域已經(jīng)開發(fā)出多種組裝程序,包括:GSAssemblerver.1.1.02.15(Roche)、Newbler、MIRA、CAP3、SeqMan、TGICL、stackPACK、Velvet、AbySS、ALLPATHS2、Oases、SOAP-denovo、Multiple-kmethod、Scaffoldingusingtranslationmapping(STM)、Trinity、PCAP。這些從頭組裝程序的開發(fā)和應(yīng)用,密切地配合了高通量DNA測(cè)序技術(shù)的實(shí)際應(yīng)用,使得非模式生物轉(zhuǎn)錄組的RNA-seq研究得到快速發(fā)展。如表2所示,為近5年來非模式生物轉(zhuǎn)錄組研究中常用的組裝程序。可以看到,應(yīng)用最為廣泛的是Roche的Newbler,依次是CAP3、MIRA、SeqMan和TGICL,它們都是用于Roche454測(cè)序讀段的從頭組裝。而SOAPdenovo、Velvet、Trinity和PCAP則是文獻(xiàn)中報(bào)道的用于更短測(cè)序讀段(IlluminaGA測(cè)序讀段)從頭組裝的常用程序。從頭組裝的目的是生成唯一基因(包括重疊群和單一序列),用于下一步的基因注釋和生物信息學(xué)分析。2.3.3非冗余蛋白數(shù)據(jù)庫(kù)的基因編碼測(cè)序讀段通過從頭組裝生成重疊群和單一序列后,通常使用BLAST程序?qū)⑦@些拼接序列唯一基因(重疊群和單一序列)與核酸、蛋白質(zhì)序列數(shù)據(jù)庫(kù)進(jìn)行比對(duì)(E值<1e-5),選擇匹配最好的一項(xiàng)作為注釋信息。常用于比對(duì)的核酸數(shù)據(jù)庫(kù)為GenBank非冗余核酸數(shù)據(jù)庫(kù)Nt;常用的蛋白質(zhì)數(shù)據(jù)庫(kù)則包括Swiss-Prot/UniProtKB、GenBank非冗余蛋白數(shù)據(jù)庫(kù)Nr、COG和KEGG?;蜃⑨屢话惆?使用BLASTN與NCBI中的非冗余核酸數(shù)據(jù)庫(kù)Nt進(jìn)行比對(duì),檢索相似序列,對(duì)唯一基因進(jìn)行注釋;使用BLASTX和BLAST2GO與蛋白質(zhì)數(shù)據(jù)庫(kù)(Nr和SwissProt)比對(duì),獲得GO信息注釋,并對(duì)序列(按分子功能、細(xì)胞組分、生物學(xué)過程)進(jìn)行分類;使用BLASTX與蛋白質(zhì)數(shù)據(jù)庫(kù)(COG、KEGG)比對(duì),獲得COG注釋和KEGG代謝途徑注釋。例如用新一代高通量測(cè)序技術(shù)IlluminaHiSeqTM2000對(duì)紅花(C.tinctoriusL.)轉(zhuǎn)錄組進(jìn)行測(cè)序研究中,Huang等使用BLAST程序(E<1e-5)將紅花唯一基因與核酸數(shù)據(jù)庫(kù)(Nt)和蛋白數(shù)據(jù)庫(kù)(Nr、SwissProt、KEGG和COG)進(jìn)行比對(duì),共計(jì)注釋了70342條唯一基因,大約占總唯一基因的58%。其中,21943條唯一基因具有COG注釋信息,30203條唯一基因可以匹配到121個(gè)KEGG代謝通路。此外,還利用BLAST2GO程序和WEGO軟件對(duì)紅花唯一基因進(jìn)行了GO信息注釋,共計(jì)26332條唯一基因匹配到1754個(gè)GO-term。2.3.4認(rèn)識(shí)差異表達(dá)基因和鑒定控制特定生物學(xué)過程的基因、識(shí)別分子在非模式生物轉(zhuǎn)錄組研究中,利用新一代高通量測(cè)序技術(shù)產(chǎn)生的大量數(shù)據(jù)除了可以進(jìn)行以上基因注釋中常見的GO、KEGG和COG分析外,還可以進(jìn)行大量的其他生物信息學(xué)分析。如基因發(fā)現(xiàn)(Genediscovery)、SNP鑒定[9,11,14,19,34,52,54,59,64,72,76,84,92,97,115]、SSR鑒定[26,41,51,56,60,64,70,72,73,75,92,97]、鑒定差異表達(dá)基因、鑒定控制特定生物學(xué)過程的基因、識(shí)別可變拼接等。例如,在日本沼蝦(M.nipponense)的轉(zhuǎn)錄組研究中,Ma等在GO、KEGG和COG分析的基礎(chǔ)上,利用生物信息學(xué)手段發(fā)現(xiàn)了許多與性別決定有關(guān)的基因,包括DMRT1、FTZ-F1、FOXL2、FEM1等。除此之外,還利用Mrepssoftware(http://bioinfo.lifl.fr/mreps/)鑒定出6689個(gè)SSR,利用VarScan(http://varscan)鑒定出18107個(gè)高質(zhì)量SNP。Logacheva等通過比較甜蕎(F.esculentum)和苦蕎(F.tataricum)的轉(zhuǎn)錄組測(cè)序結(jié)果,分析了兩者的差異表達(dá)基因,這些差異基因包括逆轉(zhuǎn)座子基因以及糖類合成與代謝相關(guān)基因。另外,利用其他信息學(xué)手段還鑒定出許多與蕎麥花序發(fā)育相關(guān)的基因。Huh等在食蟹猴(M.fascicularis)轉(zhuǎn)錄組研究中,分析鑒定出4314個(gè)可變剪接事件??傊?生物信息學(xué)分析是我們分析研究非模式生物轉(zhuǎn)錄組的重要手段,除以上介紹的幾項(xiàng)數(shù)據(jù)分析外,根據(jù)不同的研究目的,我們還可以進(jìn)行預(yù)測(cè)新的開放閱讀框(ORF),確定基因表達(dá)豐度,發(fā)現(xiàn)遺傳標(biāo)記,發(fā)現(xiàn)microRNA等。3非模式生物轉(zhuǎn)錄組測(cè)序技術(shù)的發(fā)展非模式生物具有許多模式生物缺少的有趣特征,通過非模式生物轉(zhuǎn)錄組的研究可以解答基因進(jìn)化、遺傳育種以及生態(tài)方面的許多問題。而新一代測(cè)序技術(shù)的發(fā)展,從根本上延伸了轉(zhuǎn)錄組研究的范圍,普及到了非模式生物和野生型群體,使之成為了值得期待的研究領(lǐng)域。筆者通過文獻(xiàn)查閱,嘗試對(duì)近5年非模式生物轉(zhuǎn)錄組研究情況進(jìn)行了簡(jiǎn)要匯總,統(tǒng)計(jì)了近5年來利用RNA-seq技術(shù)研究的非模式生物物種數(shù)量,并簡(jiǎn)要介紹了非模式生物轉(zhuǎn)錄組研究的一般流程及方法。由于近年來非模式生物
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 管線改造合同范本
- 海淀區(qū)農(nóng)村集體經(jīng)濟(jì)合同管理辦法
- 合同裁判共同規(guī)則
- 角膜炎的治療與護(hù)理
- 2024-2025學(xué)年新教材高中地理第五章自然環(huán)境的整體性與差異性單元評(píng)價(jià)含解析湘教版選擇性必修一
- 2024房產(chǎn)抵押貸款的合同協(xié)議書
- 英文調(diào)查報(bào)告(共16篇)
- 精準(zhǔn)營(yíng)銷策略15篇
- 無人機(jī)技術(shù)的應(yīng)用前景
- 2024店面租賃合同模板「標(biāo)準(zhǔn)版」
- 學(xué)校廚房設(shè)備投標(biāo)方案(技術(shù)標(biāo))
- 大型綜合樓新建工程技術(shù)方案、施工方案投標(biāo)文件(投標(biāo)方案)
- 2025年高考作文專練(25道真題+審題立意+范文)- 2025年高考語文作文備考總復(fù)習(xí)
- 中國(guó)高血壓防治指南(2024年修訂版)要點(diǎn)解讀
- 2024年新人教版七年級(jí)上冊(cè)數(shù)學(xué)教學(xué)課件 第三章 代數(shù)式 數(shù)學(xué)活動(dòng)
- 大學(xué)生創(chuàng)新創(chuàng)業(yè)基礎(chǔ)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 九年級(jí)物理全冊(cè)教案【人教版】
- 《中華民族一家親-同心共筑中國(guó)夢(mèng)》隊(duì)會(huì)課件
- 2024義務(wù)教育《英語課程標(biāo)準(zhǔn)》(2022版)
- 國(guó)家開放大學(xué)《管理信息系統(tǒng)》大作業(yè)參考答案
- Unit 4 Time to celebrate 大單元教學(xué)設(shè)計(jì) 2024-2025學(xué)年外研版英語七年級(jí)上冊(cè)
評(píng)論
0/150
提交評(píng)論