轉(zhuǎn)錄組測序技術(shù)研究進(jìn)展.docx_第1頁
轉(zhuǎn)錄組測序技術(shù)研究進(jìn)展.docx_第2頁
轉(zhuǎn)錄組測序技術(shù)研究進(jìn)展.docx_第3頁
轉(zhuǎn)錄組測序技術(shù)研究進(jìn)展.docx_第4頁
轉(zhuǎn)錄組測序技術(shù)研究進(jìn)展.docx_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、DOI:10.3969/j.issn.1005-1678.2017.06.169轉(zhuǎn)錄組測序技術(shù)研究進(jìn)展洪奇陽',畢行建2,王大寧I李子真二命海頃夏寧邵3,李少偉12(1.廈門大學(xué)國家傳染病診斷試劑與疫苗工程技術(shù)研究中心生命科學(xué)學(xué)院,福建廈門361102;2.廈門大學(xué)分子疫苗學(xué)與分子診斷學(xué)國家重點(diǎn)實(shí)驗(yàn)室公共衛(wèi)生學(xué)院,福建廈門361102)摘要伴隨高通量測序技術(shù)的快速發(fā)展,轉(zhuǎn)錄組測序(RNA-Seq)技術(shù)在各個研究領(lǐng)域已經(jīng)得到廣泛的運(yùn)用。RNA-Seq通過分析不同細(xì)胞或者組織轉(zhuǎn)錄組的表達(dá)情況來揭示細(xì)胞的基因表達(dá)情況,結(jié)構(gòu)特點(diǎn)和調(diào)控規(guī)律。近年來基于高通量測序技術(shù)的RNA-Seq分析方法發(fā)展迅

2、速,涌現(xiàn)出一大批相關(guān)的分析方法和工具,如何根據(jù)實(shí)際需求選擇合適的工具和分析流程,成為廣大科研人員面臨的問題。本文參照近幾年在RNA-seq技術(shù)研究領(lǐng)域發(fā)表的文獻(xiàn),綜述了RNA-Seq應(yīng)用實(shí)際過程中涉及的分析方法、軟件工具及其選用標(biāo)準(zhǔn),為相關(guān)的研究和應(yīng)用提供信息和參考。關(guān)鍵詞轉(zhuǎn)錄組;高通量測序;數(shù)據(jù)處理與分析中圖分類號S813:S8X)5文獻(xiàn)標(biāo)識碼AResearchprogressonRNA-SeqtechnologyHONGQi-yang1,BIXing-jian2,WANGDa-ning*,LIZi-zhen1,YUHail,2A,XIANing-shao1*2,LIShao-wei1(1.

3、NationalInstituteofDiagnosticsandVaccineDevelopmentinInfectiousDisease,SchoolofLifeSciences,XiamenUniversity,Xiamen361102,China;2.StateKeyLaboratoryofMolecularVaccinologyandMolecularDiagnostics,schoolof.PublicHealth,XiamenUniversity,Xiamen361102,China)AbstractWiththeremarkableadvancesofhigh-throughp

4、utsequencingtechnology,transcriptomesequencing(RNA-Seq)technologyhasbeenwidelyusedinvariousresearchfields.RNA-Seqcandisclosegeneexpressionspectrum,structurefeatureandregulationnetworkinlivecellsbydifferentialRNA-Seqonwholecellsindifferentconditionsorfromdistincttissues.Whiletherapidapplicationofhigh

5、-throughputsequencingtechnology,therearealargenumberofemerginganalyticalmethodsandtoolsfbrRNA-Seq,whichsometimespuzzlestheresearchershowtomakeachoiceonanappropriatealgorithmanalysisandcorrespondingtool.Here,theanalyticalmethods,softwaretoolsandselectioncriteriaforpracticalRNA-Seqanalysiswerereviewed

6、intheliterature,andthenprovideinformationandinsightsforrelatedresearchandapplication.Keywordstranscriptome;highthroughputsequencing;dataprocessingandanalysis近年來,隨著轉(zhuǎn)錄組學(xué)與高通量測序技術(shù)的高速發(fā)展,轉(zhuǎn)錄組學(xué)已經(jīng)在研究生物體表型和基因表達(dá)方面占據(jù)了重要的地位。在眾多的轉(zhuǎn)錄組學(xué)分析方法中,轉(zhuǎn)錄組測序技術(shù)(RNA-seq)以新一代高通量測序技術(shù)為基礎(chǔ),具備測序通量高、速度快、價格低、信噪比高等優(yōu)勢,目前已超越傳統(tǒng)的基于雜交技術(shù)的芯片法和基

7、于一代Sanger測序的SAGE、MPSS、全長cDNA文庫、EST文庫等方法,成為轉(zhuǎn)錄組分析的主要手段。轉(zhuǎn)錄組從廣義上是指特定條件下單個細(xì)胞或者細(xì)胞群體所轉(zhuǎn)錄的所有RNA集合,包括編碼蛋白的mRNA和一些功能性的RNA,如rRNA、miRNA、ncRNA、tRNA等,從狹義上則單指編碼蛋白的mRNA。轉(zhuǎn)錄組測序技術(shù)通過將樣本中提取的總體RNA反資助項(xiàng)目:國家自然科學(xué)基金(81571996)作者簡介:洪奇陽,男,碩士在讀,研究方向:生物信息學(xué),E-mail:qiyanghong2020;俞海,通信作者,男,博士,副教授,研究方向:生物信息學(xué)|E-mail:yuhaio轉(zhuǎn)錄成cDNA后進(jìn)行高通量

8、測序來確定樣品中整體轉(zhuǎn)錄組的表達(dá)情況。2005年以來,以Roche公司的454技術(shù)Jllumina公司的Solexa技術(shù)和ABI公司的SOLiD技術(shù)為代表的新一代測序技術(shù)的出現(xiàn)改變了以往基于雜交技術(shù)和Sanger測序技術(shù)的低效轉(zhuǎn)錄組學(xué)分析方法,使得一次的測序就能實(shí)現(xiàn)快速、大批量轉(zhuǎn)錄組檢測,同時也極大的擴(kuò)充了轉(zhuǎn)錄組分析的應(yīng)用范圍?,F(xiàn)階段的轉(zhuǎn)錄組測序應(yīng)用包括轉(zhuǎn)錄本結(jié)構(gòu)研究、轉(zhuǎn)錄本結(jié)構(gòu)變異研究、基因表達(dá)水平研究、非編碼區(qū)域功能研究、低豐度全新轉(zhuǎn)錄本發(fā)現(xiàn)等。根據(jù)不同的研究目的,轉(zhuǎn)錄組測序相關(guān)的分析方法和流程不盡相同,需要研究者根據(jù)實(shí)際情況選擇適宜的分析方法來開展研究工作。目前基本的轉(zhuǎn)錄組測序分析流程可

9、分為為實(shí)驗(yàn)沒汁與上機(jī)、數(shù)據(jù)預(yù)處理、序列定位與轉(zhuǎn)錄本識別、轉(zhuǎn)錄本定量與功能分析、差異基因表達(dá)分析、差異基因功能注釋。本文將圍繞RNA-Seq基本的分析流程綜述各步驟的分析方法進(jìn)展、相關(guān)軟件以及需要注意的事項(xiàng),為轉(zhuǎn)錄組測序技術(shù)的普及和應(yīng)用提供有利的參考。1實(shí)驗(yàn)設(shè)計(jì)與上機(jī)過去的十年中,高通量測序技術(shù)發(fā)展迅速,隨著各種測序平臺不斷更新,測序時間、測序成本已經(jīng)顯著下降,測序通量和準(zhǔn)確度顯著提高?,F(xiàn)有的高通量測序方法可分為邊連接邊測序(sequencingbyligalion,SBL,BGI公司)、邊合成邊測序(sequencingbysynthesis,SBS,Illumina公司)、單分子實(shí)時測序(s

10、ingle-moleculereal-timesequencing,PacBio公司)和依賴于已有短讀長技術(shù)在計(jì)算機(jī)內(nèi)構(gòu)建長讀長的合成法(constructlongreadsinsilico,Illumina公司)。其中Illumina公司的測序平臺技術(shù)最為成熟、穩(wěn)定性高、數(shù)據(jù)可靠、平臺間交叉性互補(bǔ)性好,其市場份額也最大。但I(xiàn)llumina測序平臺由于采用單一的測序方法,可能產(chǎn)生的系統(tǒng)偏好性問題也不容忽視。在轉(zhuǎn)錄組測序?qū)嶒?yàn)設(shè)計(jì)過程中,需要根據(jù)不同實(shí)驗(yàn)?zāi)康暮侠淼倪x擇實(shí)驗(yàn)樣本。此外根據(jù)高通量測序自身特點(diǎn)在設(shè)計(jì)實(shí)驗(yàn)時需要注意的地方包括:單端或雙端測序的選擇。單端測序成本較低,能滿足注釋完整的基因組大

11、部分后期分析需求,對于注釋不完整的基因組則選用雙端測序效果更好"。mRNA的提取方法。細(xì)胞內(nèi)90%以上的RNA都是rRNA,真核生物mRNA在3,端具有poly(A)結(jié)構(gòu),可以通過這個特點(diǎn)使用Oligo(dT)富集mRNA,而原核生物由于不具備polyA則需通過去除rRNA的方式來獲取mRNA。無論是真核還是原核細(xì)胞,對于樣本量較少的樣本則統(tǒng)一采用去除rRNA的方法,以減少mRNA的損失。測序深度或庫大小。測序深度越深識別的轉(zhuǎn)錄本越多,定量也越準(zhǔn)確,但過多的測序量也會帶來噪音導(dǎo)致轉(zhuǎn)錄本的錯誤檢測,潼慎的做法是使用飽和曲線來評估合適的測序深度。一般情況下,可以根據(jù)基因組大小取其三倍的有

12、效測序數(shù)據(jù),如人類基因組大小3G,測序數(shù)據(jù)量以812G為宜?;阪溙禺愇膸飓@取的測序數(shù)據(jù)能區(qū)分正反鏈,可減少后續(xù)分析的復(fù)雜度并提升分析準(zhǔn)確度,但價格較高讀長越長對后續(xù)的定位和轉(zhuǎn)錄本識別越有利。生物學(xué)重復(fù)數(shù)不應(yīng)該少于3個,足夠的生物學(xué)重復(fù)是后期統(tǒng)計(jì)學(xué)分析的前提。注意批次效應(yīng),無論是樣品還是測序儀,不同的批次產(chǎn)生的數(shù)據(jù)都會存在偏差,需要在實(shí)驗(yàn)設(shè)計(jì)時避免0當(dāng)樣本量過多或者其他原因?qū)е虏坏貌环峙螠y序時,應(yīng)在測序操作過程盡可能減少操作差異性,并對測序后的數(shù)據(jù)使用批次矯正方法,如COMBATc,11uJcARSyN121o2數(shù)據(jù)預(yù)處理測序產(chǎn)生的原始數(shù)據(jù)是一系列以fastq格式存儲的讀段(Read),其中

13、包含了堿基質(zhì)量信息和相關(guān)測序信息,如測序儀器名稱,單雙端,正反鏈等。原始數(shù)據(jù)在建庫過程或者測序過程中由于多方面的因素,例如污染、錯誤操作、測序平臺等,常常會存在低質(zhì)量或者錯誤數(shù)據(jù)。如果不對這些存在問題的數(shù)據(jù)進(jìn)行過濾,對后續(xù)分析(例如讀段組裝、定位和定量等)的質(zhì)量和可信度將會產(chǎn)生很大影響。目前數(shù)據(jù)過濾中常用的質(zhì)控軟件是FastQC和NGSQCI3,其中FastQC是Illumina平臺上最常用的軟件,NGSQC13J則被用于更多平臺。其他的質(zhì)控軟件有Qualimap2U4,HTQCW,QC.chain16,almostSignificanf17,fastq_clean18,FaQCs19-等。數(shù)

14、據(jù)預(yù)處理階段包含的檢測內(nèi)容為測序質(zhì)量、GC含量、接頭、過表達(dá)的k-mers和重復(fù)序列等。根據(jù)這些檢測結(jié)果可以對原始數(shù)據(jù)集進(jìn)行低質(zhì)量讀段去除,切除部分低質(zhì)量的堿基,去除接頭,去除重復(fù)序列和過短序列等操作。相應(yīng)的常用的軟件為FASTX.Toolkit(Version0.0.14)20J和Trimmomatic(Version0.36)2,o值得注意的是越靠近讀段的3'端,堿基質(zhì)量會越差,這是由于測序策略引起的,和長時間PCR引入雜信號和酶活力衰減有關(guān)】。另外,VictorKunin等】在研究E.coli的16S核糖體時發(fā)現(xiàn),5糖端的幾個起始堿基ATGC比例常會存在較大波動,這是由于聚合前誤

15、讀導(dǎo)致,但不會對后續(xù)分析產(chǎn)生太大影響。3讀段定位在獲得預(yù)處理過的原始數(shù)據(jù)后,需將讀段定位到參考基因組上(無參考基因組的物種,則需要先將讀段組裝成scaffolds,作為參考序列,常用軟件為Trinity:24】),這是后續(xù)數(shù)據(jù)分析的基礎(chǔ)E】。RNA在原核生物中只是簡單的基因組轉(zhuǎn)錄產(chǎn)物,能與基因一一對應(yīng)。但在真核生物的基因組中可能存在RNA的可變剪接,即單個基因產(chǎn)生的pre-mRNA通過不同的剪接形式形成多種mRNA異構(gòu)體(isoforms),而來自這些異構(gòu)體的讀段有可能跨越兩個外顯子,常常無法定位到參考基因組上。按照是否考慮可變剪接可將現(xiàn)有讀段定位軟件分為兩類:第一類軟件用于處理具有可變剪接的

16、情況,這類軟件首先采用常規(guī)的比對方法將讀段定位到基因組上,對于無法成功定位的讀段嘗試將其分割后再重新與基因組定位,同時記錄分割信息為后續(xù)的轉(zhuǎn)錄本查找提供依據(jù),相關(guān)的軟件為Hisat226!,HPGAligner”】,STAR:28,TopHat229和MapSplice刈o(hù)I.Medina等利用多套測序數(shù)據(jù)分別對這幾款軟件從單端、雙端、讀段長度、分析數(shù)據(jù)量、靈敏度等方面進(jìn)行了綜合評估,研究發(fā)現(xiàn)在讀段長度較短時(測試讀段為100bp)Hisat2的定位速度和準(zhǔn)確度最優(yōu),當(dāng)讀段為長片段時(測試讀段為100bp)HPGAligner表現(xiàn)最優(yōu)。第二類軟件不考慮可變剪接的情況,這類軟件直接把讀段定位到參

17、考基因組上,不對讀段進(jìn)行分割,此類方法的優(yōu)勢是速度快。當(dāng)參考基因組的注釋信息比較完整時,還可以直接提取感興趣的完整轉(zhuǎn)錄組序列作為參考序列,使用此類軟件進(jìn)行讀段定位,可以節(jié)省分析成本。常用的軟件有bowtie2m、BWA、"、NovoAlign33Smalt'34】和Stampy"。SubaziniThankaswamy-Kosalai等頃】采用五種不同物種,在不同讀段長度和數(shù)據(jù)量的測序數(shù)據(jù)對這五款軟件從定位敏感度、定位速度、串聯(lián)重復(fù)對準(zhǔn)確定位的影響等方面進(jìn)行了綜合評估,結(jié)果顯示在運(yùn)算速度上最快的是BWA,其次是bowtie2和Smalt,在定位敏感度上,五款軟件對于

18、長讀段(>lOObp)都表現(xiàn)良好,NovoAlign則無論讀段長短都有較優(yōu)的表現(xiàn)。在RNA-Seq的實(shí)際應(yīng)用中最常用的是bowtie2,因其對插入、缺失和錯誤堿基的容錯率較好】,上述第一類軟件中的Hisat2和TopHat2也是基于bowtie開發(fā)的。讀段定位后產(chǎn)生的文件為文本形式的SAM文件或者其二進(jìn)制形式的BAM文件°對讀段定位效果的質(zhì)控能夠發(fā)現(xiàn)測序過程、樣本提取過程和建庫過程的錯誤,而這類錯誤只能在讀段定位后才能被發(fā)現(xiàn)。讀段定位效果的重要質(zhì)控指標(biāo)是定位率,在轉(zhuǎn)錄組測序中一般預(yù)期70%的讀段能夠定位到基因組上,對于包含大量質(zhì)粒表達(dá)的轉(zhuǎn)錄組分析,30%以上定位率也在可接受范圍

19、之內(nèi)如果單個讀段被定位到多個位置上(multimappingreads),則提示重復(fù)序列和同源基因的存在,在后續(xù)的分析過程中這類序列往往會被丟棄,避免其對定量分析產(chǎn)生干擾。另一個重要的質(zhì)控指標(biāo)是定位的均一度,如果讀段在內(nèi)含子區(qū)或者基因間區(qū)有過多異常分布情況那么很有可能建庫過程存在問題或者樣本受到污染瑚。常用的質(zhì)控軟件包括Picard.RSeQC、Qualimap:40】、FastQC4,、SAMStatt42、RNA-SeqQC(431和QuaCRS;44)o各種質(zhì)控軟件都各有所長,例如SAMStat能對讀段定位情況做更深入分析,區(qū)分未定位、較差定位和精確定位讀段;RSeQC能對已知、半已知、

20、新發(fā)現(xiàn)的剪接情況進(jìn)行統(tǒng)計(jì)分析;Qualimap的圖形化展示效果最直觀等,因此綜合使用這些軟件能夠?qū)崿F(xiàn)更全面的質(zhì)控。基于這一理念,QuaCR對三款質(zhì)控軟件RNA-SeQC,RSeQC和FastQC進(jìn)行了整合,使讀段定位后的質(zhì)控更加全面和易于操作。4轉(zhuǎn)錄本識別與定量讀段定位到基因組后,根據(jù)讀段在轉(zhuǎn)錄本上的分布情況對基因表達(dá)豐度進(jìn)行定量。轉(zhuǎn)錄本分布信息可從基因組的注釋文件中獲取,或者根據(jù)讀段定位情況識別新的轉(zhuǎn)錄本。注釋完整的基因組(如人、老鼠和斑馬魚)往往不需要進(jìn)行新轉(zhuǎn)錄本識別,可直接進(jìn)行基因定量分析皿】。但對于注釋信息并不完整的基因組則需要進(jìn)行新轉(zhuǎn)錄本的預(yù)測。在RNA-Seq分析中,根據(jù)短讀段識別

21、新轉(zhuǎn)錄本是最具挑戰(zhàn)性的分析之一。,因?yàn)槎套x段很少能夠跨越多個剪接位點(diǎn),而且不同轉(zhuǎn)錄本間存在各種外顯子共享情況,外顯子中也存在共享序列的情況,同時現(xiàn)階段去除核糖體RNA的方法存在偏好性,導(dǎo)致讀段分布不均一心】,給讀段定位造成很大干擾。為了應(yīng)對這些挑戰(zhàn),研究人員開發(fā)了大量的轉(zhuǎn)錄本識別軟件:Stringtie.cufflinks48,CIDANEf49j、GRIT俱、TransComb""、iReckon"2】、SLIDE'")'Montebello'54】、Augustus、IsoLasso56】、§0向也此、Traph弱、

22、MITIE、CLASS和FlipFlop等。目前使用最為廣泛的是cufflinks,但KatharinaE.Hayer等在綜合分析了上述軟件中的幾款后,認(rèn)為StringTie識別轉(zhuǎn)錄本的準(zhǔn)確性高最高,其次是Cufflinks,然而研究結(jié)果提示所有的轉(zhuǎn)錄本識別方法都并不精確。最近StefanCanzar等發(fā)表了新的轉(zhuǎn)錄本識別方法CIDANE,其轉(zhuǎn)錄本識別能力優(yōu)于StringTie.Cufflinks.GRIT.MITIE和iReckon等常用軟件。目前新轉(zhuǎn)錄本的預(yù)測仍然是一項(xiàng)難題,各種預(yù)測軟件間也存在顯著的不一致性,而提高讀段、讀長是解決這一難點(diǎn)的突破口0轉(zhuǎn)錄本定量包括對基因的表達(dá)量定量和對轉(zhuǎn)錄

23、本表達(dá)量的定量,這是RNA-Seq實(shí)驗(yàn)的最基本的目的??紤]到基因大小、樣本測序深度和批次效應(yīng)等因素對讀段量的影響,在定量時應(yīng)使用標(biāo)準(zhǔn)化的方法來消除差異,最常用的樣本內(nèi)標(biāo)準(zhǔn)化方法包括RPKM(readsperkilobaseofexonmodelpermillionreads)八、FPKM(fragmentsperkilobaseofexonmodelpermillionmappedreads)、TPM(transcriptspermillion)和KPKM(K-mersPerKilobaseperMillionmappedk-mers),這些標(biāo)準(zhǔn)化方法消除了基因、轉(zhuǎn)錄本長度差異和測序庫大小的差

24、異,其中FPKM的值可以通過一個簡單的公式直接轉(zhuǎn)化成TPM(59JO需要注意的是無論是RPKM、FPKM還是TPM,當(dāng)比較不同樣本間基因的表達(dá)量時,如果這兩個樣本存在顯著差異表達(dá)的基因那么會影響整體的表達(dá)量評估【如。這點(diǎn)導(dǎo)致使用RPKM、FPKM或TPM做樣本間相同基因差異表達(dá)分析變得不夠準(zhǔn)確,但在對不同基因進(jìn)行表達(dá)最比較時,RPKM、FPKM或TPM仍然是目前較好的標(biāo)準(zhǔn)化方法。轉(zhuǎn)錄本定量的常用軟件有HTSeq611featureCounts621、StringTie、Cufflinks、RSEMf63、Sailfish泌、kallistof63J、IsoLasso和NURD:66。其中HTS

25、eq和featureCounts根據(jù)定位到基因組后的文件和基因組注釋信息在基因水平直接計(jì)算未標(biāo)準(zhǔn)化的讀段數(shù),StringTie和Cufflinks使用最大期望法,根據(jù)基因組定位數(shù)據(jù),同時考慮讀段分布偏好性、雙端信息和注釋信息得出經(jīng)過樣品內(nèi)標(biāo)準(zhǔn)化的轉(zhuǎn)錄本水平定量值,NURD能夠高效的對單端讀段進(jìn)行低內(nèi)存和低計(jì)算量的轉(zhuǎn)錄本水平定量,Sailfish則無需定位直接根據(jù)讀段k-mer值進(jìn)行定量戚婭】04.1差異基因表達(dá)分析現(xiàn)有的差異基因表達(dá)分析軟件可以分為兩大類,第一類是以讀段計(jì)數(shù)矩陣為起始文件,先進(jìn)行標(biāo)準(zhǔn)化處理,再通過統(tǒng)計(jì)學(xué)方法計(jì)算表達(dá)差異,使用的標(biāo)準(zhǔn)化方法包括:TMM69、DESeq"&

26、#176;'PoissonSeq71或UpperQuartile72等。這類軟件能有效地避免樣本間顯著差異表達(dá)的基因?qū)φw表達(dá)量計(jì)算的影響。表1列舉了這類軟件的相關(guān)信息。VedbarS.Khadka等使用測序質(zhì)控?cái)?shù)據(jù)集SEQC74:對12款最常用的的這類軟件進(jìn)行了假陽性分析,結(jié)果顯示DESeq2,edgeR和limma-voom表現(xiàn)最好。第二類軟件直接以FPKM、RPKM或TPM標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行表達(dá)差異的比較,代表軟件為cufflinks和ballgown0這類軟件由于標(biāo)準(zhǔn)化方法本身存在的缺陷(前文已述),其結(jié)果可信度較差。Fatemeh、Seyednasrollah等,XiaoWa

27、ng等湎對這2類軟件分別進(jìn)行比較分析后進(jìn)一步驗(yàn)證了第二類軟件在差異基因表達(dá)分析能力上較第一類差。表1基因讀段計(jì)數(shù)的基因表達(dá)差異分析軟件Tab.1Softwarefbrdifferentialexpressedgenesanalysisbasedonreadcounts軟件分布模型標(biāo)準(zhǔn)化方法統(tǒng)計(jì)模型參考文獻(xiàn)DESeq2(v1.14.1)負(fù)二項(xiàng)分布Median-of-ratios沃特檢驗(yàn);似然比檢驗(yàn)77】edgeR(v3.16.5)負(fù)二項(xiàng)分布TMM費(fèi)舍爾精確檢驗(yàn);廣義線性模型(7Slimma-voom(v3.30.13)廣義線性模型TMMt檢驗(yàn);F檢驗(yàn)-mbaySeq(v2.8.0)負(fù)二項(xiàng)分布Up

28、perQuartile經(jīng)驗(yàn)貝葉斯方法1»0:EBScq(v1.14.0)泊松線性回歸模型mediannormalization最大期望算法1SAMseq(v2.11)非參數(shù)模型PoissonSampling威爾科克森符號秩檢驗(yàn)g針對基因差異表達(dá)的分析軟件如今層出不窮,經(jīng)證實(shí)采用不同的軟件和方法分析得到的結(jié)果都會不同,甚至相同的軟件不同的版本分析的結(jié)果也會存在差異E】。因此在實(shí)際應(yīng)用時,在每一次分析時都應(yīng)詳細(xì)記錄所用的軟件和版本號,對于關(guān)鍵性的實(shí)驗(yàn)可以綜合分析多種方法的結(jié)果廠4.2差異基因功能富集分析對差異基因進(jìn)行功能富集分析是轉(zhuǎn)錄組測序技術(shù)的主要目的,相關(guān)工具眾多,根據(jù)不同的富集分析

29、方法可以分為四大類:(1)過表達(dá)分析(over.representationanalysis,ORA),常用工具有DAVID,GOstat,GenMAPP等。ORA方法理論完備,結(jié)果穩(wěn)健、可靠,但忽視了基因表達(dá)水平、基因間相互調(diào)控和低顯著性基因的信息;(2)功能集打分(functionalclassscoring,FCS),常用工具有GSEA、GSA、PADOG等。FCS方法較ORA方法在理論上有所突破,考慮了基因表達(dá)水平的影響,檢測靈敏度更強(qiáng),但仍然忽略了基因間的相互調(diào)控;(3)基于通路拓?fù)浣Y(jié)構(gòu),常用工具有MetaGorePathway-Express.SPIA等。該方法對注釋完善的通路分析

30、結(jié)果較好,但對于CP注釋不完整的通路穩(wěn)健性較差;(4)基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),常用工具有NEA.EnrichNet、GANPA等,考慮了基因間的相互作用網(wǎng)絡(luò),在系統(tǒng)層面進(jìn)行基因功能富集分析,結(jié)果相比傳統(tǒng)分析更為可靠,但由于考慮信息過多導(dǎo)致計(jì)算速度較慢。王瀟等我對這四大類方法涉及到的原理和軟件的優(yōu)缺點(diǎn)進(jìn)行了較為詳盡的介紹,研究者需要在理解這些方法的基礎(chǔ)上,根據(jù)實(shí)驗(yàn)?zāi)康暮侠磉M(jìn)行選擇。除了標(biāo)準(zhǔn)差異表達(dá)分析外,RNA.Seq技術(shù)還可用于分析融合基因、smallRNAs(18-34核昔酸長度的RNA,包括miRNA.siRNA.piRNA)、可變剪接等,也經(jīng)常與其他技術(shù)相結(jié)合,例如DNA測序、DNA甲基化、C

31、hIP.seq、蛋白質(zhì)組學(xué)和代謝組學(xué)等。MiriamF等如通過RNA-Seq與DNA測序相結(jié)合的方法驗(yàn)證了0RMD13相關(guān)基因突變有導(dǎo)致兒童哮喘的風(fēng)險。JungHKim等通過RNA-Seq與DNA甲基化相結(jié)合的方法揭示了前列腺癌DNA甲基化的不同模式。AnshulKundaje等版通過ChlP-seq和RNA-Seq相結(jié)合的方法分析了111種人類細(xì)胞和組織的表觀基因組。5挑戰(zhàn)與展望目前轉(zhuǎn)錄組測序技術(shù)面臨的挑戰(zhàn)主要來自三個方面:(1)準(zhǔn)確的轉(zhuǎn)錄本識別?;诙套x長的轉(zhuǎn)錄組測序很難對轉(zhuǎn)錄本進(jìn)行準(zhǔn)確識別,解決這一技術(shù)難點(diǎn)除了進(jìn)一步改善識別算法外關(guān)鍵還在于增加讀長。但現(xiàn)今基于長讀長的三代測序技術(shù)如Pac

32、Bio(Pacific-Biosciences)SMRTXOxfordNanopore和Moleculo雖然發(fā)展迅速,可測序錯誤率仍然偏高。目前比較好的做法是通過三代測序和二代測序相結(jié)合的方式來提高RNA-Seq的準(zhǔn)確性;(2)小樣本量的轉(zhuǎn)錄組測序。常規(guī)的轉(zhuǎn)錄組測序技術(shù)需要大量的細(xì)胞作為起始樣本,對起始量極少的樣本難以進(jìn)行測序分析。目前單細(xì)胞RNA-Seq(single-cellRNA-Seq)技術(shù)為小樣本量的轉(zhuǎn)錄組分析提供了有效的分析手段。特別是對于異質(zhì)性較強(qiáng)的組織樣本,需要在單細(xì)胞水平進(jìn)行轉(zhuǎn)錄組分析,單細(xì)胞RNA-Seq更顯示了其獨(dú)特的優(yōu)勢;(3)測序費(fèi)用。伴隨高通量測序技術(shù)的快速發(fā)展,測

33、序費(fèi)用也在急劇下降。據(jù)美國國家人類基因組研究所(NHGRI)統(tǒng)計(jì)2001年個人基因組測序成本為9500萬美元,2011年已快速下降至2萬美元o到2014年IlluminaHiSeqX10測序平臺的出現(xiàn)更是將個人全基因組測序價格降到1000美元,標(biāo)志著千元基因組時代的開始。2017年Illumina測序平臺NovaSeq的推出,則意味著個人基因組測序的費(fèi)用有望降到100美元。近年來,伴隨著后基因組時代的高速發(fā)展,轉(zhuǎn)錄組測序技術(shù)以其高效、準(zhǔn)確的技術(shù)優(yōu)勢,已被廣泛的運(yùn)用于醫(yī)學(xué)、農(nóng)學(xué)、生物學(xué)等各個研究領(lǐng)域,并帶來了革命性的變革。生物體的基因調(diào)控是多水平、多層次的復(fù)雜網(wǎng)絡(luò)系統(tǒng),轉(zhuǎn)錄組測序技術(shù)為研究該復(fù)雜

34、的調(diào)控網(wǎng)絡(luò)提供了有效的研究手段,相信在不久的將來,隨著三代測序技術(shù)的逐漸成熟、單細(xì)胞測序技術(shù)的快速發(fā)展和測序價格的不斷降低,轉(zhuǎn)錄組測序在各研究領(lǐng)域的應(yīng)用會越來越普遍,為人類探究各種生命現(xiàn)象的本質(zhì)帶來極大的幫助。參考文獻(xiàn)祁云霞,劉永斌,榮威恒.轉(zhuǎn)錄組研究新技術(shù):RNA-Seq及其應(yīng)用J.遺傳,2011,33(11):1191-202.1 GOODWINS,MCPHERSONJD,MCCOMBIEWR.Comingofage:tenyearsofnext-generationsequencingtechnologiesJ.NatRevGenet,2016,17(6):333-351.2 R1EBE

35、RN,ZAPATKAM,LASITSCHKAB,elatCoveragebiasandsensitivityofvariantcallingforfourwhole-genomesequencingtechnologiesJJ.PloSone,2013,8(6):e66621.3 WILLIAMSAG,THOMASS,WYMANSK,etal.RNA-seqData:ChallengesinandRecommendationsforExperimentalDesignandAnalysisJ.CurrentProtocolsinHumanGenetics,2014,83:IL13.1-20.4

36、 ZHAOW,HEX,HOADLEYKA,etal.ComparisonofRNA-Seqbypoly(A)capture,ribosomalRNAdepletion,andDNAmicroarrayforexpressionprofilingJ.BMCgenomics,2014,15(1):419.5 TARAZONAS,GARCA-ALCALDEF,DOPAZOJ,etal.DifferentialexpressioninRNA-seq:amatterofdepthJ.Genomeresearch,2011,21(12):2213-2223.6 MORTAZAVIA,WILLIAMSBA,

37、MCCUEK,etal.MappingandquantifyingmammaliantranscriptomesbyRNA-Seq:J.Naturemethods,2008,5(7):621-628.7 LABAJPP,LEPARCGG,UNGGIBE,etal.CharacterizationandimprovementofRNA-SeqprecisioninquantitativetranscriptexpressionprofilingJ.Bioinformatics,2011,27(13):i383-i39i.8 LIUY,ZHOUJ,WHITEKP.RNA-seqdifferenti

38、alexpressionstudies:moresequenceormorereplication?JBioinformatics,2014,30(3) :301-304.9 LEEKJT,SCHARPFRB,BRAVOHC,etal.Tacklingthewidespreadandcriticalimpactofbatcheffectsinhigh-throughputdata:J;.NatRevGenet,2010,11(10):733-739.10 JOHNSONWE,LIC,RABINOVICA.Adjustingbatcheffectsinmicroarrayexpressionda

39、tausingempiricalBayesmethodsJ.Biostatistics,2007,8(1):118-127.:12FERRERA,CONESAA.ARSyN:amethodfortheidentificationandremovalofsystematicnoiseinmultifactorialtimecoursemicroarrayexperimentsJ.Biostatistics,2011,kxiO42.13 PATELRK,JAINM.NGSQCToolkit:atoolkitforqualitycontrolofnextgenerationsequencingdat

40、aJ.PloSone,2012,7(2):e30619.14 OKONECHNIKOVK,CONESAA,GARCA-ALCALDEF.Qualimap2:advancedmulti-samplequalitycontrolforhigh-throughputsequencingdataJj.Bioinformatics,2016,32(2):292-294.j15YANGX,LIUD,LIUF,etal.HTQC:afastqualitycontroltoolkitforIlluminasequencingdataJ.BMCbioinformatics,2013,14(1):33.16ZHO

41、UQ,SUX,WANGA,etal.QC-Chain;fastandholisticqualitycontrolmethodfornext*generationsequencingdataJ1PloSone,2013,8(4):e60234.17WARDJ,COLEC,FEBREKM,etaLAlmostSignificant:simplifyingqualitycontrolofhigh-throughputsequencingdataJ.Bioinformatics,2016,32(24):3850-3851.18ZHANGM,SUNH,FEIZ,etal.Fastq_cle&n:

42、AnoptimizedpipelinetocleantheIlluminasequencingdatawithqualitycontrol;proceedingsoftheBioinformaticsandBiomedicine(BIBM),2014IEEEInternationalConferenceon,F,2014:C.IEEE.19jLOC-C,CHAINPS.RapidevaluationandqualitycontrolofnextgenerationsequencingdatawithFaQCsJ:BMCbioinformatics,2014,15(1):366.20 GORDO

43、NA,HANNONG.Fastx-toolkitJ.FASTQ/Ashort-readspreprocessingtook(unpublished)http:/hannonlabcshledu/fastx_toolkit,2010.21 BOLGERAM,LOHSEM,USADELB.Trimmomatic:aflexibletrimmerforIlluminasequencedatafJ.Bioinformatics,2014,30(15):2114-2120.22DOHMJC,LOTTAZC,BORODINAT,etal.Substantialbiasesinultra-shortread

44、datasetsfromhighthroughputDNAsequencingJ.Nucleicacidsresearch,2008,36(16):el05.23 KUNINV,ENGELBREKTSONA,OCHMANH,etal.Wrinklesintherarebiosphere:pyrosequencingerrorscanleadtoartificialinflationofdiversityestimatesJ,Environmentalmicrobiology,2010,12(1):118-123.24 GRABHERRMG,HAASBJ,YASSOURM,etal.Trinit

45、y:reconstructingafull-lengthtranscriptomewithoutagenomefromRNA-SeqdataJ.Naturebiotechnology,2011,29(7):644.25 王曦,汪小我,王立坤,等.新一代高通量RNA測序數(shù)據(jù)的處理與分析口.生物化學(xué)與生物物理進(jìn)展,2010,37(8):834-846.26 KIMD,LANGMEADB,SALZBERGSLHISAT:afastsplicedalignerwithlowmemoryrequirementsJ.Naturemethods,2015,12(4) :357-360.27 MEDINAI,

46、TRRAGAJ,MARTNEZH,etal.HighlysensitiveandultrafastreadmappingforRNA-seqanalysisJ.DNAResearch,2016,23(2):93400.28 DOBINA,DAVISCA,SCHLESINGERF,etal.STAR:ultrafasluniversalRNA-seqalignerJjBioinformatics,2013,29(1):15-21.29 TRAPNEIXC,PACHTERL,SALZBERGSLTopHat:discoveringsplicejunctionswithRNA-SeqJ.Bioinf

47、ormatics,2009,25(9):1105-1111.30 WANGK,SINGHD,ZENGZ,etal.MapSplice:accuratemappingofRNA-seqreadsforsplicejunctiondiscoveryJ.Nucleicacidsresearch,2010,gkq622.31LANGMEADB,TRAPNELLC,POPM,etal.UltrafastandmemoryefficientalignmentofshortDNAsequencestothehumangenomeJ.Genomebiology,2009,10(3):R25.32 LIH,DU

48、RBINR.FastandaccurateshortreadalignmentwithBurrows-WheelertransformJ.Bioinformatics,2009,25(14):1754-1760.33 HERCUSC.NovoalignJ.Selangor:NovocraftTechnologies,2012.34 PONSTINGLH.SMALTefficientlyalignsDNAsequencingreadswithareferencegenome.WellcomeTrustSangerInstitute,Hinxton,UnitedKingdom.Currentver

49、sion-SMALTvO.7.5.Released16thJuly2013M,2013.35 LUNTERG,GOODSONM.Stampy:astatisticalalgorithmforsensitiveandfastmappingofIlluminasequencereadsJ.Genomeresearch,2011,21(6):936-969.36 THANKASWAMY-KOSALAIS,SENP,NOOKAEWI.Evaluationandassessmentofread-mappingbymultiplenext-generationsequencingalignersbased

50、ongenome-widecharacteristicsJ.Genomics,2017,pii:80888-7543(17)30020-300204.37jLINDNERR,FRJEDEI,CC.AcomprehensiveevaluationofalignmentalgorithmsinthecontextofRNA-seqJ.PLoSOne,2012,7(12) :e52403.38MAZZONIG,KADARMIDEENHN.ComputationalMethodsforQualityCheck,PreprocessingandNormalizationofRNA-SeqDataforS

51、ystemsBiologyandAnalysisM.SystemsBiologyinAnimalProductionandHealth,Vol2.Springer.2016:61-77.39 WANGL,WANGS,LIWRSeQC:qualitycontrolofRNA-seqexperimentsJ.Bioinformatics,2012,28(16):2184-2185.40 GARCAALCALDEF,OKONECHN1KOVK,CARBONELLJ,etal.Qualimap:evaluatingnextgenerationsequencingalignmentdataJ.Bioin

52、formatics,2012,28(20):2678-2679.41ANDREWSS,FASTQ.Aqualitycontroltoolforhighthroughputsequencedata.2010J.GoogleScholar,2015.42 LASSMANNT,HAYASHIZAKIY,DAUBCO.SAMStat:monitoringbiasesinnextgenerationsequencingdataJ.Bioinformatics,2011,27(1) :130-131.43 DELUCADS,LEVINJZ,SIVACHENKOA,etal.RNA-SeQC:RNA-seq

53、metricsforqualitycontrolandprocessoptimizationJ.Bioinformatics,2012,28(11):1530-1532.44 KROLLKW,MOKARAMNE,PELLETIERAR,etal,QualitycontrolforRNA-seq(QuaCRS):AnintegratedqualitycontrolpipelineJ.Cancerinformatics,2014,13(Suppl3):7.45 HARROWJ,FRANKISHA,GONZALEZJM,etal.GENCODE:thereferencehumangenomeanno

54、tationforTheENCODEProjectJ.Genomeresearch,2012,22(9):1760-1774.46 HAYERKE,PIZARROA,LAHENSNF,etal.Benchmarkanalysisofalgorithmsfordeterminingandquantifyingfull-lengthmRNAspliceformsfromRNA-seqdatafJ.Bioinformatics,2015,btv488.47 PERTEAM,PERTEAGM,ANTONESCUCM,etal.StringTieenablesimprovedreconstruction

55、ofaIranscriptomefromRNA-seqreadsJNaturebiotechnology,2015,33(3):290-295.48 ROBERTSA,PIMENTELH,TRAPNELLC,etal.IdentificationofnoveltranscriptsinannotatedgenomesusingRNASeqJBioinformatics,2011,27(17):2325-2329.49 CANZARS,ANDREOTTIS,WEESED,etal.CIDANE:comprehensiveisoformdiscoveryandabundanceestimation

56、J.Genomebiology,2016,17(1):16.50 BOLEYN,STOIBERMH,BOOTHBW,etal.Genome-guidedtranscriptassemblybyintegrativeanalysisofRNAsequencedataJ.Naturebiotechnology,2014,32(4):341-346.51LIUJ,YUT,JIANGT,elal.TransComb:genome-guidedtranscriptomeassemblyviacombingjunctionsinsplicinggraphsJj.Genomebiology,2016,17(

57、1):213.52 MEZLINIAM,SMITHEJ,FIUMEM,etal.iReckon;SimultaneousisoformdiscoveryandabundanceestimationfromRNA-seqdataJ.Genomeresearch,2013,23(3):519-529.53 LIJJ,JIANGCR,BROWNJB,etal.SparselinearmodelingofnextgenerationmRNAsequencing(RNA-Seq)dataforisofomidiscoveryandabundanceestimationJ;Proceedingsofthe

58、NationalAcademyofSciences,2011,108(50):19867-19872.54 HILLERD,WONGWH.SimultaneousisoformdiscoveryandquantiGcationfromRNA-seqJ.Statisticsinbiosciences,2013,5(1):100-118.55 STANKEM,KELLERO,GUNDUZI,etal.AUGUSTUS:abinitiopredictionofalternativetranscriptsJ.Nucleicacidsresearch,2006,34(suppl2):W435-W439.56 LIW,FENGJ,JIANGT.IsoLasso:aLASSOregressionapproachtoRNA-Seqbasedtranscr

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論