RNA-seq數(shù)據(jù)差異表達(dá)分析方法的比較(共6頁(yè))_第1頁(yè)
RNA-seq數(shù)據(jù)差異表達(dá)分析方法的比較(共6頁(yè))_第2頁(yè)
RNA-seq數(shù)據(jù)差異表達(dá)分析方法的比較(共6頁(yè))_第3頁(yè)
RNA-seq數(shù)據(jù)差異表達(dá)分析方法的比較(共6頁(yè))_第4頁(yè)
RNA-seq數(shù)據(jù)差異表達(dá)分析方法的比較(共6頁(yè))_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上RNA-seq數(shù)據(jù)差異表達(dá)分析方法的比較BMC Bioinformatics 2013, 14:91 doi:10.1186/1471-2105-14-91A comparison of methods for differential expression analysis of RNA-seq dataCharlotte Soneson () Mauro Delorenzi ()摘要說的背景是: “發(fā)現(xiàn)條件間差異表達(dá)的基因是理解表型變異的分子基礎(chǔ)的一個(gè)有機(jī)部分。過去幾十年中,DNA微陣列被廣泛用于定量不同基因的mRNA豐度,更近期的 RNA-seq作為一個(gè)強(qiáng)有力的

2、競(jìng)爭(zhēng)者冒了出來。隨著測(cè)序成本持續(xù)下降,可以想象使用RNA-seq做差異表達(dá)分析會(huì)迅速增加。為了探索可能性和解決這種 相對(duì)新型的數(shù)據(jù)提出的挑戰(zhàn),大量軟件包特別為RNA-seq數(shù)據(jù)的差異表達(dá)分析開發(fā)出來了?!倍疚牡慕Y(jié)果是:“我們廣泛比較了RNA-seq數(shù)據(jù)的差異表達(dá)分析的7種方法。所有方法都可以在R框架下免費(fèi)獲得,并以一個(gè)計(jì)數(shù)矩陣作為輸入,計(jì)數(shù)即每個(gè)樣品中映射到每個(gè)感興趣的基因組特征上的reads數(shù)目。我們基于模擬數(shù)據(jù)和實(shí)際RNA-seq數(shù)據(jù)評(píng)價(jià)了這些方法?!苯Y(jié)論就是:“極小樣本量仍是RNA-seq實(shí)驗(yàn)的普遍狀況,對(duì)所有評(píng)價(jià)方法造成了困難;而任何在這樣的條件下獲得的結(jié)果都應(yīng)該謹(jǐn)慎解釋。對(duì)于更大的

3、樣本量,組合穩(wěn)定方差變換和limma方法來進(jìn)行差異表達(dá)分析會(huì)在很多不同的條件下表現(xiàn)良好,正如非參數(shù)的SAMseq方法一樣?!?到2013年還說這種話,這些結(jié)論實(shí)在有點(diǎn)雞肋啊 貌似為SAMseq搖旗吶喊來的不過:比較了11種軟件包,這還是前所未有的:DESeq、edgeR、NBPSeq、TSPM、baySeq、EBSeq、NOISeq、SAMseq、 ShrinkSeq這9種可直接處理計(jì)數(shù)數(shù)據(jù),另兩種分別是voom(+limma)和vst(+limma),轉(zhuǎn)換數(shù)據(jù)后用limma做差異表達(dá)分析。 正如很多文章已經(jīng)提到的那些,RNA-seq比起微陣列有三大優(yōu)點(diǎn):1、更大的動(dòng)態(tài)范圍2、更低的背景噪音3

4、、能檢測(cè)和定量先前未知的轉(zhuǎn)錄本及亞型RNA-seq也有一些難題:1、樣本內(nèi)不均勻性:基因組區(qū)域之間核苷酸組成的變異性導(dǎo)致沿基因組的read覆蓋深度并不均勻;2、同樣表達(dá)水平下,長(zhǎng)基因比短基因有更多的reads;3、對(duì)于條件之間的表達(dá)差異,分別對(duì)各個(gè)基因進(jìn)行差異表達(dá)分析,而忽略了樣本內(nèi)的偏倚(它們被假設(shè)對(duì)所有樣本有類似的影響)4、樣本間不均勻性:測(cè)序深度或文庫(kù)大小5、少數(shù)高表達(dá)基因抑制了其他基因的read計(jì)數(shù)比例,可能導(dǎo)致低表達(dá)基因的差異表達(dá)假陽(yáng)性 相應(yīng)的解決辦法是:1、對(duì)上述4,5兩點(diǎn),估計(jì)樣本特異的歸一化因子,用于重新調(diào)整觀測(cè)計(jì)數(shù)。這些歸一化方法是為了使樣本間的非差異表達(dá)基因的歸一

5、化計(jì)數(shù)是相似的。本研究中 使用的是DESeq包中的TMM方法。歸一化因子和TMM兩種方法的性能相似,也是僅有的兩個(gè)在文獻(xiàn)9的評(píng)價(jià)中對(duì)所有度量都提供了滿意結(jié)果的方法。2、對(duì)于2、4兩點(diǎn),基因長(zhǎng)度和文庫(kù)大小,有的軟件采用了RPKM或相關(guān)的FPKM方法。只有非參數(shù)方法才適用于RPKM值。 致命的假設(shè):大部分基因在樣本間的表達(dá)是相等的。于是差異表達(dá)基因分成上調(diào)、下調(diào)及其之間的或多或少相等的三部分。 差異表達(dá)已經(jīng)提出的模型中,Poisson分布和負(fù)二項(xiàng)分布最常見,還有分布也被提出來。Poisson分布很適合技術(shù)變異的分析;而更高的生物學(xué)變異需要合并過離散的分布,如負(fù)二項(xiàng)分布。 RNA-seq數(shù)據(jù)的差異表

6、達(dá)分析仍處于它的嬰兒期,需要不斷提出新的方法來。目前沒有一致認(rèn)可的表現(xiàn)最好的方法,只發(fā)表了很少的現(xiàn)有方法的廣泛比較。文 獻(xiàn)19中,依照區(qū)分真實(shí)差異/非差異表達(dá)基因的能力比較了四種參數(shù)方法。還有研究評(píng)價(jià)了測(cè)序深度的影響,并與樣本量進(jìn)行了比較,并發(fā)現(xiàn)后者的影響相當(dāng)大。 本文中比較了為不同條件下RNA-seq數(shù)據(jù)的差異表達(dá)分析開發(fā)的11種方法。其中9種直接對(duì)計(jì)數(shù)數(shù)據(jù)進(jìn)行建模,而另兩個(gè)先對(duì)計(jì)數(shù)進(jìn)行變換再應(yīng)用微陣列數(shù) 據(jù)的差異表達(dá)分析的傳統(tǒng)方法。研究限于R框架下實(shí)現(xiàn)的可應(yīng)用于計(jì)數(shù)矩陣的可用方法。進(jìn)一步我們聚焦于發(fā)現(xiàn)兩條件之間的差異表達(dá)基因,因?yàn)檫@是最常見的應(yīng) 用,雖然大多數(shù)方法也允許更復(fù)雜的試驗(yàn)設(shè)計(jì)。

7、對(duì)NB和Poisson分布模擬的數(shù)據(jù)和分別加了一些例外點(diǎn)的數(shù)據(jù)共四種數(shù)據(jù)集,研究了在不同實(shí)驗(yàn)條件下方法的下列方面:1、排序真實(shí)DEGs在nonDEGs之前的能力;2、在給定水平控制I型錯(cuò)誤和假發(fā)現(xiàn)率的能力;3、計(jì)算時(shí)間。對(duì)于真實(shí)RNA-seq數(shù)據(jù),比較了DEGs集,各自的數(shù)目和重疊的數(shù)目。還研究了不同方法獲得的基因排序的一致性。 六種方法有名義p-value(edgeR、DESeq、NBPSeq、TSPM、voom+limma、vst+limma),我們定義分?jǐn)?shù)值為1- pvalue。對(duì)于SAMseq,定義平均Wilcoxon統(tǒng)計(jì)量的絕對(duì)值為排序分值,而對(duì)于baySeq、EBSeq、Shrin

8、kSeq使用估計(jì)的差 異表達(dá)后驗(yàn)概率,或者等價(jià)地,1-BFDR,其中BFDR表示估計(jì)的Bayesian FDR。對(duì)于NOISeq,使用統(tǒng)計(jì)量q_NOISeq。所有這些分?jǐn)?shù)都是雙側(cè)的,即不被差異表達(dá)的方向影響。給定上述分?jǐn)?shù)的閾值,我們就選擇出閾值以上 的為DEGs,其余的為non-DEGs。 SAMseq使用了重抽樣策略使文庫(kù)大小一致,因此隱含假設(shè)了所有歸一化因子是相等的,在整體上調(diào)的模擬研究中表現(xiàn)最好。上下調(diào)基因都有的時(shí)候,所有方法 的AUC(Area under the ROC curve (AUC),Receiver Operating Characteristic)性能類似。TSPM和E

9、BSeq在所有方法中表現(xiàn)出最強(qiáng)烈的樣本量依賴性,其次是SAMseq和baySeq。對(duì)于最小樣 本量(每條件下2樣本),最佳結(jié)果是DESeq、edgeR、NBPSeq、voom+limma和vst+limma。當(dāng)所有DEGs上調(diào)時(shí),baySeq結(jié)果的變異性很高;而DEGs向不同的方向調(diào)整時(shí)這種變異就會(huì)減小。將真實(shí)DEGs排的很靠前的方法是基于變換的voom+limma和vst+limma方法和ShrinkSeq,但是TSPM和NOISeq還會(huì)把一些 真實(shí)的nonDEGs排的很靠前。SAMseq也表現(xiàn)不錯(cuò),但是有一些真實(shí)DEGs和nonDEGs被返回靠前的相同的值。 實(shí)在是相當(dāng)繁瑣,直接看結(jié)論吧C

10、onclusions文本評(píng)價(jià)和比較了11種RNA-seq數(shù)據(jù)的差異表達(dá)分析方法。主要結(jié)果如下:Table 2 Summary of the main observationsDESeq - Conservative with default settings. Becomes more conservative when outliers are introduced.- Generally low TPR.- Poor FDR control with 2 samples/condition, good FDR control for larger sample sizes, also wi

11、thoutliers.- Medium computational time requirement, increases slightly with sample size.edgeR - Slightly liberal for small sample sizes with default settings. Becomes more liberal when outliers are introduced.- Generally high TPR.- Poor FDR control in many cases, worse with outliers.- Medium computa

12、tional time requirement, largely independent of sample size.NBPSeq - Liberal for all sample sizes. Becomes more liberal when outliers are introduced.- Medium TPR.- Poor FDR control, worse with outliers. Often truly non-DE genes are among those with smallest p-values.- Medium computational time requi

13、rement, increases slightly with sample size.TSPM - Overall highly sample-size dependent performance.- Liberal for small sample sizes, largely unaffected by outliers.- Very poor FDR control for small sample sizes, improves rapidly with increasing sample size.Largely unaffected by outliers.- When all

14、genes are overdispersed, many truly non-DE genes are among the ones with smallest p-values. Remedied when the counts for some genes are Poisson distributed.- Medium computational time requirement, largely independent of sample size.voom / vst- Good type I error control, becomes more conservative whe

15、n outliers are introduced.- Low power for small sample sizes. Medium TPR for larger sample sizes.- Good FDR control except for simulation study B04000. Largely unaffected by introduction of outliers.- Computationally fast.baySeq - Highly variable results when all DE genes are regulated in the same d

16、irection. Less variability when the DE genes are regulated in different directions.- Low TPR. Largely unaffected by outliers.- Poor FDR control with 2 samples/condition, good for larger sample sizes in the absence of outliers. Poor FDR control in the presence of outliers.- Computationally slow, but

17、allows parallelization.EBSeq - TPR relatively independent of sample size and presence of outliers.- Poor FDR control in most situations, relatively unaffected by outliers.- Medium computational time requirement, increases slightly with sample size.NOISeq - Not clear how to set the threshold for qNOI

18、Seq to correspond to a given FDR threshold.- Performs well, in terms of false discovery curves, when the dispersion is different between theconditions (see supplementary material).- Computational time requirement highly dependent on sample size.SAMseq - Low power for small sample sizes. High TPR for

19、 large enough sample sizes.- Performs well also for simulation study B04000.- Largely unaffected by introduction of outliers.- Computational time requirement highly dependent on sample size.ShrinkSeq - Often poor FDR control, but allows the user to use also a fold change threshold in the inference procedure.- High TPR.- Computationally slow, but allows parallelization. 沒有哪種單獨(dú)的方法對(duì)所有情形都是最優(yōu)的,特定情形下方法的選擇取決于實(shí)驗(yàn)條件。本文評(píng)價(jià)的這些方法中,基于穩(wěn)定方差的變換與limma組合的方法在很多 情況下都表現(xiàn)不錯(cuò),而且不受例外點(diǎn)影響、計(jì)算很快,但是要求每條件下至少3個(gè)樣本來提供充分的檢定力。而且在兩條件下散度不同時(shí)表現(xiàn)更糟糕。非參數(shù)方法 SAMseq在大樣本量時(shí)是性能最優(yōu)的方法

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論