高通量數(shù)據(jù)處理的一些經(jīng)驗(yàn)和建議

上傳人：3*** IP屬地：湖北上傳時(shí)間：2021-12-14 格式：DOC 頁(yè)數(shù)：15 大?。?7.50KB 積分：30 舉報(bào) 版權(quán)申訴

高通量數(shù)據(jù)處理的一些經(jīng)驗(yàn)和建議_第2頁(yè)

高通量數(shù)據(jù)處理的一些經(jīng)驗(yàn)和建議_第3頁(yè)

高通量數(shù)據(jù)處理的一些經(jīng)驗(yàn)和建議_第4頁(yè)

高通量數(shù)據(jù)處理的一些經(jīng)驗(yàn)和建議_第5頁(yè)

已閱讀5頁(yè)，還剩10頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、高通量數(shù)據(jù)處理的一些經(jīng)驗(yàn)和建議最近一年時(shí)間里收到很多同學(xué)和朋友關(guān)于454數(shù)據(jù)處理的詢(xún)問(wèn)，通過(guò)QQ，微信，人人網(wǎng)和郵件等各種途徑，當(dāng)然不少也是面對(duì)面的討論。這些同學(xué)和朋友包括同組的，跨組的，同所的，跨所的，其他大學(xué)的，來(lái)自北京的、南京的、廣州的、西安的，甚至也有國(guó)外的中國(guó)朋友。有些朋友我素未謀面，也不知長(zhǎng)相如何，不知男女。有時(shí)候同一天能收到五六份郵件，問(wèn)題之五花八門(mén)，有時(shí)已經(jīng)超越了我所能夠解答的范圍。這些現(xiàn)象也反映了當(dāng)前生物信息學(xué)的急劇變革，第二代測(cè)序技術(shù)就像Iphone問(wèn)世一些，徹底席卷和重新定義了當(dāng)前生態(tài)學(xué)研究的方法和手段。而幾年前費(fèi)用昂貴的第二代測(cè)序如今已“舊時(shí)王謝堂前燕，飛入尋常百姓家”

2、，于是乎大潮裹挾之下的碩士生博士生們都想出來(lái)耍耍，扔個(gè)十幾萬(wàn)塊錢(qián)，希望能夠輕松的收獲幾篇文章?？蒲姓撐牡陌l(fā)表講究“獵奇性”，大家都喜歡看到新奇的方法和漂亮的圖表。但我認(rèn)為這其實(shí)也是當(dāng)今科研界的弊端之一，講究創(chuàng)新和手段的先進(jìn)，而忽視了研究的重要性。以微生物生態(tài)學(xué)的旗艦雜志ISMEJ為例，最近一年多發(fā)表的學(xué)術(shù)論文里，第二代測(cè)序技術(shù)已經(jīng)是尋常方法，所謂第三代的單細(xì)胞測(cè)序技術(shù)也開(kāi)始出現(xiàn)。研究生物信息學(xué)的來(lái)自美國(guó)科羅拉多的Rob Knight能夠作為ISMEJ的高級(jí)主編，方法對(duì)于微生物生態(tài)學(xué)研究的重要性可見(jiàn)一斑。前幾天讀到阿伯丁大學(xué)的James Prosser教授在Nature上發(fā)表的一篇觀(guān)點(diǎn)文章“Th

3、ink before you sequence“，在這里面他講到，第二代測(cè)序只不過(guò)是一個(gè)工具而已，我們的研究依舊要從扎扎實(shí)實(shí)的假設(shè)出發(fā)，設(shè)計(jì)實(shí)驗(yàn)來(lái)解決問(wèn)題和驗(yàn)證假設(shè)。高通量測(cè)序并不能彌補(bǔ)實(shí)驗(yàn)設(shè)計(jì)的缺陷。我在閱讀文章的過(guò)程中也發(fā)現(xiàn)，設(shè)計(jì)合理和完整的實(shí)驗(yàn)，即使使用傳統(tǒng)的Sanger測(cè)序技術(shù)，依舊能夠說(shuō)明和解決問(wèn)題，并能夠發(fā)表到高檔次期刊上。而如果使用第二代測(cè)序技術(shù)，但是數(shù)據(jù)處理有問(wèn)題，數(shù)據(jù)質(zhì)量控制不好，文章也很難得到發(fā)表，相當(dāng)于花錢(qián)買(mǎi)罪受。我從2011年秋天開(kāi)始學(xué)習(xí)454數(shù)據(jù)的處理，在學(xué)習(xí)的起始階段，能夠和師弟袁超磊一起探討和交流，并且?guī)缀蹰喿x了ISMEJ上所有與第二代測(cè)序技術(shù)有關(guān)的文章，所以能夠

4、很快的上手。在此我也對(duì)師弟袁超磊表示正式的感謝，祝愿他在阿德雷德大學(xué)能吃上可口的飯菜。很多朋友的問(wèn)題我未能一一解答，在此也表示歉意。我經(jīng)歷過(guò)學(xué)習(xí)454數(shù)據(jù)處理的漫長(zhǎng)和痛苦的過(guò)程，我很清楚有時(shí)候一句話(huà)或者一段話(huà)很難解決所問(wèn)的問(wèn)題。去年我自己投出的文章經(jīng)歷了很多次的拒稿，十幾位審稿人和生物信息學(xué)家對(duì)數(shù)據(jù)處理提出了建議，現(xiàn)在經(jīng)過(guò)在悉尼和生物信息學(xué)專(zhuān)家的討論，我也能夠更加合理地看待數(shù)據(jù)處理的問(wèn)題。摸著石頭過(guò)河的一些經(jīng)驗(yàn)和建議，在這里進(jìn)行分享，希望正在摸索和思考中的你，覺(jué)得并不孤單。1. Mothur和QIIME那個(gè)軟件更好?Mothur是美國(guó)密歇根大學(xué)的Patrick Schloss在2009年開(kāi)發(fā)的

5、數(shù)據(jù)處理平臺(tái)，它的前身是Dothur軟件，相信大家都聽(tīng)說(shuō)過(guò)。這兩個(gè)軟件的發(fā)音分別為Mother和Daughter，是Dr Parick獻(xiàn)給他的妻子和女兒的。另一個(gè)被廣泛使用的數(shù)據(jù)處理平臺(tái)是QIIME,也是美國(guó)科羅拉多Rob Knight等人于2009年開(kāi)發(fā)出來(lái)的。截至今天，Mothur的方法文獻(xiàn)已經(jīng)被引用1229次，而QIIME被引用574次。這說(shuō)明Mothur比QIIME有更廣泛的群眾基礎(chǔ)。我剛開(kāi)始學(xué)習(xí)使用的就是Mothur,我個(gè)人非常喜歡這個(gè)開(kāi)源的數(shù)據(jù)處理平臺(tái)，基本能夠?qū)崿F(xiàn)我的所有數(shù)據(jù)處理目的。Mothur軟件無(wú)需安裝，在Windos, Linix,和MacOS系統(tǒng)上都可以運(yùn)行。我研究了M

6、othur每一個(gè)中間導(dǎo)出文件的格式和原理，所以我能夠?qū)⑦@些中間產(chǎn)生的文件導(dǎo)入其他軟件進(jìn)行處理和做圖，比如R語(yǔ)言。很多人不喜歡Mothur，都是因?yàn)镸othur不能夠直接出圖，必須依賴(lài)于其他軟件。而這正式我所喜歡的原因，我現(xiàn)在也正在進(jìn)一步學(xué)習(xí)R語(yǔ)言，R的做圖功能是非常強(qiáng)大的，其實(shí)大家平時(shí)看到文章上那些非常漂亮的圖，大都是R語(yǔ)言做出來(lái)的。所以，如果將Mothur和R結(jié)合，我認(rèn)為是一個(gè)能正確處理數(shù)據(jù)并完美展現(xiàn)數(shù)據(jù)的途徑。除了羅氏454數(shù)據(jù)處理之外，Mothur現(xiàn)在也有了針對(duì)Illumina數(shù)據(jù)的處理方式，大家從Mothur的網(wǎng)頁(yè)上就可以讀到Dr. Patick寫(xiě)的標(biāo)準(zhǔn)數(shù)據(jù)處理流程?，F(xiàn)在QIIME攜蘋(píng)

7、果電腦的時(shí)髦，也得到了很多人的青睞。這個(gè)軟件我本人沒(méi)有真正使用過(guò)，但是知道QIIME只能在MacOS和Linix系統(tǒng)上運(yùn)行，當(dāng)然也可以通過(guò)在Windos系統(tǒng)上安裝Virtual Box來(lái)運(yùn)行。這個(gè)軟件出圖的效果比較好，很多人把直接出的圖用來(lái)發(fā)表文章。我所在的悉尼這邊的研究所的生物信息學(xué)專(zhuān)家也是用QIIME來(lái)處理數(shù)據(jù)。我就這個(gè)軟件問(wèn)題和他討論了好多次。基本來(lái)說(shuō)，兩個(gè)軟件都可以幫助我們實(shí)現(xiàn)正確的數(shù)據(jù)處理，并不存在哪個(gè)更好的問(wèn)題，只有個(gè)人在使用上的喜好。我希望你無(wú)論使用那個(gè)軟件，都仔仔細(xì)細(xì)閱讀軟件網(wǎng)頁(yè)上的教程，并熟悉所有的命令。自己一一試試各個(gè)命令，合理組合命令，這樣才會(huì)通過(guò)修改命令來(lái)正確處理自己的

8、數(shù)據(jù)。這個(gè)過(guò)程沒(méi)人可以幫你，只有你自己能夠救贖自己。2. 數(shù)據(jù)處理難學(xué)嗎?這是一個(gè)我一直以來(lái)很想告訴所有人的問(wèn)題。說(shuō)實(shí)話(huà)，那兩個(gè)軟件都很好使用，有標(biāo)準(zhǔn)的處理流程在那里等著你，把所有數(shù)據(jù)處理下來(lái)絕對(duì)不超過(guò)十天時(shí)間。但是，為什么我們幾個(gè)月甚至一年都拿不下來(lái)數(shù)據(jù)處理?因?yàn)閿?shù)據(jù)處理的難點(diǎn)不在于軟件的使用，而在于你對(duì)微生物生態(tài)學(xué)基本概念的了解。我認(rèn)為我們需要在數(shù)據(jù)處理之前就應(yīng)該特別清楚的是1)多樣性的各種指標(biāo)。數(shù)據(jù)條數(shù)的多少會(huì)直接影響多樣性的計(jì)算結(jié)果，它們之間是正相關(guān)關(guān)系。所以計(jì)算多樣性必須統(tǒng)一序列條數(shù)。而我們知道統(tǒng)一序列條數(shù)就會(huì)舍棄很多條數(shù)不足的樣品，這個(gè)取舍就涉及到很多的經(jīng)驗(yàn)問(wèn)題，需要你閱讀很多的文

9、獻(xiàn)來(lái)了解;2)多樣性的表征方式。我研究多樣性的時(shí)候，閱讀了很多相關(guān)的文獻(xiàn)，對(duì)Bray-Curtis指數(shù)，UniFrac等都非常了解。選擇能夠最好表現(xiàn)你多樣性差異的指數(shù)，需要花很多很多的汗水。3)多元統(tǒng)計(jì)方法。這個(gè)又是更大的難點(diǎn)了，Mothur不會(huì)告訴你，QIIME也不會(huì)告訴你。你只有去閱讀教材，閱讀文章，才能彌補(bǔ)這些缺陷。不然你連那些命令都讀不懂，還談什么數(shù)據(jù)處理，修改命令。4)文章的構(gòu)思。這又是更高一級(jí)的知識(shí)預(yù)儲(chǔ)備了。在你的數(shù)據(jù)處理之前，請(qǐng)閱讀所有高質(zhì)量期刊上的相關(guān)文章，至少需要預(yù)估計(jì)，你可以出哪些圖，做哪些分析。其實(shí)在數(shù)據(jù)處理的過(guò)程中已經(jīng)是你不斷驗(yàn)證假設(shè)和推翻假設(shè)的過(guò)程。希望你在數(shù)據(jù)處理之

10、前踏踏實(shí)實(shí)地做好這些功課，不然你很難完美運(yùn)行各個(gè)命令。另外，要仔細(xì)研究各個(gè)軟件的原理，做到人機(jī)合一的效果。因?yàn)橛袝r(shí)候軟件并不能解決所有問(wèn)題，比如在alignment的時(shí)候，有時(shí)候在部分區(qū)域比對(duì)效果不好，你需要使用合適的軟件打開(kāi)這些中間文件，手動(dòng)進(jìn)行刪除，不然會(huì)影響后續(xù)的多樣性計(jì)算。所以，你需要把自己練成一臺(tái)機(jī)器。2010年我做過(guò)同位素超高速離心，盡管已經(jīng)有很多文獻(xiàn)可供參考，我當(dāng)時(shí)還是研究了離心機(jī)的原理和等密度梯度離心的原理，所以自己就很清楚應(yīng)當(dāng)如何優(yōu)化實(shí)驗(yàn)條件，獲得最好的數(shù)據(jù)。3 細(xì)菌和古菌16S數(shù)據(jù)和功能基因數(shù)據(jù)處理的不同?如果你處理的是細(xì)菌16S數(shù)據(jù)，那么恭喜你，你應(yīng)該很容易完成數(shù)據(jù)處理，

11、因?yàn)镸othur和QIIME都包含了細(xì)菌16S比對(duì)和分類(lèi)的數(shù)據(jù)庫(kù)。因?yàn)榧?xì)菌的研究已經(jīng)非常多，所以分類(lèi)的效果也很好，未知的類(lèi)別一般也很少。如果是古菌16S的話(huà)，RDP，Greengenes，SILVA等數(shù)據(jù)庫(kù)我都用過(guò)，分類(lèi)效果都很差，但是不影響你的多樣性分析。因?yàn)楣啪募兣囵B(yǎng)仍然很少，分類(lèi)問(wèn)題仍然是處于發(fā)展階段。你基本也可以順利按照標(biāo)準(zhǔn)流程完成數(shù)據(jù)處理。但是功能基因的話(huà)，就面臨很大很大的難題。如果想測(cè)序功能基因的同學(xué)，一定要三思而后行，我自己在這方面進(jìn)行了很多的嘗試，雖然知道處理的方式，但是解釋起來(lái)真的很難。就像我在上面所說(shuō)的，如果你不了解Mothur和QIIME的文件格式，基本架構(gòu)，我很難告訴

12、你怎么去實(shí)現(xiàn)自己的目的。所以大家也可以看到，現(xiàn)在發(fā)表的關(guān)于功能基因測(cè)序的文章很少很少。大家基本都是DIY，都是一些很熟悉生物信息學(xué)的國(guó)外實(shí)驗(yàn)室發(fā)表的。希望你能認(rèn)識(shí)到功能基因處理的難點(diǎn)1)第一步是比對(duì)alignment，一開(kāi)始就做不了。因?yàn)闆](méi)有可供使用的alignment reference數(shù)據(jù)庫(kù)。我的經(jīng)驗(yàn)是自己做一些，從NCBI上下載功能基因序列，然后自己通過(guò)MUSCLE或者ARB比對(duì)的很齊，然后作為參比序列;2)分類(lèi)。這個(gè)更難，需要經(jīng)過(guò)alignment之后，分成不同的OTU，然后從每個(gè)OTU中選擇一個(gè)代表序列，通過(guò)BLAST進(jìn)行分類(lèi)。3)分OTU。對(duì)于細(xì)菌和古菌16S而言，97%代表spe

13、cies水平，但是功能基因就完全不一樣。以氨氧化微生物研究為例，AOA的species-level OTU應(yīng)當(dāng)是87%，而AOB應(yīng)當(dāng)是80%，所以和16S數(shù)據(jù)完全不同。對(duì)于必須要做功能基因的同學(xué)，我建議可以考慮基因芯片(microarray)的方法?，F(xiàn)在針對(duì)pmoA和amoA基因的基因芯片都已經(jīng)開(kāi)發(fā)的非常完善，國(guó)際合作也不是難題。Microarray通過(guò)設(shè)計(jì)的探針合理解決了分類(lèi)的問(wèn)題，價(jià)格比454測(cè)序也便宜，數(shù)據(jù)處理簡(jiǎn)單。所以我認(rèn)為是一種更好的方式。以上所寫(xiě)，難免有錯(cuò)誤之處。我以分享知識(shí)為樂(lè)趣，也祝各位同學(xué)和朋友數(shù)據(jù)處理順利。Mothur 命令手冊(cè)-Mothur命令中文解釋?zhuān)ㄒ唬〢lign.c

14、heck這個(gè)命令使你計(jì)算16S rRNA基因序列中潛在的錯(cuò)配堿基對(duì)數(shù)目。如果你對(duì)ARB(http:/www.arb-home.de/)的編輯窗口熟悉的話(huà)，這與計(jì)算，#，-和=這些符號(hào)的數(shù)目相同。用greengenes的二級(jí)結(jié)構(gòu)圖譜和esophagus dataset運(yùn)行這個(gè)命令。要運(yùn)行這個(gè)命令，你必須提供FASTA格式的序列文件。Align.seqs這個(gè)命令把用戶(hù)提供的FASTA格式的候選序列文件對(duì)齊到用戶(hù)提供的同樣格式的模板序列。通用的方法是：1.采用kmer searching（ tree searching找到每個(gè)候選序列的最接近模板2.在候選序列文件和空位模板序列之間進(jìn)行堿基配對(duì)，采用

15、Needleman-Wunsch，Gotoh，或者blastn算法規(guī)則。3.重新在候選和模板序列對(duì)之間插入間隔（空位），采用NAST算法，這樣候選序列就能與原始模板序列兼容。我們提供了一些16S和18S基因序列的數(shù)據(jù)庫(kù)，這些是與greengenes和SILVA隊(duì)列兼容的。然而，自定義的任何DNA序列的排列都可以用作模板，所以鼓勵(lì)用戶(hù)分享他們的排列供其他人使用。普遍來(lái)說(shuō)，進(jìn)行排列是很快的-我們能在3小時(shí)內(nèi)將超過(guò)186000個(gè)的全長(zhǎng)序列排序到SILVA排列中，而且質(zhì)量像SINA aligner做的一樣好。另外，這個(gè)速率可以由多個(gè)處理器加倍。Amova分子方差分析（Analysis of molec

16、ular variance）是一種傳統(tǒng)方差分析的非參數(shù)模擬。這種方法被廣泛應(yīng)用在種群遺傳學(xué)以檢測(cè)關(guān)于兩個(gè)種群的遺傳多樣性不是顯著不同于由這兩個(gè)種群的共同聯(lián)合導(dǎo)致的多樣性這樣一個(gè)假設(shè)。Anosim參考文獻(xiàn)：Clarke, K. R. (1993). Non-parametric multivariate analysis of changes in community structure. _Australian Journal of Ecology_ 18, 117-143. 群落結(jié)構(gòu)變化的非參數(shù)多元分析澳大利亞生態(tài)學(xué)報(bào)Bin.seqs這個(gè)命令輸出一個(gè)fasta格式的文件，其中序列根據(jù)它們所屬

17、的OTU進(jìn)行排序。這樣的輸出也許對(duì)一個(gè)OTU生成特異性引物有幫助，用來(lái)對(duì)序列進(jìn)行分類(lèi)。Catchall這個(gè)命令使mothur與Linda Woodard，Sean Connolly和John Bunge開(kāi)發(fā)的catchall程序連接。獲取更多信息，請(qǐng)參看/catchall/index.html。catchall的可執(zhí)行程序必須與你的mothur在同一個(gè)文件夾里。如果你是一個(gè)Mac或Linux用戶(hù)，你必須也安裝了mono，在catchall的網(wǎng)頁(yè)中有一個(gè)關(guān)于mono的鏈接。Chimera.bellerophon采用Bellerophon方法生成

18、一個(gè)挑選的優(yōu)先嵌合序列的得分列表。Chimera.ccode采用Ccode方法。對(duì)每個(gè)詞語(yǔ)，在查詢(xún)序列和參考序列之間對(duì)比距離的差異，以及參考序列與它們自己。Chimera.check采用chimeraCheck方法.注意：從RDP模型中，這個(gè)方法不能決定一個(gè)序列是否是嵌合的，但是讓你決定那些基于產(chǎn)生的IS值的序列。查看“查詢(xún)的序列的左邊到它的最近的匹配的距離+查詢(xún)的右邊到它最近的匹配的距離-整個(gè)查詢(xún)序列到它最近的匹配的距離”，通過(guò)多個(gè)窗口Chimera.perseus這個(gè)命令讀取并命名一個(gè)fasta文件，輸出潛在的嵌合序列。Chimera.pintail采用Pintall 方法。在不同的窗口中

19、查詢(xún)一個(gè)序列，查看期望的差異與觀(guān)察到的差異之間的不同Chimera.seqs這個(gè)命令已經(jīng)被拆分為6個(gè)分離的命令。目前，mothur執(zhí)行六種方法以確定一個(gè)序列是不是嵌合的。如果有一個(gè)你喜歡看到的算法可以實(shí)施，請(qǐng)考慮一下或者貢獻(xiàn)給mothur項(xiàng)目，或者聯(lián)系開(kāi)發(fā)者，我們將會(huì)考慮我們能做什么。chimera.bellerophonchimera.pintailchimera.checkchimera.ccodechimera.slayerchimera.uchimeChimera.slayer這個(gè)命令讀取一個(gè)fasta文件和參照文件，并輸出潛在的嵌合序列。原始算法的開(kāi)發(fā)者建議采用一個(gè)特殊的模版參照（例

20、如，gold）。我們用silva參照文件提供silva-based 排列的數(shù)據(jù)庫(kù)。你將需要在blast/bin文件夾中有megablast和formatdb可執(zhí)行文件的拷貝，這里blast文件夾與mothur可執(zhí)行程序相鄰。megablast/formatdb的版本可以在這里/blast/executables/release/2.2.25/找到，或者它們就包含在mothur的程序版本中。Chimera.uchime這個(gè)命令讀取一個(gè)fasta文件和參考文件，并輸出潛在的嵌合序列。原始的uchime程序是由Robert C. Edgar編寫(xiě)的，并

21、且貢獻(xiàn)為公共所有。Chop.seqs這個(gè)命令讀取一個(gè)fasta文件，輸出一個(gè).chop.fasta，包含著修剪的整理的序列。它可以用于排序的和未排序的序列。Classify.otu這個(gè)命令用來(lái)為一個(gè)OTU得到一個(gè)共有序列分類(lèi).Classify.seqs這個(gè)命令允許用戶(hù)使用多個(gè)不同的方法把他們的序列分配到他們選擇的分類(lèi)提綱（輪廓）中。當(dāng)前的方法包括采用一個(gè)k-nearest鄰近共有序列和Bayesian方法。分類(lèi)提綱和參考序列可以在taxonomy outline（/wiki/Taxonomy_outline）的頁(yè)面中獲得。這個(gè)命令需要你提供一個(gè)fasta

22、格式的輸入文件和數(shù)據(jù)庫(kù)序列文件，還要有一個(gè)為了參考序列的分類(lèi)文件。Classify.tree這個(gè)命令用來(lái)為一個(gè)進(jìn)化樹(shù)的每個(gè)節(jié)點(diǎn)獲得一個(gè)共有序列。Clear.memory這個(gè)命令從內(nèi)存中刪除保存的參考數(shù)據(jù)，你可以在已經(jīng)用以下命令(align.seqs, chimera.ccode, chimera.check, chimera.pintail, chimera.slayer和classify.seqs)之一使用過(guò)保存參數(shù)之后使用chear.memory. Clearcut這個(gè)讓mothur用戶(hù)在mothur內(nèi)部運(yùn)行clearcut程序。chearcut程序是由Idaho大學(xué)的Initiative

23、 for Bioinformatics和Evolutionary Studies（IBEST）編寫(xiě)。了解更多clearcut相關(guān)信息，參看Cluster一旦一個(gè)距離矩陣讀進(jìn)mothur，cluster命令就能用來(lái)給OTUs分派序列。目前，mothur采用三個(gè)分簇方式。最近鄰：從OTU的最相似序列，一個(gè)OTU內(nèi)的每一個(gè)序列都最多x%的距離最遠(yuǎn)鄰：一個(gè)OTU內(nèi)的所有序列與OTU內(nèi)的所有其它序列最多有X%的距離平均鄰近：這個(gè)方法介于另外兩個(gè)算法的中間水平如果您有一個(gè)算法，請(qǐng)考慮一下貢獻(xiàn)給mothur項(xiàng)目。Cluster.classic這個(gè)命令可用于把序列分配到OTUs.它是cluster的dotur

24、工具，目前mothur采用三個(gè)分簇方式。Cluster.fragments這個(gè)命令需要一個(gè)fasta格式的文件，也要提供一個(gè)命名的文件而且當(dāng)一個(gè)序列被確定為一個(gè)更大的序列的一部分時(shí)，列出的與序列名相關(guān)的指明文件就會(huì)被合并。Cluster.split這個(gè)命令用來(lái)分配序列到OTUs并輸出一個(gè).list, .rabund, .sabund文件.它把大的距離矩陣拆分為小的部分。Collect.shared這個(gè)命令給計(jì)算器生成一個(gè)收集曲線(xiàn)，描繪出不同群落間的相似性或它們的共有豐度。Collector's curves描繪隨著你樣本增加的個(gè)體，豐富度和多樣性的變化。如果Collector'

25、s curves變得與x軸平行，你可以合理的確信你在采樣這個(gè)工作上做的很好，并且相信曲線(xiàn)上的最終值。否則，你需要繼續(xù)抽樣（采樣），mothur能為collector's curves生成數(shù)據(jù)，就像sons做的那樣。當(dāng)時(shí)sons將數(shù)據(jù)呈現(xiàn)在sons文件中，實(shí)際上不可能被新手分析解讀。mothur解決了許多這樣的問(wèn)題，因?yàn)閙othur為每一個(gè)估計(jì)值產(chǎn)生分離的文件。Collect.singleCollect.single利用計(jì)算器（/wiki/Calculators）生成collector's curves，描述了豐度，多樣性和樣本的其他特征。

26、Collector's curves描繪了你抽取額外的個(gè)體時(shí)豐度和多樣性的變化。Consensus.seqs這個(gè)命令可以以?xún)煞N方式使用：從fasta文件創(chuàng)建一個(gè)共有序列，或者由一個(gè)list文件為每個(gè)OTU創(chuàng)建一個(gè)共有序列。序列必須進(jìn)行排列。Consensus.seqs的參數(shù)（特征，因素）是fasta, list, name和labelCooccurrence這個(gè)命令計(jì)算四個(gè)度量并且測(cè)試他們的顯著性以評(píng)估是否樣式的存在與否比起那些隨機(jī)期待的有所不同。Corr.axes這個(gè)命令將會(huì)計(jì)算在shared/relabund文件中每一行（或列）的相關(guān)系數(shù)，記錄在一個(gè)pcoa文件所顯示的軸線(xiàn)上。Co

27、unt.groups這個(gè)命令從一個(gè)特定的組(group)或者一套組算出序列，從下面這些文件類(lèi)型：group或者shared文件.Count.seqs這個(gè)命令計(jì)算在一個(gè)name文件中的代表性序列所代表的序列的數(shù)目。如果提供了一個(gè)group文件，它也會(huì)提供使group計(jì)數(shù)崩潰。Create.database這個(gè)命令讀取一個(gè)list文件，*.cons.taxonomy, *.rep.fasta, *.s和可選的group文件，并且創(chuàng)建一個(gè)數(shù)據(jù)庫(kù)（database）文件.Degap.seqs這個(gè)命令讀取一個(gè)fasta文件并輸出一個(gè).ng.fasta文件，它包含所有間隔字符都被移除后的序

28、列。Deunique.seqs這個(gè)命令是unique.seqs的反向命令，從一個(gè)fasta和name文件創(chuàng)建一個(gè)fasta文件。Deunique.tree這個(gè)命令把冗余序列標(biāo)識(shí)符重新插入一個(gè)唯一的系統(tǒng)樹(shù)。Dist.seqs這個(gè)命令將計(jì)算兩個(gè)排序的DNA序列間不正確的成對(duì)距離。這個(gè)方法比通用的DNADIST更好，因?yàn)檫@些距離不是存儲(chǔ)在RAM（隨機(jī)存儲(chǔ)器）中，它們直接打印到一個(gè)文件。而且，通過(guò)它可以忽略可能不感興趣的“大的”距離。這個(gè)命令將產(chǎn)生一個(gè)列格式的距離矩陣，這個(gè)矩陣與read.dist命令中的“列選項(xiàng)”相互兼容。這個(gè)命令也能生成一個(gè)phylip格式的距離矩陣。它有多個(gè)如何操縱gap比較和末

29、端gap的選項(xiàng)。Dist.shared這個(gè)命令將會(huì)生成一個(gè)phylip格式的距離矩陣，描述多個(gè)組的差異性。這個(gè)命令將會(huì)計(jì)算任何一個(gè)描述群落成員或結(jié)構(gòu)相似性的計(jì)算子（calculator）。F這個(gè)命令讀取一個(gè)fastq文件，并創(chuàng)建一個(gè)fasta和quality文件。Filter.seqsfilter.seqs從基于一個(gè)由用戶(hù)定義標(biāo)準(zhǔn)的排列刪除列。例如，生成的與參照排列相對(duì)的排列經(jīng)常有一些列的每一個(gè)字符是“.”或者“-”。這些列不會(huì)包含用于計(jì)算距離，因?yàn)樗麄儽旧頉](méi)有信息。通過(guò)刪除這些列，計(jì)算大量的距離這一過(guò)程就會(huì)加快。同樣，人們也喜歡用溫和的或強(qiáng)制的屏蔽方式（比如Lane'

30、; mask）屏蔽他們的序列來(lái)移除可變區(qū)域。這類(lèi)屏蔽只在深層次系統(tǒng)進(jìn)化分析時(shí)鼓勵(lì)使用，而在精細(xì)水平的分析比如需要計(jì)算OTUs中不建議。Get.coremicrobiome這個(gè)命令決定可變數(shù)目的樣本中的OTUs的片段，為了不同的最小相關(guān)豐富度。Get.current這個(gè)命令允許你找出mothur已經(jīng)為每個(gè)類(lèi)型保存為current的一些文件，你也可以清空current文件。Get.group這個(gè)命令允許你為儲(chǔ)存在內(nèi)存中的多個(gè)樣本的OTU數(shù)據(jù)獲得一個(gè)已有的不同群組的目錄。這個(gè)特征應(yīng)該在為其它命令使用group選項(xiàng)時(shí)有幫助。Get.groups這個(gè)命令從一個(gè)特定group或一套groups選擇序列。g

31、roup來(lái)自以下文件類(lèi)型：fasta，name，group，list，taxonomy.Get.label這個(gè)命令是你為當(dāng)前儲(chǔ)存在內(nèi)存中的每行OTU數(shù)據(jù)獲得一個(gè)標(biāo)簽的目錄。這個(gè)特征應(yīng)該在為其他命令使用label選項(xiàng)時(shí)有幫助。Get.lineage這個(gè)命令讀取一個(gè)taxonomy文件和一個(gè)分類(lèi)（taxon），并產(chǎn)生一個(gè)新的文件只包含有來(lái)自分類(lèi)的序列。你也許也會(huì)把一個(gè)fasta, name, group, list或者align.report 文件包括到這個(gè)命令中，mothur將會(huì)為那些只包含有選定序列的文件生成新的文件。Get.otulist這個(gè)命令解析一個(gè)list文件并且為每一個(gè)包含兩列的距離

32、創(chuàng)建一個(gè).otu文件。第一列是OTU數(shù)目，第二列是那個(gè)OTU中的序列的列表（list）。Get.oturepbin.seqs命令能為所有序列報(bào)告OTU號(hào)碼（即編號(hào)），get.oturep命令生成一個(gè)fasta格式的序列文件，為每個(gè)OTU只包含一個(gè)代表性序列。為每個(gè)OTU的定義生成一個(gè).rep.fasta和.s文件。Get.otus這個(gè)命令選擇出包含有來(lái)自一個(gè)特定group或一副groups的序列的OTUs.Get.rabund這個(gè)命令將生成一個(gè)rabund文件，它基于你輸入到mothur的OTU數(shù)據(jù)。Get.relabund這個(gè)命令計(jì)算一個(gè)樣本中的每個(gè)OTU的相對(duì)豐富度。它將輸

33、出一個(gè).relabund文件。Get.sabund這個(gè)命令將產(chǎn)生一個(gè)sabund文件，基于你讀入mothur的OTU數(shù)據(jù)。例如，如果你讀入一個(gè)list文件，get.sabund將產(chǎn)生對(duì)應(yīng)的sabund文件。Get.seqs這個(gè)命令把一個(gè)序列名字的列表（list）和一個(gè)fasta，name，group，list或align.report文件生成一個(gè)新的文件，只包含在list中出現(xiàn)的文件。這個(gè)命令也許用于和list.seqs命令結(jié)合以幫助顯示一個(gè)序列結(jié)合。Get.sharedseqs這個(gè)命令取一個(gè)list和group文件并為每個(gè)距離輸出一個(gè)*.shared.seqs文件。這對(duì)于那些情況有用，即你或

34、許對(duì)于確定特殊groups中特定的或共有的序列感興趣。這樣接下來(lái)你就可以分類(lèi)。這些是mothur H-Z的目前所有命令的說(shuō)明的翻譯，第二部分。（使用Ctrl+F搜索你所查命令）參看/wiki/Category:Commands 頁(yè)面上查閱的所有命令我查了一下網(wǎng)上的中文教程，似乎沒(méi)有?，F(xiàn)在國(guó)內(nèi)使用Mothur的人還很少，不過(guò)國(guó)外有不少做生態(tài)的都用到mothur了。畢竟有很多都是命令行操作。前天我還搜到了一個(gè)印度人在網(wǎng)上發(fā)的詢(xún)問(wèn)帖子，想問(wèn)哪里有關(guān)于mothur的簡(jiǎn)單教程呢，他說(shuō)mothur官方網(wǎng)站的教程有點(diǎn)難，看不太懂。今天這些命令里有三個(gè)可能會(huì)

35、比較常用，一個(gè)是help，就類(lèi)似于Linux中的man命令，也就是你在windows中常見(jiàn)的幫助文件。還有兩個(gè)，sffinfo和pipeline.pds，在處理sff文件時(shí)會(huì)用上。其中sffinfo就能將sff文件轉(zhuǎn)化為fasta格式的文件，fasta是mothur處理的文件中最常見(jiàn)的格式。由于最近我要處理一個(gè)sff文件，所以特別關(guān)注了與sff有關(guān)的命令，呵呵。Hcluster這個(gè)命令可以用來(lái)給OTUs分配序列，并輸出一個(gè).list, .rabund, .sabund和.sorted.dist文件。它不會(huì)像cluster命令那樣把距離矩陣（distance matrix）保存在RAM(隨機(jī)存儲(chǔ)

36、器)中，允許大距離文件被處理。Hcluster對(duì)小文件的處理比cluster要慢，但在大文件上更有競(jìng)爭(zhēng)力。目前，hcluster實(shí)行4種成簇方式：1.最近相鄰：一個(gè)OTU內(nèi)的每個(gè)序列與OTU中最相似的序列有最多X%的距離。2.最遠(yuǎn)相鄰：一個(gè)OTU內(nèi)的所有序列與OTU內(nèi)的其它序列有最多X%的距離。3.平均相鄰：這個(gè)方法介于其他兩種方法之間的水平4.重量相鄰：Heatmap.bin這個(gè)命令從一個(gè)*.list或*.shared文件提供的數(shù)據(jù)生成一個(gè)heat map。heatmap中的每一行呈現(xiàn)一個(gè)不同的OTU，每個(gè)組中的OTU的顏色根據(jù)那個(gè)組內(nèi)那個(gè)OTU的豐富度在黑與紅之間形成成比例。這個(gè)命令會(huì)生成

37、一個(gè)SVG文件（圖片格式），它可以在GIMP或Adobe Illustrator中被進(jìn)一步修改。有一些選項(xiàng)用于為每個(gè)采取不同方法的OTU相對(duì)豐度按比例繪制或排列。Heatmap.sim這個(gè)命令將會(huì)產(chǎn)生一個(gè)表明多個(gè)樣本之間成對(duì)相似性的heatmap，采用了多個(gè)對(duì)比群落成員和結(jié)構(gòu)的calculators（/wiki/Calculators）Helphelp命令將會(huì)輸出mothur中有效命令的表單?；蛘?，如果你想要針對(duì)一個(gè)特定命令的幫助信息，用help作為選項(xiàng)，比如 mothur > read.list(help)，就會(huì)輸出read.list的幫助信息。

38、Homova分子方差的同質(zhì)性（Homogeneity of molecular variance）是一個(gè)為方差同質(zhì)的Bartlett's test的非參數(shù)模擬，這已經(jīng)被用于種群遺傳學(xué)，檢測(cè)以下假設(shè)：兩個(gè)或多個(gè)種群的基因多樣性是同類(lèi)的或同質(zhì)的（Stewart and Excoffier，1996）;這個(gè)測(cè)試還沒(méi)有用于微生物生態(tài)學(xué)文獻(xiàn)。Indicator這個(gè)命令可以三種方式運(yùn)行：1.用一個(gè)shared或relabund文件和一個(gè)design文件2.用一個(gè)shared或relabund文件和一個(gè)tree文件3.用一個(gè)shared或relabund，tree文件和design文件Indicat

39、or命令輸出一個(gè).indicator.summary文件和一個(gè).indicator.tre文件，如果給了一個(gè)tree。新的tree在每個(gè)內(nèi)部的節(jié)點(diǎn)包含了標(biāo)簽。標(biāo)簽是節(jié)點(diǎn)號(hào)碼，所以你可以把tree關(guān)聯(lián)到summary文件。Summary文件為每個(gè)OTU的每個(gè)節(jié)點(diǎn)列出了indicator的值。Libshuff這個(gè)命令像以前在s-libshuff和libshuff程序中那樣實(shí)施libshuff方法。libshuff法是一個(gè)描述兩個(gè)或更多群落是否擁有相同結(jié)構(gòu)的通用測(cè)試，采用Cramer-von Mises檢測(cè)統(tǒng)計(jì)。這個(gè)檢測(cè)統(tǒng)計(jì)值的顯著性表明了群落（偶然）擁有同樣結(jié)構(gòu)的可能性。因?yàn)槊總€(gè)成對(duì)的對(duì)比需要兩個(gè)

40、顯著測(cè)試，所以為多個(gè)對(duì)比進(jìn)行一個(gè)矯正（比如Bonferroni's correction）。List.seqs這個(gè)命令將會(huì)寫(xiě)出在一個(gè)fasta，name，group，list或align.report文件中發(fā)現(xiàn)的序列名字。這對(duì)于使用get.seqs，remove.seqs命令和生成group文件時(shí)有用。Make.biommake.biom命令讓你把你的shared文件轉(zhuǎn)換為一個(gè)biom文件。關(guān)于biom格式：/documentation/biom_format.htmlMake.fastq這個(gè)命令讀取一個(gè)fasta和一個(gè)quality文件并創(chuàng)建

41、一個(gè)fastq文件。Make.group這個(gè)命令讀取一個(gè)fasta文件或一系列fasta文件，并創(chuàng)建一個(gè)group文件。Make.shared這個(gè)命令讀取一個(gè)list和group或biom文件，并為每個(gè)group創(chuàng)建一個(gè).shared和一個(gè)rabund文件。MantelMantel命令計(jì)算兩個(gè)矩陣的mantel相關(guān)系數(shù)。Sokal, R. R., & Rohlf, F. J. (1995). Biometry, 3rd edn. New York: Freeman.Merge.files這個(gè)命令將把多個(gè)文件連結(jié)（使連續(xù)）起來(lái)并把結(jié)果輸出到一個(gè)新文件。這對(duì)于合并多個(gè)fasta格式的序列文

42、件，454 quality文件，group文件，name文件或其它等等是有用的。Merge.groups這個(gè)命令讀取一個(gè)shared文件和一個(gè)design文件并把shared文件中同樣也在design文件中分組的groups合并。Metastats這個(gè)命令基于White.J.R.，Nagarajan.N.和Pop.M.開(kāi)發(fā)的Metastats程序。統(tǒng)計(jì)方法用來(lái)檢測(cè)客觀(guān)宏基因組樣本的差異豐度特征。Mgcluster該命令解釋暫無(wú)，需要blast參數(shù)，官方網(wǎng)站有使用方法。/wiki/MgclusterNmds這個(gè)命令是Sarah Goslee在R（http:

43、//）中所寫(xiě)nmds代碼的模型化。采用非矩陣多維尺度分析功能，使用的Borg & Groenen的優(yōu)化算法。Normalize.shared這個(gè)命令創(chuàng)建一個(gè).norm.shared文件。Otu.association這個(gè)命令計(jì)算一個(gè)shared/relabund文件中的OTUs的相關(guān)系數(shù)。Otu.hierarchy這個(gè)命令把不同距離上的OTUs關(guān)聯(lián)起來(lái)。Pairwise.seqs這個(gè)命令將計(jì)算序列之間不正確的成對(duì)距離。這會(huì)生成一個(gè)列格式的距離矩陣，與read.dist中的列選項(xiàng)兼容。這個(gè)命令也能產(chǎn)生一個(gè)phylip格式的距離矩陣，關(guān)于如何操作gap對(duì)比

44、和末端gaps有多個(gè)選項(xiàng)。Parse.list這個(gè)命令讀取一個(gè)list文件和group文件，并為group文件中的每個(gè)group生成一個(gè)list。Parsimony這個(gè)命令采用parsimony方法（aka P-test），以前在TreeClimber中使用過(guò)，現(xiàn)在在MacClade和UniFac網(wǎng)站中也有。這個(gè)Parsimony方法是一個(gè)通用的檢測(cè)，用來(lái)描述兩個(gè)或更多群落是否擁有同樣的結(jié)構(gòu)。檢測(cè)統(tǒng)計(jì)值的顯著性只表明群落隨機(jī)具有相同結(jié)構(gòu)的可能性。這個(gè)值不表明相似度水平。 Pca運(yùn)行這個(gè)命令需要一個(gè)shared或relabund文件。Pcoa需要一個(gè)plylip格式的距離矩陣文件。Pc

45、r.seqs這個(gè)命令將根據(jù)用戶(hù)自定義的選項(xiàng)修剪輸入的序列。Phylo.diversity這個(gè)命令需要輸入一個(gè)tree文件。兩個(gè)文件將被輸出：phylo.diversity和（如果你設(shè)置rarefy=T）.rarefaction。Phylotype這個(gè)命令可根據(jù)他們的分類(lèi)用于給OTUs分配序列，輸出一個(gè).list，.rabund和.sabund文件。Pipeline.pds這個(gè)命令被設(shè)計(jì)用于指導(dǎo)你使用mothur（完成）通過(guò)你的分析。為了展示這個(gè)命令的各種特性，我們將使用Pat's Pipeline Files(點(diǎn)擊下載/w/images/0/0f

46、/Pipeline.tutorial.zip)Pre.cluster這個(gè)命令執(zhí)行一個(gè)移除序列這個(gè)目標(biāo)的假單鏈接算法，之所以移除這些序列，由于焦磷酸測(cè)序過(guò)程的錯(cuò)誤。這個(gè)算法的一個(gè)版本是由Sue Huse開(kāi)發(fā)，將在接下來(lái)的環(huán)境微生物學(xué)一篇論文中發(fā)表?；镜睦砟钍秦S富的序列比稀少序列更可能產(chǎn)生一些錯(cuò)誤序列。考慮到這些，這個(gè)算法根據(jù)它們的豐富度給序列排名。然后大略讀過(guò)序列表單在原始序列的一些閾值內(nèi)以尋找更稀少的序列。在閾值內(nèi)的那些序列與更大的序列合并。最初的Huse方法在一個(gè)距離矩陣上完成這個(gè)任務(wù)，然而現(xiàn)在我們基于原始序列做這個(gè)。我們的方法的優(yōu)點(diǎn)是這個(gè)算法在排列的序列上完成而不是距離矩陣。因?yàn)橥ㄟ^(guò)pr

47、e-clustering你移除了大量的序列使距離計(jì)算更為快速。Quitquit 命令沒(méi)有選項(xiàng)，可帶或不帶括號(hào)調(diào)用。Rarefaction.shared這個(gè)命令將產(chǎn)生使用，無(wú)需更換方法重新取樣的樣品間稀疏曲線(xiàn)。生態(tài)學(xué)家用稀?。╮arefaction）的傳統(tǒng)方式是沒(méi)有內(nèi)隨機(jī)樣本的抽樣秩序，而樣本之間。舉例來(lái)說(shuō)，如果我們想知道OTU在人類(lèi)結(jié)腸癌的數(shù)量，我們可以從結(jié)腸內(nèi)，不同地點(diǎn)取樣和測(cè)定一堆16S rRNA基因序列。通過(guò)確定個(gè)OTU在每個(gè)樣品的數(shù)量，并比較這些樣品的組成，就有可能確定你們?cè)趩蝹€(gè)范圍內(nèi)的生物多樣性的采樣的好壞。 mothur有能力觀(guān)察到的物種數(shù)量的樣品間稀疏曲線(xiàn)生成數(shù)據(jù)。對(duì)于本教程，你

48、應(yīng)該下載并解壓縮Patient70Data.zip（/w/images/b/b2/Patient70Data.zip）Rarefaction.single這個(gè)命令將會(huì)產(chǎn)生樣本內(nèi)的rarefaction曲線(xiàn)，采取無(wú)需更換方法的重新采樣。Rarefaction曲線(xiàn)提供一個(gè)對(duì)比不同樣品中的觀(guān)察到的豐度的方法。大體來(lái)說(shuō)，如果你沒(méi)有采的許多個(gè)體作樣本你將期望已經(jīng)觀(guān)察了你平均獲得的OTUs的數(shù)目。盡管有一個(gè)公式可產(chǎn)生rarefaction曲線(xiàn)（參看/wiki/Rarefaction），但mothur使用隨機(jī)步驟。它也能幫你評(píng)估

49、你的樣本密度（強(qiáng)度）。如果一個(gè)rarefaction曲線(xiàn)變得與X軸平行，你可以合理相信你的采樣工作做的很好，而且相信觀(guān)察到的豐富度水平。否則，你需要繼續(xù)采樣。Rarefaction實(shí)際上對(duì)多樣性的測(cè)量比它對(duì)豐度的測(cè)定更好。Read.dist注意：從mothur1.18.0開(kāi)始，read.list命令不復(fù)存在。你可以直接輸入你的距離矩陣文件的名稱(chēng)到命令行中來(lái)使用它們。Read.tree注意：從mothur1.18.0開(kāi)始，這個(gè)命令不復(fù)存在，你可以直接輸入文件名字到命令行來(lái)使用它們。Remove.groups這個(gè)命令從一個(gè)特定的group或一套groups中移除序列。你可以輸入一下這些文件類(lèi)型：f

50、asta, name, group, list, taxonomy和shared。 Remove.lineage這個(gè)命令讀取一個(gè)taxonomy文件和一個(gè)taxon，并生成一個(gè)新的文件，只包含不在taxon中的序列。你也可以把一個(gè)fasta，name，group，list，或align.report文件包括到這個(gè)命令中，mothur將會(huì)為每個(gè)生成新的“只包含不在taxon中的序列”的文件。Remove.otus這個(gè)命令刪除這樣的OTUs，它們含有“來(lái)自特定group或一套groups的序列”。Remove.rare這個(gè)命令讀取以下文件類(lèi)型之一：list，rabund，sabund或者share

51、d文件，它輸出一個(gè)刪除了稀有OTUs的新文件。Remove.seqs這個(gè)命令把一個(gè)list中的序列名稱(chēng)和一個(gè)fasta, name, group, list或align,report文件生成一個(gè)新的文件，不包含list中的序列。這個(gè)命令與list.seqs連結(jié)對(duì)于顯示序列集群（collection）有幫助。Reverse.seqs提供一個(gè)fasta格式的文件，reverse.seqs將生成一個(gè)包含有它們互補(bǔ)序列的文件。Screen.seqs這個(gè)命令使你保留滿(mǎn)足特定用戶(hù)所定標(biāo)準(zhǔn)的序列。而且，它能使你剔除那些不符合來(lái)自names，group或align.report文件的標(biāo)準(zhǔn)的序列。Sens.sp

52、ec說(shuō)明暫無(wú)。Seq.error這個(gè)命令讀取一個(gè)查詢(xún)的alignment文件和一個(gè)參考的alignment文件，并創(chuàng)建.(后面未說(shuō)明)Set.current這個(gè)命令使你為mothur的使用設(shè)置current文件，你也可以清空current文件。Set.dir這個(gè)命令使你重新指向mothur創(chuàng)建的output文件，或者設(shè)置mothur將要查找input文件的所在目錄。如果它不能在input位置找到你的文件你也可以設(shè)置一個(gè)缺省的（或默認(rèn)的）位置供mothur查找。這使你把你的參考文件保留在一個(gè)位置。Set.logfile你或許想給你的logfile（日志文件）起一個(gè)特定的名字或者附加一系列的log

53、files。set.logfile可以使你做這件事。Sffinfo這個(gè)命令從一個(gè).sff文件釋放讀取序列。Shhh.flows這個(gè)命令是Chris Quince的PyroNoise算法的Pat Schloss翻譯，使用的mothur的bells和whistles的合并從C到C+?；赒unice提供的測(cè)試數(shù)據(jù)資料組的處理，shhh.flows把同樣或相似的輸出結(jié)果給AmpliconNoise. 這個(gè)命令采用期望最大算法以糾正流程圖，確認(rèn)每個(gè)流程圖的理想化形式。并且把流程圖轉(zhuǎn)譯到DNA序列。我們的測(cè)試表明當(dāng)使用trim.flows命令把Titanium數(shù)據(jù)消減到450flows時(shí)，shhh.fl

54、ows為任何其他已有的方法提供質(zhì)量最高的數(shù)據(jù)。對(duì)比之下，當(dāng)我們使用Quince建議的最小/最大數(shù)目（360/720）flows時(shí)，錯(cuò)誤率沒(méi)有那么大。這較大提高的錯(cuò)誤率不是來(lái)自計(jì)算花費(fèi)。然而，在trim.seqs的特征采取分鐘的順序，shhh.flows可以采取小時(shí)的次序。沒(méi)有多個(gè)處理器或MPI時(shí)不建議對(duì)較大數(shù)據(jù)資料組運(yùn)行shhh.flows命令。你可以為你的操作系統(tǒng)獲得合適版本的MPI(/).你也需要一個(gè)lookup文件告訴shhh.flows對(duì)一個(gè)給定同源多聚長(zhǎng)度觀(guān)察到一個(gè)強(qiáng)度值的可能性。你可以在這兒（/wi

55、ki/Lookup_files）獲得mothur兼容的文件，你將需要把這些文件與你的數(shù)據(jù)或mothur可執(zhí)行程序放在一起。Shhh.seqs這個(gè)命令是基于mothur的，對(duì)Chris Quince's序列表示程序SeqNoise的重新編寫(xiě)。Sort.seqs這個(gè)命令把來(lái)自fasta，name，group，quality，flow或taxonomy文件的序列放在同樣的次序（order）下。Split.abund這個(gè)命令讀取一個(gè)fasta文件，和一個(gè)list或一個(gè)names文件，把序列分割為稀有和豐富groups.Split.groups這個(gè)命令讀取一個(gè)fasta和group文件，并為group文件中的每個(gè)group生成一個(gè)fasta文件。Sub.sample這個(gè)命令用來(lái)作為一個(gè)使你的數(shù)據(jù)標(biāo)準(zhǔn)化的路徑，或者從你的原始set創(chuàng)建一個(gè)小的set。它把以下這些文件類(lèi)型作為輸入：fasta, list, shared, rabund和sabund，并產(chǎn)生一個(gè)包含你原始文件樣本的新文件

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

高通量數(shù)據(jù)處理的一些經(jīng)驗(yàn)和建議

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

高通量數(shù)據(jù)處理的一些經(jīng)驗(yàn)和建議

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔