




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、高通量數(shù)據(jù)處理的一些經(jīng)驗(yàn)和建議最近一年時(shí)間里收到很多同學(xué)和朋友關(guān)于454數(shù)據(jù)處理的詢(xún)問(wèn),通過(guò)QQ,微信,人人網(wǎng)和郵件等各種途徑,當(dāng)然不少也是面對(duì)面的討論。這些同學(xué)和朋友包括同組的,跨組的,同所的,跨所的,其他大學(xué)的,來(lái)自北京的、南京的、廣州的、西安的,甚至也有國(guó)外的中國(guó)朋友。有些朋友我素未謀面,也不知長(zhǎng)相如何,不知男女。有時(shí)候同一天能收到五六份郵件,問(wèn)題之五花八門(mén),有時(shí)已經(jīng)超越了我所能夠解答的范圍。這些現(xiàn)象也反映了當(dāng)前生物信息學(xué)的急劇變革,第二代測(cè)序技術(shù)就像Iphone問(wèn)世一些,徹底席卷和重新定義了當(dāng)前生態(tài)學(xué)研究的方法和手段。而幾年前費(fèi)用昂貴的第二代測(cè)序如今已“舊時(shí)王謝堂前燕,飛入尋常百姓家”
2、,于是乎大潮裹挾之下的碩士生博士生們都想出來(lái)耍耍,扔個(gè)十幾萬(wàn)塊錢(qián),希望能夠輕松的收獲幾篇文章??蒲姓撐牡陌l(fā)表講究“獵奇性”,大家都喜歡看到新奇的方法和漂亮的圖表。但我認(rèn)為這其實(shí)也是當(dāng)今科研界的弊端之一,講究創(chuàng)新和手段的先進(jìn),而忽視了研究的重要性。以微生物生態(tài)學(xué)的旗艦雜志ISMEJ為例,最近一年多發(fā)表的學(xué)術(shù)論文里,第二代測(cè)序技術(shù)已經(jīng)是尋常方法,所謂第三代的單細(xì)胞測(cè)序技術(shù)也開(kāi)始出現(xiàn)。研究生物信息學(xué)的來(lái)自美國(guó)科羅拉多的Rob Knight能夠作為ISMEJ的高級(jí)主編,方法對(duì)于微生物生態(tài)學(xué)研究的重要性可見(jiàn)一斑。前幾天讀到阿伯丁大學(xué)的James Prosser教授在Nature上發(fā)表的一篇觀(guān)點(diǎn)文章“Th
3、ink before you sequence“,在這里面他講到,第二代測(cè)序只不過(guò)是一個(gè)工具而已,我們的研究依舊要從扎扎實(shí)實(shí)的假設(shè)出發(fā),設(shè)計(jì)實(shí)驗(yàn)來(lái)解決問(wèn)題和驗(yàn)證假設(shè)。高通量測(cè)序并不能彌補(bǔ)實(shí)驗(yàn)設(shè)計(jì)的缺陷。我在閱讀文章的過(guò)程中也發(fā)現(xiàn),設(shè)計(jì)合理和完整的實(shí)驗(yàn),即使使用傳統(tǒng)的Sanger測(cè)序技術(shù),依舊能夠說(shuō)明和解決問(wèn)題,并能夠發(fā)表到高檔次期刊上。而如果使用第二代測(cè)序技術(shù),但是數(shù)據(jù)處理有問(wèn)題,數(shù)據(jù)質(zhì)量控制不好,文章也很難得到發(fā)表,相當(dāng)于花錢(qián)買(mǎi)罪受。我從2011年秋天開(kāi)始學(xué)習(xí)454數(shù)據(jù)的處理,在學(xué)習(xí)的起始階段,能夠和師弟袁超磊一起探討和交流,并且?guī)缀蹰喿x了ISMEJ上所有與第二代測(cè)序技術(shù)有關(guān)的文章,所以能夠
4、很快的上手。在此我也對(duì)師弟袁超磊表示正式的感謝,祝愿他在阿德雷德大學(xué)能吃上可口的飯菜。很多朋友的問(wèn)題我未能一一解答,在此也表示歉意。我經(jīng)歷過(guò)學(xué)習(xí)454數(shù)據(jù)處理的漫長(zhǎng)和痛苦的過(guò)程,我很清楚有時(shí)候一句話(huà)或者一段話(huà)很難解決所問(wèn)的問(wèn)題。去年我自己投出的文章經(jīng)歷了很多次的拒稿,十幾位審稿人和生物信息學(xué)家對(duì)數(shù)據(jù)處理提出了建議,現(xiàn)在經(jīng)過(guò)在悉尼和生物信息學(xué)專(zhuān)家的討論,我也能夠更加合理地看待數(shù)據(jù)處理的問(wèn)題。摸著石頭過(guò)河的一些經(jīng)驗(yàn)和建議,在這里進(jìn)行分享,希望正在摸索和思考中的你,覺(jué)得并不孤單。1. Mothur和QIIME那個(gè)軟件更好?Mothur是美國(guó)密歇根大學(xué)的Patrick Schloss在2009年開(kāi)發(fā)的
5、數(shù)據(jù)處理平臺(tái),它的前身是Dothur軟件,相信大家都聽(tīng)說(shuō)過(guò)。這兩個(gè)軟件的發(fā)音分別為Mother和Daughter,是Dr Parick獻(xiàn)給他的妻子和女兒的。另一個(gè)被廣泛使用的數(shù)據(jù)處理平臺(tái)是QIIME,也是美國(guó)科羅拉多Rob Knight等人于2009年開(kāi)發(fā)出來(lái)的。截至今天,Mothur的方法文獻(xiàn)已經(jīng)被引用1229次,而QIIME被引用574次。這說(shuō)明Mothur比QIIME有更廣泛的群眾基礎(chǔ)。我剛開(kāi)始學(xué)習(xí)使用的就是Mothur,我個(gè)人非常喜歡這個(gè)開(kāi)源的數(shù)據(jù)處理平臺(tái),基本能夠?qū)崿F(xiàn)我的所有數(shù)據(jù)處理目的。Mothur軟件無(wú)需安裝,在Windos, Linix,和MacOS系統(tǒng)上都可以運(yùn)行。我研究了M
6、othur每一個(gè)中間導(dǎo)出文件的格式和原理,所以我能夠?qū)⑦@些中間產(chǎn)生的文件導(dǎo)入其他軟件進(jìn)行處理和做圖,比如R語(yǔ)言。很多人不喜歡Mothur,都是因?yàn)镸othur不能夠直接出圖,必須依賴(lài)于其他軟件。而這正式我所喜歡的原因,我現(xiàn)在也正在進(jìn)一步學(xué)習(xí)R語(yǔ)言,R的做圖功能是非常強(qiáng)大的,其實(shí)大家平時(shí)看到文章上那些非常漂亮的圖,大都是R語(yǔ)言做出來(lái)的。所以,如果將Mothur和R結(jié)合,我認(rèn)為是一個(gè)能正確處理數(shù)據(jù)并完美展現(xiàn)數(shù)據(jù)的途徑。除了羅氏454數(shù)據(jù)處理之外,Mothur現(xiàn)在也有了針對(duì)Illumina數(shù)據(jù)的處理方式,大家從Mothur的網(wǎng)頁(yè)上就可以讀到Dr. Patick寫(xiě)的標(biāo)準(zhǔn)數(shù)據(jù)處理流程?,F(xiàn)在QIIME攜蘋(píng)
7、果電腦的時(shí)髦,也得到了很多人的青睞。這個(gè)軟件我本人沒(méi)有真正使用過(guò),但是知道QIIME只能在MacOS和Linix系統(tǒng)上運(yùn)行,當(dāng)然也可以通過(guò)在Windos系統(tǒng)上安裝Virtual Box來(lái)運(yùn)行。這個(gè)軟件出圖的效果比較好,很多人把直接出的圖用來(lái)發(fā)表文章。我所在的悉尼這邊的研究所的生物信息學(xué)專(zhuān)家也是用QIIME來(lái)處理數(shù)據(jù)。我就這個(gè)軟件問(wèn)題和他討論了好多次。基本來(lái)說(shuō),兩個(gè)軟件都可以幫助我們實(shí)現(xiàn)正確的數(shù)據(jù)處理,并不存在哪個(gè)更好的問(wèn)題,只有個(gè)人在使用上的喜好。我希望你無(wú)論使用那個(gè)軟件,都仔仔細(xì)細(xì)閱讀軟件網(wǎng)頁(yè)上的教程,并熟悉所有的命令。自己一一試試各個(gè)命令,合理組合命令,這樣才會(huì)通過(guò)修改命令來(lái)正確處理自己的
8、數(shù)據(jù)。這個(gè)過(guò)程沒(méi)人可以幫你,只有你自己能夠救贖自己。2. 數(shù)據(jù)處理難學(xué)嗎?這是一個(gè)我一直以來(lái)很想告訴所有人的問(wèn)題。說(shuō)實(shí)話(huà),那兩個(gè)軟件都很好使用,有標(biāo)準(zhǔn)的處理流程在那里等著你,把所有數(shù)據(jù)處理下來(lái)絕對(duì)不超過(guò)十天時(shí)間。但是,為什么我們幾個(gè)月甚至一年都拿不下來(lái)數(shù)據(jù)處理?因?yàn)閿?shù)據(jù)處理的難點(diǎn)不在于軟件的使用,而在于你對(duì)微生物生態(tài)學(xué)基本概念的了解。我認(rèn)為我們需要在數(shù)據(jù)處理之前就應(yīng)該特別清楚的是1)多樣性的各種指標(biāo)。數(shù)據(jù)條數(shù)的多少會(huì)直接影響多樣性的計(jì)算結(jié)果,它們之間是正相關(guān)關(guān)系。所以計(jì)算多樣性必須統(tǒng)一序列條數(shù)。而我們知道統(tǒng)一序列條數(shù)就會(huì)舍棄很多條數(shù)不足的樣品,這個(gè)取舍就涉及到很多的經(jīng)驗(yàn)問(wèn)題,需要你閱讀很多的文
9、獻(xiàn)來(lái)了解;2)多樣性的表征方式。我研究多樣性的時(shí)候,閱讀了很多相關(guān)的文獻(xiàn),對(duì)Bray-Curtis指數(shù),UniFrac等都非常了解。選擇能夠最好表現(xiàn)你多樣性差異的指數(shù),需要花很多很多的汗水。3)多元統(tǒng)計(jì)方法。這個(gè)又是更大的難點(diǎn)了,Mothur不會(huì)告訴你,QIIME也不會(huì)告訴你。你只有去閱讀教材,閱讀文章,才能彌補(bǔ)這些缺陷。不然你連那些命令都讀不懂,還談什么數(shù)據(jù)處理,修改命令。4)文章的構(gòu)思。這又是更高一級(jí)的知識(shí)預(yù)儲(chǔ)備了。在你的數(shù)據(jù)處理之前,請(qǐng)閱讀所有高質(zhì)量期刊上的相關(guān)文章,至少需要預(yù)估計(jì),你可以出哪些圖,做哪些分析。其實(shí)在數(shù)據(jù)處理的過(guò)程中已經(jīng)是你不斷驗(yàn)證假設(shè)和推翻假設(shè)的過(guò)程。希望你在數(shù)據(jù)處理之
10、前踏踏實(shí)實(shí)地做好這些功課,不然你很難完美運(yùn)行各個(gè)命令。另外,要仔細(xì)研究各個(gè)軟件的原理,做到人機(jī)合一的效果。因?yàn)橛袝r(shí)候軟件并不能解決所有問(wèn)題,比如在alignment的時(shí)候,有時(shí)候在部分區(qū)域比對(duì)效果不好,你需要使用合適的軟件打開(kāi)這些中間文件,手動(dòng)進(jìn)行刪除,不然會(huì)影響后續(xù)的多樣性計(jì)算。所以,你需要把自己練成一臺(tái)機(jī)器。2010年我做過(guò)同位素超高速離心,盡管已經(jīng)有很多文獻(xiàn)可供參考,我當(dāng)時(shí)還是研究了離心機(jī)的原理和等密度梯度離心的原理,所以自己就很清楚應(yīng)當(dāng)如何優(yōu)化實(shí)驗(yàn)條件,獲得最好的數(shù)據(jù)。3 細(xì)菌和古菌16S數(shù)據(jù)和功能基因數(shù)據(jù)處理的不同?如果你處理的是細(xì)菌16S數(shù)據(jù),那么恭喜你,你應(yīng)該很容易完成數(shù)據(jù)處理,
11、因?yàn)镸othur和QIIME都包含了細(xì)菌16S比對(duì)和分類(lèi)的數(shù)據(jù)庫(kù)。因?yàn)榧?xì)菌的研究已經(jīng)非常多,所以分類(lèi)的效果也很好,未知的類(lèi)別一般也很少。如果是古菌16S的話(huà),RDP,Greengenes,SILVA等數(shù)據(jù)庫(kù)我都用過(guò),分類(lèi)效果都很差,但是不影響你的多樣性分析。因?yàn)楣啪募兣囵B(yǎng)仍然很少,分類(lèi)問(wèn)題仍然是處于發(fā)展階段。你基本也可以順利按照標(biāo)準(zhǔn)流程完成數(shù)據(jù)處理。但是功能基因的話(huà),就面臨很大很大的難題。如果想測(cè)序功能基因的同學(xué),一定要三思而后行,我自己在這方面進(jìn)行了很多的嘗試,雖然知道處理的方式,但是解釋起來(lái)真的很難。就像我在上面所說(shuō)的,如果你不了解Mothur和QIIME的文件格式,基本架構(gòu),我很難告訴
12、你怎么去實(shí)現(xiàn)自己的目的。所以大家也可以看到,現(xiàn)在發(fā)表的關(guān)于功能基因測(cè)序的文章很少很少。大家基本都是DIY,都是一些很熟悉生物信息學(xué)的國(guó)外實(shí)驗(yàn)室發(fā)表的。希望你能認(rèn)識(shí)到功能基因處理的難點(diǎn)1)第一步是比對(duì)alignment,一開(kāi)始就做不了。因?yàn)闆](méi)有可供使用的alignment reference數(shù)據(jù)庫(kù)。我的經(jīng)驗(yàn)是自己做一些,從NCBI上下載功能基因序列,然后自己通過(guò)MUSCLE或者ARB比對(duì)的很齊,然后作為參比序列;2)分類(lèi)。這個(gè)更難,需要經(jīng)過(guò)alignment之后,分成不同的OTU,然后從每個(gè)OTU中選擇一個(gè)代表序列,通過(guò)BLAST進(jìn)行分類(lèi)。3)分OTU。對(duì)于細(xì)菌和古菌16S而言,97%代表spe
13、cies水平,但是功能基因就完全不一樣。以氨氧化微生物研究為例,AOA的species-level OTU應(yīng)當(dāng)是87%,而AOB應(yīng)當(dāng)是80%,所以和16S數(shù)據(jù)完全不同。對(duì)于必須要做功能基因的同學(xué),我建議可以考慮基因芯片(microarray)的方法?,F(xiàn)在針對(duì)pmoA和amoA基因的基因芯片都已經(jīng)開(kāi)發(fā)的非常完善,國(guó)際合作也不是難題。Microarray通過(guò)設(shè)計(jì)的探針合理解決了分類(lèi)的問(wèn)題,價(jià)格比454測(cè)序也便宜,數(shù)據(jù)處理簡(jiǎn)單。所以我認(rèn)為是一種更好的方式。以上所寫(xiě),難免有錯(cuò)誤之處。我以分享知識(shí)為樂(lè)趣,也祝各位同學(xué)和朋友數(shù)據(jù)處理順利。Mothur 命令手冊(cè)-Mothur命令中文解釋?zhuān)ㄒ唬〢lign.c
14、heck這個(gè)命令使你計(jì)算16S rRNA基因序列中潛在的錯(cuò)配堿基對(duì)數(shù)目。如果你對(duì)ARB(http:/www.arb-home.de/)的編輯窗口熟悉的話(huà),這與計(jì)算,#,-和=這些符號(hào)的數(shù)目相同。用greengenes的二級(jí)結(jié)構(gòu)圖譜和esophagus dataset運(yùn)行這個(gè)命令。要運(yùn)行這個(gè)命令,你必須提供FASTA格式的序列文件。Align.seqs這個(gè)命令把用戶(hù)提供的FASTA格式的候選序列文件對(duì)齊到用戶(hù)提供的同樣格式的模板序列。通用的方法是:1.采用kmer searching( tree searching找到每個(gè)候選序列的最接近模板2.在候選序列文件和空位模板序列之間進(jìn)行堿基配對(duì),采用
15、Needleman-Wunsch,Gotoh,或者blastn算法規(guī)則。3.重新在候選和模板序列對(duì)之間插入間隔(空位),采用NAST算法,這樣候選序列就能與原始模板序列兼容。我們提供了一些16S和18S基因序列的數(shù)據(jù)庫(kù),這些是與greengenes和SILVA隊(duì)列兼容的。然而,自定義的任何DNA序列的排列都可以用作模板,所以鼓勵(lì)用戶(hù)分享他們的排列供其他人使用。普遍來(lái)說(shuō),進(jìn)行排列是很快的-我們能在3小時(shí)內(nèi)將超過(guò)186000個(gè)的全長(zhǎng)序列排序到SILVA排列中,而且質(zhì)量像SINA aligner做的一樣好。另外,這個(gè)速率可以由多個(gè)處理器加倍。Amova分子方差分析(Analysis of molec
16、ular variance)是一種傳統(tǒng)方差分析的非參數(shù)模擬。這種方法被廣泛應(yīng)用在種群遺傳學(xué)以檢測(cè)關(guān)于兩個(gè)種群的遺傳多樣性不是顯著不同于由這兩個(gè)種群的共同聯(lián)合導(dǎo)致的多樣性這樣一個(gè)假設(shè)。Anosim參考文獻(xiàn):Clarke, K. R. (1993). Non-parametric multivariate analysis of changes in community structure. _Australian Journal of Ecology_ 18, 117-143. 群落結(jié)構(gòu)變化的非參數(shù)多元分析澳大利亞生態(tài)學(xué)報(bào)Bin.seqs這個(gè)命令輸出一個(gè)fasta格式的文件,其中序列根據(jù)它們所屬
17、的OTU進(jìn)行排序。這樣的輸出也許對(duì)一個(gè)OTU生成特異性引物有幫助,用來(lái)對(duì)序列進(jìn)行分類(lèi)。Catchall這個(gè)命令使mothur與Linda Woodard,Sean Connolly和John Bunge開(kāi)發(fā)的catchall程序連接。獲取更多信息,請(qǐng)參看/catchall/index.html。catchall的可執(zhí)行程序必須與你的mothur在同一個(gè)文件夾里。如果你是一個(gè)Mac或Linux用戶(hù),你必須也安裝了mono,在catchall的網(wǎng)頁(yè)中有一個(gè)關(guān)于mono的鏈接。Chimera.bellerophon采用Bellerophon方法生成
18、一個(gè)挑選的優(yōu)先嵌合序列的得分列表。Chimera.ccode采用Ccode方法。對(duì)每個(gè)詞語(yǔ),在查詢(xún)序列和參考序列之間對(duì)比距離的差異,以及參考序列與它們自己。Chimera.check采用chimeraCheck方法.注意:從RDP模型中,這個(gè)方法不能決定一個(gè)序列是否是嵌合的,但是讓你決定那些基于產(chǎn)生的IS值的序列。查看“查詢(xún)的序列的左邊到它的最近的匹配的距離+查詢(xún)的右邊到它最近的匹配的距離-整個(gè)查詢(xún)序列到它最近的匹配的距離”,通過(guò)多個(gè)窗口Chimera.perseus這個(gè)命令讀取并命名一個(gè)fasta文件,輸出潛在的嵌合序列。Chimera.pintail采用Pintall 方法。在不同的窗口中
19、查詢(xún)一個(gè)序列,查看期望的差異與觀(guān)察到的差異之間的不同Chimera.seqs這個(gè)命令已經(jīng)被拆分為6個(gè)分離的命令。目前,mothur執(zhí)行六種方法以確定一個(gè)序列是不是嵌合的。如果有一個(gè)你喜歡看到的算法可以實(shí)施,請(qǐng)考慮一下或者貢獻(xiàn)給mothur項(xiàng)目,或者聯(lián)系開(kāi)發(fā)者,我們將會(huì)考慮我們能做什么。chimera.bellerophonchimera.pintailchimera.checkchimera.ccodechimera.slayerchimera.uchimeChimera.slayer這個(gè)命令讀取一個(gè)fasta文件和參照文件,并輸出潛在的嵌合序列。原始算法的開(kāi)發(fā)者建議采用一個(gè)特殊的模版參照(例
20、如,gold)。我們用silva參照文件提供silva-based 排列的數(shù)據(jù)庫(kù)。你將需要在blast/bin文件夾中有megablast和formatdb可執(zhí)行文件的拷貝,這里blast文件夾與mothur可執(zhí)行程序相鄰。megablast/formatdb的版本可以在這里/blast/executables/release/2.2.25/找到,或者它們就包含在mothur的程序版本中。Chimera.uchime這個(gè)命令讀取一個(gè)fasta文件和參考文件,并輸出潛在的嵌合序列。原始的uchime程序是由Robert C. Edgar編寫(xiě)的,并
21、且貢獻(xiàn)為公共所有。Chop.seqs這個(gè)命令讀取一個(gè)fasta文件,輸出一個(gè).chop.fasta,包含著修剪的整理的序列。它可以用于排序的和未排序的序列。Classify.otu這個(gè)命令用來(lái)為一個(gè)OTU得到一個(gè)共有序列分類(lèi).Classify.seqs這個(gè)命令允許用戶(hù)使用多個(gè)不同的方法把他們的序列分配到他們選擇的分類(lèi)提綱(輪廓)中。當(dāng)前的方法包括采用一個(gè)k-nearest鄰近共有序列和Bayesian方法。分類(lèi)提綱和參考序列可以在taxonomy outline(/wiki/Taxonomy_outline)的頁(yè)面中獲得。這個(gè)命令需要你提供一個(gè)fasta
22、格式的輸入文件和數(shù)據(jù)庫(kù)序列文件,還要有一個(gè)為了參考序列的分類(lèi)文件。Classify.tree這個(gè)命令用來(lái)為一個(gè)進(jìn)化樹(shù)的每個(gè)節(jié)點(diǎn)獲得一個(gè)共有序列。Clear.memory這個(gè)命令從內(nèi)存中刪除保存的參考數(shù)據(jù),你可以在已經(jīng)用以下命令(align.seqs, chimera.ccode, chimera.check, chimera.pintail, chimera.slayer和classify.seqs)之一使用過(guò)保存參數(shù)之后使用chear.memory. Clearcut這個(gè)讓mothur用戶(hù)在mothur內(nèi)部運(yùn)行clearcut程序。chearcut程序是由Idaho大學(xué)的Initiative
23、 for Bioinformatics和Evolutionary Studies(IBEST)編寫(xiě)。了解更多clearcut相關(guān)信息,參看Cluster一旦一個(gè)距離矩陣讀進(jìn)mothur,cluster命令就能用來(lái)給OTUs分派序列。目前,mothur采用三個(gè)分簇方式。最近鄰:從OTU的最相似序列,一個(gè)OTU內(nèi)的每一個(gè)序列都最多x%的距離最遠(yuǎn)鄰:一個(gè)OTU內(nèi)的所有序列與OTU內(nèi)的所有其它序列最多有X%的距離平均鄰近:這個(gè)方法介于另外兩個(gè)算法的中間水平如果您有一個(gè)算法,請(qǐng)考慮一下貢獻(xiàn)給mothur項(xiàng)目。Cluster.classic這個(gè)命令可用于把序列分配到OTUs.它是cluster的dotur
24、工具,目前mothur采用三個(gè)分簇方式。Cluster.fragments這個(gè)命令需要一個(gè)fasta格式的文件,也要提供一個(gè)命名的文件而且當(dāng)一個(gè)序列被確定為一個(gè)更大的序列的一部分時(shí),列出的與序列名相關(guān)的指明文件就會(huì)被合并。Cluster.split這個(gè)命令用來(lái)分配序列到OTUs并輸出一個(gè).list, .rabund, .sabund文件.它把大的距離矩陣拆分為小的部分。Collect.shared這個(gè)命令給計(jì)算器生成一個(gè)收集曲線(xiàn),描繪出不同群落間的相似性或它們的共有豐度。Collector's curves描繪隨著你樣本增加的個(gè)體,豐富度和多樣性的變化。如果Collector'
25、s curves變得與x軸平行,你可以合理的確信你在采樣這個(gè)工作上做的很好,并且相信曲線(xiàn)上的最終值。否則,你需要繼續(xù)抽樣(采樣),mothur能為collector's curves生成數(shù)據(jù),就像sons做的那樣。當(dāng)時(shí)sons將數(shù)據(jù)呈現(xiàn)在sons文件中,實(shí)際上不可能被新手分析解讀。mothur解決了許多這樣的問(wèn)題,因?yàn)閙othur為每一個(gè)估計(jì)值產(chǎn)生分離的文件。Collect.singleCollect.single利用計(jì)算器(/wiki/Calculators)生成collector's curves,描述了豐度,多樣性和樣本的其他特征。
26、Collector's curves描繪了你抽取額外的個(gè)體時(shí)豐度和多樣性的變化。Consensus.seqs這個(gè)命令可以以?xún)煞N方式使用:從fasta文件創(chuàng)建一個(gè)共有序列,或者由一個(gè)list文件為每個(gè)OTU創(chuàng)建一個(gè)共有序列。序列必須進(jìn)行排列。Consensus.seqs的參數(shù)(特征,因素)是fasta, list, name和labelCooccurrence這個(gè)命令計(jì)算四個(gè)度量并且測(cè)試他們的顯著性以評(píng)估是否樣式的存在與否比起那些隨機(jī)期待的有所不同。Corr.axes這個(gè)命令將會(huì)計(jì)算在shared/relabund文件中每一行(或列)的相關(guān)系數(shù),記錄在一個(gè)pcoa文件所顯示的軸線(xiàn)上。Co
27、unt.groups這個(gè)命令從一個(gè)特定的組(group)或者一套組算出序列,從下面這些文件類(lèi)型:group或者shared文件.Count.seqs這個(gè)命令計(jì)算在一個(gè)name文件中的代表性序列所代表的序列的數(shù)目。如果提供了一個(gè)group文件,它也會(huì)提供使group計(jì)數(shù)崩潰。Create.database這個(gè)命令讀取一個(gè)list文件,*.cons.taxonomy, *.rep.fasta, *.s和可選的group文件,并且創(chuàng)建一個(gè)數(shù)據(jù)庫(kù)(database)文件.Degap.seqs這個(gè)命令讀取一個(gè)fasta文件并輸出一個(gè).ng.fasta文件,它包含所有間隔字符都被移除后的序
28、列。Deunique.seqs這個(gè)命令是unique.seqs的反向命令,從一個(gè)fasta和name文件創(chuàng)建一個(gè)fasta文件。Deunique.tree這個(gè)命令把冗余序列標(biāo)識(shí)符重新插入一個(gè)唯一的系統(tǒng)樹(shù)。Dist.seqs這個(gè)命令將計(jì)算兩個(gè)排序的DNA序列間不正確的成對(duì)距離。這個(gè)方法比通用的DNADIST更好,因?yàn)檫@些距離不是存儲(chǔ)在RAM(隨機(jī)存儲(chǔ)器)中,它們直接打印到一個(gè)文件。而且,通過(guò)它可以忽略可能不感興趣的“大的”距離。這個(gè)命令將產(chǎn)生一個(gè)列格式的距離矩陣,這個(gè)矩陣與read.dist命令中的“列選項(xiàng)”相互兼容。這個(gè)命令也能生成一個(gè)phylip格式的距離矩陣。它有多個(gè)如何操縱gap比較和末
29、端gap的選項(xiàng)。Dist.shared這個(gè)命令將會(huì)生成一個(gè)phylip格式的距離矩陣,描述多個(gè)組的差異性。這個(gè)命令將會(huì)計(jì)算任何一個(gè)描述群落成員或結(jié)構(gòu)相似性的計(jì)算子(calculator)。F這個(gè)命令讀取一個(gè)fastq文件,并創(chuàng)建一個(gè)fasta和quality文件。Filter.seqsfilter.seqs從基于一個(gè)由用戶(hù)定義標(biāo)準(zhǔn)的排列刪除列。例如,生成的與參照排列相對(duì)的排列經(jīng)常有一些列的每一個(gè)字符是“.”或者“-”。這些列不會(huì)包含用于計(jì)算距離,因?yàn)樗麄儽旧頉](méi)有信息。通過(guò)刪除這些列,計(jì)算大量的距離這一過(guò)程就會(huì)加快。同樣,人們也喜歡用溫和的或強(qiáng)制的屏蔽方式(比如Lane'
30、; mask)屏蔽他們的序列來(lái)移除可變區(qū)域。這類(lèi)屏蔽只在深層次系統(tǒng)進(jìn)化分析時(shí)鼓勵(lì)使用,而在精細(xì)水平的分析比如需要計(jì)算OTUs中不建議。Get.coremicrobiome這個(gè)命令決定可變數(shù)目的樣本中的OTUs的片段,為了不同的最小相關(guān)豐富度。Get.current這個(gè)命令允許你找出mothur已經(jīng)為每個(gè)類(lèi)型保存為current的一些文件,你也可以清空current文件。Get.group這個(gè)命令允許你為儲(chǔ)存在內(nèi)存中的多個(gè)樣本的OTU數(shù)據(jù)獲得一個(gè)已有的不同群組的目錄。這個(gè)特征應(yīng)該在為其它命令使用group選項(xiàng)時(shí)有幫助。Get.groups這個(gè)命令從一個(gè)特定group或一套groups選擇序列。g
31、roup來(lái)自以下文件類(lèi)型:fasta,name,group,list,taxonomy.Get.label這個(gè)命令是你為當(dāng)前儲(chǔ)存在內(nèi)存中的每行OTU數(shù)據(jù)獲得一個(gè)標(biāo)簽的目錄。這個(gè)特征應(yīng)該在為其他命令使用label選項(xiàng)時(shí)有幫助。Get.lineage這個(gè)命令讀取一個(gè)taxonomy文件和一個(gè)分類(lèi)(taxon),并產(chǎn)生一個(gè)新的文件只包含有來(lái)自分類(lèi)的序列。你也許也會(huì)把一個(gè)fasta, name, group, list或者align.report 文件包括到這個(gè)命令中,mothur將會(huì)為那些只包含有選定序列的文件生成新的文件。Get.otulist這個(gè)命令解析一個(gè)list文件并且為每一個(gè)包含兩列的距離
32、創(chuàng)建一個(gè).otu文件。第一列是OTU數(shù)目,第二列是那個(gè)OTU中的序列的列表(list)。Get.oturepbin.seqs命令能為所有序列報(bào)告OTU號(hào)碼(即編號(hào)),get.oturep命令生成一個(gè)fasta格式的序列文件,為每個(gè)OTU只包含一個(gè)代表性序列。為每個(gè)OTU的定義生成一個(gè).rep.fasta和.s文件。Get.otus這個(gè)命令選擇出包含有來(lái)自一個(gè)特定group或一副groups的序列的OTUs.Get.rabund這個(gè)命令將生成一個(gè)rabund文件,它基于你輸入到mothur的OTU數(shù)據(jù)。Get.relabund這個(gè)命令計(jì)算一個(gè)樣本中的每個(gè)OTU的相對(duì)豐富度。它將輸
33、出一個(gè).relabund文件。Get.sabund這個(gè)命令將產(chǎn)生一個(gè)sabund文件,基于你讀入mothur的OTU數(shù)據(jù)。例如,如果你讀入一個(gè)list文件,get.sabund將產(chǎn)生對(duì)應(yīng)的sabund文件。Get.seqs這個(gè)命令把一個(gè)序列名字的列表(list)和一個(gè)fasta,name,group,list或align.report文件生成一個(gè)新的文件,只包含在list中出現(xiàn)的文件。這個(gè)命令也許用于和list.seqs命令結(jié)合以幫助顯示一個(gè)序列結(jié)合。Get.sharedseqs這個(gè)命令取一個(gè)list和group文件并為每個(gè)距離輸出一個(gè)*.shared.seqs文件。這對(duì)于那些情況有用,即你或
34、許對(duì)于確定特殊groups中特定的或共有的序列感興趣。這樣接下來(lái)你就可以分類(lèi)。 這些是mothur H-Z的目前所有命令的說(shuō)明的翻譯,第二部分。(使用Ctrl+F搜索你所查命令)參看/wiki/Category:Commands 頁(yè)面上查閱的所有命令我查了一下網(wǎng)上的中文教程,似乎沒(méi)有?,F(xiàn)在國(guó)內(nèi)使用Mothur的人還很少,不過(guò)國(guó)外有不少做生態(tài)的都用到mothur了。畢竟有很多都是命令行操作。前天我還搜到了一個(gè)印度人在網(wǎng)上發(fā)的詢(xún)問(wèn)帖子,想問(wèn)哪里有關(guān)于mothur的簡(jiǎn)單教程呢,他說(shuō)mothur官方網(wǎng)站的教程有點(diǎn)難,看不太懂。今天這些命令里有三個(gè)可能會(huì)
35、比較常用,一個(gè)是help,就類(lèi)似于Linux中的man命令,也就是你在windows中常見(jiàn)的幫助文件。還有兩個(gè),sffinfo和pipeline.pds,在處理sff文件時(shí)會(huì)用上。其中sffinfo就能將sff文件轉(zhuǎn)化為fasta格式的文件,fasta是mothur處理的文件中最常見(jiàn)的格式。由于最近我要處理一個(gè)sff文件,所以特別關(guān)注了與sff有關(guān)的命令,呵呵。Hcluster這個(gè)命令可以用來(lái)給OTUs分配序列,并輸出一個(gè).list, .rabund, .sabund和.sorted.dist文件。它不會(huì)像cluster命令那樣把距離矩陣(distance matrix)保存在RAM(隨機(jī)存儲(chǔ)
36、器)中,允許大距離文件被處理。Hcluster對(duì)小文件的處理比cluster要慢,但在大文件上更有競(jìng)爭(zhēng)力。目前,hcluster實(shí)行4種成簇方式:1.最近相鄰:一個(gè)OTU內(nèi)的每個(gè)序列與OTU中最相似的序列有最多X%的距離。2.最遠(yuǎn)相鄰:一個(gè)OTU內(nèi)的所有序列與OTU內(nèi)的其它序列有最多X%的距離。3.平均相鄰:這個(gè)方法介于其他兩種方法之間的水平4.重量相鄰:Heatmap.bin這個(gè)命令從一個(gè)*.list或*.shared文件提供的數(shù)據(jù)生成一個(gè)heat map。heatmap中的每一行呈現(xiàn)一個(gè)不同的OTU,每個(gè)組中的OTU的顏色根據(jù)那個(gè)組內(nèi)那個(gè)OTU的豐富度在黑與紅之間形成成比例。這個(gè)命令會(huì)生成
37、一個(gè)SVG文件(圖片格式),它可以在GIMP或Adobe Illustrator中被進(jìn)一步修改。有一些選項(xiàng)用于為每個(gè)采取不同方法的OTU相對(duì)豐度按比例繪制或排列。Heatmap.sim這個(gè)命令將會(huì)產(chǎn)生一個(gè)表明多個(gè)樣本之間成對(duì)相似性的heatmap,采用了多個(gè)對(duì)比群落成員和結(jié)構(gòu)的calculators(/wiki/Calculators)Helphelp命令將會(huì)輸出mothur中有效命令的表單?;蛘?,如果你想要針對(duì)一個(gè)特定命令的幫助信息,用help作為選項(xiàng),比如 mothur > read.list(help),就會(huì)輸出read.list的幫助信息。
38、Homova分子方差的同質(zhì)性(Homogeneity of molecular variance)是一個(gè)為方差同質(zhì)的Bartlett's test的非參數(shù)模擬,這已經(jīng)被用于種群遺傳學(xué),檢測(cè)以下假設(shè):兩個(gè)或多個(gè)種群的基因多樣性是同類(lèi)的或同質(zhì)的(Stewart and Excoffier,1996);這個(gè)測(cè)試還沒(méi)有用于微生物生態(tài)學(xué)文獻(xiàn)。Indicator這個(gè)命令可以三種方式運(yùn)行:1.用一個(gè)shared或relabund文件和一個(gè)design文件2.用一個(gè)shared或relabund文件和一個(gè)tree文件3.用一個(gè)shared或relabund,tree文件和design文件Indicat
39、or命令輸出一個(gè).indicator.summary文件和一個(gè).indicator.tre文件,如果給了一個(gè)tree。新的tree在每個(gè)內(nèi)部的節(jié)點(diǎn)包含了標(biāo)簽。標(biāo)簽是節(jié)點(diǎn)號(hào)碼,所以你可以把tree關(guān)聯(lián)到summary文件。Summary文件為每個(gè)OTU的每個(gè)節(jié)點(diǎn)列出了indicator的值。Libshuff這個(gè)命令像以前在s-libshuff和libshuff程序中那樣實(shí)施libshuff方法。libshuff法是一個(gè)描述兩個(gè)或更多群落是否擁有相同結(jié)構(gòu)的通用測(cè)試,采用Cramer-von Mises檢測(cè)統(tǒng)計(jì)。這個(gè)檢測(cè)統(tǒng)計(jì)值的顯著性表明了群落(偶然)擁有同樣結(jié)構(gòu)的可能性。因?yàn)槊總€(gè)成對(duì)的對(duì)比需要兩個(gè)
40、顯著測(cè)試,所以為多個(gè)對(duì)比進(jìn)行一個(gè)矯正(比如Bonferroni's correction)。List.seqs這個(gè)命令將會(huì)寫(xiě)出在一個(gè)fasta,name,group,list或align.report文件中發(fā)現(xiàn)的序列名字。這對(duì)于使用get.seqs,remove.seqs命令和生成group文件時(shí)有用。Make.biommake.biom命令讓你把你的shared文件轉(zhuǎn)換為一個(gè)biom文件。關(guān)于biom格式:/documentation/biom_format.htmlMake.fastq這個(gè)命令讀取一個(gè)fasta和一個(gè)quality文件并創(chuàng)建
41、一個(gè)fastq文件。Make.group這個(gè)命令讀取一個(gè)fasta文件或一系列fasta文件,并創(chuàng)建一個(gè)group文件。Make.shared這個(gè)命令讀取一個(gè)list和group或biom文件,并為每個(gè)group創(chuàng)建一個(gè).shared和一個(gè)rabund文件。MantelMantel命令計(jì)算兩個(gè)矩陣的mantel相關(guān)系數(shù)。Sokal, R. R., & Rohlf, F. J. (1995). Biometry, 3rd edn. New York: Freeman.Merge.files這個(gè)命令將把多個(gè)文件連結(jié)(使連續(xù))起來(lái)并把結(jié)果輸出到一個(gè)新文件。這對(duì)于合并多個(gè)fasta格式的序列文
42、件,454 quality文件,group文件,name文件或其它等等是有用的。Merge.groups這個(gè)命令讀取一個(gè)shared文件和一個(gè)design文件并把shared文件中同樣也在design文件中分組的groups合并。Metastats這個(gè)命令基于White.J.R.,Nagarajan.N.和Pop.M.開(kāi)發(fā)的Metastats程序。統(tǒng)計(jì)方法用來(lái)檢測(cè)客觀(guān)宏基因組樣本的差異豐度特征。Mgcluster該命令解釋暫無(wú),需要blast參數(shù),官方網(wǎng)站有使用方法。/wiki/MgclusterNmds這個(gè)命令是Sarah Goslee在R(http:
43、//)中所寫(xiě)nmds代碼的模型化。采用非矩陣多維尺度分析功能,使用的Borg & Groenen的優(yōu)化算法。Normalize.shared這個(gè)命令創(chuàng)建一個(gè).norm.shared文件。Otu.association這個(gè)命令計(jì)算一個(gè)shared/relabund文件中的OTUs的相關(guān)系數(shù)。Otu.hierarchy這個(gè)命令把不同距離上的OTUs關(guān)聯(lián)起來(lái)。Pairwise.seqs這個(gè)命令將計(jì)算序列之間不正確的成對(duì)距離。這會(huì)生成一個(gè)列格式的距離矩陣,與read.dist中的列選項(xiàng)兼容。這個(gè)命令也能產(chǎn)生一個(gè)phylip格式的距離矩陣,關(guān)于如何操作gap對(duì)比
44、和末端gaps有多個(gè)選項(xiàng)。Parse.list這個(gè)命令讀取一個(gè)list文件和group文件,并為group文件中的每個(gè)group生成一個(gè)list。Parsimony這個(gè)命令采用parsimony方法(aka P-test),以前在TreeClimber中使用過(guò),現(xiàn)在在MacClade和UniFac網(wǎng)站中也有。這個(gè)Parsimony方法是一個(gè)通用的檢測(cè),用來(lái)描述兩個(gè)或更多群落是否擁有同樣的結(jié)構(gòu)。檢測(cè)統(tǒng)計(jì)值的顯著性只表明群落隨機(jī)具有相同結(jié)構(gòu)的可能性。這個(gè)值不表明相似度水平。 Pca運(yùn)行這個(gè)命令需要一個(gè)shared或relabund文件。Pcoa需要一個(gè)plylip格式的距離矩陣文件。Pc
45、r.seqs這個(gè)命令將根據(jù)用戶(hù)自定義的選項(xiàng)修剪輸入的序列。Phylo.diversity這個(gè)命令需要輸入一個(gè)tree文件。兩個(gè)文件將被輸出:phylo.diversity和(如果你設(shè)置rarefy=T).rarefaction。Phylotype這個(gè)命令可根據(jù)他們的分類(lèi)用于給OTUs分配序列,輸出一個(gè).list,.rabund和.sabund文件。Pipeline.pds這個(gè)命令被設(shè)計(jì)用于指導(dǎo)你使用mothur(完成)通過(guò)你的分析。為了展示這個(gè)命令的各種特性,我們將使用Pat's Pipeline Files(點(diǎn)擊下載/w/images/0/0f
46、/Pipeline.tutorial.zip)Pre.cluster這個(gè)命令執(zhí)行一個(gè)移除序列這個(gè)目標(biāo)的假單鏈接算法,之所以移除這些序列,由于焦磷酸測(cè)序過(guò)程的錯(cuò)誤。這個(gè)算法的一個(gè)版本是由Sue Huse開(kāi)發(fā),將在接下來(lái)的環(huán)境微生物學(xué)一篇論文中發(fā)表?;镜睦砟钍秦S富的序列比稀少序列更可能產(chǎn)生一些錯(cuò)誤序列。考慮到這些,這個(gè)算法根據(jù)它們的豐富度給序列排名。然后大略讀過(guò)序列表單在原始序列的一些閾值內(nèi)以尋找更稀少的序列。在閾值內(nèi)的那些序列與更大的序列合并。最初的Huse方法在一個(gè)距離矩陣上完成這個(gè)任務(wù),然而現(xiàn)在我們基于原始序列做這個(gè)。我們的方法的優(yōu)點(diǎn)是這個(gè)算法在排列的序列上完成而不是距離矩陣。因?yàn)橥ㄟ^(guò)pr
47、e-clustering你移除了大量的序列使距離計(jì)算更為快速。Quitquit 命令沒(méi)有選項(xiàng),可帶或不帶括號(hào)調(diào)用。Rarefaction.shared這個(gè)命令將產(chǎn)生使用,無(wú)需更換方法重新取樣的樣品間稀疏曲線(xiàn)。生態(tài)學(xué)家用稀?。╮arefaction)的傳統(tǒng)方式是沒(méi)有內(nèi)隨機(jī)樣本的抽樣秩序,而樣本之間。舉例來(lái)說(shuō),如果我們想知道OTU在人類(lèi)結(jié)腸癌的數(shù)量,我們可以從結(jié)腸內(nèi),不同地點(diǎn)取樣和測(cè)定一堆16S rRNA基因序列。通過(guò)確定個(gè)OTU在每個(gè)樣品的數(shù)量,并比較這些樣品的組成,就有可能確定你們?cè)趩蝹€(gè)范圍內(nèi)的生物多樣性的采樣的好壞。 mothur有能力觀(guān)察到的物種數(shù)量的樣品間稀疏曲線(xiàn)生成數(shù)據(jù)。對(duì)于本教程,你
48、應(yīng)該下載并解壓縮Patient70Data.zip(/w/images/b/b2/Patient70Data.zip)Rarefaction.single這個(gè)命令將會(huì)產(chǎn)生樣本內(nèi)的rarefaction曲線(xiàn),采取無(wú)需更換方法的重新采樣。Rarefaction曲線(xiàn)提供一個(gè)對(duì)比不同樣品中的觀(guān)察到的豐度的方法。大體來(lái)說(shuō),如果你沒(méi)有采的許多個(gè)體作樣本你將期望已經(jīng)觀(guān)察了你平均獲得的OTUs的數(shù)目。盡管有一個(gè)公式可產(chǎn)生rarefaction曲線(xiàn)(參看/wiki/Rarefaction),但mothur使用隨機(jī)步驟。它也能幫你評(píng)估
49、你的樣本密度(強(qiáng)度)。如果一個(gè)rarefaction曲線(xiàn)變得與X軸平行,你可以合理相信你的采樣工作做的很好,而且相信觀(guān)察到的豐富度水平。否則,你需要繼續(xù)采樣。Rarefaction實(shí)際上對(duì)多樣性的測(cè)量比它對(duì)豐度的測(cè)定更好。Read.dist注意:從mothur1.18.0開(kāi)始,read.list命令不復(fù)存在。你可以直接輸入你的距離矩陣文件的名稱(chēng)到命令行中來(lái)使用它們。Read.tree注意:從mothur1.18.0開(kāi)始,這個(gè)命令不復(fù)存在,你可以直接輸入文件名字到命令行來(lái)使用它們。Remove.groups這個(gè)命令從一個(gè)特定的group或一套groups中移除序列。你可以輸入一下這些文件類(lèi)型:f
50、asta, name, group, list, taxonomy和shared。 Remove.lineage這個(gè)命令讀取一個(gè)taxonomy文件和一個(gè)taxon,并生成一個(gè)新的文件,只包含不在taxon中的序列。你也可以把一個(gè)fasta,name,group,list,或align.report文件包括到這個(gè)命令中,mothur將會(huì)為每個(gè)生成新的“只包含不在taxon中的序列”的文件。Remove.otus這個(gè)命令刪除這樣的OTUs,它們含有“來(lái)自特定group或一套groups的序列”。Remove.rare這個(gè)命令讀取以下文件類(lèi)型之一:list,rabund,sabund或者share
51、d文件,它輸出一個(gè)刪除了稀有OTUs的新文件。Remove.seqs這個(gè)命令把一個(gè)list中的序列名稱(chēng)和一個(gè)fasta, name, group, list或align,report文件生成一個(gè)新的文件,不包含list中的序列。這個(gè)命令與list.seqs連結(jié)對(duì)于顯示序列集群(collection)有幫助。Reverse.seqs提供一個(gè)fasta格式的文件,reverse.seqs將生成一個(gè)包含有它們互補(bǔ)序列的文件。Screen.seqs這個(gè)命令使你保留滿(mǎn)足特定用戶(hù)所定標(biāo)準(zhǔn)的序列。而且,它能使你剔除那些不符合來(lái)自names,group或align.report文件的標(biāo)準(zhǔn)的序列。Sens.sp
52、ec說(shuō)明暫無(wú)。Seq.error這個(gè)命令讀取一個(gè)查詢(xún)的alignment文件和一個(gè)參考的alignment文件,并創(chuàng)建.(后面未說(shuō)明)Set.current這個(gè)命令使你為mothur的使用設(shè)置current文件,你也可以清空current文件。Set.dir這個(gè)命令使你重新指向mothur創(chuàng)建的output文件,或者設(shè)置mothur將要查找input文件的所在目錄。如果它不能在input位置找到你的文件你也可以設(shè)置一個(gè)缺省的(或默認(rèn)的)位置供mothur查找。這使你把你的參考文件保留在一個(gè)位置。Set.logfile你或許想給你的logfile(日志文件)起一個(gè)特定的名字或者附加一系列的log
53、files。set.logfile可以使你做這件事。Sffinfo這個(gè)命令從一個(gè).sff文件釋放讀取序列。Shhh.flows這個(gè)命令是Chris Quince的PyroNoise算法的Pat Schloss翻譯,使用的mothur的bells和whistles的合并從C到C+?;赒unice提供的測(cè)試數(shù)據(jù)資料組的處理,shhh.flows把同樣或相似的輸出結(jié)果給AmpliconNoise. 這個(gè)命令采用期望最大算法以糾正流程圖,確認(rèn)每個(gè)流程圖的理想化形式。并且把流程圖轉(zhuǎn)譯到DNA序列。我們的測(cè)試表明當(dāng)使用trim.flows命令把Titanium數(shù)據(jù)消減到450flows時(shí),shhh.fl
54、ows為任何其他已有的方法提供質(zhì)量最高的數(shù)據(jù)。對(duì)比之下,當(dāng)我們使用Quince建議的最小/最大數(shù)目(360/720)flows時(shí),錯(cuò)誤率沒(méi)有那么大。這較大提高的錯(cuò)誤率不是來(lái)自計(jì)算花費(fèi)。然而,在trim.seqs的特征采取分鐘的順序,shhh.flows可以采取小時(shí)的次序。沒(méi)有多個(gè)處理器或MPI時(shí)不建議對(duì)較大數(shù)據(jù)資料組運(yùn)行shhh.flows命令。你可以為你的操作系統(tǒng)獲得合適版本的MPI(/).你也需要一個(gè)lookup文件告訴shhh.flows對(duì)一個(gè)給定同源多聚長(zhǎng)度觀(guān)察到一個(gè)強(qiáng)度值的可能性。你可以在這兒(/wi
55、ki/Lookup_files)獲得mothur兼容的文件,你將需要把這些文件與你的數(shù)據(jù)或mothur可執(zhí)行程序放在一起。Shhh.seqs這個(gè)命令是基于mothur的,對(duì)Chris Quince's序列表示程序SeqNoise的重新編寫(xiě)。Sort.seqs這個(gè)命令把來(lái)自fasta,name,group,quality,flow或taxonomy文件的序列放在同樣的次序(order)下。Split.abund這個(gè)命令讀取一個(gè)fasta文件,和一個(gè)list或一個(gè)names文件,把序列分割為稀有和豐富groups.Split.groups這個(gè)命令讀取一個(gè)fasta和group文件,并為group文件中的每個(gè)group生成一個(gè)fasta文件。Sub.sample這個(gè)命令用來(lái)作為一個(gè)使你的數(shù)據(jù)標(biāo)準(zhǔn)化的路徑,或者從你的原始set創(chuàng)建一個(gè)小的set。它把以下這些文件類(lèi)型作為輸入:fasta, list, shared, rabund和sabund,并產(chǎn)生一個(gè)包含你原始文件樣本的新文件
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 遵義醫(yī)科大學(xué)《產(chǎn)品交互設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 唐山工業(yè)職業(yè)技術(shù)學(xué)院《中醫(yī)四診技能》2023-2024學(xué)年第二學(xué)期期末試卷
- 河北東方學(xué)院《幼兒園教育環(huán)境創(chuàng)設(shè)》2023-2024學(xué)年第二學(xué)期期末試卷
- 做賬實(shí)操-代理記賬公司的利潤(rùn)計(jì)算
- 入黨積極分子民主表
- 遼寧工程技術(shù)大學(xué)《男裝制版與工藝》2023-2024學(xué)年第二學(xué)期期末試卷
- 吉林航空職業(yè)技術(shù)學(xué)院《專(zhuān)題設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 焦作大學(xué)《新聞評(píng)論與體育》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣東酒店管理職業(yè)技術(shù)學(xué)院《抽樣設(shè)計(jì)與推斷》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖北大學(xué)知行學(xué)院《結(jié)構(gòu)化學(xué)A》2023-2024學(xué)年第二學(xué)期期末試卷
- 陰道鏡檢查臨床醫(yī)學(xué)知識(shí)及操作方法講解培訓(xùn)PPT
- AI09人工智能-多智能體
- 建設(shè)工程前期工作咨詢(xún)費(fèi)收費(fèi)計(jì)算表
- 行為矯正技術(shù)-課件
- 八年級(jí)物理下冊(cè)《實(shí)驗(yàn)題》專(zhuān)項(xiàng)練習(xí)題及答案(人教版)
- 腦血管造影術(shù)后病人的護(hù)理查房
- 5.0Mt-a煉焦煤選煤廠(chǎng)初步設(shè)計(jì)-畢業(yè)論文
- 美術(shù)高考色彩備考教學(xué)策略
- 2023智聯(lián)招聘行測(cè)題庫(kù)
- 中國(guó)工筆花鳥(niǎo)畫(huà)
- T型廣告牌預(yù)算表
評(píng)論
0/150
提交評(píng)論