宏基因組上機(jī)操作手冊_第1頁
宏基因組上機(jī)操作手冊_第2頁
宏基因組上機(jī)操作手冊_第3頁
宏基因組上機(jī)操作手冊_第4頁
宏基因組上機(jī)操作手冊_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)專心-專注-專業(yè)精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)目錄TOC o 1-3 h u 0. 準(zhǔn)備工作上機(jī)步驟如下:mkdir /Metagenome#新建工作目錄cd /Metagenome#進(jìn)入工作目錄cp -R /RealBio_Train/Metagenome/01_clean_reads ./#拷貝數(shù)據(jù)宏基因組比對宏基因組的序列可以通過SOAPaligner比對軟件,比對上目標(biāo)基因組,從而進(jìn)行物種注釋或計(jì)算物種豐度。SOAPaligner需要先對目標(biāo)基因組進(jìn)行建庫,建庫命令如下:2bwt-builder SOAPa

2、ligner用法:soap a -b -D -o -2 -m -x 其他重要參數(shù):OptionType Content-rINT匹配到多處時(shí)的策略:0:不顯示;1:隨機(jī)顯示一個(gè);2:全部-MINT匹配模式:0:只允許完全匹配;1:允許一個(gè)錯(cuò)配;2:允許兩個(gè)錯(cuò)配;4:最佳匹配-pINT程序運(yùn)行的線程個(gè)數(shù)上機(jī)內(nèi)容為:將拷貝得到的reads比對上微生物的基因組。上機(jī)步驟如下:cd /Metagenome#先進(jìn)入個(gè)人目錄下的工作目錄mkdir 02_alignment#新建02_alignment目錄cd 02_alignment#進(jìn)入比對目錄cp /RealBio_Train/Metagenome/

3、02_aligner/soapaligner.sh ./#拷貝比對腳本less test01.pm#查看比對結(jié)果less test01.sm#查看比對結(jié)果2. 宏基因組組裝基因組組裝是指將測序儀產(chǎn)出的大量的DNA片段(Reads)拼接成原始的待測物種的染色體序列,可以類比為拼圖游戲。本手冊指導(dǎo)你如何使用SOAPdenovo(2.04)組裝軟件對鳥槍法測序數(shù)據(jù)進(jìn)行組裝。2.1 組裝軟件:SOAPdenovoSOAPdenovo的功能是對二代測序數(shù)據(jù)進(jìn)行從頭組裝。使用SOAPdenovo前首先要清楚的是它的組裝配置文件,該文件包含以下信息:Option Content全局配置max_rd_len記

4、錄輸入數(shù)據(jù)的最大讀長,并根據(jù)這個(gè)配置輸入緩存大小。文庫配置,每個(gè)文庫需要以LIB表明avg_ins記錄當(dāng)前文庫插入片段大小。asm_flags用來配置流程中哪些步驟用到當(dāng)前文庫數(shù)據(jù):1,表示當(dāng)前文庫只在構(gòu)建contig時(shí)用到;2,表示當(dāng)前文庫只在構(gòu)建scaffold時(shí)用到;3,表示當(dāng)前文庫在構(gòu)建contig與scaffold時(shí)都用到。rank配置構(gòu)建scaffold時(shí)當(dāng)前文庫的使用優(yōu)先級,由于單端的reads不用于構(gòu)建scaffold,該文庫不用設(shè)置rank參數(shù)。q1/q2,q配置當(dāng)前文庫數(shù)據(jù)路徑,q1/q2用于配置雙端的reads,q用于配置單端的reads本次上機(jī)使用到的完整的配置文件內(nèi)容

5、如下:配置文件完成后,即可開始進(jìn)行組裝。組裝分四步驟操作。四個(gè)步驟分別是:1. pregraph,De Bruijn圖構(gòu)建。輸入組裝配置文件,輸出圖信息文件,主要參數(shù)如下:OptionType Content-sCONFIG指定組裝配置文件-oPREFIX指定輸出文件的前綴,由用戶隨意設(shè)定-pINT指定使用的線程數(shù)目。SOAPdenovo使用了多線程技術(shù)以充分利用計(jì)算機(jī)資源,一般取運(yùn)行機(jī)子的cpu核心數(shù)目即可,如你的機(jī)器是雙核一個(gè)cpu的,那么可指定為2-KINT指定需要構(gòu)建De Bruijn圖的kmer大小,應(yīng)根據(jù)SOAPdenovo的版本設(shè)定。如使用31mer版本,則可取kmer為31,2

6、9,27等-dINT指定構(gòu)建完De Bruijn圖后,需要對深度小于多少的kmer進(jìn)行過濾,一般設(shè)置為12. 構(gòu)建contig。輸入上一步驟產(chǎn)生的圖文件,輸出contig序列文件,主要參數(shù)如下:OptionType Content-gPREFIX輸入圖文件前綴,應(yīng)該與上面步驟中的-o參數(shù)一致-DINT設(shè)定在進(jìn)行構(gòu)建contig時(shí),需要對深度低于該設(shè)定參數(shù)的contig連接邊進(jìn)行過濾。默認(rèn)取值為1-MINT設(shè)定在進(jìn)行構(gòu)建contig時(shí),可以先對相似的序列進(jìn)行合并,參數(shù)最大取值為3,表示最大程度合并相似序列;最小取值為0,表示不對相似序列進(jìn)行合并。這里取經(jīng)驗(yàn)值2-R選擇是否利用reads的相鄰km

7、er信息解決短重復(fù)序列,一般選擇利用3.測序數(shù)據(jù)map回contig序列。在搭建scaffold前,需要先將輸入數(shù)據(jù)比對回contig序列中,輸出比對信息。SOAPdenovo在這一步中會(huì)將reads打碎成kmer,將一個(gè)個(gè)kmer比對回contig上,涉及到的參數(shù)有:OptionType Content-sSTR輸入組裝配置文件-gSTR輸入De Bruijn圖文件的前綴,應(yīng)該與上面步驟1中的-o參數(shù)一致-pINT指定多線程運(yùn)行使用的cpu個(gè)數(shù)4.搭建scaffold。輸入上步產(chǎn)生的contig文件和原始數(shù)據(jù)的比對信息文件,SOAPdenovo將根據(jù)比對的pair關(guān)系信息,搭建scaffol

8、d,主要參數(shù)有:OptionType Content-gSTR輸入De Bruijn圖文件的前綴,應(yīng)該與上面步驟1中的-o參數(shù)一致-F可選參數(shù)選擇是否在搭建完scaffold后對其進(jìn)行補(bǔ)洞。SOAPdenovo內(nèi)置有補(bǔ)洞流程,主要思路是把落在內(nèi)洞中的reads進(jìn)行局部組裝,把裝好的序列嵌入到內(nèi)洞中去,完成補(bǔ)洞工作-u可選參數(shù)選擇是否需要對高深度的contig進(jìn)行屏蔽后再搭建scaffold。SOAPdenovo默認(rèn)會(huì)對高深度的contig進(jìn)行屏蔽,以減少重復(fù)序列的影響,選擇此參數(shù),將不對高深度的contig進(jìn)行屏蔽-L INT,可選參數(shù)選擇選取多長以上的contig進(jìn)行scaffold搭建。S

9、OAPdenovo默認(rèn)選取kmer+2上機(jī)內(nèi)容為:將上一步得到的clean reads進(jìn)行SOAPdenovo組裝,得到contig。上機(jī)操作的步驟如下:cd /Metagenome#先進(jìn)入個(gè)人目錄下的工作目錄mkdir 03_assembly#新建03_Assembly 目錄cd 03_assembly#進(jìn)入組裝目錄mkdir CFGcp /RealBio_Train/Metagenome/03_assembly/CFG/test01.cfg CFG/ #拷貝 組裝的config文件到當(dāng)前目錄mkdir shell#新建腳本目錄cp /RealBio_Train/Metagenome/03_

10、assembly/shell/test01_Kmer31.sh shell/#拷貝組裝腳本到腳本目錄mkdir assemble#新建結(jié)果目錄mkdir assemble/test01sh shell/test01_Kmer31.sh#運(yùn)行組裝腳本less assemble/test01/test01.scafSeq#查看組裝結(jié)果ss.o assemble/test01/test01.scafSeq#查看組裝統(tǒng)計(jì)結(jié)果模仿CFG/test01.cfg,生成test02文件的config文件CFG/test02.cfg,插入片段長度為412;模仿shell/test01_Kmer31.sh,生成關(guān)

11、于test02文件的組裝腳本shell/test02_Kmer37.sh,kmer值設(shè)為37mkdir assemble/test02sh shell/test02_Kmer37.sh#運(yùn)行組裝腳本less assemble/test02/test02.scafSeq#查看組裝結(jié)果ss.o assemble/tets02/test02.scafSeq#查看組裝統(tǒng)計(jì)結(jié)果2.2 組裝軟件:Meta-VelvetMeta-Velvet是在原來基因組組裝軟件Velvet基礎(chǔ)上改進(jìn)的,適合宏基因組數(shù)據(jù)的組裝軟件。主要參數(shù)如下:OptionType Content-cov_cutoffINT or aut

12、oDe Bruijn圖中節(jié)點(diǎn)過濾參數(shù),節(jié)點(diǎn)層數(shù)小于該參數(shù)即被過濾-ins_lengthINT插入片段長度,reads長度加上gaps長度-exp_covINT or auto基因組覆蓋層數(shù),這里選auto上機(jī)內(nèi)容為:將上一步得到的test03樣品的clean reads進(jìn)行SOAPdenovo組裝,得到contig。上機(jī)操作的步驟如下:cd /Metagenome#先進(jìn)入個(gè)人目錄下的工作目錄cd 03_assembly#進(jìn)入組裝目錄cp /RealBio_Train/Metagenome/03_assembly/shell/test03_Kmer31.sh shell/#拷貝組裝腳本到腳本目錄

13、mkdir assemble/test03sh shell/test03_Kmer31.sh#運(yùn)行腳本less assemble/test03/meta-velvetg.contigs.fa#查看組裝結(jié)果ss.o assemble/test03/meta-velvetg.contigs.fa#查看統(tǒng)計(jì)結(jié)果3 基因預(yù)測宏基因組一般使用MetaGeneMark預(yù)測contig中的cds(coding sequence)序列。OptionType Content-a輸出基因堿基序列-d輸出基因蛋白序列-f可選參數(shù)選擇輸出格式:L為lst文件,G為gff文件,一般使用gff文件作為輸出格式-k利用RB

14、S序列預(yù)測基因起始位點(diǎn)-r輸出RBS序列的打分與間隔序列上機(jī)內(nèi)容為:將上一步得到的clean reads進(jìn)行SOAPdenovo組裝,得到contig。上機(jī)操作的步驟如下:cd /Metagenome#先進(jìn)入個(gè)人目錄下的工作目錄mkdir 04_gene_predict#新建04_Gene_predict目錄cd 04_gene_predict#進(jìn)入基因預(yù)測目錄cat .03-assembly/assemble/test01.tst01.scafSeq contig.fa #將上步得到的3個(gè)文件的contig文件寫入04_gene_predict/contig.faperl filter.pl

15、 contig.fa contig.filter.fa#過濾500bp以下的contigcp /RealBio_Train/Metagenome/04_gene_prediction/gene_prediction.sh /Metagenome/04_gene_predict#拷貝基因預(yù)測腳本cp /RealBio_Train/soft/metagenemark/MetaGeneMark_linux_64/mgm/gm_key /.gm_key#拷貝權(quán)限sh /Metagenome/04_gene_predict/gene_prediction.sh#運(yùn)行腳本less /Metagenome/

16、04_gene_predict/gene.gff#查看gff文件ss.o /Metagenome/04_gene_predict/gene.cds 100#查看統(tǒng)計(jì)信息4 構(gòu)建基因集宏基因組研究未知菌的方法大多通過基因集,相當(dāng)于環(huán)境中微生物基因的集合。通過預(yù)測出來的基因,其中有一部分是序列相近或完全相同的。這里需要進(jìn)行去冗余的步驟,所用到的軟件為CD-HIT。CD-HIT是根據(jù)序列相似性,將序列進(jìn)行聚類的軟件。OptionType Content-cDOUBLE配合-G 0,配置identity參數(shù),即完全匹配的堿基數(shù)與匹配上的堿基數(shù)的比值-aSDOUBLE配置coverage參數(shù),即匹配上的堿基數(shù)與較短的基因堿基數(shù)的比值上機(jī)內(nèi)容為:將之前得到的基因序列合并,并去冗余,得到非冗余的基因集。上機(jī)操作的步驟如下:cd /Metagenome#先進(jìn)入個(gè)人目錄下的工作目錄mkdir 05_gene_catalog#新建05_Gene_catalog 目錄cd 05_gene_catal

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論