




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)專心-專注-專業(yè)精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)目錄TOC o 1-3 h u 0. 準(zhǔn)備工作上機(jī)步驟如下:mkdir /Metagenome#新建工作目錄cd /Metagenome#進(jìn)入工作目錄cp -R /RealBio_Train/Metagenome/01_clean_reads ./#拷貝數(shù)據(jù)宏基因組比對宏基因組的序列可以通過SOAPaligner比對軟件,比對上目標(biāo)基因組,從而進(jìn)行物種注釋或計(jì)算物種豐度。SOAPaligner需要先對目標(biāo)基因組進(jìn)行建庫,建庫命令如下:2bwt-builder SOAPa
2、ligner用法:soap a -b -D -o -2 -m -x 其他重要參數(shù):OptionType Content-rINT匹配到多處時(shí)的策略:0:不顯示;1:隨機(jī)顯示一個(gè);2:全部-MINT匹配模式:0:只允許完全匹配;1:允許一個(gè)錯(cuò)配;2:允許兩個(gè)錯(cuò)配;4:最佳匹配-pINT程序運(yùn)行的線程個(gè)數(shù)上機(jī)內(nèi)容為:將拷貝得到的reads比對上微生物的基因組。上機(jī)步驟如下:cd /Metagenome#先進(jìn)入個(gè)人目錄下的工作目錄mkdir 02_alignment#新建02_alignment目錄cd 02_alignment#進(jìn)入比對目錄cp /RealBio_Train/Metagenome/
3、02_aligner/soapaligner.sh ./#拷貝比對腳本less test01.pm#查看比對結(jié)果less test01.sm#查看比對結(jié)果2. 宏基因組組裝基因組組裝是指將測序儀產(chǎn)出的大量的DNA片段(Reads)拼接成原始的待測物種的染色體序列,可以類比為拼圖游戲。本手冊指導(dǎo)你如何使用SOAPdenovo(2.04)組裝軟件對鳥槍法測序數(shù)據(jù)進(jìn)行組裝。2.1 組裝軟件:SOAPdenovoSOAPdenovo的功能是對二代測序數(shù)據(jù)進(jìn)行從頭組裝。使用SOAPdenovo前首先要清楚的是它的組裝配置文件,該文件包含以下信息:Option Content全局配置max_rd_len記
4、錄輸入數(shù)據(jù)的最大讀長,并根據(jù)這個(gè)配置輸入緩存大小。文庫配置,每個(gè)文庫需要以LIB表明avg_ins記錄當(dāng)前文庫插入片段大小。asm_flags用來配置流程中哪些步驟用到當(dāng)前文庫數(shù)據(jù):1,表示當(dāng)前文庫只在構(gòu)建contig時(shí)用到;2,表示當(dāng)前文庫只在構(gòu)建scaffold時(shí)用到;3,表示當(dāng)前文庫在構(gòu)建contig與scaffold時(shí)都用到。rank配置構(gòu)建scaffold時(shí)當(dāng)前文庫的使用優(yōu)先級,由于單端的reads不用于構(gòu)建scaffold,該文庫不用設(shè)置rank參數(shù)。q1/q2,q配置當(dāng)前文庫數(shù)據(jù)路徑,q1/q2用于配置雙端的reads,q用于配置單端的reads本次上機(jī)使用到的完整的配置文件內(nèi)容
5、如下:配置文件完成后,即可開始進(jìn)行組裝。組裝分四步驟操作。四個(gè)步驟分別是:1. pregraph,De Bruijn圖構(gòu)建。輸入組裝配置文件,輸出圖信息文件,主要參數(shù)如下:OptionType Content-sCONFIG指定組裝配置文件-oPREFIX指定輸出文件的前綴,由用戶隨意設(shè)定-pINT指定使用的線程數(shù)目。SOAPdenovo使用了多線程技術(shù)以充分利用計(jì)算機(jī)資源,一般取運(yùn)行機(jī)子的cpu核心數(shù)目即可,如你的機(jī)器是雙核一個(gè)cpu的,那么可指定為2-KINT指定需要構(gòu)建De Bruijn圖的kmer大小,應(yīng)根據(jù)SOAPdenovo的版本設(shè)定。如使用31mer版本,則可取kmer為31,2
6、9,27等-dINT指定構(gòu)建完De Bruijn圖后,需要對深度小于多少的kmer進(jìn)行過濾,一般設(shè)置為12. 構(gòu)建contig。輸入上一步驟產(chǎn)生的圖文件,輸出contig序列文件,主要參數(shù)如下:OptionType Content-gPREFIX輸入圖文件前綴,應(yīng)該與上面步驟中的-o參數(shù)一致-DINT設(shè)定在進(jìn)行構(gòu)建contig時(shí),需要對深度低于該設(shè)定參數(shù)的contig連接邊進(jìn)行過濾。默認(rèn)取值為1-MINT設(shè)定在進(jìn)行構(gòu)建contig時(shí),可以先對相似的序列進(jìn)行合并,參數(shù)最大取值為3,表示最大程度合并相似序列;最小取值為0,表示不對相似序列進(jìn)行合并。這里取經(jīng)驗(yàn)值2-R選擇是否利用reads的相鄰km
7、er信息解決短重復(fù)序列,一般選擇利用3.測序數(shù)據(jù)map回contig序列。在搭建scaffold前,需要先將輸入數(shù)據(jù)比對回contig序列中,輸出比對信息。SOAPdenovo在這一步中會(huì)將reads打碎成kmer,將一個(gè)個(gè)kmer比對回contig上,涉及到的參數(shù)有:OptionType Content-sSTR輸入組裝配置文件-gSTR輸入De Bruijn圖文件的前綴,應(yīng)該與上面步驟1中的-o參數(shù)一致-pINT指定多線程運(yùn)行使用的cpu個(gè)數(shù)4.搭建scaffold。輸入上步產(chǎn)生的contig文件和原始數(shù)據(jù)的比對信息文件,SOAPdenovo將根據(jù)比對的pair關(guān)系信息,搭建scaffol
8、d,主要參數(shù)有:OptionType Content-gSTR輸入De Bruijn圖文件的前綴,應(yīng)該與上面步驟1中的-o參數(shù)一致-F可選參數(shù)選擇是否在搭建完scaffold后對其進(jìn)行補(bǔ)洞。SOAPdenovo內(nèi)置有補(bǔ)洞流程,主要思路是把落在內(nèi)洞中的reads進(jìn)行局部組裝,把裝好的序列嵌入到內(nèi)洞中去,完成補(bǔ)洞工作-u可選參數(shù)選擇是否需要對高深度的contig進(jìn)行屏蔽后再搭建scaffold。SOAPdenovo默認(rèn)會(huì)對高深度的contig進(jìn)行屏蔽,以減少重復(fù)序列的影響,選擇此參數(shù),將不對高深度的contig進(jìn)行屏蔽-L INT,可選參數(shù)選擇選取多長以上的contig進(jìn)行scaffold搭建。S
9、OAPdenovo默認(rèn)選取kmer+2上機(jī)內(nèi)容為:將上一步得到的clean reads進(jìn)行SOAPdenovo組裝,得到contig。上機(jī)操作的步驟如下:cd /Metagenome#先進(jìn)入個(gè)人目錄下的工作目錄mkdir 03_assembly#新建03_Assembly 目錄cd 03_assembly#進(jìn)入組裝目錄mkdir CFGcp /RealBio_Train/Metagenome/03_assembly/CFG/test01.cfg CFG/ #拷貝 組裝的config文件到當(dāng)前目錄mkdir shell#新建腳本目錄cp /RealBio_Train/Metagenome/03_
10、assembly/shell/test01_Kmer31.sh shell/#拷貝組裝腳本到腳本目錄mkdir assemble#新建結(jié)果目錄mkdir assemble/test01sh shell/test01_Kmer31.sh#運(yùn)行組裝腳本less assemble/test01/test01.scafSeq#查看組裝結(jié)果ss.o assemble/test01/test01.scafSeq#查看組裝統(tǒng)計(jì)結(jié)果模仿CFG/test01.cfg,生成test02文件的config文件CFG/test02.cfg,插入片段長度為412;模仿shell/test01_Kmer31.sh,生成關(guān)
11、于test02文件的組裝腳本shell/test02_Kmer37.sh,kmer值設(shè)為37mkdir assemble/test02sh shell/test02_Kmer37.sh#運(yùn)行組裝腳本less assemble/test02/test02.scafSeq#查看組裝結(jié)果ss.o assemble/tets02/test02.scafSeq#查看組裝統(tǒng)計(jì)結(jié)果2.2 組裝軟件:Meta-VelvetMeta-Velvet是在原來基因組組裝軟件Velvet基礎(chǔ)上改進(jìn)的,適合宏基因組數(shù)據(jù)的組裝軟件。主要參數(shù)如下:OptionType Content-cov_cutoffINT or aut
12、oDe Bruijn圖中節(jié)點(diǎn)過濾參數(shù),節(jié)點(diǎn)層數(shù)小于該參數(shù)即被過濾-ins_lengthINT插入片段長度,reads長度加上gaps長度-exp_covINT or auto基因組覆蓋層數(shù),這里選auto上機(jī)內(nèi)容為:將上一步得到的test03樣品的clean reads進(jìn)行SOAPdenovo組裝,得到contig。上機(jī)操作的步驟如下:cd /Metagenome#先進(jìn)入個(gè)人目錄下的工作目錄cd 03_assembly#進(jìn)入組裝目錄cp /RealBio_Train/Metagenome/03_assembly/shell/test03_Kmer31.sh shell/#拷貝組裝腳本到腳本目錄
13、mkdir assemble/test03sh shell/test03_Kmer31.sh#運(yùn)行腳本less assemble/test03/meta-velvetg.contigs.fa#查看組裝結(jié)果ss.o assemble/test03/meta-velvetg.contigs.fa#查看統(tǒng)計(jì)結(jié)果3 基因預(yù)測宏基因組一般使用MetaGeneMark預(yù)測contig中的cds(coding sequence)序列。OptionType Content-a輸出基因堿基序列-d輸出基因蛋白序列-f可選參數(shù)選擇輸出格式:L為lst文件,G為gff文件,一般使用gff文件作為輸出格式-k利用RB
14、S序列預(yù)測基因起始位點(diǎn)-r輸出RBS序列的打分與間隔序列上機(jī)內(nèi)容為:將上一步得到的clean reads進(jìn)行SOAPdenovo組裝,得到contig。上機(jī)操作的步驟如下:cd /Metagenome#先進(jìn)入個(gè)人目錄下的工作目錄mkdir 04_gene_predict#新建04_Gene_predict目錄cd 04_gene_predict#進(jìn)入基因預(yù)測目錄cat .03-assembly/assemble/test01.tst01.scafSeq contig.fa #將上步得到的3個(gè)文件的contig文件寫入04_gene_predict/contig.faperl filter.pl
15、 contig.fa contig.filter.fa#過濾500bp以下的contigcp /RealBio_Train/Metagenome/04_gene_prediction/gene_prediction.sh /Metagenome/04_gene_predict#拷貝基因預(yù)測腳本cp /RealBio_Train/soft/metagenemark/MetaGeneMark_linux_64/mgm/gm_key /.gm_key#拷貝權(quán)限sh /Metagenome/04_gene_predict/gene_prediction.sh#運(yùn)行腳本less /Metagenome/
16、04_gene_predict/gene.gff#查看gff文件ss.o /Metagenome/04_gene_predict/gene.cds 100#查看統(tǒng)計(jì)信息4 構(gòu)建基因集宏基因組研究未知菌的方法大多通過基因集,相當(dāng)于環(huán)境中微生物基因的集合。通過預(yù)測出來的基因,其中有一部分是序列相近或完全相同的。這里需要進(jìn)行去冗余的步驟,所用到的軟件為CD-HIT。CD-HIT是根據(jù)序列相似性,將序列進(jìn)行聚類的軟件。OptionType Content-cDOUBLE配合-G 0,配置identity參數(shù),即完全匹配的堿基數(shù)與匹配上的堿基數(shù)的比值-aSDOUBLE配置coverage參數(shù),即匹配上的堿基數(shù)與較短的基因堿基數(shù)的比值上機(jī)內(nèi)容為:將之前得到的基因序列合并,并去冗余,得到非冗余的基因集。上機(jī)操作的步驟如下:cd /Metagenome#先進(jìn)入個(gè)人目錄下的工作目錄mkdir 05_gene_catalog#新建05_Gene_catalog 目錄cd 05_gene_catal
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024安徽蕪湖鳩茲水務(wù)有限公司第二批人員招聘復(fù)審及筆試參考題庫附帶答案詳解
- 生理學(xué)考試模擬題及答案
- 主題六 任務(wù)一 認(rèn)識音頻 教學(xué)設(shè)計(jì) -2023-2024學(xué)年桂科版初中信息技術(shù)七年級下冊
- 太陽能熱電聯(lián)產(chǎn)系統(tǒng)的技術(shù)發(fā)展現(xiàn)狀
- 第二單元第十二課《使用傳感器采集信息》-教學(xué)設(shè)計(jì) 2023-2024學(xué)年粵教版(2019)初中信息技術(shù)八年級下冊
- 湖南省部分學(xué)校2024-2025學(xué)年高一上學(xué)期12月月考地理試題(解析版)
- 2025年河北政法職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫完美版
- 2025至2030年中國插簧插片數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025至2030年中國指紋控制保管箱管理系統(tǒng)數(shù)據(jù)監(jiān)測研究報(bào)告
- 太陽能熱電聯(lián)產(chǎn)系統(tǒng)技術(shù)背景
- 煤礦安全管理人員考試題庫與答案(G卷)
- 2024年海南省中考英語試題卷(含答案)+2023年中考英語試卷及答案
- 部編人教版四年級下冊道德與法制全冊教案
- 山東省濟(jì)南市2024年中考數(shù)學(xué)試卷【附真題答案】
- 綜合應(yīng)用能力事業(yè)單位考試(綜合管理類A類)試卷及解答參考(2025年)
- Unit1Lesson2HowDoWeLikeTeachers'Feedback-課件高中英語北師大版選擇性
- 香港(2024年-2025年小學(xué)二年級語文)人教版摸底考試試卷(含答案)
- 民法典物權(quán)編詳細(xì)解讀課件
- 《推力和拉力》課件
- 西師版小學(xué)數(shù)學(xué)二年級(下)表格式全冊教案
- 娛樂場所安全承諾聲明
評論
0/150
提交評論