GATK使用方法詳解plob最詳盡說(shuō)明書(shū)_第1頁(yè)
GATK使用方法詳解plob最詳盡說(shuō)明書(shū)_第2頁(yè)
GATK使用方法詳解plob最詳盡說(shuō)明書(shū)_第3頁(yè)
GATK使用方法詳解plob最詳盡說(shuō)明書(shū)_第4頁(yè)
GATK使用方法詳解plob最詳盡說(shuō)明書(shū)_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

年4月19日GATK使用方法詳解plob最詳盡說(shuō)明書(shū)文檔僅供參考GATK使用方法詳解一、使用GATK前須知事項(xiàng):(1)對(duì)GATK的測(cè)試主要使用的是人類(lèi)全基因組和外顯子組的測(cè)序數(shù)據(jù),而且全部是基于illumina數(shù)據(jù)格式,當(dāng)前還沒(méi)有提供其它格式文件(如IonTorrent)或者實(shí)驗(yàn)設(shè)計(jì)(RNA-Seq)的分析方法。(2)GATK是一個(gè)應(yīng)用于前沿科學(xué)研究的軟件,不斷在更新和修正,因此,在使用GATK進(jìn)行變異檢測(cè)時(shí),最好是下載最新的版本,當(dāng)前的版本是2.8.1(-02-25)。下載網(wǎng)站:。(3)在GATK使用過(guò)程中(見(jiàn)下面圖),有些步驟需要用到已知變異信息,對(duì)于這些已知變異,GATK只提供了人類(lèi)的已知變異信息,能夠在GATK的FTP站點(diǎn)下載(GATKresourcebundle)。如果要研究的不是人類(lèi)基因組,需要自行構(gòu)建已知變異,GATK提供了詳細(xì)的構(gòu)建方法。(4)GATK在進(jìn)行BQSR和VQSR的過(guò)程中會(huì)使用到R軟件繪制一些圖,因此,在運(yùn)行GATK之前最好先檢查一下是否正確安裝了R和所需要的包,所需要的包大概包括ggplot2、gplots、bitops、caTools、colorspace、gdata、gsalib、reshape、RColorBrewer等。如果畫(huà)圖時(shí)出現(xiàn)錯(cuò)誤,會(huì)提示需要安裝的包的名稱。二、GATK的使用流程GATK最佳使用方案:共3大步驟,即:\o"GATK使用方法詳解(原始數(shù)據(jù)的處理)"原始數(shù)據(jù)的處理-->\o"GATK使用方法詳解(變異檢測(cè))"變異檢測(cè)

-->\o"GATK使用方法詳解(初步分析)"初步分析。原始數(shù)據(jù)的處理1.對(duì)原始下機(jī)fastq文件進(jìn)行過(guò)濾和比對(duì)(mapping)對(duì)于Illumina下機(jī)數(shù)據(jù)推薦使用bwa進(jìn)行mapping。Bwa比對(duì)步驟大致如下:(1)對(duì)參考基因組構(gòu)建索引:例子:bwaindex-abwtswhg19.fa。構(gòu)建索引時(shí)需要注意的問(wèn)題:bwa構(gòu)建索引有兩種算法,兩種算法都是基于BWT的,這兩種算法經(jīng)過(guò)參數(shù)-ais和-abwtsw進(jìn)行選擇。其中-abwtsw對(duì)于短的參考序列是不工作的,必須要大于等于10Mb;-ais是默認(rèn)參數(shù),這個(gè)參數(shù)不適用于大的參考序列,必須要小于等于2G。(2)尋找輸入reads文件的SA坐標(biāo)。對(duì)于pairend數(shù)據(jù),每個(gè)reads文件單獨(dú)做運(yùn)算,singleend數(shù)據(jù)就不用說(shuō)了,只有一個(gè)文件。pairend:bwaalnhg19.faread1.fq.gz-t4-I>read1.fq.gz.saibwaalnhg19.faread2.fq.gz-t4-I>read2.fq.gz.saisingleend:bwaalnhg19.faread.fq.gz-l30-k2-t4-I>read.fq.gz.sai主要參數(shù)說(shuō)明:-oint:允許出現(xiàn)的最大gap數(shù)。-eint:每個(gè)gap允許的最大長(zhǎng)度。-dint:不允許在3’端出現(xiàn)大于多少bp的deletion。-iint:不允許在reads兩端出現(xiàn)大于多少bp的indel。-lint:Read前多少個(gè)堿基作為seed,如果設(shè)置的seed大于read長(zhǎng)度,將無(wú)法繼續(xù),最好設(shè)置在25-35,與-k2配合使用。-kint:在seed中的最大編輯距離,使用默認(rèn)2,與-l配合使用。-tint:要使用的線程數(shù)。-Rint:此參數(shù)只應(yīng)用于pairend中,當(dāng)沒(méi)有出現(xiàn)大于此值的最佳比對(duì)結(jié)果時(shí),將會(huì)降低標(biāo)準(zhǔn)再次進(jìn)行比對(duì)。增加這個(gè)值能夠提高配對(duì)比正確準(zhǔn)確率,可是同時(shí)會(huì)消耗更長(zhǎng)的時(shí)間,默認(rèn)是32。-Iint:表示輸入的文件格式為Illumina1.3+數(shù)據(jù)格式。-Bint:設(shè)置標(biāo)記序列。從5’端開(kāi)始多少個(gè)堿基作為標(biāo)記序列,當(dāng)-B為正值時(shí),在比對(duì)之前會(huì)將每個(gè)read的標(biāo)記序列剪切,并將此標(biāo)記序列表示在BCSAM標(biāo)簽里,對(duì)于pairend數(shù)據(jù),兩端的標(biāo)記序列會(huì)被連接。-b:指定輸入格式為bam格式。這是一個(gè)很奇怪的功能,就是對(duì)其它軟件的bam文件進(jìn)行重新比正確意思bwaalnhg19.faread.bam>read.fq.gz.sai(3)生成sam格式的比對(duì)文件。如果一條read比對(duì)到多個(gè)位置,會(huì)隨機(jī)選擇一種。例子:singleend:bwasamsehg19.faread.fq.gz.sairead.fq.gz>read.fq.gz.sam參數(shù):-nint:如果reads比對(duì)次數(shù)超過(guò)多少次,就不在XA標(biāo)簽顯示。-rstr:定義頭文件。‘@RG\tID:foo\tSM:bar’,如果在此步驟不進(jìn)行頭文件定義,在后續(xù)\o"ViewallpostsinGATK"GATK分析中還是需要重新增加頭文件。pairend:bwasampe-a500read1.fq.gz.sairead2.fq.gz.sairead1.fq.gzread2.fq.gz>read.sam參數(shù):-aint:最大插入片段大小。-oint:pairend兩reads中其中之一所允許配正確最大次數(shù),超過(guò)該次數(shù),將被視為singleend。降低這個(gè)參數(shù),能夠加快運(yùn)算速度,對(duì)于少于30bp的read,建議降低-o值。-rstr:定義頭文件。同singleend。-nint:每對(duì)reads輸出到結(jié)果中的最多比對(duì)數(shù)。對(duì)于最后得到的sam文件,將比對(duì)上的結(jié)果提取出來(lái)(awk即可處理),即可直接用于\o"ViewallpostsinGATK"GATK的分析。注意:由于\o"ViewallpostsinGATK"GATK在下游的snp-calling時(shí),是按染色體進(jìn)行call-snp的。因此,在準(zhǔn)備原始sam文件時(shí),能夠先按染色體將文件分開(kāi),這樣會(huì)提高運(yùn)行速度??墒钱?dāng)數(shù)據(jù)量不足時(shí),可能會(huì)影響后續(xù)的VQSR分析,這是需要注意的。2.對(duì)sam文件進(jìn)行進(jìn)行重新排序(reorder)由BWA生成的sam文件時(shí)按字典式排序法進(jìn)行的排序(lexicographically)進(jìn)行排序的(chr10,chr11…chr19,chr1,chr20…chr22,chr2,chr3…chrM,chrX,chrY),可是\o"ViewallpostsinGATK"GATK在進(jìn)行callsnp的時(shí)候是按照染色體組型(karyotypic)進(jìn)行的(chrM,chr1,chr2…chr22,chrX,chrY),因此要對(duì)原始sam文件進(jìn)行reorder。能夠使用picard-tools中的ReorderSam完成。eg.java-jarpicard-tools-1.96/ReorderSam.jarI=hg19.samO=hg19.reorder_00.samREFERENCE=hg19.fa注意:1)這一步的頭文件能夠人工加上,同時(shí)要確保頭文件中有的序號(hào)在下面序列中也有對(duì)應(yīng)的。雖然在\o"ViewallpostsinGATK"GATK網(wǎng)站上的說(shuō)明chrM能夠在最前也能夠在最后,可是當(dāng)把chrM放在最后時(shí)可能會(huì)出錯(cuò)。2)在進(jìn)行排序之前,要先構(gòu)建參考序列的索引。e.g.samtoolsfaidxhg19.fa。最后生成的索引文件:hg19.fa.fai。3)如果在上一步想把大文件切分成小文件的時(shí)候,頭文件能夠自己手工加上,之后運(yùn)行這一步就好了。

3.將sam文件轉(zhuǎn)換成bam文件(bam是二進(jìn)制文件,運(yùn)算速度快)這一步可使用samtoolsview完成。e.g.samtoolsview-bShg19.reorder_00.sam-ohg19.sam_01.bam

4.對(duì)bam文件進(jìn)行sort排序處理這一步是將sam文件中同一染色體對(duì)應(yīng)的條目按照坐標(biāo)順序從小到大進(jìn)行排序。能夠使用picard-tools中SortSam完成。e.g.java-jarpicard-tools-1.96/SortSam.jarINPUT=hg19.sam_01.bamOUTPUT=hg19.sam.sort_02.bamSORT_ORDER=coordinate

5.對(duì)bam文件進(jìn)行加頭(head)處理\o"ViewallpostsinGATK"GATK2.0以上版本將不再支持無(wú)頭文件的變異檢測(cè)。加頭這一步能夠在BWA比正確時(shí)候進(jìn)行,經(jīng)過(guò)-r參數(shù)的選擇能夠完成。如果在BWA比對(duì)期間沒(méi)有選擇-r參數(shù),能夠增加這一步驟??墒褂胮icard-tools中AddOrReplaceReadGroups完成。e.g.java-jarpicard-tools-1.96/AddOrReplaceReadGroups.jarI=hg19.sam.sort_02.bamO=hg19.reorder.sort.addhead_03.bamID=hg19IDLB=hg19IDPL=illuminePU=hg19PUSM=hg19IDstr:輸入reads集ID號(hào);LB:read集文庫(kù)名;PL:測(cè)序平臺(tái)(illunima或solid);PU:測(cè)序平臺(tái)下級(jí)單位名稱(run的名稱);SM:樣本名稱。注意:這一步盡量不要手動(dòng)加頭,本人嘗試過(guò)多次手工加頭,雖然看起來(lái)與軟件加的頭是一樣的,可是程序卻無(wú)法運(yùn)行。

6.Merge如果一個(gè)樣本分為多個(gè)lane進(jìn)行測(cè)序,那么在進(jìn)行下一步之前能夠?qū)⒚總€(gè)lane的bam文件合并。e.g.java-jarpicard-tools-1.70/MergeSamFiles.jarINPUT=lane1.bamINPUT=lane2.bamINPUT=lane3.bamINPUT=lane4.bam……INPUT=lane8.bamOUTPUT=sample.bam

7.DuplicatesMarking在制備文庫(kù)的過(guò)程中,由于PCR擴(kuò)增過(guò)程中會(huì)存在一些偏差,也就是說(shuō)有的序列會(huì)被過(guò)量擴(kuò)增。這樣,在比正確時(shí)候,這些過(guò)量擴(kuò)增出來(lái)的完全相同的序列就會(huì)比對(duì)到基因組的相同位置。而這些過(guò)量擴(kuò)增的reads并不是基因組自身固有序列,不能作為變異檢測(cè)的證據(jù),因此,要盡量去除這些由PCR擴(kuò)增所形成的duplicates,這一步能夠使用picard-tools來(lái)完成。去重復(fù)的過(guò)程是給這些序列設(shè)置一個(gè)flag以標(biāo)志它們,方便\o"ViewallpostsinGATK"GATK的識(shí)別。還能夠設(shè)置REMOVE_DUPLICATES=true來(lái)丟棄duplicated序列。對(duì)于是否選擇標(biāo)記或者刪除,對(duì)結(jié)果應(yīng)該沒(méi)有什么影響,\o"ViewallpostsinGATK"GATK官方流程里面給出的例子是僅做標(biāo)記不刪除。這里定義的重復(fù)序列是這樣的:如果兩條reads具有相同的長(zhǎng)度而且比對(duì)到了基因組的同一位置,那么就認(rèn)為這樣的reads是由PCR擴(kuò)增而來(lái),就會(huì)被\o"ViewallpostsinGATK"GATK標(biāo)記。e.g.java-jarpicard-tools-1.96/MarkDuplicates.jarREMOVE_DUPLICATES=falseMAX_FILE_HANDLES_FOR_READ_ENDS_MAP=8000INPUT=hg19.reorder.sort.addhead_03.bamOUTPUT=hg19.reorder.sort.addhead.dedup_04.bamMETRICS_FILE=hg19.reorder.sort.addhead.dedup_04.metrics注意:dedup這一步只要在library層面上進(jìn)行就能夠了,例如一個(gè)sample如果建了多個(gè)庫(kù)的話,對(duì)每個(gè)庫(kù)進(jìn)行dedup即可,不需要把所有庫(kù)合成一個(gè)sample再進(jìn)行dedup操作。其實(shí)并不能準(zhǔn)確的定義被mask的reads到底是不是duplicates,重復(fù)序列的程度與測(cè)序深度和文庫(kù)類(lèi)型都有關(guān)系。最主要目的就是盡量減小文庫(kù)構(gòu)建時(shí)引入文庫(kù)的PCRbias。

8.要對(duì)上一步得到的結(jié)果生成索引文件能夠用samtools完成,生成的索引后綴是bai。e.g.samtoolsindexhg19.reorder.sort.addhead.dedup_04.bam9.Localrealignmentaroundindels這一步的目的就是將比對(duì)到indel附近的reads進(jìn)行局部重新比對(duì),將比正確錯(cuò)誤率降到最低。一般來(lái)說(shuō),絕大部分需要進(jìn)行重新比正確基因組區(qū)域,都是因?yàn)椴迦?缺失的存在,因?yàn)樵趇ndel附近的比對(duì)會(huì)出現(xiàn)大量的堿基錯(cuò)配,這些堿基的錯(cuò)配很容易被誤認(rèn)為SNP。還有,在比對(duì)過(guò)程中,比對(duì)算法對(duì)于每一條read的處理都是獨(dú)立的,不可能同時(shí)把多條reads與參考基因組比對(duì)來(lái)排錯(cuò)。因此,即使有一些reads能夠正確的比對(duì)到indel,但那些恰恰比對(duì)到indel開(kāi)始或者結(jié)束位置的read也會(huì)有很高的比對(duì)錯(cuò)誤率,這都是需要重新比正確。Localrealignment就是將由indel導(dǎo)致錯(cuò)配的區(qū)域進(jìn)行重新比對(duì),將indel附近的比對(duì)錯(cuò)誤率降到最低。主要分為兩步:第一步,經(jīng)過(guò)運(yùn)行RealignerTargetCreator來(lái)確定要進(jìn)行重新比正確區(qū)域。e.g.java-jarGenomeAnalysisTK.jar-Rhg19.fa-TRealignerTargetCreator-Ihg19.reorder.sort.addhead.dedup_04.bam-ohg19.dedup.realn_06.intervals-knownMills_and_1000G_gold_standard.indels.hg19.vcf-known1000G_phase1.indels.hg19.vcf參數(shù)說(shuō)明:-R:參考基因組;-T:選擇的\o"ViewallpostsinGATK"GATK工具;-I:輸入上一步所得bam文件;-o:輸出的需要重新比正確基因組區(qū)域結(jié)果;-maxInterval:允許進(jìn)行重新比正確基因組區(qū)域的最大值,不能太大,太大耗費(fèi)會(huì)很長(zhǎng)時(shí)間,默認(rèn)值500;-known:已知的可靠的indel位點(diǎn),指定已知的可靠的indel位點(diǎn),重比對(duì)將主要圍繞這些位點(diǎn)進(jìn)行,對(duì)于人類(lèi)基因組數(shù)據(jù)而言,能夠直接指定\o"ViewallpostsinGATK"GATKresourcebundle里面的indel文件(必須是vcf文件)。對(duì)于knownsites的選擇很重要,\o"ViewallpostsinGATK"GATK中每一個(gè)用到knownsites的工具對(duì)于knownsites的使用都是不一樣的,可是所有的都有一個(gè)共同目的,那就是分辨真實(shí)的變異位點(diǎn)和不可信的變異位點(diǎn)。如果不提供這些knownsites的話,這些統(tǒng)計(jì)工具就會(huì)產(chǎn)生偏差,最后會(huì)嚴(yán)重影響結(jié)果的可信度。在這些需要知道knownsites的工具里面,只有UnifiedGenotyper和HaplotypeCaller對(duì)knownsites沒(méi)有太嚴(yán)格的要求。如果你所研究的對(duì)象是人類(lèi)基因組的話,那就簡(jiǎn)單多了,因?yàn)閈o"ViewallpostsinGATK"GATK網(wǎng)站上對(duì)如何使用人類(lèi)基因組的knownsites做出了詳細(xì)的說(shuō)明,具體的選擇方法如下表,這些文件都能夠在\o"ViewallpostsinGATK"GATKresourcebundle中下載。TooldbSNP129dbSNP>132Millsindels1KGindelsHapMapOmniRealignerTargetCreatorXXIndelRealignerXXBaseRecalibratorXXX(UnifiedGenotyper/HaplotypeCaller)XVariantRecalibratorXXXXVariantEvalX

可是如果你要研究的不是人類(lèi)基因組的話,那就有點(diǎn)麻煩了,,這個(gè)網(wǎng)站上是做非人類(lèi)基因組時(shí),大家分享的經(jīng)驗(yàn),能夠參考一下。這個(gè)knownsites如果實(shí)在沒(méi)有的話,也是能夠自己構(gòu)建的:首先,先使用沒(méi)有經(jīng)過(guò)矯正的數(shù)據(jù)進(jìn)行一輪SNPcalling;然后,挑選最可信的SNP位點(diǎn)進(jìn)行BQSR分析;最后,在使用這些經(jīng)過(guò)BQSR的數(shù)據(jù)進(jìn)行一次真正的SNPcalling。這幾步可能要重復(fù)好多次才能得到可靠的結(jié)果。第二步,經(jīng)過(guò)運(yùn)行IndelRealigner在這些區(qū)域內(nèi)進(jìn)行重新比對(duì)。e.g.java-jarGenomeAnalysisTK.jar-Rhg19.fa-TIndelRealigner-targetIntervalshg19.dedup.realn_06.intervals-Ihg19.reorder.sort.addhead.dedup_04.bam-ohg19.dedup.realn_07.bam-knownMills_and_1000G_gold_standard.indels.hg19.vcf-known1000G_phase1.indels.hg19.vcf運(yùn)行結(jié)束后,生成的hg19.dedup.realn_07.bam即為最后重比對(duì)后的文件。注意:1.第一步和第二步中使用的輸入文件(bam文件)、參考基因組和已知indel文件必須是相同的文件。2.當(dāng)在相同的基因組區(qū)域發(fā)現(xiàn)多個(gè)indel存在時(shí),這個(gè)工具會(huì)從其中選擇一個(gè)最有可能存在比對(duì)錯(cuò)誤的indel進(jìn)行重新比對(duì),剩余的其它indel不予考慮。3.對(duì)于454下機(jī)數(shù)據(jù),本工具不支持。另外,這一步還會(huì)忽略bwa比對(duì)中質(zhì)量值為0的read以及在CIGAR信息中存在連續(xù)indel的reads。10.Basequalityscorerecalibration這一步是對(duì)bam文件里reads的堿基質(zhì)量值進(jìn)行重新校正,使最后輸出的bam文件中reads中堿基的質(zhì)量值能夠更加接近真實(shí)的與參考基因組之間錯(cuò)配的概率。這一步適用于多種數(shù)據(jù)類(lèi)型,包括illunima、solid、454、CG等數(shù)據(jù)格式。在\o"ViewallpostsinGATK"GATK2.0以上版本中還能夠?qū)ndel的質(zhì)量值進(jìn)行校正,這一步對(duì)indelcalling非常有幫助舉例說(shuō)明,在reads堿基質(zhì)量值被校正之前,我們要保留質(zhì)量值在Q25以上的堿基,可是實(shí)際上質(zhì)量值在Q25的這些堿基的錯(cuò)誤率在1%,也就是說(shuō)質(zhì)量值只有Q20,這樣就會(huì)對(duì)后續(xù)的變異檢測(cè)的可信度造成影響。還有,在邊合成邊測(cè)序的測(cè)序過(guò)程中,在reads末端堿基的錯(cuò)誤率往往要比起始部位更高。另外,AC的質(zhì)量值往往要低于TG。BQSR的就是要對(duì)這些質(zhì)量值進(jìn)行校正。BQSR主要有三步:第一步:利用工具BaseRecalibrator,根據(jù)一些knownsites,生成一個(gè)校正質(zhì)量值所需要的數(shù)據(jù)文件,\o"ViewallpostsinGATK"GATK網(wǎng)站以“.grp”為后綴命名。e.g.java-jarGenomeAnalysisTK.jar-TBaseRecalibrator-Rhg19.fa-IChrALL.100.sam.dedup.realn.07.bam-knownSitesdbsnp_137.hg19.vcf-knownSitesMills_and_1000G_gold_standard.indels.hg19.vcf-knownSites1000G_phase1.indels.hg19.vcf-oChrALL.100.sam.recal.08-1.grp第二步:利用第一步生成的ChrALL.100.sam.recal.08-1.grp來(lái)生成校正后的數(shù)據(jù)文件,也是以“.grp”命名,這一步主要是為了與校正之前的數(shù)據(jù)進(jìn)行比較,最后生成堿基質(zhì)量值校正前后的比較圖,如果不想生成最后BQSR比較圖,這一步能夠省略。e.g.java-jarGenomeAnalysisTK.jar-TBaseRecalibrator-Rhg19.fa-IChrALL.100.sam.dedup.realn.07.bam-BQSRChrALL.100.sam.recal.08-1.grp-o\o"ViewallpostsinGATK"GATK/hg19.recal.08-2.grp-knownSitesdbsnp_137.hg19.vcf-knownSitesMills_and_1000G_gold_standard.indels.hg19.vcf-knownSites1000G_phase1.indels.hg19.vcf第三步:利用工具PrintReads將經(jīng)過(guò)質(zhì)量值校正的數(shù)據(jù)輸出到新的bam文件中,用于后續(xù)的變異檢測(cè)。e.g.java-jarGenomeAnalysisTK.jar-TPrintReads-Rhg19.fa-IChrALL.100.sam.dedup.realn.07.bam-BQSRChrALL.100.sam.recal.08-1.grp-oChrALL.100.sam.recal.08-3.grp.bam主要參數(shù)說(shuō)明:-bqsrBAQGOP:BQSRBAQgapopen罰值,默認(rèn)值是40,如果是對(duì)全基因組數(shù)據(jù)進(jìn)行BQSR分析,設(shè)置為30會(huì)更好。-lqt:在計(jì)算過(guò)程中,該算法所能考慮的reads兩端的最小質(zhì)量值。如果質(zhì)量值小于該值,計(jì)算過(guò)程中將不予考慮,默認(rèn)值是2。注意:(1)當(dāng)bam文件中的reads數(shù)量過(guò)少時(shí),BQSR可能不會(huì)正常工作,\o"ViewallpostsinGATK"GATK網(wǎng)站建議base數(shù)量要大于100M才能得到比較好的結(jié)果。(2)除非你所研究的樣本所得到的reads數(shù)實(shí)在太少,或者比對(duì)結(jié)果中的mismatch基本上都是實(shí)際存在的變異,否則必須要進(jìn)行BQSR這一步。對(duì)于人類(lèi)基因組,即使有了dbSNP和千人基因組的數(shù)據(jù),還有很多mismatch是錯(cuò)誤的。因此,這一步能做一定要做。

11.分析和評(píng)估BQSR結(jié)果這一步會(huì)生成評(píng)估前后堿基質(zhì)量值的比較結(jié)果,能夠選擇使用圖片和表格的形式展示。e.g.java-jarGenomeAnalysisTK.jar-TAnalyzeCovariates-Rhg19.fa-beforeChrALL.100.sam.recal.08-1.grp-afterChrALL.100.sam.recal.08-2.grp-csvChrALL.100.sam.recal.grp.09.csv-plotsChrALL.100.sam.recal.grp.09.pdf參數(shù)解釋:-before:基于原始比對(duì)結(jié)果生成的第一次校對(duì)表格。-after:基于第一次校對(duì)表格生成的第二次校對(duì)表格。-plots:評(píng)估BQSR結(jié)果的報(bào)告文件。-csv:生成報(bào)告中圖標(biāo)所需要的所有數(shù)據(jù)。

12.Reducebamfile這一步是使用ReduceReads這個(gè)工具將bam文件進(jìn)行壓縮,生成新的bam文件,新的bam文件依然保持bam文件的格式和所有進(jìn)行變異檢測(cè)所需要的信息。這樣不但能夠節(jié)省存儲(chǔ)空間,也方便后續(xù)變異檢測(cè)過(guò)程中對(duì)數(shù)據(jù)的處理。e.g.java-jarGenomeAnalysisTK.jar-TReduceReads-Rhg19.fa-IChrALL.100.sam.recal.08-3.grp.bam-oChrALL.100.sam.recal.08-3.grp.reduce.bam到此為止,\o"ViewallpostsinGATK"GATK流程中的第一大步驟就結(jié)束了,完成了variantscalling所需要的所有準(zhǔn)備工作,生成了用于下一步變異檢測(cè)的bam文件。變異檢測(cè)1.VariantCalling\o"ViewallpostsinGATK"GATK在這一步里面提供了兩個(gè)工具進(jìn)行變異檢測(cè)——UnifiedGenotyper和HaplotypeCaller。其中HaplotypeCaller一直還在開(kāi)發(fā)之中,包括生成的結(jié)果以及計(jì)算模型和命令行參數(shù)一直在變動(dòng),因此,當(dāng)前使用比較多的還是UnifiedGenotyper。此外,HaplotypeCaller不支持Reduce之后的bam文件,因此,當(dāng)選擇使用HaplotypeCaller進(jìn)行變異檢測(cè)時(shí),不需要進(jìn)行Reducereads。UnifiedGenotyper是集合多種變異檢測(cè)方法而成的一種VariantsCaller,既能夠用于單個(gè)樣本的變異檢測(cè),也能夠用于群體的變異檢測(cè)。UnifiedGenotyper使用貝葉斯最大似然模型,同時(shí)估計(jì)基因型和基因頻率,最后對(duì)每一個(gè)樣本的每一個(gè)變異位點(diǎn)和基因型都會(huì)給出一個(gè)精確的后驗(yàn)概率。e.g.java-jarGenomeAnalysisTK.jar-glmBOTH-lINFO-Rhg19.fa-TUnifiedGenotyper-IChrALL.100.sam.recal.08-3.grp.reduce.bam-Ddbsnp_137.hg19.vcf-oChrALL.100.sam.recal.10.vcf-metricsChrALL.100.sam.recal.10.metrics-stand_call_conf10-stand_emit_conf30上述命令將對(duì)輸入的bam文件中的所有樣本進(jìn)行變異檢測(cè),最后生成一個(gè)vcf文件,vcf文件中會(huì)包含所有樣本的變異位點(diǎn)和基因型信息??墒乾F(xiàn)在所得到的結(jié)果是最原始的、沒(méi)有經(jīng)過(guò)任何過(guò)濾和校正的Variants集合。這一步產(chǎn)生的變異位點(diǎn)會(huì)有很高的假陽(yáng)性,特別是indel,因此,必須要進(jìn)行進(jìn)一步的篩選過(guò)濾。這一步還能夠指定對(duì)基因組的某一區(qū)域進(jìn)行變異檢測(cè),只需要增加一個(gè)參數(shù)-L:target_interval.list,格式是bed格式文件。主要參數(shù)解釋:-A:指定一個(gè)或者多個(gè)注釋信息,最后輸出到vcf文件中。-XA:指定不做哪些注釋,最后不會(huì)輸出到vcf文件中。-D:已知的snp文件。-glm:選擇檢測(cè)變異的類(lèi)型。SNP表示只進(jìn)行snp檢測(cè);INDEL表示只對(duì)indel進(jìn)行檢測(cè);BOTH表示同時(shí)檢測(cè)snp和indel。默認(rèn)值是SNP。-hets:雜合度的值,用于計(jì)算先驗(yàn)概率。默認(rèn)值是0.001。-maxAltAlleles:容許存在的最大altallele的數(shù)目,默認(rèn)值是6。這個(gè)參數(shù)要特別注意,不要輕易修改默認(rèn)值,程序設(shè)置的默認(rèn)值幾乎能夠滿足所有的分析,如果修改了可能會(huì)導(dǎo)致程序無(wú)法運(yùn)行。-mbq:變異檢測(cè)時(shí),堿基的最小質(zhì)量值。如果小于這個(gè)值,將不會(huì)對(duì)其進(jìn)行變異檢測(cè)。這個(gè)參數(shù)不適用于indel檢測(cè),默認(rèn)值是17。-minIndelCnt:在做indelcalling的時(shí)候,支持一個(gè)indel的最少read數(shù)量。也就是說(shuō),如果同時(shí)有多少條reads同時(shí)支持一個(gè)候選indel時(shí),軟件才開(kāi)始進(jìn)行indelcalling。降低這個(gè)值能夠增加indelcalling的敏感度,可是會(huì)增加耗費(fèi)的時(shí)間和假陽(yáng)性。-minIndelFrac:在做indelcalling的時(shí)候,支持一個(gè)indel的reads數(shù)量占比對(duì)到該indel位置的所有reads數(shù)量的百分比。也就是說(shuō),只有同時(shí)滿足-minIndelCnt和-minIndelFrac兩個(gè)參數(shù)條件時(shí),才會(huì)進(jìn)行indelcalling。-onlyEmitSamples:當(dāng)指定這個(gè)參數(shù)時(shí),只有指定的樣本的變異檢測(cè)結(jié)果會(huì)輸出到vcf文件中。-stand_emit_conf:在變異檢測(cè)過(guò)程中,所容許的最小質(zhì)量值。只有大于等于這個(gè)設(shè)定值的變異位點(diǎn)會(huì)被輸出到結(jié)果中。-stand_call_conf:在變異檢測(cè)過(guò)程中,用于區(qū)分低質(zhì)量變異位點(diǎn)和高質(zhì)量變異位點(diǎn)的閾值。只有質(zhì)量值高于這個(gè)閾值的位點(diǎn)才會(huì)被視為高質(zhì)量的。低于這個(gè)質(zhì)量值的變異位點(diǎn)會(huì)在輸出結(jié)果中標(biāo)注LowQual。在千人基因組計(jì)劃第二階段的變異檢測(cè)時(shí),利用35x的數(shù)據(jù)進(jìn)行snpcalling的時(shí)候,當(dāng)設(shè)置成50時(shí),有大概10%的假陽(yáng)性。-dcov:這個(gè)參數(shù)用于控制檢測(cè)變異數(shù)據(jù)的coverage(X),4X的數(shù)據(jù)能夠設(shè)置為40,大于30X的數(shù)據(jù)能夠設(shè)置為200。注意:\o"ViewallpostsinGATK"GATK進(jìn)行變異檢測(cè)的時(shí)候,是按照染色體排序順序進(jìn)行的(先callchr1,然后chr2,然后chr3…最后chrY),并非多條染色體并行檢測(cè)的,因此,如果數(shù)據(jù)量比較大的話,建議分染色體分別進(jìn)行,對(duì)性染色體的變異檢測(cè)能夠同常染色體方法。大多數(shù)參數(shù)的默認(rèn)值能夠滿足大多數(shù)研究的需求,因此,在做變異檢測(cè)過(guò)程中,如果對(duì)參數(shù)意義不是很明確,不建議修改。2.對(duì)原始變異檢測(cè)結(jié)果進(jìn)行過(guò)濾(hardfilterandVQSR)這一步的目的就是對(duì)上一步call出來(lái)的變異位點(diǎn)進(jìn)行過(guò)濾,去掉不可信的位點(diǎn)。這一步能夠有兩種方法,一種是經(jīng)過(guò)\o"ViewallpostsinGATK"GATK的VariantFiltration,另一種是經(jīng)過(guò)\o"ViewallpostsinGATK"GATK的VQSR(變異位點(diǎn)質(zhì)量值重新校正)進(jìn)行過(guò)濾。經(jīng)過(guò)\o"ViewallpostsinGATK"GATK網(wǎng)站上提供的最佳方案能夠看出,\o"ViewallpostsinGATK"GATK是推薦使用VASR的,但使用VQSR數(shù)據(jù)量一定要達(dá)到要求,數(shù)據(jù)量太小無(wú)法使用高斯模型。還有,在使用VAQR時(shí),indel和snp要分別進(jìn)行。VQSR原理介紹:這個(gè)模型是根據(jù)已有的真實(shí)變異位點(diǎn)(人類(lèi)基因組一般使用HapMap3中的位點(diǎn),以及這些位點(diǎn)在Omni2.5MSNP芯片中出現(xiàn)的多態(tài)位點(diǎn))來(lái)訓(xùn)練,最后得到一個(gè)訓(xùn)練好的能夠很好的評(píng)估真?zhèn)蔚腻e(cuò)誤評(píng)估模型,能夠叫她適應(yīng)性錯(cuò)誤評(píng)估模型。這個(gè)適應(yīng)性的錯(cuò)誤評(píng)估模型可以應(yīng)用到call出來(lái)的原始變異集合中已知的變異位點(diǎn)和新發(fā)現(xiàn)的變異位點(diǎn),進(jìn)而去評(píng)估每一個(gè)變異位點(diǎn)發(fā)生錯(cuò)誤的概率,最終會(huì)給出一個(gè)得分。這個(gè)得分最后會(huì)被寫(xiě)入vcf文件的INFO信息里,叫做VQSLOD,就是在訓(xùn)練好的混合高斯模型下,一個(gè)位點(diǎn)是真實(shí)的概率比上這個(gè)位點(diǎn)可能是假陽(yáng)性的概率的logoddsratio(對(duì)數(shù)差異比),因此,能夠定性的認(rèn)為,這個(gè)值越大就越好。VQSR主要分兩個(gè)步驟,這兩個(gè)步驟會(huì)使用兩個(gè)不同的工具:VariantRecalibrator和ApplyRecalibrati

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論