1Mutmap項目結(jié)題報告模板_第1頁
1Mutmap項目結(jié)題報告模板_第2頁
1Mutmap項目結(jié)題報告模板_第3頁
1Mutmap項目結(jié)題報告模板_第4頁
1Mutmap項目結(jié)題報告模板_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、Mutmap項目結(jié)題報告客戶單位:報告單位:_聯(lián)系人:聯(lián)系電話:傳真:報告日期:項目負責人:審核人:Mutmap 項目結(jié)題報告目錄目錄 11 項目概況 11.1 合同關(guān)鍵指標 11.2 項目基本信息 11.3 項目執(zhí)行情況 21.4 分析結(jié)果概述 22 項目流程 32.1 實驗流程 32.2 信息分析流程 33 生物信息學分析方法和結(jié)果 53.1 測序數(shù)據(jù)質(zhì)控 53.1.1 原始數(shù)據(jù)介紹 53.1.2 堿基測序質(zhì)量分布 73.1.3 堿基類型分布 93.1.4 低質(zhì)量數(shù)據(jù)過濾 103.1.5 數(shù)據(jù)質(zhì)量統(tǒng)計 103.2 與參考基因組比對統(tǒng)計 113.2.1 比對結(jié)果統(tǒng)計 113.2.2 插入片段

2、分布統(tǒng)計 113.2.3 深度分布統(tǒng)計 123.3 SNP 檢測與注釋 14331樣品與參考基因組間SNP的檢測 14332樣品之間SNP的檢測173.3.3 SNP結(jié)果注釋193.4 Small In Del 檢測與注釋223.4.1 樣品與參考基因組間Small InDel 的檢測 223.4.2 樣品之間 Small InDel檢測 22343 Small In Del 的注釋233.5 關(guān)聯(lián)分析 263.5.1高質(zhì)量SNP篩選263.5.2 關(guān)聯(lián)分析 263.5.3候選區(qū)域SNP注釋錯誤!未定義書簽。3.5.4候選區(qū)域基因注釋 錯. 誤!未定義書簽。3.6結(jié)果可視化364 數(shù)據(jù)下載 3

3、74.1 結(jié)果文件查看說明 37參考文獻 錯. 誤!未定義書簽。2Mutmap 項目結(jié)題報告1項目概況1.1合同關(guān)鍵指標(1) 完成X個樣品的重測序,共產(chǎn)生XGbp Clean Data,保證Q30達到80%。(2) 數(shù)據(jù)評估:測序數(shù)據(jù)量,測序數(shù)據(jù)質(zhì)量和 GC含量的統(tǒng)計。(3) 與基因組比對:比對效率,基因組覆蓋度,基因組覆蓋深度統(tǒng)計。變異檢測和注釋:SNP、In Del的檢測和注釋。(5)關(guān)聯(lián)分析:通過計算突變體混池的基因型頻率確定與目標性狀關(guān)聯(lián)的區(qū)域。 候選SNP注釋:對關(guān)聯(lián)區(qū)域內(nèi)的SNP注釋,確定可能的突變位點。(7)候選基因注釋:對關(guān)聯(lián)區(qū)域內(nèi)的基因進行 GO、KEGG、COG、NR、S

4、wissProt數(shù)據(jù)庫注釋。1.2項目基本信息(1)樣品信息:樣品編號BMK編號野生型親本W(wǎng)突變體混池Mut注:BMK編號:百邁客對樣品的統(tǒng)一編號,實驗建庫和后續(xù)信息分析均使用該編號?;斐匾?guī)模:30+30;群體類型:F2群體;研究性狀:水稻千粒重(2)參考基因組信息:根據(jù)水稻的基因組大小以及 GC含量等信息,最終選取日本晴水稻基因組作為 參考基因組。具體信息如下所示:1. 測序物種信息:水稻(Oryza sativa),實際基因組大小為419.8 Mb,GC含 量為 45.67%;2. 參考物種信息:日本晴水稻(Oryza sativaindica)基因組,組裝出的基因 組大小為374.3 M

5、b,GC含量為43.56%,Scaffold N50為500Kb,該基因組 組裝到染色體水平,有基因注釋信息,版本號 為v7.0,下載地址: http:/rapdb.dna.affrc.go.jp厶1.3 項目執(zhí)行情況 樣品信息到位時間為2016年XX月XX日。(2) 樣品檢測合格時間為2016年XX月XX日。(3) 項目啟動時間為2016年XX月XX日。 項目分析完成時間為2016年XX月XX日。1.4 分析結(jié)果概述(1)數(shù)據(jù)質(zhì)控測序共獲得XXGbp數(shù)據(jù)量,過濾后得到的Clean Read為XXGbp , Q30達到80%, 平均每個樣品測序深度X。樣品與參考基因組平均比對效率為 XX%,平

6、均覆蓋深度 為X,基因組覆蓋度為XX% (至少一個堿基覆蓋)。(2) 變異檢測SNP檢測:樣品W、Mut之間共獲得XX個SNP,其中非同義突變的SNP共XX個。In Del檢測:樣品 W、Mut之間共獲得XX個Small In Del。(3) 關(guān)聯(lián)分析通過SNP-index關(guān)聯(lián)算法,共得到XX個與性狀相關(guān)的侯選SNP,其中非同義突 變SNP位點XX個,非同義突變基因XX個。172項目流程2.1實驗流程實驗流程按照Illumina公司提供的標準protocol執(zhí)行,包括樣品檢測、文庫構(gòu)建、文庫質(zhì)量檢測和上機測序,具體流程如下ClutLert diidPaired* Endr)Ajg聲確碎桶様復.

7、Ida,加接頭 + 輕接產(chǎn)物預實猛 片段選捧和PCR富星文岸繃比夬接買污僉+ 上機91洋實驗流程圖樣品檢測合格后,用超聲破碎的方法將 DNA隨機打斷成350bp的片段,DNA片 段經(jīng)末端修復、3端加A、加測序接頭、純化、PCR擴增完成測序文庫的構(gòu)建。文庫 經(jīng)質(zhì)檢合格后通過Illumina HiSeqTM4000進行測序。2.2信息分析流程信息分析的內(nèi)容包括:數(shù)據(jù)質(zhì)控(去除接頭和低質(zhì)量數(shù)據(jù))、與參考基因組比 對、變異檢測與注釋(SNP、In Del)、關(guān)聯(lián)分析、候選SNP及候選基因的注釋。Mutm ap生物信息分析具體流程如下圖所示:Mutmap生物信息分析流程圖3生物信息學分析方法和結(jié)果3.1

8、測序數(shù)據(jù)質(zhì)控3.1.1原始數(shù)據(jù)介紹高通量測序(如lllunima HiSeq 4000等測序平臺)得到的原始圖像數(shù)據(jù)文件,經(jīng) 堿基識別(Base Calling)分析轉(zhuǎn)化為原始測序序列(Sequeneed Reads,我們稱之 為Raw Data或Raw Reads結(jié)果以FASTQ (簡稱為fq)文件格式存儲,其中包含測序 序列(Reads的序列信息以及其對應的測序質(zhì)量信息。測序樣品中真實數(shù)據(jù)隨機截取結(jié)果如下:HWI-7001455:110: C3B41ACXX:4:1101:1401:2163 1:N:0: TAAGGCCTCTCTCCTATCTTTCCAACCATCTGATAACACCGA

9、ACATCCATATTGAGCCCACACTTCTTGATGATCTTTCAATATTTTATGATCCCFFFFFHHHHHJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJHHHHHHHFFFFFFFFEEEEEEFASTQ格式文件中每個Read由四行描述,其中第一行以“ 開頭,隨后為Mu mi na測序識別符(Seque nee Ide ntifiers)和描述文字(選擇性部分);第二行是 堿基序列;第三行以“ +”頭,隨后為Illumina測序識別符(選擇性部分);第四行 是對應序列的測序質(zhì)量。Illumina測序識別符(Seque

10、nee Identifier詳細信息見如下:Illumina測序標識詳細信息HWI-7001455110Unique instrument nameRun IDFlowcell IDC3B41ACXXFlowcell lane110114012163TAAGGCTile number within the flowcell lanex-coordinate of the cluster within the tile y-coordinate of the cluster within the tileMember of a pair, 1 or 2 (paired-end or mate-p

11、air reads only)Y if the read fails filter (read is bad), N otherwise0 when none of the control bits are on, otherwise it is an even numberIndex sequence通過使用第四行中每個字符對應的 ASCII值進行計算,即得到對應第二行堿基的測序質(zhì)量值。如果測序錯誤率用e表示,Illunima HiSeq 4000的堿基質(zhì)量值用Qphred表示,則有下列關(guān)系:Qphred =-10logio(e)lllu nima Casava 1.8版本測序錯誤率與測序質(zhì)

12、量值簡明對應關(guān)系如下表所示:測序錯誤率測序質(zhì)量值對應字符5%131%2050.1%30?0.01%40I堿基識別(Base Calling)分析軟件:Illunima Casava 1.8版本測序參數(shù):雙端測序(Paired end PE)測序序列讀長:151bp3.1.2堿基測序質(zhì)量分布每個堿基測序錯誤率是通過測序Phrec數(shù)值(Phred score, Qphred)得到,而Phrec數(shù)值是在堿基識別(Base Calling)過程通過一種預測堿基判別發(fā)生錯誤概率模 型計算得到的,對應關(guān)系如下表所顯示:Phred分值不正確的堿基識別堿基正確識別率101/1090%201/10099%301

13、/100099.9%401/1000099.99%在Hiseq4000測序系統(tǒng)測序時,首先會對文庫進行芯片制備,目的是將文庫DNA 模板固定到芯片上,在固定DNA模板的過程中,每個DNA分子會形成一個簇,一個 簇就是一個測序位點,在進行固定過程中極少量的簇與簇之間物理位置會發(fā)生重疊, 在測序時,測序軟件通過前4個堿基對這些重疊的點進行分析和識別,將這些重疊點位置分開,保證每個點測到的是一個 DNA分子,因此測序序列5端前幾個堿基的錯 誤率相對較高。另外測序錯誤率會隨著測序序列(Sequeneed Read)的長度的增加 而升高,這是由于測序過程中化學試劑的消耗而導致的。因此在進行堿基測序質(zhì)量

14、分布分析時,樣品的堿基質(zhì)量分布在前4個堿基和后十幾個堿基的質(zhì)量值會低于中間 測序堿基,但其質(zhì)量值都高于 Q30,根據(jù)質(zhì)量值和錯誤率的關(guān)系,我們將質(zhì)量值轉(zhuǎn) 換成錯誤率,繪制錯誤率分布圖如下:Rm日ds 合werag召 Error RateR01)on alCHng reads諭曙 qoEsJadE3樣品W各堿基比例分布注:橫坐標為reads的堿基位置,縱坐標為堿基所占的比例;不同顏色代表不同的堿基類型,綠色代表堿基G,藍色代表堿基C,紅色代表堿基A,紫色代表堿基T,灰色代表測序中識別不岀的堿基N。前151bp為雙端測序序列的第一端測序Reads的堿基分布,后151bp為另一端測序reads的堿基

15、分布。每個cycle代表測序的每個堿基,如 第一 cycle即表示該項目所有測序reads在第一個堿基的A、T、G、C、N的分布情況。該圖的結(jié)果顯示AT、CG堿基基本不發(fā)生分離,且曲線較平緩,說明測序結(jié)果正常。3.1.4低質(zhì)量數(shù)據(jù)過濾測序得到的原始測序序列(SequencedRead或者Raw Reads里面含有帶接頭的、低質(zhì)量的Reads,為了保證信息分析質(zhì)量,對Raw ReadS進行過濾,得到Clean Reads用于后續(xù)信息分析。數(shù)據(jù)過濾的主要步驟如下:去除帶接頭(adapte)的reads 若一條readskN (未能確定出具體的堿基類型)的比例大于 10%,則過濾掉該 Pair-e

16、nd reads(3)去除低質(zhì)量reads (質(zhì)量值CK 1(的堿基數(shù)占整條read的50%以上)。數(shù)據(jù)過濾統(tǒng)計結(jié)果見下表:數(shù)據(jù)過濾統(tǒng)計表BMKIDRaw_ReadsAdapter Related(%)Inferior percent(%)Clean_ReadsWMut注:BMK ID :百邁客對項目樣品的統(tǒng)一編號; Raw_Reads:原始測序reads數(shù); Adapter_Related :含接頭被過濾 的reads比例;Inferior_percent: N含量超過10%的reads和質(zhì)量值低于10的堿基超過50%的reads比例;Clean_Reads: 過濾后剩余的reads數(shù)。3.

17、1.5測序數(shù)據(jù)統(tǒng)計各樣品測序產(chǎn)出數(shù)據(jù)評估結(jié)果如下表所示:樣品測序數(shù)據(jù)評估統(tǒng)計BMKIDRaw_ReadsClean_ReadsClean_BaseQ20(%)GC(%)WMut注:BMK ID :百邁客對項目樣品的統(tǒng)一編號; Raw_Reads:原始測序reads數(shù)目,以四行為一個單位,統(tǒng)計Pair-end 序列的個數(shù);Clean_Reads:過濾后的reads數(shù),計算方法同Raw Reads; Clean_Bases:過濾后的堿基數(shù),Clean Reads 數(shù)乘以序列長度;Q30(%):質(zhì)量值大于等于30的堿基占總堿基數(shù)的百分比; GC(%):樣品GC含量,即G和C類 型的堿基占總堿基的百分

18、比。3.2與參考基因組比對統(tǒng)計重測序獲得的測序reads需要重新定位到參考基因組上,才可以進行后續(xù)變異分析。bwaf2軟件主要用于二代高通量測序(如Illunima HiSeq 4000等測序平臺)得到的短序列與參考基因組的比對。通過比對定位Clea n Reads在參考基因組上的位置,統(tǒng)計各樣品的測序深度、基因組覆蓋度等信息,并進行變異的檢測。3.2.1比對結(jié)果統(tǒng)計樣品的比對結(jié)果見下表:比對結(jié)果統(tǒng)計BMK IDTotal_readsMapped(%)Properly_mapped(%)WMut注:BMK ID :百邁客對項目樣品的統(tǒng)一編號; Total_Reads: Total_Reads數(shù)

19、,雙端分別統(tǒng)計,即read1和read2記 為2條reads; Mapped(%):定位到參考基因組的 Clean Reads數(shù)占所有 Clean Reads數(shù)的百分比;Properly mapped : 雙端測序序列均定位到參考基因組上且距離符合測序片段的長度分布。此項目樣品的平均比對效率均在 XX%以上,說明樣品測序正常。3.2.2插入片段分布統(tǒng)計通過檢測雙端序列在參考基因組上的起止位置,可以得到樣品DNA打斷后得到 的測序片段的實際大小,即插入片段大小(Insert Size),是信息分析時的一個重要參 數(shù)。插入片段大小的分布一般符合正態(tài)分布,且只有一個單峰,In sert Size分布

20、圖可以展示各個樣品的插入片段的長度分布情況。每個樣品測序數(shù)據(jù)插入片段大小分布的分析使用picard軟件工具包中 CollectI nsertSizeMetric.jar 軟件實現(xiàn)。Inaert size diSitributionInsart size-沖qFnu養(yǎng)宙樣品W插入片段分布圖注:橫坐標為插入片段長度,縱坐標為其對應的reads數(shù)。由上圖可知,插入片段長度分布符合正態(tài)分布,說明測序數(shù)據(jù)文庫構(gòu)建無異常。 323深度分布統(tǒng)計Read定位到參考基因組后,可以統(tǒng)計參考基因組上堿基的覆蓋情況。 參考基因 組上被reads覆蓋到的堿基數(shù)占基因組的百分比稱為基因組覆蓋度;堿基上覆蓋的 reads數(shù)

21、為覆蓋深度?;蚪M覆蓋度可以反映參考基因組上變異檢測的完整性,覆蓋到的區(qū)域越多, 可以檢測到的變異位點也越多。覆蓋度主要受測序深度以及樣品與參考基因組親緣 關(guān)系遠近的影響?;蚪M的覆蓋深度會影響變異檢測的準確性,在覆蓋深度較高的區(qū)域(非重復 序列區(qū)),變異檢測的準確性也越高。另外,若基因組上堿基的覆蓋深度分布較均 勻,也說明測序隨機性較好。樣品的堿基覆蓋深度分布曲線和覆蓋度分布曲線見下圖:8DJDI1030Sequencing depth卜0.0忠送 5nEno-0 芒y中 dJ.a.6421.O.0 o 0B oa樣品W的深度分布注:上圖反映了測序深度分布的基本情況,橫坐標為測序深度,左縱坐

22、標為該深度對應的堿基所占百分比,對 應紅色曲線,右縱坐標為該深度及以下的堿基所占百分比,對應藍色曲線。各樣品的平均覆蓋深度和各深度對應的基因組覆蓋比例如下表所示:樣品覆蓋深度和覆蓋度比例統(tǒng)計BMK IDAve_depthCov_ratio_1X(%)Cov_ratio_5X(%)Cov_ratio_10X(%)WMut注:BMK ID:百邁客對項目樣品的統(tǒng)一編號;Ave-depth :樣品平均覆蓋深度;Cov_ratio:覆蓋深度在給定深度及以上的堿基數(shù)占參考基因組總堿基數(shù)的比例。由上表可知,此項目基因組平均覆蓋深度約為 X,基因組覆蓋度約為XX% (至 少覆蓋1X )。根據(jù)染色體各位點的覆蓋

23、深度情況進行作圖,若覆蓋深度在染色體上的分布比 較均勻,則可以認為測序隨機性比較好。樣品的染色體覆蓋深度分布見下圖:It E its6諂Grrii樣品W染色體覆蓋深度分布圖注:橫坐標為染色體位置,縱坐標為染色體上對應位置的覆蓋深度取對數(shù)(Iog2)得到的值。由上圖可以看出基因組被覆蓋的較均勻,說明測序隨機性較好。圖上深度不均的地方可能是由于重復序列、PCR偏好性引起的。3.3 SNP檢測與注釋3.3.1樣品與參考基因組間SNP的檢測SNP的檢測主要使用GATK3軟件工具包實現(xiàn)。根據(jù)Clean Read在參考基因組的 定位結(jié)果,使用Picarcf4進行去重復(Mark Duplicates)、G

24、ATK進行局部重比對(Local Realignment)堿基質(zhì)量值校正(Base Recalibration)等預處理,以保證檢測得到的 SNP準確性,再使用GATK進行單核苷酸多態(tài)性(Single Nucleotide Polymorphism, SNP)的檢測,過濾,并得到最終的SNP位點集。主要檢測過程如下: 對于BWA比對得到的結(jié)果,使用Picard的Mark Duplicate工具去除重復,屏 蔽 PCR-duplicatio n 的影響。 使用GATK進行In Del Realig nment,即對存在插入缺失比對結(jié)果附近的位點 進行局部重新比對,校正由于插入缺失引起的比對結(jié)果錯

25、誤。(3)使用GATK進行堿基質(zhì)量值再校準(Base Recalibration),對堿基的質(zhì)量值 進行校正。(4)使用GATK進行變異檢測(varia nt calli ng),主要包括SNP和In Del。對SNP進行嚴格過濾:snp clusteM濾(5bp內(nèi)如果有2個 SNP則過濾掉),In del 附近SNP過濾(In Del附近5bp內(nèi)的SNP過濾掉);和相鄰INDEL過濾(兩個In Del距離 小于10bp過濾掉)5。具體流程可參考GATK官方網(wǎng)站的BestPractice/gatk/guide/best-practice

26、s?bpm=DNAseq#varia nt-dis covery-ovw變異結(jié)果使用vcf文件格式展示。vcf文件包括注釋行、標題行和數(shù)據(jù)行三部分。 其中注釋行包含文件數(shù)據(jù)行的INFO和FORMAT列中使用的各種標識符的意義解釋, 而標題行和數(shù)據(jù)行包含各樣品的變異檢測結(jié)果信息,格式如下所示:Mutmap 項目結(jié)題報告#CHR0MPOSIDRFIITEFORMATWIEFALTQUALRINFOChr15634GA140.84 PASSANNOTATIONSGT:AD:DP:GQ:PL1/1:0,6:6:18:169,18,0Chr130071AG141.84 PASSANNOTATIONSGT

27、:AD:DP:GQ:PL1/1:0,6:6:18:170,18,0Chr130478CT95.9PASSANNOTATIONSGT:AD:DP:GQ:PL1/1:0,5:5:15:124,15,0Chr132667AG91.03 PASSANNOTATIONSGT:AD:DP:GQ:PL1/1:0,4:4:12:119,12,0各列意義說明如下:1CHROMChr1參考序列的染色體名稱2POS5634參考序列位點坐標3ID標識符4REFG參考序列對應位置堿基5ALTASNP位點對應的另外類型的堿基6QUAL140.84變異位點質(zhì)量值7FILTERPASS過濾狀態(tài)8INFOANNOTATIONS

28、位點注釋信息9FORMATGT:AD:DP:GQ:PL基因型信息格式10R011/1:0,6:6:18:169,18,0樣品的基因型信息VCf文件的詳細說明信息見網(wǎng)頁:http:/gatkforums.broad in /discussi on/1268/how-should-i-i nterpret-vcf-files-pro duced-by-the-gatk為了確保樣本SNP的可信性,對樣本檢測的SNP的reads支持數(shù),相鄰SNP的距 離統(tǒng)計累積分布。OHSNP質(zhì)量分布圖注:左邊為 SNP reads支持數(shù)目累積圖,右邊為相鄰 SNP之間的距離累積圖。SNP類型的

29、變異分為轉(zhuǎn)換和顛換兩種,同種類型堿基之間突變稱為轉(zhuǎn)換(Tran sitio n),如嘌呤與嘌呤之間、嘧啶與嘧啶之間的變異,不同類型堿基之間的 突變稱為顛換(Transversion),如嘌呤與嘧啶之間的變異。一般來說轉(zhuǎn)換比顛換更 容易發(fā)生,故轉(zhuǎn)換/顛換(Ti/Tv )的比例一般大于1,具體數(shù)值和所測物種有關(guān)。對 于二倍體或者多倍體物種,若同源染色體上的某一SNP位點均為同一種堿基,貝U該SNP位點稱為純合SNP位點;若同源染色體上的SNP位點包含不同類型的堿基,則 該SNP位點稱為雜合SNP位點。純合SNP數(shù)量越多,則樣品與參考基因組之間差異 越大,雜合SNP數(shù)量越多,則樣品的雜合程度越高,具

30、體結(jié)果和樣品的材料選擇有 關(guān)。332樣品之間SNP的檢測根據(jù)樣品與參考基因組的比對結(jié)果,匯總樣品之間所有有差異的變異位點,各 樣品的SNP列表文件格式如下所示:各樣品SNP列表示意#ChrPosRefWMutchromosome_1240CCTchromosome_1248GGAchromosome_1422AATchromosome_1463CNTchromosome_1483TNCchromosome_1631CCTchromosome_1651TTC注:Chr: SNP位點所在的染色體名稱;Pos: SNP在參考序列的位置;Ref:各樣品在該SNP位點對應的堿基類型。參考序列的堿基類型;

31、W、Mut :SNP基因型的編碼米用標準核苷酸符口,號,符號表如下所示:核苷酸代碼意義核苷酸代碼意義AAdenosineMA C (aMino group)CCytosineSG C (Strong interaction)GGuanineWA T (Weak interaction)TThymidineBG T C (not A) (B comes after A)UUracilDG A T (not C) (D comes after C)RG A (puRine)HA C T (not G) (H comes after G)YT C (pYrimidine)VG C A (not T,

32、 not U) (V comes after U)KG T (Ketone)NA G C T (aNy)樣品間SNP的統(tǒng)計結(jié)果如下圖所示:R03R04樣品間SNP統(tǒng)計Venn圖注:變異位點數(shù)量venn統(tǒng)計只考慮位置是否相同,不考慮基因型是否相同。據(jù)統(tǒng)計,樣品W和Mut間共有XX個SNP。333 SNP結(jié)果注釋Sn pEff6是一款用于注釋變異(SNP、Small In Del)和預測變異影響的軟件。根 據(jù)變異位點在參考基因組上的位置以及參考基因組上的基因位置信息,可以得到變 異位點在基因組發(fā)生的區(qū)域(基因間區(qū)、基因區(qū)或CDS區(qū)等),以及變異產(chǎn)生的影響(同義非同義突變等)。軟件可以使用vcf格式

33、文件作為輸入和輸出。輸出結(jié)果會在 vcf文件的INFO列添 加以下字段:EFF= Effect ( Effect_lmpact | Fun ctio nal_Class | Codo n_Cha nge | Amino_Acid_Change| Amino_Acid_Length | Gene_Name | Transcript_BioType | Gen e_Codi ng | Tran script_ID | Exon_Ra nk | Ge no type_Number | ERRORS | WARNINGS )各標識符說明如下:類型意義Effect變異所在的區(qū)域或類型Effect imp

34、act變異影響大小(High, Moderate, Low, Modifier )Functional Class功能分類(NONE, SILENT, MISSENSE, NONSENSE )Codon_Change/Distance編碼改變(old_codon/new_codon )或者變異位點到轉(zhuǎn)錄本的距離(在基因 上下游區(qū)域)Amino_Acid_Change氨基酸編碼改變(原氨基酸類型、位置、改變后氨基酸類型)Amino_Acid_Length氨基酸編碼蛋白的長度(轉(zhuǎn)錄本長度/3)Gene_Name基因名Transcript_BioType轉(zhuǎn)錄本功能Gene_Coding編碼蛋白(CO

35、DING | NON_CODING)Transcript_ID轉(zhuǎn)錄本IDExon/Intron Rank外顯子或內(nèi)含子位次Genotype_Number變異的基因型位次Warnings/Errors警告或錯誤以上的結(jié)果若無法得到,則其對應列為空。具體說明可參見SnpEff的說明文檔:http:/s npeff.sourceforge. net/S npEff_ma nu al.html#output25本項目各樣品及樣品間的SNP注釋具體統(tǒng)計結(jié)果如下所示:SNP注釋結(jié)果統(tǒng)計TypeWMutW vs MutINTERGENICINTRAGENICINTRONUPSTREAMDOWNSTREAMS

36、PLICE_SITE_ACCEPTORSPLICE_SITE_DONORSTART_LOSTNON_SYNONYMOUS_STARTSYNONYMOUS_CODINGCDS NON_SYNONYMOUS_CODINGSYNONYMOUS_STOPSTOP_GAINEDSTOP_LOSTOther注:Type: SNP所在區(qū)域或類型; W、Mut為各樣品相對于參考基因組存在的對應類型的SNP數(shù)量,W vs Mut為兩個樣品間存在的對應類型的 SNP數(shù)量。各行意義說明如下表所示:INTERGENIC基因間區(qū)INTRAGENIC基因內(nèi)(無轉(zhuǎn)錄本信息)INTRON內(nèi)含子UPSTREAM基因上游區(qū)域(5

37、K以內(nèi))DOWNSTREAM基因下游區(qū)域(5K以內(nèi))SPLICE_SITE_ACCEPTOR剪切供體突變(exon前2bp內(nèi))SPLICE_SITE_DONOR剪切受體突變(exon后2bp內(nèi))NON_SYNONYMOUS_CODING非同義編碼突變NON_SYNONYMOUS_START非同義的起始密碼子突變START_LOST起始密碼子丟失STOP_GAINED終止密碼子獲得STOP_LOST終止密碼子丟失SYNONYMOUS_CODING同義編碼突變SYNONYMOUS_STOP同義終止密碼子突變Other由于gff文件中基因信息不完整而無法得到準確的判斷3.4 Small In Del

38、檢測與注釋3.4.1樣品與參考基因組間Small In Del的檢測根據(jù)樣品的Clean Read在參考基因組上的定位結(jié)果,檢測樣品與參考基因組之 間是否存在小片段的插入與缺失(Small In Del: 1-5bp)。樣品的插入缺失使用GATK 檢測。Small InDel變異一般比SNP變異少,同樣反映了樣品與參考基因組之間的差 異,并且編碼區(qū)的In Del會引起移碼突變,導致基因功能上的變化。3.4.2樣品之間Small In Del檢測根據(jù)樣品與參考基因組的Small InDei檢測結(jié)果,提取樣品之間有差異的變異位 點,即樣品之間的Small InDei變異位點。部分結(jié)果如下表所示:樣

39、品測序數(shù)據(jù)統(tǒng)計#CHROMPOSREFALTWMut各列意義說明如下:列數(shù)標題示例意義說明1CHROMLG1參考序列的染色體名稱2POS14890321參考序列位點坐標3REFC參考序列對應位置堿基序列4ALTCATInDel位點對應的另外類型的堿基序列56W、Mut0/0、0/1、1/1、./.各樣品對應的InDel類型(0/0 :純合且與參考基因組一 . 致;0/1:雜合類型;1/1:純合且與參考基因組不一 致;./.:不能確定)樣品間Small In Del的統(tǒng)計結(jié)果如下圖所示:R03R04樣品間Small In Del統(tǒng)計Venn圖注:變異位點數(shù)量venn統(tǒng)計只考慮位置是否相同(InD

40、el的起始位置),不考慮基因型是否相同據(jù)統(tǒng)計,樣品W和Mut間共有XX個In Del。3.4.3 Small In Del 的注釋根據(jù)樣品檢測得到的Small In Del位點在參考基因組上的位置信息,對比參考基 因組的基因、CDS位置等信息(一般在gff文件中),可以注釋In Del位點是否發(fā)生在基 Mutmap 項目結(jié)題報告因間區(qū)、基因區(qū)或CDS區(qū)、是否為移碼突變等。Small InDel的注釋通過SnpEff軟件 實現(xiàn)。發(fā)生移碼突變的In Del可能會導致基因功能的改變,具體注釋結(jié)果見下表:In Del注釋結(jié)果統(tǒng)計TypeWMutW vs MutINTERGENICINTRAGENICI

41、NTRONUPSTREAMDOWNSTREAMSPLICE_SITE_ACCEPTORSPLICE_SITE_DONORSTART_LOSTFRAME_SHIFTCODON_DELETIONCODON_INSERTIONCDSEXON_DELETIONCODON_CHANGE_PLUS_CODON_DELETIONCODON_CHANGE_PLUS_CODON_INSERTIONSTOP_GAINEDSTOP_LOSTOther注:Type : InDel所在區(qū)域或類型; W、Mut為各樣品相對于參考基因組存在的對應類型的InDel數(shù)量,W vs Mut為兩個樣品間存在的對應類型的 InDel

42、數(shù)量。Mutmap 項目結(jié)題報告INTERGENICINTRAGENICINTRONUPSTREAMDOWNSTREAMSPLICE_SITE_ACCEPTORSPLICE_SITE_DONORCODON_CHANGE_PLUS_CODON_DELE TIONCODON_CHANGE_PLUS_CODON_INSERTIONCODON_DELETIONCODON_INSERTIONEXON_DELETEDFRAME_SHIFTSTART_LOSTSTOP_GAINEDSTOP_LOSTOther基因間區(qū)基因內(nèi)(無轉(zhuǎn)錄本信息)內(nèi)含子基因上游區(qū)域(5K以內(nèi))基因下游區(qū)域(5K以內(nèi))剪切供體突變(e

43、xon前2bp內(nèi))剪切受體突變(exon后2bp內(nèi))非密碼子邊界上的3的整數(shù)倍的刪除非密碼子邊界上的3的整數(shù)倍的插入密碼子刪除(3的整數(shù)倍)密碼子插入(3的整數(shù)倍)整個外顯子被刪除移碼突變(非3的整數(shù)倍插入或刪除)起始密碼子丟失終止密碼子獲得終止密碼子丟失由于gff文件中基因信息不完整而無法得到準確的判斷393.5關(guān)聯(lián)分析3.5.1高質(zhì)量SNP篩選根據(jù)SNP檢測結(jié)果,樣品W和Mut共篩選到XX個SNP位點,在關(guān)聯(lián)分析之 前,首先對上述SNP位點進行過濾,過濾標準如下:1、過濾掉不是EMS誘變方向的SNP位點(G-A或C-T);2、深度過濾,純合SNP深度小于xx,雜合SNP深度小于xx的SNP

44、位點。SNP過濾統(tǒng)計Total SNP高質(zhì)量SNPW vs M280053.5.2關(guān)聯(lián)分析根據(jù)參考基因組信息,開發(fā)野生型親本的SNP位點,并將這些經(jīng)過過濾后的SNP位點替換回去形成新的參考基因組,根據(jù)新的參考基因組,開發(fā)并過濾突變型 混池的SNP位點,計算突變型混池每個 SNP的SNP-index值。SNP-index是近年來 發(fā)表的一種通過混池間的基因型頻率差異進行標記關(guān)聯(lián)分析的方法。計算方法簡述如下:SNP-index(Mut)= p x/( p X+p x)其中,Mut為子代的突變池,pX和px分別為野生型親本以及突變體的等位基 因在突變池中出現(xiàn)的reads數(shù)目。為了消除假陽性的位點,禾

45、U用標記在基因組上的 位置,可對同一條染色體上標記的SNP-index值進行擬合7,本項目并采用DISTANCE方法對 SNP-index進行擬合,取每個 SNP左右距離各2M的SNP的 SNP-index的中值作為該位點擬合后的關(guān)聯(lián)值。并根據(jù)關(guān)聯(lián)閾值,選擇閾值以上的 區(qū)域作為與性狀相關(guān)的區(qū)域。突變體混池的SNP-index的分布如下圖所示:樣品Mut SNP-index關(guān)聯(lián)值在染色體上的分布cwn注:橫坐標為染色體名稱,藍色的點代表計算出來的SNP-index值,紅色的線為擬合后的 SNP-index值,黃色的線代表置信度為0.99的閾值線,綠色的線代表置信度為 0.95的閾值線,其中紅色曲

46、線高岀閾值線的部分即為 關(guān)聯(lián)區(qū)域。根據(jù)本項目群體的理論分離比,計算關(guān)聯(lián)閾值為XX。根據(jù)計算機模擬實驗計算結(jié)果,當置信度為 0.95時,定位得到候選SNP位點 共XX個,候選基因XX個。理論上,目標位點及其附近的連鎖位點應趨近于該閾值,因此顯著關(guān)聯(lián)的區(qū)域 附近應該出現(xiàn)一個較高的峰值。但從結(jié)果上看,沒有超過理論閾值的區(qū)域,說明本 實驗中沒有發(fā)現(xiàn)顯著的定位結(jié)果。為了充分利用數(shù)據(jù),將閾值降低以尋找比較可能 的定位區(qū)域,利用擬合后 SNP-index的99百分位數(shù),即XXX,最終得到候選SNP位點共XX個,候選基因XX個。候選SNP信息統(tǒng)計表Chromosome IDPosTypeGeneChr02C-

47、TTotal注:Chromosome ID :染色體編號;Pos:染色體上的位置;Type: SNP突變類型;Gene:該SNP所在的基因3.6候選區(qū)域的功能注釋3.6.1候選區(qū)域的SNP注釋本項目候選SNP注釋結(jié)果見下表:候選SNP注釋結(jié)果統(tǒng)計TypeW vs MutINTERGENICINTRAGENICINTRONUPSTREAMDOWNSTREAMSPLICE_SITE_ACCEPTORSPLICE_SITE_DONORSTART_LOSTNON_SYNONYMOUS_STARTSYNONYMOUS_CODINGCDSNON_SYNONYMOUS_CODINGSYNONYMOUS_ST

48、OPSTOP_GAINEDSTOP_LOSTOther注:Type: SNP所在區(qū)域或類型; Wvs Mut為兩個樣品間對應類型的候選SNP數(shù)量。據(jù)統(tǒng)計,野生型親本間和突變體混池間存在非同義突變的SNP共XX個,這些SNP很有可能與性狀直接相關(guān),這些 SNP所在的基因我們稱之為非同義突變基因, 共XX個,樣品間非同義突變SNP信息詳見下表:候選非同義突變SNP結(jié)果SampleChrPositi onTypeGeneW vs MutChr824006415C-TL0C_0s08g37904注:Sample:樣品編號;Chr:染色體編號;Position : SNP在染色體上的位置;Type: S

49、NP突變類型;Gene:發(fā)生非同義突變的基因。3.6.2候選區(qū)域的基因注釋應用BLAST軟件對候選區(qū)間內(nèi)的編碼基因進行多個數(shù)據(jù)庫(NR9、Swiss-Prot、GO10、KEGG11、COG12)的深度注釋。通過詳細的注釋,快速篩選候選基因。 候選區(qū)域內(nèi)共注釋到39個基因,其中在野生型親本和突變體混池間存在非同義突變 基因共注釋到XX個,注釋結(jié)果見下表:候選基因注釋統(tǒng)計表Anno tated databasesGene NumNon S yn Ge ne NumNR33Swiss-Prot22GO14KEGG16COG21Total39注:Annotated databases功能注釋數(shù)據(jù)庫;

50、Gene Number:在相應數(shù)據(jù)庫有注釋信息的候選區(qū)域基因數(shù);Non_SynGene Num:候選區(qū)域內(nèi)樣品間存在非同義突變的基因數(shù)。候選基因的GO富集分析GO數(shù)據(jù)庫是一個結(jié)構(gòu)化的標準生物學注釋系統(tǒng),建立了基因及其產(chǎn)物功能的標 準詞匯體系,適用于各個物種。該數(shù)據(jù)庫結(jié)構(gòu)分為多個層級,層級越低,節(jié)點所代 表的功能越具體。通過 GO分析并按照Cellular component、Molecular Function、 Biological process對基因進行分類。候選基因GO分類統(tǒng)計結(jié)果見下圖:gbIuM tdrmononlmmoiAr fmsllnnbiwiQKai Froc

51、ess孑 mint候選基因GO注釋聚類圖注:橫坐標為GO各分類內(nèi)容,縱坐標左邊為基因數(shù)目所占百分比,右邊為基因數(shù)目。此圖展示的是關(guān)聯(lián)區(qū)域 內(nèi)所有基因背景下GO各二級功能的基因分類情況。topGO有向無環(huán)圖能直觀展示關(guān)聯(lián)區(qū)域內(nèi)基因富集的 GO term及其層級關(guān)系 有向無環(huán)圖為關(guān)聯(lián)區(qū)域內(nèi)基因 GO富集分析結(jié)果的圖形化展示方式,分支代表包含 關(guān)系,從上至下所定義的功能范圍越來越具體。候選基因的Cellular component的topGO有向無環(huán)圖如下:候選基因的Cellular componenttopGO有向無環(huán)圖分析注:對每個GO節(jié)點進行富集,最顯著的10個節(jié)點在圖中用方框表示,圖中還包含其各層對應關(guān)系。每個方框 (或橢圓)內(nèi)給岀了該 GO節(jié)點的內(nèi)容描述和富集顯著性值。不同顏色代表不同的富集顯著性,顏色越深,顯 著性越高。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論