轉(zhuǎn)錄組ref作業(yè)流程工作基礎(chǔ)手冊_第1頁
轉(zhuǎn)錄組ref作業(yè)流程工作基礎(chǔ)手冊_第2頁
轉(zhuǎn)錄組ref作業(yè)流程工作基礎(chǔ)手冊_第3頁
轉(zhuǎn)錄組ref作業(yè)流程工作基礎(chǔ)手冊_第4頁
轉(zhuǎn)錄組ref作業(yè)流程工作基礎(chǔ)手冊_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

轉(zhuǎn)錄組ref步驟工作手冊一、Reference步驟生物學原理1.1試驗步驟圖一:轉(zhuǎn)錄組試驗步驟當我們得到樣品時,必需對其測序,才能得到分析所需數(shù)據(jù)。測序基礎(chǔ)過程:提取樣品總RNA后,用帶有Oligo(dT)磁珠富集真核生物mRNA(若為原核生物,則用試劑盒去除rRNA后進入下一步)。加入fragmentationbuffer將mRNA打斷成短片段,以mRNA為模板,用六堿基隨機引物(randomhexamers)合成第一條cDNA鏈,然后加入緩沖液、dNTPs、RNaseH和DNApolymeraseI合成第二條cDNA鏈,在經(jīng)過QiaQuickPCR試劑盒純化并加EB緩沖液洗脫以后做末端修復并連接測序接頭,然后用瓊脂糖凝膠電泳進行片段大小選擇,最終進行PCR擴增,使用建好測序文庫進行測序。得到RNA序列后,又能夠找到它參考序列(物種本身基因、基因組)時,能夠用reference步驟對數(shù)據(jù)進行具體分析。Reference后面全部步驟全部是基于參考序列進行,所以選擇正確參考序列十分關(guān)鍵。1.2信息分析步驟得到測序序列后,即可利用比對軟件,將所測序列比對到參考基因或基因組上,并進行后續(xù)分析,信息分析步驟圖以下:圖二:轉(zhuǎn)錄組信息步驟1.2.1原始fq序列介紹測序得到原始圖像數(shù)據(jù)經(jīng)basecalling轉(zhuǎn)化為序列數(shù)據(jù),我們稱之為rawdata或rawreads,結(jié)果以fastq文件格式存放,fastq文件為用戶得到最原始文件,里面存放reads序列和reads測序質(zhì)量。在fastq格式文件中每個read由四行描述:@readIDTGGCGGAGGGATTTGAACCC+bbbbbbbbabbbbbbbbbbb每個序列共有4行,第1行和第3行是序列名稱(有fq文件為了節(jié)省存放空間會省略第三行“+”后面序列名稱),由測序儀產(chǎn)生;第2行是序列;第4行是序列測序質(zhì)量,每個字符對應第2行每個堿基,第四行每個字符對應ASCII值減去64,即為該堿基測序質(zhì)量值,比如h對應ASCII值為104,那么其對應堿基質(zhì)量值是40。堿基質(zhì)量值范圍為0到40。REF_Ref\h表1為Solexa測序錯誤率和測序質(zhì)量值簡明對應關(guān)系,具體計算公式以下:Qphred=-10log10(e)表SEQ表\*ARABIC1Solexa測序錯誤率和測序質(zhì)量值簡明對應關(guān)系測序錯誤率測序質(zhì)量值對應字符5%13M1%20T0.1%30^0.01%40h1.2.2原始fq序列處理一些原始序列帶有adaptor序列,或含有少許低質(zhì)量序列。我們首先經(jīng)過一系列數(shù)據(jù)處理以去除雜質(zhì)數(shù)據(jù),得到Cleanreads。按以下步驟進行處理:去除含adaptorreads去除N百分比大于10%reads去除低質(zhì)量reads(質(zhì)量值Q<=5堿基數(shù)占整個read50%以上)取得Cleanreads原始序列數(shù)據(jù)經(jīng)過去除雜質(zhì)后得到數(shù)據(jù)稱為Cleanreads,后續(xù)分析全部基于Cleanreads1.2.3比對使用短reads比對軟件SOAP2/SOAPaligner{Li,#155}將cleanreads分別比對到參考基因組和參考基因序列(許可兩個堿基錯配)。經(jīng)過這一步驟,我們能夠?qū)y序得到reads對應到基因及基因組上,后續(xù)分析全部是基于上述比對結(jié)果。1.2.4基礎(chǔ)生物信息分析結(jié)果基礎(chǔ)信息分析結(jié)果包含以下內(nèi)容:1測序數(shù)據(jù)產(chǎn)量及和Reference比對結(jié)果概述統(tǒng)計數(shù)據(jù)量大小,得到測序數(shù)據(jù)產(chǎn)量;對soap結(jié)果進行處理得到測序數(shù)據(jù)和Reference序列比正確概況。2評價測序隨機性在轉(zhuǎn)錄組試驗過程中,首先要經(jīng)過物理或化學方法將轉(zhuǎn)錄本打斷成短片段,然后上機測序。假如打斷隨機性差,reads偏向于來自基因特定區(qū)域,將會直接影響轉(zhuǎn)錄組各項分析結(jié)果。利用reads在基因上分布來評價打斷隨機性。因為不一樣參考基因有不一樣長度,我們把reads在基因上位置標準化到相對位置(reads在基因上位置和基因長度比值),然后統(tǒng)計基因不一樣位置比對上reads數(shù)。假如打斷隨機性好,reads在基因各部位應分布得比較均勻。3基因覆蓋度、測序深度分布基因測序覆蓋度指每個基因被reads覆蓋百分比,其值等于基因中uniquemappingreads覆蓋堿基數(shù)跟基因編碼區(qū)全部堿基數(shù)比值。測序深度指基因被reads覆蓋次數(shù),其值等于reads覆蓋到基因堿基數(shù)和基因編碼區(qū)全部堿基數(shù)比值。4Reads在參考基因組上分布該分析關(guān)鍵是以圖形方法概括給出Reads在基因組各個位置分布情況,和該位置基因分布情況。1.2.5高級生物信息分析結(jié)果高級生物信息分析包含以下結(jié)果:1對基因結(jié)構(gòu)進行優(yōu)化經(jīng)過比較測序結(jié)果和現(xiàn)有基因注釋結(jié)果,對基因5'端或3'端進行延長。圖三所表示,首先,將reads比對到基因組,提取基因組中被uniquemappingreads覆蓋次數(shù)大于或等于某閾值(默認為2)且位置連續(xù)區(qū)域作為轉(zhuǎn)錄活性區(qū)(TranscriptionActiveRegion,TAR,圖中藍色方塊區(qū)域);然后經(jīng)過paired-endreads(圖中紫色線條)將不一樣TAR連接形成潛在genemodel;最終,經(jīng)過比較潛在genemodel和現(xiàn)有基因注釋差異,對基因5'端和3'端進行延長(圖中表現(xiàn)僅是基因3’端發(fā)生延長情況)。圖三:基因結(jié)構(gòu)優(yōu)化2判定基因可變剪切可變剪切使一個基因產(chǎn)生多個mRNA轉(zhuǎn)錄本,不一樣mRNA可能翻譯成不一樣蛋白。所以,經(jīng)過可變剪切一個基因可能產(chǎn)生多個蛋白,極大地增加了蛋白多樣性{Black,#6}{Stamm,#21;Lareau,#22}。即使已知可變剪切在真核生物中普遍存在,但我們可能仍低估了可變剪切百分比,最近,基于高通量測序可變剪切研究在人{Pan,#3}{Wang,#4}{Sultan,#5}、小鼠{Tang,#18;Mortazavi,#19}、擬南芥{Filichkin,#156}中發(fā)覺了很多新可變剪切事件。在生物體內(nèi),關(guān)鍵存在7種可變剪切類型:A)Exonskipping;B)Intronretention;C)Alternative5’splicesite;D)Alternative3’splicesite;E)Alternativefirstexon;F)Alternativelastexon;G)Mutuallyexclusiveexon.下圖是我們利用高通量測序數(shù)據(jù)判別出來7種可變剪切。圖中每個位置ExP.Level等于log2(Reads數(shù))。圖四:可變剪切示意圖A)ExonSkipping.基因AK070385發(fā)生可變剪切形成兩種不一樣轉(zhuǎn)錄本,第1種轉(zhuǎn)錄本比第2種轉(zhuǎn)錄組本多一個外顯子(exon),我們將這種外顯子稱為inclusiveexon,inclusiveexon兩側(cè)兩個外顯子稱為constitutiveexon。B)Intronretention.基因AK072590發(fā)生可變剪切形成兩種不一樣轉(zhuǎn)錄本,第2種轉(zhuǎn)錄本由retainedIntron和兩側(cè)外顯子一起形成新外顯子。C)Alternative5’splicesite.基因AK067602發(fā)生可變剪切形成兩種不一樣轉(zhuǎn)錄本,它們3’端剪切位點一致但5’端剪切位點不一樣。D)Alternative3’splicesite.基因AK067602發(fā)生可變剪切形成兩種不一樣轉(zhuǎn)錄本,它們5’端剪切位點一致但3’端剪切位點不一樣。E)AlternativeFirstExon.基因AK068497發(fā)生可變剪切形成兩種不一樣轉(zhuǎn)錄本,它們不一樣之處于于第一個外顯子不一樣。F)AlternativeLastExon.基因AK064908發(fā)生可變剪切形成兩種不一樣轉(zhuǎn)錄本,它們不一樣之處于于最終一個外顯子不一樣。G)MutuallyExclusiveExon.基因AK101575發(fā)生可變剪切形成兩種不一樣轉(zhuǎn)錄本,兩轉(zhuǎn)錄本之間相同外顯子稱為constitutiveexon,不一樣外顯子稱為inclusiveexon,兩個inclusiveexon不能同時存在和同一轉(zhuǎn)錄本中,只能分別存在于不一樣轉(zhuǎn)錄本中。下面,概述檢測可變剪切算法。首先,我們使用軟件“tophat”{Trapnell,#1}判定轉(zhuǎn)錄本剪切位點(junctionsite)(使用軟件默認參數(shù)),剪切位點給出了轉(zhuǎn)錄本不一樣外顯子邊界及組合關(guān)系,圖五,我們檢測到三個剪切位點,分別表明Exon1和Exon2連接在一起,Exon2和Exon3連接在一起,Exon1和Exon3連接在一起。圖五剪切位點示意圖然后,經(jīng)過分析同一基因全部剪切位點,找出多種可變剪切事件。分析算法以下:A)ExonSkipping.圖六ExonSkipping算法示意圖轉(zhuǎn)錄本1和轉(zhuǎn)錄本2分別同時檢測到圖六所表示三個剪切位點,可認為轉(zhuǎn)錄本1Exon1、Exon2和Exon3存在ExonSkipping剪切方法;轉(zhuǎn)錄本2Exon1、Exon3和Exon4也存在ExonSkipping剪切方法。B)IntronRetention圖七IntronRetention算法示意圖圖七所表示,1)檢測到Junction1存在,表明在某個成熟mRNA中Exon1和Exon2之間Intron被剪切下來;2)Exon1和Exon2之間Intron有90%以上區(qū)域全部有uniquemappingreads覆蓋,說明在某個成熟mRNA中該intron被保留下來了(考慮到轉(zhuǎn)錄exon通常也不是100%被reads覆蓋到,所以在這里以90%為閾值)。若同時滿足以上兩個條件,則認為該基因Exon1和Exon2之間存在IntronRetention可變剪切方法。C)Alternative5’SpliceSite圖八Alternative5’SpliceSite算法示意圖圖八,一個轉(zhuǎn)錄本Junction1位點被檢測到,而且Junction2和Junction3中有一個被檢測到(它們共同點是3’剪切位點和Junction1相同,但5’剪切位點和Junction1不一樣),那么就認為Exon1和Exon2存在Alternative5’SpliceSite剪切方法。D)Alternative3’SpliceSite圖九Alternative3’SpliceSite算法示意圖圖九,一個轉(zhuǎn)錄本Junction1位點被檢測到,而且Junction2和Junction3中有一個被檢測到(它們共同點是5’剪切位點和junction1相同,但3’剪切位點和junction1不一樣),那么就認為Exon1和Exon2存在Alternative3’SpliceSite剪切方法。E)AlternativeFirstExon圖十AlternativeFirstExon算法示意圖圖十,首先,要求檢測到圖所表示兩個junction位點;其次,不能檢測到支持Exon1和Exon2和5’端Exons有連接junction位點。要求以上兩個條件同時滿足,且這種情況出現(xiàn)在轉(zhuǎn)錄本最5’端,但不要求Exon1為這個轉(zhuǎn)錄本第一個外顯子,也不要求被junction連接外顯子全部是相鄰,如轉(zhuǎn)錄本2中Exon2和Exon4。所以,圖中轉(zhuǎn)錄本1Exon1、Exon2和Exon3存在AlternativeFirstExon可變剪切方法,轉(zhuǎn)錄本2中Exon1、Exon2和Exon4也存在AlternativeFirstExon可變剪切方法。F)AlternativeLastExon圖十一AlternativeLastExon算法示意圖圖十一,轉(zhuǎn)錄本1為例,首先,要求檢測到圖所表示兩個junction位點(Junction1和Junction2);其次,不能檢測到支持Exon1和Exon2和3’端Exons有連接junction位點。要求以上兩個條件同時滿足,且這種情況出現(xiàn)在轉(zhuǎn)錄本最3’端,但不要求Exon3為這個轉(zhuǎn)錄本最終一個外顯子,也不要求被junction連接外顯子全部是相鄰,如轉(zhuǎn)錄本2中Exon1和Exon4。所以,圖中轉(zhuǎn)錄本1Exon1、Exon2和Exon3存在AlternativeLastExon可變剪切方法,轉(zhuǎn)錄本2中Exon1、Exon3和Exon4也存在AlternativeLastExon可變剪切方法。G)MutuallyExclusiveExon圖十二MutuallyExclusiveExon算法示意圖檢測到圖十二所表示四個junction位點,且不能檢測到支持Exon2和Exon3有連接位點junction位點,則認為該轉(zhuǎn)錄本Exon1、Exon2、Exon3和Exon4之間存在MutuallyExclusiveExon可變剪切方法。3發(fā)覺新轉(zhuǎn)錄本現(xiàn)有數(shù)據(jù)庫中對轉(zhuǎn)錄本注釋可能還不全方面,經(jīng)過高通量測序我們能檢測到新轉(zhuǎn)錄本{Mortazavi,#103}。我們首先從潛在genemodel中挑選出長度大于150bp且平均覆蓋度大于2genemodel,再從中找出在基因間區(qū)域(一個基因3’端下游200bp到下一個基因5’端上游200bp之間區(qū)域)潛在genemodel作為候選新轉(zhuǎn)錄本。4基因結(jié)構(gòu)和Reads在基因組上分布正確圖形該分析關(guān)鍵是以圖形方法概括給出Reads在基因組各個位置分布情況,和該位置基因分布情況。我們畫出Reads在最長25條染色體上分布圖,該圖為SVG矢量圖,假如你瀏覽器不支持SVG,請安裝SVGView插件。5基因差異表示分析5.1基因表示量基因表示量計算使用RPKM法(ReadsPerKbperMillionreads){Mortazavi,#103},其計算公式為:設(shè)RPKM(A)為基因A表示量,則C為唯一比對到基因Areads數(shù),N為唯一比對到基因組總reads數(shù),L為基因A編碼區(qū)堿基數(shù)。RPKM法能消除基因長度和測序量差異對計算基因表示影響,計算得到基因表示量可直接用于比較不一樣品間基因表示差異。假如一個基因存在多個轉(zhuǎn)錄本,則用該基因最長轉(zhuǎn)錄本計算其測序覆蓋度和表示量。5.2差異分析差異表示分析找出在不一樣本間存在差異表示基因,并對差異表示基因做GO功效分析和KEGGPathway分析。參考AudicS.等人發(fā)表在GenomeResearch上基于測序差異基因檢測方法{Audic,1997#8}(該文件已被引用超出五百次),我們開發(fā)了嚴格算法篩選兩樣本間差異表示基因。假設(shè)觀察到基因A對應reads數(shù)為x,已知在一個大文庫中,每個基因表示量只占全部基因表示量一小部分,在這種情況下,p(x)分布服從泊松分布:已知,樣本一中唯一比對到基因組總reads數(shù)為N1,樣本二中唯一比對到基因組總reads數(shù)為N2,樣本一中唯一比對到基因A總reads數(shù)為x,樣本二中唯一比對到基因A總reads數(shù)為y,則基因A在兩樣本中表示量相等概率可由以下公式計算:然后,我們對差異檢驗pvalue作多重假設(shè)檢驗校正,經(jīng)過控制FDR(FalseDiscoveryRate)來決定pvalue域值。假設(shè)挑選了R個差異表示基因,其中S個是真正有差異表示基因,另外V個是其實沒有差異表示基因,為假陽性結(jié)果。期望錯誤百分比Q=V/R平均而言不能超出某個能夠容忍值,比如1%,則在統(tǒng)計時預先設(shè)定FDR不能超出0.01(Benjamini,Yekutieli.)。在得到差異檢驗FDR值同時,我們依據(jù)基因表示量(RPKM值)計算該基因在不一樣本間差異表示倍數(shù)。FDR值越小,差異倍數(shù)越大,則表明表示差異越顯著。在我們分析中,差異表示基因定義為FDR≤0.001且倍數(shù)差異在2倍以上基因。得到差異表示基因以后,我們對差異表示基因做GO功效分析和KEGGPathway分析。GO功效分析首先給出差異表示基因GO功效分類注釋;其次給出差異表示基因GO功效顯著性富集分析。GO功效分類注釋給出含有某個GO功效基因列表及基因數(shù)目統(tǒng)計。GO功效顯著性富集分析給出和基因組背景相比,在差異表示基因中顯著富集GO功效條目,從而給出差異表示基因和哪些生物學功效顯著相關(guān)。該分析首先把全部差異表示基因向GeneOntology數(shù)據(jù)庫()各個term映射,計算每個term基因數(shù)目,然后應用超幾何檢驗,找出和整個基因組背景相比,在差異表示基因中顯著富集GO條目,其計算公式為其中,N為全部基因中含有GO注釋基因數(shù)目;n為N中差異表示基因數(shù)目;M為全部基因中注釋為某特定GOterm基因數(shù)目;m為注釋為某特定GOterm差異表示基因數(shù)目。計算得到pvalue經(jīng)過Bonferroni校正以后,以correctedpvalue≤0.05為閾值,滿足此條件GOterm定義為在差異表示基因中顯著富集GOterm。經(jīng)過GO功效顯著性富集分析能確定差異表示基因行使關(guān)鍵生物學功效。我們GO功效分析同時整合了表示模式聚類分析,研究人員能方便地看到含有某一功效全部差異基因表示模式。例,immuneresponse為在差異表示基因中最顯著富集一個GOterm(REF_Ref\h表2)。圖十三顯示了參與immuneresponse差異基因表示模式。表SEQ表\*ARABIC2

在差異表示基因中顯著富集GO-termlog2Ratio圖十三參與immuneresponse差異基因表示模式聚類圖KEGGPathway分析在生物體內(nèi),不一樣基因相互協(xié)調(diào)行使其生物學功效,基于Pathway分析有利于更深入了解基因生物學功效。KEGG是相關(guān)Pathway關(guān)鍵公共數(shù)據(jù)庫{Kanehisa,#96},Pathway顯著性富集分析以KEGGPathway為單位,應用超幾何檢驗,找出和整個基因組背景相比,在差異表示基因中顯著性富集Pathway。該分析計算公式同GO功效顯著性富集分析,在這里N為全部基因中含有Pathway注釋基因數(shù)目;n為N中差異表示基因數(shù)目;M為全部基因中注釋為某特定Pathway基因數(shù)目;m為注釋為某特定Pathway差異表示基因數(shù)目。FDR≤0.05Pathway定義為在差異表示基因中顯著富集Pathway。經(jīng)過Pathway顯著性富集能確定差異表示基因參與最關(guān)鍵生化代謝路徑和信號轉(zhuǎn)導路徑。結(jié)果如REF_Ref\h表3所表示。表SEQ表\*ARABIC3

pathway顯著性富集分析列表各列意義以下:#序號Pathway通路名DEGswithpathwayannotation(2085)注釋到該通路差異表示基因數(shù)目Allgeneswithpathwayannotation(8986)注釋到該通路全部基因數(shù)目Pvalue超幾何檢驗P值QvalueQ值(Q≤0.05為在差異表示基因中顯著富集Pathway)PathwayIDKEGG數(shù)據(jù)庫中PathwayID注:Qvalue≤0.05pathway在差異表示基因中顯著富集,見表中紅框所表示。差異表示基因pathway顯著性富集分析不僅得到最有意義pathway列表,點擊其中pathway鏈接還將得到KEGG數(shù)據(jù)庫中pathway具體信息,如點擊REF_Ref\h表3第一列第三行Bcellreceptorsignalingpathway,能夠看到圖十四所表示具體信息,上調(diào)基因所在位置用紅色標識,下調(diào)基因所在位置用綠色標識。圖十四KEGG數(shù)據(jù)庫中Bcellreceptorsignalingpathway具體信息二、Reference工作步驟工作步驟以下:2.1前期工作創(chuàng)建項目目錄:因為每個子項目全部有自己子項目代碼,且名字簡練,提議使用子項目代碼為項目創(chuàng)建目錄,伴隨手頭做過項目標增加,假如有需要,提議先以時期為依據(jù)創(chuàng)建大目錄,再在其下創(chuàng)建項目目錄;2)項目統(tǒng)計:伴隨項目標增加,所需記得項目各方面信息內(nèi)容也會增加,假如需要話,提議使用excel電子表格統(tǒng)計平時項目信息,以方便查詢,包含:項目名稱、子項目代碼、項目結(jié)果路徑、開始時間、階段性進展、結(jié)束時間、截止時間、網(wǎng)址鏈接等等;2.2寫工作文件1)文件模板依據(jù)信息任務(wù)描述,選好兩個文件模板,放于所創(chuàng)建項目目錄下;2)找fq文件方法1:(依據(jù)文庫名查找)find/share/fqdata10/solexa/-name"*ARAcqfTARAAPE*fq"查找結(jié)果:/share/fqdata10/solexa/HSZ09076_ARAcqfT_transcriptome_Transcriptome/ARAcqfTARAAPE/100114_I649_0002_FC42T26AAXX/100114_I649_FC42T26AAXX_L7_ARAcqfTARAAPE/100114_I649_FC42T26AAXX_L7_ARAcqfTARAAPE_1.fq/share/fqdata10/solexa/HSZ09076_ARAcqfT_transcriptome_Transcriptome/ARAcqfTARAAPE/100114_I649_0002_FC42T26AAXX/100114_I649_FC42T26AAXX_L7_ARAcqfTARAAPE/100114_I649_FC42T26AAXX_L7_ARAcqfTARAAPE_2.fq方法2:(依據(jù)項目編號查找)cd/share/fqdata10/solexa/cdHSZ09076敲入tab鍵查找結(jié)果:dr-xr-xr-x3solexasolexa41Jan2513:28ARAcqfTARAAPEdr-xr-xr-x3solexasolexa41Jan2513:28ARAcqfTBRAAPE方法3:(依據(jù)子項目代碼查找)cd/share/fqdata10/solexa/cd*_ARAcqfT_*查找結(jié)果:dr-xr-xr-x3solexasolexa41Jan2513:28ARAcqfTARAAPEdr-xr-xr-x3solexasolexa41Jan2513:28ARAcqfTBRAAPE數(shù)據(jù)存放路徑:通常在以下多個庫中:/share/fqdata12/solexa/(2-3月數(shù)據(jù))/share/fqdata10/solexa/(1-2月數(shù)據(jù))/share/fastdata1/solexa(11月份下機數(shù)據(jù))/share/solid2/solexa-work/Project_solexa_fq(10-11月份下機數(shù)據(jù))/share/solid1/solexa-work/Project_solexa_fq(9-10月份下機數(shù)據(jù))以下是9月之前能夠查找:/share/raid007/solexa-work/Project_solexa_fq/share/raid009/solexa-work/Project_solexa_fq/share/raid7/solexa-work/Project_solexa_fq3)找參考序列(包含參考基因組、參考基因、psl文件) 如合作伙伴提供參考序列,則使用合作伙伴提供參考序列。如合作伙伴未提供,找到相關(guān)數(shù)據(jù)后,將鏈接發(fā)送給合作伙伴確定可行后方能使用。4)依據(jù)要求修改模板不熟悉各個參數(shù)作用,能夠輸入以下代碼查看程序幫助: Perl/ifs1/DGE_SR/hezengquan/bin/ref/reference_transcriptome_pipeline.pl /ifs1/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/soap2.3投任務(wù)運行運行文件shmaid.shcdresult/nohupsh *_final.sh >*_final.sh.nohup&2.4查看任務(wù)進展操作任務(wù)命令行:查看個人全部在跑任務(wù):qstat-u*(用戶是*)查看某一個在跑任務(wù):qstat-j24832|less(任務(wù)號是24832)殺掉個人全部在跑任務(wù):qdel-u*殺掉某一個在跑任務(wù):qdel24832假如是因為某一個運行文件犯錯造成需要殺掉所要相關(guān)在跑任務(wù),應該先殺掉這個在公共節(jié)點上跑任務(wù)如:上面*_final.sh犯錯了,能夠按以下步驟處理:top-udaichm按c鍵查看具體信息,找出所要殺掉任務(wù),假設(shè)*_final.sh對應任務(wù)號是23849則可按k鍵,輸入工作號,回車然后按9再回車即可殺掉該任務(wù),再去做上面操作。查看整個任務(wù)進展:查看*_final.sh.nohup進入part_shell目錄,查看對應任務(wù)運行信息,關(guān)鍵有能夠查看以下多個文件:*.globle*.log進入下一層目錄,查看.o和.e文件。找出問題所在并進行處理。2.5任務(wù)完成1)結(jié)果檢驗: a,結(jié)題匯報是否完整生成?b,打包數(shù)據(jù)中,相關(guān)文件是否齊全?c,分析要求是否全部做好了,差異分析有沒有遺漏?d,有沒有空文件產(chǎn)生?2)數(shù)據(jù)備份:因為各方面原因,產(chǎn)生數(shù)據(jù)有可能會丟失,提議對部分關(guān)鍵數(shù)據(jù)在相對穩(wěn)定盤陣里做多一個備份,以免發(fā)生無須要大麻煩。三、Reference步驟程序模塊說明配置文件:ref.lib主程序腳本:maid.shperlreference_transcriptome_pipeline.pl-namehuyang-libref.lib-outdir/ifs1/DGE_SR/daichm/project/HUYlfvT/result-diff-filter-2bwt-soap2.20-genomePopulus_euphratica.0114.genome-genePopulus_euphratica.0114.cds-pslPopulus_euphratica.0114.gff.psl-doall-verbose關(guān)鍵程序:reference_transcriptome_pipeline.pl其各項參數(shù)代表意思:Usagebasicparameters:--基礎(chǔ)參數(shù)-name<string>speciesname(necessary!)--即物種名,注意不是文庫名-lib<string>inputlibfile(necessary!),aformatexample:file"inputlib".--配置文件-outdir<string>resultdir(necessary!)--結(jié)果輸出目錄-genome<string>genomesequence(necessary!)--參考基因組-gene<string>genesequence(necessary!)--參考基因-psl<string>genepsl(necessary!)--psl文件analysisoptions:--分析選項-soap<string>soapversion(2.01|2.20|...)--soap版本選擇,現(xiàn)在用soap2.20-filterFilterreads--過濾數(shù)據(jù),得到cleanreads,通常也是必需選項-divDivideanalysisbychromosomename,ifallchromosomes'sizeislarge.--基因組大時按染色體分塊處理-doallDoallanalysisbelow,including5parts.--包含以下五個選項-basicDobasicanalysis.--基礎(chǔ)生物信息分析-alterAlternativeSpliceanalysis--高級生物信息分析中可變剪切-novelNovelTranscriptanalysis--高級生物信息分析中發(fā)覺新轉(zhuǎn)錄本-utrExtendGeneanalysis--高級生物信息分析中基因結(jié)構(gòu)優(yōu)化-svgProduceSVGfigure--基因結(jié)構(gòu)和Reads在基因組上分布正確圖形-diffGeneexpressiondifference--高級生物信息分析中差異表示基因-verboseoutputverboseinformationtoscreen--輸出運行信息到標準輸出上-help<h|help>outputhelpinformationtoscreen--幫助文檔分析步驟圖:使用參數(shù)說明:命令示例:1)bwt,filter對應程序:/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/bwt_filter.sh具體情況:a).基因組建庫:/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/2bwt-builder/ifs1/DGE_SR/daichm/project/HUYlfvT/Populus_euphratica.0114.genomeb).基因建庫:/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/2bwt-builder/ifs1/DGE_SR/daichm/project/HUYlfvT/Populus_euphratica.0114.cdsc).樣本數(shù)據(jù)過濾(舉其中一例):sh/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/Filter.huiyang_chuli_L1.sh2)soapa).對基因組所建庫跑soap:(舉其中一例)/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/soap-a/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Reads/huiyang_chuli_L1_1.fq-b/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Reads/huiyang_chuli_L1_2.fq-D/ifs1/DGE_SR/daichm/project/HUYlfvT/Populus_euphratica.0114.genome.index-m0-x10000-s40-l35-v3-o/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Alignment/Genome/huiyang_chuli_L1.Genome.PESoap-2/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Alignment/Genome/huiyang_chuli_L1.Genome.PESoapSingleb).對基因所建庫跑soap:(舉其中一例)/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/soap-a/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Reads/huiyang_chuli_L1_1.fq-b/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Reads/huiyang_chuli_L1_2.fq-D/ifs1/DGE_SR/daichm/project/HUYlfvT/Populus_euphratica.0114.cds.index-m0-x1000-s40-l35-v3-r2-o/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Alignment/Gene/huiyang_chuli_L1.Gene.PESoap-2/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Alignment/Gene/huiyang_chuli_L1.Gene.PESoapSingle關(guān)鍵程序:/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/soap其各項參數(shù)代表意思:Usage:soap[options]-a<str>queryafile,*.fq,*.fa-b<str>querybfile-D<str>referencesequencesindexingtable,*.indexformat-o<str>outputalignmentfile(txt)-M<int>matchmodeforeachreadortheseedpartofread,whichshouldn'tcontainmorethan2mismaches,[4]0:exactmatchonly1:1mismatchmatchonly2:2mismatchmatchonly4:findthebesthits-u<str>outputunmappedreadsfile-toutputreadsidinsteadreadsname,[none]-l<int>aligntheinitialnbpsasaseed[256]meanswholelengthofread-n<int>filterlow-qualityreadscontaining>nNsbeforealignment,[5]-r[0,1,2]howtoreportrepeathits,0=none;1=randomone;2=all,[1]-m<int>minimalinsertsizeallowed,[400]-x<int>maximalinsertsizeallowed,[600]-2<str>outputfileofunpairedalignmenthits-v<int>maximumnumberofmismatchesallowedonaread.[5]bp-s<int>minimalalignmentlength(forsoftclip)[255]bp-g<int>onecontinuousgapsizeallowedonaread.[0]bp-RforlonginsertsizeofpairendreadsRF.[none](meansFRpair)-e<int>willnotallowgapexistinsiden-bpedgeofaread,default=5-p<int>numberofprocessorstouse,[1]-hthishelp3)posCoveragea)對單樣本處理/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/samples_pos.sh其中用到程序為:/nas/DGE_SR01/daichm/ref/posCoverageb)合并全部樣本/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/posCoverage.sh其中用到程序為:/nas/DGE_SR01/daichm/ref/merge_poscoverage.pl4)transcript-unit/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/TranscritUnit.sha).PosCoverage.TAR其中用到程序為:/nas/DGE_SR01/daichm/ref/Mask2Tar.plb).Filter其中用到程序為:awk'$3>35{print}'/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Poscoverage/AllChr.AllTissue.PosCoverage.TAR>/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Poscoverage/AllTissue.PosCoverage.TAR.Filterc).PairEndJoinTAR其中用到程序為:/nas/DGE_SR01/daichm/ref/PairEndJoinTAR.pld).TAR2Genes其中用到程序為:/nas/DGE_SR01/daichm/ref/TAR2Genes.ple).TARGenes2psl其中用到程序為:/nas/DGE_SR01/daichm/ref/TARGenes2psl.pl5)importantanalysisstep/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/analysis5.pla).BasicAnalysis&&DiffBasicAnalysis:/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/basic.sh其中用到程序為:perl/nas/DGE_SR01/daichm/ref/MapReadsStat.plperl/nas/DGE_SR01/daichm/ref/ReadsRandomInGene.plperl/nas/DGE_SR01/daichm/ref/Soap_Coverage.plperl/nas/DGE_SR01/daichm/ref/CoverageList.plperl/nas/DGE_SR01/daichm/ref/chromosome_graph_wb.plDiff:/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/diff.sh其中用到程序為:/nas/DGE_SR01/daichm/ref/DiffExp/DiffExp_pipeline.plb).Extend/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/extend.sh其中用到程序為:/nas/DGE_SR01/daichm/ref/getGene.pl/share/raid1/genome/bin/blat/nas/DGE_SR01/daichm/ref/pslbest.pl/nas/DGE_SR01/daichm/ref/TarBGFortholog.pl/nas/DGE_SR01/daichm/ref/UTR.plc).AlternativeSplicing/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/GeneSpliceSite.sh其中用到程序為:/nas/DGE_SR01/daichm/ref/GeneSpliceSite.pl/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/JoinSplice.sh其中用到程序為:/nas/DGE_SR01/daichm/ref/JoinTARForSoap.pl/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/2bwt-builder/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/TrimNomap.sh其中用到程序為:/nas/DGE_SR01/daichm/ref/search_reads_TrimNomap.pl/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/JunctionSoap.sh其中用到程序為:/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/soap/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/AlternativeSplice.sh其中用到程序為:/nas/DGE_SR01/daichm/ref/JunctionReadsStat.pl/nas/DGE_SR01/daichm/ref/SikppedExon.pl/nas/DGE_SR01/daichm/ref/MutuallyExclusiveExon.pl/nas/DGE_SR01/daichm/ref/AlternativeFirstLastExon.pl/nas/DGE_

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論