下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、RNA-Seq項目常見問題與解答這兩年隨著測序成本的下降和轉錄組研究的日漸火熱,RNA-seq儼然已經成為了分子生物學課題組推進項目的首選方向。在我們接觸的轉錄組項目中,有些老師對項目分析結果存在或多或少不清楚或有疑惑的地方。那么春天來了,花兒開了,今天福利也到了,我們特意將轉錄組項目中常見的一些問題進行了匯總,各位老師可以按需自取哈。1如何判定生物學重復一致性的高低?生物學重復統(tǒng)計方法及公式答:(1)皮爾遜相關系數(shù)r可以作為生物學重復相關性的評估指標,理想的生物學重復試驗r20.92??紤]到個體差異、取材環(huán)境、時間以及人員操作熟練程度等因素對測序數(shù)據(jù)的影響,一般r20.8為可接受范圍。(2)
2、Pearson(皮爾遜)相關系數(shù):皮爾遜相關也稱為積差相關(或積矩相關)是英國統(tǒng)計學家皮爾遜于20世紀提出的一種計算直線相關的方法。2DEG基因用Transcripts還是Unigenes?答:DEG基因用的是Unigene。3transcript-id代表什么意思?為什么有的基因有多個transcript-id?答:基因轉錄本id;因為可變剪切的緣故,一個基因可能有多個轉錄本。4在miRNA鑒定中,可能成為miRNA的reads是怎樣計算的?哪些條件會影響到mrd值?micro RNA在不同組織有異構體的存在,是如何處理的?答:與 Rfam, miRbase, RepBase和 ExonIn
3、tro 序列庫進行比對,獲得 sRNA 注釋信息,以此作為預測新的 miRNA 的基礎。miRNA的鑒定是利用miRDeep2軟件進行已知及新(保守及非保守)的miRNA鑒定。miDeep2會在reads比對到基因組上的位置兩端分別延伸75、15bp進行結構預測,此軟件認為極可能與可能是miRNA的根據(jù)是通過mrd值來區(qū)分的,mrd>-10為可能,mrd>0為極可能;影響mrd值的有reads在基因組上的分布和堿基結合的自由能等;5對于有生物學重復的項目,怎樣計算差異基因?答:兩兩比對使用的是R的EBseq包, 是基于負二項分布檢驗的方式對reads數(shù)進行差異顯著性檢驗,重復間的比
4、對使用的是R的DEseq包,是基于分層貝葉斯模型的原理對組合內樣品進行分析。6外顯子,內含子及基因間區(qū)各自的比例如何評估建庫情況?答:理論上,來自成熟mRNA的reads應該比對到外顯子區(qū)。但是,由于基因組注釋水平、可變剪切導致的內含子序列保存,以及很多RNA(比如lncRNA)就來自基因間區(qū)和內含子,因此有比對到內含子和基因間區(qū)的reads。受物種等的影響外顯子所占比例不同,一般情況下外顯子區(qū)域所占比例超過70%即比較理想。7影響組裝Contig結果的因素?答:a物種的特異性;b測序質量;c測序的數(shù)據(jù)量;dSNP的雜合率;e組裝參數(shù)的選擇。(1)、在不考慮物種特異性和測序質量的情況下,測序的
5、數(shù)據(jù)量越大,SNP的雜合率越高,得到的短片段Contig的數(shù)目就越多。根據(jù)Trinity組裝Contig的策略,將Reads構建K-mer庫,選取頻數(shù)最高的K-mer,按照k-1的overlap進行延伸,用于延伸的K-mer全部從庫中清掉,因此測到的reads越多,SNP的雜合率越高,延伸完后的短片段就越多。(2)、對于組裝參數(shù)的選擇,是用于過濾低頻數(shù)K-mer,選擇的參數(shù)不同,過濾掉的K-mer數(shù)目不同,如果過濾掉的越多,那么留下的短片段的Contig就會少。所以即使用同一個軟件(Trinity)進行組裝,如果不知道組裝參數(shù)的時候,對于組裝結果沒有很大的可比性。(3)、組裝結果的好壞最主要的
6、還是看Unigene的組裝數(shù)據(jù),包括組裝出的數(shù)目和N50。一般來說,組裝出的Unigene的數(shù)目在一個合理范圍內(比如10W以內),N50越大,組裝的結果越好。8轉錄組測序Contig 與transcript的區(qū)別?答:轉錄組測序的原始數(shù)據(jù)包含了很多的reads,通過序列的拼接,具有重疊區(qū)的reads會被組裝成更大的片段,稱之為contig。將reads比對回contig,通過paired-end reads能確定來自同一轉錄本的不同contig 以及這些contig之間的距離,將這些contig連在一起,最后得到兩端不能再延長的序列,稱之為Unigene。Transcript即轉錄本。9不同
7、ID號代表的基因相同嗎?不同ID號功能注釋相同的,為什么?答:不同的ID可以認為是代表不同的基因。不同的基因注釋的功能相同,原因有:一是有些長的基因沒有組裝出完整的序列,而是分成了多個小片段,這種情況去進行注釋的話會注釋到同一個功能蛋白;二是基因的核酸序列不同,但是蛋白序列具有一定的相似性或者具有相似的功能區(qū)域,這些基因在比對注釋用的蛋白序列時,會注釋到相同的功能。10多個Unigene注釋一樣,序列長度不同,相似性較低,為什么?答:1)首先某一基因可能比較長,但無參考基因組裝出的片段即Unigene很難組裝得到全長,得到的是這個基因上的大小不等的片段,在進行比對的時候就會比對到同一個基因上,
8、因此他們的注釋信息一致;2)從序列來看Unigene基因的序列相似度不高,但是因為比對的是蛋白,所以可能他們的蛋白相似度會比較高,因此會注釋到同一基因上。11transcript_id、gene_id、length、effective_length、expected_count、TPM、FPKM、IsoPct這幾個字段的意思?答:一個Unigene可能對應多個轉錄本。Transcript id:為組裝轉錄本編號;gene_id:Unigene編號;length:Unigene的長度;effective_length:各個轉錄本的平均長度;TPM:Transcripts per million,
9、公式為:Unigene 的reads數(shù)×106/總reads數(shù);FPKM即RPKM(雙端Reads數(shù)目/(比對到轉錄本上的片段總數(shù)*轉錄本長度);IsoPct:某一個轉錄本的表達量占相應的組裝原件表達量的百分比。12同一ID下有多條序列,想得到此序列的核苷酸信息應選哪一條?答:同一個ID號下面好幾條序列,這個應該是組裝過程中裝出來的轉錄本序列,來自同一個Component(具體見Trinity組裝的第二步),其ID前綴相同,后面跟著seq+數(shù)字的編號。Trinity軟件認為這些轉錄本來源于同一個基因,因此,選取其中最長的那個轉錄本的序列作為該基因的序列。13生物云轉錄組APP上的差異
10、篩選閾值采用的是哪種方法?p值與FDR值的區(qū)別是?答:生物云轉錄組APP在差異表達分析過程中采用了公認有效的Benjamini-Hochberg方法對原有假設檢驗得到的顯著性p值(p-value)進行校正,并最終采用校正后的p值,即FDR(False Discovery Rate)作為差異表達基因篩選的關鍵指標,以降低對大量基因的表達值進行獨立的統(tǒng)計假設檢驗帶來的假陽性。p值與FDR之間沒有單純的換算公式,是在linux操作系統(tǒng)下,運用R語言編寫的程序完成的fisher精確檢驗,在篩選過程中,默認將FDR<0.01且差異倍數(shù)(Fold Change)2作為篩選標準。14生物云轉錄組在分析
11、差異基因時,對于表達量為0的,如何計算差異倍數(shù)?答:差異基因分析軟件EBseq在分析表達量為0的基因的差異倍數(shù)時,會采用貝葉斯估計給出一個估計值,然后使用這個估計值計算差異倍數(shù)。由于計算估計值時綜合考慮多項因素,因此不同基因間FPKM和FC不具有一致性。15如何定義的已知micRNA、保守的micRNA以及新預測的micRNA?答:已知micRNA指的是序列在miRBase數(shù)據(jù)庫中百分百的比對到該物種的序列上,如果在該物種上沒有比對上但比對上了數(shù)據(jù)庫中的其他物種上我們稱之為保守的micRNA;新預測的micRNA:通過miRDeep2軟件進行預測,有一定的read能夠比對到基因組上,并且比對位
12、置的序列可以形成發(fā)卡結構,那么就會作為新預測的miRNA。16分析時發(fā)現(xiàn)不同的名,但是他們的前體序列和成熟序列都一樣,表達量在各個樣品中也相同,為什么?答:這個是由于在染色體上的位置不同導致的,可以參考miRBase數(shù)據(jù)庫中的 hsa-mir-1233-1 和 hsa-mir-1233-2 這兩個 ID, 它們對應的前體序列,3' 和 5' 成熟序列均相同,但在基因組上的位置不同,軟件將它們區(qū)別成兩個不同的小RNA,又因為它們的序列一致,所以比對上的reads是一樣的,表達量因此一樣。具體見下:17測序得到的lncRNA,如何知道哪些是已知的?哪些是未知的?答:目前長鏈分析結果
13、中如果分析的物種是比較常見的物種比如人、大鼠、小鼠,這些物種具有比較完整的已知lncRNA數(shù)據(jù)庫,這種情況:(1)通過確切的位置關系(位置相交則認為相同)對預測出來的那些lncRNA鑒定其是否為已知;(2)根據(jù)fa序列進行比對,對預測出的lncRNA序列與數(shù)據(jù)庫中已知的lncRNA序列比對,達到一定比對值的會認為該預測長鏈是已知的長鏈。注:NONCODE DB中包含的物種主要是動物方面的,包括:人、小鼠、大鼠、奶牛、雞、果蠅、斑馬魚、線蟲、酵母、擬南芥、黑猩猩、大猩猩、恒河猴、復鼠、鴨嘴獸、猩猩 18轉錄組測序之后,用QPCR進行驗證,但驗證的基因表達趨勢與測序結果中不一致,這是什么原因?如何
14、解決呢?答:首先,我們需要確定檢驗的樣品是否是同一批次,驗證樣品的上下調關系是否與測序結果中的一致(這個需要根據(jù)測序公司具體的分析結果,比如某個基因的FC值對應的樣品寫的是T01 vs T02 ,那么T01就是對照組、T02是實驗組),若樣品不為同一批次或其上下調關系顛倒了,則勢必會導致驗證基因表達趨勢不一致的情況。其次,我們需要查看驗證基因的表達量、樣品和實驗用的引物是否被污染,若驗證基因表達量過低,則有可能導致差異不顯著,若樣品或實驗用的引物被污染則后續(xù)結果可能也不會準確,所以我們盡量不要挑選表達量太低的基因,同時,需要保證樣品和實驗引物沒有被污染。當以上所有情況都不存在,且結果依然不一致,這時我們需要檢查QPCR結果是否正確。如果僅一個基因驗證結果不一致,則不足以說明測序或者驗證有問題,但當我們選擇了15個基因甚至更多時,結果依然不一致時,那么我們可能需要分析測序數(shù)據(jù)的結果是否正確,同時檢查結果預期是否正確。19從NCBI上下載的數(shù)據(jù)都是SAR格式的,如何轉化成FASTQ格式?答使用軟件sra2fastq進行轉
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度蝦塘承包經營權租賃合同示例3篇
- 二零二五年度礦產資源合作開發(fā)合同標準文本3篇
- 2025年樹木種植基地合作與生態(tài)環(huán)境保護合同范本3篇
- 2025年影視制作委托代理合同范本3篇
- 二零二五年度環(huán)境衛(wèi)生治理與生物多樣性保護合同3篇
- 二零二五年度餐館轉讓合同范本:包含客戶數(shù)據(jù)保護條款3篇
- 2025版二手汽車買賣協(xié)議范本詳解3篇
- 二零二五年汽車租賃服務協(xié)議(個人租給婚紗攝影)2篇
- 二零二五年度城市夜景照明工程設計承包合同4篇
- 2025年度貨車司機保密與職業(yè)責任協(xié)議書3篇
- 第二章 運營管理戰(zhàn)略
- 《三本白皮書》全文內容及應知應會知識點
- 專題14 思想方法專題:線段與角計算中的思想方法壓軸題四種模型全攻略(解析版)
- 醫(yī)院外來器械及植入物管理制度(4篇)
- 圖像識別領域自適應技術-洞察分析
- 新概念英語第二冊考評試卷含答案(第49-56課)
- 商業(yè)倫理與企業(yè)社會責任(山東財經大學)智慧樹知到期末考試答案章節(jié)答案2024年山東財經大學
- 【奧運會獎牌榜預測建模實證探析12000字(論文)】
- (完整版)譯林版英語詞匯表(四年級下)
- 支票票樣-樣版
- 標準活動板房設計說明(共7頁)
評論
0/150
提交評論