完整高通量測序NGS數(shù)據(jù)分析中的質(zhì)控

上傳人：y*** IP屬地：天津上傳時間：2021-06-03 格式：DOCX 頁數(shù)：16 大?。?1.85KB 積分：18 舉報 版權(quán)申訴

已閱讀5頁，還剩11頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、高通量測序錯誤總結(jié)、生信分析部分1) Q20/Q30b lUP尸EfiiLitNF ?每個位點的堿基質(zhì)量(Per base sequence quality)! Good90 離10%99Si%M.酮CL I.-山山BadT蘋I11堿基質(zhì)量分?jǐn)?shù)與錯誤率是衡量測序質(zhì)量的重要指標(biāo)，質(zhì)量值越高代表堿基被測錯的概率越小。Q30代表堿基的正確判別率是 99.9%，錯誤率為0.1%。同時我們也可以理解為1000個堿基里有1個堿基是錯誤的。Q20代表該位點堿基的正確判別率是99%，錯誤率為1%。對于整個數(shù)據(jù)來說，我們可以認(rèn)為100個堿基里可能有一個是錯誤的,在堿基質(zhì)量模塊報告的坐標(biāo)圖中，背景顏色沿y-軸將

2、坐標(biāo)圖分為3個區(qū)：最上面的綠色是堿基質(zhì)量很好的區(qū)， Q值在30以上。中間的橘色是堿基質(zhì)量在一些分析中可以接受的區(qū)，Q值在20-30之間。最下面紅色的是堿基質(zhì)量很差的區(qū)。在一些生信分析中，Q30以上。比如以檢查差異表達(dá)為目的的 RNA-seq分析，一般要求堿基質(zhì)量在 Q在Q20以上就可以了。但以檢查變異為目的的數(shù)據(jù)分析中，一般要求堿基質(zhì)量要在一般來說，測序質(zhì)量分?jǐn)?shù)的分布有兩個特點：1.測序質(zhì)量分?jǐn)?shù)會隨著測序循環(huán)的進(jìn)行而降低。2.有時每條序列前幾個堿基的位置測序錯誤率較高，質(zhì)量值相對較低。在圖中這個例子里，左邊的數(shù)據(jù)堿基質(zhì)量很好，而右邊的數(shù)據(jù)堿基質(zhì)量就比較差，需要做剪切(trimming

3、 )，根據(jù)生信分析的目的不同，要將質(zhì)量低于 Q20或者低于Q30 的堿基剪切掉。2）序列的平均質(zhì)量序列的平均質(zhì)量(per sequenee qualityscore)亠_這個是堿基序列平均質(zhì)量報告圖。橫坐標(biāo)為序列平均堿基質(zhì)量值，縱坐標(biāo)代表序列30 ,可以判數(shù)量。通過序列的平均質(zhì)量報告，我們可以查看是否存在整條序列所有的堿基質(zhì)量都普遍過低的情況。一般來說，當(dāng)絕大部分堿基序列的平均質(zhì)量值的峰值大于斷序列質(zhì)量較好。如這里左邊的圖，我們可以判斷樣品里沒有顯著數(shù)量的低質(zhì)量序列。但如果曲線如右邊的圖所示，在質(zhì)量較低的坐標(biāo)位置出現(xiàn)另外一個或者多個峰，說明測序數(shù)據(jù)中有一部分序列質(zhì)量較差，需要過濾掉。3

4、) GC含量分布GC含量分布圖(per sequence GC content)淤-riord八,1 ,11JHL/1=土1=- T打lihfiMfticaI 由*inbu加nHed GC fwum pcv rrad H/ -/這個是GC含量分布報告圖。GC含量分布檢查是檢測每一條序列的 GC含量。將樣品序列的GC含量和理論的GC含量分布圖進(jìn)行比較，用來檢測樣品數(shù)據(jù)是否有污染等問題。理論上，GC含量大致是正態(tài)分布，正態(tài)分布曲線的峰值對應(yīng)基因組的 GC含量。如果樣品的GC含量分布圖不是正態(tài)分布，如右圖出現(xiàn)兩個或者多個峰值，表明測序數(shù)據(jù)里可能有其他來源的 DNA序列污染，或者有接頭序列的二聚體

5、污染。這種情況下，需要進(jìn)一步確認(rèn)這些污染序列的來源，然后將污染清除。4）序列堿基含量序列堿基含量（per base sequence cont而爲(wèi)護(hù)心c.d堿基含量模塊是統(tǒng)計在序列中的每一個位置,四種不同堿基占總堿基數(shù)的比例。它的目的是檢測有無 AT、GC分離的現(xiàn)象，而這種現(xiàn)象可能是測序或建庫的系統(tǒng)誤差所帶來的，并且會影響后續(xù)的生信分析。理論上，在隨機(jī)的 DNA文庫中，G和C含量以及A和T含量在每個測序循環(huán)上應(yīng)分別相等，而且整個測序過程穩(wěn)定不變。所以堿基含量的四條線應(yīng)該是基本平行的水平線（圖A）o而現(xiàn)實中，由于建庫 PCR擴(kuò)增時PCR引B）o如果在物的最初幾個堿基不能很好地和模板DNA結(jié)合，

6、常常會導(dǎo)致測序結(jié)果序列開始的大約前10個堿基位置，堿基含量有較大的波動。這種波動存屬于技術(shù)誤差（圖整個測序過程中，四條堿基含量線都出現(xiàn)波動，可能是樣品庫里有過多的接頭序列的二聚體（圖C, D）o在建庫過程中，如果加入的接頭序列過量，兩個接頭序列可能會連在起,中間沒有要測序的插入序列，形成接頭序列二聚體。這些二聚體可以利用 adapter trimmer 軟件去除。5) 過量出現(xiàn)的序列-CrPHrnuGNE過量出現(xiàn)的序列(owr-represented sequences)* 看是否冇污集序列KHlLLOiPRJCTilUjbWLZ* tdl*l ：i- rsJ bUI lUniiF IK

7、LI；毓硒-n-i r-hrTHW腫!L.10*1*01I :捌41 ma 電*ST .一皿鼻和敘科鏟f 一童JM FfiEiFNim 托云h* wi:llj.J+it!. Jl.l,*-!,F_Ml IEeU pi IrijBn .J 艸 Bhe：.巧庖門 fi.ihUkJ I L_iid iPtt K-Me i _ra* iBii *臣値. tiMH jiu M.山31 El. H. u 氧12 Ell 和，+ :iAH 川出 ildiLj.| I. -1 14 I pH J I ,IVTI ir f - .h-過量序列模塊是查看數(shù)據(jù)是否有污染的另一種方法。如果某個序列的數(shù)量占全部序列的0

8、.1%以上，F(xiàn)ASTQC就定義該序列為 over-represented。這些 over-represented列通常標(biāo)示著污染序列的存在。這種污染如果是建庫測序中的接頭序列，fastqc可以檢測并標(biāo)示出可能的來源(possible source )。但如果污染是由于其他來源的DNA，比如其他生物的DNA，F(xiàn)ASTQC就沒法判斷污染序列的來源。這就需要生信分析人員利用其他方法找出污染源。比如將大量出現(xiàn)的序列和NCBI的DNA數(shù)據(jù)庫進(jìn)行blast，看看污染序列是否來自其他物種。6）過量出現(xiàn)的 Kmer過量出現(xiàn)的k-mer (k-mer content)I CjjiIw JCn be re-pn

9、ovcdNeed tn be檢查是否有接頭序列，還可以查看k-mer含量。如果有些k-mer過量出現(xiàn)，很有可能有序列污染。過量出現(xiàn)的k-mer可能會有三種情況：序列5端，序列中間，或者序列3 端。5端過量出現(xiàn)的k-mer是建庫PCR擴(kuò)增時PCR引物無法和DNA模板很好地結(jié)合導(dǎo)致的，是技術(shù)誤差。出現(xiàn)在中間的k-mer比較少見，可能是接頭序列拼Need!to be接到測序序列中間導(dǎo)致的。3-端出現(xiàn)過量k-mer往往標(biāo)示著接頭序列的污染。7）接頭序列含量接頭序列含量(adapter content)宀、二iPHEndEME7“The對接頭序列污染的查看還有一個更直觀的模塊,就是接頭序列含量。這里的兩

10、個例子中,左圖沒有顯著的接頭序列污染，右圖的接頭序列污染就比較顯著。原始數(shù)據(jù)有效清理結(jié)果rafti. T - prfi1t - -三-r.kJN F h-：? - ihlh 二 11；I：8）去除 dupiication序列去除重復(fù)序列Cf CIPHER GENE*柬瀝；PCR擴(kuò)1曾的不均啟果；造成等位喘因頻率的定義及徇尺3識刖不準(zhǔn)鋪去除原理；將所有比時到完全郴制位賈的字列対減小至一対* 常用妙件：picar-tools Mark Duplicate重復(fù)序列是怎么來的呢？在全基因組或全外顯子組測序的建庫過程中，需要進(jìn)行多輪的PCR擴(kuò)增。由于擴(kuò)增引物和不同模板結(jié)合力的差異，有些地方的序列擴(kuò)增產(chǎn)物

11、大于這些重復(fù)序列的存在會造成等位基因頻率的定義以及基因型識別不準(zhǔn)確。去除重復(fù)序列的原理是將所有比對到完全相同位置的序列對減少至一對。一般用picardtools 軟件里的Markdupicate功能去除重復(fù)序列。9 )堿基質(zhì)量分?jǐn)?shù)重新校正堿基質(zhì)量分?jǐn)?shù)重新校正Cf CIPHER SEME原岡：測序僅授吉堿燈伍歆: 時的出現(xiàn)的系統(tǒng)溟菇t, systematic error)T交止方a；利用機(jī)器甞習(xí)的方法建立員丑模型.然后根據(jù)建立的模世調(diào)鑿堿甚質(zhì)眥仆數(shù)-常用軟件：GATK recalibratfonReport Quality Empirical QualityZ回i1114111P.對原始比

12、對結(jié)果的另一個質(zhì)量控制是對堿基的質(zhì)量分?jǐn)?shù)進(jìn)行校正。為什么要對堿基質(zhì)量進(jìn)行校正呢？這是因為由于各種系統(tǒng)誤差，測序儀報告的堿基質(zhì)量不精確,比實際質(zhì)量分?jǐn)?shù)偏高或者偏低。系統(tǒng)誤差和隨機(jī)誤差不同，不像隨機(jī)誤差，它其實是一種error。這可能來自于測序反應(yīng)中的物理化學(xué)原因，也可能是測序儀本身存在的缺陷造成。堿基質(zhì)量分?jǐn)?shù)校正的原理是：利用機(jī)器學(xué)習(xí)的方法建立誤差模型，根據(jù)建立的模型對堿基分?jǐn)?shù)進(jìn)行調(diào)整。調(diào)整后更精確的堿基質(zhì)量分?jǐn)?shù)能夠提高后續(xù)變異識別的準(zhǔn)確率，減少假陽性和假陰性的變異識別。堿基質(zhì)量的校正一般使用GATK的recalibration功能。需要說明的一點是：堿基質(zhì)量分?jǐn)?shù)校正不能糾正堿基。也就是說，

13、我們無法通過這個方法確定一個低質(zhì)量的A是否應(yīng)該為T。但可以告訴變異識別軟件，它可以在多大程度上信任這個堿基A是正確的。、實驗分析部分測序錯誤主要有三大類，分別來自樣品制備、文庫制備，以及測序和成像。參考文獻(xiàn)：The roleof rep licates for error mitigation in next-generationsequencing1）來源于樣品制備的測序錯誤1. 用戶錯誤；例如，貼錯標(biāo)簽。雖然這是個低級錯誤，但肯定不會沒犯過。在芯片分析中，貼錯標(biāo)簽和樣品搞混可都是真事，有文獻(xiàn)可查。2. DNA或RNA的降解；例如，組織自溶，福爾馬林固定石蠟包埋（ FFPE組織制備過程

14、中的核酸降解和交聯(lián)（甲醛固定樣品會隨機(jī)產(chǎn)生C-T轉(zhuǎn)化，導(dǎo)致肺癌T790M假陽性增多）。3. 異源序列的污染；例如，那些支原體和異種移植的宿主。4. DNA起始量低。早在2005年人們就發(fā)現(xiàn)，在 PCR過程中，DNA起始量低的模板會以序列依賴的方式產(chǎn)生虛假的突變，主要是從G轉(zhuǎn)變?yōu)锳。2）來源于文庫制備的測序錯誤1.用戶錯誤；例如，一個樣品的 DNA殘留到下一個，之前反應(yīng)的污染。PCR擴(kuò)增錯誤。這個同上面第 4點。2.3.弓I物偏向；例如，結(jié)合偏向，甲基化偏向，錯配導(dǎo)致的偏向，非特異性結(jié)合和引物二聚體的形成，發(fā)夾結(jié)構(gòu)和干擾環(huán)，熔解溫度太高或太低引入的偏向。短捕獲偏向，在高通量 RNA測序的pol

15、y（A）富集過程中引入。獨家突變；例如，那些由重復(fù)區(qū)域或獨家變異的錯配而引入的突變。機(jī)器故障；例如，PCR循環(huán)溫度不正確。嵌合讀取。條形碼和/或接頭錯誤；例如，接頭污染，缺乏條形碼多樣性和不兼容的條形碼。4.5.6.7.8.3 ）來源于測序和成像的測序錯誤1.2.3.4.5.6.用戶錯誤；例如，流動槽過載引起的簇移相；例如，不完整的延伸以及多個核苷酸而不是單個核苷酸的添加。 “ Dead”光基團(tuán)，受損的核苷酸以及重疊信號。序列背景；例如，富含 GC,同源和低復(fù)雜度的區(qū)域，及均聚物。機(jī)器故障；例如，激光器、硬盤、軟件和流體系統(tǒng)出故障。鏈的偏向。crosstalk。、小知識1. 為什么堿基質(zhì)

16、量在序列的 5 端要差一些?答：這是由NGS的測序特點造成的。NGS使用的是pyrosequencing (sequencing bysynthesis)的方法。在這個方法里，用來合成的 4個堿基的混合物里 A，C，T，G四個堿基分別帶有綠色，藍(lán)色，紅色和黑色的熒光標(biāo)記。而且每個堿基上面都有一個 blockercap,使得每輪反應(yīng)只能有一個堿基被加入到每個分子中。然后把沒有加入分子的游離堿基全部洗去后，對每個分子進(jìn)行熒光檢測來確定新加入的堿基是什么。在下一輪開始之前，這個blocker cap要去被掉才可以加入下一個堿基。如果某個序列的blocker cap沒有能有效地去除，在下一個反

17、應(yīng)中就沒有新的堿基加入，那這個序列的熒光和其他的序列是不一樣的，這樣總體的熒光強度就被消弱，堿基識別的可信度就被降低。這種錯誤發(fā)生的概率很低，但隨著測序長度的增加，這種錯誤的總數(shù)就越來越多，對熒光的影響就越來越大，測序的錯誤率就越來越大。2. 什么是接頭序列？為什么會有接頭序列污染？為什么要清除接頭序列?答：在構(gòu)建高通量測序的 DNA文庫時，需要在待測的 DNA片段兩頭分別連一段人工合成的DNA序列。這兩段人工合成的序列被稱為接頭序列。接頭序列里一般包含三個重要組成部分：區(qū)分樣品的barcode序列,PCR primer序列和測序引物結(jié)合的序列。在一般情況下，待測的插入序列在 5

18、接頭序列下游，5 -段的接頭序列不會出現(xiàn)在測序結(jié) 果序列里。但當(dāng)插入測序列過短時，測序反應(yīng)會超過待測序列而測到 3 -端的接頭序列，從而造成接頭序列的污染。當(dāng)reads中有接頭序列，會導(dǎo)致比對錯誤和非比對的序列書面增加。所以要清楚接頭序列。3. 測序深度不均一性是測序建庫技術(shù)操作的問題，還是每個人的個體化差異導(dǎo)致不均一的現(xiàn)象?答：不均一的原因個體 DNA和測序應(yīng)該都有，看不同的情況。比如我們曾經(jīng)分析過一個WES,在一個本應(yīng)該檢測到變異的基因，我們無論如何檢測不到。可視化發(fā)現(xiàn)該區(qū)域內(nèi)沒有reads。而查看這段基因序列，發(fā)現(xiàn)是 100%的G。而對測序儀來說，如果 G含量超過80%，就很

19、難成功測序。而如果個體某段DNA含有比較多的SNP，捕獲探針就無法很好和DNA雜交，而不能有效的捕獲。4.測序是否越深越好？NGS屬于“深度測序”，可以1次并行對幾十萬甚至上百萬條 DNA分子進(jìn)行序列測定，從而實現(xiàn)每個位點被覆蓋幾十次甚至上百次。通過計算測序得到的堿基總量與測序區(qū)域大小的比值，可以獲得測序的平均深度，是評價測序質(zhì)量的重要指標(biāo)之一。測序深度的增加使得目標(biāo)區(qū)域覆蓋的讀長增多，獲得區(qū)域的序列信息更為精確。然而，測序深度的增加意味著測序成本的提高。因此，在測序之前需對數(shù)據(jù)精確度和成本進(jìn)行綜合考慮，根據(jù)臨床應(yīng)用需求選擇合理的測序深度。測序深度的選擇主要基于以下 4個方面的考慮：

20、首先，常規(guī)的測序項目采用普遍被接受或推薦的測序深度。正常組織全基因組測序建議的測序深度為10X30X。有研究表明，30X的測序深度可以覆蓋 80%的全基因組信息，基本滿足常規(guī)的全基因組測序需求。正常組織全外顯子測序的測序深度為 100X200X。轉(zhuǎn)錄組測序雖不以深度來衡量，但對測序讀長數(shù)有明確的要求，一般為百萬數(shù)量級。常規(guī)的染色質(zhì)免疫共沉淀測序則需要100X左右。這些測序深度都經(jīng)過多方驗證，基本能滿足不同測序目的的數(shù)據(jù)需求。其次，特殊目的的測序項目可通過檢索文獻(xiàn)數(shù)據(jù)庫，選擇與相關(guān)研究類似的測序深度，如在開展循環(huán)腫瘤 DNA （ circulating tumor DNA，ctDNA ）檢

21、測時，可參考CAPP-Seq方法中的測序深度（10 000X以上），以保證可以覆蓋低頻率的ctDNA突再次，根據(jù)已有的測序項目進(jìn)行深度優(yōu)化，如根據(jù)已知現(xiàn)有Panel檢測項目靶向區(qū)域各堿基的深度分布情況，變信息。開展高深度的腫瘤基因組測序，可選擇60X100X的測序深度。90%以上的堿基覆蓋深度0.2 （均值歸一化結(jié)果），要實現(xiàn)平均測序深度在10X以上的深度測序，其實際測序深度則要達(dá)到 50X（ 10/0.2=50 ），類似的策略可參閱illumina技術(shù)手冊|（?）。這種優(yōu)化策略對于新檢測項目的研發(fā)有重要的幫助。最后，根據(jù)測序目的選擇測序深度。例如我們開展的遺傳乳腺癌高危人群篩查項目，采

22、用靶向捕獲測序檢測血液樣本中的胚系突變，由于胚系突變頻率理論值為0%、50%和100%，此時采取較低的深度（200X ）就可獲得該突變信息。但在腫瘤體細(xì)胞的突變檢測中，由于腫瘤組織樣本中腫瘤細(xì)胞的異質(zhì)性和樣本純度等原因，可能存在低頻率的體細(xì)胞突變（5%、1%，甚至更低），為了獲得這些突變信息，我們在腫瘤用藥指導(dǎo) 檢測項目中采取深度測序，保證 1 000X以上的測序數(shù)據(jù)。值得強調(diào)的是，測序深度的增加往往意味著建庫階段PCR擴(kuò)增次數(shù)的增加，會導(dǎo)致重復(fù)讀長的增多，這些冗余數(shù)據(jù)不僅增加了數(shù)據(jù)處理的計算量，同時會對變異檢測產(chǎn) 生干擾?？傊?，測序深度不是隨意指定的，在檢測項目的建立過程中，必須根據(jù)項目

23、需求選取合適的測序深度。同時，在開展的檢測項目中，必須對測序數(shù)據(jù)進(jìn)行質(zhì)量評估，判斷其是否達(dá)到預(yù)期的測序深度，深度不夠則必須補測，若差異太大，則必須重新測序。5. 靶向測序是否真的完全覆蓋靶向區(qū)域?靶向測序是通過捕獲或擴(kuò)增的手段抓取基因組特定區(qū)域的片段進(jìn)行NGS，這個特定區(qū)域既可以是單個或多個基因，也可以是全外顯子組甚至全基因組。必須注意的是，由于現(xiàn)有的測序技術(shù)很難捕獲高GC區(qū)域、短重復(fù)片段等基因組區(qū)域，全外顯子組測序和全基因組測序并不能完全覆蓋全外顯子組或全基因組區(qū)域，最好的全基因組測序覆蓋度可達(dá)97%。lllumina 公司的外顯子組捕獲技術(shù)(TruSeq Exome )可實現(xiàn)99.

24、45%的 RefSeq、98.83% 的一致性編碼序列 (consensus coding sequenee, CCDS 八 99.68%的Ensembl、99.68%的GENCODE v19 的覆蓋度。此外，不同的全基因組或外顯子組捕獲體系，如 NimbleGe n 、Agile nt、lllumi na TruSeq 和 lllumi na Nextera 的捕獲效率/覆蓋度也存在差異。在測序過程中，由于試劑差異、人員操作、儀器維護(hù)等因素，實際的捕獲效率和覆蓋度也會與期望值存在偏差，可能會捕獲到非目標(biāo)區(qū)域序列，也可能漏捕目標(biāo)區(qū)域序列。非目標(biāo)區(qū)域序列對于靶向測序沒有意義，而脫靶序

25、列會導(dǎo)致測序信息缺失。因此，對于任何檢測項目，每一次測序必須給出靶向區(qū)域的覆蓋度統(tǒng)計，這是衡量測序質(zhì)量的重要指標(biāo)之一。當(dāng)覆蓋度過低時，則需補測數(shù)據(jù)或?qū)颖局販y。值得強調(diào)的是，靶向區(qū)域內(nèi)堿基覆蓋深度的分布并不是均勻的，在靶向區(qū)域的端和3 /端，其測序深度較低，甚至只有 1個或幾個讀長覆蓋，這種低深度的序列信息不能提供可靠的信息用于后續(xù)分析。因此，在實際操作中，評估測序的覆蓋度往往結(jié)合測序深度，如靶向區(qū)域內(nèi)10X以上的覆蓋率。6. 不要忽視重復(fù)讀長帶來的數(shù)據(jù)損失測序深度和覆蓋度是大家比較關(guān)注和容易接受的質(zhì)控指標(biāo)，但測序數(shù)據(jù)中的重復(fù)率(即重復(fù)讀長在所有讀長中的比例)常被忽視。重復(fù)讀長出現(xiàn)

26、的類型有2種：1種是文庫構(gòu)建前PCR擴(kuò)增的原因?qū)е碌耐耆粯拥淖x長；另 1種是比對到參考基因組上同一位置不同的讀長，該現(xiàn)象可能是由測序錯誤、比對錯誤、等位基因等原因?qū)е碌?，即?讀長序列不一致，但也被認(rèn)為是重復(fù)讀長。第1種重復(fù)讀長去除比較簡單，可以根據(jù)序列是否一致來判斷。常用的數(shù)據(jù)質(zhì)控軟件FastQC就是根據(jù)該原理來估計數(shù)據(jù)中的重復(fù) 率。第2種重復(fù)讀長來源復(fù)雜，是否去除難以判斷，如同一基因不同拷貝的片段，其中 1個拷貝發(fā)生突變，其他拷貝無突變，此時去掉重復(fù)讀長則會丟掉該變異信息。目前，在broad研究所推薦的流程(GATK Best Practice )中，建議去除重復(fù)讀長，否則獲得的突

27、變頻率可能會存在偏移，見下圖。非真實的突變頻率會對腫瘤異質(zhì)性、克隆演化等研究數(shù)據(jù)產(chǎn)生重要影響。曲? li I. / F蟲疋呼齊書W祐*去除重復(fù)讀長導(dǎo)致的突變頻率偏倚在實際數(shù)據(jù)分析中，Samtools、PICARD等軟件常用來統(tǒng)計數(shù)據(jù)的重復(fù)率和去除重復(fù)讀長。一般情況下，靶向捕獲測序的重復(fù)率在20%以下，如果低于10%，說明數(shù)據(jù)質(zhì)量較好；若重復(fù)率過高（達(dá) 40%或60% ），去除重復(fù)讀長后位點的實際測序深度會大大減少，過低的測序深度難以保證突變位點的準(zhǔn)確信息。在我們的測序?qū)嵺`中，擴(kuò) 增子測序的平均重復(fù)率要高于捕獲測序的重復(fù)率：擴(kuò)增子測序的重復(fù)率通常為 20%50%，而捕獲測序的平均重復(fù)率為10%20%。因此，不僅要關(guān)注有效數(shù)據(jù)的測序深度，還需關(guān)注數(shù)據(jù)中的重復(fù)讀長比例，以真實地評估樣本中的靶向區(qū)域是否

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

完整高通量測序NGS數(shù)據(jù)分析中的質(zhì)控

文檔簡介

溫馨提示

最新文檔

評論

完整高通量測序NGS數(shù)據(jù)分析中的質(zhì)控

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔