




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基因組分析的關(guān)鍵因素
—測(cè)序的深度和覆蓋度李言2014-08-19基因組分析的關(guān)鍵因素
—測(cè)序的深度和覆蓋度李言1目錄基因組從頭測(cè)序基因組重測(cè)序轉(zhuǎn)錄組測(cè)序基因定位分析目錄基因組從頭測(cè)序2基本概念測(cè)序深度:測(cè)序得到的堿基數(shù)量與待測(cè)基因組的比值,假設(shè)一個(gè)基因大小為2M,測(cè)序深度為10X,那么獲得的總數(shù)據(jù)量為20M。測(cè)序覆蓋度:測(cè)序獲得的序列占整個(gè)基因組的比例,例如一個(gè)細(xì)菌基因組測(cè)序,覆蓋度是98%,那么還有2%的序列區(qū)域是沒(méi)有通過(guò)測(cè)序獲得的。Gap:由于基因組中復(fù)雜結(jié)構(gòu)(高GC,重復(fù)序列)的存在,使得測(cè)序最終拼接組裝獲得的序列往往無(wú)法覆蓋所有的區(qū)域,這部分區(qū)域就是Gap?;靖拍顪y(cè)序深度:測(cè)序得到的堿基數(shù)量與待測(cè)基因組的比值,假設(shè)3基本概念覆蓋度的冗余也叫深度或覆蓋深度。LN/G表示:L代表閱讀的長(zhǎng)度,N代表閱讀序列的數(shù)量,G代表單倍體基因組長(zhǎng)度。一般而言,越高覆蓋度的測(cè)序方法往往要求越高的花費(fèi)。真實(shí)的測(cè)序方法中讀碼序列很短(小于250個(gè)核苷酸),并且有錯(cuò)誤;可以通過(guò)增加讀碼序列的數(shù)量來(lái)克服它,比如:具有1%錯(cuò)誤變異率的譯碼,在結(jié)合8個(gè)相同的包含變異位點(diǎn)的序列后可以使錯(cuò)誤率變?yōu)槭f(wàn)分之一?;靖拍罡采w度的冗余也叫深度或覆蓋深度。LN/G表示:L代表4基本概念Lander–Waterman公式:揭示人類(lèi)基因組和外顯子組測(cè)序的一般性規(guī)律。從公式中知:通過(guò)試算基因組的測(cè)序深度的方差來(lái)評(píng)估覆蓋度的均勻性非常重要。從Box1中知:覆蓋度越高最后測(cè)序的堿基數(shù)也越多,而且讀碼序列的個(gè)數(shù)與長(zhǎng)度之間具有一定的關(guān)系,并且在一定的比例時(shí)測(cè)序效果最好?;靖拍頛ander–Waterman公式:揭示人類(lèi)基因組和5基因組從頭測(cè)序指不依賴(lài)于任何已知基因組序列信息對(duì)某個(gè)物種的基因組進(jìn)行測(cè)序。決定測(cè)序深度的主要因素是錯(cuò)誤率、拼接算法、讀碼序列的長(zhǎng)度和基因組的重復(fù)的復(fù)雜性。經(jīng)常使用混合的方法得到高質(zhì)量的拼接,比如高深度、短閱讀測(cè)序的優(yōu)勢(shì)常與低深度但是長(zhǎng)閱讀測(cè)序法相結(jié)合。基因組從頭測(cè)序指不依賴(lài)于任何已知基因組序列信息對(duì)某個(gè)物種的基6基因組從頭測(cè)序例如野生草山羊序列的拼接,因?yàn)樗哂?.4Gb并且三分之二的區(qū)域有高度重復(fù)的轉(zhuǎn)座元件,所以測(cè)序非常困難。首先成功把原始序列拼接成短序列,使用了45個(gè)文庫(kù)中的高質(zhì)量的短閱讀長(zhǎng)度的398Gb的數(shù)據(jù),其中的覆蓋率達(dá)到了90倍。然后這些片段可以使用雙尾閱讀信息與長(zhǎng)的支架進(jìn)行串聯(lián)。基因組從頭測(cè)序例如野生草山羊序列的拼接,因?yàn)樗哂?.4Gb7基因組從頭測(cè)序低覆蓋度在測(cè)序后分析和生物學(xué)解釋方面有兩個(gè)主要的影響:1、它不能確定是否有編碼蛋白質(zhì)基因的缺失、開(kāi)放閱讀框的中斷、一個(gè)真正的進(jìn)化基因的丟失。2、更嚴(yán)重的是低覆蓋度會(huì)產(chǎn)生序列的錯(cuò)誤,并且會(huì)隨著下游的分析和誤導(dǎo)性的結(jié)論而進(jìn)行擴(kuò)散?;蚪M從頭測(cè)序低覆蓋度在測(cè)序后分析和生物學(xué)解釋方面有兩個(gè)主要8基因組重測(cè)序?qū)蚪M序列已知的個(gè)體進(jìn)行基因組測(cè)序,并在個(gè)體或群體水平上進(jìn)行差異性分析。與已知序列比對(duì),尋找單核苷酸多態(tài)性位點(diǎn)(SNP)、插入缺失位點(diǎn)(InDel)、結(jié)構(gòu)變異位點(diǎn)(SV,StructureVariation)位點(diǎn)及拷貝數(shù)變化(CNV)。測(cè)序的深度取決于研究的變異類(lèi)型、疾病的類(lèi)型和區(qū)域的長(zhǎng)度?;蚪M重測(cè)序?qū)蚪M序列已知的個(gè)體進(jìn)行基因組測(cè)序,并在個(gè)體或9基因組重測(cè)序測(cè)序的策略取決于測(cè)序深度和樣本數(shù)量之間的權(quán)衡。WGS(全基因組測(cè)序):高深度的WGS方法對(duì)DNA測(cè)序來(lái)說(shuō)是黃金準(zhǔn)則,因?yàn)樗鼛缀蹩梢蕴綔y(cè)到所有的變異類(lèi)型。WES(全基因組外顯子測(cè)序):WES主要探測(cè)在蛋白質(zhì)編碼基因中的SVNs(單核苷酸變異)、indels(插入缺失)和其他的功能元件,因此它忽略了調(diào)節(jié)元件比如啟動(dòng)子和增強(qiáng)子。WES的測(cè)序花費(fèi)比WGS要少,但它具有各種的限制條件?;蚪M重測(cè)序測(cè)序的策略取決于測(cè)序深度和樣本數(shù)量之間的權(quán)衡。10基因組重測(cè)序SNV和indel檢測(cè):使用Illumina短閱讀技術(shù)表明,純合型的SVNs的檢測(cè)使用15x的覆蓋度,雜合型的為33x。變異檢測(cè)的能力會(huì)因堿基的質(zhì)量低和覆蓋度不均勻而下降。CNV檢測(cè):CNVs可以通過(guò)對(duì)WES和WGS兩種測(cè)序的數(shù)據(jù)使用分析覆蓋深度來(lái)得到,其中拷貝數(shù)目的變化可通過(guò)基因組區(qū)域的覆蓋深度的變化推導(dǎo)得到。在WGS中0.1x的覆蓋度可以獲得合理的特異位點(diǎn)?;蚪M重測(cè)序數(shù)據(jù)的分析:典型的重測(cè)序數(shù)據(jù)的分析途徑是把測(cè)序的短序列與參考的基因組進(jìn)行比對(duì)。基因組重測(cè)序SNV和indel檢測(cè):使用Illumina短閱11基因組重測(cè)序WGS:80x的覆蓋度要求覆蓋89.6–96.8%的目標(biāo)堿基,這取決于測(cè)序的平臺(tái)但是至少要10x的覆蓋度。外顯子的研究中要求至少80%的目標(biāo)區(qū)域被覆蓋,并且使用10x的覆蓋度。群體基因組測(cè)序中,許多基因組的測(cè)序都是短閱讀序列的方法,比如:400個(gè)樣本,4倍的覆蓋度?;蚪M重測(cè)序WGS:80x的覆蓋度要求覆蓋89.6–96.812基因組重測(cè)序四種不同測(cè)序策略(WES,WGS,RNA-seq,ChIp-seq)的測(cè)序?qū)ι疃鹊囊笠膊幌嗤?。它們的測(cè)序深度和測(cè)試的花費(fèi)按以下的順序遞增:ChIp-seq,RNA-seq,WES,WGS。ChIp-seq,WES,WGS具有典型的應(yīng)用和標(biāo)準(zhǔn)的測(cè)序深度,但是RNA-seq的深度與它們不一致,并且差距非常之大?;蚪M重測(cè)序四種不同測(cè)序策略(WES,WGS,RNA-seq13轉(zhuǎn)錄組測(cè)序
RNA-seq:可以對(duì)生物樣本的表達(dá)轉(zhuǎn)錄物進(jìn)行檢測(cè)和量化分析,但沒(méi)有明確的指南和閱讀數(shù)量的要求。它的應(yīng)用主要包括:異常轉(zhuǎn)錄物的發(fā)現(xiàn),差異性表達(dá)和可變剪接的分析。轉(zhuǎn)錄組測(cè)序中的覆蓋度:讀碼序列的數(shù)量取決于RNA的最小豐度;有用的讀碼序列可以通過(guò)減少核糖體RNA,豐富RNA的數(shù)目來(lái)進(jìn)行優(yōu)化。轉(zhuǎn)錄組測(cè)序
RNA-seq:可以對(duì)生物樣本的表達(dá)轉(zhuǎn)錄物進(jìn)行檢14轉(zhuǎn)錄組測(cè)序
轉(zhuǎn)錄物的檢測(cè):轉(zhuǎn)錄物的檢測(cè)主要取決于它在測(cè)序文庫(kù)中的長(zhǎng)度和豐度,以及它的可作圖性。如果分子以每100萬(wàn)個(gè)中0.6-2.5個(gè)的頻率出現(xiàn),使用12.4millions特異映射的36bp閱讀片段是無(wú)法被檢測(cè)的。基因組的轉(zhuǎn)錄能力影響閱讀的深度,哺乳動(dòng)物中有成千上萬(wàn)個(gè)基因,大多基因都有復(fù)雜的結(jié)構(gòu),轉(zhuǎn)錄時(shí)通常跳過(guò)基因間序列;而單細(xì)胞真核生物、細(xì)菌等含有較少的復(fù)雜的基因結(jié)構(gòu),所以轉(zhuǎn)錄產(chǎn)物也比較少。轉(zhuǎn)錄組測(cè)序
轉(zhuǎn)錄物的檢測(cè):轉(zhuǎn)錄物的檢測(cè)主要取決于它在測(cè)序文庫(kù)15轉(zhuǎn)錄組測(cè)序
例如:比如僅僅四百萬(wàn)個(gè)閱讀序列就可以檢測(cè)到酵母的80%的基因(至少4個(gè)reads映射到它的3‘末端),隨著額外數(shù)據(jù)的添加加被檢測(cè)基因的數(shù)量增加的并不明顯。差異性表達(dá)分析:由于外部的刺激或是實(shí)驗(yàn)的偏差造成的基因表達(dá)的差異是非常有用的,經(jīng)常用于推導(dǎo)生物體內(nèi)的特異路徑,產(chǎn)生意外的假說(shuō)。轉(zhuǎn)錄組測(cè)序
例如:比如僅僅四百萬(wàn)個(gè)閱讀序列就可以檢測(cè)到酵母的16轉(zhuǎn)錄組測(cè)序在RNA-seq的分析中基因或者轉(zhuǎn)錄物的豐度經(jīng)常用FPKM來(lái)表示。FPKM=(totalexonfragments)/(mappedreads(millions)*exonlength(kb))當(dāng)前計(jì)算FPKM時(shí)通常用75%的reads數(shù)量代替映射到的reads數(shù)量。轉(zhuǎn)錄組測(cè)序在RNA-seq的分析中基因或者轉(zhuǎn)錄物的豐度經(jīng)常用17轉(zhuǎn)錄組測(cè)序可變剪接的分析:RNA-seq實(shí)驗(yàn)可以整合外顯子閱讀的信息,來(lái)檢測(cè)是否有替代亞型。人類(lèi)基因中的大部分都是被可變剪接的,外顯子的跳讀是可變剪接的主要類(lèi)型。早期兩種可變剪接的研究中每個(gè)樣本使用3.5到4.4個(gè)百萬(wàn)的27-bp的reads,和12到29個(gè)百萬(wàn)的32-bp的reads。最近的一項(xiàng)研究使用~30million的80-bp的單尾reads去鑒定老鼠組織中的不同類(lèi)型的外顯子。轉(zhuǎn)錄組測(cè)序可變剪接的分析:RNA-seq實(shí)驗(yàn)可以整合外顯子閱18基因定位分析基因定位分析主要有兩種方法:ChIp-seq(染色質(zhì)免疫共沉淀測(cè)序)和3C(染色體構(gòu)象捕獲)。定位分析的位點(diǎn)主要包括:DNA-蛋白質(zhì)相互作用位點(diǎn)、RNA-蛋白質(zhì)相互作用位點(diǎn)、RNA-DNA相互作用位點(diǎn)和DNA-DNA相互作用位點(diǎn)基因定位分析基因定位分析主要有兩種方法:ChIp-seq19基因定位分析ChIp-seq鑒定DNA-蛋白質(zhì)相互作用位點(diǎn):1、最初的ChIp-seq技術(shù)僅僅可以檢測(cè)樣本中已經(jīng)測(cè)序的2~5百萬(wàn)的閱讀片段。2、影響ChIp-seq實(shí)驗(yàn)中閱讀數(shù)目的重要因素是蛋白質(zhì)是否是點(diǎn)源因子、廣源因子或混源因子。基因定位分析ChIp-seq鑒定DNA-蛋白質(zhì)相互作用位點(diǎn):20基因定位分析單源因子出現(xiàn)在基因組的特異位點(diǎn)中,包括:序列特異性轉(zhuǎn)錄因子、非常狹小的染色質(zhì)標(biāo)記;這些單源因子與增強(qiáng)子和轉(zhuǎn)錄起始位點(diǎn)結(jié)合。廣源因子一般覆蓋基因組的擴(kuò)展區(qū)域,比如許多染色質(zhì)標(biāo)記:histoneH3lysine9trimethylation(H3K9me3)marks混源因子比如RNA聚合酶II,產(chǎn)生以上兩種譜峰。廣源因子和混源因子比單源因子要求更多的讀碼序列?;蚨ㄎ环治鰡卧匆蜃映霈F(xiàn)在基因組的特異位點(diǎn)中,包括:序列特異21基因定位分析從圖2中知:1、單源因子產(chǎn)生幾百個(gè)堿基對(duì)的狹窄的譜峰。2、廣源因子產(chǎn)生大范圍的增強(qiáng)的信號(hào)。3、混源因子產(chǎn)生一定范圍的增強(qiáng)區(qū)域。ChIp-seq實(shí)驗(yàn)中三種因子的要求:1、單源因子應(yīng)該在哺乳動(dòng)物中對(duì)每個(gè)因子使用20個(gè)million的reads,或者在組織和小的基因組中使用2個(gè)million的reads,比如果蠅和線蟲(chóng)。2、廣源因子和混源因子對(duì)reads的大致數(shù)量并不清楚,一般而言是40個(gè)million的reads。
基因定位分析從圖2中知:22總結(jié)使用測(cè)序方法時(shí)有許多的因素可以影響到測(cè)序的深度和覆蓋度。我們?cè)谠O(shè)計(jì)實(shí)驗(yàn)時(shí)候要考慮以下的問(wèn)題:基因組結(jié)構(gòu)的差異、轉(zhuǎn)錄組的復(fù)雜性、閱讀的可作圖性、測(cè)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度房屋贈(zèng)與及環(huán)境監(jiān)測(cè)服務(wù)合同
- 幼兒園教師聘用合同(2025年度)附幼兒教育創(chuàng)新項(xiàng)目合作
- 2025年度水稻種植回收與農(nóng)業(yè)市場(chǎng)風(fēng)險(xiǎn)管理合同
- 二零二五年度文化產(chǎn)業(yè)集團(tuán)股份轉(zhuǎn)讓與文化衍生品開(kāi)發(fā)協(xié)議
- 二零二五年度農(nóng)民工工資代付與工程進(jìn)度掛鉤合同
- 共青團(tuán)入團(tuán)知識(shí)培訓(xùn)課件
- 2025年梁上打孔工程消防責(zé)任免除協(xié)議
- 二零二五年度土地流轉(zhuǎn)與農(nóng)業(yè)廢棄物資源化利用合同
- 2025遼寧大連融金征信服務(wù)選聘8人筆試參考題庫(kù)附帶答案詳解
- 2025江蘇無(wú)錫市宜興市宜能實(shí)業(yè)有限公司招聘線路設(shè)計(jì)輔助人員2人筆試參考題庫(kù)附帶答案詳解
- 小升初閱讀理解專(zhuān)題課件
- 血漿吸附療法課件
- 人教部編版九年級(jí)下冊(cè)歷史第四單元 經(jīng)濟(jì)大危機(jī)和第二次世界大戰(zhàn)單元測(cè)試題
- 個(gè)人理財(cái)實(shí)務(wù)教學(xué)課件
- (完整版)新版PEP小學(xué)英語(yǔ)五年級(jí)下冊(cè)教材分析
- 第2講 麥克斯韋方程組
- 研發(fā)經(jīng)費(fèi)填報(bào)指標(biāo)說(shuō)明及核算方法
- 一年級(jí)思維訓(xùn)練(課堂PPT)
- 綠色光年20162017雙上海閔行區(qū)江川綠色光
- GB_T 27025-2019 檢測(cè)和校準(zhǔn)實(shí)驗(yàn)室能力的通用要求(高清版)
- 菊花深加工項(xiàng)目可行性研究報(bào)告寫(xiě)作范文
評(píng)論
0/150
提交評(píng)論