大數(shù)據(jù)基因組測序的原理與方法(1)_第1頁
大數(shù)據(jù)基因組測序的原理與方法(1)_第2頁
大數(shù)據(jù)基因組測序的原理與方法(1)_第3頁
大數(shù)據(jù)基因組測序的原理與方法(1)_第4頁
大數(shù)據(jù)基因組測序的原理與方法(1)_第5頁
已閱讀5頁,還剩120頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、編輯ppt1 大規(guī)?;蚪M測序的原理與方法大規(guī)?;蚪M測序的原理與方法 編輯ppt2 元素周期表的發(fā)現(xiàn)奠定了二 十世紀(jì)物理、化學(xué)研究和發(fā)展的 基礎(chǔ) 元素周期表 “基因組序列圖”將奠定二十一世紀(jì)生 命科學(xué)研究和生物產(chǎn)業(yè)發(fā)展的基礎(chǔ)! “基因組”-生命科學(xué)的“元素周期表 ” 人體解剖圖奠定了現(xiàn) 代醫(yī)學(xué)發(fā)展的基礎(chǔ) 編輯ppt3 生命的奧秘蘊藏于 “四字天書”之 中 GCTTCTTCCTCATTTTCTCTTGCCGCCACCATGCCGCCACCA TCATTTTCTCTTGCCGCCACCATGCTTCTTCCTCATTTTCTCT CCACCATGCCGCCACCACGCCACCATGCTTCTT

2、CCTCATCTC GCTTTCTTGCCGCCACCATGCCGCCACCGCTTCTTCCtTCTCT 編輯ppt4 基因組學(xué)的基礎(chǔ)理論研究基因組學(xué)的基礎(chǔ)理論研究 基因組學(xué)是要揭示下述四種整合體系的相互關(guān)系基因組學(xué)是要揭示下述四種整合體系的相互關(guān)系: 基因組作為信息載體基因組作為信息載體 (堿基對、重復(fù)序列的整(堿基對、重復(fù)序列的整 體守恒與局部不平衡的關(guān)系)體守恒與局部不平衡的關(guān)系) 基因組作為遺傳物質(zhì)的整合體基因組作為遺傳物質(zhì)的整合體 (基因作為功能和基因作為功能和 結(jié)構(gòu)單位與遺傳學(xué)機(jī)制的關(guān)系結(jié)構(gòu)單位與遺傳學(xué)機(jī)制的關(guān)系) 基因組作為生物化學(xué)分子的整合體基因組作為生物化學(xué)分子的整合體 (

3、基因產(chǎn)物作基因產(chǎn)物作 為功能分子與分子、細(xì)胞機(jī)制的關(guān)系)為功能分子與分子、細(xì)胞機(jī)制的關(guān)系) 物種進(jìn)化的整合體物種進(jìn)化的整合體 (物種在地理與大氣環(huán)境中的物種在地理與大氣環(huán)境中的 自然選擇)自然選擇) 編輯ppt5 編輯ppt6 編輯ppt7 編輯ppt8 測序設(shè)備的 壟斷和高速度換代 8 199020052020 Year 20152010 20001995 Mb1000 Mb4000 ABI373 ABI377 ABI3130 ABI3730 ABI3730 xl GA-I GA-II Less Than 5 yrs HiSeq1000/2000 Mb4500 ABI3700 ABI3700

4、 xl SOLiD SOLiD2 SOLiD3 5500 xl SOLiD ABI3130 xl GA-IIx 5500 SOLiD 編輯ppt9 測序設(shè)備發(fā)展現(xiàn)狀 9 第一代(穩(wěn)定需求)第一代(穩(wěn)定需求) ABi 3130 xL 3730 xL 3500 xL 第三代(即將面市)第三代(即將面市) Helicos Biosciences Helicos Genetic Analysis System Pacific Biosciences RSSystem 第二代(高速發(fā)展)第二代(高速發(fā)展) Roche Genome Sequencer FLX System GS Junior Syste

5、m Illumina Genome Analyzer IIx MiSeq HiSeq 1000 HiSeq 2000 Life Technologies (ABi) 5500 SOLiD System 5500 xL SOLiD System Ion Torrent PGM DanaherMotion Polonator G.007 Complete Genomics 無錫艾吉因生物信息技術(shù)有限公司無錫艾吉因生物信息技術(shù)有限公司 AG-100 深圳華因康基因科技有限公司深圳華因康基因科技有限公司 Pstar-1 中科院北京基因組所中科院北京基因組所/ /半導(dǎo)體所半導(dǎo)體所 BIGIS-1 BIG

6、IS-4 編輯ppt10 編輯ppt11 編輯ppt12 反應(yīng)所需物質(zhì):反應(yīng)所需物質(zhì):DNA模板、引物、模板、引物、DNA聚合聚合 酶、酶、dNTP、緩沖液、緩沖液 每個循環(huán)包括:每個循環(huán)包括:變性(變性(90)、退火()、退火(54 )、延伸()、延伸(72 ) 編輯ppt13 編輯ppt14 編輯ppt15 ATGCCGTAGGCCTAGC TAGGCCTAGCTCGGA ATGCCGTAGGCCTAGCTCGG A 基因組基因組DNA BAC文庫文庫 根據(jù)物理圖譜根據(jù)物理圖譜 正確定位的正確定位的 BAC 或或contig 用于霰彈法測用于霰彈法測 序的候選克隆序的候選克隆 用于霰彈法測

7、序用于霰彈法測序 的亞克隆的亞克隆 測序并組裝測序并組裝 完整的基因完整的基因 組序列組序列 逐步克隆法(逐步克隆法(Clone by Clone) 全基因組霰彈法全基因組霰彈法 (Whole Genome Shot-gun) 基因組基因組DNA 霰彈法克隆霰彈法克隆 測序并進(jìn)行測序并進(jìn)行 全基因組序全基因組序 列組裝列組裝 完整的基因完整的基因 組序列組序列 編輯ppt16 編輯ppt17 BAC by BAC Whole Genome Shotgun the sequencing of the human genome is likely to be the only large sequ

8、encing project carried to completion by the methods described in this issue. Maynard V. Olson , The maps: Clone by clone by clone , Nature 409, 816 - 818 (2001) 編輯ppt18 “Working Draft” (90%; 4X) Finished Genome (99.99%; 8X) Gap1 Gap2 Chromosome 工作草稿(框架圖)與完成圖 編輯ppt19 BAC by BAC 編輯ppt20 The sequence o

9、f the human genome C. Venter et al. Science 16 Feb. 291: 1304 1351, 2001 編輯ppt21 人類基因組計劃研究的主要成果和進(jìn)展表現(xiàn)在這人類基因組計劃研究的主要成果和進(jìn)展表現(xiàn)在這“四張圖四張圖”上上 遺傳圖譜遺傳圖譜 又稱為連鎖圖譜(又稱為連鎖圖譜(linkage maplinkage map),指),指 基因或基因或DNADNA標(biāo)志在染色體上的相對位置標(biāo)志在染色體上的相對位置 與遺傳距離與遺傳距離 物理圖譜物理圖譜 以定位的以定位的DNADNA標(biāo)記序列如標(biāo)記序列如STSSTS作為路標(biāo),作為路標(biāo), 以以DNADNA實際長度即實

10、際長度即bp、kb、Mb為圖距的為圖距的 基因組圖譜?;蚪M圖譜。 轉(zhuǎn)錄圖譜轉(zhuǎn)錄圖譜 利用利用EST(expressed sequence tags 表達(dá)表達(dá) 序列標(biāo)簽)作為標(biāo)記所構(gòu)建的分子遺傳序列標(biāo)簽)作為標(biāo)記所構(gòu)建的分子遺傳 圖譜圖譜 序列圖譜序列圖譜 通過基因組測序得到的,以通過基因組測序得到的,以A A、T T、G G、C C 為標(biāo)記單位的基因組為標(biāo)記單位的基因組DNADNA序列序列 編輯ppt22 物理圖譜的構(gòu)建物理圖譜的構(gòu)建 大片段克隆的篩選大片段克隆的篩選 霰彈法測序與霰彈法測序與“工作框架圖工作框架圖”的構(gòu)建的構(gòu)建 序列的全組裝與序列的全組裝與“完成圖完成圖”構(gòu)建構(gòu)建 編輯pp

11、t23 物理圖譜的制作物理圖譜的制作 編輯ppt24 物理圖譜物理圖譜是以特異的是以特異的DNADNA序列為標(biāo)志所展示的染色體圖。序列為標(biāo)志所展示的染色體圖。 標(biāo)志之間的距離或圖距以物理距離如堿基對(標(biāo)志之間的距離或圖距以物理距離如堿基對(base pairbase pair;bpbp, Kb , Mb)Kb , Mb)表示。最精細(xì)的物理圖是核苷酸順序圖,最粗略的物表示。最精細(xì)的物理圖是核苷酸順序圖,最粗略的物 理圖是染色體組型圖。理圖是染色體組型圖。 STSSTS圖譜圖譜是最基本和最為有用的染色體物理圖譜之一,是最基本和最為有用的染色體物理圖譜之一,STSSTS (Sequence Tagg

12、ed Site)Sequence Tagged Site)本身是隨機(jī)地從人類基因組上選擇本身是隨機(jī)地從人類基因組上選擇 出來的長度在出來的長度在200200300bp300bp左右的特異性短序列(每個左右的特異性短序列(每個STSSTS在基在基 因組中是唯一的,因組中是唯一的,STSSTS圖譜就是以圖譜就是以STSSTS為路標(biāo)(平均每為路標(biāo)(平均每100Kb100Kb一一 個),將個),將DNADNA克隆片段有序地定位到基因組上??寺∑斡行虻囟ㄎ坏交蚪M上。 STS的來源的來源 隨機(jī)基因組序列隨機(jī)基因組序列 表達(dá)基因序列,如表達(dá)基因序列,如EST 遺傳標(biāo)記序列,如微衛(wèi)星標(biāo)記遺傳標(biāo)記序列,如微

13、衛(wèi)星標(biāo)記 有關(guān)有關(guān)STSSTS的信息可在基因組數(shù)據(jù)庫的信息可在基因組數(shù)據(jù)庫GDBGDB中找到中找到 http:/gdbwww. gdb. org 編輯ppt25 q確定各確定各STS序列及其序列及其 在基因組中的位置在基因組中的位置 q大插入片段基因組文大插入片段基因組文 庫的構(gòu)建(庫的構(gòu)建(BAC文庫)文庫) q 以特定以特定STS為標(biāo)記篩為標(biāo)記篩 選并定位克隆選并定位克隆 q含有含有STS的克隆在基的克隆在基 因組中排序因組中排序 基因組數(shù)據(jù)庫(GDB)中至少含有 24568 個STS路標(biāo)信息 編輯ppt26 作為載體的基本要求 能在宿主細(xì)胞中進(jìn)行獨立的復(fù)制能在宿主細(xì)胞中進(jìn)行獨立的復(fù)制 具

14、有多克隆位點,可插入外源具有多克隆位點,可插入外源 DNADNA片段片段 有合適的篩選標(biāo)記,如抗藥性有合適的篩選標(biāo)記,如抗藥性 大小合適,易于分離純化大小合適,易于分離純化 拷貝數(shù)多拷貝數(shù)多 文庫的概念文庫的概念 含有某種生物體全部基因的隨機(jī)片段的重組含有某種生物體全部基因的隨機(jī)片段的重組DNADNA克隆群體克隆群體 載體:載體:能攜帶外源能攜帶外源DNADNA進(jìn)入宿主細(xì)胞進(jìn)入宿主細(xì)胞 的工具,常用的載體有質(zhì)粒載體、噬的工具,常用的載體有質(zhì)粒載體、噬 菌體載體、細(xì)菌人工染色體等菌體載體、細(xì)菌人工染色體等 宿主:宿主:能容納外源能容納外源DNADNA片段的生物體,片段的生物體, 常用的有大腸桿菌

15、、酵母等常用的有大腸桿菌、酵母等 編輯ppt27 NotI、SacI脈沖場凝膠電 泳得200Kb左 右的大片段 DNA 純化后與載體 連接 電轉(zhuǎn)化,將連接 產(chǎn)物導(dǎo)入大腸桿 菌感受態(tài)細(xì)胞 插有外源DNA片段的BAC載體 在含有氯霉素 的固體培養(yǎng)基 中培養(yǎng) 每一個菌落為帶有相同 外源DNA片段的單克隆 編輯ppt28 BAC克隆的篩選克隆的篩選 “STS-PCR反反 應(yīng)池應(yīng)池”方案篩方案篩 選種子克隆選種子克隆 特定的特定的STS標(biāo)標(biāo) 記記 相互間具有重疊片段的 BAC克隆根據(jù)STS信息組裝 成contig,并定位于基因組上 Contig 每一個菌落為帶有相同 外源DNA片段的單克隆 編輯ppt2

16、9 編輯ppt30 Regional mapping 編輯ppt31 Regional mapping 編輯ppt32 Minimal tiling path selected for sequencing. Regional mapping 編輯ppt33 stSG50796stSG50796 WI-21858WI-21858 WI-20982WI-20982 SGC-34652SGC-34652 EST325005EST325005 Bda37h09Bda37h09sts-N34454sts-N34454 stSG-22642stSG-22642stSG22463stSG22463IB26

17、2IB262 SGC-100057SGC-100057SGC-11218SGC-11218SGC-77734SGC-77734 SGC-12613SGC-12613 SGC-79997SGC-79997D3S4170D3S4170WI-13469WI-13469SGC-104744SGC-104744WI-7400WI-7400 SGC-82788SGC-82788sts-N30615sts-N30615SGC-106678SGC-106678WI-3006WI-3006D3S4125D3S4125 stSG31571stSG31571SGC-86097SGC-86097SGC-104738S

18、GC-104738 sts-T03421sts-T03421 stSG81116stSG81116DM1-2b11sDM1-2b11s A004Q43A004Q43WI-10858WI-10858SGC-15279SGC-15279stSG3143stSG3143WI-8499WI-8499 D3S3525D3S3525D3S3630D3S3630 SGC-11976 SGC-11976 WI-6116WI-6116WI-2053WI-2053SGC-84074SGC-84074SGC-77858SGC-77858D3S3706D3S3706SGC-102094SGC-102094 WI-13

19、611WI-13611NRU18-13sNRU18-13sWI-21921WI-21921CHLC.GATA44a05CHLC.GATA44a05D3S1304D3S1304sts-T58150sts-T58150SGC-82964SGC-82964 WI-1341WI-1341D3S3591D3S3591 605m01229 e21279b12299n03198p1741l18233p0137i04324k11163m22 Beijing CenterMapped on 3p by sequence from other center114k09204c23728k15429p24499n0

20、6399k19106b10129j10113l1013f06 600o17322f0976o22263j0830m15320c08250a15294h24140b10137g22 South centerMapped on 3p by fingerprint from other center265o10717m12762o12156h01324k15283k15572b0261i09534j21 166f03 497i24497i24121d03121d03211k13 161d20274o146i21116k05255k15812i02 North centerMapped not on

21、3p by fish1120h22566o1463o01757o16 26f1026f10 453a03 586c02483g20507d0625c11344o05 Mapped not on 3p by fish260k16263p03341o12560g03772p01344l093d22489o22794g03 Beijing and South 306h05621c18438g1582o03181f22622p03320k0124b16 57d0657d06 470 e10 STS markers 385a18416n08785a0797c16 25f0125f01167p17167p

22、17 277d17669 e03194c09 Beijing and North210b1795 e11 101a04101a0499d1099d10 487j12590a20156b21 End certified 710 e0410h06 508a20508a20173f11173f117m247m24 211b19291p2144l14 44l14481o07 Phase 3Phase 3731 e12731 e12811m11811m11372k09 194d21245a06 16k1516k15318i14318i14529b17 53 e12542k24 Mapped not on

23、 3p by sequence from NCBI392m07319i18 454f24 238a09238a09 264h03157 e16350a17 Mapped on 3p by fish673f20453f03489d19194i05 ? ?Sequenced BACs without mapping information 93a0193a01360 e14 244g03329a02 611h22611h2270b0570b05 135 e1674 e04124l0821j23 21j23 IB1403IB1403 SGC-12699SGC-12699 sts-F21241sts-

24、F21241WI- 6061WI- 6061 stSG16459stSG16459WI-6949WI-6949 stSG15038stSG15038 sts-M91858sts-M91858WI-17502WI-17502 WI-7625WI-7625WI-7071WI-7071 AB000410AB000410sts-F21841sts-F21841sts-L15409sts-L15409A004Z22A004Z22stSG31652stSG31652 WI-16427WI-16427stSG43815stSG43815A007593A007593WI-11598WI-11598A008O4

25、2A008O42D3S4194D3S4194stSG4279stSG4279WI-14394WI-14394 sts-N95054sts-N95054stSG32055stSG32055stSG15465stSG15465WI-11041WI-11041stSG47554stSG47554stSG3350stSG3350D3S3589D3S3589SGC-12045SGC-12045D3S1263D3S1263stSG47397stSG47397 SGC-84455SGC-84455 D3S3610D3S3610 SGC-10790SGC-10790D3S3691D3S3691A002R42A

26、002R42stSG50845stSG50845stSG2582stSG2582WI-31307WI-31307A004X28A004X28D3S3601D3S3601A001T39A001T39stSG62586stSG62586WI-15608WI-15608sts-H83694sts-H83694stSG47347stSG47347WI-5650WI-5650WI-20823WI-20823 202a21 105k13334l221087o20593j10169k17309m10813n23 83m12 19 e08 203c04481h17356a0713b04449 e2125o17

27、715i04 642 e22298m15224p21267l16407i02488o087f24481b18 128a05380o24474f16327h1716m03470i10 398j1558i13 424h06325l061016h17134k10299h13 220d10220d10 126l04900o22 18f03 58b17 1022p15193k15586c12588p09 173m24572m14 1082a181082a18266 e23 275j11 270i10270i10333a02 34l0634l06ctb-159n23ctb-159n23 168l03ctc

28、-237n12 ctc-237n12382a21ctc-371o18ctc-371o18126l09 163d23 AC055767AC055767767c01 502k05502k05 326o24ctb-140o19 ctb-140o19 415k13224m20 167k17167k17 219m19219m19 266j06438j01627c01 659g04659g04 AC007791AC007791263i01263i01596j09 996c06338p06 338p06606c06606c06 ctc-243a06ctc-243a06ctc-371o18ctc-371o18

29、 357l24 94a1494a14380a2270i1170i11 citb-243a06citb-243a06 af176815ctb-177n07 ctb-177n07115g03115g03109j15 781a02412a07 412a07 429f16 1020a11ctb-187p01 ctb-187p01 622i12 402p1145b16 439f04105h19 3pter Beijing Map 編輯ppt34 BAC Pooling Protocol 1,152 (plates) X 384 (wells/plate) X 1 (BAC/well) = 442,368

30、 BAC 48X8 (板) X 384 ( 孔/板 ) X 1 ( BAC/孔 ) = 147,456 BAC Each BAC clone contain 150 Kbp human insert 147,456 BAC clones 對全基因組的覆蓋率: 147,456 BAC clones X 150 Kbp = 7.3728 The genome DNA 3,000,000 Kbp 編輯ppt35 共共48個個 每組每組 8 個個 每每8個個96孔板組成孔板組成1個個superpool,384個個96孔板組成孔板組成48個個superpools 48 superpools 編輯ppt3

31、6 Column poolsColumn pools Row poolsRow pools 1 2 3 4 5 6 7 8 9 10 11 12 第八板第八板 第二板第二板 Plate poolsPlate pools 第一板第一板 plate pools,row pools,column pools的構(gòu)成的構(gòu)成 編輯ppt37 1 2 3 4 5 6 7 8 9 10 11 12 超級池(超級池(8個個96孔板,孔板, 共共768個克?。﹤€克?。?板池(板池(96個克?。﹤€克隆) 行池(12個克?。?列池(列池(8個克隆)個克?。?大大減少篩選的工作量,降低成本,所得篩選結(jié)果準(zhǔn)確可靠大大減少

32、篩選的工作量,降低成本,所得篩選結(jié)果準(zhǔn)確可靠 28 VS 768 編輯ppt38 sheet of superpools, plate pools, row pools, column pools 編輯ppt39 一一 BAC Screening 前前48個樣品為引物個樣品為引物OGG1.51對對superpool(sp)的篩選結(jié)果的篩選結(jié)果 后后48個樣品為引物個樣品為引物OGG1.52對對superpool(sp)的篩選結(jié)果的篩選結(jié)果 編輯ppt40 引物引物OGG1.52對應(yīng)對應(yīng)sp#27,34,45的的plate,row,column pools的篩選結(jié)果的篩選結(jié)果 編輯ppt41 B

33、AC clone 確定確定 (+為陽性克隆為陽性克隆) 編輯ppt42 引物引物OGG1.52的的Colony-PCR 編輯ppt43 STSSTS的密度尚未達(dá)到繪制高精度物理圖譜的要求,且在基因組中的分的密度尚未達(dá)到繪制高精度物理圖譜的要求,且在基因組中的分 布不均勻,造成很多區(qū)域沒有陽性克隆覆蓋布不均勻,造成很多區(qū)域沒有陽性克隆覆蓋, ,形成空洞。因此需用指紋圖形成空洞。因此需用指紋圖 譜(譜(FPCFPC法)或末端序列(法)或末端序列(Walking by End Sequence)Walking by End Sequence)步移等手段對種子步移等手段對種子 克隆進(jìn)行延伸,形成連續(xù)克

34、隆群。利用延伸方法篩選得到的克隆稱為延克隆進(jìn)行延伸,形成連續(xù)克隆群。利用延伸方法篩選得到的克隆稱為延 伸克隆。伸克隆。 Contig 1 Contig 2 重疊序列重疊序列重疊序列重疊序列 延伸引物延伸引物 篩選到的延伸克隆篩選到的延伸克隆 編輯ppt44 20 kb 300 bp Molecular weight marker every 5th lane - BAC clones 在96深孔 板中培養(yǎng) - Hind III 完全酶切 - 1% 瓊脂糖凝膠電泳 指指 紋紋 圖圖 譜譜 法法 (Walking by Fingerprinting database) 挑取靠近空洞的種子克隆,酶切

35、構(gòu)建 其指紋圖譜,在FPC數(shù)據(jù)庫中進(jìn)行比對, 搜索含有此克隆的重疊克隆群信息,從 中確定覆蓋空洞區(qū)域的克隆,達(dá)到延伸 目的。 編輯ppt45 Hind III 完 全酶切 Hind III 完 全酶切 FPC數(shù)據(jù)庫數(shù)據(jù)庫 中比對中比對 Clone AClone BClone C C AB 編輯ppt46 contig搭建中克隆的錯位搭建中克隆的錯位 編輯ppt47 末端序列步行法末端序列步行法 (Walking by End Sequence) 挑取靠近空洞的種子克隆進(jìn)行末端測序,然后在基因組數(shù)據(jù)庫中進(jìn)行比對, 確定專一性的序列片段作為新的STS路標(biāo)。最后設(shè)計新路標(biāo)的PCR引物,按照 STSP

36、CR“反應(yīng)池”方案篩選新的克隆,達(dá)到延伸的目的 。 克隆克隆350A18350A18序列輸入序列輸入 end sequence databaseend sequence database的查詢結(jié)果的查詢結(jié)果 編輯ppt48 四、四、Clone Identification 1、STS-PCR 2、BAC end sequencing 3、Fingerprinting 4、FISH 編輯ppt49 CK2 CK1 CK2 CK1 13f06 267l16 481o07 250a15 204c23 340j13 對對1515個克隆進(jìn)行個克隆進(jìn)行HindIIIHindIII酶切后電泳結(jié)果酶切后電泳結(jié)

37、果 編輯ppt50 編輯ppt51 “工作框架圖工作框架圖”繪制繪制 根據(jù)序列與STS database進(jìn)行blastn比較結(jié)果,將克隆定位末端序的比較, 判定延伸在contig外的一端序列。并可及時進(jìn)行walking,篩選新的克隆 編輯ppt52 霰彈法測序組裝與Finishing 編輯ppt53 工作流程圖工作流程圖 編輯ppt54 Shotgun Sequencing I :RANDOM PHASE 編輯ppt55 Shotgun Sequencing II:ASSEMBLY 編輯ppt56 Shotgun Sequencing III: FINISHING 編輯ppt57 Shotgu

38、n Sequencing III: FINISHING 編輯ppt58 Shotgun Sequencing III: FINISHING 編輯ppt59 Shotgun Sequencing III: FINISHING 編輯ppt60 Shotgun Sequencing III: FINISHING 編輯ppt61 Consed軟件顯示序列組裝結(jié)果界面軟件顯示序列組裝結(jié)果界面 1、Filling “intraclone gaps” 編輯ppt62 BAC-453F3s finishing Sp6 Sp6 Sp6 1kb. Insert size. The size of the clon

39、e-insert from which a clone-end pair is taken. Contig. The result of joining an overlapping collection of sequence reads. Scaffold. The result of connecting non-overlapping contigs by using pair-end reads. N50 size. As applied to contigs or scaffolds, that size above which 50% of the assembled seque

40、nce can be found. 編輯ppt77 Genome assembly strategy Contig assembly Scafffolding Internal gap closing http:/ 編輯ppt78 Recent whole genome sequencing projects Table. Basic information of Rrecently sequenced genomes. Organis m Genome size strategyCoverage ContigScafffolds #N50MaxTotal#N50MaxTotal Human3

41、.0GbSolexa45x2.76M1.5Kb18.8Kb2.18GbNRNRNRNR Apple742.3 Mb Sangr+ 454 4.4x+ 12.5x 122,14616,171NR603.9Mb1,629102KbNR598.3 Castor320MbSanger4.59x54,00021.1kb190kb324Mb25,828496.5kb4.7Mb350.6Mb Grapevin e 500Mb Sangr+ 454 7x+4.2x58,61118.2Kb238kb531Mb2,0931.33Mb7.8Mb421Mb Panda2.4GbSolexa74x200,60436,7

42、28434,6352.25Gb81,4961.22Mb6.05Mb2.30Gb Straberry220Mb 454+sole xa+solid 24.5x+6. 4x+6.4x 16,48728,072215,349202Mb3,2631.44Mb4.1Mb214Mb Cacoo430Mb 454+san ger+sole xa 16.7x+ 44x 25,91219.8kb190Kb291.44,792473.8Kb3415Kb326.9Mb Tomato900Mb 454+san ger+sole xa+solid 31x+3.6x +82x+ 140 x 110,87255.7kbNR

43、763Mb3,7614.45MbNR782Mb Potato840Mb 454+sole xa+solid 11x+106x +0.2x 111,18731KbNR683Mb66,301387KbNR727Mb 編輯ppt79 編輯ppt80 Flowchart of the WGS de novo assembly Genomic DNA DNA fragmentation, construct fragmented libraries Generate sequencing reads using 454 technology Sequencing error correction Out

44、put contigs Fill in intra-scaffold gaps and get the final scaffolds Genomic DNA DNA fragmentation, construct paired- end libraries with variant insert sizes Generate sequencing reads using Illumina GA technology Sequencing pre- process Output contigs and mini scaffolds Solexa part 454 part Hybrid as

45、sembly and scffolding 編輯ppt81 454 reads process Raw reads Kmer evaluation Q20, remove adaptor,trim Sequencing pre-process Newbler assembly Assembled reads Unassembled reads Unigene coverage Kmer evaluationSolexa mapping Nr/Nt blast Contig status Assembl y Hybrid scaffolding 編輯ppt82 Solexa reads proc

46、ess Raw reads Kmer evaluation Sequencing pre-process Soap assemblyAssembled reads Unassembled reads Unigene coverage Kmer evaluationSolexa mapping Nr/Nt blast Contig status Assembl y Mapping to 454 contig Hybrid scaffolding Cov /Comp 編輯ppt83 long reads assembly contigs short reads A + C B scaffoldin

47、g A + B C scaffolds Fix gap Hybrid assembly 編輯ppt84 EST Unigene Scaf AScaf CScaf BScaf D New Scaf A B CD EST based Assembly in short reads of NGS: Constructe BIGer Scaffording 編輯ppt85 Raw sequencing reads pre-processing I Significance and purpose uSequencing library quality control uSequencing bias

48、analysis Inherited prosperities on certain second generation sequencer Genome sequencing black hole effect Transcriptome sampling and quantification bias uReady for mapping uReady for de novo assembly 編輯ppt86 Raw sequencing reads pre-processing II Sequencing reads numbers Duplicates detection, regio

49、nal distribution analysis and trimming Adapter detection and trimming Reads quality analysis and low quality reads filter Average quality density distribution Average quality positional distribution regional distribution F-R correlation GC content-quality correlation Insert length distribution Pipel

50、ine 編輯ppt87 raw data pre-process 編輯ppt88 Image analysis and basecalling GOAT pipeline (OLB1.6), CASAVA 編輯ppt89 Quality Control GERALD Summary.htm Lane Lane Yield (kbases) Clusters (raw) Clusters (PF) 1st Cycle Int(PF) % intensity after 20 cycles (PF) %PF Clusters % Align (PF) Alignment Score (PF) %E

51、rror Rate (PF) 1526305 97464 +/- 4878 87676 +/- 9219 75 +/- 21 86.17 +/- 5.25 89.76 +/- 5.95 99.06 +/- 0.25 102.41 +/- 1.62 1.30 +/- 0.22 編輯ppt90 Fastq and Quality Solexa reads of the Fastq format s_1_1_sequence.txt HWI-EAS724_0001:8:32:374:374#0/1 GAGCTGTATATGAATAATAGTTCGTTTTTCATTATCCAAGATGGATCGGTA

52、TAAAGTCTGCTAAAATAAAGGTACAACG +HWI-EAS724_0001:8:32:374:374#0/1 fcfcfggdfggggfggggcggggggggfgggggcgggfWgggggggggfgcggdgcgcggggfacbbbbgcgggggd s_1_2_sequence.txt HWI-EAS724_0001:8:32:374:374#0/2 TACCGTTAATAGCAGTAATATCATAATAGTAATAGCATCATAACGGTAGTCCCATAAAAGTGTGTCAGTAGTAGTAGTA +HWI-EAS724_0001:8:32:374:3

53、74#0/2 ggggfgggggd_adcggggeggfggeggegfgeececdegggggfegcfegggegggfgacacedbd_cYb Illumina 1.3 format encodes a Phred quality score from 0 to 40 using ASCII 64 to 104 error probability (p): # for solexa: p = 0.01, Q = 19; p = 0,05, Q = 12.8, p = 0.10, Q = 9.5; # for phred: p = 0.01, Q = 20; p = 0,05, Q

54、 = 13, p = 0.10, Q = 10; 編輯ppt91 Data assessment I Read quality distribution 編輯ppt92 Low Quality High Quality Trim: 3 end trim if QN 30) 60 Assessment: Distance Distrubition between two Low quality (Q20 ? 編輯ppt99 Lane data usage in different solexa library - Fiter duplication reads 編輯ppt100 Average

55、Reads per StartPoint 編輯ppt101 Read Correction Correct Illumina GA short reads Kmer = 17 Genome Size Prediction: M = N * ( L-K+1)/L N = Total Length (bp) /Genome size L= Average Rads Length (bp) M 編輯ppt102 Genome size estimation using Kmer Before estimating the genome size, we set a hypothesis: the k

56、-mer we picked out from the genome can ergodic the whole genome sequence.According to the Lander waterman algorithm, the algorithm should be represented as: G= Knum / Kdepth Here, G is the genome size, Knum is the total number of k-mer and Kdepth is the expected depth of the k-mer. If we obtain the

57、expected depth of k-mer, we can calculate the genome size. Because the distribution of k-mer frequency yields to Poisson distribution, we can consider the peak of the k- mer distribution curve as the expected depth of k-mer and calculate the genome size. Note: A total of 15,437,084,746 Kmers, the peak value on the right figure is 8, so the genome size is estimated as: 15,437,084,746/8=1.93G 編輯ppt103 High Quality Read Rate after preprocess Assembly: Raw data VS preprocessed Data

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論