最新基因組測序的原理和方法專業(yè)知識講座課件_第1頁
最新基因組測序的原理和方法專業(yè)知識講座課件_第2頁
最新基因組測序的原理和方法專業(yè)知識講座課件_第3頁
最新基因組測序的原理和方法專業(yè)知識講座課件_第4頁
最新基因組測序的原理和方法專業(yè)知識講座課件_第5頁
已閱讀5頁,還剩243頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

元素周期表的發(fā)現(xiàn)奠定了二十世紀(jì)物理、化學(xué)研究和發(fā)展的基礎(chǔ)元素周期表“基因組序列圖”將奠定二十一世紀(jì)生命科學(xué)研究和生物產(chǎn)業(yè)發(fā)展的基礎(chǔ)!

“基因組”----生命科學(xué)的“元素周期表”人體解剖圖奠定了現(xiàn)代醫(yī)學(xué)發(fā)展的基礎(chǔ)元素周期表的發(fā)現(xiàn)奠定了二十世紀(jì)物理、化學(xué)研究1生命的奧秘蘊藏于“四字天書”之中…GCTTCTTCCTCATTTTCTCTTGCCGCCACCATGCCGCCACCATCATTTTCTCTTGCCGCCACCATGCTTCTTCCTCATTTTCTCTCCACCATGCCGCCACCACGCCACCATGCTTCTTCCTCATCTCGCTTTCTTGCCGCCACCATGCCGCCACCGCTTCTTCCtTCTCT…生命的奧秘蘊藏于“四字天書”之中…GCTTCTTCCTCA2基因組學(xué)的基礎(chǔ)理論研究基因組學(xué)是要揭示下述四種整合體系的相互關(guān)系:基因組作為信息載體

(堿基對、重復(fù)序列的整體守恒與局部不平衡的關(guān)系)基因組作為遺傳物質(zhì)的整合體

(基因作為功能和結(jié)構(gòu)單位與遺傳學(xué)機制的關(guān)系)基因組作為生物化學(xué)分子的整合體

(基因產(chǎn)物作為功能分子與分子、細(xì)胞機制的關(guān)系)物種進(jìn)化的整合體

(物種在地理與大氣環(huán)境中的自然選擇)基因組學(xué)的基礎(chǔ)理論研究基因組學(xué)是要揭示下述四種整合體系的相互3

基因組學(xué)是一個大學(xué)科“界門綱目科屬種”,地球上現(xiàn)存物種近億,所有生生滅滅的生物,無一例外,都有個基因組?;蚪M作為信息載體,它所儲存的信息是最基本的生物學(xué)信息之一;既是生命本質(zhì)研究的出發(fā)點之一,又是生物信息的歸宿?;蚪M學(xué)研究包括對基因產(chǎn)物(轉(zhuǎn)錄子組和蛋白質(zhì)組)的系統(tǒng)生物學(xué)研究?;蚨鄳B(tài)性的規(guī)模化研究就是基因組多態(tài)性的研究?;蚪M學(xué)的研究必然要上升到細(xì)胞機制、分子機制和系統(tǒng)生物學(xué)的水平?;蚪M的起源與進(jìn)化和物種的起源與進(jìn)化一樣是一個新的科學(xué)領(lǐng)域。基因組信息正在以天文數(shù)字計算,規(guī)模化地積累,它的深入研究必將形成一個嶄新的學(xué)科?;蚪M學(xué)是一個大學(xué)科“界門綱目科屬種”,地球上現(xiàn)存物種4

基因組學(xué)是一門大科學(xué)基因組的信息是用來發(fā)現(xiàn)和解釋具有普遍意義的生命現(xiàn)象和它們的變化、內(nèi)在規(guī)律、和相互關(guān)系?;蚪M的信息含量高?;蚪M學(xué)的研究又在于基因組間的比較?;蚪M學(xué)的復(fù)雜性必然導(dǎo)致多學(xué)科的引進(jìn)和介入(各生物學(xué)科、醫(yī)學(xué)、藥學(xué)、計算機科學(xué)、化學(xué)、數(shù)學(xué)、物理學(xué)、電子工程學(xué)、考古學(xué)等)。基因組學(xué)研究的手段和技術(shù)已經(jīng)走在生命科學(xué)研究的最前沿。基因組信息來自于高效率和規(guī)?;a(chǎn)生的實驗數(shù)據(jù)。人類基因組計劃證明了基因組研究的迫切性和可行性。基因組學(xué)是一門大科學(xué)基因組的信息是用來發(fā)現(xiàn)和解釋具有普遍5基因組與生命之謎基因組的產(chǎn)生與進(jìn)化。基因組DNA組分的變化、GC百分比、嘌呤:嘧啶守恒。遺傳密碼的發(fā)生、發(fā)展和進(jìn)化。內(nèi)含子(尤其是大于100,000核苷酸的大內(nèi)含子)剪出后的運輸和降解。最小內(nèi)含子的生物學(xué)意義。動物基因組與植物基因組在基因分布上的共性和個性。物種衍變過程中基因組水平的變化?;蚪M大小變化與遺傳、分子、細(xì)胞機制的關(guān)系?!癑UNKDNA”的發(fā)生、分類、進(jìn)化與功能?;蚪M與生命之謎基因組的產(chǎn)生與進(jìn)化。6測序設(shè)備的壟斷和高速度換代199020052020Year2015201020001995Mb1000Mb4000ABI373ABI377ABI3130ABI3730ABI3730xlGA-I

GA-IILessThan5yrsHiSeq1000/2000Mb4500ABI3700ABI3700xlSOLiDSOLiD2SOLiD35500xlSOLiDABI3130xlGA-IIx5500SOLiD7測序設(shè)備的199020052020Year201520102測序設(shè)備發(fā)展現(xiàn)狀第一代(穩(wěn)定需求)ABi3130xL3730xL3500xL第三代(即將面市)HelicosBiosciencesHelicosGeneticAnalysisSystemPacificBiosciencesRSSystem第二代(高速發(fā)展)RocheGenomeSequencerFLXSystemGSJuniorSystemIlluminaGenomeAnalyzerIIxMiSeqHiSeq1000HiSeq2000LifeTechnologies(ABi)5500SOLiD?System5500xLSOLiD?SystemIon

TorrentPGM?DanaherMotionPolonatorG.007CompleteGenomics無錫艾吉因生物信息技術(shù)有限公司AG-100深圳華因康基因科技有限公司Pstar-1中科院北京基因組所/半導(dǎo)體所BIGIS-1BIGIS-48測序設(shè)備發(fā)展現(xiàn)狀第一代(穩(wěn)定需求)第三代(即將面市)第二代(大規(guī)模基因組測序的幾個支撐技術(shù)

Sanger雙脫氧末端終止法

PCR技術(shù)

DNA自動測序儀的發(fā)展生物信息學(xué)分析軟硬件設(shè)施大規(guī)?;蚪M測序的幾個支撐技術(shù)Sanger雙脫氧末9“雙脫氧末端終止”的含義“雙脫氧末端終止”的含義10

PCR(聚合酶鏈?zhǔn)椒磻?yīng))原理反應(yīng)所需物質(zhì):DNA模板、引物、DNA聚合酶、dNTP、緩沖液每個循環(huán)包括:變性(90℃)、退火(54

℃)、延伸(72℃)PCR(聚合酶鏈?zhǔn)椒磻?yīng))原理反應(yīng)所需物質(zhì):D11Sanger雙脫氧末端終止法測序原理Sanger雙脫氧末端終止法測序原理12大規(guī)?;蚪M測序的

兩種策略逐步克隆法(ClonebyClone)全基因組霰彈法(WholeGenomeShot-gun)大規(guī)?;蚪M測序的

兩種策略逐步克隆法13………ATGCCGTAGGCCTAGCTAGGCCTAGCTCGGA……………ATGCCGTAGGCCTAGCTCGGA……基因組DNABAC文庫根據(jù)物理圖譜正確定位的BAC或contig用于霰彈法測序的候選克隆用于霰彈法測序的亞克隆測序并組裝完整的基因組序列逐步克隆法(ClonebyClone)

全基因組霰彈法(WholeGenomeShot-gun)基因組DNA

霰彈法克隆測序并進(jìn)行全基因組序列組裝完整的基因組序列………ATGCCGTAGGCCTAGC14

兩種大規(guī)?;蚪M測序策略的比較

項目

策略全基因組霰彈法逐步克隆法

遺傳背景不需要需要(需構(gòu)建精確的物理圖譜)速度快慢費用低高計算機性能高(以全基因組為單位進(jìn)行拼接)低(以BAC為單位進(jìn)行拼接)適用范圍工作框架圖精細(xì)圖代表測序物種果蠅、水稻人、線蟲兩種大規(guī)模基因組測序策略的比較

項目策略15BACbyBACWholeGenomeShotgun…thesequencingofthehumangenomeislikelytobetheonlylargesequencingprojectcarriedtocompletionbythemethodsdescribedinthisissue.MaynardV.Olson,Themaps:Clonebyclonebyclone,Nature409,816-818(2001)BACbyBACWholeGenomeShotgun16“WorkingDraft”(90%;4X)FinishedGenome(99.99%;8X)Gap1Gap2Chromosome工作草稿(框架圖)與完成圖“WorkingFinishedGap1Gap2Chromo17BACbyBAC

BACbyBAC18ThesequenceofthehumangenomeC.Venteretal.Science16Feb.291:1304–1351,2001Thesequenceofthehumangeno19人類基因組計劃研究的主要成果和進(jìn)展表現(xiàn)在這“四張圖”上

遺傳圖譜

又稱為連鎖圖譜(linkagemap),指基因或DNA標(biāo)志在染色體上的相對位置與遺傳距離物理圖譜

以定位的DNA標(biāo)記序列如STS作為路標(biāo),以DNA實際長度即bp、kb、Mb為圖距的基因組圖譜。轉(zhuǎn)錄圖譜

利用EST(expressedsequencetags

表達(dá)序列標(biāo)簽)作為標(biāo)記所構(gòu)建的分子遺傳圖譜序列圖譜

通過基因組測序得到的,以A、T、G、C為標(biāo)記單位的基因組DNA序列

人類基因組計劃研究的主要成果和進(jìn)展表現(xiàn)在這“四張圖”上遺傳20逐步克隆法(ClonebyClone)物理圖譜的構(gòu)建大片段克隆的篩選霰彈法測序與“工作框架圖”的構(gòu)建序列的全組裝與“完成圖”構(gòu)建逐步克隆法(ClonebyClone)物理圖譜的構(gòu)建大片21物理圖譜的制作

最新基因組測序的原理和方法專業(yè)知識講座課件22物理圖譜的制作——序列標(biāo)簽位點(STS)作圖

物理圖譜是以特異的DNA序列為標(biāo)志所展示的染色體圖。標(biāo)志之間的距離或圖距以物理距離如堿基對(basepair;bp,Kb,Mb)表示。最精細(xì)的物理圖是核苷酸順序圖,最粗略的物理圖是染色體組型圖。

STS圖譜是最基本和最為有用的染色體物理圖譜之一,STS(SequenceTaggedSite)本身是隨機地從人類基因組上選擇出來的長度在200~300bp左右的特異性短序列(每個STS在基因組中是唯一的,STS圖譜就是以STS為路標(biāo)(平均每100Kb一個),將DNA克隆片段有序地定位到基因組上。STS的來源隨機基因組序列表達(dá)基因序列,如EST遺傳標(biāo)記序列,如微衛(wèi)星標(biāo)記有關(guān)STS的信息可在基因組數(shù)據(jù)庫GDB中找到物理圖譜的制作——序列標(biāo)簽位點(STS)作圖23物理圖譜構(gòu)建的步驟確定各STS序列及其在基因組中的位置大插入片段基因組文庫的構(gòu)建(BAC文庫)

以特定STS為標(biāo)記篩選并定位克隆含有STS的克隆在基因組中排序基因組數(shù)據(jù)庫(GDB)中至少含有24568個STS路標(biāo)信息

物理圖譜構(gòu)建的步驟確定各ST24關(guān)于文庫作為載體的基本要求

能在宿主細(xì)胞中進(jìn)行獨立的復(fù)制具有多克隆位點,可插入外源

DNA片段有合適的篩選標(biāo)記,如抗藥性大小合適,易于分離純化拷貝數(shù)多

文庫的概念

含有某種生物體全部基因的隨機片段的重組DNA克隆群體載體:能攜帶外源DNA進(jìn)入宿主細(xì)胞的工具,常用的載體有質(zhì)粒載體、噬菌體載體、細(xì)菌人工染色體等宿主:能容納外源DNA片段的生物體,常用的有大腸桿菌、酵母等關(guān)于文庫作為載體的基本要求能在宿主細(xì)胞中進(jìn)行25BAC文庫的構(gòu)建NotI、SacI脈沖場凝膠電泳得200Kb左右的大片段DNA

純化后與載體連接

電轉(zhuǎn)化,將連接產(chǎn)物導(dǎo)入大腸桿菌感受態(tài)細(xì)胞插有外源DNA片段的BAC載體在含有氯霉素的固體培養(yǎng)基中培養(yǎng)每一個菌落為帶有相同外源DNA片段的單克隆BAC文庫的構(gòu)建NotI、SacI脈沖場凝膠電泳得200Kb26BAC克隆的篩選“STS-PCR反應(yīng)池”方案篩選種子克隆特定的STS標(biāo)記

相互間具有重疊片段的BAC克隆根據(jù)STS信息組裝成contig,并定位于基因組上Contig每一個菌落為帶有相同外源DNA片段的單克隆BAC克隆的篩選“STS-PCR反應(yīng)池”方案篩選種子克隆特定27最新基因組測序的原理和方法專業(yè)知識講座課件28RegionalmappingRegionalmapping29RegionalmappingRegionalmapping30Minimaltilingpathselectedforsequencing.RegionalmappingMinimaltilingpathselectedf31BeijingMapBeijingMap32最新基因組測序的原理和方法專業(yè)知識講座課件33共48個每組8個每8個96孔板組成1個superpool,384個96孔板組成48個superpools

48superpools共48個每組8個每8個96孔板組成1個superpoo34

Columnpools

Rowpools

123456789101112第八板第二板Platepools第一板

platepools,rowpools,columnpools的構(gòu)成

12345678935“STS-PCR反應(yīng)池”方案(PoolingProtocol)

1234567891011

12超級池(8個96孔板,共768個克?。┌宄兀?6個克隆)行池(12個克?。┝谐兀?個克隆)大大減少篩選的工作量,降低成本,所得篩選結(jié)果準(zhǔn)確可靠

28

VS

768“STS-PCR反應(yīng)池”方案(PoolingProtoco36sheetofsuperpools,platepools,rowpools,columnpools

sheetofsuperpools,platepoo37

BACScreening前48個樣品為引物OGG1.51對superpool(sp)的篩選結(jié)果后48個樣品為引物OGG1.52對superpool(sp)的篩選結(jié)果

一BACScreening38引物OGG1.52對應(yīng)sp#27,34,45的plate,row,columnpools的篩選結(jié)果引物OGG1.52對應(yīng)sp#27,34,45的plate,r39BACclone確定

(+為陽性克隆)

BACclone確定(+為陽性克隆)40引物OGG1.52的Colony-PCR

引物OGG1.52的Colony-PCR41延伸克隆的篩選

STS的密度尚未達(dá)到繪制高精度物理圖譜的要求,且在基因組中的分布不均勻,造成很多區(qū)域沒有陽性克隆覆蓋,形成空洞。因此需用指紋圖譜(FPC法)或末端序列(WalkingbyEndSequence)步移等手段對種子克隆進(jìn)行延伸,形成連續(xù)克隆群。利用延伸方法篩選得到的克隆稱為延伸克隆。

Contig1Contig2重疊序列重疊序列延伸引物篩選到的延伸克隆延伸克隆的篩選STS的密度尚未達(dá)到繪制高42>20kb~300bpMolecularweightmarkerevery5thlaneBACclones在96深孔板中培養(yǎng)-HindIII完全酶切-1%瓊脂糖凝膠電泳

指紋圖譜法

(WalkingbyFingerprintingdatabase)

挑取靠近空洞的種子克隆,酶切構(gòu)建其指紋圖譜,在FPC數(shù)據(jù)庫中進(jìn)行比對,搜索含有此克隆的重疊克隆群信息,從中確定覆蓋空洞區(qū)域的克隆,達(dá)到延伸目的。>20kb~300bpMolecularweight43HindIII完全酶切HindIII完全酶切FPC數(shù)據(jù)庫中比對CloneACloneBCloneCCABHindIII完全酶切HindIII完全酶切FPC數(shù)44contig搭建中克隆的錯位

contig搭建中克隆的錯位45末端序列步行法(WalkingbyEndSequence)

挑取靠近空洞的種子克隆進(jìn)行末端測序,然后在基因組數(shù)據(jù)庫中進(jìn)行比對,確定專一性的序列片段作為新的STS路標(biāo)。最后設(shè)計新路標(biāo)的PCR引物,按照STS—PCR“反應(yīng)池”方案篩選新的克隆,達(dá)到延伸的目的。克隆350A18序列輸入endsequencedatabase的查詢結(jié)果末端序列步行法(WalkingbyEndSeque46四、CloneIdentification

1、STS-PCR

2、BACendsequencing

3、Fingerprinting

4、FISH

四、CloneIdentification47CK2CK1CK2CK113f06267l16481o07250a15204c23340j13對15個克隆進(jìn)行HindIII酶切后電泳結(jié)果

CK2CK1CK2CK113f06267l16481o07248最新基因組測序的原理和方法專業(yè)知識講座課件49“工作框架圖”繪制根據(jù)序列與STSdatabase進(jìn)行blastn比較結(jié)果,將克隆定位末端序的比較,判定延伸在contig外的一端序列。并可及時進(jìn)行walking,篩選新的克隆

“工作框架圖”繪制根據(jù)序列與STSdatabase進(jìn)行bl50霰彈法測序組裝與Finishing霰彈法測序組裝與Finishing51工作流程圖

工作流程圖52ShotgunSequencingI:RANDOMPHASEBacClone:100-200kbShearedDNA:1.0-2.0kbSequencingTemplates:RandomReadsShotgunSequencingI:RANDOMP53ShotgunSequencingII:ASSEMBLYConsensusSequenceGap

LowBaseQualitySingleStrandedRegionMis-Assembly(Inverted)ShotgunSequencingII:ASSEMBLY54ConsensusSequenceGap

LowBaseQualitySingleStrandedRegionMis-Assembly(Inverted)ShotgunSequencingIII:FINISHINGConsensusSequenceLowBaseSing55ConsensusSequenceGap

SingleStrandedRegionMis-Assembly(Inverted)ShotgunSequencingIII:FINISHINGConsensusSequenceSingleMis-Ass56ConsensusSequenceGap

Mis-Assembly(Inverted)ShotgunSequencingIII:FINISHINGConsensusSequenceMis-AssemblyS57ConsensusMis-Assembly(Inverted)ShotgunSequencingIII:FINISHINGConsensusMis-AssemblyShotgunS58ShotgunSequencingIII:FINISHINGHighAccuracySequence:<1error/10,000basesShotgunSequencingIII:FINISH59Consed軟件顯示序列組裝結(jié)果界面

1、Filling“intraclonegaps”Consed軟件顯示序列組裝結(jié)果界面1、Filling“60BAC-----453F3’sfinishing>>Sp6<<T7?First4primers1234Allthecontigswalkedhundreds’bpstowardthegaps.453F3’s2600reads12contigsOverlappingBAC-454F24’s200reads+>>Sp6<<T71324abcSecond3primers

1200bp’sAT-rich,(CATATATA)nrepeat.Finally,filledbyusingETsequencingKit.

1240bp’sGC-rich,GC-contentis69.03%;theBAC’sis39.98%.WeuseddGTPKitfillingit.>>Sp6<<T7CompletedsequenceBAC-----453F3’sfinishing>><<?61

SequencedcloneBACselectedbyend-sequence113L10324K11173F11101A4167P17586C2116K5572B22544N5R-155E142006P232306M15R-149E1560K?Gapfillingbyendsequences2、Filling“interclonegaps”

SequencedcloneBACselectedb62

TheactualandpredictedfingerprintofR-260J13digestedwithHindIII

Lane1:marker,Lane2:R-260J13digestedwithHindIII,3:thepredicted

Theactualandpredicted63克隆211B19組裝后的序列的錯誤率為零

克隆211B19組裝后的序列的錯誤率為零64WholeGenomeShotgun

WholeGenomeShotgun65Thisbacteriumhasacirculargenomestructurewith2,689,445basepairs,thesecondlargestoneofthermophilesdecodedcompletelytodate.CircularrepresentationofthegenomeofT.tengcongensis

Thisbacteriumhasacircula66Whatisunderheavenisforall.

SunYat-sen,thefatherofmodernChina

天下為公

/riceDDBJ/EMBL/GenBank:AAAA01000000Whatisunderheavenisfora67國際一流測序生產(chǎn)線7萬克隆,3000萬堿基/天高產(chǎn)出、低成本:$/bp¥/bp美分/bp分/bp基因組學(xué):數(shù)據(jù)導(dǎo)向的大科學(xué)有數(shù)據(jù)才是硬道理世上無難事只要肯登攀國際一流測序生產(chǎn)線基因組學(xué):世上無難事68Contigs:127,550

(N50=6,688bp)Scaffolds:102,444(N50=11,764bp)Quality:546bpatQ20Contigs:127,550

(N50=6,688bp69DeNovoSequencingtheGenomeinBIGHuSongnianBeijingInstituteofGenomics,ChineseAcademyofSciencesNextGenerationSequencing(NGS)TechnologyDeNovoSequencingtheGenome70Secondgenerationsequencers4541Solexa3SOLiD5DenovosequencingRNA-seq,Re-sequencingChIP-seq,Meth-seqMetagenomicsDenovosequencingRNA-seqRe-sequencingChIP-seqRNA-seq“known”GenomeNovelgenome(s)BothtypesSecondgenerationsequencers45711x4545xSOLiD4.02x5500xl3xSOLEXA2xHiseq20003x3730xl1xsequenom1000CPUcores800TBStorage數(shù)據(jù)中心完善的試驗與測序體系和流程強有力的計算、存儲及數(shù)據(jù)庫支持體系成熟的生物信息數(shù)據(jù)處理和分析流程2023/1/51x4545xSOLiD4.02x5572SecondgenerationsequencersinBIG測序儀PlatformNumRaw/runlengthSolid4580~100Gb50bpGAII340~60Gb120bp4541400Mb400bpSolid5500xl0150~200Gb50bpHiseq20001200~300Gb100bp高通量測序儀10臺,3730XL測序儀2臺,Sequenom儀器1臺,高性能計算機刀片服務(wù)器100余臺,大內(nèi)存服務(wù)器4臺,存儲設(shè)備約800TB。Secondgenerationsequencersi73測序平臺SOLiDSolexaGA454DNAFragment2-5ug2-5ug2-5ugPair-end2-5ug2-5ugMate-pair5-100ug5-100ug5-100ugRNA轉(zhuǎn)錄組10-20ug10ug10ugSmallRNA10-15ug10-15ugMicroRNA40-50ug40-50ug建庫時間1-2周1-2周1-2天上機時間單向6天雙向12天單向5天雙向10天10小時測序平臺SOLiDSolexaGA454DNAFragme74SequencingGlossaryReads.Acollectionofclonesthatover-samplethetargetgenome.Pair-endreads.Sequencereadsderivedfrombothendsofasequencing-libraryclone.Mate-pairreads.Sequencereadsderivedfrombothendsofamate-pairlibraryclonewhichinsertsizeisusually>1kb.Insertsize.Thesizeoftheclone-insertfromwhichaclone-endpairistaken.Contig.

Theresultofjoininganoverlappingcollectionofsequencereads.Scaffold.

Theresultofconnectingnon-overlappingcontigsbyusingpair-endreads.N50size.Asappliedtocontigsorscaffolds,thatsizeabovewhich50%oftheassembledsequencecanbefound.SequencingGlossaryReads.Aco75GenomeassemblystrategyContigassemblyScafffoldingInternalgapclosing/2010/11/4/R41GenomeassemblystrategyContig76RecentwholegenomesequencingprojectsTable.BasicinformationofRrecentlysequencedgenomes.OrganismGenomesizestrategyCoverageContigScafffolds#N50MaxTotal#N50MaxTotalHuman3.0GbSolexa45x2.76M1.5Kb18.8Kb2.18GbNRNRNRNRApple742.3MbSangr+4544.4x+12.5x122,14616,171NR603.9Mb1,629102KbNR598.3Castor320MbSanger4.59x54,00021.1kb190kb324Mb25,828496.5kb4.7Mb350.6MbGrapevine500MbSangr+4547x+4.2x58,61118.2Kb238kb531Mb2,0931.33Mb7.8Mb421MbPanda2.4GbSolexa74x200,60436,728434,6352.25Gb81,4961.22Mb6.05Mb2.30GbStraberry220Mb454+solexa+solid24.5x+6.4x+6.4x16,48728,072215,349202Mb3,2631.44Mb4.1Mb214MbCacoo430Mb454+sanger+solexa16.7x+44x25,91219.8kb190Kb291.44,792473.8Kb3415Kb326.9MbTomato900Mb454+sanger+solexa+solid31x+3.6x+82x+140x110,87255.7kbNR763Mb3,7614.45MbNR782MbPotato840Mb454+solexa+solid11x+106x+0.2x111,18731KbNR683Mb66,301387KbNR727MbRecentwholegenomesequencing77最新基因組測序的原理和方法專業(yè)知識講座課件78

FlowchartoftheWGSdenovoassemblyGenomicDNADNAfragmentation,constructfragmentedlibrariesGeneratesequencingreadsusing454technologySequencingerrorcorrectionOutputcontigsFillinintra-scaffoldgapsandgetthefinalscaffoldsGenomicDNADNAfragmentation,constructpaired-endlibrarieswithvariantinsertsizesGeneratesequencingreadsusingIlluminaGAtechnologySequencingpre-processOutputcontigsandminiscaffoldsSolexapart454partHybridassemblyandscffoldingFlowchartoftheWGSdenovo79

454readsprocessRawreadsKmerevaluationQ20,removeadaptor,trimSequencingpre-processNewblerassemblyAssembledreadsUnassembledreadsUnigenecoverageKmerevaluationSolexamappingNr/NtblastContigstatusAssemblyHybridscaffolding454readsprocessRawreadsKm80

SolexareadsprocessRawreadsKmerevaluationSequencingpre-processSoapassemblyAssembledreadsUnassembledreadsUnigenecoverageKmerevaluationSolexamappingNr/NtblastContigstatusAssemblyMappingto454contigHybridscaffoldingCov/CompSolexareadsprocessRawread81longreadsassemblycontigsshortreadsA+C–B–scaffoldingA+B–C–scaffoldsFixgapHybridassemblylongreadsassemblycontigsshort82ESTUnigeneScafAScafCScafBScafDNewScafABCDESTbasedAssemblyinshortreadsofNGS:ConstructeBIGerScaffordingESTUnigeneScafAScafCScafBSc83Rawsequencingreadspre-processingISignificanceandpurposeSequencinglibraryqualitycontrolSequencingbiasanalysisInheritedprosperitiesoncertainsecondgenerationsequencerGenomesequencingblackholeeffectTranscriptomesamplingandquantificationbiasReadyformappingReadyfordenovoassemblyRawsequencingreadspre-proce84Rawsequencingreadspre-processingIISequencingreadsnumbersDuplicatesdetection,regionaldistributionanalysisandtrimmingAdapterdetectionandtrimmingReadsqualityanalysisandlowqualityreadsfilterAveragequalitydensitydistributionAveragequalitypositionaldistributionregionaldistributionF-RcorrelationGCcontent-qualitycorrelationInsertlengthdistribution

PipelineRawsequencingreadspre-proce85rawdatapre-processrawdatapre-process86ImageanalysisandbasecallingGOATpipeline(OLB1.6),CASAVAImageanalysisandbasecalling87QualityControlGERALDSummary.htmLaneLaneYield(kbases)Clusters(raw)Clusters(PF)1stCycleInt(PF)%intensityafter20cycles(PF)%PFClusters%Align(PF)AlignmentScore(PF)%ErrorRate(PF)152630597464+/-487887676+/-921975+/-2186.17+/-5.2589.76+/-5.9599.06+/-0.25102.41+/-1.621.30+/-0.22QualityControlGERALDSummary.88FastqandQualitySolexareadsoftheFastqformats_1_1_sequence.txt…@HWI-EAS724_0001:8:32:374:374#0/1GAGCTGTATATGAATAATAGTTCGTTTTTCATTATCCAAGATGGATCGGTATAAAGTCTGCTAAAATAAAGGTACAACG+HWI-EAS724_0001:8:32:374:374#0/1fcfcfggdfggggfggggcggggggggfgggggcgggfWgggggggggfgcggdgcgcggggfacbbb][bgcgggggds_1_2_sequence.txt…@HWI-EAS724_0001:8:32:374:374#0/2TACCGTTAATAGCAGTAATATCATAATAGTAATAGCATCATAACGGTAGTCCCATAAAAGTGTGTCAGTAGTAGTAGTA+HWI-EAS724_0001:8:32:374:374#0/2ggggfgggggd_adcggggeggfggeggegf`geececdegggggfegcfegggegggfgac[aced`bd__\_c[[YbIllumina1.3formatencodesaPhredqualityscorefrom0to40usingASCII64to104errorprobability(p):#forsolexa:p=0.01,Q=19;p=0,05,Q=12.8,p=0.10,Q=9.5;#forphred:p=0.01,Q=20;p=0,05,Q=13,p=0.10,Q=10;FastqandQualitySolexareads89DataassessmentI–ReadqualitydistributionDataassessmentI–Readquali90LowQualityHighQuality

Trim:3’endtrimifQN<20Filter:Percent(hightqualityQ>30)>60Assessment:DistanceDistrubitionbetweentwoLowquality(Q<20)LowQualityHighQualityTri91454dinucleotideproportioncheck454rawreadsquality454dinucleotideproportionch92DataassessmentII–LibraryinsertsizeDataassessmentII–Libraryi93Numbersofreadswithnon-insertDNA(fulllengthadapter)indifferentinsertsizelibraries

Numbersofreadswithnon-inse94DataassessmentIII–MappingRateDataassessmentIII–Mapping95SolexaSequencingDataUsagein500bpLibraryDataassessmentIV–DuplicationassessmentSolexaSequencingDataUsagei96DuplicatesdetectionandfilterFRNN2NQaverage>20?Duplicatesdetectionandfilt97Lanedatausageindifferentsolexalibrary

-FiterduplicationreadsLanedatausageindifferent98AverageReadsperStartPointAverageReadsperStartPoint99ReadCorrection

CorrectIlluminaGAshortreadsKmer=17GenomeSizePrediction:M=N*(L-K+1)/LN=TotalLength(bp)/GenomesizeL=AverageRadsLength(bp)MReadCorrection

CorrectIllumi100GenomesizeestimationusingKmerBeforeestimatingthegenomesize,wesetahypothesis:thek-merwepickedoutfromthegenomecanergodicthewholegenomesequence.AccordingtotheLanderwatermanalgorithm,thealgorithmshouldberepresentedas:

G=Knum/KdepthHere,Gisthegenomesize,Knumisthetotalnumberofk-merandKdepthistheexpecteddepthofthek-mer.Ifweobtaintheexpecteddepthofk-mer,wecancalculatethegenomesize.Becausethedistributionofk-merfrequencyyieldstoPoissondistribution,wecanconsiderthepeakofthek-merdistributioncurveastheexpecteddepthofk-merandcalculatethegenomesize.Note:Atotalof15,437,084,746Kmers,thepeakvalueontherightfigureis8,sothegenomesizeisestimatedas:15,437,084,746/8=1.93GGenomesizeestimationusingK101HighQualityReadRateafterpreprocessAssembly:RawdataVSpreprocessedData?HighQualityReadRateafterp102QuestionsGenomesizeestimationmethods(K-mer&Cov)Assemblyoptimization(parameters)Assemblyevaluation(454_SolexaEST)Unmappablesolexareadsreuse(filter->assemble)Scaffoldingcomparison(ABI&BIG&Bambus&blat)

solexatosolidfeasible?Assemblyassessment(BAC,3730,necessary?)QuestionsGenomesizeestimatio103SequencingStrategyforsolexaSamplepreperFragmentorPairedEndorMatePairSequencingdifferentlibraries:Datacoverage(<=500bp),Data300/Data500=?Datacoverage(>500bp).10X,20X…..Largergenomesize,Largerlibrariesneeded.>10K?LengthofsolexaReads?>100bp?F+R=OneReads?OtherData:3730,454,solid.EST.SequencingStrategyforsolexa104OVERVIEWOFTESTEDASSEMBLERSOVERVIEWOFTESTEDASSEMBLERS105DepthVSCoverageDepthVSCoverage106ESTbasedScaffoldingESTbasedScaffolding107基因組混合拼接驗證及結(jié)構(gòu)變異檢測流程

基因組混合拼接驗證及結(jié)構(gòu)變異檢測流程108

重復(fù)序列注釋流程重復(fù)序列注釋流程109RepeatanalysisLib5?Totallength:167,786,201bp?Basesmasked:1,267,118bp0.75%?SINEs:29828,108?ALUs00?MIRs21121,533?LINEs:1,891347,604?LINE11,246292,428?LINE223626,166?L3/CR128920,348?LTRelements:18542,779?ERVL398,334?ERVL-MaLRs5510,011?ERVL_classI5012,852?ERVL_classII71,292?DNAelements:14116,729?hAT-Charlie768,642?TcMar-Charlie253,424?Unclassified:1139?Totalinterspersedrepeats:435,359?SmallRNA:709101,246?Satellites:2280?Simplerepeats:9,466560,018?Lowcomplexity:3,674170,215RepeatanalysisLib5?Totallen110

基因結(jié)構(gòu)及功能注釋技術(shù)路線基因結(jié)構(gòu)及功能注釋技術(shù)路線111GenepredictionDenovopredictionGenScan16,609->3,775uniprothitAugustus19378->10,245hitHomology-basedpredictionalignment-genescaffold-genewiseReferencegenesetGenepredictionDenovopredict112tRNAscantRNAscan113CpGislandCpGisland114miRNApredictionUsingmiRNAdatabasefastaasqueryandblastwithourmaskedscaffoldsmiRNApredictionUsingmiRNAda115GenefunctionannotationGeneOntology(localuniprotdatabase)KEGG(online)GenefunctionannotationGeneO116GOannotationGenScanuniprotannotationGeneOntologyGOannotationGenScanuniprota117KEGGpathwayoverview血吸蟲KEGGpathwayoverview血吸蟲118

基因家族進(jìn)化分析及比較生物學(xué)分析技術(shù)路線基因家族進(jìn)化分析及比較生物學(xué)分析技術(shù)路線119

以應(yīng)用為主導(dǎo)的基因組學(xué)將闊步走向未來走向人類的健康與生活走向人類賴以生存的物質(zhì)基礎(chǔ)走向人類賴以生存的環(huán)境走上人類社會和經(jīng)濟(jì)發(fā)展的大舞臺以應(yīng)用為主導(dǎo)的基因組學(xué)將闊步走向未來走向人類的健康與生活120基因組學(xué)研究成果將走近人類的健康與生活疾病相關(guān)基因的發(fā)現(xiàn)、功能的鑒定和分子機制的探討突破常見?。◤?fù)雜疾?。┗蛩降难芯恳曰驗榛A(chǔ)的疾病診斷、預(yù)測和預(yù)防基因治療與細(xì)胞治療治療的結(jié)合以基因多態(tài)性為基礎(chǔ)的“個體化”藥物以基因多態(tài)性為基礎(chǔ)的“個體健康計劃”傳統(tǒng)藥物、生物藥物和“有機藥物”的自然回歸基因組學(xué)研究成果將走近人類的健康與生活疾病相關(guān)基因的發(fā)現(xiàn)、功121走向人類賴以生存的物質(zhì)基礎(chǔ)抗病、抗蟲和抗極端環(huán)境GM農(nóng)作物高生殖率、高生長率、高營養(yǎng)率的GM家畜、家禽和水產(chǎn)品新品種維生素和營養(yǎng)物質(zhì)富集的水果和蔬菜生物殺蟲劑、除草劑和抗病藥物微生態(tài)環(huán)境下生產(chǎn)的有機食品走向人類賴以生存的物質(zhì)基礎(chǔ)抗病、抗蟲和抗極端環(huán)境GM農(nóng)作物122

走向人類賴以生存的環(huán)境基因組信息記錄了物種億萬年來在環(huán)境變遷中起源和進(jìn)化的歷史。生物多樣性資源的研究、保護(hù)與開發(fā):地球上估計有1億個物種生態(tài)環(huán)境的研究、保護(hù)與開發(fā):巨大的海洋(占地球總面積71%)廣袤的森林(占地球總面積40%)諸多的湖泊與河流走向人類賴以生存的環(huán)境基因組信息記錄了物種億萬年來在環(huán)境變123謝謝!謝謝!124

元素周期表的發(fā)現(xiàn)奠定了二十世紀(jì)物理、化學(xué)研究和發(fā)展的基礎(chǔ)元素周期表“基因組序列圖”將奠定二十一世紀(jì)生命科學(xué)研究和生物產(chǎn)業(yè)發(fā)展的基礎(chǔ)!

“基因組”----生命科學(xué)的“元素周期表”人體解剖圖奠定了現(xiàn)代醫(yī)學(xué)發(fā)展的基礎(chǔ)元素周期表的發(fā)現(xiàn)奠定了二十世紀(jì)物理、化學(xué)研究125生命的奧秘蘊藏于“四字天書”之中…GCTTCTTCCTCATTTTCTCTTGCCGCCACCATGCCGCCACCATCATTTTCTCTTGCCGCCACCATGCTTCTTCCTCATTTTCTCTCCACCATGCCGCCACCACGCCACCATGCTTCTTCCTCATCTCGCTTTCTTGCCGCCACCATGCCGCCACCGCTTCTTCCtTCTCT…生命的奧秘蘊藏于“四字天書”之中…GCTTCTTCCTCA126基因組學(xué)的基礎(chǔ)理論研究基因組學(xué)是要揭示下述四種整合體系的相互關(guān)系:基因組作為信息載體

(堿基對、重復(fù)序列的整體守恒與局部不平衡的關(guān)系)基因組作為遺傳物質(zhì)的整合體

(基因作為功能和結(jié)構(gòu)單位與遺傳學(xué)機制的關(guān)系)基因組作為生物化學(xué)分子的整合體

(基因產(chǎn)物作為功能分子與分子、細(xì)胞機制的關(guān)系)物種進(jìn)化的整合體

(物種在地理與大氣環(huán)境中的自然選擇)基因組學(xué)的基礎(chǔ)理論研究基因組學(xué)是要揭示下述四種整合體系的相互127

基因組學(xué)是一個大學(xué)科“界門綱目科屬種”,地球上現(xiàn)存物種近億,所有生生滅滅的生物,無一例外,都有個基因組?;蚪M作為信息載體,它所儲存的信息是最基本的生物學(xué)信息之一;既是生命本質(zhì)研究的出發(fā)點之一,又是生物信息的歸宿?;蚪M學(xué)研究包括對基因產(chǎn)物(轉(zhuǎn)錄子組和蛋白質(zhì)組)的系統(tǒng)生物學(xué)研究?;蚨鄳B(tài)性的規(guī)?;芯烤褪腔蚪M多態(tài)性的研究。基因組學(xué)的研究必然要上升到細(xì)胞機制、分子機制和系統(tǒng)生物學(xué)的水平?;蚪M的起源與進(jìn)化和物種的起源與進(jìn)化一樣是一個新的科學(xué)領(lǐng)域?;蚪M信息正在以天文數(shù)字計算,規(guī)模化地積累,它的深入研究必將形成一個嶄新的學(xué)科?;蚪M學(xué)是一個大學(xué)科“界門綱目科屬種”,地球上現(xiàn)存物種128

基因組學(xué)是一門大科學(xué)基因組的信息是用來發(fā)現(xiàn)和解釋具有普遍意義的生命現(xiàn)象和它們的變化、內(nèi)在規(guī)律、和相互關(guān)系?;蚪M的信息含量高?;蚪M學(xué)的研究又在于基因組間的比較?;蚪M學(xué)的復(fù)雜性必然導(dǎo)致多學(xué)科的引進(jìn)和介入(各生物學(xué)科、醫(yī)學(xué)、藥學(xué)、計算機科學(xué)、化學(xué)、數(shù)學(xué)、物理學(xué)、電子工程學(xué)、考古學(xué)等)?;蚪M學(xué)研究的手段和技術(shù)已經(jīng)走在生命科學(xué)研究的最前沿?;蚪M信息來自于高效率和規(guī)模化所產(chǎn)生的實驗數(shù)據(jù)。人類基因組計劃證明了基因組研究的迫切性和可行性?;蚪M學(xué)是一門大科學(xué)基因組的信息是用來發(fā)現(xiàn)和解釋具有普遍129基因組與生命之謎基因組的產(chǎn)生與進(jìn)化。基因組DNA組分的變化、GC百分比、嘌呤:嘧啶守恒。遺傳密碼的發(fā)生、發(fā)展和進(jìn)化。內(nèi)含子(尤其是大于100,000核苷酸的大內(nèi)含子)剪出后的運輸和降解。最小內(nèi)含子的生物學(xué)意義。動物基因組與植物基因組在基因分布上的共性和個性。物種衍變過程中基因組水平的變化?;蚪M大小變化與遺傳、分子、細(xì)胞機制的關(guān)系?!癑UNKDNA”的發(fā)生、分類、進(jìn)化與功能?;蚪M與生命之謎基因組的產(chǎn)生與進(jìn)化。130測序設(shè)備的壟斷和高速度換代199020052020Year2015201020001995Mb1000Mb4000ABI373ABI377ABI3130ABI3730ABI3730xlGA-I

GA-IILessThan5yrsHiSeq1000/2000Mb4500ABI3700ABI3700xlSOLiDSOLiD2SOLiD35500xlSOLiDABI3130xlGA-IIx5500SOLiD131測序設(shè)備的199020052020Year201520102測序設(shè)備發(fā)展現(xiàn)狀第一代(穩(wěn)定需求)ABi3130xL3730xL3500xL第三代(即將面市)HelicosBiosciencesHelicosGeneticAnalysisSystemPacificBiosciencesRSSystem第二代(高速發(fā)展)RocheGenomeSequencerFLXSystemGSJuniorSystemIlluminaGenomeAnalyzerIIxMiSeqHiSeq1000HiSeq2000LifeTechnologies(ABi)5500SOLiD?System5500xLSOLiD?SystemIon

TorrentPGM?DanaherMotionPolonatorG.007CompleteGenomics無錫艾吉因生物信息技術(shù)有限公司AG-100深圳華因康基因科技有限公司Pstar-1中科院北京基因組所/半導(dǎo)體所BIGIS-1BIGIS-4132測序設(shè)備發(fā)展現(xiàn)狀第一代(穩(wěn)定需求)第三代(即將面市)第二代(大規(guī)?;蚪M測序的幾個支撐技術(shù)

Sanger雙脫氧末端終止法

PCR技術(shù)

DNA自動測序儀的發(fā)展生物信息學(xué)分析軟硬件設(shè)施大規(guī)模基因組測序的幾個支撐技術(shù)Sanger雙脫氧末133“雙脫氧末端終止”的含義“雙脫氧末端終止”的含義134

PCR(聚合酶鏈?zhǔn)椒磻?yīng))原理反應(yīng)所需物質(zhì):DNA模板、引物、DNA聚合酶、dNTP、緩沖液每個循環(huán)包括:變性(90℃)、退火(54

℃)、延伸(72℃)PCR(聚合酶鏈?zhǔn)椒磻?yīng))原理反應(yīng)所需物質(zhì):D135Sanger雙脫氧末端終止法測序原理Sanger雙脫氧末端終止法測序原理136大規(guī)?;蚪M測序的

兩種策略逐步克隆法(ClonebyClone)全基因組霰彈法(WholeGenomeShot-gun)大規(guī)?;蚪M測序的

兩種策略逐步克隆法137………ATGCCGTAGGCCTAGCTAGGCCTAGCTCGGA……………ATGCCGTAGGCCTAGCTCGGA……基因組DNABAC文庫根據(jù)物理圖譜正確定位的BAC或contig用于霰彈法測序的候選克隆用于霰彈法測序的亞克隆測序并組裝完整的基因組序列逐步克隆法(ClonebyClone)

全基因組霰彈法(WholeGenomeShot-gun)基因組DNA

霰彈法克隆測序并進(jìn)行全基因組序列組裝完整的基因組序列………ATGCCGTAGGCCTAGC138

兩種大規(guī)?;蚪M測序策略的比較

項目

策略全基因組霰彈法逐步克隆法

遺傳背景不需要需要(需構(gòu)建精確的物理圖譜)速度快慢費用低高計算機性能高(以全基因組為單位進(jìn)行拼接)低(以BAC為單位進(jìn)行拼接)適用范圍工作框架圖精細(xì)圖代表測序物種果蠅、水稻人、線蟲兩種大規(guī)模基因組測序策略的比較

項目策略139BACbyBACWholeGenomeShotgun…thesequencingofthehumangenomeislikelytobetheonlylargese

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論