Illumina測序基礎(chǔ)知識

上傳人：1*** IP屬地：湖北上傳時間：2021-10-13 格式：DOCX 頁數(shù)：21 大小：27.75KB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩16頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第一個要給大家講的，是它這個flowcell。Flowcell翻成中文，就叫“流動池”。我們來看這個圖片。圖片當(dāng)中，我們看到一個象載玻片大小的芯片。這個芯片里面，是做了8條通道。在這個通道的內(nèi)表面，是做了專門的化學(xué)修飾。它的化學(xué)修飾，主要是用2種DNA引物，把它（2種DNA引物）種在玻璃表面。這兩種（DNA引物的）序列是和接下來要測序的DNA文庫的接頭序列相互補的。而且這2種引物是通過共價鍵，連到Flowcell上去。之所以要用共價鍵連到Flowcell上去，是因為接下來有大量的液體要流過這個Flowcell，只有有共價鍵連接的這些DNA，才不會被沖掉。這就是Flowcell。文庫制作再接下來

2、，講一下文庫、和文庫的制作（過程）所謂的DNA文庫，實際上是許多個DNA片段，在兩頭接上了特定的DNA接頭，型成的DNA混合物。文庫有2個特點，第1個特點，是當(dāng)中這一段插入的DNA，它的序列是各種各樣的。第2個特點，它的兩頭的接頭序列，是已知的，而且是人工特地加上去的。要做這個文庫，首先是把基因組DNA，用超聲波打斷。然后打斷之后，兩頭用酶把它補平，再用Klenow酶在3端加上一個A堿基。然后，再用連接酶把這個接頭給連上去。連好了接頭的DNA混合物，我們就稱為一個“文庫”。英文也稱作“l(fā)ibrary”。橋式PCR做好了Library之后，就要做橋式PCR了。橋式PCR，實際上是把文庫種到芯片上

3、去，然后進(jìn)行擴增，這樣的一個過程。這個過程，首先是把文庫加入到芯片上，因為文庫兩頭的DNA序列，和芯片上引物是互補的，所以，就會產(chǎn)生互補雜交。雜交完了之后，我們在這里面加入dNP和聚合酶。聚合酶會從引物開始，延著模板合成出一條全新的DNA鏈來。新的這條鏈，和原來的序列是完全互補的。接下來，我們再加入NaOH堿溶液。DNA雙鏈在NaOH堿溶液存在下，就解鏈了。而且被液流一沖，原來的那個（模板）鏈，也就是沒有和芯片共價連接的鏈，就被沖走了。而和芯片共價連接的鏈，就被保留下來。然后，我們再在液流池里加入中性液體，主要是為了中和這個堿液，在加入中和液之后，整個環(huán)境變成中性了。這時侯，DNA鏈上的另外一

4、端，就會和玻璃板上的第二種引物，發(fā)生互補雜交。接下來，我們加入酶和dNTP，聚合酶就延著第二個引物，合成出一條新鏈來；然后，我們再加堿，把2條鏈解鏈解開；然后，我們再加中和液，這時侯，DNA鏈會和新的引物雜交。再加酶，再加dNTP，又從新引物合成出新的鏈來。連續(xù)重復(fù)這一過程，DNA鏈的數(shù)量，就會以指數(shù)方式增長。制備單鏈在橋式PCR完成之后，接下來要做的工作，就是要把合成的雙鏈，變成可以測序的單鏈。辦法是通過一個化學(xué)反應(yīng)，把其中一個引物上的一個特定的基團給切斷掉。然后，再用堿溶液來洗這個芯片。這時侯，堿讓DNA的雙鏈解鏈，那根被切斷了根的DNA鏈就被水沖掉了。留下那根共價鍵連在（芯片）上面的鏈。

5、接下來，再加入中性溶液，然后在這個中性溶液里面加入測序引物。正式測序好，接下來正式的測序工作就開始了。那么，在測序的時侯，加入進(jìn)去的，最主要是2個東西：一個是帶熒光標(biāo)記的dNTP。而這個dNTP，它還有一個特點，它的3末端是被一個疊氮基堵住的。然后，再加一個聚合酶，聚合酶就會選擇：哪一個dNTP是和原來位置上的那個堿基是互補的，根據(jù)互補性原理，把這個dNTP合成到新的這個DNA鏈上去。因為這個dNTP的3端是被一個疊氮基團堵住了，所以，它一個循環(huán)只能延長一個堿基。然后，它就停在那兒了。合成完了之后，就用水把多余的dNTP和酶給沖掉。沖掉之后，就放到顯微鏡下，去進(jìn)行激光掃描。根據(jù)發(fā)出來的熒光來判

6、斷它是哪個堿基。因為4種dNTP，它每一種dNTP上面標(biāo)的熒光素都不一樣，根據(jù)紅、黃、藍(lán)、綠，它出來的哪種顏色，那么，就可以倒過來推出來，這個新合成上去的堿基，是哪種堿基。因為新合成的堿基，是和原來位置（的堿基）是互補的，所以，又推出模板上那個堿基是哪個。這一個循環(huán)完成之后，就加入一些化學(xué)試劑，把疊氮基團和旁邊標(biāo)記的熒光基團切掉。切完了之后，3端的羥基就暴露出來。再接下來，加入新的dNTP和新的酶，然后，又延長一個堿基。新延長完一個堿基之后，把多余的酶和dNTP沖掉，再進(jìn)行一輪顯微的激光掃描，再讀一下這個堿基是什么。不斷重復(fù)這個過程，可以重復(fù)上百次，到幾百次，就可以把上百個堿基，甚至更多堿基的

7、序列讀出來。讀Index那么，什么是Index哪？是因為Illumina的評委會個測序量很大，往往一個樣本，用不了那么幾億條DNA。所以，科學(xué)家就想了一個辦法。在文庫的接頭上做了一些標(biāo)記，每一個樣本，它有一個特定的接頭，每個接頭里面，它有一段特定的序列。這段特定的序列，我們就稱為Index。也有人把它叫做Barcode，反正，表達(dá)的是一個意思：這么一段特定的序列，標(biāo)記了樣本的來源。那么，要讀這個Index的序列，先用堿把上面這根測完“Read 1”的序列，把上面這根DNA鏈給解鏈掉。解鏈掉之后，再加入中性液，然后，加入“Read 2”這個測序引物。Read 2測序引物結(jié)合的位點，正好，就在這個

8、Index序列的旁邊。接下來，就進(jìn)行第2輪測序，一般來說，是讀6到8個堿基。把這6到8個堿基讀下來，我們就可以知道，這某一個具體的一段DNA，它來自于原始的哪個樣本。雙端測序這是Illumina的最核心的另外一個技術(shù)，就是雙端測序。那么雙端測序，就是說，一根DNA鏈，除了從正向讀一遍，還可以從DNA的負(fù)向，再讀一遍。這一下子就把Illumina測序的有效長度加了一倍。這是非常有實際用途的。那么這個倒鏈的過程，是這樣，先讓這個DNA先合成，合成出來這根互補鏈。有了這個互補鏈之后，用一個化學(xué)試劑，在原來這根鏈的根上切一下。切一下，原來這根模板鏈就掉了，剩下那根互補鏈。再接下來，就進(jìn)行第2端的測序。

9、第2端的測序原理，和第一端的測序原理是一樣的。加上了“Read 3”的這個引物，依次往下，一個一個堿基地往下讀。大規(guī)模平行測序那么最重要的事情是什么呢？一個點，經(jīng)過幾百個循環(huán)，就讀出了幾百個堿基。但實際上，這個芯片上可以有上億個點，上億個“cluster”，也就是“簇”。那么上億個“cluster”，每個循環(huán)，它都可以讀出地么多序列，這是Illumina測序非常強大的原因。因為是成千上萬，準(zhǔn)確說是上億上鏈都在合成，這個就得到了很大的一個測序數(shù)據(jù)量。Illumina HiSeq測序儀的工作原理。也就是芯片上發(fā)生了這么多變化，HiSeq是如何把這些信息給讀出來，并且把掃描出來的熒光信號，又通過怎樣

10、一系列的加工，變成可以識別的“A、C、G、T”的堿基序列的。HiSeq首先是一臺高精度的顯微光學(xué)掃描儀。然后再配上了一整套的液流系統(tǒng)，和計算機軟硬件，再加溫控系統(tǒng)，組成這樣一臺測序儀。其中最核心，也是結(jié)構(gòu)最復(fù)雜的，是它的光學(xué)系統(tǒng)。前一期，我們講了，Illumina測序儀主要是靠4種dNTP分別帶有不同的熒光基團，在被激光照了之后，發(fā)出不同顏色的熒光。再通過對光的顏色的分辯，可以判斷出到底是哪個堿基。光路結(jié)構(gòu)這里，我們要說明一下：感光元件CCD，它本身是色盲。所以，它一定要配合濾光片，才能分辯出顏色來。那我們先來看一下，HiSeq的光路圖。左邊這兩個元器件，就是激光器。一個發(fā)出紅色激光，另一個發(fā)

11、出綠色激光。其中紅色激光主要是激發(fā)A和C，這兩種堿基上的熒光基團；而綠色激光主要是激發(fā)G和T，這兩種堿基上的熒光基團。紅色和綠色這兩束光，通過一面半透半反鏡，組成一道激光。這道激光打在Flowcell上。那么請注意，F(xiàn)lowcell就放在這個位置。在Flowcell里面，結(jié)合在DNA上的那個熒光基團在激光的照射下，就發(fā)出熒光。熒光通過3面半透半反鏡，和1面全反鏡，被分成4條光路，這4道光線，分別通過一道濾光片，這4張濾光片的濾過波長不一樣。這樣，這4 道光在經(jīng)過了濾光片之后，就變成了4種顏色不同的光線。然后，這4條顏色不同的光線，各自照在一面反射鏡上，通過反射鏡進(jìn)入到CCD。這4個CCD就記錄

12、到不同顏色的光線。TDI線掃描HiSeq的光線掃描是“線掃描”，和傳統(tǒng)的相機不一樣，傳統(tǒng)的相機是面掃描。HiSeq采取了一種特定的叫“TDI”線掃描方式，TDI是Time delayintegration的縮寫。在HiSeq上之所以采取TDI掃描方式，因為它有非常明顯的優(yōu)點。第一個優(yōu)點，就是它的掃描速度非?？?，在HiSeq 2500上，從Flowcell的一個Lane的一頭掃到另外一頭，也就是一個“Swath”的掃描時間，大概只有20秒種不到。第二個好處，就是它的掃描精度非常高。在最新的HiSeq V4版試劑上，它的光點密度，大概可以達(dá)到每平方毫米90萬個點，要掃描清楚這么高密度的光點，掃描儀

13、的掃描精度是可想而知的。TDI掃描的第三個好處，是這種方式，可以把Flowcell的上表面、和下表面都掃描到。Flowcell（測序芯片）接下來，我們再要詳細(xì)介紹這張Flowcell。那么，先來看一下，這張flowcell有點象一張載玻片，在這一張片子里面，我們可以看到，它做了8條通道。每條通道，我們稱為一個Lane。這8個Lane之間，相互是隔絕的。每個Lane的兩端各有一個小孔。這兩個小也孔，就是液流流進(jìn)、流出的地方。每個Lane的上表面和下表面，都分別以共價鍵的方式，種了2種DNA引物。這兩種DNA引物，是與文庫接頭的兩頭序列相互補的。上一期（節(jié)目）我們已經(jīng)說明了這一點。一個Lane里面

14、，分成2個面，上表面、和下表面。上表面和下表面，都種了DNA引物，也都是可以產(chǎn)生測序數(shù)據(jù)的。在每一條Lane的每一個面，又被分成了3個掃描通道，每個道被稱為一個“swath”。每條Swath是從頭到底被連續(xù)掃描的。但是它的數(shù)據(jù)，在進(jìn)行數(shù)據(jù)分析的時侯，是被分割成16個小方塊。這每一個小方塊，被稱為一個“tile”。這樣一張Flowcell，總共就是768個Tile。每個Tile在掃描的時侯，會根據(jù)4種顏色，產(chǎn)生4張照片。圖像處理掃描完了之后，就要進(jìn)行圖像處理。掃描出來的最原始的文件，它的格式是“.tiff”文件。Tiff文件記錄了每個像素點上采集到的光強度。Tiff文件的優(yōu)點是它是完全無損，保留

15、了所有的原始信息。但它也有它的不足之處。它的不足之處就是它的這個文件太大了。它的數(shù)據(jù)量很大，既不便于數(shù)據(jù)的傳輸，也不便于數(shù)據(jù)的存儲。接下來，計算機軟件就把圖像文件轉(zhuǎn)化成光點文件。光點文件叫“.BCL”文件。也就是“Base calling”的英文縮寫。要把圖像文件，轉(zhuǎn)化成BCL文件，就是把4種顏色的4張照片，組合在一起，變成一張有4種顏色的彩色照片。這其中首先要解決的，是4張照片在空間位置上的匹配問題，因為4張照片是通過4個CCD分別拍下來的，所以，會有一定的空間上的偏差。軟件要通過對4張照片上，亮點相互比對，找到最合適的、匹配的位置。這里，我們要說明一下，如果被測的文庫是堿基不平衡的文庫，在

16、這個空間匹配上就會遇到問題。什么叫堿基平衡呢？也就是說，在測序過程當(dāng)中，每個循環(huán)，A、C、G、T四種堿基，都是比較均勻在存在的。最典型是人全基因組文庫，這是一個典型的堿基平衡文庫。那什么是堿基不平衡文庫呢？最典型的，就是PCR擴增子產(chǎn)生的文庫。PCR擴增子的特點：PCR是有特定的起始位點的，一個特定的測序循環(huán)中，幾乎所有的片段都是同一種堿基，而剩下的3種堿基，就特別少。這在反映到照片上去的時侯，就變成：一張照片特別亮，光點很多。而其它的三張照片就特別暗，上面的光點就很少。這時侯，要軟件做空間上的比對，軟件就會覺得困難，因為對于那幾張暗的照片，軟件很難判斷上面的光點，是否與那張亮的照片上的光點真

17、正對得上。結(jié)果，就是判斷出來的可靠性變差。最后，就是測序的數(shù)據(jù)質(zhì)量變差，有效數(shù)據(jù)量也會變少。要解決這個問題，辦法是在測序過程中摻入一些堿基平衡的文庫。例如摻人全基因組文庫。或者也可以摻Illumina提供的標(biāo)準(zhǔn)的PhiX文庫，這些都是堿基平衡文庫。它的作用，是在每個循環(huán)當(dāng)中，為每一種顏色的照片，都提供足夠多的亮點。這樣，它可以彌補那些不平衡的文庫當(dāng)中缺亮點的問題。BCL文件當(dāng)把4種顏色的光點組成一個文件之后，軟件就會生成一個“.BCL”文件?！?BCL”文件就是光點文件，它對每個光點，記錄了以下的內(nèi)容。首先一個光點處在哪個Lane里面。其次，這個光點在這個Lane的哪個Tile里面。第3，就是

18、這個亮點在這個Tile的X軸和Y軸的座標(biāo)位置。第4，是記錄了這個光點當(dāng)中“紅、黃、藍(lán)、綠”四種光的對應(yīng)的光強。這個圖是BCL文件的一個示意圖。實際上，BCL文件是二進(jìn)制文件，無法拿來直接閱讀。也正是因為BCL文件難于閱讀，并且很難改動，所以，BCL文件幾乎不存在做假的可能。在測序過程當(dāng)中，有許多客戶會要求測序公司提供原始的測序數(shù)據(jù)，如果客戶是包Lane、或者包Flowcell的，一般測序公司是可以提供BCL文件的?？蛻粼谀玫紹CL文件之后，可以用“BCL2FASTQ”這個軟件，把BCL文件轉(zhuǎn)化成FASTQ序列語文件。以此，客戶可以來驗證，測序公司提供的數(shù)據(jù)是否是原始的，是否是真實的。再說一下最

19、初生成的那個tiff文件。tiff文件實在太大了，所以，測序儀在測序過程中，只把tiff文件作為中間文件。最后是把這個tiff文件刪掉的。如果客戶想要原始的圖像文件，在HiSeq V4之前，可以讓測序公司保留“.CIF”文件。CIF文件是一種彩色圖案的向量文件，它的優(yōu)點是比tiff文件的數(shù)據(jù)量小很多。測序公司把CIF文件給客戶之后，客戶就可以看到原始的圖像文件了。但是，請注意：在HiSeq升級到V4之后，保留CIF文件的這個選項是被取消掉了。所以，對于要測V4 Lane的客戶來說，是拿不到CIF文件了。堿基識別接下來，我們講一下堿基識別。我們之前講：4種dNTP，各標(biāo)一種熒光基團，紅、黃、藍(lán)、

20、綠，四種顏色，根據(jù)顏色來判斷堿基種類。這個實際上是一種簡化了的說法。實際情況，要比這個復(fù)雜得多。來看這個圖，這是2種熒素的熒光的波長圖。我們會發(fā)覺，這兩種熒光色，它發(fā)出來的發(fā)射光，它在波長上是有交疊的。在X的這個位置，主要是綠色熒光素的貢獻(xiàn)，但是藍(lán)色熒光素，也有少許貢獻(xiàn)。而在Y這個波長位置，藍(lán)色熒光素是做了主要貢獻(xiàn)，但是綠色熒光素，也有少量供獻(xiàn)。在實際測序過程中，是4種熒光素發(fā)出的亮，相互有交疊，相互之間的交系，變得更加復(fù)雜。那么，現(xiàn)在我們要做的事情，是把A、C、G、T，4種熒光素的貢獻(xiàn)給拆開。首先，我們就要確定4種熒光素在4個被測波長處的貢獻(xiàn)率。我們可以看一下，這個表，就是4種熒光素，在4個

21、波長分別有不同的貢獻(xiàn)率。這樣就組成一個4X4的貢獻(xiàn)率表格。我們在實際的分析當(dāng)中，等于解一個4元1次、4聯(lián)方程。因為是4個未知數(shù)，又是4個方程，所以肯定是可以解出來的。說解方程，有點復(fù)雜。那么我們來打一個比方。讓大家來理解這個事情。假設(shè)有一家飯店，它有4個熟客：甲、乙、丙、丁。它日常又提供4道菜：豬肉、白菜、黃瓜、花生。大廚知道：甲最愛吃豬肉、乙最愛吃白菜、丙最愛吃黃瓜、丁最愛吃花生，每個人來了飯店之后，主要吃自己最愛吃的，也會吃些別的菜，但別的菜都吃得不是太多。那么這個大廚不到前臺，看不到今天來的客人。如果，這個大廚想要知道今天來的客人是誰，他有什么辦法呢？看今天哪個菜被吃掉得最多。如果今天的

22、菜被吃掉的最多的是豬肉，那他可以大致地判斷，今天是甲來過了；如果他看到今天被吃掉的菜，最多的是白菜，很可能是乙來過了；那么其它的，道理也是一樣的。希望這個例子可以幫大家來理解一下，這4個熒光和4種堿基的判讀的關(guān)系。Phasing 和 Prephasing接下來，我們再講一下，Phasing和Prephasing。在Illumina的測序過程當(dāng)中，一個簇，大概有5千個到1萬個分子。但是在邊合成、邊測序的過程當(dāng)中，每一步酶反應(yīng)，理想情況下，應(yīng)該這5千個分子都延長1個堿基。但實際情況，總有少量分子沒有完成延長反應(yīng)。也就是說，總有少量的分子會掉隊，我們稱這種掉隊的現(xiàn)象叫“phasing”。Phasin

23、g主要是由于酶活性不足，所引起的。如圖所示，掉隊的這個分子，它所發(fā)出的熒光信號，和大部隊所發(fā)出的熒光信號是不一樣的。這個循環(huán)的次數(shù)越多，掉隊的分子就越多。所以，測序越到后面，它Phasing的分子數(shù)就越多。最后，信號的可靠性就越差。除了掉隊的分子，還會有一部分分子，會跑得超前，也就是在一個循環(huán)中，它延長了2個堿基。在一個循環(huán)中延長了2個堿基的最主要的原因，是dNTP上標(biāo)記的那個疊氮基團(N3)掉了。我們知道，疊氮基團是非常容易從有機化合物上掉落的。當(dāng)疊氮基團掉落之后，dNTP的3端的羥基就暴露出來了。當(dāng)丟失了疊氮基團的dNTP加到（合成鏈的）3端之后，它的聚合反應(yīng)不會終止，而是會繼續(xù)往前走。當(dāng)

24、再加上了一個帶疊氮基團的dNTP之后，這個聚合反應(yīng)才停下來。這樣的后果，就是一個循環(huán)，某些分子，會合成了2個堿基。也就是說比大部隊多走了一步。那么這個多走了一步的堿基，它所發(fā)出來的熒光顏色，也是和大部隊不一樣的。在Illumina測序過程當(dāng)中，Phasing和Prephasing是限制測長的最主要原因。也就是說，隨著循環(huán)不斷進(jìn)行，越來越多的分子掉隊，還有越來越多的分子超前。然后，它們所產(chǎn)生的噪音，掩蓋了大部隊的信號的時侯，也就是測序開始測不準(zhǔn)的時侯。在HiSeq測序當(dāng)中，從第12個循環(huán)開始，在計算某個光點是哪種堿基的時侯，就要把Phasing和Prephasing的影響，納入考慮。Chasti

25、ty 和 Pass filter為了對光點當(dāng)中熒光素的純粹程度進(jìn)行描述，Illumina公司定義了個標(biāo)準(zhǔn)，叫“chastity”，Chastity的定義，就是濃度最高的那個熒光素的量，去除以“它自己 + 排名第二的熒光素的量的和”。大于0.6是一個好堿基。用更加通俗的話來說，也就是“老大”比“老二”，如果大于、等于“1.5倍”，這就是個“好”堿基。如果“老大”比“老二”不足“1.5倍”，這就是個“壞堿基”。Illumina對每個read的質(zhì)量都要做一個檢驗，這個檢驗就叫“pass filter”檢驗。檢驗的標(biāo)準(zhǔn)，是看前25個堿基當(dāng)中，有幾個是“壞堿基”。如果只有一個、或者沒有壞堿基，則Pass

26、 filter就通過；如果有超過一個以上的壞堿基，Pass filter就不能通過。那我們平時說，測序服務(wù)保證多少“PF data”，指的就是Pass Filter(PF)的數(shù)據(jù)。Pass Filter最主要的作用，就是把那些一個光點當(dāng)中，含了幾個cluster的那些點，給去掉。只剩下那些純粹的單克隆的read，作為合格的數(shù)據(jù)，提交給客戶。我們平時說“PF率”，指的就是Pass Filter的Reads數(shù)，占總的、測到的Reads數(shù)的比例。PF率可以從一個側(cè)面反映測序的質(zhì)量。一般來說，如果上樣密度過高，PF率就可能會下降。Quality Score，Q 值一個堿基的Quality Score，

27、也就是這個堿基的質(zhì)量分?jǐn)?shù)（Q值）。這個是通過這個堿基被誤判的可能性，換算出以10為底的對數(shù)，再乘以“-10”得到的這樣一個數(shù)字。這個Q值，有點象我們說黃金的純度，我們說“三九金”，或者說“四九金”，就是指99.9%的純度的金子，或者是99.99%的純度的金子。我們平時說Q30，就是指一個堿基的可靠性達(dá)到99.9%?；蛘哒f，它的出錯的可能性小于千分之一。同樣道理，我們說Q40，就是指一個堿基的可靠性是99.99%。或者說，它的出錯的可能性是萬分之一。那么，我們經(jīng)常說Q30比例，所謂的“Q30比例”，就是在全部PF數(shù)據(jù)當(dāng)中，達(dá)到、或者超過Q30質(zhì)量標(biāo)準(zhǔn)以上的數(shù)據(jù)，占所有PF數(shù)據(jù)的比例，叫Q30比例

28、。Q30比例，可以表征一個測序過程的質(zhì)量的好壞。一個堿基的質(zhì)量分?jǐn)?shù)，不是以數(shù)字方式，直接記錄到最后的Fastq文件的。而是把它的Q值，加上33，再用ASCII碼表轉(zhuǎn)換成一個字母，把這個字母錄入Fastq文件。這樣做，有2個好處。如果我記2位數(shù)字，那么就占2個字節(jié)，現(xiàn)在用一個字母來記錄，只占一個字節(jié)。那（數(shù)據(jù)存儲）空間就節(jié)省了很多。第二個好處，用ASCII碼字母表，一個堿基，只對應(yīng)一個字母；如果是用2位數(shù)字來記錄，就有可能發(fā)生移碼錯誤。而用ASCII碼，一個字母來記錄，就不太容易發(fā)生移碼錯誤。Fastq 文件在軟件做完上述所有的數(shù)據(jù)處理之后，就會生成一個Fastq文件。Fastq文件里，主要包含

29、了3部分內(nèi)容。第一個部分，是每個Read的目錄信息。也就是這個Read來自于哪臺HiSeq、第幾個run、第幾個Lane、和第幾個Tile，以及在這個Tile的X、Y的什么位置。接下來，就是所測到的堿基的序列。最后，是這些堿基序列對應(yīng)的質(zhì)量分?jǐn)?shù)信息。這個，就是Fastq文件。到Fastq文件之后，測序儀所要完成的工作，就完全完成了。Pacbio是目前讀長最長的測序技術(shù)公司。它的讀長，最長可以達(dá)到2萬到3萬個堿基，平均可以達(dá)到8千多個堿基。相比于llumina 和Ion Torrent的幾百個堿基的讀長來說，有著明顯的優(yōu)勢。PacBio 測序過程PacBio的測序原理，和別的高通量測序的原理，基

30、本上也是一樣的。也是邊合成，邊測序。首先，這個聚合酶是固定在測序小孔的玻璃底板上。這個聚合酶又和DNA模板、測序引物是結(jié)合在一起的。然后加入帶4色熒光的dNTP底物，這些dNTP都在其磷酸基團上被標(biāo)上了熒光基團，四種堿基、各標(biāo)一種顏色。當(dāng)一種與聚合酶正要合成的堿基一致的dNTP被酶抓住的時候，酶就會長時間地抓住這個dNTP,不讓這個dNTP漂走。這時侯，激發(fā)光從小孔的底部照進(jìn)來，打在這個被抓住的dNTP上，就會在較長時間內(nèi)發(fā)出熒光。儀器根據(jù)所拍到的熒光的顏色，就可以來判斷，這個堿基是哪種堿基。一個循環(huán)的聚合反應(yīng)發(fā)生完畢之后，焦磷酸基團就從原來的dNTP上掉下來，因為熒光基團是連到這個焦磷酸上的

31、，所以這個熒光基團也就一起掉下來了，在溶液中就會漂走。接下來，進(jìn)行第二、第三個循環(huán)，一直進(jìn)行下去。一張芯片上有幾萬個孔，同時進(jìn)行測序，這樣一次就可以得到幾億個堿基的序列。接下來，分幾個要點，來說明這個測序的過程。化學(xué)方法和Illumina一樣，PacBio也采用了4色熒光基團來標(biāo)記dNTP，但是PacBio的標(biāo)記和Illumina的標(biāo)記有所不同，PacBio的熒光基團直接是標(biāo)在dNTP的3端的磷酸基團的末端的。這樣標(biāo)記的好處是：當(dāng)一個聚合反應(yīng)的循環(huán)完成的時侯，dNTP上的那兩個磷酸基團就掉下，連在這個磷酸基團上的熒光基團也隨一塊兒掉下來。它掉下來之后，就在溶液中漂走，不會影響接下來的測序過程了

32、。測序微孔然后，我們說一下這個測序小孔的設(shè)計。這個測序小孔叫Zero Model Waveguide，簡稱ZMW。小孔的直徑很小，光只能在小孔中傳輸很短的距離。這個特點對PacBio的測序很重要。因為酶是被固定在玻璃底板上的，所以，只有互補的dNTP被酶抓到的時侯，這個dNTP才會較長時間地停留在離玻璃底板很近的位置。也只有這樣，才會被激發(fā)光照到，并且發(fā)出它的熒光。PacBio的光學(xué)設(shè)計中，入射光是幾百納米波長的可見光,光從小孔的底部的玻璃處照到小孔中來。這個，只有70納米。其它游離的dNTP，只會非常短暫地進(jìn)入小孔，又很快漂走。所以，這些游離dNTP帶來的的噪音（信號），就被抑制在很低的水平

33、。啞鈴狀的文庫接下來，我們說一下PacBio的建庫。PacBio的建庫是比較特別的。它的庫是在DNA片段的兩段各接一下發(fā)夾型的接頭。接好了發(fā)夾形的接頭之后，形成的文庫是一個啞鈴形的文庫。這種啞鈴形狀的文庫有個好處，那它整個分子實際上是一個圓環(huán)。在測序的過程中它可以周而復(fù)始地進(jìn)行測序，這對于發(fā)揮PacBio的長讀長的優(yōu)勢是很有益處的。超長讀長的根本原因 - 單分子測序接下來，我們說一下PacBio它測序長度優(yōu)勢的來源。這個來源，是因為它測的是個單個分子。相比之下，Illumina或者Ion Torrent測的都是一簇分子。或者說它們測的都是一大堆分子。當(dāng)它測一大堆分子的時侯，每個循環(huán)，多多少少，

34、總有一些分子落后；也多多少少，有些分子超前。這些落后、或者超前的分子，在每個循環(huán)里面就會給出噪音。而且，隨著循環(huán)次數(shù)越來越多，落后、和超前的分子也會越來越多，達(dá)到一定程度的時侯，噪音就會很大，大到會掩蓋掉信號。當(dāng)噪音大到掩蓋掉信號的時侯，實際上測序就測不準(zhǔn)了。相比之下，PacBio它只有一個分子，所以，它不存在同步問題。這就讓它可以測到幾千、基至上萬個BP都可以達(dá)成。堿基判讀準(zhǔn)確率：87.5%接下來，我們要說一下PacBio測序的缺點。最大的缺點是對堿基的判讀不準(zhǔn)。它的錯誤率是12.5%。也就是說，它每讀8個堿基，就有一個是讀錯的。那么它主要的錯誤類型是插入。也就是說，它會多讀一個堿基。好在，

35、它的這種錯誤是隨機的。也就是說，你在這個地方再讀一遍，它不一定會發(fā)生同樣的錯誤。那么，對于同一個序列，多測幾遍之后，這些偶然誤差，可以被校正過來。讀長限制因素接下來，我們說一下限制PacBio讀長的因素。第一個因素，就是DNA鏈上出現(xiàn)了缺口。測序過程中是用激光照射來發(fā)出熒光的，所以當(dāng)強光長時間照射DNA鏈的時侯，DNA鏈就有可能被照斷掉，出現(xiàn)缺口。當(dāng)酶讀到這個缺口的時侯，酶就從模板鏈上掉下來。這時侯，測序就終止了。這是第一種可能。第二種可能，是光線照射情況下，酶有可能會變性，當(dāng)酶發(fā)生了變性之后，失去了聚合酶的功能，這時侯，測序也會終止。第三個限制因素，是文庫本身的長度。因為要做片段長度大于2030K的文庫，是有相當(dāng)大的困難的，所以，文庫本身的質(zhì)量，在一定程度上，也限制了PacBio的讀長。數(shù)據(jù)通量在高通量測序當(dāng)中，測序的通量，是一個很重要的技術(shù)指標(biāo)。那PacBio大根一張芯片一次可以測到0.30.4G的數(shù)據(jù)。在PacBio測序中，芯片上的小孔數(shù)是第一個絕對的、限制性的因素。目前的芯片，是有15萬個小孔。但這15萬個小孔中，

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Illumina測序基礎(chǔ)知識

文檔簡介

溫馨提示

最新文檔

評論

Illumina測序基礎(chǔ)知識

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔