高通量測(cè)序常用名詞匯總(共9頁)

上傳人：b*** IP屬地：貴州上傳時(shí)間：2022-02-28 格式：DOCX 頁數(shù)：9 大小：96.94KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩4頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上高通量測(cè)序常用名詞匯總技術(shù)支持Q20值是指的測(cè)序過程堿基識(shí)別（Base Calling）過程中,對(duì)所識(shí)別的堿基給出的錯(cuò)誤概率.如果質(zhì)量值是Q20,則錯(cuò)誤識(shí)別的概率是1%,即錯(cuò)誤率1%,或者正確率是99%；如果質(zhì)量值是Q30,則錯(cuò)誤識(shí)別的概率是0.1%,即錯(cuò)誤率0.1%,或者正確率是99.9%；如果質(zhì)量值是Q40,則錯(cuò)誤識(shí)別的概率是0.01%,即錯(cuò)誤率0.01%,或者正確率是99.99%；你發(fā)現(xiàn)規(guī)律沒有,Q“N”0的質(zhì)量值,就是正確率有N個(gè)9的百分比,這樣就非常容易記憶了.基因高通量測(cè)序中，每測(cè)一個(gè)堿基會(huì)給出一個(gè)相應(yīng)的質(zhì)量值，這個(gè)質(zhì)量值是衡量測(cè)序準(zhǔn)確度的。堿基的質(zhì)量值1

2、3，錯(cuò)誤率為5%，20的錯(cuò)誤率為1%，30的錯(cuò)誤率為0.1%。行業(yè)中Q20與Q30則表示質(zhì)量值20或30的堿基所占百分比。例如一共測(cè)了1G的數(shù)據(jù)量，其中有0.9G的堿基質(zhì)量值大于或等于20，那么Q20則為90%。Q20值是指的測(cè)序過程堿基識(shí)別（Base Calling）過程中，對(duì)所識(shí)別的堿基給出的錯(cuò)誤概率。質(zhì)量值是Q20，則錯(cuò)誤識(shí)別的概率是1%，即錯(cuò)誤率1%，或者正確率是99%；質(zhì)量值是Q30，則錯(cuò)誤識(shí)別的概率是0.1%，即錯(cuò)誤率0.1%，或者正確率是99.9%；

3、質(zhì)量值是Q40，則錯(cuò)誤識(shí)別的概率是0.01%，即錯(cuò)誤率0.01%，或者正確率是99.99%；一代測(cè)序技術(shù)：即傳統(tǒng)的Sanger測(cè)序法，Sanger法是根據(jù)核苷酸在待定序列模板上的引物點(diǎn)開始，隨機(jī)在某一個(gè)特定的堿基處終止，并且在每個(gè)堿基后面進(jìn)行熒光標(biāo)記，產(chǎn)生以A、T、C、G結(jié)束的四組不同長(zhǎng)度的一系列核苷酸，每一次序列測(cè)定由一套四個(gè)單獨(dú)的反應(yīng)構(gòu)成，每個(gè)反應(yīng)含有所有四種脫氧核苷酸三磷酸(dNTP)，并混入限量的一種不同的雙脫氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH 基團(tuán)，使延長(zhǎng)的寡聚核苷酸選擇性地在G、A、T或C處終止，使反應(yīng)得到一組長(zhǎng)幾百至幾千堿基的鏈終止產(chǎn)物。

4、它們具有共同的起始點(diǎn)，但終止在不同的的核苷酸上，可通過高分辨率變性凝膠電泳分離大小不同的片段，通過檢測(cè)得到DNA堿基序列。二代測(cè)序技術(shù)：next generation sequencing（NGS）又稱為高通量測(cè)序技術(shù)，與傳統(tǒng)測(cè)序相比，二代測(cè)序技術(shù)可以一次對(duì)幾十萬到幾百萬條核酸分子同時(shí)進(jìn)行序列測(cè)定，從而使得對(duì)一個(gè)物種的轉(zhuǎn)錄組和基因組進(jìn)行細(xì)致全貌的分析成為可能，所以又被稱為深度測(cè)序（Deep sequencing）。NGS主要的平臺(tái)有Roche（454 & 454+），Illumina（HiSeq 2000/2500、GA IIx、MiSeq），ABI SOLiD等。

5、0;基因：Gene，是遺傳的物質(zhì)基礎(chǔ)，是DNA或RNA分子上具有遺傳信息的特定核苷酸序列。基因通過復(fù)制把遺傳信息傳遞給下一代，使后代出現(xiàn)與親代相似的性狀。 DNA：Deoxyribonucleic acid，脫氧核糖核酸，一個(gè)脫氧核苷酸分子由三部分組成：含氮堿基、脫氧核糖、磷酸。脫氧核糖核酸通過3',5'-磷酸二酯鍵按一定的順序彼此相連構(gòu)成長(zhǎng)鏈，即DNA鏈，DNA鏈上特定的核苷酸序列包含有生物的遺傳信息，是絕大部分生物遺傳信息的載體。 RNA：Ribonucleic Acid，核糖核酸，一個(gè)核糖核苷酸分子由堿基，核糖和磷酸構(gòu)成。核糖核苷酸經(jīng)磷酯鍵縮合而成長(zhǎng)鏈

6、狀分子稱之為RNA鏈。RNA是存在于生物細(xì)胞以及部分病毒、類病毒中的遺傳信息載體。不同種類的RNA鏈長(zhǎng)不同，行使各式各樣的生物功能，如參與蛋白質(zhì)生物合成的RNA有信使RNA、轉(zhuǎn)移RNA和核糖體RNA等。 16S rDNA："S"是沉降系數(shù)，是反映生物大分子在離心場(chǎng)中向下沉降速度的一個(gè)指標(biāo)，值越高，說明分子越大。rDNA（ribosome DNA）指的是原核生物基因組中編碼核糖體RNA（rRNA）分子對(duì)應(yīng)的DNA序列，16S rDNA是原核生物編碼核糖體小亞基16S rRNA的基因。細(xì)菌rRNA（核糖體RNA）按沉降系數(shù)分為3種，分別為5S、16S和23S rRNA

7、。16S rDNA是細(xì)菌染色體上編碼16S rRNA相對(duì)應(yīng)的DNA序列，存在于所有細(xì)菌染色體基因中。16S rRNA 普遍存在于原核生物中。16S rRNA 分子，其大小約1540bp，既含有高度保守的序列區(qū)域，又有中度保守和高度變化的序列區(qū)域，其可變區(qū)序列因細(xì)菌不同而異，恒定區(qū)序列基本保守，所以可利用恒定區(qū)序列設(shè)計(jì)引物，將16S rDNA片段擴(kuò)增出來，通過高通量測(cè)序利用可變區(qū)序列的差異來對(duì)不同菌屬、菌種的細(xì)菌進(jìn)行分類鑒定。 cDNA：complementary DNA，互補(bǔ)脫氧核糖核酸，與RNA鏈互補(bǔ)的單鏈DNA，以RNA為模板，在反轉(zhuǎn)錄酶的作用下所合成的DNA

8、。 Small RNA：生物體內(nèi)一類高度保守的重要的功能分子，其大小在18-30nt，包括microRNA、siRNA、snRNA、snoRNA和piRNA（piwi-interacting RNA）等，它的主要功能是誘導(dǎo)基因沉默，調(diào)控細(xì)胞生長(zhǎng)、發(fā)育、基因轉(zhuǎn)錄和翻譯等生物學(xué)過程。以miRNA為例介紹它們的功能：miRNA與RNA誘導(dǎo)沉默復(fù)合體（RNA induced silencing complex, RISC）結(jié)合，并將此復(fù)合體與其互補(bǔ)的mRNA序列結(jié)合，根據(jù)靶序列與miRNA的互補(bǔ)程度，從而導(dǎo)致靶序列降解或干擾靶序列蛋白質(zhì)的翻譯過程。 SD 區(qū)域：Segme

9、nt duplication，串聯(lián)重復(fù)是由序列相近的一些 DNA 片段串聯(lián)組成。串聯(lián)重復(fù)在人類基因多樣性的靈長(zhǎng)類基因中發(fā)揮重要作用。 Genotype and phenotype：基因型與表型，基因型是指某一生物個(gè)體全部基因組合的總稱；表型，又稱性狀，是基因型和環(huán)境共同作用的結(jié)果。基因組：Genome，單倍體細(xì)胞核、細(xì)胞器（線粒體、葉綠體）或病毒粒子所含的全部DNA分子或RNA分子。全基因組de novo測(cè)序：又稱從頭測(cè)序，它不依賴于任何現(xiàn)有的序列資料，而直接對(duì)某個(gè)物種的基因組進(jìn)行測(cè)序，然后利用生物信息學(xué)分析手

10、段對(duì)序列進(jìn)行拼接、組裝，從而獲得該物種的基因組序列圖譜。全基因組重測(cè)序：對(duì)已有參考序列（Reference Sequence）物種的不同個(gè)體進(jìn)行基因組測(cè)序，并以此為基礎(chǔ)進(jìn)行個(gè)體或群體水平的遺傳差異性分析。全基因組重測(cè)序能夠發(fā)現(xiàn)大量的單核苷酸多態(tài)性位點(diǎn)（SNP）、拷貝數(shù)變異（Copy Number Variation，CNV）、插入缺失（InDel，Insertion/Deletion）、結(jié)構(gòu)變異（Structure Variation，SV）等變異類型，以準(zhǔn)確快速的方法將單個(gè)參考基因組信息上升為群體遺傳特征。轉(zhuǎn)錄組：Transcriptome，是指特定生長(zhǎng)階段某組織或細(xì)

11、胞內(nèi)所有轉(zhuǎn)錄產(chǎn)物的集合；狹義上指所有mRNA的集合。轉(zhuǎn)錄組測(cè)序：對(duì)某組織在某一功能狀態(tài)下所能轉(zhuǎn)錄出來的所有RNA進(jìn)行測(cè)序，獲得特定狀態(tài)下的該物種的幾乎所有轉(zhuǎn)錄本序列信息。通常轉(zhuǎn)錄組測(cè)序是指對(duì)mRNA進(jìn)行測(cè)序獲得相關(guān)序列的過程。其根據(jù)所研究物種是否有參考基因組序列分為轉(zhuǎn)錄組de novo測(cè)序（無參考基因組序列）和轉(zhuǎn)錄組重測(cè)序（有參考基因組序列）。外顯子組：Exome，人類基因組全部外顯子區(qū)域的集合稱為外顯子組，是基因中重要的編碼蛋白的部分，并涵蓋了與個(gè)體表型相關(guān)的大部分的功能性變異。外顯子組測(cè)序：是指利用序列捕獲技術(shù)將全基因組外顯子區(qū)域DNA捕捉并富集后進(jìn)行高

12、通量測(cè)序的基因組分析方法。外顯子測(cè)序相對(duì)于基因組重測(cè)序成本較低，對(duì)研究已知基因的SNP、InDel 等具有較大的優(yōu)勢(shì)。目標(biāo)區(qū)域測(cè)序：應(yīng)用相關(guān)試劑盒對(duì)基因組上感興趣的目標(biāo)區(qū)域進(jìn)行捕獲富集后進(jìn)行大規(guī)模測(cè)序，一般需要根據(jù)目標(biāo)區(qū)域?qū)ｉT定制捕獲芯片。宏基因組：Metagenome，指特定生活環(huán)境中全部微小生物遺傳物質(zhì)的總和。它包含了可培養(yǎng)的和未可培養(yǎng)的微生物的基因。目前主要指環(huán)境樣品中的細(xì)菌和真菌的基因組總和。宏基因組16S rRNA測(cè)序：可以對(duì)特定環(huán)境下的細(xì)菌和古細(xì)菌群體的微生物種類和風(fēng)度進(jìn)行有效的鑒定。對(duì)不同地點(diǎn)、不同條件下的多個(gè)樣本16S rRNA的P

13、CR產(chǎn)物平行測(cè)序，可以比較不同樣本間的微生物組成及成分差異，進(jìn)而闡明物種豐度、種群結(jié)果等生態(tài)學(xué)信息。表觀遺傳學(xué)：Epigenetics，是指在基因組DNA序列沒有改變的情況下，基因的表達(dá)調(diào)控和性狀發(fā)生了可遺傳的變化。表觀遺傳的現(xiàn)象很多，已知的有DNA甲基化（DNA methylation），基因組印記（genomic impriting），母體效應(yīng)（maternal effects），基因沉默（gene silencing），核仁顯性，休眠轉(zhuǎn)座子激活和RNA編輯（RNA editing）等。全基因組甲基化測(cè)序：DNA 甲基化是指在 DNA

14、甲基化轉(zhuǎn)移酶的作用下，在基因組 CpG 二核苷酸的胞嘧啶5'碳位共價(jià)鍵結(jié)合一個(gè)甲基基團(tuán)。DNA 甲基化已經(jīng)成為表觀遺傳學(xué)和表觀基因組學(xué)的重要研究?jī)?nèi)容。甲基化是基因表達(dá)的主要調(diào)控方式之一，研究染色體DNA甲基化情況是了解基因調(diào)控的重要手段。對(duì)已經(jīng)有參考基因組的物種的基因組DNA用標(biāo)準(zhǔn)亞硫酸氫鹽（Bisulfite）處理后，未甲基化的胞嘧啶C會(huì)脫氨基形成尿嘧啶U，經(jīng)PCR擴(kuò)增，U替換為胸腺嘧啶T，而發(fā)生甲基化的胞嘧啶C保持不變。將處理組與參考基因組序列進(jìn)行比對(duì)，可發(fā)現(xiàn)甲基化位點(diǎn)并對(duì)甲基化情況進(jìn)行定量分析的方法叫做全基因組甲基化測(cè)序。 ChIp-Seq

15、：Chromatin Immunoprecipitation sequencing，即染色質(zhì)免疫共沉淀-測(cè)序技術(shù)，即通過染色質(zhì)免疫共沉淀技術(shù)特異性地富集目的蛋白結(jié)合的DNA片段。對(duì)富集得到的DNA片段進(jìn)行純化與文庫構(gòu)建，然后進(jìn)行高通量測(cè)序，從而得到全基因組范圍內(nèi)可以與目的蛋白相互作用的DNA片段的方法叫做ChIP-Seq。數(shù)字表達(dá)譜：Digital Gene Expression Profile，利用新一代高通量測(cè)序技術(shù)和高性能計(jì)算分析技術(shù)，能夠全面、經(jīng)濟(jì)、快速地檢測(cè)某一物種特定組織在特定狀態(tài)下的基因表達(dá)情況，即運(yùn)用特定的酶對(duì)mRNA距polyA tail 21-25nt

16、的位置進(jìn)行酶切，所獲得的帶polyA尾的序列(Tag)通過高通量測(cè)序，該tag被測(cè)得的次數(shù)即是對(duì)應(yīng)基因的表達(dá)值。數(shù)字基因表達(dá)譜已被廣泛應(yīng)用于基礎(chǔ)科學(xué)研究、醫(yī)學(xué)研究和藥物研發(fā)等領(lǐng)域。特點(diǎn)是經(jīng)濟(jì)，但獲得的數(shù)據(jù)量有限。若想獲得轉(zhuǎn)錄本的更多信息的話，一般都采用轉(zhuǎn)錄組測(cè)序的方法來測(cè)序。 SBS：sequencing by synthesis，邊合成邊測(cè)序反應(yīng)，是指在DNA聚合酶的作用下延伸堿基所進(jìn)行的測(cè)序。 Run：指高通量測(cè)序平臺(tái)單次上機(jī)測(cè)序反應(yīng)。圖1. Flow Cell結(jié)構(gòu)示意圖 Lane：也叫channel，單泳道，每條泳道包含2列（column），每列分布有多個(gè)小

17、區(qū)（tile），如圖1。不同的測(cè)序平臺(tái)Flow Cell中所含的Lane不一樣，如HiSeq 2000是2個(gè)flow cell，每個(gè)flow cell中含有8個(gè)lane；HiSeq 2500是包含2個(gè)mini flow cell（快速運(yùn)行模式）和2個(gè)high output flow cell，兩個(gè)模式不能同時(shí)運(yùn)行，其中每個(gè)mini flow cell包含2個(gè)lane，每個(gè)high output flow cell中包含8個(gè)lane；Miseq系統(tǒng)的flow cell僅含有1個(gè)lane。 Tile：小區(qū)，每條Lane中有2列tile，合計(jì)120個(gè)小區(qū)。每個(gè)小區(qū)上分布數(shù)目繁多的簇結(jié)合位點(diǎn)

18、，如圖1。 Cluster：簇，在Illumina測(cè)序平臺(tái)中會(huì)采用橋式PCR方式生產(chǎn)DNA簇，每個(gè)DNA簇才能產(chǎn)生亮度達(dá)到CCD可以分辨的熒光點(diǎn)。Index：標(biāo)簽，在Illumina平臺(tái)的多重測(cè)序（Multiplexed Sequencing）過程中會(huì)使用Index來區(qū)分樣品，并在常規(guī)測(cè)序完成后，針對(duì)Index部分額外進(jìn)行7個(gè)循環(huán)的測(cè)序，通過Index的識(shí)別，可以在1條Lane中區(qū)分12種不同的樣品。 Barcode：與Index同義，多指在Roche GS FLX 454測(cè)序平臺(tái)的16S PCR產(chǎn)物的測(cè)序過程中接頭序列所包含的的用來區(qū)分不同樣本的序列。 PF%：

19、PF%是指符合測(cè)序質(zhì)量標(biāo)準(zhǔn)的簇的百分比，與測(cè)序的通量相關(guān)聯(lián)。 Fasta：一種序列存儲(chǔ)格式。一個(gè)序列文件若以FASTA格式存儲(chǔ)，則每一條序列的第一行以“>”開頭，而跟隨“>”的是序列的ID號(hào)（即唯一的標(biāo)識(shí)符）及對(duì)該序列的描述信息；第二行開始是序列內(nèi)容，序列短于61nt的，則一行排列完；序列長(zhǎng)于61nt的，則每行存儲(chǔ)61nt，最后剩下小于61nt的，在最后一行排列完；第二條序列另起一行，仍然由“>”和序列的ID號(hào)開始，以此類推。 Fastq：Fastq是Solexa測(cè)序技術(shù)中一種反映測(cè)序序列的堿基質(zhì)量的文件格式。第一行以“”符號(hào)開頭，后面緊跟一個(gè)序列的描述信

20、息；第二行是該序列的內(nèi)容；第三行以“+”符號(hào)開頭，后面可以是該序列的描述信息，也可省略；而第四行是第二行中的序列內(nèi)容每個(gè)堿基所對(duì)應(yīng)的測(cè)序質(zhì)量值。 Read：高通量測(cè)序平臺(tái)產(chǎn)生的序列標(biāo)簽就稱為 reads。基因組組裝：進(jìn)行基因組或轉(zhuǎn)錄組de novo測(cè)序時(shí)，物種基因組經(jīng)構(gòu)建不同的文庫測(cè)序所得的片段需經(jīng)過生物信息學(xué)手段對(duì)其進(jìn)行整理拼接，并通過一定的標(biāo)準(zhǔn)（如N50）對(duì)后續(xù)組裝結(jié)果進(jìn)行質(zhì)量評(píng)估等，最終獲得高準(zhǔn)確度的基因組序列的過程。基因組測(cè)序深度：測(cè)序得到的總堿基數(shù)與待測(cè)基因組大小的比值。如測(cè)一個(gè)物種的全基因組的重測(cè)序，基因組大小約為5G，測(cè)序獲得100G的

21、數(shù)據(jù)量，則測(cè)序深度為20×。基因組覆蓋率：指測(cè)序獲得的序列占整個(gè)基因組的比例。由于基因組中的高GC、重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在，測(cè)序最終拼接組裝獲得的序列往往無法覆蓋有所的區(qū)域，這部分沒有獲得的區(qū)域就稱為Gap。例如一個(gè)細(xì)菌基因組測(cè)序，覆蓋率是98%，那么還有2%的序列區(qū)域是沒有通過測(cè)序獲得的。 Contig：在de novo測(cè)序中拼接軟件基于 reads 之間的 overlap 區(qū)，拼接獲得的中間沒有g(shù)ap的序列稱為Contig（重疊群）。 Scaffold：基因組 de novo 測(cè)序，通過

22、 reads 拼接獲得 Contigs 后，往往還需要構(gòu)建 454 Paired-end 庫或Illumina Mate-pair 庫，以獲得一定大小片段（如 3Kb、8Kb、10Kb、20Kb）兩端的序列?；谶@些序列，可以確定一些 Contig 之間的順序關(guān)系，這些先后順序已知的 Contigs 組成 Scaffold。 Contig N50：Reads拼接后會(huì)獲得一些不同長(zhǎng)度的Contigs。將所有的Contig長(zhǎng)度相加，能獲得一個(gè)Con

23、tig總長(zhǎng)度。然后將所有的Contigs按照從長(zhǎng)到短進(jìn)行排序，如獲得Contig 1，Contig 2，Contig 3Contig 25。將Contig按照這個(gè)順序依次相加，當(dāng)相加的長(zhǎng)度達(dá)到Contig總長(zhǎng)度的一半時(shí)，最后一個(gè)加上的Contig長(zhǎng)度即為Contig N50。舉例：Contig 1+Contig 2+ Contig 3 +Contig 4=Contig總長(zhǎng)度*1/2時(shí)，Contig 4的長(zhǎng)度即為Contig N50。Contig N50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。 Scaffold N50：Scaffold N50與Contig N50的定義類似。Co

24、ntigs拼接組裝獲得一些不同長(zhǎng)度的Scaffolds。將所有的Scaffold長(zhǎng)度相加，能獲得一個(gè)Scaffold總長(zhǎng)度。然后將所有的Scaffolds按照從長(zhǎng)到短進(jìn)行排序，如獲得Scaffold 1，Scaffold 2，Scaffold 3Scaffold 25。將Scaffold按照這個(gè)順序依次相加，當(dāng)相加的長(zhǎng)度達(dá)到Scaffold總長(zhǎng)度的一半時(shí)，最后一個(gè)加上的Scaffold長(zhǎng)度即為Scaffold N50。舉例：Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold總長(zhǎng)度*1/2時(shí)，Scaffold 5的

25、長(zhǎng)度即為Scaffold N50。Scaffold N50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。 Isotig：指在轉(zhuǎn)錄組de novo測(cè)序時(shí)，用454平臺(tái)測(cè)序完成后組裝出的結(jié)果，一個(gè)isotig可視為一個(gè)轉(zhuǎn)錄本。 Isogroup：指轉(zhuǎn)錄組de novo測(cè)序中，用454平臺(tái)測(cè)序完成后組裝出的結(jié)果獲得的可聚類到同一個(gè)基因的轉(zhuǎn)錄本群。 GC%：GC含量，全基因組范圍內(nèi)或在特定基因組序列內(nèi)的4種堿基中，鳥嘌呤和胞嘧啶所占的比率。 SNP：single nucleotide polymorphism，單核苷酸多態(tài)性，個(gè)體間基因組DNA序列同一位置單個(gè)核苷

26、酸變異(替代、插入或缺失)所引起的多態(tài)性；不同物種個(gè)體基因組 DNA 序列同一位置上的單個(gè)核苷酸存在差別的現(xiàn)象。有這種差別的基因座、DNA序列等可作為基因組作圖的標(biāo)志。SNP 在CG序列上出現(xiàn)最為頻繁，而且多是C轉(zhuǎn)換為T ，原因是CG中的C 常為甲基化的，自發(fā)地脫氨后即成為胸腺嘧啶。一般而言，SNP 是指變異頻率大于1 %的單核苷酸變異，主要用于高危群體的發(fā)現(xiàn)、疾病相關(guān)基因的鑒定、藥物的設(shè)計(jì)和測(cè)試以及生物學(xué)的基礎(chǔ)研究等。 InDel：Insertion/Deletion，插入/缺失，在基因組重測(cè)序進(jìn)行mapping時(shí)，進(jìn)行容

27、Gap的比對(duì)并檢測(cè)可信的Short InDel，如基因組上小片段>50bp的插入或缺失。在檢測(cè)過程中，Gap的長(zhǎng)度為15個(gè)堿基。 CNV：copy number variation，基因組拷貝數(shù)變異，是基因組變異的一種形式，通常使基因組中大片段的DNA形成非正常的拷貝數(shù)量。如人類正常染色體拷貝數(shù)是2，有些染色體區(qū)域拷貝數(shù)變成1或3，這樣，該區(qū)域發(fā)生拷貝數(shù)缺失或增加，位于該區(qū)域內(nèi)的基因表達(dá)量也會(huì)受到影響。如果把一條染色體分成A-B-C-D四個(gè)區(qū)域，則A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D 分別發(fā)生了C區(qū)域的擴(kuò)增及缺失，擴(kuò)增的位置可以是

28、連續(xù)擴(kuò)增如 A-B-C-C-D 也可以是在其他位置的擴(kuò)增，如A-C-B-C-D。 SV：structure variation，基因組結(jié)構(gòu)變異，染色體結(jié)構(gòu)變異是指在染色體上發(fā)生了大片段的變異。主要包括染色體大片段的插入和缺失（引起 CNV 的變化），染色體內(nèi)部的某塊區(qū)域發(fā)生重復(fù)復(fù)制、翻轉(zhuǎn)顛換、易位、兩條染色體之間發(fā)生重組（inter-chromosome trans-location）等。基因表達(dá)差異：是指某一物種或特定細(xì)胞在特定時(shí)期/功能狀態(tài)下，多樣本間不同基因在mRNA水平上表達(dá)量的差異，可通過RPKM/FPKM值來體

29、現(xiàn)。 RPKM：Reads Per Kilobase per Million mapped reads ，是指每 1 百萬個(gè)map 上的reads中 map 到外顯子的每1K 個(gè)堿基上的reads 個(gè)數(shù)。計(jì)算公式四RPKM=106C/NL/103，其中C為唯一比對(duì)到目的基因的reads數(shù)；N為唯一比對(duì)到參考基因的總reads數(shù)，L是目的基因編碼區(qū)的堿基數(shù)。RPKM法可以消除基因長(zhǎng)度、數(shù)據(jù)量之間的差異進(jìn)行計(jì)算基因表達(dá)量。可變剪切：alternative splicing大多數(shù)真核基因

30、轉(zhuǎn)錄產(chǎn)生的mRNA前體是按一種方式剪接產(chǎn)生出一種mRNA，因而只產(chǎn)生一種蛋白質(zhì)。但有些基因產(chǎn)生的mRNA前體可按不同的方式剪接，產(chǎn)生出兩種或更多種mRNA，即可變剪接。基因融合：Gene fusion，將基因組位置不同的兩個(gè)或多個(gè)基因中的一部分或全部整合到一起，形成新的基因，稱作融合基因或嵌合體基因，該基因有可能翻譯出融合或嵌合體蛋白。基因家族分析：通過進(jìn)行BLASTN/ HMM比對(duì)等查找基因歸屬的基因家族并添加相關(guān)功能注釋。基因組注釋：Genome annotation是利用生物信息學(xué)方法和工具,對(duì)基因組所有基因的生物學(xué)功能進(jìn)行高通量注釋,是當(dāng)前功能基因組

31、學(xué)研究的一個(gè)熱點(diǎn)。基因組注釋的研究?jī)?nèi)容包括基因識(shí)別和基因功能注釋兩個(gè)方面?；蜃R(shí)別的核心是確定全基因組序列中所有基因的確切位置。常見的基因組注釋有GO注釋、pathway分析。 GO注釋：gene ontology是指對(duì)基因功能的注解。GO強(qiáng)調(diào)基因產(chǎn)物在細(xì)胞中的功能。GO不能反映此基因的表達(dá)情況，即是否在特定細(xì)胞中、特定組織中、特定發(fā)育階段或與某種疾病相關(guān)，但GO支持其他的OBO(open biology ontologies)成員成立其他類型的本體論數(shù)據(jù)庫（如發(fā)育本體學(xué)、蛋白組本體學(xué)、基因芯片本體學(xué)等） Pathway注釋：是指對(duì)功能基因參與的信號(hào)通路等進(jìn)行分析注釋。&#

32、160;甲基化率：是指在甲基化測(cè)序中，發(fā)生甲基化的胞嘧啶占所有胞嘧啶的比率。 CpG島：CpG island 是指DNA上一個(gè)區(qū)域，此區(qū)域含有大量相聯(lián)的胞嘧啶（C）、鳥嘌呤（G），以及使兩者相連的磷酸酯鍵（p）?；蚪M中長(zhǎng)度為3003000 bp的富含CpG二核苷酸的一些區(qū)域，主要存在于基因的5區(qū)域。啟動(dòng)子區(qū)中CpG島的未甲基化狀態(tài)是基因轉(zhuǎn)錄所必需的，而CpG序列中的C的甲基化可導(dǎo)致基因轉(zhuǎn)錄被抑制。全基因組測(cè)序 - 研究經(jīng)過1986年， Renato Dulbecco是最早提出人類基因組定序的科學(xué)家之一。他認(rèn)為如果能夠知道所有人類基因的序列，對(duì)的研究將會(huì)很有幫助。（DOE）

33、與美國(guó)國(guó)家衛(wèi)生研究院（NIH），分別在1986年與1987年加入。除了美國(guó)之外，日本在1981年就已經(jīng)開始研究相關(guān)問題，但是并沒有美國(guó)那樣積極。到了1988年，詹姆士·華生（DNA雙螺旋結(jié)構(gòu)發(fā)現(xiàn)者之一）成為NIH的基因組部門主管。1990年開始國(guó)際合作。1996年，多個(gè)國(guó)家招開百慕達(dá)會(huì)議，以2005年完成定序?yàn)槟繕?biāo)，分配了各國(guó)負(fù)責(zé)的工作，并且宣布研究結(jié)果將會(huì)即時(shí)公布，并完全免費(fèi)。 1998年，克萊格·凡特的塞雷拉基因組公司成立，而且宣布將在2001年完成定序工作。隨後國(guó)際團(tuán)隊(duì)也將完成工作的期限提前。2000年6月26日，塞雷拉公司的代表凡特，以及國(guó)際合作團(tuán)隊(duì)的代表弗朗西斯&

34、#183;柯林斯（Francis Collins），在美國(guó)總統(tǒng)柯林頓的陪同下發(fā)表演說，宣布人類基因組的概要已經(jīng)完成。2001年2月，國(guó)際團(tuán)隊(duì)與塞雷拉公司，分別將研究成果發(fā)表于與兩份期刊。在基因組計(jì)劃的研究過程中，塞雷拉基因組使用的是（shotgun sequencing），這種方法較為迅速，但是仍需以傳統(tǒng)定序來分析細(xì)節(jié)。目前，全基因組測(cè)序技術(shù)主要包括第二代測(cè)序技術(shù)（NGS）和第三代測(cè)序技術(shù)。第二代測(cè)序技術(shù)已經(jīng)能夠快速、低成本的進(jìn)行全基因組測(cè)序，其設(shè)備供應(yīng)商主要是Solexa （現(xiàn)被Illumina公司合并），454（羅氏公司）和SOLiD（AB公司）。第三代測(cè)序技術(shù)于2011年4月正式推廣，其單分子實(shí)時(shí)（SMRT）測(cè)序技術(shù)完全不同與第二代測(cè)序，它的序列讀長(zhǎng)高達(dá)3000 bp（Pacific Bioscienc

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

高通量測(cè)序常用名詞匯總(共9頁)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

高通量測(cè)序常用名詞匯總(共9頁)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔