基因轉(zhuǎn)錄組的測定及分析_第1頁
基因轉(zhuǎn)錄組的測定及分析_第2頁
基因轉(zhuǎn)錄組的測定及分析_第3頁
基因轉(zhuǎn)錄組的測定及分析_第4頁
基因轉(zhuǎn)錄組的測定及分析_第5頁
已閱讀5頁,還剩181頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、胡松年中國科學(xué)院北京基因研究所什么是 ESTs ?ESTs(Expressed Sequence tags )是從已建好的cDNA庫中隨機取出一個克隆,從5末端或3末端對插入的cDNA片段進行一輪單向自動測序,所獲得的約60-500bp的一段cDNA序列。大規(guī)模EST序列測定的開始1983年:Costanzo等提出EST概念的雛形1991年:Adams測定了三種人腦組織共609條EST,宣布 了cDNA大規(guī)模測序的時代的開始代1991年:Okubo等提出大規(guī)模cDNA測序的研究戰(zhàn)略1993年:Venter等創(chuàng)立現(xiàn)在的EST技術(shù)1993年:Boguski & Schuler提出以EST為界標的人

2、類 基因組轉(zhuǎn)錄圖譜計劃 93年前ESTs數(shù)據(jù)收錄于GenBank, EBI和DDBJ。 1993年NCBI(National Center of Biotechnology Information)建立了一個專門的EST數(shù)據(jù)庫dbEST來保存和收集所有的EST數(shù)據(jù)。 95年中期GenBank 中EST的數(shù)目超過了非EST的數(shù)目。 現(xiàn)在GenBank中EST的數(shù)目已經(jīng)超過了三千五百萬,約占GenBank中序列數(shù)的60%.EST數(shù)量排名前10的物種Organism ESTsHomo sapiens (human) 8,301,471Mus musculus + domesticus (mouse)

3、 4,852,146Zea mays (maize) 2,018,798Bos taurus (cattle) 1,620,962Arabidopsis thaliana (thale cress) 1,559,485Danio rerio (zebrafish) 1,527,299Glycine max (soybean) 1,481,930Xenopus tropicalis (western clawed frog) 1,422,983Oryza sativa (rice) 1,271,375Ciona intestinalis 1,249,110 截止到2010年3月19日 EST相關(guān)

4、數(shù)據(jù)庫相關(guān)數(shù)據(jù)庫 儲存EST原始數(shù)據(jù)的一級數(shù)據(jù)庫 EMBL GenBank (dbEST) DDBJ UniGene (/UniGene) TIGR Gene Indices (/tdb/tgi/) STACK (http:/www.sanbi.ac.za/Dbases.html)對EST進行聚類拼接的二級數(shù)據(jù)庫EST的應(yīng)用 1ESTs與基因識別 ESTs已經(jīng)被廣泛的應(yīng)用于基因識別,因為ESTs的數(shù)目比GenBank中其它的核苷酸序列多,研究人員更容易在EST庫中搜尋到新的基因(Boguski et al.

5、, 1994). 在同一物種中搜尋基因家族的新成員在同一物種中搜尋基因家族的新成員(paralogs)。 在不同物種間搜尋功能相同的基因在不同物種間搜尋功能相同的基因(orthologs)。 已知基因的不同剪切模式的搜尋。已知基因的不同剪切模式的搜尋?!咀ⅲ翰贿^很難確注:不過很難確定一個新的序列是由于交替剪切產(chǎn)生的或是由于定一個新的序列是由于交替剪切產(chǎn)生的或是由于cDNA文庫中污染了基因組文庫中污染了基因組DNA序列序列(Wolfsberg et al., 1997)】EST的應(yīng)用 2ESTs與基因圖譜的繪制 EST可以借助于序列標簽位點(sequence-tagged sites)用于基因圖

6、譜的構(gòu)建. STS本身是從人類基因組中隨機選擇出來的長度在200-300bp左右的經(jīng)PCR檢測的基因組中唯一的一段序列。來自mRNA的3非翻譯區(qū)的ESTs更適合做為STSs,用于基因圖譜的繪制。其優(yōu)點主要包括: 由于沒有內(nèi)含子的存在,因此在cDNA及基因組模板中其PCR產(chǎn)物的大小相同; 與編碼區(qū)具有很強的保守性不同,3UTRs序列的保守性較差,因此很容易將單個基因與編碼序列關(guān)系非常緊密的相似基因家族成員分開。 (James Sikela等,1991年)EST的應(yīng)用 3ESTsESTs與基因預(yù)測與基因預(yù)測 由于EST來源于cDNA,因此每一條EST均代表了文庫建立時所采樣品特定發(fā)育時期和生理狀態(tài)

7、下的一個基因的部分序列。使用合適的比對參數(shù),大于90的已經(jīng)注釋的基因都能在EST庫中檢測到(Bailey et al., 1998)。ESTs可以做為其它基因預(yù)測算法的補充,因為它們對預(yù)測基因的交替剪切和3 非翻譯區(qū)很有效。 ESTsESTs與與SNPsSNPs 來自不同個體的冗余的ESTs可用于發(fā)現(xiàn)基因組中轉(zhuǎn)錄區(qū)域存在的SNPs。最近的許多研究都證明對ESTs數(shù)據(jù)的分析可以發(fā)現(xiàn)基因相關(guān)的SNPs (Buetow et al., 1999;Garg et al., 1999; Marth et al., 1999; Picoult-Newberg et al., 1999) 。 應(yīng)注意注意區(qū)別

8、真正的SNPs和由于測序錯誤( ESTs為單向測序得來,錯誤率可達2)而引起的本身不存在的SNPs。解決這一問題可以通過: 提高ESTs分析的準確性。 對所發(fā)現(xiàn)的SNPs進行實驗驗證進行實驗驗證。EST的應(yīng)用 4EST的應(yīng)用 5利用利用ESTsESTs大規(guī)模分析基因表達水平大規(guī)模分析基因表達水平 因為EST序列是從某以特定的組織的cDNA文庫中隨機測序而得到,所以可以用利用未經(jīng)標準化和差減雜交的cDNA文庫EST分析特定組織的基因表達譜。標準化的cDNA文庫和經(jīng)過差減雜交的cDNA文庫則不能反應(yīng)基因表達的水平。 CGAP 為研究癌癥的分子機理,美國國家癌癥研究所NCI的癌癥基因組解析計劃(Ca

9、ncer Genome Anatomy Project , CGAP)構(gòu)建了很多正常的或是癌癥前期的和癌癥后期的組織的cDNA文庫,并進行了大規(guī)模的EST測序,其中大部分的文庫未經(jīng)標準化或差減雜交處理。CGAP網(wǎng)站提供了多種工具用以分析不同文庫間基因表達的差異, 如: Digital Gene Expression Displayer (DGED) cDNA xProfiler 基因表達系列分析基因表達系列分析(Serial Analysis of Gene Expression, SAGE) 基因表達系列分析是一種用于定量,高通量基因表達分析的實驗方法(Velculescu et al.,

10、1995)。SAGE的原理就是分離每個轉(zhuǎn)錄本的特定位置的較短的單一的序列標簽(約9-21個堿基對),這些短的序列被連接、克隆和測序,特定的序列標簽的出現(xiàn)次數(shù)就反應(yīng)了對應(yīng)的基因的表達豐度。 DNA微陣列或基因芯片的研究微陣列或基因芯片的研究 高密度寡核苷酸cDNA 芯片或cDNA微陣列是一種新的大規(guī)模檢測基因表達的技術(shù),具有高通量分析的優(yōu)點。在許多情況下,cDNA芯片的探針來源于3EST (Duggan et al., 1999),所以EST序列的分析有助于芯片探針的設(shè)計。體內(nèi):翻譯體外研究:反轉(zhuǎn)錄連接,轉(zhuǎn)化Serial analysis of gene expression (SAGE) 技術(shù)

11、流程反轉(zhuǎn)錄反轉(zhuǎn)錄酶切酶切連接連接測序測序單條測序?qū)螚l測序?qū)?040條條EST測序測序分析分析低豐度表達基因、基因表達量分析、新基因、低豐度表達基因、基因表達量分析、新基因、上下調(diào)控基因鑒定、表達的復(fù)合效應(yīng)上下調(diào)控基因鑒定、表達的復(fù)合效應(yīng)Serial analysis of gene expression (SAGE) 技術(shù)流程l SAGE文庫的構(gòu)建: NlaIII(錨定酶)酶切,該酶能夠識別CATG位點并在其3端進行酶切; 鏈霉素包被的磁珠進行親和純化; 將cDNA分為A和B兩部分,分別連接接頭A或接頭B,每一種接頭都含有CATG四堿基突出端、限制性內(nèi)切酶BsmFI的識別序列和一個PCR引物

12、序列(引物A或B); 用標簽酶BsmFI酶切,該酶在其識別位點3端下游的1417bp處進行酶切,產(chǎn)生連有接頭的短cDNA片段; 混合并連接兩個短cDNA片段,構(gòu)成雙標簽(ditag)后,用引物A和B進行PCR擴增; 錨定酶NlaIII切割擴增產(chǎn)物,抽提SAGE雙標簽片段;并用T4 DNA連接酶連接成多聚體(concaterner); 選擇合適的片斷長度,克隆進載體;得到的克隆插入序列由一系列的2022bp長的SAGE雙標簽組成,每兩個雙標簽中間由4bp的NlaIII酶切位點分隔開。l SAGE文庫的測序: 單向測序。Serial analysis of gene expression (SAG

13、E) 分析流程l 在雙標簽多聚體序列中定位NlaIII酶切位點(即CATG);l 提取CATG位點之間的2022bp長的雙標簽序列;l 去除重復(fù)出現(xiàn)的雙標簽序列,包括反向互補方向上重復(fù)的雙標簽序列;l 截取每個雙標簽序列最靠近兩頭末端的10個堿基,即為標簽序列;l 去除與接頭序列相對應(yīng)的標簽(即TCCCCGTACA和TCCCTATTAA),同時去除含有不確定堿基(即除A、C、T、G四種堿基以外的堿基)的標簽;l 計算每個標簽的出重復(fù)次數(shù),以列表的形式給出一個包含每個標簽及其表達豐度的報告。 基因芯片或微陣列技術(shù)流程.Clone反轉(zhuǎn)錄(可選)反轉(zhuǎn)錄(可選)讀取光密度讀取光密度聚類分析(非同源功能

14、注釋)聚類分析(非同源功能注釋)標記標記雜交雜交反轉(zhuǎn)錄反轉(zhuǎn)錄EST分析分析.Gene Chip0.1 0.06 0.05 0.04 0 0 0.07 0.01 表達量矩陣G1,G3,G5G2,G4G6,G9利用EST,SAGE分析結(jié)果制作芯片(研究已發(fā)現(xiàn)的研究已發(fā)現(xiàn)的基因基因)連接,連接,轉(zhuǎn)化轉(zhuǎn)化 Rice genome-wide DNA chip (60,000+預(yù)測基因) 果蠅基因芯片原位合成 幾種大規(guī)模分析基因表達水平的方法的比較幾種大規(guī)模分析基因表達水平的方法的比較lESTSAGEMicroarrayGeneChip發(fā)現(xiàn)新基因發(fā)現(xiàn)新基因是是否否有序列有序列是(可直接進行可變剪切的分析)

15、否否否主要問題主要問題采樣量實驗過程重復(fù)性成本高 ESTs很短,沒有給出完整的表達序列; 低豐度表達基因不易獲得。 由于只是一輪測序結(jié)果,出錯率達2%-5%; 有時有載體序列和核外mRNA來源的cDNA污染或是基因組DNA的污染; 有時出現(xiàn)鑲嵌克??; 序列的冗余,導(dǎo)致所需要處理的數(shù)據(jù)量很大。ESTs數(shù)據(jù)的不足數(shù)據(jù)的不足 技術(shù)路線cDNA文庫構(gòu)建隨機測序得到EST序列讀取與處理序列拼接和注釋表達豐度和功能分析表達譜特征分析表達譜特征分析表達量在不同文庫中的分布表達譜的比較分析差異表達基因鑒定與分類功能分析作用機理分析作用機理分析Q-PCR驗證驗證 l EST軟件平臺EST序列庫/序列的質(zhì)量檢查測

16、序量監(jiān)控聚類和拼接檢查(借助于基因組信息)全長ORF尋找發(fā)現(xiàn)全長基因研究表達基因概況的主要實驗手段(DNA chip、proteomics的先驅(qū))功能分類表達量分析SAGE的先驅(qū)交替剪接檢測EST特有信息cDNA文庫構(gòu)建 非標準化的非標準化的cDNA文庫的構(gòu)建。文庫的構(gòu)建。 經(jīng)標準化或扣除雜交處理的經(jīng)標準化或扣除雜交處理的cDNA文庫。文庫。 Oligo d(T) cDNA文庫。文庫。 隨機引物隨機引物cDNA文庫。文庫。cDNA文庫構(gòu)建常見問題文庫構(gòu)建常見問題lRNA得率低lmRNA分離效率低lcDNA產(chǎn)物少原因:多糖、多酚、內(nèi)源性核酸蛋白酶、 miRNA等原因l 多糖多糖-糖蛋白糖蛋白(核

17、酸蛋白酶,植物血凝素等核酸蛋白酶,植物血凝素等)、多酚、多酚類等次生代謝產(chǎn)物在RNA分離時,經(jīng)常與RNA共沉降,導(dǎo)致RNA 丟失丟失?;?qū)е路蛛x后的RNA嚴重不純不純,影響mRNA分離的得率。l 內(nèi)源性核酸酶內(nèi)源性核酸酶存在較多的情況下,可降解雙鏈DNA、RNA或者DNA-RNA雜合體,致使RNA易降解降解,轉(zhuǎn)錄后的DNA接頭無法連接接頭無法連接,是cDNA得率低的原因之一原因之一。l miRNA的存在導(dǎo)致mRNA的降解的降解測序方向的選擇根據(jù)不同的實驗?zāi)康倪x擇不同的測序方向: 5 5端端 5上游非翻譯區(qū)較短且含有較多的調(diào)控信息。一般在尋找新基因或研究基因差異表達時用5端EST較好,大部分ES

18、T計劃都是選用5端進行測序的,而且從5端測序有利于將EST拼接成較長的基因序列。 3 3端端 3端mRNA有一20200bp的plyA結(jié)構(gòu),同時靠近plyA又有特異性的非編碼區(qū),所以從3端測得EST含有編碼的信息較少但研究也表明,10的mRNA3端有重復(fù)序列,這可以作為SSR標記;非編碼區(qū)有品種的特異性,可以作為STS標記 兩端測序兩端測序 獲得更全面的信息。1. 去除低質(zhì)量的序列(Phred)2. 應(yīng)用BLAST、RepeatMasker或Crossmatch遮蔽數(shù)據(jù)組中不屬于表達的基因的贗象序列(artifactual sequences)。載體序列載體序列 重復(fù)序列重復(fù)序列 污染序列污染

19、序列 (如核糖體如核糖體RNA、細菌或其它物種的基因組、細菌或其它物種的基因組DNA等等)3. 去除其中的鑲嵌克隆。4. 最后去除長度小于100bp的序列。序列前處理序列前處理 (pre-processing)1:線粒體基因(8.76%)3:核糖體基因(0.14%)4:重復(fù)序列(0.10%)5:基因組DNA(1.95%)6:新基因或EST(27.07%)7:其他已知基因(61.75%)2:E.Coli污染基因(0.23%)家豬脂肪的EST數(shù)據(jù)分析結(jié)果文庫質(zhì)量檢驗: Contamination and house-keeping gene expression levell LibraryrRN

20、AMitochondriamRNAG3PDActinTubulinMADSLib 10.25%4.90%0.56%0.29%0.09%0.06%Lib 20.66%0.78%0.71%0.20%0.20%0.00%Lib 31.99%0.18%0.50%0.36%0.19%0.06%Lib 40.09%0.31%0.78%0.76%0.83%0.34%Lib 50.64%0.65%0.76%0.50%1.10%0.00%Lib 60.40%0.22%0.44%0.66%1.04%0.13%Lib 70.20%0.30%0.55%0.59%1.31%0.10%Lib 80.18%0.31%0.9

21、2%0.62%2.25%0.40%Lib 90.35%0.31%0.78%0.17%0.20%0.10%Mean0.53%0.88%0.67%0.46%0.80%0.13%STDEV0.58%1.52%0.16%0.21%0.72%0.14%STDEV/Mean0.240.460.891.08文庫質(zhì)量檢驗: Clone duplication analysisl Controls are non-normalized human EST libraries constructed by different protocols: Krizman protocol 1 (Lib281) Krizm

22、an protocol 2 (Lib675 and Lib774) LTI non-normalized (Lib6346) Soares non-normalized (Lib185)序列質(zhì)量檢驗: Length and quality distributionl Quality check process: Head and tail trim (Phred 0.05) Vector masking, repeat masking, contamination masking (CrossMatch) Dropped sequence short than 100 bps after tr

23、im and maskingl 86,136 sequences passed our sequence quality check 41,076 ESTs have more than 80% overall identity to public rice sequences (BLASTN, E-value 1E-15), and thus about 45,000 ESTs may be considered novell Most sequences are of 600 bps and with quality score 40 (error rate 0.0001)中國科學(xué)院The

24、 standard Sanger variant to assess reliability of a base call, otherwise known as Phred quality score The Solexa pipeline (i.e., the software delivered with the Illumina Genome Analyzer) earlier used a different mapping, encoding the odds ratio p/(1-p) instead of the probability p: ASCII character:

25、ceedeeeeefffcddddaYccYc33/64Quality Score Advantage: save space鑲嵌克隆的識別 Back-to-back poly(A)+ tails. Linker-to-linker in middle of the sequence. Blastn/Blastx search.Aligned the contig consensi to rice indica 9311 genome. A forced joint was made if two contigs have overlap region on the genome. (vali

26、dated by 1045 rice cDNAs)A total of 3,926 contigs were merged resulted in reduction of our contig numbers from 32,489 to 30,222拼接質(zhì)量檢驗: Mergence checkESTs的聚類和拼接的聚類和拼接 聚類的目的就是將來自同一個基因或同一個轉(zhuǎn)錄本的具有重疊部分(overlapping)的ESTs整合至單一的簇(cluster)中。聚類作用:聚類作用:v 產(chǎn)生較長的一致性序列(consensus sequence),用于注釋。v 降低數(shù)據(jù)的冗余,糾正錯誤數(shù)據(jù)。v 可以

27、用于檢測選擇性剪切。v 基因表達譜分析ESTs聚類的數(shù)據(jù)庫主要有三個:聚類的數(shù)據(jù)庫主要有三個:v UniGene ()v TIGR Gene Indices ()v STACK 不嚴格不嚴格的和嚴格的聚類的和嚴格的聚類 (loose and stringent clustering) loose clustering 產(chǎn)生的一致性序列比較長產(chǎn)生的一致性序列比較長 表達基因表達基因ESTs數(shù)據(jù)的覆蓋率高數(shù)據(jù)的覆蓋率高 含有同一基因不同的轉(zhuǎn)錄形式,如各種選擇性剪接體含有同一基因不同的轉(zhuǎn)錄形式,如各種選擇性剪接體 每一類中可能包含旁系同源基因每一類中可能包含旁系同源基因(paralogous exp

28、ressed gene)的轉(zhuǎn)的轉(zhuǎn)錄本錄本 序列的保真度低序列的保真度低 stringent clustering 產(chǎn)生的一致性序列比較短產(chǎn)生的一致性序列比較短 表達基因表達基因ESTs數(shù)據(jù)的覆蓋率低數(shù)據(jù)的覆蓋率低 因此所含有的同一基因的不同轉(zhuǎn)錄形式少因此所含有的同一基因的不同轉(zhuǎn)錄形式少 序列保真度高序列保真度高有參照的和無參照的聚類有參照的和無參照的聚類 (Supervised and unsupervised clustering) Supervised clustering 根據(jù)已知的參考序列(如全長mRNA、已拼接好的一致性序列) 聚類。 Unsupervised clustering

29、沒有根據(jù)參考序列進行分類。常用的拼接軟件 Phrap (/UWGC/analysistools/Phrap.cfm) CAP3(Xiaoqiu Huang ,) TIGR_Assember (/software/assembler/)Cluster的連接利用cDNA克隆的信息和5,3端Reads的信息,不同的Cluster可以連接在一起。UniGene Unigene 結(jié)合有指導(dǎo)的和無指導(dǎo)的方法,而且在聚類過程中使用了不同水平的嚴格度,聚類的算法為megablast,數(shù)據(jù)庫不產(chǎn)生一致性序列。 TI

30、GR Gene Index用的是有嚴格的和有指導(dǎo)的聚類方法,聚類的算法為類似于BLAST和FASTA的FLAST, 該法得到的一致性序列較短,交替剪切得到的不同的基因?qū)儆诓煌乃饕?。STACK STACK 用不嚴格的和無指導(dǎo)的聚類方法,聚類的算法為d2_cluster,產(chǎn)生較長的一致性序列,同一索引中含有不同的剪切方法得到的基因。Clean Short and Tight TIGR-THCUniGeneSTACKLong and Loose 聚類問題l錯拼 poly(A) , Linker-to-linker, Gene Families, repeatl漏拼 Low quality, Lin

31、ker-to-linker, repeatl選擇性剪切 polyAlinker l 050010001500200025003000050010001500200025003000350040004500500055006000Number of clones sequencedNumber of nonredundant groups 測序飽和度的分析測序飽和度的分析基因在不同文庫中表達豐度的比較所有表達基因在不同文庫間的分布所有表達基因在不同文庫間的分布l6354713544201657(53%)2412(61%)1608(53%)93-11(3117)PA64s(3938)LYP9(30

32、17)基因注釋及功能分類注釋:注釋: 序列聯(lián)配 Blastn, Blastx 蛋白質(zhì)功能域搜索(二結(jié)構(gòu)比對) Pfam Interproscan 較好匹配InterproScanNt BlastnEST sequencesNr Blastx完成注釋無理想匹配較好匹配完成注釋無理想匹配較好匹配無理想匹配New sequences域的注釋后 續(xù) 分 析常用的基因注釋流程基因注釋基因注釋數(shù)據(jù)庫 注釋上的基因所占比例TIGR OGI(ver17)7126 94.3 TIGR PseudoMolecule(ver5)6151 81.4 NCBI UNIGENE(ver62)6714 88.8 NCBI

33、nr protein database5831 77.2 93-11 BGI_Scan5854 77.5 Uniprot protein database3628 48.0 TIGR to GO4565 60.4 KEGG Automatic Annotation Server945 12.5 一共有一共有7250 (95.9%) 的的unigenes被注釋。被注釋。 基因功能分類基因功能分類 手工分類手工分類 大部分以大部分以Adams 95Adams 95年的文章中的采用分類體系為標準。年的文章中的采用分類體系為標準。【Adams. MD, et al. Initial assessmen

34、t of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence. Nature. 1995 377(6547 Suppl):3-174 】 計算機批量處理計算機批量處理 利用標準基因詞匯體系Gene Ontology,進行近似的分類(分子功能、生物學(xué)過程、分子組分)。 ( 基因產(chǎn)物直系同源簇的分析(基因產(chǎn)物直系同源簇的分析(COGCOG) ( () )GO的組織結(jié)構(gòu):定向無環(huán)圖的組織結(jié)構(gòu):定向無環(huán)圖( directed acyclic graphs DAGs

35、)各大數(shù)據(jù)庫中基因或基因產(chǎn)物與各大數(shù)據(jù)庫中基因或基因產(chǎn)物與GO術(shù)語的對照術(shù)語的對照 classification by molecular function012345log10 of ESTs numbertransporter activitytranslation regulator activitytranscription regulator activitystructural molecule activitysignal transducer activityprotein tagging activityobsoletemotor activityenzyme regulat

36、or activitydefense/immunity protein activitychaperone activitycell adhesion molecule activitycatalytic activitybindingapoptosis regulator activityantioxidant activity 表1:家豬脂肪組織的已知基因功能分類表2:豬脂肪組織與豬胚胎胸腺組織和豬甲狀腺組織表達譜的比較參考文獻:1、豬脂肪組織表達序列標簽(ESTs)大規(guī)模測序及分析 鄧亞軍等,遺傳學(xué)報,Vol.31, NO.11, 2004 2、兩種家豬心臟組織基因表達譜的分析 曾燕舞等

37、,遺傳學(xué)報,Vol.31, No.6, 2004 EST的代謝途徑分析(KEGG) http:/www.genome.ad.jp/kegg/ 后續(xù)分析后續(xù)分析 比較基因組學(xué)分析 基因表達譜分析 新基因研究 基因可變剪切分析 實驗驗證 MicroArray GeneChip RTPCR Northern blotting利用新一代測序儀進行轉(zhuǎn)錄組學(xué)的研究 lRNAseq is a powerful tool to detcet the whole transciptome in cell and tissue.lPrevious RNAseq research focus on mRNA, bu

38、t recent studies prove that part of functional noncoding transctipt and protein-coding RNAs are lack of polyA.Content of transcriptomelGenes: expression , alterante spliceslNoncoding RNA: snoRNA, mRNA-like ncRNA, snRNA, some antisense transcripts, pesudogenes, retrotransposon ,and others functional

39、RNAs3. Some repeat elements RNA-seq的生物學(xué)重復(fù)和標準l至少有兩個生物學(xué)重復(fù),除非“短時間梯度取樣”(overlapping time points with high temporal resolution)不需要技術(shù)重復(fù)l對基因注釋較好的物種,只定量比較研究,可用reads大于20M;用于注釋基因組的轉(zhuǎn)錄組,大于100Ml最好有濃度不同長度不同的絕對定量control (Spike-in),以評估m(xù)apping質(zhì)量、測序均勻性和RNA-seq定量效果l“3端/5端比值”是衡量RNA完整性的關(guān)鍵指標(理想值是1),也要進行計算評估l樣品處理流程,文庫構(gòu)建流程

40、,測序機器,測序類型,分析軟件,樣品評估關(guān)鍵指標,rpkm值關(guān)鍵結(jié)果完備。BackgroundmRNA-seqBackgroundSAGEHashimoto S-i, et al. (2009) PLoS ONETotal RNARibosomal RNA Depletion18S RNA28S RNArRNA-depleted RNAFragmentation of RNALigation to AdaptorcDNA RT and RNaseH DigestionP2 PrimerP1 PrimercDNA AmplificationExcise cDNA 140-200bp(to RNA

41、 50-110nt)Size Selection by PAGE SOLiD emulsion PCRSOLiD SequencingrRNA depletion 中國科學(xué)院Transcriptome TechnologyQ1: Which species do you want to study? Is it have finished genome sequences and better gene annotation ? Fragment (Mapping ) or Mate Pair (Assembly) SOLiD or Solexa or 454Q2: whats the maj

42、or question do you interested ? mRNA or whole RNA population (including mRNA, non-coding RNA and so on )? Poly-A method or rRNA-minus methodsQ3: If you interested in anti-sense transcript ?SOLiD or Solexa Q4: If you concern about gene structure variation?Mate-Pair or Fragment Human, SOLiD, Fragment

43、and Poly-A methods sequencingResultResult Mapping strategyJunction database construction中國科學(xué)院Mapping and Assembly toolsBWA - BWA is a fast light-weighted tool that aligns relatively short sequences (queries) to a sequence database (targe), such as the human reference genomeSeqMap - A Tool For Mappin

44、g Millions Of Short Sequences To The Genome.MAQ - stands for Mapping and Assembly with Quality It builds assembly by mapping short reads to reference sequences. ERANGE - Mapping and Quantifying Mammalian Transcriptomes by RNA-SeqCufflinks - assembles transcripts, estimates their abundances, and test

45、s for differential expression and regulation in RNA-Seq samples.iAssembler a standalone package to assemble ESTs generated using Sanger and/or Roche-454 pyrosequencing technologies into contigs.MapPER - an RNA-seq paired-end read (PER) protocol.Support splice mapping and quantify TopHat - is a fast

46、splice junction mapper for RNA-Seq reads.SpliceMap - SpliceMap is a de novo splice junction discovery tool. It offers high sensitivity and support for arbitrarily long RNA-seq read lengths.MapSplice - Splice Junction Mapping Tool.Trinity RNA-Seq Assembly software solutions targeted to the reconstruc

47、tion of full-length transcripts and alternatively spliced isoforms from Illumina RNA-Seq dataPALMapper - a combination of the spliced alignment method QPALMA with the short read alignment tool GenomeMapper.RNA-Seq Data Analysis Tools中國科學(xué)院Web-based toolsrQuant.web - is a web service to provide conven

48、ient access to tools for the quantitative analysis of RNA-Seq data. Galaxy - Mapping pipeline for Illumina, 454, and SOLiD sequencing data.UCSC Genome Browser - This site contains the reference sequence and working draft assemblies for a large collection of genomes. It also provides portals to the E

49、NCODE and Neandertal projects.Bioconductor - Bioconductor is an open source and open development software project for the analysis and comprehension of genomic data.ExpEdit - is a web application for assessing RNA editing in human at known or user specified sites supported by transcript data obtaine

50、d by RNA-Seq experiments.Myrna - a cloud computing tool for RNA sequence.GenePattern - is a powerful genomic analysis platform that provides access to more than 100 tools for gene expression analysis, proteomics, SNP analysis and common data processing tasks.OthersScripture - is a method for transcr

51、iptome reconstruction that relies solely on RNA-Seq reads and an assembled genome to build a transcriptome ab initio.CisGenome - An integrated tool for tiling array, ChIP-seq, genome and cis-regulatory element analysis.中國科學(xué)院ArrayExpressHTS - is an R based pipeline for pre-processing, expression esti

52、mation and data quality assessment of high throughput sequencing transcriptional profiling (RNA-seq) datasets.RSEQtools - a modular framework to analyze RNA-Seq data using compact, anonymized data summaries.RNA-MATE - A recursive mapping strategy for high-throughput RNA-sequencing data.SAMMate - an

53、RNA-seq analysis pipeline, allows processing of SAM/BAM files and is compatible with both single-end and paired-end sequencing technologies.Oqtans: Online Quantitative Transcriptome Analysis.DESeq - Digital gene expresion analysis based on the negative binomial distribution.EdgeRMapping resultmRNA-s

54、eq ribominusRNA-seqTotal reads92914107140233818Unique mapping2646580628.48%2609238018.61%Multiple mapping43945144.73%2567128918.31%Junction mapping13351411.44%7717560.55%Ribo mapping13587531.46%1410382910.06%un-mappable5935989363.89%7359456452.48%Multiple10 random tags71837216.35%1787661069.64%2-10

55、random tags367614283.65%779467930.36%Unique mapintron391023114.77%647456124.81%exon-exon junction6567912.48%4030311.54%exon1574546959.49%769826329.50%others 615331523.25%1151652544.14%Detected genes by two methods Another distributionRibominus RNAseq provides more even coverage along the gene bodyGe

56、nes correlationGene expression normalization Fragment Reads: RPKM: quantified transcript levels in reads per kilobase of exon model per million mapped reads RPKM統(tǒng)計的是每個基因中的read個數(shù)Pair-end Reads: FPKM: quantified transcript levels in fragment reads per kilobase of exon model per million mapped reads (f

57、ragment is a pair of reads for paired end data) FPKM統(tǒng)計的是每個轉(zhuǎn)錄本isoform中的fragment個數(shù)Primary analysis - distribute readslDistribution of random mapping reads according to primary RPKMl re-calculate the RPKM -gene expression valuelDifferential expression - IDEG6 Pathway analysis - GenMapp Mapping browser

58、- UCSC Genome browser Function analysis - GO , KEGG 基因表達譜的分析 專一比對到外顯子的序列數(shù)109 外顯子長度專一比對的所有序列數(shù)基因表達豐度: RPKM=8484 三個時期表達基因的聚類分析基因表達譜的分析8585Annotation for noncoding RNA1. Collection annotation data:Noncoding RNA databaseRNAdbfRNAdbNONCODEFANTOM3RefseqEnsemblAnnotation for noncoding RNA2. Integrate all th

59、e known transcription regions and name regions according to database rank.3. Mapping reads to above-mentioned data4. Cluster the remain reads.Non-coding identification (Brain)Non-coding identification (Hela)Noncoding RNA distribution in the annotation databaseNoncoding regions plots Distribution of

60、non-coding region (Brain)Distribution of non-coding region (Hela)Powerful detection for some transctiptsPowerful detection for some transctiptsPowerful detection for some transctiptsRepeat region expressionIntron expressionJunction expressionExon skip is more prevalence Antisense transcripts (Brain)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論